郭妍彤
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
數(shù)據(jù)時(shí)代的快速發(fā)展給人們的生活帶來了很多便利,可以幫助我們足不出戶的采購、交易甚至是辦理政務(wù)手續(xù),政府及企業(yè)也越來越重視對(duì)數(shù)據(jù)的管理及開發(fā)利用;但是大數(shù)據(jù)巨大的應(yīng)用價(jià)值導(dǎo)致數(shù)據(jù)泄露事件頻出,并且人們帶來了騷擾廣告和詐騙電話等困擾?,F(xiàn)在的個(gè)人數(shù)據(jù)所有權(quán)管理混亂,個(gè)人數(shù)據(jù)所有者不但無法很好的使用個(gè)人數(shù)據(jù)來獲得利益,反而深受數(shù)據(jù)泄露之?dāng)_,導(dǎo)致個(gè)人用戶也缺乏了提供數(shù)據(jù)的積極性,需要數(shù)據(jù)的需求者也很難通過合法合規(guī)的渠道來獲得自己需要的數(shù)據(jù)。為此,麻省理工學(xué)院媒體實(shí)驗(yàn)室Sandy Pentland教授2010年提出個(gè)人數(shù)據(jù)商店(Personal Data Store)理念,鼓勵(lì)人們貢獻(xiàn)和分享數(shù)據(jù)[1],并基于此產(chǎn)生了一種新的數(shù)據(jù)管理理念——個(gè)人數(shù)據(jù)銀行。個(gè)人數(shù)據(jù)銀行是指將個(gè)人數(shù)據(jù)當(dāng)作一種新型的“貨幣”存儲(chǔ)在個(gè)人數(shù)據(jù)銀行中,建立一種大數(shù)據(jù)資產(chǎn)管理運(yùn)營(yíng)系統(tǒng),將個(gè)人用戶授權(quán)后的信息進(jìn)行采集、清理、共享和使用,同時(shí)給個(gè)人用戶一定比例的利息作為回報(bào)。
在構(gòu)建個(gè)人數(shù)據(jù)銀行的過程中,如何合理地對(duì)個(gè)大數(shù)據(jù)進(jìn)行定價(jià)也是一個(gè)需要解決的問題,一個(gè)良好的定價(jià)方式可以對(duì)個(gè)人數(shù)據(jù)銀行的運(yùn)行和數(shù)據(jù)的流通起到促進(jìn)作用。
個(gè)人大數(shù)據(jù)最大的特點(diǎn)在于數(shù)據(jù)提供者的不同及數(shù)據(jù)質(zhì)量的參差。個(gè)人大數(shù)據(jù)的數(shù)據(jù)提供者是許許多多不同的個(gè)人用戶,他們?cè)谑跈?quán)平臺(tái)對(duì)其采集數(shù)據(jù)后,會(huì)源源不斷地制造各種不同種類、不同質(zhì)量的數(shù)據(jù)。這些數(shù)據(jù)并不都有相似的數(shù)據(jù)質(zhì)量,也會(huì)因?yàn)槭跈?quán)等級(jí)而有許多不同的差異,比如相似的個(gè)人運(yùn)動(dòng)中的一條跑步數(shù)據(jù),提供者A允許平臺(tái)收集地理位置信息,那么這就是一條擁有完整跑步期間軌跡信息的跑步數(shù)據(jù),而提供者B不允許收集地理位置信息,那么這就是一條只有時(shí)間、長(zhǎng)度及速度的跑步記錄。雖然都是相似的跑步信息,但是這樣不同的數(shù)據(jù)包含了不同的價(jià)值和信息量,在個(gè)人數(shù)據(jù)銀行中所能獲得的收益也應(yīng)該不盡相同。
將數(shù)據(jù)商品和以前的一般商品相比較而言,其衡量?jī)r(jià)值和價(jià)格的屬性也與一般商品有很大的差別,定價(jià)已經(jīng)不是以前“成本驅(qū)動(dòng)”的定價(jià)時(shí)代了[2]?,F(xiàn)如今數(shù)據(jù)市場(chǎng)越來越大,人們對(duì)數(shù)據(jù)的需求也越來越多,但是數(shù)據(jù)定價(jià)方式還沒有形成統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)。在數(shù)據(jù)定價(jià)中,首先要將視線轉(zhuǎn)移到“價(jià)值驅(qū)動(dòng)”上,正確地衡量數(shù)據(jù)的質(zhì)量和價(jià)值,同時(shí)以此對(duì)數(shù)據(jù)進(jìn)行差異性定價(jià),是最需要解決的問題。其次,在現(xiàn)有的數(shù)據(jù)定價(jià)方法中,大多數(shù)都是以包為數(shù)據(jù)定價(jià)的基本單位,這樣無法區(qū)分每條數(shù)據(jù)的差距,對(duì)于每條元組來說都是一樣的平均價(jià),這對(duì)于個(gè)人數(shù)據(jù)銀行這樣的構(gòu)建前提來說,并不適合。不同的數(shù)據(jù)根據(jù)其信息量不同、價(jià)值不同、重要程度不同等差異,應(yīng)有不同的價(jià)格,如果每條元組的價(jià)格一致,那么無法給個(gè)人用戶提供激勵(lì)以促進(jìn)大家提供更多高質(zhì)量的數(shù)據(jù)。
圖1 個(gè)人數(shù)據(jù)銀行定價(jià)總體設(shè)計(jì)
首先,我們先根據(jù)數(shù)據(jù)的結(jié)構(gòu)不同,將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
在現(xiàn)在的數(shù)據(jù)流通中,格式化數(shù)據(jù)是使用最多的數(shù)據(jù),小到一條外賣訂單、大到一張醫(yī)療診斷單,其實(shí)都是一種結(jié)構(gòu)化的數(shù)據(jù)。為此,我們將根據(jù)國家標(biāo)準(zhǔn)的《信息安全技術(shù)個(gè)人信息安全規(guī)范》中的分類標(biāo)準(zhǔn)對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行劃分,在數(shù)據(jù)經(jīng)過脫敏后劃分成個(gè)人基本資料、網(wǎng)絡(luò)身份標(biāo)識(shí)信息、個(gè)人健康生理信息、個(gè)人教育工作信息、個(gè)人財(cái)產(chǎn)信息、個(gè)人通信信息、聯(lián)系人信息、個(gè)人上網(wǎng)記錄、個(gè)人常用設(shè)備信息、個(gè)人位置信息、其他信息等十二類數(shù)據(jù),并對(duì)每組信息設(shè)定好已有的數(shù)據(jù)結(jié)構(gòu)模式及規(guī)模,進(jìn)行整理及清洗。
而其他無法被輕易收集并處理成結(jié)構(gòu)化數(shù)據(jù)的個(gè)人大數(shù)據(jù),如個(gè)人的制作的視頻集、個(gè)人拍攝的地貌圖等個(gè)人用戶愿意提供的有價(jià)值的數(shù)據(jù),統(tǒng)一分為非結(jié)構(gòu)化數(shù)據(jù)。
針對(duì)不同種類的數(shù)據(jù),應(yīng)該有不同的定價(jià)方式。像是結(jié)構(gòu)化數(shù)據(jù),因?yàn)槠洳煌臄?shù)據(jù)元組是由不同的數(shù)據(jù)提供者所提供,所以在數(shù)據(jù)的定價(jià)中,需要能夠區(qū)分每一條數(shù)據(jù),因?yàn)楦鶕?jù)每一條數(shù)據(jù)的價(jià)值不同該數(shù)據(jù)的數(shù)據(jù)提供者所獲得的收益也是不同的。對(duì)此,Shen[1]提出了以元組為基礎(chǔ)的定價(jià)方式。在這種定價(jià)方式中,數(shù)據(jù)的最小衡量單位是元組,而其具體定價(jià)主要由三個(gè)部分影響,分別是:屬性權(quán)重、數(shù)據(jù)熵和數(shù)據(jù)提供者的信譽(yù)值。
其中影響數(shù)據(jù)的因素為信息熵(q)、權(quán)重(w)及R指數(shù)(r),其對(duì)應(yīng)的權(quán)重分別為α、β、γ,則滿足以下約束:
則每個(gè)元組的價(jià)格P i為:
其中P S為整個(gè)數(shù)據(jù)集分成的價(jià)格。
這種方法中使用了信息熵來衡量數(shù)據(jù)中不同數(shù)據(jù)項(xiàng)的信息量,用權(quán)重來衡量數(shù)據(jù)中不同類型數(shù)據(jù)的價(jià)值含量,用信譽(yù)值來衡量數(shù)據(jù)提供者的信譽(yù)值。
但是在該方法中,并沒有給出權(quán)重設(shè)計(jì)的詳細(xì)方式,所以需要根據(jù)數(shù)據(jù)分類的情況,對(duì)數(shù)據(jù)的權(quán)重進(jìn)行新的劃分。我們可以將數(shù)據(jù)根據(jù)《信息安全技術(shù)個(gè)人信息安全規(guī)范》分類后,再根據(jù)每類數(shù)據(jù)中的詳細(xì)分類對(duì)個(gè)人用戶的重要性來對(duì)數(shù)據(jù)權(quán)重進(jìn)行劃分。
在該方法中,數(shù)據(jù)信譽(yù)度是根據(jù)所有數(shù)據(jù)的數(shù)據(jù)售出的次數(shù)而衡量的,但是在實(shí)際應(yīng)用中,數(shù)據(jù)的售出次數(shù)與數(shù)據(jù)提供者的信譽(yù)度并沒有很大關(guān)聯(lián),如果數(shù)據(jù)提供者剛好提供了售出次數(shù)多的數(shù)據(jù)類型,并不代表這位數(shù)據(jù)提供者的其他信息也是高質(zhì)量的。因此,在本節(jié)設(shè)計(jì)中,將數(shù)據(jù)信譽(yù)度R值進(jìn)行重新定義,如定義1,其中數(shù)據(jù)質(zhì)量為數(shù)據(jù)信息熵和數(shù)據(jù)權(quán)重的加權(quán)和。
定義1如果某個(gè)用戶的數(shù)據(jù)元組至少有r條數(shù)據(jù)質(zhì)量大于r,那么這個(gè)用戶的數(shù)據(jù)引用指數(shù)為R,稱為“R指數(shù)”。
在此基礎(chǔ)上,我們可以將數(shù)據(jù)質(zhì)量M定義為如下公式:
在個(gè)人數(shù)據(jù)銀行中,數(shù)據(jù)需求者可以根據(jù)數(shù)據(jù)質(zhì)量M、信息熵、權(quán)重和r指數(shù)來對(duì)數(shù)據(jù)質(zhì)量進(jìn)行篩選,可以給數(shù)據(jù)需求者更多樣化的選擇。
對(duì)于非結(jié)構(gòu)化的數(shù)據(jù),已經(jīng)有規(guī)模的數(shù)據(jù)可以像結(jié)構(gòu)化數(shù)據(jù)一樣,為其定義幾個(gè)反映其數(shù)據(jù)質(zhì)量的指標(biāo),并根據(jù)數(shù)據(jù)指標(biāo)對(duì)其進(jìn)行數(shù)據(jù)價(jià)值的加權(quán)衡量。但是由于個(gè)人大數(shù)據(jù)的種類繁多,并不是所有的非結(jié)構(gòu)化數(shù)據(jù)都可以很好地用這種方法進(jìn)行,對(duì)此主要有兩種定價(jià)方式:
(1)自由定價(jià)
自由定價(jià)即是根據(jù)數(shù)據(jù)所有者的意愿自己決定數(shù)據(jù)的具體價(jià)格。這種定價(jià)方式主要由數(shù)據(jù)所有者自己決定。這種定價(jià)方式簡(jiǎn)單、快捷,但是定價(jià)方式不透明。
(2)拍賣定價(jià)
拍賣定價(jià)是一種常用的數(shù)據(jù)定價(jià)手段,通常在數(shù)據(jù)提供者對(duì)自己提供的數(shù)據(jù)有自信的情況下會(huì)采用這種方式,因?yàn)橥ǔG闆r下經(jīng)過拍賣的商品一般是相對(duì)來說罕見、稀有的商品。在網(wǎng)上進(jìn)行拍賣,雖然有節(jié)省場(chǎng)地、參與方便、時(shí)長(zhǎng)更自由等優(yōu)點(diǎn),但是也會(huì)因?yàn)槠渚W(wǎng)絡(luò)形式而產(chǎn)生很多問題,例如:在網(wǎng)上競(jìng)拍者更容易產(chǎn)生聯(lián)系從而容易出現(xiàn)共謀的情況、有些競(jìng)拍者會(huì)在拍賣結(jié)束前進(jìn)行搶拍或拍賣結(jié)束后不認(rèn)賬等情況,這都會(huì)對(duì)賣方和其他競(jìng)拍者產(chǎn)生不利的影響。
所以在拍賣中還需要考慮到拍賣流程的安全性和私密性,需要在流程中由個(gè)人數(shù)據(jù)銀行來保證交易的不可否認(rèn)性、抗共謀性、底價(jià)隱藏性和密封遞價(jià)性等特性,以保證參與數(shù)據(jù)各方的利益。
在本文中對(duì)結(jié)構(gòu)化屬性提出了使用基于元組的定價(jià)方法,其中對(duì)屬性進(jìn)行劃分可以根據(jù)不同數(shù)據(jù)屬性的權(quán)重對(duì)不同數(shù)據(jù)種類進(jìn)行定價(jià),比如含有精準(zhǔn)位置的運(yùn)動(dòng)信息肯定會(huì)比普通的運(yùn)動(dòng)信息要更有價(jià)值、使用場(chǎng)所更多;而信息熵可以從數(shù)據(jù)的信息量來衡量數(shù)據(jù)的價(jià)值,數(shù)據(jù)的信息熵越高則數(shù)據(jù)的信息量越高;信譽(yù)度則可以從數(shù)據(jù)的提供者的角度來衡量數(shù)據(jù)價(jià)值,如果數(shù)據(jù)提供者總是提供高質(zhì)量的信息,那么將有機(jī)會(huì)獲得更高的數(shù)據(jù)收益分成,將會(huì)促進(jìn)數(shù)據(jù)提供者為個(gè)人數(shù)據(jù)銀行提供更多更高質(zhì)量的數(shù)據(jù)。
對(duì)于非結(jié)構(gòu)化數(shù)據(jù)本文提出了使用自由定價(jià)和拍賣定價(jià)的方式,自由定價(jià)和拍賣定價(jià)都是一種積累數(shù)據(jù)定價(jià)信息的方式,我們可以根據(jù)這兩種方法來收集非結(jié)構(gòu)化數(shù)據(jù)的歷史價(jià)格和影響價(jià)格的因素,在同類型數(shù)據(jù)收集到一定的規(guī)模后,可以根據(jù)收集到的信息將已有一定規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)獨(dú)立出來,像結(jié)構(gòu)化數(shù)據(jù)一樣根據(jù)影響數(shù)據(jù)質(zhì)量的因素進(jìn)行定價(jià)。
對(duì)于個(gè)人大數(shù)據(jù)中數(shù)據(jù)定價(jià)難的問題,提出將個(gè)人大數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩類,并對(duì)結(jié)構(gòu)化數(shù)據(jù)使用基于元組的定價(jià)方式,對(duì)非結(jié)構(gòu)化數(shù)據(jù)使用基于自由定價(jià)和拍賣定價(jià)的方式。