顧 勤,周 濤
(1.成都大數(shù)據(jù)股份有限公司 成都610095;2.電子科技大學大數(shù)據(jù)研究中心 成都611731)
2020年4月9日,中共中央、國務院印發(fā)《關于構建更加完善的要素市場化配置體制機制的意見》(以下簡稱《意見》),明確了要素市場制度建設的方向及重點改革任務,并就擴大要素市場化配置范圍、促進要素自主有序流動、加快要素價格市場化改革等作出了部署?!兑庖姟肥状螌?shù)據(jù)明確為與土地、勞動力、資本和技術并列的新型生產(chǎn)要素。數(shù)據(jù)作為生產(chǎn)要素參與分配具有突破性的意義,有望快速推動數(shù)據(jù)確權、數(shù)據(jù)交易和數(shù)據(jù)資本化。譬如技術作為生產(chǎn)要素地位的明確,就為技術的有價轉讓以及以知識產(chǎn)權作價作為股本金出資奠定了基礎。如何搭建合規(guī)且高效的數(shù)據(jù)要素流通體系,是《意見》出臺后亟待回答的關鍵問題。
數(shù)據(jù)要素的流通方式主要包括開放、共享和交易。數(shù)據(jù)開放是指向不特定主體開放的非涉密非隱私數(shù)據(jù),一般不收取費用。某些情況下開放是面向受限主體或者有前提條件的,譬如有些科學數(shù)據(jù)的開放需要使用方提前說明使用方式并承諾不用于商業(yè)目的。數(shù)據(jù)共享是指在協(xié)議或約定條件下,數(shù)據(jù)在有限主體間共享,一般也不收取費用。參與共享的主體往往同時也是數(shù)據(jù)的提供方。其他需要支付費用才能獲得數(shù)據(jù)的流通方式,往往都被歸為數(shù)據(jù)交易。數(shù)據(jù)交易的方式很多,包括批量下載(大量數(shù)據(jù)一次性付費下載,如遙感數(shù)據(jù))、權限使用(根據(jù)權限查閱和下載數(shù)據(jù),一般對于線程數(shù)和下載量有限制,如高校購買的電子出版物和經(jīng)濟社會數(shù)據(jù)集等)、API查詢(通過接口查詢,一般返回簡單的是否或數(shù)值,按照查詢次數(shù)付費)、API調(diào)用(通過接口進行下載,一般按照下載量付費)、沙箱服務(在約定的數(shù)據(jù)環(huán)境和數(shù)據(jù)格式下進行運算并獲取結果,不直接得到數(shù)據(jù)本身)等。如果只是簡單和傳統(tǒng)的生產(chǎn)要素做類比,通常會認為交易才是數(shù)據(jù)作為生產(chǎn)要素流通的方式。但實際情況并非如此,開放的數(shù)據(jù)也可以作為重要的生產(chǎn)要素,如疾病致病基因的發(fā)現(xiàn),需要人類表型本體(human phenotype ontology)數(shù)據(jù);又如先導藥物分子的發(fā)現(xiàn),往往要用到大量開放的有機化學方程式庫。共享的數(shù)據(jù)很多也是典型的生產(chǎn)要素,如多家金融機構在一定的協(xié)議約定和隱私保障下,通過數(shù)據(jù)共享可以提高風險識別的準確度,提升反欺詐、反洗錢和普惠金融服務等能力。事實上,不同于一聽可樂或者一件衣服,數(shù)據(jù)很少成為最終的消費品,大部分數(shù)據(jù)的需求方都是將數(shù)據(jù)作為進一步生產(chǎn)的原材料,或通過對數(shù)據(jù)的利用提升決策水平、業(yè)務能力、服務效率等,這正好也是生產(chǎn)要素的特點。
與普通商品交易不同,隨著數(shù)據(jù)需求深度和廣度的增加,數(shù)據(jù)交易的結構可能非常復雜。如采集數(shù)據(jù)需求的平臺可能并不具備部分或者全部的數(shù)據(jù),數(shù)據(jù)的需求可能需要多個分布于不同位置的數(shù)據(jù)源的組合才能滿足,還需要大量中介節(jié)點分解和傳遞數(shù)據(jù)需求、需求響應情況以及數(shù)據(jù)本身。在滿足數(shù)據(jù)需求的過程中,不同數(shù)據(jù)源的數(shù)據(jù)貢獻程度可能差異很大,不同數(shù)據(jù)源還可能針對同一項數(shù)據(jù)需求開展競價。如針對罕見病的研究需要不同國家地區(qū)的多個醫(yī)療機構提供病例數(shù)據(jù),又如對企業(yè)的深入盡調(diào)需要調(diào)取在不同地區(qū)注冊的目標企業(yè)及其投資對象的多維數(shù)據(jù)。為了應對這些復雜的情境,充分發(fā)揮完成一個數(shù)據(jù)請求所涉及的多個異質主體的積極性,亟需設計一套數(shù)據(jù)要素流通的分賬機制,這也是保障數(shù)據(jù)要素有效流通的基礎性問題之一。
本文分析了典型的數(shù)據(jù)請求和響應模式,借鑒了P2P文件共享系統(tǒng)中請求響應的激勵機制[1]和單任務的鏈式衰減激勵機制[2],建立了包括請求端節(jié)點、中介節(jié)點和響應端節(jié)點的激勵網(wǎng)絡模型,設計了幾何衰減的分賬機制。在上述具有普適性的框架下,本文給出了幾種常見情況下如何分賬的具體計算過程,并將該機制推廣到了數(shù)據(jù)請求需要多數(shù)據(jù)源響應且各自貢獻不同的含權情境。文末討論了如何在此框架下包容更復雜的情況,包括如何處理不同數(shù)據(jù)源針對同一數(shù)據(jù)需求進行競價的復雜情況。
一個具備數(shù)據(jù)需求分發(fā)和響應的數(shù)據(jù)要素網(wǎng)絡至少應該包含3類節(jié)點:1)請求端節(jié)點:用于采集需求方的具體需求,一般為功能性的平臺,允許需求方提出數(shù)據(jù)申請,如金融機構希望獲取某申請貸款企業(yè)x所有直接和間接控股的企業(yè)集合O(x),以及x∩O(x)近3年的納稅記錄;2)中介節(jié)點:根據(jù)協(xié)議和/或算法將未滿足的數(shù)據(jù)需求轉發(fā)給一個或多個其他中介節(jié)點或者響應端節(jié)點;3)響應端節(jié)點:數(shù)據(jù)源所在地,根據(jù)數(shù)據(jù)需求提供相應的數(shù)據(jù)。注意,一個節(jié)點可能同時扮演多種角色。如請求端節(jié)點可能也擁有數(shù)據(jù)源,能夠響應數(shù)據(jù)需求;而如果請求端節(jié)點不具備應對需求的完備數(shù)據(jù),則必然也是中介節(jié)點。又如很多中介節(jié)點也是響應端節(jié)點,只是將本地無法滿足的需求分發(fā)出去。
首先考慮最基本的模型,其中請求端節(jié)點收到數(shù)據(jù)需求后,通過若干中介節(jié)點的轉發(fā),最后由一個響應端節(jié)點滿足其需求。在基本模型中,假設所有的數(shù)據(jù)需求一個響應端就可以全部滿足,更一般化即數(shù)據(jù)需求需要多個響應端協(xié)同的情況,將在下一節(jié)討論。因此,數(shù)據(jù)需求被滿足的過程可以用一條“請求?轉發(fā)?響應”鏈條來描述,其中需求信息從請求端到響應端所需轉發(fā)的次數(shù)被稱為該鏈條的長度。記一次成功的需求響應所有節(jié)點總的貢獻為1,每個節(jié)點分賬的比例與其貢獻的比例一致。如果請求端本身就有所需要的數(shù)據(jù),自身就可以響應,則不需要任何中介節(jié)點,鏈條長度為0,請求端節(jié)點完成了所有的貢獻1。一般情況下,鏈條的長度大于0。譬如未來公共數(shù)據(jù)的流通體系很可能是層次架構的,某城市a的企業(yè)在辦理業(yè)務時需要調(diào)用與城市b有關的數(shù)據(jù),需求可能在城市a的平臺提出,被轉發(fā)至城市a所屬的省級行政區(qū)節(jié)點A,如果A沒有相關的數(shù)據(jù),可能要繼續(xù)轉發(fā)到國家中心節(jié)點C,C根據(jù)尋址的規(guī)則找到b所在省級行政區(qū)節(jié)點B,然后再轉至城市b的數(shù)據(jù)中心,實現(xiàn)成功響應并原路回傳數(shù)據(jù)。這樣就形成了一個長度為4的鏈條“a-A-C-B-b”。圖1給出了一個按上述層次結構組織形成的長度為4的“請求?轉發(fā)?響應”鏈條示意圖。注意,即便不是按照層次結構進行組織,基本模型也是完全適用的。本文給出3種普適性很強的簡單模型。
圖1 一個層次組織的長度為4的“請求-轉發(fā)-響應”鏈條示意圖以及在3種基本模型下5個節(jié)點貢獻的比例
1)幾何衰減模型。該模型認為響應端節(jié)點的貢獻最為顯著,其次是將需求轉發(fā)給響應端節(jié)點的中介節(jié)點,再次是將需求轉發(fā)給該中介節(jié)點的中介節(jié)點,以此類推。按與響應端節(jié)點距離由近到遠,貢獻按照幾何級數(shù)衰減,而請求端節(jié)點僅僅被看作一個普通的中介節(jié)點。記“請求?轉發(fā)?響應”鏈條長度為L,衰減指數(shù)為q( 0 2)激勵動員模型。該模型最早是Pentland領銜的MIT團隊在2009年DARPA舉辦的尋找美國大陸10個紅色氣象氣球位置的社會動員大賽中使用的策略模型。利用該策略,MIT團隊以顯著優(yōu)勢獲得了冠軍[2]。激勵動員模型是一個非參模型,在該模型中,響應端節(jié)點的貢獻為1/2,將需求轉發(fā)給響應端節(jié)點的中介節(jié)點的貢獻為1/4,將需求轉發(fā)給該中介節(jié)點的中介節(jié)點的貢獻為1/8,依此類推。如果“請求?轉發(fā)?響應”鏈條的長度為L,則距離響應端節(jié)點為d( 0≤d 3)固定收益模型。上面兩個模型雖然略有差異,但請求端節(jié)點分配的貢獻比例都是最少的或最少的之一。然而,在互聯(lián)網(wǎng)時代,流量的獲得往往起關鍵性的作用。固定收益模型認為請求端節(jié)點作為流量入口,不能僅僅被看作一個中介節(jié)點,而應該享有一個固定比例的貢獻值。在該模型中,其他節(jié)點的貢獻值分配依然按照幾何衰減模型,而請求端節(jié)點的貢獻固定為r(0 圖1給出了L=4,q=0.5,r=0.25的一個計算示例。 以上給出的是比較簡潔,具有相當適用性的若干模型,讀者在具體應用場景中還可以根據(jù)特殊需求設計更復雜的基本模型。 基本模型解決的是在一條“請求?轉發(fā)?響應”鏈條上,貢獻值如何分配的問題。一般情況下,一次數(shù)據(jù)請求可能需要多個節(jié)點提供數(shù)據(jù),且所提供的數(shù)據(jù)的價值不同。因此,對一次數(shù)據(jù)請求的響應過程可能形成多條權重不同的“請求?轉發(fā)?響應”鏈條,這些鏈條兩兩之間可以有一個或多個除請求端節(jié)點之外的重復節(jié)點。這就要求請求端節(jié)點具備將任意在其服務范圍內(nèi)合法的數(shù)據(jù)請求分解成最小粒度的若干數(shù)據(jù)項需求并為每項需求賦予明確權重的能力。在此基礎上,每個響應端節(jié)點根據(jù)其所滿足數(shù)據(jù)需求的權重,把對應比例的貢獻值在相應的“請求?轉發(fā)?響應”鏈條上進行分配。分配的機制就是上一節(jié)所介紹的基本模型。一個節(jié)點的貢獻值就是所有涉及它的鏈條上其貢獻值的加和。 圖2給出了一個典型的示例,其中請求端節(jié)點將收到的數(shù)據(jù)請求拆分成10個最小粒度的需求項。假設這10個數(shù)據(jù)需求的權重相同,在轉發(fā)過程中,節(jié)點d滿足了其中2份需求,但是還不能完成所有需求,于是又繼續(xù)轉發(fā)給節(jié)點e。節(jié)點e滿足了其中5份需求。還有3份需求是節(jié)點g完成的。于是,共有3條“請求?轉發(fā)?響應”鏈條參與了對該數(shù)據(jù)需求的響應,分別是“a-b-c-d”、“a-b-c-d-e”和“a-f-g”,其對應的權重分別是0.2、0.5和0.3。按此權重,若采用激勵動員模型,則如圖2所示,7個節(jié)點的貢獻值分別為C(a)=0.13125、C(b)=0.05625、C(c)=0.1125、C(d)=0.225、C(e)=0.25、C(f)=0.075和C(g)=0.15。 圖2 一個數(shù)據(jù)請求需要多個響應端節(jié)點協(xié)同完成的示意圖, 顯然,采用不同的基本模型,上述按鏈條進行貢獻值分配并根據(jù)權重加和的框架也是適用的。 針對數(shù)據(jù)要素流通過程中如何分賬的問題,本文提出了一個簡單的框架,其核心組件包括:1)流通網(wǎng)絡由請求端節(jié)點、中介節(jié)點和響應端節(jié)點組成;2)響應端節(jié)點貢獻大于中介節(jié)點,且貢獻值按照幾何級數(shù)衰減;3)一次數(shù)據(jù)請求可以由多個響應端節(jié)點滿足,并根據(jù)不同權重進行貢獻值的分配。盡管具體模型還可以根據(jù)不同場景的需求進行變化,但以上基本思想是具有普遍適用性的,應該能在數(shù)據(jù)要素流通體系建設中發(fā)揮重要的參考價值。 本文一個隱含的假設是中介節(jié)點知道如何找到響應端節(jié)點,或者說知道如何為一個數(shù)據(jù)需求在流通網(wǎng)絡上尋址。對于一些簡單的情況,例如一個城市A的數(shù)據(jù)中心就掌握該城市的所有可流通稅務數(shù)據(jù),不同數(shù)據(jù)中心按照行政所屬關系形成連接,這種情況下尋址的邏輯就非常簡單。然而,實際情況下數(shù)據(jù)的需求復雜多樣,數(shù)據(jù)的供給方信息并不完備,此時如何給出數(shù)據(jù)線索,如何尋址,在哪些情況下要采用廣播方式等等,都是值得進一步研究的問題。其中,一種更復雜的情況,就是同一個數(shù)據(jù)需求的細項,有不止一個數(shù)據(jù)源可以響應。每個得到通知的數(shù)據(jù)源原則上都可以通過網(wǎng)絡競價。這種情況下,如何設計競價拍賣的機制以及在該機制下如何確定競標價格,也是值得深究的問題。特別地,如果一個節(jié)點本身可以滿足數(shù)據(jù)需求,它是否還要轉發(fā)這個需求,就成了有趣的兩難選擇。一方面它的轉發(fā)會帶來新的競爭對手,造成競價成功的可能性降低或利潤空間降低;另一方面它既無法保證競價成功,又可以寄望通過它的后繼節(jié)點或后繼的后繼等競價成功而獲得相應分成。最近我們設計了一套機制,可以在社會化拍賣的過程中讓轉發(fā)拍賣信息并按照真實意愿出價恰好是納什均衡,從而提升拍賣的效率和系統(tǒng)整體收益[3]。這些都可能為更好實現(xiàn)數(shù)據(jù)要素的流通賦能! 致謝:成都大數(shù)據(jù)產(chǎn)業(yè)技術研究院蘭宇、清華大學廖敬儀和成都大數(shù)據(jù)股份有限公司徐忠波亦對本文有貢獻,特此感謝。2 一般模型
3 結束語