摘要: 大數(shù)據(jù)是社會從網(wǎng)絡(luò)化演進到智能化的技術(shù)基礎(chǔ),更是未來數(shù)據(jù)經(jīng)濟的基礎(chǔ)資產(chǎn)和貨幣。認(rèn)為目前大數(shù)據(jù)的創(chuàng)新主要局限在技術(shù)棧和組織內(nèi)部,數(shù)據(jù)的可獲得性、處理和分析技術(shù)的缺乏以及封閉系統(tǒng)的數(shù)據(jù)思維成為制約創(chuàng)新的因素。提出大數(shù)據(jù)開放式創(chuàng)新的要素:通過開放數(shù)據(jù)及基于數(shù)據(jù)安全流通和定價的數(shù)據(jù)市場解決數(shù)據(jù)供給,開放基礎(chǔ)設(shè)施及社會化分析服務(wù)實現(xiàn)技術(shù)共享,最后通過跨領(lǐng)域的開放數(shù)據(jù)思維獲得數(shù)據(jù)創(chuàng)意。認(rèn)為開放式創(chuàng)新重構(gòu)了數(shù)據(jù)生態(tài),將改變大數(shù)據(jù)的競爭格局。
關(guān)鍵詞:大數(shù)據(jù);開放創(chuàng)新;匿名化;數(shù)據(jù)定價
Abstract:Big data is the technical foundation of an evolving society, from the networking to intelligent age, and plays the role of critical assets and currencies of future data economy. However, today big data innovation is limited to technical stacks and within the organizations, and suffers from unavailability of data, lack of processing and analytics technologies, and closed-world thinking. This paper discusses key factors of open innovation for big data: unleash the data supply via open data and data marketplaces with secure exchange and pricing, democratize the technologies through open data infrastructure and socialized analytics services, and finally harvest innovative data ideas by “crossover” thinking. Open innovation restructures the data ecosystem and will reshape the competitive landscape of big data.
Key words:big data; open innovation; anonymization; data valuation
大數(shù)據(jù)創(chuàng)新的最高境界是用構(gòu)建數(shù)據(jù)生態(tài)來改變競爭格局——數(shù)據(jù)源解決數(shù)據(jù)供給,數(shù)據(jù)創(chuàng)意者從數(shù)據(jù)中創(chuàng)造價值,而這又有賴于大數(shù)據(jù)處理和分析技術(shù)。在開放式創(chuàng)新的體系中,5種元素扮演3種角色。
·數(shù)據(jù)源:開放數(shù)據(jù),基于數(shù)據(jù)安全流通和定價的數(shù)據(jù)市場;
·大數(shù)據(jù)分析和處理技術(shù):開放的基礎(chǔ)設(shè)施,以及開放的社會化分析服務(wù);
·數(shù)據(jù)創(chuàng)業(yè)者/應(yīng)用服務(wù):跨越領(lǐng)域界限的開放數(shù)據(jù)思維。
它們五行相生,互相作用,形成價值的涌現(xiàn)。
1 開放數(shù)據(jù)的發(fā)展及問題
數(shù)據(jù)開放的主體首先是政府和科研機構(gòu),即把非涉密的政府?dāng)?shù)據(jù),以及納稅人支持的一些科研數(shù)據(jù)開放出來。越來越多國家推出了統(tǒng)一的政府開放數(shù)據(jù)門戶。中國在2015年也推出了《促進大數(shù)據(jù)發(fā)展行動綱要》,將開放數(shù)據(jù)作為工作重點。在開放數(shù)據(jù)運動的風(fēng)起云涌之下,現(xiàn)在更多的企業(yè)也開始開放數(shù)據(jù),實現(xiàn)數(shù)據(jù)的價值化,并建構(gòu)生態(tài)系統(tǒng)和護城河。
萬維網(wǎng)之父Tim Berners Lee提出了數(shù)據(jù)開放的五星標(biāo)準(zhǔn)[1],以保證數(shù)據(jù)質(zhì)量:一星是開放授權(quán)的格式,比如說PDF;二星是結(jié)構(gòu)化,把數(shù)據(jù)從文件變成了像Excel這樣的表;三星是開放格式,如CSV;四星是能夠通過統(tǒng)一資源標(biāo)識符(URI)定位每一個數(shù)據(jù)項;五星是能夠跟其他數(shù)據(jù)鏈接,形成一個開放的數(shù)據(jù)圖譜。
數(shù)據(jù)開放與開源軟件也形成了共振。主流的數(shù)據(jù)開放門戶,像data.dov,都基于開源軟件。Data.gov用WordPress做數(shù)據(jù)內(nèi)容呈現(xiàn),用CKAN做數(shù)據(jù)目錄,甚至data.gov的整個架構(gòu)也在GitHub開源了。英特爾在麻省理工學(xué)院的大數(shù)據(jù)科研中心研發(fā)了開源的DataHub系統(tǒng),支持對開放數(shù)據(jù)的多人協(xié)作分析,具有數(shù)據(jù)版本管理和多編程語言交互的能力。
數(shù)據(jù)開放中會碰到很多問題。
(1)數(shù)據(jù)權(quán)屬的問題。數(shù)據(jù)屬于誰?屬于采集人?還是屬于生產(chǎn)人?抑或是屬于被觀察的客體?在特定情況下,擁有權(quán)如何分割(比如離婚)或者轉(zhuǎn)移(比如繼承)?
(2)敏感數(shù)據(jù)的界定。比如位置信息數(shù)據(jù)在歐洲屬于敏感數(shù)據(jù),而在日本不屬于敏感數(shù)據(jù)。另外各個不同行業(yè)有進一步規(guī)定,比如美國的《健康保險便利和責(zé)任法案》對個人健康信息的隱私性、機密性和完整性做了規(guī)定;而在征信領(lǐng)域則有《公平信用報告法》對個人信用方面的信息做了規(guī)定。敏感數(shù)據(jù)需要法律和行業(yè)法規(guī)的界定。
(3)敏感數(shù)據(jù)的脫敏。如果開放數(shù)據(jù)中具有敏感數(shù)據(jù),就要做數(shù)據(jù)的脫敏。脫敏最簡單的做法是去標(biāo)識,但是去標(biāo)識未必能夠徹底脫敏。美國研究顯示:即使把姓名、地址等標(biāo)識信息拿掉,只要有郵政編碼、性別、生日等3項信息,就有60%~90%的可能性鎖定個人。即使去標(biāo)識很徹底,仍有“阿喀琉斯之踵(致命弱點)”。一種攻擊的方法是通過多數(shù)據(jù)源的比對來縮小搜索范圍,重新標(biāo)識;另一種方法是基于統(tǒng)計的攻擊,比如根據(jù)兩個打分再加上一定的時間范圍約束,還是有接近70%的可能性鎖定個人。
(4)防止隱私攻擊的匿名化技術(shù)。比較典型的如k-anonymity和L-diversity等,但在敏感屬性不夠多樣化,或攻擊者具有背景知識時,這兩種技術(shù)仍不夠魯棒。目前最好的一種技術(shù)叫差分隱私,即把噪聲加入到數(shù)據(jù)集中,但仍保持它的一些統(tǒng)計屬性,支持特定的機器學(xué)習(xí)算法。
這些困難和挑戰(zhàn)都不能阻擋開放數(shù)據(jù)運動的深入人心。在數(shù)據(jù)(尤其是商業(yè)數(shù)據(jù))仍然無法充分流通的今天,開放數(shù)據(jù)無疑能夠讓具有數(shù)據(jù)思維和分析能力的創(chuàng)意者點石成金,把死的、消耗成本的數(shù)據(jù)變活、創(chuàng)造利潤。
2 基于數(shù)據(jù)安全流通和定價
的數(shù)據(jù)市場
數(shù)據(jù)之于數(shù)據(jù)社會,就如同水之于城市或血液之于身體——城市因河流而誕生,也受其滋養(yǎng);血液一旦流動停滯,身體就有危險。所以,在數(shù)據(jù)化生存的今天,一定要讓數(shù)據(jù)流動起來。數(shù)據(jù)開放更多適用于政府公共數(shù)據(jù)和納稅人資助的科研數(shù)據(jù),而更多涉及私人隱私或企業(yè)機密的數(shù)據(jù)無法通過簡單的開放獲得。如果把數(shù)據(jù)看作一座冰山,公開的只是露出海面的一點點,絕大多數(shù)藏在暗黑的海面以下。
數(shù)據(jù)擁有者不愿意把數(shù)據(jù)拿出來,有兩個原因:擔(dān)心數(shù)據(jù)被偷竊;對自己并無好處。所以,解決時該問題時需要把握兩點:保障數(shù)據(jù)的安全流通;對數(shù)據(jù)的使用進行定價,而實現(xiàn)這兩個關(guān)鍵的載體是數(shù)據(jù)市場。
數(shù)據(jù)市場并非是新概念。早年的綜合數(shù)據(jù)市場多進行原始數(shù)據(jù)集的下載交易,由于數(shù)據(jù)容易復(fù)制,版權(quán)保護困難,這種形態(tài)逐漸被幾種新的形態(tài)取代:
(1) 為特定用戶定向采集或加工數(shù)據(jù),如某公司從事人臉分析技術(shù),委托第3方采集各類、各種姿態(tài)和光照條件的人臉數(shù)據(jù),或某公司具有大型數(shù)據(jù)集,需要特定的服務(wù)來做標(biāo)注。
(2)專業(yè)領(lǐng)域的數(shù)據(jù)服務(wù),如交通領(lǐng)域的Inrix或金融領(lǐng)域美國三大征信公司。
(3)不給出整個數(shù)據(jù)集,只能基于查詢或應(yīng)用程序接口(API)提供數(shù)據(jù)的受控訪問,中國出現(xiàn)的數(shù)據(jù)交易市場多為此類型。
(4)不給出原始數(shù)據(jù),只交易加工信息,這是之前大數(shù)據(jù)時代的主流,有些公司(如彭博社)甚至提供專門的終端保證信息服務(wù)。
隨著數(shù)據(jù)生態(tài)的完善,數(shù)據(jù)市場的形態(tài)將更為豐富。首先,上述形態(tài)多為數(shù)據(jù)提供者與數(shù)據(jù)請求者的簡單交易關(guān)系,而未來市場的參與者可能同時是提供者與請求者。其次,交易將不僅是簡單的“給”和“得”,而是融合、使用從而產(chǎn)生新的衍生價值。因此,數(shù)據(jù)的定價不是那些比特的固有價值,而是在這一次“使用”中產(chǎn)生的當(dāng)前價值。數(shù)據(jù)市場應(yīng)該是使用和買賣一站式服務(wù),并且是先使用再買賣。
Steven Johnson的TED演講 《偉大創(chuàng)意的誕生》是從咖啡館說起,它創(chuàng)造了一個安全的空間,讓不同的人做思想碰撞,創(chuàng)造新的想法。數(shù)據(jù)何嘗不需要這樣一個咖啡館,讓各方的數(shù)據(jù)能夠產(chǎn)生“化學(xué)作用”?!皵?shù)據(jù)咖啡館”項目[2]基于多方安全計算,試圖解決3個問題:安全可控的開放;數(shù)據(jù)市場和云計算的一體化;數(shù)據(jù)定價的問題。
然而,絕大多數(shù)數(shù)據(jù)的價值是不確定的,這正是數(shù)據(jù)的外部性。這種屬性決定了數(shù)據(jù)與石油本質(zhì)上的區(qū)別:石油的價值在燃燒的一瞬間實現(xiàn)并消失了,但數(shù)據(jù)能夠反復(fù)使用,產(chǎn)生不可預(yù)期的新價值?;贛oody的信息估值七律,可以衍生出數(shù)據(jù)估值七律:
(1)數(shù)據(jù)可以被無限次共享,可以產(chǎn)生更大的總體價值,但多次復(fù)制會使所有權(quán)復(fù)雜化,增加成本;
(2)數(shù)據(jù)用得越多,價值越大;
(3)數(shù)據(jù)價值會隨時間衰變;
(4)數(shù)據(jù)越精確,價值越大;
(5)多個獨立數(shù)據(jù)源的融合為1+1>2;
(6)更多的數(shù)據(jù)不見得能帶來更多的價值;
(7)數(shù)據(jù)不會損耗,反而會越用越多。
這些基本原則對數(shù)據(jù)的定價具有指導(dǎo)意義——數(shù)據(jù)的使用頻度、新鮮度、質(zhì)量、外部性等都是重要變量。Glue Reply公司據(jù)此提出了基于使用的估值模型。
另一方面,Gartner分析師Doug Laney——大數(shù)據(jù)3V的提出者,把信息和數(shù)據(jù)的估值模型分成非金融模型和金融模型。
我們期待未來的數(shù)據(jù)市場有靈活的數(shù)據(jù)定價模型,該模型既考慮數(shù)據(jù)的使用歷史和時間嬗變所形成的基礎(chǔ)價值,又能計量當(dāng)前的這次租用中可量化的價值,計算出這次交易的數(shù)據(jù)定價。同時,如果這次使用有多方數(shù)據(jù)參與,根據(jù)各方在計算中貢獻(xiàn)的大小,對其數(shù)據(jù)分別進行定價。
數(shù)據(jù)的安全流通和定價將鼓勵數(shù)據(jù)擁有者將其數(shù)據(jù)參與流通,對其數(shù)據(jù)價值化、貨幣化和資產(chǎn)化,從而形成“收集-使用-價值化-更多收集-更多使用”的正向反饋,為開放式創(chuàng)新提供更廣泛的原材料供給。
3 開放的基礎(chǔ)設(shè)施
筆者的同事Eric Dishman罹患腎癌23年,嘗試了各種治療方案,甚至換腎,一直沒有進展,直到他選擇了基于基因分析的精準(zhǔn)治療。整個測序和鎖定致病基因片段的過程花了3個月;接著,數(shù)TB的基因數(shù)據(jù)被拷到硬盤里,在美國東西岸傳來遞去,顛簸了4個月以后方才形成了治療方案。雖然他現(xiàn)在已經(jīng)恢復(fù)健康,但7個月的等待對于任何一個病人來說都是煎熬。
原因很簡單,對于專業(yè)的醫(yī)療健康和生命科學(xué)機構(gòu)來說,計算和存儲的基礎(chǔ)設(shè)施并不是他們所擅長。要知道,就連大數(shù)據(jù)領(lǐng)域內(nèi)部也是隔行如隔山,做數(shù)據(jù)分析的人很難理解分布式的存儲和處理系統(tǒng)。事實上系統(tǒng)部署的困難已經(jīng)成為目前攔在大數(shù)據(jù)產(chǎn)業(yè)前面的一座大山。
要致富,先修路(基礎(chǔ)設(shè)施)。在現(xiàn)實生活中的這個樸素道理也適用于大數(shù)據(jù)?;谠朴嬎愕墓不A(chǔ)設(shè)施,特別是大數(shù)據(jù)系統(tǒng)作為平臺服務(wù),是搬走這座大山的希望所在。在其他的一些國家,很多以數(shù)據(jù)思維見長的小型創(chuàng)新企業(yè)已經(jīng)開始受益于這一趨勢。
Decide.com是筆者一直關(guān)注的一家創(chuàng)業(yè)公司(后被Ebay收購)。它每天吸入幾十萬條商品價格數(shù)據(jù)以及相關(guān)的新聞(這也是開放數(shù)據(jù)),分析后告訴顧客買什么牌子、型號以及預(yù)測何時買最劃算。在其神奇的背后,只有4個博士精心調(diào)制算法,他們不用擔(dān)心基礎(chǔ)設(shè)施的問題,因為亞馬遜已經(jīng)把計算和存儲能力作為基礎(chǔ)設(shè)施開放出來了。
Prismatic是另一家創(chuàng)造神奇的公司,它能讀懂用戶關(guān)心什么,發(fā)掘用戶新的興趣,實時地、個性化地推薦閱讀。這家公司在很長一段時間內(nèi)只有4個員工,3個是學(xué)生,然而估值已經(jīng)達(dá)到好幾億美金。之所以能夠把神奇的數(shù)據(jù)思維變成現(xiàn)實,同樣要感謝亞馬遜的云計算把臟活累活都干了。
把大數(shù)據(jù)系統(tǒng)裝在云上是第1代大數(shù)據(jù)奮斗者的夢想。早在2007年,Hadoop解決方案的領(lǐng)導(dǎo)者Cloudera成立伊始,就已經(jīng)在憧憬這一愿景(從Cloudera這個名字可以看出)。然而,這條道路并不順利。
首先,把Hadoop這樣的重型系統(tǒng)跑在虛擬機里是很大的挑戰(zhàn),大數(shù)據(jù)這樣的輸入輸出(IO)密集型應(yīng)用與虛擬化技術(shù)有點“水土不服”,性能下降嚴(yán)重。經(jīng)過業(yè)界和社區(qū)多年的努力,這如今已經(jīng)不是問題。而像Spark這樣的新貴是生在云里,長在云里,與云相得益彰。
其次,對于大數(shù)據(jù)的早期用戶來說,把數(shù)據(jù)放在云里是有疑慮的,一來大數(shù)據(jù)的搬動太過困難;二來數(shù)據(jù)安全沒有保障。這些年來,云計算的積累效應(yīng)悄然間改變了數(shù)據(jù)生態(tài),越來越多的數(shù)據(jù)一生下來就在云里。而對于初嘗云滋味的客戶,亞馬遜甚至專門設(shè)計了容量達(dá)50 TB的、可托運小型存儲設(shè)備幫助他們把數(shù)據(jù)搬到云里。Spark的商業(yè)化推動者Databricks也順勢與亞馬遜結(jié)盟,在其AWS云服務(wù)上部署Databricks云,可以利用大量已經(jīng)存在于亞馬遜云的數(shù)據(jù),這真是一個妙招。
而數(shù)據(jù)安全的保障有賴法律法規(guī)、行業(yè)自律和技術(shù)推動三箭齊發(fā)。目前關(guān)于大數(shù)據(jù)權(quán)利的立法已在醞釀之中,行業(yè)規(guī)范更是走在前列(如第1節(jié)所述)。在行業(yè)自律上,我們看到了阿里云發(fā)起的《數(shù)據(jù)保護倡議》。然而,沒有技術(shù)推動,法律法規(guī)和行業(yè)自律會制約大數(shù)據(jù)的云部署。本小節(jié)開始講的基因數(shù)據(jù)在磁盤里周游世界的故事,還是會一再重演,因為美國的《美國健康保險便利和責(zé)任法案》對數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸施加了很多限制。
Eric Dishman的癌癥經(jīng)歷引起了計算機科學(xué)家的深思。男性有一半的幾率罹患癌癥,女性的幾率也達(dá)到1/3。相比之下,過去50年癌癥的治愈率只提升了8%,在各種疑難重癥中進步最小。究其原因,癌癥作為一種長尾病癥,需要足夠多的數(shù)據(jù)樣本才能有所突破,而《美國健康保險便利和責(zé)任法案》等法規(guī)對于數(shù)據(jù)共享的限制使得各大科研機構(gòu)只能各自為戰(zhàn),相對較少的數(shù)據(jù)樣本制約了生命科學(xué)技術(shù)的發(fā)展。
想象一下,如果第2節(jié)中所談的多方安全計算技術(shù)能夠使數(shù)據(jù)在法規(guī)允許的范圍內(nèi)共享和互通,癌癥研究將大不一樣。鑒于此,英特爾和俄勒岡健康科學(xué)大學(xué)等科研機構(gòu)開始陸續(xù)推動基于安全多方計算的協(xié)作癌癥云。
我們預(yù)計:隨著云觀念越來越深入人心,大數(shù)據(jù)和高性能計算在云中的部署將呈現(xiàn)加速之勢。這時候,云作為一種開放基礎(chǔ)設(shè)施的優(yōu)勢將得到充分展現(xiàn)。
還是回到Eric Dishman的案例。歷時7個月的診斷過程固然有數(shù)據(jù)磁盤在路上的延誤,另一個重要原因是計算基礎(chǔ)設(shè)施的缺乏。在生命科學(xué)領(lǐng)域中(尤其是生命信息學(xué)),非常罕見地呈現(xiàn)了高性能計算和大數(shù)據(jù)分析齊頭并進的態(tài)勢,尋常的科研院所無法維護完美支持兩種運算的基礎(chǔ)設(shè)施。
可以想見:未來的幾年中融合高性能計算和大數(shù)據(jù)分析能力的云基礎(chǔ)設(shè)施將變得普及。我們有一個雄心勃勃的愿景:到2020年,像Eric Dishman這樣的患者,一天之內(nèi)就能完成全基因組測序,鎖定致病基因,且形成個性化用藥和修復(fù)方案。相比起他7個月的經(jīng)歷來說,計算能力與時俱進的開放基礎(chǔ)設(shè)施能縮短數(shù)百倍的等待時間。另一個非常熱門的領(lǐng)域——腦科學(xué)研究如今也面臨計算力有不逮的局面,一次功能性核磁共振對大腦的完整數(shù)據(jù)采集將獲得500~600 GB左右的數(shù)據(jù),而對其進行完整的分析耗時6 h。我們期待2020年這個工作將在1 s內(nèi)完成,也就是說,能夠?qū)δX部活躍成像做一些實時的分析,這對腦科學(xué)和類腦計算的研究來說將打開一扇前所未有的大門。
4 開放的社會化分析服務(wù)
《哈佛商業(yè)評論》說數(shù)據(jù)科學(xué)家是21世紀(jì)最性感的職業(yè)。而麥肯錫認(rèn)為:2018年前美國這類人才的缺口達(dá)到數(shù)十萬,特別是能夠做深度分析的分析師有50%~60%的缺口。也難怪,一個合格的數(shù)據(jù)科學(xué)家必須精通數(shù)理統(tǒng)計和計算機科學(xué),對數(shù)據(jù)敏感,對業(yè)務(wù)理解?,F(xiàn)有的計算機科學(xué)或數(shù)學(xué)的教育體系,無法批量生產(chǎn)這樣的人才。我們看到基于慕課(MOOC)的數(shù)據(jù)科學(xué)課程獲得了數(shù)百萬學(xué)生的參與,很多大學(xué)開始推出在線數(shù)據(jù)科學(xué)課程和學(xué)位,相信基于互聯(lián)網(wǎng)的新型教育體系將在人才供給中扮演更重要的角色。但是,短期內(nèi)人才饑渴是非?,F(xiàn)實的問題,這對于矢志立于大數(shù)據(jù)潮流之巔的企業(yè)來說,不免英雄氣短。
與此同時,一股轟轟烈烈的資源革命在互聯(lián)網(wǎng)卷過,共享經(jīng)濟充分利用互聯(lián)網(wǎng)將閑散資源與需求對接,解決了供需失衡的問題。設(shè)想數(shù)據(jù)科學(xué)家的技能和時間也是一種資源(克萊·舍基將其稱作“認(rèn)知盈余”),應(yīng)該也能夠在這一框架下提高使用效率。這就是所謂的開放的社會化分析服務(wù)。
這種服務(wù)對我們的社會來說并不陌生。某種意義上,這是一種古老智慧“懸賞”和現(xiàn)代“眾包”思維的合體。1714年,英國議會懸賞20 000英鎊的“經(jīng)度”大獎促使一個鐘表匠發(fā)明了航海天文鐘,完全改變了航海史和征服史。18世紀(jì),拿破侖懸賞12 000法郎征集儲存食物的方法,促使一個商人之子發(fā)明了罐頭。近現(xiàn)代史上這樣的懸賞還有很多,比如跨大西洋飛行、月球車、宇航員手套等。另一方面,眾包完全改變了當(dāng)代知識的生成和解決問題的方式,比如維基百科。
那么,開放的社會化分析服務(wù)該如何工作呢?下面我講幾個故事。
Netflix在2006—2009年之間向大眾發(fā)起數(shù)據(jù)分析挑戰(zhàn)賽,希望能夠通過預(yù)測用戶星級評分來提升推薦引擎的效率,目標(biāo)是提升10%,為此設(shè)了百萬美金大獎,吸引了全世界180多個國家4萬多支團隊來參加。非??上У氖荖etflix沒有采用第1名的算法。那這個比賽是否沒有價值呢?不然,大數(shù)據(jù)生態(tài)系統(tǒng)中最受關(guān)注的Spark平臺正是因為這個比賽形成了靈感和最早的原型。大賽的價值往往不在賽場里。
第2個故事關(guān)于休利特基金會。它征集一個對學(xué)生的短論文進行自動化評分的算法,因此設(shè)立了10萬美元獎金的Automated Student Assessment Prize。第1輪大賽先向十多家專業(yè)的教育科研機構(gòu)開放,而第2輪則是在Kaggle平臺上向社會開放。Kaggle坐擁數(shù)十萬具有專業(yè)知識和自由時間的分析師,而具有數(shù)據(jù)分析需求的企業(yè)只要把數(shù)據(jù)和挑戰(zhàn)賽規(guī)則放到網(wǎng)上,分析師們就可以八仙過海、各顯神通、一較高低。結(jié)果出人意料,這些業(yè)余愛好者搞出來的算法,遠(yuǎn)勝于專業(yè)機構(gòu)的算法。更讓人大跌眼鏡的是前3名獲得者分別是美國一位機械工程專業(yè)的本科生,斯洛文尼亞一位計算機系的博士生,和新加坡一位39歲的保險精算師。第1、3名獲獎?wù)邉倓倧腃oursera慕課平臺上學(xué)完了斯坦福機器學(xué)習(xí)的課程,剛剛學(xué)完去參賽,就摘得桂冠,這是非常顛覆的。Netflix大賽的獲獎團隊都是高大上的科研人員,包括兩個AT&T的研究主管,而這次竟然讓幾個初通機器學(xué)習(xí)門徑的學(xué)生拿到了大獎。競賽改變了學(xué)生的命運,第1名轉(zhuǎn)向了數(shù)據(jù)科學(xué)專業(yè),而斯洛文尼亞和新加坡的兩位優(yōu)勝者在美國找到了職業(yè)發(fā)展的巨大空間。
第3個故事是關(guān)于一家很小的初創(chuàng)公司Jetpac,它在IPAD上做一個關(guān)于旅游的應(yīng)用。這個公司非常小,做技術(shù)的兩個人,一個CTO,另一個是程序員,他們希望有一個自動化的算法在很多照片中篩選出最好的照片。但兩個人學(xué)識有限,于是他們在Kaggle平臺上搞了一個比賽,因為資金有限,就出了5 000美金,沒想到還是吸引到了400多支團隊參賽,最終他們確實選到了一個合適的算法,讓這個應(yīng)用脫胎換骨。Jetpac馬上就拿到了240萬美金的風(fēng)險投資,他們的精明之處在于:利用社會的資源為其貢獻(xiàn)才智,換來資本的青睞。
對于當(dāng)前的“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”,數(shù)據(jù)科學(xué)的專業(yè)性門檻必然導(dǎo)致洛陽紙貴;而這樣的思想眾包平臺將解決數(shù)據(jù)智慧的短缺,提升眾創(chuàng)的成功率。
大家試想,Kaggle這個平臺,也就數(shù)十萬注冊用戶,咱們中國畢業(yè)生每年都是千萬,學(xué)科學(xué)工程專業(yè)的也有好幾百萬,在中國可資利用的社會化分析力量一定更為強大。
鑒于此,中國計算機學(xué)會大數(shù)據(jù)專家委員會主辦了“中國好創(chuàng)意”全國青年大數(shù)據(jù)創(chuàng)新大賽。首先,它是學(xué)生學(xué)習(xí)數(shù)據(jù)科學(xué),切磋數(shù)據(jù)分析技術(shù)的平臺;第二,像中國好聲音一樣,它一定是年輕人展現(xiàn)自己的平臺,就像吳曉波所言,這個時代是無名山丘崛起為峰的時代,這個時代需要這么一個平臺;第三,操作系統(tǒng)BSD的發(fā)明人Bill Joy提出了Joy定律:在這個時代,無論公司再牛,世界上最聰明的絕大多數(shù)人都是為其他人工作的。那么最好的辦法就是打開組織的邊界,讓組織虛擬化,讓世界上成千上萬的人幫忙你解決難題。同時,對于數(shù)據(jù)科學(xué)家/工程師來說,數(shù)據(jù)分析能力將成為其行走江湖的獨特品牌,縱橫于不同企業(yè)之間,最大化其價值。
5 跨領(lǐng)域數(shù)據(jù)思維
2013年,一種病毒在上海和安徽爆發(fā),國家派出了很多工作組,前往各個現(xiàn)場采樣,對10 000個樣本進行分析。他們尋找的是H7N9禽流感病毒。筆者當(dāng)時在想,我們的生物科技人員要是有大數(shù)據(jù)思維多好!早在2005年,Craig Ventor——這位被稱為“科學(xué)界Lady Gaga”的奇人,已經(jīng)在對紐約的空氣做全集的基因組測序。如果對源頭菜市場的空氣做全集的檢測,不正是大數(shù)據(jù)全集思維相對于采樣的優(yōu)勢嗎?Ventor的跨界思維并不止于此。2014年,他的創(chuàng)業(yè)公司“人類長壽”從Google挖走了頂級計算機科學(xué)家,谷歌翻譯首席科學(xué)家Franz Och。在這里,F(xiàn)ranz將運用大數(shù)據(jù)去解密人類基因組的奧秘[3-5]。
同樣,生物科學(xué)的思維也能幫助大數(shù)據(jù)。百度首席科學(xué)家吳恩達(dá),曾經(jīng)一度迷惘人工智能走進了死胡同:識別杯子需要一種算法,識別人臉又是一種算法,識別汽車還要一種算法,似乎永遠(yuǎn)無法窮盡人的智能。直到有一天,神經(jīng)科學(xué)方面的最新進展讓他大開眼界:科學(xué)家把大腦皮層負(fù)責(zé)聽力的區(qū)域與聽力器官的神經(jīng)連接剪斷,連到視網(wǎng)膜,過了一段時間,這部分區(qū)域竟然能夠形成視覺理解了;同樣,負(fù)責(zé)觸覺的區(qū)域也可以被訓(xùn)練成具有視覺功能。吳恩達(dá)獲得了頓悟:原來人腦只有一套算法實現(xiàn)各種認(rèn)知功能,從此他走上了深度神經(jīng)網(wǎng)絡(luò)的研究之路。
Farecast.com是人工智能學(xué)者Oren Etzioni開的一個創(chuàng)業(yè)公司(后被微軟的Bing收購),他攜數(shù)據(jù)思維切入了航空公司白熱化的價格競爭之中。通過洞悉機票隨季節(jié)、燃油價格、天氣狀況甚至特定事件的變化趨勢,他推出了機票價格預(yù)測服務(wù)。如果到此為止,這不失為一個精彩的跨界數(shù)據(jù)思維案例,但真正使其成為經(jīng)典的是:在預(yù)測服務(wù)后Farecast.com增加了10美元的“Fareguard”保險服務(wù),如果購買后一周內(nèi)價格下跌,公司將補足差價。
前文的另一個案例Decide.com幫助顧客預(yù)測某個商品何時買最劃算。同樣,Decide.com對于某些商品提供價格保險,如果消費者購買后一段時間內(nèi)商品降價,那么公司會補償差價。
The Climate Corporation把氣候?qū)W和農(nóng)藝學(xué)揉在一起,告訴農(nóng)民播種的時機,或為惡劣天氣做好準(zhǔn)備。真正天才的創(chuàng)意在于:他們把保險業(yè)引入到三角關(guān)系中——通過微氣象建模預(yù)測異常氣候的發(fā)生,幫農(nóng)民辦理保險,并在氣象災(zāi)害發(fā)生后,自動理賠、打款。當(dāng)氣候?qū)W、農(nóng)藝學(xué)和金融學(xué)以一種全新的方式組合在一起,造就了一家10億美元的公司。
讀者從上述的3個例子能夠讀出什么?
大數(shù)據(jù)的預(yù)測分析和保險是完美搭檔,創(chuàng)造了新的商業(yè)模式。推而廣之,大數(shù)據(jù)的預(yù)測分析與金融也能產(chǎn)生很多新的商業(yè)機會,因為金融本質(zhì)上就是跨越時空的價值交換,而大數(shù)據(jù)則能夠發(fā)現(xiàn)時空之間的價值剪刀差。這毫無疑問也要拜跨界思維之賜。
相比信息,數(shù)據(jù)的價值有很高的外延空間。信息的意義是明確的,價值也是確定的。而數(shù)據(jù)有外部性,它因為某種目的被采集,又可以無限服務(wù)于新的目的。克強指數(shù)采用的3個數(shù)據(jù)——耗電量、鐵路貨運量和貸款發(fā)放量,都不是為衡量經(jīng)濟運行狀況而設(shè)計的,然而總理跨界的數(shù)據(jù)思維使其能夠反映中國的經(jīng)濟全貌(必須指出,這些數(shù)據(jù)反映的更多是重工業(yè)運行情況)。同樣,智能電表采集的社會用電情況不經(jīng)意間反映了房屋空置比例。數(shù)據(jù)的這一奇特特性亟需跨界思維去挖掘。
在大數(shù)據(jù)的開放式創(chuàng)新中,不只是需要技術(shù)的開源,更需要思想的開源。如果能夠把世界各地、各行各業(yè)的跨界數(shù)據(jù)思維及其實踐內(nèi)容檔案化,加入檢索功能,數(shù)據(jù)智慧就能得到積累和傳播,真正讓大數(shù)據(jù)之光普照大眾、惠及我們的地球和城市。
6 結(jié)束語
文章從5個方面闡述了大數(shù)據(jù)的開放式創(chuàng)新。我們期待通過開放式創(chuàng)新,中國能夠出現(xiàn)一萬個、十萬個甚至百萬個數(shù)據(jù)思維公司,他們?nèi)缛盒前汨玻种泻弦?,或凈化環(huán)境,或改善民生,或推動產(chǎn)業(yè)轉(zhuǎn)型升級,或提升社會治理,形成一股巨大的力量,實現(xiàn)大數(shù)據(jù)在中國的繁榮!
參考文獻(xiàn)
[1] Linked Data [EB/OL]. (2016-07-27)[2009-06-18]. http://www.w3.org/DesignIssues/LinkedData.html
[2] 吳甘沙.大數(shù)據(jù)技術(shù)發(fā)展的十個前沿方向[J/OL].大數(shù)據(jù),2015(2) [2015.08.28]. http://www.j-bigdataresearch.com.cn/CN/10.11959/j.issn.2096-0271.2015023
[3] MOODY D, WALSH P. Measuring the Value Of Information: An Asset Valuation Approach[C]// Proceedings of Seventh European Conference on Information System (ECIS99), Copenhagen Business School, Frederiksberg, Denmark, 1999
[4] Reply. The Valuation of Data as an Asset: A Consumption-Based Approach[EB/OL].[2014-04-22]. https://www.reply.eu/Documents/13903
[5] LANEY D. Why and How to Measure the Value of Your Information Assets [EB/OL]. [2015-08-04]. https://www.gartner.com/doc/3106719/measure-value-information-assets