趙艷秋
在大數(shù)據(jù)啟蒙階段,《大數(shù)據(jù)時代》作者、牛津大學(xué)教授維克托·邁爾·舍恩伯格曾應(yīng)邀去多家中國著名企業(yè)宣講過大數(shù)據(jù)帶來的變革;最近一年,各類大數(shù)據(jù)方案企業(yè)也開始越來越多地談?wù)摯髷?shù)據(jù)技術(shù)的實(shí)現(xiàn)。
今年夏季,在騰訊舉辦的大數(shù)據(jù)論壇上,騰訊高管與來自全球最頂尖的學(xué)者熱烈地討論著大數(shù)據(jù)的各種迷思——隱私、互聯(lián)互通和數(shù)據(jù)交易。在最近一個大數(shù)據(jù)的活動中,大數(shù)據(jù)開源技術(shù)Hadoop之父Doug Cutting以及大數(shù)據(jù)鏈條上掌握著命脈的“原油型”公司——英特爾和Cloudera的牛人們再次聚首。
數(shù)據(jù)化生存
IT行業(yè)的“指數(shù)效應(yīng)”威力驚人,比如,IT的基石芯片行業(yè)有個摩爾定律,每18個月芯片上集成的晶體管數(shù)會翻番,由此會帶來一系列指數(shù)式連鎖反應(yīng)——CPU的性能翻番,芯片的成本折半,功耗也會折半。這也就是大家為什么看到電子產(chǎn)品快速降價的根本原因。
市場調(diào)研公司IDC認(rèn)為,大數(shù)據(jù)行業(yè)也有“摩爾定律”。英特爾中國研究院院長吳甘沙非常認(rèn)同這個說法,他曾是英特爾中國研究院首位“首席工程師”,主持大數(shù)據(jù)研究?!叭绻f摩爾定律是我們所在的指數(shù)社會的基因,那么大數(shù)據(jù)就是指數(shù)社會的蛋白質(zhì)。”吳甘沙說。
有人說大數(shù)據(jù)是新的原材料、新的原油、新的資產(chǎn),甚至是新的貨幣,而吳甘沙認(rèn)為,人類現(xiàn)在的生存就是一場數(shù)據(jù)化生存。人類社會的各類設(shè)備在不停地感知、傳輸、存儲數(shù)據(jù)。今天,人們認(rèn)為谷歌可能是最大的數(shù)據(jù)擁有者之一,但按照指數(shù)增長規(guī)律,到2020年,一年所產(chǎn)生的數(shù)據(jù)將是1000個今天的谷歌或10000個百度。
“我們看到數(shù)據(jù)和計算能力在過去15年間一直呈現(xiàn)指數(shù)級增長,這種增長給我們帶來了根本性變化——不能再看單獨(dú)的數(shù)據(jù),而是把全部數(shù)據(jù)放在一起來考慮,來描繪出對人、企業(yè)或是業(yè)務(wù)的高清晰圖像。”大數(shù)據(jù)之父Doug Cutting說,“這件事是一個革命性、階段性的變化?!盌oug Cutting是開源技術(shù)世界中一個很具影響力的人物,他打造了目前在云計算和大數(shù)據(jù)領(lǐng)域里如日中天的開源技術(shù)Hadoop。他是Apache 基金會主席,也是大數(shù)據(jù)平臺企業(yè)Cloudera的首席技術(shù)官。
大量、快速增長的數(shù)據(jù)需要實(shí)時儲存、整合和分析,過去的IT架構(gòu)已經(jīng)無法應(yīng)付,這就促成了一種名為Hadoop開源新架構(gòu)的誕生,這是個可以無限擴(kuò)容的分布式計算結(jié)構(gòu)。
在這個無限擴(kuò)容開放式架構(gòu)的發(fā)展大勢下,IT業(yè)界才倡導(dǎo)了“軟件定義基礎(chǔ)設(shè)施”的趨勢,把計算、存儲和網(wǎng)絡(luò)做成開放式的標(biāo)準(zhǔn)模塊,降低設(shè)施的門檻;在基礎(chǔ)設(shè)施之上,推動開放、可信數(shù)據(jù)處理平臺Hadoop;在此之上,推動整個生態(tài)圈的創(chuàng)新,實(shí)現(xiàn)各類分析應(yīng)用,把高級分析功能平民化,使得它能邁入主流市場,實(shí)現(xiàn)規(guī)模經(jīng)濟(jì)。
數(shù)據(jù)咖啡館
騰訊高級副總裁湯道生曾請教歐洲信息哲學(xué)創(chuàng)始人、牛津大學(xué)教授Luciano Floridi一個困擾騰訊大數(shù)據(jù)應(yīng)用的問題——數(shù)據(jù)如何互聯(lián)互通,這對于發(fā)揮數(shù)據(jù)的價值至關(guān)重要。
現(xiàn)在,數(shù)據(jù)已成為各個組織的商業(yè)資產(chǎn),數(shù)據(jù)交換成為一個挑戰(zhàn)。Luciano以人類早先對石油資源的應(yīng)對方式進(jìn)行類比:挪威當(dāng)年建立了復(fù)雜的綜合體系去處理自然資源,從而讓整個人群受益?,F(xiàn)在,政府和手握數(shù)據(jù)的企業(yè)也有責(zé)任去摸索一個綜合體系,把數(shù)據(jù)的價值擴(kuò)大到廣泛的人群。
在英特爾,吳甘沙他們也正在開展“數(shù)據(jù)安全流通以及定價”這樣的研究。英特爾有一個研究平臺,叫做“數(shù)據(jù)咖啡館”,意思是希望這個平臺能像咖啡館那樣起到“匯聚”作用,匯聚不同領(lǐng)域、不同企業(yè)的數(shù)據(jù),一起來產(chǎn)生新的價值。這里面需要大量的核心技術(shù),例如,頂層的多方安全計算、數(shù)據(jù)審計及定價等。
英特爾與美國癌癥研究機(jī)構(gòu)開展合作。癌癥是一個典型的長尾病癥。過去50年來,癌癥的治愈率僅僅提升了約8%,這是因?yàn)檠芯繖C(jī)構(gòu)擁有的基因組樣本太少了。如果通過“數(shù)據(jù)咖啡館”把基因組樣本聚合起來,就能期待癌癥技術(shù)獲得突破。而聚合就需要數(shù)據(jù)交易。
在某種程度上,目前的數(shù)據(jù)是論斤按兩來交易的,因?yàn)閿?shù)據(jù)的價格很難衡量與預(yù)測。“在這樣一種數(shù)據(jù)不易定價的情況下,我們的理念是先用起來,在使用過程中去發(fā)現(xiàn)它的價值?!眳歉噬痴f。
在英特爾宏大的愿景中,希望在2020年之前,一天之內(nèi)能完成三件事:對病人進(jìn)行全基因組測序,鎖定癌癥的相關(guān)基因,形成個性化的用藥以及修復(fù)方案?,F(xiàn)在癌癥很難治愈的原因是新藥更新速度趕不上癌細(xì)胞的變化速度,有了大數(shù)據(jù)技術(shù),癌癥治愈率將指日可待。
數(shù)據(jù)交易只是英特爾在大數(shù)據(jù)研究上的重要方向之一。英特爾的其他重要研究領(lǐng)域還涵蓋兩個重要領(lǐng)域:數(shù)據(jù)與機(jī)器的關(guān)系——什么樣的可擴(kuò)展架構(gòu)能更好地存儲和處理數(shù)據(jù);人和數(shù)據(jù)之間的關(guān)系——什么樣的分析工具能增強(qiáng)人的分析能力。
以往,在英特爾,1~3年的事由產(chǎn)品部門來做,3~5年的由英特爾研究院來做,5~8年的與大學(xué)合作研究。但在這樣一個不可預(yù)測的時代下,英特爾把對“大數(shù)據(jù)”的研發(fā)周期進(jìn)一步縮短,與大學(xué)合作研究的技術(shù)也希望盡快推向市場,像Spark、集成了數(shù)據(jù)分析及交換的Datahub,內(nèi)存數(shù)據(jù)庫H-Store、可視化、深度學(xué)習(xí)(Deep learning)等。
大數(shù)據(jù)之星
今年3月,英特爾以7.4億美元收購了Cloudera18%的股份,成為Cloudera的戰(zhàn)略投資者。一家IT巨頭的高管評論說:“英特爾占領(lǐng)了大數(shù)據(jù)領(lǐng)域的制高點(diǎn)。”
Cloudera是一家在大數(shù)據(jù)領(lǐng)域起著關(guān)鍵作用的創(chuàng)新企業(yè)。它由來自Facebook、谷歌、雅虎和甲骨文的高管和工程師在2008年創(chuàng)建,其商業(yè)模式類似Linux領(lǐng)域的開源軟件企業(yè)紅帽公司(Red Hat)。
開源技術(shù)的開發(fā)類似今天互聯(lián)網(wǎng)世界的眾籌模式——成千上萬背景不同的技術(shù)愛好者聚集在一個“開源社區(qū)”中,一起創(chuàng)造一個他們熱愛的軟件技術(shù),人們可以自由使用。在此過程中,紅帽創(chuàng)造了一種名為“訂閱”的商業(yè)模式,它基于開源社區(qū)的軟件,通過更多測試和驗(yàn)證,開發(fā)出更穩(wěn)定、更易用的“企業(yè)版”。用戶可以免費(fèi)使用它,但如果需要技術(shù)支持和咨詢服務(wù)就要付費(fèi)。Cloudera仿照紅帽模式,提供企業(yè)級Hadoop平臺的服務(wù)。
如今,Cloudera已經(jīng)帶頭形成全球最大的大數(shù)據(jù)生態(tài)鏈,有1200個合作伙伴。在美國,每天70%的智能手機(jī)數(shù)據(jù)都是在Cloudera平臺上進(jìn)行處理的。同時,Cloudera對新興大數(shù)據(jù)領(lǐng)域進(jìn)行普及,在全球培訓(xùn)了5萬多名Hadoop專家。
9月,Cloudera落戶中國。苗凱翔成為其在中國的第一個員工,擔(dān)任該公司中國區(qū)副總裁。之前,他在英特爾負(fù)責(zé)大數(shù)據(jù)業(yè)務(wù),參與了中國第一個Hadoop項(xiàng)目——2011年中國移動的通話詳單查詢項(xiàng)目。
苗凱翔發(fā)現(xiàn),美國的大數(shù)據(jù)業(yè)務(wù)發(fā)展要比中國早兩年,美國很多集群規(guī)模都已是上千個節(jié)點(diǎn),中國才幾十個,他預(yù)計明年中國企業(yè)會部署更大的集群。
“中國的企業(yè),如運(yùn)營商、銀行在大數(shù)據(jù)的規(guī)劃上越來越務(wù)實(shí),設(shè)想也越來越大。目前他們要先想清楚大數(shù)據(jù)的商業(yè)價值?!泵鐒P翔說,“還要考慮清楚用大數(shù)據(jù)的目的是節(jié)省成本,還是創(chuàng)造價值,這是大數(shù)據(jù)的兩個主題。”
苗凱翔用全球最大在線支付公司的實(shí)踐來說明大數(shù)據(jù)的意義。這家企業(yè)本來用小型機(jī)做數(shù)據(jù)存儲,在備份系統(tǒng)建設(shè)中,如果使用同樣的小型機(jī),一套就要上千萬美元,太昂貴。最后,它們購買了Hadoop平臺。Hadoop已經(jīng)足夠穩(wěn)定、容量非常龐大,成本只是小型機(jī)的幾十分之一甚至幾百份之一,可以為企業(yè)節(jié)省可觀的成本。這是企業(yè)使用大數(shù)據(jù)技術(shù)的第一步。之后,這家企業(yè)又基于Hadoop平臺開展新業(yè)務(wù),例如,給自己的客戶提供各種報表,僅這項(xiàng)業(yè)務(wù)就為企業(yè)創(chuàng)造了百億美元的銷售額。
Hadoop非常復(fù)雜,苗凱翔認(rèn)為,Cloudera的意義是能在中國把它構(gòu)架起來、跑起來。他希望把Cloudera在金融、電信、零售、制造、政府和醫(yī)療領(lǐng)域的實(shí)踐帶到中國。
伴隨Cloudera 在中國落地,其全球性合作伙伴Oracle、HP、DELL、SAS等會與Cloudera有更多在中國的合作。同時,它也在找尋本土合作伙伴,像博康智能這樣在一個細(xì)分市場做得出色的系統(tǒng)集成商。明年第一季度,Cloudera也會在中國開展培訓(xùn)業(yè)務(wù)。目前,苗凱翔團(tuán)隊(duì)在與中國客戶溝通,探討Cloudera在中國的商業(yè)模式。
未來之路
近些年,Doug Cutting一直推進(jìn)Hadoop在企業(yè)級市場的實(shí)踐。讓他欣慰的是Hadoop在各行業(yè)中開展的實(shí)踐。
讓他印象最深的是一家信用卡公司。之前,這家企業(yè)檢驗(yàn)欺詐行為需要3個月,當(dāng)它采用Hadoop分析過往5年的交易歷史后,發(fā)現(xiàn)了一個欺詐模式,這個模式在多年中會連續(xù)出現(xiàn)。于是,這家信用卡公司采用了Hadoop技術(shù),不僅節(jié)省了很多成本,效果也非常好。
Doug Cutting也曾拜訪過一家位于亞特蘭大的兒童醫(yī)院。在醫(yī)院的一間急診室中,有幾十個早產(chǎn)兒。嬰兒身上有很多監(jiān)測器,醫(yī)護(hù)人員可以通過屏幕來看這些數(shù)據(jù)。一開始,這些數(shù)據(jù)隨時就被扔掉了。后來,人們把數(shù)據(jù)從那些老式電腦中取出來,存儲起來并進(jìn)行分析。他們發(fā)現(xiàn),為了檢測孩子的身體狀況,護(hù)士每天都要在孩子腳底扎針取血,一開始孩子們會哭,過了幾天他們就不哭了??墒牵?dāng)人們看到這些數(shù)據(jù)時會發(fā)現(xiàn),實(shí)際上,在扎針取血后30分鐘內(nèi),嬰兒的心跳和呼吸都特別快,他們非常緊張,這對他們的健康不利。這幫助醫(yī)護(hù)人員了解了很多情況,并改進(jìn)了他們對嬰兒的護(hù)理。
“我們看到越來越多的行業(yè),正在利用大數(shù)據(jù)分析來提升業(yè)績?!盌oug Cutting說,“這些企業(yè)并不僅局限于高科技產(chǎn)業(yè),它們還來自其他行業(yè),比如采礦業(yè)、交通業(yè)。”
目前,大企業(yè)是最早采用大數(shù)據(jù)分析平臺的,Doug Cutting觀察到,這些企業(yè)通常是從個別部門開始使用Hadoop,然后擴(kuò)展到其他部門。Doug Cutting認(rèn)為,未來會有越來越多的中小企業(yè)使用Hadoop。在美國,一些小型農(nóng)場主甚至農(nóng)民,現(xiàn)在也是大數(shù)據(jù)的生產(chǎn)者——他們有GPS定位設(shè)備,他們的拖拉機(jī)和其他機(jī)械設(shè)備也收集了大量數(shù)據(jù),通過這些數(shù)據(jù)可以更好地分析土壤狀況,提高播種效率和產(chǎn)量。
“我們看到這個趨勢正在在很多行業(yè)不斷蔓延開來?!?Doug Cutting說,“一些規(guī)模更小的公司,也將在接下來的5~10年中越來越多地去使用大數(shù)據(jù)?!?/p>
Doug Cutting還提到一個業(yè)界認(rèn)同的大趨勢——企業(yè)會越來越多地使用數(shù)據(jù)中心,把數(shù)據(jù)中心作為自己的“默認(rèn)平臺”,使用上面不同的應(yīng)用程序?!爸悄苁謾C(jī)既是手機(jī),也是照相機(jī)、游戲機(jī)、電子書……因?yàn)樗驮谀莾?,你知道怎么使用它,而且它上面也集成了所有的生活工具。?Doug Cutting 說,“未來企業(yè)數(shù)據(jù)中心的作用也類似,所有的工具都集成在上面,企業(yè)可以選擇使用。”