宋文芳 龐貝
覆蓋6億網(wǎng)民,匯聚全網(wǎng)萬(wàn)億網(wǎng)頁(yè),每天響應(yīng)60億次搜索請(qǐng)求、150億次定位請(qǐng)求,記錄了整個(gè)中國(guó)互聯(lián)網(wǎng)的歷史、現(xiàn)在與未來(lái)……
—如果將數(shù)據(jù)資源比作礦藏,那么百度所擁有的無(wú)疑是一座巨大的富礦。
這座富礦究竟價(jià)值幾何?百度又將如何挖掘它的潛能?
2015年9月8日,在2015百度世界大會(huì)上,百度旗幟鮮明地給出了答案,那就是用大數(shù)據(jù)來(lái)“連接3600行”。
在8月19日國(guó)務(wù)院通過(guò)《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》之后,這場(chǎng)大會(huì)更像一場(chǎng)誓師,百度董事長(zhǎng)兼首席執(zhí)行官李彥宏和他的同伴們終于由此開(kāi)啟挖掘大數(shù)據(jù)寶藏的大幕了。
大數(shù)據(jù)的寶藏,百度將要怎樣挖掘?
百度高級(jí)副總裁王勁在會(huì)上發(fā)布了百度“大數(shù)據(jù)+”開(kāi)放平臺(tái):“百度通過(guò)大數(shù)據(jù)連接3600行,打通線(xiàn)上和線(xiàn)下,把線(xiàn)上和線(xiàn)下的數(shù)據(jù)融合起來(lái),產(chǎn)生核聚變,迸發(fā)出新的能量,讓大數(shù)據(jù)成為3600行的商業(yè)新能源?!?/p>
這新能源的富礦存量有多大?
資源:海量存儲(chǔ) 數(shù)據(jù)富礦
如果將單一信息比作一滴水,那么百度所擁有的無(wú)疑就是汪洋大海:百度的服務(wù)覆蓋6億網(wǎng)民,匯聚全網(wǎng)萬(wàn)億網(wǎng)頁(yè),每天響應(yīng)60億次搜索請(qǐng)求、150億次定位請(qǐng)求,記錄了整個(gè)中國(guó)互聯(lián)網(wǎng)的過(guò)去、現(xiàn)在與未來(lái)……
除了搜索數(shù)據(jù)、定位數(shù)據(jù)之外,百度還擁有豐富的社區(qū)數(shù)據(jù),如百度貼吧的數(shù)據(jù)等。
過(guò)去,百度索引的是網(wǎng)頁(yè),而現(xiàn)在百度要索引真實(shí)世界。它正在將線(xiàn)上和線(xiàn)下的數(shù)據(jù)打通、融合,將百度數(shù)據(jù)和傳統(tǒng)行業(yè)的數(shù)據(jù)深度結(jié)合。目前,百度和保險(xiǎn)、零售等行業(yè)已經(jīng)在大數(shù)據(jù)合作方面進(jìn)行嘗試,隨著百度大數(shù)據(jù)與行業(yè)深度合作的擴(kuò)展與加強(qiáng),可以預(yù)想,百度擁有的數(shù)據(jù)礦產(chǎn)將進(jìn)一步豐富與完善。
然而,如此海量的數(shù)據(jù),僅是存儲(chǔ)和處理就絕非易事。百度會(huì)不會(huì)被淹沒(méi)在這數(shù)據(jù)的海洋里?
硬件:底層支撐 儲(chǔ)備過(guò)硬
存儲(chǔ)、計(jì)算如此海量的數(shù)據(jù),離不開(kāi)硬件基礎(chǔ)—數(shù)據(jù)中心。此前,作為全球最大的中文搜索服務(wù)提供商,百度的數(shù)據(jù)中心規(guī)模已達(dá)數(shù)十萬(wàn)臺(tái)服務(wù)器。而近日百度更是啟用了華南超級(jí)核心及華南IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)集群,使百度的數(shù)據(jù)中心規(guī)模和網(wǎng)絡(luò)服務(wù)能力進(jìn)一步提升。
百度已在全國(guó)多個(gè)地區(qū)建成超級(jí)核心及IDC集群。超級(jí)核心指的是骨干網(wǎng)絡(luò)節(jié)點(diǎn),所有IDC都需通過(guò)該節(jié)點(diǎn)進(jìn)行互聯(lián)。此次華南超級(jí)核心及IDC集群的啟用,對(duì)于占全國(guó)近1/3用戶(hù)的華南十省地區(qū),可以實(shí)現(xiàn)網(wǎng)絡(luò)提速30%以上。
除了擁有規(guī)模龐大的數(shù)據(jù)中心和計(jì)算網(wǎng)絡(luò)外,百度公司還一直投入大量的資源研究數(shù)據(jù)中心的節(jié)能技術(shù)及清潔能源發(fā)電技術(shù),引領(lǐng)數(shù)據(jù)中心綠色節(jié)能技術(shù)的革新潮流。
2013年1月,中國(guó)第一代整機(jī)柜服務(wù)器天蝎(北極)1.0版本率先在百度南京機(jī)房上線(xiàn),開(kāi)創(chuàng)了定制服務(wù)器新時(shí)代,在中國(guó)發(fā)揮了很好的引領(lǐng)作用。如今,百度已大規(guī)模上線(xiàn)天蝎(北極)2.0,自主整機(jī)柜服務(wù)器已投入使用數(shù)十萬(wàn)臺(tái)。
整機(jī)柜服務(wù)器采用共享架構(gòu)設(shè)計(jì),可以讓百度取得非常好的收益:整機(jī)柜服務(wù)采用集中供電,比傳統(tǒng)分散電源的能效提升20%,而電源模塊成本只有原來(lái)的50%;采用集中散熱,比傳統(tǒng)分散散熱模式的能效提升60%,風(fēng)扇成本節(jié)省20%;方便集中管理,以機(jī)架為基本管理單元,提高管理效率,整機(jī)能耗降低15%。
此外,百度還是全球第一家大規(guī)模商用ARM服務(wù)器的企業(yè),僅此一項(xiàng),使能效降低30%。百度在語(yǔ)音、圖像識(shí)別等領(lǐng)域創(chuàng)新性地應(yīng)用了GPU服務(wù)器,能耗降低超過(guò)10倍。百度還成為全球首家把FPGA規(guī)模部署到數(shù)據(jù)中心的互聯(lián)網(wǎng)公司,應(yīng)用FPGA后,能耗降低38倍……
技術(shù):出神入化 誰(shuí)與爭(zhēng)鋒
王勁說(shuō):“我們?cè)诩夹g(shù)上巨大的投入,希望有一天不僅助力百度發(fā)展,還能夠幫助中國(guó)整體經(jīng)濟(jì)轉(zhuǎn)型。希望百度技術(shù)的開(kāi)放與應(yīng)用,能夠給中國(guó)的發(fā)展帶來(lái)豐厚的回報(bào)?!?/p>
百度在技術(shù)上投入了什么,又換來(lái)了什么?它真有傳說(shuō)中那么出神入化?
在云計(jì)算技術(shù)方面,百度擁有全球最大的Hadoop集群。Hadoop是能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,以一種可靠、高效、可伸縮的方式進(jìn)行數(shù)據(jù)處理。目前百度擁有業(yè)界最大Hadoop單集群—1.3萬(wàn)臺(tái),日處理作業(yè)量達(dá)百萬(wàn)量級(jí)。
在大數(shù)據(jù)和人工智能技術(shù)方面,百度搭建了超大規(guī)模深度神經(jīng)網(wǎng)絡(luò),可支持千億樣本和千億特征訓(xùn)練。
基于大數(shù)據(jù)及超大規(guī)模神經(jīng)網(wǎng)絡(luò),百度在機(jī)器感知方面取得了非常大的進(jìn)步:其統(tǒng)一視覺(jué)和語(yǔ)言深度學(xué)習(xí)模型已經(jīng)能像小孩子學(xué)習(xí)一樣自然,能夠進(jìn)行簡(jiǎn)單的看圖說(shuō)話(huà)、問(wèn)答,理解動(dòng)態(tài)視頻;在世界最權(quán)威的人臉識(shí)別評(píng)測(cè) (LFW,Labeled Faces in the Wild,無(wú)約束人臉識(shí)別) 中,人類(lèi)的錯(cuò)誤率為0.8%,百度人臉識(shí)別的錯(cuò)誤率僅為0.23%;對(duì)于搜索這樣的短文本(中文)語(yǔ)音輸入,人類(lèi)的單字錯(cuò)誤率為8%,而機(jī)器可以達(dá)到6%。
基于機(jī)器感知及自然語(yǔ)言理解方面的技術(shù)突破,百度打造了先進(jìn)的讀圖問(wèn)答技術(shù)。這一技術(shù)會(huì)聆聽(tīng)、識(shí)別并理解人類(lèi)的語(yǔ)言,同時(shí)識(shí)別、認(rèn)知圖片內(nèi)容,自行判斷并且組織語(yǔ)言給出答案,體現(xiàn)了目前全球最領(lǐng)先的人工智能水平。
如今,百度已經(jīng)將這些先進(jìn)的技術(shù)和能力通過(guò)百度開(kāi)放云、API Store (apistore.baidu.com)對(duì)外開(kāi)放共享,助力行業(yè)轉(zhuǎn)型升級(jí)。
這些令人眼花繚亂的技術(shù),究竟能夠做些什么?
市場(chǎng):探明前路 前景廣闊
可能在開(kāi)始,百度也未必清楚地知道大數(shù)據(jù)的價(jià)值到底能夠挖掘到多深入,于是它將探尋的靈敏觸角伸了出去,得到了市場(chǎng)的熱情回應(yīng)。來(lái)看看大數(shù)據(jù)平臺(tái)與市場(chǎng)結(jié)合后的斐然成果:
大數(shù)據(jù)+零售:迎接個(gè)性化精準(zhǔn)營(yíng)銷(xiāo)時(shí)代的到來(lái)
隨著信息社會(huì)的不斷發(fā)展,整個(gè)大數(shù)據(jù)的生態(tài)開(kāi)始往線(xiàn)下轉(zhuǎn)移,這是大數(shù)據(jù)+非常具有潛力、值得挖掘的一塊寶藏。特別是在國(guó)家大力提倡“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”的情勢(shì)之下,它將為中小微新興創(chuàng)業(yè)者提供有益參考,帶來(lái)事半功倍的效益。
大數(shù)據(jù)可以刻畫(huà)群體畫(huà)像,幫助創(chuàng)業(yè)者進(jìn)行營(yíng)銷(xiāo),提供精準(zhǔn)、定向的個(gè)性化推送;通過(guò)分析客流數(shù)據(jù)、消費(fèi)水平、需求缺口、競(jìng)爭(zhēng)對(duì)手、交通狀況等,給出商業(yè)選址建議……
隨著大數(shù)據(jù)生態(tài)的鋪展,一些敏銳的商場(chǎng)開(kāi)始抓住這一契機(jī),從只關(guān)注最簡(jiǎn)單的整體的客流,到開(kāi)始注意自己數(shù)據(jù)的建設(shè)。
而通過(guò)與百度大數(shù)據(jù)的合作,北京朝陽(yáng)大悅城無(wú)論對(duì)自身還是對(duì)消費(fèi)者的認(rèn)知都有了質(zhì)的提升:在充分保障用戶(hù)隱私和安全的前提下,把百度海量的線(xiàn)上數(shù)據(jù)和大悅城線(xiàn)下多年積累的數(shù)據(jù)結(jié)合在一起,通過(guò)挖掘、分析這些數(shù)據(jù),百度和大悅城制訂了一些更有針對(duì)性、更精準(zhǔn)的推廣計(jì)劃。這種個(gè)性化的推廣計(jì)劃在很大程度上提升了大悅城的銷(xiāo)售量。據(jù)統(tǒng)計(jì),通過(guò)這一方式,大悅城會(huì)員銷(xiāo)售額提高了12%,未購(gòu)買(mǎi)品牌推薦轉(zhuǎn)化率提升了5倍;非活躍會(huì)員到場(chǎng)消費(fèi)率提高53%。
從關(guān)注整體客流到關(guān)注客流的留存、停留的時(shí)間、瀏覽路徑……再到開(kāi)始關(guān)注細(xì)分人群、消費(fèi)者的生命周期及偏好,最后通過(guò)O2O的生態(tài)和大數(shù)據(jù)生態(tài),針對(duì)行為習(xí)慣不同的消費(fèi)群體實(shí)施定制化的營(yíng)銷(xiāo),大數(shù)據(jù)正在改變著零售行業(yè)??梢哉f(shuō)百度的海量數(shù)據(jù),有效地支持了商業(yè)運(yùn)營(yíng)和商業(yè)決策,同時(shí),對(duì)于消費(fèi)群體的分類(lèi)、判斷和認(rèn)知,有助于實(shí)現(xiàn)個(gè)性化的精準(zhǔn)營(yíng)銷(xiāo)和個(gè)性化服務(wù),大大提升盈利水平。
大數(shù)據(jù)+保險(xiǎn):低賠付人群定位準(zhǔn)確性超過(guò)85%
百度大數(shù)據(jù)與保險(xiǎn)行業(yè)的融合,可以挖掘出客戶(hù)購(gòu)險(xiǎn)意圖,做到精準(zhǔn)營(yíng)銷(xiāo);同時(shí)可以預(yù)測(cè)客戶(hù)的賠付率,進(jìn)行個(gè)性化定價(jià)。通過(guò)與大數(shù)據(jù)的結(jié)合,使保險(xiǎn)公司在保險(xiǎn)價(jià)值發(fā)現(xiàn)、客戶(hù)挖掘等方面的能力得到極大提升。
保險(xiǎn)業(yè)降低一個(gè)百分點(diǎn)的賠付率,都意味著比競(jìng)爭(zhēng)對(duì)手有了更大的競(jìng)爭(zhēng)優(yōu)勢(shì)。
百度在這一領(lǐng)域小試牛刀,展現(xiàn)出大數(shù)據(jù)在這一領(lǐng)域的巨大潛能。
利用保險(xiǎn)公司多年積累下來(lái)的線(xiàn)下數(shù)據(jù),百度和保險(xiǎn)公司圈定了一大批低賠付人群樣本。百度將這些人群的線(xiàn)上線(xiàn)下數(shù)據(jù)融合,應(yīng)用人工智能技術(shù),把這些人的特征挖掘出來(lái)。然后,在6億網(wǎng)民中,通過(guò)海量計(jì)算,將具有相同特征的人找出來(lái)。這樣就找到了更多的低賠付人群,準(zhǔn)確性超過(guò)85%。同時(shí),通過(guò)大數(shù)據(jù)合作,實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo),廣告點(diǎn)擊率提升361%、購(gòu)買(mǎi)轉(zhuǎn)化率提升200%。
大數(shù)據(jù)+金融:開(kāi)啟點(diǎn)“數(shù)”成金的互聯(lián)網(wǎng)金融時(shí)代
把線(xiàn)上的海量數(shù)據(jù)和線(xiàn)下的金融數(shù)據(jù)結(jié)合到一起的時(shí)候,這些數(shù)據(jù)產(chǎn)生了點(diǎn)“數(shù)”成金的效果。
這些數(shù)據(jù)的融合,對(duì)基金選股、風(fēng)險(xiǎn)控制、信用評(píng)估產(chǎn)生了極大幫助。它們有效地提升了投資者決策判斷的參照系。傳統(tǒng)金融做決策的時(shí)候,一般用幾十個(gè)、幾百個(gè)維度進(jìn)行決策,當(dāng)應(yīng)用互聯(lián)網(wǎng)大數(shù)據(jù)后,可以用幾萬(wàn)個(gè)維度進(jìn)行決策,并可以對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)監(jiān)控和反應(yīng),大大提升金融決策的有效性。
百度大數(shù)據(jù)和國(guó)金證券的合作在這方面提供了有益借鑒。他們把線(xiàn)上和線(xiàn)下的數(shù)據(jù)結(jié)合在一起,通過(guò)對(duì)這些海量數(shù)據(jù)進(jìn)行復(fù)雜的計(jì)算,挑選出了20多個(gè)有效的因子,并用這些因子建立數(shù)學(xué)模型,助力選股和買(mǎi)賣(mài)決策。
基于上述大數(shù)據(jù)的合作,使投資者的絕對(duì)收益提升了5%到8%;信息比IR提升了0.6到0.9;最大回撤降低了3%到5%。
有了大數(shù)據(jù)的強(qiáng)大支持,我們?cè)诔垂缮?、在基金的選擇上,能夠有更大的收益,能夠更好地控制風(fēng)險(xiǎn),降低波動(dòng)。
據(jù)王勁透露,下一階段,百度大數(shù)據(jù)將和國(guó)金證券進(jìn)行一個(gè)新的嘗試,共同建立一個(gè)新的量化基金。希望通過(guò)這種創(chuàng)新和嘗試,幫助互聯(lián)網(wǎng)金融找到切實(shí)可行的發(fā)展道路。
大數(shù)據(jù)+旅游:智能化的旅游服務(wù)
在查找旅游信息時(shí),搜索引擎是主要渠道。游客從搜索引擎獲取信息占所有信息獲取渠道的78.5%。
大數(shù)據(jù)與旅游相結(jié)合,基于海量搜索數(shù)據(jù),以及LBS定位數(shù)據(jù)、SNS數(shù)據(jù)等,能夠?qū)崿F(xiàn)景區(qū)客流量預(yù)測(cè),為游客出行、景區(qū)管理與服務(wù)提供參考;還可以讓景區(qū)更深入地洞悉旅客,便于景區(qū)做更智能的服務(wù)和營(yíng)銷(xiāo)。此外,還可以提供酒店訂單預(yù)測(cè)、熱門(mén)線(xiàn)路預(yù)測(cè)等服務(wù)。
百度大數(shù)據(jù)與武夷山景區(qū)的合作堪稱(chēng)這一類(lèi)型的典范:通過(guò)大數(shù)據(jù)分析可以了解到,到達(dá)該景區(qū)的旅客對(duì)鼓浪嶼、黃山、烏鎮(zhèn)、西湖等景區(qū)的關(guān)注度也很高。因此景區(qū)可以聯(lián)合沿線(xiàn)景區(qū),推出精品旅游路線(xiàn),進(jìn)行營(yíng)銷(xiāo)合作,充分發(fā)揮景區(qū)聯(lián)動(dòng)效應(yīng)。
正像王勁所說(shuō):“過(guò)去,我們做決策憑的是個(gè)人的經(jīng)驗(yàn)和能力;今天有了大數(shù)據(jù),我們能夠有的放矢地做出一個(gè)決定,讓大數(shù)據(jù)引領(lǐng)我們?nèi)プ鲂碌臎Q策。”
“索引真實(shí)世界,讓大數(shù)據(jù)改變我們的生活。百度不僅僅用大數(shù)據(jù)來(lái)幫助百度自己發(fā)展,我們還希望把百度大數(shù)據(jù)開(kāi)放給大家,希望用大數(shù)據(jù)+平臺(tái)連接3600行,助力3600行獲得新的競(jìng)爭(zhēng)優(yōu)勢(shì)?!?/p>
業(yè)態(tài):培育生態(tài) 改變生活
百度建立大數(shù)據(jù)平臺(tái)的目的,一方面是為了釋放大數(shù)據(jù)的海量?jī)r(jià)值,更為重要的是建設(shè)大數(shù)據(jù)生態(tài)。
在謀劃大數(shù)據(jù)之初,或許他們已經(jīng)前瞻性地將百度大數(shù)據(jù)打造成與各大產(chǎn)業(yè)相融合的模塊雛形:百度大數(shù)據(jù)+平臺(tái)有七大模塊,分別是產(chǎn)業(yè)洞察、客流分析、營(yíng)銷(xiāo)決策、輿情監(jiān)控、推薦引擎、店鋪分析、數(shù)據(jù)加油站,并已提供針對(duì)保險(xiǎn)、旅游、零售等六大行業(yè)的解決方案。
可以說(shuō),未來(lái)通過(guò)大數(shù)據(jù)平臺(tái)打造的百度生態(tài)圈,將可以用到百度大腦、百度大數(shù)據(jù)、百度云等豐富多樣的產(chǎn)品和服務(wù)。而大數(shù)據(jù)不僅僅能夠幫助商業(yè),還能改變我們每個(gè)人的生活。
前段時(shí)間,百度研究院和百度公益共同攜手打造了一款產(chǎn)品“百度小明”。百度小明依托“百度大腦”的圖像識(shí)別、語(yǔ)音識(shí)別以及深度學(xué)習(xí)等相關(guān)核心技術(shù),成為盲人的日常生活助理,幫助盲人“洞見(jiàn)”真實(shí)世界。
而對(duì)于更多的正常人,百度依托大數(shù)據(jù)、人工智能,開(kāi)發(fā)了豐富多樣的產(chǎn)品,幫助人們更深入于智能生活當(dāng)中,讓我們對(duì)于所處的信息社會(huì)不再有如“盲人摸象”。例如百度打造的小度機(jī)器人,能夠像真人一樣面對(duì)面和用戶(hù)對(duì)話(huà),回答用戶(hù)的問(wèn)題。它可以利用人臉檢測(cè)和跟蹤技術(shù),根據(jù)用戶(hù)的位置移動(dòng)而轉(zhuǎn)動(dòng)視線(xiàn)。不僅如此,小度機(jī)器人還具備了認(rèn)識(shí)用戶(hù)的能力,可以判斷出面前用戶(hù)的身份是注冊(cè)用戶(hù)中的哪一個(gè)人,根據(jù)用戶(hù)的不同年齡、身份、性別做出個(gè)性化的回答和服務(wù)。
王勁說(shuō):“前段時(shí)間,國(guó)務(wù)院印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要,進(jìn)一步推動(dòng)大數(shù)據(jù)應(yīng)用到行業(yè)中。我們希望百度能夠參與其中,幫助中國(guó)更好地實(shí)現(xiàn)大數(shù)據(jù)戰(zhàn)略?!?/p>
我們正處在第三次工業(yè)革命的尾聲與第四次工業(yè)革命的前奏共同奏響的巨大時(shí)代聲浪之中,不管是從國(guó)家還是社會(huì)發(fā)展層面,世界各國(guó)都在積極探尋更深層次發(fā)展的契機(jī)。大數(shù)據(jù)無(wú)疑提供了無(wú)數(shù)發(fā)展可能性中的一種,我們期待著它在與國(guó)家戰(zhàn)略融合的同時(shí),“產(chǎn)生核聚變,迸發(fā)出新的能量”,更深遠(yuǎn)地影響到未來(lái)生活。