□文/王勁
大數(shù)據(jù)將與AI形成良性循環(huán)
□文/王勁
大數(shù)據(jù)、人工智能是近幾年炙手可熱的詞匯,但是,你是否想過(guò),如果將兩者結(jié)合起來(lái)會(huì)產(chǎn)生哪些意想不到的魔力呢?在國(guó)內(nèi)互聯(lián)網(wǎng)市場(chǎng)獨(dú)占搜索鰲頭的百度公司,正在嘗試將兩者結(jié)合成新的源動(dòng)力,來(lái)推動(dòng)更多行業(yè)的快速發(fā)展。
在各種O2O服務(wù)層出不窮、360行裂變?yōu)?600行的今天,用戶對(duì)服務(wù)的需求也迅速增長(zhǎng)。誰(shuí)能夠更好地滿足他們,顯然就可以獲得市場(chǎng)先機(jī)。
百度現(xiàn)在正努力地索引著真實(shí)世界。通過(guò)對(duì)真實(shí)世界的索引,把海量數(shù)據(jù)沉淀下來(lái),成為百度大數(shù)據(jù)的基礎(chǔ)和重要組成部分。百度通過(guò)大數(shù)據(jù)連接3600行,打通線上和線下,把線上和線下的數(shù)據(jù)融合起來(lái),產(chǎn)生核聚變,進(jìn)而迸發(fā)出新的能量,讓大數(shù)據(jù)成為3600行的商業(yè)新能源。
谷歌執(zhí)行董事長(zhǎng)艾瑞克·施密特曾經(jīng)說(shuō)過(guò),現(xiàn)在全球每?jī)商焖鶆?chuàng)造的數(shù)據(jù)量等于從人類文明至2003年間產(chǎn)生的數(shù)據(jù)量的總和?;ヂ?lián)網(wǎng)用戶產(chǎn)生的數(shù)據(jù)包括語(yǔ)音、圖像和視頻,同時(shí)應(yīng)用于物聯(lián)網(wǎng)、智能監(jiān)控等領(lǐng)域的各種智能設(shè)備產(chǎn)生的數(shù)據(jù)更是漫無(wú)邊際、浩如煙海。而海量數(shù)據(jù)的危機(jī)并不單純是數(shù)據(jù)量的爆炸性增長(zhǎng),它還牽涉到數(shù)據(jù)類型的改變。原來(lái)的數(shù)據(jù)都可以用二維表結(jié)構(gòu)存儲(chǔ)在數(shù)據(jù)庫(kù)中,如常用的Excel軟件所處理的數(shù)據(jù),稱之為結(jié)構(gòu)化數(shù)據(jù)。但現(xiàn)在由于互聯(lián)網(wǎng)多媒體應(yīng)用的出現(xiàn),使諸如圖片、聲音和視頻等非結(jié)構(gòu)化數(shù)據(jù)占到了很大比重。而產(chǎn)生智慧的大數(shù)據(jù),往往是這些非結(jié)構(gòu)化數(shù)據(jù),能否在短時(shí)間內(nèi)把數(shù)據(jù)處理好決定了數(shù)據(jù)的價(jià)值,這就需要新的技術(shù)突破,使數(shù)據(jù)成為最有價(jià)值的資產(chǎn)。
數(shù)據(jù)的采集、處理和應(yīng)用的過(guò)程可以影響新的數(shù)據(jù)的產(chǎn)生,從而形成反饋。百度的反饋過(guò)程是一個(gè)正向反饋,使系統(tǒng)更有效率。百度大數(shù)據(jù)將與行業(yè)數(shù)據(jù)深度融合,最終幫助行業(yè)內(nèi)企業(yè)能夠?qū)崿F(xiàn)數(shù)據(jù)的閉環(huán)。
以O(shè)2O為例,通過(guò)目前相關(guān)的軟件和技術(shù),百度可以對(duì)每一家門店的顧客信息進(jìn)行深度挖掘,幫助門店了解用戶群體,實(shí)施精準(zhǔn)營(yíng)銷,實(shí)現(xiàn)精細(xì)化運(yùn)營(yíng)。而通過(guò)精細(xì)化運(yùn)營(yíng)可以讓商家獲得更多的客流和流水。同時(shí)更多的客流和流水形成新的數(shù)據(jù),又被百度采集,使正向循環(huán)越變?cè)胶?,越?lái)越高效,這是大數(shù)據(jù)發(fā)揮價(jià)值最為關(guān)鍵的地方。
“百度大數(shù)據(jù)+”是百度面向各行業(yè)開發(fā)大數(shù)據(jù)的平臺(tái),包括數(shù)據(jù)融合、洞察用戶、智能模型和匹配能力,同時(shí)基于數(shù)據(jù)融合對(duì)群體用戶進(jìn)行立體畫像描繪,對(duì)線上線下用戶行為分析,對(duì)從“多屏”到“跨屏”的用戶進(jìn)行識(shí)別。百度有決策模型、推薦模型和綠色模型,此外,百度還開發(fā)了七個(gè)服務(wù)模塊,包括了行業(yè)洞察、營(yíng)銷決策、客群分析、輿情監(jiān)控、店鋪分析、推薦引擎以及數(shù)據(jù)加油站。百度數(shù)據(jù)已在零售、O2O、旅游、金融、保險(xiǎn)、房地產(chǎn)等方面與商家深入合作,并取得了可喜的成果。
王勁 百度公司高級(jí)副總裁
圖1 需要新技術(shù)突破使數(shù)據(jù)成為有價(jià)值的資產(chǎn)
線下零售業(yè)面臨電商競(jìng)爭(zhēng)挑戰(zhàn)壓力非常大。線下零售業(yè)如何利用互聯(lián)網(wǎng)和新的技術(shù)贏得新的競(jìng)爭(zhēng)優(yōu)勢(shì),已成為業(yè)界關(guān)心的話題。線下零售業(yè)競(jìng)爭(zhēng)最關(guān)鍵的核心是看誰(shuí)能提供最好的用戶綜合體驗(yàn)。誰(shuí)的體驗(yàn)好,誰(shuí)就能贏得先機(jī)。
圖2 大數(shù)據(jù)助力零售業(yè)
過(guò)去傳統(tǒng)零售業(yè)與百度合作,是希望通過(guò)百度的搜索和“鳳巢”推廣,把線上的用戶導(dǎo)流到線下,使之也變成他們的客戶,這是單向?qū)Я?。而百度大?shù)據(jù)可以對(duì)用戶有更全面、更深入地了解,百度能夠更好地了解這些用戶的特性,更好地識(shí)別用戶的需求,從而幫助線下企業(yè)為用戶提供個(gè)性化營(yíng)銷方案或個(gè)性化服務(wù)。
不久前,百度和北京朝陽(yáng)大悅城在大數(shù)據(jù)方面展開了合作。在充分保障用戶隱私和安全的前提下,把百度海量的線上數(shù)據(jù)和朝陽(yáng)大悅城線下多年積累的數(shù)據(jù)結(jié)合在一起,從而更好地洞悉用戶的需求?;诖祟惔髷?shù)據(jù),百度和朝陽(yáng)大悅城制訂了一些更有針對(duì)性、更精準(zhǔn)的推廣計(jì)劃。這種個(gè)性化的推廣計(jì)劃在很大程度上提升了朝陽(yáng)大悅城的銷售量,其會(huì)員銷售額提高了12%,未購(gòu)買品牌推薦轉(zhuǎn)化率提升了五倍,非活躍會(huì)員到場(chǎng)消費(fèi)率提高了53%。這只是雙方合作的第一期,僅是在推廣服務(wù)方面進(jìn)行的合作。下一階段,雙方還將通過(guò)百度糯米和朝陽(yáng)大悅城的合作,實(shí)現(xiàn)線上和線下服務(wù)的打通,將大數(shù)據(jù)的威力再提高一個(gè)層次。
互聯(lián)網(wǎng)金融是現(xiàn)在熱門的話題。金融行業(yè)希望能夠得到互聯(lián)網(wǎng)公司的大數(shù)據(jù),也希望能夠得到互聯(lián)網(wǎng)公司的技術(shù)支持。他們希望通過(guò)此類結(jié)合實(shí)現(xiàn)“彎道超車”,能把中國(guó)的金融業(yè)提高到一個(gè)新層次。把線上的海量數(shù)據(jù)和線下的金融數(shù)據(jù)結(jié)合在一起,這將對(duì)基金選股、風(fēng)險(xiǎn)控制、信用評(píng)估有很大的幫助。
過(guò)去金融行業(yè)的分析師在做決策的時(shí)候,一般從幾十甚至幾百個(gè)維度來(lái)作判斷。當(dāng)有了互聯(lián)網(wǎng)大數(shù)據(jù)之后,分析師已能夠非常準(zhǔn)確地監(jiān)控上萬(wàn)個(gè)緯度的數(shù)據(jù)。而且不僅根據(jù)這上萬(wàn)個(gè)緯度的數(shù)據(jù)來(lái)做決策,還能夠?qū)崟r(shí)監(jiān)控?cái)?shù)據(jù)的變化,對(duì)這些變化知其然,且還可知其所以然。
百度和國(guó)金證券已在大數(shù)據(jù)合作方面做了非常有意義的嘗試。百度將線上和線下的數(shù)據(jù)結(jié)合在一起,通過(guò)對(duì)這些海量數(shù)據(jù)進(jìn)行復(fù)雜計(jì)算,挑選出20多個(gè)有效的互聯(lián)網(wǎng)因子,并用這些因子建立數(shù)學(xué)模型,助力選股和買賣決策?;谏鲜龃髷?shù)據(jù)的合作,國(guó)金證券金融產(chǎn)品的年化收益提升了5%~8%,信息比率IR提升了0.6~0.9,最大回撤降低了3%~5%。有了大數(shù)據(jù)的強(qiáng)大技術(shù)支持,分析師在股票與基金的選擇上,實(shí)現(xiàn)了更大的收益,更好地控制了風(fēng)險(xiǎn)。未來(lái)百度將和國(guó)金證券進(jìn)行新的嘗試,共同建立一個(gè)新的量化基金。希望通過(guò)這種創(chuàng)新和嘗試,幫助互聯(lián)網(wǎng)金融企業(yè)找到更加可行的發(fā)展道路。
除了基金,互聯(lián)網(wǎng)金融另一個(gè)重要領(lǐng)域是保險(xiǎn)業(yè)。保險(xiǎn)公司每降低一個(gè)百分點(diǎn)的風(fēng)險(xiǎn),就意味著比競(jìng)爭(zhēng)對(duì)手有更大的優(yōu)勢(shì)。百度已經(jīng)與新華保險(xiǎn)、安盛天平在大數(shù)據(jù)方面開展了合作。百度利用保險(xiǎn)公司多年積累的線下數(shù)據(jù),圈定了一大批低賠付人群樣本,將這些人群的線上線下數(shù)據(jù)融合并進(jìn)行建模,通過(guò)人工智能算法,挖掘出這些人的特征。百度在6億網(wǎng)民中通過(guò)海量計(jì)算,將具有相同特征的人篩選出來(lái),從而發(fā)現(xiàn)更多的低賠付人群,其準(zhǔn)確率超過(guò)85%。百度希望在這些嘗試之后,能夠?qū)⑦@些技術(shù)進(jìn)行廣泛地推廣。
最近幾年,計(jì)算機(jī)在語(yǔ)音、圖象和自然語(yǔ)音的理解上取得了很大突破。由通過(guò)鼠標(biāo)、鍵盤與計(jì)算機(jī)交互的方式,正在向通過(guò)與計(jì)算機(jī)對(duì)話、圖像識(shí)別等方式改變。這些方式都在增加用戶與互聯(lián)網(wǎng)交互的頻率,這將大幅度提升人機(jī)交流的效率。
人工智能目前的學(xué)習(xí)能力較弱,推理能力還無(wú)法與人腦相提并論。但在此領(lǐng)域,只要給予研發(fā)人員足夠的時(shí)間和數(shù)據(jù),即可使人工智能的學(xué)習(xí)和推理能力超越人類。幾年前,計(jì)算機(jī)戰(zhàn)勝國(guó)際象棋大師的例子充分說(shuō)明了這一點(diǎn)。
目前,正是人工智能發(fā)展的良好時(shí)機(jī)。一方面,有海量數(shù)據(jù)提供模型學(xué)習(xí),數(shù)據(jù)越多特征就越多,模型就能判斷更精準(zhǔn);另一方面,深度學(xué)習(xí)技術(shù)也在快速地發(fā)展,類似人腦神經(jīng)一樣去分析解釋數(shù)據(jù)的技術(shù)已日漸成熟,未來(lái)將出現(xiàn)類似人腦的智能。人工智能的應(yīng)用基礎(chǔ)是大數(shù)據(jù),用戶量越大所產(chǎn)生的數(shù)據(jù)就越多,模型就愈加優(yōu)化,人工智能的智能性就越強(qiáng),將更符合人類的思維習(xí)慣。例如用戶在使用搜索引擎若無(wú)法獲得所希望的信息時(shí),就需自己想辦法換一種搜索方法。但是通過(guò)人工智能技術(shù),機(jī)器人已經(jīng)能夠記住用戶上一次與機(jī)器人對(duì)話的內(nèi)容,并且能夠理解用戶的意圖,隨后根據(jù)用戶的提問(wèn)進(jìn)行交互。百度的“度秘”就是通過(guò)大數(shù)據(jù)和人工智能理解人的語(yǔ)言,實(shí)現(xiàn)多輪交互。
深度學(xué)習(xí)有多層次的結(jié)構(gòu),能夠從眾多數(shù)據(jù)中將所需要的信息充分挖掘出來(lái),正是深度學(xué)習(xí)與大數(shù)據(jù)的結(jié)合形成了此次人工智能潮浪的巨大推動(dòng)力。
百度投入巨大的資源用于百度大腦的PADDLE深度學(xué)習(xí)平臺(tái)的開發(fā),其可以支持百度各類海量數(shù)據(jù)并能夠靈活地推出各種不同的深度學(xué)習(xí)模型的結(jié)構(gòu),在網(wǎng)頁(yè)搜索、廣告排序、數(shù)據(jù)中心管理、百度殺毒等方面已得到了廣泛應(yīng)用。
在百度看來(lái),機(jī)器的感知能力正在超越人類水平。在語(yǔ)音方面,人的識(shí)別錯(cuò)誤率是8%,而百度能將機(jī)器的識(shí)別錯(cuò)誤率控制在6%以內(nèi);在人臉識(shí)別方面,百度的錯(cuò)誤率只有0.23%,低于人類識(shí)別的錯(cuò)誤率。
圖3 開放人臉識(shí)別服務(wù)
無(wú)論是人臉識(shí)別還是圖像文字識(shí)別技術(shù),百度都通過(guò)APIStore開放出來(lái)。百度端到端的機(jī)器翻譯能力使得百度對(duì)機(jī)器翻譯質(zhì)量有了極大地提升。端到端的學(xué)習(xí)模式拋棄了人為的硬性分解和人為的特征構(gòu)造,通過(guò)一個(gè)完整的模型直接進(jìn)行學(xué)習(xí)。這樣的模式已應(yīng)用于語(yǔ)音識(shí)別、圖像識(shí)別、機(jī)器翻譯中并已取得成功。百度提出將傳統(tǒng)人工智能中不同的分支,例如圖像識(shí)別、語(yǔ)言理解和語(yǔ)言生成等緊密結(jié)合在一起,形成統(tǒng)一的神經(jīng)元網(wǎng)絡(luò),讓機(jī)器人像兒童學(xué)習(xí)知識(shí)一樣,方便用戶在未來(lái)可像教兒童學(xué)習(xí)一樣地教機(jī)器人。
人工智能正在形成良性循環(huán),更多的數(shù)據(jù)、更好的產(chǎn)品、更強(qiáng)的智能正在構(gòu)建組合成一個(gè)閉環(huán),伴隨人工智能使用者不斷地增多,機(jī)器將變得越來(lái)越聰明。
目前人工智還存在很多問(wèn)題,主要包括:缺少小數(shù)據(jù)的學(xué)習(xí)能力,即通過(guò)少量關(guān)鍵數(shù)據(jù)來(lái)實(shí)現(xiàn)深度學(xué)習(xí);不能通過(guò)自主探索環(huán)境來(lái)學(xué)習(xí);缺少通過(guò)與人交流進(jìn)行學(xué)習(xí)的能力。
百度在智能語(yǔ)音技術(shù)上的成果是LSTM聲學(xué)模型,LSTM即長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型也就是模擬人腦。該算法優(yōu)勢(shì)明顯,其一是長(zhǎng)時(shí)間的軌跡記憶和瞬態(tài)記憶的統(tǒng)一;其二是模擬人腦選擇性遺忘;其三是更精準(zhǔn)的軌跡建模。百度的技術(shù)創(chuàng)新就是混合多層結(jié)構(gòu)來(lái)解決海量數(shù)據(jù)訓(xùn)練的效率和穩(wěn)定性問(wèn)題。
圖4 人工智能正循環(huán)
圖5 語(yǔ)音識(shí)別 - LSTM聲學(xué)模型(長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型)
每個(gè)人的說(shuō)話方式各有不同,所帶來(lái)的問(wèn)題就是某些語(yǔ)句識(shí)別率不高,傳統(tǒng)技術(shù)很難解決這個(gè)問(wèn)題。百度為此推出了聲學(xué)模型自適模式,為每個(gè)人推出個(gè)性化模型,將識(shí)別錯(cuò)誤率下降到10%~15%。
百度語(yǔ)音開放平臺(tái)可為智能手機(jī)提供語(yǔ)音拍照,駕駛助手,語(yǔ)音助手等功能;為電視廠商提供語(yǔ)音搜索和語(yǔ)音指令功能;提供領(lǐng)先的車載解決方案,優(yōu)化車機(jī)設(shè)備的抗噪性能;為智能設(shè)備廠商提供語(yǔ)音技術(shù)支持;為智能手表提供語(yǔ)音輸入和語(yǔ)音搜索功能。百度還將推出隨機(jī)數(shù)字串聲紋識(shí)別,實(shí)現(xiàn)用戶用聲音進(jìn)行注冊(cè)、賬戶登陸等功能,其錯(cuò)誤率已降低到千分之一;個(gè)性化TTS功能可合成用戶希望得到的聲音;音頻檢索模塊將提供音頻內(nèi)容互動(dòng)平臺(tái)。
(本文根據(jù)王勁在2015百度世界大會(huì)上的演講整理而成,未經(jīng)本人審閱)
圖6 語(yǔ)音識(shí)別-聲學(xué)模型自適應(yīng)