沈浩
在今天,我們談?wù)摯髷?shù)據(jù),其實(shí)比大數(shù)據(jù)更火的一個(gè)概念是人工智能(AI)。有了云計(jì)算的基礎(chǔ)架構(gòu)之后,各領(lǐng)域的大數(shù)據(jù)應(yīng)用得以快速發(fā)展,當(dāng)大數(shù)據(jù)遇到了深度學(xué)習(xí)技術(shù),一種新的機(jī)器學(xué)習(xí)算法得到應(yīng)用。深度學(xué)習(xí)是一種算法的革命,加上物聯(lián)網(wǎng)的融合發(fā)展,我們看到了人工智能應(yīng)用的廣闊前景和應(yīng)用場(chǎng)景。
人工智能,對(duì)于閱讀和出版行業(yè)將會(huì)產(chǎn)生什么影響?運(yùn)用某種語(yǔ)言識(shí)別技術(shù),人們說(shuō)話的時(shí)候,聲音就可以同時(shí)轉(zhuǎn)換成文字。如今,這種轉(zhuǎn)換的準(zhǔn)確率已經(jīng)有了極大的提高?!都~約客》雜志曾經(jīng)使用過(guò)一期封面,內(nèi)容是人類在向機(jī)器人乞討,這就說(shuō)明AI的影響是廣泛而深遠(yuǎn)的。在思考閱讀遇上大數(shù)據(jù)的同時(shí),我選擇了亞馬遜線下實(shí)體書(shū)店的一個(gè)視頻,通過(guò)深度學(xué)習(xí)算法,我們可以進(jìn)行視頻對(duì)象偵測(cè),識(shí)別書(shū)店內(nèi)外出現(xiàn)的人和物。今天亞馬遜書(shū)店的經(jīng)營(yíng)模式包含線下和線上,以及從線上往線下轉(zhuǎn)移的過(guò)程,這種模式在國(guó)內(nèi)被稱為“新零售”。實(shí)體書(shū)店也將融入這樣的新的經(jīng)濟(jì)模式。
人工智能在這樣一個(gè)實(shí)體書(shū)店能夠起到什么作用呢?通過(guò)視頻圖像分析的深度學(xué)習(xí)的AI技術(shù),我們可以用攝像頭捕捉每個(gè)人的購(gòu)物過(guò)程,識(shí)別每一位顧客、每一本書(shū)出現(xiàn)的場(chǎng)景。通過(guò)這樣的分析方法,我們可以了解到,什么樣的消費(fèi)者來(lái)到了書(shū)店,拿起了哪一本書(shū)。根據(jù)消費(fèi)者拿起的圖書(shū),就能夠感知到消費(fèi)者后續(xù)可能產(chǎn)生的行為。人工智能如今已經(jīng)可以處理視頻、圖像、聲音、語(yǔ)言和文字,而在技術(shù)應(yīng)用過(guò)程中,圖書(shū)發(fā)行產(chǎn)業(yè)鏈的方方面面可以思考利用人工智能改進(jìn)消費(fèi)升級(jí)和讀者洞察。
什么是大數(shù)據(jù),它如何助力了今天的人工智能?我們要去思考。在這樣一個(gè)過(guò)程中,計(jì)算機(jī)算法是怎么思考現(xiàn)實(shí)問(wèn)題的?我通過(guò)兩個(gè)案例來(lái)說(shuō)明大數(shù)據(jù)在內(nèi)容分析和推薦方面的應(yīng)用。
首先,我們輸入一份長(zhǎng)篇幅的數(shù)字文本(比如《羅密歐與朱麗葉》這本電子書(shū)),我們可以用文本識(shí)別技術(shù)找到其中的關(guān)鍵詞,作為其內(nèi)容篩選的基礎(chǔ)??梢蕴釤捚渲械娜宋?、地名,進(jìn)而研究圖書(shū)當(dāng)中的人物之間的關(guān)系、情節(jié)的演進(jìn)等。
再舉一個(gè)針對(duì)圖像進(jìn)行深度學(xué)習(xí)的案例。通過(guò)把一定數(shù)量的電影海報(bào)作為輸入,進(jìn)行深度卷積神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),可以形成這樣一個(gè)應(yīng)用,只要任意輸入一個(gè)電影海報(bào)的編碼,就能快速找到和這個(gè)海報(bào)最為類似的其他海報(bào),圖書(shū)封面當(dāng)然也可以做類似的研究。對(duì)圖書(shū)封面進(jìn)行大數(shù)據(jù)建模之后,當(dāng)消費(fèi)者選擇了一本圖書(shū),就可以在海量圖書(shū)當(dāng)中快速找到與其類似的圖書(shū)封面。
當(dāng)然,還可以將上述基于文本的分析和基于圖像的分析結(jié)合起來(lái),提煉出一本書(shū)更多的特征,這些特征就可以用于圖書(shū)商品的個(gè)性化推薦。而在這當(dāng)中,如果我們?cè)俳Y(jié)合更多消費(fèi)者的行為信息,還可以讓這個(gè)過(guò)程更加精準(zhǔn)。
我曾經(jīng)為《爆發(fā)》一書(shū)寫了如下的推薦語(yǔ):這是一個(gè)令人興奮的時(shí)代,也是一個(gè)大數(shù)據(jù)的時(shí)代,數(shù)據(jù)科學(xué)讓我們?cè)絹?lái)越多地從數(shù)據(jù)中觀察到人類社會(huì)的復(fù)雜行為模式。以數(shù)據(jù)為基礎(chǔ)的技術(shù)決定著我們的未來(lái),但并不是數(shù)據(jù)本身,而是我們從數(shù)據(jù)中擁有更多的可用知識(shí)的增加。
這不是危言聳聽(tīng),而是大數(shù)據(jù)技術(shù)支持產(chǎn)生了大量基于個(gè)人的信息記錄,而機(jī)器學(xué)習(xí)讓以往很多不可快速計(jì)算和分析的信息獲得了被快速識(shí)別的可能。比如,在微博來(lái)臨的時(shí)候,一個(gè)人所寫微博就可以告訴我們很多信息,比如推測(cè)你的性格,你的品牌愛(ài)好,你的消費(fèi)習(xí)慣,你的生活方式,甚至你的價(jià)值觀。因此,《爆發(fā)》一書(shū)的核心觀點(diǎn)是,人類行為的93%是可預(yù)知的。在圖書(shū)行業(yè),大數(shù)據(jù)最大的特點(diǎn)就是可以分析我們的讀者。
事實(shí)上,大數(shù)據(jù)和人工智能能夠?qū)崿F(xiàn)的遠(yuǎn)遠(yuǎn)不止這么多。當(dāng)閱讀遇上大數(shù)據(jù),我們還在面臨著巨大的未知。軟件定義一切,數(shù)據(jù)驅(qū)動(dòng)未來(lái),算法統(tǒng)治世界。特別是今天在移動(dòng)互聯(lián)網(wǎng)時(shí)代,算法更多地在重構(gòu)我們的分發(fā)渠道,數(shù)據(jù)更多的在驅(qū)動(dòng)我們的商業(yè)行為。未來(lái)不遠(yuǎn),未來(lái)已經(jīng)發(fā)生,所以我們應(yīng)該去擁抱大數(shù)據(jù),擁抱人工智能。當(dāng)閱讀遇到大數(shù)據(jù)時(shí),首先改變的應(yīng)該是我們工作、生活和思維方式,暢想未來(lái)無(wú)限的X。
(作者系中國(guó)傳媒大學(xué)新聞學(xué)院教授)