□文│蘇 磊 楊曉新
1995年,亞馬遜網(wǎng)絡(luò)電子商務(wù)公司成立,開始在線銷售傳統(tǒng)出版物。1998年,谷歌搜索引擎誕生,大量網(wǎng)站如雨后春筍般崛起,網(wǎng)頁文本的自然語言處理得到了迅速的發(fā)展,海量的數(shù)據(jù)為機(jī)器學(xué)習(xí)提供了大量的素材。欣頓教授領(lǐng)銜的深度學(xué)習(xí)算法可以從數(shù)據(jù)中發(fā)現(xiàn)特征量,這使得人工智能的準(zhǔn)確性發(fā)生了質(zhì)變。云計算、圖形處理器等多核并行計算流的方式為人工智能的算力提供了保障。全球著名的互聯(lián)網(wǎng)咨詢公司高德納在2018年發(fā)布的報告指出,今后10年人工智能技術(shù)將為大眾所用,無處不在。其中一些技術(shù)如深度神經(jīng)網(wǎng)絡(luò)和虛擬助手,將在今后2~5年內(nèi)進(jìn)入主流采用階段。毫無疑問,人工智能技術(shù)已經(jīng)融入社會生活中,并已成為不可逆轉(zhuǎn)的趨勢。這也是人類繼以蒸汽機(jī)、電力、互聯(lián)網(wǎng)為標(biāo)志之后的第四次革命,人工智能成為這次革命的新動力。
美國作為引領(lǐng)世界科技的強國,政府先后發(fā)布《為未來人工智能做好準(zhǔn)備》《美國國家人工智能研究與發(fā)展策略規(guī)劃》《人工智能、自動化及經(jīng)濟(jì)》等文件,從技術(shù)、經(jīng)濟(jì)、倫理、政策扶持等多個維度指導(dǎo)行業(yè)的發(fā)展。2019年2月,特朗普簽署《美國人工智能倡議》,明確要求聯(lián)邦機(jī)構(gòu)在研發(fā)投入中把人工智能列入優(yōu)先地位,擴(kuò)大科研人員權(quán)限,同時要促進(jìn)人工智能在各行各業(yè)的應(yīng)用發(fā)展。
傳統(tǒng)出版業(yè)率先受到人工智能的沖擊。由于圖書具有完備的各種信息,包括書名、作者、出版社、出版日期、國際標(biāo)準(zhǔn)書號(ISBN)等,信息非常容易上網(wǎng)并被檢索。亞馬遜通過收集用戶購買圖書的消費行為,自動分析用戶的需求,為每個用戶提供個性化的定制書目。隨著算法的不斷改進(jìn),出版業(yè)中的人工智能已不再被局限于那些重復(fù)的機(jī)械的統(tǒng)計工作,它們開始變得越來越聰明,通過對各類數(shù)據(jù)的挖掘思考,可實現(xiàn)精準(zhǔn)預(yù)測、智能編輯、個性交互和精細(xì)操作的能力。
對用戶進(jìn)行分析。以大數(shù)據(jù)挖掘為特征的人工智能技術(shù)可以幫助出版社做出更精準(zhǔn)、高效的決策。出版社通過利用人工智能技術(shù),根據(jù)互聯(lián)網(wǎng)的熱門事件、熱點詞匯、用戶參與度、圖書論壇、銷售數(shù)據(jù)、閱讀數(shù)據(jù)、評論數(shù)據(jù)等,通過各種算法,對用戶進(jìn)行精準(zhǔn)的個性畫像,從而為出版社的內(nèi)容生產(chǎn)和推薦提供決策依據(jù)。成立于2011年的卡利斯特傳媒(Callisto Media)公司在2015年和2016年被《出版人周刊》評為增長最快的獨立出版商之一。該公司使用人工智能技術(shù)分析用戶的需求,每月收集大約6000萬條消費數(shù)據(jù)。用戶在亞馬遜上搜索一條信息,如果沒有產(chǎn)品能滿足用戶的需求,這就意味著潛在的商機(jī)。公司首席執(zhí)行官本杰明·韋恩表示他們會及時聯(lián)系作者,根據(jù)數(shù)據(jù)分析的大綱快速撰寫,并在9周內(nèi)將圖書推向市場。因此他們可以在一本銷售約1500本的書上盈利。
對內(nèi)容進(jìn)行分析。傳統(tǒng)的書籍有不可否認(rèn)的文化成分,但它們也是數(shù)據(jù)。通過文本數(shù)據(jù)的采集和整理,可以分析內(nèi)在的規(guī)則和形式。自然語言處理技術(shù)將文本的每一部分分為積極的、消極的或者中性的。把這些結(jié)果畫出來,就可以看到文本的情感弧線。機(jī)器人雖然對文本的具體內(nèi)容不了解,但它通過收集閱讀人類文本的情感反應(yīng)能力會逐步增長,對人的“理解”也就越精確。美國的故事情節(jié)(StoryFit)是一家專注于出版的人工智能分析公司。其利用人工智能分析圖書,構(gòu)建多維的內(nèi)容分析模型,如影響故事內(nèi)容情感的單詞、短語和術(shù)語,對讀者重要的關(guān)鍵元素、角色類型、沖突類型、時代特征等。再將這些內(nèi)容、主題模型與谷歌趨勢以及亞馬遜流行進(jìn)行比較和過濾,可以挑選出潛在的暢銷書。
對供應(yīng)鏈進(jìn)行分析。圖書從出版社收到稿件開始,通過審查和編輯等流程,確定新書的出版。根據(jù)經(jīng)驗,制定印刷冊數(shù)。經(jīng)過物流中心進(jìn)入批發(fā)市場到書店銷售給讀者構(gòu)成了完整的供應(yīng)鏈。通過人工智能分析各個階段的數(shù)據(jù),作者、出版社、物流中心、銷售渠道等都可以對讀者需求做出靈活積極的響應(yīng),不斷調(diào)整人力、財才、物力以適應(yīng)市場的需求。基于圖書銷售數(shù)據(jù),人工智能可以幫助書店建立完善的圖書供應(yīng)系統(tǒng),調(diào)整出版社的圖書供應(yīng)量與倉儲量,調(diào)節(jié)物流中心的倉庫配置,擴(kuò)大書籍銷售的機(jī)會。亞馬遜網(wǎng)上書店為了縮短物流配送時間,它與印刷公司合作,將部分圖書和雜志從印刷工廠直接出貨給讀者。同時,亞馬遜也和出版社開展合作,便于讀者能以最快的速度從分發(fā)渠道獲取他們想要的圖書。通過將客戶的數(shù)據(jù)與供應(yīng)商分享,人工智能技術(shù)可以實時分析讀者需求,為出版社、書店等做出預(yù)測判斷并制定最佳的決策,提高企業(yè)運營效率。
數(shù)據(jù)分析。人工智能應(yīng)用于數(shù)據(jù)分析主要是數(shù)據(jù)內(nèi)容是否能夠被結(jié)構(gòu)化表達(dá),如果結(jié)構(gòu)相對固定,則其模塊化程度也就愈高。體育、財經(jīng)、地震等領(lǐng)域都涉及大量的可被采集的高質(zhì)量數(shù)據(jù),其敘事結(jié)構(gòu)都有各自報道的邏輯和路徑模塊。機(jī)器人可以從這些數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,也就是“異常數(shù)據(jù)”,如最大值、最小值、異數(shù)、閾值等,然后將數(shù)據(jù)代入算法的模塊中,就可以自動生成文章。2010年年初,敘述科學(xué)(Narrative Science)公司開發(fā)了一款專為兒童棒球比賽寫作的平臺統(tǒng)計猴(Stats Monkey)。它可以使用棒球俚語,根據(jù)玩家的活動、游戲分?jǐn)?shù)和獲勝率等即時處理統(tǒng)計數(shù)據(jù)和生成比賽報告,深受小球迷的喜愛。2011年,它為兒童聯(lián)盟撰寫了40000份報告。2014年3月17日美國洛杉磯遭遇地震,《洛杉磯時報》內(nèi)部研發(fā)的地震機(jī)器人(Quakebot)在地震發(fā)生3分鐘后就完成新聞的撰寫和發(fā)布,成為新聞史上的一個里程碑。2014年起,美聯(lián)社開始使用AI技術(shù)平臺語言大師(wordsmith)進(jìn)行上市公司的財務(wù)報道和體育新聞報道。
文學(xué)創(chuàng)作。隨著數(shù)據(jù)的采集從文本逐漸擴(kuò)展到語義、情緒等非語言數(shù)據(jù),文學(xué)創(chuàng)作的過程也在逐步被量化和建模。從故事的構(gòu)思、素材的采集、組織與整理、文章結(jié)構(gòu)的處理,到最終的遣詞用句,都能發(fā)現(xiàn)一般模式和規(guī)則。而且分析不同作者的寫作風(fēng)格,機(jī)器人也可以從語義上進(jìn)行模仿。美國麻省理工學(xué)院媒體實驗室的研究團(tuán)隊設(shè)計了一個叫雪萊(Shelley)的AI恐怖故事作家,它在社交新聞網(wǎng)站(Reddit)平臺上學(xué)習(xí)了大量的恐怖故事,然后在多層次循環(huán)神經(jīng)網(wǎng)絡(luò)和在線學(xué)習(xí)算法的結(jié)合下,與人們在推特上互動,根據(jù)人群的反饋,創(chuàng)作恐怖故事。
文章翻譯。人工智能翻譯每天可以提供數(shù)億級別翻譯次數(shù),能夠快速學(xué)習(xí)和迭代相關(guān)領(lǐng)域的術(shù)語、詞語、句子、段落等,基本能滿足翻譯“信”和“達(dá)”。雖然對于一些復(fù)雜語法和語境還不能理解,不能夠?qū)⑿畔⒊尸F(xiàn)給不同文化背景的用戶,遠(yuǎn)未達(dá)到“雅” 的級別,但其高效性還是受到了廣大翻譯工作者的歡迎。2016年,谷歌翻譯推出了一個全新的人工智能翻譯引擎。對于未經(jīng)專業(yè)翻譯訓(xùn)練的人而言,其翻譯的文本幾乎與人工翻譯沒有區(qū)別。《紐約時報》將其譽為“偉大的人工智能的覺醒”。
圖像匹配。華蓋創(chuàng)意(Getty Images)公司專門為出版商提供查找新聞故事的最佳配圖的人工智能助手。它會根據(jù)諸如詞頻、已知的人或地方等參數(shù)來確定文本的含義和相關(guān)性。然后將其與來自存儲庫里超過1億張照片數(shù)據(jù)進(jìn)行匹配,顯示一系列圖像選項。華蓋創(chuàng)意高級副總裁安德魯·漢密爾頓指出:“在今天的數(shù)字世界中,出版商一直面臨著講述最新故事并爭奪消費者注意力的壓力,引人注目的圖像對于創(chuàng)建在線互動非常重要。”[1]
1997年,美國麻省理工學(xué)院的皮卡爾(Picard)教授提出“情感計算(affective computing)”概念。她把情感計算定義為“與情感有關(guān)、由情感引發(fā)或者能夠影響情感的因素的計算”,并指出人機(jī)交互的過程中,可以通過人的臉像、聲音、文本、肢體行為來了解人的情感反應(yīng)。[2]即賦予計算機(jī)像人一樣具有觀察和理解的能力,并可以針對用戶的情感做出友好反應(yīng)。圖書出版商哈珀·柯林斯出版社在2017年率先開始使用名叫史詩閱讀(Epic Reads)的聊天機(jī)器人,它主要為用戶推薦各類圖書。只要用戶對自己閱讀內(nèi)容有一個模糊的想法或者想隨機(jī)尋求一些建議,它都會給用戶明確的答案。企鵝蘭登書屋在2018 年發(fā)布了一款名為圖書記錄(Book Recs)的聊天機(jī)器人。這款機(jī)器人通過與用戶交流,可以為用戶推薦最多18本可能符合興趣的圖書。同時還會提醒用戶,如作者的新書、簽售會以及更多和圖書相關(guān)的消息。BAM Mobile公司與臉書公司合作,在臉書的Messenger、Slack和Telegram等平臺上推出“作者機(jī)器人”,為亞馬遜的智能音箱(Amazon Echo)和谷歌即時(Google Now)提供聲控找書和閱讀服務(wù)。通過該軟件,為用戶創(chuàng)建一個“真實”的對話,作者也可以參與對話用以協(xié)助讀者了解作品或回答讀者提問。
智能倉儲機(jī)器人。智能倉儲機(jī)器人是由一系列移動機(jī)器人來完成包括圖書上架下架、訂單識別、品種揀選、補貨退貨,盤點等流程的智能系統(tǒng)。2012年亞馬遜收購了機(jī)器人制造商基瓦系統(tǒng)(Kiva Systems),目前已在其物流配送中心部署了超過10萬臺基瓦機(jī)器人?;邫C(jī)器人依據(jù)算法指令規(guī)劃路徑找到貨架,運用超聲波傳感器與架貨進(jìn)行交流。當(dāng)基瓦識別到貨架上的貨物需出庫時,頂起貨架并將貨架運送到揀選位置,然后以優(yōu)先順序一字排開等待工人作業(yè)。據(jù)統(tǒng)計,它的工作效率是傳統(tǒng)物流作業(yè)的2~4倍,準(zhǔn)確率達(dá)到99.99%。
智能教育機(jī)器人。教育機(jī)器人是面向教育領(lǐng)域?qū)iT研發(fā)的以培養(yǎng)學(xué)生分析能力、創(chuàng)造能力和實踐能力為目標(biāo)的機(jī)器人,具有教學(xué)適用性、開放性、可擴(kuò)展性和友好的人機(jī)交互等特點。教育機(jī)器人廣泛應(yīng)用于STEAM(科學(xué)、技術(shù)、工程、藝術(shù)、數(shù)學(xué))教育、兒童娛樂教育和自閉癥兒童教育等方面。美國的通用機(jī)器人技術(shù)(General Robotics)公司的RB5X是專門在教育中應(yīng)用的全智慧教學(xué)機(jī)器人,具備各種感應(yīng)器,學(xué)生通過編程來控制RB5X說多國語言,讓它行走、旋轉(zhuǎn)、跳舞和撿拾物品。研究表明教育機(jī)器人作為一個學(xué)習(xí)工具有著巨大的潛力,不僅對教育環(huán)境產(chǎn)生積極的影響,而且適用于各種人群,通過多樣化的互動達(dá)到寓教于樂的目的。
人工智能已經(jīng)進(jìn)入了美國出版產(chǎn)業(yè)鏈中,越來越多的曾經(jīng)需要人類執(zhí)行的日常行政工作,在許多不同機(jī)器的幫助下,變得高效、簡單和高質(zhì)量。同時,那些需要人類預(yù)測、創(chuàng)作、交流和技巧的工作也出現(xiàn)了機(jī)器的身影。當(dāng)機(jī)器越來越智慧時,人機(jī)工作的邊界就會逐漸模糊,這給美國出版業(yè)帶來了深刻的影響。
在傳統(tǒng)媒體時代,信息量小、來源少、傳播方式單一,出版社是知識生產(chǎn)傳播的主要渠道。如今,這種運作模式正受到來自互聯(lián)網(wǎng)的影響,信息流通加速和渠道的多樣性,極大地提升了用戶獲取知識的便捷性。現(xiàn)在出版社發(fā)現(xiàn)為每本書找到用戶變得越來越困難,一方面來自于同行的競爭,例如美國每年出版的圖書數(shù)量在過去10年中增長了400%,現(xiàn)在達(dá)到了每年100萬本的數(shù)量;另一方面,來自于互聯(lián)網(wǎng)的數(shù)據(jù)科學(xué)家、系統(tǒng)程序員和知識工程師等,建立了維基百科,開發(fā)了共享開放存取模式。出版社的知識服務(wù)把關(guān)人角色受到了嚴(yán)重的挑戰(zhàn)。
如今,根據(jù)國際商業(yè)機(jī)器公司(IBM)的數(shù)據(jù),59%的出版企業(yè)正在利用數(shù)據(jù)進(jìn)行分析以達(dá)到“更快地將洞察力轉(zhuǎn)化為行動”,從而改變他們的工作流程。作家德布·瓦納斯在《獨立》雜志中指出,“今天的出版業(yè)創(chuàng)新者正在深入挖掘21世紀(jì)科技產(chǎn)生的海量數(shù)據(jù),以做出更加聰明智慧的決策”。[3]大量的出版企業(yè)在數(shù)字化建設(shè)的基礎(chǔ)上自主研發(fā)或者直接購買第三方的人工智能技術(shù),有分析圖書內(nèi)容Booxby軟件、StoryFit軟件等;有向用戶推薦內(nèi)容的Contextly插件;有采集用戶信息并提供咨詢的聊天機(jī)器人Authorbot;有輔助作者的寫作平臺Narrative Science。出版社的工作邊界正在被重新界定,學(xué)習(xí)運用人工智能技術(shù)成為智能時代“把關(guān)人”的基礎(chǔ)。
尼葛洛龐帝曾在《數(shù)字化生存》一書中提出了“我的日報”的設(shè)想:“未來界面代理人可以閱讀地球上每一種報紙、每一家通訊社的消息,掌握所有廣播電視的內(nèi)容,然后把資料組合成個人化的摘要。這種報紙每天只制作一個獨一無二的版本?!盵4]尼葛洛龐帝的想法現(xiàn)在已經(jīng)通過個性化的算法實現(xiàn)了。
不同算法可以應(yīng)用于出版的不同流程中,最大限度地提升了出版社服務(wù)質(zhì)量的時效性和個性化。特征詞算法和聚類算法可以協(xié)助編輯從海量的文稿中挖掘出有價值的作品;通過AFPR算法對信息進(jìn)行聚合排序,可作為暢銷作品的重要參考;基于n元短語模型算法和神經(jīng)網(wǎng)絡(luò)算法的寫作軟件可以實現(xiàn)部分作者創(chuàng)作的工作;循環(huán)神經(jīng)網(wǎng)絡(luò)算法可實現(xiàn)文本的翻譯;隨機(jī)森林算法和協(xié)同過濾算法可分析用戶網(wǎng)絡(luò)行為,形成用戶畫像,自動對不同用戶推送個性化的內(nèi)容。人工智能算法有效地提升了編輯決策的效率,提高了企業(yè)運行效能,并根據(jù)用戶需求提供高質(zhì)量的個性化服務(wù)。
隨著出版活動對數(shù)據(jù)的依賴性不斷增強,以數(shù)據(jù)為導(dǎo)向的出版模式正在形成,但由于數(shù)據(jù)的價值無法估量以及公司固有的商業(yè)模式,大量的數(shù)據(jù)并不共享。亞馬遜的Kindle電子書閱讀器記錄了一些讀者反復(fù)標(biāo)注和強調(diào)過的內(nèi)容,但是亞馬遜并沒有把這些數(shù)據(jù)賣給作者或者出版社。各大學(xué)術(shù)出版商將大量的科學(xué)文獻(xiàn)鎖定在收費的壁壘內(nèi),有價值的研究成果更是出版商版權(quán)保護(hù)重點。數(shù)據(jù)的不開放對于科學(xué)文獻(xiàn)的深度解析、機(jī)器學(xué)習(xí)帶來巨大的挑戰(zhàn)。
2002年,《布達(dá)佩斯開放獲取計劃》被提出后,開放獲取運動便在全球蓬勃興起,歐美國家經(jīng)過數(shù)十年的發(fā)展,其開放獲取在理論和實踐上都形成了較為完善的體系。一些開放獲取期刊已成為頂級的科學(xué)期刊,如CA-A Cancer Journal for Clinicians等。同時,各國政府也大力支持?jǐn)?shù)據(jù)共享。如在2019年《美國人工智能倡議》中要求,聯(lián)邦政府的數(shù)據(jù)將更多向人工智能研發(fā)人員和企業(yè)開放,以消除各行業(yè)之間“在功能上不關(guān)聯(lián)互助、信息不共享互換以及信息與業(yè)務(wù)流程和應(yīng)用相互脫節(jié)”的信息孤島現(xiàn)象。數(shù)據(jù)增值的關(guān)鍵在于整合,但自由整合的前提是數(shù)據(jù)的開放?,F(xiàn)在,越來越多的出版企業(yè)開始進(jìn)行聯(lián)盟,共享數(shù)據(jù),促進(jìn)知識服務(wù)的提質(zhì)增效。
出版分析師伊莎貝爾·湯普森指出:“出版社創(chuàng)造價值的方式正在改變。例如發(fā)現(xiàn)內(nèi)容、分析知識、記錄用戶行為、服務(wù)作者已成為出版社的關(guān)鍵組成部分,而這在十年前是根本不可能的。人工智能將加劇這些變化。”[5]這意味著出版社要在出版領(lǐng)域保持競爭力,就必須將人工智能應(yīng)用到出版工作中。今后,人機(jī)合作將是一種常態(tài)。人工智能可以完成大部分機(jī)械重復(fù)的工作,提升數(shù)據(jù)收集、整理、挖掘、檢查等方面的效率,并成為作者和用戶的橋梁。效率的提高必將有助于人類進(jìn)行更多的創(chuàng)造性工作。這是出版業(yè)前所未有的時代,出版人應(yīng)該積極擁抱技術(shù),推進(jìn)人工智能快速、有序、健康地發(fā)展。