摘 要:技術(shù)有代謝,往來成古今。出版業(yè)因技術(shù)而生,也隨技術(shù)變遷,技術(shù)就刻在出版業(yè)的基因里。隨著以ChatGPT為代表的生成式人工智能工具的問世,專業(yè)出版領(lǐng)域也無可避免地卷入這場科技革新浪潮。本文簡要介紹了AI技術(shù)在專業(yè)出版和信息服務(wù)領(lǐng)域的應(yīng)用,以及其所帶來的機(jī)遇和挑戰(zhàn),并從四個(gè)角度探討了AI時(shí)代的出版策略:積極擁抱新技術(shù)、正視AI局限、關(guān)注可持續(xù)性以及始終立足高質(zhì)量內(nèi)容出版,讓出版業(yè)在技術(shù)變革時(shí)代理性、自信地立于浪潮之巔。
關(guān)鍵詞:專業(yè)出版 AI AI幻覺 版權(quán)保護(hù)
被譽(yù)為“當(dāng)代達(dá)爾文”的博物學(xué)家、思想家愛德華·威爾遜(E.O.Wilson)曾說過:“困擾人類真正的問題是,我們擁有石器時(shí)代的情感、中世紀(jì)的制度和上帝一樣的技術(shù)(god-like technology)。”在最新一輪人工智能(Artificial Intelligence)熱潮中,媒體大肆炒作AI如“上帝一樣”無所不能,讓我們深深感受到了這種困擾和悖論。
2022年11月,OpenAI公司旗下的生成式人工智能工具ChatGPT橫空出世,引發(fā)了新一輪人工智能熱潮。ChatGPT的背后是“大語言模型”技術(shù),一時(shí)間,國內(nèi)外技術(shù)公司集中跟進(jìn),掀起“百模大戰(zhàn)”;媒體持續(xù)跟蹤報(bào)道,“革命”“炸裂”“取代”“顛覆”等抓眼球的詞語不斷出現(xiàn)在媒體頭條,甚至出現(xiàn)“AI將很快超過人類智能”“硅基文明將取代碳基文明”等觀點(diǎn)。在如此喧囂的人工智能熱潮中,專業(yè)出版從業(yè)人士應(yīng)該如何思考自身定位?生成式AI給專業(yè)出版帶來了哪些機(jī)遇和挑戰(zhàn)?人工智能對于出版業(yè)未來發(fā)展究竟意味著什么?本文將結(jié)合全球領(lǐng)先的專業(yè)信息服務(wù)商之一勵(lì)訊集團(tuán)(RELX)的實(shí)踐,嘗試探索回答這些問題。
一、人工智能發(fā)展歷程中兩個(gè)值得關(guān)注的問題
出版人應(yīng)該對人工智能的發(fā)展歷史和技術(shù)本質(zhì)有基本了解。我們不必也不可能都成為技術(shù)專家,但如果不了解基本歷史脈絡(luò)和技術(shù)本質(zhì),很容易被媒體的熱炒帶偏。新一輪人工智能熱出現(xiàn)以來,關(guān)于人工智能歷史的圖書資料很多,筆者不再贅述。遍梳文獻(xiàn),有兩點(diǎn)值得我們關(guān)注。
(一)迄今為止,人工智能并無被廣泛接受的定義
眾所周知,人工智能這一名詞最早由計(jì)算機(jī)科學(xué)家約翰·麥卡錫于1956年提出,但在當(dāng)時(shí),就有人不同意這個(gè)提法。該領(lǐng)域的另一位先驅(qū)、諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)、圖靈獎(jiǎng)獲得者赫伯特·西蒙(Herbert Simon)建議使用“復(fù)雜信息處理”(Complex Information Processing)這一提法。[1]美國人工智能專家、圣塔菲研究所教授梅拉妮·米歇爾(Melanie Mitchell)在一次題為“人工智能的未來(The Future of Artificial Intelligence)的演講中說,提到人工智能,人們首先想到的是“一些技術(shù)”:會(huì)下棋的機(jī)器、GPS導(dǎo)航、語音識別、人臉識別、機(jī)器翻譯、對話機(jī)器人等,卻沒有統(tǒng)一的定義。人工智能學(xué)者和專業(yè)投資人李開復(fù)在《人工智能》一書中指出,討論人工智能的定義,就像哲學(xué)家討論“人何以為人”,沒有定論,并列舉了5種流行的定義。[2]國際經(jīng)典教科書《人工智能:現(xiàn)代方法》也沒有給出特別明確的定義,只是列舉了自然語言處理等6個(gè)領(lǐng)域,并稱“以上6個(gè)學(xué)科構(gòu)成了人工智能的大部分內(nèi)容”。[3]
人工智能為什么沒有經(jīng)典、統(tǒng)一的定義?主要有以下幾個(gè)原因:一是“智能”本身很難定義。大腦是已知世界最復(fù)雜的系統(tǒng),我們尚不完全清楚智能產(chǎn)生的機(jī)理,因此很難定義智能。二是人工智能這門學(xué)科還很年輕。從1956年“人工智能”這個(gè)專業(yè)術(shù)語出現(xiàn)到現(xiàn)在,只有近70年的歷史,而且尚在成長、探索初期。三是尚無統(tǒng)一的理論。中國科學(xué)院院士、清華大學(xué)人工智能研究院名譽(yù)院長張鈸教授認(rèn)為,人工智能目前只有一堆算法,沒有統(tǒng)一的理論。[4]華裔人工智能專家、斯坦福大學(xué)教授李飛飛在和AI科學(xué)家吳恩達(dá)的對話中說,人工智能還處在“前牛頓時(shí)代”,即沒有完備的理論,她夢想著將來有一天,人工智能領(lǐng)域能有一套公式,把原理說清楚。一門學(xué)科連統(tǒng)一的、被廣泛接受的定義都沒有,從一定程度上說明了該學(xué)科的某些局限性,這是出版人應(yīng)該了解的。
(二)人工智能的發(fā)展曾經(jīng)歷過兩次“寒冬”
縱觀人工智能發(fā)展的70年歷史,其進(jìn)程并非一帆風(fēng)順,而是起伏跌宕,既有熱潮,也有“寒冬”(見圖1)。[5]在AI寒冬期,過高的、不符合實(shí)際的預(yù)期一一破滅,公眾失望,政府科研經(jīng)費(fèi)縮減,企業(yè)減少投入,社會(huì)普遍唱衰。很多長期從事該領(lǐng)域研究的學(xué)者有切身體會(huì),人工智能專家梅拉妮·米歇爾教授提到,她博士畢業(yè)時(shí)正值20世紀(jì)90年代初的“AI寒冬”,有人建議她千萬不要把“研究人工智能”寫在簡歷里,否則很難找到工作。李開復(fù)也提到,1998年他到北京創(chuàng)建微軟中國研究院的時(shí)候,正值人工智能低潮,從事這個(gè)行業(yè)的專業(yè)人士都羞于提及“人工智能”這個(gè)詞,當(dāng)時(shí)人工智能就是“過分夸大、其實(shí)不管用的技術(shù)”的代名詞。根據(jù)科技咨詢公司Gartner發(fā)布的《2023人工智能技術(shù)成熟曲線圖》,當(dāng)前生成式AI正處于“泡沫巔峰期”的頂點(diǎn),未來很有可能經(jīng)歷泡沫破裂帶來的低谷期,之后再穩(wěn)步爬升至理性水平,并開始大規(guī)模應(yīng)用。[6]
圖1 人工智能發(fā)展歷程
人工智能發(fā)展歷程的上述兩個(gè)特點(diǎn)對于我們有何啟示?首先,人工智能還不是一門理論完備的學(xué)科。對于一門學(xué)科的發(fā)展,基礎(chǔ)理論極其重要。清華大學(xué)張鈸教授在第十二屆互聯(lián)網(wǎng)安全大會(huì)上的演講中提到,人工智能與信息科學(xué)的發(fā)展路徑不同,信息科學(xué)從一開始就有完備的基礎(chǔ)理論,所以其發(fā)展是平穩(wěn)的、線性上升的,研發(fā)出的技術(shù)、產(chǎn)品都是通用的。人工智能由于沒有完備的理論,只有一堆算法,其發(fā)展也是起起伏伏,研發(fā)出的技術(shù)和產(chǎn)品往往不能通用。其次,對新技術(shù)要抱有合理期待。對于一項(xiàng)新技術(shù),人們往往容易高估其短期應(yīng)用,而低估其長期影響。對于人工智能期望過高,賦予其無法完成的任務(wù),繼而失落,是所謂AI寒冬產(chǎn)生的主要原因。
二、生成式AI在專業(yè)出版領(lǐng)域的應(yīng)用
生成式AI技術(shù)的出現(xiàn),給專業(yè)信息服務(wù)(出版)領(lǐng)域帶來了新的機(jī)遇。但必須指出的是,專業(yè)信息服務(wù)領(lǐng)域應(yīng)用AI技術(shù)由來已久,在生成式AI技術(shù)出現(xiàn)之前,已經(jīng)有十幾年的應(yīng)用所謂“提取式AI”(Extractive AI,或稱為辨別式AI),即從海量的文本里梳理、提取出有價(jià)值的信息和知識,比較典型的應(yīng)用是搜索、推薦、知識圖譜、文本可視化等。生成式AI的出現(xiàn),并不會(huì)取代提取式AI,在專業(yè)信息服務(wù)領(lǐng)域,提取式AI仍然有巨大的應(yīng)用價(jià)值。
專業(yè)人士也對生成式AI寄予了一定的期望。根據(jù)勵(lì)訊集團(tuán)旗下兩家公司(律商聯(lián)訊、愛思唯爾)的調(diào)研報(bào)告,在法律信息服務(wù)領(lǐng)域,72%的專業(yè)人士預(yù)計(jì)生成式AI將對其日常工作產(chǎn)生積極影響;82%的受訪者希望生成式AI能夠幫助他們管理重復(fù)性的日常事務(wù)。[7]在科技醫(yī)學(xué)領(lǐng)域,72%的受訪者認(rèn)為AI將對其工作領(lǐng)域產(chǎn)生變革性或重大影響,95%的受訪者認(rèn)為AI將會(huì)加速知識發(fā)現(xiàn)的進(jìn)程。[8]
國際專業(yè)出版機(jī)構(gòu)迅速跟進(jìn),過去兩年內(nèi)已經(jīng)推出了一系列生成式AI產(chǎn)品。以筆者所在的勵(lì)訊集團(tuán)為例,目前已陸續(xù)推出十幾款生成式AI產(chǎn)品,包括服務(wù)于科技醫(yī)學(xué)領(lǐng)域的Scopus AI,ClinicalKey AI和Sherpath AI,服務(wù)于法律信息服務(wù)領(lǐng)域的Lexis+AI、Nexis+AI,以及大宗商品市場咨詢領(lǐng)域的Ask ICIS和人力資源領(lǐng)域的Brightmine AI Assistant等。[9]國際專業(yè)出版機(jī)構(gòu)何以能夠迅速跟進(jìn)、占得先機(jī)?對于中國出版專業(yè)人士有何值得借鑒之處?筆者認(rèn)為有三點(diǎn)經(jīng)驗(yàn)可供參考。
(一)高質(zhì)量、可信賴的數(shù)據(jù)和內(nèi)容是大廈之基
與一般大眾性、娛樂性AI產(chǎn)品不同,專業(yè)出版領(lǐng)域的生成式AI產(chǎn)品,準(zhǔn)確性、嚴(yán)謹(jǐn)性是第一要求。以Scopus AI為例,其開發(fā)基于全球廣泛使用的摘要和引文數(shù)據(jù)庫Scopus,收錄包括自然科學(xué)、醫(yī)學(xué)、社會(huì)與人文科學(xué)及生命科學(xué)等不同學(xué)科領(lǐng)域的同行評審學(xué)術(shù)期刊超過2.8萬本、15萬次學(xué)術(shù)會(huì)議和超過1200萬篇會(huì)議論文、超過7.4萬卷系列叢書、35萬本學(xué)術(shù)專著以及全球五大專利局超過5000萬條專利記錄和信息。這些經(jīng)過同行評審的、高質(zhì)量可信賴的內(nèi)容和數(shù)據(jù),是降低“幻覺”(后文詳述)發(fā)生率的基礎(chǔ)。
(二)a95a7006f8a2ae73d15d12476247371aea186bac4364b634b01e4d5d8ea24e62較早實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型是戰(zhàn)略關(guān)鍵
“無數(shù)據(jù),不AI”。紙質(zhì)的內(nèi)容不是數(shù)據(jù),無法被AI技術(shù)所利用。實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型、積累海量數(shù)據(jù)是國際專業(yè)出版機(jī)構(gòu)在AI浪潮中占得先機(jī)的首要原因。如勵(lì)訊集團(tuán)從20世紀(jì)90年代初期開始探索數(shù)字化,早在1999年就推出了在線科技醫(yī)學(xué)信息平臺(tái)ScienceDirect。2000年該集團(tuán)數(shù)字化收入只占總收入的22%,到2023年,集團(tuán)的紙質(zhì)收入已經(jīng)下降到總收入的5%,基本實(shí)現(xiàn)了從紙質(zhì)出版到數(shù)字化出版的轉(zhuǎn)變。
(三)正確的人工智能指導(dǎo)原則是指南針
人工智能與人類歷史上出現(xiàn)過的很多新技術(shù)一樣,是一柄“雙刃劍”,既能帶來效率和進(jìn)步,創(chuàng)造巨大財(cái)富,但如果利用不當(dāng),也能造成嚴(yán)重危害。因此,合乎道德倫理和安全標(biāo)準(zhǔn)的技術(shù)指引至關(guān)重要。勵(lì)訊集團(tuán)2022年6月發(fā)布《負(fù)責(zé)任的人工智能原則》(Responsible Artificial Intelligence Principles at RELX),要求企業(yè)內(nèi)部在利用人工智能技術(shù)以及開發(fā)部署人工智能產(chǎn)品的過程中做到五點(diǎn):①充分考量解決方案對人們的現(xiàn)實(shí)影響;②采取措施,防止產(chǎn)生或強(qiáng)化不公平的偏見;③能夠解釋解決方案如何運(yùn)作;④通過人為監(jiān)督來保證安全可信;⑤尊重隱私,倡導(dǎo)穩(wěn)健的數(shù)據(jù)治理。隨著技術(shù)的發(fā)展和討論的深入,人工智能相關(guān)原則也會(huì)不斷地調(diào)整和演變,以確保適應(yīng)最新的情況和需求。
三、生成式AI在專業(yè)出版領(lǐng)域的挑戰(zhàn)
生成式AI在給專業(yè)出版創(chuàng)造機(jī)遇的同時(shí),也帶來某些嚴(yán)峻的挑戰(zhàn)。比如在科技醫(yī)學(xué)出版領(lǐng)域,有人擔(dān)心大量用AI工具寫成的低質(zhì)量甚至假造的“垃圾論文”會(huì)如潮水般涌入科研界,助長“論文工廠”等頑疾;在同行評審方面,雖然絕大多數(shù)科研機(jī)構(gòu)和出版商都禁止使用生成式AI工具代替科研人員本人進(jìn)行同行評審,但《自然》(Nature)雜志2024年4月發(fā)表的一篇文章[10]發(fā)現(xiàn),目前有17%的同行評審意見被生成式AI大幅修改過。這不僅會(huì)動(dòng)搖同行評審這一科研出版評價(jià)的基石,而且有可能產(chǎn)生數(shù)據(jù)安全和保密性等方面的風(fēng)險(xiǎn)。除此之外,還有兩大挑戰(zhàn)需要引起我們的高度重視。
(一)生成式人工智能的“幻覺”問題
所謂人工智能“幻覺”(hallucination),表現(xiàn)為AI生成的回應(yīng)中包含被當(dāng)作事實(shí)呈現(xiàn)的虛假或誤導(dǎo)性信息,即“一本正經(jīng)地胡說八道”。據(jù)《紐約時(shí)報(bào)》2023年5月27日報(bào)道,一位美國律師在準(zhǔn)備辯護(hù)材料的時(shí)候使用了ChatGPT,AI工具給他編造了6個(gè)并不存在的司法案例。在科技醫(yī)學(xué)出版領(lǐng)域,也發(fā)現(xiàn)了某些大眾使用的生成式AI工具會(huì)編造并不存在的文獻(xiàn)進(jìn)行引用的案例。另外一個(gè)更令人啼笑皆非的例子是,某國際搜索引擎在整合了生成式AI技術(shù)后,推出了號稱下一代搜索引擎的“AI Overview”功能,可是有媒體報(bào)道,這一功能竟然推薦用戶每天吃一小塊石頭以補(bǔ)充礦物質(zhì),制作披薩餅的時(shí)候放入膠水以防止奶酪滑落。[11]在大眾或泛娛樂的應(yīng)用中,生成結(jié)果的輕度誤差或許無傷大雅,但在以嚴(yán)謹(jǐn)性著稱的科技、醫(yī)學(xué)、法律等領(lǐng)域,這是我們能夠接受和容忍的嗎?
生成式AI的“幻覺”是如何產(chǎn)生的?筆者認(rèn)為主要有兩個(gè)原因。第一是數(shù)據(jù)質(zhì)量。清華大學(xué)張鈸院士在“2023人工智能合作與治理國際論壇(香港)”上的演講中提到,人工智能“幻覺”的主要來源之一是訓(xùn)練數(shù)據(jù)不完整、不準(zhǔn)確。高質(zhì)量、可信賴的訓(xùn)練數(shù)據(jù)對大模型生成內(nèi)容質(zhì)量至關(guān)重要。西諺所謂“垃圾進(jìn),垃圾出(garbage in,garbage out)”,使用有缺陷、低質(zhì)量的數(shù)據(jù)所訓(xùn)練出來的模型,其輸出的內(nèi)容也一定不會(huì)是高質(zhì)量的。第二是機(jī)器學(xué)習(xí)算法的本質(zhì)?!吧疃葘W(xué)習(xí)教父”之一楊立昆提到,目前大語言模型的機(jī)制本質(zhì)上是概率統(tǒng)計(jì),是“推測下一個(gè)詞”,如果前面一個(gè)詞推測錯(cuò)了,就會(huì)影響到后面的輸出結(jié)果,一錯(cuò)再錯(cuò)。南京大學(xué)人工智能學(xué)院院長周志華教授在2023百度云智大會(huì)演講中指出,機(jī)器學(xué)習(xí)的本質(zhì)是“概率近似正確”,“完全依靠大語言模型,無法做到對一件事情有絕對的把握”。他認(rèn)為,人工智能領(lǐng)域長期存在的“圣杯”問題,就是如何能夠把機(jī)器學(xué)習(xí)和邏輯推理很好地融合起來。
從目前來看,解決“幻覺”問題的關(guān)鍵路徑之一,就是從使用高質(zhì)量、可信賴的訓(xùn)練數(shù)據(jù)入手。鑒于此,目前一些國家已經(jīng)在法律法規(guī)層面提出了要求,例如歐盟的《人工智能法案》(AI Act)要求:“訓(xùn)練、驗(yàn)證和測試數(shù)據(jù)集應(yīng)具有相關(guān)性和充分的代表性,并在盡最大可能地范圍內(nèi)沒有錯(cuò)誤,并且從預(yù)期目的來看是完整的。”[12]我國《生成式人工智能服務(wù)管理暫行辦法》規(guī)定:“采取有效措施提高訓(xùn)練數(shù)據(jù)質(zhì)量,增強(qiáng)訓(xùn)練數(shù)據(jù)的真實(shí)性、準(zhǔn)確性、客觀性、多樣性。”[13]
(二)生成式人工智能與版權(quán)保護(hù)
大語言模型之所以稱為“大”,原因之一是其訓(xùn)練數(shù)據(jù)是海量的,動(dòng)輒上萬億token,[14]生成式AI工具在訓(xùn)練數(shù)據(jù)中究竟包含多少版權(quán)作品?該不該為此付費(fèi)?這已經(jīng)成為國際熱點(diǎn)話題。全球范圍內(nèi),很多作家、藝術(shù)家、出版商、其他權(quán)利人協(xié)會(huì)及政府主管部門正在采取行動(dòng),一系列訴訟案例正在高調(diào)進(jìn)行。例如《權(quán)力的游戲》作者喬治·馬丁等17位作家起訴OpenAI,稱ChatGPT侵犯其版權(quán);美國《紐約時(shí)報(bào)》將OpenAI和微軟告上法庭,指控這兩家公司未經(jīng)授權(quán)使用該媒體數(shù)以百萬計(jì)的文章訓(xùn)練AI大模型。2024年3月,法國市場監(jiān)管機(jī)構(gòu)針對谷歌公司開出了2.5億歐元的巨額罰單,原因是谷歌在未經(jīng)法國出版商和新聞機(jī)構(gòu)同意的情況下,擅自使用其內(nèi)容訓(xùn)練聊天機(jī)器人。
即使在AI公司內(nèi)部也有不同聲音。頭部人工智能初創(chuàng)公司Stability AI 前任高管Ed Newton-Rex因無法認(rèn)同公司使用版權(quán)內(nèi)容訓(xùn)練大模型而選擇離職,轉(zhuǎn)而創(chuàng)建了非營利組織“合理訓(xùn)練(Fairly Trained)”,為能夠證明已獲得版權(quán)許可的AI模型提供認(rèn)證標(biāo)簽,從而推動(dòng)版權(quán)友好型的人工智能訓(xùn)練。
版權(quán)法已存在三百多年,是保護(hù)、激勵(lì)創(chuàng)新創(chuàng)造的重要機(jī)制。從歷史看未來,生成式AI要行穩(wěn)致遠(yuǎn),未來需要堅(jiān)持兩點(diǎn):一是透明,即公開披露用于訓(xùn)練大模型的數(shù)據(jù),特別是有版權(quán)的內(nèi)容和數(shù)據(jù);二是授權(quán),即人工智能公司應(yīng)當(dāng)在獲得權(quán)利人的授權(quán)許可之后才能使用其作品進(jìn)行訓(xùn)練。中國版權(quán)協(xié)會(huì)理事長閻曉宏在一篇采訪文章中曾經(jīng)提到,國內(nèi)外普遍對人工智能持積極推動(dòng)的態(tài)度,但需要注意的是,支持使用、支持發(fā)展,但這種使用不能是無償?shù)?,我們需要考慮如何支付報(bào)酬,不能允許無償使用這些創(chuàng)作成果。[15]
國際和國內(nèi)立法以及行業(yè)標(biāo)準(zhǔn)方面也已經(jīng)展現(xiàn)出這一趨勢。國際層面,歐盟《人工智能法案》事實(shí)陳述第105條中規(guī)定“對受版權(quán)保護(hù)內(nèi)容的任何使用都必須獲得相關(guān)權(quán)利人的授權(quán),除非適用相關(guān)的版權(quán)例外和限制”。第107條中規(guī)定“為了提高通用人工智能模型的預(yù)訓(xùn)練和訓(xùn)練中使用的數(shù)據(jù)的透明度,包括受版權(quán)法保護(hù)的文本和數(shù)據(jù),此類模型的提供者應(yīng)就通用模型訓(xùn)練中使用的內(nèi)容制定并公開足夠詳細(xì)的摘要”。
在國內(nèi),由全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)發(fā)布的《生成式人工智能服務(wù)安全基本要求》(TC260-003)規(guī)定,“語料用于訓(xùn)練前,應(yīng)對語料中的主要知識產(chǎn)權(quán)侵權(quán)風(fēng)險(xiǎn)進(jìn)行識別,發(fā)現(xiàn)存在知識產(chǎn)權(quán)侵權(quán)等問題的,服務(wù)提供者不應(yīng)使用相關(guān)語料進(jìn)行訓(xùn)練;例如,語料中包含文學(xué)、藝術(shù)、科學(xué)作品的,應(yīng)重點(diǎn)識別語料以及生成內(nèi)容中的著作權(quán)侵權(quán)問題”;“宜具備以下知識產(chǎn)權(quán)措施:—— 公開語料中涉及知識產(chǎn)權(quán)部分的摘要信息?!盵16]
必須指出的是,版權(quán)產(chǎn)業(yè)與AI技術(shù)公司并不是你死我活的競爭,而應(yīng)該是“競合”的關(guān)系。近期網(wǎng)絡(luò)上出現(xiàn)多則AI公司與版權(quán)方達(dá)成合作的消息。如2024年4月,OpenAI與英國《金融時(shí)報(bào)》宣布達(dá)成戰(zhàn)略合作伙伴關(guān)系,ChatGPT可以從《金融時(shí)報(bào)》的文章中提取摘要來生成回答,并提供相關(guān)新聞引述和鏈接。5月,OpenAI與新聞集團(tuán)簽署內(nèi)容合作協(xié)議,獲準(zhǔn)獲取新聞集團(tuán)旗下包括《華爾街日報(bào)》等十余家媒體的內(nèi)容并用于生成內(nèi)容。
四、AI時(shí)代的出版策略
如果化用一句古詩,可以說“技術(shù)有代謝,往來成古今”。從1450年代古登堡發(fā)明印刷機(jī)算起,近現(xiàn)代出版業(yè)已經(jīng)有五百多年的歷史。五百年來,每逢信息傳播領(lǐng)域出現(xiàn)新技術(shù)(如廣播、電視、互聯(lián)網(wǎng)),往往伴隨出現(xiàn)“出版衰亡”的論調(diào)。如互聯(lián)網(wǎng)技術(shù)出現(xiàn)以后,1995年的《福布斯》雜志就曾發(fā)表過一篇文章《互聯(lián)網(wǎng)的第一個(gè)犧牲品?》,預(yù)測互聯(lián)網(wǎng)將帶來專業(yè)出版的末日,并預(yù)言以勵(lì)訊集團(tuán)(彼時(shí)稱勵(lì)德·愛思唯爾)為代表的專業(yè)出版商將走入窮途末路。20年過后,勵(lì)訊集團(tuán)不但沒有破產(chǎn)消亡,反而在數(shù)字化和新技術(shù)應(yīng)用方面越來越強(qiáng)大。在新一輪人工智能熱潮中,專業(yè)出版業(yè)應(yīng)該采取何種策略?
(一)積極擁抱新技術(shù),為用戶(讀者)提供更有價(jià)值的服務(wù)
縱觀出版發(fā)展歷史,出版業(yè)因技術(shù)而生,隨技術(shù)變遷,從來不曾畏懼過新技術(shù)?!洞笥倏迫珪逢P(guān)于出版的詞條開篇就說:“回顧出版業(yè)的歷史,其突出特點(diǎn)就是與技術(shù)創(chuàng)新和社會(huì)變革緊密交織在一起,互相促進(jìn)。今天我們所熟知的出版離不開三項(xiàng)主要技術(shù)發(fā)明:文字書寫、紙張和印刷,還有一項(xiàng)社會(huì)變革,即大眾讀寫能力的提升?!盵17]可以說,技術(shù)創(chuàng)新和應(yīng)用就刻在出版業(yè)的DNA里面,潛移默化地指導(dǎo)著這一古老行業(yè)的發(fā)展。新的信息傳播技術(shù)出現(xiàn),是一件大好事,為專業(yè)出版界提供了更多服務(wù)好讀者的新工具、新方法、新渠道。
(二)正視生成式AI的局限,防止在AI熱潮中失去定力
目前人工智能有過度炒作的趨勢,導(dǎo)致人們忽視了其諸多局限。中科院院士、人工智能研究專家譚鐵牛曾經(jīng)生動(dòng)地將AI目前的局限性概括為四點(diǎn):①有智能沒智慧:AI沒有意識和悟性,缺乏綜合規(guī)劃決策能力;②有智商沒情商:機(jī)器人對人的情感理解與交流還處于起步階段;③會(huì)計(jì)算不會(huì)“算計(jì)”:人工智能系統(tǒng)可謂有智無心,更無謀;④有專才無通才:會(huì)下圍棋的“AlphaGo”不會(huì)下象棋。[18]對于大語言模型,楊立昆認(rèn)為,語言只承載著人類所有知識的一小部分,大部分人類知識以及所有動(dòng)物知識都是非語言的(且非符號的),因此大語言模型永遠(yuǎn)無法接近人類水平的智能[19]。螞蟻集團(tuán)CTO何征宇也把大模型的原始、笨拙描述成“鉆木取火”,他說:“我們今天并沒有找到AI產(chǎn)生如此效果的本質(zhì),沒有人能用數(shù)學(xué)的方法描述它。這就好比鉆木取火,火有用處,但鉆木并非最好的方法。今天的AI仍然處在鉆木取火階段,因此成本高昂?!盵20]基于相似的認(rèn)識,楊立昆甚至預(yù)言大模型在5年之后就會(huì)消失。
(三)要重視生成式人工智能的可持續(xù)性問題
生成式人工智能的高成本和能源消耗問題日益凸顯。根據(jù)斯坦福大學(xué)AI Index的估算,OpenAI的GPT-4估計(jì)使用了價(jià)值7800萬美元的計(jì)算資源進(jìn)行訓(xùn)練,谷歌的Gemini Ultra的計(jì)算成本則高達(dá)1.91億美元。[21]南加州大學(xué)安納伯格新聞傳播學(xué)院教授Kate Crawford在其2024年發(fā)表于《自然》(Nature)雜志上的一篇論文中提到,ChatGPT目前總計(jì)消耗的電力相當(dāng)于(美國)3.3萬個(gè)家庭的用電量,而其用于冷卻處理器消耗的水資源相當(dāng)于當(dāng)?shù)?%的用水量?!皫啄曛畠?nèi),大型人工智能系統(tǒng)消耗的能源可能會(huì)和整個(gè)國家一樣多。”[22]相比之下,人腦只有20瓦的能源消耗,卻能夠進(jìn)行極其復(fù)雜的生物計(jì)算。中國科學(xué)院院士李國杰指出,目前的AI實(shí)現(xiàn)的是“大數(shù)據(jù)、小任務(wù)”,而人腦是“小數(shù)據(jù)、大任務(wù)”,研發(fā)實(shí)現(xiàn)低能耗的智能系統(tǒng)是未來方向。[23]一項(xiàng)新技術(shù)的能源消耗竟如此之大,令人始料未及。其可持續(xù)性如何?出版業(yè)應(yīng)該為此投入多大規(guī)模資金和人力物力?這些是值得我們密切關(guān)注和思考的問題。
(四)專注于高質(zhì)量內(nèi)容的生產(chǎn)、傳播和保護(hù)
生成式AI技術(shù)的出現(xiàn),再一次證明了高質(zhì)量、可信賴的內(nèi)容有巨大價(jià)值,是人類社會(huì)的寶貴財(cái)富。出版業(yè)最核心的能力和任務(wù)就是產(chǎn)出高質(zhì)量的內(nèi)容。據(jù)美國智庫Epoch研究,為訓(xùn)練大模型,技術(shù)公司從互聯(lián)網(wǎng)上獲取的數(shù)據(jù)到2026年就會(huì)用完[24],AI研究專家和從業(yè)人員都認(rèn)為,最有價(jià)值的數(shù)據(jù)就是出版社所出版的圖書、期刊等出版物,它們都是專業(yè)人員精心寫作和編輯的。AI公司正在考慮如何進(jìn)一步利用這些高質(zhì)量內(nèi)容。據(jù)媒體報(bào)道,某大型技術(shù)公司內(nèi)部流出的一段會(huì)議錄音爆料,該公司早在2023年3月就開始研究這一問題,3~4月間幾乎每天開會(huì),對于新書,他們在考慮以每本10美元的價(jià)格獲得內(nèi)容授權(quán),甚至考慮干脆收購一家國際知名出版公司西蒙·舒斯特。[25]對于出版業(yè)來說,AI時(shí)代,仍然是內(nèi)容為王。如何生產(chǎn)、傳播和保護(hù)好這些高質(zhì)量的內(nèi)容,是新時(shí)代出版人的責(zé)任。
AI時(shí)代專業(yè)出版商的策略,如果可以總結(jié)為一條公式的話,那就是:高質(zhì)量、可信賴的內(nèi)容+對用戶需求的深刻理解+技術(shù)與平臺(tái)+負(fù)責(zé)任的AI指導(dǎo)原則=專業(yè)出版的制勝關(guān)鍵。
五、結(jié)語
這一輪人工智能熱潮引發(fā)了很多科學(xué)和哲學(xué)思考,其中一個(gè)核心問題是:我們能否人工復(fù)制人類水平的智能?本文開頭引用過思想家愛德華·威爾遜的話,他對人工智能的未來做過如下判斷:因?yàn)槿祟愔悄鼙举|(zhì)上是一種物理現(xiàn)象(起源于大腦內(nèi)部神經(jīng)元及其復(fù)雜的物理連接),所以從理論上和原則上說,這是可能的,但實(shí)踐上卻難以做到。原因有二:第一個(gè)障礙是所謂“功能障礙”。腦科學(xué)研究發(fā)現(xiàn),人類情感是智能的組成部分,情感和理性是不可分割的,“數(shù)學(xué)上有純定理,思想上無純理性”,必須能夠發(fā)明安裝“人工情感”,否則無論大腦科學(xué)如何發(fā)達(dá),人工智能技術(shù)如何先進(jìn),都無法復(fù)制人類智能。第二個(gè)障礙是“演化障礙”。人類智能是生物長期演化、遺傳的結(jié)果,是所謂“上帝的磨坊”——在幾百萬年甚至幾十億年中緩慢地、仔細(xì)地“研磨”,才演化成如此復(fù)雜的系統(tǒng)。人腦有860億個(gè)神經(jīng)元,每個(gè)神經(jīng)元有五千到一萬只突觸,互相連接。如何在人工智能中填滿人一生的經(jīng)驗(yàn)?他認(rèn)為即使人類潛能無限,也很難達(dá)到。[26]人工智能專家梅拉妮·米歇爾認(rèn)為,人工智能要達(dá)到人類水平智能,恐怕需要100年以上,或者“100個(gè)諾貝爾獎(jiǎng)之后”。
篇幅所限,本文無法詳細(xì)深入探討人工智能和人類的未來,在此僅用四個(gè)關(guān)鍵詞,代表筆者的看法。①敬畏——人類大腦是生物演化40億年的產(chǎn)物,是已知世界最復(fù)雜的系統(tǒng),我們到現(xiàn)在也沒有完全掌握其產(chǎn)生智能的機(jī)理,人工智能能否達(dá)成人類大腦(包括身體)的全面智能,還是一個(gè)問題,要對大腦和人類智能充滿敬畏。②信心——在人類演化的700萬年歷史中,曾經(jīng)使用、發(fā)明過許多工具,這些工具既能創(chuàng)造巨大價(jià)值,也能給人類帶來巨大災(zāi)難,例如火、刀、核能等,但人類沒有被這些工具滅絕,要對人類充滿信心。③治理——人工智能是非常有用的工具,但也僅僅是人類使用的諸多工具之一。AI需要治理,就像交通、醫(yī)療需要管理,化學(xué)武器、核武器需要國際條約管理。通過治理,把人工智能牢牢掌握在人類手中。④理性——我們曾經(jīng)歷過信息極度匱乏的時(shí)代,現(xiàn)在卻面臨信息過載。媒體如此喧囂、過度傳播,很多聲音,包括正面和負(fù)面的,都被放大。我們要理性對待AI熱。人工智能曾經(jīng)經(jīng)歷過兩次寒冬,都是由于寄予其不切實(shí)際的過高期望,喧囂過后,不要讓人工智能再次進(jìn)入寒冬。
(作者單位系勵(lì)訊集團(tuán)中國區(qū))