宋時磊 楊逸云
(武漢大學(xué)文學(xué)院/漢語寫作研究中心,武漢,430072)(武漢大學(xué)文學(xué)院,武漢,430072)
2022 年11 月 底,美 國OpenAI 公 司 發(fā)布ChatGPT 后,人工智能聊天機(jī)器人(AI Chatbot)迅速成為“網(wǎng)紅”,各領(lǐng)域掀起了與其文本對話、使用其生產(chǎn)內(nèi)容的網(wǎng)絡(luò)“狂歡”,各學(xué)科也在評估和反思其帶來的挑戰(zhàn)和機(jī)遇[1]。 ChatGPT 是一款經(jīng)過訓(xùn)練的大語言模型,經(jīng)過了數(shù)個版本的迭代,與之前同類的聊天機(jī)器人相比,它能更出色地理解和生成自然語言,能夠完成廣泛的多種類任務(wù),特別是在整合信息、回答人類問題方面表現(xiàn)驚艷,并且還在不斷自動學(xué)習(xí)、進(jìn)化和提高。在此之前,AlphaGo 等專用人工智能已經(jīng)擊敗了人類的特定技能,而ChatGPT 大大推動了通用人工智能的發(fā)展,人工智能接近或者超越人類的時代或許即將到來。ChatGPT 類大語言模型通用人工智能是人類自我打開的“潘多拉魔盒”,勢必將對科技、教育、醫(yī)療、文學(xué)、藝術(shù)等領(lǐng)域產(chǎn)生深刻影響。近幾年跨媒介的人工智能發(fā)展迅速,ChatGPT 的優(yōu)異性體現(xiàn)在形式上的問與答以及內(nèi)容上的“從文本到文本”,生成的文字極具邏輯性和論證力。這對以文本內(nèi)容生產(chǎn)為使命的出版業(yè),特別是強(qiáng)調(diào)原創(chuàng)性的學(xué)術(shù)出版業(yè)造成了極大沖擊,引發(fā)了學(xué)術(shù)規(guī)范、倫理和道德的爭論,各期刊和出版社基于不同立場和態(tài)度出臺了針對大語言模型工具的規(guī)制政策。本文試對此分析,并提出ChatGPT 革命的意義以及學(xué)術(shù)出版應(yīng)對策略。
從事學(xué)術(shù)研究最基礎(chǔ)的工作是文獻(xiàn)綜述。然而查找相關(guān)文獻(xiàn)、閱讀、整理形成觀點,研究人員需要花費大量時間和精力。ChatGPT類大語言模型工具有很好的上下文理解和總結(jié)能力,故研究人員嘗試運(yùn)用其撰寫研究綜述。奧梅爾·艾登(?mer Ayd?n)等人以“醫(yī)療保健中的數(shù)字孿生”為題從谷歌學(xué)術(shù)上檢索文獻(xiàn),經(jīng)ChatGPT 閱讀和理解后,研究者向其提問,結(jié)果發(fā)現(xiàn)ChatGPT 轉(zhuǎn)述的論文內(nèi)容,與原論文有顯著的匹配性,較好地回答了提問。這說明現(xiàn)階段的人工智能工具能夠加速知識的編譯和表達(dá)[2]。研究者開始將ChatGPT 作為生產(chǎn)力工具來使用,輔助論文寫作、檢查編程代碼、撰寫科研項目申請書、引導(dǎo)頭腦風(fēng)暴等。ChatGPT 有被當(dāng)做數(shù)字秘書或數(shù)字助理的趨勢,哈佛大學(xué)的一位學(xué)者認(rèn)為ChatGPT 在非常專業(yè)的學(xué)術(shù)領(lǐng)域尚難完全勝任工作,但他也承認(rèn)使用其給出某個科研問題的20 種解決辦法時,ChatGPT 給出了他從未聽說過的統(tǒng)計學(xué)術(shù)語,進(jìn)而為論文撰寫打開了一個新的文獻(xiàn)領(lǐng)域[3]。有研究者使用ChatGPT 探討其快速生成、重寫和評估臨床小插圖集的能力,發(fā)現(xiàn)ChatGPT 在編寫基于疾病名稱的小插圖時能夠快速生成不同的上下文和癥狀概況描述,但過度使用了一些核心疾病癥狀。因此,這種應(yīng)用場景的使用過程需要人工監(jiān)控,結(jié)論也要進(jìn)行適當(dāng)審查[4]。
ChatGPT 自然流利、邏輯完整的生成內(nèi)容激發(fā)了人們的興趣,研究者通過不同問題測試模型及其效果,獲得了相應(yīng)的文本。而這些文本成為研究對象或論文內(nèi)容的有機(jī)構(gòu)成部分,承擔(dān)了論文合作者的角色,故已有少部分論文將ChatGPT 列為論文作者。根據(jù)語義學(xué)者(Semantic Scholar)、《自然》雜志的統(tǒng)計數(shù)據(jù),已有10 余篇論文把ChatGPT署為合作者,即賦予ChatGPT 人格化的署名權(quán)。2022 年6 月哈爾開放科學(xué)(HAL open science)上發(fā)表了一篇探討AI 論文生成能力的論文,GPT-3 被列為第一作者,ChatGPT是基于GPT 系列模型微調(diào)而誕生的聊天機(jī)器人,因此這篇論文可視為第一篇將大語言模型列為作者的學(xué)術(shù)論文[5]。ChatGPT 自2022 年11 月底上線以來,這類論文迅速增多。2022年12 月,醫(yī)學(xué)預(yù)印本資料庫medRxiv 上,發(fā)表了一篇測試ChatGPT 在美國醫(yī)學(xué)執(zhí)照考試過關(guān)能力的論文,ChatGPT 就被列為作者[6];AI 制藥公司香港英科智能創(chuàng)始人亞歷克斯·扎沃龍科夫(Alex Zhavoronkov)與ChatGPT合作完成了一篇探討雷帕霉素抗衰老應(yīng)用的論文[7]。扎沃龍科夫還表示,他們公司發(fā)表了80 多篇使用生成式人工智能工具寫作的論文,盡管這些論文沒有將人工智能工具署名[8]。2023 年1 月,英國曼徹斯特大學(xué)的健康技術(shù)研究員西沃恩·奧康納(Siobhan O’Connora)使用ChatGPT 撰寫了一篇社論的前五段,向?qū)W生和教師演示如何使用這一工具撰寫評估報告或者是學(xué)科論文,這篇文章同樣采取了合作署名的方式[9]。一些期刊編輯在撰寫“編者按”時,也與ChatGPT 共同署名[10]。還有一些文章是訪談式的,人類作者是訪談?wù)撸珻hatGPT 是被訪談?wù)?,人機(jī)對話生成文章、共同署名[11]。這種人機(jī)對話的文章頗多,其中涉及一些學(xué)術(shù)和專業(yè)領(lǐng)域的話題探討,《時代周刊》、中國新聞網(wǎng)、《中國教育報》、《中國證券報》等都曾刊登了相關(guān)文章。
ChatGPT 類大語言模型工具生成的內(nèi)容有多維和多元的特性。其一,針對同一個問題對象,它的回答內(nèi)容和方式不盡相同,并非是對網(wǎng)絡(luò)內(nèi)容的復(fù)制而是有機(jī)地整合和表達(dá),所形成的文字可以通過專門的文字工具進(jìn)行查重。其二,它的語料數(shù)據(jù)庫極其龐大,涉及多國語言,它可以根據(jù)問題調(diào)用各語言的信息,并用多種語言回答。其三,它可以根據(jù)人類的問題生成特定語言風(fēng)格和類型的文字,如可以快速生成莎士比亞式的表達(dá)風(fēng)格。在此之前,已有一些機(jī)構(gòu)或軟件開發(fā)了語法與修辭方面的語言修改、潤色工具如Grammaly,與這些工具相比,ChatGPT 在智能化、隨機(jī)化和多樣化等方面已經(jīng)有了質(zhì)的躍升。這些特性使得ChatGPT 類大語言模型工具可以成為人類很好的寫作助手,2022年計算生物學(xué)家凱西·格林(Casey Greene)和米爾頓·皮維多里(Milton Pividori)使用GPT-3 潤色論文,這一寫作助手在幾秒鐘內(nèi)就給出了修改建議,每篇文章只用5 分鐘便完成修改,可讀性大為提高,它還發(fā)現(xiàn)了一篇論文中一個方程式的參考文獻(xiàn)存在錯誤,并且成本和費用很低,每篇不到0.5 美元[12]。故《華爾街日報》使用人工智能為讀者生成個性化的浪漫喜劇宣傳文字內(nèi)容。2023 年1 月,熱點速報(BuzzFeed)宣布使用ChatGPT 來“增強(qiáng)”和“個性化”其平臺上的文字內(nèi)容,其首席執(zhí)行官約拿·帕瑞蒂(Jonah Peretti)認(rèn)為此舉可以發(fā)揮作家、制片人和創(chuàng)作者以及公司業(yè)務(wù)的創(chuàng)造力[13]。此功能的負(fù)面應(yīng)用隨之而來,如研究者可以在ChatGPT 中輸入一段已發(fā)表的文字并要求其用某學(xué)科的學(xué)術(shù)語言風(fēng)格改寫這段文字,則會生成一段主旨和主題一致、表達(dá)語氣和風(fēng)格全然不同的文字,這為學(xué)術(shù)剽竊打開了方便之門。
鑒于ChatGPT 類大語言模型的強(qiáng)大能力,有學(xué)者已經(jīng)嘗試由其完成一篇完整的論文?!督鹑谘芯靠靾蟆飞峡堑囊黄恼拢浴凹用茇泿诺慕鹑凇睘橹黝},首次提供了ChatGPT 幫助撰寫研究報告潛力的結(jié)構(gòu)化測試。他們借助這一工具實現(xiàn)了整篇論文想法生成、文獻(xiàn)回顧、數(shù)據(jù)識別和處理以及實證測試四個過程的內(nèi)容生成[14]。研究結(jié)果表明,通過ChatGPT 可以寫出一篇能夠被學(xué)術(shù)期刊接受的金融論文。其實,在此之前運(yùn)用人工智能手段獨立完成一部圖書或著作,生產(chǎn)內(nèi)容并不限于學(xué)術(shù)領(lǐng)域。1999 年美國舊金山曾發(fā)起“全國小說寫作月”(NaNoWriMo)的活動,要求參與者在一個月內(nèi)寫出一部5 萬字的小說。受此啟發(fā),網(wǎng)絡(luò)藝術(shù)家卡澤米在吉特哈伯(GitHub)上創(chuàng)辦了“全國小說生產(chǎn)月”,參與者需要將創(chuàng)作圖書所使用的全部程序代碼以及生產(chǎn)的文本在吉特哈伯社區(qū)公開,供其他參與者查閱、評論和開源使用,這已經(jīng)成為一項參與度頗高的人工智能寫作活動[15]。不僅如此,人工智能還可以生成小說,乃至可以生成整套書系,從銷售主題書店、圖書生產(chǎn)到書評的全流程都可由人工智能模型完成[16]。
ChatGPT 類大語言模型在學(xué)術(shù)出版等領(lǐng)域的應(yīng)用,帶來的首要風(fēng)險是剽竊。大語言模型的智能之處在于使用完全相同的提示符多次生成響應(yīng),每次都會產(chǎn)生不同的結(jié)果[17]。也就是說,每個使用者用同一個問題提問,獲得的答案和反饋各不相同。這使得剽竊效率大為提升,更加隱蔽和難以發(fā)現(xiàn)。甚至使用大語言模型撰寫的表面“原創(chuàng)”的文字,比較容易通過剽竊工具的檢測。美國西北大學(xué)一個研究小組使用ChatGPT 生成醫(yī)學(xué)研究論文摘要,以測試科學(xué)家是否能發(fā)現(xiàn)它們。他們從《美國醫(yī)學(xué)會雜志》《新英格蘭醫(yī)學(xué)雜志》《英國醫(yī)學(xué)雜志》《柳葉刀》和《自然醫(yī)學(xué)》等頂級刊物上精選文章,讓ChatGPT 撰寫了50 篇醫(yī)學(xué)研究摘要。為了找出哪些摘要是ChatGPT 生成的,一方面,他們使用了剽竊檢測器和人工智能輸出檢測器,另一方面,他們還請一批醫(yī)學(xué)研究人員來人工閱讀。經(jīng)過試驗和測試,ChatGPT 生成的摘要順利通過了剽竊檢查,在原創(chuàng)性方面的得分率為100%,即沒有發(fā)現(xiàn)有抄襲的痕跡;人工智能輸出檢測器發(fā)現(xiàn)了66%的生成摘要;人工審稿人只正確地識別了68%的生成摘要和86%的原始摘要,但錯誤地將32%的生成摘要識別為真實摘要,14%的真實摘要識別為生成摘要[18]。這說明當(dāng)下階段的大語言模型工具已經(jīng)具備撰寫高信度科學(xué)摘要的能力,甚至可以假亂真。這就提出了許多非常嚴(yán)峻的問題,怎樣鑒定和識別學(xué)術(shù)出版物中的文章是否由大語言模型工具撰寫,以及有多大比例是使用這類工具撰寫的;大語言模型工具是否可以成為學(xué)術(shù)出版物的作者等。進(jìn)一步說,使用大語言模型工具撰寫學(xué)術(shù)內(nèi)容可接受的限度以及寫作的規(guī)范、道德和倫理應(yīng)當(dāng)如何,這些問題亟待回答。
隨之衍生出來的問題,還有生成內(nèi)容原創(chuàng)性和知識產(chǎn)權(quán)的認(rèn)定問題。由大語言模型生成的內(nèi)容和觀點是現(xiàn)有知識整合的結(jié)果,還是新穎的獨創(chuàng)性觀點有待進(jìn)一步分析。另外,基于這些模型所生成的文字、圖表的所有權(quán)是歸生成模型的用戶,訓(xùn)練模型的開發(fā)人員,還是制作訓(xùn)練示例的內(nèi)容創(chuàng)建者,這些問題還有待厘清[19]。已發(fā)表的人類與ChatGPT 共同署名的文章,這種署名方式是否得到了OpenAI公司的授權(quán),還是人類作者擅自主張的行為,還有待確認(rèn)。隨著這些內(nèi)容生成式模型被更廣泛地采用,這些問題以及更多問題將隨著時間的推移需要得到進(jìn)一步解答。
大語言模型生成內(nèi)容的權(quán)威性和真實性無法得到保證,容易導(dǎo)致知識謬誤的廣泛傳播,或者是成為學(xué)術(shù)造假的源頭。國內(nèi)外的眾多測試者意識到,在一些專業(yè)領(lǐng)域ChatGPT 類大語言模型會模仿人類方式從事偽造知識的生產(chǎn),尼格爾·柯蒂斯(Nigel Curtis)等發(fā)現(xiàn)用ChatGPT 撰寫論文,所有生成的參考文獻(xiàn)是無意義的,相關(guān)的網(wǎng)絡(luò)鏈接是不相關(guān)的,是由所謂的人工智能幻覺或“隨機(jī)鸚鵡學(xué)舌”引起的虛假參考文獻(xiàn)[20]。筆者曾以“請講一下達(dá)摩眼皮變茶樹的故事”提問,ChatGPT 給出了一個它自行虛構(gòu)的故事,而實際上這個故事出自18 世紀(jì)荷蘭坎貝爾的《日本史》[21]。如果不具備這類專門知識的受眾,將ChatGPT 版本的故事信以為真并發(fā)布到網(wǎng)絡(luò)上,經(jīng)過多次謬誤傳播,則會成為錯誤信息傳播的源頭。中國傳媒大學(xué)腦科學(xué)與智能媒體研究院院長曹立宏認(rèn)為如果從事科學(xué)研究的學(xué)者把ChatGPT 這類“穿了個AI 的深度學(xué)習(xí)的馬甲”的工具當(dāng)成研究向?qū)?,會常常出現(xiàn)“很一本正經(jīng)地胡說八道”的問題[22]。大語言模型使用的語料還可能存在過時信息或垃圾信息,以及有種族、性別和宣揚(yáng)偏見和仇恨的內(nèi)容,進(jìn)而生成有害信息或者是有特定文化優(yōu)越性的觀點。盡管開發(fā)公司已經(jīng)采取了人工標(biāo)記等方式來規(guī)避這些問題,但使用者可以通過變換提問的方式,逃避過濾規(guī)則[23]?;谶@些風(fēng)險,一些知識問答類的平臺發(fā)布了臨時禁用政策,如知名開發(fā)者問答論壇棧溢出(Stack Overflow)臨時禁止用戶在其上發(fā)布ChatGPT 生成內(nèi)容來回答提問,這是因為很多開發(fā)者將ChatGPT 生成的看起來科學(xué)嚴(yán)謹(jǐn)、實則錯誤眾多的答案搬到平臺中,沖擊了該網(wǎng)站內(nèi)容質(zhì)量管理體系。
大語言模型工具在提升寫作效率、加速內(nèi)容生產(chǎn)的同時,還會帶來學(xué)術(shù)生產(chǎn)不公平、學(xué)術(shù)出版壁壘、科學(xué)民主化等難題。新加坡國立大學(xué)的科學(xué)傳播研究者擔(dān)心,大語言模型工具可能會加劇不同資源獲取渠道或?qū)L試新技術(shù)持開放態(tài)度的實驗室之間的不平等:使用人工智能工具寫作的機(jī)構(gòu)會有更快的學(xué)術(shù)生產(chǎn),盡早產(chǎn)出論文,可以加速獲得科學(xué)認(rèn)可和利潤風(fēng)口的知識產(chǎn)權(quán);反之,不使用這類工具的機(jī)構(gòu)和作者則會在學(xué)術(shù)競爭中處于弱勢地位[24]。隨著大語言模型的不斷進(jìn)步,它會成為一把雙刃劍:一方面,它的推廣和使用會提升學(xué)術(shù)的大眾化,知識獲取的知識門檻和壁壘會大為降低;另一方面,大語言模型工具的能力強(qiáng)弱與學(xué)術(shù)生產(chǎn)能力和效率正相關(guān),那些掌握大語言模型的先進(jìn)工具國家會利用知識的快速累積而掀起一場場學(xué)術(shù)革命,這會使學(xué)術(shù)生產(chǎn)出現(xiàn)不平等的狀況。當(dāng)大語言模型走向收費模式,特別是與國家科學(xué)和教育安全等議題聯(lián)系在一起時,更是如此—大語言模型會成為人工智能的新型壁壘。
基于上述風(fēng)險和問題,國內(nèi)外出版機(jī)構(gòu)開始探討并制定大語言模型工具的使用規(guī)則和內(nèi)容生成政策。率先行動的是《自然》雜志。該雜志對于作者的要求采用了2018 年發(fā)表在《美國國家科學(xué)院院刊》上的一份研究報告[25]。鑒于大語言模型在學(xué)術(shù)出版中的快速應(yīng)用和濫用風(fēng)險,《自然》在2023 年初更新了作者政策。關(guān)于作者權(quán)的規(guī)定中說,大型語言模型如ChatGPT 目前不滿足作者的標(biāo)準(zhǔn)。之所以這樣規(guī)定,是因為署名權(quán)意味著要對研究負(fù)責(zé)任,而大語言模型模型工具無法承擔(dān)這種責(zé)任。在否定了作者署名權(quán)的同時,《自然》又對怎樣使用大語言模型工具做出了說明:在論文的方法部分要適當(dāng)?shù)赜涊d使用情況,如果論文沒有方法部分則可在其他合適地方說明[26]。即如果在論文寫作時使用了大型語言模型工具,要遵循自我聲明和披露原則。在《自然》及其子刊中,這一關(guān)于ChatGPT 類大語言模型工具的規(guī)定已經(jīng)在推行和使用,體現(xiàn)在其投稿指南中。
《科學(xué)》雜志主編H. 霍爾頓· 索普(H.Holden Thorp)在一篇社論中提到,《科學(xué)》及其系列刊物都要與作者簽署一份許可協(xié)議,證明“作品為原創(chuàng)”,“原創(chuàng)”一詞足以表明 ChatGPT 編寫的文本是不可接受的,因為利用ChatGPT 編寫文本的行為,等同于從ChatGPT 中抄襲。基于這兩點,人工智能程序不能成為作者。故《科學(xué)》雜志已經(jīng)著手更新許可和編輯政策,規(guī)定ChatGPT(或任何其他AI 工具)生成的文本不能在作品中使用,圖表、圖像或圖形也不能是此類工具的產(chǎn)物。違反這些政策將構(gòu)成學(xué)術(shù)不端行為,這與更改圖像或抄襲現(xiàn)有作品的性質(zhì)相同[27]。
另一關(guān)于大語言模型的論文政策出自2023 年1 月國際機(jī)器學(xué)習(xí)會議(ICML)發(fā)布的2023 論文征稿公告。公告聲明禁止包含從大語言模型(如ChatGPT)生成文本的論文,除非這些生成的文本是作為論文實驗分析的一部分。國際機(jī)器學(xué)習(xí)會議是一項與人工智能有關(guān)的重要國際會議,參會人員眾多,這一政策在社交媒體上引起了廣泛的爭論,會議組織方不得不發(fā)表一份更具體的解釋和說明,主要包括三個方面的內(nèi)容:第一,2023年國際機(jī)器學(xué)習(xí)會議的大語言模型政策禁止完全由其生成的文本,但并不禁止作者使用這些工具編輯或潤色作者撰寫的文本;第二,這一大語言模型政策是基于保守原則制定的,為的是防止使用這些模型所產(chǎn)生的剽竊等潛在問題;第三,這一政策適用于2023 年的會議,隨著主辦方對大語言模型及其對學(xué)術(shù)出版影響更好地理解,未來的會議中可能會得到改進(jìn)[28]。盡管國際機(jī)器學(xué)習(xí)會議做出了詳細(xì)的說明,但仍有一些懸而未決的問題,如怎樣劃定使用大語言模型工具編輯和寫作之間的界限,以及怎樣檢查論文是否出自大語言模型工具等。這些問題需要今后在學(xué)術(shù)出版實踐中不斷探索和完善。
國內(nèi)期刊同樣意識到此問題的嚴(yán)峻性,也在嘗試出臺相關(guān)內(nèi)容政策。2023 年2 月《暨南學(xué)報(哲學(xué)社會科學(xué)版)》《天津師范大學(xué)學(xué)報(基礎(chǔ)教育版)》《中南民族大學(xué)學(xué)報》等期刊發(fā)布聲明,表示暫不接受任何大語言模型工具(如ChatGPT)單獨或聯(lián)合署名的文章;如在論文創(chuàng)作中使用過相關(guān)工具,要在參考文獻(xiàn)、致謝或正文等部分詳細(xì)解釋如何使用以及論證作者自身的創(chuàng)作性;如對于引用AI 寫作工具的文章作為參考文獻(xiàn)的,需提供詳細(xì)的引用論證[29]。
國內(nèi)外學(xué)術(shù)機(jī)構(gòu)的大語言模型政策體現(xiàn)出了保守性和穩(wěn)妥性的傾向,基于研究方法上的透明度以及作者完整性和真實性等學(xué)術(shù)原則,國內(nèi)各主流期刊現(xiàn)階段在作者署名權(quán)上傾向于禁止,但仍接受使用ChatGPT 類大語言模型工具的研究,只是要對過程、方法、程度等做出說明,以規(guī)避剽竊、濫用等方面的風(fēng)險,確保大語言模型使用的誠信、透明與公正??傮w來說,大語言模型已經(jīng)推倒了人類作者的多米諾骨牌,英國的知名出版商泰勒和弗朗西斯,以及arXiv、medRxiv、bioRxiv等預(yù)印本論文平臺都已在考慮或著手制定大語言模型應(yīng)用的相關(guān)政策[30]。其中arXiv 在2023 年1 月底,發(fā)布了ChatGPT 及類似工具的最新政策,規(guī)定在論文中使用從本文到文本生成人工智能工具的論文應(yīng)該在研究方法中報告;內(nèi)容生成式人工智能語言工具不應(yīng)被列為作者,如果使用了這類工具的論文中出現(xiàn)了不恰當(dāng)?shù)恼Z言,剽竊的內(nèi)容,錯誤、不正確的引用或誤導(dǎo)性等內(nèi)容,由人類作者負(fù)責(zé)[31]。中國出版業(yè)也應(yīng)跟蹤最新動態(tài)積極研討,共同應(yīng)對大語言模型帶來的內(nèi)容生成挑戰(zhàn)。
ChatGPT 類大語言模型工具是當(dāng)代人類創(chuàng)造的“弗蘭肯斯坦”,這一新時代的普羅米修斯已經(jīng)點燃了人工智能新的火種。在未來,經(jīng)過不斷迭代和發(fā)展,人類將迎來人工智能時代的“摩爾定律”,徹底改變內(nèi)容生產(chǎn)的方式、速度和效率,顛覆出版業(yè)的傳統(tǒng)生態(tài),催生新的出版模式和業(yè)態(tài)。人工智能研究專家亞歷克斯·扎沃龍科夫博士表示,出版業(yè)可能是生成式人工智能革命的最大贏家[32]。但是對于學(xué)術(shù)出版業(yè)而言,期刊、出版社和編輯將越來越難以區(qū)分人類撰寫的文本和人工智能生成的文本。我們既應(yīng)該看到ChatGPT 類大語言模型工具的革命性一面,同時要為其確立法則和準(zhǔn)繩,積極面對它所帶來的消極影響。最終,在接受與拒絕、存在與善用中,實現(xiàn)大語言模型時代的新平衡。
馬克思對生產(chǎn)工具和生產(chǎn)力之間的關(guān)系有精辟論述[33],當(dāng)代科學(xué)化、信息化生產(chǎn)工具的快速迭代使人類生產(chǎn)力實現(xiàn)了指數(shù)級飛躍。ChatGPT 標(biāo)志著大語言模型工具走向成熟,展現(xiàn)出多場景的巨大應(yīng)用前景。在學(xué)術(shù)出版領(lǐng)域只要合理運(yùn)用ChatGPT 類大語言模型工具,將會大幅度提高科研工作者的生產(chǎn)力。傳統(tǒng)學(xué)術(shù)研究收集資料多采取卡片式摘抄、編制目錄和索引等方式,而數(shù)據(jù)庫和云服務(wù)成熟后涌現(xiàn)了多種類型和用途的學(xué)術(shù)數(shù)據(jù)庫,這徹底改變了文獻(xiàn)資料搜集的傳統(tǒng)方式、提升了檢索效率和質(zhì)量。同理,ChatGPT類大語言模型廣泛使用后,在學(xué)術(shù)文獻(xiàn)閱讀和理解方面同樣會發(fā)生一場革命:借助這些工具可快速檢索、定位某個特定領(lǐng)域或研究話題的文獻(xiàn),研究者不必花費大量時間和精力去逐篇閱讀,而是可以向其提問或者用其快速總結(jié)文獻(xiàn)要點,甚至可以形成一篇完整的文獻(xiàn)綜述文章。在具體寫作環(huán)節(jié),ChatGPT類大語言模型可以指導(dǎo)寫作,如給出文章的結(jié)構(gòu)和邏輯框架;能根據(jù)意向投稿期刊的語言風(fēng)格和類型,提供修改方案和建議;對非母語國家的研究者而言,可以幫助快速糾正語法錯誤、潤色全文、優(yōu)化表達(dá),撰寫出與母語研究者同等語言水平的文章,這無疑消弭了語言的障礙和壁壘。有學(xué)者認(rèn)為,未來的學(xué)術(shù)內(nèi)容生產(chǎn)需要更少的人力,這反過來將使學(xué)者專注于他們的研究[34]。在大語言模型時代,是否會減少人力的使用有待觀察,但可以確定的是可以提升研究者知識獲取的速度和效率,減少簡單重復(fù)的勞動投入,進(jìn)而實現(xiàn)科研生產(chǎn)力的飛躍和向馬克思的“自由王國”進(jìn)一步邁進(jìn)。
學(xué)術(shù)研究的核心在于創(chuàng)新。學(xué)術(shù)出版的價值和意義在于通過期刊、出版社等平臺,挖掘、評價和傳播原創(chuàng)性的學(xué)術(shù)成果,借此促進(jìn)人類社會的進(jìn)步。長期以來,學(xué)術(shù)成果創(chuàng)新性的評價主要是主觀性評價,即通過專家審稿、同行評議等方式進(jìn)行,且多采取匿名方式。這種評價方式能夠體現(xiàn)學(xué)術(shù)活動的內(nèi)在邏輯而成為一種固定性的制度安排。但由少數(shù)學(xué)術(shù)精英主宰學(xué)術(shù)標(biāo)準(zhǔn)和評價,評議活動的本身因素、過程中的制度性因素和非制度的個人因素以及過程以外的其他因素會影響公平[35]。這會帶來學(xué)術(shù)系統(tǒng)的等級和派別等問題,甚至?xí)种苹蜃璧K學(xué)術(shù)創(chuàng)新。另一方面,出版機(jī)構(gòu)將學(xué)術(shù)評價交由外部專家,形成學(xué)術(shù)成果發(fā)表與否的過濾和裁決機(jī)制,這影響了學(xué)術(shù)平臺的定位和風(fēng)格取向,抑制了編輯主觀能動性的發(fā)揮等。為了解決這些問題,近年來學(xué)術(shù)界有兩種趨向:一是嘗試開放式同行評審,迫使評論者撰寫更加深思熟慮和負(fù)責(zé)任的評論;二是擴(kuò)大編輯在學(xué)術(shù)裁判等方面的權(quán)限[36]。這些調(diào)整帶來的直接結(jié)果是編輯工作量的大幅增加。在大語言模型時代,編輯借助ChatGPT 等工具可與已有的學(xué)術(shù)文獻(xiàn)快速對比分析,在創(chuàng)新性等維度給出分析和建議,這既減輕了編輯在閱讀等方面的工作投入,又在一定程度上避免審稿人在知識和視野上的偏狹。借助人工智能評價工具,學(xué)術(shù)評價或許不再是一群由身份不明的法官組成的法庭、一個城堡式的卡夫卡的世界??陀^上,這會壓縮陳詞濫調(diào)、缺乏新意、簡單重復(fù)類學(xué)術(shù)成果的生產(chǎn),進(jìn)而倒逼研究者加大在學(xué)術(shù)創(chuàng)新方面的投入和生產(chǎn)進(jìn)程。
ChatGPT 類大語言模型工具的成熟和普及,會帶來一系列重大變革。有學(xué)者提出互聯(lián)網(wǎng)給人類社會帶來了“空間革命”,智能手機(jī)開辟了“時間革命”,而大語言模型橫空出世則是第三次革命性產(chǎn)品,有望形成“思維革命”[37]。在人工智能時代,ChatGPT 類大語言模型能夠模擬人類從事較為復(fù)雜的思維活動,工具的不斷演化會改變知識生產(chǎn)的傳統(tǒng)方式,形成新的內(nèi)容生成生態(tài),給人類的發(fā)展帶來深遠(yuǎn)影響。但ChatGPT 類大語言模型有被錯用、濫用的風(fēng)險,在剽竊、知識謬誤、產(chǎn)權(quán)糾紛等方面的問題不容忽視,或?qū)⒂心P桶詸?quán)、知識公正等諸多不可預(yù)知、無法確定的局限性。因此,學(xué)術(shù)出版平臺、政府等本著善治的理念[38],為大語言模型的使用立“良法”,即通過制度性或非制度性的法令、標(biāo)準(zhǔn)和規(guī)則促進(jìn)其使用的透明性和有效性,確保其符合增進(jìn)人類福祉、促進(jìn)公平公正、保護(hù)隱私安全、確??煽乜尚拧?qiáng)化責(zé)任擔(dān)當(dāng)、提升倫理素養(yǎng)等人工智能的基本倫理要求[39]。大語言模型善治的過程就是促使其公共利益最大化的治理過程。唯有如此,大語言模型才能在“思維革命”時代賦能學(xué)術(shù)和知識的生產(chǎn),加速推進(jìn)科學(xué)創(chuàng)新和人類進(jìn)步。
ChatGPT 的出現(xiàn)標(biāo)志著人工智能文本輸出能力實現(xiàn)了質(zhì)的飛躍,給學(xué)術(shù)出版業(yè)帶來了新現(xiàn)象和新問題。一些研究者雖看到了這一寫作工具的強(qiáng)大功能,但認(rèn)為它還沒有達(dá)到開始撰寫學(xué)術(shù)論文的地步,其創(chuàng)造力受到語料庫和人類模型設(shè)計者判斷力的限制等[40]。但是應(yīng)意識到,這一工具的底層生成模型已經(jīng)具備了多模態(tài)的跨文本內(nèi)容生成能力,2023 年底OpenAI 公司將會推出更大的語料庫、更進(jìn)步的算法和更龐大的測試參數(shù),這有望成為更具革命性的語言模型[41]。除了OpenAI 公司外,全球人工智能企業(yè)和機(jī)構(gòu)都紛紛投身這場大語言模型的“軍備競賽”,將會有更多、更優(yōu)秀、更智能的模型不斷涌現(xiàn),形成一批大語言模型的競品工具和產(chǎn)品。未來,最優(yōu)質(zhì)的學(xué)術(shù)創(chuàng)新者或許不是人類,不是大語言模型工具,而是熟練而深刻地使用大語言模型工具的作者,人機(jī)合一完成內(nèi)容生產(chǎn)將是新常態(tài)。知識生產(chǎn)領(lǐng)域的一場百年未有之大變局已經(jīng)展現(xiàn)出生動的發(fā)展圖景,這給學(xué)術(shù)出版業(yè)帶來了空前挑戰(zhàn)和契機(jī)。因此,學(xué)術(shù)出版業(yè)需要應(yīng)對大語言模型廣泛應(yīng)用帶來的法律、道德和倫理等方面的問題,制定使用規(guī)則并在實踐中不斷調(diào)適和修正,以適應(yīng)發(fā)展變化的形勢,推動內(nèi)容生產(chǎn)效率和學(xué)術(shù)原創(chuàng)能力的不斷躍升。