倪俊杰 杭州師范大學經(jīng)亨頤教育學院/桐鄉(xiāng)市鳳鳴高級中學
2022年11月,美國人工智能研究實驗室OpenAI公司推出人工智能技術(shù)驅(qū)動的自然語言處理工具ChatGPT。其強大的信息整合及自然語言處理能力,以及可根據(jù)需要生成各類文本、編寫程序功能,引發(fā)了重要的技術(shù)革命。于是人們紛紛思考:ChatGPT背后是什么技術(shù)?它還能為我們做哪些事情?
ChatGPT來源于GPT模型,通俗地理解為智能聊天機器人。它與先前的智能聊天機器人的最大區(qū)別在于能夠通過學習、理解人類的語言,與人類進行對話,還能根據(jù)上下文語境進行理解、互動。像ChatGPT這樣,能夠利用人工智能技術(shù)自動化生成各種類型的內(nèi)容的方式屬于生成式人工智能技術(shù),即AIGC(Artificial Intelligence Generated Content)技術(shù)。AIGC通過對既有數(shù)據(jù)的學習和發(fā)散,基于與人類交互所確定的主題,由AI算法模型完全自主、自動生成對應(yīng)內(nèi)容,從而幫助各行各業(yè)進行文本、圖像、音視頻、代碼、策略等多模態(tài)內(nèi)容的單一生成或跨模態(tài)生成,以提升內(nèi)容生產(chǎn)效率與多樣性。近年來,得益于神經(jīng)網(wǎng)絡(luò)、深度學習和生成模型等技術(shù)的快速發(fā)展,特別是預(yù)訓練語言模型的出現(xiàn),使機器具有了比較強的語義理解能力和長文本生成能力,AIGC技術(shù)也得到了迅速發(fā)展。
目前,AIGC技術(shù)在自然語言處理方面有明顯優(yōu)勢,人們也在使用它進行寫作。2023年初,美國電子書平臺亞馬遜刮起一陣“AI寫作”風,人們向ChatGPT輸入提示詞就能完成幾十頁電子書的創(chuàng)作,并通過自助出版服務(wù)直接出售。截至2023年2月中旬,亞馬遜Kindle商店已出現(xiàn)超過200本將ChatGPT列為作者或合著者的電子書。
人工智能進行文學寫作的歷史可以追溯到20世紀80年代。1983年,早期的人工智能文本生成器Racter誕生,它寫作的《警察的胡子是半成品》被認為是第一部完全由計算機程序?qū)懽鞯奈膶W作品。然而,這個階段的AI文學寫作主要依賴于預(yù)定義的規(guī)則和模板,生成的文本質(zhì)量較低,在邏輯、可讀性和創(chuàng)意方面都表現(xiàn)不佳。進入21世紀后,隨著深度學習與大數(shù)據(jù)技術(shù)的發(fā)展,AI寫作進入了一個新的階段,這期間誕生了如“微軟小冰”“九歌”等AI寫作平臺,其中“小冰”已協(xié)助超過500萬名用戶寫作現(xiàn)代詩歌,并出版了詩集,“九歌”已累計為用戶寫作超過700萬首詩詞。人工智能寫作的運行邏輯,模仿的正是人類的寫作以及寫作教學行為。人工智能寫作并非什么神秘的、與人類寫作相對立的“他者”,而是人類寫作活動被拆解后的重新具象化。
AIGC寫作的優(yōu)勢在于能夠根據(jù)用戶的輸入,快速生成語句通順、表達合理的內(nèi)容,給人一種“無所不知,無所不能”的印象。其實現(xiàn)的基本流程如圖1所示。
圖1
首先,用戶輸入想要的問題或者需求,這些問題會被分析編碼后進入一個比較復(fù)雜的GPT模型(GPT模型是由龐大的語料庫,即數(shù)據(jù)集不斷強化訓練得到的)。當編碼后的問題經(jīng)過一系列復(fù)雜運算后,GPT模型會將它認為“合適的回答”根據(jù)人類熟悉的語法習慣模板輸出給用戶,而且,這些問題和回答也都會成為新的數(shù)據(jù)集被GPT模型“記錄”下來,持續(xù)訓練,優(yōu)化升級。接下來,我們來了解GPT模型、大語言模型、寫作訓練集等概念。
GPT模型是Generative Pretrained Transformer的縮寫,意思是基于Transformer生成式預(yù)訓練模型。GPT模型能夠根據(jù)輸入的需要,生成一段讓你看得懂的內(nèi)容,是為ChatGPT等生成式人工智能技術(shù)提供支持的關(guān)鍵。GPT模型使應(yīng)用程序能夠創(chuàng)建類似人類的文本和內(nèi)容(圖像、音樂等),并以對話的方式回答問題。其中,Pre-trained意為“預(yù)先訓練好的”。一般來講,在應(yīng)用這種技術(shù)時,會需要先將大量的文本數(shù)據(jù)輸入到模型中訓練,讓模型掌握語言的語法規(guī)則和表達方式,這個提前輸入進行訓練的過程被稱為預(yù)訓練。Transformer是Google的研究者在Attention Is All You Need一文中提出的概念,我們可以先將它簡單理解為“轉(zhuǎn)換器”。Transformer的基本原理是Encoder(編碼)和Decoder(解碼),也就是先將輸入的內(nèi)容轉(zhuǎn)換為計算機能理解的內(nèi)容,再將計算機理解的內(nèi)容轉(zhuǎn)換為人類能理解的內(nèi)容。
大語言模型(Large Language Models,簡稱LLMs)是一類基于深度學習的人工智能模型。它們是由海量的數(shù)據(jù)和大量的計算資源訓練而成的,通過無監(jiān)督、半監(jiān)督或自監(jiān)督的方式,學習并掌握通用的語言知識和能力的深度神經(jīng)網(wǎng)絡(luò)。
LLMs的核心架構(gòu)是Transformer,是一種由Vaswani等人于2017年提出的模型。Transformer的關(guān)鍵在于自注意力機制,這使得模型能夠同時對輸入的所有位置進行“關(guān)注”,從而更好地捕捉長距離的語義依賴關(guān)系。LLMs在Transformer的基礎(chǔ)上進行了改進和擴展,通過在大規(guī)模文本數(shù)據(jù)上進行預(yù)訓練,使得模型能夠?qū)W習豐富的語言知識。
LLMs的訓練過程分為兩個階段:預(yù)訓練和微調(diào)。在預(yù)訓練階段,模型通過無監(jiān)督學習在大規(guī)模文本數(shù)據(jù)上進行自我學習,從而具有一定程度的語言表示能力。在微調(diào)階段,模型會在特定任務(wù)上使用有標簽的數(shù)據(jù)進行有監(jiān)督學習,以適應(yīng)特定任務(wù)的要求。這兩個階段的組合使得LLMs在各種自然語言處理任務(wù)上表現(xiàn)出色。
以ChatGPT的訓練數(shù)據(jù)集為例,它是由多個語料庫組成,這些語料庫包括各種類型的無監(jiān)督文本數(shù)據(jù),如網(wǎng)頁、書籍、新聞文章等。這些數(shù)據(jù)既包括通用領(lǐng)域的文本,也包括特定領(lǐng)域的文本。ChatGPT的訓練數(shù)據(jù)集主要有以下幾個來源:①BooksCorpus。這是一個包含11038本英文電子圖書的語料庫,共有74億個單詞。②WebText。這是一個從互聯(lián)網(wǎng)上抓取的大規(guī)模文本數(shù)據(jù)集。包括超過8萬個網(wǎng)站的文本數(shù)據(jù),共有13億個單詞。③CommonCrawl。這是一個互聯(lián)網(wǎng)上公開可用的數(shù)據(jù)集,包括數(shù)百億個網(wǎng)頁、網(wǎng)站和其他類型的文本數(shù)據(jù)。④Wikipedia。這是一個由志愿者編輯的百科全書,包括各種領(lǐng)域的知識和信息,是一個非常有價值的語言資源。除了以上幾個來源之外,還有一些其他的數(shù)據(jù)來源為ChatGPT提供了大量的無監(jiān)督文本數(shù)據(jù),從而使得模型能夠?qū)W習到各種類型和主題領(lǐng)域的語言知識。
有了數(shù)據(jù)源之后,接下來就要進行數(shù)據(jù)采樣,以滿足ChatGPT的訓練要求。由于ChatGPT的預(yù)訓練模型需要大量的無監(jiān)督數(shù)據(jù)進行訓練,而現(xiàn)實中可用的文本數(shù)據(jù)往往是非常龐大和復(fù)雜的,因此,需要采樣來減少訓練時間和計算資源的消耗,同時還需要保證訓練數(shù)據(jù)的多樣性、質(zhì)量和平衡性,以提高模型的效果和泛化能力。
①文心一言。文心一言是百度全新一代知識增強大語言模型,能夠與人對話互動、回答問題、協(xié)助創(chuàng)作,具備更強的中文理解能力。②WPS AI。WPS AI是金山辦公旗下具備大語言模型能力的人工智能應(yīng)用,為用戶提供智能文檔寫作、閱讀理解和問答等體驗。③星火??拼笥嶏w公司推出的認知大模型是以中文為核心的新一代認知智能大模型,擁有跨領(lǐng)域的知識和語言理解能力,能夠基于自然對話方式理解與執(zhí)行任務(wù)。④Bing。Bing AI搭載了GPT4的Bing瀏覽器,它能夠更好地理解用戶意圖,提供更加智能化、個性化的搜索和服務(wù)體驗。
對AIGC寫作而言,核心是訓練一個能夠生成連貫、語法正確、主題明確的長文本的神經(jīng)網(wǎng)絡(luò)模型?;玖鞒贪ǎ孩贁?shù)據(jù)準備。收集大規(guī)模的高質(zhì)量文本數(shù)據(jù),包括文章標題、內(nèi)容、摘要等,并進行數(shù)據(jù)清洗、分詞等預(yù)處理。②模型選擇。通常選擇基于Transformer或LSTM等結(jié)構(gòu)的預(yù)訓練語言模型,這類模型在長文本生成任務(wù)上效果較好。③模型訓練。使用文本數(shù)據(jù)針對語言生成任務(wù)進行模型精調(diào)。訓練目標是最大化生成文本的鏈式概率。④文本生成。給定文章主題、關(guān)鍵詞等條件,模型自動生成標題和正文。⑤生成文本后處理。對模型生成文本進行語句規(guī)范化、語法糾錯等后處理,提高可讀性。⑥結(jié)果評估。從語法、邏輯、連貫性等方面評估生成文本的質(zhì)量,并反饋改進模型。AIGC技術(shù)關(guān)鍵是利用大規(guī)模預(yù)訓練模型,讓模型學習各類文章語言的語法和風格特征。相比以往基于模板的方法,預(yù)訓練模型生成的文本連貫性更好,接近人工寫作的效果。當然,目前仍需人工審核,以確保生成質(zhì)量。
使用AIGC技術(shù)幫助寫作,關(guān)鍵問題是要學會如何提問,如何讓AIGC工具懂得你的問題,理解你的需求,這樣它才能給你滿意的回答。這里推薦一個提問的框架——由溫州大學方建文博士人工智能教育研究團隊設(shè)計的RTGR框架,該框架具體包括角色(Role)、任務(wù)(Task)、目標(Goal)、需求(Requirement)四個要素。例如,要讓AIGC設(shè)計一份班會課方案,輸入提示語:如果你是一名高中班主任,請制作一份關(guān)于學生“防范網(wǎng)絡(luò)詐騙”的班會課方案,舉例和分析當下中學生發(fā)生過的網(wǎng)絡(luò)詐騙案例,幫助學生認識常見的網(wǎng)絡(luò)詐騙手段,能夠采取有效防范措施,方案字數(shù)1000字以內(nèi),內(nèi)容盡量詳細,條理清晰。使用RTGR框架分析這段提示語,如圖2所示。
圖2
以百度文心一言為例,舉例介紹如何使用AIGC技術(shù)輔助寫作。
(1)文章選題
確定文章選題是寫作的第一步,如果你只是知道文章的大致方向和角度,還不清楚如何確定更加細致的選題,可以考慮使用AIGC幫你推薦選題。文心一言實現(xiàn)設(shè)計文章選題的核心原理是深度學習技術(shù),特別是自然語言處理(NLP)的相關(guān)算法和模型。通過語義理解、知識圖譜、文本生成以及機器學習算法等技術(shù)手段精準地解析用戶意圖,關(guān)聯(lián)背景知識,并生成符合用戶需求的文章選題。同時,大數(shù)據(jù)分析技術(shù)的應(yīng)用進一步提升了選題的準確性和用戶滿意度。這些技術(shù)的綜合應(yīng)用使得文心一言能夠高效地為用戶提供有價值的文章選題建議。
(2)寫作框架
有了選題后,還需要確定寫作框架,才能使文章“有跡可循”,更有邏輯。可以考慮由AIGC來補充寫作框架,進一步打開思路。文心一言首先解析用戶輸入,識別寫作意圖,然后規(guī)劃包括主要觀點、分論點和邏輯關(guān)系的文章框架,最后生成具體內(nèi)容并反饋給用戶。在這一過程中,預(yù)訓練語言模型、知識圖譜等技術(shù)提供了語法、語義和背景知識的支持,確保生成的框架結(jié)構(gòu)清晰、內(nèi)容豐富,符合用戶需求。
(3)文獻梳理
在寫作特別是撰寫學術(shù)文章的時候,往往要對研究對象做文獻梳理,傳統(tǒng)的方法是一篇一篇去閱讀記錄,最后梳理匯總成文。現(xiàn)在可以考慮使用AIGC技術(shù)幫助我們記錄學習的文獻并進行梳理匯總。需要注意的是,要完成這項工作光靠一條提示語是不夠的,還需要通過多次輸入來“教會”文心一言。
例如,要做有關(guān)“中小學人工智能課程教學情況”的文獻梳理工作,可以在文心一言中多次輸入提示語來實現(xiàn)。提示語1:我正在撰寫有關(guān)人工智能課程教學的期刊論文,現(xiàn)在打算進行文獻綜述部分的寫作。目前我已經(jīng)準備了5篇來自核心期刊的文獻作為文獻綜述的對象。請針對所有文獻展開分析,并提煉如研究問題、研究角度、研究方法、研究結(jié)論等要素。接下來,我將分多次將文獻摘要的信息發(fā)送給你,請你完成學習,并在每次收到后只要回復(fù)三個字“已學習”即可,最后我會請你幫助匯總成表格。你清楚了嗎?提示語2~6:依次復(fù)制5篇論文的標題、作者、摘要。提示語7:請針對所有文獻展開結(jié)構(gòu)要素分析,并提煉如研究問題、研究角度、研究方法、研究結(jié)論等要素,每個要素為一列,第一列是論文編號,以表格的形式輸出。提示語8:請根據(jù)目前學習的文獻摘要和梳理的表格內(nèi)容,對當下中小學人工智能課程開設(shè)情況進行文獻綜述梳理,在引用相關(guān)文章時,盡量加上第一位作者的姓名,字數(shù)500字左右,要求邏輯清晰、語句通順。
(4)概念釋義
在寫作過程中,經(jīng)常會遇到一些不太清楚的概念,或者是語句擴寫,或者是想要更加全面地了解某個名詞,可以考慮使用文心一言進行查詢。在這一過程中,自然語言處理幫助系統(tǒng)深度理解話題和文獻內(nèi)容,機器學習提升信息提取和撰寫的準確性,而信息檢索則確保快速找到相關(guān)文獻。例如,輸入提示語“什么是人工智能,用200字介紹”,可以得到有關(guān)人工智能的一些介紹內(nèi)容,對有些不清楚的地方還能繼續(xù)追問。
(5)語句優(yōu)化
人們在寫作時有時會存在內(nèi)容口語化、重復(fù)化,或者句子結(jié)構(gòu)不合理、有語病等情況,AIGC技術(shù)能夠快速梳理結(jié)構(gòu),使語篇規(guī)整。文心一言運用分詞、詞性標注、句法分析、語義理解等一系列技術(shù),通過接收、預(yù)處理、理解分析用戶輸入的文本,并基于Transformer架構(gòu)捕捉語義信息,生成更加通順精練的表達建議,從而有效優(yōu)化文本質(zhì)量。例如,輸入一段話并提示語要求優(yōu)化文字表達,就能夠提煉原文的內(nèi)容,使其更加精練。
(6)繪制圖表
文心一言基于數(shù)據(jù)可視化原理,通過數(shù)據(jù)解析、圖形映射和視覺呈現(xiàn)等關(guān)鍵技術(shù),將用戶數(shù)據(jù)高效轉(zhuǎn)換為直觀圖形,并利用前端交互設(shè)計提升用戶體驗,從而實現(xiàn)數(shù)據(jù)的快速理解和分析。例如,選擇“E言意圖”插件功能,輸入提示語要求生成本校師生的人數(shù)餅圖,分析計算后就能夠得到一張彩色的餅圖。
(7)圖表分析
AIGC技術(shù)具備將報表或流程圖轉(zhuǎn)換成文字連貫表達出來的能力。文心一言的“說圖解畫”功能在讓用戶上傳圖片后,利用計算機視覺技術(shù)識別圖片內(nèi)容,再通過自然語言處理技術(shù)生成易懂的解釋,其核心技術(shù)在于圖像的智能識別和自然語言的自動生成,以實現(xiàn)圖片的快速解讀和信息傳遞。例如,選擇“說圖解畫”插件功能,先上傳一張圖片,輸入提示語“要求寫一篇關(guān)于人工智能、機器學習和深度學習三者關(guān)系的文章”,就能夠得到想要的結(jié)果。
(8)生成摘要
化繁為簡考驗全文概覽,提煉總結(jié)的能力。AIGC可以從成千上萬的文章中提取幾百字的摘要。文心一言的“覽卷文檔”功能讓用戶在上傳文檔后,通過深度解析文檔內(nèi)容,識別主題和關(guān)鍵信息,進而自動生成簡潔準確的摘要,幫助用戶快速把握文檔核心。例如,選擇“覽卷文檔”插件功能,先上傳一篇論文文檔,系統(tǒng)通過解析文檔內(nèi)容就可以得到這篇文章的摘要。
除了上述方法,百度文庫還推出了文檔助手的功能,當在文庫中打開某篇文檔查閱資料時,可以隨時在文檔助手中提問。例如,提問:“該文檔主要內(nèi)容是什么?”“寫一下閱讀這篇文檔的讀后感?!边@種方式節(jié)省了時間,提高了效率,也使用了AIGC技術(shù)。
從目前來看,GPT4數(shù)據(jù)集缺乏多語言、多文化視角。OpenAI發(fā)布的數(shù)據(jù)顯示,在訓練ChatGPT所使用的數(shù)據(jù)集中,大約96%為英文內(nèi)容,其余包括中文在內(nèi)的20個語種加起來不足4%。既然GPT4的數(shù)據(jù)集以英文為主,我們就不難推斷,其數(shù)據(jù)背后所容納的思想、文化、經(jīng)驗、生活同樣以英文世界為主。當前,已有學者表示ChatGPT“在尊重除了美國的其他國家的文化背景和使用習慣上仍有欠缺”,同時也有學者對GP3.5進行中文性能評測,發(fā)現(xiàn)其中文知識和常識儲備不足,在中文閉卷問答上出現(xiàn)事實性錯誤的概率較高。另外,目前GPT4僅能處理25000字左右的文本,這意味著GPT4的“記憶力”僅為25000字,當字數(shù)超過25000字時,GPT4將會逐步遺忘討論的內(nèi)容。還有,目前GPT4訓練數(shù)據(jù)截至2021年,這意味著如果作者需要以2021年以后的人物或事件為素材進行寫作,或者要查詢相關(guān)資料,GPT4能提供的幫助有限。
寫作是一種有意識的精神活動,其寫作主體和倫理版權(quán)應(yīng)受到保護和尊重。AIGC技術(shù)畢竟是人造工具,目前還存在容易受到對抗性攻擊和數(shù)據(jù)隱私等問題。攻擊者通過有意修改輸入數(shù)據(jù)來誤導(dǎo)模型,或者獲取用戶的個人隱私信息,這些問題需要在AIGC技術(shù)的發(fā)展中得到充分的考慮和解決。2023年年初,知名科幻雜志Clarkes world因集中收到大量ChatGPT生成的科幻故事,宣布停止線上投稿;2023年4月11日,科幻雜志《科幻世界》公開表示不接受AI創(chuàng)作的科幻小說,主編更直言,“我們需要的是由人寫給人看的未來故事”。
沈錫賓等人做了一個試驗,他們選取了2022年發(fā)表的100篇醫(yī)學綜述的文摘,隨機選擇50篇利用ChatGPT進行重寫(AI寫作組),其余50篇不做處理(原文對照組)。在整合處理后他們將兩組文本進行文獻相似性檢測系統(tǒng)檢測,同時將兩組數(shù)據(jù)隨機打亂后交給AI檢測工具和評審者以評定是否為AI寫作,并比較它們在判別能力上的差異。結(jié)果發(fā)現(xiàn)上述兩組數(shù)據(jù)基于文字的相似性檢測結(jié)果顯示,AI寫作組相似性比例僅為6.19%,遠低于原文對照組的55.91%(P<0.01)??梢姡珹IGC技術(shù)的發(fā)展對現(xiàn)有學術(shù)不端檢測系統(tǒng)帶來了極大的挑戰(zhàn)。AIGC時代涌現(xiàn)的各種工具生成內(nèi)容新穎,邏輯清晰,甚至超過了大部分人類的水平,其剽竊行為更為隱蔽,使得有些檢測系統(tǒng)無法有效應(yīng)對。同時,面對AIGC濫用所導(dǎo)致的學術(shù)誠信問題,制訂事前預(yù)警機制迫在眉睫。
同樣,AIGC寫作的法律風險也是不可忽視的問題。除了知識產(chǎn)權(quán)保護,還有生成內(nèi)容規(guī)范、網(wǎng)絡(luò)安全和個人信息泄露等風險問題。2023年8月,國家專門出臺了《生成式人工智能服務(wù)管理暫行辦法》,指出生成式人工智能服務(wù)存在如下風險隱患:生成虛假信息,對用戶產(chǎn)生誤導(dǎo);因使用不當造成重要數(shù)據(jù)泄露;被不當利用,成為實施“網(wǎng)絡(luò)水軍”、網(wǎng)絡(luò)詐騙等網(wǎng)絡(luò)違法犯罪行為的工具;侵犯知識產(chǎn)權(quán)……,該辦法還明確了服務(wù)者的主體責任和應(yīng)承擔的法律責任。
AIGC時代已然到來,我們在享受AIGC帶來的巨大便利和優(yōu)勢的同時,也不能忽視其存在的局限性和隱憂問題。我們肯定這項技術(shù)的價值和潛力,擁抱它,將它作為良師益友,但同時我們也要保持克制,不可一味索求,要在法律和倫理范圍內(nèi)合理使用,成為技術(shù)的駕馭者而不是技術(shù)的奴隸。