現(xiàn)階段生成式人工智能在檔案開發(fā)利用中的應(yīng)用瓶頸分析
——以ChatGPT類人工智能為例

2024-01-05 15:55:40王冠袁燁

檔案與建設(shè) 2023年11期

王冠袁燁

（馬來亞大學(xué)人文與社會科學(xué)學(xué)院，馬來西亞吉隆坡，50603）

作為一個里程碑式的人工智能產(chǎn)品，ChatGPT自2022 年11 月30 日發(fā)布以來就受到了人們火爆式地關(guān)注和應(yīng)用。國內(nèi)部分大型科技公司也積極響應(yīng)，開發(fā)出了多款國產(chǎn)的生成式人工智能產(chǎn)品，如百度的文心一言、阿里的通義千問、商湯的商量、科大訊飛的星火認(rèn)知大模型等。同時，ChatGPT類人工智能憑借其強(qiáng)大功能以及在世界范圍內(nèi)的火爆態(tài)勢，使得生成式人工智能也成了當(dāng)前科技界的關(guān)注熱點(diǎn)。鑒于這一態(tài)勢，2023 年8 月15 日，由國家互聯(lián)網(wǎng)信息辦公室、國家發(fā)展改革委、教育部等七部委聯(lián)合發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》開始施行。這是我國首個關(guān)于生成式人工智能的國家級監(jiān)管文件，對于規(guī)范生成式人工智能的現(xiàn)實(shí)應(yīng)用及行業(yè)發(fā)展具有重要意義。

但是，在熱烈擁抱生成式人工智能的同時，人們對其安全性問題以及在應(yīng)用過程中產(chǎn)生的倫理問題和潛在風(fēng)險的認(rèn)知也越來越深刻。以ChatGPT為例，2023 年3 月29 日，美國的生命未來研究所在其網(wǎng)站上公布了一封公開信，呼吁所有AI實(shí)驗室立即暫停訓(xùn)練比GPT-4 更強(qiáng)大的AI系統(tǒng)，暫停時間至少應(yīng)為6 個月，并稱其“可能對社會和人類構(gòu)成深遠(yuǎn)的風(fēng)險”［1］。該公開信得到了包括多位科技領(lǐng)袖如埃隆·馬斯克、史蒂夫·沃茲尼亞克、杰弗里·辛頓等在內(nèi)的1000 多位業(yè)內(nèi)人士的支持。2023 年3月31 日，意大利個人數(shù)據(jù)保護(hù)局宣布從即日起禁止使用ChatGPT平臺。如果說公開信的公布直白呈現(xiàn)出了科技界的謹(jǐn)慎態(tài)度的話，意大利的封禁措施則從現(xiàn)實(shí)層面為ChatGPT的應(yīng)用注入了一針強(qiáng)冷靜劑。

當(dāng)前檔案界已有學(xué)者就人工智能在檔案行業(yè)的應(yīng)用展開了探討，如贠疆鵬等指出，當(dāng)前人工智能技術(shù)在我國檔案管理中還存在應(yīng)用場景有待拓展和豐富、應(yīng)用環(huán)節(jié)有待深化和集成、技術(shù)與管理原則有待落地和融合等問題［2］；孫琳等指出人工智能技術(shù)應(yīng)用在城建檔案管理工作中具有可行性，檔案智能檢索與利用、檔案開放鑒定、檔案智慧服務(wù)、檔案分類整理和檔案安全保護(hù)是其中可能的應(yīng)用場景，但也存在著諸多風(fēng)險。［3］同時，檔案領(lǐng)域圍繞生成式人工智能的應(yīng)用問題也已展開探討，主要圍繞ChatGPT展開。其中，周文歡認(rèn)為ChatGPT在檔案領(lǐng)域的應(yīng)用存在“數(shù)據(jù)質(zhì)量問題、語言和文化差異問題、隱私和安全問題、人工智能倫理問題”［4］等挑戰(zhàn)和限制?？傮w而言，當(dāng)前學(xué)者對于ChatGPT在檔案領(lǐng)域的應(yīng)用均持謹(jǐn)慎態(tài)度。

目前，生成式人工智能的主要優(yōu)勢在于其內(nèi)容生成、多模式介質(zhì)處理以及人機(jī)互動等方面具備的強(qiáng)大功能，其在檔案數(shù)據(jù)的智能化采集、組織、分析、檢索等工作中均可得到廣泛應(yīng)用。而且，從理想狀態(tài)來看，生成式人工智能的這三項功能優(yōu)勢在檔案開發(fā)利用環(huán)節(jié)最有可能得到較大發(fā)揮。但筆者認(rèn)為，雖然生成式人工智能已然表現(xiàn)出了令人驚嘆的強(qiáng)大功能、驚人的更迭速度和廣闊的應(yīng)用前景，但是其本身存在的技術(shù)、倫理等方面的問題，短時間內(nèi)仍無法得到很好解決，再加上檔案行業(yè)較強(qiáng)的專業(yè)性以及檔案安全底線的重要性等原因，現(xiàn)階段將生成式人工智能應(yīng)用于檔案開發(fā)利用尚存在諸多瓶頸。

1 數(shù)據(jù)準(zhǔn)備階段

1.1 數(shù)據(jù)庫層面

大數(shù)據(jù)是生成式人工智能運(yùn)行的基礎(chǔ)和必要條件。相較于其他人工智能產(chǎn)品，生成式人工智能的核心競爭力就在于其“海量數(shù)據(jù)”與“海量訓(xùn)練”，也正因如此，生成式人工智能的開發(fā)公司對數(shù)據(jù)庫的建設(shè)和維護(hù)非常重視。以ChatGPT為例，其海量訓(xùn)練是基于一個固定的數(shù)據(jù)庫而展開的。截至目前，OpenAI并未公布模型訓(xùn)練數(shù)據(jù)集的來源和內(nèi)容，這也是在應(yīng)用ChatGPT的過程中產(chǎn)生黑匣子效應(yīng)的主要原因，而黑匣子效應(yīng)又會導(dǎo)致侵權(quán)、隱私泄露等嚴(yán)重風(fēng)險。

要想在檔案開發(fā)利用中應(yīng)用生成式人工智能，首先需要準(zhǔn)備由海量開放性檔案數(shù)據(jù)構(gòu)成的檔案語料。其中的主體應(yīng)是檔案部門提供的檔案內(nèi)容數(shù)據(jù)、檔案實(shí)體數(shù)據(jù)、檔案環(huán)境數(shù)據(jù)、其他數(shù)據(jù)等，還包括由立檔單位和個人提供的開源信息、用戶在使用過程中輸入的個人信息及其獲取的輸出結(jié)果信息等。現(xiàn)階段，我國檔案部門要想使生成式人工智能在檔案開發(fā)利用中落地，就需要將海量的檔案數(shù)據(jù)尤其是檔案內(nèi)容數(shù)據(jù)上傳至相應(yīng)公司的數(shù)據(jù)庫。對于國外的生成式人工智能產(chǎn)品而言，這種做法在法律層面是被嚴(yán)格禁止的，在實(shí)際操作中也會因為違背國家安全底線而斷不可行；國產(chǎn)的ChatGPT類人工智能產(chǎn)品如百度的文心一言、阿里的通義千問等雖然已獲得了廣泛應(yīng)用，但相較于ChatGPT而言，其在語料、芯片、算法上都有短板，想要建立我國專用的檔案語料庫并應(yīng)用于檔案的開發(fā)利用也十分困難。此外，雖然當(dāng)前生成式人工智能業(yè)已體現(xiàn)出了明顯的插件化發(fā)展趨勢，已有部分科技公司和人士將其與搜索引擎、微信等連接并得到了成功應(yīng)用，且未來由我國自主設(shè)計研發(fā)的ChatGPT類插件產(chǎn)品也可接入全國檔案查詢利用服務(wù)平臺、跨區(qū)域檔案信息資源共享平臺、專題檔案數(shù)據(jù)庫等，但是目前為止，這一理想前景的實(shí)現(xiàn)可能性尚顯渺茫。

1.2 數(shù)據(jù)量層面

生成式人工智能依托海量數(shù)據(jù)庫信息存在，如“OpenAI為了讓ChatGPT（指ChatGPT-3）的語言合成結(jié)果更自然流暢，用了45TB的數(shù)據(jù)、近1萬億個單詞來訓(xùn)練模型，大概是1351 萬本牛津詞典”［5］。功能更為強(qiáng)大的ChatGPT-4、ChatGPT-5 則需要更大體量的數(shù)據(jù)才能滿足其訓(xùn)練需求以更加準(zhǔn)確地處理和反饋人類設(shè)置的生成條件，而若想要達(dá)到符合人類常識、認(rèn)知乃至價值觀層面的要求，則需要更大體量數(shù)據(jù)的訓(xùn)練。

由于檔案與檔案需求的特殊性和復(fù)雜性、檔案業(yè)務(wù)工作的專業(yè)性等原因，將ChatGPT類人工智能的通用大模型應(yīng)用于檔案開發(fā)利用，若不是量身定制的話，其輸出答案的準(zhǔn)確性會較差，因此，需要對海量檔案語料展開大量訓(xùn)練才能滿足專業(yè)性、復(fù)雜性需求。即便是在應(yīng)用之后，也須依靠由巨大體量的檔案數(shù)據(jù)，尤其是檔案內(nèi)容數(shù)據(jù)支撐的檔案語料庫運(yùn)行。根據(jù)統(tǒng)計，2022 年度我國“館藏電子檔案2372.9TB，其中，數(shù)碼照片220.0TB，數(shù)字錄音、數(shù)字錄像1040.0TB，館藏檔案數(shù)字化成果28069.0TB”［6］。而2001 年至2020 年我國綜合檔案館的檔案平均開放率為21.91%［7］，據(jù)此測算，理論上我國可納入檔案語料庫的電子檔案達(dá)519.9TB，符合生成式人工智能對數(shù)據(jù)體量的要求。但是也不難看出，要達(dá)到這一要求就需要整合全國范圍內(nèi)的開放性檔案數(shù)據(jù)并建設(shè)統(tǒng)一的檔案語料庫，這在當(dāng)前的情況下是不可能實(shí)現(xiàn)的。而且，即便是建成了檔案語料庫，在檔案部門提供海量開放性檔案數(shù)據(jù)的過程中，檔案鑒定工作不充分、對提供數(shù)據(jù)的范圍把握不準(zhǔn)確、工作人員誤操作或失職等原因均可能造成檔案泄密。此外，如果生成式人工智能在采集網(wǎng)絡(luò)信息的過程中，將未經(jīng)權(quán)利主體授權(quán)卻受到著作權(quán)保護(hù)的文本、圖片、視頻等信息直接復(fù)制到檔案語料庫中，那么，在此基礎(chǔ)上修改、拼湊而成的內(nèi)容就會侵害到他人的著作權(quán)。如此巨大的工作量和風(fēng)險度也是檔案部門難以承受的。

2 內(nèi)容生成階段

2.1 內(nèi)容生成機(jī)制——關(guān)聯(lián)

生成式人工智能通過所挖掘的單詞之間的關(guān)聯(lián)統(tǒng)計關(guān)系合成語言答案。如ChatGPT將大數(shù)據(jù)、大模型和大算力進(jìn)行工程性結(jié)合，不僅使其具備了強(qiáng)大的統(tǒng)計關(guān)聯(lián)能力，而且有助于挖掘海量數(shù)據(jù)中單詞與單詞、句子與句子等之間的關(guān)聯(lián)性，并通過機(jī)器智能的方式將關(guān)聯(lián)結(jié)果呈現(xiàn)出來。關(guān)聯(lián)統(tǒng)計與呈現(xiàn)的生成機(jī)制固然有助于深入挖掘檔案數(shù)據(jù)以產(chǎn)出高質(zhì)量的檔案開發(fā)產(chǎn)品，但是也會產(chǎn)生嚴(yán)重后果。

生成式人工智能以“共生則關(guān)聯(lián)”為標(biāo)準(zhǔn)訓(xùn)練模型，由于未來建成的檔案語料庫中的數(shù)據(jù)來源較為復(fù)雜，不僅包括檔案部門提供的檔案數(shù)據(jù)，以及立檔單位和個人產(chǎn)生和提供的開源信息；還包括用戶上傳和生成的數(shù)據(jù)，以及生成式人工智能通過互聯(lián)網(wǎng)采集的信息。如此一來，生成式人工智能則會因無效關(guān)聯(lián)或虛假關(guān)聯(lián)生成大量不真實(shí)，甚至是由違背常識或東拼西湊的信息合成的答案，但其自身卻無法明晰判斷答案中內(nèi)容的可信度。這類檔案開發(fā)產(chǎn)品的大量產(chǎn)出不僅會削弱檔案及檔案部門的權(quán)威性，還有可能會在大規(guī)模社會性傳播之下動搖基于檔案真實(shí)性而構(gòu)建起來的檔案價值理念和文化。再加上生成式人工智能對信息、數(shù)據(jù)來源無法進(jìn)行事實(shí)核查，所以這一問題幾乎無法從源頭上予以解決。

2.2 內(nèi)容生成結(jié)果——指令

指令對生成式人工智能的內(nèi)容生成結(jié)果有著重要影響。以ChatGPT為例，其底層技術(shù)包括Transformer、自監(jiān)督學(xué)習(xí)、微調(diào)、人類反饋強(qiáng)化學(xué)習(xí)（RLHF）、AI對齊等。其中，指令微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)是決定內(nèi)容生成結(jié)果質(zhì)量的重要技術(shù)，也是提升指令學(xué)習(xí)能力和用戶意圖捕獲能力的重要影響因素。值得注意的是，ChatGPT-4 已經(jīng)在用戶意圖捕獲能力方面有了較大提升，其產(chǎn)生的結(jié)果也越來越符合用戶需求，并且其還可以通過用戶指令賦予獨(dú)特的“人格”以生成更高質(zhì)量的內(nèi)容。

但是，生成式人工智能在內(nèi)容生成結(jié)果層面受主觀因素的影響較大。一方面，ChatGPT類模型的能力上限是由獎勵模型決定的，該模型需要巨量的語料來擬合真實(shí)世界，對標(biāo)注員的工作量以及綜合素質(zhì)要求較高。在此背景下，檔案語料庫的建設(shè)及其質(zhì)量保障將面臨較大挑戰(zhàn)。另一方面，用戶設(shè)置的生成條件將直接決定生成內(nèi)容的結(jié)果和質(zhì)量，若在此過程中，用戶有意或無意設(shè)置了模糊性較，帶有偏見或冒犯性，甚至是帶有欺詐、違法等意愿的條件，就會產(chǎn)生大量與事實(shí)和常識不符、違背倫理和違反法律的毒性信息，這些信息還會被自動納入檔案語料庫，進(jìn)而產(chǎn)生不可預(yù)知的嚴(yán)重后果。同時，生成式人工智能還存在主觀猜測提問者意圖等問題，這無疑會加劇后果的嚴(yán)重性。

3 社會傳播階段

3.1 高并發(fā)性

生成式人工智能的一個顯著特征是高并發(fā)性，主要表現(xiàn)為：一是其可同時生成很多答案內(nèi)容，包括不實(shí)信息和毒性信息，而這些信息又會進(jìn)入其數(shù)據(jù)庫成為語料來源。如果有不法分子對其進(jìn)行惡意訓(xùn)練，就會有大量有害信息被源源不斷地生產(chǎn)出來，如虛假的政策文件、政府公文、電子郵件等，并可借助多元化的社交媒體廣泛傳播出去。二是其可同時與很多用戶進(jìn)行交互，若有不法分子將其作為插件與詐騙系統(tǒng)連接，便可同時完成很多詐騙行為，如可同時給很多人打電話，并憑借其優(yōu)秀的人機(jī)交互能力和內(nèi)容生成能力完成大規(guī)模詐騙。

生成式人工智能的這一特征在檔案開發(fā)利用中將有可能被無限放大。一方面，公文是檔案的重要來源，由于生成式人工智能的核心功能之一即是按照用戶要求自動模仿有固定模式的文本內(nèi)容，如此一來，檔案部門上傳至語料庫的大量檔案資源將會成為不法分子制造假政策文件、假政府公文等的訓(xùn)練范本。另一方面，社會公眾基于檔案真實(shí)性而對檔案和檔案部門形成的權(quán)威性認(rèn)知，也會成為不法分子借以實(shí)施詐騙行為的一個重要條件，即可能會使社會公眾在被詐騙時深信不疑、上當(dāng)警覺之后質(zhì)疑檔案的真實(shí)性和檔案部門的公信力。由上分析可知，在檔案開發(fā)利用中應(yīng)用生成式人工智能不僅可能會引發(fā)社會性違法行為的發(fā)生，而且也會給檔案部門的公信力造成廣泛性損害。

3.2 強(qiáng)破壞性

隨著生成式人工智能的迭代升級，其在內(nèi)容生成方面的功能也更加強(qiáng)大。但與此同時，生成式人工智能生成內(nèi)容的欺騙性也更強(qiáng)，由此產(chǎn)生的破壞力則更強(qiáng)。以ChatGPT為例，根據(jù)《科學(xué)報告》發(fā)表的一項研究，人類對道德困境的反應(yīng)可能會受到人工智能對話機(jī)器人ChatGPT所寫陳述的影響。這表明用戶可能低估了自己的道德判斷受ChatGPT影響的程度。［8］因此，生成式人工智能可能會產(chǎn)生更深層次的破壞性。

檔案開發(fā)利用是檔案部門傳播檔案理念和價值觀的重要途徑，生成式人工智能強(qiáng)大的功能固然有助于生產(chǎn)出高質(zhì)量的檔案產(chǎn)品、增強(qiáng)檔案用戶的體驗等，但同時其產(chǎn)生的虛假信息和毒性信息將更具有隱蔽性和欺騙性，尤其是其對人類道德和價值觀產(chǎn)生的深刻影響，可能會削弱檔案價值和理念的傳播成效，甚至?xí)で_的檔案理念和價值觀?！渡墒饺斯ぶ悄芊?wù)管理暫行辦法》中對生成式人工智能服務(wù)提出了全方位管理的要求，其中第四條規(guī)定：提供和使用生成式人工智能服務(wù)，應(yīng)當(dāng)遵守法律、行政法規(guī)，尊重社會公德和倫理道德，并從五個方面進(jìn)行了具體規(guī)制；第五條規(guī)定生成式人工智能服務(wù)的提供者應(yīng)當(dāng)依法承擔(dān)網(wǎng)絡(luò)信息內(nèi)容生產(chǎn)者責(zé)任。［9］由此可知，檔案部門在應(yīng)用生成式人工智能開展檔案開發(fā)利用的過程中還需要承擔(dān)起艱巨的法律和道德責(zé)任。

4 余論

生成式人工智能業(yè)已展現(xiàn)出了巨大的應(yīng)用潛力、摹繪出了AI應(yīng)用的美好圖景。［10］我們在熱切擁抱它的時候也應(yīng)該以謹(jǐn)慎的態(tài)度視之，尤其是應(yīng)考慮到其在應(yīng)用過程中可能帶來的巨大風(fēng)險和倫理問題。在檔案開放利用中，我們固然可以合理暢想其可能的應(yīng)用場景，但是更需要依據(jù)謹(jǐn)慎性原則預(yù)警風(fēng)險和化解風(fēng)險。更何況在生成式人工智能產(chǎn)品的主要核心技術(shù)和數(shù)據(jù)庫等多掌握在國外公司的當(dāng)下，我國檔案部門不可能將檔案數(shù)據(jù)的安全命運(yùn)交給其掌握；同時，生成式人工智能也存在巨大的技術(shù)倫理和社會傳播風(fēng)險，因此綜合考慮，現(xiàn)階段在檔案開發(fā)利用中應(yīng)用生成式人工智能尚存在一些瓶頸。

值得注意的是，當(dāng)前我國已有單位和企業(yè)嘗試將生成式人工智能應(yīng)用于知識圖譜的建構(gòu)且取得了一定成果［11］，但是距離徹底打破上述瓶頸尚有較大差距。主要原因在于：其一，在應(yīng)用方式方面。生成式人工智能以插件的形式得以與知識圖譜軟件或平臺連接，其尚未經(jīng)過大體量檔案語料庫的專門性訓(xùn)練，在構(gòu)建符合檔案專業(yè)特點(diǎn)和要求的知識圖譜中可能會存在偏差。其二，在應(yīng)用效果層面。由于當(dāng)前的知識圖譜軟件或平臺將網(wǎng)絡(luò)信息也納入了分析范疇，因此基于其建構(gòu)出的知識圖譜會因為虛假或不實(shí)網(wǎng)絡(luò)信息的污染而導(dǎo)致準(zhǔn)確性較差，而生成式人工智能由于其“共生則關(guān)聯(lián)”的內(nèi)容生成機(jī)制則可能會加劇這一后果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

現(xiàn)階段生成式人工智能在檔案開發(fā)利用中的應(yīng)用瓶頸分析——以ChatGPT類人工智能為例