国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大語(yǔ)言模型嵌入圖書(shū)館知識(shí)服務(wù)的風(fēng)險(xiǎn)范式與管控策略*

2023-10-22 13:36:52辛小江郭云鵬
圖書(shū)與情報(bào) 2023年3期
關(guān)鍵詞:智慧圖書(shū)館語(yǔ)言

羅 飛 崔 濱 辛小江 郭云鵬

(1.重慶財(cái)經(jīng)職業(yè)學(xué)院 重慶 402160)

(2.重慶三峽學(xué)院圖書(shū)館 重慶 404199)

新一代人工智能革命浪潮中“GPT-4”①“GPT-4”是OpenAI 公司當(dāng)前投入應(yīng)用的最先進(jìn)的系統(tǒng),具備廣泛的通用知識(shí)和解決問(wèn)題的能力,能夠產(chǎn)生創(chuàng)造性和技術(shù)性寫(xiě)作任務(wù),實(shí)現(xiàn)更安全的有效響應(yīng)。、“文心一言”②“文心一言”是百度全新一代的知識(shí)增強(qiáng)大語(yǔ)言模型,能夠與人對(duì)話互動(dòng)、協(xié)助創(chuàng)作、高效便捷地幫助人們獲取信息、知識(shí)和靈感。、“通義千問(wèn)”③“通義千問(wèn)”是一個(gè)包括多輪對(duì)話、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語(yǔ)言支持等在內(nèi)的超大規(guī)模語(yǔ)言模型。等通過(guò)特定形式封裝應(yīng)用的大語(yǔ)言模型產(chǎn)品④大語(yǔ)言模型(Large Language Model, LLM)是用深度學(xué)習(xí)算法理解和處理自然語(yǔ)言的基礎(chǔ)機(jī)器學(xué)習(xí)模型,可以依據(jù)從海量數(shù)據(jù)集中獲得的知識(shí)來(lái)識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成文本和其他內(nèi)容。展現(xiàn)出優(yōu)質(zhì)的智慧涌現(xiàn)能力、信息聚合適應(yīng)能力、多任務(wù)高效處理能力與思維鏈交互能力,能夠基于適當(dāng)提示(Prompt)自主完成內(nèi)容創(chuàng)建、機(jī)器翻譯、代碼編寫(xiě)等復(fù)雜的通用任務(wù),助力智慧圖書(shū)館的知識(shí)采集、組織、推理、存儲(chǔ)、傳播與學(xué)習(xí)等全生命周期中精準(zhǔn)生成多維知識(shí)關(guān)聯(lián)與融合架構(gòu),推動(dòng)全球知識(shí)生態(tài)環(huán)境的持續(xù)革新?;诖笳Z(yǔ)言模型的多模態(tài)知識(shí)服務(wù)在滿足廣大讀者個(gè)性化知識(shí)需求并為圖書(shū)館員提供智能化輔助工具的同時(shí),逐漸暴露出技術(shù)風(fēng)險(xiǎn)、安全風(fēng)險(xiǎn)、隱私侵權(quán)風(fēng)險(xiǎn)、版權(quán)保護(hù)風(fēng)險(xiǎn)以及違反政策法規(guī)與道德倫理等復(fù)合風(fēng)險(xiǎn),亟待在價(jià)值對(duì)齊的基礎(chǔ)上構(gòu)建安全驅(qū)動(dòng)的嵌入模式、增強(qiáng)技術(shù)防御與質(zhì)量評(píng)價(jià)能力、完善政策法規(guī)監(jiān)管機(jī)制與自律規(guī)則以及提升館內(nèi)工作人員的智慧服務(wù)意識(shí)與職業(yè)技能等。

1 大語(yǔ)言模型的歷程特征

20 世紀(jì)中葉以來(lái),伴隨著復(fù)雜來(lái)源的研究力量前赴后繼地投入開(kāi)發(fā)能夠理解并掌握自然語(yǔ)言的人工智能技術(shù)的多元化科學(xué)創(chuàng)新,意圖精準(zhǔn)勾勒自然語(yǔ)言概率分布的語(yǔ)言模型(Language Model,LM)經(jīng)歷了統(tǒng)計(jì)語(yǔ)言模型、神經(jīng)語(yǔ)言模型、預(yù)訓(xùn)練語(yǔ)言模型直至大規(guī)模語(yǔ)言模型的迭代發(fā)展。

1.1 語(yǔ)言模型的迭代演進(jìn)

語(yǔ)言是人類(lèi)文明傳承的基石,“是一種實(shí)踐的、既為別人存在因而也為我自身而存在的、現(xiàn)實(shí)的意識(shí)。語(yǔ)言也和意識(shí)一樣,只是出于需要,由于和他人交往的迫切需要才產(chǎn)生的”[1]。從狄俄尼索斯·特拉克斯的《讀寫(xiě)技巧》①古希臘學(xué)者狄俄尼索斯·特拉克斯撰寫(xiě)的《讀寫(xiě)技巧》是西方第一部語(yǔ)法著作。到馬建忠的《馬氏文通》②馬建忠創(chuàng)作的《馬氏文通》是中國(guó)第一部體系完整的語(yǔ)法著作。,眾多語(yǔ)言學(xué)家和人類(lèi)學(xué)家嘗試使用各種句法模板表達(dá)語(yǔ)言習(xí)慣,卻難以跟上復(fù)雜多變的人類(lèi)語(yǔ)言演化節(jié)奏,無(wú)法充分發(fā)揮語(yǔ)言作為社交工具的最大效用。

隨著人工智能技術(shù)的多維發(fā)展與多向輻射,旨在讓機(jī)器像人類(lèi)一樣理解語(yǔ)言的自然語(yǔ)言處理成為人機(jī)通信方法研究的核心領(lǐng)域,關(guān)涉計(jì)算機(jī)科學(xué)的語(yǔ)言模型隨之出現(xiàn)在人類(lèi)族群重建“巴別塔”的集智通路之上。起初,依托語(yǔ)料數(shù)據(jù)庫(kù)計(jì)算歷史單詞序列以估算概率的統(tǒng)計(jì)語(yǔ)言模型被廣泛應(yīng)用到語(yǔ)音識(shí)別、機(jī)器翻譯、信息檢索等諸多領(lǐng)域,卻難以適應(yīng)對(duì)模型搭建所需歷史單詞數(shù)量的指數(shù)級(jí)增長(zhǎng)與龐大的訓(xùn)練語(yǔ)料無(wú)法覆蓋無(wú)窮變化的語(yǔ)法等棘手問(wèn)題。隨著神經(jīng)網(wǎng)絡(luò)發(fā)展而逐步成熟的前饋神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型、循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型和長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型等能夠有效建立長(zhǎng)距離上下文之間的依賴(lài)關(guān)系,大幅提升傳統(tǒng)語(yǔ)言模型的性能,卻無(wú)法克服所需模型參數(shù)龐大與數(shù)據(jù)稀疏等弊端。

2017 年12 月,谷歌公司發(fā)布了基于注意力機(jī)制的Transformer 算法,導(dǎo)致眾多深度學(xué)習(xí)模型的參數(shù)量級(jí)突破億級(jí),進(jìn)而啟發(fā)出“BERT”和“GPT-1”等預(yù)訓(xùn)練語(yǔ)言模型。“BERT”是通過(guò)掩碼機(jī)制挖掘上下文豐富語(yǔ)義的編碼預(yù)訓(xùn)練模型(Encoder-only Pre-trained Models,EPM),雖然在語(yǔ)言理解任務(wù)上表現(xiàn)出全局可見(jiàn)的卓越性能,卻因?yàn)闊o(wú)法進(jìn)行可變長(zhǎng)度生成而難以應(yīng)用于生成任務(wù)。“GPT-1”是通過(guò)自回歸序列生成預(yù)測(cè)下文的解碼預(yù)訓(xùn)練模型(Decoder-only Pretrained Models,DPM),雖然能夠完成生成任務(wù),卻因?yàn)樾畔蜗蛄鲃?dòng)而缺乏上下文交互且需要海量無(wú)標(biāo)注文本數(shù)據(jù)。因之,主推“BERT”路線的谷歌公司又發(fā)布了持續(xù)進(jìn)行參數(shù)微調(diào)的“BART”,即通過(guò)雙向編碼器提取輸入的有用數(shù)據(jù)以輔助和約束單向自回歸解碼器生成的編解碼預(yù)訓(xùn)練模型(Encoder-Decoder Pre-trained Models,EDPM)。OpenAI 公司一直堅(jiān)持“GPT”路線,通過(guò)擴(kuò)大語(yǔ)言模型的規(guī)模顯著提高零樣本(Zero-shot)與小樣本(Few-shot)學(xué)習(xí)的能力。“GPT”系列自回歸語(yǔ)言模型的優(yōu)越性能伴隨著訓(xùn)練數(shù)據(jù)與模型參數(shù)增長(zhǎng)而逐步顯現(xiàn)。如“GPT-3”(1750 億參數(shù))涌現(xiàn)出遠(yuǎn)勝于“GPT-2”(15 億參數(shù))的上下文學(xué)習(xí)能力和多步推理能力,“GPT-4”(1.8 萬(wàn)億參數(shù))更是在視覺(jué)輸入、創(chuàng)造性思維、上下文處理等多種能力測(cè)試中達(dá)到人類(lèi)頂級(jí)水平,在一定程度上為通用人工智能(Artificial Generative Intelligence,AGI)愿景落地奠定了良好基礎(chǔ)。

1.2 大語(yǔ)言模型的基本特征

大規(guī)模語(yǔ)言模型表現(xiàn)出通用性、可釋性、泛化性、靈活性與實(shí)用性等基本特征,能夠良好嵌入新型數(shù)據(jù)且自主完成多個(gè)任務(wù),為解決數(shù)智應(yīng)用中開(kāi)發(fā)成本過(guò)高且運(yùn)行效率低下等問(wèn)題提供可行的解決思路。事實(shí)上,推進(jìn)跨域智慧融合的大語(yǔ)言模型產(chǎn)品不僅遵循基本的縮放法則,亦在多步驟的復(fù)雜任務(wù)中表現(xiàn)出強(qiáng)大的涌現(xiàn)能力,逐步發(fā)展為生產(chǎn)、保存、管理和傳播知識(shí)的重要范式,促進(jìn)人類(lèi)生產(chǎn)力工具的顛覆性變革。

1.2.1 遵循縮放法則

全球?qū)<覍W(xué)者在基于Transformer 結(jié)構(gòu)開(kāi)發(fā)各類(lèi)語(yǔ)言模型的過(guò)程中反復(fù)證實(shí)數(shù)據(jù)量、參數(shù)量、計(jì)算量與模型性能之間的縮放法則。即隨著模型參數(shù)量、參與訓(xùn)練的數(shù)據(jù)量以及訓(xùn)練過(guò)程中累積計(jì)算量的指數(shù)性增大,模型效果越來(lái)越好[2]。由于擁有海量參數(shù)與復(fù)雜層級(jí)的大語(yǔ)言模型在數(shù)據(jù)定義、管理、修正等重要環(huán)節(jié)的任務(wù)表現(xiàn)隨著數(shù)據(jù)放大與參數(shù)更新而愈加突出,主要開(kāi)發(fā)機(jī)構(gòu)持續(xù)提升模型的參數(shù)極值,如“BERT”的參數(shù)為3 億、“Gopher”為2800 億、“GPT-4”達(dá)到萬(wàn)億級(jí)別、“通義千問(wèn)”的參數(shù)量甚至超過(guò)10萬(wàn)億[3]。

1.2.2 具備涌現(xiàn)能力

涌現(xiàn)能力①不同學(xué)科獨(dú)特的解釋角度與方式導(dǎo)致涌現(xiàn)能力擁有多重定義,如物理學(xué)將涌現(xiàn)能力定義為一種系統(tǒng)量變導(dǎo)致行為質(zhì)變的現(xiàn)象。大規(guī)模語(yǔ)言模型的涌現(xiàn)能力可以分為基于普通提示的涌現(xiàn)能力和基于增強(qiáng)提示的涌現(xiàn)能力。(Emergent Ability)是通用人工智能照進(jìn)現(xiàn)實(shí)世界的一縷曙光,意味著在一些多步驟的復(fù)雜任務(wù)中當(dāng)模型規(guī)模超過(guò)某個(gè)臨界閾值之時(shí),任務(wù)效果會(huì)出現(xiàn)爆發(fā)式增長(zhǎng)。不同于傳統(tǒng)業(yè)務(wù)場(chǎng)景中使用明確代碼表達(dá)程序執(zhí)行邏輯的任務(wù)方式,具備涌現(xiàn)能力的大語(yǔ)言模型能夠在不更新參數(shù)的情況下,只需在輸入少量帶有標(biāo)注的數(shù)據(jù)之后表達(dá)預(yù)期目標(biāo),生成式模型就可以自行找出解決方法。

1.2.3 推進(jìn)跨域融合

大語(yǔ)言模型固有的泛化性和通用性使其可以跨域融合數(shù)據(jù)資源并快速抽取生成個(gè)性化和定制化的多場(chǎng)景部署應(yīng)用,助力構(gòu)建安全高效且低成本賦能各行各業(yè)的覆蓋算力、平臺(tái)、模型等多維度的生態(tài)圖譜。如百度公司在構(gòu)建“昆侖芯+飛漿平臺(tái)+文心大模型+行業(yè)應(yīng)用”完整布局的基礎(chǔ)上,發(fā)布了知識(shí)增強(qiáng)大語(yǔ)言模型產(chǎn)品“文心一言”和企業(yè)級(jí)產(chǎn)品“文心千帆”,為多個(gè)行業(yè)提供應(yīng)用程序接口和開(kāi)發(fā)工具鏈;又如,華為公司打造了“昇騰芯片+MindSpore 框架+盤(pán)古大模型+行業(yè)應(yīng)用”的完整生態(tài)體系,主要面向企業(yè)用戶(hù)提供全棧服務(wù);再如,OpenAI 公司通過(guò)插件系統(tǒng)與開(kāi)發(fā)者定義的應(yīng)用程序接口實(shí)現(xiàn)互動(dòng),將“ChatGPT”連接到第三方應(yīng)用程序并執(zhí)行在線檢索、文檔處理、投資建議等多種場(chǎng)景任務(wù)。

2 大語(yǔ)言模型嵌入圖書(shū)館知識(shí)服務(wù)的價(jià)值機(jī)理

迅速崛起的大語(yǔ)言模型為圖書(shū)館知識(shí)服務(wù)的內(nèi)容優(yōu)化、功能拓展與模式創(chuàng)新提供了先進(jìn)的技術(shù)支撐,通過(guò)強(qiáng)大的數(shù)據(jù)分析、運(yùn)算處理與情感反饋等助力深度挖掘讀者的行為規(guī)律、需求特征與情感鏈接,“推動(dòng)了圖書(shū)館知識(shí)服務(wù)從數(shù)據(jù)分析和可視化向數(shù)字內(nèi)容孿生和數(shù)字內(nèi)容創(chuàng)作地轉(zhuǎn)變,解決了元數(shù)據(jù)管理和統(tǒng)一資源服務(wù)問(wèn)題,以更高的效率為讀者提供智慧服務(wù)與良好體驗(yàn)”[4]。

2.1 大語(yǔ)言模型嵌入圖書(shū)館知識(shí)服務(wù)的多元價(jià)值

傳統(tǒng)圖書(shū)館主要依靠專(zhuān)職館員和志愿人員等開(kāi)展知識(shí)服務(wù),在信息資源加工整理、保存管理與整合提供等方面因缺乏人力、物力與技術(shù)能力而在先進(jìn)性、及時(shí)性、便捷性、精準(zhǔn)性等方面暴露出諸多問(wèn)題。圖書(shū)館行業(yè)中早期的人工智能與數(shù)字化操作局限于機(jī)械復(fù)制或整理必要信息,對(duì)讀者需求的吸收、轉(zhuǎn)化、決策、落實(shí)、輸出的整個(gè)過(guò)程仍然由人工掌握,機(jī)器僅發(fā)揮著排除失誤或減少重復(fù)勞動(dòng)的功效[5]。例如,高校圖書(shū)館一般通過(guò)人工調(diào)查、計(jì)算機(jī)檢索和館際知識(shí)聯(lián)系,收集整理并定期核查知識(shí)資源,顯示出耗時(shí)長(zhǎng)、人力多、成效低且錯(cuò)誤率高等弊端[6]。

隨著物聯(lián)網(wǎng)、區(qū)塊鏈、人工智能、元宇宙等新一代信息技術(shù)高速發(fā)展,融合人的智慧與物的智能的智慧圖書(shū)館(Smart Library)通過(guò)對(duì)“物”的智能改造和對(duì)“人”的智慧發(fā)揮,形成萬(wàn)物互聯(lián)、智能高效的智慧服務(wù)環(huán)境,激發(fā)廣大讀者駕馭知識(shí)、運(yùn)用知識(shí)和創(chuàng)新知識(shí)的能力,更注重轉(zhuǎn)“知”成“慧”的過(guò)程,更傾向于知識(shí)的轉(zhuǎn)化和增值[7],呈現(xiàn)出服務(wù)理念人性化、服務(wù)空間智能化、服務(wù)平臺(tái)共享化、服務(wù)內(nèi)容知識(shí)化、服務(wù)類(lèi)型多元化、服務(wù)效益最大化等特征[8]。

基于注意力機(jī)制的大語(yǔ)言模型采用機(jī)器主導(dǎo)型的運(yùn)作模式,具有自主捕獲圖書(shū)館知識(shí)服務(wù)抽象特征的能力和較強(qiáng)的邏輯推理能力,能夠在自行分析虛實(shí)交互的復(fù)雜服務(wù)情境的基礎(chǔ)上,精準(zhǔn)識(shí)別廣大讀者的知識(shí)需求與情緒意圖,自主挖掘符號(hào)化知識(shí)資源并進(jìn)行類(lèi)腦推理和自我優(yōu)化,通過(guò)持續(xù)多輪的生成式對(duì)話互動(dòng)支撐大規(guī)模的跨域知識(shí)體驗(yàn),助力構(gòu)建面向廣大讀者的自然直觀的人機(jī)共生知識(shí)共享與協(xié)同服務(wù)機(jī)制,擺脫人為控制對(duì)數(shù)字服務(wù)的干擾,大幅提升個(gè)性化知識(shí)服務(wù)的智慧水平、沉浸狀態(tài)、開(kāi)放程度與服務(wù)質(zhì)量,確??焖俑咝У靥幚碇R(shí)資源和服務(wù)決策中的變量因素,重塑符合圖書(shū)館文化特征的知識(shí)組織、知識(shí)生成、知識(shí)應(yīng)用的多模態(tài)復(fù)雜場(chǎng)景,充分活躍服務(wù)對(duì)象的創(chuàng)造思維,推動(dòng)無(wú)紙化工作改革,逐步形成兼顧知識(shí)服務(wù)主要參與群體的智慧化知識(shí)圖譜,生動(dòng)直觀地促進(jìn)圖書(shū)館與廣大讀者之間的多元交互。

2.2 大語(yǔ)言模型嵌入圖書(shū)館知識(shí)服務(wù)的運(yùn)行機(jī)理

當(dāng)代圖書(shū)館的資料端、服務(wù)端、技術(shù)端和交流端嵌入大語(yǔ)言模型遵循理性推演、泛化可釋、靈活實(shí)用與智慧涌現(xiàn)的運(yùn)作機(jī)理,在收集整合知識(shí)資源、集中搭建知識(shí)平臺(tái)、加強(qiáng)知識(shí)交互與拓展知識(shí)傳播以及更新維護(hù)館內(nèi)設(shè)施與運(yùn)營(yíng)方式、促進(jìn)館際交流與管理理念變革、優(yōu)化館員招聘與技術(shù)培訓(xùn)等行為領(lǐng)域發(fā)揮重要作用。

大語(yǔ)言模型產(chǎn)品持續(xù)嵌入自動(dòng)創(chuàng)建的知識(shí)管理框架、優(yōu)化知識(shí)服務(wù)全流程的智慧決策支持、完整理解知識(shí)創(chuàng)新的方式方法、合理預(yù)測(cè)知識(shí)關(guān)聯(lián)行業(yè)趨勢(shì)以及采用更為明確的知識(shí)共享專(zhuān)題庫(kù)建設(shè)策略等提升圖書(shū)館知識(shí)服務(wù)的質(zhì)量與精度,通過(guò)低成本分析廣大讀者的行為數(shù)據(jù)為創(chuàng)建個(gè)性化的知識(shí)服務(wù)結(jié)構(gòu)體系提供智慧建議。如基于大語(yǔ)言模型建立讀者需求為主導(dǎo)的智能化交互服務(wù)范式,理解讀者意愿、提高快速響應(yīng)質(zhì)量并提供復(fù)雜的融合信息,助力提升讀者群體的信任度、忠誠(chéng)度與參與指數(shù);又如,大語(yǔ)言模型產(chǎn)品能夠助力圖書(shū)館構(gòu)建智慧化的知識(shí)內(nèi)容集成倉(cāng)儲(chǔ)、實(shí)現(xiàn)多態(tài)數(shù)字資源的關(guān)聯(lián)整合與智能化的編目管理,輔助提升圖書(shū)館的閱讀推廣、文獻(xiàn)推薦和活動(dòng)策劃中的文字編輯、數(shù)據(jù)分析和圖像識(shí)別等日常工作任務(wù)的質(zhì)量與效率;再如,“大語(yǔ)言模型微調(diào)+本地知識(shí)庫(kù)”的結(jié)合方案在圖書(shū)館參考咨詢(xún)服務(wù)的應(yīng)用實(shí)踐顯示,“充分利用大語(yǔ)言模型智能性的同時(shí)規(guī)范其自由生成能力,回答問(wèn)題不僅更具有人性化而且符合具體規(guī)定……采用支持量化技術(shù)的ChatGLM-6B 模型,在消費(fèi)級(jí)顯卡上即可部署,并采用倒排索引提升系統(tǒng)召回效率,具有實(shí)際應(yīng)用的可行性”[9]。

3 大語(yǔ)言模型嵌入圖書(shū)館知識(shí)服務(wù)的風(fēng)險(xiǎn)范式

大語(yǔ)言模型通過(guò)分析讀者查詢(xún)需求、預(yù)測(cè)學(xué)科咨詢(xún)需求、完善智能參考咨詢(xún)機(jī)制、建立館藏?cái)?shù)字孿生復(fù)刻空間、評(píng)估審核多維資源和多樣服務(wù)使用情況等,推進(jìn)知識(shí)資源開(kāi)放生成、支撐知識(shí)管理有序發(fā)展、拓寬知識(shí)服務(wù)的廣度與深度,提升廣大讀者的高度智能體驗(yàn)、全面感知體驗(yàn)、虛實(shí)交互體驗(yàn)[10],卻也在嵌入圖書(shū)館知識(shí)資源的采集、挖掘、集成、共享與重組的完整過(guò)程中逐漸在全棧技術(shù)、隱私安全、版權(quán)保護(hù)、道德倫理與政策法規(guī)等領(lǐng)域暴露出諸多風(fēng)險(xiǎn)。

3.1 全棧技術(shù)風(fēng)險(xiǎn)

大語(yǔ)言模型應(yīng)用于圖書(shū)館知識(shí)服務(wù)場(chǎng)景需要大規(guī)模的數(shù)據(jù)基礎(chǔ)、高載荷的算力硬件和持續(xù)優(yōu)化的算法模型且相應(yīng)的數(shù)據(jù)訓(xùn)練服務(wù)器的有序運(yùn)轉(zhuǎn)有賴(lài)高速穩(wěn)定的網(wǎng)絡(luò)支撐,由此要求圖書(shū)館具備較好的算力基礎(chǔ)設(shè)施工程化運(yùn)營(yíng)能力、底層系統(tǒng)優(yōu)化能力、算法設(shè)計(jì)部署能力、模型訓(xùn)練和推理能力以及軟硬件服務(wù)運(yùn)維與故障排查能力等。同時(shí),生成式智慧知識(shí)服務(wù)模式與涉及多學(xué)科的多模態(tài)模型結(jié)構(gòu)等要求館內(nèi)工作人員具備較高的技術(shù)意識(shí)與業(yè)務(wù)能力。這一切導(dǎo)致大語(yǔ)言模型嵌入圖書(shū)館知識(shí)挖掘、關(guān)聯(lián)、分析和使用的全生命周期里充斥著不穩(wěn)定和不可解釋的全棧技術(shù)風(fēng)險(xiǎn)。如圖書(shū)館生成式對(duì)話交互服務(wù)機(jī)器人通過(guò)捕捉上下文內(nèi)容的依賴(lài)關(guān)系掌握精準(zhǔn)語(yǔ)言表達(dá)的訓(xùn)練過(guò)程中自主生成的符合人類(lèi)習(xí)慣的語(yǔ)言描述與統(tǒng)計(jì)邏輯的輸出內(nèi)容有可能是自主捏造的虛擬信息,甚至是在情境對(duì)話中以輸出邏輯混亂的錯(cuò)誤事實(shí)或危險(xiǎn)內(nèi)容為目標(biāo)進(jìn)行惡意引導(dǎo)的負(fù)向產(chǎn)物。事實(shí)上,大語(yǔ)言模型的廣域應(yīng)用中頻發(fā)“機(jī)器幻覺(jué)”事件①機(jī)器幻覺(jué)(人工智能幻覺(jué),AI Hallucination)指人工智能自信地給出不符合事實(shí)或是毫無(wú)意義的回答。,如“ChatGPT”炮制杭州取消限行的假新 聞[11]、“通義千問(wèn)”將魯智深加入《西游記》取經(jīng)團(tuán)隊(duì)[12]等;又如,大語(yǔ)言模型綜合依托概率理論完成多級(jí)任務(wù)導(dǎo)致輸出內(nèi)容往往是主流觀點(diǎn),有可能加劇信息繭房現(xiàn)象[13]。廣大用戶(hù)在使用傳統(tǒng)圖書(shū)館知識(shí)服務(wù)時(shí)必經(jīng)的信息檢索過(guò)程是加強(qiáng)批判性思考、完善自主知識(shí)體系的重要環(huán)節(jié)?;诤A恳延行畔⑼瓿山Y(jié)果響應(yīng)的大語(yǔ)言模型以“事實(shí)”輸出的方式影響用戶(hù)判斷,可能會(huì)構(gòu)筑危險(xiǎn)的開(kāi)放式囹圄;再如,雖然大語(yǔ)言模型應(yīng)用于圖書(shū)館知識(shí)服務(wù)全流程的技術(shù)審核通常采用“機(jī)器+人工”的雙重審核方式,但實(shí)踐中受到多重因素干擾的機(jī)器審核呈現(xiàn)出較大的漏報(bào)和誤報(bào)風(fēng)險(xiǎn),人工審核中不達(dá)標(biāo)的管理機(jī)制、業(yè)務(wù)流程或職業(yè)技能等亦增加虛假信息或違規(guī)輸出風(fēng)險(xiǎn)。

3.2 倫理規(guī)范風(fēng)險(xiǎn)

智慧圖書(shū)館建設(shè)完善過(guò)程中泛化應(yīng)用大語(yǔ)言模型面臨著倫理道德與政策法規(guī)風(fēng)險(xiǎn)。雖然“ChatGPT”“Bard”“Claude2”等承諾提供“有用、無(wú)害和誠(chéng)實(shí)”的合乎道德要求的用戶(hù)體驗(yàn)[14],卻陸續(xù)在自主順應(yīng)人類(lèi)思維邏輯開(kāi)展多意圖的多輪對(duì)話中暴露出通過(guò)對(duì)抗式提示繞過(guò)開(kāi)發(fā)者設(shè)定的防御措施以生成無(wú)限量的虛假信息或危險(xiǎn)言論等當(dāng)前難以修復(fù)的重大漏洞[15],甚至能夠通過(guò)與特定讀者進(jìn)一步的交互對(duì)話逐步說(shuō)服對(duì)方相信這些虛假信息或危險(xiǎn)言論,使得尊重自主、公平正義、可持續(xù)發(fā)展等基本倫理準(zhǔn)則處于高風(fēng)險(xiǎn)狀態(tài)。例如,推特用戶(hù)對(duì)ChatGPT 最初版本的編碼測(cè)試顯示,該系統(tǒng)具有明顯的種族歧視和性別偏見(jiàn)并持續(xù)嵌入自主輸出的文本內(nèi)容與代碼建議等等。暗網(wǎng)市場(chǎng)上銷(xiāo)售“火爆”的“FraudGPT”“WormGPT”等生成式網(wǎng)絡(luò)犯罪輔助工具功能強(qiáng)大且操作簡(jiǎn)單,能夠協(xié)助尋找受害目標(biāo)、生成惡意鏈接或釣魚(yú)網(wǎng)站、編寫(xiě)欺詐文書(shū)等[16],大幅降低了違法犯罪的門(mén)檻,進(jìn)一步引發(fā)人類(lèi)社會(huì)對(duì)于大語(yǔ)言模型應(yīng)用潛藏倫理道德與政策法規(guī)風(fēng)險(xiǎn)的憂思。同時(shí),基于大語(yǔ)言模型的智能交互工具嵌入智慧圖書(shū)館的知識(shí)生成、知識(shí)管理、知識(shí)傳播等重要階段必然面對(duì)基數(shù)龐大且來(lái)源復(fù)雜的讀者群體,往往忽略讀者的不同背景與敏感的文化狀況,在算法設(shè)計(jì)、數(shù)據(jù)選擇、模型優(yōu)化以及服務(wù)提供中可能產(chǎn)生多樣化的偏見(jiàn)歧視,甚至傳播嚴(yán)重違反倫理道德和政策法規(guī)的虛假、色情、暴力等有害信息,導(dǎo)致難以進(jìn)行有效溝通合作的艱難局面。

3.3 隱私安全風(fēng)險(xiǎn)

圖書(shū)館知識(shí)服務(wù)智慧化建設(shè)的重要前提是融入超大規(guī)模的高質(zhì)量數(shù)據(jù),相關(guān)產(chǎn)品的訓(xùn)練效率和輸出效果直接受到數(shù)據(jù)數(shù)量與數(shù)據(jù)質(zhì)量的重大影響。但是,采用無(wú)監(jiān)督學(xué)習(xí)方法自大規(guī)模語(yǔ)料庫(kù)中歸納相應(yīng)規(guī)律并理解生成自然語(yǔ)言文本的知識(shí)訓(xùn)練中使用的未標(biāo)注數(shù)據(jù)資料在真實(shí)性、準(zhǔn)確性與流暢性等多方面存在安全風(fēng)險(xiǎn)。基于語(yǔ)義理解的互動(dòng)問(wèn)答和上下文分析捕捉讀者查詢(xún)意圖,進(jìn)而提升知識(shí)搜索服務(wù)的效率和質(zhì)量的實(shí)踐活動(dòng)有可能因?yàn)槎鄻踊奈募袷脚c非文本內(nèi)容等噪聲問(wèn)題以及算法、數(shù)據(jù)、平臺(tái)中的技術(shù)漏洞和偏見(jiàn)錯(cuò)漏而遭遇重大安全威脅。黑客攻擊者可能會(huì)利用漏洞訪問(wèn)、篡改或刪除重要信息,甚至影響圖書(shū)館正常運(yùn)行[17]。同時(shí),大語(yǔ)言模型產(chǎn)品在自動(dòng)處理大規(guī)模的復(fù)雜來(lái)源的不同類(lèi)型數(shù)據(jù)以生成書(shū)籍、文章和其他資源文獻(xiàn)的過(guò)程中可能構(gòu)成壟斷或不正當(dāng)競(jìng)爭(zhēng)。違法犯罪分子通過(guò)輸入惡意數(shù)據(jù)資料誘導(dǎo)大語(yǔ)言模型在多輪對(duì)話中輸出各類(lèi)敏感數(shù)據(jù),嚴(yán)重侵害廣大讀者的數(shù)據(jù)隱私權(quán)。如智慧圖書(shū)館應(yīng)用的生成式信息服務(wù)系統(tǒng)根據(jù)讀者的瀏覽閱讀記錄、收藏情況和多輪互動(dòng)回復(fù)中顯示的情感去向識(shí)別讀者興趣、行為模式和潛在需求,雖然有助于提升讀者的個(gè)性化服務(wù)體驗(yàn)、增強(qiáng)知識(shí)服務(wù)的趣味性和生動(dòng)性,卻也有可能導(dǎo)致讀者放松警惕而提供更多的隱私數(shù)據(jù),在一定程度上增加了隱私侵權(quán)風(fēng)險(xiǎn)。

3.4 版權(quán)保護(hù)風(fēng)險(xiǎn)

傳統(tǒng)版權(quán)制度立足于“只保護(hù)自然人思想的表達(dá),而不保護(hù)自然人的思想本身”的“思想表達(dá)二分原則”?!癎PT-4”和“文心一言”等改變了版權(quán)領(lǐng)域的底層創(chuàng)作邏輯,廣泛應(yīng)用于圖書(shū)館知識(shí)服務(wù)的過(guò)程中生成很多知識(shí)增值的區(qū)別原初作品的信息內(nèi)容,卻大多屬于缺乏真正的自主創(chuàng)造能力的人機(jī)協(xié)作重組式內(nèi)容創(chuàng)新。雖然絕大多數(shù)國(guó)家和地區(qū)認(rèn)為大語(yǔ)言模型產(chǎn)品是基于事先設(shè)定好的算法、規(guī)則和模板生成的結(jié)果而不賦予版權(quán),卻由于生成式智慧對(duì)話系統(tǒng)的類(lèi)人創(chuàng)作和推理能力以及高昂的開(kāi)發(fā)成本引發(fā)新型版權(quán)風(fēng)險(xiǎn)。如OpenAI 公司通過(guò)GPT 系列使用條款提示用戶(hù)巨大的版權(quán)風(fēng)險(xiǎn),要求使用者在法律允許的范圍內(nèi)對(duì)所有輸入和輸出內(nèi)容負(fù)責(zé)。我國(guó)圖書(shū)館知識(shí)服務(wù)中基于人工智能生成的知識(shí)內(nèi)容可能面臨版權(quán)保護(hù)風(fēng)險(xiǎn)。亟待完善大語(yǔ)言模型產(chǎn)品應(yīng)用中訓(xùn)練數(shù)據(jù)許可授權(quán)機(jī)制[18],構(gòu)筑生成作品關(guān)聯(lián)版權(quán)權(quán)益的政策法規(guī)保護(hù)范式并為版權(quán)溯源提供技術(shù)支撐和規(guī)則保障。

4 大語(yǔ)言模型嵌入圖書(shū)館知識(shí)服務(wù)的管控策略

大語(yǔ)言模型嵌入多層次、多維度的智慧圖書(shū)館知識(shí)服務(wù)的全生命周期迫切需要在質(zhì)量、效率、安全、發(fā)展等價(jià)值訴求中取得動(dòng)態(tài)平衡。亟待構(gòu)建安全驅(qū)動(dòng)的嵌入模式和價(jià)值對(duì)齊的運(yùn)作范式、增強(qiáng)模型應(yīng)用的技術(shù)防御并建設(shè)質(zhì)量評(píng)價(jià)體系、完善圖書(shū)館知識(shí)服務(wù)中模型產(chǎn)品使用的政策法規(guī)監(jiān)管措施并培養(yǎng)智慧館員的職業(yè)技能,積極推進(jìn)智慧化的知識(shí)檢索、知識(shí)管理、知識(shí)共享以及其他智慧知識(shí)服務(wù)。

4.1 構(gòu)筑安全驅(qū)動(dòng)的嵌入模式

國(guó)家互聯(lián)網(wǎng)信息辦公室發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》明確表示,國(guó)家堅(jiān)持發(fā)展和安全并重、促進(jìn)創(chuàng)新和依法治理相結(jié)合的原則,采取有效措施鼓勵(lì)生成式人工智能創(chuàng)新發(fā)展,對(duì)生成式人工智能服務(wù)實(shí)行包容審慎和分類(lèi)分級(jí)監(jiān)管。大語(yǔ)言模型嵌入圖書(shū)館知識(shí)服務(wù)的實(shí)踐活動(dòng)應(yīng)當(dāng)重點(diǎn)關(guān)注數(shù)據(jù)安全和技術(shù)安全。不僅在數(shù)據(jù)訓(xùn)練階段完善機(jī)器審查和人工審查制度,有效降低訓(xùn)練數(shù)據(jù)集中偏見(jiàn)、虛假或不準(zhǔn)確的文本數(shù)量,還應(yīng)當(dāng)運(yùn)用容錯(cuò)機(jī)制、增量學(xué)習(xí)和訪問(wèn)控制等確保合規(guī)合理地使用企事業(yè)單位和個(gè)人數(shù)據(jù),逐步構(gòu)建包括內(nèi)容來(lái)源標(biāo)準(zhǔn)、內(nèi)容過(guò)濾工具、讀者反饋渠道等在內(nèi)的大數(shù)據(jù)語(yǔ)言模型產(chǎn)品應(yīng)用的安全驅(qū)動(dòng)方式,推進(jìn)圖書(shū)館知識(shí)服務(wù)的合理使用與創(chuàng)新發(fā)展。

4.2 搭建價(jià)值對(duì)齊的運(yùn)作范式

數(shù)智社會(huì)的高速發(fā)展不僅需要實(shí)現(xiàn)人工智能和人類(lèi)行為的時(shí)空對(duì)齊和事實(shí)對(duì)齊,更為重要的是智能技術(shù)的研發(fā)與應(yīng)用必須符合人類(lèi)的價(jià)值觀。價(jià)值對(duì)齊(value alignment)是人工智能發(fā)展中解決人工智能體(AI Agent)與人類(lèi)價(jià)值觀不一致問(wèn)題的核心治理手段。雖然人類(lèi)社會(huì)長(zhǎng)期處于多元價(jià)值觀的復(fù)雜格局,卻也在無(wú)數(shù)的自然災(zāi)害與人為災(zāi)難的磨礪中逐漸形成構(gòu)筑以人為本、開(kāi)放包容、可持續(xù)發(fā)展的全球命運(yùn)共同體的基本共識(shí)。圖書(shū)館知識(shí)服務(wù)中嵌入的大語(yǔ)言模型產(chǎn)品的追求目標(biāo)如果與圖書(shū)館的真實(shí)意圖存在較大差異,可能會(huì)造成嚴(yán)重的負(fù)面后果。亟待在模型設(shè)計(jì)層面確保生成式智慧系統(tǒng)理解人類(lèi)設(shè)置圖書(shū)館的核心價(jià)值,“實(shí)現(xiàn)知識(shí)的自由存取,公正、平等服務(wù)于社會(huì),滿足每個(gè)讀者的不同需求,為社會(huì)的進(jìn)步與和諧發(fā)展做出應(yīng)有貢獻(xiàn)”[19],并在模型應(yīng)用的全生命周期中持續(xù)進(jìn)行價(jià)值對(duì)齊的綜合評(píng)測(cè)、專(zhuān)家引導(dǎo)和人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)。例如,圖書(shū)館應(yīng)當(dāng)委托知識(shí)服務(wù)專(zhuān)家團(tuán)隊(duì)定期評(píng)估模型產(chǎn)品輸出內(nèi)容與圖書(shū)館核心價(jià)值的適配程度以及是否符合以人為本、技術(shù)可控和可持續(xù)發(fā)展等基本倫理原則。

4.3 增強(qiáng)技術(shù)防御與質(zhì)量評(píng)價(jià)能力

大語(yǔ)言模型應(yīng)用過(guò)程中存在較大的輔助攻破對(duì)抗機(jī)器學(xué)習(xí)防御的特殊風(fēng)險(xiǎn)[20]。有必要在其嵌入圖書(shū)館知識(shí)挖掘、知識(shí)管理與知識(shí)傳播的過(guò)程中制定清晰具體且可實(shí)操的數(shù)據(jù)標(biāo)注規(guī)則與質(zhì)量評(píng)估機(jī)制,通過(guò)數(shù)字水印等技術(shù)方法對(duì)數(shù)據(jù)資料進(jìn)行適當(dāng)標(biāo)注,采用數(shù)據(jù)清洗和數(shù)據(jù)增強(qiáng)等技術(shù)手段避免數(shù)據(jù)缺失、數(shù)據(jù)噪聲、數(shù)據(jù)偏見(jiàn)等質(zhì)量問(wèn)題,利用人類(lèi)反饋強(qiáng)化學(xué)習(xí)算法改進(jìn)模型行為,增強(qiáng)模型系統(tǒng)的穩(wěn)定性、可控性、可靠性、透明性、抗攻擊性、可追溯性和可解釋性,逐步健全讀者使用行為的監(jiān)測(cè)方案和生成內(nèi)容告警機(jī)制,及時(shí)發(fā)現(xiàn)和處理數(shù)據(jù)資源泄露等風(fēng)險(xiǎn)事件,降低智慧知識(shí)服務(wù)的經(jīng)濟(jì)成本與運(yùn)行耗費(fèi)的碳排放量。

4.4 完善政策法規(guī)監(jiān)管舉措

大語(yǔ)言模型應(yīng)用于圖書(shū)館知識(shí)收集整理、共享共建、傳輸應(yīng)用等可能導(dǎo)致知識(shí)產(chǎn)權(quán)、商業(yè)秘密、個(gè)人隱私等方面的違法違規(guī)風(fēng)險(xiǎn)且生成式內(nèi)容造假等行為具有隱蔽性和分散性,亟待搭建規(guī)范性文件體系并完善公權(quán)救濟(jì)與監(jiān)管懲戒機(jī)制。如《科技倫理審查辦法(試行)》(征求意見(jiàn)稿)提出建立倫理高風(fēng)險(xiǎn)科技活動(dòng)的清單制度,大語(yǔ)言模型嵌入圖書(shū)館知識(shí)服務(wù)就屬于可能產(chǎn)生較大倫理風(fēng)險(xiǎn)的新興科技活動(dòng),應(yīng)當(dāng)及時(shí)實(shí)施科學(xué)合理的清單管理;又如,《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》《生成式人工智能服務(wù)管理暫行辦法》等提出的算法備案、安全評(píng)估、人工智能生成監(jiān)管等制度要求同樣適用于圖書(shū)館知識(shí)服務(wù)中應(yīng)用大語(yǔ)言模型的具體場(chǎng)景,有必要在《檔案法》和《公共圖書(shū)館法》和各地區(qū)的《圖書(shū)館管理?xiàng)l例》及其細(xì)則中適當(dāng)闡明大語(yǔ)言模型應(yīng)用的關(guān)聯(lián)概念、風(fēng)險(xiǎn)預(yù)防、歸責(zé)原則等。同時(shí),通過(guò)圖書(shū)館和人工智能行業(yè)的自律規(guī)則建立敏感信息登記備案制度、定期進(jìn)行知識(shí)服務(wù)中嵌入的大語(yǔ)言模型產(chǎn)品的抽檢評(píng)估與預(yù)警機(jī)制并完善替代運(yùn)轉(zhuǎn)的人工平臺(tái)等。此外,不同類(lèi)型的圖書(shū)館(如公共圖書(shū)館和高校圖書(shū)館、研究型圖書(shū)館和通識(shí)類(lèi)圖書(shū)館、自然科學(xué)類(lèi)圖書(shū)館和社會(huì)科學(xué)類(lèi)圖書(shū)館等)在知識(shí)服務(wù)的內(nèi)容與方式上存在較大差異,相應(yīng)的監(jiān)管要求應(yīng)當(dāng)有所不同。

4.5 培養(yǎng)智慧館員職業(yè)技能

嵌入多維大語(yǔ)言模型產(chǎn)品的圖書(shū)館智慧知識(shí)服務(wù)的有序運(yùn)轉(zhuǎn)對(duì)于館內(nèi)工作人員的信息素養(yǎng)與業(yè)務(wù)能力提出了更高要求,“不再是中介性的角色,而是具有高學(xué)歷的高素質(zhì)人才,同時(shí)具備服務(wù)能力與研究能力的專(zhuān)家型館員隊(duì)伍”[21]。數(shù)字強(qiáng)國(guó)背景下生成式人工智能廣泛應(yīng)用于圖書(shū)館的知識(shí)服務(wù)領(lǐng)域,意味著館員應(yīng)當(dāng)是充分掌握數(shù)字技術(shù)的高素質(zhì)、高效率、高水平的知識(shí)工作者,不僅需要承擔(dān)參考咨詢(xún)職責(zé)和學(xué)科信息服務(wù)職責(zé),還應(yīng)當(dāng)能夠融合高水平專(zhuān)業(yè)背景知識(shí)與數(shù)智科技,具備技術(shù)開(kāi)發(fā)、技術(shù)評(píng)估和技術(shù)應(yīng)用等職業(yè)能力,能夠監(jiān)督審核知識(shí)服務(wù)中大語(yǔ)言模型的應(yīng)用狀況。由此,智慧圖書(shū)館不僅需要培養(yǎng)現(xiàn)有館員,還有必要招聘更多的具有新技術(shù)能力和智慧素養(yǎng)的新館員,完善館員信息技術(shù)、職業(yè)素養(yǎng)與科學(xué)技能的職業(yè)能力標(biāo)準(zhǔn),推動(dòng)制定適應(yīng)數(shù)智社會(huì)發(fā)展的館員認(rèn)證體系并定期開(kāi)展專(zhuān)題講座、試點(diǎn)操作、考核評(píng)估等[22],大力落實(shí)激勵(lì)與懲戒機(jī)制。

5 結(jié)語(yǔ)

數(shù)字強(qiáng)國(guó)背景下迭代發(fā)展的大語(yǔ)言模型深度改變了人類(lèi)社會(huì)從信息搜索到科研創(chuàng)造的游戲規(guī)則,已經(jīng)呈現(xiàn)出同質(zhì)化競(jìng)爭(zhēng)的趨勢(shì),“需要思考更多大模型之外的設(shè)計(jì)——如何圍繞大模型來(lái)構(gòu)建智能系統(tǒng)解決真實(shí)世界中的紛繁復(fù)雜的問(wèn)題,如何讓這個(gè)系統(tǒng)更深度地‘思考’,更理智地決策,更有效地執(zhí)行”。亟待加速發(fā)展垂直行業(yè)專(zhuān)用的自主可控的模型產(chǎn)品,為新興數(shù)智技術(shù)融合圖書(shū)館知識(shí)服務(wù)營(yíng)建良好的生態(tài)環(huán)境。有必要迅速厘清大語(yǔ)言模型嵌入智慧圖書(shū)館知識(shí)服務(wù)的多元價(jià)值、運(yùn)行機(jī)理、風(fēng)險(xiǎn)范式與管控策略,充分發(fā)揮模型產(chǎn)品驅(qū)動(dòng)智能化、高效化、個(gè)性化的高質(zhì)量知識(shí)服務(wù)的關(guān)鍵作用。

猜你喜歡
智慧圖書(shū)館語(yǔ)言
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
圖書(shū)館
讓語(yǔ)言描寫(xiě)搖曳多姿
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
飛躍圖書(shū)館
我有我語(yǔ)言
有智慧的羊
去圖書(shū)館
智慧派
智慧決定成敗
定州市| 贡嘎县| 陆川县| 乃东县| 澄城县| 廉江市| 吉安市| 郎溪县| 康保县| 石屏县| 巫山县| 射阳县| 石泉县| 朝阳县| 堆龙德庆县| 封开县| 平罗县| 道真| 灵璧县| 会宁县| 阿拉尔市| 昌吉市| 石嘴山市| 桑日县| 新津县| 常宁市| 辽中县| 高雄县| 建始县| 怀仁县| 乌鲁木齐县| 合作市| 武城县| 桓仁| 栖霞市| 昌宁县| 牡丹江市| 江津市| 曲靖市| 大理市| 中江县|