国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大語言模型賦能圖書館服務的測評及其應對策略

2024-06-29 12:24:33陳艷艷
江蘇科技信息 2024年12期
關鍵詞:信息服務

摘要:大語言模型為圖書館智慧服務、精準服務的進步提供了巨大可能。文章通過測試國內(nèi)外多個大語言模型在執(zhí)行圖書館信息咨詢服務時的全面性和準確性,為大語言模型賦能圖書館精準化智慧服務提供參考。以圖書館信息服務中的問題提示語為例,運用語言學方法,在詞匯、句子及其關系的層次上分析、比較、統(tǒng)計這些輸出結果的全面性和準確性及其原因。從詞匯、句子及其關系的角度來看,大語言模型在圖書館精準服務方面的全面性和準確性程度來源于對其詞匯、短語、句子、段落等實體及其關系標注的完善性以及算法的先進性與否。圖書館運用大語言模型賦能精準化、智慧化信息服務,建議參照多個大模型的輸出結果以互補,再進一步配合相關文獻資料予以分析、佐證,以力求所獲知識的準確性和全面性,同時還應注重提示語的使用技巧。

關鍵詞:大語言模型;ChatGPT;圖書館賦能;信息服務;精準化服務

中圖分類號:G252文獻標志碼:A

0 引言

2022年11月,Open AI公司推出了里程碑式的大語音模型——ChatGPT-3,5天獲得100萬用戶[1],2023年4月Chat GPT-4發(fā)布,周活躍用戶超1億。國內(nèi)的互聯(lián)網(wǎng)巨頭、人工智能企業(yè)也紛紛推出各自的大語言模型,比如百度的文心一言、阿里的通義千問、科大訊飛的星火、字節(jié)的豆包等[2-3]。大語言模型(Large Language Model)通過對海量文本數(shù)據(jù)進行多層深度網(wǎng)絡的訓練,利用創(chuàng)新的Transformer算法學習語言的結構、規(guī)則和語義,從而可以生成具有自然語言風格的文本或回答自然語言的問題。人工智能生成內(nèi)容(Artificial Intelligence Generated Content,AIGC)作為大語言模型的應用,為智能問答系統(tǒng)帶來了顛覆性變革,使其可以高度智能化地理解人類語言,并生成連貫、自然的對話內(nèi)容[4]。

圖書館正處于由傳統(tǒng)服務向智慧化服務轉(zhuǎn)型升級的階段,尤其是各高校圖書館正著力提升圖書館服務的智慧化、精準化,以期為教學和科研提供更及時可靠的信息支撐。無論是為讀者改善閱讀體驗、提供個性化服務、智能問答和輔導、提高檢索效率和準確性,還是為圖書館員提供學習培訓支持、數(shù)據(jù)分析與決策支持[5],大語言模型都將發(fā)揮積極作用。對大語言模型賦能圖書館服務中的全面性和準確性進行研究,將有助于這一智能技術在未來的圖書館精準化、智慧化服務中發(fā)揮更有力的作用。

1 大語言模型賦能圖書館服務研究現(xiàn)狀

目前,大語言模型與圖書館服務相關的研究大多集中在歸納總結大語言模型在圖書館中適用的不同應用場景[6-9]和大語言模型為圖書館行業(yè)帶來的機遇與挑戰(zhàn)[10-12]等方面。在大語言模型與圖書館服務中應用的研究方面,符榮鑫等[6]從理論著手,應用概念的分析、比較、綜合、抽象的方法,歸納總結出AIGC的6個共同特征和9個差異特征。王翼虎等[4]通過大語言模型微調(diào)+langchain本地知識庫的聯(lián)合應用方案,驗證了其在圖書館參考咨詢服務中的可行性。趙浜等[13]應用實證的方法,在兩個大語言模型GPT-3.5-Turbo和ChatGLM-6B上進行測試,從宏觀角度出發(fā)對其總結、拓展、分類、對比、推理、計算、檢索、轉(zhuǎn)換、編程等能力水平進行分析評價,得出大語言模型在執(zhí)行多數(shù)典型情報任務上都展現(xiàn)出了較強能力的結論。雖然已有文獻對大語言模型在賦能圖書館各項任務以及從思維方法兩個角度對大語言模型的表現(xiàn)進行了測試,但從圖書館某項任務的完成度,并不能解釋大語言模型生成內(nèi)容全面性和準確性與否的原因,從思維(分析、概括等)的角度也無法理解其處于目前水平的根本原因。因此,大語言模型能否為圖書館很好地賦能,應先對其進行較為客觀的、全面的了解,而不能滿足于根據(jù)大模型目前顯現(xiàn)的能力而進行簡單地“暢想”[14]。實際上,大語言模型性能高低的原因主要取決于兩個方面:一是知識圖譜的完整性,二是算法的有效性。知識圖譜的完整性決定大語言模型提供答案的全面性、準確性。算法的有效性決定知識(詞、句等)之間關系識別的正確性。圖書館各項任務賦能的水平歸根結底是模型理解語言底層邏輯的水平。目前還沒有文獻從語言學中詞、句及其關系的角度來總結大語言模型的性能現(xiàn)狀及其原因。本文從語言學角度,以圖書館信息服務中的問題提示語為例,對10多個大語言模型的輸出結果進行統(tǒng)計分析,歸納出大語言模型當前性能現(xiàn)狀及其原因,并提出相應的應對策略。

2 研究設計

目前,具有代表性的AIGC包括文心一言、通義千問、訊飛星火、豆包、百川大模型、天工AI、面壁露卡、智譜清言[15]、ChatGPT等。而圖書館作為知識寶庫和信息中心、學習中心,需要被賦能的工作往往要求知識的全面性、準確性,因此,主要通過測試這些大模型在信息服務場景中輸出結果的全面性和準確性來驗證這一指標是否達到。圖書館服務包括讀者服務、信息檢索、參考咨詢、智能推介、科技情報分析、學科服務、培訓教育等多個應用場景,無論是將大語言模型嵌入哪種服務場景,都離不開用戶與大語言模型之間進行文本交互,以文字(或?qū)⒄Z音識別為文字)的形式提出需求其輸出結果的必要環(huán)節(jié)。探究大語言模型賦能圖書館精準化信息服務的準確性、全面性問題,歸根到底仍要從語言學底層本質(zhì)邏輯上進行分析。本文模擬不同信息服務場景中用戶與大模型之間的問答環(huán)節(jié),從幾個問題提示語的輸出結果中發(fā)現(xiàn)問題并分析原因。

3 研究方法/過程

包括ChatGPT在內(nèi)的11個模型參與測試,對模型回答出現(xiàn)的問題進行提煉并分析原因。

實例1:(提示語)游泳誘發(fā)的心臟病有哪幾種?

問題1:回答的全面性不足。各種模型分別給出了游泳可能誘發(fā)的心臟病類型中的某幾個種類,而通過人工檢索文獻數(shù)據(jù)庫和開放的搜索引擎,歸納總結,可得出冠心病、心肌缺血、心律失常、心律不齊、心力衰竭、心肌炎、冠狀動脈性心臟病等患者都有被游泳誘發(fā)心臟病的潛在危險[16-17],任何患有或有心臟病風險的人在潛水前一定要咨詢醫(yī)生[18]。這個結論,說明各模型給出的答案全面性方面都存在不足。

問題2:回答的準確性不足。表現(xiàn)在以下兩個方面:(1)錯誤的上下位關系。比如面壁露卡給出的答案中包括“高血壓”,智譜清言的答案中包括“腦供血不足”?!案哐獕骸薄澳X供血不足”均屬于心腦血管疾病,但不屬于心臟病,可見面壁露卡將“心血管疾病”與“心臟病”概念混淆,智譜清言將“腦血管疾病”與“心臟病”混淆。(2)錯誤的對應關系。百川大模型給出的答案中第4條將“靜止狀態(tài)”與“游泳”形成錯誤的對應關系(見圖1)。

原因分析:

首先,參與測試的大語言模型中沒有建立字、詞等細顆粒度概念的正確上下位關系。在大語言模型的前期標注中,沒有將作為上位概念的“心臟病”與其所有下位概念建立準確、完整的關系,或在模型的知識圖譜中缺少“心臟病”患者和參與某些運動項目時存在禁忌事項的關系。

其次,參與測試的大語言模型的算法出現(xiàn)問題。大語言模型在回答問題的同時,時間上不允許識別已有訓練數(shù)據(jù)或歷史文獻中“心臟病”與其下位疾病之間關系這一過程。或者正是由于有天文級的訓練文本量來作“訓練數(shù)據(jù)庫”,而其算力不足,根本無法支持這種即時搜索和識別功能的準確性和全面性。

最后,參與測試的大語言模型只對其“訓練數(shù)據(jù)庫”中某些文獻或某篇文章進行知識抽取,而該篇文章中涉及“心臟病”的下位概念不全。從輸出結果看,每個大模型給出心臟病的下位概念都不同。甚至針對同一問題,同一個模型多次給出的下位概念也會存在差異。因此,該推測具有一定合理性。

實例2(提示語):如何智能地識別句子之間的各種關系?

通義千問給出的答案如圖2所示。

問題及原因分析:

首先,提示語中句子的省略部分識別錯誤。在上例提示語中,“智能”這一關鍵詞具有潛在含義,表示被省略的主語是“機器”或“計算機”,而通義千問給出的答案對應的主語是“人”。究其原因,除了以大語言模型現(xiàn)階段的能力還無法達到與人類的思維能力高度一致,提示語表述不夠清晰明了也是出現(xiàn)錯誤的重要因素。

其次,大模型答案全面性不足。除通義千問外的其他9個模型,雖然正確識別出該提示語的主語是“機器”,但從每個模型給出的識別方法來看,有重復、有不同,卻都不夠完整。例如,文心一言給出的方法是依存句法分析、語義角色標注、關系抽??;智普清言給出的方法是句法分析、語義分析、實體識別、機器學習。其中,ChatGPT給出的方法是較為全面的,包括詞向量和嵌入表示、句子向量化、神經(jīng)網(wǎng)絡、注意力機制、語義角色標注、圖神經(jīng)網(wǎng)絡、遷移學習、知識圖譜、監(jiān)督學習和無監(jiān)督學習9種,盡管如此,也沒有形成完整的答案體系。其原因應該是這些模型都沒有建立“識別句子間關系”與各種技術(人工智能、機器學習、自然語言處理)之間完整全面的對應關系。

最后,同位關系與上下位關系出現(xiàn)混亂。根據(jù)提示語的提問,各模型列出的多種方法之間應該是并列的同位關系。而在ChatGPT給出的方法中,同時出現(xiàn)了“監(jiān)督學習”和“神經(jīng)網(wǎng)絡”,而“神經(jīng)網(wǎng)絡”是有監(jiān)督學習的方法之一,二者應是上下位關系,而非同位關系。從該問題可看出,大語言模型還沒有清晰地建立起詞與詞之間準確的同位關系和上下位關系。

實例3(提示語):大語言模型輸出的結果對應與圖書情報中哪些任務?

問題及原因分析:由于在提示語中將“于”錯寫成了“與”,通義千問模型將“大語言模型輸出的結果對應了圖書館情報中哪些任務”理解為“大語言模型與圖書情報的關系”(見圖3)。

將提示語中的“于”字改正過來后,則給出了相對合理的結果。可見,提示語的表達是否準確、清晰、具體,也會直接影響大語言模型輸出結果的準確性。究其原因,一是該模型缺少容錯機制,二是沒有模糊匹配的算法。

4 結果/結論

4.1 大語言模型輸出內(nèi)容的準確性和全面性不足

主要體現(xiàn)在以下4個方面。

(1)實體詞之間的上下位出現(xiàn)錯誤,如將“高血壓”“腦供血不足”識別為“心臟病”的下位概念。

(2)實體詞之間的對應關系出現(xiàn)錯誤或?qū)P系不全,如將“游泳”與“靜止”狀態(tài)形成錯誤的對應關系。

(3)實體詞之間的同位關系不全,如“監(jiān)督學習”和“神經(jīng)網(wǎng)絡”這對上下位關系詞被當作同位關系詞使用等。

(4)某些模型沒有容錯機制和模糊匹配算法,如提示語中省略主語便無法正確識別句子意思;如提示語中的“對應于”錯寫成“對應與”,便無法根據(jù)其他關鍵詞來識別信息等。

4.2 大語言模型對準確性要求高的學科領域賦能程度有待提高

從本文實例1可見,在醫(yī)療信息領域,大語言模型答案的全面性有時低至1/2或1/3。美國學者Nehal等[19]測試了GPT-4對皮膚科患者常見問題的回答,該科醫(yī)生認為ChatGPT的測試結論中存在2/3的不恰當回答。其中某些答案不完整,某些存在錯誤信息。這一觀點與本文實例1的數(shù)據(jù)分析結論不謀而合。而Naoki等[20]對GPT-4在診斷健康狀況中的準確性進行了評估,得出GPT-4和醫(yī)生之間診斷準確性相當?shù)慕Y論,但不可回避的是,醫(yī)生的診斷也存在誤診問題。

另外,基于信息安全性的考慮,大語言模型的信息獲取源只能是存在于開放網(wǎng)絡上的信息,這些信息可能來自政治組織、非營利組織、公司和個人的文本。而大量有版權保護的發(fā)明專利、權威性文獻和最新的科研成果是它無法輕易獲取的。這也導致了大語言模型輸出的結果在準確性和權威性上大打折扣。

4.3 提示語的表述對大語言模型輸出結果的影響

實例2提示語中主語的省略和實例3提示語中的錯別字,都影響到了大模型輸出結果的準確性。除了大語言模型缺乏有效的容錯機制和模糊匹配算法,還涉及提示語工程問題。

5 建議/策略

5.1 大語言模型的開發(fā)者還需完善大語言模型的知識圖譜,并提高其算法

如果訓練樣本之間沒有建立完善的知識圖譜,在語言底層邏輯混亂的情況下,便無法正確學習出諸如上下位關系和同位關系、同義關系和反義關系等細顆粒度語義之間的關系。這些因語法、詞匯、語義和上下文混淆造成的錯誤回答,對有相關專業(yè)知識儲備的用戶而言,可利用已有知識對其進行雜質(zhì)過濾、數(shù)據(jù)清洗的干擾排除,但會對大量非專業(yè)的用戶造成極大困擾。因此,訓練模型學習出各種概念詞匯之間的關系,建立完整的知識圖譜仍是解決問題不可缺少的一環(huán)。

大語言模型的開發(fā)者需繼續(xù)完善預訓練數(shù)據(jù)文本的知識圖譜,并在識別概念之間關系的算法上進一步提高性能。只有增強其輸出內(nèi)容的全面性和準確性,才能達到賦能圖書館精準化信息服務的要求。

5.2 大語言模型與現(xiàn)有的信息檢索方式并存,用戶可各采其長,避其不足

圖書館作為信息服務中心服務于全學科領域,其用戶對信息服務的要求更突出準確性和全面性。而大語言模型發(fā)展至目前階段,所提供的信息服務在此方面仍存在不足。此外,由實例還可看出,依據(jù)各個模型預訓練時所擁有的“訓練數(shù)據(jù)庫”數(shù)據(jù)量及算力的不同,各個模型之間檢索出的答案也存在較大差異,如單獨使用,則答案的精準性得不到保障。

圖書館已有的數(shù)據(jù)庫文獻檢索功能和現(xiàn)有的開放式搜索引擎恰好可以與大語言模型實現(xiàn)很好地結合。用戶可以多管齊下,既要盡可能多個模型同時應用,又要與搜索引擎、數(shù)據(jù)庫文獻檢索功能相互配合使用。例如,若想獲得某學科或某研究方向較全面準確的知識點提示,可同時參照多個大模型的輸出結果,或求其并集,或互相驗證,在多個輸出結果的知識要點引導下進行綜合考量。再進一步配合相關文獻資料予以分析、佐證,以力求所獲知識的準確性和全面性。

5.3 注重提示語工程,提高與大語言模型之間交流的有效性

大語言模型任何功能的使用,實質(zhì)上均可概括為“我問你答”的過程。如何使這種“人”“機”交互的結果達到使用者的預期,則提示語的使用顯得尤為重要。從本文實例中可總結提高提示語有效性的方法,以供參考:其一,語境完整。提示語中盡量不出現(xiàn)錯字、不省略句子結構,提供盡可能完整的上下文信息。必要時,可采用舉例說明、類比的方式,先“教”再“問”,讓大模型根據(jù)使用者的前情提示來回答。其二,拆分問題,將邏輯復雜的問題拆分為多個簡單的小問題,通過引導,由低階到高階逐步解決問題。此外,還可配合使用“還有呢?”“請繼續(xù)!”“可以補充說明嗎?”等引導語,促使模型給出更多更全面的答案。

參考文獻

[1]文繼榮.2023年大模型行業(yè)深度研究報告(系統(tǒng)了解“ChatGPT”)[EB/OL].(2023-10-16)[2023-10-20].https://m.toutiao.com/is/idQyGyf7/.

[2]白首窮經(jīng)之杰.主流AI大模型對比:ChatGPT、訊飛星火、文心一言和豆包[EB/OL].(2023-09-26)[2023-10-20].https://m.toutiao.com/is/idQD3Ygf/.

[3]劉言飛語.字節(jié)的豆包,與文心一言、通義千問、ChatGPT在9個問題上的對比[EB/OL].(2023-08-19)[2023-10-20].https://m.toutiao.com/is/idQyESmq/.

[4]王翼虎,白海燕,孟旭陽.大語言模型在圖書館參考咨詢服務中的智能化實踐探索[J].情報理論與實踐,2023(8):96-103.

[5]DANIEL G, SOPHIA N, CARINA W, et al. A SWOT (strengths, weaknesses, opportunities, and threats) analysis of ChatGPT in the medical literature: concise review[J]. Journal of Medical Internet Research,2023(16): e49368.

[6]符榮鑫,楊小華.AIGC語言模型分析及其高校圖書館應用場景研究[J].農(nóng)業(yè)圖書情報學報,2023(7):27-38.

[7]壽建琪.走向“已知之未知”:GPT大語言模型助力實現(xiàn)以人為本的信息檢索[J].農(nóng)業(yè)圖書情報學報,2023(5):16-26.

[8]張慧,佟彤,葉鷹.AI2.0時代智慧圖書館的GPT技術驅(qū)動創(chuàng)新[J].圖書館雜志,2023(5):4-8.

[9]吳進,馮劭華,昝棟.ChatGPT與高校圖書館參考咨詢服務[J].大學圖書情報學刊,2023(5):25-29.

[10]施志唐.ChatGPT對圖書館的影響與應對措施[J].圖書情報導刊,2023(4):1-6.

[11]李書寧,劉一鳴.ChatGPT類智能對話工具興起對圖書館行業(yè)的機遇與挑戰(zhàn)[J].圖書館論壇,2023(5):104-110.

[12]張強,高穎,趙逸淳,等.ChatGPT在智慧圖書館建設中的機遇與挑戰(zhàn)[J].圖書館理論與實踐,2023(6):116-122.

[13]趙浜,曹樹金.國內(nèi)外生成式AI大模型執(zhí)行情報領域典型任務的測試分析[J].情報資料工作,2023(5):6-17.

[14]劉倩倩,劉圣嬰,劉煒.圖書情報領域大模型的應用模式和數(shù)據(jù)治理[J].圖書館雜志,2023(12):22-35.

[15]IT之家.百度字節(jié)等8家公司大模型產(chǎn)品通過生成式人工智能備案,可上線向公眾提供服務[EB/OL].(2023-08-31)[2023-10-20].https://www.ithome.com/0/715/938.htm.

[16]鄭劍暉.這些人不宜參加游泳[J].游泳,2005(4):18.

[17]唐春生.心臟病患者到底能不能游泳[J].人人健康,2018(17):19.

[18]葉子明.試試水:嘗試水上鍛煉[J].心血管病防治知識(科普版),2019(4):54-56.

[19]NEHAL L, LEELAKRISHNA C, CHRISTIAN G, et al. Assessing the accuracy and comprehensiveness of ChatGPT in offering clinical guidance for atopic dermatitis and acne vulgaris[J]. JMIR Dermatology, 2023(6):1-4.

[20]NAOKI I, SAKINA K, MINETO F, et al. The accuracy and potential racial and ethnic biases of GPT-4 in the diagnosis and triage of health conditions: evaluation study[J]. JMIR Medical Education,2023(9): 47532.

(編輯 何 琳編輯)

Evaluation and response strategies of empowering library services with the big language model

CHEN? Yanyan

(Library, Henan University, Kaifeng 475004, China)

Abstract:? The big language model provides great potential for the advancement of intelligent and precise services in libraries. The article tests the comprehensiveness and accuracy of multiple large language models at home and abroad in executing library information consulting services, providing reference for empowering libraries with precise and intelligent services through large language models. Taking the problem prompts in library information services as an example, using linguistic methods, analyze, compare, and statistically analyze the comprehensiveness, accuracy, and reasons of these output results at the level of vocabulary, sentences, and their relationships. From the perspective of vocabulary, sentences and their relationships, the comprehensiveness and accuracy of the big language model in the precise service of the library comes from the perfection of the annotation of its words, phrases, sentences, paragraphs and other entities and their relationships, as well as the progressiveness of the algorithm. The library utilizes a large language model to empower precise and intelligent information services. It is recommended to refer to the output results of multiple large models for complementarity, and further analyze and support them with relevant literature to strive for the accuracy and comprehensiveness of the knowledge obtained. At the same time, attention should also be paid to the use of language prompts.

Key words: big language model; ChatGPT; library empowerment; information service; precision service

基金項目:河南省圖書情報研究項目;項目名稱:智慧服務情景下文獻資源的精細化組織與精準化服務研究;項目編號:HNTQL-2023-008。

作者簡介:陳艷艷(1979— ),女,館員,碩士;研究方向:圖書館智慧服務、信息服務等。

猜你喜歡
信息服務
微信平臺在公共圖書館信息服務中的應用
智慧社區(qū)信息服務績效評價研究
公共圖書館科技創(chuàng)新服務探析
農(nóng)業(yè)高校圖書館專利信息服務研究
價值工程(2016年29期)2016-11-14 02:28:03
基于價值共創(chuàng)共享的信息服務生態(tài)系統(tǒng)協(xié)同機制研究
科技視界(2016年18期)2016-11-03 22:02:50
微信公眾平臺在高校圖書館信息服務中的應用研究
科技視界(2016年21期)2016-10-17 19:25:20
贡山| 盖州市| 辽源市| 英德市| 永吉县| 偏关县| 罗江县| 昂仁县| 原阳县| 类乌齐县| 北票市| 台中县| 广州市| 西充县| 天柱县| 柞水县| 武安市| 元氏县| 吕梁市| 汽车| 惠水县| 兴安县| 凤凰县| 青田县| 巫山县| 大方县| 临邑县| 玉龙| 陆川县| 泽州县| 德保县| 绥芬河市| 琼中| 兴文县| 连山| 汕尾市| 青铜峡市| 尚义县| 高邑县| 宁河县| 元谋县|