摘要:傳統(tǒng)圖書館的咨詢服務(wù)中,圖書館員及讀者都浪費(fèi)大量的時(shí)間和精力在溝通問答上,業(yè)務(wù)量大及問題重復(fù)等原因使得這種服務(wù)模式無法為讀者提供有效的問答服務(wù),為此需要有一種智能問答服務(wù)來減輕圖書館員的工作負(fù)擔(dān)。圖書館中應(yīng)用智能問答能夠解決海量信息與用戶特定需求之間的矛盾,在快速獲取目標(biāo)內(nèi)容、節(jié)省時(shí)間的同時(shí)滿足用戶對(duì)高質(zhì)量信息的需要。
關(guān)鍵詞:智慧圖書館智能問答知識(shí)庫(kù)閱讀體驗(yàn)
中圖分類號(hào):G250.7
ResearchontheApplicationofIntelligentQuestionsandAnswersinSmartLibraries
WUChengying
(SanmingLibrary,Sanming,F(xiàn)ujianProvince,353000China)
Abstract:Inthetraditionalconsultingservicesoflibraries,bothlibrariansandreaderswastealotoftimeandenergyoncommunicatingquestionsandanswers,andthisservicemodelcannotprovideeffectivequestionandanswerservicesforreadersduetothelargevolumeofbusinessandrepetitivequestions,soanintelligentquestionandanswerserviceisneededtoreducetheworkloadoflibrarians.Theapplicationofintelligentquestionsandanswersinlibrariescansolvethecontradictionbetweenmassiveinformationandspecificuserneeds,whichmeetstheneedsofusersforhigh-qualityinformationwhilequicklyobtainingtargetcontentandsavingtime.
KeyWords:Smartlibrary;Intelligentquestionsandanswers;Knowledgebase;Readingexperience
隨著人工智能、聊天生成式預(yù)訓(xùn)練模型(ChatGenerativePre-trainedTransformer,ChatGPT)等技術(shù)的發(fā)展,圖書館服務(wù)的智慧化是其發(fā)展的必然結(jié)果。學(xué)校與公共圖書館要實(shí)現(xiàn)智能化發(fā)展首先需要改變傳統(tǒng)的人工服務(wù)臺(tái)咨詢模式,從人工問答轉(zhuǎn)變到智能問答甚至是個(gè)性化咨詢。智能問答模擬一個(gè)能夠與讀者進(jìn)行對(duì)話的人機(jī)交互界面,有針對(duì)性地回答讀者提出的問題,在了解用戶咨詢內(nèi)容的前提下滿足讀者隨時(shí)隨地的咨詢需求,能夠有效提升讀者滿意度。要在智慧圖書館中應(yīng)用智能問答,需要從不同的數(shù)據(jù)源構(gòu)建知識(shí)庫(kù)[1],并構(gòu)建一個(gè)面向知識(shí)庫(kù)的智能問答。
1知識(shí)庫(kù)構(gòu)建
作為圖書館問答服務(wù)的基礎(chǔ),讀者咨詢的對(duì)象主要是紙質(zhì)圖書、文獻(xiàn)及索引等圖書館館藏,而且很多咨詢的問題都符合固定的模式,如某某書的存放位置等。圖書館累積了大量諸如此類規(guī)律性、高重復(fù)性并且有價(jià)值的咨詢記錄,這些咨詢記錄的來源不僅僅限于現(xiàn)場(chǎng)咨詢記錄,也包括圖書館網(wǎng)頁(yè)的在線留言、電話訪問、郵件咨詢、微信公眾號(hào)等[2],可以將這些不同來源的咨詢記錄集中存儲(chǔ),并經(jīng)過一定的加工處理后重組成知識(shí)單元,以此構(gòu)建一個(gè)核心問題庫(kù)。
在分析智能問答領(lǐng)域的知識(shí)庫(kù)后,本文匯總上述咨詢來源的數(shù)據(jù)并分析常見及重復(fù)率較高的讀者咨詢問題,將所有的問題庫(kù)劃分成不同類別,問題庫(kù)的設(shè)置是為了適應(yīng)多種數(shù)據(jù)源的語(yǔ)料,對(duì)于每個(gè)咨詢的問題及答案都支持多種提問方式。另外,問題庫(kù)中語(yǔ)料還具備不同的優(yōu)先級(jí),如果讀者咨詢的問題是高頻常見問題則將其放入標(biāo)準(zhǔn)化問答列表[3];如果問題雖然已經(jīng)在標(biāo)準(zhǔn)列表中,但是讀者的提問方式不符合任何語(yǔ)料來源導(dǎo)致系統(tǒng)無法識(shí)別,則將這種提問方式增加到提問模式中;如果問題不在問答列表中而且提問方式也不常見,則由圖書館工作人員進(jìn)行補(bǔ)充回答;通過上述方式即可利用知識(shí)庫(kù)實(shí)現(xiàn)智能問答。
領(lǐng)域知識(shí)庫(kù)的質(zhì)量對(duì)智慧圖書館的智能問答效果影響很大,由于不同知識(shí)領(lǐng)域有其專門的專有名詞、表達(dá)方式,因此構(gòu)建一個(gè)高質(zhì)量的領(lǐng)域知識(shí)庫(kù)不僅僅是基于常見問題解答(Frequently-AskedQuestions,F(xiàn)AQ)進(jìn)行簡(jiǎn)單的數(shù)據(jù)整合。整個(gè)構(gòu)建過程包括獲取大量咨詢問答記錄、數(shù)據(jù)預(yù)處理、識(shí)別并聚合關(guān)鍵詞、分詞標(biāo)注并構(gòu)建領(lǐng)域字典等[4]。
2面向知識(shí)庫(kù)的智能問答
智慧圖書館智能問答系統(tǒng)的作用是在讀者輸入查詢?cè)~句后,可以利用后臺(tái)的人工智能算法自動(dòng)為讀者返回比較精確的咨詢結(jié)果。讀者的輸入可能是口語(yǔ)化的,而且讀者咨詢的目標(biāo)信息可能保存在結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中,這樣一來智能問答的“智能”水平就取決于問答模型。
智能問答環(huán)節(jié)涉及知識(shí)庫(kù)、讀者輸入的問題、問題處理、答案抽取及輸出等部分,其核心是知識(shí)推理,也就是將問題和答案進(jìn)行正確的匹配。問答模型主要包括用戶輸入模塊、問題處理模塊、答案抽取模塊以及輸出模塊[5]。其中用戶輸入模塊用于用戶輸入提問信息;問題處理模塊的作用是對(duì)用戶提問信息進(jìn)行自然語(yǔ)言處理,并進(jìn)行問題分類;答案抽取模塊主要作用是從領(lǐng)域知識(shí)庫(kù)中抽取對(duì)應(yīng)答案。面向知識(shí)庫(kù)的智能問答模型如圖1所示。
輸入問題經(jīng)過預(yù)處理后需要整合成規(guī)范格式的訓(xùn)練數(shù)據(jù),也就是問題訓(xùn)練庫(kù)。用戶輸入的問題語(yǔ)料一般具有不確定性,對(duì)其進(jìn)行自然語(yǔ)言處理時(shí)需要先進(jìn)行分詞,并借助自然語(yǔ)言規(guī)則完成詞性標(biāo)記和識(shí)別。分詞后需要對(duì)單詞進(jìn)行嵌入處理,在經(jīng)過單詞向量化后方便程序理解其意思。問題處理的過程就是對(duì)用戶語(yǔ)料進(jìn)行自然語(yǔ)言處理的過程,智能問答基于自然語(yǔ)言處理技術(shù),將由單詞、短語(yǔ)甚至句子組成的特定問題計(jì)算機(jī)化,使程序深入理解用戶意圖,進(jìn)而以接近于人的語(yǔ)言習(xí)慣回答用戶問題。問題處理的主要步驟包括如下。
(1)分詞。分詞是將用戶輸入的問題按照一定規(guī)則進(jìn)行拆分,拆分后的每一部分都可以單獨(dú)處理。由于人的自然語(yǔ)言存在一詞多義、一義多詞以及派生詞等現(xiàn)象,因此需要借助分詞這一手段進(jìn)行合理劃分才可以為后續(xù)索引建立良好的基礎(chǔ)。(2)標(biāo)注詞性。分詞完畢的每一部分都需要指定詞性,以便區(qū)分名詞、動(dòng)詞、形容詞以及副詞等;詞性標(biāo)注有助于理解同一詞匯在上下文的不同意思。(3)停用詞刪除。一句話中可能會(huì)有一些常見的無意義的詞,比如語(yǔ)氣助詞、連接詞等,這些詞匯沒有實(shí)際意義,對(duì)于理解用戶的實(shí)際語(yǔ)義并無幫助,需要將這些詞匯刪除。(4)問題分類。根據(jù)用戶問題的特征可以將其分配到一組預(yù)定義的類別,這種以問題為中心的信息檢索方式將問題的焦點(diǎn)放到其搜索屬性或?qū)嶓w上。
問題處理完畢后就進(jìn)入答案抽取環(huán)節(jié),也就是將提取出的信息檢索結(jié)果呈現(xiàn)為答案。問題答案并不是簡(jiǎn)單的內(nèi)容匹配,而是根據(jù)問題類型以及問題的語(yǔ)義信息從相關(guān)知識(shí)庫(kù)中檢索得到的,在用戶問題和知識(shí)庫(kù)中的預(yù)定義之間進(jìn)行推斷,縮小答案范圍后得到相似答案集合。對(duì)所有答案進(jìn)行排序后將最佳答案反饋給用戶。
3智能問答系統(tǒng)的實(shí)現(xiàn)
智能問答系統(tǒng)的功能是幫助圖書館工作人員回答讀者的問題,而問答庫(kù)的建立需要先對(duì)所有問題進(jìn)行預(yù)處理,主要的處理步驟是去噪、分詞、停用詞過濾以及關(guān)鍵詞提取。接下來主要介紹智能問答系統(tǒng)的預(yù)處理模塊、關(guān)鍵詞擴(kuò)展模塊、答案抽取模塊等模塊的實(shí)現(xiàn)。
3.1預(yù)處理
預(yù)處理的主要流程包括:文本去噪—語(yǔ)句分詞(自定義詞典)—停用詞過濾(停用詞表)—關(guān)鍵詞提取。
用戶提出的問題中可能會(huì)包含一些無意義或非文本信息,這些噪聲信息對(duì)于智能問答沒有作用甚至?xí)懈弊饔茫虼藛栴}處理的第一步就是去除問題中的噪聲信息。本文采用Python語(yǔ)言自帶的re正則匹配模塊提取問題字符串中需要的內(nèi)容。漢語(yǔ)的詞匯之間并不像英文那樣有空格作為分隔符,這就需要在對(duì)漢字序列組成的問題處理前將其分成一個(gè)個(gè)的詞匯,這一操作就是分詞。目前成熟的分詞算法主要是基于字符串匹配的分詞方法、基于理解的分詞方法以及基于統(tǒng)計(jì)的分詞方法。本文在對(duì)不同分詞工具進(jìn)行比較分析后選擇使用jieba分詞工具,此工具能夠較好地滿足智能問答系統(tǒng)的需求。分詞過后的停用詞過濾方面,本文參考了自然語(yǔ)言處理中使用廣泛的“百度停用詞表”以及“哈工大停用詞表”,并在此基礎(chǔ)上根據(jù)智能問答系統(tǒng)以及圖書館領(lǐng)域的實(shí)際需要添加和刪除了部分詞匯,并在停用詞過濾后使用樸素貝葉斯算法進(jìn)行拼寫檢查。
本文采用TF-IDF算法提取用戶問題中的關(guān)鍵詞。TF(TermFrequency)即為某詞匯在用戶問題中出現(xiàn)的頻率,稱為詞頻;IDF(InverseDocumentFrequency)表示某詞匯在問答庫(kù)中出現(xiàn)的頻率,稱為逆文檔頻率。用戶問題中所有詞匯的TF-IDF值計(jì)算完畢后對(duì)其進(jìn)行排序,值最大的被認(rèn)為是用戶問題的關(guān)鍵詞。
3.2 關(guān)鍵詞擴(kuò)展
問答庫(kù)中的問題預(yù)處理完畢后,由于用戶問題中的關(guān)鍵詞不一定與問題庫(kù)中問題的關(guān)鍵詞完全一致,因此在使用這些預(yù)處理數(shù)據(jù)前還需要進(jìn)行關(guān)鍵詞的擴(kuò)展。例如,用戶提出的問題“有沒有適合小孩看的圖書?”,在這個(gè)問題中“小孩”和詞匯“兒童”“幼兒”有近似含義,如果不進(jìn)行關(guān)鍵詞的擴(kuò)展則問題庫(kù)中的問題及答案就不能很好地匹配到用戶問題。常見的關(guān)鍵詞擴(kuò)展方法有基于同義詞詞典的擴(kuò)展方法以及基于詞向量的擴(kuò)展方法,由于基于同義詞詞典的關(guān)鍵詞擴(kuò)展方法需要預(yù)先創(chuàng)建同義詞詞典,而幾乎難以覆蓋所有的同義詞,因此本文使用word2vec工具進(jìn)行關(guān)鍵詞擴(kuò)展。
3.3答案抽取
問答庫(kù)中問答對(duì)的內(nèi)容及個(gè)數(shù)不是一成不變的,因此在保存問答對(duì)時(shí)并不是存儲(chǔ)為文本文件的形式,而是將數(shù)據(jù)按照一定格式存放在數(shù)據(jù)庫(kù)中,這樣就可以方便地對(duì)問答對(duì)數(shù)據(jù)進(jìn)行增、刪、改、查操作。在讀者提出咨詢問題后,將用戶問題和數(shù)據(jù)庫(kù)中的問答對(duì)進(jìn)行相似度計(jì)算,并進(jìn)行最終的答案抽取。
計(jì)算相似度時(shí)需要先對(duì)用戶問題進(jìn)行向量化表示,然后對(duì)用戶問題進(jìn)行關(guān)鍵詞擴(kuò)展,找到問題關(guān)鍵詞的同義詞,然后選擇余弦相似度來計(jì)算用戶問題和問答庫(kù)中問題句子間的相似度;相似度計(jì)算完畢后將滿足閾值的問題及其答案返回給用戶即可。
4結(jié)語(yǔ)
本文對(duì)智慧圖書館中的智能問答應(yīng)用進(jìn)行研究。首先,分析了智慧圖書館中應(yīng)用智能問答的基礎(chǔ)——領(lǐng)域知識(shí)庫(kù)的構(gòu)建,并闡述了面向知識(shí)庫(kù)構(gòu)建智能問答模型,最后說明了智能問答系統(tǒng)實(shí)現(xiàn)過程中的一些細(xì)節(jié),包括問題預(yù)處理、關(guān)鍵詞擴(kuò)展以及答案抽取等。智能圖書館中的智能問答應(yīng)用能夠自動(dòng)回答讀者的咨詢問題,減輕圖書館工作人員的負(fù)擔(dān),提高讀者的閱讀體驗(yàn)。
參考文獻(xiàn)
[1]錢彥,梅影.從理念到實(shí)踐:生成式人工智能在智慧圖書館中的應(yīng)用探索[J].圖書館研究與工作,2023(12):27-34.
[2]堯遲月.人工智能時(shí)代圖書館智慧閱讀推廣服務(wù)實(shí)踐分析和啟示[J].圖書館研究,2023(11):11-18.
[3] 樓紀(jì)洋.“第二個(gè)結(jié)合”視域下的中華優(yōu)秀傳統(tǒng)文化“兩創(chuàng)”路徑研究[D].長(zhǎng)春:吉林大學(xué),2023.
[4]林麗.公共服務(wù)屬性與供給機(jī)制選擇[D].長(zhǎng)春:吉林大學(xué),2023.
[5]王翼虎,白海燕,孟旭陽(yáng).大語(yǔ)言模型在圖書館參考咨詢服務(wù)中的智能化實(shí)踐探索[J].情報(bào)理論與實(shí)踐,2023(6):96-103.