李雪婷+李莘
〔摘要〕圖書(shū)館的微信自動(dòng)問(wèn)答機(jī)器人可以為讀者提供24小時(shí)信息咨詢(xún)服務(wù),提高圖書(shū)館的受關(guān)注度。本文針對(duì)自動(dòng)問(wèn)答技術(shù)中語(yǔ)言問(wèn)題進(jìn)行研究和分析,編寫(xiě)一套針對(duì)圖書(shū)館問(wèn)答機(jī)器人的語(yǔ)言體系,設(shè)計(jì)了哈爾濱工業(yè)大學(xué)圖書(shū)館自動(dòng)問(wèn)答機(jī)器人來(lái)實(shí)現(xiàn)全時(shí)段虛擬咨詢(xún),加強(qiáng)讀者與圖書(shū)館之間的互動(dòng)交流。
〔關(guān)鍵詞〕微信平臺(tái);FAQ;自動(dòng)問(wèn)答;圖書(shū)館;機(jī)器人;語(yǔ)言體系
〔Abstract〕Library WeChat automatic question-answering robot can provide 24-hour information consulting services for readers,improve the librarys attention.Based on analysis of question-answeringlanguage question,it is focused on preparing a language system of questions and answers.Designing HIT libraryquestion-answering robot attracted the attention of readers and strengthened the communication between readers and the library.
〔Key words〕platform of WeChat;FAQ;automatic question-answering;library;robot;language system
自動(dòng)問(wèn)答技術(shù)是一種允許用戶(hù)以自然語(yǔ)言查詢(xún)作為輸入,系統(tǒng)從相關(guān)文檔集中查找并返回確切答案的新型智能檢索系統(tǒng)。目前,微信公眾賬號(hào)數(shù)量已超過(guò)200萬(wàn)。隨著微信公共平臺(tái)影響力的不斷擴(kuò)大,越來(lái)越多的圖書(shū)館利用微信公共平臺(tái)開(kāi)展相關(guān)服務(wù)。基于自動(dòng)問(wèn)答技術(shù)的微信平臺(tái)公眾賬戶(hù)服務(wù)機(jī)器人以其24小時(shí)在線、快速及時(shí)反應(yīng)成為辦公自動(dòng)化的標(biāo)志性服務(wù)項(xiàng)目。哈工大圖書(shū)館的微信公眾號(hào)開(kāi)通以來(lái)受到了很多關(guān)注,擴(kuò)大了圖書(shū)館的影響力,本研究致力于在哈工大圖書(shū)館公眾號(hào)基礎(chǔ)上建立自動(dòng)問(wèn)答機(jī)器人系統(tǒng)。
1高校圖書(shū)館自動(dòng)化網(wǎng)絡(luò)服務(wù)現(xiàn)狀分析
高校圖書(shū)館的自動(dòng)化網(wǎng)絡(luò)服務(wù)的研究工作已經(jīng)開(kāi)展了很多年,F(xiàn)AQ常見(jiàn)問(wèn)題的問(wèn)答咨詢(xún)即(Frequently Asked Questions)已經(jīng)在我國(guó)高校全面普及開(kāi)來(lái)。這一服務(wù)有其獨(dú)特的優(yōu)勢(shì),不僅能將館員從繁重、單調(diào)的工作中解脫出來(lái),也符合當(dāng)今用戶(hù)自主化、個(gè)性化的趨勢(shì);同時(shí)可操作性強(qiáng),對(duì)FAQ的組織與管理已成為網(wǎng)絡(luò)咨詢(xún)工作的一個(gè)重要環(huán)節(jié),便于圖書(shū)館為用戶(hù)提供服務(wù)[2]。常見(jiàn)問(wèn)題庫(kù)一般都進(jìn)行分類(lèi)管理,有的還可進(jìn)行檢索,對(duì)常見(jiàn)問(wèn)題的分類(lèi)是方便讀者使用的重要方法和途徑[3]。近期針對(duì)國(guó)內(nèi)100所高校的圖書(shū)館FAQ進(jìn)行了專(zhuān)項(xiàng)調(diào)查,超過(guò)50家大學(xué)圖書(shū)館進(jìn)行了FAQ相關(guān)建設(shè)、分類(lèi)瀏覽、提供鏈接等全方位服務(wù)。
但大多數(shù)基于FAQ的高校圖書(shū)館自動(dòng)化服務(wù)基于人工建立的常見(jiàn)問(wèn)題庫(kù)匹配進(jìn)行檢索,可回答的問(wèn)題數(shù)量極其有限,問(wèn)題集合更新緩慢。在信息迅速發(fā)展的時(shí)代,尤其以微信、微博為代表的平臺(tái)產(chǎn)生后,常見(jiàn)問(wèn)題庫(kù)的方式就遠(yuǎn)遠(yuǎn)不能滿(mǎn)足信息更新的速度。而微信擁有其得天獨(dú)厚的優(yōu)勢(shì),它的用戶(hù)基數(shù)早已突破6億,所以,基于微信公眾平臺(tái)的開(kāi)發(fā)也正如火如荼地發(fā)展起來(lái)。微信團(tuán)隊(duì)給開(kāi)發(fā)者提供了一套標(biāo)準(zhǔn)的接口,為開(kāi)發(fā)者的開(kāi)發(fā)工作提供了很大的便利[4]。因此利用微信公眾平臺(tái)研究自動(dòng)問(wèn)答機(jī)器人將會(huì)提升圖書(shū)館信息服務(wù)效率和范圍。在交互服務(wù)方面,廈門(mén)大學(xué)、東南大學(xué)圖書(shū)館提供微信機(jī)器人的智能咨詢(xún)服務(wù)[5]。
本文提出以人工智能為基礎(chǔ)的圖書(shū)館自動(dòng)問(wèn)答機(jī)器人技術(shù)是集自然語(yǔ)言處理技術(shù)和信息檢索技術(shù)于一身的新一代智能搜索引擎。區(qū)別已有常見(jiàn)問(wèn)題的問(wèn)答咨詢(xún)及FAQ,自動(dòng)問(wèn)答系統(tǒng)可以自動(dòng)分析用戶(hù)問(wèn)題,通過(guò)對(duì)問(wèn)題的分類(lèi)和理解,在大規(guī)模數(shù)據(jù)庫(kù)基礎(chǔ)上利用人工智能技術(shù)自動(dòng)回答讀者問(wèn)題,并利用哈工大微信公眾平臺(tái)為廣大讀者提供服務(wù)。
自動(dòng)問(wèn)答機(jī)器人的研究已經(jīng)開(kāi)展多年,讓計(jì)算機(jī)和人一樣自動(dòng)回答讀者問(wèn)題是國(guó)內(nèi)外很多學(xué)者認(rèn)為不夠成熟的一門(mén)技術(shù)。但這項(xiàng)技術(shù)在特定領(lǐng)域已經(jīng)取得過(guò)一些顯著的成果。本研究是基于哈工大圖書(shū)館的讀者服務(wù)這一特定領(lǐng)域展開(kāi)的,自動(dòng)問(wèn)答機(jī)器人系統(tǒng)設(shè)計(jì)方案如圖1所示:
答案處理
答案處理部分包括答案抽取和答案排序,對(duì)信息檢索得到的結(jié)果根據(jù)問(wèn)題類(lèi)型抽取出答案,返回給用戶(hù)[6]。
3自動(dòng)問(wèn)答機(jī)器人關(guān)鍵技術(shù)
為實(shí)現(xiàn)上述目標(biāo),涉及以下幾個(gè)關(guān)鍵技術(shù)需要分步進(jìn)行研究。
語(yǔ)料收集和整理
中文自動(dòng)問(wèn)答研究已久,但是針對(duì)圖書(shū)館的自動(dòng)問(wèn)答研究還比較少見(jiàn),因此語(yǔ)料庫(kù)建設(shè)是本文研究的難點(diǎn)和重點(diǎn)。為解決這個(gè)問(wèn)題,前期做了大量相關(guān)工作,主要包括:
1針對(duì)國(guó)內(nèi)存在大量圖書(shū)館FAQ系統(tǒng),在網(wǎng)絡(luò)收集相關(guān)問(wèn)題對(duì)1 000條。對(duì)問(wèn)題進(jìn)行人工校驗(yàn),保留原問(wèn)題的前提下根據(jù)哈工大信息補(bǔ)充完善答案。
3.對(duì)圖書(shū)館的工作及服務(wù)有意見(jiàn)或建議,向誰(shuí)反映?
回答:讀者意見(jiàn)箱。歡迎讀者提出批評(píng)和建議,對(duì)留有地址或電話(huà)的讀者意見(jiàn),圖書(shū)館都會(huì)逐一答復(fù)。
4.圖書(shū)館實(shí)行連續(xù)開(kāi)放嗎?
回答:圖書(shū)館閱覽室服務(wù)時(shí)間是周一~周日8∶00到1∶30連續(xù)開(kāi)放。其它詳見(jiàn)圖書(shū)館主頁(yè)中的“服務(wù)時(shí)間”。
3針對(duì)常用問(wèn)題人工建立針對(duì)哈工大圖書(shū)館的專(zhuān)用問(wèn)題集。
8.407信息共享空間可以預(yù)約研修間嗎?
回答:可以。方式一,可以在407室咨詢(xún)臺(tái)或是撥打電話(huà)86403590預(yù)約;方式二,可以關(guān)注“HITLibrary咨詢(xún)部”微信公眾賬號(hào)信息動(dòng)態(tài)中,按照預(yù)約須知完成。
9.每周三晚圖書(shū)館走進(jìn)院系培訓(xùn)課件在哪里下載?
回答:在圖書(shū)館主頁(yè)信息咨源中下載培訓(xùn)課件。
3利用“維基百科”和“百度知道”建立關(guān)于圖書(shū)館的通用問(wèn)題集合。
56.圖書(shū)館主要功能?
回答:圖書(shū)館,是搜集、整理、收藏圖書(shū)資料以供人閱覽、參考的機(jī)構(gòu)。
78.圖書(shū)館最早出現(xiàn)在哪年?
回答:早在公元前3000年就出現(xiàn)了最早的圖書(shū)館。
79.圖書(shū)館一詞最早出現(xiàn)在哪年?
回答:最早由德國(guó)圖書(shū)館學(xué)家施萊廷格于1807年提出。這一概念的提出,標(biāo)志著現(xiàn)代圖書(shū)館學(xué)的誕生。
通過(guò)以上3種方法收集到關(guān)于“哈工大圖書(shū)館自動(dòng)問(wèn)答機(jī)器人”問(wèn)答標(biāo)準(zhǔn)句對(duì)1 000條,并對(duì)所有語(yǔ)料人工加工,調(diào)整格式,糾正錯(cuò)誤,形成一套完整的語(yǔ)料體系。
問(wèn)題的分類(lèi)
機(jī)器人自動(dòng)回答問(wèn)題面臨的第一個(gè)問(wèn)題,就是分析好問(wèn)題。對(duì)于機(jī)器理解“自然語(yǔ)言提出的問(wèn)題”,首先要把問(wèn)題進(jìn)行分類(lèi),才能進(jìn)行下一步理解。問(wèn)題的類(lèi)型往往決定著如何回答的問(wèn)題,也就是需要一個(gè)分類(lèi)的體系,見(jiàn)表1。表1圖書(shū)館自動(dòng)問(wèn)答系統(tǒng)問(wèn)題分類(lèi)體系
Ⅰ類(lèi)(大類(lèi))Ⅱ(小類(lèi))例句(問(wèn)句)時(shí)間年月日142.十一期間圖書(shū)館哪天放假?時(shí)間段138.周末圖書(shū)館幾點(diǎn)到幾點(diǎn)開(kāi)館?地點(diǎn)位置202.哈工大圖書(shū)館的位置?電話(huà)204.請(qǐng)問(wèn)406科技查新站的電話(huà)是多少?表1(續(xù))
Ⅰ類(lèi)(大類(lèi))Ⅱ(小類(lèi))例句(問(wèn)句)事件數(shù)據(jù)庫(kù)查詢(xún)12.通過(guò)校園網(wǎng)如何檢索圖書(shū)館的外文數(shù)據(jù)庫(kù)?咨詢(xún)服務(wù)18.圖書(shū)館提供文獻(xiàn)的代檢代查服務(wù)嗎?圖書(shū)借閱35.我借的圖書(shū)已經(jīng)歸還,但該書(shū)仍然借在我的帳上怎么辦?…
33基于復(fù)述的問(wèn)題自動(dòng)擴(kuò)展
每個(gè)人都有自己的語(yǔ)言習(xí)慣,因此自然語(yǔ)言表達(dá)的問(wèn)題可能因人而異。在語(yǔ)料庫(kù)的規(guī)模有限的情況下,必須進(jìn)行問(wèn)題歸類(lèi),并確認(rèn)同一問(wèn)題的不同說(shuō)法。下面兩組例子,雖然表述不同,但是意義完全一致。這種想法稱(chēng)為中文的“復(fù)述”問(wèn)題。
A類(lèi)(地點(diǎn)類(lèi))
1.哈工大圖書(shū)館的位置?
.咱們學(xué)校圖書(shū)館在哪?
3.我明天想去圖書(shū)館辦證,應(yīng)該怎么走?
B類(lèi)(時(shí)間類(lèi))
1.明天圖書(shū)館開(kāi)門(mén)嗎?(假定今天是6月25日,周六)
.這周日?qǐng)D書(shū)館正常開(kāi)門(mén)嗎?
比如對(duì)A類(lèi)問(wèn)題,語(yǔ)料庫(kù)只有第一個(gè)問(wèn)題的答案,通過(guò)復(fù)述理解的分析,也要知道后兩個(gè)問(wèn)題和第一個(gè)是完全一致,才能回答這個(gè)問(wèn)題。
問(wèn)題的情感分析
人類(lèi)語(yǔ)言的情感特點(diǎn)往往直接決定了問(wèn)題的答案,問(wèn)題的褒義和貶義反應(yīng)著讀者提問(wèn)的喜好和希望得到的答案,被稱(chēng)之為“情感分析”。通過(guò)對(duì)問(wèn)題情感的判斷來(lái)獲得更好的答案,見(jiàn)表。表對(duì)問(wèn)題情感的判斷
情感詞類(lèi)型例句分析正例(褒義)今天找到《×××》這本書(shū)超贊,還有下冊(cè)嗎?褒義詞(同構(gòu))這書(shū)內(nèi)容不錯(cuò),就是有點(diǎn)陳舊,還有新書(shū)嗎?褒義詞(異構(gòu))反例(貶義)圖書(shū)館自習(xí)座位好緊張啊,每天都這么難找嗎?貶義詞(同構(gòu))今天去檢索了,沒(méi)有想象的那么繁瑣?。抠H義詞(異構(gòu))
通過(guò)上述例子可以證明情感分析的重要性。通過(guò)對(duì)情感詞的判斷理解才能更好的自動(dòng)回答問(wèn)題,但情感詞也需要在特定的語(yǔ)言環(huán)境來(lái)進(jìn)行判斷,否則讀者得到的答案可能是相反的。
35答案抽取的模版建立
理解了讀者的問(wèn)題,如何給出滿(mǎn)意的答案才能讓讀者滿(mǎn)意?機(jī)器人的表達(dá)是否有它的優(yōu)勢(shì)?當(dāng)然,機(jī)器人還無(wú)法給出“性格各異”的“風(fēng)趣答案”。因此需要建立了一系列答案模版,讓機(jī)器的回答更規(guī)范和更禮貌,見(jiàn)表3。表3圖書(shū)館自動(dòng)問(wèn)答機(jī)器人問(wèn)題分類(lèi)系統(tǒng)
Ⅰ類(lèi)(大類(lèi))Ⅱ(小類(lèi))例句(答案句)時(shí)間年月日××年××月××日時(shí)間段××∶00到××∶30地點(diǎn)位置××街××號(hào)電話(huà)0451-8641×××事件數(shù)據(jù)庫(kù)查詢(xún)您好,查詢(xún)結(jié)果為…咨詢(xún)服務(wù)主要提供(1)…,(2)…圖書(shū)借閱鏈接指向說(shuō)明…您的提問(wèn)暫時(shí)無(wú)法回答,請(qǐng)?jiān)?/p>
工作日時(shí)間聯(lián)系…4實(shí)驗(yàn)結(jié)果分析及研究結(jié)論
在理論研究基礎(chǔ)上,本研究還針對(duì)哈工大圖書(shū)館自動(dòng)問(wèn)答系統(tǒng)中的問(wèn)題分類(lèi)和答案抽取進(jìn)行了相關(guān)實(shí)驗(yàn)。
41問(wèn)題分類(lèi)實(shí)驗(yàn)
本文采用在很多領(lǐng)域被廣泛應(yīng)用的支持向量機(jī)分類(lèi)進(jìn)行分類(lèi)實(shí)驗(yàn),選擇的最終語(yǔ)料規(guī)模大約為1 000個(gè)問(wèn)題對(duì)。隨機(jī)挑選出1 000個(gè)問(wèn)題作為訓(xùn)練集和測(cè)試集,訓(xùn)練集和測(cè)試集的比例為9∶1,測(cè)試集的產(chǎn)生采用了隨機(jī)抽取的方式以便能夠保證語(yǔ)言的分布一致性,并采用常用的3個(gè)評(píng)價(jià)指標(biāo),對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),即準(zhǔn)確率(Precision)、召回率(Recall)和F指數(shù)(F-measure),它們各自的計(jì)算公式如下:
準(zhǔn)確率p=正確分類(lèi)的正例的數(shù)目決策樹(shù)判為正例的數(shù)目(1)
召回率r=正確分類(lèi)的正例的數(shù)目所有正例的數(shù)目(2)
F指數(shù)f=(α+1)prαp+r(3)
其中為準(zhǔn)確率與召回率之間的關(guān)系權(quán)重,在本實(shí)驗(yàn)中設(shè)置以保證試驗(yàn)中準(zhǔn)確率與召回率具有相同的權(quán)重測(cè)試結(jié)果見(jiàn)表4。表4測(cè)試結(jié)果(一)
項(xiàng)目測(cè)試集100句(%)全部語(yǔ)料1 000句(%)準(zhǔn)確率p681732召回率r633760F指數(shù)f668744
4答案抽取實(shí)驗(yàn)
同時(shí),本文還完成答案抽取的初步實(shí)驗(yàn)。為客觀評(píng)價(jià)系統(tǒng),測(cè)試問(wèn)題由二個(gè)部分組成,一部分來(lái)自測(cè)試集20句;一部分為人工提問(wèn)20句。由于暫時(shí)缺少有效的自動(dòng)評(píng)價(jià)的機(jī)制,因此我們采用了人工評(píng)價(jià)的方法。人工評(píng)價(jià)由3位相關(guān)領(lǐng)域?qū)<覍?duì)抽取答案的語(yǔ)句合理性、答案準(zhǔn)確性進(jìn)行評(píng)價(jià)測(cè)試結(jié)果見(jiàn)表5。表5測(cè)試結(jié)果(二)
項(xiàng)目測(cè)試集20句(%)人工提問(wèn)20句(%)答案語(yǔ)句合理性9580答案準(zhǔn)確性68348
43實(shí)驗(yàn)分析與結(jié)論
實(shí)驗(yàn)結(jié)果一表明,圖書(shū)館自動(dòng)問(wèn)答問(wèn)題集由于缺少相關(guān)研究和訓(xùn)練數(shù)據(jù),還難以建立一套完全合理的問(wèn)題分類(lèi)體系。繼續(xù)擴(kuò)大語(yǔ)料規(guī)模,建立合理體系是未來(lái)圖書(shū)館自動(dòng)問(wèn)答機(jī)器人走向?qū)嶋H應(yīng)用的關(guān)鍵問(wèn)題,需要不斷進(jìn)行擴(kuò)展和研究。
實(shí)驗(yàn)結(jié)果二表明,該系統(tǒng)對(duì)現(xiàn)有語(yǔ)料中的問(wèn)題類(lèi)型達(dá)到一個(gè)比較好的效果,但人工提問(wèn)的隨機(jī)性導(dǎo)致性能有明顯衰弱,還無(wú)法對(duì)收集的問(wèn)題集以外的問(wèn)題進(jìn)行人工智能回答。
目前,自動(dòng)問(wèn)答機(jī)器人的研究已經(jīng)得到越來(lái)越多的關(guān)注。本文針對(duì)圖書(shū)館讀者咨詢(xún)需求,研究適合于圖書(shū)館的自動(dòng)問(wèn)答系統(tǒng)設(shè)計(jì)方案,并建立相應(yīng)問(wèn)答語(yǔ)言體系。通過(guò)對(duì)問(wèn)題集的維護(hù)和補(bǔ)充,提高自動(dòng)回答準(zhǔn)確率,應(yīng)用此研究成果幫助讀者快速找到自己想要的答案。
參考文獻(xiàn)
羅濤.圖書(shū)館微信公眾平臺(tái)的建設(shè)與研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2015,(1):96-100.
[2]王晨俊,葉春峰.FAQ在圖書(shū)館的應(yīng)用及前景分析[J].現(xiàn)代情報(bào),2013,(6):73-77.
[3]張超.基于用戶(hù)的高校圖書(shū)館網(wǎng)站FAQ多維分類(lèi)與應(yīng)用[J].圖書(shū)館學(xué)刊,2011,(12):107-109.
[4]石凱,諶志群.基于微信的自動(dòng)問(wèn)答系統(tǒng)研究[J].計(jì)算機(jī)時(shí)代,2014,(9):9-11.
[5]李丹.圖書(shū)館微信平臺(tái)建設(shè)實(shí)踐與思考[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016,(4):104-110.
[6]張蓓,竇天芳,張成昱,等.開(kāi)發(fā)模式下圖書(shū)館微信公眾平臺(tái)服務(wù)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014,(1):87-91.
張志昌,張宇,劉挺,等.開(kāi)放域問(wèn)答技術(shù)研究進(jìn)展[J].電子學(xué)報(bào),2009,(5):1058-1069.