張麗芬,李 平,郭新靈
(1.內(nèi)蒙古化工職業(yè)學(xué)院圖書館,呼和浩特 010010;2.黃淮學(xué)院信息工程學(xué)院,河南 駐馬店 463000)
基于混合模型的圖書館服務(wù)機器人語音指令解析系統(tǒng)
張麗芬1*,李 平2,郭新靈1
(1.內(nèi)蒙古化工職業(yè)學(xué)院圖書館,呼和浩特 010010;2.黃淮學(xué)院信息工程學(xué)院,河南 駐馬店 463000)
基于智慧圖書館技術(shù)的現(xiàn)狀,對圖書管理服務(wù)機器人的人機交互問題進行了研究,提出了一種基于混合模型的機器人語音指令深層信息解析系統(tǒng)。首先,對圖書館機器人的研究現(xiàn)狀及其存在的語義解析問題進行了分析;然后提出了基于概率和神經(jīng)網(wǎng)絡(luò)的混合模型,基于此模型對語音指令進行深度的信息識別;最后在該系統(tǒng)上進行了深層信息解析的仿真實驗,并與幾種經(jīng)典方法進行了比較。結(jié)果表明,該方法能夠更加準確的提取表層信息和深層信息。
語音解析;混合模型;深度信息提取;概率模型;神經(jīng)網(wǎng)絡(luò)模型
隨著人類社會的不斷發(fā)展,未來城市的面積和人口承載量將越來越大。為了實現(xiàn)城市的可持續(xù)發(fā)展,發(fā)展建設(shè)智慧城市已成為當(dāng)今世界城市發(fā)展的歷史潮流。智慧城市代表城市的信息化和智能化,作為城市公共事業(yè)的重要部分,智慧圖書館的發(fā)展成為當(dāng)下智能化研究的一個重要方向,圖書館服務(wù)機器人的應(yīng)用也在快速拓展。2013年,美國北卡羅萊納州立大學(xué)亨特圖書館引進機器人存取服務(wù),讀者在檢索系統(tǒng)中選擇圖書,工作人員將圖書名稱輸入電腦,機器人即可自動找到該圖書[1]。2014年,澳大利亞悉尼科技大學(xué)的機器人管理員不僅能整理館內(nèi)超過30萬本的藏書,而且能將讀者在計算機上選好的書在最短時間內(nèi)送到他面前。2016年,浙江圖書館引入機器人管理員,它能夠語音識別讀者說出的圖書名稱,并指示出圖書所在的位置,實現(xiàn)自主智能的借還書服務(wù)。
人工智能和計算機技術(shù)的進步使圖書館機器人能夠代替人工提供更多的服務(wù),但現(xiàn)階段,機器人需要人工的協(xié)助才能完成相應(yīng)的任務(wù),如需要人工輸入計算機、語言、手勢等。其中,基于語言的人機交互是智能機器人應(yīng)用中最理想的交互方式[2]。為了使機器人能夠理解人類的語言,語音處理主要包括兩個關(guān)鍵步驟:語音識別和語義解析。語音識別是將人的語音轉(zhuǎn)化為語言文本,語義解析是對語音識別出的文本進行分析,推斷說話人所要表達的語意。其中語音識別技術(shù)已經(jīng)比較成熟,現(xiàn)在也有了許多商業(yè)化產(chǎn)品,例如科大訊飛的“訊飛語音輸入”,語音識別率高達95%;而語義解析技術(shù)還處在發(fā)展當(dāng)中,是現(xiàn)階段語言處理中的研究熱點。
語音識別領(lǐng)域的模型主要可分為3類:(1)隱馬爾科夫模型HMM(Hidden Markov Model)[3-4]:該模型具有時序建模能力,語音識別結(jié)果良好,但模型中狀態(tài)輸出獨立性假設(shè)為高斯混合模型;(2)神經(jīng)網(wǎng)絡(luò)模型NNM(Neural Networks Model)[5]:該模型具有自組織性、自適應(yīng)和連續(xù)學(xué)習(xí)能力,但僅限于小詞匯和語音識別;(3)混合模型:Geoffrey[6]提出將深度神經(jīng)網(wǎng)絡(luò)模型和隱馬爾科夫模型相結(jié)合,應(yīng)用于大詞匯量的語句識別中,識別精度提高,且識別的錯誤率降低了30%。
語義解析的方法一般包括兩種[7]:(1)基于規(guī)則的方法:該方法實現(xiàn)相對較容易,準確度高,但是不具有適應(yīng)性,當(dāng)場景變換時需要制定新的規(guī)則。駱家偉[8]等人研究智能家庭服務(wù)機器人語音系統(tǒng),通過提取用戶話語中的關(guān)鍵詞進行匹配,實現(xiàn)簡單的聊天和指令功能。李新德等[9]采用了基于組塊的路徑分析方法,實現(xiàn)了針對語言描述路徑的機器人室內(nèi)導(dǎo)航。(2)基于統(tǒng)計的方法:包括基于距離和相似度的算法、基于概率論的算法、基于機器學(xué)習(xí)的算法,該方法使用靈活,場景的變化時可以快速移植[10]。Pulasinghe[11]等人提出了一種基于模糊神經(jīng)網(wǎng)絡(luò)的理解算法,實現(xiàn)了對用戶模糊語義的理解。兩種方法都依賴于文本數(shù)據(jù),通過挖掘相關(guān)知識,進行語義理解。不同的地方是基于規(guī)則的方法挖掘的是關(guān)聯(lián)規(guī)則,而基于統(tǒng)計的方法挖掘的是是統(tǒng)計特征。
基于以上分析,語音處理中的模型專注于語音表層信息的識別,缺乏深層信息識別相關(guān)內(nèi)容。為進一步提高圖書館服務(wù)機器人語音指令的理解能力,本文提出了一種新的基于概率模型和雙受限波爾茲曼機神經(jīng)網(wǎng)絡(luò)混合模型的機器人語音指令深層信息解析系統(tǒng),并通過仿真實驗驗證了方法的正確性。
圖書館環(huán)境中,服務(wù)機器人所接收到的語音指令一般可由服務(wù)對象、操作對象、位置對象和指令對象4種實體組成。
(1)服務(wù)對象:圖書管理環(huán)境中,服務(wù)對象即為指令的發(fā)起對象,該對象是指令的發(fā)出者也是被服務(wù)的主體,通常為使用圖書管理系統(tǒng)的人。例如:“給我拿一本《圖書館戰(zhàn)略管理》”中的“我”。
(2)操作對象:操作對象是指在指令序列中被機器人作用的實體,圖書館中通常為書籍。例如:“給我還一本《圖書價格管理制度研究》”中的書籍《圖書價格管理制度研究》。
(3)位置對象:位置對象是指由服務(wù)對象指定的用來表示操作對象位置信息的對象。例如:“幫我將《圖書價格管理制度研究》放在2號閱覽室”中的“2號閱覽室”。
(4)指令對象:指令對象是指由服務(wù)對象發(fā)出的動作指令。例如“開門”中的“開”、“拿書”中的“拿”等,該類對象往往是一條指令的必備成份。
由以上4種實體對象,可以組合出多種語音指令。為了研究的方便,將所有的簡潔有效的語音指令分為3類。
(1)A類指令
A類指令結(jié)構(gòu)為機器人―服務(wù)對象―操作對象類的語音指令。例如“給我拿一本《圖書館戰(zhàn)略管理》”,意指機器人為我借一本書籍《圖書館戰(zhàn)略管理》,這類指令也可以有其他表達方式,如“拿一本《圖書館戰(zhàn)略管理》給我”或者“幫我借一本《圖書館戰(zhàn)略管理》”。
(2)B類指令
B類指令是機器人―操作對象―位置對象類的語音指令。例如“將《圖書價格管理制度研究》放在2號閱覽室”,意指機器人將《圖書價格管理制度研究》這本書放在2號閱覽室,這類指令也可以有其他描述方式,如“拿一本《圖書價格管理制度研究》到2號閱覽室”或者“在2號閱覽室放一本《圖書價格管理制度研究》”。
(3)C類指令
C類指令是機器人―操作對象類的語音指令,該類指令的句型簡短、目標(biāo)明確、表達方式固定。例如“找到《圖書館信息資源建設(shè)與管理研究》”。
以上為圖書館服務(wù)機器人所接收到的常用語音指令類型,使用中可能會有交叉或者混合的指令類型。在實際的運行過程中,可以直接從語音識別的文本中理解指令的表層含義,但在執(zhí)行的過程中仍需要對語音指令的深層信息進行解析,才能正確的操作命令。例如“幫我拿一本《圖書館信息資源建設(shè)與管理研究》”,通過表層信息可以提取出關(guān)鍵詞“我”,“一本”,“《圖書館信息資源建設(shè)與管理研究》”。為了執(zhí)行操作,需要在執(zhí)行命令時,理解指令的深層信息,首先需要執(zhí)行的動作是“借”而不是“還”;其次需要定服務(wù)對象的位置,這樣才能完成服務(wù)命令;最后,還需要由圖書的名稱進行深層次的解析,定位操作對象的位置,這樣才能規(guī)劃運動的合理軌跡。因此,在圖書館服務(wù)機器人中研究新的有效的語音指令深層信息解析系統(tǒng)與方法非常必要。
人機交互中的語言理解的本質(zhì)上就是將人的語言轉(zhuǎn)化為機器可以理解的語言,基本框架如圖1所示,包括輸入層、分析層和輸出層3個部分。
圖1 語言語義理解框架
圖2 深層信息解析系統(tǒng)結(jié)構(gòu)
基于這一流程,本文提出一種基于混合模型的深層信息解析系統(tǒng)。系統(tǒng)包括以下流程:首先,人通過語音發(fā)出輸入指令,結(jié)果顯示為語音信號;其次,該語音信號作為指令分析模塊的輸入,基于隱馬爾科夫模型,將其轉(zhuǎn)化為文本信息;然后該文本信息作為語義解析模塊的輸入,基于概率模型的指令解析模塊將各個詞匯進行對象標(biāo)注;進而由雙受限波爾茲曼機神經(jīng)網(wǎng)絡(luò)模型[12-13]對服務(wù)對象、操作對象、指令對象和位置對象進行深層信息的提取和分析;最終由提取獲得深層信息,構(gòu)建處機器人動作指令的流程,規(guī)劃出合理的操作順序,輸出指令。
以A類指令為例,操作員發(fā)出語音指令“給我一本《圖書館信息資源建設(shè)與管理研究》”。該指令首先儲存為語音信號,基于隱馬爾科夫模型,轉(zhuǎn)化為文本指令,顯示為文本信息{“給我一本《圖書館信息資源建設(shè)與管理研究》”}。文本信息進人語義解析模塊,基于概率模型,解析出各個詞與有效信息的映射關(guān)系,標(biāo)注為{“[給]:指令對象”,“[我]:服務(wù)對象”,“[《圖書館信息資源建設(shè)與管理研究》]:操作對象”}。然后,將3種對象實體基于雙受限波爾茲曼機神經(jīng)網(wǎng)絡(luò)模型進行深層信息提取,注釋為{“指令對象:借書”,“服務(wù)對象:代根興,借書臺”,“操作對象:《圖書館信息資源建設(shè)與管理研究》,社科書庫,B2書架,3層,4號書位”}。最后,由以上提取獲得信息,對機器人的路徑進行規(guī)劃,{借書臺―社科書庫―B2書架―3層―4號書位―取書―借書臺―放書}。至此,從語音指令輸入,經(jīng)過解析,輸出給機器人一個完整的機器指令。
圖2給出了深層信息解析系統(tǒng)的整體結(jié)構(gòu),在隱馬爾科夫模型基礎(chǔ)上獲得文本信息進入指令解析模塊。如圖2中虛線框所示,指令解析模塊分為兩個部分,一部分為表層信息的獲取,一部分為深層信息的提取。
基于概率模型的語義提取方法有很多種,本文選取最大熵模型[14]。最大熵模型的核心思想是,對隨機變量的概率分布進行預(yù)測時,除已知條件外,不對未知情況做任何假設(shè),此時概率分布的信息熵最大。
(1)
f(x,y)相對于模型條件概率分布p(y|x)的期望值為
(2)
(3)
因此,在滿足約束的集合內(nèi),最大熵模型的求解公式為:
p*=argmaxH(p)
(4)
圖4 基于多層受限波爾茲曼機神經(jīng)網(wǎng)絡(luò)模型的深層信息提取
利用所建立的最大熵模型求解語義標(biāo)注問題。如圖3所示,輸入某一文本特征向量,利用式的最大熵模型,得到輸出語義標(biāo)注向量y1y2…ym,以及對應(yīng)的概率向量p1>p2>…>pm,概率最大的語義標(biāo)注即為最佳語義,從而完成文本信息的表層信息提取。
圖3 基于最大熵算法的表層信息提取
表層信息的獲得是機器人能夠了解語音指令中的各個實體對象,如操作對象和指令對象。但機器人在執(zhí)行操作時,需要進一步了解在語音指令中包含的隱藏信息或者默認信息,因此需要進一步對各個實體對象進行深層信息挖掘。本文采用Geoffrey多層深度神經(jīng)網(wǎng)絡(luò)模型進行深層信息的提取。對于不同的實體對象,可能由不同層次的隱藏信息,因此神經(jīng)網(wǎng)絡(luò)模型的層次也不同,以圖書館服務(wù)中常用的A類指令中的操作對象為例,在了解書籍的名稱之后,還需進一步對書籍的位置等隱藏信息進行深度解析。圖4表示了基于多層受限波爾茲曼機神經(jīng)網(wǎng)絡(luò)模型,對操作對象進行深層信息提取的過程。該神經(jīng)網(wǎng)絡(luò)模型可表示為
Y=(v,h1,h2,h3;θ)
(5)
式中:V表示可見層;h1為第1個隱藏層(書位);h2為第2個隱藏層(書架);h3為第3個隱藏層(房間),θ是神經(jīng)網(wǎng)絡(luò)Y的參數(shù)。由已知的可見層中的參數(shù)Vi作為
輸入條件,根據(jù)神經(jīng)網(wǎng)絡(luò)模型確定在第1個隱藏層h1j的信息:
(6)
然后,將獲得第1層隱藏信息h1j作為輸入條件,識別第2層隱藏書架中的信息;同理,依次即可獲得第3層房間的信息:
(7)
至此,通過多層受限波爾茲曼機神經(jīng)網(wǎng)絡(luò)模型,該操作對象所隱藏的深層信息都被挖掘出來,從而為機器人的動作指令規(guī)劃提供完整的信息。其他實體對象的深層信息可通過相同的方法進行解析,但在實現(xiàn)的過程中根據(jù)對象的不同,其隱藏信息的層次有所區(qū)別。
以上幾節(jié)對本文提出的基于混合模型的語音指令深層信息解析系統(tǒng)的結(jié)構(gòu)和原理進行了詳盡的介紹,在此基礎(chǔ)上,采用仿真實驗的方法對提出的模型和算法進行驗證和分析。
首先在自然條件下采集圖書館環(huán)境下的語音庫,作為知識庫進行模型訓(xùn)練。選取4個學(xué)生的語音進行采集,其中兩男兩女。語音庫包括3種不同結(jié)構(gòu)的指令,實驗中A類64條,B類48條,C類16條,每人共128條,四人共計512條語音。表1列出了語音類型中的訓(xùn)練示例,其中包括6個房間層,6個書架層,6個書位層和若干個操作對象。
模型訓(xùn)練之前,需要對生成的語音指令中的各個實體對象進行手動標(biāo)注。將各條指令拆分為由服務(wù)對象、操作對象、指令對象和位置對象組成的指令。為了增加模型的準確度,驗證模型訓(xùn)練所需的語音指令的個數(shù),可將所有的512條命令隨機的重復(fù),以增加語音指令的數(shù)量。具體的操作為,將語音指令重復(fù)整數(shù)倍,再從其中隨機抽選出若干指令。這種操作的優(yōu)點為避免完全倍數(shù)重復(fù)條令帶來的偶然性對模型訓(xùn)練的影響。
表2顯示了十次實驗之后模型訓(xùn)練的準確率變化和耗費時間的情況。從表中可以看出,當(dāng)語音指令的個數(shù)較小時,隨著指令數(shù)量的增加,模型的準確率和消耗的時間也明顯增加;但是當(dāng)指令的數(shù)量增加到4 096之后,模型的準確率的增加會顯著的較小,甚至出現(xiàn)負增長,消耗的時間的增長也變慢。由此,得出以下兩個結(jié)論:(1)訓(xùn)練模型的樣本個數(shù)并不是越多越好,需要通過實驗驗證最優(yōu)個數(shù);(2)模型訓(xùn)練消耗時間的增長會隨著樣本個數(shù)的增加而逐漸減小,直至平穩(wěn)。為此,本文在模型訓(xùn)練中選擇4 096個樣本,即原始樣本的8倍,此時訓(xùn)練的時間為22.4s。
表1 語音訓(xùn)練示例
表2 模型訓(xùn)練的收斂性和復(fù)雜度[15]
在完成模型的訓(xùn)練之后,對實際的語音條令進行信息解析,其過程可以分為表層信息的提取和深層信息的提取。
圖5給出了本文提出的混合模型與Kate等[16]提出的的KRISP模型和Mooney等[17]提出的規(guī)則模型對表層信息提取的準確率的對比。與其他兩種模型相比,本文提出的混合模型信息提取系統(tǒng)識別表層信息的準曲率要高,十次實驗中識別結(jié)果的準曲率都在90%左右;單獨從混合模型來看,表層信息識別過程的穩(wěn)定性非常好,十次實驗準曲率幅值的跳動都不大。因此,可以得出從表層信息的識別結(jié)果來看,本文的基于混合模型的系統(tǒng)的結(jié)果要更好。
圖5 表層信息提取的識別準確率對比
在表層信息結(jié)果的提取的基礎(chǔ)上,進一步對深層信息提取的結(jié)果進行分析。圖6給出了本文提出的方法對3類不同指令中深層信息提取的結(jié)果??傮w來看,3種類型指令深層信息的識別準確率在75%左右,準確率的幅值在65%到85%之間,識別的結(jié)果較為穩(wěn)定。與表層信息相比,解析信息的準確度有所降低。但從圖7中,本文方法與傳統(tǒng)方法的識別結(jié)果來看,基于混合模型的語音指令解析系統(tǒng)能夠識別出傳統(tǒng)系統(tǒng)無法提取的深層信息,有著明顯的優(yōu)勢?;谏顚有畔⒆R別準確率在75%左右,該方法有進一步研究提升的空間。
圖6 針對操作對象的深層信息提取的識別準確率
圖7 深層信息提取的對比
通過對傳統(tǒng)的語義解析方法的研究和圖書館語言指令特點的分析,本文提出了一種新的基于混合模型的圖書館服務(wù)機器人語音指令深層信息解析系統(tǒng),系統(tǒng)將基于最大熵的概率模型和基于多層受限波爾茲曼機神經(jīng)網(wǎng)絡(luò)模型相結(jié)合,實現(xiàn)了對語音指令中深層語義信息的識別和提取,與傳統(tǒng)方法相比,能夠使機器人更好的理解和實現(xiàn)語音指令。針對本文的研究結(jié)果,一方面,作者會進一步對系統(tǒng)本身的解析方法進行改進,以提高深層信息識別的準確性;另一方面,作者將致力于軟硬件結(jié)合的實現(xiàn),將所提出的方法在真實的圖書館機器人上得到應(yīng)用。
[1] Wang M,Chen Y. The Research of Community Library Service for Youth Groups in USA[J]. Research on Library Science,2015.
[2] Jurafsky D,Martin J H. Speech and Language Processing[M]. Pearson,2014,24-29.
[3] Prestat E,David M M,Hultman J,et al. FOAM(Functional Ontology Assignments for Metagenomes):a Hidden Markov Model(HMM)Database with Environmental Focus[J]. Nucleic Acids Research,2014,42(19):e145-e145.
[4] 荊雷,馬文君,常丹華. 基于動態(tài)時間規(guī)整的手勢加速度信號識別[J]. 傳感技術(shù)學(xué)報,2012,25(1):72-76.
[5] 陳華華,杜歆,顧偉康. 基于神經(jīng)網(wǎng)絡(luò)和遺傳算法的機器人動態(tài)避障路徑規(guī)劃[J]. 傳感技術(shù)學(xué)報,2004,17(4):551-555.
[6] Dahl G E,Yu D,Deng L,et al. Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition[J]. IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):30-42.
[7] MacCartney B,Manning C D. Natural Logic and Natural Language Inference[M]//Computing Meaning. Springer Netherlands,2014:129-147.
[8] 駱家偉,牟琳,靳泰戈. 智能家庭服務(wù)機器人語音系統(tǒng)實現(xiàn)[J]. 計算機應(yīng)用,2013(s2):322-325.
[9] 李新德,張秀龍,戴先中. 一種基于受限自然語言處理的移動機器人視覺導(dǎo)航方法[J]. 機器人,2012,33(6):742-749.
[10] Shimada K,Iwashiata K,Endo T. A Case Study of Comprehension of Several Methods for Corpus-Based Speech Intention Understanding[C]//Proceeding of PACLING 2007. 2007:255-262.
[11] Pulasinghe K,Watanabe K,Izumi K,et al. Modular Fuzzy-Neuro Controller Driven by Spoken Language Commands[J]. IEEE Transactions on Systems,Man,and Cybernetics,Part B:Cybernetics. 2004,34(1):293-302.
[12] Geoffrey E,Simon O. A Fast Learning Algorithm for Deep Belief Nets. Neural Computation,2006,18(7):1527-1554.
[13] Mohamed A,George E. Acoustic Modeling Using Deep Belief Networks. IEEE Transactions on Audio,Speech,and Language Processing,2014,20(1):14-22.
[14] 戴波,盛沙,唐建,等. 改進的Burg最大熵法在管道檢測中的應(yīng)用[J]. 傳感技術(shù)學(xué)報,2007,20(6):1416-1419.
[15] 肖雪. 基于最大熵模型的中文文本層次分類方法[J]. 計算機與網(wǎng)絡(luò),2015(9):36-38.
[16] Kate R J. Learning for Semantic Parsing with Kernels under Various Forms of Supervision[M]. The University of Texas at Austin,2007.
[17] Mooney R J. Learning for Semantic Parsing[C]//International Conference on Intelligent Text Processing and Computational Linguistics. Springer Berlin Heidelberg,2007:311-324.
AParsingSystemBasedonHybridModelforLibraryServiceRobot’sVoiceCommand
ZHANGLifen1*,LIPing2,GUOXinling1
(1.Inner Mongolia Vocational College of Chemical Engineering Library,Hohhot 010010,China;2.School of Information Engineering Huanghuai University,Zhumadian He’nan 463000,China)
Based on the present situation of the wisdom library technology,the human-computer interaction issues of the library service robots was studied,and a hybrid model was proposed on the basis of the parsing system for voice command depth information parsing. First,the situation of library service robots and the problem in semantic analysis methods were analysed. Then,a hybrid model based on the probability and neural network was proposed,and deep information were identified from the voice command. Finally,experiments based on the simulation were verified using the comparision with other classical methods. The results show that the proposed sysetm can extract surface and deep information more accurately.
voice parsing;deep information;hybrid model;library robot;information extraction
10.3969/j.issn.1005-9490.2017.06.047
2016-02-03修改日期2017-05-10
TP242
A
1005-9490(2017)06-1575-07
張麗芬(1980-),女,內(nèi)蒙古呼和浩特人,漢族,本科,高級講師,研究方向為計算機、信息技術(shù);
李平(1976-),女,河南駐馬店市人,漢族,碩士,講師。研究方向為信息處理與現(xiàn)代電子系統(tǒng);
郭新靈(1980-),男,內(nèi)蒙古呼和浩特市人,漢族,本科,高級工程師,從事電子政務(wù)云規(guī)劃與設(shè)計。