基于HMM與RBF混合模型的情感智能聊天系統(tǒng)

2018-04-13 01:12閆丹陽耿秀麗

計算機技術(shù)與發(fā)展 2018年4期

閆丹陽，姜梅，耿秀麗，閆偉

(山東師范大學信息科學與工程學院，山東濟南 250000)

0 引言

隨著信息技術(shù)的提高和人類在機器學習領(lǐng)域的研究日益加深，人類對機器系統(tǒng)的智能化和情感化訴求也在擴大。情感智能聊天系統(tǒng)作為具有智能化、情感化特點的聊天工具在信息量與日俱增的今天受到了越來越多的關(guān)注。情感智能聊天系統(tǒng)一方面能夠作為即時通訊工具完成人機交互，準確向用戶傳遞信息和數(shù)據(jù)；另一方面也能夠在交互通訊的過程中體現(xiàn)出機器本不具有的智能化、情感化等突出特點，從而把通訊過程變成一個有趣味的人機交互過程。

然而當今情感智能聊天系統(tǒng)的發(fā)展相對緩慢，普遍存在幾個顯著的問題：不符合人類的聊天習慣；沒有長時記憶體[1]的功能；語料庫[2]匱乏；不支持文本和語音雙向輸入輸出[3-4]。因此，情感智能聊天系統(tǒng)，須加以完善，使其具備更加強大的功能，擁有更加豐富的情感。

針對當前情感聊天系統(tǒng)的不足和匱乏，提出了一種新的情感智能聊天系統(tǒng)的搭建方法。擬通過利用隱馬爾可夫模型(hidden Markov model，HMM)和徑向基函數(shù)(radial basis function，RBF)的混合模型[5-7]創(chuàng)建人類情感語音庫，結(jié)合與瀏覽器已經(jīng)建立連接的文本數(shù)據(jù)庫，通過Flex技術(shù)使系統(tǒng)與瀏覽器建立連接，使語料庫得到擴充和豐富，最后實現(xiàn)對用戶的輸入做出擬人化的語音或者文本雙向輸出的目標。

1 改進方法

1.1 語料庫構(gòu)建

1.1.1 語料的收集

語料收集首先選出合適的語料，進行預處理工作，為下文語料的標注做好準備。文中擬通過運用合適的語料選擇方法來提高語料庫的覆蓋率，進而提高語料庫的規(guī)模、使用范圍和準確性。從情感色彩看，語料庫大致分高興、悲傷、憤怒、平靜、暴躁、愉悅、害怕、驚奇、厭惡九大類；從時間軸看，語料庫集結(jié)了適合各個年齡段人群交流的話題，包括動畫片、當下流行元素、工作問題、結(jié)婚生子、婆媳大戰(zhàn)、健康養(yǎng)生等多類話題[8]。總的來說，構(gòu)建語料庫更加貼近生活問題，以此達到智能聊天的目的。表1列出了部分類語料的詳細信息。

表1 部分類語料的詳細信息

1.1.2 語料庫的標注體系

語料庫標注體系表示對語料的加工程度，即把待標注的語料添加到特定的信息集合中。標注體系的類別劃分過粗不能準確全面地理解語言，過細導致標注信息過于龐大，會增加標注難度，降低效率，并且會降低模型的健壯性。因此，文中預先標注了語料，參考其他類型語料庫標注并結(jié)合自身特點制定了特有的標注體系集合，例如：情感模型=(高興、悲傷、憤怒、平靜、暴躁、愉悅、害怕、驚奇、厭惡)；生活模型=(動畫片、當下流行元素、工作問題、結(jié)婚生子、婆媳大戰(zhàn)、健康養(yǎng)生)。

1.1.3 語料庫的質(zhì)量監(jiān)控

語料庫監(jiān)控從標注規(guī)范、糾錯機制和補充學習三個方面進行。標注規(guī)范是在語料標注過程中減少錯誤操作，提高標注效率和一致性的有效措施[9]；糾錯機制則是在語料標注完成后進行錯誤和一致性檢查，防止錯誤的語料進入語料庫[9]；補充學習是為了提高語料庫的使用壽命及系統(tǒng)的智能性。現(xiàn)存的語料庫在更新學習方面較為缺乏，不能做到及時更新，降低了語料庫的壽命，加重了維護人員的工作負擔。文中改進的補充學習監(jiān)控方式通過對用戶輸入請求的判斷規(guī)約出表達同類情感語料的補充收錄。在用戶對一句話、一種意思或情感多次重復描述基礎(chǔ)上，把該語料記憶、收錄并歸類到相應(yīng)的語料標注體系下，從而實現(xiàn)智能化的提升。

1.2 語音庫構(gòu)建

1.2.1 基于HMM和RBF的語音庫構(gòu)建

HMM[10-11]是通過分析語音當前的波形進而推斷該波形所對應(yīng)的最可能的音素，得到該語音信號所對應(yīng)的文字信息。在訓練和識別過程中發(fā)現(xiàn)，不同HMM模型代表著不同的情感狀態(tài)。通過同類情感的訓練樣本多次訓練可以得出每個HMM的模型參數(shù)，后續(xù)可以通過修正與該情感相對應(yīng)HMM模型來學習某一種新情感。但是HMM的缺陷也比較明顯：HMM訓練和識別算法過于依賴強假設(shè)，從而造成模式識別性能不盡如人意；雖然充分考慮了特征類內(nèi)部變化問題，卻忽略了類之間的重疊性，僅僅根據(jù)各累積概率的最大值作類別判斷，導致其分類決策能力欠佳，而且相應(yīng)的自身適應(yīng)性、魯棒性等都產(chǎn)生了一定的限制。

RBF神經(jīng)網(wǎng)絡(luò)是一種典型的局部逼近網(wǎng)絡(luò)，網(wǎng)絡(luò)結(jié)構(gòu)分為三層[12]：

輸入層：由一些被稱作感知單元的信號源點組成，用來連接網(wǎng)絡(luò)與外界。

隱藏層：該層的作用是將輸入空間傳至隱空間并產(chǎn)生局部響應(yīng)，從而能夠?qū)崿F(xiàn)分類和函數(shù)逼近。

輸出層：經(jīng)隱藏層處理，數(shù)據(jù)在該層進行加權(quán)求和后輸出。因此，該層節(jié)點是一種線性求和單元。

RBF隱藏層向量維數(shù)通常比較高。一般來說，隱藏層向量維數(shù)越高，RBF網(wǎng)絡(luò)趨近于一個光滑的輸入輸出映射時就越精確[12]。RBF神經(jīng)網(wǎng)絡(luò)的特點是能夠保持非常高效的自學習。即使輸入的維度較高，RBF也能夠保證較強的分類性能和較快的訓練速度。

根據(jù)模式識別理論，通過非線性映射到高維特征空間可以解決低維空間線性不可分的問題，從而實現(xiàn)線性可分。RBF網(wǎng)絡(luò)的輸入就是一個原始線性不可分的特征空間，可以使之經(jīng)過適當?shù)暮瘮?shù)變換到達另一線性可分的空間，之后用線性單元解決問題。

為了提高語音情感識別的魯棒性和識別率，把動態(tài)時間建模能力較強的HMM和分類學習能力較強的RBF這兩種方式相結(jié)合，提出了基于HMM和RBF混合語音識別模型的語音庫構(gòu)建，即把RBF神經(jīng)網(wǎng)絡(luò)計算狀態(tài)的觀察概率結(jié)合應(yīng)用于HMM模型，不僅解決了HMM模型中魯棒性不強、訓練復雜的問題，而且克服了RBF神經(jīng)網(wǎng)絡(luò)處理語音動態(tài)變化特征序列不盡如人意的缺點。

語音庫構(gòu)建過程主要包括：

(1)原始語音預處理。

在獲取用戶的語音信息之后，對聲音信息進行預濾波、預加重、短時加窗及端點檢測等預處理；對特征參數(shù)提取訓練、利用CHMM進行聲學建模作為識別算法，建立基于CHMM的語音識別算法。另外從信號空間、特征空間、模型空間三方面進行語音補償，構(gòu)建一種新的較好結(jié)合了維納濾波、直方圖均衡、向量泰勒級數(shù)三種算法[13-14]優(yōu)點的語音識別算法，確保對聲音信息的預處理及初步文本轉(zhuǎn)化更準確，減少計算機的計算量，提高計算機反應(yīng)速度。

(2)特征提取。

分析每一種語音情感的特點并提取相應(yīng)特征，為下一步HMM模型的建立做準備。

(3)設(shè)計HMM模型及訓練。

給每種語音情感都設(shè)計了一個HMM模型。所采用的HMM模型訓練準則是基于ML的Baum-Welch算法[15]。訓練過程首先是用HMM模型對語音信號進行狀態(tài)分割并使用Viterbi算法得到最優(yōu)狀態(tài)序列[15]，然后為了將變長的最優(yōu)狀態(tài)序列轉(zhuǎn)變成固定維數(shù)特征向量，采用勒讓德系數(shù)對正交基函數(shù)進行展開[16]。

(4)RBF模型建立與最終識別。

RBF神經(jīng)網(wǎng)絡(luò)將對HMM的狀態(tài)累計概率進行識別，通過其非線性映射能力進行映射，將RBF神經(jīng)網(wǎng)絡(luò)的決策結(jié)果認定為最終識別結(jié)果。

(5)根據(jù)識別結(jié)果歸類入庫。

由以上過程得出語音識別結(jié)果，根據(jù)不同的情感分類將之分別入庫，建立最終的情感語音庫。

語音識別過程如圖1所示。

圖1 基于HMM和RBF的語音識別過程

1.2.2 基于Flex技術(shù)的情感語音庫動態(tài)更新

使用Flex提供的構(gòu)建移動應(yīng)用和傳統(tǒng)的基于瀏覽器應(yīng)用的基本框架，建立情感語音庫與瀏覽器的連接，定時更新情感語音庫中已有的代表某種情感狀態(tài)的語句。

Flex技術(shù)提供構(gòu)建移動應(yīng)用和基于瀏覽器應(yīng)用的基本架構(gòu)[15]，其框架是完全開源免費的。使用Flex技術(shù)可以減少服務(wù)器之間的通信次數(shù)，詳細展示出數(shù)據(jù)的細節(jié)，從而彌補了許多傳統(tǒng)Web應(yīng)用缺乏的元素，使智能聊天系統(tǒng)具有更良好的反應(yīng)速度以及更真實的情感表達。

1.3 分詞算法

現(xiàn)有的分詞算法分為三大類：基于字符串匹配的分詞算法、基于統(tǒng)計語言模型的分詞算法和基于理解的分詞算法[17]。但由于基于統(tǒng)計語言模型的分詞算法對常用詞的敏感度低，基于理解的分詞算法尚處于試驗階段等局限性，采用基于字符串匹配的分詞算法，其中的雙向最大匹配法，即把正向最大匹配法和逆向最大匹配法相結(jié)合，能夠確保最精準的匹配度。

由于漢語詞的長度差異大，有的多字詞，長度為十幾個漢字，而單字成詞長度為1。最大匹配算法的初始切分長度常為詞典最長詞條的漢字數(shù)M，如此切分和匹配影響了算法效率。另外，二字詞和三字詞在漢語詞中占有相當大的比例，而以詞首字開始的二字詞、三字詞和多字詞的數(shù)量能夠反映出詞首字開始的詞為二字詞、三字詞和多字詞的可能性。因此，在最大匹配算法中引進隨機數(shù)得到最大匹配的概率算法，并以詞首字最長詞長Lmax為最大切分限界值[18-20]。設(shè)待切分的語料漢字串為Str=S1S2…Sn，基于最大匹配的概率算法描述如下：

(1)取S1，通過hash映射，找到詞首字索引項，獲取相關(guān)數(shù)據(jù)。

(2)若maxlen=1，則S1為詞首字的詞表為空，將S1切分出來。然后令Str=S2S3…Sn，繼續(xù)下一次切分；若maxlen>1，則計算：

SNo=Ntw+Nth+Nmlt

其中，Ntw表示二字詞數(shù)量；Nth表示三字詞數(shù)量；Nmlt表示多字詞數(shù)量。

(3)產(chǎn)生1～SNo范圍內(nèi)的隨機數(shù)：X=Random(SNo)。

CaseX≤Ntw，取K=2;

CaseX≤Ntw+Nth，取K=3;

CaseX≤Ntw+Nth+Nmlt，則取K=maxlen。

(4)取Str1=S1S2…Sk,在字典中查找Str1。

①若Str1不是詞，重新產(chǎn)生隨機數(shù)，獲取余下的K值，繼續(xù)在字典中查找，直到查找成功。若所有K值查找都不成功，則S1在此處可視為1個單字詞，得到切分S1/S2S3…Sn。同時可通過人工干預方式，將詞首字為S1的一個子串作為新詞，將其插入到多字詞鏈表。

②若Str1是詞，則增加一個字Str1=Str1+Sk+1，再查找，若Str1是詞，繼續(xù)增加一個字，直到Lmax，并記錄詞的最后一個字的位置p。則可暫時獲得切分詞：Stmp1=S1S2…Sp。

③取S2為首字詞，重復以上操作，則可獲得另一切分詞Stmp2，若Length(Stmp1)>Length(Stmp2)，則得到切分詞：Stmp1，否則，得到切分詞：S1/Stmp2。

(5)移動漢字串指針，進行下一次切分，直到整個串切分完成。

例如：“當中國人民站起來的那一天”。

詞首字為“當”，若Stmp1=“當中”，而詞首字為“中”，Stmp2=“中國人民”。

可切分為：當/中國人民。

詞首字：“站”，則Stmp1=“站起來”，詞首字為“來”，Stmp2=“來”。

可切分為：當/中國人民/站起來。

最后可切分為：當/中國人民/站起來/的/那一天。

盡管正向最大匹配法和逆向最大匹配法都是比較常用的分詞算法，但并不代表它們能準確無誤地完成用戶所需要的切分任務(wù)。統(tǒng)計結(jié)果表明[21]，正向最大匹配算法的錯誤率為1/169，逆向最大匹配算法的錯誤率為1/245。事實上，只能最大限度地追求低失誤率，文中采用將兩者結(jié)合的手段，能在一定程度上提高分詞的正確性，以期達到更加智能的切分效果。

1.4 情感語言的輸出

利用語音合成技術(shù)將查詢到的文本結(jié)果轉(zhuǎn)化為語音輸出，并利用TTS技術(shù)朗讀預先未知的任何語句，將文字信息的實時動態(tài)轉(zhuǎn)化為語音形式輸出到用戶端，從而實現(xiàn)聊天系統(tǒng)與用戶之間更富情感的對話。

在文本信息轉(zhuǎn)化為語音信息輸出時，系統(tǒng)會把語音預處理之后的文本和經(jīng)過情感語音庫匹配后輸出的文本以聊天記錄形式保存下來，實行保密機制，用于驗證登陸查看聊天記錄。具體實現(xiàn)過程將在下文闡述。

2 實驗及結(jié)果分析

2.1 情感語料的收集

2.1.1 錄制語料

采用Cool Edit Pro高質(zhì)量地完成錄音、編輯、合成等多項任務(wù)。在錄音時采用采樣頻率為11.025 kHz、采樣精度為32位、單聲道的錄制方式，錄制語言保存為PCM編碼的WAV格式。選擇30名18～22歲在校大學生，要求口齒清楚、聽力正常、能較好表達自身情感。錄制者按情感提示朗讀相應(yīng)的情景文本，錄制有關(guān)的語音數(shù)據(jù)以供后續(xù)研究。

2.1.2 分析評估語料庫

從情感識別率(EIR)以及情感強度(ES)兩方面對所獲得語料庫進行分析評估[22-23]。具體規(guī)則如下：

(1)情感識別率：從有限的情感種類集(如高興、憤怒、驚訝、悲傷、恐懼等)識別給定情感句子的目標情感，測試其識別率大小。

(2)情感強度：評估給定情感句子的情感強度，可以設(shè)計5個打分標準：非常弱、弱、一般、強、非常強。

通過上述標準評測出的語料庫有效性發(fā)現(xiàn)，上文錄制的情感語料能夠滿足研究需求，因此可以繼續(xù)進行下一階段的實驗。

2.2 HMM和RBF相結(jié)合的情感語音識別

2.2.1 實驗樣本的選擇

表2為上一節(jié)選擇出的典型的實驗錄音腳本(部分)。

表2 實驗錄音腳本(部分)

2.2.2 實驗過程及結(jié)果

實驗信號采用漢明窗分幀，其標準為窗長256、幀移128，6個HMM狀態(tài)，每個狀態(tài)給以5個高斯概率密度函數(shù)，24維RBF輸入。提取特征向量并且結(jié)合HMM和RBF混合模型識別，采用單一的HMM仿真進行識別率對比。結(jié)果表明，單一HMM識別效果較差，平均識別率僅為60.1%，而HMM和RBF混合模型平均識別率為66.1%，整體效果較單一HMM更好。從實驗結(jié)果可以看出，混合模型對提高識別率有較好的效果，因此選擇該技術(shù)與情感語音聊天相結(jié)合來改善目前語音聊天系統(tǒng)的部分問題。

由于信息采集是以完全模擬現(xiàn)實環(huán)境為準則，所以其抗噪音性能的驗證也是不言而喻的，此處給出相關(guān)實驗數(shù)據(jù)(見表3)，并對實驗結(jié)果進行直觀化處理，如圖2所示，以方便對實驗結(jié)果的進一步分析。

表3 識別結(jié)果 %

圖2 混合模型和單一HMM模型的實驗數(shù)據(jù)分析圖

2.2.3 相關(guān)實驗數(shù)據(jù)結(jié)果分析

人的語速變化與其所處的情感狀態(tài)有關(guān)。實驗結(jié)果表明，語音信號的振幅特征與各種情感信息具有較強的相關(guān)性：喜、怒、驚等情感，信號的振幅往往較大，悲傷情感的幅度值則較低。而且可以看出這些幅度值的差異越大，體現(xiàn)出的情感變化也越大?；诖耍梢岳谜Z音信號中的語速以及語音持續(xù)時間等參數(shù)來判別語言的情感。對于利用這一特點來判斷人的語音情感，從而使該系統(tǒng)感知出人的說話情感變化具有重要的現(xiàn)實意義。

3 系統(tǒng)實現(xiàn)過程概述

系統(tǒng)實現(xiàn)過程共有三個步驟:首先將語音輸入轉(zhuǎn)化為文字，這一步可以采用HMM和RBF技術(shù)對語音輸入進行識別，并轉(zhuǎn)化為可供后臺處理的文本格式。這是至關(guān)重要的一步，因為語音到文本的轉(zhuǎn)化容易產(chǎn)生差錯，所以采用基于HMM和RBF的混合模型來更好地解決這一問題；其次是將轉(zhuǎn)化的文字進行分詞處理并與語料庫中的詞組進行匹配，可采用多種分詞算法來達到更加智能化的匹配，如貪心算法、雙向最大匹配法等[16]，以便為下一步的輸出回復做好準備；最后需要將匹配出來的回答以文字方式直接輸出或者轉(zhuǎn)化為語音進行輸出。文中使用基于HMM和RBF的混合模型進行語音文本轉(zhuǎn)化，具體過程如圖3所示。

圖3 系統(tǒng)實現(xiàn)示意圖

4 結(jié)束語

提出了一種基于HMM和RBF的情感智能聊天系統(tǒng)搭建方法。該方法利用HMM和RBF的混合模型創(chuàng)建人類情感語音庫，利用HMM生成最佳語音狀態(tài)序列，用函數(shù)逼近技術(shù)產(chǎn)生對最佳狀態(tài)序列進行時間歸正，RBF神經(jīng)網(wǎng)絡(luò)進行分類識別。再通過Flex技術(shù)建立數(shù)據(jù)庫與瀏覽器之間的連接，保證系統(tǒng)擁有足夠豐富的數(shù)據(jù)庫和語料庫。結(jié)合雙向最大匹配算法，完成對中文分詞和分析歸類。將各個模塊組建在一起實現(xiàn)更加智能化情感化的聊天系統(tǒng)。盡管如此，對于所構(gòu)想的真正智能化還有一定的差異，特別是在聊天系統(tǒng)的自主學習方面仍然需要很大的改進。

參考文獻:

[1] 羅毅.一種基于HMM和ANN的語音情感識別分類器[J].微計算機信息,2007,23(12-1):218-219.

[2] 胡瑞敏,薛東輝,姚天任,等.神經(jīng)網(wǎng)絡(luò)方法及其在語音識別中的應(yīng)用[J].高技術(shù)通訊,1995(6):11-15.

[3] COWIE R.Emotion recognition in human-computer interaction[J].Signal Processing Magazine,2001,18(1):32-80.

[4] 韓文靜,李海峰,阮華斌,等.語音情感識別研究進展綜述[J].軟件學報,2014,25(1):37-50.

[5] 馬曉梅,李雪耀,王洋.基于HMM的連續(xù)語音中的關(guān)鍵詞檢測[J].黑龍江科技信息,2008(32):91.

[6] 趙力,錢向民,鄒采榮,等.語音信號中的情感識別研究[J].軟件學報,2001,12(7):1050-1055.

[7] 聞彬,何婷婷,羅樂,等.基于語義理解的文本情感分類方法研究[J].計算機科學,2010,37(6):261-264.

[8] LEE C M,NARAYANAN S.Toward detecting emotions in spoken dialogs[J].IEEE Transactions on Speech and Audio Processing,2005,13(2):293-303.

[9] 孫晉文,肖建國.基于SVM文本分類中的關(guān)鍵詞學習研究[J].計算機科學,2006,33(11):182-184.

[10] NEFIAN A V,HAYES M H.Face detection and recognition using hidden Markov models[C]//Proceedings of the international conference on image processing.[s.l.]:IEEE,2002:141-145.

[11] CHEN S H,CHEN W Y.Generalized minimal distortion segmentation for ANN-based speech recognition[J].IEEE Transactions on Speech and Audio Processing,1995,3(2):141-145.

[12] ORR M J L.Introduction to radial basis function networks[J].Internationale Zeitschrift für Vitaminforschung,2003,37(3):97-101.

[13] 郝杰,李星.漢語連續(xù)語音識別中經(jīng)典HMM的實驗評測[J].計算機工程與應(yīng)用,2001,37(13):1-4.

[14] 蔣丹寧,蔡蓮紅.基于語音聲學特征的情感信息識別[J].清華大學學報:自然科學版,2006,46(1):86-89.

[15] SAMARIA F,YOUNG S.HMM based architecture for face identification[J].Image and Vision Computing,1994,12(8):537-543.

[16] FREITAG D,MCCALLUM A.Information extraction with HMM structures learned by stochastic optimization[C]//Proceedings of the eighteenth conference on artificial intelligence.[s.l.]:[s.n.],2002:584-589.

[17] 楊曉恝,蔣維,郝文寧.基于本體和句法分析的領(lǐng)域分詞的實現(xiàn)[J].計算機工程,2008,34(23):26-28.

[18] 歐振猛,余順爭.中文分詞算法在搜索引擎應(yīng)用中的研究[J].計算機工程與應(yīng)用,2000,36(8):80-82.

[19] 馬玉春,宋瀚濤.Web中文文本分詞技術(shù)研究[J].計算機應(yīng)用,2004,24(4):134-135.

[20] ZHANG M Y,LU Z D,ZOU C Y.A Chinese word segmentation based on language situation in processing ambiguous words[J].Information Sciences,2004,162(3-4):275-285.

[21] 何國斌,趙晶璐.基于最大匹配的中文分詞概率算法研究[J].計算機工程,2010,36(5):173-175.

[22] 王洪偉,鄭麗娟,尹裴,等.基于句子級情感的中文網(wǎng)絡(luò)評論的情感極性分類[J].管理科學學報,2013,16(9):64-74.

[23] YE Q,ZHANG Z,LAW R.Sentiment classification of online reviews to travel destinations by supervised machine learning approaches[J].Expert Systems with Applications,2009,36(3):6527-6535.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡