胡蓉, 田時(shí)宇
(湖南信息學(xué)院 通識(shí)教育學(xué)院, 湖南 長(zhǎng)沙 410151)
隨著共享視頻、社交網(wǎng)絡(luò)和在線課程等的普及,多媒體或音頻內(nèi)容的數(shù)量增長(zhǎng)速度遠(yuǎn)遠(yuǎn)快于人們可以觀看或收聽的內(nèi)容。用戶可以輕松地瀏覽文本,但音頻內(nèi)容則不是這樣,因?yàn)樗鼈儾荒苤苯语@示在屏幕上,因此,訪問(wèn)大量的多媒體或音頻內(nèi)容對(duì)人類來(lái)說(shuō)是困難和耗時(shí)的。因此,利用機(jī)器實(shí)現(xiàn)自動(dòng)理解語(yǔ)音內(nèi)容,并為人類提取甚至可視化關(guān)鍵信息是非常必要的。盡管文本和視覺內(nèi)容的機(jī)器理解已經(jīng)得到了廣泛的研究,但是口語(yǔ)內(nèi)容的機(jī)器理解仍然是一個(gè)研究較少的問(wèn)題[1-2]。因此本文對(duì)口語(yǔ)內(nèi)容的機(jī)器理解進(jìn)行了初步嘗試。
本文以托??荚嚍檠芯磕繕?biāo),針對(duì)托福考試中的聽力部分,利用深度學(xué)習(xí)進(jìn)行機(jī)器理解。本研究提出了一種新的框架TAL,利用基于注意力的Tree-LSTM來(lái)構(gòu)造考慮詞序的句子表示[3]。本文利用自然語(yǔ)言的層次結(jié)構(gòu)和注意機(jī)制的選擇能力,證明了該模型優(yōu)于樸素方法和其他基于神經(jīng)網(wǎng)絡(luò)的模型。
TAL網(wǎng)絡(luò)架構(gòu),如圖1所示。
由圖1可知,模型中有兩個(gè)關(guān)鍵模塊:第一個(gè)是Tree-LSTM[4],它將句子編碼成連續(xù)的表示形式,由依賴解析器提供層次結(jié)構(gòu),而不是簡(jiǎn)單的順序結(jié)構(gòu),因此它利用了人類語(yǔ)言的內(nèi)在屬性;第二個(gè)關(guān)鍵模塊是注意模塊(attention module)。在接下來(lái)的實(shí)驗(yàn)中,發(fā)現(xiàn)將這兩個(gè)模塊結(jié)合在一起比以前僅使用Tree-LSTM和注意力機(jī)制(attention mechanism)更為出色。
模型不同組件的詳細(xì)信息如下所示。在圖1的左側(cè),基于Tree-LSTM的句子表示模塊用于根據(jù)問(wèn)題的單詞序列生成問(wèn)題向量的表示;ASR系統(tǒng)轉(zhuǎn)錄音頻故事,圖1底部的故事模塊以ASR轉(zhuǎn)錄本為輸入,將轉(zhuǎn)錄本中的句子轉(zhuǎn)換成一個(gè)向量序列,每個(gè)向量代表一個(gè)短語(yǔ)或一個(gè)句子;注意力模塊在中間,注意機(jī)制可以應(yīng)用多次。在圖的右側(cè),這四個(gè)選項(xiàng)也由句子表示模塊表示為向量。最后,評(píng)估答案選擇的置信度得分,并生成答案。系統(tǒng)是端到端學(xué)習(xí)的,除了ASR模塊。
句子表示模塊的目標(biāo)是通過(guò)捕獲句子語(yǔ)義的向量來(lái)表示句子。輸入問(wèn)題Q和選擇C都是一個(gè)單詞組成的序列。在句子表示模塊中,問(wèn)題Q表示為向量VQ0,選擇C表示為VC。一個(gè)問(wèn)題可以由多個(gè)句子Si組成,每個(gè)句子首先可以表示為VSi。那么問(wèn)題向量VQ是問(wèn)題中所有Si的VSi之和。使用遞歸神經(jīng)網(wǎng)絡(luò)Tree-LSTM獲得句子表示。Tree-LSTM基于其子節(jié)點(diǎn)的向量表示為依賴樹中的每個(gè)節(jié)點(diǎn)生成向量表示。
圖1 TAL網(wǎng)絡(luò)架構(gòu)
故事抄寫是一個(gè)很長(zhǎng)的單詞序列,有很多句子。故事模塊的目標(biāo)是將單詞序列表示為一組向量表示O={o1,o2,…,ot},其中ot表示Tree-LSTM的短語(yǔ)或句子。
短語(yǔ)層次:O={o1,o2,…,ot}中,每個(gè)ot是句子的Tree-LSTM中節(jié)點(diǎn)的隱藏狀態(tài),或者每個(gè)ot表示一個(gè)短語(yǔ)。因此,t大于故事中的句子數(shù)。
句子層次:每一個(gè)ot是故事中某個(gè)句子上Tree-LSTM的根節(jié)點(diǎn)的隱藏狀態(tài),或者每一個(gè)ot代表一個(gè)句子。在這種情況下,t等于句子數(shù)。
存儲(chǔ)模塊基于從故事模塊獲得的表示來(lái)提取故事中與問(wèn)題VQ相關(guān)的信息。設(shè)O={o1,o2,…,ot}為故事的向量表示集。集合O中的向量首先由嵌入矩陣W(m)和W(c)轉(zhuǎn)換成記憶向量M={m1,m2,…,mt}和證據(jù)向量C={c1,c2,…,ct},如式(1)。
(1)
(2)
(3)
式中,⊙表示余弦相似性。每個(gè)注意權(quán)重αt對(duì)應(yīng)于一個(gè)證據(jù)向量ct。故事向量Vs是以注意力為權(quán)重的證據(jù)向量ct的加權(quán)和,如式(4)。
(4)
式中,Vs可以看作是從音頻故事中提取的與查詢相關(guān)的信息。
在圖1的左側(cè),首先使用句子表示模塊將輸入問(wèn)題轉(zhuǎn)換為問(wèn)題向量VQ0。該VQ0用于計(jì)算注意值αt以獲得故事向量VS1。然后將VQ0和VS1相加形成新的問(wèn)題向量VQ1。在圖1中,該處理是第一跳(1跳)。第一跳VQ1的輸出可用于計(jì)算新的注意以獲得新的故事向量VS1。這可以被看作是機(jī)器再次遍歷故事,用一個(gè)新的問(wèn)題向量重新聚焦故事。再次,VQ1和VS1相加形成VQ2(2跳)。在n跳(n是預(yù)定義的)之后,最后一跳VQn的輸出將用于下一小節(jié)中的答案選擇。
(5)
對(duì)于聽力評(píng)估使用了預(yù)訓(xùn)練的300維GloVe矢量模型[5],以獲得每個(gè)單詞的矢量表示。為了減少詞匯量,在這里使用了斯坦福大學(xué)自然語(yǔ)言處理小組[6]的工具來(lái)對(duì)問(wèn)題選擇和故事抄寫中的單詞進(jìn)行詞素化。在訓(xùn)練之前,刪減了故事中的那些話語(yǔ),這些話語(yǔ)的矢量表示與問(wèn)題之間的余弦距離很遠(yuǎn),刪減話語(yǔ)的百分比由開發(fā)集上模型的性能決定。
對(duì)于前文描述的模型,前向和后向GRU網(wǎng)絡(luò)的隱藏層的大小都是128。為了避免過(guò)度擬合,模型中的所有雙向GRU網(wǎng)絡(luò)和樹LSTM共享同一組參數(shù)。使用RmsProp[7],初始學(xué)習(xí)率為1e-5,動(dòng)量為0.9。輟學(xué)率為0.2。Tree-LSTM的隱藏層大小和內(nèi)存模塊的嵌入大小均為75。使用AdaGrad[8],初始學(xué)習(xí)率為0.002。梯度裁剪的閾值為20,批量大小為40,使用開發(fā)集將跳數(shù)從1調(diào)整到3。
使用準(zhǔn)確性(正確回答的問(wèn)題的百分比)作為評(píng)估指標(biāo)。在訓(xùn)練集的故事和問(wèn)題/答案的手動(dòng)轉(zhuǎn)錄上對(duì)模型進(jìn)行了訓(xùn)練,并在測(cè)試集(Manual)和ASR轉(zhuǎn)錄(ASR)上進(jìn)行了測(cè)試,為了進(jìn)行公平的比較,統(tǒng)計(jì)了10次運(yùn)行的平均準(zhǔn)確度和標(biāo)準(zhǔn)差,如表1所示。
表1 不同方法比較結(jié)果
本文提出的TAL分別用于1跳和2跳的短語(yǔ)/句子級(jí)的注意力模型,其準(zhǔn)確度比其他方法都要高很多。1跳句子級(jí)注意力模型在manual中的平均準(zhǔn)確率最高,達(dá)到49.2%,顯著高于其他方法的結(jié)果;2跳短語(yǔ)級(jí)注意模型在ASR結(jié)果中的平均準(zhǔn)確率最高,達(dá)到48.9%,僅略低于1跳。還可以觀察到,增加跳數(shù)會(huì)提高短語(yǔ)級(jí)注意的表現(xiàn),但不會(huì)提高句子級(jí)注意的表現(xiàn),這可能是因?yàn)閷?duì)于短語(yǔ)級(jí)推理,模型首先在1跳中選擇關(guān)鍵短語(yǔ),然后在2跳中根據(jù)這些關(guān)鍵短語(yǔ)改變其注意力。對(duì)于句子級(jí)推理,在1跳中只選擇了幾個(gè)關(guān)鍵句子,而更多的跳則無(wú)法找到額外的關(guān)鍵句子。
令人驚訝的是,ASR錯(cuò)誤對(duì)聽力理解的影響很小。為了進(jìn)一步分析結(jié)果,進(jìn)行了額外的實(shí)驗(yàn)。在測(cè)試階段,用一個(gè)概率為34.3%(與WER相同)的隨機(jī)詞替換了manual中的每個(gè)詞。結(jié)果顯示在標(biāo)有隨機(jī)的列中。通過(guò)比較ASR和隨即兩欄的結(jié)果,我們發(fā)現(xiàn)ASR錯(cuò)誤對(duì)聽力理解準(zhǔn)確性的影響小于隨即替換,如表2所示。
表2 ASR和隨機(jī)的結(jié)果
在本文中,提出了兩個(gè)與語(yǔ)音內(nèi)容的機(jī)器理解有關(guān)的目標(biāo)——托福聽力和口語(yǔ)理解。在托福聽力理解中,提出的TAL框架在樹狀結(jié)構(gòu)的LSTM網(wǎng)絡(luò)中結(jié)合了多跳注意力機(jī)制,其準(zhǔn)確性為48.8%;在對(duì)口語(yǔ)理解中,利用CNN網(wǎng)絡(luò)改進(jìn)現(xiàn)有的模型,證明了ASR錯(cuò)誤會(huì)大大降低閱讀理解模型的性能,并建議使用不同種類的子字單元來(lái)減輕這些錯(cuò)誤的影響。