官鳳霞
摘要:目前而言,神經(jīng)網(wǎng)絡這項技術已經(jīng)在機器翻譯任務中取得了優(yōu)秀的效果,但由于端到端模型的使用,雖然從翻譯性能上看網(wǎng)絡模型能夠有效對跨語言信息進行捕獲,但是對其中語義信息的學習方式始終少有了解,從而導致研究人員很難從外部對模型進行分析和改進。本文通過對目前主流的Transformer神經(jīng)機器翻譯模型方法進行實驗,通過對訓練得到的詞向量進行分析,對神經(jīng)機器翻譯模型的可解釋性進行研究。
關鍵詞:機器翻譯;可解釋性;自然語言處理
1神經(jīng)機器翻譯模型
近年來,神經(jīng)網(wǎng)絡這項技術隨著機器學習的廣泛發(fā)展,在自然語言處理領域中取得了廣泛的應用,其中機器翻譯任務作為跨語言信息建模的重要方向之一,神經(jīng)機器翻譯技術也同樣得到了眾多的關注。但是由于目前的神經(jīng)機器翻譯模型往往采用的是端到端的模型,由于其黑箱性,內部如何對語言信息、跨語言互譯關系進行捕獲完全是通過數(shù)據(jù)驅動的方式訓練而得的,最終導致所得到的模型如何實現(xiàn)機器翻譯這個任務并不為外人所知,更進一步的影響就是如何改進這項技術、如何使用人類已有知識對其進行改進困難重重。因此,本文希望能夠對目前所廣泛使用的神經(jīng)機器翻譯模型進行分析,對訓練好的模型可解釋性進行分析,旨在幫助其他研究人員在后續(xù)更加方便地對模型性能進行改進。
目前而言,主流的神經(jīng)機器翻譯模型為谷歌團隊提出的Transformer模型。Transformerkg型是一個基于注意力機制的神經(jīng)機器翻譯模型,它沿用了端到端機器翻譯系統(tǒng)中的編碼器解碼器架構,在編碼器、解碼器中通過相同的層堆疊的方式對源語和目標語進行建模。每一層中包括若干子層,如注意力子層、前饋神經(jīng)網(wǎng)絡子層等。其中自注意力子層主要用來對單語信息進行建模,而編碼解碼注意力子層主要用來對跨語言信息進行捕捉,即機器翻譯的核心,找到源語片段如何翻譯成對應的目標語譯文。
2可解釋性研究
本節(jié)將針對Transformer神經(jīng)機器翻譯模型的可解釋性進行研究,主要從層堆疊模型中詞向量信息的變化趨勢以及注意力機制中學習到的句法信息兩個角度出發(fā)對問題進行探討。為保證分析實驗的順利進行,我們對方法中使用的分析方法也進行了介紹。
2.1分析方法
詞向量信息的分析:為了對注意力權重中所包含的信息量進行分析,我們還使用信息熵來對當前詞和其他詞之間關聯(lián)度的離散性質進行研究。信息熵值高表示關注程度不具體,低熵值表示關注相對來說更加明顯,我們可以通過信息熵的變化來對訓練好的模型中注意力機制部分進行分析。在注意力操作中的權重值可以告訴我們對于當前詞匯而言哪個詞更重要,我們可以通過對注意力機制中的權重進行排序,通過統(tǒng)計找出規(guī)律。
文本結構分析:由于Transformer結構中自注意力機制主要是對同一句子中不同位置的語言片段關聯(lián)度進行建模,為了探索其中所學到的信息,我們可以將其與句法分析以及詞性特征進行對比,探索詞與詞之間注意力權重的分布是否符合人類認知中的句法結構。例如,分析其中代詞是否同其指代的詞匯之間關聯(lián)度更高等問題。
2.2實驗設置
本文實驗主要針對目前在神經(jīng)機器翻譯領域廣泛使用的Transformer模型進行研究,具體代碼使用的是Tensor2Tensor的開源項目。對于數(shù)據(jù)我們使用NISTl2的中英數(shù)據(jù)進行訓練和分析。
2.3實驗現(xiàn)象
詞向量信息與模型層數(shù)的關系:
上圖中橫軸為Transformer模型中編碼端的1-6層,縱軸表示的是測試集中相同輸入句子中詞向量的信息熵。我們可以看到隨著層數(shù)的遞增,詞向量中所包含的信息實際上是越來越豐富的,其原因在于每個對應位置的詞隨著層數(shù)的遞增均在不斷從其他相關詞匯中進行信息的提取。
詞向量與句法結構的關聯(lián):實驗中,我們還將注意與句法樹進行了比較,希望找出注意力權重是否能反映一些語言規(guī)則。然而,權重與語法規(guī)則沒有明顯的相似性,但注意力權重仍然對一些句子成分表示更多的關注。在這部分實驗里,我們發(fā)現(xiàn)了許多明顯且有趣的對齊現(xiàn)象,不過我們還沒有總結出清晰的語法規(guī)則,因此在這里不做過多解釋。
3結束語
本文對基于Transformer模型的神經(jīng)機器翻譯系統(tǒng)可解釋性進行研究,通過余弦相似度、句法分析等方式的研究對神經(jīng)網(wǎng)絡如何建模語言信息進行研究,發(fā)現(xiàn)隨著模型中層數(shù)的遞增,詞向量中包含的信息量越來越大,這一點與人對其的認知相符。