計(jì)算機(jī)算法類(lèi)資料的中英文智能翻譯

2021-08-02 03:49陳家樂(lè)張艷玲

計(jì)算機(jī)技術(shù)與發(fā)展 2021年7期

陳家樂(lè)，張艷玲

(廣州大學(xué) 計(jì)算機(jī)科學(xué)與網(wǎng)絡(luò)工程學(xué)院，廣東廣州 510006)

0 引言

自2014年以后，端到端的神經(jīng)機(jī)器翻譯(end to end neural machine translation)質(zhì)量較統(tǒng)計(jì)機(jī)器翻譯有了顯著提升[1]，端到端的訓(xùn)練使得深度學(xué)習(xí)方法區(qū)別于傳統(tǒng)機(jī)器學(xué)習(xí)方法，成為了自然語(yǔ)言處理的強(qiáng)大工具[2]。Google、有道、百度等商用在線機(jī)器翻譯系統(tǒng)核心技術(shù)均由統(tǒng)計(jì)機(jī)器翻譯轉(zhuǎn)型為神經(jīng)機(jī)器翻譯。端到端的編碼器-解碼器(Encoder-Decoder)[3]模型結(jié)構(gòu)成為神經(jīng)機(jī)器翻譯的主流模型[4]。Google首次提出基于Encoder-Decoder結(jié)構(gòu)的seq2seq[5](sequence to sequence)模型。其基本工作原理就是編碼器將輸入序列轉(zhuǎn)換為中間向量C，解碼器將中間向量C轉(zhuǎn)換為輸出序列。seq2seq在編碼器和解碼器中均使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks，RNN)，理論上RNN可以解決長(zhǎng)句遠(yuǎn)距離信息依賴的問(wèn)題[6]，但在實(shí)際應(yīng)用時(shí)反向傳播過(guò)程中存在梯度爆炸和梯度消失的問(wèn)題。梯度爆炸會(huì)導(dǎo)致模型無(wú)法收斂；梯度消失會(huì)導(dǎo)致模型捕捉不到長(zhǎng)距離項(xiàng)的依賴信息。梯度爆炸一般可以使用梯度裁剪或權(quán)重正則化處理。梯度消失目前最好的處理方法是使用門(mén)控單元來(lái)構(gòu)建RNN。其中，應(yīng)用最廣的門(mén)控單元是長(zhǎng)短時(shí)記憶(long short-term memory，LSTM)和門(mén)控循環(huán)單元(gated recurrent unit，GRU)[4]。雖然應(yīng)用門(mén)控單元使得RNN能有效捕捉到長(zhǎng)距離項(xiàng)的依賴信息，但是由于句子中任意單詞對(duì)生成某個(gè)目標(biāo)單詞的影響占比是相同的，所以即使采用了門(mén)控單元，seq2seq模型依然在長(zhǎng)句的翻譯質(zhì)量上顯著下降。為了優(yōu)化長(zhǎng)句的翻譯質(zhì)量，Bahdanau等人[7]于2014年首次將注意力機(jī)制應(yīng)用于NLP領(lǐng)域，翻譯效果有了進(jìn)一步提升。谷歌團(tuán)隊(duì)[8]拋棄RNN和CNN等網(wǎng)絡(luò)結(jié)構(gòu)，僅僅采用注意力機(jī)制進(jìn)行機(jī)器翻譯，在翻譯質(zhì)量上取得了顯著的效果，因此注意力機(jī)制成為了神經(jīng)機(jī)器翻譯中的研究熱點(diǎn)。但是，由于通用翻譯接口對(duì)垂直領(lǐng)域缺乏針對(duì)性，同一個(gè)詞匯在不同的語(yǔ)義環(huán)境下有不同的翻譯結(jié)果，而通用翻譯則無(wú)法識(shí)別該詞匯所在的語(yǔ)義環(huán)境，從而使得翻譯效果不佳。并且垂直領(lǐng)域下的專(zhuān)業(yè)詞匯繁多且復(fù)雜，若沒(méi)有對(duì)應(yīng)的詞匯的語(yǔ)料訓(xùn)練，會(huì)讓最終的訓(xùn)練模型對(duì)含有該詞匯的句子沒(méi)有好的翻譯效果。這就是現(xiàn)階段對(duì)垂直領(lǐng)域的語(yǔ)句翻譯效果不好的原因。所以針對(duì)某一領(lǐng)域?qū)崿F(xiàn)翻譯成為了當(dāng)下重要的研究方向。

該文將收集與計(jì)算機(jī)算法類(lèi)相關(guān)的中英雙語(yǔ)例句文本，利用Word2Vec算法生成詞向量，將詞向量嵌入GNMT[9]訓(xùn)練帶有注意力機(jī)制的LSTM seq2seq的中英翻譯模型。以此來(lái)優(yōu)化計(jì)算機(jī)算法類(lèi)語(yǔ)料的翻譯效果，為此后垂直領(lǐng)域的神經(jīng)機(jī)器翻譯提供一個(gè)可行的優(yōu)化思路。

1 數(shù)據(jù)獲取

數(shù)據(jù)樣本的好壞很大程度上決定了模型的訓(xùn)練效果，要實(shí)現(xiàn)計(jì)算機(jī)算法類(lèi)資料的中英翻譯，就需要獲取與計(jì)算機(jī)算法類(lèi)相關(guān)的中英雙語(yǔ)例句?，F(xiàn)在各大在線翻譯網(wǎng)站能夠檢索特定關(guān)鍵詞的中英雙語(yǔ)例句，但是大多數(shù)的雙語(yǔ)例句沒(méi)有分門(mén)別類(lèi)。為了得到最符合計(jì)算機(jī)算法類(lèi)的中英雙語(yǔ)例句，需要收集計(jì)算機(jī)算法類(lèi)相關(guān)度高的關(guān)鍵詞。

該文通過(guò)中文書(shū)籍《算法導(dǎo)論第三版》(Introduction to Algorithms Third Edition)和計(jì)算機(jī)算法題網(wǎng)站力扣(LeetCode)收集關(guān)鍵詞。收集了1 618個(gè)關(guān)鍵詞在百度翻譯、有道翻譯、知網(wǎng)例句進(jìn)行檢索并爬取，最終獲取98 120條中英雙語(yǔ)例句作為模型訓(xùn)練的數(shù)據(jù)基礎(chǔ)。

2 數(shù)據(jù)預(yù)處理

獲取的數(shù)據(jù)還不能直接用于數(shù)據(jù)訓(xùn)練，中文例句詞匯與詞匯之間并沒(méi)有明確的分隔；英文例句雖然詞匯間有天然的空格分割，但是標(biāo)點(diǎn)符號(hào)與詞匯間仍然有連接，因此也需要進(jìn)行分詞處理。分詞處理完成后還需要獲取訓(xùn)練所需的數(shù)據(jù)集和詞匯表。

2.1 英文文本處理

英文存在大小寫(xiě)的區(qū)別，而大寫(xiě)的寫(xiě)法和小寫(xiě)的寫(xiě)法指的是同一個(gè)單詞，例如“The”與“the”。經(jīng)過(guò)小寫(xiě)化處理后，獲取詞集時(shí)能夠減少大量的重復(fù)單詞，從而降低訓(xùn)練的成本，一定程度上優(yōu)化訓(xùn)練效果。還需要對(duì)英文文本分詞，將標(biāo)點(diǎn)符號(hào)與詞匯間進(jìn)行分隔。

2.2 中文文本分詞

中文分詞正確率會(huì)大大影響模型訓(xùn)練的效果，因?yàn)榉衷~階段的錯(cuò)誤在翻譯過(guò)程中將會(huì)被“放大”，放大的倍數(shù)約等于句子的平均長(zhǎng)度[10]。jieba庫(kù)是一個(gè)簡(jiǎn)單易用的漢語(yǔ)自然語(yǔ)言處理分詞庫(kù)，通過(guò)在全切分所得的所有結(jié)果中求某個(gè)切分方案S，使得P(S)最大的概率進(jìn)行分詞。jieba分詞的算法流程為：(1)基于特定詞匯表構(gòu)建字典樹(shù)，實(shí)現(xiàn)高效的詞圖掃描；(2)基于字典樹(shù)生成句子中漢字所有可能成詞情況所構(gòu)成的有向無(wú)環(huán)圖(DAG)；(3)采用了動(dòng)態(tài)規(guī)劃尋找最大概率路徑，找出基于詞頻的最大切分組合；(4)對(duì)于未登錄詞，使用了Viterbi算法并采用了基于漢字成詞能力的HMM模型[11]。jieba分詞有三個(gè)分詞模式，分別是精確模式、全模式、搜索引擎模式。其中精確模式適合用于自然語(yǔ)言處理。

中文一詞多意的情況非常多，同一個(gè)句子在不同的語(yǔ)義環(huán)境下有不同的分詞方案，因此如果不制作對(duì)應(yīng)的分詞詞典，會(huì)大大增加分詞出錯(cuò)的概率。制作分詞詞典步驟如下：(1)對(duì)中文文本進(jìn)行默認(rèn)分詞；(2)人工將分詞出錯(cuò)的詞匯添加到詞典中。

2.3 數(shù)據(jù)集分割

在模型訓(xùn)練之前，首先要?jiǎng)澐钟?xùn)練集、驗(yàn)證集、測(cè)試集。其中訓(xùn)練集用于模型訓(xùn)練，驗(yàn)證集和測(cè)試集用于衡量模型訓(xùn)練的效果。該文采用的分割方式是生成長(zhǎng)度為0～N-1(N為句子總數(shù))的亂序序列，將亂序序列按14∶3∶3的比例進(jìn)行分割，分別對(duì)應(yīng)訓(xùn)練集、驗(yàn)證集、測(cè)試集。再根據(jù)分割后的亂序序列取出對(duì)應(yīng)下標(biāo)值的句子存入到對(duì)應(yīng)的文件當(dāng)中。

2.4 基于訓(xùn)練集的中英文詞集提取

首先，定義三個(gè)標(biāo)簽：，；其中表示未定義詞匯，表示語(yǔ)句的開(kāi)頭，表示語(yǔ)句的結(jié)束。由于文本已經(jīng)經(jīng)過(guò)分詞處理，故只需按行讀取句子，根據(jù)空格進(jìn)行分割就能夠獲取到詞匯，并且按照詞匯的頻率由高到底排序。

3 詞向量訓(xùn)練

3.1 文本表示方法

~~文本表示方法一直是自然語(yǔ)言處理研究范疇中的一個(gè)熱點(diǎn)問(wèn)題，總體來(lái)講主要分為兩大類(lèi)：獨(dú)熱編碼和分布式表示。~~

獨(dú)熱編碼(one-hot representation)又稱(chēng)為一位有效編碼，這種編碼格式是建立一個(gè)全局完備的字典，但在計(jì)算上面臨著兩個(gè)問(wèn)題，一個(gè)是這種表示方法的向量維度是字典的大小，而字典中的詞匯數(shù)目往往很大，從而在計(jì)算時(shí)避免不了維數(shù)災(zāi)難的問(wèn)題，給計(jì)算機(jī)帶來(lái)極大的負(fù)擔(dān)；另一個(gè)是這種表示只包含詞匯在字典中的索引和詞頻信息，未考慮詞的上下文信息，無(wú)法從向量上判斷兩個(gè)詞匯是否相似，不能為后續(xù)的模型訓(xùn)練提供更多有用的信息。

分布式表示(distributed representation)是一種稠密、低維的實(shí)值向量表示，由Hinton[12]在1986年提出，能夠有效克服獨(dú)熱編碼的缺點(diǎn)。每個(gè)維度表示單詞的不同句法和語(yǔ)義特征。詞向量是一種詞匯的分布式表示形式，通過(guò)對(duì)文本語(yǔ)料庫(kù)進(jìn)行訓(xùn)練，將每個(gè)詞用N維的實(shí)值向量表示，向量可以看作空間上的一條線，通過(guò)計(jì)算向量之間形成的角度，就可以判斷兩個(gè)單詞之間的相似度。其中Word2Vec是一個(gè)可以快速訓(xùn)練詞向量的算法。

3.2 Word2Vec算法

Word2Vec算法是Tomas Mikolov帶領(lǐng)的研究團(tuán)隊(duì)發(fā)明的[13]。其基本思想是利用上下文信息，即使用與當(dāng)前詞相鄰的若干個(gè)詞，來(lái)生成當(dāng)前詞的特征向量。其中包含了跳字模型(Skip-gram)和連續(xù)詞袋模型(CBOW)兩種訓(xùn)練模型，CBOW是通過(guò)上下文來(lái)預(yù)測(cè)當(dāng)前詞，而Skip-gram則相反，它是通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)上下文。同時(shí)，Word2Vec提供了兩套優(yōu)化方法來(lái)提高詞向量的訓(xùn)練效率，分別是Hierachy Softmax和Negative Sampling[14]。通過(guò)將訓(xùn)練模型與優(yōu)化方法進(jìn)行組合可以得到4種訓(xùn)練詞向量的架構(gòu)。

3.3 基于Word2Vec算法訓(xùn)練詞向量

~~通過(guò)Python中g(shù)ensim庫(kù)里封裝的Word2Vec進(jìn)行詞向量的訓(xùn)練。主要的訓(xùn)練參數(shù)說(shuō)明如表1所示。~~

~~表1 Word2Vec訓(xùn)練參數(shù)說(shuō)明~~

使用訓(xùn)練集作為訓(xùn)練語(yǔ)料，主要的調(diào)試參數(shù)為詞向量的維度，固定參數(shù)：sg=1，min_count=1,work-ers=4,hs=1。其中參數(shù)window若設(shè)置得過(guò)小，將無(wú)法捕捉句子中較長(zhǎng)距離的依賴信息，若設(shè)置得過(guò)大，將捕捉到過(guò)多的無(wú)效依賴，從而降低了有效依賴的權(quán)重，因此將固定window參數(shù)為8。通過(guò)將詞向量的維度設(shè)置為1，2，4，8，16，32，64，128，256，512進(jìn)行訓(xùn)練，從而探究詞向量維度對(duì)計(jì)算詞匯間文本相似度的影響。對(duì)于中文文本，將使用“算法”，“復(fù)雜度”，“排序”對(duì)模型進(jìn)行測(cè)試。對(duì)于英文文本，將使用“algorithm”，“complexity”,“sort”對(duì)模型進(jìn)行測(cè)試。

3.4 訓(xùn)練結(jié)果

對(duì)不同詞向量維度模型進(jìn)行相似度測(cè)試后，通過(guò)對(duì)前十的相似度詞匯的相似度取平均數(shù)畫(huà)出相似度變化折線，如圖1所示。

~~圖1 平均相似度變化折線~~

由圖1可以得出：同一個(gè)單詞，詞向量維度越高，計(jì)算所得的單詞相似度越低。通過(guò)對(duì)測(cè)試結(jié)果中的實(shí)際相似單詞進(jìn)行分析，可以看出：當(dāng)詞向量維度為1時(shí)，無(wú)論使用哪個(gè)詞匯進(jìn)行測(cè)試的結(jié)果都是一樣的；當(dāng)詞向量維度過(guò)低時(shí)，測(cè)試結(jié)果含有實(shí)際意義的詞匯較少；隨著詞向量維度的增加，相似度測(cè)試結(jié)果具有實(shí)際意義的詞匯漸漸變多。因此，剔除維度為1，2，4，8，16的詞向量，保留維度為32，64，128，256，512的詞向量進(jìn)行下一步的翻譯模型訓(xùn)練。

4 基于GNMT訓(xùn)練翻譯模型

神經(jīng)機(jī)器翻譯(neural machine translation，NMT)存在致命的缺點(diǎn)，即計(jì)算成本非常昂貴，并且大多數(shù)NMT系統(tǒng)對(duì)罕見(jiàn)詞的處理效果不好且在處理長(zhǎng)句有翻漏的現(xiàn)象。谷歌發(fā)布的GNMT(Google’s neural machine translation)解決了上述問(wèn)題，翻譯誤差平均降低了60%。在推理過(guò)程中采用低精度算法以及TPU進(jìn)行計(jì)算還可以解決翻譯速度問(wèn)題。為了更好地處理罕見(jiàn)詞，將罕見(jiàn)詞拆分為常見(jiàn)子詞單元分別進(jìn)行處理。為了減少長(zhǎng)句翻漏的現(xiàn)象，在波束搜索中使用長(zhǎng)度規(guī)范化過(guò)程和覆蓋度懲罰機(jī)制[3]。使用Google在GitHub上開(kāi)源的代碼訓(xùn)練帶有注意力機(jī)制的兩層LSTM seq2seq模型，首先探究詞向量對(duì)模型訓(xùn)練的影響，再探究隱藏單元數(shù)num_unit以及批尺寸batch_size對(duì)模型訓(xùn)練的影響。最終選取最佳的參數(shù)進(jìn)行訓(xùn)練。具體實(shí)驗(yàn)步驟為：

~~(1)使用詞向量維度為32，64，128，256，512進(jìn)行訓(xùn)練，選取效果最佳的詞向量維度進(jìn)入下一個(gè)實(shí)驗(yàn)；~~

~~(2)使用num_unit為32，64，128，256，512進(jìn)行訓(xùn)練，選取效果最佳的num_unit進(jìn)入下一個(gè)實(shí)驗(yàn)；~~

~~(3)使用batch_size為4，32，64，128，192，256進(jìn)行訓(xùn)練，選取效果最佳的batch_size；~~

~~(4)綜合實(shí)驗(yàn)結(jié)果，選取最優(yōu)參數(shù)進(jìn)行訓(xùn)練，直到模型不再優(yōu)化為止。~~

5 實(shí)驗(yàn)結(jié)果

~~模型訓(xùn)練的環(huán)境如表2所示。~~

~~表2 模型訓(xùn)練環(huán)境~~

5.1 翻譯指標(biāo)ppl和bleu

ppl指的是困惑度(perplexity)，是統(tǒng)計(jì)機(jī)器翻譯中的評(píng)價(jià)指標(biāo)，用于評(píng)判機(jī)器翻譯的譯文是不是一個(gè)合理的語(yǔ)句。它是通過(guò)對(duì)概率平均數(shù)取倒數(shù)計(jì)算獲得，所以當(dāng)模型的翻譯結(jié)果越合理，困惑度越低。

bleu(bilingual evaluation understudy)[15]是由IBM于2001年提出的一種文本評(píng)估算法，用來(lái)評(píng)估機(jī)器翻譯與專(zhuān)業(yè)人工翻譯之間的接近程度，核心思想就是當(dāng)機(jī)器翻譯越接近人工翻譯，bleu分?jǐn)?shù)越高，說(shuō)明機(jī)器翻譯與人工翻譯之間越接近。

5.2 詞向量維度對(duì)模型訓(xùn)練的影響

~~將使用詞向量維度為32，64，128，256，512進(jìn)行模型訓(xùn)練?；趐pl及bleu進(jìn)行對(duì)照的折線變化如圖2所示。~~

~~圖2 不同詞向量維度模型的ppl及bleu對(duì)照折線變化~~

由圖2可見(jiàn)，隨著訓(xùn)練步數(shù)的增大，ppl的變化越來(lái)越小，慢慢趨近于沒(méi)有變化。隨著詞向量維度的增大，最終的ppl變小。隨著訓(xùn)練步數(shù)的增大，每個(gè)模型的bleu值都呈上升趨勢(shì)。在模型訓(xùn)練中期，詞向量維度低的模型的bleu值超越了詞向量維度高的模型的bleu值，但只是暫時(shí)的，隨著訓(xùn)練步數(shù)的增加，最終詞向量維度高的模型bleu值變大。

綜上所述，在詞向量維度取值為32，64，128，256，512時(shí)，詞向量維度為512時(shí)的模型訓(xùn)練效果最優(yōu)。并根據(jù)圖像顯示，繼續(xù)增大詞向量維度，模型有進(jìn)一步優(yōu)化的可能。

5.3 超參數(shù)num_unit對(duì)模型訓(xùn)練的影響

超參數(shù)num_unit指的是隱藏層單元數(shù)，過(guò)小的num_unit會(huì)使神經(jīng)網(wǎng)絡(luò)的表達(dá)能力差，從而導(dǎo)致模型訓(xùn)練效果不佳；而過(guò)大的num_unit會(huì)帶來(lái)過(guò)擬合并且訓(xùn)練時(shí)間過(guò)長(zhǎng)的缺點(diǎn)。由圖2可知，當(dāng)詞向量維度為512時(shí)模型效果最優(yōu)，因此對(duì)固定詞向量維度取為512，其他參數(shù)為默認(rèn)參數(shù)，取num_unit為32，64，128，256，512進(jìn)行模型訓(xùn)練嘗試找到最佳的取值?；趐pl及bleu進(jìn)行對(duì)照的折線變化如圖3所示。

由圖3可見(jiàn)，在訓(xùn)練初期，num_unit高的模型與num_unit低的模型的ppl變化折線圖像會(huì)有一個(gè)交點(diǎn)。在交點(diǎn)以前，num_unit越小，ppl越小。在交點(diǎn)以后，num_unit越小，ppl越大。當(dāng)訓(xùn)練步數(shù)足夠大時(shí)，隨著num_unit的增大，最終的ppl變小。num_unit越大，bleu變化折線圖整體在num_unit小的bleu變化折線圖上方。

~~圖3 不同num_unit模型的ppl及blue對(duì)照折線變化~~

綜上所述，在num_unit取值為32，64，128，256，512時(shí)，num_unit為512時(shí)的模型訓(xùn)練效果最優(yōu)。并根據(jù)圖像顯示，繼續(xù)增大num_unit的取值，模型有進(jìn)一步優(yōu)化的可能。

5.4 超參數(shù)batch_size對(duì)模型訓(xùn)練的影響

超參數(shù)batch_size代表了一次輸入給神經(jīng)網(wǎng)絡(luò)的樣本數(shù)，在合理范圍內(nèi)，越大的batch_size使得參數(shù)修正的方向越準(zhǔn)確，震蕩越小；而過(guò)大的batch_size會(huì)使得一次epoch內(nèi)所需的迭代次數(shù)變少，從而對(duì)參數(shù)的修正變得更加緩慢；而過(guò)小的batch_size會(huì)使得隨機(jī)性較大，震蕩較大，難以達(dá)到收斂。將固定詞向量維度設(shè)為512，num_unit為512，其他為默認(rèn)參數(shù)，由于機(jī)器性能的限制，無(wú)法選用更大的batch_size進(jìn)行實(shí)驗(yàn)，因此分別選取batch_size為4，32，64，128，192，256進(jìn)行訓(xùn)練嘗試找到batch_size的合理范圍和最佳的選值。

~~基于ppl及bleu進(jìn)行對(duì)照的折線變化如圖4所示。~~

~~圖4 不同batch_size模型的ppl及bleu對(duì)照折線~~

由圖4可見(jiàn)，當(dāng)batch_size過(guò)小時(shí)，曲線震蕩較大，模型的訓(xùn)練效果較差。當(dāng)batch_size在范圍[32,256]內(nèi)時(shí)，曲線震蕩較小，模型訓(xùn)練效果相近，因此范圍為[32,256]是batch_size的合適選值范圍。當(dāng)batch_size過(guò)小時(shí)，模型訓(xùn)練效果非常差。隨著batch_size的增大，最終的bleu值變大。

綜上所述，batch_size在取值為4，32，64，128，192，256時(shí)，batch_size為256時(shí)的模型訓(xùn)練效果最優(yōu)。并根據(jù)圖像顯示，繼續(xù)增大詞向量維度，模型有進(jìn)一步優(yōu)化的可能。

5.5 最終的模型訓(xùn)練

~~根據(jù)以上的實(shí)驗(yàn)結(jié)果，最終選取詞向量維度為512，num_unit為512，batch_size為256進(jìn)行最終的模型訓(xùn)練。~~

~~模型的bleu值詳細(xì)變化如圖5所示。~~

~~圖5 模型的bleu詳細(xì)變化折線~~

~~由圖5所示，當(dāng)模型訓(xùn)練步數(shù)到達(dá)120 000步左右時(shí)，bleu漸漸達(dá)到峰值。~~

6 翻譯結(jié)果

~~將該文的英譯漢模型與百度翻譯進(jìn)行翻譯效果對(duì)比，如表3所示。~~

由表3可以看到，使用訓(xùn)練模型翻譯的語(yǔ)句均能將專(zhuān)業(yè)詞匯翻譯正確，而百度翻譯會(huì)將專(zhuān)業(yè)詞匯翻譯錯(cuò)。如測(cè)試語(yǔ)句1中的“binary search”翻譯成了二進(jìn)制搜索，測(cè)試語(yǔ)句2中的“greedy”翻譯成了貪婪，測(cè)試語(yǔ)句3中的“memoization”更是直接沒(méi)有翻譯。由此可見(jiàn)使用文中訓(xùn)練的翻譯模型在計(jì)算機(jī)算法類(lèi)領(lǐng)域比百度翻譯的效果更好。

~~表3 翻譯對(duì)比結(jié)果~~

7 結(jié)束語(yǔ)

該文主要進(jìn)行了計(jì)算機(jī)算法類(lèi)垂直領(lǐng)域的中英翻譯優(yōu)化。以關(guān)鍵詞進(jìn)行檢索并爬取中英雙語(yǔ)例句，通過(guò)收集與計(jì)算機(jī)算法類(lèi)相關(guān)度高的文本優(yōu)化翻譯效果。對(duì)英文文本進(jìn)行小寫(xiě)化處理，避免詞匯表出現(xiàn)重復(fù)單詞，降低訓(xùn)練成本以及優(yōu)化訓(xùn)練效果。通過(guò)jieba庫(kù)對(duì)中文文本分詞和nltk庫(kù)對(duì)英文文本分詞。通過(guò)制作計(jì)算機(jī)算法類(lèi)分詞字典，增加計(jì)算機(jī)算法類(lèi)文本的分詞正確率。通過(guò)Word2Vec算法訓(xùn)練不同維度的詞向量，進(jìn)行詞匯間文本相似度測(cè)試得出，詞向量維度越大，詞匯間相似度越低，但所得出的測(cè)試結(jié)果越具有實(shí)際意義。通過(guò)實(shí)驗(yàn)分析發(fā)現(xiàn)，詞向量維度為512，num_unit為512，batch_size為256時(shí)模型效果最佳。

猜你喜歡

分詞例句向量

向量的分解
新高考·高一數(shù)學(xué)(2022年3期)2022-04-28
分詞在英語(yǔ)教學(xué)中的妙用
校園英語(yǔ)·月末(2021年13期)2021-03-15
結(jié)巴分詞在詞云中的應(yīng)用
智富時(shí)代(2019年6期)2019-07-24
結(jié)巴分詞在詞云中的應(yīng)用
智富時(shí)代(2019年6期)2019-07-24
好詞好句
小天使·一年級(jí)語(yǔ)數(shù)英綜合(2016年4期)2016-11-19
好詞好句
小天使·一年級(jí)語(yǔ)數(shù)英綜合(2016年8期)2016-05-14
好詞好句
小天使·一年級(jí)語(yǔ)數(shù)英綜合(2016年6期)2016-05-14
向量垂直在解析幾何中的應(yīng)用
高中生學(xué)習(xí)·高三版(2016年9期)2016-05-14
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
新高考·高二數(shù)學(xué)(2015年11期)2015-12-23
好詞好句
小天使·一年級(jí)語(yǔ)數(shù)英綜合(2015年10期)2015-10-14

計(jì)算機(jī)技術(shù)與發(fā)展2021年7期

計(jì)算機(jī)技術(shù)與發(fā)展的其它文章
智能網(wǎng)聯(lián)汽車(chē)主動(dòng)制動(dòng)避撞算法聯(lián)合仿真
一種中國(guó)古典文學(xué)文本知識(shí)圖譜構(gòu)建方法
基于卷積神經(jīng)網(wǎng)絡(luò)的人群計(jì)數(shù)算法研究
基于超分辨率重建的低分辨率表情識(shí)別的研究
基于CSP改進(jìn)用于擁擠情況的行人檢測(cè)算法
基于單應(yīng)性與相似度矩陣的運(yùn)動(dòng)分割

雜志排行

1《師道·教研》2024年10期
2《思維與智慧·上半月》2024年11期
3《現(xiàn)代工業(yè)經(jīng)濟(jì)和信息化》2024年2期
4《微型小說(shuō)月報(bào)》2024年10期
5《工業(yè)微生物》2024年1期
6《雪蓮》2024年9期
7《世界博覽》2024年21期
8《中小企業(yè)管理與科技》2024年6期
9《現(xiàn)代食品》2024年4期
10《衛(wèi)生職業(yè)教育》2024年10期

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡