基于英語語義分析的智能算法研究

2020-11-13 03:38梁珊

微型電腦應用 2020年10期

梁珊

摘要：英語翻譯過程中，語義越相似，則相關度越大，容易造成不同語境下的理解錯誤，給翻譯工作帶來困難?；诖耍瑥挠h句子雙語料入手，建立基于語義詞典和語料庫相結合的相似度計算模型。在建立的語料庫條件下，確定相關語義提取規(guī)則和依存關系，通過英語句子相似度算法，采用向量空間模型標準，將計算的相似度作為向量元素，尋找到語句的差異化程度，區(qū)別語句和單詞詞性、句法、時態(tài)多方面內容。研究結果表明：系統(tǒng)在語句翻譯過程中具備較高的準確度和召喚率，尤其是在介詞、虛詞、時態(tài)方面的英譯過程中，具有更高的翻譯效率和準確度。

關鍵詞：英語語音;翻譯;相似度模型;語法時態(tài)

中圖分類號：G643

文獻標志碼：A

ResearchonIntelligentAlgorithmBasedonEnglishSemantic

LIANGShan

（

AcademicAffairsOffice，ShanxiCollegeofCommunicationTechnology，Xian710000，China

）

Abstract：IntheprocessofEnglishtranslation，themoresimilarthesemanticsis，thegreaterthecorrelation.Itcaneasilycauseunderstandingerrorsindifferentcontexts，andbringdifficultiestothetranslationwork.Basedonthis，thispaperestablishesasimilaritycalculationmodelbasedonthecombinationofsemanticdictionaryandcorpus.Undertheconditionoftheestablishedcorpus，therelevantsemanticextractionrulesanddependenciesaredetermined.ThroughtheEnglishsentencesimilarityalgorithm，usingthevectorspacemodelstandard，thecalculatedsimilarityisusedasthevectorelementtofindthedegreeofdifferentiationofthesentence，distinguishthesentencefromthewordpartofspeech，syntax，tense，andmanyaspectsofthecontent.Theresultsshowthatthetranslationprocesshashigheraccuracyandcallrate，especiallyinthetranslationofprepositions，functionwords，tenses，withhighertranslationefficiencyandaccuracy.

Keywords：Englishphonetics;translation;similaritymodel;grammaticaltense

0引言

隨著國際經(jīng)濟形勢和貿易的擴展，英語作為國際通用語言得到更多的重視，英語翻譯成為必不可少的一部分，各類機器翻譯系統(tǒng)快速發(fā)展[13]。機器翻譯已經(jīng)不局限于單個語法和句子翻譯，更多的是語言內部句群、段落、篇章、體裁的語境信息[4]。從語義學角度講，詞語語義計算可在整個文本中或單個詞義間進行定義，因而詞語語義具備了相關度和相似度，即反應了兩個詞語在同一語境中的共性和兩個詞語間的聚合特征[57]。在一定程度上，詞語間語義越相似，其相關度越大，容易造成不同語境下的理解錯誤，給翻譯工作帶來困難。目前，詞語語義計算更多的是基于自然語言處理，探索詞語間相關程度[811]。如結合馬爾科夫模型對比輸入譯文和參照譯文的相似詞，并進行匹配，計算二者的近似度。通過將InformationContent算法融合在WordNet系統(tǒng)內建立詞語語義的相關度模型，利用現(xiàn)有詞義詞典的概念關系度量詞語語義相關度[12]。一些學者從詞語文檔該案屬性程度方面計算詞語概念相關度，通過統(tǒng)計算法確定文檔中詞語共線性和相關性[13]?；诖?，本文將英語語義相似度算法應用于英語只能反應中，綜合考慮英語單詞和語義多方面特征，提高英語翻譯系統(tǒng)的語句翻譯準確度。

1英語翻譯分析系統(tǒng)設計

英語翻譯系統(tǒng)主要是將收入的譯文資料保存在系統(tǒng)資料庫中，并通過對收錄語言進行語義檢測，信息特征提取，進行特定語境下下單詞和語義的分析，最后將結果反饋給應用者。根據(jù)英語反應系統(tǒng)的需求，構建層次結構主要包括譯文資料收錄、信息特征提取、數(shù)據(jù)模型構建和分析、結果反饋四個功能模塊，如圖1所示。

系統(tǒng)初期，通過譯文資料模塊收錄相應的英文譯文，并經(jīng)過標準化處理，將獲得的標準化格式保存在資料庫文件中。根據(jù)文件內容通過信息特征提取模塊進行內容細分，利用軟件算法提取標準文件特征值。由分析模塊根據(jù)提取的信息特征值獲得提取結果，在此基礎上通過結果反饋模塊完成譯文翻譯和反饋工作。

同時引入自然語言處理系統(tǒng)進行人與機的有效通信，作為翻譯系統(tǒng)的輔助部分實現(xiàn)信息交互。用戶將傳疑問上傳到用戶端，通過自然語言只能處理完成信息交互后，輸入系統(tǒng)翻譯模型，利用模型文件進行評分和結果反饋，并基于人工檢驗評測查閱用戶英語翻譯文檔，選擇訓練模型譯文集數(shù)據(jù)，提高翻譯整體效果。

2系統(tǒng)關鍵技術

從系統(tǒng)結構層次可以看出，利用軟件算法提取標準文件的信息特征值是實現(xiàn)不同語義環(huán)境下準確翻譯的基礎[14]。而詞語和句子間存在的相似度是造成系統(tǒng)在不同語義環(huán)境下翻譯下降到因素。語句的相對度包括詞性、句法、語句多方面內容，通過句子相似度計算，尋找到語句的差異化程度，即相似度值越大，則表明兩句子在詞形、句法和語義方面的信息越解決[15]。本文基于英語距離的相似度算法計算英語單詞和語句間的相似度。

2.1概念詞的相似度

針對語句間概念詞的相似度，在相關研究的基礎上[16]，重新定義了概念次的相似度計算方法，即確定兩概念詞間語義相似度值位于區(qū)間[0，1]間，相互關系如式（1）。

sim（w1，w2）=e-αL·12（HcH1+HcH2）

（1）

上式中

L為概念詞w1和w2間的最短路徑;Hc為概念詞在公共上位詞集的深度，Hw1、Hw2對應的深度;α為常數(shù)。對于式（1）中可以理解為：當兩概念次間最短路徑越小，公共上位詞深度越大，距離越短，則語義相似度越大。

2.2語句間相似度

在衡量語句相似度時，采用向量空間模型標準。向量空間模型（VectorspacemodelVSM）

是把文本中的單詞、短語等最小語義單元分隔開，將其計算的相似度作為向量元素[17]。在兩條英語句中使用教教余弦來獲得語義間的相似度。

2.2.1語句的向量化表示

在英語語句向量化表示中，首先將兩個語句用等長度向量表示，如對于

語句T1和T2，將兩條語句所有單詞匯集程一個聯(lián)合詞集T如式（2）。

T=T1∪T2=w1，q1，…，wm，qn

（2）

去掉T1和T2中相同的單詞，確保聯(lián)合詞集T中的元素互異性，其中w1，w2，…，wm為語句T1中單詞集合，q1，q2，…，qn為語句T2的單詞集合，例如對于英語語句：

T1：{Whatisyoufavoritesports？}

T2：{Whatkindofsportsdoyouenjoymost？}

對兩個語句進行組合，將兩條語句中的冠詞、感嘆詞刪除，保留實意單詞原型，并記錄相同單詞，獲得組合后的語句T：{Whatisyourfavoritesportkindofdoyouenjoymost？}。將聯(lián)合語句T以一個向量S表示。聯(lián)合語義向量單詞長度與聯(lián)合語句數(shù)量相同，同時，將語句T1表示問聯(lián)合語義向量S1，將T2表示問聯(lián)合語義向量S2。將向量中單詞以分量值的形式，若wi包含在語義向量中，則Si取為1，若不包含在語句中，則根據(jù)式（1）計算相似度。獲得語句T1和T2對應的語義向量S1和S2。

S1：1，1，1，1，1，0.8，0.8，0，0，1，0.8，0.9

S2：1，0，1，0.8，1，1，1，1，1，1，1

其中計算獲得的小數(shù)為單詞對應的相似度數(shù)值。語句中的of、do等介詞和助動詞無比較單詞。確定語句T1和T2對應的語義向量S1和S2后，根據(jù)式（3）計算得到T1和T2的相似度，將相似度值大于設定閾值備選答案作為最終答案如式（3）。

sim（T1，T2）=S1·S2S1·S2

（3）

2.2.2算法的流程

算法為用戶輸入一條英語語句，輸出與該語句相似的所有備翻譯語義以及相似值，取相似度取值范圍[0，1]，確定算法的具體處理流程，如圖2所示。

（1）輸入一個英語語句，進行句子的預處理，獲得翻譯語句的備選答案;（2）對輸入語句和備選答案進行還原處理，并標注每個單詞的詞性;（3）將處理后的語句和答案組成聯(lián)合詞集，進行向量化處理，構成聯(lián)合語義向量集;（4）由將聯(lián)合語義向量賦予概念相似度值，根據(jù)余弦相似度計算公式獲得語義相似度值;（5）由語義相似度結果排序，并最終選擇相似度最高句子作為最終答案。

3系統(tǒng)實現(xiàn)

系統(tǒng)以MYSQL數(shù)據(jù)庫和知識題庫作為數(shù)據(jù)管理系統(tǒng)。采用常用詞詞典和WordNet語義詞典作為數(shù)據(jù)表，在Eclipse平臺架構進行層次設計，使系統(tǒng)具體流程圖，如圖3所示。

本文選擇測試用例1：“漢英對照例句集”，測試用例2：“走遍美國雙語篇章級語料”第2324課，測試用例3：“Internet上雙語新聞”共17篇中的雙語篇章預料進行測試，測試預料信息以及獲得的測試結果，如表1所示。

其中準確率R和召喚率P如式（4）、式（5）。

R=輸出正確譯文次數(shù)句對總數(shù)×100%

（4）

P=輸出正確譯文次數(shù)輸出譯文次數(shù)×100%

（5）

從獲得的實驗結果可以看出，采用系統(tǒng)來解決漢譯音問題能夠獲得較高的準確率。其中測試用例3的準確率和召喚率較其他二者較低，這是由于用例3主要為新聞題材，以敘事性文和說明性文字交織，在時態(tài)方面存在較多的變化，存在一定錯誤，因此需要增加對受限領域、場景和句子模式識別的深入研究，以及句子銜接規(guī)律的研究。

下面針對英語翻譯中常存在是時態(tài)問題進行分析，基于語義語言的機器翻譯在進行轉化處理中，得到的結果更多的是英語動詞原形形式。如基于機器翻譯系統(tǒng)將英語句子“Thewillinvestigatethiswork”到漢語的翻譯過程如下：

（1）展開漢語句子過程：進行語義單元的編碼“Thewillinvestigatethiswork”→1（The，thiswork）→1（They，2（work））→1（2，3（4））。

（2）進行語義分析過程為：1（2，3（4））→“調查（他們，該（工作））”→“調查（他們，該（工作））1”→“他們（2）調查該（工作）（3）”→“他們（2）調查該工作（4）”→“他們調查該工作”。

由于針對句子語義單元忽略了“將”一類時間副詞和助詞，僅提取時間短語的語義單元，對存在時間連詞句子僅提取時間連詞，并未在表示中標志時間信息，顯然，時間模式表能直接反應時間信息和轉換時態(tài)，因此，直接利用本文算法，根據(jù)語義相似度來處理句子獲得時態(tài)結果，并與機器反應系統(tǒng)翻譯結果結合，獲得帶有時態(tài)標記譯文。

4總結

本文從英漢句子雙語料入手，針對語義語言的翻譯系統(tǒng)若干關鍵問題進行分析?；谡Z義詞典和語料庫相結合的相似度計算模型，并給出系統(tǒng)開發(fā)過程和模塊的功能作用。以建立語料庫為基礎，確定相關語義提取規(guī)則和依存關系，通過研究英語句子相似度算法，采用向量空間模型標準，將計算的相似度作為向量元素，尋找到語句的差異化程度，區(qū)別語句和單詞詞性、句法、時態(tài)多方面內容。通過實際體驗和使用，系統(tǒng)能夠有效提高英語翻譯的準確度，進一步提升了系統(tǒng)的效率。

參考文獻

[1]

劉蕾.智能播種機嵌入式英語語音識別控制系統(tǒng)設計與研究[J].農機化研究，2018，40（12）：240244.

[2]譚詠梅，吳坤.面向英語文章的詞性標注算法[J].北京郵電大學學報，2014，37（6）：120124.

[3]雷香花，幸晉渝.基于短語譯文組合的智能化英語自動翻譯系統(tǒng)[J].自動化與儀器儀表，2018（5）：152155.

[4]吳秉健.基于人工智能的英語故事寫作應用研究[J].中小學數(shù)字化教學，2018（4）：8688.

[5]楊燕.BP神經(jīng)網(wǎng)絡算法下英語MOOC平臺的設計與實現(xiàn)[J].自動化與儀器儀表，2018（8）：8183.

[6]詹海寶，張立國.大學英語詞匯鎖屏移動學習軟件的設計與應用[J].中國遠程教育，2015（4）：4348.

[7]謝雪梅.英語口語測試系統(tǒng)發(fā)音錯誤智能檢測技術研究[J].自動化與儀器儀表，2018（12）：5861.

[8]賀建英，王光瓊，唐青松.一種基于遺傳算法的智能組卷策略優(yōu)化研究[J].計算機與數(shù)字工程，2019，47（1）：130135.

[9]郭蕾.基于自然語言處理的英語翻譯計算機智能評分系統(tǒng)設計[J].現(xiàn)代電子技術，2019，42（4）：158160.

[10]洪常春.人工智能時代大學英語生態(tài)教學模式構建研究[J].外語電化教學，2018（6）：2934.

[11]王曉茹.基于個性化推薦的英語輔助教學系統(tǒng)設計[J].微型電腦應用，2019，35（5）：3538.

[12]涂惠燕，陳一寧.基于語音識別和手機平臺的英語口語發(fā)音學習系統(tǒng)[J].計算機應用與軟件，2011，28（9）：6466.

[13]季春元，熊澤金，侯艷芳，等.基于人機交互的網(wǎng)絡化智能翻譯系統(tǒng)設計[J].自動化與儀器儀表，2019（8）：2528.

[14]梁慧.嵌入式英語語音識別系統(tǒng)誤差自動檢測方法研究[J].自動化與儀器儀表，2019（9）：5558.

[15]尹鐘，陳瑋，付東翔，等.智能控制課程中英雙語教學方法研究與教學案例設計[J].計算機教育，2019（10）：5155.

[16]劉學豐.基于差分進化算法的英語考試智能組卷[J].計算機技術與發(fā)展，2016，26（1）：181184.

[17]譚詠梅，王曉輝，楊一梟.基于語料庫的英語文章語法錯誤檢查及糾正方法[J].北京郵電大學學報，2016，39（4）：9297.

（收稿日期：2020.03.27）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于英語語義分析的智能算法研究