渠新峰
摘 要: 為了提高機(jī)器單詞翻譯的準(zhǔn)確性,需要進(jìn)行關(guān)鍵語(yǔ)義篩選和特征提取,故提出一種基于主題詞表自然語(yǔ)義信息抽取的海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法。首先構(gòu)建海量數(shù)據(jù)機(jī)器單詞的文本語(yǔ)義主題詞概念決策樹模型,采用語(yǔ)義信息轉(zhuǎn)換方式計(jì)算機(jī)器單詞中關(guān)鍵語(yǔ)義的利用規(guī)則、聚類中心等信息參量;然后采用主題詞表自然語(yǔ)義信息抽取方法進(jìn)行語(yǔ)義評(píng)估和翻譯可靠性測(cè)試,實(shí)現(xiàn)關(guān)鍵語(yǔ)義自動(dòng)篩選控制;最后進(jìn)行仿真測(cè)試。結(jié)果表明,采用該方法進(jìn)行機(jī)器單詞中關(guān)鍵語(yǔ)義篩選, 提高了文本機(jī)器翻譯的自適應(yīng)配準(zhǔn)能力,翻譯的準(zhǔn)確性得到有效提高。
關(guān)鍵詞: 海量數(shù)據(jù); 機(jī)器翻譯; 單詞; 語(yǔ)義篩選
中圖分類號(hào): TN911?34; TP391.1 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)06?0018?03
Abstract: In order to improve the accuracy of machine translation of words, the key semantic screening and feature extraction are needed. Because of this, a method of the key semantic screening of the massive data machine words based on thesaurus natural semantic information extraction is proposed. The thesaurus concept semantic decision tree model of the massive data machine words is build. The semantic information conversion mode is used to calculated the key semantic utilization rules of machine words and the information parameters of clustering center. The thesaurus natural semantic information extraction method is adopted to conduct semantic translation evaluation and reliability testing for realization of the automatic control of key semantic selection. The simulation test results show that the method has improved the adaptive ability of the text machine translation, and the accuracy of the translation effectively.
Keywords: massive data; machine translation; word; semantic screening
0 引 言
在大數(shù)據(jù)信息時(shí)代,需要采用機(jī)器翻譯處理大量的文字?jǐn)?shù)據(jù)信息,為了提高對(duì)海量文本數(shù)據(jù)的機(jī)器翻譯的準(zhǔn)確性,需要對(duì)機(jī)器單詞的關(guān)鍵語(yǔ)義進(jìn)行準(zhǔn)確的特征篩選,把握機(jī)器單詞的關(guān)鍵信息,提高對(duì)機(jī)器翻譯的面向?qū)ο笮院腿藱C(jī)交互能力。機(jī)器翻譯模型分為三個(gè)層次,分別為局部語(yǔ)義聚類[1?2]、語(yǔ)義情感分析[3]和表現(xiàn)模型。其中數(shù)據(jù)模型提供機(jī)器單詞翻譯的數(shù)據(jù)來(lái)源,作為原始語(yǔ)言的文本輸入,通過與翻譯對(duì)象的某個(gè)領(lǐng)域相關(guān)的數(shù)據(jù)集合分類,進(jìn)行程序控制,實(shí)現(xiàn)領(lǐng)域本體模型構(gòu)建;基于語(yǔ)義度量的RDF圖近似查詢[4],在語(yǔ)義模型中形成機(jī)器翻譯的概念匯聚點(diǎn),根據(jù)語(yǔ)義集合概念之間的上下層關(guān)系,進(jìn)行語(yǔ)義轉(zhuǎn)換和信息抽取實(shí)現(xiàn)語(yǔ)義篩選后的機(jī)器翻譯輸出。本文針對(duì)當(dāng)前的關(guān)鍵語(yǔ)義篩選方法的控制性不好和準(zhǔn)確性不好的問題,提出基于主題詞表自然語(yǔ)義信息抽取的海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法。
1 海量數(shù)據(jù)機(jī)器單詞的文本語(yǔ)義主題詞表模型
1.1 文本語(yǔ)義主題詞的決策樹
為了實(shí)現(xiàn)對(duì)海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選,首先構(gòu)建海量數(shù)據(jù)機(jī)器單詞的文本語(yǔ)義主題詞表模型,構(gòu)建文本語(yǔ)義主題詞概念語(yǔ)義度量決策樹[4],根據(jù)L. Breiman,J. Friedman等人提出分類和回歸樹的思想[5?6],引入二叉分類回歸決策樹,構(gòu)建機(jī)器翻譯的語(yǔ)言評(píng)價(jià)集,對(duì)海量數(shù)據(jù)機(jī)器單詞進(jìn)行主分量特征優(yōu)化處理。假設(shè)語(yǔ)言評(píng)價(jià)集β[∈][0,T]為抽取類型性特征向量集S的主特征量。其中T為海量數(shù)據(jù)機(jī)器單詞評(píng)價(jià)集S中元素的個(gè)數(shù),數(shù)據(jù)集主特征向量β可由函數(shù)[Δ]表示為一個(gè)二元語(yǔ)義分布的決策樹模型,有:
2 關(guān)鍵語(yǔ)義篩選改進(jìn)
2.1 關(guān)鍵語(yǔ)義的利用規(guī)則計(jì)算
在上述進(jìn)行了文本語(yǔ)義主題詞概念集的基礎(chǔ)上,進(jìn)行海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法改進(jìn)設(shè)計(jì),提出基于主題詞表自然語(yǔ)義信息抽取的海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法,采用語(yǔ)義信息轉(zhuǎn)換方式計(jì)算機(jī)器單詞中關(guān)鍵語(yǔ)義的利用規(guī)則、聚類中心等信息參量[9],令[A=a1,a2,…,an]為主題詞表覆蓋表達(dá)概念的訓(xùn)練集的屬性集,[B=b1,b2,…,bm]為文本中抽取的特征詞的類別集,[ai]的語(yǔ)義特征抽取的屬性值為[c1,c2,…,ck],得到主題詞表的關(guān)鍵語(yǔ)義篩選的匹配信息表達(dá)式為:
2.2 關(guān)鍵語(yǔ)義自動(dòng)篩選實(shí)現(xiàn)
采用主題詞表自然語(yǔ)義信息抽取方法進(jìn)行語(yǔ)義評(píng)估和翻譯可靠性測(cè)試,實(shí)現(xiàn)關(guān)鍵語(yǔ)義自動(dòng)篩選控制,在實(shí)現(xiàn)關(guān)鍵語(yǔ)義篩選的算法設(shè)計(jì)之前,給出形式概念定義。
定義 形式概念(formal concept):設(shè)E是形式背景中的語(yǔ)義特征集合O的一個(gè)子集,定義[fE∶={AA|OE,ORA}](表示E中連接兩個(gè)主題詞的形式概念集);相應(yīng)的,設(shè)I是屬性集合A的一個(gè)主題詞表子集,定義[gI∶={OO|AI,ORA}](表示關(guān)鍵語(yǔ)義篩選查找屬性集的集合)。
若(E1,I1),(E2,I2)是海量數(shù)據(jù)機(jī)器單詞翻譯集合K=(O,A,R)上的兩個(gè)概念,根據(jù)偏序關(guān)系取出文檔中的主題詞,如果有概念C2≤C1,每條有向邊的距離滿足C2≤C3≤C1,構(gòu)建語(yǔ)義特征概念格,選擇相似度最小的連接節(jié)點(diǎn)對(duì)(E,I)進(jìn)行語(yǔ)義篩選,得到關(guān)鍵語(yǔ)義篩選的連通圖如圖2所示。
根據(jù)上述定義和關(guān)鍵語(yǔ)義篩選的連通圖設(shè)計(jì),得到關(guān)鍵語(yǔ)義自動(dòng)篩選的算法如下:
輸入:所有海量數(shù)據(jù)機(jī)器單詞的屬性主題詞集
輸出:形式關(guān)鍵語(yǔ)義篩選結(jié)果
BEGIN
Context = NEW relationship among parameters;
//初始化輸入?yún)?shù)集,生成可選的組合方案
Attr = NEW ontologies;
//初始化屬性集,進(jìn)行參數(shù)間的語(yǔ)義匹配
Text = NEW Web service []; //輸入?yún)?shù)映射
//依次處理每個(gè)輸出參數(shù)概念,進(jìn)行關(guān)鍵語(yǔ)義篩選的動(dòng)態(tài)匹配
FOR(int i=0; i< Situation; i++){
FileRihfer(Tfevdt[i]);
Obj = NEW RinsinList; //使用一階謂詞邏輯
//查找屬性集Attde的一個(gè)翻譯序列或歷史子任務(wù)
IF(characteristic similarity r IS NOT EMPTY){
FOR (int j=0;j Obj.wfhi(j,"0"); } } } //規(guī)則屬性轉(zhuǎn)換成PDDL謂詞,或添加新的屬性,實(shí)現(xiàn)關(guān)鍵語(yǔ)義自動(dòng)篩選控制 END 3 實(shí)驗(yàn)測(cè)試分析 對(duì)海量數(shù)據(jù)機(jī)器單詞關(guān)鍵語(yǔ)義篩選的仿真實(shí)驗(yàn)建立在開源代碼為Heritrix的環(huán)境中,其中操作系統(tǒng):Windows XP,機(jī)器單詞庫(kù)源于Google AJAX seArch AP,利用實(shí)際采集的單詞信息數(shù)據(jù)構(gòu)建海量數(shù)據(jù)機(jī)器單詞的特征詞集合完整概念格如圖3所示。 從圖3自頂向下觀察概念格可知,采用本文方法進(jìn)行語(yǔ)義篩選,每一個(gè)機(jī)器單詞的特征詞集合的父概念都包含了子概念的對(duì)象,說明采用本文方法進(jìn)行語(yǔ)義篩選具有完備性,能有效覆蓋機(jī)器單詞翻譯的概念集。為了定量測(cè)試本文方法進(jìn)行機(jī)器單詞關(guān)鍵語(yǔ)義篩選的性能,抽取主題詞表的機(jī)器單詞語(yǔ)義對(duì)共2 800對(duì),采用本文方法和傳統(tǒng)方法進(jìn)行測(cè)試分析,參數(shù)設(shè)定自定義語(yǔ)義特征同義詞的判定閾值為0.23, 相似度值大于0.1,得到篩選的查準(zhǔn)率對(duì)比結(jié)果如圖4所示,從圖4得知,采用本文方法進(jìn)行海量數(shù)據(jù)機(jī)器單詞的關(guān)鍵語(yǔ)義篩選的查準(zhǔn)率較高,性能較好。 4 結(jié) 語(yǔ) 本文研究了海量數(shù)據(jù)機(jī)器單詞的優(yōu)化翻譯問題,提出基于主題詞表自然語(yǔ)義信息抽取的海量數(shù)據(jù)機(jī)器單詞中關(guān)鍵語(yǔ)義篩選方法。實(shí)驗(yàn)結(jié)果表明,采用本文方法進(jìn)行機(jī)器單詞中關(guān)鍵語(yǔ)義篩選,查準(zhǔn)率指標(biāo)表現(xiàn)較好,說明能有效提高機(jī)器翻譯準(zhǔn)確性。 參考文獻(xiàn) [1] 辛宇,楊靜,湯楚蘅,等.基于局部語(yǔ)義聚類的語(yǔ)義重疊社區(qū)發(fā)現(xiàn)算法[J].計(jì)算機(jī)研究與發(fā)展,2015,52(7):1510?1521. [2] 冶忠林,楊燕,賈真,等.基于語(yǔ)義擴(kuò)展的短問題分類[J].計(jì)算機(jī)應(yīng)用,2015,35(3):792?796. [3] 吳江,唐常杰,李太勇,等.基于語(yǔ)義規(guī)則的Web金融文本情感分析[J].計(jì)算機(jī)應(yīng)用,2014,34(2):481?485. [4] 章登義,吳文李,歐陽(yáng)黜霏.基于語(yǔ)義度量的RDF圖近似查詢[J].電子學(xué)報(bào),2015,43(7):1320?1328. [5] 孟祥福,嚴(yán)麗,馬宗民,等.基于語(yǔ)義相似度的數(shù)據(jù)庫(kù)自適應(yīng)查詢松弛方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(5):812?824. [6] 寇月,申德榮,李冬,等.一種基于語(yǔ)義及統(tǒng)計(jì)分析的Deep Web實(shí)體識(shí)別機(jī)制[J].軟件學(xué)報(bào),2008,19(2):194?208. [7] HERRERA F, HERRERA?VIEDMA E, MARTINEZ L. A fusion approach for managing multi?granularity linguistic terms sets in decision making [J]. Fuzzy sets and systems, 2000, 114(1): 43?58. [8] 舒婷,劉泉,艾青松,等.基于梯形模糊數(shù)與二元語(yǔ)義需求權(quán)重確定方法[J].武漢理工大學(xué)學(xué)報(bào),2011,33(12):111?114. [9] STOEAN C, PREUSS M, STOEAN R, et al. Multimodal optimization by means of a topological species conservation algorithm [J]. IEEE transactions on evolutionary computation, 2010, 14(6): 842?864.