国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

構(gòu)建和剖析中英三元組可比語料庫

2014-02-28 10:27:08胡小鵬袁琦耿鑫輝朱姝
關(guān)鍵詞:三元組中式術(shù)語

胡小鵬,袁琦,耿鑫輝,朱姝

中國(guó)電子信息產(chǎn)業(yè)發(fā)展研究院,北京100044

1 引言

自1995年Rapp提出基于矩陣相似度計(jì)算的可比語料庫雙語詞匯提取算法研究以來,構(gòu)建和使用可比語料庫的研究得到不斷發(fā)展。特別是近十幾年,隨著網(wǎng)絡(luò)跨語言資源和跨語言處理需求的劇增,基于可比語料庫的雙語資源提取研究已從最初的雙語詞匯提取發(fā)展到雙語句對(duì)提取,雙語片斷提取,基于本族語言模型的雙語資源提取,語義知識(shí)庫建造,以及利用人機(jī)語言特征對(duì)比改進(jìn)機(jī)器翻譯系統(tǒng)等一系列可比語料庫的數(shù)據(jù)挖掘研究。到目前為止,除本文發(fā)表的研究成果外,國(guó)內(nèi)外尚未發(fā)現(xiàn)基于本族語言模型的可比語料庫雙語資源提取報(bào)道。隨著可比語料庫研究與應(yīng)用的不斷發(fā)展,它已成為自然語言處理各種相關(guān)學(xué)術(shù)會(huì)議的一個(gè)中心話題。從2008年起,ACL為該領(lǐng)域的研究創(chuàng)建了專門的學(xué)術(shù)交流平臺(tái),每年設(shè)定中心議題,召開“構(gòu)建和使用可比語料庫(BUCC)”專題研討會(huì)。2013年8月召開的第6次研討會(huì)的中心議題,是改進(jìn)和發(fā)展可比語料庫經(jīng)典的詞匯挖掘技術(shù),提高數(shù)據(jù)挖掘準(zhǔn)確度,擴(kuò)展應(yīng)用覆蓋面。

本文中,構(gòu)成三元組可比語料庫的中式英語又稱Chinglish,它有悖于本族英語規(guī)則和英語國(guó)家文化習(xí)慣。根據(jù)拉多(R.Lado)在《跨文化的語言學(xué)》中提出的“語言遷移(language transfer)”理論,中式英語充分表征了中國(guó)人在英語寫作中母語的負(fù)遷移現(xiàn)象。由于受到漢語語言、文化、思維習(xí)慣等各方面的影響和干擾,中國(guó)人按照自己母語的習(xí)慣,主觀編造、生搬硬套構(gòu)造了中式英語,其中在詞匯層面表現(xiàn)出的負(fù)遷移現(xiàn)象尤為嚴(yán)重。人們往往不顧兩種語言的本質(zhì)差異,直接把母語的表達(dá)方式生搬硬套到英語詞匯中去。用包含著詞匯層面負(fù)遷移現(xiàn)象的譯文構(gòu)建的平行語料庫顯然存在著扭斜的語言模型。圖1中marketizaton reform是國(guó)內(nèi)學(xué)術(shù)期刊上出現(xiàn)的詞匯層面的中式英語典型例子,正確的本族英語表達(dá)是market-oriented reform。

圖1 詞匯層面的中式英語

由于從平行語料庫提取的雙語數(shù)據(jù)受到中式英語扭斜的語言模型影響,嚴(yán)重影響到跨語言處理應(yīng)用。以Google在線跨語言檢索為例,當(dāng)檢索“英國(guó)電子信息產(chǎn)品”時(shí),Google的輸出結(jié)果主要是涉及“圖書館服務(wù)和圖書”文獻(xiàn)(見圖2的屏幕截圖)。其原因是,根據(jù)平行語料庫訓(xùn)練出的應(yīng)用系統(tǒng)包括有扭斜的語言模型,在輸入“電子信息產(chǎn)品”后,系統(tǒng)無法優(yōu)先生成“electronics and IT products”,而是扭斜的表示電子圖書類的“electronic information products”。

圖2 “英國(guó)電子信息產(chǎn)品”Google跨語言信息檢索結(jié)果

平行語料庫是跨語言處理的重要資源。為克服平行語料庫固有的缺陷,本文提出了構(gòu)建和剖析中英三元組可比語料庫的技術(shù)研究。這項(xiàng)研究使用統(tǒng)計(jì)和規(guī)則相結(jié)合的方法,對(duì)由本族英語、中式英語和標(biāo)準(zhǔn)中文三元素所組成的三元組可比語料庫中的本族英語和中式英語進(jìn)行統(tǒng)計(jì)分析。在此基礎(chǔ)上,利用n-元詞串、關(guān)鍵詞簇等自動(dòng)抽取技術(shù)挖掘基于本族語言模型的雙語資源,改進(jìn)和發(fā)展機(jī)器翻譯等自然語言處理應(yīng)用。本文提出的研究?jī)?nèi)容不僅對(duì)改進(jìn)和發(fā)展跨語言處理應(yīng)用具有實(shí)用價(jià)值,而且對(duì)外語教學(xué)、詞典編纂、對(duì)外交流與合作也具有重要意義。

2 相關(guān)研究

2.1 國(guó)外相關(guān)研究

近年來,國(guó)外基于可比語料庫的數(shù)據(jù)挖掘研究發(fā)展極其迅速。尤其是,基于可比語料庫的雙語術(shù)語提取成為國(guó)外可比語料庫研究最為活躍的領(lǐng)域。對(duì)于科技領(lǐng)域,尤其是對(duì)于新興領(lǐng)域,術(shù)語資源往往是短缺的或不是最新的。為了應(yīng)對(duì)新興和迅速發(fā)展的科技領(lǐng)域詞匯短缺和陳舊的瓶頸,以及平行語料庫固有的時(shí)間滯后和文本稀缺問題,在歐盟第7框架計(jì)劃2010年—2012年期間,英、法、德等國(guó)通過實(shí)施基于可比語料庫的術(shù)語提?。═TC)項(xiàng)目,實(shí)現(xiàn)了從特定領(lǐng)域(如再生能源)可比語料庫提取中英、中法等12部詞庫的研發(fā)計(jì)劃。TTC項(xiàng)目開發(fā)環(huán)境的數(shù)據(jù)工作流如圖3所示,包括文本預(yù)處理、單語術(shù)語提取和雙語術(shù)語對(duì)齊3個(gè)層面的開發(fā)工具模塊。文本預(yù)處理模塊包括詞性還原、詞性標(biāo)注、詞干提取和詞形還原。單語術(shù)語提取模塊用于處理單語語料庫文件并提取術(shù)語,其處理流程包括識(shí)別并建立單字詞和多字詞的索引,計(jì)算詞語的相對(duì)頻率和領(lǐng)域特殊性,檢測(cè)單個(gè)詞術(shù)語構(gòu)成的新古典復(fù)合詞,以及采用相對(duì)頻率或領(lǐng)域特殊性設(shè)定閾值過濾候選項(xiàng)。雙語術(shù)語對(duì)齊模塊可以根據(jù)術(shù)語不同的性質(zhì),采用不同的策略。對(duì)于單個(gè)詞的術(shù)語采用基于上下文的預(yù)測(cè)方法,對(duì)于新古典復(fù)合詞和多詞術(shù)語采用基于語意合成性(com positionality)的方法。通過評(píng)估驗(yàn)證,該項(xiàng)目所產(chǎn)生的雙語術(shù)語庫有效地改進(jìn)了面向特定領(lǐng)域的機(jī)器翻譯性能[1-2]。

圖3 TTC開發(fā)環(huán)境的數(shù)據(jù)工作流

2013年Dhouha等人在深入研究經(jīng)典的可比語料庫雙語詞匯提取技術(shù)基礎(chǔ)上,觀察到翻譯上下文詞向量中多義詞的語義歧義問題,提出了基于WordNet的語義相似度度量的詞義消歧處理的可比語料庫雙語詞匯提取方法。

實(shí)驗(yàn)中,在經(jīng)典的雙語詞匯提取3步驟,即建立上下文向量、翻譯上下文向量、比較源語和目標(biāo)語向量中加入了對(duì)上下文向量翻譯的語義消歧步驟(見圖4),使用單義詞作為消除歧義的種子集來推斷多義詞的翻譯意思,以減少上下文向量中的干擾噪音,提高雙語詞匯提取性能。

圖4 基于Word Net語義相似度的可比語料庫雙語術(shù)語提取方法架構(gòu)圖

首先,利用雙語詞典中只含有一個(gè)義項(xiàng)的詞條來構(gòu)造單義詞種子詞典,在Word Net的檢測(cè)中,這種方法的準(zhǔn)確率可以達(dá)到95%。其次,通過基于路徑長(zhǎng)度的語義相似度的WUP算法[3],在Word Net基礎(chǔ)上,計(jì)算目標(biāo)術(shù)語的上下文詞向量中各單義詞的義項(xiàng)與多義詞的各個(gè)義項(xiàng)之間的語義相似度值。WUP算法利用兩個(gè)詞的同義詞集(s1,s2)在Word Net中的深度和它們的最小公共包含(LCS),計(jì)算出兩個(gè)詞之間的相似度值,公式如下:

實(shí)際中,由于一個(gè)詞可能會(huì)同時(shí)屬多個(gè)同義詞集,最終選取兩個(gè)詞的所有可能的相似度值中的最大值,作為兩個(gè)詞的相似度值,公式如下:

最后,利用上下文詞向量中,多義詞各個(gè)義項(xiàng)與各個(gè)單義詞義項(xiàng)的平均相似度值,為多義詞的每個(gè)義項(xiàng)打分(公式如下),并選取分值最高的義項(xiàng)作為多義詞的最終詞義,以此達(dá)到語義消歧的目的。

實(shí)證實(shí)驗(yàn)結(jié)果表明,該方法明顯優(yōu)于經(jīng)典的方法[4]。

在可比語料庫雙語句對(duì)提取方面,經(jīng)典的方法是使用信息檢索(IR)技術(shù),在文檔對(duì)齊的基礎(chǔ)上,使用句子層面模型來提取平行句對(duì)(或片斷)。IBM Watson實(shí)驗(yàn)室的Tillmann等人提出了一種新的從可比數(shù)據(jù)中提取句對(duì)的算法,使用這種算法可以直接在句子層面打分候選句對(duì)集?;谠撍惴ǖ木鋵?duì)提取,是通過有效執(zhí)行基于IBM模型1翻譯概率的對(duì)稱打分函數(shù)實(shí)現(xiàn)的。該方法適用于無文檔層面對(duì)齊信息的可比語料庫句對(duì)提取[5]。在可比語料庫雙語片斷提取方面,Munteanu等人受信號(hào)處理的啟發(fā),提出了在句子級(jí)別無法對(duì)齊的可比語料庫中提取雙語片斷的算法。以詞對(duì)齊概率(使用GIZA++獲得)和對(duì)數(shù)似然比為統(tǒng)計(jì)量,來描述詞匯間的相關(guān)性,在這些統(tǒng)計(jì)數(shù)據(jù)基礎(chǔ)上,用過濾器模型從可比語料庫中提取雙語片斷。他們把從可比語料庫提取結(jié)果應(yīng)用于統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),BLEU測(cè)評(píng)值得到顯著提升[6]。在基于可比語料庫的語義知識(shí)庫建造方面,Genc等人利用基于Wikipedia的多語可比語料庫,通過候選實(shí)體匹配標(biāo)題的算法和多條件對(duì)比抽取算法,構(gòu)建中-英對(duì)照知識(shí)本體并發(fā)展了知識(shí)本體的可視化技術(shù)[7]。2013年,Ekaterina等人發(fā)表了“用可比語料庫分析翻譯變異“的成果,使用相同文本的不同翻譯變體即專業(yè)人工翻譯,基于規(guī)則機(jī)器翻譯(Systran和Linguatec)和基于統(tǒng)計(jì)機(jī)器翻譯(Google和M oses)構(gòu)建可比語料庫,從人機(jī)語言特征對(duì)比角度,開展單語可比語料庫的翻譯對(duì)比研究,改善機(jī)器翻譯性能[8]。

2.2 國(guó)內(nèi)相關(guān)研究

在可比語料庫雙語詞匯提取方面,張永臣等提出了一種從可比語料庫中抽取特定領(lǐng)域雙語詞典的算法,給出了利用詞間關(guān)系矩陣法從特定領(lǐng)域可比語料庫中抽取雙語詞典的過程,通過大量實(shí)驗(yàn)分析了種子詞選擇對(duì)詞典抽取結(jié)果的影響,其實(shí)驗(yàn)結(jié)果表明種子詞的數(shù)量和頻率對(duì)詞典抽取結(jié)果有積極作用[9]。孫廣范等采用雙向等價(jià)對(duì)獲取計(jì)算然后求交集等方法提高翻譯等價(jià)對(duì)提取正確率[10]。徐會(huì)芳等使用基于相似度計(jì)算和多特征融合的方法以及最小化樣本風(fēng)險(xiǎn)算法調(diào)節(jié)特征權(quán)重,來提高從可比語料庫中抽取雙語術(shù)語互譯對(duì)的準(zhǔn)確率[11]。在可比語料庫雙語句對(duì)提取方面,F(xiàn)ung等人提出利用通用網(wǎng)絡(luò)爬蟲持續(xù)抓取網(wǎng)絡(luò)資源來構(gòu)建面向多領(lǐng)域的超大規(guī)??杀日Z料庫,從中提取平行句對(duì)改善機(jī)器翻譯性能。項(xiàng)目中使用面向招回和面向精度的算法,基于信息檢索技術(shù)處理網(wǎng)頁,匹配文檔并提取平行句對(duì)。通過對(duì)網(wǎng)絡(luò)資源的深入挖掘,來獲取更多的語言資源[12]。胡弘思等在Wikipedia基礎(chǔ)上,統(tǒng)計(jì)詞匯數(shù)據(jù)、構(gòu)建命名實(shí)體詞典,并通過其本身的對(duì)齊機(jī)制構(gòu)建了雙語可比語料,從中抽取對(duì)齊句子[13]?;诒咀逭Z言模型的雙語資源提取方面,肖健等人通過構(gòu)建三元組可比語料庫,解決了由中式英語導(dǎo)致的語言模型“扭斜”問題,進(jìn)一步提高了MWE的自動(dòng)抽取準(zhǔn)確率,改善機(jī)器翻譯效果[14]。另外雙語資源提取方面,張桂萍等提出了面向單一雙語網(wǎng)頁的雙語資源挖掘方法[15]。該方法重點(diǎn)采用了以頻繁序列模式為特征的SVM分類方法,實(shí)現(xiàn)了包含雙語資源的單一雙語網(wǎng)頁的篩選與識(shí)別,并以此為基礎(chǔ)構(gòu)建可比語料庫,挖掘具有對(duì)譯的雙語資源。

3 研究框架

本文提出的研究框架包括三元組可比語料庫建設(shè),關(guān)鍵詞簇自動(dòng)剖析,語義多詞表達(dá)提取,以及翻譯模板自動(dòng)提取4個(gè)模塊。這4個(gè)模塊緊密銜接,三元組可比語料庫是本項(xiàng)研究的基礎(chǔ)設(shè)施,通過建設(shè)三元組可比語料庫的研究,將為整個(gè)項(xiàng)目實(shí)施提供數(shù)據(jù)資源。在此基礎(chǔ)上,通過對(duì)三元組可比語料庫的關(guān)鍵詞簇自動(dòng)剖析的研究,可以發(fā)現(xiàn)和比較本族英語與中式英語語言模型的區(qū)別特征,改進(jìn)和驗(yàn)證所采用的自動(dòng)剖析算法。在對(duì)關(guān)鍵詞簇統(tǒng)計(jì)研究的基礎(chǔ)上,將進(jìn)一步研究從三元組可比語料庫提取本族英語的語義多詞表達(dá)和翻譯模板的算法與模型,以期實(shí)現(xiàn)改進(jìn)和發(fā)展機(jī)器翻譯等自然語言處理系統(tǒng)性能的研究目標(biāo)。

3.1 三元組可比語料庫建設(shè)

圖5 三元組可比語料庫的構(gòu)建流程圖

三元組可比語料庫是開展本項(xiàng)研究的基礎(chǔ)資源,到目前為止,已經(jīng)累計(jì)構(gòu)建了百萬句對(duì)級(jí)的三元組可比語料庫。構(gòu)建語料庫的原始語料主要來自我院每年都要發(fā)布的幾十種,總字?jǐn)?shù)超過200萬英語詞語的ICT領(lǐng)域研究報(bào)告。為確保研究報(bào)告譯文的準(zhǔn)確度和可讀性,所有報(bào)告的英文譯文,需經(jīng)本族英語的語言專家嚴(yán)格修改和編輯。每年積累的中式英語和修改后的本族英語文本經(jīng)過圖5所示的流程處理;通過語料庫比較分析工具,構(gòu)建滿足可比語料庫取樣框架(sampling frame)要求的三元組可比語料庫。為了保證定量比較分析的準(zhǔn)確度,利用工具過濾掉中式英語文本和本族英語文本之間差異在10行以上或者每行差異大于10%的句對(duì)。然后,使用我院的句法分析工具(CCID-CESAT)、語料庫標(biāo)注分析工具(CCID-CTAT)以及英國(guó)Lancaster大學(xué)Wmatrix和USAS語義分析工具,對(duì)三元組可比語料庫進(jìn)行句法分析、詞性和語義標(biāo)注。通過對(duì)語料庫所做的這些訓(xùn)練,為后續(xù)的關(guān)鍵詞簇自動(dòng)剖析、語義多詞表達(dá)和翻譯模板自動(dòng)提取的研究奠定了基礎(chǔ)。

3.2 關(guān)鍵詞簇的自動(dòng)剖析

在建立三元組可比語料庫的基礎(chǔ)上,利用統(tǒng)計(jì)方法研究關(guān)鍵詞簇在詞語、詞性和語義3個(gè)層面上的過使用和欠使用的語言現(xiàn)象,使用對(duì)數(shù)似然值(LL)定量分析關(guān)鍵詞簇的差異顯著性(keyness)。對(duì)數(shù)似然值計(jì)算方式如下:

假設(shè)X為要考察的關(guān)鍵詞簇,a為中式英語語料庫中出現(xiàn)X的次數(shù),b為本族英語語料庫中出現(xiàn)X的次數(shù),c為中式英語語料庫中所有關(guān)鍵詞簇的數(shù)目,d為本族英語語料庫中所有關(guān)鍵詞簇的數(shù)目,其關(guān)系如表1的詞頻列聯(lián)表所示。

表1 詞頻列聯(lián)表

那么對(duì)數(shù)似然值(log-likelihood)計(jì)算方法[16]如下:

Oi為觀察值,即表中的a、b值。Ei為期望值,其計(jì)算方法如下:

中式英語語料庫中所有關(guān)鍵詞簇的數(shù)目為N1=c,本族英語語料庫中所有關(guān)鍵詞簇的數(shù)目為N2=d,那么中式英語和本族英語中關(guān)鍵詞簇的期望為:

對(duì)上述公式進(jìn)一步解釋如下:先求某個(gè)詞X在整個(gè)語料庫(指兩個(gè)語料庫:(1)中式英語;(2)本族語)中出現(xiàn)的概率(根據(jù)大數(shù)定理,用頻率近似表示概率)。算法步驟是:(1)將X在兩個(gè)語料庫中的頻次之和(a+b)除以語料庫中詞的總量(c+d),也就是Ei等式右邊除了Ni以外的那個(gè)分式。(2)再根據(jù)這個(gè)概率分別計(jì)算在中式英語中該詞的期望出現(xiàn)次數(shù),即為中式英語總詞量乘以該詞出現(xiàn)的概率。同理計(jì)算E2。

依據(jù)上述公式得到的E1和E2,可以求得LL值:

LL=2×((a×ln(a/E1))+(b×ln(b/E2)))

對(duì)數(shù)似然值最大的關(guān)鍵詞簇排在列表的頂端,表明該詞簇在本族英語和中式英語之間頻次分布差異比較大。比如,某些關(guān)鍵詞簇在中式英語中被過度使用或者欠使用。依據(jù)對(duì)數(shù)似然值的變化差異,可以發(fā)現(xiàn)中式英語與本族英語的區(qū)別特征,為本項(xiàng)目自動(dòng)提取基于本族英語的翻譯模板和語義多詞表達(dá)研究提供重要參考。

4 實(shí)驗(yàn)結(jié)果

本研究利用關(guān)鍵詞簇自動(dòng)剖析技術(shù)(最大為5元詞串)從詞語表達(dá)層面分析了本族英語和中式英語的區(qū)別特征,計(jì)算出三元組可比語料庫中本族英語和中式英語在詞語表達(dá)層面的差異顯著性。根據(jù)給定的p值和LL值,生成關(guān)鍵詞簇過使用(overused)和欠使用(underused)對(duì)照表。表2僅列出對(duì)數(shù)似然值LL大于20的典型關(guān)鍵詞和關(guān)鍵詞簇。因?yàn)樵谟?jì)算期望值時(shí),已經(jīng)考慮到兩個(gè)語料庫的詞次規(guī)模(即c和d),所以在運(yùn)用公式前,不需要做歸一化處理[16]。事實(shí)上,表中給出的頻率可以認(rèn)為是以百萬詞次做歸一化處理的,因此對(duì)表中所給數(shù)字可作直接比較。

從表2的中式英語語料庫與本族英語語料庫(參考語料庫)的詞語表達(dá)層差異顯著性剖析結(jié)果可以看出,e-government construction(電子政務(wù)建設(shè))、second-hand data(二手資料)和im portant significance(重要意義)等均為詞匯負(fù)遷移現(xiàn)象引起的過使用詞語,而e-government development、indirect data和great significance為欠使用詞語。

通過上述分析,可以在三元組可比語料庫中發(fā)現(xiàn)中式英語與本族英語的區(qū)別特征,實(shí)現(xiàn)自動(dòng)提取基于本族英語模型的多詞表達(dá)(MWEs)和翻譯模板,改進(jìn)和發(fā)展機(jī)器翻譯等自然語言的處理應(yīng)用。

表2 詞語表達(dá)層差異顯著性剖析結(jié)果

5 結(jié)論

目前,構(gòu)建和剖析三元組可比語料庫的研究已在詞匯表記層面取得有效成果,對(duì)克服中英平行語料庫存在固有的扭斜的語言模型,建造和挖掘基于本族語言模型的雙語詞庫,改進(jìn)機(jī)器翻譯等自然語言處理應(yīng)用具有很大的實(shí)用價(jià)值。嵌入本項(xiàng)研究成果的機(jī)譯系統(tǒng)已在國(guó)內(nèi)外得到廣泛使用。今后,按照本文的研究方法,也可以進(jìn)行詞性層面和語義層面的差異顯著性剖析研究。本項(xiàng)研究今后的目標(biāo),是把基于關(guān)鍵詞和關(guān)鍵詞簇方法的可比文本微觀研究擴(kuò)展到基于關(guān)鍵語義場(chǎng)(key semantic fields)的可比文本宏觀研究,使其支持內(nèi)容分析。這樣,就可以把當(dāng)前對(duì)特定的三元組可比語料庫的定量分析擴(kuò)大到泛化的基于內(nèi)容的可比文本的定性分析,有效地?cái)U(kuò)展了可比語料庫的研究與應(yīng)用。2013年8月召開的第6次“可比語料庫構(gòu)建和應(yīng)用(BUCC)”研討會(huì)的中心議題,是“改進(jìn)和發(fā)展可比語料庫經(jīng)典的術(shù)語挖掘技術(shù),提高數(shù)據(jù)挖掘準(zhǔn)確度,擴(kuò)展應(yīng)用覆蓋面”,值此之際發(fā)表本項(xiàng)研究成果更具有現(xiàn)實(shí)意義。最后,感謝英國(guó)Lancaster大學(xué)Paul Rayson博士在本項(xiàng)研究中給予的理論和方法上的指導(dǎo)。

[1]Daille B.Building bilingual term inologies from comparable corpora:the TTC Term Suite[C]//Proceedings of the 5th Workshop on Building and Using Comparable Corpora,2012:29-32.

[2]TTC Annual Public Report 2012[R].2012.

[3]Wu Zhibiao,Palmer M.Verbs semantics and lexical selection[C]//Proceedings of the 32nd Annual Meeting on Association for Computational Linguistics(ACL’94),Association for Computational Linguistics,1994:133-138.

[4]Bouamor D,Semmar N,Zweigenbaum P.Using Word Net and semantic similarity for bilingual terminology Mining from comparable corpora[C]//Proceedings of the 6th Workshop on Building and Comparable Corpora,2013:16-23.

[5]Tillmann C,Xu Jianming.A simple sentence-level extraction algorithm for com parable data[C]//Proceedings of NAACL HLT2009,2009:93-96.

[6]Munteanu D S,Marcu D.Extracting parallel sub-sentential fragments from non-parallel corpora[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL,Sydney,July 2006:81-88.

[7]Genc Y,Lennon E A,Mason W,et al.Building ontologies from collaborative know ledge bases to search and interpret multilingual corpora[C]//Proceedings of the 9th Workshop on Building and Comparable Corpora,2013:87-94.

[8]Lapshinova-Koltunski E.VARTRA:a comparable corpus for analysis of translation variation[C]//Proceedings of the 6th Workshop on Building and Comparable Corpora,2013:77-86.

[9]張永臣,孫樂,李飛,等.基于Web數(shù)據(jù)的特定領(lǐng)域雙語詞典抽取[J].中文信息學(xué)報(bào),2006,20(2):16-23.

[10]孫廣范,宋金平,袁琦,等.中英可比語料庫中翻譯等價(jià)對(duì)抽取方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(32):44-48.

[11]徐會(huì)芳.可比語料中雙語多詞術(shù)語互譯對(duì)抽取方法研究[D].遼寧大連:大連理工學(xué)院,2013.

[12]Fung P,Prochasson E,Shi S.Trillions of comparable documents Pascale Fung,Emmanuel Prochasson and Simon Shi[C]//Proceedings of Workshop on Building and Comparable Corpora,2010:26-34.

[13]胡弘思.基于維基百科的雙語可比語料的句子對(duì)齊[D].上海:上海交通大學(xué),2013.

[14]肖健,袁琦,宋金平.使用三元組可比語料庫改進(jìn)和發(fā)展機(jī)器翻譯系統(tǒng)[C]//第十四屆全國(guó)科技翻譯研討會(huì)論文集,2011:102-107.

[15]羅陽,季鐸,張桂萍.面向單一雙語網(wǎng)頁的雙語資源挖掘方法[J].中文信息學(xué)報(bào),2011(1):110-115.

[16]Rayson P.From key words to key semantic domains[M].[S.l.]:John Benjamins Publishing Company,2008.

猜你喜歡
三元組中式術(shù)語
基于語義增強(qiáng)雙編碼器的方面情感三元組提取
軟件工程(2024年12期)2024-12-28 00:00:00
新年最美中式穿搭
好日子(2024年1期)2024-02-20 00:43:57
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
關(guān)于余撓三元組的periodic-模
新·中式生活美學(xué)Chinese NewAge
最美中式酒店,你去過幾個(gè)?
金橋(2018年9期)2018-09-25 02:53:24
中式烹飪營(yíng)養(yǎng)與健康
三元組輻射場(chǎng)的建模與仿真
有感于幾個(gè)術(shù)語的定名與應(yīng)用
從術(shù)語學(xué)基本模型的演變看術(shù)語學(xué)的發(fā)展趨勢(shì)
大英县| 黄山市| 十堰市| 宁陕县| 株洲市| 托克托县| 安图县| 华池县| 永福县| 图们市| 府谷县| 葫芦岛市| 长葛市| 自治县| 辛集市| 厦门市| 兴业县| 北碚区| 巨野县| 昌图县| 鸡泽县| 庆阳市| 锦州市| 河东区| 察隅县| 云安县| 辽宁省| 高雄市| 资中县| 栾城县| 北流市| 新营市| 肥西县| 綦江县| 邳州市| 开平市| 太白县| 布尔津县| 墨玉县| 股票| 成安县|