国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于統(tǒng)計(jì)和詞典方法相結(jié)合的韓漢雙語(yǔ)語(yǔ)料庫(kù)名詞短語(yǔ)對(duì)齊

2018-09-18 09:33凌天斌畢玉德
中文信息學(xué)報(bào) 2018年8期
關(guān)鍵詞:韓國(guó)語(yǔ)義項(xiàng)語(yǔ)料

凌天斌,畢玉德

(解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué),河南 洛陽(yáng) 471003)

0 引言

在基于實(shí)例的機(jī)器翻譯系統(tǒng)中,翻譯實(shí)例獲取根據(jù)粒度區(qū)分,可以分為篇章級(jí)、句子級(jí)、短語(yǔ)級(jí)和詞語(yǔ)級(jí)等,其中詞語(yǔ)對(duì)齊是基礎(chǔ),而短語(yǔ)對(duì)齊在很大一部分程度上依賴于詞語(yǔ)對(duì)齊。本文討論的是利用較大規(guī)模韓漢雙語(yǔ)平行語(yǔ)料庫(kù),在統(tǒng)計(jì)和詞典相結(jié)合的詞對(duì)齊方法基礎(chǔ)上,實(shí)現(xiàn)基于雙語(yǔ)語(yǔ)料庫(kù)的短語(yǔ)對(duì)齊。由于短語(yǔ)對(duì)齊比句子對(duì)齊提供了更細(xì)程度的對(duì)譯信息,因此對(duì)于它的研究具有重要意義。

在短語(yǔ)對(duì)齊方法方面,短語(yǔ)級(jí)別上的對(duì)齊可以歸結(jié)為雙語(yǔ)平行語(yǔ)料庫(kù)上的多詞單元的對(duì)應(yīng)。許多學(xué)者在多詞單元對(duì)齊和自動(dòng)構(gòu)建雙語(yǔ)翻譯詞典方面做了進(jìn)一步的研究,基本方法有n-gram、有限狀態(tài)機(jī)、近似字符匹配、雙語(yǔ)語(yǔ)法分析樹(shù)等。其中Marcu[1]說(shuō)明了單個(gè)詞作為翻譯基本單元的不足,并說(shuō)明了在翻譯中加入短語(yǔ)翻譯對(duì)的原因,并且證明了加入短語(yǔ)翻譯對(duì)可以提高系統(tǒng)性能。Zhang[2]等人為雙語(yǔ)句對(duì)建立一個(gè)互信息矩陣,并將矩陣中抽取的互信息值相似的區(qū)域視為短語(yǔ)對(duì)。Zhang和Stephan Vogel[3]提出了將短語(yǔ)對(duì)齊視為句子分割問(wèn)題的方法,在源短語(yǔ)固定的情況下,尋找目標(biāo)短語(yǔ)的最優(yōu)左邊界和右邊界。常寶寶[4]等人提出了基于詞語(yǔ)關(guān)聯(lián)度進(jìn)行詞語(yǔ)組合方法,并利用假設(shè)—檢驗(yàn)的方法,在漢英雙語(yǔ)語(yǔ)料庫(kù)中抽取翻譯等價(jià)單位。程潔[5]等人采用結(jié)合閾值和關(guān)聯(lián)度提取的方法獲取多詞單元翻譯詞典。屈剛[6]等人針對(duì)漢英句子候選句法分析樹(shù)集中存在大量的翻譯異?,F(xiàn)象,使得源語(yǔ)言句法樹(shù)和目標(biāo)語(yǔ)言句法樹(shù)往往不存在簡(jiǎn)單的對(duì)應(yīng)關(guān)系這一問(wèn)題,提出了“有效句型”概念和“翻譯中相對(duì)不變準(zhǔn)則”的短語(yǔ)對(duì)齊模型。

本文在現(xiàn)有資源的基礎(chǔ)上,首先從韓國(guó)語(yǔ)名詞短語(yǔ)結(jié)構(gòu)特點(diǎn)出發(fā),在統(tǒng)計(jì)和詞典相結(jié)合的詞對(duì)齊方法基礎(chǔ)上,提出了基于詞對(duì)齊位置信息的韓漢雙語(yǔ)語(yǔ)料庫(kù)名詞短語(yǔ)對(duì)齊方法。該方法在較大規(guī)模語(yǔ)料庫(kù)情況下,取得了較好的短語(yǔ)對(duì)齊結(jié)果。

1 韓國(guó)語(yǔ)名詞短語(yǔ)結(jié)構(gòu)特點(diǎn)

在韓國(guó)語(yǔ)研究方面,早期的研究都是以句子為單位,組塊識(shí)別和短語(yǔ)結(jié)構(gòu)分析是近年來(lái)關(guān)注的焦點(diǎn)。韓國(guó)語(yǔ)名詞組塊的研究則以基本名詞短語(yǔ)的相關(guān)研究為主[7]。安帥飛[8]等人提出了采用左右邊界判定進(jìn)行名詞短語(yǔ)獲取的方法,并在此基礎(chǔ)上總結(jié)歸納出了八類名詞短語(yǔ)類型:

(1) 名詞|代詞+?+名詞|名詞疊加;

(2) 兩個(gè)或兩個(gè)以上名詞(代詞)混合疊加;

(3) 名詞|代詞+接續(xù)助詞|特殊的副詞+名詞|代詞;

(4) 冠形詞+名詞|代詞;

(5) 數(shù)字|數(shù)詞+名詞;

(6) 名詞|名詞疊加+?+名詞;

(7) 名詞+名詞派生接尾詞+肯定指示詞+冠形轉(zhuǎn)成詞尾+名詞;

(8) 名詞|代詞+數(shù)詞+(依存名詞)。

其中,語(yǔ)料庫(kù)中韓國(guó)語(yǔ)采用“世宗計(jì)劃”語(yǔ)料庫(kù)的分詞標(biāo)注體系進(jìn)行分詞標(biāo)注。根據(jù)八類名詞短語(yǔ)形式,通過(guò)定義正則表達(dá)式的方法實(shí)現(xiàn)語(yǔ)料庫(kù)中名詞短語(yǔ)的抽取。

該方法的主要原理是: 根據(jù)名詞短語(yǔ)左右相鄰詞出現(xiàn)規(guī)律,確定名詞短語(yǔ)左右邊界,實(shí)現(xiàn)名詞短語(yǔ)的獲取。

2 詞對(duì)齊方法

2.1 詞典模糊匹配詞對(duì)齊方法

雙語(yǔ)詞典具有豐富的詞匯對(duì)譯信息,是可以充分利用的優(yōu)秀資源,基于詞典的詞語(yǔ)對(duì)齊方法是利用雙語(yǔ)電子詞典來(lái)進(jìn)行雙語(yǔ)詞語(yǔ)對(duì)齊的算法。由于真實(shí)翻譯中上下文的多樣性和翻譯的靈活性,為了提高詞典譯文的覆蓋率,我們引入了詞典的模糊匹配。

詞典的模糊匹配采用詞語(yǔ)相似度計(jì)算的方法實(shí)現(xiàn),通常用Dice系數(shù)進(jìn)行兩個(gè)字符串之間相似度的計(jì)算,詞語(yǔ)相似度如式(1)所示。

(1)

式(1)中,comm(t1,t2)是t1和t2中相同字符的個(gè)數(shù),len(t1)是字符串t1的長(zhǎng)度,len(t2)是字符串t2的長(zhǎng)度,Dice(t1,t2)取值在0到1之間。

在獲得同一種語(yǔ)言中詞語(yǔ)相似度Dice(t1,t2)的基礎(chǔ)上,則源語(yǔ)言詞語(yǔ)s與目標(biāo)語(yǔ)言詞語(yǔ)t的相似度為,如式(2)所示。

(2)

式(2)中,DTk為源語(yǔ)言詞語(yǔ)s的所有譯文。h為定義好的相似度的閾值,Count為次數(shù)統(tǒng)計(jì)函數(shù),d為源語(yǔ)言詞語(yǔ)s譯文中的一個(gè)。若源語(yǔ)言詞語(yǔ)s存在多個(gè)譯文,在計(jì)算詞語(yǔ)相似度時(shí),將所有譯文與目標(biāo)語(yǔ)言詞語(yǔ)t分別兩兩計(jì)算,取最大值作為兩個(gè)詞語(yǔ)的相似度值。

基于詞典的詞語(yǔ)對(duì)齊方法可以得到比較可靠的非空匹配,但由于雙語(yǔ)詞典的覆蓋面是有限的,在未登錄詞、上下文關(guān)系方面存在一定的局限性,使得該方法達(dá)到的正確率和召回率都十分有限。

2.2 基于語(yǔ)義相似度的詞對(duì)齊方法

在真實(shí)翻譯過(guò)程中,譯文往往具有很強(qiáng)的靈活性,常常會(huì)存在同義詞替代翻譯詞的現(xiàn)象。中國(guó)科學(xué)院計(jì)算技術(shù)研究所的王斌[9]等人于1999年引入了語(yǔ)義作為基于詞典的詞語(yǔ)對(duì)齊方法的補(bǔ)充。

《同義詞詞林》是現(xiàn)代漢語(yǔ)中比較常用的一部義類詞典,哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室在此基礎(chǔ)上完成了《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》,它收錄了了各類詞語(yǔ)7萬(wàn)余條,按照樹(shù)狀的層次結(jié)構(gòu)把所有收錄的詞條組織到一起,把詞匯分成大、中、小三類,大類有12個(gè),中類有97個(gè),小類有1 400個(gè)。小類根據(jù)詞義的遠(yuǎn)近和相關(guān)性原則分成若干個(gè)詞群。每個(gè)詞群中的詞語(yǔ)進(jìn)一步分成若干行,同一行的詞語(yǔ)在詞義方面相同或具有很強(qiáng)的相關(guān)性。通過(guò)詞義代碼可以看出、這種分類方法具有層次性。通過(guò)抽象可以將該分類體系用一個(gè)樹(shù)形圖表示,則根節(jié)點(diǎn)的子節(jié)點(diǎn)就是所有大類,所有大類的子節(jié)點(diǎn)就是所有中類,中類的所有子節(jié)點(diǎn)就是所有小類。

通過(guò)《同義詞詞林(擴(kuò)展版)》的樹(shù)形結(jié)構(gòu),田久樂(lè)[10]等人提出了義項(xiàng)相似度算法,該算法主要思想是: 利用同義詞詞林獲得詞語(yǔ)義項(xiàng)的代碼,通過(guò)義項(xiàng)之間的語(yǔ)義距離計(jì)算出義項(xiàng)相似度。該算法基于義項(xiàng)代碼所在分支的區(qū)別進(jìn)行判斷,義項(xiàng)代碼從哪一層開(kāi)始不同,就使用該層對(duì)應(yīng)的系數(shù)與調(diào)節(jié)參數(shù)和控制參數(shù)相乘,得出兩個(gè)義項(xiàng)的相似度。如式(3)所示。

若兩個(gè)義項(xiàng)不在同一顆樹(shù)上,則

Sim(S1,S2)=f

(3)

若兩個(gè)義項(xiàng)在同一顆樹(shù)上,則

(4)

由式(4)可知,兩詞義S1與S2之間的語(yǔ)義距離可以定義為語(yǔ)義樹(shù)中節(jié)點(diǎn)S1到節(jié)點(diǎn)S2的最短路徑的長(zhǎng)度,通過(guò)比較兩個(gè)詞的語(yǔ)義編碼可計(jì)算出它們的語(yǔ)義距離。兩個(gè)詞語(yǔ)的距離越大,其相似度越低;反之,兩個(gè)詞語(yǔ)的距離越小,其相似度越高。

在義項(xiàng)相似度定義的基礎(chǔ)上,定義兩個(gè)漢語(yǔ)詞c1、c2的語(yǔ)義相似度公式,如式(5)所示。

(5)

式(5)中,Senseof(c1)和Senseof(c2)函數(shù)分別返回詞語(yǔ)c1和c2的詞義代碼集合。若詞語(yǔ)c1、c2存在多個(gè)義項(xiàng),在計(jì)算詞語(yǔ)相似度時(shí),將義項(xiàng)分別兩兩計(jì)算,通過(guò)式(5)取最大值作為兩個(gè)詞語(yǔ)的相似度值。

基于語(yǔ)義相似度的詞語(yǔ)對(duì)齊方法,可以彌補(bǔ)基于詞典的詞語(yǔ)對(duì)齊方法在覆蓋面方面的不足,兩者結(jié)合使用可以提高對(duì)齊的召回率。

2.3 基于統(tǒng)計(jì)的詞對(duì)齊方法

在基于統(tǒng)計(jì)的詞對(duì)齊方法方面,本文中使用了目前比較典型的工具GIZA++。GIZA++是GIZA的一個(gè)擴(kuò)展,是Och[11]等人在GIZA軟件包基礎(chǔ)上進(jìn)一步優(yōu)化得到的統(tǒng)計(jì)機(jī)器翻譯工具。GIZA++在實(shí)現(xiàn)了IBM model 1-5和HMM(隱馬爾科夫模型)基礎(chǔ)上,對(duì)IBM-1、IBM-2和HMM模型的概率計(jì)算算法進(jìn)行了改進(jìn)。

運(yùn)行GIZA++相關(guān)命令,將普通文本轉(zhuǎn)化為 GIZA++ 格式,生成~.A3.final對(duì)齊文件,包含對(duì)齊概率、目標(biāo)句子、源語(yǔ)言句子和對(duì)齊位置信息。例如,

# Sentence pair (3128) source length 14 target length 10 alignmentscore: 1.55964e-17

但是1在2投資3領(lǐng)域4不5可能6一直7靠8運(yùn)氣9。10

2.4 統(tǒng)計(jì)與詞典相融合的詞對(duì)齊方法

通過(guò)基于詞典和基于統(tǒng)計(jì)的詞對(duì)齊實(shí)驗(yàn),可以看出完全基于詞典的對(duì)齊可以獲得可靠的非空對(duì)齊。但是由于雙語(yǔ)詞典的覆蓋面有限,得到的對(duì)齊的召回率并不理想。基于統(tǒng)計(jì)的方法可以彌補(bǔ)純?cè)~典方法的不足,獲得更多對(duì)齊,因此可以將統(tǒng)計(jì)的方法作為初始對(duì)齊的方法,在此基礎(chǔ)上,使用基于詞典和基于語(yǔ)義相似度的方法進(jìn)行詞對(duì)齊校正。其主要步驟為:

(1) 通過(guò)GIZA++工具,獲取詞對(duì)齊文件;

(2) 通過(guò)韓漢機(jī)讀辭典,獲取某一韓國(guó)語(yǔ)詞語(yǔ)的譯文;

(3) 將該譯文與漢語(yǔ)句子中每個(gè)漢語(yǔ)詞語(yǔ)進(jìn)行詞語(yǔ)相似度計(jì)算,取相似度值大于閾值結(jié)果中的最大值,將其對(duì)應(yīng)漢語(yǔ)詞語(yǔ)位置加入詞對(duì)齊文件;

(4) 若不存在相似度值大于閾值的結(jié)果,對(duì)韓國(guó)語(yǔ)所對(duì)應(yīng)漢語(yǔ)譯文與漢語(yǔ)句子中所有詞語(yǔ)進(jìn)行語(yǔ)義相似度計(jì)算,取語(yǔ)義相似度值大于閾值結(jié)果中的最大值,將其對(duì)應(yīng)漢語(yǔ)詞語(yǔ)位置加入詞對(duì)齊文件。

上例中經(jīng)過(guò)統(tǒng)計(jì)方法得到的詞對(duì)齊結(jié)果再通過(guò)基于詞典和基于語(yǔ)義相似度的方法進(jìn)行詞對(duì)齊校正,得到校正后的對(duì)齊文件如下所示:

# Sentence pair (3128) source length 14 target length 10 alignmentscore: 1.55964e-17

但是1在2投資3領(lǐng)域4不5可能6一直7靠8運(yùn)氣9。10

通過(guò)例句可以看出,在現(xiàn)有資源和語(yǔ)料規(guī)模的情況下,綜合使用基于詞典和基于統(tǒng)計(jì)的方法可以得到更好的對(duì)齊結(jié)果。

3 名詞短語(yǔ)對(duì)齊方法

表1 X與Y的聯(lián)列表

表格中a、b、c、d的含義為:

a: 雙語(yǔ)語(yǔ)料所有句對(duì)中,短語(yǔ)X和Y同時(shí)出現(xiàn)的次數(shù);

b: 雙語(yǔ)語(yǔ)料所有句對(duì)中,短語(yǔ)X出現(xiàn)但短語(yǔ)Y不出現(xiàn)的次數(shù);

c: 雙語(yǔ)語(yǔ)料所有句對(duì)中,短語(yǔ)X不出現(xiàn)但短語(yǔ)Y出現(xiàn)的次數(shù);

d: 雙語(yǔ)語(yǔ)料所有句對(duì)中,短語(yǔ)X和Y均不出現(xiàn)的次數(shù);

(6)

名詞短語(yǔ)對(duì)齊方法主要利用詞對(duì)齊時(shí)所獲得的對(duì)齊位置信息實(shí)現(xiàn)名詞短語(yǔ)對(duì)齊,其主要步驟如下:

(1) 從韓國(guó)語(yǔ)標(biāo)注語(yǔ)料中通過(guò)正則表達(dá)式抽取出韓國(guó)語(yǔ)名詞短語(yǔ);

(2) 根據(jù)抽取出的名詞短語(yǔ),獲取詞對(duì)齊文件中每個(gè)韓國(guó)語(yǔ)詞語(yǔ)對(duì)應(yīng)的漢語(yǔ)位置;

(3) 將獲得的漢語(yǔ)位置序列,按照從小到大的順序進(jìn)行排序,按照排序順序抽取出對(duì)應(yīng)的漢語(yǔ)詞語(yǔ),獲得候選名詞短語(yǔ)翻譯對(duì);

4 實(shí)驗(yàn)結(jié)果及分析

基于上述方法,本文初步實(shí)現(xiàn)了一個(gè)原型系統(tǒng),并針對(duì)基于詞典和語(yǔ)義相似度的詞對(duì)齊方法、基于統(tǒng)計(jì)的詞對(duì)齊方法和基于統(tǒng)計(jì)和詞典相融合的方法,初步進(jìn)行了一些試驗(yàn),測(cè)試不同詞對(duì)齊方法對(duì)本文提出的基于詞對(duì)齊位置信息的名詞短語(yǔ)對(duì)齊結(jié)果的影響。

實(shí)驗(yàn)中使用的韓漢雙語(yǔ)詞典包含詞條50 357條。語(yǔ)義詞典使用《同義詞詞林》。經(jīng)過(guò)句子對(duì)齊并用于統(tǒng)計(jì)訓(xùn)練的雙語(yǔ)句對(duì)112 475對(duì),來(lái)自韓國(guó)《朝鮮日?qǐng)?bào)》、《中央日?qǐng)?bào)》和《東亞日?qǐng)?bào)》發(fā)布的各類新聞,內(nèi)容涵蓋韓國(guó)語(yǔ)的政治、經(jīng)濟(jì)、文化、科技等方面。該語(yǔ)料庫(kù)在內(nèi)容真實(shí)的基礎(chǔ)上,具備韓國(guó)語(yǔ)新聞?wù)Z料最普遍的語(yǔ)言特點(diǎn),根據(jù)這些語(yǔ)料進(jìn)行相應(yīng)研究,得出的結(jié)論也能體現(xiàn)出韓國(guó)語(yǔ)新聞?wù)Z料的一般性特征,因此選用新聞?wù)Z料,可使研究結(jié)果更加客觀真實(shí)。其中的漢語(yǔ)句子經(jīng)過(guò)分詞處理,韓國(guó)語(yǔ)句子經(jīng)過(guò)分詞和詞性標(biāo)注處理。從訓(xùn)練語(yǔ)料中隨機(jī)抽取300句對(duì)中的名詞短語(yǔ)并做人工校對(duì),作為標(biāo)準(zhǔn)測(cè)試語(yǔ)料。

在實(shí)驗(yàn)結(jié)果的評(píng)價(jià)方面,目前最常用的兩個(gè)指標(biāo)分別是準(zhǔn)確率和召回率[12],其中,準(zhǔn)確率和召回率的定義如式(7)、式(8)所示。

表2給出了基于詞典的詞對(duì)齊方法、基于統(tǒng)計(jì)的詞對(duì)齊方法和融合的詞對(duì)齊方法下的名詞短語(yǔ)對(duì)齊結(jié)果。

表2 名詞短語(yǔ)對(duì)齊結(jié)果

續(xù)表

從表2可以看出,基于詞典的方法中,對(duì)齊具有較高的準(zhǔn)確率,但由于詞典的覆蓋能力有限,因此召回率較低。而基于統(tǒng)計(jì)的方法,可以提高召回率,但準(zhǔn)確率較低。在基于統(tǒng)計(jì)和詞典相融合的方法中,在基于統(tǒng)計(jì)的方法基礎(chǔ)上,利用基于詞典的方法,結(jié)合了基于統(tǒng)計(jì)的方法和基于詞典的方法的優(yōu)點(diǎn),既彌補(bǔ)了基于統(tǒng)計(jì)方法中準(zhǔn)確性的不足,使得正確的對(duì)齊數(shù)增加,保證非空對(duì)齊的正確率,又可以克服基于詞典的方法中詞典覆蓋能力有限的問(wèn)題,使得對(duì)齊的召回率有了進(jìn)一步的提高,在此方法下召回率和準(zhǔn)確率也都達(dá)到了三個(gè)實(shí)驗(yàn)中較為均衡的值。

分析對(duì)齊中產(chǎn)生的錯(cuò)誤,一部分原因是由于資源不足引起的(詞典譯文缺乏、統(tǒng)計(jì)數(shù)據(jù)不足等)。其他錯(cuò)誤大部分是由于漢語(yǔ)和韓國(guó)語(yǔ)之間存在固有的表達(dá)差異造成的,如韓國(guó)語(yǔ)中的成語(yǔ)、慣用搭配等在相應(yīng)的漢語(yǔ)中通常采用意譯。本文提到詞對(duì)齊方法尚不能解決好這類錯(cuò)誤,對(duì)于這些錯(cuò)誤,有待進(jìn)一步增加句法分析和語(yǔ)言學(xué)知識(shí)加以解決。

5 結(jié)論

本文通過(guò)對(duì)基于三種不同詞對(duì)齊方法的名詞短語(yǔ)對(duì)齊結(jié)果進(jìn)行實(shí)驗(yàn)分析,可以得到以下結(jié)論:

(1) 語(yǔ)言學(xué)信息在雙語(yǔ)語(yǔ)料庫(kù)詞對(duì)齊中有著重要作用。雙語(yǔ)詞典可以提供可靠的非空對(duì)齊。基于詞典和語(yǔ)義相似度的方法可以提高對(duì)齊的正確率。

(2) 當(dāng)語(yǔ)料庫(kù)規(guī)模較大時(shí),基于統(tǒng)計(jì)的方法對(duì)提高對(duì)齊的召回率具有重要作用。

(3) 在資源和語(yǔ)料不足的情況下,基于詞典和基于統(tǒng)計(jì)相結(jié)合的方法是進(jìn)行詞對(duì)齊的有效方法。

盡管本文使用了多種對(duì)齊方法,但對(duì)齊的準(zhǔn)確率與召回率仍然不能令人滿意。一個(gè)主要原因是由于韓漢雙語(yǔ)間的語(yǔ)言差異,使得很多對(duì)齊問(wèn)題需要在句法層面上才能得以解決。

猜你喜歡
韓國(guó)語(yǔ)義項(xiàng)語(yǔ)料
韓國(guó)語(yǔ)“容入-離析”關(guān)系表達(dá)及認(rèn)知語(yǔ)義解釋
基于歸一化點(diǎn)向互信息的低資源平行語(yǔ)料過(guò)濾方法*
韓國(guó)語(yǔ)不完全詞特征探析
韓國(guó)語(yǔ) "V+ " 與漢語(yǔ)"V+死了"對(duì)比研究
韓國(guó)語(yǔ)中的敬語(yǔ)表達(dá)方式總結(jié)
對(duì)外漢語(yǔ)教學(xué)領(lǐng)域可比語(yǔ)料庫(kù)的構(gòu)建及應(yīng)用研究
——以“把”字句的句法語(yǔ)義標(biāo)注及應(yīng)用研究為例
兩用成語(yǔ)中的冷義項(xiàng)
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
Enhanced Precision
異種語(yǔ)料融合方法: 基于統(tǒng)計(jì)的中文詞法分析應(yīng)用
铜鼓县| 龙海市| 柞水县| 磴口县| 赤峰市| 错那县| 资源县| 北宁市| 大关县| 洮南市| 赫章县| 壶关县| 廉江市| 洛扎县| 三都| 灯塔市| 调兵山市| 商城县| 恩施市| 弥勒县| 清水河县| 木兰县| 峨眉山市| 湘乡市| 建德市| 肃南| 库尔勒市| 拉孜县| 长沙县| 开化县| 姜堰市| 积石山| 安陆市| 扎赉特旗| 陈巴尔虎旗| 武邑县| 昌黎县| 太康县| 唐河县| 项城市| 柘荣县|