国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合字特征的平滑最大熵模型消解交集型歧義

2010-07-18 03:11:56任惠林鴻飛楊志豪
中文信息學(xué)報(bào) 2010年4期
關(guān)鍵詞:消歧歧義控制參數(shù)

任惠,林鴻飛,楊志豪

(大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧大連116024)

1 引言

自動(dòng)分詞是中文信息處理的基礎(chǔ),歧義切分問(wèn)題是分詞過(guò)程中需要解決的難點(diǎn)之一(另一難點(diǎn)是未登錄詞識(shí)別)[1],它直接影響分詞系統(tǒng)的精度。從歧義字段的構(gòu)成上看,分詞歧義可以分為兩種類型:即交集型歧義和組合型歧義。其中交集型歧義是文本中主要切分歧義類型,約占全部歧義的 85%以上,有關(guān)它的定義可以參考文獻(xiàn)[2-3]。近年來(lái),交集型歧義的切分問(wèn)題吸引了眾多研究者目光,迄今為止,多種方法被提出,這些方法大體可分為三類:基于規(guī)則的方法、基于實(shí)例的方法和基于統(tǒng)計(jì)的方法。

基于規(guī)則的方法利用人工編寫的語(yǔ)法規(guī)則消解交集型歧義,取得了一定的效果[4]。但人工編寫不可避免會(huì)遇到系統(tǒng)性、有效性、一致性和可維護(hù)性等規(guī)則系統(tǒng)的“天然”問(wèn)題困擾[5],如今面對(duì)互聯(lián)網(wǎng)上大規(guī)模真實(shí)文本處理的壓力,純規(guī)則的方法基本被拋棄。

基于實(shí)例的方法事先搜集歧義字段及其正確的切分形式形成實(shí)例庫(kù)[6-7],文獻(xiàn)[3,8]在庫(kù)中還存儲(chǔ)實(shí)例的上下文信息,歧義消解通過(guò)庫(kù)檢索即可實(shí)現(xiàn)?;趯?shí)例方法簡(jiǎn)單有效,但其消歧能力依賴于庫(kù)中實(shí)例的數(shù)量,泛化能力弱,常常作為其他方法的補(bǔ)充。

為克服上述兩類方法的缺陷,研究人員嘗試了多種統(tǒng)計(jì)的方法。有指導(dǎo)的概率統(tǒng)計(jì)方法通過(guò)計(jì)算待消歧字段所有可能的切分路徑的概率,并把概率最大者作為消歧字段的消解結(jié)果[9-10];無(wú)指導(dǎo)的統(tǒng)計(jì)方法利用互信息和 t-測(cè)試差解決歧義切分問(wèn)題[11];有些研究人員將歧義消解問(wèn)題轉(zhuǎn)化為分類問(wèn)題,通過(guò)分類模型來(lái)消解歧義[2,12-13]。上述方法均取得了較好效果,但也存在一些問(wèn)題,主要集中在消歧知識(shí)不足、消歧對(duì)象受限、消歧精度有待提高和模型特征難以獲取四個(gè)方面。

近年來(lái),最大熵模型被廣泛用來(lái)解決各種自然語(yǔ)言處理問(wèn)題,如:分詞[14]、詞性標(biāo)注[15]、實(shí)體識(shí)別[16]、Chunk識(shí)別[17]、句法分析[18]和機(jī)器翻譯[19]等,對(duì)上述問(wèn)題都達(dá)到或超過(guò)了其他方法的最好結(jié)果。與其他統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法相比,最大熵方法能夠?qū)⒏鞣N不同的知識(shí)融合在統(tǒng)一的算法框架中,且獨(dú)立于特定的任務(wù),具有模型簡(jiǎn)潔、通用和易移植的優(yōu)點(diǎn)。鑒于該方法在上述諸多自然語(yǔ)言處理題上都取得了相當(dāng)優(yōu)異的性能,我們也采用它來(lái)解決交集型歧義。我們首先將交集型歧義的消解問(wèn)題轉(zhuǎn)化為一個(gè)二分問(wèn)題,然后利用融合豐富字特征的最大熵模型來(lái)解決該分類問(wèn)題。此外,為了克服建模時(shí)的數(shù)據(jù)稀疏問(wèn)題,我們引入了不等式平滑技術(shù)[20]和高斯平滑技術(shù)[21],它們都是通過(guò)放松標(biāo)準(zhǔn)最大熵建模時(shí)的特征期望等式約束來(lái)改善數(shù)據(jù)稀疏問(wèn)題。本文的另一大特色是我們選擇基于字的特征而不是基于詞的特征作為消歧知識(shí)。我們這樣做基于如下理由:首先基于字的特征可以直接從未切分文本中獲取,這使得本文的算法可以在任何自然語(yǔ)言處理應(yīng)用中直接應(yīng)用,大大降低了本算法的應(yīng)用難度。基于詞特征的消歧算法在應(yīng)用時(shí)另外需要一個(gè)單獨(dú)的分詞程序。其次,基于字的特征比基于詞的特征更加緊湊,這是因?yàn)橹形脑~是一個(gè)開放集,真實(shí)文本中未登錄詞的比例比生字要高得多。第三,我們觀察到在分詞任務(wù)上,字特征比詞特征更加有效[14]。我們相信在組合型歧義消解問(wèn)題上依然有效,因?yàn)樵诮鉀Q這兩個(gè)分類任務(wù)時(shí)都需要相同的知識(shí)源。最后,基于字的特征可以產(chǎn)生豐富的單字、雙字、多字這樣交疊性特征,而最大熵模型最大的優(yōu)點(diǎn)就是能夠?qū)⒏鞣N特征融合到一個(gè)統(tǒng)一的框架,通過(guò)逐步增加特征來(lái)提高性能。

本文提出的方法較好地彌補(bǔ)了前人工作的一些不足。首先,模型特征融合了豐富的消歧特征,這些特征不僅包含歧義字段及其上下文信息,還包含歧義字段與其上下文相混合信息。以前的方法僅僅利用歧義字段及其前后詞、詞性和互信息作為消歧知識(shí)源[2,12-13],消歧知識(shí)的不足使消歧對(duì)象受限,也制約了消歧性能。文獻(xiàn)[13]僅能消解三字長(zhǎng)偽歧義,而文獻(xiàn)[12]僅能消解三字長(zhǎng)偽歧義和部分三字長(zhǎng)真歧義,而本文不僅能處理偽歧義,也能處理真歧義;不僅能消解三字長(zhǎng)歧義,也能消解其他長(zhǎng)度的歧義,同時(shí)使消歧性能也大幅度的提高。其次,我們使用基于字的特征,這些特征無(wú)需統(tǒng)計(jì)、分詞及詞性標(biāo)注等深層處理,可直接從文本中抽取,大大降低了算法應(yīng)用難度。而以前的方法或需要統(tǒng)計(jì)信息,或需要詞匯和詞性信息作為特征[12-13],在歧義消解時(shí)需要詞匯詞性等深層信息,分詞和詞性標(biāo)注的錯(cuò)誤不可避免地傳播到歧義消解階段。最后,以前的方法[2,12-13]都沒(méi)有采取平滑措施緩解數(shù)據(jù)稀疏問(wèn)題,而本文通過(guò)采用平滑措施來(lái)放松模型中的特征期望約束,有效緩解數(shù)據(jù)稀疏問(wèn)題,使得消歧性能得到進(jìn)一步提高。

我們?cè)诘谌龑脟?guó)際分詞競(jìng)賽的四個(gè)數(shù)據(jù)集上進(jìn)行了測(cè)試,分別獲得了96.27%、96.83%、96.56%、96.52%的消歧正確率,對(duì)比實(shí)驗(yàn)表明:豐富的特征使消歧性能分別提高了5.87%、5.64%、5.00%、5.00%,平滑技術(shù)使消歧性能分別提高了0.99%、0.93%、1.02%、1.37%,不等式平滑使分類模型分別壓縮了38.7、19.9、44.6、9.7。我們的方法在四個(gè)不同的數(shù)據(jù)集上獲得了相同的結(jié)論,證明了我們方法在不同數(shù)據(jù)集上的一致性。

2 利用不等式最大熵模型消解交集型歧義

2.1 問(wèn)題定義

本文將交集型歧義消解問(wèn)題轉(zhuǎn)化為分類問(wèn)題,分類空間定義在歧義字段的FMM和BMM切分結(jié)果Of和Ob中。這樣交集型消解問(wèn)題可以轉(zhuǎn)化為一個(gè)二分問(wèn)題:

其中,Seg(Seg∈{Of,Ob})是歧義字段的消歧結(jié)果,P(O f|C)表示在條件C下歧義字段切分結(jié)果為Of的概率,P(Ob|C)表示在條件C下歧義字段切分結(jié)果為Ob的概率。這樣,消歧過(guò)程就是根據(jù)公式(1)選擇較大概率的過(guò)程。

2.2 最大熵模型

最大熵原理要求建模時(shí)擬合所有已知事實(shí),而對(duì)未知事實(shí)不做任何附加假設(shè)。與其他的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法相比,最大熵模型能夠方便將各種不同的知識(shí)(特征)融合在一個(gè)統(tǒng)一的算法框架而不需要在這些特征之間存在任何獨(dú)立性假設(shè)。最大熵模型能夠應(yīng)用于任何分類問(wèn)題,對(duì)于交集型歧義消解任務(wù)而言,它為歧義字段的每種分類結(jié)果(Of,Ob)產(chǎn)生一個(gè)條件概率,該條件概率可以通過(guò)公式(2)計(jì)算得到:

其中C表示了歧義字段擁有的特征集,Seg是歧義字段的分類結(jié)果,Zλ(x)是正規(guī)化常數(shù)。fi表示了第i個(gè)特征,k是該歧義字段擁有的特征總數(shù),最大熵建模時(shí)要求每個(gè)特征的經(jīng)驗(yàn)期望值與模型估計(jì)期望值相等。即:

前者為 fi在訓(xùn)練樣本中的經(jīng)驗(yàn)期望值,后者是fi在模型估計(jì)時(shí)的模型期望值。

2.4 模型平滑與特征選擇

從某種程度上講,最大熵模型也是一種最大似然對(duì)數(shù)模型,同其他最大似然估計(jì)方法一樣,當(dāng)訓(xùn)練數(shù)據(jù)比較稀疏時(shí),模型也會(huì)過(guò)度擬合訓(xùn)練數(shù)據(jù),這說(shuō)明應(yīng)用最大熵法解決NLP任務(wù)也需要進(jìn)行平滑。當(dāng)前各種平滑算法被引入最大熵模型[21]。文獻(xiàn)[21]在多個(gè)NLP任務(wù)上,考察了高斯平滑技術(shù)與其他平滑技術(shù),測(cè)試結(jié)果表明:高斯平滑技術(shù)在所有NLP任務(wù)上都獲得同等或者優(yōu)于其他其他方法的性能。該方法本質(zhì)上是利用高斯先驗(yàn)分布通過(guò)公式(4)來(lái)懲罰那些正值或負(fù)值很大的權(quán)重,使模型更少擬合訓(xùn)練數(shù)據(jù)。

最近文獻(xiàn)[20]提出一種稱為不等式平滑技術(shù)的胖約束,通過(guò)賦予期望約束一定寬度的滑動(dòng)范圍來(lái)放松該公式(3)所規(guī)定的特征期望約束:

公式中Ai,Bi是第i個(gè)特征的寬度滑動(dòng)范圍,通過(guò)該滑動(dòng)范圍,可以放松每個(gè)特征的期望相等約束(傳統(tǒng)最大熵模型規(guī)定每個(gè)特征的理論期望值應(yīng)該與通過(guò)訓(xùn)練語(yǔ)料計(jì)算得到的該特征的期望相等),使得模型不會(huì)過(guò)度擬合訓(xùn)練數(shù)據(jù)。

文獻(xiàn)[20]在兩個(gè)文本分類任務(wù)上比較了不等式平滑技術(shù)和高斯平滑技術(shù),測(cè)試結(jié)果表明采用不等式平滑技術(shù)比結(jié)合頻度折扣的高斯平滑技術(shù)更優(yōu),本文也通過(guò)實(shí)驗(yàn)對(duì)各平滑技術(shù)在緩解模型數(shù)據(jù)稀疏問(wèn)題上的效果進(jìn)行了對(duì)比。

2.5 特征選擇

特征選擇的任務(wù)是從訓(xùn)練樣本所有特征中挑出期望值能被可靠估計(jì)的特征,不是所有的特征對(duì)分類能力都有貢獻(xiàn),太多的特征不僅會(huì)增加模型的訓(xùn)練時(shí)間,而且導(dǎo)致模型過(guò)度擬合訓(xùn)練樣本。常用的特征選擇方法有:基于信息增益的方法及其近似算法[22]和基于頻度折扣的方法[15,17]?;谛畔⒃鲆娴姆椒看芜x擇使模型熵增加最多的特征,使得每次特征選擇階段都要計(jì)算所有特征的信息增益,因此耗時(shí)較多;基于信息增益的近似算法認(rèn)為加入一個(gè)特征后的模型僅依賴于原來(lái)的模型和參數(shù)λ,該方法比較快,但是不能保證每次加入模型的特征都是最好的;基于頻度折扣的方法事先根據(jù)經(jīng)驗(yàn)設(shè)定或者根據(jù)開發(fā)集來(lái)調(diào)節(jié)折扣閾值K,特征選擇時(shí)認(rèn)為頻度小于或等于K的特征都不可靠,只挑選那些頻次大于 K的特征,但是 Walter Daelemans et al.[23]指出低頻特征也包含對(duì)分類有貢獻(xiàn)的信息。所以,我們?cè)诓捎没陬l度折扣的特征選擇方法時(shí),不是事先設(shè)定一個(gè)固定的閥值,而是在一定范圍內(nèi)窮舉所有可能的閥值,根據(jù)開發(fā)集來(lái)確定最佳閥值。另外,不等式平滑技術(shù)能夠?qū)⑻卣鬟x擇與參數(shù)估計(jì)無(wú)縫結(jié)合在一起,從模型中除去那些權(quán)重為零的特征而不會(huì)影響模型的分類行為。Kazam a和Tsujii[20]演示了不等式平滑技術(shù)在特征選擇上比頻度折扣方法更優(yōu),我們?cè)趯?shí)驗(yàn)中采用該方法。

2.6 參數(shù)估計(jì)

參數(shù)估計(jì)用來(lái)求解公式(2)中參數(shù)λ,參數(shù)估計(jì)常用的方法有:通用迭代算法(GIS)[24]、改進(jìn)的迭代算法(IIS)[22]、梯度法和變度量法及其變體等。文獻(xiàn)[25]在四個(gè)NLP任務(wù)上考察了 GIS、IIS、梯度法和有限存儲(chǔ)變量尺度法(LMVM)(變度量法的一種變體),結(jié)果顯示:對(duì)于NLP分類問(wèn)題,LMVM性能最好。文獻(xiàn)[20]測(cè)試了限界約束有限存儲(chǔ)變量尺度法(BLMVM)(LMVM 一種變體)[26]也證實(shí)了類似結(jié)論,并指出,在真實(shí)NLP數(shù)據(jù)集上,BLMVM能在更短的時(shí)間達(dá)到收斂,而且分類性能有所提高,因此我們?cè)趯?shí)驗(yàn)中使用BLMVM進(jìn)行參數(shù)估計(jì)。

3 特征表示

3.1 利用臨界切分法切分文本

歧義檢測(cè)是消解歧義的前提。目前歧義檢測(cè)的主要方法有:雙向最大匹配法[27]、最小分詞法[28]、全切分法[29]和臨界切分法[30]等。前兩種方法都存在檢測(cè)盲點(diǎn),全切分法雖然無(wú)檢測(cè)盲點(diǎn),但它的切分路徑隨文本長(zhǎng)度成指數(shù)增長(zhǎng),而臨界切分法不僅能檢測(cè)出所有歧義,而且其切分路徑只隨文本長(zhǎng)度成線性增長(zhǎng)。文獻(xiàn)[3]詳細(xì)介紹了上述每種方法優(yōu)劣并給出了相應(yīng)的檢測(cè)實(shí)例。

本文中,我們利用臨界切分法切分文本,并將切分得到的臨界段作為部分消歧知識(shí)源。文獻(xiàn)[30]給出了臨界切分法的定義并證明:給定詞表,對(duì)于任意文本,無(wú)論該文本怎樣被切分,臨界點(diǎn)都是文本中所有非歧義的切分邊界,相鄰兩臨界點(diǎn)間字符構(gòu)成一個(gè)臨界段。臨界切分法的示例見圖1。

圖1 臨界切分法示例

算法先逐字正向最大匹配待切分文本,再檢查匹配得到的詞之間是否相互交叉覆蓋關(guān)系,并將交叉覆蓋的詞凝聚成更長(zhǎng)的串,如:“地產(chǎn)”、“產(chǎn)”和“房地產(chǎn)”被凝聚成“房地產(chǎn)”;“從前”、“前所未有”、“所”、“未”、“有的”、“的”被凝聚成“從前所未有的”,直到所有串之間不存在任何交叉覆蓋關(guān)系。臨界切分法將文本分割成臨界段序列,不同臨界段中的字符不相關(guān),而所有相關(guān)的字符都必然包含在同一臨界段內(nèi)。

3.2 特征模板

最大熵模型分類能力取決于是否選擇合適足夠的模板,為此我們?cè)O(shè)計(jì)了豐富的基于字的特征模板。并把它們分為歧義字段上下文信息模板,歧義字段自身信息模板和混合信息模板。這些模板詳細(xì)定義見表1。

這些模板中,C表示文本中的字符。模板1表示歧義字段周圍六個(gè)字符,模板4中Cs表示歧義字段的第一個(gè)字符,Ce表示歧義字段最后一個(gè)字符。模板2表示歧義字段周圍三個(gè)臨界段,我們用CF0表示歧義字段自身,這些臨界段可以通過(guò)3.1中臨界切分法獲得。模板6表示歧義字段自身包含的漢字體個(gè)數(shù)。模板1、3、4、6、7獨(dú)立于具體語(yǔ)言,因?yàn)檫@些模板能夠應(yīng)用于任何語(yǔ)言,并且當(dāng)它們作用于具體的訓(xùn)練數(shù)據(jù)時(shí),特征值能從模板中自動(dòng)獲取。而模板2和5依賴于具體語(yǔ)言。

表1 交集型歧義消解用的模板特征定義

4 實(shí)驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備和歧義字段分布

實(shí)驗(yàn)數(shù)據(jù)來(lái)自第三屆國(guó)際分詞競(jìng)賽提供的四個(gè)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料。我們從四個(gè)訓(xùn)練語(yǔ)料中分別抽取交集型歧義字段及其特征(特征模板見表1)形成樣本空間作為訓(xùn)練集,從四個(gè)測(cè)試語(yǔ)料中抽取交集型歧義字段及其特征作為測(cè)試集。歧義檢測(cè)采用臨界切分法,臨界切分法所用的詞表直接從各自訓(xùn)練語(yǔ)料中獲取。因?yàn)楸疚闹饕疾熳畲箪啬P偷姆诸惸芰?對(duì)于那些切分結(jié)果不在分類空間(O f或Ob)中的歧義字段,我們將它們從樣本中剔除出去。表2顯示了各個(gè)訓(xùn)練集、開發(fā)集和測(cè)試集中的交集型歧義分布情況。

表2 訓(xùn)練集、開發(fā)集和測(cè)試集中的交集型歧義分布情況

4.2 模型訓(xùn)練和控制參數(shù)調(diào)節(jié)

在實(shí)驗(yàn)中,我們比較了結(jié)合頻度折扣的標(biāo)準(zhǔn)最大熵模型(Cut-off)、高斯最大熵模型(Gaussian)和不等式最大熵模型(Inequality)三種平滑技術(shù),模型中的參數(shù)λ采用BLM VM[26]進(jìn)行估計(jì),最大熵模型軟件包來(lái)自互聯(lián)網(wǎng)[31],實(shí)驗(yàn)中所使用的版本為1.3.2。該軟件包提供了這三種模型的訓(xùn)練和測(cè)試接口,這樣我們能夠在同等基礎(chǔ)上比較這些模型的性能。實(shí)驗(yàn)中我們來(lái)計(jì)算消歧正確率(消歧正確率=(利用最大熵算法正確消歧的個(gè)數(shù))/(測(cè)試語(yǔ)料中交集型歧義的個(gè)數(shù)))。由于最大熵模型中需要事先確定某些控制參數(shù),我們利用開發(fā)集在一定范圍內(nèi)以窮舉的方式搜索最好的控制參數(shù),也就是說(shuō),當(dāng)模型在開發(fā)集上達(dá)到最佳性能時(shí),即可得到最佳控制參數(shù)。標(biāo)準(zhǔn)最大熵模型的控制參數(shù)是頻度閾值cthr,

我們?cè)赱0,5]范圍內(nèi)以步長(zhǎng)為1的遞增方式進(jìn)行窮舉式搜索;高斯最大熵模型的控制參數(shù)是方差σ,雖然公式(4)允許我們?yōu)槊糠N不同的特征采用不同的方差,在實(shí)驗(yàn)中我們使用相同的方差,并在[100,1 000]范圍內(nèi)以步長(zhǎng)為100的遞增方式進(jìn)行窮舉式搜索;不等式最大熵模型的控制參數(shù)是寬度因子W,雖然公式(5)允許每種特征的寬度因子可以不同,實(shí)驗(yàn)中我們?yōu)樗刑卣髟O(shè)置相同的寬度因子W,并分別在[10-5,10-1]區(qū)間中以10倍遞增方式和[0.1,1]區(qū)間以步長(zhǎng)為0.1的遞增方式進(jìn)行窮舉式搜索。實(shí)驗(yàn)中我們采用公式(6)來(lái)計(jì)算每個(gè)寬度值:

表3給出了各種模型在各個(gè)開發(fā)集上的最優(yōu)控制參數(shù)值。

表3 最優(yōu)控制參數(shù)一覽表

4.3 測(cè)試

利用得到的各種最優(yōu)模型對(duì)測(cè)試集進(jìn)行測(cè)試。表5顯示了不等式平滑技術(shù)的特征選擇能力,相比最優(yōu)Cut-off模型,不等式平滑技術(shù)能有效壓縮模型規(guī)模。

表5 不等式平滑技術(shù)的特征選擇能力

為了考察豐富的語(yǔ)言知識(shí)對(duì)消歧能力的貢獻(xiàn),我們僅僅采用CFn(n=-3,-2,-1,1,2,3)作為消歧使用的特征,采用最優(yōu)Inequality模型上對(duì)4個(gè)測(cè)試語(yǔ)料進(jìn)行了測(cè)試,結(jié)果如表6所示。

表6 簡(jiǎn)單特征和豐富特征不同消歧能力的比較

可以看出,豐富的語(yǔ)言特征對(duì)于消歧性能有顯著的影響,在各個(gè)測(cè)試子集上,后者比前者至少提高5%。

5 結(jié)論和未來(lái)的工作

我們采用最大熵法消解中文文本中交集型歧義,取得了優(yōu)異的性能,使用最大熵法消解在訓(xùn)練集中未出現(xiàn)的交集型歧義字段,也達(dá)到很高的性能,說(shuō)明模型具有很強(qiáng)的泛化能力,實(shí)驗(yàn)還驗(yàn)證了高斯平滑和不等式平滑技術(shù)比單純的頻度折扣具有更強(qiáng)的分類能力,而高斯平滑和不等式平滑技術(shù)之間不分伯仲,同時(shí)還揭示出豐富的語(yǔ)言知識(shí)對(duì)消歧性能有顯著的影響。實(shí)驗(yàn)所采用的高斯模型和不等式模型的控制參數(shù)比較簡(jiǎn)單,每種特征使用相同的控制參數(shù),沒(méi)有體現(xiàn)出模型的優(yōu)勢(shì),所以在更大規(guī)模語(yǔ)料上采用更復(fù)雜的控制參數(shù)是有待深入的工作。另外本文與其他基于分類的方法[2,12-13]一樣,分類空間限制在Of和Ob,遺漏了切分結(jié)果不是Of和Ob的歧義字段,我們可以采用其他方法如基于實(shí)例的方法來(lái)處理這些歧義,或者將這些歧義字段單獨(dú)作為一類,這也是今后需要嘗試的工作。

致謝 感謝Jun'ichi Tsujii提供最大熵軟件開發(fā)包。

[1] 黃昌寧.中文信息處理中的分詞問(wèn)題[J].語(yǔ)言文字應(yīng)用,1997,1:72-78.

[2] Mu Li,Jianfeng Gao,Chang-Ning H uang and Jianfeng Li.Unsupervised training for overlapping ambiguity resolution in Chinese w ord segmentation[C]//Proceedings of the Second SIGHAN Workshop on Chinese Language Processing,Sapporo,2003:1-7.

[3] Qinan Hu,H aihua Pan and Chunyu Kit.2004.An examp le-based study on Chinese word segmentation using critical fragments[C]//Proceedings of the First International Joint Conference on Natural Language Processing(IJCNLP-04),Sanya,Hainan,2004,505-511.

[4] Bing Sw en and Shiwen Yu.A Graded Approach for the Efficient Reso lution of Chinese W ord Segmentation Ambiguities[C]//Proceedings o f 5th Natural Language Processing Pacific Rim Symposium.Beijing,Nov,1999:19-24.

[5] 孫茂松,鄒嘉彥.中文自動(dòng)分詞研究評(píng)述[J].當(dāng)代語(yǔ)言學(xué),2001,3(1):22-32.

[6] 孫茂松,左正平.消解中文三字長(zhǎng)交集型分詞歧義的算法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),1999,5:101-103.

[7] Jin Guo.One Tokenization per Source[C]//ACL-98,M ontreal,Canada,1998:457-463.

[8] Chunyu Kit and Xiaoyue Liu.An Example-Based Chinese Word Segmentation System for CWSB-2[C]//Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing,Jeju Island,2005:146-149.

[9] 孫茂松,左正平,鄒嘉彥.高頻最大交集型歧義切分字段在漢語(yǔ)自動(dòng)分詞中的作用[J].中文信息學(xué)報(bào),1999,13(1):27-34.

[10] 陳小荷.用基于詞的二元模型消解交集型分詞歧義[J].南京師大學(xué)報(bào)(社會(huì)科學(xué)版),2005,6:109-113.

[11] 孫茂松,黃昌寧,等.利用漢字二元語(yǔ)法關(guān)系解決漢語(yǔ)自動(dòng)分詞中的交集型歧義[J].計(jì)算機(jī)研究與發(fā)展,1997,5:332-339.

[12] 張鋒,樊孝忠.基于最大熵模型的交集型切分歧義消解[J].北京理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2005,25(7):590-593.

[13] 李蓉,劉少輝,葉世偉,史忠植.基于SVM 和k-NN結(jié)合的漢語(yǔ)交集型歧義切分方法[J].中文信息學(xué)報(bào),2001,15(6):13-18.

[14] Nianw en Xue.ChineseWord Segmentation as Character Tagging[J].International Journal of Computational Linguistics and Chinese Language Processing,2003,8(1):29-48.

[15] Adwait Ratnaparkhi.A Maximum Entropy Part-Of-Speech Tagger[C]// Proceedings o f the Empirical M ethods in Natural Language Processing Conference,University of Pennsylvania,1996.

[16] Hai Leong Chieu and Hw ee Tou Ng.Named Entity Recognition with a Maximum Entropy Approach[C]//Proceedings of H LT-NAACL,2003,4:160-163.

[17] Rob Koeling.Chunking w ith Maximum Entropy M ode ls[C]//Proceedings of CoNLL-2000 and LLL-2000.Lisbon,Portugal.

[18] Xiaoqiang Luo.A maximum entropy Chinese character-based parser[C]//EMNLP-2003.2003:192-199.

[19] Franz Josef Och and H ermann Ney.Discrim inative T raining and Maximum Entropy M odels for StatisticalMachine Translation[C]//ACL-2002.

[20] Jun'ichi Kazama and Jun'ichi Tsujii..Maximum Entropy Models with Inequality Constraints:A case study on text categorization[J].M achine Learning Journal special issue on Learning in Speech and Language Technologies.2005,60(1-3):169-194.

[21] Stan ley Chen and Ronald Rosen feld.A survey o f smoothing techniques for M E models[J].IEEE T ransactions on Speech and Audio Processing,2000,2:37-50.

[22] Stephen Della Pietra,Vincent Della Pietra,and John Lafferty.Inducing features of random fields[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1997,19(4):380-393.

[23] Wa lter Daelemans,Antal van den Bosch and Jakub Zav rel.Forgetting Excep tions is Harm ful in Language Learning[J].Machine Learning,1999,34(1-3):11-41.

[24] J.N.Darroch and D.Ratcliff.Generalized Iterative Scaling for Log-Linear M odels[J].The Annals of Mathematical Statistics,1972,43(5):1470-1480.

[25] Robert Malouf.A comparison ofalgorithm s formaximum entropy parameter estimation[C]//Proceedings of CoNLL-2002,Taipei,2002:49-55.

[26] Steven J.Benson and Jorge J.M or′e A limitedmemory variab lemetric method for bound constrained optim ization[R].Technical Report ANL/MCS-P909-0901,A rgonne National Laboratory,2001.

[27] 劉源,梁南元.漢語(yǔ)處理的基礎(chǔ)工程-現(xiàn)代漢語(yǔ)詞頻統(tǒng)計(jì)[J].中文信息學(xué)報(bào),1986,1(1):17-25.

[28] 王曉龍,王開鑄,李仲榮,白小華.最少分詞問(wèn)題及其解法[J].科學(xué)通報(bào),1989,13:1030-1032.

[29] 馬晏.基于評(píng)價(jià)的漢語(yǔ)自動(dòng)分詞系統(tǒng)的研究與實(shí)現(xiàn),語(yǔ)言信息處理專論[M].北京:清華大學(xué)出版社,2-36.

[30] Jin Guo.Critical tokenization and its p roperties[J].Computational Linguistics,1997,23(4):569-596.

[31] Jun'ichi Tsujii.http://www-tsujii.is.s.u-tokyo.ac.jp/~tsuruoka/maxent/.A simp le Maxent Toolkit[DB/OL].

猜你喜歡
消歧歧義控制參數(shù)
高超聲速飛行器滑模控制參數(shù)整定方法設(shè)計(jì)*
基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
Birkhoff系統(tǒng)穩(wěn)定性的動(dòng)力學(xué)控制1)
eUCP條款歧義剖析
藏文歷史文獻(xiàn)識(shí)別過(guò)程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
基于PI與準(zhǔn)PR調(diào)節(jié)的并網(wǎng)逆變器控制參數(shù)設(shè)計(jì)
黑龍江電力(2017年1期)2017-05-17 04:25:08
English Jokes: Homonyms
“那么大”的語(yǔ)義模糊與歧義分析
一體化污泥干化焚燒裝置工藝控制參數(shù)的優(yōu)化及運(yùn)行
靖宇县| 驻马店市| 博野县| 鸡西市| 皮山县| 洛阳市| 富锦市| 微博| 余江县| 玛曲县| 泰兴市| 开远市| 扎赉特旗| 平顶山市| 犍为县| 西乡县| 河北省| 全椒县| 七台河市| 汪清县| 通化县| 固安县| 白河县| 城固县| 株洲市| 繁昌县| 朝阳市| 合水县| 涪陵区| 大洼县| 开平市| 胶南市| 纳雍县| 舒兰市| 定南县| 凌云县| 库尔勒市| 石城县| 宁城县| 房产| 马尔康县|