張坤麗,趙 丹,昝紅英,柴玉梅
(鄭州大學(xué) 信息工程學(xué)院,河南 鄭州450001)
現(xiàn)代漢語副詞的研究,自《馬氏文通》問世以來,始終是廣大語法學(xué)者關(guān)注的一個重要的課題。盡管漢語副詞絕對數(shù)量并不是很多,但其功能和用法紛繁多樣,不但使用范圍廣、頻率高,且其內(nèi)部成員虛實(shí)不一,有些副詞承載著語義的變化,而有些副詞承載著語法功能,包括搭配關(guān)系、語用傾向以及篇章功能,大都各具特點(diǎn),每一個都具有很強(qiáng)的個性,所以缺乏系統(tǒng)性和規(guī)律性[1]。因此針對具體的副詞,對其用法進(jìn)行自動識別,具有重要的意義。
本文中副詞用法自動識別在俞士汶等[2]提出的構(gòu)建三位一體漢語廣義虛詞知識庫思路的基礎(chǔ)上,對昝紅英等[3-4]已建立的副詞用法詞典和副詞用法規(guī)則庫進(jìn)行了完善和補(bǔ)充,對《人民日報(bào)》2000年1~6月分詞與詞性標(biāo)注的語料進(jìn)行了人工校對,并以此作為實(shí)驗(yàn)語料,先采用規(guī)則進(jìn)行用法自動識別,實(shí)驗(yàn)結(jié)果顯示,規(guī)則總體有較好的識別準(zhǔn)確率,但對較為常用且用法較多的副詞,效果不佳,因此,本文又采用統(tǒng)計(jì)的方法對這些詞進(jìn)行用法自動識別。
本文具體章節(jié)安排如下:第2節(jié)介紹副詞用法識別的相關(guān)研究;第3節(jié)介紹副詞用法詞典、副詞用法規(guī)則庫及副詞用法語料庫;第4節(jié)介紹分別采用規(guī)則和統(tǒng)計(jì)的副詞用法自動識別實(shí)驗(yàn);第5節(jié)給出了實(shí)驗(yàn)結(jié)果,并對結(jié)果進(jìn)行分析;最后給出本文的總結(jié),并對今后的工作進(jìn)行展望。
針對副詞的研究,綜合多年來漢語語法學(xué)界的研究成果,副詞的主要研究包括:對副詞性質(zhì)、歸屬、范圍和分類的研究;對副詞個例的研究;對副詞小類的研究等。其中較為著名的有陸儉明等的《現(xiàn)代漢語虛詞散論》[5],張誼生的《現(xiàn)代漢語副詞研究》[1]及《現(xiàn)代漢語虛詞》[6],張亞軍的《副詞與限定功能描述》[7]等。副詞的研究雖然碩果累累,但這些研究大都是面向人用的。
近年來,面向機(jī)器的研究也逐步開始。俞士汶等[2]最早提出了虛詞機(jī)器詞典、虛詞規(guī)則庫、虛詞語料庫“三位一體”構(gòu)建現(xiàn)代漢語廣義虛詞知識庫的思想,并將廣義虛詞界定為副詞、介詞、連詞、助詞、語氣詞和方位詞;劉云[8]構(gòu)建了漢語虛詞詞典的基本框架,為副詞、介詞、連詞、助詞和語氣詞等設(shè)計(jì)了相應(yīng)的描述屬性,對常用虛詞進(jìn)行了歸類總結(jié);昝紅英等[3-4]構(gòu)建了現(xiàn)代漢語廣義虛詞知識庫,包括虛詞用法詞典、虛詞用法規(guī)則庫和虛詞用法標(biāo)注語料庫;劉銳等[9]、袁應(yīng)成等[10]采用基于規(guī)則的方法對虛詞用法的自動識別進(jìn)行了研究,昝紅英等[11]還針對副詞中的個例“就”采用統(tǒng)計(jì)模型進(jìn)行了用法自動識別,而以上研究無論是基于規(guī)則還是基于統(tǒng)計(jì)的方法并沒有建立在大規(guī)模語料庫的基礎(chǔ)上,或僅是對一些個例進(jìn)行了研究,這對于將副詞用法自動識別結(jié)果應(yīng)用到自然語言處理領(lǐng)域還是遠(yuǎn)遠(yuǎn)不夠的。
本文根據(jù)北京大學(xué)計(jì)算語言所《人民日報(bào)》1998年1月及2000年1~6月分詞及詞性標(biāo)注語料,以及副詞的實(shí)際應(yīng)用,在文獻(xiàn)[3-4]已有副詞用法詞典的基礎(chǔ)上,進(jìn)行了詞條的調(diào)整及用法的總結(jié)和修改,與之前的版本相比,副詞用法詞典的規(guī)模有所擴(kuò)大。原有副詞用法詞典[4]共收副詞1 181個,用法共計(jì)2 040條,目前副詞用法詞典共收錄1 587個副詞,用法共計(jì)2 396條,其詞條與用法分布如表1所示。
表1 副詞詞語與用法的分布情況
以副詞“將”為例,抽取詞典中ID、釋義、用法和例句屬性在表2列出。其中“ID”含義及“<>”中內(nèi)容含義詳見文獻(xiàn)[3]。
在副詞用法詞典中對用法描述的基礎(chǔ)上,結(jié)合詞典中不同用法的例句以及真實(shí)語料《人民日報(bào)》中不同副詞用法的特征,抽取其中具有可操作性的判斷條件特征,以有序的BNF范式進(jìn)行副詞用法的規(guī)則描述,構(gòu)建副詞用法規(guī)則庫。規(guī)則中大寫字母為指定用法的上下文特征,F(xiàn)表示句首,M表示左搭配,L表示左緊鄰,R表示右緊鄰,N表示右搭配,E表示句尾;小寫字母表示詞性,漢字表示詞形。用法規(guī)則的描述定義詳見文獻(xiàn)[3]。在建立副詞用法語料庫的過程中間,對發(fā)現(xiàn)的規(guī)則描述不準(zhǔn)確或規(guī)則排序?qū)τ梅ㄗ詣幼R別的影響進(jìn)行了討論,反復(fù)修改了規(guī)則庫中的規(guī)則及規(guī)則排序,通過實(shí)驗(yàn)測試確定最終的規(guī)則描述及排序。
表2 副詞“將”的義項(xiàng)及用法
續(xù)表
針對表2中“將”的用法^描述,“將”的規(guī)則如下:
$將
@<d_jiang1_4>→R^R→夠|能
@<d_jiang1_3b>→R^R→[不再|仍然|可能|始終|更可能]是
@<d_jiang1_2>→R^R→t
@<d_jiang1_3a>→M^M→(預(yù)計(jì)|估計(jì)|展望|表示|輿論|相信|評論|議題|認(rèn)為|說|一經(jīng)|一旦|如果|由于|隨著|假如|假若|為了|根據(jù)|宣布|預(yù)測)*[,]
@<d_jiang1_1>→M|N^M→t*[,]^N→t
@<d_jiang1_3a>→N^N→a|v
d_jiang1_2、d_jiang1_3b、d_jiang1_4的用法描述容易形式化,但d_jiang1_1和 d_jiang1_3a用法相同且很難形式化。通過觀察語料,當(dāng)“將”與“預(yù)計(jì)……預(yù)測”等詞(第4條規(guī)則所示)左搭配,或右搭配形容詞(a)或動詞(v)時(第六條規(guī)則所示)多為d_jiang1_3a用法,因此把d_jiang1_3a用兩條規(guī)則進(jìn)行描述,當(dāng)“將”左或右搭配時間詞(t)時,多為d_jiang1_1用法,而d_jiang1_1規(guī)則描述相對于第6條規(guī)則描述更為準(zhǔn)確,因此把d_jiang1_1作為第5條規(guī)則。
由“將”的規(guī)則可知,一個用法可以由一條或多條規(guī)則進(jìn)行描述,針對詞典中2 396個用法,與之對應(yīng)的虛詞用法規(guī)則庫共計(jì)2 497條規(guī)則。
在副詞用法詞典和規(guī)則庫都已完善的基礎(chǔ)上,參考詞義語料庫的建設(shè)經(jīng)驗(yàn)和分析[12],先利用副詞規(guī)則庫中的規(guī)則對《人民日報(bào)》1998年1月以及2000年1~6月的語料進(jìn)行了初步自動標(biāo)注,然后再用人工校對的方法對語料中出現(xiàn)的副詞用法標(biāo)注進(jìn)行確認(rèn)和修改。
由于副詞用法語料庫是建立在北京大學(xué)計(jì)算語言所對《人民日報(bào)》進(jìn)行分詞及詞性標(biāo)注的基礎(chǔ)上,所以在進(jìn)行副詞用法標(biāo)注的過程當(dāng)中,也發(fā)現(xiàn)了原語料中的詞性標(biāo)注錯誤或分詞錯誤,對這一類問題用“@”在語料中標(biāo)出。如果僅是詞性不正確的用“<@POS>”表示,修改詞性標(biāo)注的樣例如下:
我們/rr兩/m國/n盡管/d<@c> 沒有/df建交/vi,/wd但/c人員/n往來/vi頻繁/a,/wd經(jīng)貿(mào)/jb合作/vn 發(fā)展/vn 很/dc快/a ,/wd 展現(xiàn)/v出/vq雙邊/n關(guān)系/n的/ud美好/a前景/n和/c經(jīng)貿(mào)/jb合作/vn的/ud巨大/a潛力/n。/wj
如果是分詞及詞性標(biāo)注都不正確,則將正確的分詞及詞性標(biāo)注在“@”后,修改分詞及詞性標(biāo)注的樣例如下:
這/rz道/qe菜/n的/ud原料/n不/d特殊/a,/wd但/c做工/n很/d巧妙/a,/wd也許/d只有/d<@只/d有/v> 老/a淳安/ns人/n會/vu做/v。/wj
為避免人工校對中個人因素所帶來的用法標(biāo)注的差異,每一份語料中的用法標(biāo)注都是在機(jī)標(biāo)的基礎(chǔ)上經(jīng)過多人校對并討論確定的。校對后的《人民日報(bào)》語料副詞詞語與用法分布如表3所示,其中Cw表示出現(xiàn)副詞用法詞典中的詞條數(shù),Cf表示出現(xiàn)頻次,Ce表示分詞或詞性錯誤,C表示正常標(biāo)注用法頻次。
表3 校對語料中副詞詞語與用法的分布情況
基于規(guī)則的副詞用法自動識別,就是對建立的副詞規(guī)則庫中的規(guī)則進(jìn)行解析,根據(jù)特征去匹配語料庫中的語句,具體為以下三個步驟。
(1)初始化標(biāo)注語料、用法規(guī)則庫,為方便大規(guī)模的語料自動標(biāo)注,讀取語料時將語料文本內(nèi)容按照段落截句,將標(biāo)注語料切分成一個個段落,以動態(tài)數(shù)組的形式讀入內(nèi)存,用法規(guī)則以哈希表的形式寫入內(nèi)存。
(2)讀取待標(biāo)注的整句,找出整句中所有需要標(biāo)注的副詞及對應(yīng)規(guī)則,對整句進(jìn)行預(yù)處理,得到對應(yīng)的詞表和原始語句,以及所有待標(biāo)副詞在詞表和原始語句中的位置。
(3)查找待標(biāo)副詞的規(guī)則,并依序讀取其用法規(guī)則信息,根據(jù)規(guī)則描述由匹配器調(diào)度程序確定觸發(fā)的匹配器類型,再由相應(yīng)匹配器解析用法規(guī)則,并進(jìn)行對應(yīng)匹配,根據(jù)匹配情況確定標(biāo)注結(jié)果,待整句中所有副詞都標(biāo)注完后,輸出整句,并轉(zhuǎn)到上一步繼續(xù)讀取下一個整句,直至沒有待標(biāo)整句,標(biāo)注程序結(jié)束。
自動標(biāo)注系統(tǒng)用到六個類型(規(guī)則中的F、M、L、R、N、F)的匹配器的設(shè)計(jì)要求,及基于規(guī)則的副詞用法自動標(biāo)注系統(tǒng)的具體實(shí)現(xiàn)詳見袁應(yīng)成等[10]。
以副詞“將”為例說明基于規(guī)則的用法標(biāo)注過程,已經(jīng)通過標(biāo)注系統(tǒng)抽取含有“將”的句子如下:
明年/t春天/t,/wd將/d召開/v九/m 屆/qe[全國/n人大/jn]nt一/m 次/qv會議/n和/c[全國/n政協(xié)/jn]nt九/m 屆/qe一/m 次/qv會議/n。/wj
當(dāng)檢測到副詞“將”之后,查找到“將”的規(guī)則,并按照規(guī)則排列順序逐條進(jìn)行匹配,以最終匹配上的規(guī)則@<d_jiang1_1>→M|N^M→t*[,]^N→t進(jìn)行說明。
首先調(diào)用M匹配器,由M匹配器解析用法規(guī)則,根據(jù)詞語的相對位置,先對規(guī)則描述中的時間詞“t”進(jìn)行實(shí)例化,在“將”之前的詞語中找到“春天”與之匹配,“t”間隔0個字符(*)有“,”與規(guī)則匹配,因此規(guī)則中M匹配成功。M和N之間是或的關(guān)系,M匹配成功之后,整條規(guī)則匹配成功,最終將標(biāo)注結(jié)果“<d_jiang1_1>”。
基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法是從訓(xùn)練數(shù)據(jù)中自動地或半自動地獲取語言知識,建立有效的統(tǒng)計(jì)語言模型,并根據(jù)訓(xùn)練數(shù)據(jù)的實(shí)際情況不斷地優(yōu)化,而基于規(guī)則的理性主義方法很難根據(jù)實(shí)際的數(shù)據(jù)進(jìn)行調(diào)整,因此規(guī)則方法在某些方面不如基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法好。
本文考慮到副詞的用法與副詞所在的上下文語境及語境序列有著緊密的依賴和限制關(guān)系。因此,本文選擇了3個在機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用比較廣泛且效果較好的統(tǒng)計(jì)模型:條件隨機(jī)場(Conditional Random Fields,CRF)模型、最大熵(Maximum Entropy,ME)模型和支持向量機(jī)(Support Vector Machine,SVM)模型。
CRF是一個在給定輸入節(jié)點(diǎn)條件下計(jì)算輸出節(jié)點(diǎn)條件概率的無向圖模型,它考察給定輸入序列對應(yīng)的標(biāo)注序列的條件概率,訓(xùn)練目標(biāo)是使得條件概率最大化[13]。ME是一個廣泛應(yīng)用于分類問題的統(tǒng)計(jì)模型,基本思想是,將已知的知識建模,對未知的知識不做任何假定,即給定已知事件集合,在已知事件集上挖掘出潛在的約束條件,然后選擇一種模型,這個模型必須滿足已知的約束條件,同時對未知可能發(fā)生的事件盡可能使其均勻分布[14]。SVM是基于統(tǒng)計(jì)學(xué)習(xí)理論的學(xué)習(xí)方法,該方法通過使用一些策略來最大化具有不同特征的數(shù)據(jù)的中間界限,并針對數(shù)據(jù)的特征來判斷該數(shù)據(jù)屬于哪個類別[15]。
本文利用CRF++工具包[16]、Zhang Le的最大熵工具包 maxent[17]和 LibSVM 工具包[18]作為自動標(biāo)注工具。
本文利用《人民日報(bào)》2000年1~6月分詞和詞性標(biāo)注的語料作為實(shí)驗(yàn)語料。首先用自動標(biāo)注系統(tǒng)標(biāo)注實(shí)驗(yàn)語料出現(xiàn)的所有副詞得到機(jī)器標(biāo)注結(jié)果,通過與人工校對后的標(biāo)準(zhǔn)語料比對,標(biāo)注一致的就認(rèn)為是識別正確的。實(shí)驗(yàn)對《人民日報(bào)》2000年1~6月中出現(xiàn)的所有副詞的標(biāo)注結(jié)果進(jìn)行了統(tǒng)計(jì)。
本文采用準(zhǔn)確率來衡量副詞用法的自動識別結(jié)果,具體見式(1):
其中C1為標(biāo)注正確的副詞總數(shù),C2為副詞出現(xiàn)詞頻減去分詞或詞性錯誤的個數(shù),即校對語料中正常標(biāo)注的次數(shù)。實(shí)驗(yàn)結(jié)果如表4所示,另外對2000年1月到6月副詞用法識別準(zhǔn)確率的分布情況作以統(tǒng)計(jì),其中“CP>0.8”表示準(zhǔn)確率高于0.8的用法個數(shù),“C0.5≤P≤0.8”表示準(zhǔn)確率在0.5與0.8之間的用法的個數(shù),“CP<0.5”表示準(zhǔn)確率低于0.5的用法個數(shù)。
從表4的匯總的結(jié)果看,總體準(zhǔn)確率為84.86%,從準(zhǔn)確率分布來看,高于80%的用法個數(shù)為1 411個,占已出現(xiàn)用法1 656個的85.2%,說明基于規(guī)則進(jìn)行副詞用法自動標(biāo)注有一定的效果。進(jìn)一步對語料中出現(xiàn)頻次較高(頻次>2 000次)并且用法較多(用法>4個)的副詞準(zhǔn)確率進(jìn)行統(tǒng)計(jì),按準(zhǔn)確率降序排列,如表5所示。從表中數(shù)據(jù)可看出,共有17個詞語符合要求,而其中有8個詞語的準(zhǔn)確率高于80%,并且在規(guī)則描述時也發(fā)現(xiàn),用法的個數(shù)及用法描述是否容易形式化,都是影響規(guī)則識別準(zhǔn)確率的因素。用法越多,規(guī)則之間的沖突也就越明顯,規(guī)則識別的準(zhǔn)確率越低,所以在這些高頻詞中,用法多的副詞采用規(guī)則自動識別的效果較差。
表4 基于規(guī)則的副詞用法識別結(jié)果
表5 高頻副詞規(guī)則識別準(zhǔn)確率統(tǒng)計(jì)
續(xù)表
實(shí)驗(yàn)語料與5.1節(jié)中相同,選取表5中規(guī)則識別準(zhǔn)確率低于80%的9個副詞,采用統(tǒng)計(jì)方法進(jìn)行自動用法識別。基于統(tǒng)計(jì)方法進(jìn)行自動識別的結(jié)果,與特征模板、上下文窗口大小、統(tǒng)計(jì)模型的選取是有關(guān)的,因此從這三個方面進(jìn)行實(shí)驗(yàn)。在實(shí)驗(yàn)過程中采用十折交叉驗(yàn)證進(jìn)行測試。
首先,在副詞用法描述中,通常情況下是以副詞前后搭配的詞或詞性不同作為用法的區(qū)分,但是不同的副詞,特征也不同,因此采用不同的特征,即詞(W)、詞性(POS)和詞+詞性進(jìn)行實(shí)驗(yàn),采用窗口為左2右2,僅列出其中3個詞的實(shí)驗(yàn)結(jié)果,如圖1所示。從實(shí)驗(yàn)結(jié)果可以看出,不同詞的最高的準(zhǔn)確率特征也不相同,說明在實(shí)驗(yàn)過程中對于不同的詞要通過對比實(shí)驗(yàn)確定選取哪種特征。
圖1 不同特征對副詞用法識別的影響
其次,根據(jù)副詞用法的語境特點(diǎn),分別選取不同的上下文窗口,采用CRF的統(tǒng)計(jì)方法,針對圖1中已經(jīng)確定的最好特征,即“也”采用詞為特征,“又”以詞性為特征,“再”用“詞+詞性”為特征,考察在不同窗口下副詞用法識別的準(zhǔn)確率,采用對稱窗口進(jìn)行實(shí)驗(yàn),“L”表示左窗口大小,“R”表示右窗口大小,實(shí)驗(yàn)結(jié)果如圖2所示。從實(shí)驗(yàn)結(jié)果可以看出,不同的詞,上下文窗口的大小對識別準(zhǔn)確率影響也不同。
圖2 不同窗口對副詞用法識別的影響
第三,根據(jù)不同窗口和不同特征模板對實(shí)驗(yàn)結(jié)果的影響,采用多次實(shí)驗(yàn),將CRF、SVM和ME的最好實(shí)驗(yàn)結(jié)果及相關(guān)參數(shù)在表6中列出。CRF實(shí)驗(yàn)結(jié)果受特征和窗口大小的影響,而對ME和SVM僅考慮窗口大小的影響。通過對比實(shí)驗(yàn),發(fā)現(xiàn)就選取的這9個詞而言,除“正”之外,CRF效果相對較好,規(guī)則方法的宏平均準(zhǔn)確率為59.68%,而CRF的宏平均準(zhǔn)確率為86.71%,提高了27.03%,實(shí)驗(yàn)選取的詞都是高頻詞,所以將會對全部副詞用法識別準(zhǔn)確率有較大的提升。
表6 不同的模型對副詞用法識別的影響
采用“三位一體”的構(gòu)建現(xiàn)代漢語廣義虛詞知識庫的思想,本文根據(jù)已建立的副詞用法詞典和副詞用法規(guī)則庫以及副詞用法語料庫,針對副詞的個性差異,實(shí)現(xiàn)了基于規(guī)則的副詞用法的自動識別,并采用CRF、ME、SVM模型對常用副詞實(shí)現(xiàn)了基于統(tǒng)計(jì)的用法自動識別。實(shí)驗(yàn)結(jié)果顯示,規(guī)則識別的總體準(zhǔn)確率能夠達(dá)到84.86%,而對其中的規(guī)則識別效果不好的高頻常用詞,采用統(tǒng)計(jì)的方法可進(jìn)一步將這部分高頻詞的識別準(zhǔn)確率提高27.03%。
下一步我們將繼續(xù)完善副詞用法詞典和規(guī)則庫,構(gòu)建完備精確的面向自然語言處理的現(xiàn)代漢語廣義虛詞知識庫。另外嘗試根據(jù)語料中副詞用法分布的相對頻率,對規(guī)則進(jìn)行加權(quán)處理,采用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,或者采用多分類器集成的方法,提高副詞用法自動識別的準(zhǔn)確率。同時,也嘗試將副詞用法的自動識別結(jié)果應(yīng)用在機(jī)器翻譯或褒貶評價(jià)等自然語言處理領(lǐng)域,以期取得較好的效果。
[1]張誼生.現(xiàn)代漢語副詞研究[M].上海:學(xué)林出版社,2001.
[2]俞士汶,朱學(xué)鋒,劉云.現(xiàn)代漢語廣義虛詞知識庫的建設(shè)[J].漢語語言與計(jì)算學(xué)報(bào),2003,13(1):89-98.
[3]昝紅英,張坤麗,柴玉梅,等.現(xiàn)代漢語虛詞知識庫的研究[J].中文信息學(xué)報(bào),2007,21(5):107-111.
[4]昝紅英,朱學(xué)鋒.面向自然語言處理的漢語虛詞研究與廣義虛詞知識庫構(gòu)建[J].當(dāng)代語言學(xué),2009,2:124-135.
[5]陸儉明,馬真.現(xiàn)代漢語虛詞散論[M].北京:語文出版社,1999.
[6]張誼生.現(xiàn)代漢語虛詞[M].上海:華東師范大學(xué)出版社,2000.
[7]張亞軍.副詞與限定功能描述[M].合肥:安徽教育出版社,2002.
[8]劉云.漢語虛詞知識庫的建設(shè)[D].[博士后出站報(bào)告].北京:北京大學(xué),2004.
[9]劉銳,昝紅英,張坤麗.現(xiàn)代漢語副詞用法的自動識別研究[J].計(jì)算機(jī)科學(xué),2008,8(A):172-174.
[10]袁應(yīng)成,昝紅英,張坤麗,等.基于規(guī)則的虛詞用法自動標(biāo)注算法設(shè)計(jì)與系統(tǒng)實(shí)現(xiàn)[C]//第十一屆漢語詞匯語義學(xué)研討會論文集,蘇州:蘇州大學(xué),2010:163-169.
[11]昝紅英,張軍琿,朱學(xué)鋒,等.副詞“就”的用法及其自動識別研究[J].中文信息學(xué)報(bào),2010.24(5):10-16.
[12]金澎,吳云芳,俞士汶.詞義標(biāo)注語料庫建設(shè)綜述[J].中文信息學(xué)報(bào),2008,22(3):16-23.
[13]Lafferty J,McCallum A,Pereira F.Conditional Random Fields:Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the 18th ICML-01,2001:282-289.
[14]Berger A.L,Della Pietra V.J,Della Pietra S.A.A maximum entropy approach to natural language processing[J].Computational Linguistics,1996,22(1):39-71.
[15]http://www.support-vector.net[CP/OL].
[16]CRF++:Yet Another Toolkit[CP/OL].http://www.chasen.org/~taku/software/CRF++.
[17]http://homepages.inf.ed.ac.uk/s0450736/maxent_toolkit.html[CP/OL].
[18]http://www.csie.ntu.edu.tw/~cjlin/libsvm[CP/OL].