韓 冰,劉一佳,車萬翔,劉 挺
(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院社會(huì)計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150001)
?
基于感知器的中文分詞增量訓(xùn)練方法研究
韓 冰,劉一佳,車萬翔,劉 挺
(哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院社會(huì)計(jì)算與信息檢索研究中心,黑龍江 哈爾濱 150001)
該文提出了一種基于感知器的中文分詞增量訓(xùn)練方法。該方法可在訓(xùn)練好的模型基礎(chǔ)上添加目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)繼續(xù)訓(xùn)練,解決了大規(guī)模切分?jǐn)?shù)據(jù)難于共享,源領(lǐng)域與目標(biāo)領(lǐng)域數(shù)據(jù)混合需要重新訓(xùn)練等問題。實(shí)驗(yàn)表明,增量訓(xùn)練可以有效提升領(lǐng)域適應(yīng)性,達(dá)到與傳統(tǒng)數(shù)據(jù)混合相類似的效果。同時(shí)該文方法模型占用空間小,訓(xùn)練時(shí)間短,可以快速訓(xùn)練獲得目標(biāo)領(lǐng)域的模型。
中文分詞;領(lǐng)域適應(yīng);增量訓(xùn)練
詞是漢語中的最小語義單元。由于漢語以字為基本書寫單位,詞與詞之間沒有明顯的分割標(biāo)記,中文分詞成為中文信息處理的基礎(chǔ)與關(guān)鍵,在信息檢索、文本挖掘等任務(wù)中被廣泛使用。近年來,基于統(tǒng)計(jì)的中文分詞方法在新聞?lì)I(lǐng)域取得了很好的性能[1-4]。但隨著互聯(lián)網(wǎng)、社交媒體與移動(dòng)平臺(tái)的迅猛發(fā)展,當(dāng)前中文分詞方法處理的數(shù)據(jù)不單局限于新聞?lì)I(lǐng)域,不斷增長(zhǎng)的開放領(lǐng)域數(shù)據(jù)對(duì)中文分詞方法提出了新的挑戰(zhàn)。前人研究[5-7]表明,使用新聞?lì)I(lǐng)域資料訓(xùn)練的中文分詞模型切換到諸如論壇、微博、小說等領(lǐng)域時(shí),性能往往嚴(yán)重下降。
前人工作[6]將這種訓(xùn)練與測(cè)試領(lǐng)域的不一致導(dǎo)致模型性能下降的問題歸納為領(lǐng)域適應(yīng)問題。在使用新聞?lì)I(lǐng)域訓(xùn)練的分詞模型處理開放領(lǐng)域時(shí),新聞?lì)I(lǐng)域?yàn)樵搭I(lǐng)域,開放領(lǐng)域?yàn)槟繕?biāo)領(lǐng)域。出現(xiàn)這種問題主要有兩點(diǎn)原因: 一是不同領(lǐng)域數(shù)據(jù)文體不一致,例如,小說與新聞使用不同的語言風(fēng)格;二是不同領(lǐng)域間領(lǐng)域詞典不一致,例如,金融領(lǐng)域經(jīng)常使用“做空”“配資”等新聞?lì)I(lǐng)域不常用的詞匯。Liu和Zhang[6]通過在分詞詞性標(biāo)注聯(lián)合模型上加入聚類特征的方式捕捉源領(lǐng)域與目標(biāo)領(lǐng)域的相似性,以解決文體差異過大問題。Zhang等[5]將目標(biāo)領(lǐng)域詞典融入模型,避免了源領(lǐng)域與目標(biāo)領(lǐng)域詞典差異過大。Liu等[7]提出了一種利用網(wǎng)絡(luò)文本中自然存在的分詞邊界的方法,在基于條件隨機(jī)場(chǎng)(CRF)模型的分詞系統(tǒng)上提高了領(lǐng)域適應(yīng)性。
上述研究表明,使用目標(biāo)領(lǐng)域切分?jǐn)?shù)據(jù)訓(xùn)練模型是一種領(lǐng)域適應(yīng)問題的高精度方法。同時(shí),在源領(lǐng)域切分?jǐn)?shù)據(jù)的基礎(chǔ)上加入目標(biāo)領(lǐng)域數(shù)據(jù)這類混合訓(xùn)練數(shù)據(jù)的方法可以進(jìn)一步提高切分中文分詞準(zhǔn)確率[5,7-8]。然而,多方面因素限制了這一類方法的適用性。其一,大規(guī)模切分?jǐn)?shù)據(jù)往往很難獲得,使得混合訓(xùn)練數(shù)據(jù)的方法難以應(yīng)用于實(shí)際場(chǎng)景;其二,針對(duì)每個(gè)目標(biāo)領(lǐng)域,混合數(shù)據(jù)方法都需要在包含源領(lǐng)域的大規(guī)模數(shù)據(jù)上重新訓(xùn)練模型,使得這種方法很難快速獲得模型并部署。
針對(duì)上述問題,本文提出一種了基于感知器的中文分詞增量訓(xùn)練方法。該方法通過在已有模型的基礎(chǔ)上繼續(xù)訓(xùn)練,可以在不需要源領(lǐng)域切分?jǐn)?shù)據(jù)的情況下,利用少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)獲得與混合模型相近的性能。同時(shí)本文針對(duì)增量訓(xùn)練提出了一種優(yōu)化的實(shí)現(xiàn)方法,顯著降低了訓(xùn)練代價(jià)。本文分詞器將在https://github.com/HIT-SCIR/ltp開源。
本文主要解決多領(lǐng)域應(yīng)用場(chǎng)景下的中文分詞領(lǐng)域適應(yīng)問題(圖1)。本文假設(shè)源領(lǐng)域數(shù)據(jù)在訓(xùn)練領(lǐng)域適應(yīng)模型時(shí)對(duì)用戶不可見,但源領(lǐng)域模型可見。本文同時(shí)假設(shè)用戶有少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)。最后,本文假設(shè)源領(lǐng)域模型同時(shí)服務(wù)于多個(gè)目標(biāo)領(lǐng)域。
圖1 多領(lǐng)域應(yīng)用場(chǎng)景示意圖
針對(duì)以上問題描述,本文訓(xùn)練算法應(yīng)具有下述特點(diǎn):
? 不更改源領(lǐng)域模型;
? 目標(biāo)領(lǐng)域模型與混合數(shù)據(jù)訓(xùn)練的模型性能相近;
? 目標(biāo)領(lǐng)域模型精簡(jiǎn)。
本文參照前人工作[3,9],將中文分詞建模為基于字的序列標(biāo)注問題。模型給句子中的每個(gè)字標(biāo)注一個(gè)表示詞邊界的標(biāo)記。本文采用了{(lán)B、I、E、S}四種標(biāo)記,其中B代表詞語的開始,I代表詞語的中間,E代表詞語的結(jié)尾,S代表單個(gè)字詞語。以“總理李克強(qiáng)調(diào)研上海外高橋”為例,標(biāo)注結(jié)果如圖2所示。
圖2 分詞序列標(biāo)注示例
本文采用結(jié)構(gòu)化感知器模型(Structured Perceptron[10])訓(xùn)練。為了防止模型過擬合,采用平均感知器算法對(duì)訓(xùn)練過程中的參數(shù)求平均?;诟兄鞯闹形姆衷~訓(xùn)練算法如算法1所示。
算法1 平均感知器模型訓(xùn)練算法1:輸入:D={(x,y)}N2:w←03:fort=1…Tdo4: forxi,yi()∈Ddo5: z=argmaxy'∈GEN(xi)(φ(xi,y')·w)6: ifz≠ythen w←w+φxi,yi()-φ(xi,z)8: endif9: endfor10:endfor11:w-=1NT∑n=1..N,t=1..Twn,t12:returnw-
為了解決重復(fù)訓(xùn)練,領(lǐng)域數(shù)據(jù)快速更迭等問題,本文在結(jié)構(gòu)化感知器中文分詞的基礎(chǔ)上提出一種增量式訓(xùn)練算法。
4.1 算法
本文方法可以歸納為在已有感知器分詞模型基礎(chǔ)之上繼續(xù)訓(xùn)練。增量式訓(xùn)練算法包含兩個(gè)階段: 第一階段的訓(xùn)練算法與傳統(tǒng)感知器算法相同,用數(shù)據(jù)集D1訓(xùn)練得到模型w1;第二階段,用數(shù)據(jù)集D2和模型w1訓(xùn)練模型得到模型w2(如算法2所示)。
算法2 感知器模型增量訓(xùn)練算法1:w1←perceptron-train(D1)2:w2←incremental-perceptron-train(w1,D2)
在實(shí)際應(yīng)用情景中,D1是相對(duì)豐富且不同于目標(biāo)領(lǐng)域的標(biāo)注數(shù)據(jù),例如新聞?lì)I(lǐng)域數(shù)據(jù);D2是目標(biāo)領(lǐng)域(如財(cái)經(jīng)、小說等)的相對(duì)較少的標(biāo)注數(shù)據(jù)。第二階段的訓(xùn)練算法,以模型w1和目標(biāo)領(lǐng)域數(shù)據(jù)D2為輸入。設(shè)D1有N1條數(shù)據(jù),第一階段迭代訓(xùn)練T1次,第二階段同理,wn,t表示在第t輪更新第n個(gè)數(shù)據(jù)時(shí)的參數(shù)向量,則第二階段的平均參數(shù)為式(1)。
(1)
4.2 增量訓(xùn)練收斂性的證明
Collins等人[10]證明了結(jié)構(gòu)化感知器算法的收斂性。本文提出了一種增量訓(xùn)練算法,需要回答“增量訓(xùn)練算法能否在D2數(shù)據(jù)上有限步驟內(nèi)收斂”,亦即證明其收斂性。由于增量訓(xùn)練采用第一階段的模型參數(shù)做為初始參數(shù)值,增量訓(xùn)練的收斂性證明問題等價(jià)于證明感知器算法在初始權(quán)重w1≠0時(shí)的收斂性。本文沿用Collins等人[10]的證明方法,在這一段證明增量訓(xùn)練算法在D2線性可分的情況下收斂。
定理: 增量訓(xùn)練算法在D2線性可分情況下收斂。
同理可證線性不可分的情況下增量訓(xùn)練依舊收斂,限于篇幅限制該證明省略。
4.3 優(yōu)化的增量訓(xùn)練實(shí)現(xiàn)方法
在上述增量訓(xùn)練算法中,第二階段先復(fù)制創(chuàng)建一個(gè)與w1一樣的模型,并在此基礎(chǔ)上增添訓(xùn)練語料D2迭代更新參數(shù),最終輸出一個(gè)新的模型w2。然而,第二階段僅更新了在D2語料中出現(xiàn)的特征對(duì)應(yīng)的參數(shù),完全復(fù)制一份w1在空間上是十分低效的。為此本文提出了一種更高效的實(shí)現(xiàn)方法。在第二階段,方法創(chuàng)建一個(gè)新的模型wΔ來記錄原始第二階段訓(xùn)練的參數(shù)改變量,新模型wΔ的工作依賴于w1。原始領(lǐng)域特征空間、混合訓(xùn)練特空間與增量訓(xùn)練特空間如圖3所示。由于第二階段僅更新了D2中出現(xiàn)的參數(shù),因此增量模型wΔ只需記錄與D2相關(guān)的參數(shù),大大縮小了空間。優(yōu)化后的增量訓(xùn)練第二階段算法如算法3所示。
圖3 特征空間對(duì)比圖
算法3 優(yōu)化增量訓(xùn)練第二階段算法1:輸入:D2={(x,y)}N2,w12:fort=T1+1…T2do3: forxi,yi()∈D2do4: z=argmaxy'∈GENxi()(φ(xi,y')·w+φΔ(xi,y')·wΔ)5: ifz≠ythen6: wΔ←wΔ+φΔxi,yi()-φΔ(xi,z)7: endif8: endfor9:endfor10:wΔ=1N1T1+N2T2?è?∑n=1..N1,t=1..T1wn,t+∑n=1..N2,t=T1.T1+T2.wn,t??÷11:returnwΔ
5.1 實(shí)驗(yàn)設(shè)置
本文在CTB5.0和誅仙網(wǎng)絡(luò)小說數(shù)據(jù)上進(jìn)行試驗(yàn)。CTB5.0數(shù)據(jù)劃分參照前人工作[11],用于訓(xùn)練第一階段模型。誅仙小說數(shù)據(jù)劃分參照Zhang等[5],訓(xùn)練集用于訓(xùn)練第二階段模型,測(cè)試集用于評(píng)價(jià)模型性能。為了模擬不同訓(xùn)練數(shù)據(jù)規(guī)模下算法的性能,隨機(jī)選取500句誅仙訓(xùn)練數(shù)據(jù)作為小規(guī)模訓(xùn)練集,并用全部訓(xùn)練數(shù)據(jù)作為大規(guī)模數(shù)據(jù)。
在基于字的分詞模型的特征方面,本文參考張梅山等[12]的論文,并從一定程度上簡(jiǎn)化了其中的詞典特征。本文的分詞器使用的特征列表如表1所示。
表1 分詞器使用的特征
其中,下標(biāo)i代表特征模板中的字與待標(biāo)注字的相對(duì)位置。dup(x,y)表示x,y是否為相同字,chartype(c)表示c的字類型,字類型包括字母(例如,“A”),數(shù)字(例如,“1”)以及標(biāo)點(diǎn)(例如,“,”)。本文使用的詞典特征主要有三類,match_prefix(c0,D)表示以c0為詞首的句子片段在詞典D中匹配的最長(zhǎng)的詞,match_mid(c0,D)表示以c0為詞中而match_suffix(c0,D)表示以c0為詞尾。本文使用的詞典通過訓(xùn)練語料構(gòu)造。構(gòu)造方法是抽取訓(xùn)練語料中出現(xiàn)的頻率大于等于5的詞以及其詞性構(gòu)成詞典。
5.2 增量訓(xùn)練實(shí)驗(yàn)
本文基線系統(tǒng)是使用CTB5.0訓(xùn)練數(shù)據(jù)訓(xùn)練的基于字的感知器中文分詞模型,表2顯示了基線模型的實(shí)驗(yàn)結(jié)果。本文分別在新聞(CTB5.0)和誅仙(ZX)測(cè)試集上評(píng)價(jià)基線模型性能。在與訓(xùn)練數(shù)據(jù)同源的新聞(CTB5.0)測(cè)試集上,基線模型的F值為96.65%,而在誅仙測(cè)試集上,F(xiàn)值降到86.55%。這說明單獨(dú)由新聞?lì)I(lǐng)域數(shù)據(jù)訓(xùn)練的模型在誅仙數(shù)據(jù)集上存在領(lǐng)域適應(yīng)問題。
表2 基線分詞模型實(shí)驗(yàn)結(jié)果
為模擬不同規(guī)模目標(biāo)領(lǐng)域的情況,本文分別采用隨機(jī)選取的500句和2 400句誅仙領(lǐng)域語料作為目標(biāo)領(lǐng)域的訓(xùn)練數(shù)據(jù)。表3顯示了不同方法利用兩種規(guī)模訓(xùn)練數(shù)據(jù)訓(xùn)練的模型在誅仙測(cè)試集上的性能。第一行表示僅使用誅仙訓(xùn)練數(shù)據(jù)訓(xùn)練模型的情況下模型的性能;第二行表示使用新聞?wù)Z料和誅仙語料混合訓(xùn)練獲得的模型在誅仙領(lǐng)域上的性能;第三行表示使用本文提出的增量訓(xùn)練方法訓(xùn)練獲得的模型的性能。
表3 增量訓(xùn)練實(shí)驗(yàn)結(jié)果
通過對(duì)比表3第一行和第二行結(jié)果,可以得出結(jié)論: 對(duì)于數(shù)據(jù)規(guī)模較小的領(lǐng)域,單獨(dú)使用小規(guī)模數(shù)據(jù)并不能獲得性能令人滿意的模型。通過對(duì)比表3第二行和第三行結(jié)果,F(xiàn)值在小規(guī)模訓(xùn)練集上下降0.39%,在大規(guī)模數(shù)據(jù)集上提升了0.24%,結(jié)果表明二者性能相近。
本文也將實(shí)驗(yàn)結(jié)果與相同數(shù)據(jù)集上的前人工作進(jìn)行了對(duì)比。本文提出的增量訓(xùn)練方法在2 400句訓(xùn)練數(shù)據(jù)條件下,較Zhang等人[5]提出的當(dāng)前準(zhǔn)確率最好的模型獲得了微小的提升。但由于Zhang等人使用的模型是分詞詞性標(biāo)注聯(lián)合模型,同時(shí)使用了詞典以及自學(xué)習(xí)等策略。兩者不具備直接考可比性。
5.3 實(shí)驗(yàn)分析
在關(guān)注增量訓(xùn)練準(zhǔn)確率的同時(shí),模型大小以及模型訓(xùn)練時(shí)間也是本文關(guān)注的一個(gè)方面。本文經(jīng)驗(yàn)性地比較了增量訓(xùn)練與傳統(tǒng)混合訓(xùn)練的模型大小(表4)。從表4可以看出,本文提出的優(yōu)化實(shí)現(xiàn)方法可以顯著減少模型大小。
表4 不同實(shí)現(xiàn)方法的模型大小
同時(shí),本文比較了增量訓(xùn)練與混合數(shù)據(jù)方式訓(xùn)練的時(shí)間開銷。在開發(fā)集上,本文將不同數(shù)據(jù)規(guī)模下增量訓(xùn)練的時(shí)間收斂曲線如圖4所示。在小規(guī)模訓(xùn)練集上,增量訓(xùn)練相對(duì)于傳統(tǒng)訓(xùn)練迅速達(dá)到最優(yōu)結(jié)果。在大規(guī)模訓(xùn)練集上,二者趨于一致。
圖4 訓(xùn)練時(shí)間效率對(duì)比圖左圖為500句訓(xùn)練集的,右圖為2 400句訓(xùn)練集,圖中橫軸代表訓(xùn)練時(shí)間,單位為秒,縱軸為開發(fā)集上的F值
上述實(shí)驗(yàn)表明,增量訓(xùn)練算法可以有效解決領(lǐng)域適應(yīng)問題,通過在增量訓(xùn)練第二階段添加目標(biāo)領(lǐng)域語料,能有效提高在目標(biāo)領(lǐng)域的性能。增量訓(xùn)練相對(duì)于傳統(tǒng)混合訓(xùn)練方式,在準(zhǔn)確性上基本持平,而在空間效率和時(shí)間效率上具有明顯優(yōu)勢(shì)。
針對(duì)領(lǐng)域適應(yīng)問題,本文提出了一種增量訓(xùn)練算法來解決增加目標(biāo)領(lǐng)域數(shù)據(jù)方面的限制。我們證明了增量訓(xùn)練算法可以在目標(biāo)領(lǐng)域訓(xùn)練數(shù)據(jù)收斂。實(shí)驗(yàn)表明,通過在增量訓(xùn)練第二階段添加目標(biāo)領(lǐng)域訓(xùn)練語料,可以有效提升目標(biāo)領(lǐng)域分詞效果,并且增量訓(xùn)練算法模型占用的空間小,訓(xùn)練速度更快。
[1] XUE N, SHEN L. Chinese word segmentation as LMR tagging[C]//Proceedings of the second SIGHAN workshop on Chinese language processing. 2003, 17: 176-179.
[2] ZHANG Y, CLARK S. Chinese Segmentation with a Word-Based Perceptron Algorithm[C]//Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. 2007: 840-847.
[3] SHI Y, WANG M. A dual-layer CRFs based joint decoding method for cascaded segmentation and labeling tasks[C]//Proceedings of IJCAI. 2007, 7: 1707-1712.
[4] SUN W. Word-based and Character-based Word Segmentation Models: Comparison and Combination[C]//Proceedings of the COLING 2010: Posters. 2010: 1211-1219.
[5] ZHANG M, ZHANG Y, CHE W,et al. Type-Supervised Domain Adaptation for Joint Segmentation and POS-Tagging[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics. 2014: 588-597.
[6] LIU Y, ZHANG Y. Unsupervised Domain Adaptation for Joint Segmentation and POS-Tagging[C]//Proceedings of COLING 2012: Posters. 2012: 745-754.
[7] LIU Y, ZHANG Y, CHE W, et al. Domain Adaptation for CRF-based Chinese Word Segmentation using Free Annotations[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2014: 864-874.
[8] LIU Y, ZHANG M, CHE W, et al. Micro blogs Oriented Word Segmentation System[C]//Proceedings of the Second CIPS-SIGHAN Joint Conference on Chinese Language Processing. 2012: 85-89.
[9] XUE N. Chinese word segmentation as character tagging[J]. Computational Linguistics and Chinese Language Processing, 2003, 8(1): 29-48.
[10] COLLINS M. Discriminative Training Methods for Hidden Markov Models: Theory and experiments with perceptron algorithms[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10. 2002: 1-8.
[11] SUN W, XU J. Enhancing Chinese word segmentation using unlabeled data[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. 2011: 970-979.
[12] 張梅山, 鄧知龍, 車萬翔,等. 統(tǒng)計(jì)與詞典相結(jié)合的領(lǐng)域自適應(yīng)中文分詞[J]. 中文信息學(xué)報(bào), 2010, 26(2): 8-12.
An Incremental Learning Scheme for Perceptron Based Chinese Word Segmentation
HAN Bing, LIU Yijia, CHE Wanxiang, LIU Ting
(Research Center for Social Computing and Information Retrieval,Harbin Institute of Technology, Harbin, Hei Longjiang 150001, China)
In this paper, we propose an incremental learning scheme for perceptron based Chinese word segmentation. Our method can perform continuous training over a fine tuned source domain model, enabling to deliver model without annotated data and re-training. Experimental results shows the scheme proposed can significantly improve adaptation performance on Chinese word segmentation and achieve comparable performance with traditional method. At the same time, our method can significantly reduce the model size and the training time.
Chinese word segmentation; domain adaptation; incremental learning
韓冰(1990—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:bhan@ir.hit.edu.cn劉一佳(1988—),博士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:yjliu@ir.hit.edu.cn車萬翔(1980—),副教授,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E-mail:car@ir.hit.edu.cn
1003-0077(2015)05-0049-06
2015-07-26 定稿日期: 2015-09-16
TP391
A