錢濤 姬東鴻? 戴文華
(1.武漢大學 計算機學院, 湖北 武漢 430072; 2.湖北科技學院 計算機科學與技術學院, 湖北 咸寧 437100)
基于遷移的微博分詞和文本規(guī)范化聯(lián)合模型*
錢濤1姬東鴻1?戴文華2
(1.武漢大學 計算機學院, 湖北 武漢 430072; 2.湖北科技學院 計算機科學與技術學院, 湖北 咸寧 437100)
傳統(tǒng)的分詞器在微博文本上不能達到好的性能,主要歸結于:(1)缺少標注語料;(2)存在大量的非規(guī)范化詞.針對這兩類問題,文中提出一個分詞和文本規(guī)范化的聯(lián)合模型,該模型在遷移分詞基礎上,通過擴充遷移行為來實現(xiàn)文本規(guī)范化,進而對規(guī)范的文本進行分詞.在實驗中,采用大量的規(guī)范標注文本及少量的微博標注文本進行訓練,實驗結果顯示,該模型具有較好的域適應性,其分詞錯誤率比傳統(tǒng)的方法減少了10.35%.
分詞;文本規(guī)范化;域適應;遷移模型;微博
微博已成為當前自然語言處理(NLP)領域的一個研究重點,但傳統(tǒng)的NLP工具在微博域上并不能獲得較好的性能[1- 2].中文分詞是NLP最基礎的任務,它的好壞決定了其他NLP任務的性能.
微博分詞通常看作是一個域適應問題,大多數(shù)方法從微博中抽取域特征[3],擴充域詞典[4],然后采用傳統(tǒng)的方法(如CRF、Transition-Based等方法)來學習模型.然而,當前的標注語料大都是基于規(guī)范文本的,而微博域缺少相關的標注語料,使得傳統(tǒng)的分詞工具在微博域并不能獲得較好的分詞性能,其中,最主要的原因之一是微博中存在大量的非規(guī)范詞,如“給力”、“妹紙”、“雞動”等.
文本規(guī)范化是微博的一個預處理過程,其目的是把非規(guī)范詞轉化為規(guī)范詞,進而轉化為規(guī)范文本.它通常被看作是一個噪音信道問題[5]和翻譯問題[6].大多數(shù)工作主要研究英語的規(guī)范化,它們通常采用分階段的非監(jiān)督方法,先檢測再規(guī)范化.
不同于英文依據詞是否在詞典中來判斷一個詞是否為非規(guī)范詞,中文非規(guī)范詞的判斷是非常困難的.中文非規(guī)范詞的構成形式具有多樣性,如同音詞、縮寫、音譯、重復、釋義等,由于這種多樣性,人們在處理文本規(guī)范化時,通常根據不同的變化類型訓練不同的模型[7- 8].當前的研究結果顯示,文本規(guī)范化有助于提升微博域中其他NLP任務的性能[2,8].
對于中文微博,由于文本規(guī)范化需要預先分詞,且規(guī)范化有助于分詞,因此有必要將分詞和規(guī)范化任務進行聯(lián)合.Wang等[9]提出了一個聯(lián)合分詞和非規(guī)范詞的檢測模型,但并沒有對非規(guī)范詞做規(guī)范化處理;Kaji等[10]提出了基于日文的聯(lián)合分詞、詞性標注和文本規(guī)范化的模型.這些模型采用大量標注的非規(guī)范文本進行訓練,因而實現(xiàn)代價較大.
文中提出一個分詞和規(guī)范化聯(lián)合模型.該模型采用基于遷移的分詞模型,擴充遷移行為以實行文本規(guī)范化;同時,采用規(guī)范標注文本進行訓練,克服了缺少標注語料的問題;另外,該模型融合少量的微博標注文本進行訓練,能同時獲取非規(guī)范及規(guī)范文本特征,自然地實行特征擴充[11],因此具有較好的域適應性.
該聯(lián)合模型基于一個自動構建的非規(guī)范詞典來檢索非規(guī)范詞所對應的候選規(guī)范詞.該詞典由〈非規(guī)范詞,規(guī)范詞〉對組成,其構建基于如下假設:非規(guī)范化詞通常都有相應的規(guī)范詞與之對應[7- 8],如妹紙——妹子、海龜——海歸、童鞋——同學等.
中文分詞輸入一個未分割的句子,輸出一個已分割的序列,可表示成如下最優(yōu)化問題:給一個句子x,輸出F(x)滿足:
(1)式中:Gen(x)為可能的分割序列集;目標函數(shù)f(y,w)評估生成的分割序列,其中y表示生成的序列,w表示序列所對應的特征權重向量.
文中把Z&C模型[12]作為基線系統(tǒng).Z&C模型是一個基于遷移的分詞模型,它將分詞看作是一個遷移序列生成過程,其主要優(yōu)點在于特征選擇更靈活,不僅可利用字的特征,還可利用詞及狀態(tài)序列的特征.基于遷移的分詞模型的目標函數(shù)可表示為
(2)
其值為分割遷移行為評估值之和.式(2)中,|x|表示句子x的長度,i表示字符的序號,Φ(x,yi,ai)表示在字符i處遷移行為ai時的特征向量.
一個遷移分詞模型被定義為一個四元組M=〈C,T,W,Ct〉,其中:C是狀態(tài)空間;T是轉換集,每一個轉換表示為一個函數(shù)C→Ct,Ct是一個終態(tài)集;W是一個輸入句子w0…wn-1,其中wi表示一個字符.模型學習時,對每一個可能遷移(即從一個狀態(tài)轉換到另一個狀態(tài))進行評估打分.每一個狀態(tài)是一個四元組ST=〈Si,u,v,c〉,其中Si表示已被分割的前i個字符序列,u表示最后一個被分割的詞在句子中的索引,v表示倒數(shù)第二個被分割的詞在句子中的索引,c表示分割序列Si的評估值.
圖1給出了分詞模型的演繹推理系統(tǒng).該系統(tǒng)的處理過程如下:系統(tǒng)從左至右對每個字進行處理,處理每個字時,分別執(zhí)行以下2種遷移行為(或推理規(guī)則):
(1)APP(i),把字符wi從未分割隊列中刪除,并加到已分割的最后一個詞的后面構成一個新詞,其評估值c=c+α,其中α為行為APP時新增的局部評估值.
(2)SEP(i),把wi從未分割隊列中去除,把它與最后一個詞分割,作為一個可能的新詞.其評估值c=c+β,其中β為行為SEP時新增的局部評估值.
例如,給定句子“工作壓力啊!”,一個可能的遷移行為序列可表示如下:SEP(工)、APP(作)、SEP(壓)、APP(力)、SEP(啊)、SEP(!).
圖1 基于遷移的分詞模型的演繹推理系統(tǒng)
Fig.1 Deductive system of transition-based segmentation model
文中所提聯(lián)合模型擴展自基于遷移的分詞模型,其處理過程與基于遷移的分詞模型類似.主要區(qū)別是除了前述兩種遷移行為(APP和SEP)外,為了實現(xiàn)文本規(guī)范化,該模型還引入了另一種遷移行為——SEPS.執(zhí)行該行為時,如果最后一個分割的詞在詞典中存在它的規(guī)范詞,則用該規(guī)范詞代替非規(guī)范詞.圖2給出了該模型的一個遷移例子.
圖2 聯(lián)合模型的遷移行為示例
如圖2所示,在處理當前字“大”時,首先把它從隊列中去除掉,然后分別執(zhí)行以下3種行為:
(1)APP(“大”):在非規(guī)范化分割序列中把“大”加到最后一個單詞“鴨梨”后作一個詞.
(2)SEP(“大”):“大”與“鴨梨”分割作為一個新的單詞.
(3)SEPS(“大”,“壓力”):執(zhí)行SEP(“大”),且在規(guī)范文本分割序列中用“壓力”替換上一次SEP行為分割的最后一個詞“鴨梨”.
例如,給定句子“工作鴨梨啊!”,一個可能的遷移行列序列可表示如下:SEP(工)、APP(作)、SEP(壓)、APP(力)、SEPS(啊,壓力)、SEP(!).
詞典替換基于一個非規(guī)范詞典,詞典的每一項由〈非規(guī)范化詞、規(guī)范詞〉對組成.由于是使用已存在的詞典,因此模型并不需考慮非規(guī)范詞的多樣性.2.1 形式化
文中所提聯(lián)合模型與分詞模型的另一個主要區(qū)別在于聯(lián)合模型生成一個分割序列對:規(guī)范及非規(guī)范序列對,可表示為公式(3).對一個句子x,模型的輸出F(x)滿足:
(3)
式中,Gen(x)表示可能的輸出序列對.使用目標函數(shù)f(y,y′,w)評估生成的分割序列對,其中y、y′分別表示生成的規(guī)范及非規(guī)范序列,目標函數(shù)表示如下:
(4)
由于該聯(lián)合模型生成了規(guī)范及非規(guī)范分割序列對,它能獲得兩類特征——非規(guī)范和規(guī)范文本特征,因此該模型具有以下優(yōu)點:
(1)采用規(guī)范文本特征,該模型能直接使用大量已標注的規(guī)范語料文本進行訓練,克服了微博文本缺少語料的問題;
(2)使用兩類特征,其中規(guī)范文本特征作為公共特征,非規(guī)范文本作為域特征,自然地實現(xiàn)了特征擴充[11],模型具有較好的域適應性.
后面的實驗顯示,利用大量的規(guī)范語料和少量的微博語料進行訓練后,模型的性能得到較大提升.
2.2 解碼和訓練
解碼算法采用基于束的寬度搜索算法.對于待分詞的句子,從左至右地處理每個字符,在處理一個字符時,分別執(zhí)行3種遷移行為(APP、SEP和SEPS);接著,產生新的輸出序列集,同時保留N個評分最高的候選輸出序列;然后,在當前候選輸出序列的基礎上處理下一個字符,直到處理完所有字符;最后輸出評分最高的候選輸出序列.算法1給出了詳細的偽代碼.其中:agenda儲存當前的候選輸出序列集,N-Best從當前的agenda返回前N個分數(shù)最高的候選項,GetNorWord在非規(guī)范詞典中檢索非規(guī)范詞所對應的候選規(guī)范詞.
算法1:解碼器
輸入:sent:Infomalsentence,Dictionary
輸出:Bestnormalizationsentence
1.agenda←NULL
2.forindexin[0..LEN(sent)]:
3.forcandinagenda:
4.APP(agenda,cand,sent[index])
5.SEP(agenda,cand,sent[index])
6.norWords←GetNorWord(cand.lastWord)
7.forwordinnorWords
8.SEPS(agenda,cand,insent[index],word)
9.agenda←N-BEST(agenda)
10.returnBEST(agenda)
訓練過程與解碼算法過程類似,區(qū)別在于當訓練結果與標準不一致時,學習算法會對參數(shù)進行更新.學習算法是一個基于泛化的感知機算法[13],參數(shù)更新采用Collins等[14]提出的“提前更新”策略.
2.3 特征
文中模型使用了Z&C模型[12]所使用的全部特征模板,包括基于字、詞的特征模板.由于缺少標注語料,這些特征對于文本標準化任務來說所包含的信息太少.許多研究指出,語言統(tǒng)計信息對文本規(guī)范化有著重要的作用[8,10].
文中從基于詞的語言模型抽取語言統(tǒng)計特征.語言模型從標準的規(guī)范文本中構建.在實驗中,學習了3個語言模型,分別是一元、二元、三元模型,其對應的特征模板依次為word-1-gram、word-2-gram、word-3-gram.
每類模型按概率分成10個等級,分別對應于10個特征模板.例如,二元單詞“壓力-大”的概率在第二級中,則其特征表示為“word-2-gram=2”.
在實驗中,采用SRILMtools(見http:∥www.speech.sri.com/projects/srilm/)在GigawordCorpus(見https:∥catalog.ldc.upenn.edu/LDC2003T05)上訓練語言模型.實驗結果顯示,語言統(tǒng)計特征同時提升了文本標準化和分詞的性能.
雖然構建大規(guī)模的非規(guī)范詞典是非常困難的,但“非規(guī)范-規(guī)范”詞對關系能從大模型的Web語料中獲取[7],且非規(guī)范詞的構成具有一定規(guī)律.基于此,文中采用兩種方法構建和擴充非規(guī)范詞典.由于篇幅原因,這里僅給出簡要介紹.
第1種方法是從大規(guī)模微博文本中抽取“非規(guī)范-規(guī)范”詞對關系.許多非規(guī)范詞和規(guī)范詞通常在相同的的文本中共現(xiàn),從文本中能抽取出它們的關系模式.如表1所示,從第1個例子能抽取出模式“formal也稱informal”,從第2個例子中能抽取出模式“informal(formal)”.文中使用Bootstrapping算法來抽取“非規(guī)范-規(guī)范”詞對.首先手動收集一個小的詞對集,然后使用這些詞對作為種子,抽取關系模式,再利用這些模式識別更多的關系,并把它們擴充至詞典.由于抽取的詞對有大量的噪音,一個基于相似度的分類器被用于打分并過濾噪音,最后前n個得分最高的詞對加入詞典.
表1 “非規(guī)范-規(guī)范”詞共現(xiàn)例子
第2種方法是利用非規(guī)范詞的生成規(guī)律來生成新的非規(guī)范詞.雖然非規(guī)范詞具有多樣性,但是其生成具有一定的規(guī)律,如采用組合、音借、縮寫、同音、重復等方式生成.文中利用已識別的“非規(guī)范-規(guī)范”詞對學習出生成模式,從而構建更多可能的“非規(guī)范-規(guī)范”詞對.例如:在“妹子-妹紙”中,采用模式:子→紙,把“妹子”變成“妹紙”.使用這種方式,能生成更多的詞對,如“漢子-漢紙”、“男子-男紙”、“孫子-孫紙”.
為了保證詞典質量,兩種方法都采用人工輔助監(jiān)督.在實驗中,一共構建了32 787個非規(guī)范詞對.
對每個“非規(guī)范-規(guī)范”詞對,統(tǒng)計出替換概率.考慮到在缺乏上下文的情況下無法判斷是否應該替換,例如對“鴨梨好大啊”,是否用“壓力”替換“鴨梨”?可根據替換概率來判斷,這樣可部分彌補訓練語料不足的缺點.
4.1 語料標注
為了訓練和評估文中所提模型,開發(fā)了一個微博語料庫,從新浪微博中抽取語料,對網址、情感符、用戶名、標簽作預處理,最后得到了5 894個微博文本,包含32 061個詞.
兩個具有語言學背景的學生手工標注了上述語料的詞邊界并進行文本規(guī)范化.分詞采用CTB(見https:∥catalog.ldc.upenn.edu/LDC2010T07)標準.非規(guī)范詞一共標注了1 071個,其中包含616個不同的非規(guī)范詞對.非規(guī)范詞占整個語料的1.34%.為了驗證前面的假設——每一個非規(guī)范詞通常有一個對應的規(guī)范詞,文中分析了標注的一致性.其Cohen’s Kappa值為0.95,這說明非規(guī)范詞是很容易被標注的.
4.2 實驗設置
標注的實驗數(shù)據按7∶1∶2的比例分成3部分:訓練集、開發(fā)集、測試集.實驗中采用兩類訓練數(shù)據進行訓練:一是直接用CTB進行訓練;二是融合CTB和微博語料進行訓練.由于微博語料太少,在實驗中沒有單獨采用微博語料用于訓練.
實驗中,采用傳統(tǒng)的F值對分詞、文本規(guī)范化進行評估.
4.3 基線
為了和聯(lián)合模型進行比較,文中采用以下兩個基線系統(tǒng):
(1)Stanford分詞器.采用Standford分詞器直接對開發(fā)和測試數(shù)據進行分詞.
(2)S;N分詞.先用基于遷移的分詞模型分詞,然后在分詞的基礎上直接進行文本規(guī)范化.
每個系統(tǒng)按是否采用語言模型特征分為兩個子系統(tǒng).
4.4 開發(fā)集結果
開發(fā)集主要用來確定束搜索的寬度及訓練次數(shù).實驗顯示,當寬度為16、循環(huán)次數(shù)為32時,開發(fā)集測試性能最好.另外,開發(fā)集也用來分析與基線的比較、詞典對性能的影響等.表2給出了開發(fā)集的實驗結果.其中,S;N表示Pipe-Line模型,SN表示文中提出的聯(lián)合模型,“模型”+lm表示在原模型的基礎上增加語言模型特征.可以看出,傳統(tǒng)NLP工具在微博域上并不能獲得較好的性能,采用Stanford分詞器,其分詞性能為87.55%.
表2 開發(fā)集結果1)
1)Seg-F1—分詞的F值;Nor-F1—規(guī)范化的F值.
(1)與Pipe-Line的比較
實驗的主要目標之一是驗證文本規(guī)范化是否有助于提升微博域的分詞性能.從表2可以看到,聯(lián)合模型的性能要比Pipe-Line的性能高.說明文本規(guī)范化有助于提高分詞效果,且兩個任務彼此受益.
總體而言,分詞性能提升不是很高,這主要是由于非規(guī)范詞在語料中所占比重太小(只占語料的1.6%).此外,表3也給出了開發(fā)集中規(guī)范詞和非規(guī)范詞的識別精度(即召回率).使用詞典后,非規(guī)范化詞的識別精度大大提高,規(guī)范詞的識別精度也有小幅提升,說明非規(guī)范詞不僅有助于非規(guī)范詞性能的提升,而且有助于規(guī)范詞的分割.
表3 開發(fā)集上規(guī)范詞、非規(guī)范詞及所有詞的識別精度1)
Table 3 Recalls of formal,informal and all words on development set
系統(tǒng)CTB訓練CTB+微博訓練NRIRRNRIRRS;N0.86110.50000.85240.89090.74240.8873SN0.86140.65530.85520.89110.84470.8890S;N+lm0.90430.41290.89250.92510.61740.9177SN+lm0.90450.76520.90090.92550.87880.9244
1)NR—規(guī)范詞的召回率;IR—非規(guī)范詞的召回率;R—所有詞的召回率.
(2)語言模型的影響
從表2可以看出,當使用語言統(tǒng)計特征時,分詞和文本規(guī)范化性能得到較大提升,說明使用語言統(tǒng)計信息不僅有助于文本規(guī)范化,而且能幫助微博分詞.
此外,由表3可知,使用語言模型特征后,聯(lián)合模型SN+lm中非規(guī)范詞的分詞性能得到較大提升;但對于Pipe-Line模型S;N+lm,非規(guī)范詞的分詞性能反而下降了.產生這種現(xiàn)象的主要原因是非規(guī)范詞的低頻性——在使用語言特征時,含有非規(guī)范詞的文本評估得分會較低,導致不能正確地分詞,甚至影響規(guī)范詞的分割.而當把它規(guī)范化后,評估分數(shù)會相應地提升.這說明直接在微博文本中使用語言統(tǒng)計特征會產生副作用,而文中所提聯(lián)合模型更適合使用語言模型特征.
(3)詞典的影響
非規(guī)范詞典在聯(lián)合模型中起著重要作用.使用詞典本質上有助于減少測試語料中的未登錄詞.此外,詞典對語料中非規(guī)范詞的覆蓋率也是非常重要的.覆蓋率越高,則性能越好.文中所構建的詞典在開發(fā)集和測試集的覆蓋率分別是47.8%和49.5%.
為了調查覆蓋率對分詞性能的影響,手動構建了10個詞典,其覆蓋率分別為10%,20%,…,100%.圖3顯示了模型對不同詞典的分詞性能.隨著詞典覆蓋率的增加,分詞性能得到進一步的提升.因此,構建合適的詞典對文中所提模型是非常重要的.
圖3 開發(fā)集采用不同覆蓋詞典的分詞F值
Fig.3Fvalue of segmentation with different cover word dictionaries on development set
4.5 測試集結果
表4給出了在測試集上的實驗結果,它驗證了4.4節(jié)的結論:聯(lián)合模型的性能要比Pipe-Line模型的高.比較實驗結果,在CTB+微博訓練模型基礎上,采用語言模型特征后,聯(lián)合模型的分詞錯誤率比Pipe-Line模型的減少了10.35%.
表4 測試集結果
從開發(fā)集及測試集結果可以看出,直接采用標準文本進行訓練時,文中所提聯(lián)合模型能提高分詞性能;實驗結果也顯示,采用標準文本及少量的微博文本進行訓練,模型的域適應性更好.這說明了微博標注語料在微博分詞模型學習中的重要性.
4.6 錯誤分析
對于存在于規(guī)范詞典中的非規(guī)范詞,主要存在以下兩類錯誤:
(1)對于一對多的詞容易產生分詞錯誤.例如:美偶-美國偶像.由于“美國偶像”包含兩個詞“美國”和“偶像”,在將“美偶”規(guī)范化為“美國偶像”時,沒有作進一步分詞處理.
(2)數(shù)字音借詞識別錯誤.例如,“7456”在上下文中應規(guī)范化為“氣死我了”,但被識別為數(shù)字.這類錯誤是非常難避免的,識別時需要更多的上下文信息.
文中提出了一個基于遷移的分詞和規(guī)范化聯(lián)合模型,該模型能有效利用標準的標注語料進行訓練,克服了缺少語料的問題.使用兩類特征對模型打分,其中規(guī)范文本特征作為公共特征,非規(guī)范文本作為域特征,自然地實現(xiàn)了特征擴充,使模型具有較好的域適應性.實驗結果顯示,聯(lián)合模型能使兩個任務彼此受益,且語言統(tǒng)計特征的采用有助于提高模型的性能.該模型性能依賴于所構建的非規(guī)范詞典,今后擬將進一步研究如何有效地擴充詞典.
[1] Foster Jennifer,Cetinoglu ?zlem,Wagner Joachim,et al.#hardtoparse:POS tagging and parsing the twitter-verse [C]∥AAAI 2011 Workshop on Analyzing Microtext.San Francisco:AAAI,2011:20- 25.
[2] Gimpel Kevin,Schneider Nathan,O’Connor Brendan,et al.Part-of-speech tagging for twitter:annotation,features,and experiments [C]∥Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Portland:ACL,2011:42- 47.
[3] Xi Ning,Li Bin,Tang Guangchao,et al.Adapting conventional Chinese word segmenter for segmenting micro-blog text:combining rule-based and statistic-based approaches [C]∥Proceedings of the Second CIPS-SIGHAN Joint Conference on Chinese Language Processing.Tianjin:ACL,2012:63- 68.
[4] Duan Huiming,Sui Zhifang,Tian Ye,et al.The cips-sighan CLP 2012 Chinese word segmentation on microblog corpora bakeoff [C]∥Proceedings of the Second CIPS-SIGHAN Joint Conference on Chinese Language Processing.Tianjin:ACL,2012:35- 40.
[5] Pennell L Deana,Liu Yang.Normalization of informal text [J].Computer Speech & Language:2014,28(1):256- 277.
[6] Contractor Danish,Faruquie A Tanveer,Subramaniam L Venkata.Unsupervised cleansing of noisy text [C]∥Proceedings of the 23rd International Conference on Computational Linguistics.Beijing:ACL,2010:189- 196.
[7] Li Zhifei,Yarowsky David.Mining and modeling relations between formal and informal Chinese phrases from web corpora [C]∥Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing.Hawaii:ACL,2008:1031- 1040.
[8] Wang Aobo,Kan Min-Yen,Andrade Daniel,et al.Chinese informal word normalization:an experimental study [C]∥Proceedings of the Sixth International Joint Conference on Natural Language Processing.Nagoya:Asian Federation of Natural Language Processing,2013:127- 135.
[9] Wang Aobo,Kan Min-Yen.Mining informal language from Chinese microtext:joint word recognition and segmentation [C]∥Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Sofia:ACL,2011:731- 741.
[10] Kaji Nobuhiro,Kitsuregawa Masaru.Accurate word segmentation and pos tagging for Japanese microblogs:corpus annotation and joint modeling with lexical normalization [C]∥Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.Doha:ACL,2014:99- 109.
[11] Hal Daumé III.Frustratingly easy domain adaptation [C]∥Proceedings of the 45th Annual Meeting of the Asso-ciation for Computational Linguistics.Sofia:ACL,2007:256- 263.
[12] Zhang Y,Clark S.Chinese segmentation with a word-based perceptron algorithm [C]∥Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics.Sofia:ACL,2007:840- 847.
[13] Collins Michael.Discriminative training methods for hidden Markov models:theory and experiments with perceptron algorithms [C]∥Proceedings of the 2002 Confe-rence on Empirical Methods in Natural Language Processing.Danfo:ACL,2002:1- 8.
[14] Collins Michael,Roark Brian.Incremental parsing with the perceptron algorithm [C]∥Proceedings of the 42nd Meeting of the Association for Computational Linguistics.Barcelona:ACL,2004:111- 118.
A Transition-Based Word Segmentation Model on Microblog with Text Normalization
QianTao1JiDong-hong1DaiWen-hua2
(1.Computer School,Wuhan University,Wuhan 430072,Hubei,China;2.College of Computer Science and Technology,Hubei University of Science and Technology,Xianning 437100,Hubei,China)
Traditional word segmentation methods fail to achieve good performance on microblog texts,which can be attributed to the lack of annotated corpora and the existence of a large number of informal words.In order to solve the two kinds of problems,a joint model of word segmentation and text normalization is proposed.In this model,on the basis of the transition-based word segmentation,the texts are normalized by extending transition actions and then the words are segmented on the normalized texts.By experiments,the proposed model is trained on both a large number of annotated standard corpora and a small number of microblog corpora.The results show that the proposed model is of better domain adaptability,and it reduces the error rate of word segmentation by 10.35% in comparison with traditional methods.
word segmentation;text normalization;domain adaptation;transition-based model;microblog
2015- 06- 11
國家自然科學基金重點資助項目(61133012);國家自然科學基金資助項目(61173062,61373108);國家社會科學基金重點資助項目(11&ZD189) Foundation items: Supported by the Key Program of National Natural Science Foundation of China(61133012),the National Natural Science Foundation of China(61173062,61373108) and the Key Program of National Social Science Foundation of China(11&ZD189)
錢濤(1975-),男,博士生,現(xiàn)任職于湖北科技學院,主要從事自然語言處理研究.E-mail: taoqian@whu.edu.cn
? 通信作者: 姬東鴻(1967-),男,教授,博士生導師,主要從事計算語言學、機器學習研究.E-mail: dhj@whu.edu.cn
1000- 565X(2015)11- 0047- 07
TP 391
10.3969/j.issn.1000-565X.2015.11.007