国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于線性鏈條件隨機(jī)場(chǎng)的用戶生成文本標(biāo)點(diǎn)標(biāo)注

2019-10-08 06:52:16蘇曉寶劉臣唐莉
軟件 2019年4期

蘇曉寶 劉臣 唐莉

摘 ?要: 標(biāo)點(diǎn)符號(hào)的正確性對(duì)于用戶生成文本的詞性標(biāo)注,命名實(shí)體識(shí)別,依存句法分析等有著重要的作用,正確的標(biāo)點(diǎn)標(biāo)注可以使用戶生成文本的語(yǔ)法結(jié)構(gòu)準(zhǔn)確完整。線性鏈條件隨機(jī)場(chǎng)模型可以容納任意的非獨(dú)立的特征信息,本文通過選取標(biāo)點(diǎn)符號(hào)所在位置左右詞性對(duì)作為模型的觀測(cè)序列,使用條件隨機(jī)場(chǎng)進(jìn)行標(biāo)點(diǎn)符號(hào)的標(biāo)注。實(shí)驗(yàn)的測(cè)試語(yǔ)料采用京東在線產(chǎn)品評(píng)論,結(jié)果表明基于線性鏈條件隨機(jī)場(chǎng)的用戶生成文本標(biāo)點(diǎn)標(biāo)注效率較高。

關(guān)鍵詞: 線性鏈條件隨機(jī)場(chǎng);用戶生成文本;詞性;特征模板;標(biāo)點(diǎn)符號(hào)標(biāo)注

中圖分類號(hào): TP391.1 ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ?DOI:10.3969/j.issn.1003-6970.2019.04.031

本文著錄格式:蘇曉寶,劉臣,唐莉. 基于線性鏈條件隨機(jī)場(chǎng)的用戶生成文本標(biāo)點(diǎn)標(biāo)注[J]. 軟件,2019,40(4):145149

【Abstract】: The correctness of punctuation marks plays an important role in the part-of-speech tagging of user-generated texts, named entity recognition, and dependency parsing,proper punctuation labelling can make the grammatical structure of user-generated text accurate and complete. The linear chain condition random field model can accommodate any non-independent feature information,in this paper, we use the left and right part-of-speech of the position of the punctuation as the observation sequence of the model, and the conditional random field is used to label the punctuation .The test corpus of the experiment uses Jingdong online product reviews, and the results show that the user-generated text punctuation labelling based on the linear chain conditional random field is more efficient.

【Key words】: Linear chain conditional random field; User generated text; Part-of-speech; Feature template; Punctuation labelling

0 ?引言

伴隨著電子商務(wù)的發(fā)展,越來越多的用戶通過計(jì)算機(jī)及個(gè)人移動(dòng)設(shè)備在各個(gè)電商平臺(tái)上購(gòu)買豐富多樣的商品和服務(wù),與此同時(shí)廣大用戶也通過各個(gè)論壇、社交網(wǎng)站、購(gòu)物平臺(tái)發(fā)布商品或者服務(wù)的相關(guān)使用評(píng)論。這些評(píng)論中包含著豐富的信息量,大多數(shù)是關(guān)于用戶對(duì)購(gòu)買商品或服務(wù)的使用感想及建議,其它用戶在購(gòu)買此類商品之前可以參考這些評(píng)論,商家們可以針對(duì)評(píng)論中用戶集中指出的某些問題征對(duì)性地采納,然后完善產(chǎn)品和服務(wù)質(zhì)量,進(jìn)一步為用戶提供更優(yōu)質(zhì)的產(chǎn)品和服務(wù)升級(jí),從而為企業(yè)和商家創(chuàng)造更大的利潤(rùn)。用戶在購(gòu)物平臺(tái)上發(fā)布的商品或服務(wù)評(píng)論也稱為用戶生成文本,用戶生成文本定義為用戶生成的文字材料內(nèi)容[1],即用戶通過各種社交網(wǎng)絡(luò)平臺(tái)將原創(chuàng)的文字材料內(nèi)容展示或者提供給其他的用戶。但是現(xiàn)階段存在的一個(gè)主要問題是用戶生成文本中的標(biāo)點(diǎn)符號(hào)常存在著錯(cuò)誤或者缺失,這使得后續(xù)情感分析與觀點(diǎn)挖掘遇到問題。標(biāo)點(diǎn)符號(hào)可以側(cè)面地表達(dá)用戶的感受和想法,有時(shí)候幾個(gè)標(biāo)點(diǎn)符號(hào)的連續(xù)使用[2]可以負(fù)載用戶內(nèi)在想要表達(dá)的深切的情感信息。

用戶生成文本中的標(biāo)點(diǎn)符號(hào)的標(biāo)注識(shí)別對(duì)于接下來的自然語(yǔ)言處理工作是一個(gè)很重要的基礎(chǔ)環(huán)節(jié)。其中標(biāo)點(diǎn)的正確率會(huì)影響到后續(xù)的中文分詞[3,4]、詞性標(biāo)注[5,6]、命名實(shí)體識(shí)別[7]等一系列環(huán)節(jié)。

張開旭[8]等人利用互信息和t-測(cè)試差基于條件隨機(jī)場(chǎng)在《論語(yǔ)》和《史記》語(yǔ)料庫(kù)上進(jìn)行斷句和標(biāo)點(diǎn)處理,但是該方法需要大規(guī)模的原始標(biāo)注語(yǔ)料供其訓(xùn)練,而且對(duì)于原始語(yǔ)料庫(kù)的文體、句型、數(shù)量規(guī)模依賴性過強(qiáng),不同古文在文體上、篇幅上、實(shí)詞、虛詞、句型使用上差異較大,此方法在其它古文上斷句和標(biāo)點(diǎn)處理效果上波動(dòng)較大,局限性比較大。姑麗加瑪麗·麥麥提艾力[9]等人基于條件隨機(jī)場(chǎng)(CRF)的分層自底向上方法預(yù)測(cè)維吾爾語(yǔ)的韻律詞和韻律短語(yǔ)邊界,并將維吾爾語(yǔ)形態(tài)特征作為韻律邊界預(yù)測(cè)模型的重要特征,以標(biāo)點(diǎn)符號(hào)邊界為單位建立基于CRF的標(biāo)點(diǎn)符號(hào)韻律邊界預(yù)測(cè)模型,并與雙層自底向上CRF模型相結(jié)合,提出一種韻律邊界預(yù)測(cè)方法。Wei Lu[10]等人提出了一種基于動(dòng)態(tài)條件隨機(jī)場(chǎng)的方法將標(biāo)點(diǎn)符號(hào)插入到轉(zhuǎn)錄的對(duì)話語(yǔ)音文本中,并聯(lián)合執(zhí)行句子邊界和句子類型預(yù)測(cè),以及對(duì)語(yǔ)音話語(yǔ)的標(biāo)點(diǎn)預(yù)測(cè),但是在展現(xiàn)F1值中過度專注于優(yōu)化標(biāo)點(diǎn)預(yù)測(cè)性能,沒有考慮到之后的自然語(yǔ)言處理任務(wù)。

鑒于先前關(guān)于標(biāo)點(diǎn)標(biāo)注所作的研究工作較少,本文在此提出了一種基于線性鏈條件隨機(jī)場(chǎng)[11]并結(jié)合利用詞性標(biāo)注之后的用戶生成文本標(biāo)點(diǎn)標(biāo)注識(shí)別方法。與以往的判別模型不同,條件隨機(jī)場(chǎng)允許對(duì)觀測(cè)序列的任意依賴性,而其中的線性鏈條件隨機(jī)場(chǎng)(linear-CRF)能夠?qū)⒇S富的非獨(dú)立的前后上下文特征模板運(yùn)用到模型中,具有特征選擇靈活和擬合程度更好的優(yōu)點(diǎn)。

1 ?條件隨機(jī)場(chǎng)

在條件概率分布P(Y|X)中,X是表示需要標(biāo)注的觀測(cè)序列,Y是狀態(tài)序列,也稱為 標(biāo)記序列。在學(xué)習(xí)條件概率模型時(shí),利用訓(xùn)練數(shù)據(jù)集通過正則化的極大似然估計(jì)學(xué)習(xí)出模型,在預(yù)測(cè)標(biāo)記序列時(shí),任意給定一個(gè)觀測(cè)序列x,得到以條件概率模型分布 (y|x)最大的輸出序列 。此時(shí)如果Y構(gòu)成由無向圖模型G=(N,E)表示的馬爾科夫隨機(jī)場(chǎng)[12],N代表結(jié)點(diǎn)集合,E代表邊的集合,即滿足式子(1)。

2 ?用戶生成文本的標(biāo)點(diǎn)符號(hào)的標(biāo)注

利用CRF進(jìn)行用戶生成文本標(biāo)點(diǎn)標(biāo)注的過程就是給定條件概率模型P(Y|X)和觀測(cè)序列x,求條件概率最大的標(biāo)記序列 ,即對(duì)觀測(cè)序列進(jìn)行標(biāo)注,通過維特比算法[13][14]找出其對(duì)應(yīng)的標(biāo)點(diǎn)符號(hào)標(biāo)注序列 ,使得條件概率P(Y|X)最大。

上述這段評(píng)論是用哈工大LTP進(jìn)行過分詞和詞性標(biāo)注,且標(biāo)點(diǎn)符號(hào)人工標(biāo)注正確的一段用戶生成文本。此時(shí),除了段尾最后一個(gè)標(biāo)點(diǎn)符號(hào)以外,將剩余標(biāo)點(diǎn)符號(hào)所在位置左右的詞性對(duì)作為觀測(cè)變量,就形成了觀測(cè)序列 ,上述這段評(píng)論對(duì)應(yīng)的詞性對(duì)X=(nd-n, u-n, n-v, v-n, v-v, ni-v),詞性標(biāo)注采用的是哈工大LTP詞性標(biāo)注集,如表2所示。

該評(píng)論的標(biāo)點(diǎn)符號(hào)標(biāo)記序列Y=(1,1,1,2,1,1),1代表逗號(hào),2代表句號(hào),3代表頓號(hào),4代表問號(hào),5代表感嘆號(hào),6代表冒號(hào),7代表省略號(hào),鑒于后面的測(cè)試語(yǔ)料中逗號(hào)、句號(hào)、頓號(hào)、問號(hào)、感嘆號(hào)、冒號(hào)、省略號(hào)占全部標(biāo)點(diǎn)符號(hào)的99.7%以上,故在此只討論這七個(gè)標(biāo)點(diǎn)符號(hào)的標(biāo)注識(shí)別。

采用詞性對(duì)的“前后上下文”[16]相關(guān)信息作為該詞性對(duì)的特征,優(yōu)點(diǎn)是能夠同時(shí)使用當(dāng)前詞性對(duì)的前m個(gè)詞性對(duì)和后n個(gè)詞性對(duì)作為該詞性對(duì)的前后上下文信息。這樣,當(dāng)前詞性對(duì)的標(biāo)點(diǎn)符號(hào)標(biāo)注不僅與它前面的詞性對(duì)有關(guān),還與它后面的詞性對(duì)有關(guān),才能更加貼近于用戶生成文本標(biāo)點(diǎn)標(biāo)注的真實(shí)性,更加符合實(shí)際情況。

本文所述的詞性對(duì)的“前后上下文”可以看作 是以當(dāng)前詞性對(duì)為基準(zhǔn)線,包含著前面和后面若干詞性對(duì)的“觀測(cè)序列界面” ? 。但是從理論上說,一方面觀測(cè)序列界面的寬度n越大,用戶生成文本中此時(shí)可以被利用的上下文相關(guān)特征模板信息越多,但是如果觀測(cè)序列界面寬度設(shè)置得過大,不但會(huì)嚴(yán)重降低用戶生成文本標(biāo)點(diǎn)標(biāo)注效率外,還會(huì)出現(xiàn)標(biāo)點(diǎn)標(biāo)注地過擬合現(xiàn)象;另一方面,如果觀測(cè)序列界面寬度被設(shè)置地過小,此時(shí)就不能夠充分利用甚至丟失重要的前后上下文信息。在本文的訓(xùn)練和測(cè)試中,為了盡可能充分利用前后上下文的特征模板信息,又不出現(xiàn)過擬合現(xiàn)象,使用當(dāng)前詞性對(duì)的前后各二個(gè)詞性對(duì)作為“前后上下文”的范圍,這就限定了上下文范圍為“5詞性對(duì)觀測(cè)序列界面”,本文采用的特征模板如表3所示。

3 ?實(shí)驗(yàn)結(jié)果與分析

3.1 ?實(shí)驗(yàn)環(huán)境、數(shù)據(jù)集和評(píng)測(cè)指標(biāo)

本文實(shí)驗(yàn)服務(wù)器主要參數(shù)為CPU:2* Intel(R) Core(TM) i5-6200U CPU@2.30GHz,安裝內(nèi)存:7.48 GB,操作系統(tǒng)為Windows 7 64 bit。使用CRF++0.58工具包進(jìn)行用戶生成文本中標(biāo)點(diǎn)符號(hào)標(biāo)注模型的學(xué)習(xí)。

本文實(shí)驗(yàn)中的訓(xùn)練語(yǔ)料選取自《人民日?qǐng)?bào)》標(biāo)注的PFR語(yǔ)料庫(kù),語(yǔ)料庫(kù)中1998年上半年的新聞報(bào)道已經(jīng)在互聯(lián)網(wǎng)上由《人民日?qǐng)?bào)》新聞信息中心公開提供許可使用權(quán),本文從中選取了1月份前5天共約30萬(wàn)字的500條新聞報(bào)道。然后利用CRF++ 0.58從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)條件概率模型P(Y|X)。

本文實(shí)驗(yàn)采用的測(cè)試語(yǔ)料選取自京東Apple產(chǎn)品自營(yíng)店IphoneX的用戶評(píng)論,根據(jù)用戶評(píng)論中好評(píng),中評(píng),差評(píng)比例,從中選取了約有6萬(wàn)字的200條有效的好評(píng),約1.2萬(wàn)字的40條有效的中評(píng),約1.5萬(wàn)字的50條有效的差評(píng),這些好評(píng),中評(píng),差評(píng)中標(biāo)點(diǎn)符號(hào)均在10個(gè)或者10個(gè)以上,然后事先人工檢查標(biāo)注用戶生成文本中的標(biāo)點(diǎn)符號(hào)。將這些用戶生成文本用哈工大的LTP進(jìn)行中文分詞、詞性標(biāo)注,利用CRF對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè),再與人工事先正確標(biāo)注的用戶生成文本標(biāo)點(diǎn)符號(hào)進(jìn)行比較分析。

在對(duì)用戶生成文本標(biāo)點(diǎn)標(biāo)注的性能評(píng)估中,采用了常用的評(píng)測(cè)指標(biāo)準(zhǔn)確率P,召回率R和 這三項(xiàng)性能評(píng)測(cè)指標(biāo):

3.2 ?實(shí)驗(yàn)結(jié)果及其分析

CRF++0.58訓(xùn)練數(shù)據(jù)時(shí)使用的規(guī)范化算法默認(rèn)是CRF-L2,迭代次數(shù)為45次,訓(xùn)練時(shí)間為1.57 s。

原始用戶生成文本標(biāo)點(diǎn)標(biāo)注平均準(zhǔn)確率為57.9%。

利用Python對(duì)比事先人工正確標(biāo)注的標(biāo)點(diǎn)符號(hào)和CRF工具預(yù)測(cè)的標(biāo)點(diǎn)符號(hào)標(biāo)注,得到圖2所示的實(shí)驗(yàn)結(jié)果。

實(shí)驗(yàn)結(jié)果可以看出,基于線性鏈條件隨機(jī)場(chǎng)的用戶生成文本的標(biāo)點(diǎn)標(biāo)注平均準(zhǔn)確率比原始用戶生成文本標(biāo)點(diǎn)標(biāo)注準(zhǔn)確率高了13.5%,可以在一定程度上正確標(biāo)注標(biāo)點(diǎn)符號(hào)。

4 ?結(jié)束語(yǔ)

鑒于用戶生成文本中標(biāo)點(diǎn)符號(hào)的正確標(biāo)注是自然語(yǔ)言處理的最基礎(chǔ)的環(huán)節(jié)。本文提出了基于線性鏈條件隨機(jī)場(chǎng)并結(jié)合標(biāo)點(diǎn)符號(hào)左右詞性對(duì)的用戶生成文本標(biāo)點(diǎn)標(biāo)注方法。實(shí)驗(yàn)結(jié)果表明,使用線性鏈條件隨機(jī)場(chǎng)能夠取得較好的標(biāo)點(diǎn)標(biāo)注效果,不足的地方在于,在詞性標(biāo)注過程中,有些出現(xiàn)次數(shù)較多詞語(yǔ)同時(shí)具有幾個(gè)詞性,比如“服務(wù)”一詞既有名詞又有動(dòng)詞的含義,可能會(huì)導(dǎo)致詞性標(biāo)注出現(xiàn)錯(cuò)誤的現(xiàn)象,而且由于CRF是基于統(tǒng)計(jì)的模型,對(duì)于那些出現(xiàn)在標(biāo)點(diǎn)符號(hào)左右次數(shù)較多的詞性對(duì),統(tǒng)計(jì)的信息會(huì)更加全面,其正確預(yù)測(cè)標(biāo)點(diǎn)標(biāo)注的準(zhǔn)確率也就越高。相反地,有些標(biāo)點(diǎn)符號(hào)左右的詞性對(duì)出現(xiàn)次數(shù)較少,其統(tǒng)計(jì)信息不全難以正確預(yù)測(cè)標(biāo)點(diǎn)標(biāo)注。另外訓(xùn)練語(yǔ)料是出自人民日?qǐng)?bào)語(yǔ)料庫(kù),語(yǔ)言嚴(yán)謹(jǐn)規(guī)范;而測(cè)試語(yǔ)料選自京東在線評(píng)論,評(píng)論內(nèi)容中標(biāo)點(diǎn)符號(hào)左右存在網(wǎng)絡(luò)流行詞語(yǔ)或語(yǔ)氣助詞,其訓(xùn)練時(shí)統(tǒng)計(jì)信息缺少,導(dǎo)致此類情況下預(yù)測(cè)標(biāo)點(diǎn)符號(hào)標(biāo)注的效果較差。

針對(duì)以上的問題,在今后的研究工作中,將深入了解影響標(biāo)點(diǎn)符號(hào)標(biāo)注的其它特征,以期能夠找到一些更有價(jià)值的特征函數(shù)信息,能夠使用戶生成文本的標(biāo)點(diǎn)標(biāo)注效果得到進(jìn)一步的提升。

參考文獻(xiàn)

[1] 趙宇翔, 范哲, 朱慶華. 用戶生成內(nèi)容(UGC)概念解析及研究進(jìn)展[J]. 中國(guó)圖書館學(xué)報(bào), 2012, 38(5): 68-81.

[2] 鄧曉明. 同一個(gè)標(biāo)點(diǎn)符號(hào)連續(xù)使用對(duì)情感信息的負(fù)載作用[J]. 當(dāng)代修辭學(xué), 2000, 02(02): 32-33.

[3] Huang C, Zhao H. Chinese Word Segmentation: A Decade Review[J]. Journal of Chinese Information Processing, 2007, 21(3): 8-19.

[4] Gao J, Li M, Huang C N, et al. Chinese Word Segmentation and Named Entity Recognition: A Pragmatic Approach[J]. Computational Linguistics, 2005, 31(4): 531-574.

[5] Zinsmeister H. Part of Speech Tagging[J]. Ling Uni, 2011, 5(4): 483-501.

[6] Vol., N?. Transformation-Based Error-Driven Learning and Natural Language Processing: A Case Study in Part-of- Speech Tagging[J]. Computational Linguistics, 1995, 21(4): 543-565.

[7] Nadeau D, Sekine S. A survey of named entity recognition and classification[J]. Lingvisticae Investigationes, 2007, 30(1): 3-26.

[8] 張開旭, 夏云慶, 宇航. 基于條件隨機(jī)場(chǎng)的古漢語(yǔ)自動(dòng)斷句與標(biāo)點(diǎn)方法[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009, 49(10): 1733-1736.

[9] 姑麗加瑪麗·麥麥提艾力, 艾斯卡爾·肉孜, 古力米熱·依瑪木, 艾斯卡爾·艾木都拉. 結(jié)合分層條件隨機(jī)場(chǎng)與標(biāo)點(diǎn)符號(hào)的維吾爾語(yǔ)韻律邊界預(yù)測(cè)[J]. 計(jì)算機(jī)工程, 2015, 41(11): 299-302+307.

[10] Lu W, Ng H T. Better punctuation prediction with dynamic conditional random fields[C]// Conference on Empirical Methods in Natural Language Processing. DBLP, 2010.

[11] Wang G, Feng X. Tool wear state recognition based on linear chain conditional random field model[J]. Engineering Applications of Artificial Intelligence, 2013, 26(4): 1421-1427.

[12] Chellappa R, Chatterjee S. Classification of textures using Gaussian Markov random fields[J]. IEEE Transactions on Acoustics, Speech, and Signal Processing, 2003, 33(4): 959- 963.

[13] Jr G D F. The Viterbi algorithm[J]. Proceedings of the IEEE, 1973, 61(3): 268-278.

[14] Kavcic A, Moura J M F. The Viterbi algorithm and Markov noise memory[J]. IEEE Transactions on Information Theory, 2000, 46(1): 291-301.

[15] 李航. 統(tǒng)計(jì)學(xué)習(xí)方法[M]. 北京: 清華大學(xué)出版社, 2012: 192-198.

[16] 洪銘材, 張闊, 李涓子. 基于條件隨機(jī)場(chǎng)(CRFs)的中文詞性標(biāo)注方法[J]. 計(jì)算機(jī)科學(xué), 2006, 33(10): 148-151+155.

苗栗市| 孟津县| 康马县| 高清| 白朗县| 怀化市| 祁东县| 体育| 通榆县| 屏南县| 泽州县| 六安市| 黔江区| 扎兰屯市| 尤溪县| 永川市| 姚安县| 扶绥县| 正安县| 太保市| 贡嘎县| 崇州市| 阳春市| 兴化市| 斗六市| 年辖:市辖区| 临潭县| 个旧市| 黎川县| 九龙城区| 雷州市| 宁晋县| 新竹县| 宜兴市| 丘北县| 南阳市| 彭山县| 祥云县| 南乐县| 万安县| 博白县|