唐文武,過 弋,2,徐永斌,方 旭
(1. 華東理工大學 信息科學與工程學院,上海 200237;2. 石河子大學 信息科學與技術(shù)學院,新疆 石河子 832003)
基于條件隨機場的評價對象缺省項識別
唐文武1,過 弋1,2,徐永斌1,方 旭1
(1. 華東理工大學 信息科學與工程學院,上海 200237;2. 石河子大學 信息科學與技術(shù)學院,新疆 石河子 832003)
在電商網(wǎng)站評論文本中,評價對象和評價屬性的缺省識別對文本情感分析具有重要地作用。針對電商網(wǎng)站評論文本中評價對象和評價屬性缺省問題,該文提出了一種基于條件隨機場的評價對象缺省項識別方法。首先利用情感詞典識別觀點句,將缺省項識別問題轉(zhuǎn)換成序列標注問題,綜合詞法特征和依存句法特征,使用條件隨機場模型進行訓練,并在測試集上對待識別的觀點句進行序列標注,通過標注結(jié)果判定缺省項的位置。實驗結(jié)果表明,該方法具有較高的準確率和召回率,驗證了該方法的有效性。
條件隨機場;評價對象;缺省識別;序列標注
隨著互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展以及網(wǎng)絡(luò)應(yīng)用的迅速普及,互聯(lián)網(wǎng)已經(jīng)涉及人們生活中的方方面面,并成為人們直接表達自己情感的重要平臺。互聯(lián)網(wǎng)信息的爆炸式增長,伴隨著京東、天貓、亞馬遜等電子商務(wù)網(wǎng)站的發(fā)展。大量的評論是用戶對商品直接情感的表達。人們在評論一個產(chǎn)品時,通常會使用簡明的語言去表達自己的看法。因此,導致了評論文本口語化、不規(guī)范、缺省現(xiàn)象嚴重等特點。
中文缺省也稱為中文零指代[1],是指人們在特定的語言環(huán)境下,在不影響意思表達的前提下,為了使語言簡潔明快,省去句子中的某些語言成分的現(xiàn)象。在情感觀點句中,人們往往會省略評價對象和評價屬性。評價對象是指評論所針對的對象或?qū)ο蟮膶傩?。如“蝦很新鮮。”,這句觀點句中,“蝦”作為該觀點句的主語,充當該評價的對象,“很新鮮”用來修飾“蝦”作為該評價對象的評價短語。
目前,對評價要素的抽取研究工作已經(jīng)取得了一定的成果,但是大多數(shù)的研究工作只能抽取出句子中存在的評價對象和屬性。評價對象的缺省,導致了在進行評價要素抽取時,常常無法準確、全面地抽取出評價要素,句子中大量的評價詞無法匹配到評價對象的問題。當前對于中文缺省識別的研究并不多,因此本文主要針對觀點句中評價對象缺省項識別進行研究。本文將判定缺省項在句子中的位置問題轉(zhuǎn)換為序列標注問題,綜合詞特征、詞性特征和句法特征對條件隨機場模型進行訓練,最后利用訓練后的模型識別測試集中缺省項在觀點句中的位置,從而為評價對象缺省項恢復的工作奠定了基礎(chǔ)。
目前,在零指代識別問題上主要有基于規(guī)則和基于機器學習兩種方法。
基于規(guī)則方面,Yeh和Chen等[2]將規(guī)則方法應(yīng)用到中文零指代消解的零指代項識別研究中,通過大量手工標注的規(guī)則,并提出了中心理論的方法來解決中文零指代消解。楊國慶等[3]參考Yeh等提出的方法,提出缺省三元規(guī)則,以動詞驅(qū)動為核心提出規(guī)則來獲得缺省項的結(jié)構(gòu)化信息。Kong等[4]提出一種基于規(guī)則探測零指代詞的方法,該方法通過對一個句子進行完全句法分析,由此獲取覆蓋當前預測節(jié)點的最小子樹,從而構(gòu)造一定的規(guī)則去判斷句子中的零指代詞。由于基于規(guī)則的方法主要依賴于人工構(gòu)建大量的規(guī)則,將會耗費大量的人力。因此,人們更青睞于使用機器學習的方法去解決零指代問題。
Zhao等[5]是第一個利用機器學習算法解決了零指代詞識別與零指代詞恢復的問題,為之后的工作提供了基礎(chǔ)。Kong和Zhou[6]在同一個框架下,提出了基于樹核函數(shù)的零指代識別和消解的方法,從結(jié)構(gòu)化信息入手解決零指代識別問題。Song等[7]將零指代識別和零指代消解兩個子任務(wù)通過馬爾科夫邏輯進行聯(lián)合,在同一個機器學習框架下進行處理。秦凱偉等[8]實現(xiàn)了一個基于機器學習的中文缺省項識別系統(tǒng),選取多個特征進行組合,利用支持向量機SVM進行缺省項識別研究。劉慧慧等[9]對評價對象缺省識別進行了研究,通過決策樹算法對候選缺省項集進行二元分類,從而進行判定觀點句中是否存在缺省現(xiàn)象。Yang等[10]提出了將零指代詞識別問題轉(zhuǎn)換為打標簽問題的方法,利用詞法和語法特征,通過二元分類器為每個詞打上標簽,以此來識別句子中是否出現(xiàn)缺省現(xiàn)象。此外,Rao等[11]通過模型跟蹤對話中焦點的流動,對話語中的零指代問題進行了研究。Chen等[12]提出了一種無監(jiān)督的概率模型,通過顯著性模型來獲取語篇信息,同時解決了零指代識別和恢復。
在目前利用機器學習進行缺省項識別的研究中,大多數(shù)都將缺省項識別問題轉(zhuǎn)換為二元分類問題,利用標準句法信息作為特征,并在標準的句法樹上獲得了很好的性能,但在自動句法樹上性能并不好。評價對象的缺省破壞了該對象周圍正常的詞串、詞性和依存關(guān)系搭配序列,因此在真正的應(yīng)用中獲得正確的句法信息是困難的,利用標準的句法樹上提取的特征訓練出的模型應(yīng)用在自動的句法樹上導致性能的下降。由于評價對象在句子序列中出現(xiàn)的位置具有一定的規(guī)律性,其缺省的位置同樣具有一定的規(guī)律性。通過在自動句法樹上提取特征,并融合詞串、詞性特征,對存在缺省項的詞序列打上標簽,從而可以獲取評價對象缺省的位置。因此,本文提出的方法是將評價對象缺省識別轉(zhuǎn)換為序列標注問題,利用依存句法樹自動獲取依存信息作為特征,并結(jié)合詞法特征,利用條件隨機場模型對評價對象缺省項位置進行識別。
3.1 缺省項類型
在缺省項類型的分類上,許多文獻都使用了CTB[13]語料中對缺省項的分類。其分類如表1所示。
表1 CTB中缺省項分類
其中,NONE-*T*、NONE-*PRO*以及NONE-*pro*占的比例最大。根據(jù)以上分類的規(guī)則,以及對觀點句中缺省項的觀察分析,本文依據(jù)文獻[9]上的分類,將觀點句中評價對象缺省項的類型主要分為以下兩種情況:
(1) 缺省項作為句子的主語或賓語等主要成分
例1 蝦不錯,很新鮮,第二次買了。
在例1的第二個子句中,缺省了評價短語“很新鮮”的評價對象“蝦”,該詞作為句子的主語。
例2 順豐就是快,其他物流都比不上。
在例2中的第二個子句中,缺省了評價對象“順豐”,該詞作為句子的賓語。
(2) 缺省項作為非主要成分
例3 阿根廷紅蝦太好吃了,價格也親民,比白蝦便宜好多。
在例3中的第二個子句缺省了屬性詞“價格”的評價對象“阿根廷紅蝦”,第三個子句中缺省了“白蝦”的評價屬性“價格”。
3.2 缺省項識別
根據(jù)中心理論[14],主語、謂語和賓語作為句子的主要成分,其中主語是最有可能被指代,其次是賓語,最后為其他位置上的詞語。因此,缺省項出現(xiàn)在句子中的各個位置上的概率具有明顯的差異。通過機器學習的方法計算每個位置上出現(xiàn)缺省的概率,從而得到缺省項最有可能出現(xiàn)的位置。
本文將識別缺省項在情感句中出現(xiàn)的位置轉(zhuǎn)化為序列標注問題。通過對每個詞設(shè)定標簽,以此判斷該詞之前是否出現(xiàn)缺省項,并利用機器學習模型解決序列標注的問題。本文將序列標注問題定義為:
定義1X=(x1,x2,…,xn)為長度為n的觀察序列,對于給定的觀察序列,輸出對應(yīng)的標簽序列Y=(y1,y2,…,yn),其中yi為xi所對應(yīng)的序列標簽。
在序列標注的問題上,目前有很多模型得以應(yīng)用,如隱馬爾科夫模型、條件隨機場、自動轉(zhuǎn)換機、最大熵模型以及支持向量機SVM等。其中隱馬爾科夫模型、最大熵模型以及條件隨機場是最常用最基本的三種模型,另外SVMTool也將SVM原理應(yīng)用于序列標注的問題上。CRFs(條件隨機場)作為一種性能良好的標記和切分序列化數(shù)據(jù)的統(tǒng)計框架,在詞性標注、命名實體識別、分詞等自然語言領(lǐng)域都有著比較好的應(yīng)用場景。CRFs在序列標注問題上克服了隱馬爾科夫模型必須具備獨立性假設(shè)的問題,可以容納任意的上下文信息,特征設(shè)計靈活。而相比于最大熵模型,其標記偏置的缺點在CRFs上得到了解決??紤]到上下文信息對缺省項識別的影響,以及為了能夠更好得融合多個特征進行推理。因此,本文提出利用CRFs對情感句中評價對象缺省項的位置進行識別。
在序列標注模型上,定義集合X為觀點句中的詞語,標簽集合為Y={N;P;O};其中,N表示該詞之前存在缺省項,且作為句子的主要成分;P表示該詞之前存在缺省項,且不作為句子的主要成分;O表示該詞之前不存在缺省項。因此,利用條件隨機場模型生成只包含N、P和O的序列,則通過找到標記N和P所對應(yīng)的詞語,就可以判斷該詞之前存在缺省項。例如,觀點句“蝦不錯,很新鮮,價格便宜。”,通過CRFs進行標注后,對應(yīng)的標注序列為“蝦/O不錯/O,很/N新鮮/O,/O價格/P便宜/O。/O”,由此可知,“很”這個詞對應(yīng)的標簽為“N”,則該觀點句中評價對象缺省出現(xiàn)在“很”之前。
圖1顯示了利用CRFs識別評價對象缺省項的整體流程。首先通過對評價語料進行分詞、分句、清洗等預處理;然后,通過HowNet情感詞典進行觀點句的識別;接著進行特征選擇、選取詞串特征、詞性特征和句法特征作為模型的特征;接著進行語料的標注,形成訓練語料和測試語料;利用訓練語料訓練模型;最后利用模型進行測試語料的測試,生成缺省項識別的結(jié)果。
圖1 基于CRF的評價對象缺省項識別框架圖
3.3 條件隨機場模型
條件隨機場模型CRFs,是由JohnLafferty和AndrewMcCallum[15]在2001年提出的一種判別式的無向圖模型,是用于切分和標記有序數(shù)據(jù)的條件概率模型。CRFs是一種性能良好的標記和切分序列化數(shù)據(jù)的統(tǒng)計框架模型。在詞性標注、命名實體識別、分詞等自然語言處理領(lǐng)域有著比較好的應(yīng)用場景。它不僅克服了隱馬爾科夫模型必須具備獨立性假設(shè)和最大熵模型標記偏置的缺點,而且可以綜合使用包括字、詞以及上下文信息等多種特征,并且允許選擇任意的外部特征,將特征融入到模型中。最后,在實現(xiàn)特征的全局歸一化后,獲取到全局的最優(yōu)解。本文對CRF做了如下定義。
定義2 設(shè)G(V,E)為一個無向圖,若隨機變量YV在條件X出現(xiàn)的情況下,其條件概率分布遵循馬爾科夫特性,即滿足式(1)所示。
則稱(X,Y)構(gòu)成了一個條件隨機場。其中,V和E分別代表了無向圖G(V,E)的頂點和邊的集合,而YV則是G的頂點的索引,w~v表示在無向圖G中w和v相鄰。其模型的定義如下:
定義3 設(shè)X,Y為隨機變量,X=(x1,x2,…,xn)為長度為n的待觀測序列,而Y=(y1,y2,…,yn)為與X長度相同的狀態(tài)輸出序列。按照CRFs的原理,其狀態(tài)輸出序列可以表示為式(2)。
其中,
3.4 特征選擇和語料標注
在進行缺省項識別的特征選擇時,不僅需要考慮詞本身的特征,句子的結(jié)構(gòu)特征也對缺省項的識別具有很大的影響。在大多數(shù)的研究中,都采用了語料中已經(jīng)標注的正確句法信息作為特征,但在真正的應(yīng)用中獲得正確的句法信息是困難的。因此本文采用了詞法特征及依存句法特征,如表2所示。
表2 特征說明
(1) 詞法特征
不同位置上的缺省項,其前后詞語的詞串和詞性也不同。由于不同位置上發(fā)生缺省的概率不同,因此不同詞性的詞串其前后存在缺省項的概率也不相同。例如,一個句子的第一個詞為動詞,該詞前存在缺省項的概率比名詞或者代詞來的大;在“她/r說/v很/d干凈/a”和“她/r說/v蝦米/n很/d干凈/a”這兩句評價句的對比中可以看出,副詞前一個詞為動詞與副詞前一個詞為名詞兩種情況相比,前者在副詞前更有可能存在缺省項。由此可知,評價對象的缺省破壞了正常的詞性和詞串搭配,從而存在非正常的詞性和詞串搭配的位置更容易出現(xiàn)缺省項。因此本文使用詞法特征作為判定缺省項位置的特征。
(2) 依存句法特征
僅僅用詞法特征進行缺省項的判定是不夠的,無法利用缺省項的上下文關(guān)系。中文句子中成分的排列具有一定的規(guī)律性,例如,不存在主謂關(guān)系,卻存在動賓關(guān)系的句子其謂語之前很有可能存在缺省項。因此本文也使用了依存句法關(guān)系特征以此來表征詞語之間的關(guān)系。
在圖2中“很”與“新鮮”存在狀中結(jié)構(gòu)(ADV),且“很”作為從屬詞(箭尾)?!靶迈r”與根節(jié)點存在HED關(guān)系。從圖2和圖3的對比可以看出,存在狀中關(guān)系的“很”之前存在缺省評價對象“蝦”。
圖2 評價對象缺省的句子依存關(guān)系
圖3 完整的句子依存關(guān)系
在語料的標注上,本文使用3-tag標注法。標簽N表示當前詞之前存在缺省項,且缺省項作為句子主要成分;標簽P表示當前詞之前存在缺省項,且缺省項不作為句子主要成分;標簽O表示當前詞之前不存在缺省項。在特征標注上,本文使用哈爾濱工業(yè)大學的自然語言處理工具LTP,通過對情感句進行切詞、詞性標注、依存句法分析等對特征進行標注。其中,對于每個詞的句法特征,標記為該詞作為從屬詞時其對應(yīng)的句法依存關(guān)系。訓練語料和測試語料的標注樣例如表3所示。
在表3中語料的標注樣例中,“很”標注為N,表示其之前存在缺省項,且作為句子的主要成分,在例句中為缺少主語?!皟r格”標注為P,表示該詞之前存在缺省項,且不作為句子的主要成分,在例句中缺省了評價對象“蝦”。
表3 CRF語料標注樣例
利用訓練數(shù)據(jù)訓練之后得到的CRFs模型對測試數(shù)據(jù)進行測試,將會對每個詞串進行標注,通過標注的標簽得到測試數(shù)據(jù)中缺省項的位置。測試結(jié)果樣例如表4所示。
表4 CRFs測試結(jié)果樣例
從表4的結(jié)果樣例中可以看出,在“濕度”之前存在缺省項,應(yīng)該為“蝦的濕度”,缺省了“蝦”,且不作為句子的主要成分;在“要”之前同樣存在缺省項,缺省了比較對象“描述的濕度”,且作為句子的主要成分。
4.1 數(shù)據(jù)集
本文所使用的數(shù)據(jù)集是從天貓網(wǎng)站上采集的關(guān)于蝦類商品的評論數(shù)據(jù),抽取了其中1 980條評論信息作為本文的語料。通過清洗、分句等預處理,最后得到3 366條子句。在情感觀點句的識別中,本文使用HowNet情感詞典進行情感句的判斷,由于考慮到詞典中的詞語由于詞性的不同會導致情感傾向性的差異,因此在詞典中加入詞性信息使得情感句的判斷更加準確,共識別出2 539條觀點句。在實驗語料的標注上,本文采用人工標注的方法。語料中評價對象的缺省項位置的標注均由兩名標注者進行手工標注,其標注結(jié)果的一致性大于0.8,具有一定的可信度。對于語料中兩人標注不一致的部分,則交由第三人進行標注。語料中評價對象缺省項類型統(tǒng)計結(jié)果如表5所示。
表5 缺省項類型統(tǒng)計結(jié)果
從表5可以看出,包含作為句子主要成分的評價對象缺省項類型的句子占所有句子總數(shù)的56.40%;包含不作為句子主要成分的評價對象缺省項類型的句子占所有句子總數(shù)的11.58%。因此,評價對象缺省項在本文的語料中占有67.98%的比例。
4.2 實驗結(jié)果與分析
4.2.1 自然語言處理工具測試結(jié)果對比
本文的方法中綜合了詞串、詞性和依存關(guān)系作為CRF模型的特征。在訓練數(shù)據(jù)和測試數(shù)據(jù)的生成過程中,需要利用自然語言處理工具對數(shù)據(jù)進行處理。分詞效果的好壞直接影響了詞性和依存關(guān)系的判斷。因此,為了選擇合適的自然語言處理工具處理本文的短文本數(shù)據(jù)集,本文對LTP、HANLP、FNLP三種自然語言處理工具進行了分詞測試實驗。本文隨機抽取了1 000條句子分別利用三種自然語言處理工具進行了測試,并通過人工校驗的方法對測試結(jié)果進行評價。測試結(jié)果見表6。
表6 自然語言處理工具分詞實驗結(jié)果
從表6中的實驗結(jié)果可以看出,F(xiàn)NLP相對于其他兩種自然語言處理工具的分詞結(jié)果,正確率較低,為88.02%。其主要的錯誤在于對名詞與形容詞組合的短語往往無法進行正確的切分。例如,評價短語“質(zhì)量好”中,“質(zhì)量好”無法被正確切分出“質(zhì)量”和“好”兩個詞。由于評論短文本中會出現(xiàn)大量類似的短語,因此FNLP不適合處理本文的數(shù)據(jù)。
HANLP的分詞正確率為90.66%,其錯誤的最大比例在歧義的處理上。例如,“活動價”則會被切分為“活動”和“價”,“快遞員”則被切分為“快遞”和“員”,“嘗過后”會被切分為“嘗”和“過后”等。LTP的分詞結(jié)果最好,正確率為94.35%,較少出現(xiàn)上述兩種工具的分詞問題。因此在對評價數(shù)據(jù)進行處理時,本文采用了LTP自然語言處理工具進行處理。
4.2.2 評價對象缺省項識別實驗
本實驗對于測試本文提出的方法的性能,主要采用了準確率P、召回率R和F值三種指標,其計算方法如下:
正確率P
本實驗將2 539條觀點句中,取出2 072條觀點句作為訓練語料,467條觀點句作為測試語料進行實驗。訓練語料和測試語料的特征標注上使用了哈工大自然語言處理工具LTP進行處理,形成訓練語料和測試語料。使用CRF++0.53工具進行CRFs模型的訓練以及測試。本文使用文獻[9]提出的利用規(guī)則找出候選缺省項,再綜合詞法和句法特征利用決策樹算法進行對候選缺省項判斷的方法作為本文的Baseline。另外,對不同的特征組合進行了實驗,包括詞串特征+詞性特征、詞串特征+依存語法特征、詞串特征+詞性特征+依存句法特征來說明特征組合對實驗結(jié)果的影響。最終的實驗結(jié)果見表7。
從表7中可以看出,本文提出的方法相比于Baseline中的方法在本文語料的評價對象缺省項識別上具有明顯的提高,正確率、召回率和F值分別為86.03%、69.44%和76.85%。同時,從特征組合對比實驗中可以看出,綜合了詞法特征和句法特征后,相比于詞串+詞性特征和詞串+句法特征的組合得到的效果更好,也驗證了該方法的有效性。另外由于句子成分缺省的影響,導致在進行分詞、詞性標注和依存句法分析時會發(fā)生錯誤,這些錯誤也直接導致了方法性能上的下降。
表7 評價對象缺省項識別實驗結(jié)果
此外,本文還對香蕉商品的評論數(shù)據(jù)進行了處理。同樣隨機抽取了2 539條觀點句進行了實驗,其中2 072條作為訓練語料,467條作為測試語料,并通過同樣的處理,最后的實驗結(jié)果如表8所示。
表8 蝦類和香蕉評論實驗結(jié)果
表8的實驗結(jié)果可以說明,本文提出的方法在蝦類和香蕉評論數(shù)據(jù)的處理上都具有較好的性能。香蕉數(shù)據(jù)的實驗結(jié)果在準確率上比蝦類數(shù)據(jù)較低,但其召回率和F值都相對較高。由此也證明了該方法的通用性。
本文提出了一種基于條件隨機場模型的評價對象缺省項識別方法。首先通過HowNet情感詞典加入詞性信息提高觀點句識別的準確性,并將識別評價對象缺省項位置的問題轉(zhuǎn)換為序列標注問題,判斷觀點句中每個詞之前是否存在缺省項,并結(jié)合了詞法特征和句法特征,利用條件隨機場模型進行標注。最后經(jīng)過實驗對方法性能進行測試,準確率達到了86.03%,驗證了此方法的有效性與準確性。
在以后的研究中考慮擴展出更多的特征對性能進行改進。另外,由于商品評論的簡短、口語化、不規(guī)范、缺省現(xiàn)象嚴重等特點,對商品評論對象恢復工作增加了困難。在以后的研究工作中,利用識別評價對象缺省項的位置幫助進行評價對象缺省恢復,以此來提高電商評論情感分析的性能的研究將成為重點。
[1] 秦凱偉, 孔芳, 李培峰, 等. 基于規(guī)則的中文零指代項識別研究[J]. 計算機科學, 2012, 39(10): 278-281.
[2] Yeh C L, Chen Y C. Zero Anaphora Resolution in Chinese with Shallow Parsing[J]. Journal of Chinese Language and Computing, 2007, 17(1): 41-56.
[3] 楊國慶, 孔芳, 朱巧明, 等. 基于規(guī)則的中文缺省識別研究[J]. 計算機科學, 2011, 38(12): 255-257.
[4] Qin K, Kong F, Li P, et al. Chinese zero anaphor detection: rule-based approach[M].Knowledge Engineering and Management. Springer Berlin Heidelberg, 2011: 403-407.
[5] Zhao S, Ng H T. Identification and Resolution of Chinese Zero Pronouns: A Machine Learning Approach[C]//Proceedings of the EMNLP-CoNLL. 2007, 2007: 541-550.
[6] Kong F, Zhou G. A tree kernel-based unified framework for Chinese zero anaphora resolution[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 882-891.
[7] SongYang, Wang Houfeng. Chinese Zero Anaphora Resolution with Markov Logic[J]. Journal of Computer Research and Development, 2015, 52(9): 2114-2122.
[8] 秦凱偉, 孔芳, 李培峰, 等. 用于中文缺省識別研究的機器學習方法[J]. Computer Engineering, 2012, 38(22): 130-132.
[9] 劉慧慧, 王素格, 趙策力. 觀點句中評價對象/屬性的缺省項識別方法研究[J]. 中文信息學報, 2014, 28(6): 175-182.
[10] Yang Y,Xue N. Chasing the ghost: recovering empty categories in the Chinese Treebank[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 1382-1390.
[11] Rao S,Ettinger A, Hal Daumé I I I, et al. Dialogue focus tracking for zero pronoun resolution[C]//Proceedings of the Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL). 2015: 494-502.
[12] Chen C, Ng V. Chinese Zero Pronoun Resolution: A Joint Unsupervised Discourse-Aware Model Rivaling State-of-the-Art Resolvers[C]//Proceedings of the Meeting of the Association for Computational Linguistics, 2015.
[13] Nianwen X, Xia F. The bracketing Guidelines for the Penn Chinese Treebank Project[R].Technical Reqort IRCS 00-08,University of Pennsylvania, 2000.
[14] Yeh C L, Chen Y J. An Empirical Study of Zero Anaphora Resolution in Chinese Based on Centering Model[C]//Proceedings of the ROCLING. 2001.
[15] Lafferty J,Mccallum A, Pereira F, et al. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proceedings of the International Conference on Machine Learning, 2001.
The Default Comment Object Identification Based on Condition Random Fields
TANG Wenwu1, GUO Yi1,2, XU Yongbin1, FANG Xu1
(1. Department of Computer Science and Engineering, East China University of Science and Technology, Shanghai 200237, China;2. School of Information Science and Technology, Shihezi University, Shihezi,Xinjiang 832003, China)
The identification of the default objects and attributes in a comment is important in sentiment analysis for the commerce website’s reviews. To resolve the default comment objects and attributes, this paper proposes an effective identification method based on Conditional Random Fields (CRF). After applying an emotion dictionary to locate the opinion comments, we treat this task as a sequence labeling problem, and choose the lexical and dependency parsing elements as features. The evaluation results prove the proposed method with reasonable good accuracy and recall rates.
Conditional Random Fields(CRFs); comment object; the default resolution; sequence labeling
唐文武(1992—),碩士研究生,主要研究領(lǐng)域為自然語言處理、情感計算。E-mail:tangww10101458@163.com過弋(1975—),通信作者,教授,博士,主要研究領(lǐng)域為自然語言處理、智能信息處理、本體工程。E-mail:yguo1110@ecust.edu.cn徐永斌(1990—),碩士研究生,主要研究領(lǐng)域為自然語言處理。Email:xyb0723@sina.cn
1003-0077(2016)06-0208-07
2016-09-27 定稿日期: 2016-10-15
國家自然科學基金(61462073)
TP391
A