張 辰,馮 沖,劉全超,師 超,黃河燕,周海云
(北京理工大學(xué),北京 100081)
幾乎每天人們都被形形色色的選擇所包圍。為了做出更好的抉擇,人們往往會(huì)選擇拿自己感興趣的物品作比較。在如今這個(gè)大數(shù)據(jù)時(shí)代,我們會(huì)從中得到海量的信息。然而與此同時(shí)卻又為之困擾,同時(shí)處理這么大量的信息會(huì)是一件費(fèi)時(shí)費(fèi)力的事情。因此,需要一種比較觀(guān)點(diǎn)挖掘系統(tǒng)來(lái)幫助我們自動(dòng)從海量數(shù)據(jù)中得到兩者(或更多事物)間的比較信息。
英文方面,文獻(xiàn)[1]討論了如何從英文文本中識(shí)別比較句,采用支持向量機(jī)(SVM)和CSR(class sequential rules)算法識(shí)別比較句,達(dá)到了84%的準(zhǔn)確率以及83%的召回率。文獻(xiàn)[2]在文獻(xiàn)[1]的基礎(chǔ)上,又利用LSR(label sequential rules)算法對(duì)比較元素進(jìn)行抽取,取得了不錯(cuò)的效果。文獻(xiàn)[3-4]利用Web搜索獲取相關(guān)信息,近而比較兩個(gè)對(duì)象,獲得他們之間的關(guān)系。文獻(xiàn)[5]依靠建立的規(guī)則從論壇抽取相應(yīng)產(chǎn)品名稱(chēng)和屬性從而進(jìn)行比較。文獻(xiàn)[6]基于模式識(shí)別的方法,提出通過(guò)特征抽取模板(IEP)將差比問(wèn)題句的識(shí)別及其比較對(duì)象的抽取這兩個(gè)任務(wù)合二為一同時(shí)進(jìn)行,并達(dá)到預(yù)期效果。
在中文領(lǐng)域,北京大學(xué)的黃小江等人[7]提出中文比較句的識(shí)別問(wèn)題,在Nitin等人研究基礎(chǔ)上,利用特征詞、CSR等作為SVM分類(lèi)器特征,將中文比較句識(shí)別視為二分類(lèi)問(wèn)題。此后,黃高輝等[8]在文獻(xiàn)[7]研究基礎(chǔ)上,以SVM為分類(lèi)器,以特征詞和CSR序列規(guī)則為特征,同時(shí)利用CRF算法抽取實(shí)體對(duì)象,并增加以實(shí)體對(duì)象的信息(主要是對(duì)象的位置和數(shù)量)作為特征,對(duì)比較句進(jìn)行識(shí)別,最終取得了96%的準(zhǔn)確率和88%的召回率。文獻(xiàn)[9]通過(guò)HNC(Hierarchical Network of Concepts)理論實(shí)現(xiàn)了中文比較句的識(shí)別及其翻譯的過(guò)程。
總的來(lái)說(shuō),比較句與比較關(guān)系識(shí)別的研究尚不系統(tǒng)和成熟,目前還處于起步階段。而中文的句式更加靈活多樣,因而中文比較句的研究相對(duì)更加困難。目前識(shí)別的思路大多是模板匹配或者將該問(wèn)題歸類(lèi)為機(jī)器學(xué)習(xí)問(wèn)題,利用特征提取并構(gòu)造分類(lèi)器將句子劃分為比較句與非比較句兩類(lèi)。同比較句與比較關(guān)系識(shí)別相關(guān)的處理技術(shù)有文本分類(lèi)、實(shí)體抽取、情感分析等。本文通過(guò)利用規(guī)則泛抽取和分類(lèi)精抽取兩個(gè)步驟,并選取多種特征訓(xùn)練SVM分類(lèi)器來(lái)進(jìn)行自動(dòng)識(shí)別中文比較句,最終取得了較好的效果。
一般說(shuō)來(lái),比較句是含有比較和對(duì)比含義的陳述句,在語(yǔ)義上要求形成兩個(gè)或多個(gè)對(duì)象的比較。按照車(chē)競(jìng)[10]的定義,現(xiàn)代漢語(yǔ)比較句是指謂語(yǔ)中含有比較詞語(yǔ)或比較格式的句子。漢語(yǔ)比較句的句子結(jié)構(gòu)通常包括四個(gè)基本比較元素,即比較主體、比較基準(zhǔn)、比較點(diǎn)和比較結(jié)果。按照文獻(xiàn)[8]的做法,本文將比較主體和比較基準(zhǔn)稱(chēng)為比較實(shí)體對(duì)象,比較點(diǎn)稱(chēng)為比較屬性。同時(shí),此四元組也構(gòu)成了比較關(guān)系,例如,“諾基亞N8的屏幕不如iphone的好”,這句很明顯是比較句,并可以表示為四元組<諾基亞N8,iphone,屏幕,好>。在實(shí)際應(yīng)用中,這四個(gè)比較元素有時(shí)并不會(huì)同時(shí)出現(xiàn)。
比較句的類(lèi)型多種多樣,語(yǔ)義語(yǔ)用復(fù)雜多變,目前在學(xué)術(shù)界關(guān)于比較句的定義和分類(lèi)標(biāo)準(zhǔn)尚無(wú)定論。本文采用COAE2013評(píng)測(cè)標(biāo)準(zhǔn)中的劃分方法,如下所示:
(1) 差比(分級(jí))。兩者之間有順序上的差異,句子中說(shuō)明某一事物比另一事物好。
例如,
(2) 差比(不同)。只是說(shuō)明兩個(gè)事物有差異,但沒(méi)有高低、優(yōu)劣之分。
例如,
(3) 平比(相等或類(lèi)似)。句子中兩件事情具有相同的傾向或近似相等。
例如,
(4) 極比(最高級(jí))。多者之間的極值,在句子中說(shuō)明一個(gè)事物是最好的或者最不好的。
例如,
(5) 無(wú)比較詞,但句子用來(lái)比較兩個(gè)或者多個(gè)實(shí)體的特征,只是沒(méi)有明確對(duì)他們分級(jí)。
例如,
此外還有一些比較句,由于人工標(biāo)注爭(zhēng)議大或按照商品本身時(shí)間順序進(jìn)行比較,故不在本次研究范圍中。例如,比擬句、形如“越…越…”、“越來(lái)越…”的“遞比句”等。
綜上可知,只有在對(duì)比較句的定義、分類(lèi)、句法結(jié)構(gòu)等做全面科學(xué)的解釋基礎(chǔ)上我們才可以有效地提出自動(dòng)識(shí)別的方法。同時(shí)結(jié)合比較句特點(diǎn),利用比較句特征才是進(jìn)一步提高識(shí)別準(zhǔn)確率的良方。
本文的漢語(yǔ)比較句識(shí)別方法處理流程如圖1所示。
圖1 比較句識(shí)別方法流程
該方法首先對(duì)語(yǔ)料進(jìn)行規(guī)范化預(yù)處理,在一定程度上解決了語(yǔ)料不規(guī)范的問(wèn)題。然后根據(jù)泛提取和精提取相結(jié)合的方法進(jìn)行比較句識(shí)別。其中泛提取主要應(yīng)用句法結(jié)構(gòu)模板抽取以及依存關(guān)系相似度計(jì)算來(lái)分別識(shí)別顯性/隱性比較句,得到的結(jié)果集A+B準(zhǔn)確率低、召回率高;再經(jīng)由精提取,利用SVM分類(lèi)器對(duì)比較句進(jìn)行抽取,得到的最終結(jié)果在不損失準(zhǔn)確率的前提下召回率得到顯著提升。
本文從COAE提供的電子、汽車(chē)兩大領(lǐng)域各 1 200句訓(xùn)練集入手,通過(guò)對(duì)這些數(shù)據(jù)的分析,本文總結(jié)出如下特點(diǎn):
? 語(yǔ)料數(shù)據(jù)以句為單位,維數(shù)稀疏、文本長(zhǎng)度較短
? 比較句與非比較句數(shù)量比例嚴(yán)重不平衡,須進(jìn)行平衡處理方能進(jìn)行后續(xù)工作
? 訓(xùn)練語(yǔ)料中比較句對(duì)于比較關(guān)系四大基本元素并不完整,或很隱晦
? 語(yǔ)料領(lǐng)域性極強(qiáng),且口語(yǔ)化嚴(yán)重
針對(duì)以上特點(diǎn),預(yù)處理的具體步驟如下:
1) 使用中國(guó)科學(xué)院計(jì)算技術(shù)研究所開(kāi)發(fā)的NLPIR2013*http://www.nlpir.org/對(duì)語(yǔ)料分詞和詞性標(biāo)注,并將分詞結(jié)果與領(lǐng)域名詞詞典以及比較特征詞詞典中的詞進(jìn)行比對(duì),校對(duì)標(biāo)注結(jié)果;
2) 使用美國(guó)斯坦福大學(xué)的Stanford Parser*http://nlp.stanford.edu/software/lex-parser.shtml進(jìn)行句法結(jié)構(gòu)分析,尤其是以比較特征詞為核心,對(duì)句中主語(yǔ)、謂語(yǔ)以及謂語(yǔ)同根子節(jié)點(diǎn)進(jìn)行正確劃分。
3) 使用哈爾濱工業(yè)大學(xué)的LTP*http://ir.hit.edu.cn/ltp/對(duì)語(yǔ)料進(jìn)行依存關(guān)系分析及語(yǔ)義角色標(biāo)注。
4) 針對(duì)語(yǔ)料數(shù)據(jù)不平衡問(wèn)題,參考文獻(xiàn)[11]提出的熵值平衡算法進(jìn)行平衡處理,得到接近1∶1的平衡語(yǔ)料。
經(jīng)過(guò)這四步與處理流程,有效提高挖掘精度,為最后整個(gè)挖掘的成功奠定了基礎(chǔ)。
如前文所述,目前關(guān)于比較句識(shí)別方面有基于規(guī)則(CSR、模板庫(kù))以及基于統(tǒng)計(jì)(SVM)的方法,但鮮有二者相結(jié)合的方法。但是不管采用何種方法都會(huì)勢(shì)必造成一定數(shù)量的錯(cuò)判。本節(jié)通過(guò)研究語(yǔ)料及日常比較句語(yǔ)言特點(diǎn),發(fā)現(xiàn)了一些經(jīng)常被人們用于比較的表達(dá)方式,并通過(guò)驗(yàn)證試驗(yàn)最終歸納出覆蓋度較高的句法結(jié)構(gòu)模板。
漢語(yǔ)是一門(mén)高度靈活多變的語(yǔ)言。盡管大多數(shù)比較句會(huì)包含比較特征詞,如“比”、“不如”、“一樣”等;但也有一些句子不會(huì)包含這些詞(通常為差比),例如,“諾基亞N8的屏幕材質(zhì)是TFT的,但是iphone屏幕的材質(zhì)是IPS的?!保瑥谋砻嫔峡此且粋€(gè)轉(zhuǎn)折句,但實(shí)際表達(dá)的確是比較的含義。
幾乎所有比較句都有比較特征詞,文獻(xiàn)[12]列舉了一些中文常用比較詞以及比較結(jié)果詞,如表1所示。
表1 中文常用比較詞及比較結(jié)果詞表
使用這些比較特征詞會(huì)大大提高最終結(jié)果的召回率,為我們之后的工作打下基礎(chǔ)。與此同時(shí)我們還要兼顧那些沒(méi)有出現(xiàn)比較特征詞的句子,因此我們給出了如下的定義。
定義1: 以含有比較特征詞,明確表達(dá)兩者(或多者)之間對(duì)比的句子,稱(chēng)為顯性比較句。
例如,諾基亞N8的屏幕不如iphone的好。
定義2: 不含有比較特征詞,但整體意圖是為了比較兩者(或多者)之間的特征的句子,稱(chēng)為隱性比較句。
例如,諾基亞N8的屏幕材質(zhì)是TFT的,但是iphone屏幕的材質(zhì)是IPS的。
本節(jié)主要對(duì)顯性比較句進(jìn)行研究。通過(guò)觀(guān)察大量語(yǔ)料,本文將顯性比較句的句法結(jié)構(gòu)總結(jié)為如下三種模式,這三種模式都是以比較特征詞作為匹配的起始點(diǎn):
1) SS1= ... + VP (Keywords/Key Phrases) + ...VA/ADJP...
此模式含義為: 句子中出現(xiàn)了比較特征詞,且此特征詞的父節(jié)點(diǎn)為VP,其父子節(jié)點(diǎn)中存在表語(yǔ)形容詞或形容詞短語(yǔ)
2) SS2= ... + VP (Keywords/Key Phrases) + ...ADVP...
此模式含義為: 句子中出現(xiàn)了比較特征詞,且此特征詞的父節(jié)點(diǎn)為VP,其父子節(jié)點(diǎn)中存在副詞短語(yǔ)
3) SS3=...+NP (Keywords/Key Phrases)+...
此模式含義為: 句子中出現(xiàn)了比較特征詞,且此特征詞的父節(jié)點(diǎn)為NP
此外,為了保證比較句的識(shí)別準(zhǔn)確率,提取比較句的詞性、位置、語(yǔ)義等特征也將對(duì)識(shí)別效果的提升產(chǎn)生幫助。
如上文提及,我們將比較句分為顯性比較句和隱性比較句并分別進(jìn)行了定義。利用3.2中的句法結(jié)構(gòu)模板可以識(shí)別出召回率較高的顯性比較句,而隱性比較句由于其語(yǔ)義復(fù)雜性,我們希望透過(guò)依存關(guān)系來(lái)挖掘其中更多的有效信息。依存句法分析系統(tǒng)用于對(duì)漢語(yǔ)進(jìn)行句法分析,將句子由一個(gè)線(xiàn)性序列轉(zhuǎn)化為一棵結(jié)構(gòu)化的依存分析樹(shù),通過(guò)依存弧反映句子中詞匯之間的依存關(guān)系,弧的方向是由核心詞指向依存詞,弧上的標(biāo)記表示依存關(guān)系的類(lèi)型[13]。對(duì)于隱性比較句“諾基亞N8的屏幕材質(zhì)是TFT的,但是iphone屏幕的材質(zhì)是IPS的?!边M(jìn)行依存關(guān)系分析,解析效果如圖2所示。
圖2 依存關(guān)系分析結(jié)果示意圖
通過(guò)觀(guān)察這類(lèi)隱性比較句,我們會(huì)發(fā)現(xiàn)其前后部分的依存分析結(jié)果會(huì)存在大量相似結(jié)構(gòu),而其連接處多半會(huì)以標(biāo)點(diǎn)符號(hào)、轉(zhuǎn)折詞、并列詞進(jìn)行銜接。通過(guò)統(tǒng)計(jì)這類(lèi)句子的依存關(guān)系,借鑒文獻(xiàn)[14]中關(guān)于樹(shù)相似度算法,計(jì)算前后兩部分依存關(guān)系的相似度并設(shè)定閾值,判斷其是否屬于隱性比較句候選集。
此方法對(duì)于并列關(guān)系、轉(zhuǎn)折關(guān)系類(lèi)隱性比較句具有較好的提取效果,但須與其他方法結(jié)合才能達(dá)到高準(zhǔn)確率和高召回率的抽取目標(biāo)。
在3.2中我們提出了三種高覆蓋度的句法結(jié)構(gòu)模板來(lái)識(shí)別顯性比較句,在3.3中我們通過(guò)依存關(guān)系相似度算法抽取出隱性比較句,他們均達(dá)到了極高的召回率,但也都存在著相同的缺憾,即準(zhǔn)確率較低。為了達(dá)到高準(zhǔn)確率和高召回率的比較句抽取結(jié)構(gòu),我們考慮將比較句識(shí)別看作一個(gè)二分類(lèi)問(wèn)題。在漢語(yǔ)比較句識(shí)別領(lǐng)域,文獻(xiàn)[7-8,11]均采用SVM分類(lèi)器進(jìn)行比較句的判別并取得了不錯(cuò)的效果。因此本文也將使用SVM分類(lèi)器,在前人基礎(chǔ)上增加分類(lèi)特征以達(dá)到提升分類(lèi)效果的目的。
在分類(lèi)特征選取上,本文認(rèn)為比較句和非比較句分屬兩個(gè)截然不同的文本種類(lèi),此二者無(wú)論是在語(yǔ)義層面上,還是在語(yǔ)法結(jié)構(gòu)上都會(huì)隱含著自身獨(dú)有的特征。為此,我們共提出了以下四種特征作為SVM的候選特征向量: 類(lèi)別序列規(guī)則(CSR)、語(yǔ)義角色標(biāo)注(SRL)、比較特征詞以及統(tǒng)計(jì)詞特征。
3.4.1 類(lèi)別序列規(guī)則
由于在泛提取中使用的是句子層面的分析,而對(duì)于細(xì)粒度的詞序列層面沒(méi)有進(jìn)行過(guò)多的挖掘,故在SVM特征的選擇上,我們添加了另一模板類(lèi)信息——類(lèi)別序列規(guī)則(Class Sequential Rule, CSR)。另一點(diǎn)考慮是雖然與句法結(jié)構(gòu)同為模板特征,但句法結(jié)構(gòu)在約束力上更為寬泛,更符合泛提取的要求,而CSR的輕便性以及約束力強(qiáng),使其更適用于精提取的分類(lèi)過(guò)程。此外在泛提取候選集上進(jìn)行CSR規(guī)則挖掘分析也將大大提升這一特征抽取的準(zhǔn)確性并提高整體效率。
序列模式挖掘(Sequential pattern mining, SPM)是數(shù)據(jù)挖掘中的重要任務(wù)之一。類(lèi)別序列規(guī)則[1]是序列模式的一種,把類(lèi)別序列規(guī)則應(yīng)用于比較句識(shí)別中與其他序列模式挖掘的思想一樣,都是尋找滿(mǎn)足用戶(hù)定義好的最小支持度約束的模式,為后期的比較句識(shí)別提供特征輸入。在文獻(xiàn)[7-8]中均使用類(lèi)別序列規(guī)則作為分類(lèi)特征,其中文獻(xiàn)[7]提出以一個(gè)分句作為一個(gè)序列,這種做法在常規(guī)句中效果會(huì)比較好,但是對(duì)于口語(yǔ)化較嚴(yán)重以及不規(guī)范語(yǔ)法的句子將起到事倍功半的效果,故我們這里選用不同窗口長(zhǎng)度分別進(jìn)行實(shí)驗(yàn)。同時(shí),由于樣本稀疏問(wèn)題導(dǎo)致出現(xiàn)類(lèi)別序列的最小頻率以及頻率排序中位數(shù)都是2,故此處置信度閾值亦選取為2。實(shí)驗(yàn)后發(fā)現(xiàn)以分句為窗口不僅效率低下而且會(huì)導(dǎo)致準(zhǔn)確率下降,而選取窗口大小為5的序列剛好可在此兩方面獲得均衡,因此對(duì)于CSR挖掘我們限定其最大長(zhǎng)度為5個(gè)元素。
單單使用這一特征不能很有效地區(qū)別比較句與非比較句,主要是由于詞性并不能很完整地表達(dá)句子的完整語(yǔ)義,在文獻(xiàn)[8]中作者給出了很好的實(shí)例進(jìn)行驗(yàn)證,因而我們還需添加更多的語(yǔ)義信息來(lái)完善分類(lèi)特征。
3.4.2 語(yǔ)義角色標(biāo)注
語(yǔ)義角色標(biāo)注(Semantic Role Labeling, SRL)是近幾年來(lái)的研究熱點(diǎn),在CoNLL2004,CoNLL2005以及CoNLL2008的任務(wù)中均有出現(xiàn)。SRL在自然語(yǔ)言處理中的主要任務(wù)是識(shí)別句子中與動(dòng)詞或謂語(yǔ)相關(guān)的語(yǔ)義成分,并將它們分派到相應(yīng)的具體的角色類(lèi)別中,例如,“施事者(Agent)”“受事者(patient)”“講話(huà)者(Speaker)”等[15]。文獻(xiàn)[16]將中文比較觀(guān)點(diǎn)句分為六個(gè)基本元素: 觀(guān)點(diǎn)持有者(Holder),比較實(shí)體1(Entity1),比較詞(Comparative predicates),比較實(shí)體2(Entity2),比較特征(Attributes)以及情感傾向(Sentiments)。其中觀(guān)點(diǎn)持有者是表達(dá)比較觀(guān)點(diǎn)的人,比較實(shí)體是在比較句拿來(lái)比較的人或物或事。比較特征是實(shí)體與實(shí)體比較時(shí)的比較點(diǎn),一個(gè)比較句中可能會(huì)出現(xiàn)多個(gè)比較特征且特征中蘊(yùn)含屬性。比較詞是漢語(yǔ)中表達(dá)比較關(guān)系的詞語(yǔ),例如,“不如”、“比”。情感傾向指對(duì)比較實(shí)體的區(qū)分態(tài)度。
通常來(lái)講一個(gè)比較句中比較實(shí)體首先會(huì)是一個(gè)命名實(shí)體(例如,人、商標(biāo)、地點(diǎn)),比較屬性是一個(gè)名詞,情感傾向會(huì)是一個(gè)形容詞。但是實(shí)際情況往往會(huì)比這復(fù)雜很多,尤其中文中有大量短語(yǔ)以及成語(yǔ)的出現(xiàn),導(dǎo)致使用規(guī)則或模板進(jìn)行匹配并不是一個(gè)很好的選擇。本文將主要精力放在了識(shí)別前五個(gè)角色,采用的方法是使用有監(jiān)督的機(jī)器學(xué)習(xí)過(guò)程。在比較句識(shí)別中我們無(wú)須對(duì)實(shí)體的具體邊界進(jìn)行識(shí)別,更重要的是獲取其相對(duì)位置,因此本文選取主題識(shí)別中的主流標(biāo)注算法CRF,并利用已經(jīng)標(biāo)注好前五個(gè)角色的語(yǔ)料進(jìn)行訓(xùn)練。
條件隨機(jī)場(chǎng)(Conditional random fields,CRF)是Lafferty等人[17]于2001年,在最大熵模型和隱馬爾科夫模型的基礎(chǔ)上,提出的一種判別式概率無(wú)向圖學(xué)習(xí)模型, 是一種用于標(biāo)注和切分有序數(shù)據(jù)的條件概率模型。在CRF模型中,特征的選取至關(guān)重要。本文在這里選用的特征為詞、詞性、短語(yǔ)類(lèi)型、比較詞、與比較詞的間距、領(lǐng)域詞典、停用詞詞典。其中分詞之后得到的詞和詞性將為SRL提供非常有益的幫助,比如形容詞或者副詞很有可能是情感傾向,而命名實(shí)體則很有可能是比較實(shí)體。短語(yǔ)類(lèi)型是通過(guò)句法結(jié)構(gòu)分析步驟得到,與詞性類(lèi)似比如NP結(jié)構(gòu)也很有可能成為比較實(shí)體。比較詞及其他詞與比較詞的間距將使比較實(shí)體的具體位置識(shí)別變成可能,分別出比較對(duì)象與比較基準(zhǔn)。最后領(lǐng)域詞典與停用詞詞典將大大提升最終標(biāo)注的效果。
3.4.3 比較特征詞以及統(tǒng)計(jì)詞特征
比較特征詞在3.2中已有所提及,這里不再贅述。所謂的統(tǒng)計(jì)詞特征,是在類(lèi)別平衡處理之后的數(shù)據(jù)集上進(jìn)行,通過(guò)計(jì)算某一個(gè)詞t在類(lèi)內(nèi)和類(lèi)間的分布,就可以得到該詞匯在給定的這個(gè)數(shù)據(jù)集合上的分布情況,選取類(lèi)間信息熵小、類(lèi)內(nèi)信息熵大的詞匯就可以作為該類(lèi)別的統(tǒng)計(jì)特征。設(shè)p(ci|t)表示t出現(xiàn)在文本中時(shí),文本屬于類(lèi)ci的概率,則某一詞匯在類(lèi)ci內(nèi)的信息熵為式(1)所示。
其值越大,說(shuō)明詞t在類(lèi)別ci中出現(xiàn)越頻繁,越能代表該類(lèi)文本。最后計(jì)算出每個(gè)特征的信息增益值,通過(guò)設(shè)定閾值來(lái)過(guò)濾掉噪聲特征,將剩下的大于指定閾值的特征作為最終統(tǒng)計(jì)詞特征。
目前對(duì)于漢語(yǔ)比較句的研究還很少見(jiàn),沒(méi)有較多公開(kāi)的評(píng)測(cè)數(shù)據(jù)集。在COAE2013評(píng)測(cè)數(shù)據(jù)基礎(chǔ)上,筆者又收集了一些評(píng)測(cè)數(shù)據(jù)并進(jìn)行人工標(biāo)注,數(shù)據(jù)來(lái)源于“中關(guān)村在線(xiàn)”等產(chǎn)品評(píng)論網(wǎng)站,包括新聞?wù)摹⒂脩?hù)評(píng)論及論壇數(shù)據(jù)三類(lèi),包括汽車(chē)領(lǐng)域和電子產(chǎn)品領(lǐng)域。數(shù)據(jù)集樣本情況如表2所示。
表2 數(shù)據(jù)集樣本情況
4.2.1 利用句法結(jié)構(gòu)模板識(shí)別比較句
由于句法結(jié)構(gòu)模板主要針對(duì)顯性比較句進(jìn)行研究, 因此我們首先要驗(yàn)證這三種模板在顯性比較句中的覆蓋率。本文實(shí)驗(yàn)數(shù)據(jù)集在不考慮領(lǐng)域情況下包含1 800句比較句與8 000句非比較句,在此覆蓋率驗(yàn)證實(shí)驗(yàn)中,我們對(duì)這1 800句比較句進(jìn)行了句法分析,分別統(tǒng)計(jì)出三種模板在顯性比較句中出現(xiàn)的次數(shù),并依次計(jì)算了其在顯性比較句中的占用率及在比較句中的占用率。
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在1 800句比較句中,顯性比較句共有1 742句,由此可見(jiàn),在比較句的組成中,顯性比較句占據(jù)了大多數(shù);此外,本文總結(jié)的三種句法結(jié)構(gòu)模板覆蓋了顯性比較句中的1 739條,覆蓋率高達(dá)99.8%,這說(shuō)明,此三種模板幾近全面地概括了顯性比較句中的特征。但在置信度檢測(cè)方面由于這三種句法結(jié)構(gòu)模板設(shè)置得比較寬泛,導(dǎo)致其準(zhǔn)確率并不盡如人意,三者加起來(lái)只達(dá)到了65.6%的準(zhǔn)確率,這說(shuō)明本文提出的句法結(jié)構(gòu)模板需要與其他方法相配合才能達(dá)到高準(zhǔn)確率和高召回率的抽取目標(biāo)。
4.2.2 利用依存關(guān)系識(shí)別比較句
在我們使用哈爾濱工業(yè)大學(xué)的LTP依存關(guān)系分析模塊對(duì)1 800句比較句進(jìn)行解析,并利用3.3中提到的相似度計(jì)算方法識(shí)別比較句。同樣在58條隱性比較句下,此方法達(dá)到了非常高的召回率,達(dá)到了100%;但是同樣,和句法結(jié)構(gòu)模板相類(lèi)似,準(zhǔn)確率方面只有13.3%。這說(shuō)明在單獨(dú)識(shí)別隱性比較句方面依存關(guān)系需與其他方法配合來(lái)達(dá)到高準(zhǔn)確率與高召回率的抽取目標(biāo)。
4.2.3 利用CRF進(jìn)行語(yǔ)義角色標(biāo)注
由于CRF訓(xùn)練過(guò)程中并未將比較句與非比較句進(jìn)行區(qū)分,只是以角色標(biāo)注上的缺失來(lái)代替,故所得實(shí)驗(yàn)結(jié)果精度并不是十分準(zhǔn)確,尤其是在比較對(duì)象(即比較實(shí)體2)的識(shí)別準(zhǔn)確率只達(dá)到了83.5%。但是本文主要任務(wù)著眼于比較句的識(shí)別而非比較句中的語(yǔ)義信息挖掘,在此步驟中獲取到的實(shí)體信息對(duì)于我們后續(xù)步驟中的SVM分類(lèi)已起到了足夠多的效果。
4.2.4 利用SVM進(jìn)行比較句識(shí)別
本文選取SVM分類(lèi)器在文獻(xiàn)[8]的研究基礎(chǔ)上,將實(shí)體對(duì)象信息擴(kuò)展為4.2.3中得到的SRL標(biāo)注結(jié)果,并添加統(tǒng)計(jì)詞特征。實(shí)驗(yàn)數(shù)據(jù)采用4.1中提及的數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果如表3所示。其中Keyword表示以比較句特征詞為特征,CSR表示以類(lèi)別序列規(guī)則作為特征,SRL表示以語(yǔ)義角色標(biāo)注信息作為特征,WSF表示以統(tǒng)計(jì)詞特征作為特征。依次選取特征進(jìn)行組合實(shí)驗(yàn),結(jié)果如表3所示。
表3 利用SVM識(shí)別比較句實(shí)驗(yàn)結(jié)果
由上表觀(guān)察知,單單使用統(tǒng)計(jì)詞特征對(duì)于句子的分析力度明顯不夠,而在加入CSR或SRL等句法、語(yǔ)義信息后將使得結(jié)果得到顯著提升,在一定程度上說(shuō)明了統(tǒng)計(jì)特征與序列特征具有互補(bǔ)性,也驗(yàn)證了比較句具有重要的語(yǔ)法特征。在單特征實(shí)驗(yàn)中CSR表現(xiàn)最佳,這表明比較句的主要語(yǔ)義信息都集中在以比較特征詞為中心的窗口大小為5的范圍內(nèi)。最終組合實(shí)驗(yàn)結(jié)果表明采用四種特征相結(jié)合的SVM分類(lèi)器能有效提高抽取精度,在準(zhǔn)確率、召回率方面都有所提升。
4.2.5 泛提取與精提取組合實(shí)驗(yàn)
將句法結(jié)構(gòu)模板(SS)、依存關(guān)系相似度計(jì)算(DR)、SVM三者結(jié)合。先用句法結(jié)構(gòu)模板進(jìn)行顯性比較句粗匹配、依存關(guān)系相似度計(jì)算進(jìn)行隱性比較句粗匹配,兩者作為泛提取的結(jié)果再用訓(xùn)練好的SVM分類(lèi)器進(jìn)行處理,最終完成精提取。分別對(duì)這三者進(jìn)行組合實(shí)驗(yàn),結(jié)果如表4所示。
實(shí)驗(yàn)結(jié)果表明使用泛提取與精提取相結(jié)合的方法對(duì)抽取結(jié)果的提升是很明顯的。當(dāng)句法結(jié)構(gòu)與SVM分類(lèi)器相結(jié)合時(shí), 準(zhǔn)確率有所下降,但召回率提高了;當(dāng)依存關(guān)系與SVM分類(lèi)器結(jié)合時(shí),準(zhǔn)確率召回率均有所提高;當(dāng)三者進(jìn)行結(jié)合時(shí),比較句識(shí)別結(jié)果最佳, 同時(shí)F值達(dá)到了86.8%, 雖然準(zhǔn)確率略比單獨(dú)使用SVM有所降低,但是召回率得到了大大地提高,最終結(jié)果得到明顯改善。
表4 泛提取與精提取組合實(shí)驗(yàn)結(jié)果
本文針對(duì)句子級(jí)別的比較觀(guān)點(diǎn)挖掘問(wèn)題,尤其是漢語(yǔ)比較句識(shí)別進(jìn)行了簡(jiǎn)要的介紹,提出了新的解決思路并進(jìn)行驗(yàn)證。在Jindal、黃小江和黃高輝等人的研究基礎(chǔ)上,提出了一種通過(guò)模板提取(泛提取)與概率分類(lèi)(精提取)相結(jié)合的比較句識(shí)別技術(shù)。在泛提取中利用特征詞詞典、句法結(jié)構(gòu)提取顯性比較句;接下來(lái)利用依存關(guān)系提取隱性比較句;最后利用多種特征構(gòu)造SVM分類(lèi)器進(jìn)行結(jié)果的篩選。實(shí)驗(yàn)結(jié)果顯示,該方法在COAE2013語(yǔ)料的抽取效果較好。然而,有些問(wèn)題還有待更深入的研究,下一步工作中將重點(diǎn)探究如下問(wèn)題: 1)對(duì)現(xiàn)有的規(guī)則模板進(jìn)行同義詞擴(kuò)展,改進(jìn)CRF標(biāo)注算法,嘗試提出更具普遍意義的依存關(guān)系匹配算法;2)在實(shí)體識(shí)別中的指代消解等問(wèn)題仍沒(méi)有考慮,有待進(jìn)一步從篇章級(jí)文本中獲取信息;3)通過(guò)閱讀其他文獻(xiàn),嘗試使用不同分類(lèi)算法對(duì)結(jié)果進(jìn)行測(cè)試。另一方面,在漢語(yǔ)比較句語(yǔ)料庫(kù)的建設(shè)上,收集一個(gè)更大規(guī)模的比較句集合也是勢(shì)在必行。
[1] Jindal N, Liu B. Identifying comparative sentences in text documents[C]//Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2006: 244-251.
[2] Jindal N, Liu B. Mining comparative sentences and relations[C]//Proceedings of the National Conference on Artificial Intelligence. Menlo Park, CA; Cambridge, MA; London; AAAI Press; MIT Press; 1999, 2006, 21(2): 1331.
[3] Sun J T, Wang X, Shen D, et al. CWS: a comparative web search system[C]//Proceedings of the 15th International Conference on World Wide Web. ACM, 2006: 467-476.
[4] Luo G, Tang C, Tian Y. Answering relationship queries on the web[C]//Proceedings of the 16th International Conference on World Wide Web. ACM, 2007: 561-570.
[5] Feldman R, Fresko M, Goldenberg J, et al. Extracting product comparisons from discussion boards[C]//Proceedings of Data Mining, ICDM 2007. Seventh IEEE International Conference on. IEEE, 2007: 469-474.
[6] Li S, Lin C Y, Song Y I, et al. Comparable entity mining from comparative questions[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 650-658.
[7] 黃小江, 萬(wàn)小軍, 楊建武, 等. 漢語(yǔ)比較句識(shí)別研究[J]. 中文信息學(xué)報(bào), 2008, 22(5): 30-38.
[8] 黃高輝, 姚天昉, 劉全升. 基于 CRF 算法的漢語(yǔ)比較句識(shí)別和關(guān)系抽取[J]. 計(jì)算機(jī)應(yīng)用研究, 2010, 27(6): 2061-2064.
[9] Zhang R, Jin Y. Identification and Transformation of Comparative Sentences in Patent Chinese-English Machine Translation[C]//Proceedings of Asian Language Processing (IALP), 2012 International Conference on. IEEE, 2012: 217-220.
[10] 車(chē)競(jìng). 現(xiàn)代漢語(yǔ)比較句論略[J]. 湖北師范學(xué)院學(xué)報(bào) (哲學(xué)社會(huì)科學(xué)版), 2005, 25(3): 60-63.
[11] 李建軍. 比較句與比較關(guān)系識(shí)別研究及其應(yīng)用[D]. 重慶大學(xué), 2011.
[12] 宋銳, 林鴻飛, 常富洋. 中文比較句識(shí)別及比較關(guān)系抽取[J]. 中文信息學(xué)報(bào), 2009, 23(2): 102-107.
[13] 胡寶順, 王大玲, 于戈, 等. 基于句法結(jié)構(gòu)特征分析及分類(lèi)技術(shù)的答案提取算法[J]. 計(jì)算機(jī)學(xué)報(bào), 2008, 31(4): 662-676.
[14] 劉偉, 嚴(yán)華梁, 肖建國(guó), 等. 一種 Web 評(píng)論自動(dòng)抽取方法[J]. Journal of Software, 2010, 21(12): 3220-3236.
[15] Wang S, Li H, Song X. Automatic Semantic Role Labeling for Chinese Comparative Sentences Based on Hybrid Patterns[C]//Proceedings of Artificial Intelligence and Computational Intelligence (AICI), 2010 International Conference on. IEEE, 2010, 1: 378-382.
[16] Hou F, Li G H. Mining Chinese comparative sentences by semantic role labeling[C]//Proceedings of Machine Learning and Cybernetics, 2008 International Conference on. IEEE, 2008, 5: 2563-2568.
[17] Lafferty J, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[J]. 2001: 282-289.