朱圣代
摘要:觀點(diǎn)挖掘近年來(lái)已經(jīng)成為自然語(yǔ)言處理領(lǐng)域的熱點(diǎn)問(wèn)題,該文對(duì)觀點(diǎn)挖掘的幾項(xiàng)關(guān)鍵技術(shù)—評(píng)價(jià)對(duì)象、評(píng)價(jià)短語(yǔ)、主觀性關(guān)系抽取、傾向性判斷進(jìn)行了研究。在評(píng)價(jià)對(duì)象抽取階段,通過(guò)統(tǒng)計(jì)得到所有的名詞和名詞短語(yǔ)作為候選,然后結(jié)合詞頻,詞共現(xiàn)等特征進(jìn)行過(guò)濾得到最終的評(píng)價(jià)對(duì)象;在評(píng)價(jià)短語(yǔ)抽取階段,使用基于觀點(diǎn)詞詞典的匹配方法,并把觀點(diǎn)詞前面的副詞也作為評(píng)價(jià)短語(yǔ)的一部分;在搭配關(guān)系抽取階段,目的是抽取評(píng)價(jià)對(duì)象和評(píng)價(jià)短語(yǔ)的關(guān)聯(lián)關(guān)系,采取的方法是將在句中距離評(píng)級(jí)對(duì)象最近的評(píng)價(jià)短語(yǔ)作為該短語(yǔ)的評(píng)級(jí)短語(yǔ);在情感傾向分析階段,通過(guò)將情感句進(jìn)行分類(lèi),然后制定規(guī)則進(jìn)行無(wú)監(jiān)督的傾向性判斷。
關(guān)鍵詞:觀點(diǎn)挖掘;評(píng)價(jià)對(duì)象;評(píng)價(jià)短語(yǔ);主觀性關(guān)系;傾向性判斷
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)09-2044-02
近年來(lái),觀點(diǎn)挖掘(Opinion Minning)受到了很多學(xué)者的關(guān)注,它是一個(gè)非常新穎且有應(yīng)用價(jià)值的課題,比如:?jiǎn)柎鹣到y(tǒng),客戶關(guān)系管理,產(chǎn)品信譽(yù)度分析等等。同時(shí),觀點(diǎn)挖掘也產(chǎn)生了許多具有挑戰(zhàn)性的相關(guān)子方向。例如:領(lǐng)域觀點(diǎn)詞的抽取,旨在識(shí)別領(lǐng)域?qū)τ^點(diǎn)詞傾向性的影響;文本主客觀分類(lèi),旨在識(shí)別文本單元的主客觀性。
本文致力于研究主管句中的評(píng)價(jià)搭配抽取任務(wù),考慮上下文對(duì)詞語(yǔ)傾向性的影響,抽取被評(píng)價(jià)對(duì)象、評(píng)級(jí)短語(yǔ),并判斷傾向性。該任務(wù)可分為四個(gè)主要階段:1)自動(dòng)識(shí)別觀點(diǎn)句中的評(píng)價(jià)對(duì)象;2)自動(dòng)識(shí)別句中的評(píng)價(jià)短語(yǔ);3)識(shí)別抽取評(píng)價(jià)對(duì)象以及評(píng)價(jià)短語(yǔ)之間的主觀性關(guān)系;4)判斷主觀句中評(píng)價(jià)對(duì)象的情感傾向性。例如:對(duì)于某一評(píng)論“這款相機(jī)資源占用率低、看圖快速且具備不錯(cuò)的人物照片篩選功能?!保到y(tǒng)首先識(shí)別評(píng)論中的被評(píng)價(jià)對(duì)象(如:“資源占用率”,“看圖”,“人物照片篩選功能”)以及評(píng)價(jià)短語(yǔ)(如:“低”,“快速”,“不錯(cuò)的”),然后結(jié)合評(píng)價(jià)對(duì)象和評(píng)價(jià)短語(yǔ)之間的詞共現(xiàn)和句中距離特征,抽取句子的主觀性搭配關(guān)系,最后分析評(píng)價(jià)對(duì)象的情感傾向性,即“資源占用率,低,褒義”,“看圖,快速,褒義”,“任務(wù)照片篩選功能,不錯(cuò)的,褒義”。
本文使用的無(wú)監(jiān)督的方法進(jìn)行評(píng)價(jià)對(duì)象、評(píng)價(jià)短語(yǔ)、主觀性關(guān)系的抽取和傾向性分析。評(píng)價(jià)對(duì)象的的抽取上,使用基于詞頻的抽取名詞和名詞短語(yǔ)作為候選,同時(shí)加入PMI過(guò)濾技術(shù)。在評(píng)價(jià)短語(yǔ)抽取部分,評(píng)價(jià)詞一般都是形容詞,動(dòng)詞或者副詞,他們的數(shù)目一般是不變的,并且是有限的,所以這里采用建立情感詞典的方式,然后對(duì)于需要處理的文本來(lái)匹配這些詞,另外還將評(píng)價(jià)詞前的副詞加入評(píng)價(jià)短語(yǔ)。在主觀性關(guān)系抽取上,從評(píng)價(jià)對(duì)象抽取與評(píng)價(jià)短語(yǔ)抽取模塊,抽取的評(píng)價(jià)對(duì)象以及評(píng)價(jià)短語(yǔ),它們都只是候選,該文找出距離評(píng)價(jià)對(duì)象最近的評(píng)價(jià)短語(yǔ)最為該評(píng)價(jià)對(duì)象的評(píng)價(jià)短語(yǔ)。在情感傾向分析上,將情感句分為四類(lèi),對(duì)每類(lèi)分別用不同的規(guī)則來(lái)判定情感傾向。
1 基于統(tǒng)計(jì)的評(píng)價(jià)對(duì)象抽取
本文的使用基于詞頻的評(píng)價(jià)對(duì)象抽取技術(shù)。對(duì)于給定語(yǔ)料,首先對(duì)其分詞、詞性標(biāo)注,然后提取其中的名詞和名詞短語(yǔ),過(guò)濾詞頻低于閾值的名詞或名詞短語(yǔ),詞頻過(guò)濾主要考慮到評(píng)價(jià)對(duì)象大都是在評(píng)論中多次出現(xiàn)的,一些不相關(guān)的名詞或者名詞短語(yǔ)很少在評(píng)價(jià)對(duì)象中出現(xiàn),而且那些低詞頻的評(píng)價(jià)對(duì)象是用戶不太關(guān)系的評(píng)價(jià)對(duì)象,可以被過(guò)濾掉。該文還過(guò)濾掉單個(gè)字的情況,因?yàn)榻?jīng)過(guò)觀察,單個(gè)字幾乎不可能成為評(píng)價(jià)對(duì)象。然后再進(jìn)行PMI算法篩選得到最終的評(píng)價(jià)對(duì)象。
本文采用PMI(Poitwise Mutual Information)指標(biāo)來(lái)量化詞A和詞B的關(guān)系,計(jì)算兩詞的PMI的公式如下:
[PMI(A,B)=log2hits(A,B)hits(A)?hits(B)]
本文采用雅虎的搜索結(jié)果作為語(yǔ)料庫(kù),對(duì)于不同的領(lǐng)域選取不同的代表詞,比如數(shù)碼領(lǐng)域選取“手機(jī)”作為代表詞,娛樂(lè)領(lǐng)域選取“娛樂(lè)”作為代表詞,金融領(lǐng)域選取“金融”為代表詞等,計(jì)算代表詞語(yǔ)候選評(píng)價(jià)對(duì)象的PMI值,選取合適的閾值,過(guò)濾掉低于閾值作為最終的評(píng)價(jià)對(duì)象。
2 基于評(píng)價(jià)詞典匹配的評(píng)價(jià)短語(yǔ)抽取
本文的評(píng)價(jià)詞典使用的是WordNet中文觀點(diǎn)詞典,使用的匹配方法是首次匹配方法,對(duì)于分詞后的單詞串,提取“JJ”,“JJ+JJ”,“JJ+JJ”,“JJ+JJ+JJ”等形式的單詞或短語(yǔ),查詢它們是否在觀點(diǎn)詞典中出現(xiàn),如果它出現(xiàn),并且前面的詞不是副詞則把它作為評(píng)價(jià)短語(yǔ);如果它出現(xiàn)并且前面的詞是副詞則把副詞和觀點(diǎn)詞一起作為評(píng)價(jià)短語(yǔ)。
由于時(shí)間倉(cāng)促,該文采取的基于分詞的首次匹配的方法不是理想的方法,理論上采用序列最大匹配的原則來(lái)進(jìn)行匹配效果會(huì)更好。
3 搭配關(guān)系抽取和傾向性判斷
在評(píng)價(jià)對(duì)象和評(píng)價(jià)短語(yǔ)抽取后,需要對(duì)評(píng)價(jià)對(duì)象搭配合適的評(píng)價(jià)短語(yǔ)本文采用的規(guī)則具體如下:
1)如果句子沒(méi)有評(píng)價(jià)對(duì)象,認(rèn)為它是非主觀句,過(guò)濾掉這條句子;
2)如果句子既有評(píng)價(jià)對(duì)象,又有評(píng)價(jià)短語(yǔ),選取距離評(píng)價(jià)對(duì)象的最近的評(píng)價(jià)短語(yǔ)作為該評(píng)價(jià)對(duì)象的評(píng)價(jià)短語(yǔ),得到(評(píng)價(jià)對(duì)象,評(píng)價(jià)短語(yǔ))組合;
3)如果句子含有評(píng)價(jià)對(duì)象,但是沒(méi)有評(píng)價(jià)短語(yǔ),選取距離該評(píng)價(jià)對(duì)象5個(gè)單詞內(nèi)的,最近的,并且具特定詞性組合的短語(yǔ)作為該評(píng)價(jià)對(duì)象的評(píng)價(jià)短語(yǔ),短語(yǔ)的詞性組合為“JJ”“JJ+JJ”、“JJ+JJ+JJ”,如果該短語(yǔ)的前面是副詞,那么把這個(gè)副詞也加入到這個(gè)評(píng)價(jià)短語(yǔ)中。
在情感句的判別方法上,該文采用了分治的策略,根據(jù)情感句的結(jié)構(gòu)將其分為四類(lèi);繼而針對(duì)各類(lèi)制定相應(yīng)的傾向性判斷規(guī)則,最終基于無(wú)指導(dǎo)的方法完成評(píng)價(jià)對(duì)象的傾向性判斷。主觀句的類(lèi)型分為三類(lèi),具體定義以及相應(yīng)的情感判斷規(guī)則如下:
類(lèi)別一:句子帶有明細(xì)的傾向性,即在情感詞典中找到的帶有一種傾向性(褒義或貶義)的情感詞明顯多于寧一種帶有另一種傾向性情感詞的數(shù)目,那么句中所有的評(píng)價(jià)對(duì)象的情感傾向?yàn)榍楦性~多的情感傾向。
類(lèi)別二:句中含有的情感詞褒義和貶義的數(shù)目相等,那么針對(duì)句中的每個(gè)評(píng)價(jià)對(duì)象選取最近的情感詞的情感傾向的為它的情感傾向。
類(lèi)別三:句中沒(méi)有情感詞但是句子有評(píng)價(jià)對(duì)象,那么句子的極性有限與當(dāng)前句子的前一個(gè)句子的極性相同,如果前一個(gè)句子沒(méi)有極性,那么與離當(dāng)前句子最近的有極性的句子的極性相同,句中的所有評(píng)價(jià)對(duì)象的極性為句子的極性。
4 實(shí)驗(yàn)結(jié)果與分析
本系統(tǒng)參加了第三屆中文傾向性分析評(píng)測(cè),在評(píng)測(cè)中成績(jī)不錯(cuò)。此次評(píng)測(cè)的語(yǔ)料主要涉及數(shù)碼,娛樂(lè),金融三個(gè)領(lǐng)域。
本文的評(píng)價(jià)對(duì)象抽取部分總體平均結(jié)果接近所有結(jié)果的平均值,但是與最好的結(jié)果還有一定的差距,但是本文在領(lǐng)域D的結(jié)果明顯高于其他領(lǐng)域的結(jié)果,領(lǐng)域D(數(shù)碼)的結(jié)果接近于所有結(jié)果的最好值,領(lǐng)域E(娛樂(lè))的遠(yuǎn)遠(yuǎn)低于領(lǐng)域D的結(jié)果,領(lǐng)域F(金融)的結(jié)果最差,說(shuō)明本系統(tǒng)在領(lǐng)域D達(dá)到了較理想的性能,但是缺乏領(lǐng)域的適應(yīng)性。究其原因大致有三:1)領(lǐng)域D是數(shù)碼產(chǎn)品領(lǐng)域,評(píng)價(jià)大都是針對(duì)產(chǎn)品本身的評(píng)價(jià),評(píng)價(jià)對(duì)象大都為描述產(chǎn)品本身或者本身的一部分,詞性特征明顯,大多為名詞或者名詞組合,而且雖然數(shù)碼產(chǎn)品種類(lèi)眾多,但是大都具有與本文選取的領(lǐng)域特征詞“手機(jī)”具有類(lèi)似的評(píng)價(jià)對(duì)象,因此本文的方法能取得較好的結(jié)果。2)領(lǐng)域E是娛樂(lè)領(lǐng)域,用戶關(guān)注的內(nèi)容繁多,評(píng)價(jià)的內(nèi)容五花八門(mén),評(píng)價(jià)針對(duì)的對(duì)象也具有不確定性,很難選出具有領(lǐng)域代表性的詞。3)領(lǐng)域F(金融領(lǐng)域)更是一個(gè)特殊的領(lǐng)域,評(píng)價(jià)對(duì)象很多不是名詞或名詞短語(yǔ),領(lǐng)域代表詞很難去去確定。
從最終結(jié)果可以看出領(lǐng)域D的結(jié)果仍然遠(yuǎn)遠(yuǎn)高于領(lǐng)域E和領(lǐng)域F的結(jié)果,可見(jiàn)領(lǐng)域E和領(lǐng)域F的復(fù)雜性高于領(lǐng)域D,因此本文中所使用系統(tǒng)的領(lǐng)域適應(yīng)性有待提高。
5 結(jié)論
本文實(shí)現(xiàn)了一個(gè)評(píng)價(jià)關(guān)系抽取系統(tǒng),可分為評(píng)價(jià)對(duì)象抽取、評(píng)價(jià)短語(yǔ)抽取、主觀性抽取和傾向性判斷四個(gè)部分,系統(tǒng)在COAE2011的評(píng)測(cè)中取得成績(jī)一般。由評(píng)測(cè)的總體結(jié)果可以看出,觀點(diǎn)挖掘技術(shù)目前還處于初級(jí)階段,因此還有很廣闊的研究空間。如:如何使系統(tǒng)具有更高的移植性和適用性,如何挖掘出更多的主觀句等等,都將成為我們下一步的工作。
參考文獻(xiàn):
[1] Hu M,Liu B.Mining Opinion Features in Customer Reviews[C].AAAI,2004:755-760.
[2] 李軍.中文評(píng)論的褒貶義分類(lèi)研究[D].北京:清華大學(xué), 2008.
[3] Liu Bing,Hu Minqing,Cheng Junsheng.Opinion Observer: Analyzing and Comparing Opinions on the Web[C]//Proceedings ofthe 14th Internationa1 Conference on World Wide Web. [S. l.]:IEEE Press, 2006: 221-229.
[4] Kim Soo-Min,Hovy E.Extracting Opinions,Opinion Holders,andTopics Expressed in Online News Media Text[C]//Proc. of Conf. ofAssociation for Computational Lingustics. [S. l.]: IEEE Press,2007:318-327.
[5] 章劍鋒,張奇,吳立德.中文觀點(diǎn)挖掘中的主觀性關(guān)系抽取[J].中文信息學(xué)報(bào),2008,22(2):55-59.
[6] 劉鴻宇,趙妍妍,秦兵,等.評(píng)價(jià)對(duì)象抽取及其傾向性分析[J].中文信息學(xué)報(bào),2010(4).