李永忠 胡思琪
(福州大學(xué)經(jīng)濟(jì)與管理學(xué)院福州350108)
基于HowNet和PAT樹(shù)的網(wǎng)購(gòu)評(píng)語(yǔ)情感分析
李永忠 胡思琪
(福州大學(xué)經(jīng)濟(jì)與管理學(xué)院福州350108)
在對(duì)相關(guān)研究情況進(jìn)行總結(jié)與分析的基礎(chǔ)上,通過(guò)對(duì)HowNet情感詞典進(jìn)行擴(kuò)展并利用基于PAT樹(shù)和統(tǒng)計(jì)相結(jié)合的分詞方法,對(duì)從淘寶網(wǎng)站中獲取的評(píng)論內(nèi)容進(jìn)行分析,結(jié)果表明,基于HowNet和PAT樹(shù)的情感分析方法對(duì)分析網(wǎng)購(gòu)評(píng)論的情感傾向性行之有效,并以淘寶一女裝商家為例進(jìn)行實(shí)證研究,最后指出進(jìn)一步探索情感傾向性分析的幾個(gè)方向。
HowNet情感詞典PAT樹(shù)網(wǎng)購(gòu)評(píng)語(yǔ)情感分析
互聯(lián)網(wǎng)的極速發(fā)展,現(xiàn)代信息化的迅速普及,使得網(wǎng)絡(luò)成為高效、快捷的信息交流平臺(tái),它已經(jīng)深入到人們的學(xué)習(xí)、工作和生活中,成為日常生活中不可或缺的一部分。網(wǎng)絡(luò)購(gòu)物擁有多方面的優(yōu)勢(shì),如快捷、時(shí)尚、省時(shí)省力、可選性強(qiáng)等。隨著網(wǎng)上購(gòu)物人數(shù)的與日俱增,商品評(píng)語(yǔ)的數(shù)量也呈指數(shù)型增長(zhǎng),同時(shí)每個(gè)消費(fèi)者在評(píng)論商品的時(shí)候,由于用語(yǔ)習(xí)慣的不同,會(huì)導(dǎo)致評(píng)論的無(wú)組織性和非結(jié)構(gòu)化。并且每條評(píng)語(yǔ)可能評(píng)價(jià)的是商品的不同方面,顧客想了解某一方面的內(nèi)容就需要從大量評(píng)語(yǔ)中尋找,這將會(huì)十分的不易。直接瀏覽商品的評(píng)論信息不僅耗時(shí)耗力,也很難形成一個(gè)客觀整體的印象。顧客在瀏覽評(píng)語(yǔ)時(shí)主要想了解的一是顧客對(duì)該商品的總體印象,褒多于貶或者貶多于褒;二是商品某一具體屬性的信息,如外觀、質(zhì)量、服務(wù)態(tài)度等。各大購(gòu)物網(wǎng)站的評(píng)論功能,給了消費(fèi)者了解商品實(shí)際情況的信息渠道和平臺(tái),其及時(shí)、便捷、互動(dòng)的特性滿(mǎn)足了顧客的信息需求。Nielsen公司的調(diào)研顯示,70%的用戶(hù)借助網(wǎng)上評(píng)論選擇商品,其受信任程度僅次于親友推薦[1]。對(duì)淘寶評(píng)語(yǔ)進(jìn)行分析匯總,并將分析結(jié)果展示給消費(fèi)者以及賣(mài)家,具有巨大的研究和應(yīng)用價(jià)值。
本文對(duì)基于情感詞典的網(wǎng)購(gòu)評(píng)論進(jìn)行分析和研究,根據(jù)網(wǎng)購(gòu)評(píng)論來(lái)判斷其情感傾向性,因此,對(duì)于情感傾向性的分析就變得至關(guān)重要。情感分析方面的研究工作在近年來(lái)開(kāi)始大量涌現(xiàn),這些研究方法大致可以分為兩種:一種是基于情感詞典和語(yǔ)言知識(shí)的無(wú)監(jiān)督學(xué)習(xí)方法,另外一種是基于情感類(lèi)別標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí)方法。本文所采用的是基于情感詞典的無(wú)監(jiān)督學(xué)習(xí)方法。
對(duì)于無(wú)監(jiān)督學(xué)習(xí)方法,朱嫣嵐、閔錦、周雅倩等學(xué)者基于HowNet,提出了兩種詞匯語(yǔ)義傾向性計(jì)算的方法,分別是基于語(yǔ)義相似度的方法和基于語(yǔ)義相關(guān)場(chǎng)的方法。他們通過(guò)實(shí)驗(yàn)證明,這兩種方法在漢語(yǔ)常用詞中的判別準(zhǔn)確率可達(dá)80%以上,因此具有一定的實(shí)用價(jià)值[2]。曾淑琴、吳揚(yáng)揚(yáng)基于HowNet提出了詞語(yǔ)相關(guān)度模型,這個(gè)模型可以計(jì)算同種詞性以及不同詞性之間的相關(guān)度,融合了詞語(yǔ)的相似度、關(guān)聯(lián)度和實(shí)例因素,綜合獲得詞語(yǔ)的內(nèi)在相關(guān)性。他們通過(guò)對(duì)比實(shí)驗(yàn)發(fā)現(xiàn)這個(gè)模型所計(jì)算的詞語(yǔ)相關(guān)度值更加符合人們主觀上對(duì)詞語(yǔ)相關(guān)性的認(rèn)識(shí)[3]。柳位平、朱艷輝、栗春亮等學(xué)者在中文詞語(yǔ)相似度計(jì)算方法的基礎(chǔ)上,提出了一種中文情感詞語(yǔ)的情感權(quán)值的計(jì)算方法,并以HowNet情感詞語(yǔ)集為基準(zhǔn),構(gòu)建了中文基礎(chǔ)情感詞典。他們利用該詞典結(jié)合TF-IDF特征權(quán)值計(jì)算方法,對(duì)中文文本情感傾向進(jìn)行判別,通過(guò)實(shí)驗(yàn)結(jié)果表明,該方法取得了不錯(cuò)的分類(lèi)效果[4]。
監(jiān)督學(xué)習(xí)方法是由Pang和Lee于2004最早提出的用來(lái)解決文本情感分類(lèi)問(wèn)題的方法,它的整體思想是采取多種特征選擇方法,并同時(shí)采用樸素貝葉斯模型、支持向量機(jī)模型和最大熵模型等來(lái)識(shí)別電影評(píng)論中所包含的情感[5]。
基于PAT樹(shù)的相關(guān)研究中,楊文峰和李星利用PAT樹(shù)實(shí)現(xiàn)了一種可變長(zhǎng)統(tǒng)計(jì)語(yǔ)言模型。在該模型的基礎(chǔ)上,通過(guò)相關(guān)性檢測(cè),從540M漢語(yǔ)語(yǔ)料中自動(dòng)提取出了12萬(wàn)個(gè)關(guān)鍵詞候選字串。最后,經(jīng)過(guò)分析和篩選,候選字串的準(zhǔn)確度由82.3%上升到96.1%。其實(shí)驗(yàn)結(jié)果表明,基于PAT樹(shù)的統(tǒng)計(jì)語(yǔ)言模型是實(shí)現(xiàn)未登錄詞提取的有力工具[6]。
從Web網(wǎng)頁(yè)中抽取評(píng)論文本是本文對(duì)網(wǎng)購(gòu)評(píng)論研究必須要做的。李慧、沈潔、張舒[7]等于2007年提出了一種新穎的REA(Review Extract Algorithm)算法對(duì)評(píng)論信息進(jìn)行發(fā)現(xiàn)與抽取。抽取過(guò)程的完全自動(dòng)化也因劉偉、嚴(yán)華梁、肖建國(guó)[8]等的研究得到了進(jìn)一步的實(shí)現(xiàn)。由于本文的研究對(duì)象是來(lái)自于淘寶網(wǎng)的評(píng)論內(nèi)容,與以往相關(guān)研究的不同之處在于,淘寶網(wǎng)對(duì)外提供淘寶開(kāi)放平臺(tái)(Taobao Open Platform),本文通過(guò)淘寶開(kāi)放平臺(tái)這個(gè)更為便捷的方式來(lái)獲取評(píng)論內(nèi)容。
3.1 獲取評(píng)論內(nèi)容
立足于淘寶中的各類(lèi)電子商務(wù)業(yè)務(wù),淘寶開(kāi)放平臺(tái)同時(shí)也能夠提供一些原材料給所有來(lái)自淘寶外部的合作伙伴,這些原材料包括賬號(hào)體系、API、數(shù)據(jù)安全等。本文研究的是淘寶評(píng)語(yǔ)的傾向性分析,因此要獲取的是淘寶網(wǎng)的評(píng)論數(shù)據(jù),就需要找出一個(gè)接口,這個(gè)接口作為從淘寶網(wǎng)導(dǎo)出數(shù)據(jù)的媒介。在這個(gè)對(duì)外部用戶(hù)提供的開(kāi)放平臺(tái)中,它調(diào)用接口的方式是通過(guò)API來(lái)實(shí)現(xiàn)的,并且這些API都基于REST協(xié)議,兼容多種編程語(yǔ)言。通過(guò)按照top的規(guī)范POST來(lái)調(diào)用參數(shù),這樣淘寶評(píng)論數(shù)據(jù)就可以通過(guò)相應(yīng)的接口返回來(lái),以此來(lái)完成整個(gè)數(shù)據(jù)的獲取。
3.2 評(píng)論內(nèi)容的清洗
一件商品擁有著大量的用戶(hù)評(píng)論,但是,真正能為研究者的分析提供有價(jià)值信息的評(píng)論內(nèi)容卻是十分有限的。一個(gè)很重要的原因是網(wǎng)頁(yè)本身包含有眾多的結(jié)構(gòu)元素,這些無(wú)關(guān)的結(jié)構(gòu)元素對(duì)評(píng)論內(nèi)容造成了很大的干擾;另外一個(gè)很重要的原因是網(wǎng)頁(yè)本身的內(nèi)容以及商品評(píng)論的內(nèi)容中多多少少都會(huì)存在與評(píng)論無(wú)關(guān)的信息,如廣告等。正是由于存在著上述原因,使得評(píng)論獲取的難度進(jìn)一步加大,如果獲取的評(píng)論內(nèi)容不符合分析的要求,那么情感傾向性的分析結(jié)果也將會(huì)有很大的誤差[9]。為此,需要對(duì)獲取的評(píng)論內(nèi)容進(jìn)行一些必要的處理。下面就列出了一些網(wǎng)頁(yè)內(nèi)容處理的方法:
(1)在很多電子商務(wù)網(wǎng)站中,一些買(mǎi)家并不會(huì)對(duì)所買(mǎi)的產(chǎn)品進(jìn)行評(píng)論或者忘記評(píng)論,網(wǎng)站系統(tǒng)會(huì)在一定的時(shí)間后自動(dòng)默認(rèn)生成好評(píng),另外,也會(huì)有一些買(mǎi)家同時(shí)也是賣(mài)家,甚至還有一些是專(zhuān)門(mén)的廣告黨,專(zhuān)門(mén)在評(píng)論內(nèi)容中為自己的商品做廣告等等。對(duì)于上述這些情況,可以整理出網(wǎng)站系統(tǒng)中默認(rèn)的好評(píng)詞和一些明顯的廣告詞,將其過(guò)濾掉。
(2)在同一個(gè)賣(mài)家購(gòu)買(mǎi)了多個(gè)同樣商品的買(mǎi)家,很有可能將一樣的評(píng)論內(nèi)容復(fù)制粘貼到每一件商品的評(píng)論欄中,造成評(píng)論的重復(fù)。針對(duì)重復(fù)兩次或者兩次以上的評(píng)價(jià)語(yǔ)句,處理方法是只保留其中一條評(píng)論內(nèi)容。
(3)經(jīng)過(guò)上述方法處理后,如果評(píng)論內(nèi)容中仍然包含有繁體字、錯(cuò)別字等,可將它們都過(guò)濾掉。3.3中文分詞
中文分詞[10](Chinese Word Segmentation)是指將一個(gè)個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞的過(guò)程。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。本文采用基于PAT樹(shù)和統(tǒng)計(jì)相結(jié)合的分詞方法。
PAT樹(shù)作為一種特殊形式的樹(shù)結(jié)構(gòu)[11],它的查找結(jié)構(gòu)是運(yùn)用半無(wú)限長(zhǎng)字串(semi-infinite string,簡(jiǎn)稱(chēng)sistring)來(lái)作為字符串的。其主要的節(jié)點(diǎn)包括:內(nèi)部節(jié)點(diǎn),用來(lái)存儲(chǔ)不同的bit位在整個(gè)sistring字節(jié)序列中的位置(根節(jié)點(diǎn),是所有sistring二進(jìn)制碼中第一個(gè)不同的位的位置);外部節(jié)點(diǎn)(葉子節(jié)點(diǎn)),其作用是記錄sistring的首字符在完整sistring中的初始位置(字符索引)和sistring出現(xiàn)的頻次;左指針,若是待存儲(chǔ)的sistring在內(nèi)部節(jié)點(diǎn)所存儲(chǔ)的bit位置上的數(shù)據(jù)是0,那么將這個(gè)sistring存儲(chǔ)到該節(jié)點(diǎn)的左子樹(shù)中去;右指針,若數(shù)據(jù)是1,那么就存儲(chǔ)到該節(jié)點(diǎn)的右子樹(shù)中去。
這種方法的思路是首先進(jìn)行文本分割,即對(duì)獲取的文本進(jìn)行切割,切割標(biāo)志為中英文標(biāo)點(diǎn)符號(hào)、空格,并用“/”代替,形成以“/”分割的所有短語(yǔ)的集合,刪除所有非漢語(yǔ)字符,只保留中文字符。然后進(jìn)行正序數(shù)組和逆序數(shù)組的準(zhǔn)備,將切割后的短語(yǔ)轉(zhuǎn)換成半無(wú)窮大串?dāng)?shù)組,并將這些數(shù)組去重、合并,統(tǒng)計(jì)出各sistring的頻次,為構(gòu)建PAT樹(shù)做準(zhǔn)備。最后進(jìn)行中文PAT樹(shù)的構(gòu)建、檢索和遍歷,從而完成分詞過(guò)程。
雖然基于PAT樹(shù)和統(tǒng)計(jì)相結(jié)合的分詞方法有著很高的效率,但該方法也是有一定的局限性,比如說(shuō)可能會(huì)分割出一些共現(xiàn)頻度很高,但卻并不是詞的常用字組,例如“之一”、“這一”、“有的”等等之類(lèi)的詞,并且對(duì)常用詞的識(shí)別精度較差,時(shí)空開(kāi)銷(xiāo)會(huì)比較大。
4.1 基于HowNet的情感詞典擴(kuò)展
HowNet(中文名稱(chēng)為知網(wǎng))是一個(gè)以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,同時(shí)以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)[12]。它提出一切的概念都是由形態(tài)不一的義原組合而成的,而且能夠根據(jù)一個(gè)有限的義原集體來(lái)構(gòu)建一個(gè)無(wú)限的概念集體,同時(shí)描繪出概念與概念之間的聯(lián)系,對(duì)于屬性之間的關(guān)系也可被描繪出來(lái)。劉群和李素建提出一種運(yùn)算義原間相似程度的方法,該方法如公式(1)所示,義原樹(shù)中的距離由dist(p1,p2)來(lái)代表,而α則表示一個(gè)正的可變參數(shù)[13]。
在判斷某個(gè)詞的情感傾向方面劉群和李素建的方法還不是很完善。例如“美麗”與“賊眉鼠眼”是一對(duì)相對(duì)立的詞,運(yùn)用該方法得出的相似度為0.81,而“美麗”與“優(yōu)雅”是一對(duì)相近的詞,但是它們的相似度卻為0.78,比0.81還要低。江敏、肖詩(shī)斌、王弘蔚等[14]的詞匯相似度的運(yùn)算方法給出了全新的見(jiàn)解,方法見(jiàn)公式(2)。
同時(shí),有以下規(guī)定:①若是一對(duì)義原間存在著對(duì)義或者反義,那么其相似度為-l;②若是一對(duì)義原的路徑中存在著對(duì)義或者反義,那么其相似度就為-1*sim(p1,p2)。sim(p1,p2)所表示的是把距離最近的一對(duì)存在著對(duì)義或者反義的義原節(jié)點(diǎn)當(dāng)作是同一個(gè)節(jié)點(diǎn)來(lái)看待,然后再配合運(yùn)用前面所提到的公式(1)。
任何一個(gè)詞的語(yǔ)義傾向性度量值,都可運(yùn)用前面所提到的方法,依據(jù)這個(gè)詞和兩組基準(zhǔn)詞的語(yǔ)義關(guān)系的密切度運(yùn)算出來(lái)。對(duì)于這兩組基準(zhǔn)詞中的每一個(gè)詞來(lái)說(shuō),它們皆有其顯著的傾向性,其中一組代表正面情感,另一組代表負(fù)面情感。傾向性度量值可由公式(3)計(jì)算得出,在公式中正面基準(zhǔn)詞組由seedl代表,負(fù)面基準(zhǔn)詞組由seed2代表,它們的個(gè)數(shù)分別是n和m:
若結(jié)果是正數(shù),那么說(shuō)明該詞是褒義的,若結(jié)果是負(fù)數(shù),那么說(shuō)明該詞是貶義的。本文采用HowNet特有的關(guān)于情感研究方面的專(zhuān)用詞典,并依據(jù)公式(3)求出其中各個(gè)詞的情感強(qiáng)度以及情感傾向,同時(shí)通過(guò)對(duì)已有的情感詞典進(jìn)行擴(kuò)展,得到了一個(gè)更完整的情感詞典HWSD。HWSD一共收納了8 337個(gè)中文詞匯,有褒義詞4 093個(gè),貶義詞4 244個(gè)。
4.2 修飾詞詞典的構(gòu)建
網(wǎng)民在評(píng)論的時(shí)候,會(huì)用大量的副詞來(lái)對(duì)情感詞匯進(jìn)行修飾,因此為了更好地計(jì)算出評(píng)論的傾向性,需要建立一個(gè)修飾詞詞典。文獻(xiàn)[15]給出了副詞的各種類(lèi)型以及它們所主要囊括的詞匯,本文抽取當(dāng)中帶有不同語(yǔ)氣強(qiáng)弱的副詞以及否定副詞來(lái)建立修飾詞詞典。運(yùn)用一個(gè)二元組Item〈Adv,Modality〉來(lái)代表,當(dāng)中Adv代表的是詞匯的名稱(chēng),Modality代表的是這個(gè)詞的語(yǔ)氣強(qiáng)度,它的取值范圍在-1或(0,2)之間。否定副詞的語(yǔ)氣強(qiáng)度為-1,其它副詞的語(yǔ)氣強(qiáng)度在(0,2)之間,越是靠近0則代表這個(gè)副詞所表示的強(qiáng)度就越弱,越是接近2則代表這個(gè)副詞所表示的強(qiáng)度就越強(qiáng)烈。
4.3 網(wǎng)購(gòu)評(píng)語(yǔ)傾向性判斷
修飾詞詞典構(gòu)建完成后,就可以進(jìn)行最后的評(píng)語(yǔ)傾向性判斷了,具體的網(wǎng)購(gòu)評(píng)語(yǔ)傾向性判斷過(guò)程如圖1所示:
圖1 淘寶評(píng)語(yǔ)傾向性判斷過(guò)程
由于網(wǎng)購(gòu)用戶(hù)的評(píng)語(yǔ)大多都很簡(jiǎn)短,因此對(duì)于已經(jīng)分詞好的評(píng)語(yǔ),依據(jù)搭建完成的情感詞典以及修飾詞詞典,就可以快速、精準(zhǔn)的運(yùn)算出評(píng)語(yǔ)的傾向性了。本文通過(guò)逗號(hào)、句號(hào)等標(biāo)點(diǎn)符號(hào)將各條評(píng)語(yǔ)劃分成n個(gè)句子,用Sen1、Sen2、…、Senn來(lái)表示。同時(shí)抽取出每個(gè)句子中的情感詞,若是情感詞Wi之前有1~2個(gè)副詞對(duì)其進(jìn)行修飾,并且這1~2個(gè)副詞Advi1、Advi2位于修飾表中,則該情感詞所呈現(xiàn)出來(lái)的傾向性以及強(qiáng)度,可由公式(4)求得。
如果句子Senm中包含有k個(gè)情感詞,并記作W1、W2、…、Wk,那么該句子Senm所呈現(xiàn)出來(lái)的傾向性以及強(qiáng)度,可由公式(5)求得。
則包含有n個(gè)句子的評(píng)語(yǔ)Ci最終所呈現(xiàn)出來(lái)的傾向性,可由公式(6)求得。
我們規(guī)定,如果Oci的得分在[-0.1,0.1]之間,那么該評(píng)論記為中性評(píng)論,如果大于0.1,則記為正向評(píng)論,如果小于-0.1,就為負(fù)向評(píng)論。
有了每條評(píng)語(yǔ)的得分之后,就可以根據(jù)這些得分以及評(píng)語(yǔ)的個(gè)數(shù)來(lái)得出該商品的綜合評(píng)分。計(jì)算過(guò)程為分別統(tǒng)計(jì)正向評(píng)論、負(fù)向評(píng)論和中性評(píng)論的個(gè)數(shù),求出正向評(píng)論、負(fù)向評(píng)論和中性評(píng)論的得分總數(shù),得到商品的綜合得分,平均得分也可以因此得到。最后,通過(guò)統(tǒng)計(jì)正向評(píng)論、負(fù)向評(píng)論和中性評(píng)論所占的百分比,來(lái)了解顧客對(duì)該商品的喜愛(ài)程度。我們規(guī)定,正向評(píng)論的百分比在85%以上,表明用戶(hù)喜愛(ài)此種商品,正向評(píng)論的百分比在75%~85%之間,則說(shuō)明用戶(hù)比較喜歡該種商品,正向評(píng)論的百分比在65%~75%之間,則說(shuō)明用戶(hù)對(duì)該種商品的情感一般,如果正向評(píng)論的百分比低于65%,那么就表示該商品不受用戶(hù)喜愛(ài)。
在淘寶網(wǎng)站中,按銷(xiāo)售數(shù)量排名,分別是女裝(女士精品)、化妝品(護(hù)膚品)、珠寶(首飾、手表)和日用品,因此為了使樣本具有代表性,本文選擇了一家賣(mài)女裝的商家進(jìn)行研究,從中選擇某件商品中的1 382條評(píng)論進(jìn)行情感傾向性分析。通過(guò)最終計(jì)算可以得到:
該商品的綜合評(píng)分為344.2分,平均得分為0.249分。其中正向評(píng)論個(gè)數(shù)為1 220個(gè),所占比例為88.28%,中性評(píng)論個(gè)數(shù)為136個(gè),所占比例為9.84%,負(fù)向評(píng)論個(gè)數(shù)為26個(gè),所占比例為1.88%。那么,淘寶網(wǎng)就可以將這些數(shù)據(jù)展示在評(píng)論網(wǎng)頁(yè)中供消費(fèi)者瀏覽,消費(fèi)者可以從這些數(shù)據(jù)中了解到,該商品是很受用戶(hù)喜愛(ài)的,可以放心購(gòu)買(mǎi);同時(shí),其他商家也可以照此與自家的產(chǎn)品進(jìn)行比較,明確自家商品不足的地方,可想法改進(jìn)。
目前,情感分析領(lǐng)域的研究主要集中在主觀性?xún)?nèi)容識(shí)別、褒貶情感分類(lèi)以及在線(xiàn)評(píng)論的經(jīng)濟(jì)價(jià)值挖掘等幾個(gè)方面[16],大部分研究借鑒文本挖掘、信息檢索、機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、統(tǒng)計(jì)學(xué)等方面的技術(shù)和方法,也提出了一些針對(duì)評(píng)論情感分析的特定方法。孫先和段卓將基于詞典的情感分析方法引入到微博的情感分析中去,他們綜合考慮了程度、否定副詞等上下文語(yǔ)境對(duì)情感詞的影響,從實(shí)驗(yàn)結(jié)果來(lái)看,其方法比較有效[17]。但該方法還比較簡(jiǎn)單直觀,準(zhǔn)確率并不是很高。因此,為了提高準(zhǔn)確率,本文運(yùn)用HowNet情感詞典并進(jìn)行相關(guān)擴(kuò)展,運(yùn)用基于PAT樹(shù)和統(tǒng)計(jì)相結(jié)合的分詞方法,來(lái)更好地完成評(píng)論情感分析工作。
本文通過(guò)對(duì)商品評(píng)論的分析來(lái)研究淘寶網(wǎng)用戶(hù)的情感傾向性,整合用戶(hù)購(gòu)買(mǎi)某一商品后的感受,同時(shí)統(tǒng)計(jì)不同用戶(hù)的評(píng)論信息,綜合展示商品的受歡迎程度。淘寶等購(gòu)物網(wǎng)站就可以把商品評(píng)論的綜合數(shù)據(jù)呈現(xiàn)出來(lái)給消費(fèi)者以及賣(mài)家瀏覽,從這些數(shù)據(jù)中消費(fèi)者可以了解到其他用戶(hù)對(duì)于某種商品的情感傾向性分布,以此來(lái)優(yōu)化自己的購(gòu)買(mǎi)決策;同時(shí)生產(chǎn)商和銷(xiāo)售商一方面可以了解到消費(fèi)者對(duì)其商品和服務(wù)的反饋信息,另一方面還可以知道消費(fèi)者對(duì)自己和對(duì)競(jìng)爭(zhēng)對(duì)手的評(píng)價(jià),從而來(lái)改進(jìn)自身的產(chǎn)品并改善服務(wù),從中贏得競(jìng)爭(zhēng)優(yōu)勢(shì)。
目前,電子商務(wù)管理的熱點(diǎn)問(wèn)題和難點(diǎn)問(wèn)題眾多,網(wǎng)購(gòu)評(píng)論情感傾向性分析就是其中之一,也正因?yàn)槿绱耍瑸榱穗娮由虅?wù)的良好發(fā)展,在情感傾向性分析方面仍需要投入更多的時(shí)間和精力。在本文研究的基礎(chǔ)上,還可以進(jìn)行進(jìn)一步探索的方向大致包括以下幾點(diǎn):
(1)本文所涉及的領(lǐng)域比較少,基于HowNet的情感詞典較單一,可以通過(guò)從多種情感詞典出發(fā)來(lái)分析評(píng)論的傾向性,這樣匯總得到的結(jié)果會(huì)更為理想。
(2)數(shù)據(jù)庫(kù)中保存了評(píng)論的IP地址和評(píng)論時(shí)間,可以進(jìn)一步分析淘寶消費(fèi)者的地域和評(píng)論時(shí)間與該話(huà)題之間的聯(lián)系,也許能挖掘到更為有趣的信息。
(3)增強(qiáng)對(duì)包括附和、諷刺、比喻、正話(huà)反說(shuō)等等這些更加復(fù)雜、更加自由的網(wǎng)購(gòu)評(píng)論的處理能力。同時(shí),與時(shí)俱進(jìn)的搜集更多不同的習(xí)慣用語(yǔ)以及句式的不同搭配等。
總體來(lái)說(shuō),網(wǎng)購(gòu)評(píng)論的情感傾向性研究還不是很完善,還有很長(zhǎng)的路要走,仍需相關(guān)技術(shù)研究人員投入更多的時(shí)間與精力。
[1]Global Trust in Advertising and Brand Messages[EB/OL].[2015-06-30].http://www.nielsen.com/us/en/insights/reports/ 2012/global-trust-in-advertising-and-brand-messages.html.
[2]朱嫣嵐,閔錦,周雅倩,等.基于HowNet的詞匯語(yǔ)義傾向計(jì)算[J].中文信息學(xué)報(bào),2005,20(1):14-20.
[3]曾淑琴,吳揚(yáng)揚(yáng).基于HowNet的詞語(yǔ)相關(guān)度計(jì)算模型[J].微型機(jī)與應(yīng)用,2012,31(8):77-80.
[4]柳位平,朱艷輝,栗春亮,等.中文基礎(chǔ)情感詞詞典構(gòu)建方法研究[J].計(jì)算機(jī)應(yīng)用,2009,29(10):2875-2877.
[5]Pang B,Lee L.A sentimental education:Sentiment analysis using subjectivitysummarization based on minimum cuts[C]//Proceedings of the 42nd annual meeting on Association for Computational Linguistics.Association for Computational Linguistics,2004:271-278.
[6]楊文峰,李星.基于PAT TREE統(tǒng)計(jì)語(yǔ)言模型與關(guān)鍵詞自動(dòng)提取[J].計(jì)算機(jī)工程與應(yīng)用,2001(15):17-20.
[7]李慧,沈潔,張舒,等.基于頁(yè)面分塊與信息熵的評(píng)論發(fā)現(xiàn)及抽取[J].計(jì)算機(jī)應(yīng)用研究,2007,24(2):269-271,291.
[8]劉偉,嚴(yán)華梁,肖建國(guó),等.一種Web評(píng)論自動(dòng)抽取方法[J].軟件學(xué)報(bào),2010,21(12):3220-3236.
[9]Hu M,Liu B.Mining and summarizing customer reviews[C]//Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2004:168-171.
[10]李淑英.中文分詞技術(shù)[J].科技信息,2007(36):65-66.
[11]柳佳剛,曾利軍.基于PAT-tree的中文搜索引擎結(jié)果聚類(lèi)算法[J].情報(bào)雜志,2009,28(12):32-34.
[12]HowNet knowledge database[EB/OL].[2015-06-30].http://www.keenage.com/.
[13]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度的計(jì)算[OL].
[2015-06-30].http://www.docin.com/p-23739023.html.
[14]江敏,肖詩(shī)斌,王弘蔚,等.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2008,22(5):84-89.
[15]現(xiàn)代漢語(yǔ)副詞表[OL].[2015-06-30].http://wenku.baidu. com/link?url=BoCWgoG04G_iOO0tDvaZZS85de5VEdgRRNHOXtQ9w6GjurS0B1DShCCJ-zQvZBoISVuRFBmbgpWqoj-B06c8KU9usI6SyY8QMb7q8oSjy7wq.
[16]張紫瓊,葉強(qiáng),李一軍.互聯(lián)網(wǎng)商品評(píng)論情感分析研究綜述[J].管理科學(xué)學(xué)報(bào),2010,13(6):84-96.
[17]孫先,段卓.基于情感詞語(yǔ)義的中文微博情感挖掘[J].信息與電腦,2013(3):84-85.
(責(zé)任編校駱雪松)
Sentiment Analysis of the Comments on Online Shopping Based on HowNet and PAT Tree
Li Yongzhong,Hu Siqi
School of Economics and Management,Fuzhou University,Fuzhou 350108,China
By summarizing and analyzing the related research,extending the HowNet sentiment dictionary and adopting the combined approaches of PAT tree and statistics the present article makes an analysis of the comments obtained from the website of Taobao.The results showed that it is effective to employ the sentiment analysis method based on HowNet and PAT tree to analyze the sentimental tendency of comments on online shopping.In addition,taking a business selling women’s clothes as an example,an experimental study was conducted.Several directions of further exploring the sentimental tendency were also pointed out at the end of the paper.
HowNet sentiment dictionary;PAT tree;comment on online shopping;sentiment analysis
G353.12
李永忠,男,1963年生,副教授,研究方向?yàn)殡娮诱?wù)、信息產(chǎn)業(yè)合作,發(fā)表論文50余篇;胡思琪,女,1993年生,2013級(jí)信息管理與信息系統(tǒng)專(zhuān)業(yè)碩士研究生,發(fā)表論文1篇。