楊艷霞
(武漢科技大學(xué)城市學(xué)院信息工程學(xué)部 武漢 430083)
?
基于本體的旅游網(wǎng)絡(luò)評(píng)論情感分析與預(yù)警系統(tǒng)*
楊艷霞
(武漢科技大學(xué)城市學(xué)院信息工程學(xué)部武漢430083)
摘要挖掘旅游海量評(píng)論信息,智能分析用戶情感,從而改進(jìn)旅游產(chǎn)品和服務(wù),是旅游電子商務(wù)成功的關(guān)鍵。論文從旅游網(wǎng)絡(luò)評(píng)論信息出發(fā),研究微博情感詞匯本體的構(gòu)建和基于貝葉斯分類算法的情感分類,實(shí)現(xiàn)了一個(gè)基于本體的旅游網(wǎng)絡(luò)評(píng)論情感分析和預(yù)警系統(tǒng)。系統(tǒng)不僅節(jié)省了大量人力和物力,而且對(duì)制定合理的旅游政策具有一定的參考價(jià)值。
關(guān)鍵詞本體; 貝葉斯分類; 情感分析; 預(yù)警
Class NumberTP391.1
在當(dāng)今信息化時(shí)代背景下,信息的傳播異常迅猛。一條網(wǎng)絡(luò)評(píng)論的產(chǎn)生不容忽視。由于網(wǎng)絡(luò)評(píng)論的時(shí)效性強(qiáng),對(duì)于意見(jiàn)類訴求若不及時(shí)響應(yīng),往往對(duì)企業(yè)形象造成負(fù)面影響。特別是在旅游領(lǐng)域十分重視網(wǎng)絡(luò)輿論產(chǎn)生的引導(dǎo)效應(yīng)。文本情感分析主要是進(jìn)行情感極性的判斷,即判斷一條評(píng)論信息所表達(dá)情感是正、負(fù)或中性情感[1]。情感分析目的是從文本中挖掘用戶表達(dá)的觀點(diǎn)和情感極性,借助有監(jiān)督學(xué)習(xí)或無(wú)監(jiān)督學(xué)習(xí)等方法,讓機(jī)器理解文本的情感傾向。有了情感分析這一工具,對(duì)網(wǎng)絡(luò)評(píng)論的自動(dòng)分析與預(yù)警成為可能。在這樣的現(xiàn)狀下,設(shè)計(jì)了這個(gè)系統(tǒng),用于抓取旅游行業(yè)的網(wǎng)絡(luò)評(píng)論并分析評(píng)論文本的情感傾向,再向用戶推送適當(dāng)?shù)念A(yù)警消息。
2.1本體概念及構(gòu)建方法
本體也稱為Ontology,本體的應(yīng)用是為了構(gòu)建領(lǐng)域模型。例如,在知識(shí)工程中,一個(gè)本體提供了關(guān)于術(shù)語(yǔ)概念和關(guān)系的詞匯集,通過(guò)該詞匯集可以對(duì)一個(gè)領(lǐng)域進(jìn)行建模。在語(yǔ)義Web中,本體具有非常重要的地位,它是解決語(yǔ)義層次上Web信息共享和交換的基礎(chǔ)。
從詳細(xì)程度與領(lǐng)域依賴度兩個(gè)方面對(duì)本體進(jìn)行劃分。詳細(xì)程度是一個(gè)相對(duì)的、比較模糊的概念,指描述或刻畫(huà)建模對(duì)象的程度。詳細(xì)程度高的稱作參考(reference)本體,詳細(xì)程度低的稱為共享(share)本體。依照領(lǐng)域依賴程度,可以細(xì)分為頂層本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體四類。頂層本體描述的是最普遍的概念及概念之間的關(guān)系,如空間、時(shí)間、事件、行為等,與具體的應(yīng)用無(wú)關(guān),其他種類的本體都是該類本體的特例;領(lǐng)域本體描述的是某個(gè)特定領(lǐng)域(如醫(yī)藥、地理等)中的概念及概念之間的關(guān)系;任務(wù)本體描述的是特定任務(wù)或行為中的概念及概念之間的關(guān)系;應(yīng)用本體描述的是依賴于特定領(lǐng)域和任務(wù)的概念及概念之間的關(guān)系。
構(gòu)建情感詞匯本體是為了更充分地表達(dá)情感詞匯之間所蘊(yùn)含的語(yǔ)義信息,如詞匯的情感傾向性以及詞匯間的相似、遞進(jìn)和轉(zhuǎn)折關(guān)系等,方便情感詞的組織和共享,從而為微博話題的傾向性分析提供有效的分析依據(jù)[2]。
2.2微博情感詞匯本體構(gòu)建
中文微博作為互聯(lián)網(wǎng)的產(chǎn)品,其文本信息形式多元化,用于表達(dá)傾向性的詞語(yǔ)在不斷變化,因此核心本體并不需要一次性構(gòu)建完成。所以,在這個(gè)階段只需要收集能夠表達(dá)人們意見(jiàn)的比較重要的核心概念和關(guān)系,建立基礎(chǔ)情感詞本體。本文主要抽取HowNet公布的情感分析用詞集中的核心詞匯作為構(gòu)建本體的信息來(lái)源。
2.2.1情感詞匯知識(shí)的收集與分析
基礎(chǔ)情感詞匯本體中的詞匯選自HowNet中已經(jīng)標(biāo)注過(guò)的情感分析用詞語(yǔ)集,該詞匯集所包含的詞匯種類(中文)和數(shù)量以及本體中選用的情感詞匯的數(shù)量如表1所示。
表1 HowNet情感分析用詞數(shù)量及本體用詞數(shù)量
否定詞、程度副詞以及表示轉(zhuǎn)折和遞進(jìn)的關(guān)系連詞會(huì)對(duì)主觀句的傾向性產(chǎn)生影響,因此,本文又建立否定詞、程度副詞和連詞集。根據(jù)知網(wǎng)中發(fā)布的否定詞、程度副詞和連詞詞語(yǔ)集,共收錄“沒(méi),沒(méi)有,不,不是”等18個(gè)否定副詞,和188個(gè)程度副詞,40個(gè)連詞,具體如表2所示[3]。
表2 部分否定詞、程度副詞和連詞集
2.2.2情感詞匯本體的形式化表示
情感詞匯本體構(gòu)建完成后,本文使用OWL描述語(yǔ)言對(duì)情感詞匯本體進(jìn)行形式化描述,也就是用OWL語(yǔ)言中定義的元本體對(duì)提取出的概念以及屬性關(guān)系進(jìn)行形式化描述,最重要的是描述類、子類、屬性和它們各自具有的特性。本論文利用protege工具構(gòu)建本體,完成后的本體以O(shè)WL為后綴的OWL文件格式保存。
概念類的表示在protege中有兩種基本概念:整體概念(whole concept)和關(guān)系概念(relational concept)。整體概念的編輯界面如圖1所示。
圖1 Protege整體概念編輯界面
利用protege工具構(gòu)建情感詞匯本體的重要類及其屬性的界面圖如圖2。
圖2 Protege構(gòu)建類的界面圖
網(wǎng)絡(luò)情感詞需要長(zhǎng)時(shí)間的關(guān)注和搜集,現(xiàn)今還沒(méi)有現(xiàn)成可用的情感詞典,因此通過(guò)社交網(wǎng)絡(luò)、博客、BBS、評(píng)論、微博,將收集并標(biāo)注具有感情色彩的詞語(yǔ)加入情感詞匯本體之中是必要的補(bǔ)充。
2.3語(yǔ)料庫(kù)的組成
本文主要對(duì)旅游網(wǎng)絡(luò)評(píng)論信息進(jìn)行分類,使用八爪魚(yú)采集器抓取的旅游網(wǎng)絡(luò)評(píng)論信息,其采集信息如圖3所示。
圖3 采集微博信息(訓(xùn)練集)
3.1系統(tǒng)框架
圖4 系統(tǒng)框架示意圖
3.2各模塊的實(shí)現(xiàn)
3.2.1旅游評(píng)論數(shù)據(jù)爬取
旅游評(píng)論信息的采集是指從旅游網(wǎng)站中抽取相應(yīng)的評(píng)論信息,是旅游評(píng)論情感文本分析的基礎(chǔ)。其中評(píng)論信息的采集使用的是網(wǎng)絡(luò)爬蟲(chóng)的工具來(lái)獲取的。
3.2.2文本預(yù)處理
文本預(yù)處理過(guò)程是整個(gè)系統(tǒng)關(guān)鍵的一步,由于機(jī)器無(wú)法自動(dòng)判斷整個(gè)文本的類別屬性,只有人為將中文文本數(shù)據(jù)處理為機(jī)器可以識(shí)別判斷的數(shù)據(jù),才能更好地處理數(shù)據(jù)[4]。其實(shí)現(xiàn)過(guò)程如圖5所示。
圖5 微博文本預(yù)處理流程圖
第一步:準(zhǔn)備階段,將抓取好的微博數(shù)據(jù)為后面文本預(yù)處理做準(zhǔn)備。
第二步:由于抓取的評(píng)論信息有很多沒(méi)有實(shí)際意義,為了避免影響文本分類結(jié)果,因此需要處理文本,過(guò)濾不必要的信息,沒(méi)必要處理,因此直接過(guò)濾掉。
第三步:停用詞過(guò)濾,由于文本中可能會(huì)存在大量的對(duì)于文本分類沒(méi)有影響的內(nèi)容。
3.2.3中文分詞實(shí)現(xiàn)
在中文文本中,詞是構(gòu)建文本信息的基本單位,需要對(duì)文本進(jìn)行預(yù)處理就是對(duì)文本進(jìn)行分詞處理,分詞的結(jié)果將會(huì)直接影響文本分類的結(jié)果。本論文主要借助于非常成熟的分詞工具,Lucene分詞,其作為開(kāi)源項(xiàng)目,方便用戶直接引用[5]。
嚴(yán)格意義上來(lái)說(shuō),Lucene并不是一個(gè)單純的分詞系統(tǒng),它只是提供了分詞功能IKAnalyzer這樣一個(gè)接口。通過(guò)IKAnalyzer接口,將微博信息進(jìn)行切片處理,得到一個(gè)一個(gè)詞或字,并有此行標(biāo)注起來(lái)。因?yàn)榻⑺阉饕娴臅r(shí)候,必須要用到關(guān)鍵字,而關(guān)鍵字就是通過(guò)分詞來(lái)獲得[6]。
圖6 Lucene分詞流程圖
3.2.4文本分類實(shí)現(xiàn)
本文使用貝葉斯算法來(lái)實(shí)現(xiàn)文本分類,判讀文章關(guān)鍵詞屬于某一類的概率,然后通過(guò)比較不同類別的概率,出現(xiàn)在最大概率的文本就直接歸類為該類,樸素貝葉斯算法的文本分類[7~10],其具體實(shí)現(xiàn)過(guò)程如圖7所示。
圖7 貝葉斯分類器流程圖
貝葉斯算法的實(shí)現(xiàn)過(guò)程包括以下步驟:
第一步:返回Lucene中分詞系統(tǒng)處理的文本信息,包括分詞結(jié)果,關(guān)鍵詞提取的結(jié)果。
第二步:對(duì)于返回的結(jié)果,通過(guò)貝葉斯算法來(lái)計(jì)算關(guān)鍵詞在訓(xùn)練語(yǔ)庫(kù)中的概率值,通過(guò)排序來(lái)找出概率最大的值。
第三步:對(duì)于排序的結(jié)果,按照一定的分類規(guī)則,即按照概率最大的就將文本歸類為那一類,來(lái)最終獲得分類結(jié)果。
3.2.5信息負(fù)面評(píng)論的預(yù)警
統(tǒng)計(jì)負(fù)面信息條數(shù),計(jì)算負(fù)面信息的條數(shù)占信息總條數(shù)比例,如果該比例達(dá)到閾值(自定義),則向用戶推送適當(dāng)?shù)念A(yù)警信息。
針對(duì)旅游評(píng)論信息文本做情感分析,首先要分析中文情感詞匯本體,理解本體的構(gòu)建。然后網(wǎng)絡(luò)爬蟲(chóng)收集旅游網(wǎng)站的評(píng)論信息,通過(guò)樸素貝葉斯算法進(jìn)行計(jì)算、停用詞進(jìn)行過(guò)濾以及Lucene分詞進(jìn)行分類完成對(duì)測(cè)試文本的情感傾向進(jìn)行統(tǒng)計(jì),其中包含正向、負(fù)向和中性情感。最后通過(guò)統(tǒng)計(jì)各種評(píng)論者所產(chǎn)生的情感傾向的百分比來(lái)實(shí)現(xiàn)對(duì)用戶推送適當(dāng)?shù)念A(yù)警功能。本文對(duì)旅游評(píng)論情感分析做出了一些初步的向用戶推送預(yù)警的功能,有一定的參考價(jià)值。
參 考 文 獻(xiàn)
[1] 王曉東,劉倩,陶縣俊.情感Ontology構(gòu)建與文本傾向性分析[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(30):117-120.
WANG Xiaodong, LIU Qian, TAO Xianjun. Sentiment Ontology construction and text orientation analysis[J]. Computer Engineering and Applications,2010,46(30):117-120.
[2] 劉冬梅.html文本自動(dòng)分類技術(shù)的研究與工具的實(shí)現(xiàn)[D].呼和浩特:內(nèi)蒙古大學(xué),2006.
LIU Dongmei. Automatic Classification research on Html Document And Implentation of The Toll[D]. Hohhot: Inner Mongolia University,2006.
[3] 王曉東,王娟,張征.基于情感詞匯本體的主觀性句子傾向性計(jì)算[J].計(jì)算機(jī)應(yīng)用,2012,32(6):1678-1681,1684.
WANG Xiaodong, WANG Juan, ZHANG Zheng. Computation on orientation for subjective sentence based on sentiment words ontology[J]. Journal of Computer Applications,2012,32(6):1678-1681,1684.
[4] 任麗蕓.搜索引擎中文分詞技術(shù)研究[D].重慶:重慶理工大學(xué),2011.
REN Linwen. Research on Chinese Word Segmentation of Search Engine[D]. Chongqing: Chongqing University of Technology,2011.
[5] 管瑞霞,陸蓓.TFLD:一種中文文本關(guān)鍵詞自動(dòng)提取方法[J].機(jī)電工程,2010,27(9):123-126.
GUAN Ruixia, LU Bei. TFID: a novel Phrase_extraction method for Chinese text[J]. Journal of Mechanical & Electrical Engineering,2010,27(9):123-126.
[6] 鄭家恒,盧嬌麗.關(guān)鍵詞抽取方法的研究[J].計(jì)算機(jī)工程,2005,31(18):194-196.
ZHENG Jiaheng, LU Jiaoli. Study of An Improved Keywords Distillation Method[J]. Computer Engineering,2005,31(18):194-196.
[7] 管瑞霞.基于基因表達(dá)式編程的中文文本關(guān)鍵詞提取算法研究[D].杭州:杭州電子科技大學(xué),2009.
GUAN Ruixia. Research of Keywords Extraction Algorithm for Chinese Text Based on Gene Expression Programming[D]. Hangzhou: Hangzhou Dianzi University,2009.
[8] 鄒永斌,陳興蜀,王文賢.基于貝葉斯分類器的主題爬蟲(chóng)研究[J].計(jì)算機(jī)應(yīng)用研究,2009,9(26):3418-3420,3439.
ZOU Yongbin, CHEN Xingshu, WANG Wenxian. Research on focused crawler based on Bayes classifier[J]. Application Research of Computers,2009,9(26):3418-3420,3439.
[9] 條件概率和貝葉斯定理.中國(guó)開(kāi)放教育資源聯(lián)合體[EB/OL] [2013-01-7]. http://www.core.org.cn/NR/rdonlyres/Civil-and-Environmental-Engineering/1-017Computing-and-Data-Analysis-for-Environmental-ApplicationsFall2003/62A96B91-D71B-4734-80E8-E5763316BFA9/0/class03_6.pdf.
[10] 李勇.中文網(wǎng)頁(yè)分類研究綜述[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2012(15):3-7.
LI Yong. Chinese web page classification research overview[J]. Modern Computer,2012(15):3-7.
收稿日期:2015年10月8日,修回日期:2015年11月21日
基金項(xiàng)目:湖北省教育廳科學(xué)技術(shù)研究計(jì)劃指導(dǎo)性項(xiàng)目:基于Ontology的微博話題識(shí)別及傾向性研究(編號(hào):B2015360)資助。
作者簡(jiǎn)介:楊艷霞,女,碩士,講師,研究方向:機(jī)器學(xué)習(xí)與智能計(jì)算。
中圖分類號(hào)TP391.1
DOI:10.3969/j.issn.1672-9722.2016.04.020
Tourism Network Comments Sentiment Analysis and Pre-warning System Based on Ontology
YANG Yanxia
(Department of Information Engineering, Wuhan University of Science and Technology City College, Wuhan430083)
AbstractPigging tourism information and opinion, analyzing intelligently user emotion, to improve tourism products and services are the key to the success of tourism e-commerce. This paper embarks from the tourism network review information, how to build the microblogging emotional vocabulary ontology and how to classify emotion based on Naive Bayes classification algorithm are researched, a tourism network comments sentiment analysis and early warning system is implemented based on ontology. It not only saves a large amount of manpower and material resources, but also has certain reference value to establish reasonable tourism policy.
Key Wordsontology, Naive Bayes classifier, sentiment analysis, pre-warning