基于情感挖掘的圖書評價方法

2015-03-07 08:10:04裴錦隆石家莊第二醫(yī)院050051

學(xué)周刊 2015年34期

關(guān)鍵詞：分詞評語詞典

裴錦?。ㄊ仪f第二醫(yī)院050051）

張利寬（北京交通部科學(xué)研究院100000）

基于情感挖掘的圖書評價方法

裴錦?。ㄊ仪f第二醫(yī)院050051）

張利寬（北京交通部科學(xué)研究院100000）

本文通過抓取某電子商務(wù)網(wǎng)站醫(yī)學(xué)圖書客戶評價和某醫(yī)院圖書館讀者評語，然后構(gòu)建了基于投票機制的情感挖掘模型，并對此模型進行實驗驗證，使用此模型對讀者評語進行了評價分析，為圖書館圖書評價，圖書選擇提供了客觀的支持。

情感挖掘圖書模型

一、引言

用戶評價在產(chǎn)品體驗中扮演著越來越重要的角色，隨著大數(shù)據(jù)時代的到來，人們逐漸地認識到，通過對用戶評語的分析，進而能夠判斷消費者對產(chǎn)品的認可度。在醫(yī)院圖書管理方面也不例外，如今許多醫(yī)院都建立了在線圖書館，并提供讀者對數(shù)據(jù)的評論平臺，這樣為通過分析讀者評語而挖掘讀者喜好，客觀判斷圖書的受歡迎程度提供了可能。本文試圖通過構(gòu)建讀者評語的情感挖掘模型，判斷讀者對圖書的喜好，進而對醫(yī)院圖書館所購圖書的受歡迎度進行衡量。

二、情感挖掘模型

（一）情感挖掘研究現(xiàn)狀

情感挖掘是指通過分析挖掘文本所隱含的語義和情感信息，將文本劃分為支持和反對(正性情感和負性情感)的兩類[1]。情感挖掘是一種特殊的文本分類，作為自然語言處理的一個重要部分，由于在商務(wù)智能、公眾意見分析中的實用性，情感挖掘已經(jīng)成為自然語言處理領(lǐng)域的一個熱點，得到了眾多學(xué)者的重視。

現(xiàn)有情感挖掘的研究方法主要有兩種，基于情感詞典的方法和基于機器學(xué)習(xí)的方法?；谇楦性~典的方法主要是通過已經(jīng)標注好的情感詞的詞庫，依照情感詞庫中詞語的情感等級，通過比對的方式對文本進行情感分類。

（二）情感挖掘模型構(gòu)建

情感挖掘的中文文本處理過程主要包括分詞、特征選擇、分類模型設(shè)計實驗驗證等步驟。圖2-1展示了情感挖掘的主要步驟。（見附圖）

（三）文本預(yù)處理

由于漢語語言的復(fù)雜性，需要對初始數(shù)據(jù)進行去停用詞、中文分詞等操作。本文采用的分詞工具是中科院計算所推出的ICTCLAS[2，ICTCLAS是一個基于隱馬爾科夫模型的一個漢語分詞系統(tǒng)。在歧義詞識別和新詞識別上都得到了很大的提升，分詞精度達到98.45%。

（四）特征選擇及權(quán)重計算

特征抽取分為兩個步驟：一是特征詞的選??；二是已選特征詞的權(quán)重確定。

特征詞的選取采用情感詞典與測試語料集匹配選取的方法。即選擇一個已有情感詞典，逐個情感詞典中的特征詞，將其與已經(jīng)分好詞的中文語料集進行字符匹配，若匹配成功，則該特征詞入選。為盡可能擴大情感詞典的詞庫規(guī)模，本文將漢語自然語言處理最優(yōu)秀的兩個情感詞典進行聯(lián)合，得到一個聯(lián)合情感詞典。本文選擇的情感詞典是中國知網(wǎng)整理的“情感分析用詞語集[3]”和臺灣大學(xué)整理的中文通用情感詞典NTUSD[4]。

設(shè)D為情感詞庫，且D={t1，t2，...tn}，正向情感的文檔子集為D1，負向情感文檔子集為D2。另設(shè)有一個文檔dj=(w1j,w2j,…,wnj)，其中wij為情感詞的權(quán)重。在本文中wij定義為：

wij=wtd（ti,dj）×wts（ti）（2-1）

其中，Wtd(ti,dj)為詞項ti在文檔dj中的重要性，Wts(ti)為詞項ti表達情感上的重要性。

對于詞項在文檔中的重要性Wtd(ti,dj)的計算本文采用詞頻的兩倍歸一化方法，將權(quán)重控制在0.5到1之間。

W↓td(t↓i,d↓j)=0.5+（0.5×f↓ij）/max|m|f↓kj|（2-2）

式中fij是是詞項fi在文檔dj中的出現(xiàn)頻率。

在完成特性選擇和權(quán)重計算后，我們對分類模型進行了設(shè)計。在前人的研究中，最常用的三種機器學(xué)習(xí)的分類模型有支持向量機SVM、樸素貝葉斯NB、和最近鄰KNN三種分類方法[5]。為達到更好的分類準確性，本文在利用三種最常用的分類器基礎(chǔ)上，設(shè)計了基于投票機制的集成分類方法。即將分類輸入分別用三種常用分類器進行分類，最后將輸出結(jié)果按照投票的機制決定。實踐證明這種分類方法取得了較好的效果。

三、實驗驗證

我們分別使用了兩個預(yù)處理好的語料集對情感挖掘模型進行實驗驗證，第一個數(shù)據(jù)集是從某著名的在線圖書電子商務(wù)網(wǎng)站抓取的醫(yī)學(xué)類書籍的顧客評語。第二個是從醫(yī)院圖書館網(wǎng)站搜集的院內(nèi)讀者的圖書評語數(shù)據(jù)集。

實驗驗證過程本文將支持向量機、樸素貝葉斯和最近鄰三種算法的分類結(jié)果與本文設(shè)計的集成模型分類結(jié)果進行比較。

評價指標采用文本分類常用的評價指標查準率，查全率和F-measure。

圖3-1和圖3-2為本文推薦方法與其他數(shù)據(jù)挖掘方法在不同數(shù)據(jù)集上的分析結(jié)果。（見附圖）

結(jié)果證明，通過在兩種不同測試集上分別使用四種不同的分類器進行實驗驗證，最終從實驗結(jié)果我們可以分析出，兩種測試結(jié)果中，最低值高于0.8,說明四種分類模型對文本情感挖掘都具有較好的分析效果，兩個數(shù)據(jù)集中，投票集成模型F-measure值均取得最高值。這說明投票集成模型有效性明顯高于其他三種模型。

[1]宗成慶.統(tǒng)計自然語言處理(第二版).北京：清華大學(xué)出版社，2013.

[2]張華平.ICTCLAS中文分詞系統(tǒng).http:// www.nlpir.org/. [3]HowNet,http://www.keenage.com/. [4]NTUSD,http://nlg18.csie.ntu.edu.tw:

8080/opinion/pub1.html.

[5]胡澤文,王效岳,白如江.國內(nèi)外文本分類研究計量分析與綜述.圖書情報工作，2011: 78-81.

(責(zé)編張敬亞)

附