王新宇
(南京旅游職業(yè)學(xué)院 南京 211100)
?
基于情感詞典與機(jī)器學(xué)習(xí)的旅游網(wǎng)絡(luò)評價情感分析研究*
王新宇
(南京旅游職業(yè)學(xué)院南京211100)
摘要針對旅游網(wǎng)絡(luò)評價使用的旅游情感詞匯量不多的特點,提出一種基于旅游情感詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法,用于旅游網(wǎng)絡(luò)點評的情感傾向性分析研究。采用向量空間模型表示旅游評價文本,使用旅游情感詞典對特征空間進(jìn)行降維,采用TF-IDF特征權(quán)重法計算權(quán)重,利用SVM機(jī)器學(xué)習(xí)模型對評價進(jìn)行分類,實驗結(jié)果表明,該方法能夠有效地進(jìn)行旅游網(wǎng)絡(luò)評價分類。
關(guān)鍵詞機(jī)器學(xué)習(xí); 情感詞典; 情感分析
Class NumberTP391.1
隨著互聯(lián)網(wǎng)的普及和不斷發(fā)展,互聯(lián)網(wǎng)日益成為企業(yè)和個人檢索信息和發(fā)布信息的主要渠道,一條網(wǎng)絡(luò)評論產(chǎn)生的影響不容忽視,特別是對某種產(chǎn)品的輿情評價信息,對購物者的導(dǎo)向作用愈來愈重要,當(dāng)購物者通過電商網(wǎng)站選購商品,一般先瀏覽該商品的評價,特別注重負(fù)面評價,如果有少量負(fù)面評價,購物者往往會猶豫,如果負(fù)面評價過多,購物者一定會放棄在該網(wǎng)站購物。旅游產(chǎn)品作為一種特殊的商品,它完全要通過游客的身臨其境的體驗,才能完成產(chǎn)品的消費,潛在的顧客對旅游產(chǎn)品的網(wǎng)絡(luò)評價特別注重,由于網(wǎng)絡(luò)評論的時效性強,對于意見類訴求若不及時響應(yīng),往往對企業(yè)形象造成負(fù)面影響。所以在旅游領(lǐng)域,旅游電商企業(yè)、旅行社、酒店等十分重視旅游網(wǎng)絡(luò)評價的主動引導(dǎo),例如:同程旅游網(wǎng)已經(jīng)具有處理游客評價的能力,游客在酒店住宿或在景區(qū)游玩后,除了進(jìn)行一段點評,還可以選擇對旅游企業(yè)的服務(wù)進(jìn)行“好評”、“中評”和“差評”的歸類評價,從表面上看,通過這種簡單分類的辦法,顧客對旅游企業(yè)的服務(wù)評價一目了然,簡單直觀,非常實用,但實際上,這種方法往往達(dá)不到期望的效果,這是因為一些游客出于某種原因不得不選擇了好評,但點評文字表達(dá)中卻又出現(xiàn)牢騷滿腹的文字,表現(xiàn)出了不滿情緒,可見,實際上這些顧客還是對旅游企業(yè)的服務(wù)是不滿意的。如果僅僅使用簡單套用表面上“好評”分類,不去分析顧客的點評文字,勢必會影響結(jié)果,對客人的不滿和投訴的解決也起不到作用。因此,需要一種更為有效的方法,直接對每一條顧客對服務(wù)的點評進(jìn)行分析,從點評中挖掘顧客實際的評價情感傾向,幫助旅游企業(yè)發(fā)現(xiàn)旅游線路設(shè)計、景區(qū)服務(wù)管理、酒店客房管理中存在的不足,及時采取相應(yīng)的補救措施,從而可以提高顧客忠誠度,產(chǎn)生更大的經(jīng)濟(jì)效益。
情感分析(亦稱評論挖掘),通常是指對一段帶有主觀性情感的文本進(jìn)行分析的過程。情感分析有很強的實用價值,例如,通過對某酒店服務(wù)評論的情感分析,可以發(fā)現(xiàn)顧客對該酒店軟硬件設(shè)施和服務(wù)的褒貶態(tài)度和意見,從而改進(jìn)設(shè)施并改善服務(wù),贏得競爭優(yōu)勢;通過對游客對某條旅游線路的評論情感分析,旅行社可以了解游客對該線路的態(tài)度傾向分布,從而優(yōu)化路線,提高服務(wù)品質(zhì),從競爭中脫穎而出。通過情感分析技術(shù),可以幫助企業(yè)從互聯(lián)網(wǎng)上海量的產(chǎn)品評論中獲取對產(chǎn)品綜合、全面的評價信息。因此,許多企業(yè)都對應(yīng)用情感分析技術(shù)分析客人的網(wǎng)絡(luò)評價,有著迫切的需要,許多專家學(xué)者也對此開展了研究工作[1~5]。目前網(wǎng)絡(luò)評價情感分析的研究工作主要著重于理論研究或微博的評論的情感分析,但重點對旅游網(wǎng)絡(luò)評價,進(jìn)行情感分析的文獻(xiàn)和研究工作很少。因此,如何從旅游網(wǎng)絡(luò)評價中獲取游客的情感傾向,并更好地服務(wù)于游客,是一個非常有實用價值的研究方向。
目前研究文本情感傾向,主要使用兩種方法,分別是:基于機(jī)器學(xué)習(xí)的方法和基于語義的方法?;跈C(jī)器學(xué)習(xí)的方法是利用分類技術(shù)來處理文本,分類技術(shù)一般是使用某種學(xué)習(xí)算法來確定分類模型,該模型不但很好地擬合輸入數(shù)據(jù)中的類標(biāo)號與屬性集之間的關(guān)系,還能夠正確地預(yù)測未知樣本的類標(biāo)號中類標(biāo)號,我們需要為它提供一個人工標(biāo)注的訓(xùn)練集,通過上述的學(xué)習(xí)算法,訓(xùn)練并建立分類模型,然后可以將這個模型運用于檢驗集,從而檢驗類標(biāo)號未知情感文本記錄。唐慧豐等以中心向量法、KNN和支持向量機(jī)作為分類算法,分別進(jìn)行了分類實驗,實驗表明,采用支持向量機(jī)進(jìn)行情感分類,可以取得較好的效果[6]。徐軍等將樸素貝葉斯和最大熵方法應(yīng)用于新聞文本的情感分類,取得不錯的分類性能,最高準(zhǔn)確率能達(dá)到90%[7]?;谡Z義的方法,一般是先獲得情感傾向詞,把表示情感的詞語劃分成正面詞語和負(fù)面詞語,同時構(gòu)造一個專用的情感詞典,然后利用這個詞典,使用線性代數(shù)和統(tǒng)計分析的方法,來統(tǒng)計文本中的正面和負(fù)面情感詞語的相對數(shù)量,從而確定文本的情感傾向。羅景等將概率潛在語義模型用于中文信息檢索,并通過實驗證明,該模型能夠明顯地提高中文信息檢索的精度[8];宋曉雷等利用概率潛在語義分析,給出了兩種用于判別詞匯情感傾向的方法,這兩種方法可以在沒有外部資源的條件下,實現(xiàn)詞匯情感傾向的判別[9]。
從上述研究可以看出,這兩種方法各有長處和不足,本文提出了一種基于詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法,并將這個方法應(yīng)用于旅游網(wǎng)絡(luò)評價的情感分析研究。
機(jī)器學(xué)習(xí)作為人類智力的延伸,作為人工智能的重要研究方向之一,它試圖從模擬人類的學(xué)習(xí)能力出發(fā),運用一些最基本的統(tǒng)計方法,去探索客觀世界,獲得各種知識和技能,在計算機(jī)技術(shù)的幫助下建立相關(guān)的學(xué)習(xí)模型,最終可以讓計算機(jī)系統(tǒng)獲得某些學(xué)習(xí)能力。
常用的機(jī)器學(xué)習(xí)分類法有:最大熵、樸素貝葉斯文本算法、支持向量機(jī)模型。
支持向量機(jī)(Support Vector Machine,SVM)是由Vapnik于1995年根據(jù)統(tǒng)計學(xué)習(xí)理論,提出的一種新的機(jī)器學(xué)習(xí)方法,它以結(jié)構(gòu)風(fēng)險化最小原則為基礎(chǔ),其主要思想是建立一個分類超平面作為決策曲面,使得正例和反例之間的隔離邊緣最大化。它在許多諸如車牌識別、文本分類等實際應(yīng)用中體現(xiàn)了其大有可為之處。另外,支持向量機(jī)還有一個特點,就是可以很好地應(yīng)用于高維數(shù)據(jù),避免了“維數(shù)災(zāi)難”問題。Pang等利用支持向量機(jī)、樸素貝葉斯、最大熵這三種機(jī)器學(xué)習(xí)方法,對觀眾的電影評論進(jìn)行了情感分類,根據(jù)他們的研究,這三種機(jī)器學(xué)習(xí)方法均優(yōu)于純?nèi)斯し诸?并且發(fā)現(xiàn)支持向量機(jī)比其它兩種機(jī)器學(xué)習(xí)方法更好。
4.1旅游點評數(shù)據(jù)采集
通過使用一個自行編寫的評價提取工具(C#開發(fā))從同程旅游網(wǎng)上抓取了部分景區(qū)的旅游點評,為了使數(shù)據(jù)更有廣泛性,抓取的景區(qū)數(shù)據(jù)共有15個景區(qū),其中:北方景區(qū)5個,南方景區(qū)7個,華東景區(qū)3個,共計提取4500條點評信息存入數(shù)據(jù)庫(采用SQL Server express版)。
每個景區(qū)介紹頁面中包含的標(biāo)簽和內(nèi)容非常多,大部分信息是與游客點評無關(guān)的,程序需要仔細(xì)分析頁面,從大量的“噪聲”信息中找到游客的評價內(nèi)容,我使用正則表達(dá)式可以輕松、高效、準(zhǔn)確地獲取到游客對景區(qū)的點評信息,并將其存儲于數(shù)據(jù)庫中。
以下代碼簡單描述了如何提取某景區(qū)的點評,并保存至數(shù)據(jù)庫中。
void test(string str,string jqn){
string pstr = "〈DIV class=dpwords〉(?〈title〉.*?)〈/DIV〉";
string temp = "",sql = "";
MatchCollection mc = Regex.Matches(str,pstr);
int count = mc.Count;
int i=0;
string dpstr = "";
SqlConnection conn = dbbaseop.SqlCon();
SqlCommand cmd;
conn.Open();
while(i temp = mc[i].Groups["title"].Value; dpstr = temp.Replace("'", ""); sql = "insert into tb_dpinfo values('"+jdn+"','" + dpstr+ "')"; cmd = new SqlCommand(sql, conn); cmd.ExecuteNonQuery(); i++; cmd.Dispose(); } conn.Dispose(); } 4.2分詞系統(tǒng) 將游客對景區(qū)的評價信息從網(wǎng)頁中提取出來以后,需要對評論內(nèi)容進(jìn)行預(yù)處理,第一步需要進(jìn)行中文分詞,將由漢字序列組成的評價語句,通過一定的方法分割成若干個有著單獨意義的漢語詞條,這一步比較關(guān)鍵,同時這也是中文文本挖掘的重點和難點。分詞方法一般有3種方法:機(jī)械匹配的方法、最大概率的方法、語義理解的方法。機(jī)械匹配的方法是最常用的方法,在借助一個詞典的幫助下,它主要利用正向或者反向最大匹配的原則來分詞,清華大學(xué)CSEG系統(tǒng)就是這種方法實現(xiàn)的。最大概率是根據(jù)一個事先建立的常用詞語的概率表,依據(jù)這張概率表,對漢字字符串可能存在的多種分詞結(jié)果進(jìn)行統(tǒng)計分析,將其中概率最大的那個結(jié)果,作為該漢字字符串的分詞結(jié)果,代表系統(tǒng)有中科院計算所ICTCLAS系統(tǒng);基于語義理解的方法,這種方法可以實現(xiàn)新詞識別功能,亦稱為人工智能分詞方法,山西大學(xué)ABWS系統(tǒng)是其代表。 為了減少工作量,提高實驗精度和效率,本文采用中國科學(xué)院計算技術(shù)研究所研制的漢語詞法分析系統(tǒng)(ICTCLAS),該系統(tǒng)對非商業(yè)用途完全免費,除了提供一個簡易的使用界面外,還提供了相關(guān)編程接口,可以使用C/C++、C#、Java等語言調(diào)用系統(tǒng)提供的函數(shù),進(jìn)行二次開發(fā),將分詞功能直接嵌入到自行開發(fā)的軟件中,接口調(diào)用方法非常方便。我們利用ICTCLAS提供的接口,使用C#編程,實現(xiàn)了對旅游評價信息的分詞,以下代碼簡單演示如何調(diào)用接口函數(shù),獲取分詞字符串。 private string fc(string str){//str為待分詞中文字符串 CFc.NLPIR_Init("", 0, "");//初始化接口 //調(diào)用接口函數(shù),切分參數(shù)str傳遞的字符串,并將結(jié)果保存為IntPtr類型 IntPtrintPtr = CFc.NLPIR_ParagraphProcess(str, 1); //將切分結(jié)果轉(zhuǎn)換為字符串 stringrstr = Marshal.PtrToStringAnsi(intPtr); CFc.NLPIR_Exit();//退出接口 returnrstr; } 輸入字符串:“揚州瘦西湖,一直是聞其名,果然是美景怡人,門票稍貴了點,不過也算值得,在湖上蕩舟,別有風(fēng)味。就是四月的揚州人太多了些?!?/p> 得到分詞后的結(jié)果:“揚州/ns 瘦西湖/ns ,/wd 一直/d 是/vshi 聞/v 其/rz 名/ng ,/wd 果然/d 是/vshi 美景/n 怡/vg 人/n ,/wd 門票/n 稍/d 貴/a 了/ule 點/qt ,/wd 不過/c 也/d 算/v 值得/v ,/wd 在/p 湖/n 上/f 蕩/v 舟/n ,/wd 別有風(fēng)味/vl 。/wj 就/d 是/vshi 四月/t 的/ude1 揚州/ns 人/n 太/d 多/a 了/ule 些/q 。/wj”。 4.3旅游情感詞典的建立 基于詞典的旅游情感分析,需要建立一個旅游情感詞典。目前中文文本的情感分析處于研究階段,已經(jīng)有少量通用情感詞典庫可以利用,但由于很少有旅游情感分析的研究,所以目前尚沒有專門的旅游情感詞典庫。我們通過以下方法來完成旅游情感詞典的構(gòu)建: 1) 以大連理工大學(xué)信息檢索研究室整理和標(biāo)注的一個中文感情詞典資源庫為本體庫,該詞典將情感共分為7大類21小類,每個詞在每一類情感下都對應(yīng)了“中性”、“褒義”、“貶義”、“褒貶兩性”4種極性中的1種,并列出了每個詞匯的詞性種類、情感分類和情感強度[10],設(shè)該詞典為集合D。 2) 利用分詞系統(tǒng)提供的編程接口,編寫了相關(guān)程序,對4.1節(jié)中的點評信息進(jìn)行分詞處理,將得到的詞匯集合PW。將D與PW進(jìn)行交集操作,可以得到旅游情感詞典ED,可表示為ED=D∩PW。根據(jù)以上步驟編制程序,可以得到一個包含1989個情感詞匯的旅游情感詞匯詞典。表1為最終得到的旅游情感詞匯示例。 表1 網(wǎng)絡(luò)點評常用旅游情感詞匯示例 4.4文本表示 因為現(xiàn)代計算機(jī)無法智能地識別人類的自然語言,也無法直接處理文本這類非結(jié)構(gòu)化數(shù)據(jù),所以經(jīng)過預(yù)處理的文本數(shù)據(jù)需要轉(zhuǎn)化成某種結(jié)構(gòu)化的形式,才能讓計算機(jī)“讀懂”,進(jìn)而可以進(jìn)行識別和處理,這個轉(zhuǎn)化過程就是文本形式化表示。單字、詞組、短語等都是常用的文本形式,常見的文本的形式表示模型有布爾模型、概率模型和向量空間模型(Vector Space Model,VSM)。其中,向量空間模型的文本表示效果較好,也是經(jīng)常使用的一種文本表示方法,向量空間模型可以描述為,給定集合T{t1,t2,…,tn}是文本中出現(xiàn)的m個特征,設(shè)wi表示第i個特征在文本D中的權(quán)重,可以把D表示為D={t1,w1;t2,w2;…,tn,wn}。其中,權(quán)重可以通過使用布爾權(quán)重法、詞頻權(quán)重法或TFIDF權(quán)重法來計算。 4.5特征選取 游客的旅游點評文本轉(zhuǎn)化為向量空間模型后,可以得到一個稀疏矩陣,通常是一個高維的空間,在機(jī)器學(xué)習(xí)的過程中,過高的特征空間維度,有造成“維數(shù)災(zāi)難”的可能。雖然理論和實踐證明了采用支持向量機(jī)可以很好地應(yīng)用于高維數(shù)據(jù),避免了“維數(shù)災(zāi)難”問題,但如果考慮算法的時間復(fù)雜度,最好還是把特征的個數(shù)控制在一個合理的范圍內(nèi)。這就要求采用某種特征選擇算法對特征空間進(jìn)行篩選,從而達(dá)到降低維數(shù)的目的。已經(jīng)研究出多種方法可以進(jìn)行特征選擇,最常用的兩種方法是:文檔頻率(DF)和卡方(CHI)統(tǒng)計。文檔頻率是一種簡單的,但有較好性能的特征選擇方法,該方法通過將文檔頻率設(shè)置在某個范圍來進(jìn)行特征的選取。卡方統(tǒng)計是通過分析特征和類別之間的依賴程度來進(jìn)行特征的選取。 此外,還可以結(jié)合情感詞典進(jìn)行特征選擇,建立一個情感詞匯數(shù)量不多的情感詞典,然后直接通過使用該情感詞典作為特征選擇的依據(jù),在這種情況下,可以認(rèn)為使用情感詞典也是一種有效的降維方法,一些文獻(xiàn)對這種方法進(jìn)行了實驗,證明這種方法是有效和可行的[11,12]。根據(jù)劉志明[12]的研究,當(dāng)權(quán)重采用TF-IDF法時,在特征數(shù)為2000時,SVM的性能可以達(dá)到最優(yōu)。4.3節(jié)中建立的旅游情感詞典的詞匯數(shù)量接近2000,所以本文把該旅游情感詞典中所有的詞匯均作為特征。 4.6特征加權(quán) 對于4.4節(jié)中的文本空間,其中的每個特征的重要性是不同的,需要對文本特征進(jìn)行加權(quán)操作,這一步對于分類結(jié)果有著相當(dāng)重要的作用。特征加權(quán)的過程,就是根據(jù)每個特征對分類結(jié)果的貢獻(xiàn)大小,賦予不同權(quán)值的過程。經(jīng)常使用的特征加權(quán)方法有:布爾權(quán)重法,詞頻權(quán)重法和TF-IDF權(quán)重法。 TF-IDF被是被廣泛使用的特征權(quán)重計算方法,其主要思想是,對文檔分類最有作用的特征詞,應(yīng)該是那些在一篇文檔中出現(xiàn)頻率高,而在其他文檔中很少出現(xiàn)的詞。其計算公式可表示如下: 其中,tf(i,j)為特征項ti在文本dj中出現(xiàn)的次數(shù),ni為包含ti特征的文本數(shù)量,N為總文檔數(shù)。 周杰通過實驗證明,對于評論語句很短的語料,在進(jìn)行情感傾向分析時,使用TF-IDF權(quán)重計算方法,可以獲得較優(yōu)準(zhǔn)確率[13],所以本文使用TF-IDF權(quán)重法,利用C#語言編制相應(yīng)的計算程序。 5.1實驗數(shù)據(jù)及環(huán)境 實驗數(shù)據(jù)使用的語料庫為4.1節(jié)中建立的數(shù)據(jù)庫,從中挑選了5個景區(qū)的1800點評信息為語料,人工對這些點評的情感傾向進(jìn)行了標(biāo)注。語料選擇情況如表2所示。 表2 語料選擇情況統(tǒng)計 實驗環(huán)境為Visual Studio 2008、SQL Server 2005,實現(xiàn)SVM機(jī)器學(xué)習(xí)模型使用的是林智仁開發(fā)的LIBSVM工具箱。特征詞選用了4.3節(jié)中建立的旅游情感詞典中的全部1989個情感詞匯,使用TF-IDF進(jìn)行權(quán)重計算。 5.2評價指標(biāo) 本次實驗使用了正確率(precision)、召回率(recall)、F均值作用評價指標(biāo),來檢驗實驗效果。 令Drighti為被正確的劃分到Ci類別中的評價文本數(shù)量,Dwrongi為被誤劃分到Ci類別中的評價文本數(shù)量,為Ci類別中實際的評價文本數(shù)量。則: 5.3實驗結(jié)果及分析 實驗結(jié)果如表3所示。 表3 實驗結(jié)果 研究表明,基于SVM模型的情感分類實驗,其正確率可以高80%左右[12],從實驗結(jié)果看,本文所設(shè)計的以旅游感情詞典作為特征,采用TF-IDF進(jìn)行特征權(quán)重計算,利用SVM機(jī)器學(xué)習(xí)模型進(jìn)行情感傾向分類的方法,雖然正確率沒有達(dá)到很高的值,但本方法算法簡單,效率較高,容易實現(xiàn),三大指標(biāo)的數(shù)值還是較為滿意的。 針對旅游點評內(nèi)容很短、使用的旅游情感詞匯數(shù)量不多、用語口語化等特點,本文提出一種基于旅游情感詞典和機(jī)器學(xué)習(xí)相結(jié)合的方法,用于旅游網(wǎng)絡(luò)點評的情感傾向性分析研究。采用向量空間模型表示旅游評價文本,使用旅游情感詞典對特征空間進(jìn)行降維,采用TF-IDF特征權(quán)重法計算權(quán)重,利用SVM機(jī)器學(xué)習(xí)模型將旅游網(wǎng)絡(luò)評價的情感分為正向和負(fù)向兩類,因為利用了旅游情感詞典進(jìn)行降維,減少了計算工作量并降低了計算復(fù)雜度,較為實用,從正確率、召回率、F均值三大指標(biāo)來看,該方法的實驗也取得了較為滿意結(jié)果,從中我們可以看出這種方法在旅游網(wǎng)絡(luò)評價情感傾向分析中,具有一定的優(yōu)勢。今后的研究工作主要著重兩點:第一,將實驗中所編制網(wǎng)絡(luò)評價提取和相關(guān)算法的程序,進(jìn)一步完善,實現(xiàn)實用化的軟件產(chǎn)品;第二,加強對旅游網(wǎng)絡(luò)評價詞的聚類分析研究,找出游客評價中的共同點,為旅游企業(yè)改進(jìn)產(chǎn)品和服務(wù)提供數(shù)據(jù)支持,實現(xiàn)“科技為旅游助力”。 參 考 文 獻(xiàn) [1] 張紫瓊,葉強,李一軍.互聯(lián)網(wǎng)商品評論情感分析研究綜述[J].管理科學(xué)學(xué)報,2010(6):84-96. ZHANG Ziqiong, YE Qiang, LI Yijun. Literaturereview on sentiment analysis of online product reviews[J]. Journal of Management Sciences in China,2010(6):84-96. [2] 葉強,張紫瓊,羅振雄.面向互聯(lián)網(wǎng)評論情感分析的中文主觀性自動判別研究[J].信息系統(tǒng)學(xué)報,2007(1):79-91. YE Qiang, ZHANG Ziqiong & Law Rob. Automatically Measuring Subjectivity of Chinese Sentences for Sentiment Analysis to Reviews on the Internet[J]. China Journal of Information Systems,2007(1):79-91. [3] 陸文星,王燕飛.中文文本情感分析研究綜述[J].計算機(jī)應(yīng)用研究,2012(6):2014-2017. LU Wenxing, WANG Yanfei. Review of Chinese text sentiment analysis[J]. Application Research of Computers,2012(6):2014-2017. [4] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報,2010,21(8):1834-1848. ZHAO Yanyan, QIN Bing, LIU Ting. Sentiment Analysis[J]. Journal of Software,2010,21(8):1834-1848. [5] 周立柱,賀宇凱,王建勇.情感分析研究綜述[J].計算機(jī)應(yīng)用,2008(11):2725-2728. ZHOU Lizhu, HE Yukai, WANG Jianyong. Survey on research of sentiment analysis[J]. Computer Applications,2008(11):2725-2728. [6] 唐慧豐,譚松波,程學(xué)旗.基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J].中文信息學(xué)報,2007(11):88-108. TANG Huifeng, TAN Songbo, CHENG Xueqi. Research on Sentiment Classification of Chinese Reviews Based on Supervised Machine Learning Techniques[J]. Journal of Chinese Information Processing,2007(11):88-108. [7] 徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動分類[J].中文信息學(xué)報,2007(11):95-100. XU Jun, DING Yuxin, WANG Xiaolong. Sentiment Classification for Chinese News Using Machine Learning Methods[J]. Journal of Chinese Information Processing,2007(11):95-100. [8] 羅景,涂新輝.基于概率潛在語義分析的中文信息檢索[J].計算機(jī)工程,2008(1):199-201. LUO Jing, TU Xinhui. Chinese Information Retrieval Based on Probabilistic Latent Semantic Analysis[J]. Computer Engineering,2008(1):199-201. [9] 宋曉雷,王素格,李紅霞,等.基于概率潛在語義分析的詞匯情感傾向判別[J].中文信息學(xué)報,2011(6):89-93.SONG Xiaolei, WANG Suge, LI Hongxia, et al. Word Sentiment Orientation Discrimination Based on PLSA[J]. Journal of Chinese Information Processing,2011(6):89-93. [10] 徐琳宏,林鴻飛,趙晶.情感語料庫的構(gòu)建和分析[J].中文信息學(xué)報,2008(1):116-122. XU Linhong, LIN Hongfei, ZHAO Jing. Construction and Analysis of Emotional Corpus[J]. Journal of Chinese Information Processing,2008(1):116-122. [11] 楊鼎,陽愛民.一種基于情感詞典和樸素貝葉斯的中文文本情感分類方法[J].計算機(jī)應(yīng)用研究,2010(10):3737-3739. YANG Ding, YANG Aimin. Classification approach of Chinese texts sentiment based on semantic lexicon and naive Bayesian[J]. Application Research of Computers,2010(10):3737-3739. [12] 劉志明,劉魯.基于機(jī)器學(xué)習(xí)的中文微博情感分類實證研究[J].計算機(jī)工程與應(yīng)用,2012,48(1):1-4. LIU Zhiming, LIU Lu. Empirical study of sentiment classification for Chinese microblog based on machine learning[J]. Computer Engineering and Applications,2012,48(1):1-4. [13] 周杰,林琛,李弼程.基于機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)新聞評論情感分類研究[J].計算機(jī)應(yīng)用,2010(4):1011-1014. ZHOU Jie, LIN Chen, LI Bicheng. Research of sentiment classification for net news comments by machine learning[J]. Journal of Computer Applications,2010(4):1011-1014. 收稿日期:2015年10月4日,修回日期:2015年11月26日 基金項目:南京旅游職業(yè)學(xué)院基金項目(2015YKT10),大數(shù)據(jù)時代旅游數(shù)據(jù)挖掘與應(yīng)用研究資助。 作者簡介:王新宇,男,碩士研究生,講師,研究方向:旅游電子商務(wù)、軟件工程。 中圖分類號TP391.1 DOI:10.3969/j.issn.1672-9722.2016.04.004 Sentiment Analysis of Tourism Reviews Based on Semantic Lexicon and Machine Learning WANG Xinyu (Nanjing Institute of Tourism & Hospitality, Nanjing211100) AbstractThis paper provides an approach for sentiment analysis of tourism reviews through Internet service by combining semantic lexicon with machine learning. The approach expresses tourism reviews by adopting Vector Space Model(VSM). It reduces dimension of feature space by semantic lexicon. The weights are calculated by term frequency-inverse document frequency(TF-IDF). The tourism reviews are classified by Support Vector Machine(SVM). Experimental results show that the proposed approach can make sentiment classification for plenty of tourism reviews efficiently. Key Wordsmachine learning, semantic lexicon, sentiment analysis5 實驗及結(jié)果分析
6 結(jié)語