国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感分析的美食評論挖掘

2018-01-04 12:02吉書佩李晟宇
電腦知識與技術(shù) 2018年29期
關(guān)鍵詞:情感分析推薦系統(tǒng)

吉書佩 李晟宇

摘要:美食評論表達了人們的各種情感色彩和情感傾向性,對于消費者的選擇具有重要的影響。通過結(jié)合情感分析和評論挖掘技術(shù),設(shè)計并實現(xiàn)了一個美食評論挖掘系統(tǒng),幫助用戶從大量信息中快速選擇最為合適的餐廳。

關(guān)鍵詞:情感分析;評論挖掘;推薦系統(tǒng)

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)29-0208-03

Abstract:Food reviews express people's various emotionsand emotional tendencies, which have an important impact on consumers' choices. This paper combines emotional analysis and review miningto complete a food review mining system, which helps users to quickly select the most suitable restaurants from a large amount of information.

Key words:sentimental analysis;review mining;recommender system

1引言

隨著以用戶為中心的web2.0的發(fā)展,特別是大眾點評、美團網(wǎng)等美食點評網(wǎng)站的飛速發(fā)展,為人們打造了一個良好的發(fā)表自己的觀點和想法的環(huán)境,由此產(chǎn)生了大量的用戶對于某一對象的評論信息。而由于這些美食評論信息越來越多,消費者更加容易迷失。

這些美食評論表達了人們的各種情感色彩和情感傾向性,同時也會對其他用戶的決定造成影響。如今用戶越來越習(xí)慣于參考其他用戶的評論信息,傾向于選擇口碑好、評價高的餐廳。但是,無論是餐館還是評論數(shù)量都十分巨大,人工查找和利用這些評論信息成本很高。此外,傳統(tǒng)的推薦系統(tǒng)所提供的得分往往是用戶自己打出來的分數(shù),而由于用戶的評分標準不同,這個分數(shù)與用戶評論內(nèi)容往往并不相符。因此,如何從這些評論信息中搜集、提煉出有用的內(nèi)容并分析出用戶真正的情感信息就成為一個重要的課題。

在這一背景下,本文從餐飲這一行業(yè)出發(fā),結(jié)合情感分析和評論挖掘技術(shù),完成了一個美食評論挖掘系統(tǒng),幫助用戶從大量信息中快速選擇最為合適的餐廳。

2系統(tǒng)框架

本文結(jié)合情感分析和評論挖掘技術(shù),完成了一個美食評論挖掘系統(tǒng),其主要由數(shù)據(jù)采集、特征提取、情感分析和美食應(yīng)用四部分構(gòu)成,如圖1所示。

2.1 數(shù)據(jù)采集

美團、大眾點評和百度糯米都是現(xiàn)階段知名度和使用度最高的美食網(wǎng)站,有眾多商鋪入駐且評論數(shù)量多,因此更具有代表性。而又由于大眾點評和美團合并導(dǎo)致商鋪評論重合,因此最終我們選定美團和百度糯米兩個網(wǎng)站作為此次評論采集的對象。

其次,我們將范圍劃定在南昌地區(qū),又由于南昌地區(qū)的餐廳多樣,評論繁多,為了使研究結(jié)果更加簡潔明了,最終我們選取了火鍋和西餐這兩個最有代表性的種類作為此次研究的對象。

集搜客(http://www.gooseeker.com/)是一款操作方便、專業(yè)的數(shù)據(jù)采集器,可以使用爬蟲群并發(fā)抓取海量網(wǎng)頁,并且可以把數(shù)據(jù)直接導(dǎo)入Excel,非常適合我們做評論抓取。于是我們使用“集搜客”這款軟件在2018年2月至2018年3月采集了這兩家美食網(wǎng)站上的593家店鋪,共312337條評論(已處理空白評論)。

2.2 特征提取

首先,我們對搜集到的評論進行分詞處理并進行詞頻統(tǒng)計,在此基礎(chǔ)上構(gòu)建特征詞表。

2.2.1 詞頻統(tǒng)計

詞頻統(tǒng)計是一種詞匯分析研究方法,通過對一定長度文本的詞頻進行統(tǒng)計、分析,進而描繪出詞匯規(guī)律。到目前為止,已有很多學(xué)者對詞頻統(tǒng)計規(guī)律進行研究,包括詞頻統(tǒng)計規(guī)律的提出[1-2]、驗證[3]、應(yīng)用[4-5]等各個方面[6]。這種方法適用于評價著作、確定某種語言或某學(xué)科的基本詞匯。

我們使用“集搜客”的一個分詞打標軟件——天據(jù)英眼進行分詞處理與詞頻統(tǒng)計。該軟件操作簡單,支持Excel直接導(dǎo)入,自動分詞,并且可以把詞語列表按照詞頻大小排序,點擊詞語可以查看樣本數(shù)據(jù),篩選出有用的詞。系統(tǒng)會自動把詞語與原文本進行匹配,得到選詞結(jié)果表和打標結(jié)果表。因此我們使用該軟件得到評論中的所有詞語及出現(xiàn)頻率。

2.2.2 提取特征詞

我們從評論語料中抽取出現(xiàn)頻率在200以上(最高頻率在28000以上)的名詞,人工判別其中與美食有關(guān)的名詞,如“環(huán)境”、“口味”、“服務(wù)”等,并對這些名詞進行分類,最終得到了有關(guān)餐廳的特征詞和其對應(yīng)的指示詞,如表1所示。

2.3 情感分析

情感分析是指分析說話者在傳達信息時所隱含的情緒狀態(tài),對說話者的態(tài)度、意見進行判斷或者評估。按照處理文本的粒度不同,情感分析可分為詞語級、短語級、句子級、篇章級以及多篇章級等幾個研究層次[7]。而基于我們的研究內(nèi)容,主要使用的句子級的情感分析。

在情感分析方面,主要使用的技術(shù)分兩大類:一類是采用情感詞典與規(guī)則相結(jié)合的方法,根據(jù)文本中所包含的正向情感詞和負向情感詞的個數(shù)來進行情感分類;另一類是用機器學(xué)習(xí)的方法,選擇文本中的一些特征,標注訓(xùn)練集和測試集,使用樸素貝葉斯、最大熵、支持向量機等分類器來進行情感分類[8]。而本文將使用后者進行分析。

2.3.1 預(yù)處理

首先,由于每一條評論的內(nèi)容中都包含多個特征詞和指示詞,且摻雜著許多與觀點無關(guān)的詞語或句子,這些語句會對之后的情感分析產(chǎn)生不可預(yù)見的影響。因此在進行評分之前,對文本進行篩選、分類并刪除無關(guān)信息是必不可少的,簡而言之,就是進行預(yù)處理。

Python語言是一種功能強大的具有解釋性、交互性和面向?qū)ο蟮牡谒拇嬎銠C編程語言。Python也是一種腳本語言,它開發(fā)代碼的效率非常高,它具有強大和豐富實用的第三方標準庫,使得編程變得簡潔快速。Python語言可通過其提供的標準庫有效的解決用Python進行大數(shù)據(jù)處理的問題,這些數(shù)據(jù)轉(zhuǎn)換成適合Python分析的數(shù)據(jù)結(jié)構(gòu),之后用Python相應(yīng)的工具進行數(shù)據(jù)分析、處理,提出數(shù)據(jù)特征并用一定的結(jié)構(gòu)形式表現(xiàn)出來[9]。

我們用Python語言編寫程序?qū)υu論進行處理,得到包含某個指示詞的所有語句,并根據(jù)表1將這些指示詞下的語句匯總在一起,即得到經(jīng)過處理的、包含特征詞的語句。比如,我們采集的評論中關(guān)于餐廳“小龍坎老火鍋(勝利路店)”有一條評論為“味道很不錯,就是量太少,都沒吃飽,還可以,服務(wù)很好!!”則按指示詞可分為“味道很不錯”、“就是量太少”和“服務(wù)很好”,并把它們分別添加到該餐廳的特征詞“味道”、“服務(wù)”和“份量”下面。

2.3.2 情感評分

得到經(jīng)過處理并已按特征詞分好組的語句后,我們選擇使用Python的庫——SnowNLP進行情感分析。SnowNLP中文文本分析工具是專門針對中文文本進行處理的類,可以進行中文分詞、詞性標注、情感分析、文本分類、提取文本關(guān)鍵詞等。我們知道,任何一個情感分析工具都是被訓(xùn)練出來的。訓(xùn)練時使用的是什么文本材料,會直接影響到模型的適應(yīng)性。而SnowNLP的訓(xùn)練文本就是評論數(shù)據(jù)。因此,用它來分析中文評論信息是比較合適的。但為了使分數(shù)更加合理,我們重新訓(xùn)練了情感分析模型,如圖2所示。

我們使用該庫對所有句子進行評分,得出每個句子里所包含的情感色彩。最后再按照餐廳得出每個特征詞的平均分。例如上面的例子中,“味道很不錯”得分為0.89,“就是量太少”得分為0.27,“服務(wù)很好”得分為0.77。由此我們便可得出每個餐廳在不同方面的得分。

注意,在這個過程中,我們并不對“人群”這一特征詞進行處理,對于這一分類,我們只需對每個指示詞在每個餐廳中出現(xiàn)的次數(shù)作記錄即可。同樣,“人均”這一指示詞多為“人均XX元”這樣的句式,因此,我們也不對其進行評分,而是算出每個餐廳的人均值為多少元。

2.4 系統(tǒng)應(yīng)用

前面我們已經(jīng)詳細介紹了如何進行情感分析,并對我們采集到的評論按特征詞分類并進行評分。在前文已得到相關(guān)數(shù)據(jù)的基礎(chǔ)上,我們設(shè)計并開發(fā)了一款移動美食推薦系統(tǒng)。在該系統(tǒng)中,我們主要按照我們所得到的特征詞——味道、服務(wù)、環(huán)境、價格、份量、位置、菜品、人氣、人群——為用戶進行推薦。用戶可以選擇自己感興趣的某一個(或某幾個)特征詞,系統(tǒng)則將該特征詞下的餐廳按照得分高低排序并返回給用戶(若選擇多個特征詞,則將多個特征詞的得分的平均數(shù)反饋給用戶)。

3 系統(tǒng)演示

該系統(tǒng)使用eclipse軟件開發(fā),并使用SQL Server數(shù)據(jù)庫。用JavaWeb開發(fā)網(wǎng)頁,采用B/S三層架構(gòu),按不同用戶的不同偏好為其推薦合適的餐廳,只要用戶有瀏覽器就可以使用該系統(tǒng)。

接下來我們來演示一下這個系統(tǒng)。首先登錄系統(tǒng),會出現(xiàn)如圖3所示的二級聯(lián)動下拉框。

第一個下拉框可以選擇火鍋和西餐兩個選項,第二個下拉框可以選擇味道、服務(wù)、環(huán)境等特征詞,可以多選。選擇后出現(xiàn)如圖4所示的查詢結(jié)果。

該查詢結(jié)果包括排名、店名、情感得分以及查看評論鏈接,用戶可以點擊店名跳轉(zhuǎn)到相應(yīng)的美團鏈接以查看餐廳的詳細信息、地址以及電話等,也可以點擊“查看評論詳情”查看評論,如圖5所示。

4結(jié)束語

隨著O2O電子商務(wù)的快速發(fā)展,越來越多的人選擇通過使用互聯(lián)網(wǎng)和移動互聯(lián)網(wǎng)來查找和訂購美食。美食評論表達了人們的各種情感色彩和情感傾向性,對于消費者的選擇具有重要的影響。本文結(jié)合情感分析和評論挖掘技術(shù),完成了一個美食評論挖掘系統(tǒng),幫助用戶從大量信息中快速選擇最為合適的餐廳。

參考文獻:

[1] ZIPF G K.Human behavior and the principle of least effort: an in-troduction to human ecology[M].Boston: Addison-Wesley Press,1949: 23.

[2] BOOTH A D.A law of occurrences for words of low frequency[J].Information and Control,1967,10(4): 386-393.

[3] EGGHE L.A new short proof of Naranans theorem,explaining Lotkas law and Zipfs law[J]. Journal of the American Society for Information Science and Technology,2010,61(12): 2581-2583.

[4] CHAN P,HIJIKATA Y,NISHIDA S. Computing semantic relat-edness using word frequency and layout information of wikipedia[C]//Proceedings of the 28th Annual ACM Symposium on Ap-plied Computing.New York: ACM,2013: 282-287.

[5] SURYASEN R,RANA M S.Content analysis and application of Zipfs law in computer science literature[C]//Proceedings of the 2015 4th International Symposium on Emerging Trends and Technologiesin Libraries and Information Services.Piscataway,NJ: IEEE,2015: 223-227.

[6]羅燕,基于詞頻統(tǒng)計的文本關(guān)鍵詞提取方法[J]. 計算機應(yīng)用,2016,36(3): 718-725.

[7] Huang XJ, Zhao J. Sentiment analysis for Chinese text. Communications of CCF, 2008,4(2) (in Chinese with English abstract).

[8] 陳顧遠. 一種基于微博數(shù)據(jù)的公眾環(huán)境污染情感指數(shù)估算方法[G]//中國環(huán)境科學(xué)學(xué)會環(huán)境信息化分會.全國環(huán)境信息技術(shù)與應(yīng)用交流大會暨中國環(huán)境科學(xué)學(xué)會環(huán)境信息化分會年會論文集. 北京:出版社不詳,2016: 469-476

[9] 肖旻,陳行.基于Python語言編程特點及應(yīng)用之探討[J]. 電腦知識與技術(shù),2014(6).

【通聯(lián)編輯:王力】

猜你喜歡
情感分析推薦系統(tǒng)
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
基于用戶偏好的信任網(wǎng)絡(luò)隨機游走推薦模型
在線評論情感屬性的動態(tài)變化
南川市| 南康市| 沙雅县| 晋州市| 姜堰市| 甘谷县| 内江市| 张家口市| 达孜县| 黑河市| 石柱| 句容市| 清远市| 梁平县| 绵阳市| 彭山县| 德格县| 凌云县| 开平市| 宁化县| 平陆县| 石景山区| 铜川市| 太康县| 桦川县| 荥经县| 法库县| 施秉县| 龙井市| 皮山县| 保定市| 南平市| 北碚区| 紫阳县| 台南市| 西林县| 惠水县| 盐津县| 镇远县| 滕州市| 星子县|