張琰 朱燕翔 鄭桂玲
摘要:通過(guò)挖掘網(wǎng)購(gòu)手機(jī)的中文評(píng)論,以知名電商網(wǎng)站手機(jī)銷售評(píng)論為研究對(duì)象,首先通過(guò)爬蟲軟件抓取銷量排名前十的手機(jī)網(wǎng)購(gòu)評(píng)論,在文本數(shù)據(jù)預(yù)處理后使用改良的jieba分詞工具對(duì)評(píng)論進(jìn)行分詞,并基于Python開發(fā)平臺(tái)采用TF-IDF算法計(jì)算網(wǎng)購(gòu)中文評(píng)論中的手機(jī)屬性關(guān)鍵詞及修飾詞關(guān)鍵詞,通過(guò)關(guān)鍵詞詞頻分析找出用戶對(duì)特定型號(hào)手機(jī)的各屬性的消費(fèi)評(píng)價(jià),以便消費(fèi)者了解不同手機(jī)屬性的優(yōu)勢(shì)與劣勢(shì),同時(shí)為商家改進(jìn)商品功能提供建議。
關(guān)鍵詞:文本挖掘;網(wǎng)購(gòu)評(píng)論;屬性評(píng)價(jià)
中圖分類號(hào):F27文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.16723198.2018.22.022
0引言
當(dāng)下手機(jī)成為人們生活中必不可少的工具,手機(jī)除了實(shí)現(xiàn)通信功能外還提供休閑娛樂(lè)、移動(dòng)支付、信息搜索等功能。由于手機(jī)類產(chǎn)品的標(biāo)準(zhǔn)化,越來(lái)越多的用戶選擇網(wǎng)上購(gòu)買,并且網(wǎng)絡(luò)平臺(tái)還為用戶提供購(gòu)買后評(píng)價(jià)功能,這使得手機(jī)質(zhì)量、性能好壞,手機(jī)的各項(xiàng)屬性是否受用戶歡迎成為完全公開的信息。商家可以通過(guò)對(duì)評(píng)論進(jìn)行分析,得出用戶的消費(fèi)體驗(yàn),從而改進(jìn)商品性能或服務(wù)質(zhì)量。
1研究現(xiàn)狀綜述
本文擬從中文評(píng)論中挖掘關(guān)鍵詞的方式分析用戶評(píng)價(jià),這一過(guò)程包含兩個(gè)主要步驟:首先,需要對(duì)大量中文評(píng)論進(jìn)行分詞;其次,對(duì)分詞后的文本信息進(jìn)行關(guān)鍵詞提取。使用比較多的是由張華平開發(fā)的NLPIR漢語(yǔ)分詞系統(tǒng)ICTCLAS2016。本文采用基于Python軟件開發(fā)環(huán)境的jieba分詞工具。
第二個(gè)步驟是關(guān)鍵詞提取,目前主要的研究方法有兩類:一是基于統(tǒng)計(jì)的方法;二是基于機(jī)器學(xué)習(xí)的方法。基于統(tǒng)計(jì)的方法包括詞頻(Term Frequency,TF)、互信息(Mutual Information,MI)、TF-IDF、信息增益(Information Gain,IG)、χ2統(tǒng)計(jì)(CHI-square Statistic)等。基于統(tǒng)計(jì)的特征詞提取普遍具有復(fù)雜度低、計(jì)算簡(jiǎn)單的優(yōu)點(diǎn),但提取的細(xì)度與精度不夠。而機(jī)器學(xué)習(xí)的特征詞提取能夠很好的提高細(xì)度與精度?;跈C(jī)器學(xué)習(xí)的方法包括支持向量機(jī)、關(guān)聯(lián)規(guī)則K-means、神經(jīng)網(wǎng)絡(luò)等。其中,基于統(tǒng)計(jì)的TF-IDF詞頻統(tǒng)計(jì)是最基礎(chǔ)、簡(jiǎn)便的方法。
2研究思路
本文首先通過(guò)網(wǎng)絡(luò)爬蟲抓取知名電商網(wǎng)站上銷量排名在前10的手機(jī)評(píng)論數(shù)據(jù),使用jieba分詞系統(tǒng)對(duì)語(yǔ)料庫(kù)中的中文文本進(jìn)行分詞、詞性標(biāo)注操作,采用TF-IDF算法計(jì)算名詞的詞頻以便篩選出權(quán)值較高的手機(jī)屬性詞,以這些屬性詞為關(guān)鍵詞,在各類型手機(jī)評(píng)論數(shù)據(jù)中檢索表達(dá)用戶情感傾向的修飾詞的高頻關(guān)鍵詞,修飾詞的詞性根據(jù)樣本數(shù)據(jù)定義為:形容詞、副形詞、名形詞、習(xí)用語(yǔ)、數(shù)詞、區(qū)別詞、狀態(tài)詞等。根據(jù)檢索出的修飾詞的褒義與貶義統(tǒng)計(jì)用戶對(duì)各型號(hào)手機(jī)的各屬性的評(píng)價(jià)情況。
3實(shí)驗(yàn)及數(shù)據(jù)分析
3.1屬性特征詞提取
屬性詞TF-IDF權(quán)值從大到小排,如表1所示。
3.2修飾詞與屬性詞匹配
統(tǒng)計(jì)各型號(hào)手機(jī)各屬性受用戶好評(píng)或差評(píng)的情況。以華為榮耀暢玩6x為例,首先在評(píng)論文本中選出關(guān)鍵詞所在句子,采用TF-IDF算法統(tǒng)計(jì)該句中出現(xiàn)的修飾詞的詞頻,按大小排序并根據(jù)詞義人工劃分褒義與貶義,表2顯示了“性價(jià)比”、“速度”、“手感”這三個(gè)屬性的高頻修飾詞及其詞頻。
3.3屬性評(píng)價(jià)
采用加權(quán)平均的方法計(jì)算每個(gè)屬性關(guān)鍵詞的好評(píng)(差評(píng))權(quán)值,褒義詞權(quán)值為正,貶義詞權(quán)值為負(fù),得到華為榮耀暢玩6x各屬性關(guān)鍵詞的評(píng)價(jià)權(quán)值如圖1所示。圖中權(quán)值大于0的屬性表示用戶對(duì)該屬性的評(píng)價(jià)基本為正向;權(quán)值小于0的屬性表示用戶對(duì)該屬性的評(píng)價(jià)基本為負(fù)向。
由圖1可知,用戶對(duì)華為榮耀暢玩6x這款手機(jī)總體評(píng)價(jià)比較好,評(píng)價(jià)值大于0的好評(píng)屬性有19個(gè),其中好評(píng)度最高的屬性是“電池”,其次是“質(zhì)量”;評(píng)價(jià)權(quán)值小于0的差評(píng)屬性有3個(gè),這3個(gè)屬性分別為“贈(zèng)品”、“打電話”與“耳機(jī)”。同理可得其余9部手機(jī)的屬性關(guān)鍵詞的評(píng)價(jià)權(quán)情況。
一加3T手機(jī)統(tǒng)計(jì)了24個(gè)屬性,其中好評(píng)屬性17個(gè),差評(píng)屬性7個(gè),好評(píng)度較高的屬性為“性價(jià)比”與“手感”,差評(píng)度高的屬性為“按鍵”與“音量”;Apple 7統(tǒng)計(jì)了23個(gè)屬性,其中好評(píng)屬性15個(gè),差評(píng)屬性8個(gè),好評(píng)度較高的屬性為“手感”與“系統(tǒng)”,差評(píng)度高的屬性為“降價(jià)”與“劃痕”;華為榮耀暢玩5C統(tǒng)計(jì)了18個(gè)屬性,其中好評(píng)12個(gè),差評(píng)6個(gè),好評(píng)度較高的屬性為“性價(jià)比”、“質(zhì)量”、“手感”,差評(píng)度高的屬性為“沒(méi)貨”;華為榮耀8統(tǒng)計(jì)了18個(gè)屬性,其中好評(píng)屬性12個(gè),差評(píng)屬性6個(gè),好評(píng)度較高的屬性為“質(zhì)量”、“性價(jià)比”,差評(píng)度高的屬性為“沒(méi)貨”;Apple 6s統(tǒng)計(jì)了21個(gè)屬性,其中好評(píng)屬性10個(gè),差評(píng)屬性11個(gè),好評(píng)度較高的屬性為“系統(tǒng)”、“質(zhì)量”,差評(píng)度高的屬性為“沒(méi)貨”;OPPO R9S統(tǒng)計(jì)了25個(gè)屬性,其中好評(píng)屬性21個(gè),差評(píng)屬性4個(gè),好評(píng)度較高的屬性為“電池”、“手感”,差評(píng)度高的屬性為“死機(jī)”、“發(fā)票”;榮耀NOTE8統(tǒng)計(jì)了25個(gè)屬性,其中好評(píng)屬性20個(gè),差評(píng)屬性5個(gè),好評(píng)度較高的屬性為“電用戶對(duì)網(wǎng)購(gòu)手機(jī)客服質(zhì)量的訴求基本是普遍存在池”、“系統(tǒng)”、“性價(jià)比”、“手感”,差評(píng)度高的屬性為“降價(jià)”、“死機(jī)”;LG G5統(tǒng)計(jì)了23個(gè)屬性,其中好評(píng)屬性22個(gè),差評(píng)屬性1個(gè),好評(píng)度較高的屬性值均較低,最高的一個(gè)屬性為“系統(tǒng)”,差評(píng)屬性為“后殼”;海爾M328V統(tǒng)計(jì)了21個(gè)屬性,其中好評(píng)屬性20個(gè),差評(píng)屬性1個(gè),好評(píng)度較高的屬性為“電池”、“外觀”,差評(píng)屬性只有唯一的“報(bào)時(shí)”。
4總結(jié)
本文在獲取網(wǎng)購(gòu)手機(jī)評(píng)論數(shù)據(jù)的基礎(chǔ)上,應(yīng)用TF-IDF算法分析了銷量排名前10的手機(jī)屬性評(píng)價(jià)情況。用戶對(duì)手機(jī)屬性的評(píng)價(jià)特征表現(xiàn)為:①對(duì)10款熱銷手機(jī)受關(guān)注屬性的評(píng)價(jià)以好評(píng)價(jià)為主。②好評(píng)權(quán)值最高與差評(píng)權(quán)值最低的手機(jī)均為國(guó)產(chǎn)手機(jī)。③負(fù)面評(píng)價(jià)屬性詞個(gè)數(shù)最多的手機(jī)是Apple 6s,達(dá)到11個(gè),說(shuō)明在蘋果眾多機(jī)型中6s存在的問(wèn)題最多。
綜上所述,采用網(wǎng)購(gòu)評(píng)論文本挖掘的方法可以獲得消費(fèi)者對(duì)產(chǎn)品屬性的評(píng)價(jià),該方法更貼近消費(fèi)者真實(shí)感受與想法,研究結(jié)論對(duì)手機(jī)品牌商及網(wǎng)購(gòu)平臺(tái)商都有一定的借鑒價(jià)值。
參考文獻(xiàn)
[1]Hua-Ping ZHANG, Hong-Kui Yu, De-Yi Xiong, Qun LIU.HHMM-based Chinese Lexical Analyzer ICTCLAS[J].Second SIGHAN workshop affiliated with 41th ACL; Sapporo Japan, July, 2003, pp.184187.
[2]Yuhai Yu, Hongfei Lin, Jiana Meng and Zhehuan Zhao.Visual and Textual Sentiment Analysis of a Microblog Using Deep Convolutional Neural Networks[J].Algorithms 9 (2) (2016):41.
[3]Zhang W, Yoshida T, Tang X.A comparative study of TF-IDF, LSI and multi-words for text classification[J].Expert Systems with Applications, 2011, 38(3):27582765.
[4]單麗莉, 劉秉權(quán), 孫承杰.文本分類中特征選擇方法的比較與改進(jìn)[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2011:319324.