国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)購(gòu)評(píng)論文本挖掘的手機(jī)類產(chǎn)品屬性評(píng)價(jià)研究

2018-09-21 10:36張琰朱燕翔鄭桂玲
現(xiàn)代商貿(mào)工業(yè) 2018年22期
關(guān)鍵詞:修飾詞分詞權(quán)值

張琰 朱燕翔 鄭桂玲

摘要:通過(guò)挖掘網(wǎng)購(gòu)手機(jī)的中文評(píng)論,以知名電商網(wǎng)站手機(jī)銷售評(píng)論為研究對(duì)象,首先通過(guò)爬蟲軟件抓取銷量排名前十的手機(jī)網(wǎng)購(gòu)評(píng)論,在文本數(shù)據(jù)預(yù)處理后使用改良的jieba分詞工具對(duì)評(píng)論進(jìn)行分詞,并基于Python開發(fā)平臺(tái)采用TF-IDF算法計(jì)算網(wǎng)購(gòu)中文評(píng)論中的手機(jī)屬性關(guān)鍵詞及修飾詞關(guān)鍵詞,通過(guò)關(guān)鍵詞詞頻分析找出用戶對(duì)特定型號(hào)手機(jī)的各屬性的消費(fèi)評(píng)價(jià),以便消費(fèi)者了解不同手機(jī)屬性的優(yōu)勢(shì)與劣勢(shì),同時(shí)為商家改進(jìn)商品功能提供建議。

關(guān)鍵詞:文本挖掘;網(wǎng)購(gòu)評(píng)論;屬性評(píng)價(jià)

中圖分類號(hào):F27文獻(xiàn)標(biāo)識(shí)碼:Adoi:10.19311/j.cnki.16723198.2018.22.022

0引言

當(dāng)下手機(jī)成為人們生活中必不可少的工具,手機(jī)除了實(shí)現(xiàn)通信功能外還提供休閑娛樂(lè)、移動(dòng)支付、信息搜索等功能。由于手機(jī)類產(chǎn)品的標(biāo)準(zhǔn)化,越來(lái)越多的用戶選擇網(wǎng)上購(gòu)買,并且網(wǎng)絡(luò)平臺(tái)還為用戶提供購(gòu)買后評(píng)價(jià)功能,這使得手機(jī)質(zhì)量、性能好壞,手機(jī)的各項(xiàng)屬性是否受用戶歡迎成為完全公開的信息。商家可以通過(guò)對(duì)評(píng)論進(jìn)行分析,得出用戶的消費(fèi)體驗(yàn),從而改進(jìn)商品性能或服務(wù)質(zhì)量。

1研究現(xiàn)狀綜述

本文擬從中文評(píng)論中挖掘關(guān)鍵詞的方式分析用戶評(píng)價(jià),這一過(guò)程包含兩個(gè)主要步驟:首先,需要對(duì)大量中文評(píng)論進(jìn)行分詞;其次,對(duì)分詞后的文本信息進(jìn)行關(guān)鍵詞提取。使用比較多的是由張華平開發(fā)的NLPIR漢語(yǔ)分詞系統(tǒng)ICTCLAS2016。本文采用基于Python軟件開發(fā)環(huán)境的jieba分詞工具。

第二個(gè)步驟是關(guān)鍵詞提取,目前主要的研究方法有兩類:一是基于統(tǒng)計(jì)的方法;二是基于機(jī)器學(xué)習(xí)的方法。基于統(tǒng)計(jì)的方法包括詞頻(Term Frequency,TF)、互信息(Mutual Information,MI)、TF-IDF、信息增益(Information Gain,IG)、χ2統(tǒng)計(jì)(CHI-square Statistic)等。基于統(tǒng)計(jì)的特征詞提取普遍具有復(fù)雜度低、計(jì)算簡(jiǎn)單的優(yōu)點(diǎn),但提取的細(xì)度與精度不夠。而機(jī)器學(xué)習(xí)的特征詞提取能夠很好的提高細(xì)度與精度?;跈C(jī)器學(xué)習(xí)的方法包括支持向量機(jī)、關(guān)聯(lián)規(guī)則K-means、神經(jīng)網(wǎng)絡(luò)等。其中,基于統(tǒng)計(jì)的TF-IDF詞頻統(tǒng)計(jì)是最基礎(chǔ)、簡(jiǎn)便的方法。

2研究思路

本文首先通過(guò)網(wǎng)絡(luò)爬蟲抓取知名電商網(wǎng)站上銷量排名在前10的手機(jī)評(píng)論數(shù)據(jù),使用jieba分詞系統(tǒng)對(duì)語(yǔ)料庫(kù)中的中文文本進(jìn)行分詞、詞性標(biāo)注操作,采用TF-IDF算法計(jì)算名詞的詞頻以便篩選出權(quán)值較高的手機(jī)屬性詞,以這些屬性詞為關(guān)鍵詞,在各類型手機(jī)評(píng)論數(shù)據(jù)中檢索表達(dá)用戶情感傾向的修飾詞的高頻關(guān)鍵詞,修飾詞的詞性根據(jù)樣本數(shù)據(jù)定義為:形容詞、副形詞、名形詞、習(xí)用語(yǔ)、數(shù)詞、區(qū)別詞、狀態(tài)詞等。根據(jù)檢索出的修飾詞的褒義與貶義統(tǒng)計(jì)用戶對(duì)各型號(hào)手機(jī)的各屬性的評(píng)價(jià)情況。

3實(shí)驗(yàn)及數(shù)據(jù)分析

3.1屬性特征詞提取

屬性詞TF-IDF權(quán)值從大到小排,如表1所示。

3.2修飾詞與屬性詞匹配

統(tǒng)計(jì)各型號(hào)手機(jī)各屬性受用戶好評(píng)或差評(píng)的情況。以華為榮耀暢玩6x為例,首先在評(píng)論文本中選出關(guān)鍵詞所在句子,采用TF-IDF算法統(tǒng)計(jì)該句中出現(xiàn)的修飾詞的詞頻,按大小排序并根據(jù)詞義人工劃分褒義與貶義,表2顯示了“性價(jià)比”、“速度”、“手感”這三個(gè)屬性的高頻修飾詞及其詞頻。

3.3屬性評(píng)價(jià)

采用加權(quán)平均的方法計(jì)算每個(gè)屬性關(guān)鍵詞的好評(píng)(差評(píng))權(quán)值,褒義詞權(quán)值為正,貶義詞權(quán)值為負(fù),得到華為榮耀暢玩6x各屬性關(guān)鍵詞的評(píng)價(jià)權(quán)值如圖1所示。圖中權(quán)值大于0的屬性表示用戶對(duì)該屬性的評(píng)價(jià)基本為正向;權(quán)值小于0的屬性表示用戶對(duì)該屬性的評(píng)價(jià)基本為負(fù)向。

由圖1可知,用戶對(duì)華為榮耀暢玩6x這款手機(jī)總體評(píng)價(jià)比較好,評(píng)價(jià)值大于0的好評(píng)屬性有19個(gè),其中好評(píng)度最高的屬性是“電池”,其次是“質(zhì)量”;評(píng)價(jià)權(quán)值小于0的差評(píng)屬性有3個(gè),這3個(gè)屬性分別為“贈(zèng)品”、“打電話”與“耳機(jī)”。同理可得其余9部手機(jī)的屬性關(guān)鍵詞的評(píng)價(jià)權(quán)情況。

一加3T手機(jī)統(tǒng)計(jì)了24個(gè)屬性,其中好評(píng)屬性17個(gè),差評(píng)屬性7個(gè),好評(píng)度較高的屬性為“性價(jià)比”與“手感”,差評(píng)度高的屬性為“按鍵”與“音量”;Apple 7統(tǒng)計(jì)了23個(gè)屬性,其中好評(píng)屬性15個(gè),差評(píng)屬性8個(gè),好評(píng)度較高的屬性為“手感”與“系統(tǒng)”,差評(píng)度高的屬性為“降價(jià)”與“劃痕”;華為榮耀暢玩5C統(tǒng)計(jì)了18個(gè)屬性,其中好評(píng)12個(gè),差評(píng)6個(gè),好評(píng)度較高的屬性為“性價(jià)比”、“質(zhì)量”、“手感”,差評(píng)度高的屬性為“沒(méi)貨”;華為榮耀8統(tǒng)計(jì)了18個(gè)屬性,其中好評(píng)屬性12個(gè),差評(píng)屬性6個(gè),好評(píng)度較高的屬性為“質(zhì)量”、“性價(jià)比”,差評(píng)度高的屬性為“沒(méi)貨”;Apple 6s統(tǒng)計(jì)了21個(gè)屬性,其中好評(píng)屬性10個(gè),差評(píng)屬性11個(gè),好評(píng)度較高的屬性為“系統(tǒng)”、“質(zhì)量”,差評(píng)度高的屬性為“沒(méi)貨”;OPPO R9S統(tǒng)計(jì)了25個(gè)屬性,其中好評(píng)屬性21個(gè),差評(píng)屬性4個(gè),好評(píng)度較高的屬性為“電池”、“手感”,差評(píng)度高的屬性為“死機(jī)”、“發(fā)票”;榮耀NOTE8統(tǒng)計(jì)了25個(gè)屬性,其中好評(píng)屬性20個(gè),差評(píng)屬性5個(gè),好評(píng)度較高的屬性為“電用戶對(duì)網(wǎng)購(gòu)手機(jī)客服質(zhì)量的訴求基本是普遍存在池”、“系統(tǒng)”、“性價(jià)比”、“手感”,差評(píng)度高的屬性為“降價(jià)”、“死機(jī)”;LG G5統(tǒng)計(jì)了23個(gè)屬性,其中好評(píng)屬性22個(gè),差評(píng)屬性1個(gè),好評(píng)度較高的屬性值均較低,最高的一個(gè)屬性為“系統(tǒng)”,差評(píng)屬性為“后殼”;海爾M328V統(tǒng)計(jì)了21個(gè)屬性,其中好評(píng)屬性20個(gè),差評(píng)屬性1個(gè),好評(píng)度較高的屬性為“電池”、“外觀”,差評(píng)屬性只有唯一的“報(bào)時(shí)”。

4總結(jié)

本文在獲取網(wǎng)購(gòu)手機(jī)評(píng)論數(shù)據(jù)的基礎(chǔ)上,應(yīng)用TF-IDF算法分析了銷量排名前10的手機(jī)屬性評(píng)價(jià)情況。用戶對(duì)手機(jī)屬性的評(píng)價(jià)特征表現(xiàn)為:①對(duì)10款熱銷手機(jī)受關(guān)注屬性的評(píng)價(jià)以好評(píng)價(jià)為主。②好評(píng)權(quán)值最高與差評(píng)權(quán)值最低的手機(jī)均為國(guó)產(chǎn)手機(jī)。③負(fù)面評(píng)價(jià)屬性詞個(gè)數(shù)最多的手機(jī)是Apple 6s,達(dá)到11個(gè),說(shuō)明在蘋果眾多機(jī)型中6s存在的問(wèn)題最多。

綜上所述,采用網(wǎng)購(gòu)評(píng)論文本挖掘的方法可以獲得消費(fèi)者對(duì)產(chǎn)品屬性的評(píng)價(jià),該方法更貼近消費(fèi)者真實(shí)感受與想法,研究結(jié)論對(duì)手機(jī)品牌商及網(wǎng)購(gòu)平臺(tái)商都有一定的借鑒價(jià)值。

參考文獻(xiàn)

[1]Hua-Ping ZHANG, Hong-Kui Yu, De-Yi Xiong, Qun LIU.HHMM-based Chinese Lexical Analyzer ICTCLAS[J].Second SIGHAN workshop affiliated with 41th ACL; Sapporo Japan, July, 2003, pp.184187.

[2]Yuhai Yu, Hongfei Lin, Jiana Meng and Zhehuan Zhao.Visual and Textual Sentiment Analysis of a Microblog Using Deep Convolutional Neural Networks[J].Algorithms 9 (2) (2016):41.

[3]Zhang W, Yoshida T, Tang X.A comparative study of TF-IDF, LSI and multi-words for text classification[J].Expert Systems with Applications, 2011, 38(3):27582765.

[4]單麗莉, 劉秉權(quán), 孫承杰.文本分類中特征選擇方法的比較與改進(jìn)[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2011:319324.

猜你喜歡
修飾詞分詞權(quán)值
一種融合時(shí)間權(quán)值和用戶行為序列的電影推薦模型
分詞在英語(yǔ)教學(xué)中的妙用
CONTENTS
學(xué)加修飾詞
我屬“懶”
基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
基于語(yǔ)料庫(kù)的中國(guó)英語(yǔ)學(xué)習(xí)者期刊論文中的弱化修飾詞研究
論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
知己知彼 百戰(zhàn)不殆
波密县| 临武县| 麻栗坡县| 天祝| 曲水县| 鹤峰县| 郧西县| 阿拉善右旗| 石楼县| 濮阳市| 景东| 北流市| 长乐市| 开阳县| 平谷区| 阿拉善盟| 连江县| 茂名市| 潞西市| 泽普县| 桃园县| 贵定县| 青州市| 柘荣县| 海阳市| 洪洞县| 谢通门县| 尉犁县| 陕西省| 泸州市| 湖州市| 黄骅市| 砚山县| 都昌县| 临泽县| 桃江县| 涞水县| 和龙市| 永福县| 红桥区| 韩城市|