摘 要:隨著互聯(lián)網(wǎng)發(fā)展,數(shù)據(jù)的產(chǎn)生與存儲(chǔ)無處不在,基于用戶的行為數(shù)據(jù)分析對(duì)商家及消費(fèi)者都具有重要意義。文章主要通過八爪魚實(shí)現(xiàn)京東商城小米9用戶評(píng)論的抓取,利用python進(jìn)行文本數(shù)據(jù)挖掘及分析。通過導(dǎo)入文本數(shù)據(jù)建立語料庫、并進(jìn)行中文分詞、詞頻統(tǒng)計(jì)、生成詞云過程實(shí)現(xiàn)小米9用戶評(píng)價(jià)的詞頻統(tǒng)計(jì)分析,得出用戶對(duì)手機(jī)評(píng)價(jià)的側(cè)重點(diǎn),為商城用戶及商家提供一定的決策建議。
關(guān)鍵詞:數(shù)據(jù)挖掘算法;文本挖掘;詞頻統(tǒng)計(jì)
在大數(shù)據(jù)時(shí)代,在我們的生活當(dāng)中,可獲取的大部分信息是以文本形式存儲(chǔ)在文本數(shù)據(jù)庫中的,如web頁面、新聞文檔、研究論文、電子郵件、數(shù)字圖書館和書籍等[4]。由于互聯(lián)網(wǎng)的迅速發(fā)展,現(xiàn)實(shí)世界的文本信息更多的呈現(xiàn)為電子化,文本挖掘也成為信息領(lǐng)域的研究熱點(diǎn)和學(xué)習(xí)重點(diǎn)。用計(jì)算機(jī)實(shí)現(xiàn)海量文本的識(shí)別和分析成為研究重心,文本挖掘技術(shù)也被廣泛的應(yīng)用于許多領(lǐng)域,也突出解決了很多問題。國內(nèi)很多學(xué)者對(duì)文本挖掘相關(guān)也都提出了各自的見解與不同領(lǐng)域內(nèi)的應(yīng)用。羅怡薇,張科偉[1]在其文章基于文本挖掘的網(wǎng)絡(luò)熱點(diǎn)輿情分析中,利用python及數(shù)據(jù)挖掘算法實(shí)現(xiàn)校園霸凌熱點(diǎn)問題的詞頻統(tǒng)計(jì)分析,得出大眾對(duì)于此問題的消極態(tài)度。馮麗娜[2]在其文章基于詞頻統(tǒng)計(jì)的孔子與顏之推教育思想比較研究中通過對(duì)《顏氏家訓(xùn)》和《論語》的詞頻統(tǒng)計(jì)與對(duì)比,揭示了二者在教育思想上的異同點(diǎn)。胡翠婷[3]在其文章基于詞頻計(jì)量統(tǒng)計(jì)的林黛玉性格分析中,通過對(duì)《紅樓夢(mèng)》和林黛玉詩詞的詞頻統(tǒng)計(jì),得出其對(duì)林黛玉性格的分析結(jié)果,即多愁善感,自卑敏感的性格特點(diǎn)。
一、文本挖掘概念
文本挖掘(Text Mining)是一個(gè)從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或者有用的模式的過程。其中被普遍接受和認(rèn)可的文本挖掘定義為:文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的、可理解的、最終可用的知識(shí)的過程,同時(shí)運(yùn)用這些知識(shí)更好地組織信息以便將來參考[4]。文本挖掘的主要用途是從原本未經(jīng)處理的文本中提取出未知有用的知識(shí),但是文本挖掘也是一項(xiàng)非常困難的工作,因?yàn)樗仨毺幚砟切┍緛砭湍:曳墙Y(jié)構(gòu)化的文本數(shù)據(jù),所以它是一個(gè)多學(xué)科結(jié)合的領(lǐng)域,包括了信息技術(shù)、數(shù)據(jù)庫技術(shù)、文本分析、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、模式識(shí)別、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及數(shù)據(jù)挖掘與數(shù)據(jù)分析等技術(shù)[4,5]。文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來的,因此其定義與我們所知的數(shù)據(jù)挖掘定義相類似。文本挖掘技術(shù)不同于數(shù)據(jù)挖掘技術(shù),一些數(shù)據(jù)挖掘技術(shù)也不能應(yīng)用到文本挖掘中,即使可用,也需要建立在對(duì)文本集的預(yù)處理的基礎(chǔ)之上。
二、文本挖掘詞頻統(tǒng)計(jì)過程
(一)建立語料庫
語料庫是我們要分析的所有文檔的集合。在日常工作中我們對(duì)文章的管理,先是一篇篇的文章不斷的積累,我們存了大量的文章之后,會(huì)對(duì)文章信息進(jìn)行一些歸類的工作,一般體現(xiàn)于建立不同的文件夾來保存不同類別的文章。同樣的,我們把我們需要分析的文文章件,讀取到內(nèi)存變量中,然后在內(nèi)存變量中使用不同的數(shù)據(jù)結(jié)構(gòu),對(duì)這些文文章件進(jìn)行存儲(chǔ),以便進(jìn)行下一步的分析。
(二)中文分詞與去除停頓詞
將漢字序列分成一個(gè)一個(gè)的單詞,利用jieba數(shù)據(jù)包進(jìn)行分詞,使用默認(rèn)的數(shù)據(jù)庫對(duì)文字句段進(jìn)行分詞。在分詞過程中有些停頓詞是無實(shí)際意義的,比如的,得,地以及一些助詞代詞等,需要將其去除以提高詞頻統(tǒng)計(jì)結(jié)果的正確性。
(三)詞頻統(tǒng)計(jì)與分析
詞頻,即詞語在文檔中出現(xiàn)的次數(shù),通過詞語或關(guān)鍵字在文檔中出現(xiàn)的次數(shù)統(tǒng)計(jì)可分析出用戶一定的情感傾向。
(四)生成詞云
利用wordcloud和matplotlib實(shí)現(xiàn)詞云的可視化過程。
三、文本挖掘在小米9用戶評(píng)論中的應(yīng)用
文章利用八爪魚抓取了京東商城上小米9二月到四月間的520條商品評(píng)論,并利用python進(jìn)行了數(shù)據(jù)處理過程。
(一)數(shù)據(jù)抓取通過八爪魚抓取商城米9用戶評(píng)論,保存到本地excel表當(dāng)中。
(二)數(shù)據(jù)清理將抓取的數(shù)據(jù)進(jìn)行清理,去除掉不用的數(shù)據(jù)列,填充空缺數(shù)據(jù)條。
(三)python編寫代碼實(shí)現(xiàn)數(shù)據(jù)的處理與分析過程,包括讀取文本數(shù)據(jù),進(jìn)行結(jié)巴分詞,詞頻統(tǒng)計(jì)和生成詞云的過程。
(四)分析用戶對(duì)米9的總體評(píng)價(jià)。由數(shù)據(jù)分析結(jié)果及生成的可視化詞云可知,用戶的主要情感傾向是小米手機(jī)不錯(cuò),這與小米的一貫品牌形象相符,追求性價(jià)比。其中除去手機(jī)、小米關(guān)鍵詞不錯(cuò)是詞頻統(tǒng)計(jì)中最高的,這是對(duì)小米的總體評(píng)價(jià)。其次就是手感,拍照,和流暢,這是對(duì)小米9的具體評(píng)價(jià),即小米9的手感不錯(cuò),拍照也清晰,機(jī)身也很流暢。但其中也存在一些頻次較低的中性詞語,比如電量,解鎖等名詞性或動(dòng)詞性詞匯,無確定其形容詞或副詞的連接描述,所以不能確定其表達(dá)的精確意思。存在的客戶抱怨主要是其發(fā)貨速度和小米的饑餓營銷,讓用戶等待時(shí)間較長(zhǎng)。
四、結(jié)語
通過八爪魚和python實(shí)現(xiàn)計(jì)算機(jī)對(duì)用戶評(píng)論的文本抓取與分析,并分析出用戶的產(chǎn)品偏好及情感評(píng)價(jià),對(duì)產(chǎn)品的研發(fā)有一定的指導(dǎo)意義,對(duì)其他用戶購買手機(jī)具有一定的參考意義。文章的不足之處:采集的樣本數(shù)據(jù)520條,數(shù)據(jù)量較少,存在一定的結(jié)論偏差;詞頻統(tǒng)計(jì)與可視化過程只能大體判斷整體用戶的情感傾向,而不能具體到每位用戶的情感傾向,仍需深入研究。
參考文獻(xiàn)
[1] 羅怡薇,張科偉.基于文本挖掘的網(wǎng)絡(luò)熱點(diǎn)輿情分析[J].內(nèi)蒙古科技與經(jīng)濟(jì),2018(11):18-19.
[2] 馮麗娜.基于詞頻統(tǒng)計(jì)的孔子與顏之推教育思想比較研究[J].圖書館雜志,2018(10):70-78.
[3] 胡翠婷.基于詞頻計(jì)量統(tǒng)計(jì)的林黛玉性格分析[J].現(xiàn)代語文,2019(02):86-92.
[4] 徐奇釗.基于文本挖掘的文本情緒分類[D].云南財(cái)經(jīng)大學(xué),2016.
[5] 潘若愚.基于詞頻統(tǒng)計(jì)分析國內(nèi)外文本挖掘的研究熱點(diǎn)[A].第十二屆(2017)中國管理學(xué)年會(huì)[C]2017(10).
作者簡(jiǎn)介:程慧玲(1997- ),女,漢族,安徽合肥人,就讀于安徽理工大學(xué),研究方向:管理科學(xué)與工程。