基于python的文本挖掘應(yīng)用

2019-09-17 07:59程慧玲

青年與社會(huì) 2019年20期

關(guān)鍵詞：文本挖掘

摘要：隨著互聯(lián)網(wǎng)發(fā)展，數(shù)據(jù)的產(chǎn)生與存儲(chǔ)無處不在，基于用戶的行為數(shù)據(jù)分析對(duì)商家及消費(fèi)者都具有重要意義。文章主要通過八爪魚實(shí)現(xiàn)京東商城小米9用戶評(píng)論的抓取，利用python進(jìn)行文本數(shù)據(jù)挖掘及分析。通過導(dǎo)入文本數(shù)據(jù)建立語料庫、并進(jìn)行中文分詞、詞頻統(tǒng)計(jì)、生成詞云過程實(shí)現(xiàn)小米9用戶評(píng)價(jià)的詞頻統(tǒng)計(jì)分析，得出用戶對(duì)手機(jī)評(píng)價(jià)的側(cè)重點(diǎn)，為商城用戶及商家提供一定的決策建議。

關(guān)鍵詞：數(shù)據(jù)挖掘算法;文本挖掘;詞頻統(tǒng)計(jì)

在大數(shù)據(jù)時(shí)代，在我們的生活當(dāng)中，可獲取的大部分信息是以文本形式存儲(chǔ)在文本數(shù)據(jù)庫中的，如web頁面、新聞文檔、研究論文、電子郵件、數(shù)字圖書館和書籍等[4]。由于互聯(lián)網(wǎng)的迅速發(fā)展，現(xiàn)實(shí)世界的文本信息更多的呈現(xiàn)為電子化，文本挖掘也成為信息領(lǐng)域的研究熱點(diǎn)和學(xué)習(xí)重點(diǎn)。用計(jì)算機(jī)實(shí)現(xiàn)海量文本的識(shí)別和分析成為研究重心，文本挖掘技術(shù)也被廣泛的應(yīng)用于許多領(lǐng)域，也突出解決了很多問題。國內(nèi)很多學(xué)者對(duì)文本挖掘相關(guān)也都提出了各自的見解與不同領(lǐng)域內(nèi)的應(yīng)用。羅怡薇，張科偉[1]在其文章基于文本挖掘的網(wǎng)絡(luò)熱點(diǎn)輿情分析中，利用python及數(shù)據(jù)挖掘算法實(shí)現(xiàn)校園霸凌熱點(diǎn)問題的詞頻統(tǒng)計(jì)分析，得出大眾對(duì)于此問題的消極態(tài)度。馮麗娜[2]在其文章基于詞頻統(tǒng)計(jì)的孔子與顏之推教育思想比較研究中通過對(duì)《顏氏家訓(xùn)》和《論語》的詞頻統(tǒng)計(jì)與對(duì)比，揭示了二者在教育思想上的異同點(diǎn)。胡翠婷[3]在其文章基于詞頻計(jì)量統(tǒng)計(jì)的林黛玉性格分析中，通過對(duì)《紅樓夢(mèng)》和林黛玉詩詞的詞頻統(tǒng)計(jì)，得出其對(duì)林黛玉性格的分析結(jié)果，即多愁善感，自卑敏感的性格特點(diǎn)。

一、文本挖掘概念

文本挖掘（Text Mining）是一個(gè)從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或者有用的模式的過程。其中被普遍接受和認(rèn)可的文本挖掘定義為：文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的、可理解的、最終可用的知識(shí)的過程，同時(shí)運(yùn)用這些知識(shí)更好地組織信息以便將來參考[4]。文本挖掘的主要用途是從原本未經(jīng)處理的文本中提取出未知有用的知識(shí)，但是文本挖掘也是一項(xiàng)非常困難的工作，因?yàn)樗仨毺幚砟切┍緛砭湍：曳墙Y(jié)構(gòu)化的文本數(shù)據(jù)，所以它是一個(gè)多學(xué)科結(jié)合的領(lǐng)域，包括了信息技術(shù)、數(shù)據(jù)庫技術(shù)、文本分析、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、模式識(shí)別、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及數(shù)據(jù)挖掘與數(shù)據(jù)分析等技術(shù)[4，5]。文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來的，因此其定義與我們所知的數(shù)據(jù)挖掘定義相類似。文本挖掘技術(shù)不同于數(shù)據(jù)挖掘技術(shù)，一些數(shù)據(jù)挖掘技術(shù)也不能應(yīng)用到文本挖掘中，即使可用，也需要建立在對(duì)文本集的預(yù)處理的基礎(chǔ)之上。

二、文本挖掘詞頻統(tǒng)計(jì)過程

（一）建立語料庫

語料庫是我們要分析的所有文檔的集合。在日常工作中我們對(duì)文章的管理，先是一篇篇的文章不斷的積累，我們存了大量的文章之后，會(huì)對(duì)文章信息進(jìn)行一些歸類的工作，一般體現(xiàn)于建立不同的文件夾來保存不同類別的文章。同樣的，我們把我們需要分析的文文章件，讀取到內(nèi)存變量中，然后在內(nèi)存變量中使用不同的數(shù)據(jù)結(jié)構(gòu)，對(duì)這些文文章件進(jìn)行存儲(chǔ)，以便進(jìn)行下一步的分析。

（二）中文分詞與去除停頓詞

將漢字序列分成一個(gè)一個(gè)的單詞，利用jieba數(shù)據(jù)包進(jìn)行分詞，使用默認(rèn)的數(shù)據(jù)庫對(duì)文字句段進(jìn)行分詞。在分詞過程中有些停頓詞是無實(shí)際意義的，比如的，得，地以及一些助詞代詞等，需要將其去除以提高詞頻統(tǒng)計(jì)結(jié)果的正確性。

（三）詞頻統(tǒng)計(jì)與分析

詞頻，即詞語在文檔中出現(xiàn)的次數(shù)，通過詞語或關(guān)鍵字在文檔中出現(xiàn)的次數(shù)統(tǒng)計(jì)可分析出用戶一定的情感傾向。

（四）生成詞云

利用wordcloud和matplotlib實(shí)現(xiàn)詞云的可視化過程。

三、文本挖掘在小米9用戶評(píng)論中的應(yīng)用

文章利用八爪魚抓取了京東商城上小米9二月到四月間的520條商品評(píng)論，并利用python進(jìn)行了數(shù)據(jù)處理過程。

（一）數(shù)據(jù)抓取通過八爪魚抓取商城米9用戶評(píng)論，保存到本地excel表當(dāng)中。

（二）數(shù)據(jù)清理將抓取的數(shù)據(jù)進(jìn)行清理，去除掉不用的數(shù)據(jù)列，填充空缺數(shù)據(jù)條。

（三）python編寫代碼實(shí)現(xiàn)數(shù)據(jù)的處理與分析過程，包括讀取文本數(shù)據(jù)，進(jìn)行結(jié)巴分詞，詞頻統(tǒng)計(jì)和生成詞云的過程。

（四）分析用戶對(duì)米9的總體評(píng)價(jià)。由數(shù)據(jù)分析結(jié)果及生成的可視化詞云可知，用戶的主要情感傾向是小米手機(jī)不錯(cuò)，這與小米的一貫品牌形象相符，追求性價(jià)比。其中除去手機(jī)、小米關(guān)鍵詞不錯(cuò)是詞頻統(tǒng)計(jì)中最高的，這是對(duì)小米的總體評(píng)價(jià)。其次就是手感，拍照，和流暢，這是對(duì)小米9的具體評(píng)價(jià)，即小米9的手感不錯(cuò)，拍照也清晰，機(jī)身也很流暢。但其中也存在一些頻次較低的中性詞語，比如電量，解鎖等名詞性或動(dòng)詞性詞匯，無確定其形容詞或副詞的連接描述，所以不能確定其表達(dá)的精確意思。存在的客戶抱怨主要是其發(fā)貨速度和小米的饑餓營銷，讓用戶等待時(shí)間較長(zhǎng)。

四、結(jié)語

通過八爪魚和python實(shí)現(xiàn)計(jì)算機(jī)對(duì)用戶評(píng)論的文本抓取與分析，并分析出用戶的產(chǎn)品偏好及情感評(píng)價(jià)，對(duì)產(chǎn)品的研發(fā)有一定的指導(dǎo)意義，對(duì)其他用戶購買手機(jī)具有一定的參考意義。文章的不足之處：采集的樣本數(shù)據(jù)520條，數(shù)據(jù)量較少，存在一定的結(jié)論偏差;詞頻統(tǒng)計(jì)與可視化過程只能大體判斷整體用戶的情感傾向，而不能具體到每位用戶的情感傾向，仍需深入研究。

參考文獻(xiàn)

[1] 羅怡薇，張科偉.基于文本挖掘的網(wǎng)絡(luò)熱點(diǎn)輿情分析[J].內(nèi)蒙古科技與經(jīng)濟(jì)，2018（11）：18-19.

[2] 馮麗娜.基于詞頻統(tǒng)計(jì)的孔子與顏之推教育思想比較研究[J].圖書館雜志，2018（10）：70-78.

[3] 胡翠婷.基于詞頻計(jì)量統(tǒng)計(jì)的林黛玉性格分析[J].現(xiàn)代語文，2019（02）：86-92.

[4] 徐奇釗.基于文本挖掘的文本情緒分類[D].云南財(cái)經(jīng)大學(xué)，2016.

[5] 潘若愚.基于詞頻統(tǒng)計(jì)分析國內(nèi)外文本挖掘的研究熱點(diǎn)[A].第十二屆（2017）中國管理學(xué)年會(huì)[C]2017（10）.

作者簡(jiǎn)介：程慧玲（1997- ），女，漢族，安徽合肥人，就讀于安徽理工大學(xué)，研究方向：管理科學(xué)與工程。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于python的文本挖掘應(yīng)用