国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于python的文本挖掘應(yīng)用

2019-09-17 07:59程慧玲
青年與社會(huì) 2019年20期
關(guān)鍵詞:文本挖掘

摘 要:隨著互聯(lián)網(wǎng)發(fā)展,數(shù)據(jù)的產(chǎn)生與存儲(chǔ)無處不在,基于用戶的行為數(shù)據(jù)分析對(duì)商家及消費(fèi)者都具有重要意義。文章主要通過八爪魚實(shí)現(xiàn)京東商城小米9用戶評(píng)論的抓取,利用python進(jìn)行文本數(shù)據(jù)挖掘及分析。通過導(dǎo)入文本數(shù)據(jù)建立語料庫、并進(jìn)行中文分詞、詞頻統(tǒng)計(jì)、生成詞云過程實(shí)現(xiàn)小米9用戶評(píng)價(jià)的詞頻統(tǒng)計(jì)分析,得出用戶對(duì)手機(jī)評(píng)價(jià)的側(cè)重點(diǎn),為商城用戶及商家提供一定的決策建議。

關(guān)鍵詞:數(shù)據(jù)挖掘算法;文本挖掘;詞頻統(tǒng)計(jì)

在大數(shù)據(jù)時(shí)代,在我們的生活當(dāng)中,可獲取的大部分信息是以文本形式存儲(chǔ)在文本數(shù)據(jù)庫中的,如web頁面、新聞文檔、研究論文、電子郵件、數(shù)字圖書館和書籍等[4]。由于互聯(lián)網(wǎng)的迅速發(fā)展,現(xiàn)實(shí)世界的文本信息更多的呈現(xiàn)為電子化,文本挖掘也成為信息領(lǐng)域的研究熱點(diǎn)和學(xué)習(xí)重點(diǎn)。用計(jì)算機(jī)實(shí)現(xiàn)海量文本的識(shí)別和分析成為研究重心,文本挖掘技術(shù)也被廣泛的應(yīng)用于許多領(lǐng)域,也突出解決了很多問題。國內(nèi)很多學(xué)者對(duì)文本挖掘相關(guān)也都提出了各自的見解與不同領(lǐng)域內(nèi)的應(yīng)用。羅怡薇,張科偉[1]在其文章基于文本挖掘的網(wǎng)絡(luò)熱點(diǎn)輿情分析中,利用python及數(shù)據(jù)挖掘算法實(shí)現(xiàn)校園霸凌熱點(diǎn)問題的詞頻統(tǒng)計(jì)分析,得出大眾對(duì)于此問題的消極態(tài)度。馮麗娜[2]在其文章基于詞頻統(tǒng)計(jì)的孔子與顏之推教育思想比較研究中通過對(duì)《顏氏家訓(xùn)》和《論語》的詞頻統(tǒng)計(jì)與對(duì)比,揭示了二者在教育思想上的異同點(diǎn)。胡翠婷[3]在其文章基于詞頻計(jì)量統(tǒng)計(jì)的林黛玉性格分析中,通過對(duì)《紅樓夢(mèng)》和林黛玉詩詞的詞頻統(tǒng)計(jì),得出其對(duì)林黛玉性格的分析結(jié)果,即多愁善感,自卑敏感的性格特點(diǎn)。

一、文本挖掘概念

文本挖掘(Text Mining)是一個(gè)從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或者有用的模式的過程。其中被普遍接受和認(rèn)可的文本挖掘定義為:文本挖掘是指從大量文本數(shù)據(jù)中抽取事先未知的、可理解的、最終可用的知識(shí)的過程,同時(shí)運(yùn)用這些知識(shí)更好地組織信息以便將來參考[4]。文本挖掘的主要用途是從原本未經(jīng)處理的文本中提取出未知有用的知識(shí),但是文本挖掘也是一項(xiàng)非常困難的工作,因?yàn)樗仨毺幚砟切┍緛砭湍:曳墙Y(jié)構(gòu)化的文本數(shù)據(jù),所以它是一個(gè)多學(xué)科結(jié)合的領(lǐng)域,包括了信息技術(shù)、數(shù)據(jù)庫技術(shù)、文本分析、統(tǒng)計(jì)學(xué)、數(shù)據(jù)可視化、模式識(shí)別、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及數(shù)據(jù)挖掘與數(shù)據(jù)分析等技術(shù)[4,5]。文本挖掘是從數(shù)據(jù)挖掘發(fā)展而來的,因此其定義與我們所知的數(shù)據(jù)挖掘定義相類似。文本挖掘技術(shù)不同于數(shù)據(jù)挖掘技術(shù),一些數(shù)據(jù)挖掘技術(shù)也不能應(yīng)用到文本挖掘中,即使可用,也需要建立在對(duì)文本集的預(yù)處理的基礎(chǔ)之上。

二、文本挖掘詞頻統(tǒng)計(jì)過程

(一)建立語料庫

語料庫是我們要分析的所有文檔的集合。在日常工作中我們對(duì)文章的管理,先是一篇篇的文章不斷的積累,我們存了大量的文章之后,會(huì)對(duì)文章信息進(jìn)行一些歸類的工作,一般體現(xiàn)于建立不同的文件夾來保存不同類別的文章。同樣的,我們把我們需要分析的文文章件,讀取到內(nèi)存變量中,然后在內(nèi)存變量中使用不同的數(shù)據(jù)結(jié)構(gòu),對(duì)這些文文章件進(jìn)行存儲(chǔ),以便進(jìn)行下一步的分析。

(二)中文分詞與去除停頓詞

將漢字序列分成一個(gè)一個(gè)的單詞,利用jieba數(shù)據(jù)包進(jìn)行分詞,使用默認(rèn)的數(shù)據(jù)庫對(duì)文字句段進(jìn)行分詞。在分詞過程中有些停頓詞是無實(shí)際意義的,比如的,得,地以及一些助詞代詞等,需要將其去除以提高詞頻統(tǒng)計(jì)結(jié)果的正確性。

(三)詞頻統(tǒng)計(jì)與分析

詞頻,即詞語在文檔中出現(xiàn)的次數(shù),通過詞語或關(guān)鍵字在文檔中出現(xiàn)的次數(shù)統(tǒng)計(jì)可分析出用戶一定的情感傾向。

(四)生成詞云

利用wordcloud和matplotlib實(shí)現(xiàn)詞云的可視化過程。

三、文本挖掘在小米9用戶評(píng)論中的應(yīng)用

文章利用八爪魚抓取了京東商城上小米9二月到四月間的520條商品評(píng)論,并利用python進(jìn)行了數(shù)據(jù)處理過程。

(一)數(shù)據(jù)抓取通過八爪魚抓取商城米9用戶評(píng)論,保存到本地excel表當(dāng)中。

(二)數(shù)據(jù)清理將抓取的數(shù)據(jù)進(jìn)行清理,去除掉不用的數(shù)據(jù)列,填充空缺數(shù)據(jù)條。

(三)python編寫代碼實(shí)現(xiàn)數(shù)據(jù)的處理與分析過程,包括讀取文本數(shù)據(jù),進(jìn)行結(jié)巴分詞,詞頻統(tǒng)計(jì)和生成詞云的過程。

(四)分析用戶對(duì)米9的總體評(píng)價(jià)。由數(shù)據(jù)分析結(jié)果及生成的可視化詞云可知,用戶的主要情感傾向是小米手機(jī)不錯(cuò),這與小米的一貫品牌形象相符,追求性價(jià)比。其中除去手機(jī)、小米關(guān)鍵詞不錯(cuò)是詞頻統(tǒng)計(jì)中最高的,這是對(duì)小米的總體評(píng)價(jià)。其次就是手感,拍照,和流暢,這是對(duì)小米9的具體評(píng)價(jià),即小米9的手感不錯(cuò),拍照也清晰,機(jī)身也很流暢。但其中也存在一些頻次較低的中性詞語,比如電量,解鎖等名詞性或動(dòng)詞性詞匯,無確定其形容詞或副詞的連接描述,所以不能確定其表達(dá)的精確意思。存在的客戶抱怨主要是其發(fā)貨速度和小米的饑餓營銷,讓用戶等待時(shí)間較長(zhǎng)。

四、結(jié)語

通過八爪魚和python實(shí)現(xiàn)計(jì)算機(jī)對(duì)用戶評(píng)論的文本抓取與分析,并分析出用戶的產(chǎn)品偏好及情感評(píng)價(jià),對(duì)產(chǎn)品的研發(fā)有一定的指導(dǎo)意義,對(duì)其他用戶購買手機(jī)具有一定的參考意義。文章的不足之處:采集的樣本數(shù)據(jù)520條,數(shù)據(jù)量較少,存在一定的結(jié)論偏差;詞頻統(tǒng)計(jì)與可視化過程只能大體判斷整體用戶的情感傾向,而不能具體到每位用戶的情感傾向,仍需深入研究。

參考文獻(xiàn)

[1] 羅怡薇,張科偉.基于文本挖掘的網(wǎng)絡(luò)熱點(diǎn)輿情分析[J].內(nèi)蒙古科技與經(jīng)濟(jì),2018(11):18-19.

[2] 馮麗娜.基于詞頻統(tǒng)計(jì)的孔子與顏之推教育思想比較研究[J].圖書館雜志,2018(10):70-78.

[3] 胡翠婷.基于詞頻計(jì)量統(tǒng)計(jì)的林黛玉性格分析[J].現(xiàn)代語文,2019(02):86-92.

[4] 徐奇釗.基于文本挖掘的文本情緒分類[D].云南財(cái)經(jīng)大學(xué),2016.

[5] 潘若愚.基于詞頻統(tǒng)計(jì)分析國內(nèi)外文本挖掘的研究熱點(diǎn)[A].第十二屆(2017)中國管理學(xué)年會(huì)[C]2017(10).

作者簡(jiǎn)介:程慧玲(1997- ),女,漢族,安徽合肥人,就讀于安徽理工大學(xué),研究方向:管理科學(xué)與工程。

猜你喜歡
文本挖掘
基于貝葉斯分類器的中文垃圾短信辨識(shí)
基于評(píng)論信息的淘寶服裝類評(píng)分體系優(yōu)化
基于文獻(xiàn)的中西醫(yī)結(jié)合治療腦梗死藥物使用情況分析
基于改進(jìn)Hadoop云平臺(tái)的海量文本數(shù)據(jù)挖掘
慧眼識(shí)璞玉,妙手煉渾金
中醫(yī)方劑數(shù)據(jù)庫文本挖掘數(shù)據(jù)預(yù)處理的嘗試
绍兴市| 闽清县| 郓城县| 策勒县| 新田县| 南皮县| 喜德县| 增城市| 玛沁县| 九江市| 咸阳市| 高阳县| 东台市| 苍梧县| 慈利县| 潢川县| 称多县| 青海省| 拜城县| 玉溪市| 龙里县| 通江县| 涡阳县| 普洱| 惠东县| 霞浦县| 栖霞市| 赞皇县| 沙湾县| 上思县| 稷山县| 汕尾市| 恭城| 平阴县| 米脂县| 阿城市| 项城市| 临高县| 成都市| 洛宁县| 安阳县|