国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)絡(luò)數(shù)據(jù)采集與LDA主題模型的ofo用戶評論挖掘

2017-08-21 10:22:48阮澤楠王慧
大經(jīng)貿(mào) 2017年7期
關(guān)鍵詞:文本挖掘共享單車

阮澤楠 王慧

【摘 要】 隨著共享經(jīng)濟熱潮的發(fā)展,以ofo為代表的共享單車出現(xiàn)在城市的各個角落。為了挖掘用戶在使用共享單車過程中關(guān)注的問題,以提高用戶體驗,本文針對用戶評論進行分析。以ofo小黃車為例,抓取了百度ofo貼吧的相關(guān)文本數(shù)據(jù),并進行文本預(yù)處理。通過TF-IDF算法檢驗文本預(yù)處理的效果,同時構(gòu)建所需語料庫以及建立DTM文檔—詞項矩陣,最終通過LDA主題分析模型,將用戶評論分為若干主題,由評論文本提取的用戶潛在關(guān)注主題對ofo經(jīng)營發(fā)展給出適當分析與建議。

【關(guān)鍵詞】 共享單車 ofo 爬蟲應(yīng)用 文本挖掘 LDA主題分析

1 引言

隨著信息技術(shù)的發(fā)展以及國家對共享經(jīng)濟的支持,從2016年底起,以共享單車為代表的共享交通行業(yè)快速發(fā)展。但是隨著用戶數(shù)量以及競爭對手的增加,用戶對共享單車的需求層次也越來越復(fù)雜。以ofo為例,復(fù)雜的運營環(huán)境給自身的發(fā)展帶來了巨大的成長空間和機遇,而如何抓住機遇是關(guān)鍵所在。本文認為通過文本挖掘發(fā)現(xiàn)用戶關(guān)注祝主題,有針對性的進行單車質(zhì)量改進以及營銷,會提高消費者的用戶體驗,有助于在錯綜復(fù)雜的市場環(huán)境中脫穎而出。

文本挖掘主題模型分析是自然語言處理的重要應(yīng)用領(lǐng)域之一[1]。文本挖掘主要是是指從大量無結(jié)構(gòu)文本信息中發(fā)現(xiàn)潛在數(shù)據(jù)模式,并抽取有價值知識以更好地組織信息的過程[2]。主題模型,即刻畫主題的數(shù)學(xué)模型,是對主題進行形式化描述的方法。Deer wester 等人于1990年提出潛在語義分析(LSA)模型[3],LSA模型用高維的向量空間模型表示文檔,并通過SVM(奇異值分解)對矩陣降維分解,映射到低維的潛在語義空間中,文本分析的研究不再局限于傳統(tǒng)的詞頻統(tǒng)計分析??紤]到LSA模型存在不能辨識同義詞和一詞多義的不足,Hofmann 等人[4]于1999年提出了基于概率的潛在語義分析(pLSA)模型,使用概率手段獲取潛在的主題以及主題與詞匯、文檔之間的關(guān)系,能夠為信息提取提供更好的詞匯匹配。而第一個完整的主題模型是由Blei 等人[5]提出的潛在狄利克雷分布(LDA),LDA模型是基于三級層次結(jié)構(gòu)的貝葉斯模型。LDA模型在上述模型的基礎(chǔ)上使用了潛在主題(topic),并基于貝葉斯網(wǎng)絡(luò)框架采用Dirichlet先驗分布,增強了模型的推廣能力和穩(wěn)健性。很多國內(nèi)外學(xué)者在LDA 模型的基礎(chǔ)作出了相關(guān)研究,其中國內(nèi)學(xué)者應(yīng)用于評論的LDA模型研究主要分為三個方面:垃圾評論的發(fā)現(xiàn)、情感分析和評論的特征挖掘。刁宇峰等人[6]利用 LDA 模型訓(xùn)練評論的主題模型,從中提取垃圾評論;呂韶華等 [7]提出了用于情感二分類的 Dependency-Sentiment-LDA 模型,模型不僅考慮了情感詞所表達的話題語境,而且還考慮了情感詞的局部依賴關(guān)系;阮光冊[8]等結(jié)合了知網(wǎng)(HowNet)與 LDA 模型,將用戶評論的內(nèi)容映射到主題上,以此提取主題特征詞。王鵬[9]等人在利用LDA模型得到文本的主題分布后,將所得分布作為特征融入傳統(tǒng)的向量空間模型,并依據(jù)相似度進行文本聚類,再利用主題信息對聚類結(jié)果進行聚簇描述。本文主要是針對ofo貼吧文本數(shù)據(jù)進行評論的特征挖掘,找出ofo用戶主要關(guān)注點,從而有針對地對ofo運營提出意見。

2 數(shù)據(jù)獲取與預(yù)處理

本文分析的ofo客戶體驗反映數(shù)據(jù)來自百度ofo貼吧,爬取的帖子包括截止至2017年5月6日共100頁內(nèi)容(每頁包括50個帖子),考慮到貼吧內(nèi)容與主題相關(guān)程度,為了防止因余下樓層的大量灌水評論行為影響實驗數(shù)據(jù)的純度,文本爬取只選擇帖子標題以及1樓發(fā)帖人的闡述內(nèi)容。

使用python語言編寫腳本進行文本爬取,并通過分析網(wǎng)頁源碼結(jié)構(gòu),有選擇地爬取符合要求的帖子內(nèi)容的文本數(shù)據(jù),保存為按行分列的文本文件,為后期進行具體分析提供優(yōu)質(zhì)的原始數(shù)據(jù)。使用python語言編寫腳本的原因,一方面是python腳本簡潔方便的特點為案例實施提供了一定便捷,另一方面,網(wǎng)絡(luò)數(shù)據(jù)編碼較為復(fù)雜,使用集成式網(wǎng)絡(luò)爬蟲工具則會給文本數(shù)據(jù)的后期處理帶來較大的難度。網(wǎng)絡(luò)數(shù)據(jù)存在復(fù)雜的字符編碼格式,尤其是基于評論的文本內(nèi)容平臺來源不一,導(dǎo)致內(nèi)容編碼格式的無序,若不能統(tǒng)一編碼,必將對后期數(shù)據(jù)整理造成障礙。這也即是本文進行文本數(shù)據(jù)獲取的關(guān)鍵所在。

同時,實驗數(shù)據(jù)清洗整理部分采用python接口,保證數(shù)據(jù)在不同平臺間使用的穩(wěn)定性,原始文本數(shù)據(jù)最終下載為utf-8格式約700k大小的txt文本。爬蟲腳本流程圖如圖1所示:

3 文本預(yù)處理

由于貼吧數(shù)據(jù)具有不規(guī)范性、口語化、碎片化等特點,在進行主題挖掘之前需要對數(shù)據(jù)進行文本預(yù)處理,以為后續(xù)的工作提供良好的數(shù)據(jù)源。根據(jù)本文文本數(shù)據(jù)的特征,對文本進行預(yù)處理采取以下幾個步驟:特殊字符處理——處理編碼——中文分詞——去除停用詞。

(1)去除噪聲數(shù)據(jù)

對噪聲數(shù)據(jù)進行篩選、清洗能夠提高數(shù)據(jù)的處理效率。由于原始數(shù)據(jù)網(wǎng)絡(luò)來源的特殊性(其中夾雜大量特殊字符),刪除原始文本數(shù)據(jù)特殊字符,最終保證文本編碼統(tǒng)一為utf-8格式。

(2)中文分詞以及去除停用詞

與英文文本不同,中文是以詞為最小語義單元,需要對中文文本進行分詞。中文分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。在真實的評論數(shù)據(jù)夾雜大量無意義的詞語,例如常用的介詞、連詞、語氣詞等。這些大量使用而無意義的詞(停用詞)最終將影響算法分析結(jié)果。

本文使用結(jié)巴(jieba)分詞進行中文分詞處理?;赗語言的jiebaR包進行分詞最終得到以原始文本的各個詞語為單元結(jié)構(gòu)的文本文件。在分詞完成的基礎(chǔ)上,根據(jù)評論類文本的常見應(yīng)用詞,刪除分詞結(jié)果中的停用詞。利用ggplot2對分詞結(jié)果的詞頻繪制平滑曲線圖,用以對分詞后詞語分布的把握。把詞頻歸一化到Z值(z_score),Z值表示特征值離它的平均值有多遠,并用標準方差來計算,詞頻轉(zhuǎn)換為Z值后,0代表平均值,負數(shù)是低于平均值的值,如圖2所示:

以預(yù)處理后為文本數(shù)據(jù)為基礎(chǔ),構(gòu)建語料庫以及文檔詞項矩陣(DTM),關(guān)于DTM矩陣的具體內(nèi)容參見主題分析LDA部分)。至此,用以主題分析模型的數(shù)據(jù)內(nèi)容和格式充分準備完畢。

4 主題挖掘分析

4.1 LDA主題模型

本文采用LDA主題模型用以挖掘ofo用戶評論中潛藏的有關(guān)業(yè)務(wù)優(yōu)劣和客戶需求的更多信息。LDA(Latent Dirchlet Allocation)算法由Blei等[5]于2003年提出,對于一篇文檔d中的每一個單詞,LDA根據(jù)先驗知識確定某篇文檔的主題分布,然后從該文檔所對應(yīng)的多項分布(主題分布)中抽取一個主題,接著根據(jù)先驗知識確定當前主題的詞語分布,然后從主題所對應(yīng)的多項分布(詞分布)中抽取一個單詞。然后將這個過程重復(fù)N次,就產(chǎn)生了文檔d。

在本文的用戶評論研究中,評論中的特征詞是模型中的可觀測變量,從客戶發(fā)帖角度考慮,每個帖子的標題內(nèi)容都存在一個中心思想,即主題。如果某個潛在的主題同時是多個用戶帖子內(nèi)容的主題,則這一潛在主題很可能是整個評論語料集的熱門議論點。在這個潛在主題上越高頻的特征詞越可能成為熱門議論點中的關(guān)鍵詞。針對本文的用戶評論文本,LDA模型的原理如下:

(1)假定語料庫中共有M條評論,每條評論的Topic主題分布是一個從參數(shù)為的Dirichlet先驗分布中采樣得到Multinomial分布,每個Topic下的詞分布是一個從參數(shù)為的Dirichlet先驗分布中采樣得到Multinomial分布。

(2)對于某條評論中的第n個詞,首先從該評論中出現(xiàn)的每個主題的Multinomial分布(主題分布)中選擇或采樣一個主題,然后再在這個主題所對應(yīng)的詞的Multinomial分布(詞分布)中選擇或者采樣一個詞。不斷重復(fù)這個隨機生成過程,直到M條評論全部生成完成。

利用R語言topicmodels包實現(xiàn)LDA模型分析,其中LDA參數(shù)近似估計的方式選擇Gibbs抽樣,同時主題個數(shù)K采用統(tǒng)計語言模型中常用的評價標準困惑度來選?。↘=50),狄利克雷函數(shù)的先驗參數(shù)和設(shè)置為經(jīng)驗值(, )。

4.2 實驗結(jié)果及分析

進行LDA主題分析后,用戶評論內(nèi)容最終聚成3個主題,每個主題下生成10個最有可能出現(xiàn)的詞語,如圖3所示:

(1)主題一分析與建議

主題一中的高頻特征詞,主要為押金、異常、技巧、求助等,主要反映了用戶在車輛使用上遇到的實際問題。主題一反映出如下的問題,針對具體問題給出相應(yīng)建議。

①賬戶押金的收取與退款情況,部分用戶在ofo押金退款時遇到問題,可能是對銀行卡相關(guān)常識以及在線支付知識的欠缺造成,因此,建議后臺設(shè)計人員在相關(guān)操作欄給出提示性標識和操作流程提示,同時加強客服通訊質(zhì)量,盡最大可能為遇到問題的客戶提供指導(dǎo)。

②部分用戶對小黃車的實際使用技巧,例如坐位高度和車把手位置的調(diào)整、自行車開鎖問題以及意外異常情況發(fā)生時的處理方式存有疑惑,說明官方使用說明比較簡單,因此建議可以設(shè)置不同詳細程度的官方使用說明以滿足不同背景的用戶。

此外,主題一還反映了終端app在界面顯示上存在的問題,究竟是軟件自身的不穩(wěn)定性所致,還是部分客戶自身所處網(wǎng)絡(luò)環(huán)境不穩(wěn)定所致,原因有待進一步考證。

(2)主題二分析與建議

主題二中的高頻特征詞主要圍繞客戶在ofo使用過程中對外界橫向環(huán)境的思考,其中客戶關(guān)注點較高的是對另一款共享單車(摩拜單車)的比較與思考,從該角度考慮,建議官方在定位使用價格、款式、押金等各參數(shù)時適當納入競爭對手的情況以作參考,并根據(jù)實際戰(zhàn)略應(yīng)對的不同層次的用戶做適當調(diào)整,爭取更多的新用戶并且留住老用戶,擴大客戶總基數(shù)。

同時,該主題還揭示了地鐵站作為較大客流量的公共場所,對小黃車存在獨特的需求量和需求特點。針對地鐵站的特殊性,可以相對加派地區(qū)工作人員,并在節(jié)假日以及每日高峰期間額外提供部分車輛,具體情況落實還應(yīng)考慮到當?shù)厝肆?、交通習慣等現(xiàn)實因素。

(3)主題三分析與建議

主題三主要體現(xiàn)的是客戶對ofo官方宣傳活動以及優(yōu)惠政策給出的各種反饋。用戶關(guān)注較高的是分享得紅包和抽獎活動,其中部分客戶對獎勵較小抱有不滿,但從客戶反饋的活躍度看,活動整體效果基本較好,客戶響應(yīng)熱烈,一定程度上提高了新客戶、潛在客戶選擇小黃車出行的可能性。

LDA主題模型分析結(jié)果總體上較為客觀,能夠?qū)?jīng)過噪聲清理之后的文本挖掘出較為精確地結(jié)果。

5 結(jié)語

本文研究目的是通過主題模型分析,挖掘出ofo用戶主要關(guān)注的主題,并根據(jù)挖掘的結(jié)果給出相應(yīng)的建議。文章首先介紹了文本挖掘的簡單流程,并結(jié)合對ofo貼吧爬取的文本數(shù)據(jù),利用主題模型相關(guān)算法,基于Python和R語言環(huán)境得到最終的模型處理結(jié)果。最后結(jié)合ofo實際運營情況對結(jié)果進行分析,并為ofo的研發(fā)維護重點的選擇和市場推廣競爭工作的重心調(diào)整提供一定的理性決策支持。另外,由于網(wǎng)絡(luò)評論數(shù)據(jù)相對較自由的形式以及復(fù)雜數(shù)據(jù)爬取后篩選噪聲的條件有限,主題模型結(jié)果存在少量關(guān)鍵詞意義較難辨別,對此進一步擴展數(shù)據(jù)源同時優(yōu)化對關(guān)鍵內(nèi)容的篩選條件將是接下來的工作中進一步探索的方向。

【參考文獻】

[1] 宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學(xué)出版社,2013.

[2] 鄭雙怡, 文本挖掘及其在知識管理中的應(yīng)用. 中南民族大學(xué)學(xué)報(人文社會科學(xué)版), 2005(04): 第127-130頁.

[3] Thomas K. Landauer;Peter W. Foltz;Darrell Laham.An introduction to latent semantic analysis[J].Discourse Processes,1998,25(2):259-267.

[4] Thomas Hofmann.Probabilistic Latent Semantic Indexing[A].SIGIR,1999:50-57.

[5] David M.Blei,Andrew Y.Ng,Michael I.Jordan.Latent Dirichlet Allocation[J].Joumal of Machine Learing Research,2003,3:993-1022.

[6] 刁宇峰, 楊亮與林鴻飛, 基于LDA模型的博客垃圾評論發(fā)現(xiàn). 中文信息學(xué)報, 2011(01): 第41-47頁.

[7] 呂韶華, 楊亮與林鴻飛, 基于LDA模型的餐館評論排序. 計算機工程, 2011(19): 第62-64+67頁.

[8] 阮光冊, 基于LDA的網(wǎng)絡(luò)評論主題發(fā)現(xiàn)研究. 情報雜志, 2014(03): 第161-164頁

[9] 王鵬.高誠,陳曉美.基于LDA模型的文本聚類研究[J].情報科學(xué),2015,33(01):63-69.

作者簡介:阮澤楠(1993—),男,漢,浙江紹興,碩士,浙江理工大學(xué)。

猜你喜歡
文本挖掘共享單車
“共享單車”前面有兩座大山
商界(2017年3期)2017-03-14 16:49:16
數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用
基于LDA模型的95598熱點業(yè)務(wù)工單挖掘分析
文本數(shù)據(jù)挖掘在電子商務(wù)網(wǎng)站個性化推薦中的應(yīng)用
商(2016年34期)2016-11-24 16:28:51
“共享單車”是一門好生意嗎
華聲(2016年20期)2016-11-19 21:14:52
從《遠程教育》35年載文看遠程教育研究趨勢
慧眼識璞玉,妙手煉渾金
文本觀點挖掘和情感分析的研究
赣榆县| 邯郸县| 将乐县| 慈利县| 龙川县| 昆山市| 留坝县| 呼玛县| 安岳县| 彭水| 信阳市| 保山市| 离岛区| 海兴县| 仪征市| 金华市| 凭祥市| 德阳市| 象州县| 沙坪坝区| 鄯善县| 元江| 秦安县| 牟定县| 商水县| 北票市| 定安县| 依兰县| 岗巴县| 尚志市| 英德市| 昌平区| 沅江市| 中西区| 始兴县| 边坝县| 富裕县| 宿州市| 东港市| 霍城县| 民勤县|