国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA的大V與草根用戶微博主題模型構(gòu)建

2019-03-02 02:35張鈺莎羅莉霞
現(xiàn)代計算機(jī) 2019年2期
關(guān)鍵詞:特征詞用詞分詞

張鈺莎,羅莉霞

(湖南信息學(xué)院,長沙 410151)

0 引言

2016年中國網(wǎng)民微博用戶規(guī)模為4億多,網(wǎng)民使用率達(dá)到38.4%;手機(jī)微博用戶規(guī)模則為1.7083億,網(wǎng)民使用率達(dá)到30.7%[1]。微博,作為Web2.0時代大眾化的信息獲取、分享、傳播的網(wǎng)絡(luò)平臺,由于其門檻低、內(nèi)容簡單、交互性強(qiáng)等特點,如今已經(jīng)成為人們?nèi)粘I?、表達(dá)訴求、傳遞信息的重要社交載體。

微博這種新的輿論媒介,隨著用戶規(guī)模不斷壯大的,微博的社會影響力也在近兩年達(dá)到巔峰。這其中,官方認(rèn)證的大V用戶與草根用戶充當(dāng)了大量事件的發(fā)起及傳播。對上述微博用戶所關(guān)注主題的分析和監(jiān)控,既可以及時響應(yīng)、預(yù)警一些社會熱點事件,又能夠聚焦用戶自身的熱點,從而提供更加個性化的服務(wù)(消息推送、產(chǎn)品推廣、廣告精準(zhǔn)投放等)。因此,主題模型在用戶微博中的應(yīng)用對微博社交平臺的持續(xù)發(fā)展、潛在價值利用有著重要意義。

1 微博主題挖掘方法

LDA主題模型是一種使用概率的產(chǎn)生式模型來挖掘文本主題的方法。主題模型中的主題可以根據(jù)一定的規(guī)則產(chǎn)生單詞,而反過來,在已經(jīng)知道文本單詞的情況下,根據(jù)概率公式,可以反向推導(dǎo)出文本集合的主題分布情況,其中最具代表性的主題模型為PLSA概率潛在語義分析(Probabilistic Latent Semantic Analysis)和LDA 潛在狄利克雷分布(Latent Dirichlet Allocation)[2]。張晨逸、孫建伶等人通過對LDA模型的改進(jìn),提出了基于MB-LDA模型的微博主題挖掘。王力、李培峰等人提出了基于LDA模型的主題句抽取方法,取得了較好的效果[3-4]。BLei等人提出的LDA模型認(rèn)為文檔是由服從多項式分布的主題組成,每個主題由服從于主題的多項式分布組成,是文檔、主題和單詞組成的一種三層貝葉斯文檔生成模型。LDA可以作為一種降維工具,將每一個包含用戶微博內(nèi)容的文檔作為訓(xùn)練語料庫中的一個詞袋進(jìn)行訓(xùn)練,得出所有用戶文檔的主題分布,從而加以利用[5-6]。

TF-IDF(詞頻-逆向文檔詞頻)是一種用于資訊檢索與資訊探勘的常用加權(quán)技術(shù)。詞頻TF(Term Frequency),定義為:一個詞語在一個文檔中出現(xiàn)的頻率,詞頻越大表示這個詞對當(dāng)前文檔的貢獻(xiàn)越大,是當(dāng)前詞和當(dāng)前文檔之間的關(guān)系。逆文檔詞頻IDF(Inverse Document Frequency),是先由總文檔數(shù)目除以出現(xiàn)了某個詞的文檔數(shù)目得到的商,將商取對數(shù)得到,表示了某個詞對于某一類文檔區(qū)分能力,是某個詞和所有文檔之間的關(guān)系。所以本文需要利用TF-IDF算法對每一個文檔進(jìn)行特征提取,以達(dá)到通過文檔壓縮來提高LDA模型訓(xùn)練效率的目的。

2 微博主題建模流程

LDA微博主題建模的一般流程如圖1所示。

LDA模型可以進(jìn)行潛在主題發(fā)現(xiàn),而要利用LDA算法對語料庫進(jìn)行訓(xùn)練,首先要獲得適合算法計算的文本輸入,這里根據(jù)研究對象:草根用戶與大V用戶微博分別進(jìn)行主題建模。

2.1 數(shù)據(jù)爬取流程

本文主要采用的爬蟲策略是借助微博開放平臺的接口獲取所有需要爬取對象的微博基本信息,如ID、用戶名、用戶網(wǎng)址、性別等信息。利用爬取的用戶信息中的ID作為爬蟲程序的初始URL種子,對微博用戶發(fā)布過的微博文本內(nèi)容進(jìn)行爬取。

2.2 文本預(yù)處理

數(shù)據(jù)從微博上爬取下來之后,會有大量無用信息,例如標(biāo)點符號、表情、感嘆詞,等等,因此需要進(jìn)行預(yù)處理,主要包括:數(shù)據(jù)整理、分詞、去除停用詞。

(1)微博內(nèi)容整理

微博文本的特點是內(nèi)容精簡、文本形式自由,雖然爬蟲程序可以根據(jù)網(wǎng)頁的結(jié)構(gòu)化信息爬取指定結(jié)構(gòu)和位置下的信息,但是每個用戶的消息都有自己的用語特點,有些含有大量的表情、有些含有大量鏈接、有些習(xí)慣以空格來代替停頓和標(biāo)點、甚至有一些僅僅是轉(zhuǎn)發(fā)而不發(fā)表任何轉(zhuǎn)發(fā)理由造成了爬取內(nèi)容解析字段的缺省,若想通過連貫的程序完成對這些多樣化內(nèi)容的源數(shù)據(jù)存儲備份和下一步研究的分詞等繼續(xù)處理,則需要將爬取的微博內(nèi)容進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化處理。

(2)分詞

本文采用了開源的分詞系統(tǒng)HanLP進(jìn)行分詞處理,該系統(tǒng)支持中文分詞、命名實體識別、關(guān)鍵詞提取、自動摘要、短語提取、拼音轉(zhuǎn)換、簡繁轉(zhuǎn)換、文本推薦、依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)。提供Lucene插件,兼容Lucene 4.x。

(3)去除停用詞

得到經(jīng)過分詞處理的語料后,考慮到微博用戶多樣化的語言特點,對于大量的語料是無用和重復(fù)的,所以在得到分詞結(jié)果之后,設(shè)置一份停用詞表,將文檔中的停用詞進(jìn)行過濾清理。

3 基于TF-IDF特征提取的微博主題模型的建立

從數(shù)據(jù)庫中以用戶為單位提取微博內(nèi)容字段數(shù)據(jù),提取結(jié)果生成一個文檔。接著將每一個文檔輸入文本處理程序進(jìn)行分詞和去除停用詞處理。

3.1 分詞

分詞算法采用了HanLP開源分詞系統(tǒng)對獲取的文本進(jìn)行分詞處理,在使用前對源代碼進(jìn)行改寫,在分詞過程中可以根據(jù)得到的詞性標(biāo)注結(jié)果,進(jìn)一步進(jìn)行篩選。例如在主題檢測、主題建模中,對于最重要的名詞類詞性全部保留,而一些助詞、感嘆詞等則在分詞結(jié)果中過濾掉,以更好地去除分詞結(jié)果中的無用信息。本文選擇保留所有詞性標(biāo)注結(jié)果中含有“n”的詞語以及詞性為“vn”和“vi”的詞語。

3.2 去除停用詞

考慮到微博中的表情字符通常是以中括號加文本的形式表示的(如“[al開心]”、“[lt紅包]”等),所以也要剔除。在三個停用詞表合并的基礎(chǔ)上,將微博中的表情字符(567個)也添加進(jìn)停用詞表,最終獲得的停用詞個數(shù)為3146個。此外部分微博信息中通常會包含一些符號和網(wǎng)址,也全部剔除。

3.3 TF--IIDF特征詞提取

由于語料庫經(jīng)過分詞和去除停用詞等預(yù)處理后,仍然有接近1G的文本,如果直接以預(yù)處理結(jié)果的文檔集合作為算法的輸入進(jìn)行LDA主題建模,預(yù)計時間成本將會很高,為了提高效率,采用TF-IDF算法對用戶文檔進(jìn)行特征提取,將特征提取的結(jié)果,按照概率值降序,取前面的前N個作為當(dāng)前用戶文檔的特征詞,將語料庫大規(guī)模壓縮。

4 實驗結(jié)果

4.1 數(shù)據(jù)采集結(jié)果

爬取對象:微博關(guān)注的1864名用戶

爬取內(nèi)容:①1864名用戶的基本信息;②1864名用戶3000條左右的微博信息。

爬取結(jié)果:成功獲取的原始數(shù)據(jù)3.42G,包含兩張表:用戶基本信息表及用戶微博內(nèi)容表。

4.2 數(shù)據(jù)整理、預(yù)處理結(jié)果

程序輸入:每個用戶為一個txt文檔,一共1864個文檔一起輸入程序。程序輸出:1864個用戶txt文檔,625.6M結(jié)果展示如圖2所示。

圖2文本預(yù)處理結(jié)果

結(jié)果分析:在預(yù)處理之后的文檔中,會發(fā)現(xiàn)一些用戶長期關(guān)注某些話題而導(dǎo)致語料中大量出現(xiàn)某一些相同的詞語,如“帶著”、“爸媽”、“去旅行”等字樣,不僅使得語料規(guī)模龐大臃腫而且可能造成LDA算法效率降低,因此需要下一步的TF-IDF算法進(jìn)行文檔特征詞提取。

4.3 草根用戶與大V V用戶主題關(guān)注比較分析

TF-IDF文檔特征提取結(jié)果及流程:

首先根據(jù)數(shù)據(jù)庫信息將所有用戶文檔按照大V用戶和草根用戶進(jìn)行分組,將兩類用戶分別生成兩個文檔集合。

分別將兩個文檔集合作為程序輸入計算TF-IDF,并按照預(yù)先定義的特征詞個數(shù)參數(shù),得到每個文檔一定數(shù)目的特征詞。

按照權(quán)重降序的方式將每個文檔的特征詞記錄輸出。

參數(shù)設(shè)置:特征詞個數(shù)按照用戶文檔中詞語個數(shù)占所有文檔比重動態(tài)調(diào)整。

程序輸入:一組為大V用戶文檔集(991個用戶),一組為草根用戶文檔集(993個用戶)輸出結(jié)果:兩組文檔集,共1864個用戶txt文檔,7.6M。

結(jié)果分析:根據(jù)抽取結(jié)果文檔可見,部分文檔從特征詞中可看出用戶關(guān)注的主題方向,為“體育”“法律”“金融”三個大類,可見詞語特征非常明顯,從輸出結(jié)果對預(yù)處理語料的壓縮規(guī)???,基本完成了LDA建模前將爬取的信息進(jìn)行并整理、清理、壓縮成建模所需的語料庫的目標(biāo)。

4.4 草根用戶與大V V用戶用詞差異比較分析

比較方式:將所有的大V用戶的特征詞整合到一個集合,記錄每個詞出現(xiàn)的次數(shù),并進(jìn)行降序排序;同樣的方式處理草根用戶的特征詞。提取排序的前N個特征詞比較二者的異同情況,這里N分別取值如下:100、200、300、500、800、1000、2000、3000、5000、7000、10000。異同情況如圖3所示。

圖3 兩類用戶前N個特征詞異同比較

結(jié)果分析:

(1)由圖3可知,兩類用戶日常微博的用詞中,有60-70%的特征詞是比較接近的。提取前200個特征詞比較結(jié)果中相同的特征詞進(jìn)行詳細(xì)分析,相同比例:74%。

雖然結(jié)果中含有少量無關(guān)的詞語,但是從總體上可以看出,相同的特征詞中,主要特點是以個人為中心的詞語為多,可見一方面是由于草根用戶往往會關(guān)注很多大V用戶的日常微博,并進(jìn)行轉(zhuǎn)發(fā)或者發(fā)表類似微博;另一方面也體現(xiàn)了微博自由、隨意、貼近生活的使用特點,因此特征詞中不乏大量相同之處。

(2)兩類用戶日常微博的用詞中,有30%左右的特征詞是有差異的,而這30%的詞可以從中挖掘出兩類用戶用語上的一些特點,于是進(jìn)行進(jìn)一步詳細(xì)分析。如圖4所示,差異比例:26.0-27.7%。

圖4 兩類用戶前200、300熱詞中的差異

結(jié)合后期的LDA建模用詞差異進(jìn)行分析可知,大V用戶的獨有用特征詞與主題建模中各主題下的主題詞都有一定關(guān)聯(lián),具有很明顯的領(lǐng)域特點,并且用詞也是比較書面規(guī)范化。而草根用戶的獨有特征詞則比較隨意,往往是生活中的吐槽和心情分享,所以含有很多口語化詞匯、心情詞匯以及大量網(wǎng)絡(luò)流行的用語,如“真愛”、“妹子”、“get”、“分手”、“尼瑪”、“牛逼”、“減肥”等。

5 結(jié)語

基于微博用戶語料特征提取的LDA主題建模前的語料數(shù)據(jù)采集及存儲、文本整理及預(yù)處理和通過文檔特征詞提取進(jìn)行語料規(guī)模壓縮等幾個問題。預(yù)期得到的微博用戶信息基本全部采集完成,并存儲在數(shù)據(jù)庫中可支持后續(xù)研究的進(jìn)一步使用。

預(yù)期進(jìn)行的文本預(yù)處理工作基本完成,停用詞表根據(jù)實際需要進(jìn)行大規(guī)模的擴(kuò)充(包含了哈工大停用詞表、百度停用詞表、四川大學(xué)機(jī)器智能實驗室停用詞庫、新浪微博表情標(biāo)識符和實驗中總結(jié)的大量停用詞)。預(yù)期通過特征詞提取的語料庫壓縮規(guī)?;就瓿?,壓縮規(guī)模接近100倍。特征詞提取之后,結(jié)合LDA主題建模結(jié)果,對草根用戶與大V用戶特征詞使用異同及頻率情況進(jìn)行分析,發(fā)現(xiàn)大V用戶的獨有特征詞與LDA建模后的各主題下主題詞直觀上有很大相似度,是響應(yīng)吻合的,并且用詞也更加規(guī)范書面化;而草根用戶的獨有特征詞則更貼近個人生活隨想、情感流露和口語化,并且包含大量近年來流行的各種網(wǎng)絡(luò)用語,如“煩惱”、“學(xué)霸”、“真愛”、“屌絲”等。

6 未來發(fā)展方向

(1)系統(tǒng)能夠隨時爬取指定用戶的一定規(guī)模語料。

(2)文本預(yù)處理模塊能夠識別新詞,并自適應(yīng)進(jìn)行更新。

(3)將對象分為草根用戶和大V用戶兩個分組的前提下,進(jìn)一步將用戶按照行業(yè)、年齡或是興趣等,進(jìn)行組內(nèi)細(xì)分,然后再進(jìn)行特征詞、主題建模研究

(4)完善TF-IDF特征詞提取時的缺陷。

猜你喜歡
特征詞用詞分詞
基于Simhash改進(jìn)的文本去重算法
基于類信息的TF-IDF權(quán)重分析與改進(jìn)①
分詞在英語教學(xué)中的妙用
一種面向財務(wù)文本分類的TF-IDF改進(jìn)算法
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
相似的內(nèi)容,靈動的表達(dá)
追問文本,捕捉文字背后的聲音
中學(xué)英語園地·教學(xué)指導(dǎo)版(2008年6期)2008-05-31
聚焦現(xiàn)在完成進(jìn)行時
化州市| 惠安县| 乡城县| 高雄市| 沁源县| 丹凤县| 云和县| 穆棱市| 双柏县| 江西省| 察哈| 宿松县| 巩留县| 平塘县| 赞皇县| 沿河| 通榆县| 楚雄市| 遵义市| 新竹市| 荔波县| 岢岚县| 静海县| 万盛区| 青神县| 永昌县| 贵港市| 无棣县| 三江| 曲水县| 潍坊市| 搜索| 织金县| 东安县| 寻甸| 砀山县| 黄浦区| 房山区| 扎鲁特旗| 鸡西市| 淄博市|