国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA主題模型的短文體自媒體結(jié)構(gòu)化分類方法研究

2019-09-10 07:22:44李賢陽邱桂華陽建中李長彬
荊楚理工學院學報 2019年6期

李賢陽 邱桂華 陽建中 李長彬

摘要:針對傳統(tǒng)文本處理中非作用詞的存在影響主題的可解釋性,以及短文本篇幅短小、特征不明顯等問題,提出了一種基于LDA模型的主題分類的改進算法。該算法通過信息的增益來過濾文本,同時與最優(yōu)主題的選擇方法相結(jié)合,利用算法建立起的分類規(guī)則對文本進行分類。實驗結(jié)果表明,該方法通過改變作用詞占比、特征詞典的大小,可以有效的提升文本分類的準確性。

關(guān)鍵詞:LDA模型;短文本分類;主題模型

中圖分類號:TP391.1 文獻標志碼:A 文章編號:1008-4657(2019)06-0005-04

0 引言

隨著移動互聯(lián)網(wǎng)的飛速發(fā)展,人們的日常生活被QQ、微博、微信等網(wǎng)絡(luò)信息所包圍。這些信息都有同一個特點:他們都以短文本為信息表現(xiàn)形式,具有詞匯少、特征維度高、稀疏等特點[1-2]。因此,對于信息快速分類的需求日益高漲,短文本分類技術(shù)在信息檢索、搜索引擎、話題跟蹤等領(lǐng)域越來越受到研究人員的關(guān)注[3]。

在主題挖掘的對象變?yōu)槲⒉┻@樣的短文本數(shù)據(jù)時,傳統(tǒng)的主題模型就變得不那么合適了,其原因主要有以下兩點:1、如果用針對長文本的分類方法計算短文本的詞頻-逆文本頻率(TF-IDF),其上下文關(guān)聯(lián)性強,易丟失短文本語義信息。2、短文本的特點是篇幅短而特征維度高,特征向量稀疏,使用傳統(tǒng)的LDA模型可能無法取得良好的效果。針對以上短文本的分類研究目前還較為稀少,短文本的分類問題尚未得到解決。

1 潛在狄利克雷分布

潛在狄利克雷分布模型通過引入文本主題分布思想,有效實現(xiàn)了對文本的降維表示,并在文本信息處理領(lǐng)域得到了廣泛的應(yīng)用[4-6]。LDA的結(jié)構(gòu),是由三層貝葉斯網(wǎng)絡(luò)組成的,分別為詞層、主題層、文檔層。可以這樣認為:許多個主題構(gòu)成了一篇篇文章,而這些主題又是由許多個特征詞匯組成的[7],其拓撲結(jié)構(gòu)如圖1所示。

根據(jù)LDA模型生成的過程可得到,在這些模型參數(shù)里,單詞概率分布φ和主題概率分布θ需要重點關(guān)注。

與生成過程相比,LDA參數(shù)估計意味著在固定文本數(shù)據(jù)集的情況下,預(yù)測未知的參數(shù)模型。面對這種情況,當下常用的參數(shù)估計方法是Gibbs抽樣[8],首先對主題進行采樣,然后根據(jù)每個特征詞的頻率進行采樣最后,計算了相關(guān)參數(shù)的估計結(jié)果。Gibbs抽樣下LDA模型參數(shù)φ和θ的計算公式,具體如下:

其中,θl,m指在文檔l中第m個主題的分布概率;φm,n指詞項n在主題m中的分布概率;nml表示在文檔l中出現(xiàn)主題m的頻數(shù);nnm表示在主題m下詞項n出現(xiàn)的頻數(shù);αm對應(yīng)于主題m下的狄利克雷先驗;βn對應(yīng)于詞項n下的狄利克雷先驗。

將LDA模型與參數(shù)估計思想相結(jié)合,使得LDA模型獲得了在無監(jiān)督條件下將文檔中主題與特征詞提取出來的能力。因此,當預(yù)測重大事件的趨勢時,它可以替代專家知識,利用海量的新聞數(shù)據(jù)作為驅(qū)動力,來構(gòu)建語義特征的指標。

2 基于LDA主題模型的改進算法

本節(jié)所討論的內(nèi)容針對微博微信中存在的短文本信息。綜合詞類特征和語義特征的短文本分類算法的處理流程如下:首先,采用信息增益濾波方法從短文本中選出最具代表性的詞,稱為特征詞,使用LAD主題模型,可以根據(jù)這些眾多的特征詞構(gòu)建對應(yīng)的主題分布,選取其中一個最合適的文本主題,接下來把項目特征加入到特征字典中,得到一個新的短文本特征。在經(jīng)過上述步驟之后,建立起新的分類規(guī)則對文本進行分類,算法框架如圖3所示。

2.1 基于信息增益過濾的文本分類方法

利用LDA模型,來對文本進行建模,可以分析出文本的各個主題。例如通過搜索引擎進行建模,可以獲取關(guān)鍵字“大數(shù)據(jù)”下的許多內(nèi)容,有“模型、網(wǎng)絡(luò)、算法、樣本、一種、他們”等??梢允诛@然的明白,“算法”這樣的詞匯比“一種”包含更多的信息量,而“他們”屬于“非作用詞”,對于分類毫無實際作用。

本文用信息增益來表示文本詞匯有作用的程度,使用信息的增益來對文本信息進行過濾,能夠有效提升文本分類的效率。利用信息的增益來衡量文本中的詞匯對于文本的分類有無作用,并根據(jù)該作用的程度進行排序,保存那些對于分類作用大的詞匯,過濾那些對分類無作用的詞匯。由于主題是否對文本分類有作用是通過詞匯來表現(xiàn)的,如果在對于分類有作用的主題中出現(xiàn)非作用詞,將會降低文本分類的有效性和主題的可解釋性;如果在對于分類無作用的主題中出現(xiàn)非作用詞,就更加應(yīng)該去除。綜上所述,基于信息增益和LDA模型的短文本分類可以提高短文本分類的性能。

利用LDA模型對文本進行建模,可以得到文本在主題上的分布。設(shè)主題數(shù)為k,則:

2.2 最優(yōu)主題的選擇方法

在本文研究的文本分類方法當中,主題是否對文本分類有作用是通過詞匯來表現(xiàn)的。然而,在許多短文本中,詞匯內(nèi)容多樣而分散,對主題尋找形成了不小的挑戰(zhàn)。對此,文章借助百度詞庫,以大量相似主題的長文本為參照,通過LDA模型進行訓練,以期能夠提升短文本在該算法中運用的分類性能。本節(jié)主要是對算法中如何選擇最優(yōu)主題進行了研究,最優(yōu)的主題意味著該主題擁有最強的文本區(qū)分能力。因此,對主題進行加權(quán),權(quán)重值的大小表示每個主題區(qū)分不同類別的能力。話題權(quán)重值越大,話題區(qū)分不同類別的能力越強。

具體算法步驟如下:

1、利用LDA主題模型對背景知識進行建模,獲得其相應(yīng)的隱含的主題分布d=t1,t2,…,tk;

2、設(shè)主題權(quán)重向量W=ωt1,ωt2,…,ωtk,初始化ωti=0;

3、對每一個長文本找出n個同類文本和n個不同類文本;

4、計算k個不同的主題分布權(quán)重值ωti;

5、選取權(quán)重值ωti最大的主題作為最優(yōu)主題。

最后,基于信息增益的分類算法和最優(yōu)主題算法,可以得到一個基于短文本的特征函數(shù)Fd=ωd,α·k,其中,α為文本中作用詞占文本詞匯的比例,ωd為特征詞典的權(quán)重向量。

3 實驗分析

為了充分驗證本文所研究的基于LDA模型改進的文本分類方法,實驗從百度詞庫中對數(shù)據(jù)進行爬蟲獲取,包含了政治、經(jīng)濟、社會、教育、體育、IT、醫(yī)療等七個大類。在七個大類中隨機選取7 000個文本,在分類時平均分成7個組,進行交叉測試,設(shè)LDA主題數(shù)量為70,訓練樣本數(shù)與測試樣本數(shù)按7∶3劃分,訓練迭代次數(shù)為2 000,測試迭代次數(shù)為4 000。

4 總結(jié)

鑒于傳統(tǒng)文本處理中,非作用詞的存在影響主題的可解釋性,以及短文本篇幅短小、特征不明顯等問題,提出了一種基于LDA主題模型的文本分類改進算法。首先采用信息增益過濾的文本分類方法,對非作用詞進行有效過濾,同時與最優(yōu)主題的選擇方法相結(jié)合,建立起新的分類器對文本進行分類。通過實驗改變作用詞占比、特征詞典的大小,可以有效的提升文本分類的準確性,驗證了該種算法的有效性。

參考文獻:

[1] 錢勝勝,張?zhí)熘?,徐常?多媒體社會事件分析的研究與展望[J].南京信息工程大學學報(自然科學版),2017,9(6):599-612.

[2] 曾子明,楊倩雯.基于LDA和AdaBoost多特征組合的微博情感分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(8):51-59.

[3] 張志飛,苗奪謙,高燦.基于LDA主題模型的短文本分類方法[J].計算機應(yīng)用,2013,33(6):1 587-1 590.

[4] Zhou T,LYU R T,King I.Learning to Suggest Questions in Social Media[J].Knowledge & Information Systems,2015,43(2):389-416.

[5] Blei D,Ng A,Jordan M.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003(3):993-1 022.

[6] 邱先標,陳笑蓉.一種基于SA-LDA模型的文本相似度計算方法[J].計算機科學,2018,45(S1):106-109,139.

[7] 韓忠明,張夢玫,李夢琪,等.面向復(fù)雜主題建模的流式層次狄里克雷過程[J].計算機學報,2019,42(7):1 539-1 552.

[8] 張小平,周雪忠,黃厚寬,等.一種改進的LDA主題模型[J].北京交通大學學報,2010,34(2):111-114.

[責任編輯:許立群]

江达县| 徐汇区| 加查县| 岳池县| 茌平县| 绥芬河市| 宁陕县| 安远县| 镇雄县| 大庆市| 湘乡市| 迭部县| 伊宁市| 中方县| 盐山县| 宁武县| 永清县| 泽普县| 仙居县| 砀山县| 永康市| 霍邱县| 桦甸市| 古交市| 涿州市| 贵定县| 万年县| 西藏| 竹溪县| 满城县| 林州市| 称多县| 建平县| 宣恩县| 石屏县| 肥乡县| 晋中市| 河北省| 庄河市| 吉水县| 兖州市|