国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于概率主題模型的短文本自動(dòng)分類系統(tǒng)構(gòu)建

2020-03-10 01:02劉愛琴馬小寧
國家圖書館學(xué)刊 2020年6期
關(guān)鍵詞:分類號(hào)

劉愛琴 馬小寧

1 研究背景

互聯(lián)網(wǎng)承載著海量的數(shù)字資源,博客、網(wǎng)頁、APP等新興媒體的產(chǎn)生,使得數(shù)字資源不再局限于圖書館館藏資源和期刊論文等傳統(tǒng)文獻(xiàn)的電子化,社交媒體中也存在著亟需挖掘的有價(jià)值的信息。例如,國外線上平臺(tái)易趣、亞馬遜、推特等的興起,國內(nèi)社交平臺(tái)微博、淘寶、美團(tuán)APP等線上用戶互動(dòng)平臺(tái)的迅速發(fā)展,網(wǎng)民在網(wǎng)上發(fā)布商品評(píng)價(jià)信息、對(duì)社會(huì)熱點(diǎn)事件的看法、分享自己的生活經(jīng)驗(yàn)與想法等促使數(shù)字資源直接反映了用戶當(dāng)下的感受和最直觀的體驗(yàn)[1-2];與此同時(shí),數(shù)量龐大且更新迅速的社交媒體上的數(shù)字資源具有原始性、零散性的特征。

如此龐大的文本數(shù)據(jù),被廣大用戶閱讀并傳播著。用戶在享用豐富信息的同時(shí),又面對(duì)著海量數(shù)據(jù)帶來的信息超載問題。因此,如何有效地實(shí)現(xiàn)知識(shí)檢索、知識(shí)發(fā)現(xiàn)成為信息管理領(lǐng)域和互聯(lián)網(wǎng)技術(shù)領(lǐng)域的一個(gè)重要課題。

國內(nèi)外學(xué)者根據(jù)研究對(duì)象的數(shù)據(jù)特點(diǎn),利用自然語言處理和機(jī)器學(xué)習(xí)自動(dòng)分類新技術(shù),展開了積極的研究。20世紀(jì)末,美國的Ronen Feldman第一次提到文本挖掘技術(shù),之后其結(jié)合機(jī)器語言、深度學(xué)習(xí)形成了較為完整的算法,這成為了自然語言處理領(lǐng)域的一個(gè)重要研究方向[3]。21世紀(jì)初,Blei等人提出了概率主題模型LDA(隱含狄利克雷分布模型,Latent Dirichlet Allocation)[4],將主題模型用作文本表示[5],這被應(yīng)用于自然語言處理的各個(gè)方面。國內(nèi)學(xué)者對(duì)文本分析的研究正在起步。由于中文語言處理更為復(fù)雜,劉康等人將新聞網(wǎng)頁、電商數(shù)據(jù)、圖書文獻(xiàn)等不同類型的文獻(xiàn),以第三方資源庫維基百科為原型進(jìn)行特征拓展,通過LDA建模等方式提高了多種類型文本的分類精度[6];阮光冊(cè)通過文本建模的方式,對(duì)網(wǎng)絡(luò)評(píng)論數(shù)據(jù)進(jìn)行主題生成,實(shí)現(xiàn)了對(duì)評(píng)論數(shù)據(jù)的主題發(fā)現(xiàn)[7];李湘東等人利用隱含狄利克雷模型對(duì)新聞話題進(jìn)行分析,提出了一種新聞話題挖掘方法并驗(yàn)證了可行性[8]。

利用自然語言處理技術(shù)、機(jī)器自動(dòng)學(xué)習(xí)分類技術(shù),以及文本分類、主題聚類、關(guān)鍵詞提取等數(shù)據(jù)挖掘技術(shù),將文本數(shù)據(jù)按主題進(jìn)行分類組織,并利用關(guān)鍵詞特征描述,就能快速有效地分析數(shù)據(jù)[9]。因此,本文以《中國分類主題詞表》為主題詞受控表,對(duì)文本數(shù)據(jù)進(jìn)行分詞和降噪等一系列預(yù)處理,基于詞頻從細(xì)的粒度層面挖掘關(guān)鍵詞集,實(shí)現(xiàn)知識(shí)關(guān)聯(lián)和可視化展示;基于LDA概率主題模型從粗的粒度層面實(shí)現(xiàn)知識(shí)的快速聚類,最終構(gòu)建的文本自動(dòng)分類系統(tǒng)可以從導(dǎo)入的海量數(shù)據(jù)中快速高效地實(shí)現(xiàn)知識(shí)聚類,并從中挖掘和發(fā)現(xiàn)主題,為用戶提供更優(yōu)質(zhì)的知識(shí)發(fā)現(xiàn)服務(wù)。

2 基于概率主題的短文本自動(dòng)分類系統(tǒng)構(gòu)建

2.1 理論基礎(chǔ)——LDA概率主題模型

在自然語言處理領(lǐng)域,LDA被廣泛應(yīng)用于文本分類和評(píng)估文本的主題分布。其基本思想是將文本表示成一個(gè)“文本—主題—詞語”的三層概率模型,通過分析文本的主題概率分布,進(jìn)行聚類分析和文本分類,如圖1所示。其中,文本是由詞語組成的,可以提取出多個(gè)主題,每個(gè)詞語都由某一個(gè)主題產(chǎn)生,同一個(gè)詞語可能屬于多個(gè)主題,其歸屬概率不同。另外,LDA不考慮詞語在文本中出現(xiàn)的先后順序,將文本表示為多個(gè)主題的混合隨機(jī)分布、將主題表示為多個(gè)詞語的混合概率分布,是一個(gè)典型的詞袋模型[10]。

圖1 文本—主題—詞語三層模型

圖2 LDA模型

如圖2所示,LDA模型中箭頭方向代表變量之間的條件依賴關(guān)系,方框代表重復(fù)取樣,方框右下角的字母k代表取樣次數(shù)。M代表語料集中的文本總數(shù),為固定值;N代表文本中的詞語總數(shù);z代表主題,w代表文本的詞向量;θ代表主題分布,α為θ的狄利克雷分布的超參數(shù);φ代表詞分布,β為φ的狄利克雷分布的超參數(shù)。利用LDA模型對(duì)數(shù)據(jù)集進(jìn)行主題提取,具體步驟如下:

第一步,針對(duì)語料集,文本與詞項(xiàng)數(shù)量之間以ξ為參數(shù)呈泊松分布:Poisson(ξ);

第二步,對(duì)語料集中的每篇文本,按概率生成其主題分布:θm :Dirichlet(α);

第三步,對(duì)文本中的每個(gè)主題,按概率生成其詞項(xiàng)分布:φk :Dirichlet(β);

第四步,每m篇文檔中詞 w的生成:依據(jù)主題分布θ生成m篇文檔的詞項(xiàng)w、主題Zm,n、Multinomial(θm);根據(jù)詞項(xiàng)分布φ生成已選主題的詞項(xiàng):Wm,n、Multinomial (φk)。

對(duì)語料集中的文本,重復(fù)執(zhí)行以上過程。根據(jù)所使用的LDA模型,變量可以得出所有的聯(lián)合分布,見公式(1)所示:

p(Zm,n∣?m)gp(?m∣α)gp(φ∣β)

公式(1)

以上所有變量聯(lián)合分布等同于公式(2):

P(wm∣αgβ)=?p(?m∣α)gp(φ∣β)

公式(2)

由此得到整個(gè)語料集中的詞項(xiàng)w的分布,見公式(3)所示:

公式(3)

2.2 文本預(yù)處理

網(wǎng)絡(luò)中收集到的數(shù)據(jù)通常是混雜、不規(guī)整的,需進(jìn)行文本預(yù)處理,其本質(zhì)就是從數(shù)據(jù)中提取出需要的內(nèi)容,或者將數(shù)據(jù)轉(zhuǎn)換成可以識(shí)別的形式。具體步驟如下:

第一步,數(shù)據(jù)清洗。對(duì)數(shù)據(jù)進(jìn)行篩選和校驗(yàn),刪除或糾正錯(cuò)誤的信息,使數(shù)據(jù)具有一致性。網(wǎng)絡(luò)中收集到的數(shù)據(jù)彼此之間相互沖突、重復(fù)或者信息不完整,這必將導(dǎo)致數(shù)據(jù)無法被識(shí)別。因此,必須按照一定的規(guī)則把不符合要求的數(shù)據(jù)洗掉。該過程包括檢驗(yàn)數(shù)據(jù)是否完整、格式是否統(tǒng)一、是否有無意義的部分、是否便于處理等。數(shù)據(jù)清洗工作不是一次性可以完成的,需要在處理數(shù)據(jù)的過程中不斷剔除影響實(shí)驗(yàn)結(jié)果的垃圾數(shù)據(jù)。但對(duì)之后可能會(huì)用到的數(shù)據(jù)需反復(fù)斟酌,謹(jǐn)慎處理。

第二步,中文分詞。利用算法,將一段文本以設(shè)定的合理規(guī)則分隔成多個(gè)、含有獨(dú)立意義的詞或者短語[11]。中文分詞不僅要考慮詞語之間的聯(lián)系,還要結(jié)合上下文,具體分析相同詞語在不同情境下的含義。目前國內(nèi)主要的分詞算法有三種:統(tǒng)計(jì)法、詞典匹配法和語義結(jié)構(gòu)法[12]。

其中,依據(jù)進(jìn)行語言模型訓(xùn)練時(shí)訓(xùn)練集語料是否標(biāo)注了人工分詞將統(tǒng)計(jì)分詞方法分為兩大類[13]:一類是有監(jiān)督的方法。典型的是n元語法模型[14],將訓(xùn)練集語料中標(biāo)注的詞典與句子進(jìn)行匹配,找出所有可能的詞,用概率n表示代價(jià),統(tǒng)計(jì)任意n個(gè)字詞鄰接出現(xiàn)的概率,利用動(dòng)態(tài)規(guī)劃的搜索算法,找出代價(jià)最小的路徑作為分詞結(jié)果。另一類是無監(jiān)督的方法??梢圆捎萌魏握Z料集訓(xùn)練語言模型,并統(tǒng)計(jì)語料中字與字之間共同出現(xiàn)的概率,衡量字之間組成詞語的可能性;同時(shí)統(tǒng)計(jì)組成詞之后詞兩端出現(xiàn)其他字的不確定性,不確定性越大,則認(rèn)為這個(gè)詞經(jīng)常被作為獨(dú)立意義使用。從這兩方面來共同判定分詞的準(zhǔn)確性。

詞典匹配法最大的優(yōu)勢(shì)就是原理簡單、詞典使用便捷、無需訓(xùn)練可直接進(jìn)行分詞,根據(jù)不同的切分規(guī)則可分為正向最大匹配、逆向最大匹配、雙向最大匹配三類匹配算法。三種算法的原理相同,首先需準(zhǔn)備一個(gè)詞典,正向最大匹配法是按照從左到右的順序,從第一個(gè)字符開始向后延伸詞長,若能與詞典中任意詞語匹配,則繼續(xù)向后延伸,直到不能匹配為止,此時(shí)的位置便是這個(gè)詞的結(jié)束位。逆向最大匹配法按照與正向相反的順序,從右開始。但在多數(shù)情況下,逆向最大匹配法更能符合實(shí)際中的語境。雙向最大匹配法同時(shí)考慮了兩種方向的順序,在單字出現(xiàn)次數(shù)不同時(shí),采用單字出現(xiàn)次數(shù)少的結(jié)果;若單字出現(xiàn)次數(shù)相同,優(yōu)先使用逆向最大匹配法輸出的結(jié)果。

語義結(jié)構(gòu)法需要同時(shí)考慮分詞和詞語語義兩方面。中文本身含義比較復(fù)雜,同一句話使用不同的斷句會(huì)產(chǎn)生不同的含義;另外,如果考慮互聯(lián)網(wǎng)中的網(wǎng)絡(luò)用語,如縮寫等,可能會(huì)產(chǎn)生更多的歧義,也不利于分詞結(jié)果。語義結(jié)構(gòu)分詞方法是當(dāng)前分詞方法中的難點(diǎn),尚處于摸索階段。

因此,本文采用統(tǒng)計(jì)法和詞典匹配法進(jìn)行短文本自動(dòng)分類系統(tǒng)構(gòu)建,對(duì)分詞判定的準(zhǔn)確性、用詞習(xí)慣的總結(jié)和新詞識(shí)別都具有很好的效果。

第三步,去停用詞。中文分詞后,語料集被切分成大量的字和詞語,而很多字詞對(duì)文本分類是沒有意義的,甚至?xí)a(chǎn)生干擾[15]。為了提高檢索效率和節(jié)省加載內(nèi)存,通常會(huì)過濾掉一部分字詞。這些字詞不是自動(dòng)產(chǎn)生的,也沒有一個(gè)完整固定的數(shù)據(jù)集,是需要人工將無意義的詞收集起來,比如“很”“發(fā)現(xiàn)”“其實(shí)”“一個(gè)”等,形成停用詞表[16]。在數(shù)據(jù)處理過程中,將出現(xiàn)在停用詞表中的詞過濾掉即可。需要注意的是,沒有任何的停用詞表是適用于所有場(chǎng)合的,這就需要在實(shí)驗(yàn)過程中,通過人工維護(hù)的方式,不斷地修改或擴(kuò)充。

第四步,構(gòu)建共現(xiàn)矩陣。共現(xiàn)指不同事物、特征項(xiàng)間共同出現(xiàn)的概率關(guān)系,共現(xiàn)矩陣是一種測(cè)量詞語間語義距離的方法,可以表示詞向量之間的相近關(guān)系,主要用于發(fā)現(xiàn)主題。以某個(gè)詞為中心,根據(jù)計(jì)算出來的共同出現(xiàn)的頻率得到其周圍詞,預(yù)測(cè)和分析與它們相關(guān)的主題。

2.3 系統(tǒng)構(gòu)建

關(guān)于實(shí)驗(yàn)數(shù)據(jù)的收集。本文研究新興媒體承載的數(shù)字資源,分別以學(xué)術(shù)信息數(shù)據(jù)、社交媒體數(shù)據(jù)等為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),構(gòu)建具有普適性的系統(tǒng),此處僅展示以學(xué)術(shù)信息數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)的結(jié)果。

本文在維普期刊數(shù)據(jù)庫中,首先對(duì)期刊的標(biāo)題數(shù)據(jù)進(jìn)行采集,形成實(shí)驗(yàn)數(shù)據(jù)。依據(jù)文本主題分類設(shè)計(jì)要求,以語料集為分類對(duì)象,進(jìn)行系統(tǒng)需求分析。其次,搭建服務(wù)器、配置代碼編寫環(huán)境,同時(shí)處理文本數(shù)據(jù),完成噪音清洗、詞性過濾、中文分詞、停用詞過濾等系列預(yù)處理工作,構(gòu)建系統(tǒng)。第三步,以《中國分類主題詞表》為主題詞受控表,從細(xì)的粒度層面出發(fā)對(duì)語料集數(shù)據(jù)進(jìn)行短文本詞頻統(tǒng)計(jì),挖掘關(guān)鍵詞集,同時(shí)生成共現(xiàn)矩陣,實(shí)現(xiàn)知識(shí)的快速聚類,并對(duì)關(guān)鍵詞間的共現(xiàn)關(guān)系進(jìn)行可視化展示。第四步,從粗的粒度層面,基于LDA概率主題對(duì)語料集進(jìn)行文本內(nèi)容切分,得到文本主題下的主題詞,實(shí)現(xiàn)知識(shí)關(guān)聯(lián)自動(dòng)分類。短文本自動(dòng)分類系統(tǒng)框架詳見圖3。

圖3 基于概率主題的短文本自動(dòng)分類系統(tǒng)框架

根據(jù)功能需求,基于概率主題的短文本自動(dòng)分類系統(tǒng)設(shè)計(jì)為五個(gè)模塊:語料集獲取模塊、文本預(yù)處理模塊、特征詞提取模塊、特征詞可視化模塊、文本建模模塊。各個(gè)模塊的功能和輸入、輸出內(nèi)容,詳見表1。

表1 基于概率主題的短文本自動(dòng)分類系統(tǒng)構(gòu)建模塊

3 系統(tǒng)實(shí)現(xiàn)

利用維普數(shù)據(jù)庫進(jìn)行上述基于概率主題的短文本自動(dòng)分類系統(tǒng)的算法仿真驗(yàn)證。本文利用八爪魚爬蟲技術(shù)進(jìn)行界面數(shù)據(jù)采集,在檢索欄輸入“電商”,按相關(guān)度從緊到疏進(jìn)行采集,共收集到1688篇期刊信息,構(gòu)成基于概率主題的短文本自動(dòng)分類系統(tǒng)的語料集。其所屬的學(xué)科類別如4圖所示,每一條數(shù)據(jù)信息包括期刊標(biāo)題、摘要、關(guān)鍵詞、分類號(hào)、作者、出版機(jī)構(gòu)、出處、頁面網(wǎng)址等內(nèi)容。

圖4 基于中文期刊維普網(wǎng)界面的數(shù)據(jù)采集類別

利用Python進(jìn)行數(shù)據(jù)清洗。為保證代碼的普適性,考慮到使用代碼預(yù)處理網(wǎng)絡(luò)數(shù)據(jù)信息分析的需求,本文設(shè)計(jì)了去除符號(hào)的算法,具體為以下四類:(1)去掉了文本中可能會(huì)出現(xiàn)的某人的回復(fù)信息;(2)去掉了一些特殊的字符。由于網(wǎng)絡(luò)語言的豐富,人們?cè)诎l(fā)言時(shí)喜歡采用各種各樣的表情符號(hào)和顏文字等特殊符號(hào),符號(hào)過多會(huì)對(duì)分詞造成不好的影響;(3)去掉了評(píng)論中過多的空格。多余的空格不僅無用,且會(huì)拖慢數(shù)據(jù)處理的效率;(4)將評(píng)論中出現(xiàn)的大小寫字母進(jìn)行統(tǒng)一化。在日常評(píng)論中出現(xiàn)的大小寫字母通常情況下代表同一意思,例如“FRIEND”和“friend”,如果不進(jìn)行大小寫轉(zhuǎn)換,那么系統(tǒng)會(huì)將其識(shí)別為是兩個(gè)不同的詞,從而干擾分類。關(guān)鍵代碼如圖5所示。

圖5 數(shù)據(jù)清洗關(guān)鍵代碼展示

需要說明的是,系統(tǒng)中使用開源庫jieba進(jìn)行中文分詞。jieba是Python中的第三方中文分詞庫,使用度較高,已經(jīng)擁有良好的中文分詞效果,同時(shí)具備以下三個(gè)特征:第一,支持精確、全模式、搜索引擎三種模式的分詞;第二,不僅可以自動(dòng)識(shí)別新詞,還可以自定義導(dǎo)入詞典進(jìn)行分詞,使分詞更為正確;第三,具有詞性標(biāo)注的功能,可以方便后續(xù)的詞性過濾。

去停用詞。將獲取到的停用詞表錄入系統(tǒng),隨后對(duì)中文分詞后的數(shù)據(jù)集進(jìn)行停用詞過濾。這里使用普遍適用的《百度停用詞表》作為基本表,但并不依賴,在實(shí)驗(yàn)過程中依據(jù)數(shù)據(jù)處理的需求隨時(shí)加入和修正新的停用詞。

對(duì)預(yù)處理后的文本進(jìn)行詞頻統(tǒng)計(jì),得到高頻詞作為關(guān)鍵詞,并通過統(tǒng)計(jì)高頻詞間一起出現(xiàn)的次數(shù)生成關(guān)鍵詞共現(xiàn)矩陣。本文篩選出排序前30的高頻詞,統(tǒng)計(jì)其共同出現(xiàn)的頻數(shù),并截取前10個(gè)關(guān)鍵詞的共現(xiàn)矩陣進(jìn)行展示,如表2所示,關(guān)鍵代碼如圖6所示。

表2 基于中文期刊維普網(wǎng)界面的語料庫高頻詞(部分)

圖6 構(gòu)建共現(xiàn)矩陣代碼展示

利用語料集挖掘得到關(guān)鍵詞集(見表2)和生成共現(xiàn)矩陣(見表3),分析關(guān)鍵詞間的共現(xiàn)關(guān)系,實(shí)現(xiàn)知識(shí)的快速聚類,并進(jìn)行可視化展示,如圖7所示??梢?,該語料庫首先以“電商”這個(gè)特征詞為中心,依據(jù)相關(guān)度的高低呈輻射狀分布,相關(guān)度越高越靠近中心,相關(guān)度越低越遠(yuǎn)離中心;其次,特征詞之間的疏密關(guān)系取決于它們之間的相關(guān)度;第三,在“電商”這個(gè)領(lǐng)域下,出現(xiàn)頻次最多的是“跨境”“平臺(tái)”“農(nóng)村”“模式”“引量”“物流”等六個(gè)特征詞,分別代表電商研究領(lǐng)域的六個(gè)主要研究方向;最后,“農(nóng)村—扶貧”“跨境—對(duì)策”“互聯(lián)網(wǎng)—模式”表征著電商研究領(lǐng)域新的分支和新的發(fā)展。

表3 基于中文期刊維普網(wǎng)界面的語料庫高頻詞共現(xiàn)矩陣(部分)

基于LDA概率主題模型對(duì)基于中文期刊維普網(wǎng)界面的語料集進(jìn)行文本內(nèi)容分析,得到文本主題下的主題詞表,實(shí)現(xiàn)了短文本主題自動(dòng)分類,詳見表4、表5所示。表4是利用構(gòu)建的短文本自動(dòng)分類系統(tǒng),將維普數(shù)據(jù)庫“電商”領(lǐng)域短文本作為語料集運(yùn)行后得到的三個(gè)主題下的自動(dòng)分類主題詞表:一是“跨境—引量—物流”系統(tǒng)??缇畴娚萄该桶l(fā)展,但物流問題一直是其軟肋,經(jīng)常爆出延誤、禁運(yùn)等消息,物流行業(yè)務(wù)必致力于開通各種渠道,以緩解日益增長的物流運(yùn)輸要求與力不從心的跨境物流之間的主要矛盾。二是“農(nóng)村—扶貧—產(chǎn)業(yè)”系統(tǒng)。電商為助農(nóng)扶貧帶來了新的機(jī)遇和挑戰(zhàn),鄉(xiāng)鎮(zhèn)基層干部帶頭進(jìn)行直播電商帶貨,農(nóng)產(chǎn)品從農(nóng)村銷往各大城市,一定程度上解決了農(nóng)戶的農(nóng)產(chǎn)品積壓,實(shí)現(xiàn)了可持續(xù)發(fā)展。三是“互聯(lián)網(wǎng)—?jiǎng)?chuàng)新—模式”系統(tǒng)。不斷推動(dòng)電商模式的創(chuàng)新,在互聯(lián)網(wǎng)的支持下,電商領(lǐng)域向智能化方向發(fā)展。仿真驗(yàn)證結(jié)果不但符合電商領(lǐng)域的研究現(xiàn)狀,而且明確給出了研究趨勢(shì)和交叉領(lǐng)域的知識(shí)支撐??梢?,該自動(dòng)分類系統(tǒng)能夠快速、有效地實(shí)現(xiàn)知識(shí)的聚類和發(fā)現(xiàn)。

表4 基于中文期刊維普網(wǎng)界面的語料庫共現(xiàn)矩陣主題詞分類

表5 基于中文期刊維普網(wǎng)界面的語料庫文本主題自動(dòng)分類結(jié)果(部分)

圖7 基于中文期刊維普網(wǎng)界面的語料庫特征詞共現(xiàn)矩陣

由于每次導(dǎo)入語料集,通過系統(tǒng)自動(dòng)分類得到的主題詞表是不完全相同的;同時(shí)主題詞個(gè)數(shù)的選取是人為自定義的,需要多次調(diào)試,具體分析。本次運(yùn)行實(shí)驗(yàn)考慮到主題間存在的明顯差異,和主題詞內(nèi)詞語的較高關(guān)聯(lián)度,最終將主題數(shù)選取為3,主題詞數(shù)選取為9。同時(shí)對(duì)其中較能體現(xiàn)主題內(nèi)涵的主題詞進(jìn)行了顏色區(qū)分,其中灰色部分是更能準(zhǔn)確地表征主題詞內(nèi)涵的特征詞。表5是部分語料集中數(shù)據(jù)的歸屬主題號(hào)以及歸屬概率的展示,其中主題號(hào)0代表第一個(gè)主題,1代表第二個(gè)主題,并以此類推;歸屬概率越接近1,表示其歸屬主題的可能性就越大。

基于以上算法,本文構(gòu)建了基于LDA概率主題模型的短文本自動(dòng)分類系統(tǒng),并制作了在此系統(tǒng)基礎(chǔ)上的前段展示頁面,可直接對(duì)用戶檢索的關(guān)鍵詞進(jìn)行自動(dòng)查詢、結(jié)果分類、相關(guān)文本推薦和關(guān)聯(lián)展示等,以及用于知識(shí)網(wǎng)站的后臺(tái)構(gòu)建、數(shù)據(jù)庫整理、數(shù)據(jù)庫源數(shù)據(jù)可視化結(jié)果條理性優(yōu)化,如圖8所示。

圖8 系統(tǒng)前段展示界面

4 結(jié)語

數(shù)字資源的極大豐富使得信息查全率得到很大提高,但隨之而來的是信息超載問題。根據(jù)研究對(duì)象的數(shù)據(jù)特點(diǎn),本文融合自然語言處理、機(jī)器學(xué)習(xí)自動(dòng)分類、文本分類、主題聚類、關(guān)鍵詞提取的數(shù)據(jù)挖掘等技術(shù),基于LDA概率主題模型,構(gòu)建和實(shí)現(xiàn)了短文本的自動(dòng)分類系統(tǒng)。該系統(tǒng)從冗長的數(shù)據(jù)中進(jìn)行知識(shí)搜索和發(fā)現(xiàn),迅速得出數(shù)據(jù)中的熱點(diǎn)和焦點(diǎn)、邊緣點(diǎn)和特征詞之間的關(guān)聯(lián)與相關(guān)度,有效地實(shí)現(xiàn)了知識(shí)的快速聚類和關(guān)聯(lián)自動(dòng)分類、知識(shí)的快速提取,以及可視化圖像和知識(shí)發(fā)現(xiàn)在此系統(tǒng)基礎(chǔ)上的前段頁面展示。同時(shí),通過共現(xiàn)矩陣清晰地展示了特征詞之間的隱含關(guān)系,為用戶進(jìn)一步的研究和思考提供了方向。

猜你喜歡
分類號(hào)
基本概念要更加重視
What we should pay attention to when writing a good essay in English
Connection of Learning and Teaching from Junior to Senior
English Language Teaching in Yunann Province: Opportunities & Challenges
A Study of Chinese College Athletes’ English Learning
A Philosophy of Teaching for Junior Schools in Rural Areas in China
Mimicry—A Postcolonial Reading of Disgrace
關(guān)于文章分類號(hào)
佛山市| 伊川县| 文山县| 保德县| 兴隆县| 辽阳市| 渝中区| 德格县| 浙江省| 镇巴县| 崇仁县| 鸡东县| 东方市| 瓮安县| 佛学| 旌德县| 阳东县| 白银市| 台南市| 依安县| 广丰县| 醴陵市| 浦县| 从江县| 石棉县| 石门县| 莆田市| 漳州市| 高清| 深圳市| 永嘉县| 广平县| 黔西县| 宝清县| 虞城县| 台北县| 武宁县| 于田县| 隆尧县| 巴林左旗| 溆浦县|