国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞對(duì)主題模型的題名信息自動(dòng)分類(lèi)方法研究

2023-10-23 08:31:32劉愛(ài)琴梁雅琨
晉圖學(xué)刊 2023年4期
關(guān)鍵詞:高頻詞期刊論文題名

劉愛(ài)琴,董 婕,梁雅琨

(1.山西大學(xué) 經(jīng)濟(jì)與管理學(xué)院,山西 太原 030006;2.東北大學(xué)秦皇島分校 管理學(xué)院,河北 秦皇島 066004;3.山西大學(xué) 文學(xué)院,山西 太原 030006)

0 引言

科技論文的題名具有高度濃縮文章內(nèi)容、信息導(dǎo)讀和類(lèi)型標(biāo)識(shí)等功能[1],從題名抽取關(guān)鍵詞,把題名作為基于本體自動(dòng)分類(lèi)的文本主體[2],實(shí)現(xiàn)海量期刊高效、精準(zhǔn)地分類(lèi),這方面研究已經(jīng)成為圖書(shū)館事業(yè)發(fā)展的重要課題。

題名作為一種短文本規(guī)范語(yǔ)言,專(zhuān)業(yè)性強(qiáng),內(nèi)容簡(jiǎn)練,能夠高度概括和集中表達(dá)文本核心內(nèi)容,因此可以作為文獻(xiàn)分類(lèi)的重要依據(jù)[3]。題名分類(lèi)是利用預(yù)先建立的分類(lèi)器,通過(guò)計(jì)算機(jī)對(duì)給定的未知類(lèi)別論文集進(jìn)行分類(lèi)的過(guò)程[4]。然而,由于題名長(zhǎng)度較短、特征稀疏、描述概念的信號(hào)弱、詞的個(gè)數(shù)少等缺點(diǎn)導(dǎo)致題名特征嚴(yán)重不足,其分類(lèi)效果不是很理想,國(guó)內(nèi)外的研究工作進(jìn)展緩慢。

國(guó)外代表性的觀點(diǎn)如下:Rasim Cekik等[5]利用比例粗糙特征選擇器(PRFS,Proportional Rough Feature Selector)進(jìn)行文本的過(guò)濾特征選擇,開(kāi)創(chuàng)性地提出了一種新的基于粗糙集理論的短文本分類(lèi)特征選擇方法;Timothy N. Rubin等[6]研究了一類(lèi)用于多標(biāo)簽文檔的生成統(tǒng)計(jì)主題模型,該模型對(duì)于標(biāo)簽多、標(biāo)簽頻率偏倚的數(shù)據(jù)集具有優(yōu)勢(shì);Xuan-Hieu Phan等[7]使用短文本隱藏的主題內(nèi)容作為額外特征集,通過(guò)推理、使用LDA(Latent Dirichlet Allocation,概率主題模型)模型分析方法獲得主題模型,再與原始特征融合用于文本的訓(xùn)練和分類(lèi);Yoon Kim[8]將詞矢量作為輸入特征,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)模型訓(xùn)練;Duc-Thuan Vo等[9]利用主題模型增強(qiáng)特征的方法,利用Latent Dirichlet Allocation(概率主題模型,LDA)分配的主題模型分析豐富的數(shù)據(jù)集,然后結(jié)合主題模型的外部文本來(lái)增強(qiáng)分類(lèi)特征,使文檔的分類(lèi)更加有效。

國(guó)內(nèi)相關(guān)研究如下:Jingyun Xu等[10]將上下文相關(guān)的概念納入卷積神經(jīng)網(wǎng)絡(luò),提出了一種名為DE-CNN(Differential Entropy-Convolutional Neural Network,微分熵-卷積神經(jīng)網(wǎng)絡(luò))的神經(jīng)網(wǎng)絡(luò)短文本分類(lèi);呂超鎮(zhèn)等[11]利用LDA主題模型分析方法得到短文本的主題分布,把主題中的詞作為短文本的部分特征,并擴(kuò)充到原短文本的特征中去,提出了一種切實(shí)可行的分類(lèi)方法,但由于短文本特征稀疏的問(wèn)題,分類(lèi)效果不是很理想;巴志超等[12]借助知網(wǎng)語(yǔ)義詞典以及維基百科詞條對(duì)核心特征詞集進(jìn)行語(yǔ)義概念的擴(kuò)展,提出了一種基于特征語(yǔ)義擴(kuò)展的數(shù)字文獻(xiàn)分類(lèi)方法,一定程度上提高了數(shù)字文獻(xiàn)的分類(lèi)性能,但基于外部資源的特征擴(kuò)展過(guò)度依賴外部資源的質(zhì)量,容易受到外部知識(shí)庫(kù)的限制。

2013年,國(guó)內(nèi)學(xué)者晏小輝等[13]利用混合Unigram模型(一元模型)和與LDA模型相結(jié)合的BTM(Biterm Topic Model,詞對(duì)主題模型)主題模型,在整個(gè)語(yǔ)料庫(kù)建立詞對(duì)模型,通過(guò)對(duì)Biterm(詞對(duì))的生成過(guò)程進(jìn)行建模來(lái)學(xué)習(xí)短文本主題,打破了短文本特征稀疏的問(wèn)題,為短文本分類(lèi)奠定了良好的理論基礎(chǔ)。2016年,鄭誠(chéng)等[14]通過(guò)對(duì)特征向量計(jì)算算法進(jìn)行改進(jìn)并考慮上下文問(wèn)題,提出了一種融合BTM主題特征和改進(jìn)特征權(quán)重計(jì)算的綜合特征提取方法來(lái)進(jìn)行短文本分類(lèi),對(duì)短文本分類(lèi)有一定的效果。

綜上所述,在高頻詞和隱含主題兩個(gè)不同粒度層面,構(gòu)建了基于BTM主題模型的題名信息自動(dòng)分類(lèi)方法。該方法利用文本內(nèi)部的語(yǔ)義關(guān)聯(lián)特性:首先在細(xì)粒度層面進(jìn)行詞頻統(tǒng)計(jì),提取文本的領(lǐng)域高頻詞;隨后在粗粒度層面進(jìn)行BTM主題模型分析,得到文本的主題關(guān)鍵詞;之后,將得到的領(lǐng)域高頻詞和主題關(guān)鍵詞去重合并獲得領(lǐng)域核心詞集;最后,利用SVM(Support Vector Machine,支持向量機(jī))分類(lèi)算法進(jìn)行文本分類(lèi),實(shí)現(xiàn)期刊論文的題名信息分類(lèi)。

1 基于BTM主題模型的題名信息自動(dòng)分類(lèi)方法的原理分析

1.1 BTM主題模型的題名分類(lèi)原理

Fig.1 BTM topic model圖1 BTM主題模型

利用BTM主題模型對(duì)語(yǔ)料集進(jìn)行主題抽取,具體步驟如下:第一步,為文檔中的每個(gè)主題z構(gòu)造一個(gè)服從φz~Dir(β)的詞對(duì)分布;第二步,為語(yǔ)料集中的每篇文檔構(gòu)造一個(gè)服從θ~Dir(α)的主題分布;第三步,構(gòu)建語(yǔ)料庫(kù)詞對(duì)(wi,wj),詞對(duì)集合|B|;第四步,從主題分布θ中抽取主題z,構(gòu)造服從z~Multi(θ)的主題分布;最后,從主題z中抽取詞對(duì)(wi,wj),服從wi,wj~Multi(φz)。對(duì)語(yǔ)料集中的文本重復(fù)執(zhí)行上述過(guò)程,可以計(jì)算出詞對(duì)(wi,wj)的聯(lián)合分布概率,如公式(1)所示,整個(gè)語(yǔ)料庫(kù)詞對(duì)集合概率分布,如公式(2)所示。

P(b)=∑zP(z)P(wi|z)P(wj|z)

=∑zθzφi|zφj|z

(1)

P(B)=∏(i,j)P(b)=∏(i,j)∑zθzφi|zφj|z

(2)

1.2 支持向量機(jī)分類(lèi)算法

基于統(tǒng)計(jì)學(xué)理論的二分類(lèi)模型支持向量機(jī)[15](Support Vector Machine,SVM)是將數(shù)據(jù)非線性地映射到一個(gè)高維的特征空間,依據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論找到一個(gè)可以將不同類(lèi)數(shù)據(jù)有效分割的最優(yōu)超平面,從整體上優(yōu)化分類(lèi)器。SVM主要分為線性可分和線性不可分兩種情況:當(dāng)數(shù)據(jù)線性可分時(shí),分類(lèi)器要從無(wú)限個(gè)超平面中找出一個(gè)類(lèi)別間隔最大的最大邊緣超平面,使分類(lèi)誤差最小;當(dāng)數(shù)據(jù)線性不可分時(shí),需要引入合適的核函數(shù),將不可分的樣本非線性映射到高維向量空間中,從而有效解決核問(wèn)題,以達(dá)到高效精準(zhǔn)的分類(lèi)效果。

作為一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)模型,SVM具有穩(wěn)定精準(zhǔn)的分類(lèi)性能,其主要優(yōu)勢(shì)在于不受樣本規(guī)模和樣本空間維數(shù)的影響,當(dāng)樣本規(guī)模有限時(shí),也能出色解決線性不可分和高維空間等復(fù)雜問(wèn)題,具有良好的分類(lèi)效果。

1.3 算法處理步驟與特色分析

文本分類(lèi)是根據(jù)文本所蘊(yùn)含的信息將其映射到預(yù)先定義帶主題標(biāo)簽的兩個(gè)或多個(gè)類(lèi)的過(guò)程[16]。為實(shí)現(xiàn)海量期刊論文的有效分類(lèi),本文提出一種基于BTM主題模型的題名信息自動(dòng)分類(lèi)方法,如圖2所示。該分類(lèi)方法主要由數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、高頻詞提取、文本建模、文本分類(lèi)五個(gè)步驟組成。各個(gè)步驟的功能、輸入內(nèi)容和輸出內(nèi)容詳見(jiàn)表1。

表1 基于BTM主題模型的題名信息自動(dòng)分類(lèi)方法每個(gè)步驟的分析Table 1 Analysis of each step of automatic classification method of title information based on BTM topic model

Fig.2 Algorithm flow of automatic classification of title information based on BTM topic model圖2 基于BTM主題模型的題名信息自動(dòng)分類(lèi)算法流程

由圖2可知,基于BTM主題模型的題名信息自動(dòng)分類(lèi)功能主要通過(guò)以下五個(gè)步驟實(shí)現(xiàn)。第一步是文本預(yù)處理,即收集到數(shù)據(jù)后對(duì)題名信息的訓(xùn)練集和測(cè)試集分別進(jìn)行預(yù)處理:首先,通過(guò)Python的正則表達(dá)式(Re)進(jìn)行清洗操作,去除數(shù)字、空格、標(biāo)點(diǎn)等無(wú)用的符號(hào);其次,利用Python的Jieba分詞工具進(jìn)行中文分詞;最后,將哈工大停用詞表不斷修改擴(kuò)充,用于去除停用詞。第二步,將預(yù)處理后的訓(xùn)練集進(jìn)行詞頻統(tǒng)計(jì),獲取領(lǐng)域高頻詞。第三步,對(duì)訓(xùn)練語(yǔ)料進(jìn)行BTM建模,得到各主題下的關(guān)鍵詞。第四步,將領(lǐng)域高頻詞和主題關(guān)鍵詞合并,過(guò)濾掉重復(fù)特征詞,得到領(lǐng)域核心詞集。第五步,借助SVM分類(lèi)算法計(jì)算測(cè)試集與訓(xùn)練集中領(lǐng)域核心詞集的相似度,選擇相似度最高的類(lèi)別分配給該測(cè)試集對(duì)應(yīng)詞匯。各步驟的分析如表1所示。

本文通過(guò)以上五個(gè)步驟構(gòu)建了基于BTM主題模型的題名信息自動(dòng)分類(lèi)方法。當(dāng)前主流的分類(lèi)模型是LDA模型,由于短文本的特殊性——短文本里每篇文檔包含的詞匯很少——從而導(dǎo)致短文本使用LDA模型進(jìn)行題名信息分類(lèi)會(huì)出現(xiàn)特征稀疏的現(xiàn)象。而B(niǎo)TM模型利用混合Unigram模型和LDA模型結(jié)合,主要采用詞對(duì)共現(xiàn)的形式來(lái)提高特征維數(shù),有力解決了特征稀疏的問(wèn)題,更加適用于短文本分類(lèi)。另外,SVM作為一個(gè)有監(jiān)督的機(jī)器學(xué)習(xí)模型,其主要優(yōu)勢(shì)在于不受樣本規(guī)模和樣本空間維數(shù)的影響,當(dāng)樣本規(guī)模有限時(shí),也能出色解決線性不可分和高維空間等復(fù)雜問(wèn)題,本文利用支持向量機(jī)(SVM)建立分類(lèi)器來(lái)實(shí)現(xiàn)文本分類(lèi),具有良好的分類(lèi)效果。同時(shí)采用兩種方法的論文較少,將兩者有機(jī)結(jié)合在一起進(jìn)行具體運(yùn)用探討的不多見(jiàn)。兩者的結(jié)合可以在分類(lèi)檢全的情況下提高查準(zhǔn)率。

2 方法優(yōu)劣的驗(yàn)證

本文利用中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)進(jìn)行上述基于BTM主題模型的題名信息自動(dòng)分類(lèi)算法的仿真驗(yàn)證。

第一,通過(guò)八爪魚(yú)爬蟲(chóng)技術(shù)完成文獻(xiàn)的采集,選取期刊論文的題名信息作為語(yǔ)料集,在檢索欄分別輸入關(guān)鍵詞“環(huán)境”“經(jīng)濟(jì)”“體育”“藝術(shù)”,共4個(gè)類(lèi),各類(lèi)按相關(guān)度從高到低采集前700篇,其中隨機(jī)抽取500篇作為訓(xùn)練集,將其余200篇作為測(cè)試集,共采集到2 800篇中文期刊,構(gòu)成基于BTM主題模型的題名信息自動(dòng)分類(lèi)方法的數(shù)據(jù)集。

第二,利用Python完成數(shù)據(jù)預(yù)處理,即對(duì)數(shù)據(jù)集進(jìn)行有效優(yōu)化,清除對(duì)文本分類(lèi)無(wú)用或產(chǎn)生干擾的詞匯,從而提高分類(lèi)效果。預(yù)處理主要包括三個(gè)環(huán)節(jié):首先,通過(guò)Python的正則表達(dá)式Re完成數(shù)據(jù)集的清洗,比如數(shù)字、空格、標(biāo)點(diǎn)等進(jìn)行刪除;其次,因?yàn)橹形奈谋静灰钥崭褡鳛榉指舴?所以需要通過(guò)中文分詞組件進(jìn)行分詞,綜合考慮后,選用具有良好分詞效果的Jieba軟件作為分詞工具;最后,本文將《哈工大停用詞[對(duì)文本主題沒(méi)有意義的詞稱(chēng)為停用詞。]表》作為常規(guī)表,同時(shí)在實(shí)驗(yàn)過(guò)程中進(jìn)行人工維護(hù),根據(jù)實(shí)驗(yàn)需要不斷對(duì)停用詞表進(jìn)行修正,加入新的停用詞。其中,預(yù)處理代碼如圖3所示。

Fig.3 Code display for data preprocessing section圖3 數(shù)據(jù)預(yù)處理部分代碼展示

上圖是數(shù)據(jù)預(yù)處理的部分代碼。首先,對(duì)爬蟲(chóng)采集到的題名信息進(jìn)行數(shù)據(jù)清洗,去掉標(biāo)點(diǎn)和特殊符號(hào);其次,通過(guò)Jieba分詞工具進(jìn)行中文分詞,將題名信息分成各個(gè)獨(dú)立的詞;最后,對(duì)停用詞表進(jìn)行人工修正,完成停用詞去除:由此得到預(yù)處理后的題名信息結(jié)果。

第三,選取領(lǐng)域高頻詞。領(lǐng)域高頻詞是指在某個(gè)類(lèi)中出現(xiàn)幾率高而在其他類(lèi)中出現(xiàn)幾率低的詞,其具有辨識(shí)度高、區(qū)分能力強(qiáng)、可以唯一確定某個(gè)類(lèi)的特征的特性,因此,本文選用這些高頻詞作為特征詞來(lái)進(jìn)行文本分類(lèi)。本文將預(yù)處理后的訓(xùn)練集進(jìn)行詞頻統(tǒng)計(jì),作為領(lǐng)域高頻詞,從中篩選出環(huán)境、經(jīng)濟(jì)、體育、藝術(shù)各類(lèi)排名前20的高頻詞,關(guān)鍵代碼如圖4所示,選取結(jié)果如表2所示。表2展示了環(huán)境、經(jīng)濟(jì)、體育、藝術(shù)4類(lèi)題名信息的高頻詞和相應(yīng)的頻數(shù)。

表2 各類(lèi)高頻詞選取結(jié)果展示Table 2 Display of selection results for various high-frequency words

Fig.4 Key code display for word frequency statistics圖4 詞頻統(tǒng)計(jì)關(guān)鍵代碼展示

上圖4是對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行詞頻統(tǒng)計(jì)從而提取領(lǐng)域高頻詞的部分代碼,通過(guò)篩選各個(gè)詞出現(xiàn)的頻數(shù),實(shí)現(xiàn)了對(duì)環(huán)境、經(jīng)濟(jì)、體育、藝術(shù)4類(lèi)題名信息的高頻詞選取。結(jié)果如表2所示。

第四,提取主題關(guān)鍵詞。在訓(xùn)練語(yǔ)料中存在信息含量豐富的低頻詞,雖然這些詞能有效代表某個(gè)類(lèi),但在上述高頻詞的選取過(guò)程中,往往在一開(kāi)始就被過(guò)濾掉,為了保留這些核心詞,需要進(jìn)行主題關(guān)鍵詞的提取。本文基于粗粒度層面對(duì)訓(xùn)練集進(jìn)行BTM建模,得到文本的主題關(guān)鍵詞,從中篩選出環(huán)境、經(jīng)濟(jì)、體育、藝術(shù)各類(lèi)排名前20名的關(guān)鍵詞,選取結(jié)果如表3所示。表3展示了環(huán)境、經(jīng)濟(jì)、體育、藝術(shù)4類(lèi)題名信息對(duì)應(yīng)的主題關(guān)鍵詞。

第五,獲取領(lǐng)域核心詞集。特征詞和隱含主題是兩種不同的特征粒度,本文從粗細(xì)兩個(gè)粒度分別進(jìn)行分析:基于細(xì)粒度層面進(jìn)行詞頻統(tǒng)計(jì),從而提取出文本的領(lǐng)域高頻詞;基于粗粒度層面采用BTM主題模型,分析得出文本的主題關(guān)鍵詞。將各個(gè)類(lèi)中的高頻詞和主題關(guān)鍵詞進(jìn)行合并,過(guò)濾掉其中的重復(fù)詞,由此獲得訓(xùn)練語(yǔ)料的領(lǐng)域核心詞集。選取結(jié)果如表4所示。表4展示了將上述步驟所得的領(lǐng)域高頻詞和主題關(guān)鍵詞去重合并后的結(jié)果,環(huán)境、經(jīng)濟(jì)、體育、藝術(shù)各類(lèi)的領(lǐng)域核心詞集中分別有32、28、27、30個(gè)詞。

表4 各類(lèi)語(yǔ)義核心詞集選取結(jié)果展示Table 4 Display of selection results for various semantic core word sets

第六,支持向量機(jī)的自動(dòng)分類(lèi)。利用SVM分類(lèi)算法計(jì)算待分類(lèi)題名信息與4類(lèi)訓(xùn)練集核心詞集的相似度,相似度最高的類(lèi)即是該題名歸屬的類(lèi)別。部分期刊題名的歸屬類(lèi)別號(hào)以及相似度的關(guān)鍵代碼如圖5所示。運(yùn)行分類(lèi)結(jié)果如表5所示:類(lèi)別號(hào)0表示環(huán)境類(lèi)、1表示經(jīng)濟(jì)類(lèi);2表示體育類(lèi);3表示藝術(shù)類(lèi)??梢钥闯?待分類(lèi)題名信息與某類(lèi)別的相似度越高,代表其歸屬此類(lèi)別的可能性越大??梢?jiàn),基于BTM主題模型的題名信息自動(dòng)分類(lèi)方法有效實(shí)現(xiàn)了文本的自動(dòng)、高效分類(lèi)。

表5 基于BTM模型和SVM算法的題名信息分類(lèi)部分結(jié)果展示Table 5 Display of title information classification results based on BTM Model and SVM algorithm

Fig.5 Key codes for title information classification based on BTM model and SVM algorithm圖5 基于BTM模型和SVM算法的題名信息分類(lèi)關(guān)鍵代碼

通過(guò)以上步驟的數(shù)據(jù)分析處理,將環(huán)境、經(jīng)濟(jì)、體育、藝術(shù)4個(gè)類(lèi)的題名信息分為訓(xùn)練集和測(cè)試集,進(jìn)行預(yù)處理,將詞頻統(tǒng)計(jì)得到的領(lǐng)域高頻詞和BTM建模得到的主題關(guān)鍵詞去重合并得到領(lǐng)域核心詞集,用SVM分類(lèi)算法將測(cè)試集與訓(xùn)練集的領(lǐng)域核心詞集進(jìn)行相似度計(jì)算,相似度最高的類(lèi)別即為測(cè)試集所歸屬的類(lèi)別。

從表5展示出的題名信息分類(lèi)結(jié)果可以看出,測(cè)試集通過(guò)相似度計(jì)算歸屬的類(lèi)別號(hào)準(zhǔn)確,由此可知該方法實(shí)現(xiàn)了期刊論文的有效分類(lèi)檢索,分類(lèi)的效率和準(zhǔn)確率較高,是一種可行的題名信息自動(dòng)分類(lèi)方法。但由于中文表達(dá)的靈活性和復(fù)雜性,該方法也有局限性,即BTM主題模型在詞對(duì)的選擇過(guò)程中缺少對(duì)詞語(yǔ)語(yǔ)義相關(guān)性的考慮[17],未來(lái)可以改進(jìn)相關(guān)的算法流程,實(shí)現(xiàn)更高效精準(zhǔn)的論文題名信息分類(lèi)。

3 結(jié)束語(yǔ)

在數(shù)據(jù)采集技術(shù)和數(shù)據(jù)存儲(chǔ)設(shè)備快速發(fā)展的大環(huán)境下,多種針對(duì)數(shù)據(jù)分析、挖掘的應(yīng)用應(yīng)運(yùn)而生。在學(xué)術(shù)研究過(guò)程中同樣需要應(yīng)用各種數(shù)據(jù)分析技術(shù),如期刊論文的分類(lèi)研究[18]。隨著高等教育的迅速發(fā)展,學(xué)術(shù)期刊論文的數(shù)量與日俱增,期刊論文的分類(lèi)檢索成為信息處理領(lǐng)域一個(gè)亟需解決的問(wèn)題。為有效解決期刊論文的分類(lèi)問(wèn)題,本文將自動(dòng)分類(lèi)技術(shù)應(yīng)用于期刊論文的分類(lèi)研究,利用題名信息對(duì)期刊論文進(jìn)行分類(lèi),以提高期刊論文分類(lèi)的效率和精度。

將特征詞和隱含主題兩個(gè)不同粒度結(jié)合,本文設(shè)計(jì)并實(shí)現(xiàn)了基于BTM和SVM的題名信息自動(dòng)分類(lèi)方法。該方法通過(guò)詞頻統(tǒng)計(jì)和BTM建模分別獲得高頻詞和主題關(guān)鍵詞,去重合并后得到核心詞集,最后利用SVM分類(lèi)算法計(jì)算測(cè)試集與核心詞集的相似度,依據(jù)相似度進(jìn)行題名信息自動(dòng)分類(lèi)。

利用中國(guó)知網(wǎng)數(shù)據(jù)庫(kù)進(jìn)行基于BTM主題模型的題名信息自動(dòng)分類(lèi)算法的仿真驗(yàn)證。結(jié)果表明:該方法一方面有效地實(shí)現(xiàn)了知識(shí)的快速聚類(lèi)和關(guān)聯(lián)自動(dòng)分類(lèi),提高中文學(xué)術(shù)文獻(xiàn)的查全率和查準(zhǔn)率;另一方面為用戶提供了滿意度更高的知識(shí)發(fā)現(xiàn)及相關(guān)擴(kuò)展服務(wù),有效促進(jìn)中文信息的獲取和傳播。但該方法也有局限性,即BTM主題模型在詞對(duì)的選擇過(guò)程中缺少對(duì)詞語(yǔ)語(yǔ)義相關(guān)性的考慮[17],由于中文表達(dá)的靈活性和復(fù)雜性,期刊論文的分類(lèi)檢索還有很大的研究空間,未來(lái)將深入探索如何設(shè)計(jì)出更高效更精準(zhǔn)的論文分類(lèi)方法。

猜你喜歡
高頻詞期刊論文題名
省級(jí)兩會(huì)上的高頻詞
小康(2022年7期)2022-03-10 11:15:54
30份政府工作報(bào)告中的高頻詞
小康(2022年7期)2022-03-10 11:15:54
棲鳳閣題名記
西江月(2021年2期)2021-11-24 01:16:12
省級(jí)兩會(huì)上的高頻詞
小康(2021年7期)2021-03-15 05:29:03
28份政府工作報(bào)告中的高頻詞
小康(2021年7期)2021-03-15 05:29:03
醫(yī)學(xué)期刊論文中常見(jiàn)統(tǒng)計(jì)學(xué)錯(cuò)誤
北大漢簡(jiǎn)五《大羅圖》題名商榷
公共圖書(shū)館不應(yīng)認(rèn)可的職稱(chēng)期刊論文探析——基于重慶圖書(shū)館職稱(chēng)期刊論文的實(shí)證調(diào)研
人文社科期刊論文被引頻次和下載頻次相關(guān)性研究
佳石選賞
中華奇石(2015年7期)2015-07-09 18:32:15
和平县| 绥宁县| 历史| 青冈县| 甘泉县| 无棣县| 乌兰浩特市| 繁峙县| 洞头县| 吉木乃县| 巫溪县| 延川县| 汽车| 阳城县| 宁武县| 扶余县| 高青县| 南召县| 渝北区| 拉孜县| 洞口县| 南阳市| 瓦房店市| 新平| 沁源县| 武鸣县| 柳河县| 五台县| 广宁县| 时尚| 柘城县| 镇赉县| 沂水县| 夏河县| 岳阳县| 岳普湖县| 灌南县| 资兴市| 安吉县| 弋阳县| 西峡县|