国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于融合文本主題模型的學(xué)者興趣挖掘研究

2022-09-07 12:52夏驕雄
計(jì)算機(jī)時(shí)代 2022年9期
關(guān)鍵詞:余弦文檔學(xué)者

陳 鋒,夏驕雄,2,3

(1.上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093;2.上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院;3.上海市教育科學(xué)研究院)

0 引言

興趣標(biāo)簽作為對(duì)科研學(xué)者興趣偏好的集中表達(dá),也逐漸成了學(xué)者畫(huà)像中的“標(biāo)配”。但隨著科學(xué)技術(shù)的迅猛發(fā)展,學(xué)術(shù)論文、期刊等學(xué)術(shù)數(shù)據(jù)呈高速增長(zhǎng)趨勢(shì),人們?cè)絹?lái)越難以從海量的學(xué)術(shù)大數(shù)據(jù)中抽取出精確的學(xué)者興趣標(biāo)簽,于是如何在有限的時(shí)間內(nèi)從大量文本中提取興趣標(biāo)簽成為學(xué)術(shù)大數(shù)據(jù)信息挖掘的一項(xiàng)重要任務(wù)。

傳統(tǒng)的學(xué)者興趣標(biāo)簽抽取研究中,循環(huán)神經(jīng)網(wǎng)絡(luò)常常需要面對(duì)在訓(xùn)練中出現(xiàn)的梯度消失或梯度爆炸的問(wèn)題,還有在文本大數(shù)據(jù)中處理分類問(wèn)題的時(shí)候,文本數(shù)據(jù)具有非結(jié)構(gòu)化、稀疏性特征,經(jīng)常導(dǎo)致分類效果不理想。為解決上述問(wèn)題,本文利用加權(quán)投票法融合 Latent Dirichlet Allocation 和改進(jìn)的Doc2vec算法得到一種新的結(jié)合主題向量和文檔向量表示的融合模型,從而有效地提升興趣標(biāo)簽標(biāo)注的精準(zhǔn)度。

1 相關(guān)研究

以往的研究主要是通過(guò)用戶對(duì)網(wǎng)頁(yè)的瀏覽內(nèi)容和瀏覽時(shí)的操作行為進(jìn)行用戶的興趣發(fā)現(xiàn)。而后社交網(wǎng)絡(luò)興起,周娜等學(xué)者提出將興趣挖掘的工作建立在無(wú)監(jiān)督的主題概率模型上,從學(xué)者自身發(fā)表的論文著作的文本信息中挖掘興趣標(biāo)簽。本文的主要目的在于利用學(xué)術(shù)數(shù)據(jù)構(gòu)建精準(zhǔn)的學(xué)者標(biāo)簽。興趣標(biāo)簽構(gòu)建研究采用LDA 與Doc2Vec兩種不同的表示方法,其中文本屬性分類模塊使用預(yù)訓(xùn)練的無(wú)監(jiān)督的Doc2Vec 段落向量模型,其將原始文本轉(zhuǎn)化為向量形式,并利用雙向長(zhǎng)短記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(BiLSTM)和帶有注意力機(jī)制的聚合方式生成文本對(duì)各興趣標(biāo)簽進(jìn)行表示,然后依據(jù)學(xué)者和興趣標(biāo)簽之間的余弦相似度,將相似度最高的五個(gè)標(biāo)簽作為學(xué)者的興趣標(biāo)簽,而LDA 利用無(wú)監(jiān)督的主題概率模型進(jìn)行興趣標(biāo)簽的分類,將每個(gè)人的文本內(nèi)容合并成一個(gè)文本文檔,再使用LDA算法捕捉隱藏的主題信息。從而得到作者-主題分布,最后依據(jù)加權(quán)投票法融合以上兩種方法得到的標(biāo)簽結(jié)果作為學(xué)者最終的研究興趣標(biāo)簽。

2 整體框架

本文所提出基于融合文本主題模型的學(xué)者興趣挖掘研究的整體框架由四部分組成:基于LDA 主題模型的標(biāo)簽表示、基于Doc2Vec 文本模型的標(biāo)簽表示、學(xué)者與興趣標(biāo)簽相似度計(jì)算和結(jié)果方法集成。整體結(jié)構(gòu)如圖1所示。

圖1 文本主題模型興趣抽取思路

2.1 基于LDA主題模型的標(biāo)簽表示

本文采用了LDA 主題模型,可以在語(yǔ)義上計(jì)算文本內(nèi)容的相關(guān)性,實(shí)現(xiàn)文本特征的降維,具體的文本語(yǔ)義特征提取如下所述。

LDA 是一種基于主題的空間模型,它能夠通過(guò)給定文檔集中每個(gè)文檔的主題,將其以概率分布的形式展現(xiàn),即文檔可以轉(zhuǎn)換為基于主題的值,每篇文檔由一組沒(méi)有相互順序關(guān)系的單詞組成,文檔中每個(gè)單詞都依賴于主題而生成。LDA的圖模型結(jié)構(gòu)如圖2所示。

圖2 文檔主題生成模型結(jié)構(gòu)

2.2 基于Doc2Vec文本模型的標(biāo)簽表示

本文將學(xué)者和研究興趣標(biāo)簽表示成多種詞向量形式。Word2Vec 可以提供每個(gè)單詞的數(shù)字表示,并且能夠捕獲上述關(guān)系。

Doc2Vec 是基于Word2Vec 的段落向量模型,Mikolov等人在2013年提出了基于詞向量文本表示工具Word2vec 模型,雖然Word2Vec 詞向量模型能夠基于分布式假說(shuō)理論高質(zhì)量得抽取詞語(yǔ)的語(yǔ)義信息,但此模型忽視了文本間的語(yǔ)序數(shù)據(jù),為了改善此問(wèn)題,Doc2Vec 模型在谷歌工程師Quoc Le 和Tomoas Mikolov 的努力下逐漸嶄露頭角。他們添加了用來(lái)標(biāo)記文檔的id 的向量作為記錄文檔的唯一標(biāo)識(shí),每當(dāng)模型訓(xùn)練完成的時(shí)候,可以同時(shí)得到文檔和單詞的向量表示。本文Doc2vec模型采用了Distributed Memory(DM)隱藏層技術(shù)模型,它就像一個(gè)記憶體,記住當(dāng)前上下文缺少的內(nèi)容。單詞向量表示單詞的概念,而文檔向量表示文檔的概念。

2.3 學(xué)者與興趣標(biāo)簽相似度計(jì)算

在學(xué)術(shù)文本語(yǔ)義相似度計(jì)算實(shí)驗(yàn)中,根據(jù)先驗(yàn)知識(shí),學(xué)者與研究興趣標(biāo)簽越相似,表明該標(biāo)簽越能代表學(xué)者的研究方向。計(jì)算文本相似度是本文的關(guān)鍵理論技術(shù)之一,相似程度可以通過(guò)考察這些承載文本關(guān)鍵信息的概念詞集合之間的相似程度衡量。

本文使用向量余弦值來(lái)度量學(xué)者和研究興趣標(biāo)簽之間的相似度。我們可以用不同向量的夾角余弦值來(lái)表示它們的差異。這個(gè)余弦值通常被稱為“余弦距離”。定義興趣標(biāo)簽向量空間與學(xué)者之間的關(guān)聯(lián)關(guān)系,需要定義語(yǔ)義相似度如公式(1)所示,其中,X 和Y分別為向量空間中學(xué)者向量形式和研究興趣標(biāo)簽的向量形式,CosSim(X,Y)是兩個(gè)行向量的余弦相似度,定義如公式⑴。

提取文本特征后,可以將學(xué)者和興趣標(biāo)簽向量代入余弦值計(jì)算公式,可以得到兩者之間的余弦距離。

2.4 結(jié)果方法集成

集成機(jī)器學(xué)習(xí)模型是一種常見(jiàn)的提升模型能力的機(jī)器學(xué)習(xí)范式,它可以避免陷入糟糕的局部最優(yōu)。采用單個(gè)學(xué)習(xí)器可能對(duì)泛化的效果不明顯,結(jié)合多個(gè)學(xué)習(xí)器可以減少這一風(fēng)險(xiǎn),當(dāng)集成學(xué)習(xí)方法正確組合兩種或兩種以上能解決相同問(wèn)題的方法后,它將能更有效地提高整體精度。

本文得到的改進(jìn)的Doc2Vec 模塊和LDA 主題模塊分別得出了興趣標(biāo)簽結(jié)果,根據(jù)文獻(xiàn)[12]可知,采用集成方法(Ensemble Method)聚合兩個(gè)模塊的興趣標(biāo)簽評(píng)分可以得到比任意一個(gè)模塊更好的分類準(zhǔn)確率得分。

LDA 主題模塊和改進(jìn)的Doc2Vec 模塊分別會(huì)為數(shù)據(jù)集中的學(xué)者生成興趣標(biāo)簽評(píng)分。首先計(jì)算兩個(gè)子模塊的分類準(zhǔn)確率,再將其各自的準(zhǔn)確率作為融合權(quán)重,將各自的分類評(píng)分加權(quán)聚合為最終的評(píng)分結(jié)果,其得分是分類得到的興趣標(biāo)簽集與給定的興趣標(biāo)簽完全相同的比例,公式如下:

其中,N 為數(shù)據(jù)集中學(xué)者個(gè)數(shù),T 為分類得到的學(xué)者興趣標(biāo)簽集,T*為給定的興趣標(biāo)簽集。

投票法,學(xué)習(xí)法和平均法是常見(jiàn)的集成學(xué)習(xí)采用的結(jié)合策略。投票法(voting) 常用于分類問(wèn)題,它以單個(gè)分類模型的分類結(jié)果為基礎(chǔ),以少數(shù)服從多數(shù)的原則確定模型預(yù)測(cè)的類別標(biāo)簽。本文采用的集成方法為投票加權(quán)聚合,具體方法如圖3所示。

圖3 加權(quán)投票示意圖

得到兩個(gè)子模塊的分類準(zhǔn)確率得分后,使用如下公式計(jì)算兩個(gè)模塊的權(quán)重:

其中,score 表示子模塊的準(zhǔn)確率得分,weight 表示子模塊的權(quán)重。利用兩個(gè)模塊的加權(quán)各自的興趣標(biāo)簽評(píng)分,公式如下:

3 實(shí)驗(yàn)結(jié)果與分析

接下來(lái)將按照實(shí)驗(yàn)的操作流程介紹數(shù)據(jù)集、數(shù)據(jù)預(yù)處理、興趣標(biāo)簽及學(xué)者的表示與相似度計(jì)算、模型集成步驟。

3.1 數(shù)據(jù)集

本文實(shí)驗(yàn)所用的數(shù)據(jù)集來(lái)源于人工智能和大數(shù)據(jù)競(jìng)賽平臺(tái)Biendata 提供的“2017 開(kāi)放學(xué)術(shù)精準(zhǔn)畫(huà)像大賽”論文基本信息數(shù)據(jù)集,包含3081998篇發(fā)表時(shí)間在1936~2016 年間計(jì)算機(jī)領(lǐng)域內(nèi)的論文基本信息數(shù)據(jù)、15367 名學(xué)者的姓名、作者的三個(gè)興趣標(biāo)簽,以及大小為1098的標(biāo)簽空間。

3.2 數(shù)據(jù)預(yù)處理

獲得學(xué)者論文數(shù)據(jù)之后不能夠馬上進(jìn)行處理,本實(shí)驗(yàn)首先對(duì)數(shù)據(jù)集進(jìn)行文本預(yù)處理。將文本拆分為句子,將句子拆分為詞語(yǔ),將句子拆分為單詞,再刪除所有的停用詞,把所有單詞變換為小寫(xiě)單詞并刪除標(biāo)點(diǎn)符號(hào),刪除在語(yǔ)料庫(kù)中出現(xiàn)少于三個(gè)字符的單詞。最后將過(guò)去時(shí)態(tài)和未來(lái)時(shí)態(tài)的動(dòng)詞都改為現(xiàn)在時(shí)態(tài)。

3.3 興趣標(biāo)簽及學(xué)者的表示與相似度計(jì)算

⑴LDA

在LDA 中,超參數(shù)a設(shè)置為0.1,pass設(shè)置為20,以保證收斂。首先,為每一位學(xué)者匯總各自發(fā)表的論文,并將每篇論文題目進(jìn)行連接,形成一個(gè)文本文檔用來(lái)表示學(xué)者,然后匯總每一個(gè)興趣標(biāo)簽所對(duì)應(yīng)的學(xué)者,連接所對(duì)應(yīng)學(xué)者發(fā)表的論文題目,形成一個(gè)文本文檔,用來(lái)表示興趣標(biāo)簽;其次,對(duì)這兩類文檔進(jìn)行文本預(yù)處理,預(yù)處理后對(duì)這兩類文檔使用LDA 模型進(jìn)行了表示,即對(duì)學(xué)者和興趣標(biāo)簽都進(jìn)行了表示,主題數(shù)從10 和50 開(kāi)始試驗(yàn),再?gòu)闹黝}數(shù)為100 開(kāi)始以100 為步長(zhǎng)遞增的方式進(jìn)行表示實(shí)驗(yàn)對(duì)比。如圖4所示。

圖4 使用不同主題數(shù)下展現(xiàn)的評(píng)分效果

基于前文提到的科研學(xué)者與興趣標(biāo)簽向量空間相似度方法計(jì)算余弦相似度,排名前五的興趣標(biāo)簽保存為對(duì)應(yīng)的學(xué)者感興趣或主要研究的方向。從圖4可以看出,主題數(shù)為10時(shí),標(biāo)注效果較差,此時(shí)得到的標(biāo)注得分為0.088,但隨著主題數(shù)增加,通過(guò)試驗(yàn)分析可以明顯發(fā)現(xiàn)主題數(shù)參數(shù)為100的時(shí)候達(dá)到了區(qū)間內(nèi)的最大值0.197。當(dāng)主題數(shù)繼續(xù)增加時(shí)評(píng)分趨于穩(wěn)定,標(biāo)注得分為0.15 到0.2 之間。由此我們初步得出結(jié)論:主題數(shù)參數(shù)設(shè)置為100 的時(shí)候能夠更好有效得對(duì)主題進(jìn)行標(biāo)注。

⑵Doc2Vec

接下來(lái)使用基于Doc2Vec 方法的向量空間模型對(duì)興趣標(biāo)簽與科研學(xué)者進(jìn)行向量空間的表示,基于前文提到的科研學(xué)者與興趣標(biāo)簽向量空間相似度方法計(jì)算余弦相似度,得到了不同詞向量特征數(shù)下的興趣標(biāo)簽標(biāo)注效果,如圖5所示。

圖5 使用不同特征維度下展現(xiàn)的評(píng)分效果

從圖5 可以看出,詞向量特征維度數(shù)量從50 開(kāi)始增加時(shí),再?gòu)奶卣鲾?shù)為100 開(kāi)始以100 為步長(zhǎng)遞增的方式進(jìn)行實(shí)驗(yàn)的對(duì)比,當(dāng)維度增加到200維時(shí),興趣標(biāo)簽標(biāo)注得分為0.304,此時(shí)的標(biāo)注效果最好,當(dāng)維度從200 維繼續(xù)增加時(shí)效果逐漸下降。通過(guò)對(duì)比訓(xùn)練,可以得出當(dāng)詞向量維度為200 時(shí),取得的興趣標(biāo)簽標(biāo)注效果最好。

3.4 模型集成

為了得到精準(zhǔn)的興趣標(biāo)簽表示,本文也展開(kāi)了集成方法的試驗(yàn),加權(quán)投票法作為本次的集成策略。圖6展示了不同模型得到的效果評(píng)分。

圖6 不同模型在數(shù)據(jù)集的表現(xiàn)

從圖6可以看出,LDA、Doc2Vec、改進(jìn)的Doc2Vec模型和集成模型的評(píng)價(jià)分別為0.197,0.304,0.322,0.399。因?yàn)閷?shí)驗(yàn)數(shù)據(jù)的主題差異性比較弱,所以LDA興趣標(biāo)簽抽取模型較差效果,只有0.197。Doc2Vec 模型是基于句子維度的空間向量表達(dá),因不涉及主題的相關(guān)差異性,所以不受到獨(dú)立領(lǐng)域數(shù)據(jù)集的限制,更適合處理本文使用的數(shù)據(jù)集,達(dá)到了0.304 的評(píng)分。改進(jìn)的Doc2Vec模型在此基礎(chǔ)上利用BiLSTM 模型和Attention 機(jī)制,由前后向的LSTM 捕獲文本數(shù)據(jù)文本中的上下文信息,能夠很好的處理雙向數(shù)據(jù)的序列信息,Attention抓住文本數(shù)據(jù)集的重點(diǎn),因此雙向長(zhǎng)端記憶神經(jīng)網(wǎng)絡(luò)的優(yōu)化,而再采用了注意力機(jī)制加權(quán)文本中不同位置的信息,能更好地加強(qiáng)興趣標(biāo)簽表示效果,改進(jìn)后的模型提升了0.018 的評(píng)分。使用投票加權(quán)模型集成的方式有利于LDA 與改進(jìn)的Doc2Vec模型發(fā)揮各自的標(biāo)簽抽取能力,集成模型相較于基礎(chǔ)模型有了較大的改善,達(dá)到了0.399的評(píng)分。

4 結(jié)束語(yǔ)

本文通過(guò)多源的計(jì)算機(jī)科學(xué)學(xué)界的學(xué)術(shù)論文信息進(jìn)行學(xué)術(shù)興趣標(biāo)簽的抽取研究。我們采用幾種不同的文本表示方法,包括LDA、Doc2Vec 和改進(jìn)后Doc2Vec,對(duì)學(xué)者和興趣標(biāo)簽進(jìn)行表示,其中LDA 嘗試在多種不同的主題數(shù)進(jìn)行對(duì)比試驗(yàn),得出區(qū)間最優(yōu)的主題數(shù)參數(shù),Doc2Vec 也根據(jù)模型在不同維度間的抽取表現(xiàn)得到了區(qū)間最優(yōu)維度參數(shù),接著使用加權(quán)投票的策略進(jìn)行模型的集成得到更優(yōu)的集成模型,最后利用學(xué)者和興趣標(biāo)簽之間的相似性,即通過(guò)科研學(xué)者與興趣標(biāo)簽集合的余弦相似度計(jì)算法為每位學(xué)者抽取出其最匹配的興趣標(biāo)簽,通過(guò)對(duì)比不同建模方法和集成方法下的標(biāo)注效果,本文發(fā)現(xiàn)集成LDA 與改進(jìn)的Doc2Vec模型能獲得更好的興趣標(biāo)簽標(biāo)注效果。

猜你喜歡
余弦文檔學(xué)者
淺談Matlab與Word文檔的應(yīng)用接口
學(xué)者介紹
學(xué)者簡(jiǎn)介
學(xué)者介紹
有人一聲不吭向你扔了個(gè)文檔
兩個(gè)含余弦函數(shù)的三角母不等式及其推論
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
學(xué)者介紹
分?jǐn)?shù)階余弦變換的卷積定理
圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
张家界市| 镇雄县| 将乐县| 赤壁市| 依安县| 曲松县| 长春市| 拜城县| 永昌县| 扬州市| 江安县| 抚松县| 宿松县| 信丰县| 江北区| 紫云| 凉城县| 凌海市| 常熟市| 甘孜| 潮州市| 蓬莱市| 松溪县| 蒲城县| 溆浦县| 苍南县| 岑巩县| 清徐县| 仁化县| 横山县| 东城区| 方城县| 荆州市| 稻城县| 错那县| 霸州市| 涡阳县| 灌云县| 疏附县| 龙山县| 禹州市|