国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于預訓練語言模型特征擴展的科研論文推薦

2022-12-29 06:37章小衛(wèi)耿宜帥
關鍵詞:編碼輔助矩陣

章小衛(wèi), 耿宜帥, 李 斌

(揚州大學信息工程學院, 江蘇 揚州 225127)

在互聯(lián)網(wǎng)時代,信息數(shù)據(jù)呈指數(shù)型增長, 推薦系統(tǒng)可從海量數(shù)據(jù)中為用戶推薦可能感興趣的信息, 提高用戶獲取信息的效率,幫助用戶快速做出決策[1], 已廣泛應用于各種互聯(lián)網(wǎng)服務[2].近年來, 隨著大量科研成果的發(fā)表和知識體系的更新迭代, 科研論文的長尾效應愈加明顯,即少部分熱度較高的論文所受關注較多,而剩余的大量論文鮮為關注.此外,受自然語言表達復雜性的影響,研究者難以找到所需科研論文,給后續(xù)科研工作的開展帶來困難.因此,科研論文推薦系統(tǒng)成為了學術領域不可或缺的工具,通過計算和排序已發(fā)表論文記錄,緩解信息過載問題,為研究者推薦相關論文[3].

傳統(tǒng)的論文推薦方法主要為矩陣分解法, 通過將評分矩陣分解為基于用戶和項目的特定矩陣,以緩解數(shù)據(jù)稀疏和泛化能力差的問題,但由于隱私安全限制,難以獲取有關用戶屬性的附加信息.深度學習中的自編碼機具有收斂速度快,且無需標簽數(shù)據(jù)的特性,也受到廣泛關注[4],但訓練模型合并項目和邊信息時,要求輸入層和輸出層的維數(shù)相等,大大限制了網(wǎng)絡的可擴展性和靈活性[5].針對以上問題,本文擬提出一種基于預訓練語言模型特征擴展的科研論文推薦方法,僅利用論文的摘要信息輔助特征擴展,挖掘研究者興趣,準確推薦論文,以期提升科研工作效率,助推科研工作發(fā)展.

1 研究方法

本文提出的預訓練語言模型特征擴展方法具體結構如圖1所示.該方法主要包括兩部分: 一是輔助信息的特征表示學習, 利用預訓練語言模型學習論文摘要的特征向量表示, 通過自編碼機模型降維,提取高維特征表示; 二是將用戶-論文的標簽矩陣與輔助信息的擴展特征融合到半自編碼機中.

1.1 輔助信息的特征表示學習

預訓練語言模型(pre-training language models, PLMs)微調的方法已成功應用于各種數(shù)據(jù)挖掘和人工智能任務, 如文本分類[6]和詞匯簡化等.本文利用預訓練語言模型學習論文摘要的特征向量表示, 并通過自編碼機模型降維,提取高維特征表示.谷歌公司提出的基于轉換器的雙向編碼表征模型(bidirectional encoder representations from transformers, BERT)是應用最廣泛的預訓練語言模型之一, 能夠根據(jù)不同的上下文信息進行動態(tài)編碼[7].因此, 本文使用BERT模型對論文摘要進行編碼{w1,w2,…,wn}=B(w),{ay,1,ay,2,…,ay,n}=B(ay), 其中B(w)為摘要中每個單詞的向量表示,B(ay)為第y個摘要的向量表示.

圖1 預訓練語言模型特征擴展方法結構示意圖Fig.1 Structure diagram of feature expansion method for pre-training language model

1.2 半自編碼機的共嵌入

獲得論文摘要的特征表示后, 引入一個半自編碼機模型結構, 合并用戶-論文標簽矩陣和論文摘要輔助信息, 學習到更多的推薦特征.半自編碼機的輸入定義為論文的標簽矩陣T和論文摘要的特征表示矩陣A的拼接con(T,A), 其中con(T,A)∈Rn×(m+k),T∈Rn×m,A=B(ay)∈Rn×k,m,n分別為用戶數(shù)量和論文數(shù)量,k為論文摘要特征表示維度.壓縮重構后, 編碼層表示為ξ=f(con(T,Α)·W+b), 其中W,b分別為編碼層的權重矩陣和偏置向量,W∈R(m+k)×h,b∈Rh;h為隱層特征維度;f為sigmoid激活函數(shù).解碼層表示為T′=g(ξ·W′+b′), 其中W′,b′分別為解碼層的權重矩陣和偏置向量,W′∈Rh×m,b′∈Rm;g為identity激活函數(shù).此外, 使用隨機梯度下降(stochastic gradient descent, SGD)方法對半自編碼機進行模型優(yōu)化.

由于半自編碼機包含優(yōu)化特征表示的輔助信息, 因此在重構輸入時, 輸出僅重構輸入的一部分, 即輸出T′, 不是con(T,A), 而是T的重構.目標函數(shù)表示為J=min{‖(T′-T)‖2}, 通過計算得到的T′進行推薦預測.

2 實驗結果與分析

2.1 數(shù)據(jù)集

選取CiteULike網(wǎng)站中兩個真實的科學論文數(shù)據(jù)集CiteULike-a和CiteULike-t進行實驗, 采用精確度P、召回率R和F1分數(shù)F1三種評價指標測試本文所提方法的論文推薦效果[8], 計算公式分別為P=|AT∩AK|/|AT|,R=|AT∩AK|/K,F1=2PR/(P+R), 其中AT為測試集論文總數(shù),AK為前K篇推薦論文.三個指標的值越大, 說明論文推薦效果越好.實驗數(shù)據(jù)集包括標題、摘要、引文和標簽等用于訓練自動編碼器的輔助信息, 其中用戶設置的書簽為用戶-論文交互數(shù)據(jù), CiteULike-a和CiteULike-t數(shù)據(jù)集中書簽數(shù)量為1~5的論文比率如圖2所示.由圖2可知, CiteULike-a和CiteULike-t數(shù)據(jù)集中書簽數(shù)量不超過5的論文占比分別為15%和77%, 表明數(shù)據(jù)集CiteULike-t比CiteULike-a的用戶-論文交互數(shù)據(jù)更為稀疏.

圖2 數(shù)據(jù)集中書簽數(shù)量為1~5的論文比率Fig.2 Ratio of articles with 1~5 bookmarks in the dataset

對數(shù)據(jù)集中每篇論文的文本信息進行預處理, 刪除標記數(shù)量較少的論文[9], 處理后CiteULike-a和CiteULike-t數(shù)據(jù)集中交互數(shù)據(jù)的稀疏度分別為99.87%和99.93%, 具體數(shù)據(jù)統(tǒng)計結果如表1所示.每篇論文的標簽信息不同, 相應的標簽矩陣可表示所有項目的標簽信息,每個矩陣條目Tij為一個二進制值, 若Tij=1表示用戶i對論文j進行了標記, 否則Tij=0.

表1 CiteULike數(shù)據(jù)集處理后的數(shù)據(jù)統(tǒng)計

2.2 實驗結果

選取廣義矩陣分解[10](generalized matrix factorization, GMF)、協(xié)作深度學習[11](collaborative deep learning, CDL)、協(xié)作變分自編碼機[12](collaborative variational autoencoder, CVAE)三種方法與本文所提的預訓練語言模型特征擴展方法進行對比實驗, 設定K=5,10,20,50,100, 測試CiteULike-a和CiteULike-t科研論文數(shù)據(jù)集推薦列表前K篇論文top-K的推薦效果, 結果如圖3和圖4所示.由圖3~4可知, 本文方法對兩個數(shù)據(jù)集中的論文推薦效果均優(yōu)于其他方法. 此外, 由于本文方法引入輔助信息并整合上下文數(shù)據(jù), 故可緩解推薦系統(tǒng)數(shù)據(jù)稀疏問題.

圖3 CiteULike-a數(shù)據(jù)集top-K的推薦效果Fig.3 The top-K recommendation performance using CiteULike-a dataset

圖4 CiteULike-t數(shù)據(jù)集top-K的推薦效果Fig.4 The top-K recommendation performance using CiteULike-t dataset

設置訓練率為0.5,K=50, 將CiteULike-a數(shù)據(jù)集中摘要輔助信息進行BERT編碼, 通過自編碼機降至100維, 其他參數(shù)保持不變,選用F1分數(shù)作為性能評價指標,研究本文方法在不同半自編碼機隱藏層神經(jīng)元數(shù)量下的論文推薦效果. 當隱藏層神經(jīng)元數(shù)量為500,1 000,1 500,2 000,2 500時,F(xiàn)1分別為0.075 5,0.079 6,0.071 4,0.067 2,0.061 1. 由此可見: 當隱藏神經(jīng)元數(shù)量為1 000時, 模型的性能最佳; 隨著半自編碼機隱藏神經(jīng)元數(shù)量的增加,模型推薦效果下降,這可能是由于隱藏層維度增加,半自編碼機特征表示能力降低,導致無法較好地完成特征重構.

3 結論

本文提出了一種基于預訓練語言模型特征擴展的科研論文推薦方法, 利用BERT模型學習論文摘要的特征表示,將其作為輔助信息, 通過半自編碼機壓縮特征, 緩解論文推薦中數(shù)據(jù)稀疏的問題.通過對經(jīng)典科研論文數(shù)據(jù)集CiteULike的實驗分析, 驗證了本文所提方法的有效性.今后將擴展論文輔助信息, 進一步優(yōu)化神經(jīng)網(wǎng)絡結構, 以實現(xiàn)更精準的論文推薦效果.

猜你喜歡
編碼輔助矩陣
生活中的編碼
倒開水輔助裝置
《全元詩》未編碼疑難字考辨十五則
子帶編碼在圖像壓縮編碼中的應用
Genome and healthcare
多項式理論在矩陣求逆中的應用
例談何時構造輔助圓解題
提高車輛響應的轉向輔助控制系統(tǒng)
矩陣
矩陣
连州市| 巨鹿县| 桐庐县| 长寿区| 绍兴县| 阿克苏市| 三台县| 康保县| 鹤壁市| 马公市| 象山县| 嘉祥县| 海南省| 民乐县| 巴彦县| 靖江市| 南通市| 涡阳县| 安达市| 嘉定区| 武强县| 侯马市| 庆城县| 广元市| 象州县| 玉山县| 峡江县| 元朗区| 十堰市| 海伦市| 渝北区| 高清| 永城市| 泾川县| 晋中市| 岳西县| 西昌市| 陇川县| 天等县| 鹤壁市| 五寨县|