路永和 劉佳鑫 袁美璐 鄭夢慧
摘?要:[目的/意義]提出HABCM模型,方便科研人員進(jìn)行論文構(gòu)思與寫作。[方法/過程]首先,基于段落層級結(jié)構(gòu),分別在詞級和句級使用雙向GRU對寫作需求和參考文獻(xiàn)進(jìn)行語義建模;其次,使用Attention對語義貢獻(xiàn)度大的詞向量和句向量加權(quán);最后,用先拼接后提取特征的方法計(jì)算文本對的相似度,并輸出引用關(guān)系類別。[結(jié)果/結(jié)論]該算法在ACL?ARC數(shù)據(jù)集上獲得了74.96%的F1值和78.38%的準(zhǔn)確率,高于4個對比實(shí)驗(yàn)中的模型;證明了“摘要和引言”結(jié)構(gòu)對參考文獻(xiàn)主題內(nèi)容最具代表性。
關(guān)鍵詞:深度學(xué)習(xí);科技論文;引用分類;語義匹配
DOI:10.3969/j.issn.1008-0821.2021.03.003
〔中圖分類號〕TP391;TP183?〔文獻(xiàn)標(biāo)識碼〕A?〔文章編號〕1008-0821(2021)03-0029-09
Citation?Relationship?Classification?Model?of
Scientific?Papers?Based?on?Deep?Learning
Lu?Yonghe?Liu?Jiaxin?Yuan?Meilu?Zheng?Menghui
(School?of?Information?Management,Sun?Yat-Sen?University,Guangzhou?510006,China)
Abstract:[Purpose/Significance]The?HABCM?model?was?proposed?to?facilitate?scientific?researchers?in?paper?conception?and?writing.[Method/Process]First,based?on?the?paragraph?hierarchy,bidirectional?GRU?was?used?at?the?word?level?and?sentence?level?respectively?to?model?the?semantics?of?writing?requirements?and?references.Secondly,the?paper?used?Attention?to?weight?the?word?vectors?and?sentence?vectors?that?contribute?a?lot?to?semantics.Finally,the?similarity?of?text?pairs?was?calculated?by?concatenating?firstly?and?then?extracting?features,and?reference?relationship?categories?were?output.[Result/Conclusion]The?algorithm?achieved?74.96%?F1-score?and?78.38%?accuracy?rate?on?ACL?ARC?data?set,higher?than?the?models?in?four?comparison?experiments.It?is?proved?that?the?structure?of“abstract?and?introduction”is?the?most?representative?for?the?subject?content?of?the?reference.
Key?words:deep?learning;scientific?papers;citation?classification;semantic?matching
引用擬寫論文主題相關(guān)的科研成果是科研工作者在學(xué)術(shù)寫作中的重要環(huán)節(jié)。學(xué)者進(jìn)行科技論文寫作時(shí),往往需要大量的參考文獻(xiàn)來闡述目前的研究背景、研究現(xiàn)狀,并佐證所研究問題的前瞻性和創(chuàng)新性。目前,學(xué)術(shù)文獻(xiàn)數(shù)量指數(shù)增長,每天都有數(shù)以萬計(jì)的學(xué)術(shù)成果被發(fā)表,如何迅速地在海量學(xué)術(shù)文獻(xiàn)中挖掘出合適的科研文獻(xiàn),從而進(jìn)行高質(zhì)量的文獻(xiàn)綜述和學(xué)術(shù)寫作是每一個科研人員面臨的問題。
Google使用Word2vec對谷歌新聞數(shù)據(jù)集(約1?000億個單詞)進(jìn)行了預(yù)訓(xùn)練,并發(fā)布了預(yù)訓(xùn)練結(jié)果集[18]。該預(yù)訓(xùn)練詞向量集合共含有300萬個單詞及短語,每個單詞或短語用300維的詞向量表示。本文將采用Google預(yù)訓(xùn)練的詞向量獲取寫作需求與參考文獻(xiàn)文本段中的詞向量。
2)使用雙向GRU獲得詞的上下文語義信息
GRU[11]是RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的一個變體,GRU模型在傳統(tǒng)RNN的細(xì)胞核中加入了門控結(jié)構(gòu)以跟蹤輸入序列的狀態(tài),其門控結(jié)構(gòu)單元如圖2所示:每一個門控結(jié)構(gòu)均包括重置門、更新門、候選隱藏狀態(tài)和隱藏狀態(tài)。相較于RNN、LSTM模型,其結(jié)構(gòu)特點(diǎn)及計(jì)算方式?jīng)Q定了它在進(jìn)行梯度下降優(yōu)化時(shí)能規(guī)避梯度爆炸和梯度消失問題,同時(shí)又能保證算法的運(yùn)行效率,故而更適用于科技論文文本這種較長文本的建模。
圖2?GRU的門控結(jié)構(gòu)單元
門控結(jié)構(gòu)單元在t時(shí)刻的輸入包括:第i個句子中t時(shí)刻對應(yīng)的詞在前一個時(shí)刻的隱藏狀態(tài)hi(t-1)和當(dāng)前時(shí)刻的輸入wit。更新門zit控制前一時(shí)刻有多少信息被寫入到當(dāng)前時(shí)刻輸出的隱藏狀態(tài)hit上,其值越小,前一時(shí)刻的信息被寫入越少,越能捕捉時(shí)間序列里短期的依賴關(guān)系。重置門rit用于控制當(dāng)前狀態(tài)遺忘前一時(shí)刻的狀態(tài)信息的程度,其值越大表示對前一刻的狀態(tài)信息遺忘越少,越能捕捉時(shí)間序列里長期的依賴關(guān)系。假設(shè)隱藏單元個數(shù)為h,重置門和更新門的計(jì)算如式(1)、(2)所示:
其中,wit為寫作需求中第i個句子中的t時(shí)刻對應(yīng)詞的詞向量,Wwz、Whz、Wwr、Whr為權(quán)重參數(shù),bz、br為偏差參數(shù),σ()為Sigmoid激活函數(shù)。
首先,將t時(shí)刻的重置門rit與t-1時(shí)刻的隱藏狀態(tài)hi(t-1)做元素乘,如果重置門中元素值接近0,即丟棄t-1時(shí)刻的隱藏狀態(tài);如果接近1,那么保留t-1時(shí)刻的隱藏狀態(tài)。然后,將元素乘結(jié)果與t時(shí)刻的輸入連接,再通過激活函數(shù)tanh的全連接層計(jì)算出候選隱藏狀態(tài)。所有元素值域?yàn)閇-1,1]。最后,由zt決定t時(shí)刻門控結(jié)構(gòu)的最終隱層輸出ht,如式(4)所示:
ht=(1-zt)⊙ht-1+zt⊙t,?t∈[1,m](4)
在上述循環(huán)神經(jīng)網(wǎng)絡(luò)中,狀態(tài)的傳輸是單向的,然而在句子的語義理解中,當(dāng)前單詞的語義不僅需要根據(jù)上文來判斷,也依賴下文的內(nèi)容,這時(shí)就需要雙向GRU來建模。如圖3所示,雙向GRU由兩個GRU上下疊加而成,在每一個時(shí)刻t,輸入會被同時(shí)提供給這兩個相反方向的GRU,而輸出則是由這兩個單向GRU共同決定。GRU中,每個隱層會輸出一個隱藏狀態(tài)向量,本文需要獲取的上下文信息是每個詞所在隱層的隱藏狀態(tài)向量,而不是GRU訓(xùn)練出的最后的向量。
在本文中,t時(shí)刻第wit個詞考慮了前wi(t-1)個詞從左向右的GRU隱層信息上文信息,以及第wit個詞從右向左的GRU隱層信息下文信息,如式(5)~(7)所示:
其中,it表示第一個句子的第t個單詞wit包含上文信息的隱藏狀態(tài)向量,it表示包含下文信息的隱藏狀態(tài)向量,hit為最終包含單詞上下文表示的隱藏狀態(tài)向量。
3)基于Attention機(jī)制構(gòu)建句向量
在句子中,每個單詞對句子語義表達(dá)的貢獻(xiàn)大小不同,因此需要通過Attention機(jī)制找出對句子語義貢獻(xiàn)較大的詞進(jìn)行加權(quán),從而獲得準(zhǔn)確的句向量表示。具體來說,首先,將單詞的隱藏狀態(tài)向量hit輸入到單層MLP中,提取出hit的某個特征,并用向量表示為uit。然后,將uit和模型生成的隨機(jī)句向量uw通過Softmax函數(shù)計(jì)算得到標(biāo)準(zhǔn)化的句子向量的貢獻(xiàn)權(quán)重ait[19]。最后,將ait與隱藏狀態(tài)向量hit相乘并累加,得到帶有權(quán)重的句向量si,如式(8)~(10)所示:
其中,隨機(jī)句向量uw隨機(jī)初始化并在訓(xùn)練過程中進(jìn)行學(xué)習(xí)。
4)使用雙向GRU獲得句子的上下句語義信息
與對詞向量的雙向GRU建模過程類似,對于句子集合中的第i個句子,分別從前往后、從后往前地使用GRU獲取其前后句所在隱層的隱藏狀態(tài)向量i和i,如式(11)和(12)所示。然后將兩個隱藏狀態(tài)向量串聯(lián)得到第i個句子含有上下文語義表示的隱藏狀態(tài)向量hi,如式(13)所示:
5)基于Attention機(jī)制構(gòu)建段向量
對段向量的建模與句向量建模階段加入的Attention機(jī)制類似。首先,將句的隱藏狀態(tài)向量hi輸入到單層MLP中,提取出hi的一個特征,并用向量表示為ui,如式(14)所示。然后,將ui和隨機(jī)段向量us通過Softmax函數(shù)計(jì)算得到標(biāo)準(zhǔn)化的段向量的貢獻(xiàn)權(quán)重ai,如式(15)所示。最后,將ai與隱藏狀態(tài)向量hi相乘并累加,得到帶有權(quán)重的段向量d,如式(16)所示:
2.2?文本對的匹配建模
經(jīng)過以上建模,引用關(guān)系的匹配問題被轉(zhuǎn)化為兩個語義向量的匹配問題,如圖4所示。具體來說,首先將寫作需求的引文上下文語義的段向量與參考文獻(xiàn)的結(jié)構(gòu)段的語義向量拼接,接著使用MLP全連接網(wǎng)絡(luò)獲得拼接向量的語義特征,最后通過使用Softmax分類函數(shù)輸出文本對具有引用關(guān)系的概率。
具體步驟如下:
1)拼接語義向量,構(gòu)建全連接層獲得拼接向量的語義特征
將m維的寫作需求向量dm與n維的參考文獻(xiàn)向量dn拼接,構(gòu)成維度為m+n的語義向量dm+n。為了逐步壓縮dm+n的特征信息,同時(shí)避免在相鄰層之間突然損失過多語義信息,需要使用MLP將dm+n輸入到包含若干隱藏層的人工神經(jīng)網(wǎng)絡(luò)進(jìn)行特征編碼。假如人工神經(jīng)網(wǎng)絡(luò)共有k個隱藏層,則第k層的輸出如式(17)所示:
其中,Ck為第k層的輸出向量;wk為第k個隱藏層的權(quán)重向量;bk為第k個隱藏層的偏置向量;激活函數(shù)為tanh()。
2)使用Softmax函數(shù)確定文本對的引用關(guān)系
得到第k層的輸出后,最后還需要再進(jìn)入一個Softmax分類層。由于本研究涉及的是二分類問題,因此Softmax層只有兩個神經(jīng)元,它的目標(biāo)是輸出寫作需求的引文上下文與參考文獻(xiàn)結(jié)構(gòu)文本對是否具有引用關(guān)系的概率值。如式(18)和(19)所示:
h=0或1:當(dāng)h=0時(shí),不存在引用關(guān)系;當(dāng)h=1時(shí),存在引用關(guān)系。
其中,zh是具有引用關(guān)系1和不具有引用關(guān)系0的兩個分類結(jié)果節(jié)點(diǎn)的輸出值;Ph則是根據(jù)結(jié)果節(jié)點(diǎn)的輸出計(jì)算出的文本對是否存在引用關(guān)系對應(yīng)的歸一化概率值;wh、bh分別為最后一層的權(quán)重向量與偏置向量;最后取最大的概率值對應(yīng)的標(biāo)簽作為分類結(jié)果。
3?實(shí)驗(yàn)和結(jié)論分析
3.1?數(shù)據(jù)集及數(shù)據(jù)預(yù)處理
本文采用ACL?ARC(Anthology?Reference?Corpus)[20-21]和AAN(ACL?Anthology?Network)[22]中的計(jì)算機(jī)語言學(xué)、自然語言處理領(lǐng)域的科技論文作為實(shí)驗(yàn)數(shù)據(jù)集,對于該數(shù)據(jù)集中的每一篇科技論文都有其全文信息和參考文獻(xiàn)的引用信息。
從實(shí)驗(yàn)數(shù)據(jù)集抽取引文關(guān)系并刪除不存在引用關(guān)系的科技論文后,提取科技論文的結(jié)構(gòu)信息:包括寫作需求的引文上下文和參考文獻(xiàn)的摘要、引言和全文。在此基礎(chǔ)上,構(gòu)建具有引文關(guān)系的文本對集合和不具有引文關(guān)系的文本對集合。后者的構(gòu)建邏輯是:若一篇文章有多段引文上下文,則無引用關(guān)系的文本對集合由每一段引文上下文和與其無引用關(guān)系的科技論文構(gòu)成。接著對原始語料內(nèi)容進(jìn)行清洗,去掉各種與分析內(nèi)容無關(guān)的信息,如亂碼、非字符數(shù)據(jù)、與引用關(guān)系無關(guān)的文本結(jié)構(gòu)等,并使用WordNet提取詞干信息。
由于文本對的引用關(guān)系標(biāo)簽分布極度不平衡,具有引用關(guān)系的文本對在所有文本對中為0.1%左右,因此需要平衡數(shù)據(jù)集。欠采樣的方法可以規(guī)避測試集的過擬合,使梯度下降,降低科技論文引用關(guān)系的損失[23]。并且在引用關(guān)系的研究中,找出存在引用關(guān)系的文檔特征比找出不存在引用關(guān)系的文檔特征更重要,所以本文使用隨機(jī)欠采樣的方法來平衡數(shù)據(jù)集。
經(jīng)過數(shù)據(jù)集預(yù)處理,寫作需求—參考文獻(xiàn)文本對數(shù)量統(tǒng)計(jì)信息如表1所示:
本文按照文本對的引用關(guān)系劃分了兩個數(shù)據(jù)集:分別為存在引用關(guān)系的數(shù)據(jù)集和使用隨機(jī)欠采樣方法抽取的相同數(shù)量的不存在引用關(guān)系的數(shù)據(jù)集。兩者隨機(jī)合并為1個集合,按照60%、20%、20%的文本對比例劃分為訓(xùn)練集、驗(yàn)證集和測試集進(jìn)行實(shí)驗(yàn)。
3.2?評價(jià)指標(biāo)
本文使用F1值來評估模型效果。根據(jù)現(xiàn)實(shí)應(yīng)用的需求,找到具有引用關(guān)系的文本對比找到?jīng)]有引用關(guān)系的文本對更重要,而F1值能同時(shí)兼顧準(zhǔn)確率和召回率,可以看作是兩者的一種調(diào)和平均,它的最大值是1,最小值是0。
在模型的訓(xùn)練上使用早停法,考慮神經(jīng)網(wǎng)絡(luò)的浮動性,當(dāng)驗(yàn)證集的F1值不再提高后再迭代訓(xùn)練3次,若依然無法提高,說明訓(xùn)練集已過擬合,恢復(fù)使驗(yàn)證集F1值最高的參數(shù)權(quán)重作為模型參數(shù)。
3.3?對比實(shí)驗(yàn)
選擇“寫作需求引文上下文—參考文獻(xiàn)摘要”的結(jié)構(gòu)對模型參數(shù)調(diào)優(yōu)。SVM使用五折交叉驗(yàn)證選擇參數(shù)。為防止模型過擬合深度學(xué)習(xí)模型CNN、RNN以及HABCM使用早停法,并使用交叉熵作為模型的損失函數(shù),調(diào)優(yōu)后的神經(jīng)網(wǎng)絡(luò)模型參數(shù)及其對應(yīng)的F1值和準(zhǔn)確率如表3所示:
其中,CNN參數(shù)指卷積核大小,RNN和HABCM參數(shù)指神經(jīng)元個數(shù)。
3.4?參考文獻(xiàn)結(jié)構(gòu)選擇
為探究科技論文的不同結(jié)構(gòu)對科技論文主題內(nèi)容的代表程度及對引文推薦的影響,本研究選擇“摘要”“摘要和引言”“科技論文的全文”3種結(jié)構(gòu)代表參考文獻(xiàn)。各模型參數(shù)均為經(jīng)過上節(jié)實(shí)驗(yàn)調(diào)整得出的最優(yōu)參數(shù),通過不同的對比實(shí)驗(yàn)驗(yàn)證參考文獻(xiàn)結(jié)構(gòu)對匹配結(jié)果的影響,其F1值和準(zhǔn)確率如表4所示。
構(gòu)更好,“Word2vec+RNN”中“摘要”準(zhǔn)確率略高于“摘要和引言”,屬于可忽略的差異。在HABCM模型中,由于加入了層次Attention的雙向GRU模型在較長文本上的表示效果較好,所以全文的準(zhǔn)確率要高于摘要,但從F1值的表現(xiàn)上來看,“摘要和引言”結(jié)構(gòu)更高,所以也從側(cè)面反映了在考慮正向文本召回的情況下,還是“摘要和引言”結(jié)構(gòu)使模型的分類表現(xiàn)性能更加均衡。故而本文選擇“摘要和引言”的結(jié)構(gòu)來表示參考文獻(xiàn)。
3.5?實(shí)驗(yàn)結(jié)果
綜上,選擇所有模型最優(yōu)參數(shù)以及“摘要和引言”的參考文獻(xiàn)結(jié)構(gòu)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)參數(shù)及結(jié)果如表5所示:
首先,本文提出的模型較4種對比實(shí)驗(yàn)取得了最高的F1值,說明在同時(shí)考慮準(zhǔn)確率和召回率的情況下,本模型優(yōu)于對比實(shí)驗(yàn)?zāi)P汀F浯危跍?zhǔn)確率方面,HABCM模型明顯高于“TF-IDF+SVM”“Word2vec+SVM”和“Word2vec+CNN”模型,僅低于“Word2vec+RNN”模型0.93%,究其原因可能在于科技文獻(xiàn)在引用參考文獻(xiàn)時(shí)具有較為復(fù)雜的引用動機(jī):從情感分類上說,引用文獻(xiàn)不僅是表達(dá)對引文內(nèi)容的認(rèn)可,也包括對引文的批判;從引文原因上說,引用文獻(xiàn)包括介紹方法、理論等與參考文獻(xiàn)主題是語義相關(guān)性較強(qiáng)的原因,也包括基于致敬同行、追溯術(shù)語概念來源等較為片面、與參考文獻(xiàn)主題語義相關(guān)性較弱的原因。由于存在主題關(guān)聯(lián)度不強(qiáng)的引用動機(jī),導(dǎo)致給模型訓(xùn)練帶來噪聲[24]。最后,從應(yīng)用角度來看,該模型在準(zhǔn)確率上的微小誤差并不影響應(yīng)用效果。
4?結(jié)?論
本文針對目前科技論文數(shù)量指數(shù)增加、獲取與科研主題相關(guān)文獻(xiàn)越發(fā)困難的情況,提出了HABCM模型。該模型能根據(jù)科研人員的寫作需求推薦與其研究主題相關(guān)的參考文獻(xiàn),輔助科研人員進(jìn)行學(xué)術(shù)寫作。
本文的主要結(jié)論包括:其一,提出了HABCM模型,該模型使用“層次Attention+雙向GRU”來表示文本對,通過先拼接后提取特征的方式來匹配文本對,在ACL?ARC數(shù)據(jù)集上獲得了74.96%的F1值和78.38%的準(zhǔn)確率,取得了預(yù)期效果。其二,本文考慮了參考文獻(xiàn)的“摘要”“摘要和引言”“全文”結(jié)構(gòu)對引文推薦效果的影響,并通過實(shí)驗(yàn)證明使用“摘要和引言”的結(jié)構(gòu)來代表參考文獻(xiàn)比僅使用“摘要”或“科技論文全文”的效果更優(yōu)。
與此同時(shí),本文也存在一定的局限:其一,實(shí)驗(yàn)數(shù)據(jù)集的領(lǐng)域較為單一。本文使用的數(shù)據(jù)集僅來自計(jì)算機(jī)語言學(xué)、自然語言處理領(lǐng)域,所以無法評估模型在科技論文其他主題領(lǐng)域的效果。其二,僅考慮使用引文關(guān)系進(jìn)行推薦,未考慮其他因素,如科研人員興趣、作者權(quán)威性、引文功能等因素。其三,未剔除與寫作需求引文上下文主題相關(guān)性較弱的參考文獻(xiàn)。在數(shù)據(jù)集處理階段,未根據(jù)作者的引用動機(jī)剔除非主題相關(guān)的參考文獻(xiàn):如致敬同行、追溯術(shù)語概念來源等間接引用,導(dǎo)致訓(xùn)練數(shù)據(jù)集中存在大量弱主題相關(guān)的文本對,影響模型效果。
未來的研究可以考慮以下兩個方向:第一,構(gòu)建基于科技論文作者的合著信息、曾發(fā)表論文等信息的模型,實(shí)現(xiàn)引文推薦的個性化。第二,構(gòu)建更細(xì)粒度的引用關(guān)系分類方法:如強(qiáng)引用、中引用、弱引用,從而獲得文本對之間更精確的引用關(guān)系,以輔助科研人員進(jìn)行更精準(zhǔn)的參考文獻(xiàn)選擇。
參考文獻(xiàn)
[1]Strohman?T,Croft?W?B,Jensen?D,et?al.Recommending?Citations?for?Academic?Papers[C]//International?Acm?Sigir?Conference?on?Research?and?Development?in?Information?Retrieval,2007:705-706.
[2]He?Q,Pei?J,Kifer?D,et?al.Context-aware?Citation?Recommendation[C]//The?Web?Conference,2010:421-430.
[3]Tang?J,Zhang?J.A?Discriminative?Approach?to?Topic-Based?Citation?Recommendation[C]//Knowledge?Discovery?and?Data?Mining,2009:572-579.
[4]Yang?L,Zheng?Y,Cai?X,et?al.A?LSTM?Based?Model?for?Personalized?Context-Aware?Citation?Recommendation[J].IEEE?Access,2018,(6):59618-59627.
[5]Ebesu?T,F(xiàn)ang?Y.Neural?Citation?Network?for?Context-Aware?Citation?Recommendation[C]//International?Acm?Sigir?Conference?on?Research?and?Development?in?Information?Retrieval,2017:1093-1096.
[6]Mikolov?T,Le?Q?V,Sutskever?I.Exploiting?Similarities?Among?Languages?for?Machine?Translation[J].arXiv:Computation?and?Language,2013.
[7]Mikolov?T,Chen?K,Corrado?G?S,et?al.Efficient?Estimation?of?Word?Representations?in?Vector?Space[C]//2013.
[8]Peghoty.Word2vec中的數(shù)學(xué)原理詳解[EB/OL].http://www.cnblogs.com/peghoty/p/3857839.html,2018-02-18.
[9]Lai?S,Xu?L,Liu?K,et?al.Recurrent?Convolutional?Neural?Networks?for?Text?Classification[C]//National?Conference?on?Artificial?Intelligence,2015:2267-2273.
[10]Bahdanau?D,Cho?K,Bengio?Y.Neural?Machine?Translation?By?Jointly?Learning?to?Align?and?Translate[J].arXiv?preprint?arXiv:1409.0473,2014.
[11]Yang?Z,Yang?D,Dyer?C,et?al.Hierarchical?Attention?Networks?for?Document?Classification[C]//Conference?of?the?North?American?Chapter?of?the?Association?for?Computational?Linguistics:Human?Language?Technologies,2017:1481489.
[12]Cheng?J,Dong?L,Lapata?M.Long?Short-Term?Memory-Networks?for?Machine?Reading[J].arXiv?Preprint?arXiv:1601.06733,2016.
[13]Huang?P?S,He?X,Gao?J,et?al.Learning?Deep?Structured?Semantic?Models?for?Web?Search?Using?Clickthrough?Data[C]//Proceedings?of?the?22nd?ACM?International?Conference?on?Information?&?Knowledge?Management.ACM,2013:2333-2338.
[14]Shen?Y,He?X,Gao?J,et?al.Learning?Semantic?Representations?Using?Convolutional?Neural?Networks?for?Web?Search[C]//Proceedings?of?the?23rd?International?Conference?on?World?Wide?Web.ACM,2014:373-374..
[15]Yin?W,Schütze?H.Multigrancnn:An?Architecture?for?General?Matching?of?Text?Chunks?on?Multiple?Levels?of?Granularity[C]//Proceedings?of?the?53rd?Annual?Meeting?of?the?Association?for?Computational?Linguistics?and?the?7th?International?Joint?Conference?on?Natural?Language?Processing(Volume?1:Long?Papers),2015,(1):63-73.
[16]Tai?K?S,Socher?R,Manning?C?D.Improved?Semantic?Representations?From?Tree-Structured?Long?Short-Term?Memory?Networks[C]//Proceedings?of?the?53rd?Annual?Meeting?of?the?Association?for?Computational?Linguistics?and?the?7th?International?Joint?Conference?on?Natural?Language?Processing(Volume1:Long?Papers),2015,(1):1556-1566.
[17]Lu?Y,Xiong?X,Zhang?W,et?al.Research?on?Classification?and?Similarity?of?Patent?Citation?Based?on?Deep?Learning[J].Scientometrics,2020,123.
[18]Google.Word2vec[EB/OL].https://code.google.com/archive/p/Word2vec/,2018-12-15.
[19]Yang?Z,Yang?D,Dyer?C,et?al.Hierarchical?Attention?Networks?for?Document?Classification[C]//Conference?of?the?North?American?Chapter?of?the?Association?for?Computational?Linguistics:Human?Language?Technologies,2017:1481489.
[20]ACL?Anthology?Reference?Corpus[EB/OL].http://acl-arc.comp.nus.edu.sg,?2019-04-11.
[21]ACL?Anthology[EB/OL].https://aclanthology.info,?2019-04-11.
[22]ACL?Anthology?Network[EB/OL].http://tangra.cs.yale.edu/newaan/,?2019-04-11.
[23]Punlumjeak?W,Rugtanom?S,Jantarat?S,et?al.Improving?Classification?of?Imbalanced?Student?Dataset?Using?Ensemble?Method?of?Voting,Bagging,and?Adaboost?with?Under-sampling?Technique[M].IT?Convergence?and?Security?2017.Springer,Singapore,2018:27-34.
[24]Bornmann?L,Daniel?H?D.What?Do?Citation?Counts?Measure?A?Review?of?Studies?on?Citing?Behavior[J].Journal?of?Documentation,2008,64(1):45-80.
(責(zé)任編輯:郭沫含)