陳紅玉 胡文俊 路永和
關(guān)鍵詞: 文本語義; 開放同行評審; 自動評審分類; 深度學(xué)習(xí)
DOI:10.3969 /j.issn.1008-0821.2024.05.008
〔中圖分類號〕G254 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821 (2024) 05-0001-02
科技評價是科技活動的重要一部分, 擔(dān)任著科技研究“指揮棒” 的角色, 對于促進科研事業(yè)的蓬勃發(fā)展發(fā)揮著重要作用[1] ??萍颊撐淖鳛榭萍汲晒闹匾d體之一, 對于成果總結(jié)、學(xué)術(shù)交流、科研發(fā)展等有著不可忽視的作用。同行評議是目前國際上使用最廣泛的科技論文評審方法[2] , 被學(xué)界公認為是確保公正、合理、有效地評價科技論文的重要制度[3] 。相比于客觀性指標(biāo), 同行評議對科技論文的內(nèi)容質(zhì)量評價更為直接和全面。但同行評議的缺點也很明顯, 例如時間周期長、受干擾性強, 也容易受到專家偏好、社會關(guān)系、學(xué)科背景等因素的影響, 具有較強的主觀性。在開放同行評議背景下誕生的OpenReview 平臺將評審過程公開化, 允許評審人員和作者互動討論, 增加評審過程的可信度和透明度, 在促進開放、透明和共享的評審方面發(fā)揮了積極作用。開放同行評審的基本審稿流程如圖1所示。
盡管開放同行評審將評審過程公開透明化, 在一定程度上彌補了雙盲制同行評審的缺點, 但最終的決策意見仍需由編輯綜合評審意見和得分做出拒絕或接受的決策。然而, 隨著科技的發(fā)展, 自動評審分類技術(shù)的應(yīng)用可以為編輯減輕工作負擔(dān), 提供決策支持。自動評審分類可以對大量的論文進行初步篩選, 能夠快速對論文進行質(zhì)量和合適性的初步判斷, 幫助編輯將目光聚焦在最有潛力的論文上,節(jié)省時間和精力。同時, 自動評審分類還可以幫助消除人為的主觀因素, 可以根據(jù)自動評審分類結(jié)果和評審人員的意見進行比對和分析, 從而更好地進行決策, 確保公正評審。
本文基于開放同行評審中OpenReview 平臺的科技論文數(shù)據(jù)及對應(yīng)的評審得分, 構(gòu)建科技論文評審分類預(yù)測模型, 通過實驗方法探究自動評審分類方法的準確度和可用性, 以期為科技論文評審智能化發(fā)展提供幫助。本文的主要研究內(nèi)容為:
1) 運用人工智能技術(shù)模擬編輯對科技論文評審預(yù)分類, 探究科技論文智能評審發(fā)展路徑。
2) 構(gòu)建多種科技論文的文本表示及分類模型,對OpenReview 平臺的科技論文文本內(nèi)容代表的語義信息和評分信息進行特征融合, 探究自動評審分類方法的準確度和可用性。
1 相關(guān)研究
1.1 同行評議方法與開放評審
同行評議作為歷史最悠久的科技論文評價方法經(jīng)久不衰, 是期刊和會議遴選論文的主要方式[4] 。但其使用范圍一直受限, 其原因主要有以下幾點[5-7] : 首先, 新興技術(shù)發(fā)展和學(xué)科交叉融合催生了許多新的學(xué)科和研究方向, 不同學(xué)科之間因?qū)I(yè)領(lǐng)域差異不能進行同行評議, 甚至同一學(xué)科因細分領(lǐng)域和研究方向不同也難以實現(xiàn)精準同行評議; 然后, 評議專家絕大部分自己也是科研人員, 需要時時兼顧自身工作, 不適合用硬性規(guī)定要求評議專家們花費過多時間參與各類同行評議活動[8] 。最后,評議專家需要具備較高的個人素質(zhì)和學(xué)術(shù)水平, 既要在學(xué)界有代表性成果和突出貢獻, 又要處于一線科研工作當(dāng)中, 而這類專家的日程往往更加飽滿。因此, 完全依賴同行評議完成論文評審與評價, 從時間成本、技術(shù)成本和實施難度上都絕非易事, 經(jīng)常很難在指定時間內(nèi)完成任務(wù)[4,9] 。而在評價效果上, 同行評議難免受評價主體個人學(xué)術(shù)背景、研究視野、學(xué)術(shù)偏好和興趣甚至是人際關(guān)系、親緣派系等方面的影響[10] , 造成其評價結(jié)果有時難以實現(xiàn)真正的客觀性和公正性, 對于研究人員少、相對冷門的研究領(lǐng)域, 這種現(xiàn)象可能尤為明顯[11-12] 。
然而隨著當(dāng)前網(wǎng)絡(luò)技術(shù)快速發(fā)展, 開放存?。ǎ希穑澹?Access)、開放科學(xué)的概念為同行評議注入了新的活力, 彌補了傳統(tǒng)同行評議的諸多不足, 特別是在透明度、公平性和規(guī)范性等方面[13] , 開放同行評議(Open Peer Review, OPR)由此誕生并迅速發(fā)展。相關(guān)研究也初步發(fā)現(xiàn), 相較于同一專業(yè)背景、影響力相當(dāng)?shù)膫鹘y(tǒng)期刊, 開放同行評議的期刊論文在引文和社會關(guān)注度等方面具有較為顯著的優(yōu)勢[14-16] 。同時, 當(dāng)前開放同行評議的期刊或會議大多以線上網(wǎng)絡(luò)為基礎(chǔ), 學(xué)術(shù)成果可以在網(wǎng)絡(luò)開放獲取, 這樣一方面可以及時高效地實現(xiàn)科技論文的廣泛傳播與交流討論; 另一方面使評審主體趨于多元化, 在大多數(shù)開放同行評審的網(wǎng)絡(luò)平臺, 同領(lǐng)域?qū)<乙约八芯W(wǎng)站瀏覽者都有機會在平臺上點評論文, 甚至是直接和作者進行學(xué)術(shù)討論和交談[17] 。
OpenReview 是一個典型的開放同行評審平臺,致力于在同行評審過程中促進開放性。該平臺內(nèi)容涉及計算機、人工智能等多個領(lǐng)域, 包括ICLR、NIPS、ACL 等會議文章, 每篇文章的評論、評分、觀點探討和最終決策都在網(wǎng)站上向公眾公布。不擔(dān)任評論員的廣大專業(yè)讀者可以自己判斷論文的貢獻,也可以自己判斷論文評審的公平性。雖然評論者的個人信息可能不會對外公布, 但由于公眾監(jiān)督的壓力, 評論者會趨向于給出更客觀、公平的評論和得分[18] 。上傳到OpenReview 的論文通常由3 名左右同行專家獨立評估, 作者可以對專家的評論進行回應(yīng)。開放評審期限過后, 項目主席團會為每篇論文撰寫元評論, 并做出最終的評審決策, 即接受或拒絕。項目主席團不為投稿論文打分, 評議內(nèi)容由同行評論的評審分數(shù)(1~10 之間的整數(shù))、評審員信心水平(1 ~ 5 之間的整數(shù)) 和詳細評論意見組成,官方評論和元評論都對公眾開放。
1.2 評審分類預(yù)測模型
科技論文內(nèi)容是非結(jié)構(gòu)化的文本數(shù)據(jù), 因此對科技論文內(nèi)容本身, 尤其是包含緒論、模型和方法、實驗、結(jié)果等模塊的全文內(nèi)容進行計算和學(xué)習(xí)過于復(fù)雜, 且設(shè)備要求高、耗時長[19] 。因此, 合理利用科技論文相關(guān)信息, 構(gòu)建有效的科技論文文本表示模型對科技論文文本內(nèi)容的計算和學(xué)習(xí)大有裨益。
對于科技論文的文本表示方面主要有兩種構(gòu)建方式。一種是基于各種指標(biāo)體系, 將各指標(biāo)分值輸入模型, 得出論文不同維度的評分, 其中的指標(biāo)體系既可以基于現(xiàn)有研究, 也可以在前人的基礎(chǔ)上總結(jié)梳理。例如萬昊等[20] 構(gòu)建項目評價三層指標(biāo)體系, 將36 個三級指標(biāo)作為模型的輸入, 通過有監(jiān)督的機器學(xué)習(xí)來模擬評審專家組的決策打分值, 實現(xiàn)了較準確的預(yù)測。賀婉瑩[21] 構(gòu)建學(xué)術(shù)論文創(chuàng)新力評價指標(biāo)體系, 構(gòu)建并檢驗多種機器學(xué)習(xí)模型,得出各個特征指標(biāo)對創(chuàng)新力的作用效果, 并發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)模型優(yōu)于傳統(tǒng)機器學(xué)習(xí)模型, 獲得最佳實驗效果。
另一種運用機器學(xué)習(xí)技術(shù)對科技論文評價的方法是直接輸入論文的部分或全部內(nèi)容的文本表示,通過有監(jiān)督訓(xùn)練預(yù)測評分或相關(guān)評價。例如林原等[22] 將論文標(biāo)題、摘要、Twitter 評論文本和同行評議文本輸入機器學(xué)習(xí)模型, 把論文的評審得分的算術(shù)平均值當(dāng)作實際得分, 運用情感分析的方法獲取,根據(jù)評論文本的情感極性評價論文。通過實驗證明了該定性評價定量化模型的有效性。Lu Y 等[23] 利用層次注意力機制和Transformer 編碼模塊的組合以及開源知識圖譜, 提出了一種融合上下文、詞性、詞義等多角度信息的科技論文文本表示模型, 用于實現(xiàn)科技論文評審二分類(錄用、不錄用) 預(yù)測。實驗表明, 增加詞性信息和詞義信息能夠有效地提高分類的準確率, 作者、摘要信息對科技論文評審分類的貢獻較大。Leng Y 等[24] 運用注意力機制提出了一個結(jié)合語義、語法和創(chuàng)新特征等信息的模型以實現(xiàn)自動論文評審, 該模型在二分類甚至七分類上都取得了最優(yōu)效果并優(yōu)于傳統(tǒng)機器學(xué)習(xí)模型。
科技論文評審分類預(yù)測模型是利用人工智能技術(shù)搭建神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)模型, 提取科技論文中具有代表性語義特征的部分進行學(xué)習(xí)和計算, 從而判定科技論文是被接收或者拒絕、抑或是更為細分的評審分類[25] 。作為當(dāng)前科技論文評價研究中的熱點問題, 其具有客觀性強、效率高、融合語義計算等優(yōu)勢, 但目前成果有待豐富, 值得進一步探索。
2 科技論文評審分類模型設(shè)計
2.1 總體研究設(shè)計
科技論文一般由標(biāo)題、作者、摘要、關(guān)鍵詞、方法與實驗、結(jié)果與結(jié)論、參考文獻等部分組成,有著相對固定的文本結(jié)構(gòu)模塊。每個結(jié)構(gòu)模塊的命名可能存在細微差別, 組成每個結(jié)構(gòu)模塊的文本句子數(shù)量和長度都不一樣, 因此, 科技論文的文本屬于半結(jié)構(gòu)化數(shù)據(jù)。
對于科技論文標(biāo)題而言, 作者一般通過一句簡短語句, 對科技論文主題和創(chuàng)新點簡練與概括[26] ;對于科技論文摘要而言, 作者一般按照研究問題或背景、研究目的、研究方法、結(jié)果與結(jié)論的思路展開, 同時包含創(chuàng)新點和主要貢獻??梢钥闯觯?科技論文的標(biāo)題和摘要結(jié)構(gòu)模塊的文本內(nèi)容, 很大程度上精要概括了本篇科技論文的主題、大致內(nèi)容和主要特征[27-28] 。也有實驗表明, 科技論文的標(biāo)題和摘要部分的內(nèi)容能夠概括其主要信息, 可以使用標(biāo)題和摘要來表征全文的主題內(nèi)容甚至研究內(nèi)容[29-30] 。因此, 本文將科技論文的標(biāo)題、摘要內(nèi)容作為科技論文代表文本, 通過對“標(biāo)題+摘要”的聯(lián)合文本進行文本表示和文本分類, 得出科技論文的評審分類。
本文基于OpenReview 平臺中的科技論文數(shù)據(jù),通過將論文的標(biāo)題和摘要信息輸入到機器學(xué)習(xí)模型中, 設(shè)計了4 種機器學(xué)習(xí)模型構(gòu)成科技論文文本表示及評審分類模型, 探究不同模型獲取語義信息的能力和分類預(yù)測能力。通過將標(biāo)題和摘要組成的語義信息和評分信息進行融合, 分析加入評分信息的評審分類模型的提升效果, 總體研究設(shè)計如圖2 所示。
2.2 基于傳統(tǒng)機器學(xué)習(xí)的評審分類模型
對于文本分類任務(wù), 在傳統(tǒng)機器學(xué)習(xí)模型的構(gòu)建當(dāng)中, 文本表示和文本分類的處理往往是獨立的。本文選擇Word2vec 和Doc2vec 分別進行科技論文的文本表示, 選擇SVM 作為主要分類器, 探究傳統(tǒng)機器學(xué)習(xí)模型的評審分類效果。
使用Word2vec[31-32] 進行文本表示有兩種方法:一種方法是直接調(diào)用Google 預(yù)訓(xùn)練好的模型, 通過加載Google 預(yù)訓(xùn)練好的模型, 可以針對輸入的每個單詞生成一個300 維的稠密詞向量。另一種方法是通過自己建立的語料庫訓(xùn)練模型, 該方法可以自定義生成詞向量的維度, 對于不常見詞匯、生僻詞匯也可以通過訓(xùn)練生成詞向量, 或者通過劃定低頻詞閾值的方式直接過濾掉這些不常見詞匯。Doc2vec 是Word2vec 的拓展, 是將句子、段落、文檔等文本轉(zhuǎn)化為向量的模型[33] 。它與Word2vec類似, 區(qū)別在于除了單個詞語向量, Doc2vec 引入了段落向量。Word2vec 和Doc2vec 在實際應(yīng)用當(dāng)中也存在一些較為明顯的不足, 它們僅在文本表示層發(fā)揮作用, 與文本分類等下游任務(wù)相互獨立, 因此所得到的文本表示向量是不包含具體任務(wù)的背景信息。
支持向量機(Support Vector Machine, SVM)[34]是一種有監(jiān)督學(xué)習(xí)的分類器, 被廣泛運用于文本分類、人像識別等領(lǐng)域。SVM 本質(zhì)上可以看作是一種二類分類模型, 通過構(gòu)建多個決策邊界才能實現(xiàn)多分類。SVM 的核心思想就是, 在特征空間中找到一個超平面使得分布在特征空間中的兩類樣本數(shù)據(jù)的間隔最大。
SVM 是傳統(tǒng)機器學(xué)習(xí)中效果最好、應(yīng)用最廣泛的模型之一, 它的泛化能力較為突出, 過擬合的風(fēng)險低, 對于未知數(shù)據(jù)常常能表現(xiàn)較好的預(yù)測效果,同時計算復(fù)雜度低, 原理和結(jié)果的可解釋性都相對較強。因此, 本文選擇SVM 作為傳統(tǒng)機器學(xué)習(xí)模型的代表構(gòu)建評審分類模型。圖3 和圖4 分別是Word2vec 和Doc2vec 模型與SVM 構(gòu)成的評審分類模型。
基于Doc2vec 和SVM 的科技論文評審分類模型和圖3 類似, 不同之處在于Doc2vec 可以直接得出文本向量, 無需進行詞向量求平均。在獲得文本向量后進行特征融合, 將科技論文的評分信息(評分、均值或標(biāo)準差)與文本向量進行前后拼接, 得到的融合向量作為SVM 的整體輸入, 最終得到評審分類結(jié)果。
2.3 基于深度學(xué)習(xí)的文本分類模型
在深度學(xué)習(xí)模型中, 文本表示和文本分類由于模型特性一般不明確區(qū)分, 二者往往作為一個整體相互更新和促進。在自然語言處理領(lǐng)域, 以CNN類和BERT 類模型為代表。
TextCNN 是CNN 類模型中處理文本數(shù)據(jù)的首選模型, 它的優(yōu)點是能夠清晰地獲取到文本中全局結(jié)構(gòu)信息, 可以提取句子中不同視野范圍的特征, 且結(jié)構(gòu)相對簡單, 計算量較少。但缺點也較為明顯——僅僅獲取了整體特征信息卻沒有包含句子中的詞序信息。因此, 不能完全獲取文本全部語義信息, 甚至可能因詞序問題導(dǎo)致理解錯誤, 由此也導(dǎo)致往往對于長文本的處理效果一般。
BERT 是基于Attention 機制的大規(guī)模語料預(yù)訓(xùn)練模型[35] 。在自然語言處理領(lǐng)域的詞嵌入技術(shù)中,BERT 模型已經(jīng)成為了Word2vec 的替代。BERT 模型主要有3 種功能: 預(yù)訓(xùn)練、微調(diào)和特征抽取。預(yù)訓(xùn)練是指在計算性能滿足的情況下用一個較大的數(shù)據(jù)集訓(xùn)練出一個較好的模型, 在有效降低運行成本的同時以一個更好的初始狀態(tài)進行學(xué)習(xí)并提高收斂速度。微調(diào)方法是通過網(wǎng)絡(luò)下載預(yù)訓(xùn)練好的BERT模型到本地, 根據(jù)輸入的數(shù)據(jù)集不斷調(diào)整優(yōu)化原有模型的權(quán)重值, 最后獲得一個適用于新的特定任務(wù)的模型。特征抽取方法是調(diào)用預(yù)訓(xùn)練好的BERT 模型, 對新任務(wù)的單詞或者句子做編碼, 作為下游任務(wù)的輸入, 這種方法和傳統(tǒng)的Word2vec 和Doc2vec的應(yīng)用非常相似, 沒有反向傳播過程發(fā)生, 本質(zhì)上只運用了BERT 的文本表示部分。
2.3.1 基于TextCNN 的評審分類模型
在TextCNN 中, 一個完整的句子中的每個詞語首先都被表示為固定維度的向量, 句子中所有的詞向量構(gòu)成了一個大小為n?k 的詞向量矩陣。其中, n 代表句子詞語的個數(shù), 也就是句子的長度,k 則代表詞向量的維度。圖5 為融合語義信息和評分信息的TextCNN 評審分類模型。
該模型在數(shù)據(jù)預(yù)處理階段中, 以列表形式存儲數(shù)據(jù), 第一列為“標(biāo)題+摘要” 直接拼接的聯(lián)合文本; 第二列為對應(yīng)投稿論文的評分, 每篇論文有3個評分; 第三列為對應(yīng)標(biāo)簽, “0” 代表接收, “1”代表拒絕。
在嵌入層中的輸入分為兩種方式, 一種是基于語義信息的詞向量矩陣, 一種是基于論文評分的評分矩陣。
對于詞向量矩陣, 由于所有“標(biāo)題+摘要” 聯(lián)合文本只有一個長度超過500, 該數(shù)據(jù)為一篇被拒絕的投稿論文, 其余文本長度均不超過500, 因此將文本的長度固定值設(shè)為500。每個單詞是由300維詞向量組成的, 即單個文本的輸入矩陣大小為500?300。
對于評分矩陣, 每篇投稿論文有3 個評分, 3個評分可以計算得出評分均值和標(biāo)準差。因此, 評分矩陣的寬度為1, 根據(jù)輸入要求長度最短為1、最長為5。評分矩陣不參與卷積層和池化層的訓(xùn)練, 只在全連接層之前和基于語義信息的最終特征向量進行拼接, 得到同時包含語義信息和評分信息的特征向量, 用以輸入全連接層進行分類判斷。
2.3.2 基于SCIBERT 的評審分類模型SCIBERT[36] 是基于BERT 架構(gòu)利用科學(xué)語料庫訓(xùn)練的模型, 它使用生物醫(yī)學(xué)(82%)以及計算機科學(xué)(12%)方向總共114 萬篇科技論文全文數(shù)據(jù)預(yù)訓(xùn)練出來, 有自己特有的詞匯表, 更加適用于科技論文方向的自然語言處理任務(wù), 因此, 本文基于SCIBERT 進行微調(diào), 建立科技論文的質(zhì)量評審分類模型。圖6 為融合語義信息和評分信息的SCIB?ERT 評審分類模型。
根據(jù)圖6 所示, 該模型的具體步驟如下:
1) 數(shù)據(jù)預(yù)處理。首先, 在輸入層做特征融合,將每個科技論文的評分信息直接拼接在“標(biāo)題+摘要” 的聯(lián)合文本之后。其次, 劃分訓(xùn)練集、驗證集、測試集比例為8 ∶1 ∶1, 并分別存儲。然后, 將數(shù)據(jù)轉(zhuǎn)為方便模型讀取的Json 格式, 同時將聯(lián)合文本的所有字母轉(zhuǎn)化為小寫形式, 不區(qū)分大小寫,刪除“ \(反斜杠)”、英文雙引號等特殊符號。最后, 將標(biāo)簽類別“Accept” “Reject” 對應(yīng)標(biāo)簽編號為“0” “1”, 訓(xùn)練集和驗證集格式一致, 測試集數(shù)據(jù)不標(biāo)注標(biāo)簽信息。
2) 讀取數(shù)據(jù)。讀取訓(xùn)練集和驗證集數(shù)據(jù), 包括融合語義信息和評分信息的聯(lián)合文本和對應(yīng)標(biāo)簽編號, 根據(jù)SCIBERT 的特定詞匯表對聯(lián)合文本進行分詞。
3) 特征轉(zhuǎn)換。BERT 模型將文本信息轉(zhuǎn)化為3種類型的特征向量, 然后對3 種特征向量進行算術(shù)相加得到一個全新的特征向量, 這就完成了特征轉(zhuǎn)換。3 種類型的特征向量分別為:
Token 嵌入: 根據(jù)分詞后每一個詞語在詞匯表(Vocab)中的id 記錄文本中的單詞, [CLS]和[SEP]同樣有對應(yīng)id, 詞匯表識別到的各個單詞將轉(zhuǎn)換成768 維的向量。
分割嵌入: 基礎(chǔ)模型默認最多兩個句子——第一個句子對應(yīng)的全為0, 第二個句子對應(yīng)的全為1。本文通過修改源代碼中segment_type 的類別, 根據(jù)句子數(shù)量重新編號, 可以標(biāo)記多個句子。將得到的數(shù)值賦給Token 嵌入得到的向量, 即第一個句子的Token 嵌入各個向量與0 相加, 第二個句子的To?ken 嵌入各個向量與1 相加……, 以此類推。
位置嵌入: 根據(jù)公式和每個詞的順序編號計算。同樣將得到的數(shù)值賦給Token 嵌入得到的向量。
4) 序列編碼?;谧⒁饬C制訓(xùn)練詞向量,計算每個詞之間的相關(guān)性, 使得每個詞都獲得文本中其他詞的語義信息。然后取每個文本對應(yīng)的[CLS]向量作為文本特征向量, 代表整個聯(lián)合文本作為文本表示步驟的最終輸出, 以便輸入到后續(xù)模型進行訓(xùn)練和測試。
5) 分類訓(xùn)練。模型訓(xùn)練部分主要是加載預(yù)訓(xùn)練模型并進行微調(diào)。根據(jù)標(biāo)簽格式選擇對應(yīng)的損失函數(shù)和準確率計算方式, 調(diào)用Adam 算法并設(shè)置初始學(xué)習(xí)率, 同時給模型添加對抗訓(xùn)練, 增加擾動因子, 每個Epoch 后會在驗證集上進行驗證, 并給出相應(yīng)的準確率, 若是準確率的值大于此前最高值,則保存模型參數(shù), 否則不更新模型參數(shù), 直至達到設(shè)定的Epoch 數(shù)。
6) 模型測試。模型訓(xùn)練結(jié)束后得到訓(xùn)練好的模型權(quán)重, 將該權(quán)重信息加載到測試集上進行評審分類預(yù)測, 并計算測試集的準確率等指標(biāo)。
2.4 評估指標(biāo)
本文使用準確率(Accuracy)作為模型效果的評估指標(biāo), 即預(yù)測正確的結(jié)果占所有參與預(yù)測樣本的百分比。模型對不同類別數(shù)據(jù)的特征提取能力和預(yù)測能力, 則用精確率、召回率和F1 值進行評估。
3實證研究
3.1 數(shù)據(jù)收集
本文所用的數(shù)據(jù)集全部來自OpenReview 網(wǎng)站中的ICLR 會議投稿論文, ICLR 是深度學(xué)習(xí)領(lǐng)域的頂級會議, 采用了雙盲審查、反駁和最終決策的審查流程。本文通過Python 爬蟲抓取了該網(wǎng)站中ICLR2019-2022 年共10 190篇會議投稿科技論文,每篇論文包括標(biāo)題、摘要、關(guān)鍵詞、網(wǎng)站鏈接、評審得分、得分標(biāo)準差和均值等。其中, 被接收的論文3 144篇, 被拒絕的論文7 046篇。被接收的論文會被評為Oral、Spotlight、Poster 3 個等級。被評為Oral 等級的論文可以參與會議詳細報告, 介紹論文的研究內(nèi)容; 被評為Spotlight 等級的論文可以進行簡短口頭報告, 以突出他們論文的主要貢獻、新穎性和主要成果。其余被接受的論文評為Poster, 主要以海報形式展示。
ICLR 近4 年投稿論文的關(guān)鍵詞主要集中于深度學(xué)習(xí)、自然語言處理、歸一化、強化學(xué)習(xí)等主題。關(guān)鍵詞云如圖7 所示。
由于2019 年ICLR 并未設(shè)置Spotlight 類, 且每年投稿論文量非常大, 被拒絕的科技論文占比約70%, 因此, 圖8 顯示不同評審細分類的科技論文數(shù)量差距較大。從時間維度上看, ICLR 每年接收的科技論文數(shù)量也呈逐年上升趨勢, 被評為Oral、Spotlight 和Poster 的論文數(shù)量均呈現(xiàn)這種趨勢。
一般ICLR 的評審專家習(xí)慣將1~10 的評分區(qū)間按照強拒絕、弱拒絕、弱接收、強接收4 個評審分類, 1 代表強拒絕、3 代表弱拒絕、6 代表弱接收、8 代表強接收。通過統(tǒng)計所有評審專家的評分數(shù)據(jù), 發(fā)現(xiàn)絕大多數(shù)評分落在3~6 的區(qū)間, 其中6分最多, 如圖9 所示。對每篇論文計算平均分, 分布如圖10 所示。統(tǒng)計所有投稿論文的評審平均分(保留1 位小數(shù)), 計算得出ICLR 4 年所有投稿論文的平均分為5 069, 中位數(shù)為5 25。平均分位4、5、6 分的科技論文占多數(shù), 基本符合正態(tài)分布。
3.2 樣本均衡
在實際的科技論文評審過程中, 評審專家往往不是出于概率給出評審分類, 而是基于內(nèi)容本身,因此一篇科技論文是被接收和拒絕的概率應(yīng)該是均等的, 對于模型同樣如此。出于這樣的考慮, 將數(shù)據(jù)集的二分類進行大致均等的劃分。通過類別均衡采樣的方法, 排除部分樣本量較多的類別數(shù)據(jù)實現(xiàn)樣本均衡的效果。最終選取6 282條科技論文數(shù)據(jù),其中3 111篇被接收論文、3 171篇被拒絕論文。
將標(biāo)題作為文本的第一句話, 把標(biāo)題和摘要的文本內(nèi)容前后拼接, 形成6 282條聯(lián)合文本數(shù)據(jù)。聯(lián)合文本的長度分布如圖11 所示, 1 個單詞代表1個單位長度。由圖11 可知, 所有文本長度均小于500, 除了1 個文本以外所有文本長度均大于50。絕大多數(shù)“標(biāo)題+摘要” 的文本長度在120~220 的范圍之間。
3.3 實驗結(jié)果
3.3.1 基于“標(biāo)題+摘要” 語義信息的實驗結(jié)果分析
本文實驗一以文本語義信息作為模型的全部輸入, 用以比較和展示不同機器學(xué)習(xí)模型獲取語義信息能力和評審分類預(yù)測能力, 各個模型的準確率結(jié)果如表1 所示。
由表1 可知, 單純以“標(biāo)題+摘要” 的文本內(nèi)容作為評審分類的判斷依據(jù), 其效果并不顯著, 但是以BERT 為基準模型的SCIBERT 仍然展現(xiàn)了強大的語義獲取能力, 通過對標(biāo)題和摘要內(nèi)容的語義信息預(yù)測科技論文的評審分類, 準確率達到了64.52%, 不僅和傳統(tǒng)機器學(xué)習(xí)模型拉開差距, 還遠遠優(yōu)于同為深度學(xué)習(xí)模型的TextCNN。SCIBERT模型的具體每個評審分類的精確率、召回率、F1值如表2 所示, 在“接收” 分類中, SCIBERT 的精確率達到了71. 75%, 表現(xiàn)出對被接收的科技論文良好的特征獲取能力。
3.3.2 融合語義信息和評分信息的實驗結(jié)果分析
本文的實驗二以文本語義信息和評論得分信息作為模型輸入, 是本文提出的主要模型——融合語義信息和評分信息的科技論文質(zhì)量評審分類模型,驗證融合語義信息和評分信息能提升評審分類效果,其中評分信息的輸入包括: 評分; 評分+均值; 評分+均值+標(biāo)準差。
以“標(biāo)題+摘要” 的文本語義信息與評分信息的特征融合作為模型的全部輸入, 各個模型的準確率結(jié)果如表3 所示。
其中序號13 是對照組, 是指直接以科技論文的所有評論得分的算術(shù)平均值作為評審分類的判斷依據(jù), 其中0 ~ 6 分(不包含6.0) 預(yù)測為“被拒絕”, 超過6 分預(yù)測為“被接收”。該實驗的統(tǒng)計數(shù)據(jù)為選取的全部數(shù)據(jù), 即6 282條科技論文數(shù)據(jù),其中3 111篇被接收論文、3 171篇被拒絕論文。
整體來看, 融合語義信息和評分信息的評審分類模型比單純依靠評分的均值進行評審判斷更為有效, 各個模型的準確率均有大幅的提升, 所有子實驗的準確率均超過87%, 都優(yōu)于評分均值直接判斷。從運用的模型來看, 深度學(xué)習(xí)模型較優(yōu)于傳統(tǒng)機器學(xué)習(xí)模型, 但差距并不如單純基于語義信息的實驗明顯; 從評分輸入來看, 評分和均值作為科技論文的評分信息能展現(xiàn)更強的評審分類預(yù)測能力,標(biāo)準差的數(shù)值對評審分類的預(yù)測無明顯影響。
所有實驗中, 序號11——以評分+均值為評分信息輸入、基于SCIBERT 的質(zhì)量評審分類模型準確率最高, 達到90.17%。該模型的具體每個評審分類的精確率、召回率、F1 值如表4 所示。
4 結(jié)論與展望
盡管在使用“標(biāo)題+摘要” 的語義信息作為評審分類模型的輸入數(shù)據(jù)時, 模型的準確度并不高,但是當(dāng)加入評分信息后, 模型的準確度顯著上升。這表明評分信息對于評審分類的準確性具有積極地影響, 評分信息是評審人員對論文質(zhì)量的綜合評估,可以反映其對論文質(zhì)量的整體感知。因此, 將評分信息納入評審分類模型會增加模型對論文接受或拒絕的預(yù)測能力。
但是標(biāo)題和摘要作為論文的概述, 提供了論文的主題、研究目的、方法和結(jié)果的簡要描述。這些信息對于編輯和評審人員來說仍然具有重要的參考價值, 完全依賴于評分信息來預(yù)測評審結(jié)果可能會忽略標(biāo)題和摘要中質(zhì)量相關(guān)的細節(jié), 綜合考慮標(biāo)題、摘要和評分信息可以為評審分類提供更全面和準確的預(yù)測能力。
從實驗結(jié)果來看, 融合語義信息和評分信息的SCIBERT 模型的準確率達到90 17%, 這說明利用科技論文的標(biāo)題和摘要為內(nèi)容代表的語義信息, 以及評審專家的評分信息進行自動評審分類的方法具有可用性, 準確率較高, 可以輔助期刊編輯快速篩選有潛力的科技論文, 促進科技論文智能評審的發(fā)展, 加速有價值的知識傳播進程。
未來的研究將會考慮用同行評審專家的評論文本作為科技論文評審分類模型的輸入。評論文本含有對科技論文內(nèi)容質(zhì)量的多維度評價, 包括論文的創(chuàng)新點、領(lǐng)域貢獻以及不足之處, 同時評論內(nèi)容具有一定的結(jié)構(gòu)化特征和情感極向, 考慮融合評審意見信息的自動評審分類模型將會融合更多語義信息,提供更智能化的自動評審方法。
(責(zé)任編輯: 郭沫含)