国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

學術(shù)論文審稿效用研究
——以國際會議ICLR同行評議為例

2022-04-11 04:53趙昕航孫曰君張春博高成鍇
中國科技期刊研究 2022年3期
關(guān)鍵詞:效用評議意見

■趙昕航 丁 堃 孫曰君 張春博 林 原 高成鍇

大連理工大學,遼寧省大連市甘井子區(qū)凌工路2號 116024

2020年初,教育部、科技部印發(fā)《關(guān)于規(guī)范高等學校SCI論文相關(guān)指標使用 樹立正確評價導(dǎo)向的若干意見》、科技部印發(fā)《關(guān)于破除科技評價中“唯論文”不良導(dǎo)向的若干措施(試行)》,學術(shù)評價問題再次成為領(lǐng)域的研究熱點。學者們在定量評價方法和定性評價方法中不斷盤桓,意圖發(fā)現(xiàn)最合適的評價方法。其中,同行評議是學術(shù)論文出版過程中很重要的科學防線。

盡管同行評議是目前無法替代的一種評價手段,但學術(shù)界對同行評議的批評從未停止[1],對同行評議本身的批評大多圍繞在同行評議的公平性、一致性以及有效性上[2]。在高水平期刊中,傳統(tǒng)同行評議專家承擔著守門人的責任,但是由于同行評議具有較強的主觀性,審稿意見并非總是正確的[3]。本文主要研究審稿意見的效用問題?!靶в谩币鉃樾Я妥饔?,在學術(shù)領(lǐng)域內(nèi)的應(yīng)用來源于葉繼元提出的“全評價”體系,他將原有評價中的定性與定量兩種維度重新分為形式、內(nèi)容和效用三大維度[4],為學術(shù)界提供了很好的思路,也給本研究一定的啟發(fā)。

隨著論文及相應(yīng)同行評議數(shù)量不斷增多,像以往一樣采用人工分析同行評議內(nèi)容,由此得到審稿結(jié)果的方式無疑大大增加了編委和編輯的工作量。在此情況下,開放科學運動以及計算機領(lǐng)域的發(fā)展使得人工智能輔助同行評議過程成為可能,其中OpenReview網(wǎng)站提供了大量計算機領(lǐng)域會議的同行評議信息。為了能夠更有效地探索審稿文本,本文選擇其中最權(quán)威的人工智能頂級會議——國際表征學習會議(International Conference on Learning Representations,ICLR)的審稿文本作為研究樣本,以盡可能避免由非高水平會議或期刊中存在的審稿專家非小同行、沒有時間或者消極懈怠等導(dǎo)致的部分審稿意見過于簡單、籠統(tǒng),缺乏建設(shè)性等問題[5]。本文所使用的ICLR同行評議文本數(shù)據(jù)常被用于計算機領(lǐng)域以及科技管理領(lǐng)域的分析中。計算機領(lǐng)域研究主要分為使用情感分析手段[6]或觀點挖掘手段[7]分析同行評議文本,科技管理領(lǐng)域中已有將同行評議文本應(yīng)用于論文質(zhì)量評價的研究[8]。在科技期刊界,目前人工智能輔助同行評議的應(yīng)用按照功能可分為投稿審查、審稿人推薦和學術(shù)影響力預(yù)測三類[9],但對輔助編委會和編輯評議的研究成果較少,而這又是很重要的研究話題。

基于此,本文將使用表示學習與深度學習方法,將審稿文本作為最主要的研究數(shù)據(jù),在文本中分析其所包含的審稿行為特征,確定審稿文本是否有助于審稿結(jié)果的制定,以此構(gòu)建審稿效用度智能識別模型。再通過所收集的審稿專家經(jīng)驗評估和審稿專家對自己本次審稿行為進行評估的信息進行輔助分析。智能分析方法的應(yīng)用不僅可以輔助期刊編委和編輯進行評議與決定,還可以對識別結(jié)果進行分析,以獲得更多有關(guān)同行評議的經(jīng)驗,在減少編委和編輯工作量的同時,對經(jīng)驗進行歸納總結(jié),以健全完善期刊界的同行評議機制。

本文首先定義審稿效用的概念,明確研究的對象與方法并進行實驗設(shè)計;其次,對審稿效用度智能識別模型識別出的結(jié)果結(jié)合審稿專家評估分數(shù)進行分析,并利用中式英語特征推斷中國審稿專家撰寫審稿文本的情況;然后,基于以上研究,提出幫助論文提高審稿效用的對策建議;最后對本文提出的研究方法進行總結(jié),并指出其在科技期刊界的應(yīng)用意義。

1 研究設(shè)計

1.1 審稿效用的定義

在正式給出“審稿效用”定義之前,首先要明確本研究分析的審稿意見文本為審稿專家的最終意見,這是因為論文的評審一般是作者、審稿專家和發(fā)文平臺(期刊或會議)反復(fù)交互的過程,但最終只能將審稿意見及其審稿結(jié)果呈現(xiàn)出來,而之前的交互過程及其信息很難獲得。本研究的數(shù)據(jù)來源于ICLR,ICLR在收到投稿后,會將符合規(guī)范的論文分配給2~5個審稿專家,每個審稿專家會提出初步意見。該意見在后續(xù)討論期間可能根據(jù)論文的變動以及其他審稿專家的意見而修改,最終由會議委員會根據(jù)審稿專家最終意見綜合做出論文錄用與否的決定(1)對于期刊而言,會議委員會或領(lǐng)域主席的決定相當于期刊編委會或主編的決定。。鑒于評審過程交互信息的難以獲得性和最終評審意見(包括評審專家和會議委員會的評審意見及結(jié)果)的可獲得性,將后者作為本研究的對象文本。

在本研究中,將審稿效用定義為評審專家最終審稿文本對論文最終錄用結(jié)果的作用,而這種效用可以用“審稿效用度”來度量。具體來說,本研究選用會議委員會最終的決定來探索構(gòu)建審稿效用度智能識別方法的模型,由于僅考慮識別最終的審稿文本在決定審稿結(jié)果的階段是否具有審稿效用,因而在本研究中將審稿效用簡化抽象為審稿專家的決定與論文錄用結(jié)果一致性的二值問題。首先將審稿專家評分1(Reject)和3(Weak Reject)定義為0(拒絕),6(Weak Accept)和8(Accept)定義為1(接受)。而會議委員會決定錄用論文,論文最終被錄用的狀態(tài)為1;論文被拒收,則狀態(tài)為0。如果審稿專家對于論文的最終評審意見(錄用/拒收)與最終論文發(fā)表結(jié)果一致,則認為審稿專家最終意見有作用,審稿效用度為1;如果不一致,則認為審稿專家最終意見不影響最終錄用結(jié)果,因此審稿效用度為0。審稿效用度的計算公式為

E=1-|A-B|

(1)

式中:E為審稿效用度;A為會議委員會最終決定的論文錄用結(jié)果;B為審稿專家最終推薦分數(shù)。

1.2 研究對象與方法

1.2.1 研究對象

本研究的實證依托于公開評審的ICLR,ICLR近幾年將投稿論文信息、審稿文本與審稿評估信息全部公開,有利于學界更詳細、全面地分析同行評議。首先爬取OpenReview網(wǎng)站上ICLR 2020年官方發(fā)布的全部同行評議信息(包含普通審稿專家審稿文本與會議委員會評議文本),得到7775篇普通審稿專家的審稿文本與2213篇領(lǐng)域主席的評議文本。然后將普通審稿專家的意見與領(lǐng)域主席的意見相匹配,去除沒有最終接收/拒絕意見的審稿文本(往往是由作者撤稿導(dǎo)致的),得到6721篇審稿文本。

同時,收集6721篇審稿文本對應(yīng)的審稿專家自我評估信息。評估信息主要包含兩個方面:審稿經(jīng)驗評估(Experience Assessment)與本次審稿評估(Review Assessment)。審稿經(jīng)驗評估對應(yīng)的評估得分0~3分別對應(yīng)審稿專家在該領(lǐng)域的學術(shù)水平(從我對該領(lǐng)域不太了解、我已經(jīng)閱讀了該領(lǐng)域眾多論文、我在該領(lǐng)域發(fā)表過一兩篇論文到我在該領(lǐng)域常年發(fā)表論文,程度逐漸加深),而本次審稿評估分為3個方面:論文閱讀的深入程度(Thorough in Paper Reading,以下簡稱“閱讀程度”)、推導(dǎo)和理論的正確性檢驗程度(Checking Correctness of Derivation and Theory,以下簡稱“DT檢查程度”)以及實驗正確性檢驗程度(Checking Correctness of Experiments,以下簡稱“實驗檢查程度”),分數(shù)0~3代表程度從低到高。

1.2.2 研究方法

本研究提出一種審稿效用度智能識別方法,該方法主要使用TextRank-BERT框架對審稿文本進行效用度評估,該框架可以判斷英文計算機領(lǐng)域?qū)徃逦谋镜膶徃逍в枚?。BERT(Bidirectional Encoder Representation from Transformers)[10]是由谷歌團隊于2018年提出的預(yù)訓練語言模型,該模型可以在自然語言處理各大任務(wù)上達到最優(yōu)成績。BERT采用Transformer語言模型[11],該模型的結(jié)構(gòu)為編碼器-解碼器,采用注意力機制[12](Attention)挖掘輸入和輸出之間的關(guān)系。BERT的預(yù)訓練目標函數(shù)采用遮蔽語言模型(Masked Language Model),即先隨機遮蔽一些詞語,再在預(yù)訓練過程中對其進行預(yù)測,這樣可學習到能夠融合兩個不同方向文本的表征。BERT模型在預(yù)訓練時通過學習大量語料獲得了豐富的信息,只需要微調(diào)便可以應(yīng)用于下游任務(wù)上。本研究通過微調(diào)BERT模型學習審稿文本中所蘊含的影響論文錄用結(jié)果的特征,并利用線性層、增加注意力機制以及CNN(卷積神經(jīng)網(wǎng)絡(luò))模型三種方式對特征進行處理,以完成審稿效用度二分類任務(wù),在訓練時通過已經(jīng)標注好的標簽不斷調(diào)整模型的學習策略,以提高模型學習特征的能力。經(jīng)過統(tǒng)計發(fā)現(xiàn),絕大多數(shù)審稿文本非常詳細具體,雖然能夠全面地幫助作者修改論文,但是并不利于所設(shè)計模型從中學習決定論文是否錄用的信息,同時大部分審稿文本的長度遠超BERT輸入512詞的限制。因此,本研究利用TextRank算法[13]抽取審稿文本摘要,將審稿專家的核心表達抽取出來,用作BERT模型的輸入。TextRank是一種無監(jiān)督抽取式摘要的經(jīng)典算法,目前其抽取關(guān)鍵信息的有效性已經(jīng)在各個領(lǐng)域得到了充分證明。TextRank算法利用一篇文檔內(nèi)部詞語間的共現(xiàn)信息抽取關(guān)鍵詞,從一個給定的文本中抽取出該文本的關(guān)鍵詞、關(guān)鍵詞組,并使用抽取式自動文摘方法抽取出該文本的關(guān)鍵句。

1.3 實驗設(shè)計

本研究首先利用(1)式計算出審稿文本效用度作為各審稿文本的標簽。得到審稿效用度為1的審稿文本共5080篇(75.58%),審稿效用度為0的審稿文本共1641篇(24.42%),并將它們作為基本數(shù)據(jù)。在構(gòu)建數(shù)據(jù)集前,為了確定審稿文本長度是否會影響審稿效用度,使用Point-Biserial相關(guān)系數(shù)[14]對全部真實數(shù)據(jù)的審稿效用度(二值變量)與審稿文本長度(連續(xù)變量)進行相關(guān)性分析,得到相關(guān)系數(shù)為0.0925,P值為2.916×10-14。因此本研究認為在目前的大量數(shù)據(jù)樣本中審稿文本長度和審稿效用度的相關(guān)性非常小,可忽略不計。

審稿效用度分類任務(wù)使用的數(shù)據(jù)集包含4個部分,為了解決數(shù)據(jù)不平衡問題,對審稿效用度為0的審稿文本進行數(shù)據(jù)增廣操作,數(shù)據(jù)集構(gòu)造方法如表1所示。

表1 數(shù)據(jù)集構(gòu)造方法

圖1 審稿效用度智能識別方法的流程

數(shù)據(jù)1~4組成了整個用于TextRank-BERT框架學習的數(shù)據(jù)集,共9220條數(shù)據(jù),其中審稿效用度為1的數(shù)據(jù)共5080條,審稿效用度為0的數(shù)據(jù)共4140條,基本保持正負比例平衡。本研究劃分到訓練集的數(shù)據(jù)共8000條,驗證集數(shù)據(jù)共720條,測試集數(shù)據(jù)共500條。首先通過BERT模型學習訓練集中包含的與審稿效用度有關(guān)的特征,并采用3種方式對審稿文本所反映的審稿效用度進行預(yù)測,然后通過驗證集進行調(diào)整,最后在測試集上進行測試。審稿效用度智能識別方法的流程見圖1。

2 結(jié)果與分析

2.1 實驗結(jié)果

本實驗通過微調(diào)三組BERT模型10個epoch對數(shù)據(jù)集進行審稿效用度的二分類任務(wù)。第一組使用普通BERT模型,第二組使用BERT-Attention模型,第三組使用BERT-CNN模型。同時增加兩組對比實驗:一組不使用TextRank處理數(shù)據(jù),直接使用BERT模型的實驗(BERT(-));另一組將基本數(shù)據(jù)擴增至9220條,然后使用BERT模型進行實驗(BERT)。使用精確率、召回率和F1值作為評價指標,其中F1值為最終評價指標[15]。經(jīng)過實驗得到五組模型的結(jié)果如表2所示。通過表2結(jié)果可以發(fā)現(xiàn),數(shù)據(jù)是影響結(jié)果的最主要因素,而在數(shù)據(jù)量及正負樣本比例基本相同的情況下,通過TextRank算法[13]抽取關(guān)鍵信息,利用BERT模型[10]標記文本中對審稿效用有貢獻的相關(guān)特征,以便能準確判別審稿效用度。在原有線性層的基礎(chǔ)上添加注意力機制,讓模型將注意力放在更重要的特征上能夠提升模型的識別效果。同時,使用CNN對審稿效用度進行分類,可以得到更加顯著的效果。

表2 模型實驗結(jié)果

2.2 數(shù)據(jù)基本分析

經(jīng)統(tǒng)計,文本長度主要集中在1~1000詞,共6499篇,而長度為1001~4000詞的文本僅222篇,約占全部數(shù)據(jù)的3.3%。審稿文本是結(jié)合論文具體信息撰寫的,因此長短不一是正?,F(xiàn)象。將1~1000詞按照100為區(qū)間單位進行等間距分割統(tǒng)計,結(jié)果如圖2所示。由圖2可知,文本長度為201~300詞的同行評議文本數(shù)量最多。當審稿文本長度為1~100詞時,審稿效用度為0的審稿文本所占比例為32.79%,而整體審稿效用度為0的比例為24.42%。雖然在整體上審稿效用度與審稿文本長度沒有太大的相關(guān)性,但根據(jù)分析結(jié)果,字數(shù)極少的審稿文本更傾向于缺乏對論文錄用決策的有益貢獻,一篇審稿文本若是包含應(yīng)有的意見元素,則文本長度便不會很短。

圖2 審稿文本長度的區(qū)間統(tǒng)計描述

正面審稿意見與負面審稿意見對應(yīng)的審稿效用度數(shù)量如圖3所示。由圖3可知,負面意見的效用度更高。也就是說,“審稿專家評分為1和3,即不推薦錄用”時該稿件被拒收的概率(93.12%)要高于“審稿專家評分為6和8,即推薦錄用”時該稿件被錄用的概率(56.69%)。這說明審稿專家在給出負面審稿意見時往往擁有合理拒稿原因,證明了審稿專家在對論文提出批評時大多非常謹慎。

圖3 負面及正面審稿意見對應(yīng)的審稿效用度

被拒絕或錄用的論文的審稿效用度如圖4所示。可以看到,同行評議結(jié)果與論文最終結(jié)果不一致,產(chǎn)生學術(shù)異議時,在被拒絕的論文中,審稿文本效用度為0的文本占比更高,為43.16%,而被錄用的論文中審稿文本效用度為0的文本占比為13.09%。這可能是由論文質(zhì)量一般時,審稿專家對其的評價角度不一致導(dǎo)致的,也可能是由部分審稿專家對該領(lǐng)域并不是特別熟悉,不能辨別論文的真實水平導(dǎo)致的。這時候就體現(xiàn)出多位審稿專家的優(yōu)勢,編委會可以通過分析多位審稿專家撰寫的評審意見給出最終決策。

圖4 拒絕/錄用意見對應(yīng)的審稿效用度

本研究對審稿效用度為0和1的審稿專家評分進行了統(tǒng)計,結(jié)果見表3。由表3可知,處于拒絕或錄用意見臨界狀態(tài)的論文數(shù)量最多。在以前的研究中發(fā)現(xiàn),審稿專家更傾向于肯定優(yōu)秀的論文,否定水平較低或是與會議主題不相符的論文,而對于水平中等的論文不能做出很好的判斷[6]。審稿效用度為0的審稿專家評分為3或6的論文數(shù)量占審稿效用度為0的論文總量的85.68%,而審稿效用度為1的審稿專家評分為3或6的論文數(shù)量占審稿效用度為1的論文總量的69.86%,在一定程度上驗證了以上結(jié)論。同時表明審稿專家需要深化學術(shù)造詣,磨練對論文把關(guān)的能力,從而提出建設(shè)性意見。

表3 不同審稿效用度下各審稿專家評分對應(yīng)的論文數(shù)量

2.3 識別樣例

利用審稿效用度智能識別方法可有效識別出審稿文本的審稿效用度,審稿效用度為1的部分審稿文本樣例如表4所示,審稿效用度為0的審稿文本與其他審稿文本觀點對比樣例如表5所示。由表4可知:該審稿專家首先表述對論文內(nèi)容的理解;其次審稿專家對論文進行整體評價,在該論文中,審稿專家認可作者的核心觀點,但也提出該論文仍需一定的改進,此部分最能體現(xiàn)審稿專家的學術(shù)造詣,即能否對論文水平做出整體判斷;然后審稿專家指出論文的優(yōu)缺點以及存疑之處,這部分的提出可以讓作者及公眾理解審稿專家做出判斷的具體原因,同時所提出的缺點也是作者需要改進的地方;最后,審稿專家指出論文存在的失誤,從細節(jié)上幫助作者完善論文。經(jīng)過對比發(fā)現(xiàn),該篇論文的其他審稿專家的觀點以及領(lǐng)域主席的觀點與該審稿文本的觀點基本一致,證實了該審稿文本對于論文錄用結(jié)果是有益的。

表4 審稿效用度為1的文本樣例1(審稿專家評分為6)

表5所示為同一篇論文在不同審稿文本中的觀點對比樣例。審稿效用度為0的審稿文本表達了對該篇論文的贊同,關(guān)注到了論文優(yōu)秀的一面,但是卻忽視了論文致命的一點:有非常相似的論文已經(jīng)發(fā)表,即該論文的原創(chuàng)性和新穎性受到質(zhì)疑,以及該論文在對比實驗中證明自己提出模型的有效性時,進行了無效的比較。所提出方法有效地識別出該篇審稿效用度為0的審稿文本,此種情況可以有效輔助編委和編輯做出正確決定,同時也可以提醒相應(yīng)的審稿專家提高自己對領(lǐng)域的熟悉度與學術(shù)水平。

表5 審稿效用度為0的文本樣例1

利用所提出方法還能識別出一些看似經(jīng)驗不足,但仍非常有效的審稿意見,如表6所示。根據(jù)以往的研究,審稿專家在審稿討論階段修改自己的意見往往是因為本人意見與其他審稿專家意見存在差距[16]。而該審稿專家堅持自己的觀點,并沒有根據(jù)其他兩位審稿專家的高分意見修改自己的意見,體現(xiàn)出較高的審稿素養(yǎng)。正是因為審稿專家在自己所研究的領(lǐng)域擁有豐富的經(jīng)驗,他才能準確地判斷出該論文所研究的問題是否屬于本領(lǐng)域的研究內(nèi)容。

表6 審稿效用度為1的文本樣例2

同時,本研究在對審稿效用度為0的審稿文本進行分析時還發(fā)現(xiàn),通過公開評審,公眾會質(zhì)疑不負責任的審稿專家,如表7所示。因此,除了將審稿專家的審稿文本與其他專家和會議委員會的意見進行對比,公眾也是審稿文本是否具有效用的見證群體。通過專家們的對照監(jiān)督和公眾監(jiān)督兩種方式,可以督促審稿專家以更負責的心態(tài)撰寫審稿文本,因此可以產(chǎn)生更公正的學術(shù)評價結(jié)果。

表7 審稿效用度為0的文本樣例2

2.4 審稿專家經(jīng)驗評估以及審稿評估分析

經(jīng)統(tǒng)計,審稿效用度為0和1的文本對應(yīng)的各項審稿專家自我評估指標的基本情況見表8。由表8可知,大部分審稿專家是對領(lǐng)域比較熟悉的學者,這些專家能夠深入地閱讀論文,并有能力檢查論文中數(shù)學推導(dǎo)、理論以及實驗是否正確、充分。在審稿效用度為0的文本對應(yīng)的審稿專家中,剛剛?cè)腴T的學者最多,而審稿效用度為1的文本對應(yīng)的審稿專家中,已經(jīng)能夠在領(lǐng)域內(nèi)發(fā)表一兩篇論文的學者最多。因此,在指定審稿專家進行審稿前,需要了解審稿專家的資歷,只有對所屬領(lǐng)域充分了解的專家才能給出正確的評價結(jié)果。但現(xiàn)實情況是,大量涌現(xiàn)的稿件導(dǎo)致了高水平審稿專家的不足,因此利用人工智能輔助同行評議是必要的,也是未來發(fā)展的方向。

為了探索審稿經(jīng)驗評估和本次審稿評估與審稿效用度之間的相關(guān)性,本研究使用隨機森林方法挖掘各指標對于審稿效用度的貢獻程度,將審稿評估值作為特征用于預(yù)測審稿效用度。由于隨機森林方法每次抽取的子集不一樣,產(chǎn)生結(jié)果不一樣,因此取5次結(jié)果的平均值作為特征重要性的最終結(jié)果(表9)。根據(jù)最終結(jié)果,與審稿效用度相關(guān)性最弱的指標為DT檢查程度,即審稿專家對推導(dǎo)和理論的檢查不如其他3個評估指標重要;與審稿效用度最相關(guān)的指標為審稿經(jīng)驗評估,審稿專家的學術(shù)造詣是其文本審稿效用的最重要的影響因素,在其他3個指標相同的情況下,在該領(lǐng)域能長期發(fā)表多篇論文的審稿專家往往更能熟知論文水平,給出更有見地的審稿意見。而審稿專家是否能夠深入閱讀論文、檢查實驗結(jié)果的正確性也是非常重要的影響因素。整體看來,這3個指標與審稿效用度的相關(guān)性都很強,也證明了ICLR選擇的對審稿專家的評估指標抓住了關(guān)鍵要點。

表8 不同審稿效用度對應(yīng)的評估指標情況

表9 隨機森林方法的特征重要性實驗結(jié)果

2.5 中國審稿專家所撰寫的審稿文本的審稿效用度

由于同行評議中審稿專家是匿名狀態(tài),無法獲知審稿專家的國籍。張明陽等[17]通過計算審稿文本向量與中式語法向量之間的歐氏距離來判別中國審稿專家的寫作風格。本研究受此啟發(fā),決定利用中式英語作為切入點,探索哪些審稿文本屬于中國審稿專家。此外,本研究在中式英語的基礎(chǔ)上增加了非中式英語作為對比數(shù)據(jù),讓模型同時學習中式英語特征與非中式英語特征。為了避免模型學習時受到相似內(nèi)容的干擾,本研究沒有選取ICLR論文的摘要,而是選擇中英文期刊作為實驗數(shù)據(jù)來源。

在期刊選擇上,由于ICLR是人工智能領(lǐng)域的頂級會議,因此本研究在選擇期刊時將領(lǐng)域定位為人工智能,且選取中國計算機學會推薦的高質(zhì)量期刊,最終選擇的期刊為《模式識別與人工智能》與ArtificialIntelligence。在時間選擇上,雖然會議論文從審稿到發(fā)表的時間相較于期刊更短,但本研究忽略較為相近的時間因素,由于使用的是ICLR 2020的數(shù)據(jù),因此對于期刊,也使用2020年對應(yīng)的論文作為數(shù)據(jù)來源?!赌J阶R別與人工智能》2020年的載文量為109篇,ArtificialIntelligence2020年的載文量為87篇。在摘要數(shù)據(jù)選擇上,選擇《模式識別與人工智能》刊載論文的英文摘要作為中式英語數(shù)據(jù)源,非中式英語首先去除ArtificialIntelligence中文作者及外國機構(gòu)中第一作者疑似中國人的論文,然后將其他論文的英文摘要作為非中式英語數(shù)據(jù)源。在實驗粒度的選擇上,由于中式英語通過句子即可被發(fā)現(xiàn),不需要結(jié)合段落中的上下文信息,因此本研究將摘要按照句子粒度進行切割,得到中式英語688句,非中式英語661句,共1349句。以句子為粒度將中式英語標注為1,非中式英語標注為0。

為了初步對中國審稿專家進行探索,本研究從5080篇審稿效用度為1的審稿文本中隨機抽取75篇文本,從1641篇審稿效用度為0的審稿文本中隨機抽取25篇文本,以基本保證與原同行評議數(shù)據(jù)中審稿效用度為0和1的文本比例類似。將這100篇審稿文本拆分成句子,從75篇審稿效用度為1的審稿文本中每篇文本隨機抽取1句,同理,在其余25篇文本中隨機抽取25句,最終得到100句實驗數(shù)據(jù)。由于支持向量機(Support Vector Machines,SVM)模型在區(qū)分英式英語和美式英語實驗上具有較高的準確率[18],本研究使用SVM模型判別這100句是否為中式英語時,首先將已標注的1349句作為實驗數(shù)據(jù)集,按照8…2的比例將它們劃分到訓練集與測試集,使用TF-IDF作為特征權(quán)重。最終模型在測試集上的準確率可達96.30%,將100句同行評議句輸入已訓練好的SVM模型進行預(yù)測,得到中式英語數(shù)量及占比結(jié)果見表10。ICLR 2020年審稿效用度為1和0的審稿文本所占比例基本相等,說明目前大部分中國專家的水平處于國際平均水平,所撰寫的審稿文本不會毫無效用,但也沒有達到國際頂尖審稿水平。未來中國審稿專家評審論文時需要更謹慎,充分利用自己的專業(yè)知識,避免主觀臆斷,優(yōu)化我國學術(shù)論文的評議環(huán)境。

表10 識別出的中式英語數(shù)量及占比

3 提高審稿效用的建議與措施

(1) 對于審稿專家。審稿專家應(yīng)該提升自身學術(shù)素養(yǎng),用良好、認真、專業(yè)的態(tài)度對待審稿,提高自己的審稿水平,撰寫豐富且客觀的審稿意見。對于自己撰寫的審稿效用度被識別為0的審稿文本,及時發(fā)現(xiàn)問題所在,汲取經(jīng)驗,更加謹慎地對待下次審稿。積極與期刊或會議進行溝通,必要時參加期刊或會議主辦機構(gòu)組織的審稿培訓會議。

(2) 對于期刊編委和編輯。首先,嚴格把控審稿專家的資歷,要選擇與期刊或會議水平相符的審稿專家,這是因為對領(lǐng)域了解得不夠深入的專家很難給出準確的評價意見,不僅會導(dǎo)致同行評議結(jié)果不科學,還會影響期刊或會議的水平。其次,在外審前,學術(shù)編輯應(yīng)該認真進行論文的初步審閱,將審閱合格的論文提交給審稿專家評審,這可幫助審稿專家節(jié)省時間,并且給出良好的反饋結(jié)果。再次,外審結(jié)束后收到審稿文本時應(yīng)該加強對論文審稿意見乃至論文本身的理解,尤其關(guān)注文本極短、模棱兩可的意見,防止做出不科學的決策,損害學術(shù)界的健康,同時讓科學的論文成果及時發(fā)表,以幫助相關(guān)領(lǐng)域進步。最后,認可審稿專家的表現(xiàn),與審稿專家進行良好的互動,建立健全專家審稿激勵機制和監(jiān)督機制。

(3) 對于中文學術(shù)論文。目前同行評議常被詬病,包括是否摻雜人情因素等,而開放審稿文本可在一定程度上緩解相關(guān)問題。開放評審在國外的有效推行及相關(guān)研究的有益性已經(jīng)為中國學術(shù)界提供了有益的思路,未來通過借鑒國外先進的經(jīng)驗,健全同行評議機制,建立中國自己的開放同行評議平臺,并在此基礎(chǔ)上建立起更有效的學術(shù)評價體系,讓我國的科研成果能夠在更透明、更科學的環(huán)境中得到準確的評價與應(yīng)用。

(4) 對于人工智能方法的應(yīng)用?,F(xiàn)在各行各業(yè)都在嘗試利用人工智能技術(shù)對本領(lǐng)域進行提升,使用人工智能技術(shù)可以有效地對大數(shù)據(jù)進行處理,利用高效的機器智能檢測輔助人工進行更有效的決策,在同行評議領(lǐng)域也已經(jīng)有相關(guān)的應(yīng)用研究,除了本研究提出的方法,未來應(yīng)該有更多智能輔助模型,通過在海量文本數(shù)據(jù)中進行學習,更好地對同行評議中的特征進行分析,提高決策的效率并提升決策的科學性。

4 結(jié)語

本研究提出一種使用TextRank-BERT框架的審稿效用度智能識別方法,該方法在構(gòu)建時利用TextRank算法抽取審稿文本中的重要觀點,使用BERT模型對審稿文本進行識別,利用審稿專家最終評分與編委會錄用決定來計算審稿效用度標簽。經(jīng)過在ICLR 2020年數(shù)據(jù)上的微調(diào),該模型最終能夠準確地識別審稿文本的審稿效用度,對審稿文本進行評估。本研究在對審稿文本的審稿效用度進行分析的基礎(chǔ)上結(jié)合專家審稿的評估信息,客觀地對同行評議進行評價與監(jiān)管。

采用智能方法處理同行評議是目前的研究熱點,通過智能方法輔助同行評議能夠促進同行評議的發(fā)展。所提出的審稿效用度智能識別方法主要應(yīng)用于審稿機制中,利用本文方法,可以輔助編委和編輯更有效地挑選稿件,實現(xiàn)編委和編輯與審稿專家的良性互動,完善審稿機制。本文方法通過在終審階段預(yù)測外審專家返回意見的審稿效用度,結(jié)合審稿專家推薦錄用或拒絕的意見來幫助編委和編輯綜合評價投稿水平,以降低編委和編輯的工作量。本文方法通過對多個審稿文本進行識別,幫助編委和編輯過濾審稿效用度低的同行評議內(nèi)容,即過濾低質(zhì)量的同行評議內(nèi)容,進而幫助編委和編輯通過檢閱高質(zhì)量的審稿意見得出合理的評審結(jié)果,以此提高編委和編輯決策的科學性。利用本文方法還可以通過編委和審稿專家之間的良性互動來健全同行評議機制,編委和編輯通過將異常的審稿文本反饋給審稿專家,幫助審稿專家不斷提升審稿能力。

本研究也存在一定的不足,如對中國審稿專家所撰寫的審稿文本審稿效用度進行分析的部分,是利用中式英語進行推測的方式,與現(xiàn)實存在一定差距。如果未來能夠開放審稿專家信息,才能在研究中利用真實數(shù)據(jù)刻畫中國審稿專家的特征。同時,本文只使用了2020年的數(shù)據(jù),未來通過合理地使用大量數(shù)據(jù),則可以使模型擁有更好的智能識別效果。

猜你喜歡
效用評議意見
強化述職評議 落實主體責任
呼和浩特市中心城區(qū)低效用地潛力分析
中醫(yī)特色護理技術(shù)在老年高血壓患者中的應(yīng)用效用觀察
評“小創(chuàng)”,送好禮
沒有反對意見
評“小創(chuàng)”,送好禮
高等院校對我國殘疾人冰雪運動發(fā)展的效用研究
創(chuàng)新評議形式 提高評議實效
對“自度曲”本原義與演化義的追溯與評議
“兩官”評議:人大司法監(jiān)督新途徑