国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于引文全文本的醫(yī)學(xué)領(lǐng)域突破性文獻(xiàn)識別研究*

2021-04-07 00:40:04楊雪梅林紫洛關(guān)陟昊唐小利
情報雜志 2021年3期
關(guān)鍵詞:特征詞突破性語句

王 雪 楊雪梅 林紫洛 關(guān)陟昊 唐小利

(北京協(xié)和醫(yī)學(xué)院/中國醫(yī)學(xué)科學(xué)院 醫(yī)學(xué)信息研究所 北京 100005)

Research on Identification of Medical Breakthrough Articles Based on Citing Sentences

Wang Xue Yang Xuemei Lin Ziluo Guan Zhihao Tang Xiaoli

(Peking Union Medical College/Chinese Academy of Medical Sciences, Beijing 100005)

Abstract:[Purpose/Significance]From the citing perspective of the academic community, based on the citing sentences, and word frequency statistics, deep learning, etc., the paper explores the text features that represent breakthrough evaluations in the citing sentences and builds an automatic recognition model to identify potential breakthrough articles. [Method/Process] The authors selected the key publications of the Nobel Prize winners in Physiology or Medicine and the representative articles of Science Breakthrough of the Year as the gold standard breakthrough articles collection and obtained their citation sentences. Word frequency statistics combined with manual screening were carried out to obtain common words that characterize breakthrough evaluation. The authors manually labeled the citing sentences and used BERT and BIOBERT models for training to form automatic recognition models, and finally selected the cancer field for empirical analysis. [Result/Conclusion] The results show that there is obvious textual characteristics when evaluating literatures with great breakthrough value. Compared with the BERT model, the recognition ability of BIOBERT model was improved, with F1 value of 0.84. The automatic recognition model based on citing sentences can accurately identify the literature with important academic value and realize early recognition and early evaluation to a certain extent.

Keywords:citing sentences;deep learning;breakthrough articles;automatic identification;text classification;textual characteristics

科學(xué)的重大進(jìn)展在很大程度上取決于突破性的科學(xué)發(fā)現(xiàn)[1]。目前,世界各國政府和科研資助機(jī)構(gòu)已對優(yōu)先發(fā)展主題領(lǐng)域或前沿領(lǐng)域投入大量資源和資金支持,特別是突破性研究和變革性研究,以期促進(jìn)科學(xué)發(fā)展。早在2007年,美國國家科學(xué)委員會就提議加強(qiáng)對變革性研究的支持[2]。近年來,美國國立衛(wèi)生研究院專門為變革性研究設(shè)立資金資助(Transformative Research Award),旨在支持“具有創(chuàng)造或推翻基本范式潛力的異常創(chuàng)新和/或非常規(guī)研究項(xiàng)目”[3]。我國在十九大報告中提出加快建設(shè)創(chuàng)新型國家,指出要瞄準(zhǔn)世界科技前沿,強(qiáng)化基礎(chǔ)研究,實(shí)現(xiàn)前瞻性基礎(chǔ)研究、引領(lǐng)性原創(chuàng)成果重大突破,其中一個重要方面就是加快推進(jìn)基礎(chǔ)研究領(lǐng)域突破性、顛覆性創(chuàng)新的遴選和培育[4]。盡管各國都已逐步建立資助政策和研究基礎(chǔ)設(shè)施以激勵和促進(jìn)突破性研究的發(fā)展,但最初選擇和資助的提案是否最終會成為一項(xiàng)突破性研究仍然是一個重要且不可避免的挑戰(zhàn)。

本研究嘗試從科學(xué)共同體的定性描述出發(fā),結(jié)合深度學(xué)習(xí)等方法,實(shí)現(xiàn)從海量文獻(xiàn)中自動識別潛在突破性文獻(xiàn)。潛在突破性文獻(xiàn)的識別,可以為科研人員的研究方向以及資助機(jī)構(gòu)的重點(diǎn)資助方向提供參考,促進(jìn)潛在突破點(diǎn)、突破性技術(shù)的大力發(fā)展,同時幫助科研人員準(zhǔn)確鎖定研究領(lǐng)域中的突破性進(jìn)展;引用語句體現(xiàn)著學(xué)術(shù)共同體在引用原始文獻(xiàn)時的評價態(tài)度,基于引用語句識別潛在突破性文獻(xiàn),豐富了傳統(tǒng)學(xué)術(shù)評價的內(nèi)容,為基于引用語句實(shí)現(xiàn)論文評價提供了新的運(yùn)用實(shí)踐。

1 相關(guān)研究

1.1突破性文獻(xiàn)識別目前,國內(nèi)外已有關(guān)于突破性文獻(xiàn)識別的相關(guān)研究成果,研究方法各有不同,主要包括以下兩個方面:一是基于學(xué)術(shù)共同體的定性識別,通過定性評價以確定該文獻(xiàn)是否為突破性文獻(xiàn),另一種是基于科學(xué)計(jì)量學(xué)定量識別潛在突破性文獻(xiàn)[5]。

同行評審仍是識別突破性文獻(xiàn)的有效精準(zhǔn)方式之一,例如諾貝爾獎、Science十大科學(xué)突破、MIT十大科技突破。此方法可以全面地考察每一篇論文,識別結(jié)果較為精準(zhǔn),但是具有費(fèi)時費(fèi)力、主觀性強(qiáng)的缺點(diǎn),并且同行評議一般只能在少數(shù)幾個同行專家中展開,得出的結(jié)論容易具有片面性[6]。

另一種是基于科學(xué)計(jì)量學(xué)的定量識別。目前有研究人員探索突破性文獻(xiàn)是否有特異性指標(biāo)。例如Ponomarev等[1]使用單一指標(biāo)——引文速度,來預(yù)測潛在突破性論文,而Wolcott等人[7]使用時間依賴性和非依賴性的多維組合指標(biāo)以區(qū)分金標(biāo)準(zhǔn)突破性文獻(xiàn)集以及對照組文獻(xiàn)集。引用網(wǎng)絡(luò)建立在文獻(xiàn)引用關(guān)系的基礎(chǔ)上,是知識傳承和流動的體現(xiàn),突破性研究的出現(xiàn)常常表現(xiàn)為引發(fā)傳統(tǒng)研究范式下引文鏈的改變或“破裂”,故Huang等[8-9]提出用引文鏈的“破裂分?jǐn)?shù)”來識別突破性研究。Schneider等[10]提出3種基于引用分析的方法從高被引論文中檢測潛在的突破性研究。常規(guī)科學(xué)中的漸進(jìn)性研究累積到一定臨界點(diǎn)時,科學(xué)突破導(dǎo)致范式轉(zhuǎn)變,進(jìn)入一種新的研究范式下的常規(guī)科學(xué),繼而循環(huán)往復(fù)。對于突破性研究的識別是對這些臨界點(diǎn)的預(yù)警信號的研究。因此荷蘭萊頓大學(xué)學(xué)者提出了突破檢測算法,基于科學(xué)結(jié)構(gòu)本身的變化,早期檢測對科學(xué)發(fā)展有重要影響的新發(fā)現(xiàn)[11]。隨著引文全文本的可獲得,目前研究人員在外部特征分析的基礎(chǔ)上結(jié)合文本內(nèi)容特征以識別科學(xué)發(fā)現(xiàn)。例如郭倩影[12]等基于引用強(qiáng)度、引文網(wǎng)絡(luò)、引用時長和引用內(nèi)容四個維度識別構(gòu)成學(xué)術(shù)傳承中的關(guān)鍵文獻(xiàn),其中在內(nèi)容分析中選擇以“first*”“breakthrough”“l(fā)andmark”“originally”“classical”等詞作為標(biāo)志性評價詞匯作為判斷標(biāo)識;Small等[13]提取帶有提示詞“*discover *”的“發(fā)現(xiàn)引用語句”及其參考文獻(xiàn),并篩選出具有一定數(shù)量“發(fā)現(xiàn)引用語句”的文章,將含有20個以上“發(fā)現(xiàn)引用語句”的文獻(xiàn)進(jìn)行人工篩選識別出表征科學(xué)發(fā)現(xiàn)的文章。上述文獻(xiàn)有效證明了可以利用引用語句來識別被引文獻(xiàn)的內(nèi)在價值,同時也證明文本特征在從大量出版物中快速識別關(guān)鍵文獻(xiàn)的重要作用。

論文的被引需要時間的積累,因此無論是基于引文指標(biāo)的識別,還是基于引文網(wǎng)絡(luò)的識別抑或引用內(nèi)容分析識別都存在滯后性。但相較于需要較多時間來形成特定的引文模式,文本特征出現(xiàn)得更快也更加明顯,因此基于引用內(nèi)容的識別可以相對較早地識別潛在突破性研究。

1.2基于引用語句的文本分類引文全文本,即引用語句,是指文獻(xiàn)全文中包含一個或多個參考文獻(xiàn)標(biāo)識符且引用參考文獻(xiàn)部分內(nèi)容或?qū)⒖嘉墨I(xiàn)進(jìn)行評論性描述的語句。基于引用語句可以實(shí)現(xiàn)論文影響力評價、揭示研究貢獻(xiàn)點(diǎn)等。傳統(tǒng)引文指標(biāo)在評價論文時忽略作者在引用參考文獻(xiàn)時的情感因素(如負(fù)面引用),導(dǎo)致傳統(tǒng)指標(biāo)無法真正反應(yīng)論文的影響力[14]。因此有學(xué)者通過對引用語句的引用極性進(jìn)行分類,從中識別表達(dá)正向情感的引用語句,以此彌補(bǔ)單純依賴傳統(tǒng)引用指標(biāo)來評價文獻(xiàn)學(xué)術(shù)影響力的不足[15-16];或?qū)σ霉δ苓M(jìn)行分類,揭示不同的引用動機(jī)從而反映引用價值[17];或從中識別有意義且重要的引用語句,揭示原始文獻(xiàn)的貢獻(xiàn)點(diǎn)所在[18-19]。

與標(biāo)題、摘要和關(guān)鍵詞等文獻(xiàn)信息不同,引用語句記錄了知識流動的細(xì)節(jié),而被引用的信息和創(chuàng)新點(diǎn)也是被同行學(xué)者普遍認(rèn)為重要的,因此有價值的引用語句可以真正體現(xiàn)論文對科學(xué)發(fā)展的重要意義。引用內(nèi)容的特殊意義為突破性文獻(xiàn)的識別提供新的思考和方向。

1.3引用語句獲取關(guān)于引用語句的獲取,有部分研究者通過人工閱讀原始研究的施引文獻(xiàn)并手工提取對應(yīng)的引用語句[20],或者利用自然語言處理技術(shù)從全文中抽取引用內(nèi)容進(jìn)行分析[21-23]。上述研究得到的引用語料都是根據(jù)特定研究需要而“定制”,只適用于特定場景的分析。除此之外,計(jì)算語言協(xié)會 (Association for Computational Linguistics,ACL)提供的網(wǎng)絡(luò)語料庫選集ACL Anthology Network (AAN)[24]包括引用語句,可供計(jì)算語言學(xué)和自然語言處理領(lǐng)域的研究人員不同研究需求。同時,國外已有研究人員對如何提取引用語句進(jìn)行探索并開發(fā)相應(yīng)的數(shù)據(jù)庫供科研人員使用,例如Colil[25]、Semantic Scholar[26]、SciRide Finder[27]。相較于傳統(tǒng)搜索引擎如PubMed、Web of Science、Google Scholar等,其顯著區(qū)別是通過數(shù)據(jù)庫檢索可以獲取后續(xù)發(fā)表研究對原始研究的評論性描述。Colil是基于PMC OA文獻(xiàn)集構(gòu)建的生物醫(yī)學(xué)領(lǐng)域的引用語句文本庫,可通過文章的PMID號獲取對應(yīng)文獻(xiàn)的引用語句。本研究擬選擇Colil實(shí)現(xiàn)引用語句的批量獲取。

2 數(shù)據(jù)來源與方法

本研究提出一種基于引用語句結(jié)合深度學(xué)習(xí)算法識別醫(yī)學(xué)領(lǐng)域潛在突破性文獻(xiàn)的方法,并構(gòu)建自動識別模型和對模型領(lǐng)域進(jìn)行實(shí)證研究。方法路徑如圖1所示。

圖1 醫(yī)學(xué)領(lǐng)域潛在突破性文獻(xiàn)自動識別模型構(gòu)建及實(shí)證研究方法路徑

2.1金標(biāo)準(zhǔn)突破性文獻(xiàn)集的確定識別潛在突破性文獻(xiàn)的首要任務(wù)是確定一組核心出版物作為金標(biāo)準(zhǔn)集,并基于施引作者在引用這些文獻(xiàn)做出的描述性評論語句來探索突破性評價情感及語言學(xué)特征。然而由于目前生物醫(yī)學(xué)領(lǐng)域論文數(shù)據(jù)爆發(fā)式的增長,個人難以從大量的文獻(xiàn)中確定標(biāo)準(zhǔn)集且個人的篩選存在偏倚。因此,本研究借鑒已有的學(xué)術(shù)共同體對論文的評審結(jié)果,納入諾貝爾生理學(xué)或醫(yī)學(xué)獎獲得者的關(guān)鍵文獻(xiàn)(1981-2019年)以及Science 10大科學(xué)突破主題的代表文獻(xiàn)(醫(yī)學(xué)領(lǐng)域,1996-2019年)作為突破性文獻(xiàn)的金標(biāo)準(zhǔn)文獻(xiàn)集。共計(jì)644篇文獻(xiàn)。通過Colil數(shù)據(jù)庫獲取644篇的引用語句,約16萬條。

以PMID為12 466 850的一條引用語句為例,如例1,其施引文獻(xiàn)是PMID為19 468 303的文獻(xiàn)。其中>> <<表示目標(biāo)文獻(xiàn),即PMID為12 466 850的文獻(xiàn),該篇文獻(xiàn)在施引文獻(xiàn)(PMID:19 468 303)中為第11篇參考文獻(xiàn)。

例1:In late 2002, we published a draft mouse genome assembly, referred to as the MGSCv3, of a single, inbred strain (C57BL/6J, or “B6”) [>>11<<]. This publication marked a watershed in mammalian genetics and genomics, as it allowed the first genomic comparisons between mouse and human.

2.2突破性評價文本特征的提取為探索學(xué)術(shù)共同體在引用突破性文獻(xiàn)時是否存在語言學(xué)特征,本研究利用Standford CoreNLP工具對上述644篇突破性文獻(xiàn)的引用語句進(jìn)行分詞及詞頻統(tǒng)計(jì),明確是否存在表征突破性評價的特征詞。為降低特殊字符對分詞造成的影響,進(jìn)行分詞之前對每條引用語句進(jìn)行預(yù)處理,刪除每條語句中的特殊符號(如= - * : " ' — ! ~ & √等)及數(shù)字(0,1,2,3,4,5,6,7,8,9)。從具有一定詞頻的候選特征詞中篩選出常被施引作者用來評價突破性文獻(xiàn)的精準(zhǔn)特征詞。由于英文單詞存在一詞多義的特點(diǎn),因此提取出包含上述任一候選特征詞的引用語句進(jìn)行人工標(biāo)注,表征突破性意義的標(biāo)為1,無突破性意義的引用語句標(biāo)為0。標(biāo)注規(guī)則如表1。將標(biāo)注結(jié)果按以下公式作比,比值越高,表明該詞表征突破性評價意義的概率越大。將比值≥50%的詞作為突破性評價精準(zhǔn)特征詞。

比值=

2.3醫(yī)學(xué)領(lǐng)域突破性文獻(xiàn)識別模型的訓(xùn)練從金標(biāo)準(zhǔn)突破性文獻(xiàn)的全部引用語句中隨機(jī)抽取20%的數(shù)據(jù)進(jìn)行人工標(biāo)注并構(gòu)建自動識別模型。在人工標(biāo)注過程中,按照表1中的規(guī)則進(jìn)行標(biāo)注,將表征突破性意義的標(biāo)為1,無突破性意義的引用語句標(biāo)為0。利用通用領(lǐng)域模型BERT[28]以及生物醫(yī)學(xué)領(lǐng)域特異性模型BIOBERT[29]自動學(xué)習(xí)其語義特征與人工標(biāo)注標(biāo)簽之間的關(guān)系。

2.4癌癥領(lǐng)域潛在突破性文獻(xiàn)識別與評價癌癥是當(dāng)前危害全球人類健康的重大疾病之一。近年來,癌癥領(lǐng)域的基礎(chǔ)研究與臨床轉(zhuǎn)化均取得顯著進(jìn)展,例如癌癥靶向藥物、疫苗研發(fā)、AI應(yīng)用等。本研究以近5年發(fā)表的癌癥領(lǐng)域相關(guān)文獻(xiàn)為例開展實(shí)證分析。分別通過PubMed數(shù)據(jù)庫(檢索策略:"Neoplasms"[Mesh],F(xiàn)ilters applied: Journal Article, from 2015/1/1 - 2019/12/31)、Colil數(shù)據(jù)庫獲取得到約58萬篇文獻(xiàn)題錄、200萬條引用語句。選擇最優(yōu)模型進(jìn)行實(shí)證分析并選取兩個指標(biāo)——F1000數(shù)據(jù)庫以及美國臨床腫瘤學(xué)會發(fā)布的年度進(jìn)展報告(Clinical Cancer Advances: ASCO’s Annual Report on Progress Against Cancer)對識別結(jié)果進(jìn)行評價。F1000數(shù)據(jù)庫是全球頂尖基礎(chǔ)研究學(xué)者與臨床專家甄選生物學(xué)與醫(yī)學(xué)領(lǐng)域中最重要的論文及動向的數(shù)據(jù)庫,并對其進(jìn)行分類及評估。美國臨床腫瘤學(xué)會每年發(fā)布的癌癥臨床進(jìn)展報告強(qiáng)調(diào)了過去一年癌癥領(lǐng)域中最具影響力的研究進(jìn)展,并確定了癌癥領(lǐng)域的未來優(yōu)先發(fā)展事項(xiàng)。如果模型識別出的文獻(xiàn)被F1000數(shù)據(jù)庫或癌癥臨床進(jìn)展報告收錄則證明該模型可以識別出具有重要價值的文獻(xiàn)。基于上述指標(biāo)對識別結(jié)果進(jìn)行評價。

表1 引用語句標(biāo)注規(guī)則

3 結(jié) 果

3.1突破性評價文本特征通過對金標(biāo)準(zhǔn)突破性文獻(xiàn)集的約16萬條引用語句進(jìn)行分詞及詞頻分析,從中提取出88 166個詞。其中冠詞“the”的詞頻最高,詞頻為353 596。詞頻大于等于1 000的共有940個詞,僅占總詞數(shù)的1.07%;詞頻在1-5之間的詞數(shù)最多,高達(dá)71.80%(見圖2)。

圖2 不同詞頻范圍的詞個數(shù)占比統(tǒng)計(jì)

通過對特征詞的篩選可以發(fā)現(xiàn)學(xué)術(shù)共同體在評價高價值文獻(xiàn)時常用的詞匯。為保證特征詞篩選的概率意義,本研究從詞頻大于等于100 的詞(共4 642個詞,占比5.27%)中最終確定46個候選突破性評價特征詞。含候選特征詞的引用語句共有54 890條,占全部引用語句的33.57%,涉及522篇金標(biāo)準(zhǔn)文獻(xiàn)。對包含候選特征詞的引用語句按照標(biāo)注規(guī)則進(jìn)行人工標(biāo)注,其作比結(jié)果如圖3所示。含有“pioneering”的引用語句中有88.10%被標(biāo)注為“1”,反映含有該詞的引用語句具有88.10%的可能性被認(rèn)為具有突破性評價意義。當(dāng)某一候選特征詞的比值大于等于50%,則表明含有該詞的引用語句至少具有50%的可能性被評為突破性評價引用句,如“pioneering”“revolutionize”等。比值為50%以上的特征詞元及還原前的詞如表2所示,這些詞可以被認(rèn)為是常用來評價潛在突破性文獻(xiàn)的精準(zhǔn)特征詞。

圖3 候選特征詞被判別為具有突破性評價意義的概率

表2 突破性評價文本特征詞元及原詞

3.2突破性文獻(xiàn)自動識別模型從16萬條引用語句中隨機(jī)抽取20%的數(shù)據(jù)構(gòu)建自動識別模型,其中標(biāo)簽為“1”的引用語句共有1 994條,標(biāo)簽為“0”的共有30 708條,比值為1∶15。模型訓(xùn)練結(jié)果如表3所示。由于訓(xùn)練集中正負(fù)樣本數(shù)量差距懸殊,BERT以及BIOBERT模型對負(fù)樣本識別能力優(yōu)于對正樣本的識別,但BIOBERT模型對正樣本的識別能力相較于BERT有明顯提高(F1=0.70)??傮w而言,生物醫(yī)學(xué)語言表示模型BIOBERT魯棒性較好,對正負(fù)樣本的識別能力均有所提高,總體F1值為0.84。

表3 BERT、BIOBERT模型訓(xùn)練結(jié)果對比

3.3癌癥領(lǐng)域識別結(jié)果分析與評價利用基于BIOBERT的引用語句模型進(jìn)行預(yù)測,共15596條引用語句被預(yù)測標(biāo)注為“1”,即被認(rèn)為具有突破性評價意義,對應(yīng)10986篇原始文獻(xiàn)。預(yù)測標(biāo)注為“1”的引用語句數(shù)量最多的文獻(xiàn)(67條)是2015年發(fā)表的題為“The future of immune checkpoint therapy”的綜述,該篇綜述總結(jié)了目前癌癥免疫治療的重大進(jìn)展。然而綜述、評論、指南、系統(tǒng)綜述、meta分析的特點(diǎn)是對先前研究進(jìn)行評論和系統(tǒng)評估,并不代表原創(chuàng)性的創(chuàng)新研究或重大突破。因此,后續(xù)將不對上述文獻(xiàn)類型進(jìn)行分析。同時由于深度學(xué)習(xí)模型識別結(jié)果存在誤差性以及施引作者在引用參考文獻(xiàn)時存在主觀偏倚性,設(shè)置突破性評價引用語句的數(shù)量可在一定程度上彌補(bǔ)此缺陷。將具有2條及以上突破性評價引用語句的文獻(xiàn)作為潛在突破性文獻(xiàn)并對此進(jìn)行分析。

2015年發(fā)表的潛在突破性文獻(xiàn)最多,共有477篇,2019年發(fā)表的最少僅8篇(見圖4)。對各年發(fā)表的具有突破性評價語句最多的TOP5文獻(xiàn)基于指標(biāo)進(jìn)行評價,其結(jié)果如表4所示。每年發(fā)表的具有突破性評價語句最多的TOP5文獻(xiàn)均被F1000數(shù)據(jù)庫收錄或被提名收錄,多數(shù)被推薦為“New Finding”,表明是創(chuàng)新性的研究;其中有13篇被ASCO癌癥臨床進(jìn)展報告收錄。從評價結(jié)果可以看出,模型識別出的2015年、2016發(fā)表的文獻(xiàn)幾乎均同時被F1000數(shù)據(jù)庫及ASCO癌癥臨床進(jìn)展報告收錄,而2017-2019年發(fā)表的文獻(xiàn)只有少數(shù)同時滿足兩個指標(biāo),這表明發(fā)表較早的文獻(xiàn)其識別結(jié)果更加精準(zhǔn)。但該模型在一定程度上仍可以實(shí)現(xiàn)早期識別(例如PMID30665869、PMID30645973)。

圖4 癌癥領(lǐng)域潛在突破性文獻(xiàn)年度分布

表4 2015-2019年每年發(fā)表的具有突破性評價語句最多的TOP5文獻(xiàn)基于指標(biāo)的評價結(jié)果

續(xù)表4 2015-2019年每年發(fā)表的具有突破性評價語句最多的TOP5文獻(xiàn)基于指標(biāo)的評價結(jié)果

4 總結(jié)與展望

本文以醫(yī)學(xué)領(lǐng)域?yàn)槔?,選取諾貝爾生理學(xué)或醫(yī)學(xué)獎獲得者的關(guān)鍵文獻(xiàn)以及Science十大科學(xué)突破主題的代表文獻(xiàn)(醫(yī)學(xué)領(lǐng)域)作為金標(biāo)準(zhǔn)突破性文獻(xiàn)集,探析學(xué)術(shù)共同體在引用具有重大突破價值的文獻(xiàn)時是否存在顯著的文本特征,同時基于引用語句的評價情感結(jié)合深度學(xué)習(xí)的文本分類功能,實(shí)現(xiàn)對潛在突破性文獻(xiàn)的自動識別。

在研究中發(fā)現(xiàn),學(xué)術(shù)共同體在評價具有重大突破價值的文獻(xiàn)時具有明顯的文本特征,“pioneering”“revolutionize”“breakthrough”“seminal”“milestone”等是施引作者常用來評價高價值文獻(xiàn)的精準(zhǔn)特征詞,共有322篇金標(biāo)準(zhǔn)文獻(xiàn)的引用語句含有上述特征詞。同時在模型訓(xùn)練的標(biāo)注語料中,27.5%被標(biāo)注為“1”的引用語句含有精準(zhǔn)特征詞,86%的引用語句含有候選特征詞,反映具有突破性評價意義的語句中具有明顯的文本特征,因此在后續(xù)研究中可以在模型訓(xùn)練過程中提升特征詞的權(quán)重,優(yōu)化模型的識別能力。本研究識別出的精準(zhǔn)特征詞可用于構(gòu)建檢索式發(fā)現(xiàn)潛在突破性文獻(xiàn),并為檢索詞的選取提供了依據(jù),特別是在引用語句檢索中具有較大應(yīng)用價值。本研究基于引用語句的評價情感結(jié)合深度學(xué)習(xí)模型以實(shí)現(xiàn)潛在突破性文獻(xiàn)的自動識別,為識別突破性文獻(xiàn)、文獻(xiàn)評價提供了新的例證、方法和思路。對BERT、BIOBERT模型的訓(xùn)練結(jié)果進(jìn)行對比分析發(fā)現(xiàn),BIOBERT對潛在突破性文獻(xiàn)的識別能力(F1=0.84)優(yōu)于BERT的識別能力(F1=0.82),證明基于PubMed摘要和PMC全文文章訓(xùn)練得到的BIOBERT模型在處理生物醫(yī)學(xué)文本分類任務(wù)中優(yōu)于通用領(lǐng)域BERT模型,為后續(xù)開展生物醫(yī)學(xué)文本分類任務(wù)提供了參考和例證。

在模型實(shí)證分析中,選擇癌癥領(lǐng)域作為實(shí)證領(lǐng)域,利用BIOBERTT模型識別該領(lǐng)域的潛在突破性文獻(xiàn)并基于是否被F1000數(shù)據(jù)庫收錄、被ASCO癌癥臨床進(jìn)展報告收錄作為指標(biāo)對識別結(jié)果進(jìn)行評價。其結(jié)果表明,基于引用語句的自動識別模型能夠識別具有重大突破性價值的文獻(xiàn),但識別效果在很大程度上仍依賴于文獻(xiàn)發(fā)表時間或者是引用語句的數(shù)量,引用語句越多,其積累的突破性評價語句越多,用以區(qū)分非突破性文獻(xiàn)的特征就越明顯,則被判別為潛在突破性文獻(xiàn)的概率越大。同時實(shí)證研究也驗(yàn)證基于引用語句的自動識別模型具有早期識別的能力。例如表4中于2019年發(fā)表的文獻(xiàn),盡管其只有少量的引用語句,但是該模型仍能從具有有限引文次數(shù)的文獻(xiàn)中識別出具有重要價值的文獻(xiàn),證明基于引用語句的識別方法可以實(shí)現(xiàn)重要文獻(xiàn)的早期識別和文獻(xiàn)早期評價。

本研究是識別潛在突破性文獻(xiàn)的有效嘗試但仍有局限性。首先本研究提取的突破性評價特征詞僅為單個詞,忽略表征突破性評價的短語如“first discovery”“breakthrough research”。相較于單個特征詞的多意性,短語詞組更加精準(zhǔn)。后續(xù)可開展突破性評價特征詞組的識別。此外,針對模型的實(shí)證分析,本研究僅選擇癌癥領(lǐng)域開展研究。雖然證明該識別模型在癌癥領(lǐng)域中的適用性,但模型在其他領(lǐng)域的遷移能力有待驗(yàn)證。最后,引用語句的來源存在局限性。Colil數(shù)據(jù)庫是日本國家生命科學(xué)數(shù)據(jù)庫中心基于PMC OA文獻(xiàn)集開發(fā)的,而PMC-OAS文獻(xiàn)集[30]僅約占PubMed數(shù)據(jù)庫[31]中所有出版物的9.2%。因此通過Colil數(shù)據(jù)庫獲取得到引用語句數(shù)量十分有限。引用語句數(shù)據(jù)不全會對實(shí)證研究結(jié)果造成影響。

猜你喜歡
特征詞突破性語句
特別策劃《突破性創(chuàng)新與突破性創(chuàng)新設(shè)計(jì)研究綜述》
包裝工程(2022年18期)2022-09-27 03:41:30
“雙超”油菜新品種選育取得突破性進(jìn)展
重點(diǎn):語句銜接
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
精彩語句
新形勢下湖北省體育產(chǎn)業(yè)突破性發(fā)展思考
面向文本分類的特征詞選取方法研究與改進(jìn)
京津冀公衛(wèi)合作的突破性意義
如何搞定語句銜接題
語文知識(2014年4期)2014-02-28 21:59:52
武清区| 新营市| 四会市| 习水县| 陆河县| 大丰市| 宣化县| 商城县| 崇礼县| 昭觉县| 通榆县| 永州市| 赤峰市| 郓城县| 安宁市| 伊宁市| 诸暨市| 苏州市| 嫩江县| 清徐县| 镇宁| 右玉县| 漠河县| 同江市| 宁武县| 六安市| 应用必备| 太保市| 钦州市| 麟游县| 都江堰市| 从化市| 酉阳| 泉州市| 咸阳市| 松阳县| 珠海市| 阿图什市| 长岭县| 崇礼县| 江源县|