英國《自然·生物技術(shù)》雜志18日發(fā)表一項(xiàng)跨越人工智能及生物技術(shù)的研究,美國麻省理工學(xué)院團(tuán)隊(duì)研發(fā)的一個(gè)機(jī)器學(xué)習(xí)模型,可用于預(yù)測(cè)科學(xué)文獻(xiàn)中已發(fā)表研究的未來影響力。目前,這個(gè)模型的打分可用來預(yù)測(cè)任意年份發(fā)表的“前5%的論文”,其將能補(bǔ)充當(dāng)前依賴論文引用量指標(biāo)的文獻(xiàn)計(jì)量分析系統(tǒng)。
現(xiàn)階段,有許多系統(tǒng)都被用來評(píng)估研究人員的科研產(chǎn)出,包括基于他們所著論文引用量的指標(biāo)。隨著人工智能領(lǐng)域機(jī)器學(xué)習(xí)的興起,科學(xué)家們認(rèn)為可以從研究人員產(chǎn)出的更多角度去評(píng)判他們發(fā)表研究的潛在影響力。
為此,麻省理工學(xué)院研究團(tuán)隊(duì)推出了一個(gè)機(jī)器學(xué)習(xí)模型,該模型能預(yù)測(cè)以時(shí)間為尺度的網(wǎng)頁排名分?jǐn)?shù)——類似于用來給網(wǎng)頁重要性排名的指標(biāo),并提議將該模型用于評(píng)估研究人員的產(chǎn)出。
為實(shí)現(xiàn)這個(gè)想法,科學(xué)家詹姆斯·維斯及約瑟夫·賈科布森建立了一個(gè)名為“通過學(xué)習(xí)預(yù)測(cè)高影響實(shí)現(xiàn)動(dòng)態(tài)預(yù)警”的模型,并用科學(xué)研究圖譜加以訓(xùn)練。研究團(tuán)隊(duì)使用的數(shù)據(jù)集,包含1980年到2019年期間發(fā)表的1687850篇具有唯一性的論文,從中得到了論文發(fā)表后1年到5年與每例論文、作者、期刊、網(wǎng)絡(luò)相關(guān)的29個(gè)特征。研究團(tuán)隊(duì)再用每篇論文的特征訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型,讓這個(gè)模型給出影響力“預(yù)警”分?jǐn)?shù)。
在一次回顧性盲法研究中,這一最新模型準(zhǔn)確識(shí)別出了1980年到2014年間20項(xiàng)具有重大影響的生物技術(shù)中的19項(xiàng)。這個(gè)模型還預(yù)測(cè),2018年在42本生物技術(shù)領(lǐng)域期刊發(fā)表的50篇論文可能會(huì)躋身未來排名的前5%,這一結(jié)果將能以數(shù)據(jù)驅(qū)動(dòng)的方式發(fā)現(xiàn)并讓經(jīng)費(fèi)流向那些“深藏不露”的好研究。
研究人員表示,在將這類模型應(yīng)用于其他研究領(lǐng)域前,仍需開展進(jìn)一步測(cè)試,將該方法在生物技術(shù)以外領(lǐng)域的表現(xiàn)與常規(guī)影響力指數(shù)相比較,比如領(lǐng)域歸一化的引用分?jǐn)?shù)。