王婷婷 陳娟 張婷 歐陽(yáng)昭連
中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020
生物標(biāo)志物是指能夠通過化學(xué)或生物測(cè)試預(yù)測(cè)機(jī)體生理狀態(tài)、病理過程或藥物干預(yù)反應(yīng)的指示物[1-3],常用于疾病診斷和分類,監(jiān)測(cè)疾病發(fā)展,評(píng)價(jià)新藥等[4-7],對(duì)疾病的防控和治療具有重要價(jià)值。然而,目前應(yīng)用到臨床或藥物開發(fā)中的生物標(biāo)志物非常有限[8]。數(shù)據(jù)收集、樣品質(zhì)量及生物檢測(cè)穩(wěn)定性等方面的挑戰(zhàn)阻礙了生物標(biāo)志物的研究進(jìn)程[9]。近年來,人工智能在生物標(biāo)志物研究領(lǐng)域的應(yīng)用日益受到青睞,降低了成本,縮短了識(shí)別和臨床驗(yàn)證周期[10-13]。本研究基于科技論文研究全球各國(guó)在人工智能輔助生物標(biāo)志物領(lǐng)域的基礎(chǔ)研究現(xiàn)狀和實(shí)力,以期為我國(guó)科研人員提供參考。
在Web of Science 數(shù)據(jù)庫(kù)中檢索文章題目、摘要或關(guān)鍵詞中包括人工智能和生物標(biāo)志物的文獻(xiàn),檢索時(shí)間為從1970 年至2020 年7 月,文獻(xiàn)類型為Article或Proceeding paper,會(huì)議摘要不納入檢索結(jié)果。
對(duì)Web of Science 數(shù)據(jù)庫(kù)中人工智能輔助生物標(biāo)志物研究相關(guān)論文進(jìn)行以下幾方面的分析:①全球論文數(shù)量與發(fā)展趨勢(shì);②對(duì)題目和摘要內(nèi)容切詞后進(jìn)行高頻詞聚類分析,研究全球研究熱點(diǎn);③從論文數(shù)量、總被引頻次和篇均被引頻次等角度分析各國(guó)家和機(jī)構(gòu)的研究規(guī)模及影響力;④了解全球及各國(guó)國(guó)際合作情況。
1970 年至2020 年7 月,人工智能輔助生物標(biāo)志物研究的相關(guān)論文共計(jì)10 281 篇,其中2010 年至今共9223 篇,占89.71%。論文數(shù)量年度分布見圖1,20 世紀(jì)90 年代才開始有文獻(xiàn)發(fā)表,2010 年之后發(fā)文量快速增多,近10 年復(fù)合增長(zhǎng)率達(dá)21.36%。
圖1 人工智能輔助生物標(biāo)志物研究的科技論文年度分布
研究熱點(diǎn)主要包括三方面:第一方面(藍(lán)色區(qū)域)代表性關(guān)鍵詞包括癌癥、表達(dá)、預(yù)后、基因、生存、治療反應(yīng)、預(yù)后、療法等,主要涉及基于生物標(biāo)志物的癌癥發(fā)病、疾病進(jìn)展、治療效果及預(yù)后預(yù)測(cè)研究;第二方面(紅色區(qū)域)代表性關(guān)鍵詞包括靈敏度、特異度、曲線下面積、血清樣本、特征曲線等,主要與生物標(biāo)志物檢測(cè)及診斷方法研究相關(guān);第三方面(綠色區(qū)域)代表性檢測(cè)包括特征、分類、網(wǎng)絡(luò)、準(zhǔn)確性、性能、技術(shù)、圖像、支持向量機(jī)等,主要與模式識(shí)別研究相關(guān),即采用計(jì)算方法根據(jù)樣本的特征劃分類別。見圖2。
圖2 人工智能輔助生物標(biāo)志物研究的研究熱點(diǎn)
人工智能輔助生物標(biāo)志物研究領(lǐng)域的論文數(shù)量排名前10 位的國(guó)家,以及各國(guó)論文被引用情況見表1。
表1 人工智能輔助生物標(biāo)志物研究的論文數(shù)量排名前10 位的國(guó)家
發(fā)文數(shù)量。論文數(shù)量排名全球前五位的國(guó)家依次是美國(guó)(4331 篇)、中國(guó)(2250 篇)、英國(guó)(1125 篇)、德國(guó)(992 篇)和加拿大(610 篇),美國(guó)領(lǐng)先優(yōu)勢(shì)明顯,中國(guó)緊隨其后。
發(fā)文影響力。總被引頻次排名前五位的國(guó)家依次是美國(guó)(114 774 次)、英國(guó)(28 588 次)、德國(guó)(26 601 次)、中國(guó)(26 124 次)和加拿大(17 135 次),這5 個(gè)國(guó)家中,中國(guó)的篇均被引頻次為11.61 次/篇,其他4 個(gè)國(guó)家均超過20 次/篇。從高被引論文來看,美國(guó)高被引論文多達(dá)80 篇,中國(guó)、英國(guó)和德國(guó)均為30 余篇。
發(fā)文數(shù)量排名前25 位的機(jī)構(gòu)以及各機(jī)構(gòu)論文被引用的情況見表2。
表2 人工智能輔助生物標(biāo)志物研究領(lǐng)域論文數(shù)量排名前25 位的機(jī)構(gòu)
發(fā)文數(shù)量。排名前25 位的機(jī)構(gòu)中絕大部分為美國(guó)機(jī)構(gòu)(16 家,占64%),另有中國(guó)機(jī)構(gòu)3 家(中國(guó)科學(xué)院、上海交通大學(xué)和復(fù)旦大學(xué))、法國(guó)機(jī)構(gòu)3 家,德國(guó)、加拿大和英國(guó)機(jī)構(gòu)各1 家。這些機(jī)構(gòu)以高?;蚩蒲性核鶠橹?,未見任何公司進(jìn)入全球前25 位。
發(fā)文影響力。加州大學(xué)系統(tǒng)和哈佛大學(xué)的總被引頻次遙遙領(lǐng)先,分別為高達(dá)19 492 次和17 548 次。中國(guó)科學(xué)院、上海交通大學(xué)和復(fù)旦大學(xué)的總被引次數(shù)分別為3662 次、1443 次和2422 次,總體影響力相對(duì)較弱。這三所大學(xué)論文的篇均被引頻次分別為17.27 次/篇、11.10 次/篇、18.92次/篇,與加州大學(xué)系統(tǒng)(40.78次/篇)、梅奧診所(39.42 次/篇)、約翰霍普金斯大學(xué)(36.70 次/篇)等機(jī)構(gòu)相比差距較大。
美國(guó)與其他國(guó)家合作最多,共計(jì)2615 次,英國(guó)和德國(guó)分別與其他國(guó)家合作1704 次和1446 次,其他國(guó)家的國(guó)際合作次數(shù)均不足1000 次。從每篇文章的平均合作次數(shù)來看,美國(guó)每篇文章平均合作次數(shù)為0.60。中國(guó)平均0.39 次,無(wú)論是從合作總次數(shù)還是每篇文章平均合作次數(shù)來看,都比美國(guó)的國(guó)際合作力度弱。歐洲各國(guó)傾向于參與國(guó)際合作研究,每篇文章平均合作次數(shù)超過1 次。僅展示論文數(shù)量超過100 篇的23 個(gè)國(guó)家見表3。
表3 各國(guó)在人工智能輔助疾病預(yù)測(cè)領(lǐng)域的國(guó)際合作次數(shù)
從具體合作國(guó)別來看,美國(guó)與中國(guó)合作高達(dá)481 次,與英國(guó)、德國(guó)和加拿大分別合作314、282 次和234 次,與其他國(guó)家的合作相對(duì)較少。中國(guó)與美國(guó)合作最多(481 次),與其他國(guó)家合作均不足100 次。見圖3。
圖3 人工智能輔助生物標(biāo)志物研究領(lǐng)域的全球國(guó)際合作情況
生物組學(xué)技術(shù)的發(fā)展加速了生物標(biāo)志物的開發(fā)和鑒定,但生物組學(xué)大數(shù)據(jù)具有多元高維和多源異質(zhì)以及噪聲高等特點(diǎn)[14-16]。近10 年來,隨著人工智能技術(shù)的日益成熟,多種算法平臺(tái)被開發(fā)用于處理復(fù)雜的生物組學(xué)大數(shù)據(jù),在生物標(biāo)志物的研究中展現(xiàn)出巨大的潛力[17-19]。
美國(guó)研究規(guī)模和影響力均遙遙領(lǐng)先。首先,在戰(zhàn)略布局方面高度重視?!蛾P(guān)鍵路徑計(jì)劃》及《國(guó)家人工智能研究和發(fā)展戰(zhàn)略計(jì)劃》等政策啟動(dòng)以來,生物標(biāo)志物及醫(yī)療人工智能的研究受到越來越多的關(guān)注和支持[20]。同時(shí),生物組學(xué)數(shù)據(jù)是人工智能輔助生物標(biāo)志物開發(fā)的基礎(chǔ),在此方面,美國(guó)已經(jīng)搭建了較為成熟的醫(yī)療大數(shù)據(jù)平臺(tái)[21]。此外,美國(guó)眾多大學(xué)或研究機(jī)構(gòu)綜合實(shí)力居于世界前列,在生物標(biāo)志物以及人工智能領(lǐng)域的基礎(chǔ)研究中均有豐厚的積累,奠定了基礎(chǔ)。
歐洲各國(guó),以英國(guó)和德國(guó)表現(xiàn)較為突出。2015 年的歐洲藥品管理局路線圖中明確了對(duì)生物標(biāo)志物與個(gè)性化醫(yī)療的支持[1]。同時(shí),歐洲各國(guó)在人工智能領(lǐng)域重視國(guó)際合作,由25 國(guó)共同簽署的《人工智能合作宣言》,歐盟委員會(huì)發(fā)布的人工智能白皮書均強(qiáng)調(diào)加強(qiáng)各國(guó)間的合作[22]。但可能是由于歐洲高度重視醫(yī)療人工智能中的倫理挑戰(zhàn)和數(shù)據(jù)安全,對(duì)發(fā)展有所限制,導(dǎo)致其研究實(shí)力仍然與美國(guó)相差較大[23]。
我國(guó)在研究規(guī)模上僅次于美國(guó),這與我國(guó)的布局密切相關(guān)?!笆濉庇?jì)劃中明確指出要全面提升生物技術(shù)產(chǎn)業(yè)的核心競(jìng)爭(zhēng)力,加速生物標(biāo)志物在臨床及新藥開發(fā)中的應(yīng)用。《“互聯(lián)網(wǎng)+”人工智能三年行動(dòng)實(shí)施方案》《國(guó)務(wù)院辦公廳關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》等一系列政策[24]推動(dòng)了人工智能在醫(yī)療領(lǐng)域的研究與應(yīng)用。但我國(guó)人工智能醫(yī)療領(lǐng)域數(shù)據(jù)獲取難度大、醫(yī)療大數(shù)據(jù)平臺(tái)建立不完善、人工智能算法缺乏創(chuàng)新等問題[25-27]使得研究成果的影響力較弱。同時(shí),我國(guó)合作力度較弱,國(guó)內(nèi)各研究機(jī)構(gòu)可以重點(diǎn)關(guān)注前沿機(jī)構(gòu)的研究方向和研究熱點(diǎn),并鼓勵(lì)開展國(guó)際作,提升國(guó)際競(jìng)爭(zhēng)力。