王雨晴,胡孔法,胡晨駿
(1.南京中醫(yī)藥大學(xué)人工智能與信息技術(shù)學(xué)院,江蘇 南京 210023;2.中國(guó)科學(xué)院上海藥物研究所,上海 201210;3.江蘇省中醫(yī)藥防治腫瘤協(xié)同創(chuàng)新中心,江蘇 南京 210023)
計(jì)算機(jī)輔助藥物設(shè)計(jì)(computer aided drug design,CADD)的理論誕生于20世紀(jì)80年代,Richards[1]首先提出計(jì)算機(jī)輔助分子設(shè)計(jì)的想法,隨后Hopfinger[2]提出計(jì)算機(jī)輔助藥物設(shè)計(jì)的概念。90年代,Suna等[3]將CADD定義為一種基于結(jié)構(gòu)替代傳統(tǒng)藥物開發(fā)模式的新藥物開發(fā)方法。21世紀(jì)后,Song等[4]對(duì)CADD的定義范圍進(jìn)行了補(bǔ)充,即CADD是一種基于化合物的存儲(chǔ)、管理、分析和建模的計(jì)算工具和資源[5]。
CADD通過計(jì)算機(jī)模擬設(shè)計(jì)并分析化合物,在降低藥物開發(fā)成本的同時(shí),提高了藥物的研發(fā)效率,對(duì)藥物設(shè)計(jì)全階段都有卓越的貢獻(xiàn)[6]。在使用CADD進(jìn)行全新的藥物設(shè)計(jì)時(shí),首先需要對(duì)化合物的合成路線進(jìn)行整合,形成一個(gè)合成數(shù)據(jù)庫,然后通過分子對(duì)接、虛擬篩選等方法找出可能有效的化合物,并對(duì)化合物進(jìn)行藥理活性預(yù)測(cè)和藥效基團(tuán)研究,篩選出其中可能有活性的化合物,進(jìn)而完成整個(gè)全新藥物設(shè)計(jì)流程[7]。然而,由于CADD理論誕生的時(shí)間相對(duì)較短,涉及學(xué)科方法眾多,還存在計(jì)算方法迭代速度快等實(shí)際問題,在使用過程中給相關(guān)研究人員帶來了一定的困擾[8]。因此,充分了解近年來CADD領(lǐng)域的研究熱點(diǎn),研判其未來的發(fā)展方向,對(duì)藥物發(fā)現(xiàn)工具的持續(xù)改進(jìn)具有十分重要的意義[9]。本文利用CiteSpace軟件,對(duì)2010至2022年這一時(shí)間段內(nèi)國(guó)內(nèi)外核心期刊中CADD領(lǐng)域的相關(guān)論文進(jìn)行整理和分析,以期為CADD的理論研究和實(shí)踐操作提供基于論文數(shù)據(jù)的支撐,同時(shí),預(yù)測(cè)該領(lǐng)域未來的研究趨勢(shì)和發(fā)展方向。
1.1 研究方法CiteSpace是一個(gè)基于知識(shí)圖譜對(duì)文獻(xiàn)進(jìn)行可視化計(jì)量分析的建模軟件,由陳超美教授開發(fā),旨在一個(gè)知識(shí)域或?qū)W科在一定時(shí)期的研究趨勢(shì)與發(fā)展動(dòng)向,形成若干研究前沿領(lǐng)域的演進(jìn)歷程[10-11]。本文使用CiteSpace繪制了包括關(guān)鍵詞網(wǎng)絡(luò)、分布時(shí)序圖、突現(xiàn)圖和聚類圖在內(nèi)的圖譜,以分析CADD領(lǐng)域的相關(guān)文獻(xiàn)。
1.2 數(shù)據(jù)來源本文分別研究了國(guó)內(nèi)和國(guó)外在CADD領(lǐng)域的相關(guān)文獻(xiàn),其中國(guó)內(nèi)文獻(xiàn)來源為中國(guó)知網(wǎng)(CNKI)數(shù)據(jù)庫,國(guó)外文獻(xiàn)來源為Web of Science(WOS)核心合集數(shù)據(jù)庫,語言選擇為英文。盡管1995年CADD的概念就已經(jīng)被引入國(guó)內(nèi),但是在之后的15年間,由于理論和科研條件的限制,僅有極少的論文被發(fā)表,且發(fā)表時(shí)間具有隨機(jī)性,不具有統(tǒng)計(jì)學(xué)意義。在這個(gè)背景下,本文將文獻(xiàn)的檢索時(shí)間范圍設(shè)定為2010.1.1—2022.12.31。根據(jù)表1的數(shù)據(jù)篩選方式對(duì)本文需要的數(shù)據(jù)進(jìn)行初步篩選,關(guān)聯(lián)詞篩選全部使用模糊檢索。同時(shí),為了確保用于分析的文獻(xiàn)質(zhì)量,在篩選WOS數(shù)據(jù)庫時(shí)舍去了所有Open Access文獻(xiàn),會(huì)議、書籍、報(bào)刊、已撤回等意義不大的文獻(xiàn)。篩選之后,共計(jì)得到CNKI數(shù)據(jù)庫文獻(xiàn)1 096篇,WOS數(shù)據(jù)庫文獻(xiàn)2 859篇。最后,以人工的方式篩除所有相關(guān)性低的論文,并且導(dǎo)入CiteSpace進(jìn)行去重,最終得到的可分析文獻(xiàn)數(shù)量為CNKI數(shù)據(jù)庫文獻(xiàn)474篇,WOS數(shù)據(jù)庫文獻(xiàn)802篇。
表1 數(shù)據(jù)來源
根據(jù)上述數(shù)據(jù)可以發(fā)現(xiàn),在CADD領(lǐng)域文獻(xiàn)數(shù)量上,國(guó)內(nèi)相較于國(guó)外有明顯差距,僅有約60%的數(shù)量,說明國(guó)內(nèi)在CADD領(lǐng)域相較于國(guó)外起步晚、研究少。參考國(guó)外已有的CADD方向的研究成果和進(jìn)展,可以發(fā)現(xiàn)國(guó)內(nèi)CADD領(lǐng)域仍有相當(dāng)大的發(fā)展前景。因此,無論是借鑒國(guó)外已經(jīng)研究的方向繼續(xù)展開深入研究還是根據(jù)最新的方法提出全新的研究方向,都能夠充分發(fā)揮后發(fā)優(yōu)勢(shì),實(shí)現(xiàn)在CADD領(lǐng)域?qū)?guó)外的趕超。
各研究領(lǐng)域的內(nèi)容可以由文獻(xiàn)中的關(guān)鍵詞體現(xiàn),關(guān)鍵詞能夠高度概括文獻(xiàn)的主題和研究方法,而高頻率的關(guān)鍵詞往往被認(rèn)為是該領(lǐng)域的研究熱點(diǎn)[12]。CiteSpace提供針對(duì)“Keywords”的研究方法,將關(guān)鍵詞作為節(jié)點(diǎn),而節(jié)點(diǎn)大小則反應(yīng)關(guān)鍵詞的出現(xiàn)頻率,連線代表共現(xiàn)關(guān)系,連線的粗細(xì)代表關(guān)系的強(qiáng)弱[13]。本文對(duì)國(guó)內(nèi)外CADD領(lǐng)域相關(guān)文獻(xiàn)分別進(jìn)行關(guān)鍵詞分析,繪制關(guān)鍵詞網(wǎng)絡(luò),對(duì)比分析結(jié)果。
2.1 CADD領(lǐng)域的研究熱點(diǎn)分析
2.1.1 國(guó)內(nèi)研究熱點(diǎn)圖1所示的為國(guó)內(nèi)CADD領(lǐng)域的關(guān)鍵詞網(wǎng)絡(luò),圖中共包括327個(gè)節(jié)點(diǎn),521條連線。按照關(guān)鍵詞出現(xiàn)的頻率,對(duì)國(guó)內(nèi)CADD領(lǐng)域的關(guān)鍵詞進(jìn)行排序,如表2所示。表2中同時(shí)包含了關(guān)鍵詞出現(xiàn)頻率和中心度,中心度量化了周圍節(jié)點(diǎn)和中心節(jié)點(diǎn)之間的相關(guān)程度,反應(yīng)節(jié)點(diǎn)在圖中的重要程度。
圖1 中文文獻(xiàn)中CADD領(lǐng)域研究熱點(diǎn)
表2 中文文獻(xiàn)中CADD領(lǐng)域研究熱點(diǎn)(前10)
根據(jù)表2可以發(fā)現(xiàn),出現(xiàn)頻率最高的5個(gè)關(guān)鍵詞涉及的學(xué)科方法相似度較高,存在很強(qiáng)的關(guān)聯(lián)性,如機(jī)器學(xué)習(xí)和深度學(xué)習(xí)都是計(jì)算機(jī)自主解決問題的方法,且都是人工智能下的重要分支[14],深度學(xué)習(xí)可以通過構(gòu)建和訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)對(duì)數(shù)據(jù)的建模和學(xué)習(xí),在分析大型數(shù)據(jù)集和識(shí)別變量之間的復(fù)雜關(guān)系和中發(fā)揮著重要作用。在分析大型數(shù)據(jù)集方面,深度學(xué)習(xí)的一個(gè)主要優(yōu)勢(shì)是可以自動(dòng)從數(shù)據(jù)中學(xué)習(xí)特征表示[15]。與傳統(tǒng)特征工程方法相比,深度學(xué)習(xí)能夠從原始數(shù)據(jù)中學(xué)習(xí)到更高層次的抽象特征,而無需依賴領(lǐng)域?qū)<业南闰?yàn)知識(shí)。這使得深度學(xué)習(xí)在處理復(fù)雜數(shù)據(jù)集時(shí)具有更好的靈活性和表達(dá)能力,能夠發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和關(guān)聯(lián)性。在識(shí)別變量之間的復(fù)雜關(guān)系方面,深度學(xué)習(xí)的多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使其能夠捕捉到非線性的關(guān)系。相比于傳統(tǒng)的線性模型,深度學(xué)習(xí)可以通過多層非線性變換來建模輸入變量與輸出變量之間的復(fù)雜映射關(guān)系。這使得深度學(xué)習(xí)在處理包含大量變量和復(fù)雜交互關(guān)系的問題時(shí)更為強(qiáng)大,可以應(yīng)用于藥物再利用,即發(fā)現(xiàn)已有的藥物在其他疾病治療中的潛在用途[16]。從表2中還可以看出,從第6個(gè)關(guān)鍵詞開始,關(guān)鍵詞的出現(xiàn)頻率開始明顯降低,由此說明國(guó)內(nèi)CADD目前應(yīng)用的領(lǐng)域尚未得到充分開發(fā),現(xiàn)有的研究仍然只是集中在有限的幾個(gè)領(lǐng)域,尚有許多潛力等待挖掘。
分析圖1和表2可以發(fā)現(xiàn)CADD在國(guó)內(nèi)的研究熱點(diǎn)主要包括以下方面:
①“深度學(xué)習(xí)”和“人工智能”這兩個(gè)關(guān)鍵詞較高的出現(xiàn)頻率表明其已經(jīng)在藥物設(shè)計(jì)中被廣泛使用[16]。然而,其中心度還相對(duì)較低,說明它們目前仍不是目前CADD研究的必要方法。通過文獻(xiàn)分析已經(jīng)證明這兩種方法的使用可以彌補(bǔ)已有方法的短板,因此提高其在CADD中的使用率,擴(kuò)大其適用范圍,將是未來藥物設(shè)計(jì)的重要發(fā)展方向。
②關(guān)鍵詞“機(jī)器學(xué)習(xí)”的出現(xiàn)頻次排在第1位,中心度排在第2位,說明機(jī)器學(xué)習(xí)是目前CADD領(lǐng)域中使用最多,應(yīng)用范圍最廣的方法。盡管“分子對(duì)接”的出現(xiàn)頻次低于“機(jī)器學(xué)習(xí)”,但是中心度更高[17]。這是因?yàn)樵诨诮Y(jié)構(gòu)設(shè)計(jì)藥物的各類方法中,分子對(duì)接毋庸置疑是最重要的一種,也是目前業(yè)內(nèi)使用最多,普及最廣泛的一種方法,因?yàn)樵谑褂闷渌O(shè)計(jì)方法時(shí),同樣需要利用分子對(duì)接來進(jìn)行分子結(jié)構(gòu)設(shè)計(jì)[18]。
2.1.2 國(guó)外研究熱點(diǎn)圖2為國(guó)外CADD領(lǐng)域的關(guān)鍵詞網(wǎng)絡(luò),圖中共包括455個(gè)節(jié)點(diǎn),2 911條連線。按照關(guān)鍵詞出現(xiàn)的頻率,對(duì)國(guó)外CADD領(lǐng)域的關(guān)鍵詞進(jìn)行排序,如表3所示。
圖2 英文文獻(xiàn)中CADD領(lǐng)域研究熱點(diǎn)
表3 英文文獻(xiàn)中CADD領(lǐng)域研究熱點(diǎn)(前10)
分析發(fā)現(xiàn),現(xiàn)頻率最高的5個(gè)關(guān)鍵詞分別是“Machine learning”“Drug discovery”“Design”“Prediction”以及“Drug design”。其中“Drug discovery”“Design”和“Drug design”3個(gè)詞雖然出現(xiàn)頻次都很高,但是本質(zhì)上都可視為藥物設(shè)計(jì)這一關(guān)鍵詞的不同表述。這一現(xiàn)象說明藥物設(shè)計(jì)依舊是CADD的核心,而計(jì)算機(jī)只是藥物設(shè)計(jì)的輔助工具。和國(guó)內(nèi)的熱點(diǎn)相同,“Machine learning”也是國(guó)外熱點(diǎn)中出現(xiàn)頻次最高的關(guān)鍵詞,說明在CADD現(xiàn)有的方法中,機(jī)器學(xué)習(xí)是使用次數(shù)最多,使用范圍最廣,深受學(xué)者歡迎的一種方法[19]。相較國(guó)內(nèi),國(guó)外CADD領(lǐng)域每個(gè)關(guān)鍵詞的頻率都很高,而中心度數(shù)值不高且相對(duì)平均,由此說明,在國(guó)外CADD領(lǐng)域是一個(gè)研究熱門,研究人員眾多,熱點(diǎn)百花齊放,整個(gè)領(lǐng)域呈現(xiàn)出一片欣欣向榮。
分析圖2和表3的可以發(fā)現(xiàn)CADD在國(guó)外的研究熱點(diǎn)主要包括以下方面:
①藥物設(shè)計(jì)的概念。在藥物設(shè)計(jì)的過程中,面對(duì)海量的化合物,合成并驗(yàn)證其有效性需要花費(fèi)大量的成本。國(guó)外的研究發(fā)現(xiàn)使用計(jì)算機(jī)輔助可以最大限度地減少生物測(cè)定中需要篩選的配體數(shù)量,從而降低開發(fā)新藥的研發(fā)成本[20]。
②CADD的方法。國(guó)外CADD所使用的方法是包括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)在內(nèi)的人工智能方法。在上述的方法中,遺傳算法中心度最高,使用頻率僅次于機(jī)器學(xué)習(xí),這意味著專家學(xué)者和從業(yè)人員在使用人工智能方法進(jìn)行藥物設(shè)計(jì),大都會(huì)使用到遺傳算法[21]。遺傳算法是一種啟發(fā)式搜索方法,應(yīng)用進(jìn)化論原理模擬遺傳中發(fā)生的復(fù)制、交叉和變異現(xiàn)象,通過隨機(jī)選擇、交叉和變異操作對(duì)給定的搜索問題提出近似最優(yōu)解[22]。同時(shí),遺傳算法具有很好的收斂性,計(jì)算時(shí)間少,算法魯棒性高,適用于處理各種問題,其理論依據(jù)與CADD的理論不謀而合[23]。
③CADD解決問題的方式。國(guó)外的研究發(fā)現(xiàn),CADD能夠?qū)衔锖桶悬c(diǎn)進(jìn)行識(shí)別,根據(jù)它們的相互作用關(guān)系,預(yù)測(cè)先導(dǎo)化合物,根據(jù)預(yù)測(cè)出的化合物進(jìn)行分子對(duì)接,然后篩選出能合成且活性高的部分進(jìn)行試驗(yàn),達(dá)到設(shè)計(jì)藥物的最終目的。
2.2 關(guān)鍵詞聚類分析在關(guān)鍵詞網(wǎng)絡(luò)的基礎(chǔ)上,根據(jù)K-means算法,繪制關(guān)鍵詞聚類圖用以了解近10年來的CADD的主要研究方向。聚類算法將相似度大的節(jié)點(diǎn)放在同一聚類中,盡可能保證不同聚類的差異性達(dá)到最大[24]。聚類編號(hào)越小,聚類的規(guī)模越大,聚類包含的數(shù)量也就越多。本文選擇前7個(gè)較大的聚類進(jìn)行分析。
2.2.1 國(guó)內(nèi)關(guān)鍵詞聚類分析圖3所示的為國(guó)內(nèi)CADD領(lǐng)域的聚類圖。
圖3 中文文獻(xiàn)中CADD領(lǐng)域聚類圖
表4所示的聚類結(jié)果反映了國(guó)內(nèi)CADD的工作路線,該工作路線也是目前國(guó)內(nèi)CADD主要的研究方向?!皺C(jī)器學(xué)習(xí)”“深度學(xué)習(xí)”和“人工智能”是CADD領(lǐng)域中所使用的方法。根據(jù)圖3可以發(fā)現(xiàn)目前計(jì)算機(jī)對(duì)藥物設(shè)計(jì)的影響主要體現(xiàn)在人工智能的算法領(lǐng)域,即使用合適的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法對(duì)藥物進(jìn)行分析和設(shè)計(jì)?!胺肿訉?duì)接”“虛擬篩選”和“合成”是計(jì)算機(jī)參與設(shè)計(jì)藥物的具體手段,虛擬篩選中包括研究藥物的藥效基團(tuán),發(fā)現(xiàn)藥物分子的關(guān)鍵藥效特征,預(yù)測(cè)藥物的藥理活性篩除沒有活性的化合物等具體方法,通過計(jì)算機(jī)合成分子式,對(duì)分子的作用靶點(diǎn)進(jìn)行預(yù)測(cè)和篩選。設(shè)計(jì)者通過計(jì)算機(jī)合成分子式,對(duì)分子的作用靶點(diǎn)進(jìn)行預(yù)測(cè)和篩選。“藥物療法”是CADD的目標(biāo),即利用計(jì)算機(jī)參與藥物設(shè)計(jì),從而進(jìn)行新藥開發(fā)的相關(guān)工作。
表4 中文文獻(xiàn)中CADD領(lǐng)域聚類分析(前7)
2.2.2 國(guó)外關(guān)鍵詞聚類分析圖4所示的為國(guó)外CADD領(lǐng)域的聚類圖,表5列出了英文文獻(xiàn)中排在前7的聚類詞。
圖4 英文文獻(xiàn)中CADD領(lǐng)域聚類圖
表5 英文文獻(xiàn)中CADD領(lǐng)域聚類分析(前7)
根據(jù)圖4和表5顯示,國(guó)外聚類規(guī)模最大是“scoring function”,而這個(gè)方向在國(guó)內(nèi)聚類中沒有體現(xiàn)。評(píng)分函數(shù)主要被用來對(duì)化合物進(jìn)行評(píng)估,確定化合物的結(jié)構(gòu)和結(jié)合靶點(diǎn)的能力。該函數(shù)的應(yīng)用在實(shí)際進(jìn)行藥物設(shè)計(jì)時(shí)是絕對(duì)不可或缺的一步,尤其是在商用情況下。國(guó)外的CADD領(lǐng)域發(fā)展較早,已經(jīng)完成從實(shí)驗(yàn)室到生產(chǎn)線的轉(zhuǎn)化,而國(guó)內(nèi)CADD由于發(fā)展較晚,目前和商業(yè)結(jié)合度較低,大多在高校或研究院中使用。聚類詞“feature extraction”在國(guó)外的CADD中被廣泛使用,包括定量構(gòu)效關(guān)系、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法。而國(guó)內(nèi),由于CADD起步較晚,發(fā)展較慢,目前理論分析仍大于實(shí)際應(yīng)用,且更多是在中藥靶點(diǎn)分析設(shè)計(jì)使用中,數(shù)據(jù)量相對(duì)較小,因此在特征提取方面沒有得到深入研究[25]。聚類詞“tool”則解釋了CADD的屬性,是一種用于藥物設(shè)計(jì)的工具。而聚類詞“machine learning”和“virtual screening”則與國(guó)內(nèi)聚類結(jié)果相同,再一次證明了這兩個(gè)方法對(duì)于CADD領(lǐng)域的重要性。聚類詞“design”說明了國(guó)外的CADD的路線同樣是利用相關(guān)算法進(jìn)行包括分子對(duì)接在內(nèi)的相關(guān)工作,最終實(shí)現(xiàn)目標(biāo)藥物的設(shè)計(jì),這一點(diǎn)與國(guó)內(nèi)是一致的。由此說明,國(guó)內(nèi)CADD的相關(guān)工作大多仍是基于對(duì)國(guó)外的學(xué)習(xí)。
在進(jìn)行可視化分析時(shí),演進(jìn)趨勢(shì)能夠清晰地表示目標(biāo)領(lǐng)域的發(fā)展方向,本文利用CiteSpace提供的“Timezone”方式,根據(jù)關(guān)鍵詞出現(xiàn)的時(shí)間節(jié)點(diǎn)和出現(xiàn)頻率繪制了分布時(shí)序圖。其中,關(guān)鍵詞為節(jié)點(diǎn),關(guān)鍵詞之間的關(guān)系為連線,節(jié)點(diǎn)所在位置為該關(guān)鍵詞在數(shù)據(jù)集中首次出現(xiàn)的年份,節(jié)點(diǎn)大小和顏色的深淺度反映了關(guān)鍵詞出現(xiàn)的頻率。通過對(duì)分布時(shí)序圖的分析,能夠清楚的了解CADD的演進(jìn)趨勢(shì)。
3.1 國(guó)內(nèi)CADD領(lǐng)域的演進(jìn)趨勢(shì)分析圖5為國(guó)內(nèi)CADD的分布時(shí)序圖,時(shí)間范圍為2010—2022年。
圖5 中文文獻(xiàn)中CADD領(lǐng)域分布時(shí)序圖
在20世紀(jì)80年代,雖然國(guó)外CADD理論的誕生和傳播對(duì)國(guó)內(nèi)的藥物設(shè)計(jì)產(chǎn)生了影響,但直到21世紀(jì)該理論才逐漸被國(guó)內(nèi)的學(xué)者應(yīng)用在實(shí)踐中[26]。從圖5中可以發(fā)現(xiàn)在人工智能算法被引入CADD之前,國(guó)內(nèi)就已經(jīng)使用虛擬篩選和分子對(duì)接方法進(jìn)行藥物設(shè)計(jì)[27-28]。隨著個(gè)人電腦的普及和國(guó)產(chǎn)超級(jí)計(jì)算機(jī)的出現(xiàn),利用計(jì)算機(jī)進(jìn)行藥物設(shè)計(jì)逐漸走進(jìn)研究人員的視野。盡管機(jī)器學(xué)習(xí)很早就以數(shù)據(jù)挖掘的方式被應(yīng)用于碩博畢業(yè)論文中,但真正用于藥物設(shè)計(jì)并被期刊發(fā)表則起始于2008年,且每年只有零星的相關(guān)論文發(fā)表[29]。直到2015年,機(jī)器學(xué)習(xí)在中文期刊中的數(shù)量才逐漸增多,但是數(shù)量依舊有限。同樣的情況也體現(xiàn)在深度學(xué)習(xí)上,第一篇藥物設(shè)計(jì)與深度學(xué)習(xí)相關(guān)的文獻(xiàn)發(fā)表于2015年[30]。圖5中大部分關(guān)鍵詞都非常寬泛,這是由于雖然近5年國(guó)內(nèi)相關(guān)文獻(xiàn)的數(shù)量逐漸增多,但是對(duì)CADD的研究更多還是集中在理論研究上,主要包括對(duì)CADD的原理和適用范圍等內(nèi)容的研究[31]。同時(shí),國(guó)內(nèi)原本就有限的文章還大多為綜述類文章,研究性文章數(shù)量很少,因此國(guó)內(nèi)的CADD領(lǐng)域在具體實(shí)驗(yàn)方面還有很大的發(fā)展空間。
3.2 國(guó)外CADD領(lǐng)域的演進(jìn)趨勢(shì)分析圖6為國(guó)外CADD的分布時(shí)序圖,時(shí)間范圍為2010—2022年。
圖6 英文文獻(xiàn)中CADD領(lǐng)域分布時(shí)序圖
1985年,隨著第一篇CADD文章在國(guó)外發(fā)表,標(biāo)志著計(jì)算機(jī)正式被引入藥物設(shè)計(jì)領(lǐng)域[32]。國(guó)外關(guān)于分子對(duì)接和虛擬篩選在藥物設(shè)計(jì)的應(yīng)用分別起始于1992年[33]和1995年[34],明顯領(lǐng)先國(guó)內(nèi),但是近10年來,與二者相關(guān)的文章比例相對(duì)較小。造成這一現(xiàn)象的原因是,國(guó)外分子對(duì)接和虛擬篩選的方法在CADD中提出早,實(shí)現(xiàn)早,應(yīng)用早,目前已經(jīng)應(yīng)用于商業(yè)藥物研發(fā),對(duì)它們的研究已經(jīng)非常充分,在實(shí)驗(yàn)中很難有進(jìn)一步的提升空間[35]。相較于國(guó)內(nèi),國(guó)外機(jī)器學(xué)習(xí)算法的應(yīng)用甚至早于分子對(duì)接,1991年就提出用機(jī)器學(xué)習(xí)的方法來進(jìn)行預(yù)測(cè)分子[36]。從21世紀(jì)開始,國(guó)外相關(guān)文獻(xiàn)的數(shù)量穩(wěn)步增加,每年發(fā)表的文獻(xiàn)數(shù)量超過國(guó)內(nèi)發(fā)表文獻(xiàn)數(shù)量的10倍。根據(jù)圖6可以發(fā)現(xiàn),機(jī)器學(xué)習(xí)中的一系列算法逐步被應(yīng)用在藥物設(shè)計(jì)中,以解決遇到的實(shí)際問題。由機(jī)器學(xué)習(xí)延伸的深度學(xué)習(xí)算法盡管被使用的時(shí)間不長(zhǎng),但使用的頻率卻很高,尤其是復(fù)雜神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)等內(nèi)容更是熱門。去除代表藥物發(fā)現(xiàn)、設(shè)計(jì)等缺乏具體意義的節(jié)點(diǎn),遺傳算法在該領(lǐng)域分布時(shí)序圖中具有十分重要的地位,其可以被認(rèn)為是人工智能算法中使用頻率最高的算法之一[37]。目前,國(guó)外的研究人員還在不斷地根據(jù)生物學(xué)的需要對(duì)算法進(jìn)行優(yōu)化改進(jìn),以期望達(dá)到更好的預(yù)測(cè)效果。
突變?cè)~是指關(guān)鍵詞在某一年出現(xiàn)并隨后出現(xiàn)爆發(fā)式增長(zhǎng),其可以利用CiteSpace中提供的“Burstness”方法找到。突變?cè)~可以用于了解一個(gè)領(lǐng)域在這個(gè)時(shí)間段內(nèi)的研究熱點(diǎn)并預(yù)測(cè)該領(lǐng)域未來的發(fā)展趨勢(shì)。本文選擇前十位關(guān)鍵詞繪制CADD領(lǐng)域的突變?cè)~圖譜,“Strength”代表突變強(qiáng)度,“Begin”代表突現(xiàn)開始時(shí)間,“End”表示突現(xiàn)結(jié)束時(shí)間,紅色代表突現(xiàn)持續(xù)時(shí)間。
4.1 國(guó)內(nèi)CADD領(lǐng)域的未來趨勢(shì)分析圖7為國(guó)內(nèi)CADD的突變?cè)~圖譜,時(shí)間范圍為2010—2022年。
圖7 中文文獻(xiàn)中CADD領(lǐng)域突變?cè)~圖譜
如圖7所示,國(guó)內(nèi)近幾年CADD領(lǐng)域的研究熱點(diǎn)在深度學(xué)習(xí)和機(jī)器學(xué)習(xí),通過這兩個(gè)方法進(jìn)行藥物研發(fā)。同時(shí),深度學(xué)習(xí)的突現(xiàn)強(qiáng)度非常高,可預(yù)見國(guó)內(nèi)CADD未來的研究方向?qū)⒂腥缦伦兓?
①傳統(tǒng)CADD中使用的分子對(duì)接和虛擬篩選方法經(jīng)過一段時(shí)間大量使用后,技術(shù)層面已經(jīng)發(fā)展非常成熟,因此使用頻率已經(jīng)趨于穩(wěn)定。目前分子對(duì)接和虛擬篩選更多被應(yīng)用于實(shí)踐中,在未來也將更多作為成熟的藥物發(fā)現(xiàn)手段,應(yīng)用在藥物合成實(shí)驗(yàn)之前,而不再是作為一個(gè)創(chuàng)新方法。同源建模是一種根據(jù)已知結(jié)構(gòu)的蛋白和同源蛋白之間的結(jié)構(gòu)差異來預(yù)測(cè)蛋白質(zhì)功能和特異性變化的方法。該方法曾經(jīng)風(fēng)靡一時(shí),但在實(shí)際使用過程中仍有較多問題難以解決,主要包括對(duì)較長(zhǎng)的結(jié)構(gòu)發(fā)散區(qū)域進(jìn)行建模。因此,該方法目前實(shí)際上已經(jīng)陷入瓶頸,不再成為未來研究的主要方向[38]。
②自人工智能方法被引入藥物設(shè)計(jì)中后,很快在藥物設(shè)計(jì)領(lǐng)域異軍突起,直到當(dāng)下仍然是研究重點(diǎn)。深度學(xué)習(xí)作為人工智能方法的一種,突現(xiàn)強(qiáng)度非常高,說明其受到了研究人員的廣泛關(guān)注。在藥物發(fā)現(xiàn)階段,深度學(xué)習(xí)可以對(duì)大量化合物的結(jié)構(gòu)和活性數(shù)據(jù)進(jìn)行訓(xùn)練,從而預(yù)測(cè)新的化合物的活性和潛在藥效[39]。通過對(duì)已有藥物的藥理數(shù)據(jù)和疾病信息進(jìn)行學(xué)習(xí),深度學(xué)習(xí)可以幫助識(shí)別出已有藥物與其他疾病之間的關(guān)聯(lián)性,從而推斷其在新的治療領(lǐng)域的潛在應(yīng)用。此外,深度學(xué)習(xí)還可以用于預(yù)測(cè)藥物代謝、藥物相互作用和藥物副作用等方面。通過對(duì)大量藥物相關(guān)數(shù)據(jù)的學(xué)習(xí),深度學(xué)習(xí)可以輔助預(yù)測(cè)藥物的代謝途徑、相互作用和潛在副作用,從而幫助藥物研發(fā)人員在早期階段對(duì)候選化合物進(jìn)行篩選和評(píng)估[40]。隨著研究的不斷深入,深度學(xué)習(xí)會(huì)更加貼合藥物設(shè)計(jì)的需求,其未來必將成為CADD領(lǐng)域研究的重要方法。
4.2 國(guó)外CADD領(lǐng)域的未來趨勢(shì)分析圖8為國(guó)外CADD的突變?cè)~圖譜,時(shí)間范圍為2010—2022年。
圖8 英文文獻(xiàn)中CADD領(lǐng)域突變?cè)~圖譜
如圖8所示,前十的關(guān)鍵詞在2020年以前都已經(jīng)結(jié)束突現(xiàn),其中“genetic algorithm”的突現(xiàn)強(qiáng)度非常高。因此,可預(yù)見國(guó)外CADD未來的研究方向?qū)⒂腥缦伦兓?
①前十的關(guān)鍵詞的突變都出現(xiàn)在2020年以前,且突變強(qiáng)度都非常高。其中g(shù)enetic algorithm的突變強(qiáng)度高達(dá)19.37,一度被認(rèn)為是當(dāng)時(shí)CADD領(lǐng)域研究的最前沿。但隨著時(shí)間的推移,遺傳算法逐漸成熟,已經(jīng)成為CADD領(lǐng)域中常用的方法,雖然具有很強(qiáng)的實(shí)用價(jià)值,但是在研究領(lǐng)域很難有進(jìn)一步的提升空間,無法代表國(guó)外CADD領(lǐng)域未來的研究方向。
②雖然關(guān)鍵詞數(shù)量很多,且方向各不相同,在研究方向上呈現(xiàn)百花齊放的態(tài)勢(shì)。但是,近兩年有突現(xiàn)表現(xiàn)的關(guān)鍵詞的突現(xiàn)強(qiáng)度都不高,說明國(guó)外CADD領(lǐng)域近兩年沒有普適性強(qiáng)的新方法提出,大多研究是在已經(jīng)提出的大方向上進(jìn)行細(xì)化,或者根據(jù)具體需要實(shí)現(xiàn)的目的進(jìn)行分類研究。
使用CiteSpace作為研究工具,對(duì)從CNKI數(shù)據(jù)庫和WOS數(shù)據(jù)庫中2010—2022年的國(guó)內(nèi)外CADD領(lǐng)域相關(guān)文獻(xiàn)進(jìn)行基于知識(shí)圖譜的可視化分析,獲得其在研究熱點(diǎn)、演進(jìn)趨勢(shì)、未來發(fā)展方向的研究結(jié)論如下:
①?gòu)难芯繜狳c(diǎn)來看,國(guó)內(nèi)CADD領(lǐng)域的研究更多在已經(jīng)成熟的方法,包括虛擬篩選和分子對(duì)接,新方法仍然更多停留在理論階段,且具體應(yīng)用較少。國(guó)外CADD領(lǐng)域的研究更多偏向新方法的實(shí)際應(yīng)用,目前已經(jīng)做到將成熟的工具應(yīng)用在工業(yè)生產(chǎn)中的同時(shí),基于不同的需求開發(fā)針對(duì)性的算法。國(guó)內(nèi)在新方法、新工具的使用上不能拘泥于已經(jīng)證明有用的方法,應(yīng)當(dāng)積極嘗試一些尚未應(yīng)用于藥物設(shè)計(jì)領(lǐng)域的新方法,提出具有自主知識(shí)產(chǎn)權(quán)的新方法,打破國(guó)外的知識(shí)壁壘,為未來行業(yè)發(fā)展夯實(shí)基礎(chǔ)。
②從演進(jìn)趨勢(shì)來看,國(guó)內(nèi)CADD領(lǐng)域的研究相較于國(guó)外具有起步晚、增長(zhǎng)慢、應(yīng)用少的不足,大多方法都是由國(guó)外研究人員首先提出后國(guó)內(nèi)才開始使用。國(guó)外CADD領(lǐng)域隨著計(jì)算機(jī)迭代更新不斷發(fā)展,一直走在領(lǐng)域最前沿。相較于國(guó)外,國(guó)內(nèi)在CADD領(lǐng)域一定程度上擁有后發(fā)優(yōu)勢(shì),如何充分利用后發(fā)優(yōu)勢(shì)值得我們深思。充分汲取國(guó)外的成功經(jīng)驗(yàn),在研究中少走彎路,同時(shí)思維不受已有成果的影響,用自己的方法開創(chuàng)出真正適合國(guó)內(nèi)CADD的研究成果是當(dāng)下國(guó)內(nèi)學(xué)者的共同目標(biāo)。
③從未來發(fā)展來看,對(duì)于CADD本身而言,其最新發(fā)展是使用深度學(xué)習(xí)算法來預(yù)測(cè)潛在候選藥物的特性,能夠輔助CADD分析大型數(shù)據(jù)集和識(shí)別變量之間的復(fù)雜關(guān)系并最終幫助藥物設(shè)計(jì)。國(guó)內(nèi)CADD領(lǐng)域的研究需要提高實(shí)驗(yàn)比例,同時(shí)針對(duì)算法進(jìn)行更加深度的研究,將算法真正用到藥物設(shè)計(jì)的實(shí)際應(yīng)用中。而國(guó)外CADD領(lǐng)域則將繼續(xù)根據(jù)實(shí)際需求對(duì)算法做進(jìn)一步細(xì)化修改,使其盡可能貼合藥物設(shè)計(jì)的需求,從而提高設(shè)計(jì)任務(wù)完成的精確度。理論研究是實(shí)踐的基礎(chǔ),但是空談理論不加以應(yīng)用,理論就失去了存在價(jià)值。只有將現(xiàn)階段國(guó)內(nèi)CADD領(lǐng)域的理論知識(shí)盡快應(yīng)用于實(shí)踐,才能進(jìn)一步促進(jìn)理論知識(shí)的更新和發(fā)展,跟上國(guó)外CADD研究的前沿方向。
結(jié)合上述結(jié)論和目前國(guó)內(nèi)CADD領(lǐng)域的研究現(xiàn)狀和,本文提出如下建議:①積極將理論應(yīng)用于為實(shí)踐,根據(jù)成功的實(shí)踐推動(dòng)理論的持續(xù)發(fā)展,實(shí)現(xiàn)CADD領(lǐng)域的良性循環(huán);②加強(qiáng)CADD,特別是關(guān)于人工智能算法方向的實(shí)際應(yīng)用,積極學(xué)習(xí)國(guó)外在應(yīng)用方面的經(jīng)驗(yàn),打破國(guó)外在CADD領(lǐng)域的知識(shí)壁壘,提出具有自主知識(shí)產(chǎn)權(quán)的CADD設(shè)計(jì)方法;③密切關(guān)注計(jì)算機(jī)算法研究的最新動(dòng)向,取其精華來補(bǔ)充CADD存在的不足,以期在推動(dòng)國(guó)內(nèi)CADD研究向前發(fā)展的同時(shí),豐富CADD領(lǐng)域應(yīng)用的新方向,使得國(guó)內(nèi)的研究能夠始終走在技術(shù)革新的最前沿,最終讓國(guó)內(nèi)在CADD領(lǐng)域真正獲得全面發(fā)展,在未來實(shí)現(xiàn)對(duì)國(guó)外研究的超越。