廖靈志 楊智歡 洪玲慧 李 瑾
(西南醫(yī)科大學(xué) 醫(yī)學(xué)信息與工程學(xué)院,四川 瀘州646000)
分子對(duì)接[1]算法中的采樣方法,即構(gòu)象搜索方法對(duì)于分子對(duì)接的精度、尤其是效率有著至關(guān)重要的影響。早期構(gòu)象搜索中應(yīng)用的算法包括:遺傳算法[2]、模擬退火[3]、禁忌搜索[4]等各種方法。隨著群體智能算法的發(fā)展,一種新的群體智能算法——煙花算法[5,6]因其具有很強(qiáng)的優(yōu)化問(wèn)題求解能力而倍受關(guān)注。本文對(duì)分子對(duì)接中的構(gòu)象搜索問(wèn)題展開(kāi)研究,提出一種基于煙花算法的構(gòu)象搜索方法,我們的工作證明了煙花算法在解決蛋白質(zhì)- 配體對(duì)接的構(gòu)象搜索問(wèn)題方面表現(xiàn)出的強(qiáng)大性能,具有更快的收斂速度,更加穩(wěn)定的表現(xiàn)。
2.2.1 煙花初始化
2.2.2 爆炸算子
將煙花按適應(yīng)度值進(jìn)行排序,通過(guò)煙花的適應(yīng)度值排序進(jìn)行火花數(shù)目的分配,而不再依賴適應(yīng)度值數(shù)值本身。采用公式(3)的方式進(jìn)行火花數(shù)目的計(jì)算,公式如下所示:
其中,M為每個(gè)煙花最多爆炸的火花數(shù)目;ri表示煙花wi的適應(yīng)度值排序。
我們將該構(gòu)象搜索算法的解空間搜索范圍分為三個(gè)層次。一是構(gòu)象中心位置在蛋白質(zhì)結(jié)合口袋中的變化;二是構(gòu)象中心位置固定后,取向的變化;三是中心位置和取向固定后,可扭轉(zhuǎn)鍵的鍵角變化。因此,對(duì)應(yīng)解空間的這三個(gè)層次,將煙花爆炸的范圍劃分為如下三個(gè)區(qū)域:
Ω1:變化區(qū)域?yàn)榭膳まD(zhuǎn)鍵變化,范圍為[-π, π];
Ω2:變化區(qū)域?yàn)槿∠蜃儎?dòng),范圍為[-π, π];
Ω3:變化區(qū)域?yàn)橹行奈恢米儎?dòng)。
從Ω1 到Ω3 代表爆炸半徑越來(lái)越大。
若爆炸后的火花為不可行解,則在解空間里隨機(jī)生成一個(gè)火花。
2.2.3 變異算子
FWAVina 采用隨機(jī)變異的方式來(lái)產(chǎn)生變異煙花,以增加種群多樣性,避免陷入局部最優(yōu)。從煙花種群(包含N 個(gè)初始煙花及S 個(gè)爆炸出的火花)中隨機(jī)選擇N 個(gè)煙花,每個(gè)煙花隨機(jī)選擇幾個(gè)維度,將這些維度上隨機(jī)產(chǎn)生變量得到變異個(gè)體。
2.2.4 煙花選擇策略
當(dāng)代種群中的N 個(gè)初始煙花、S 個(gè)火花、N 個(gè)變異煙花構(gòu)成了候選集合K,從候選集合K 中選擇N 個(gè)個(gè)體作為下一代初始煙花。
FWAVina 構(gòu)象搜索方法的具體步驟可以分成如下幾步。
2.3.1 煙花初始化。初始化N 個(gè)煙花(每個(gè)煙花代表一個(gè)配體的構(gòu)象),將配體構(gòu)象表示為解向量,設(shè)置AutodockVina 打分函數(shù)為適應(yīng)度函數(shù)。
2.3.2 煙花爆炸。根據(jù)煙花爆炸范圍的計(jì)算公式和產(chǎn)生火花數(shù)量的計(jì)算方法,將初始煙花進(jìn)行爆炸,產(chǎn)生爆炸火花,其數(shù)量用S 表示。
2.3.3 煙花變異。從N 個(gè)煙花和S 個(gè)火花中隨機(jī)選擇N 個(gè)個(gè)體,每個(gè)個(gè)體按照煙花變異策略發(fā)生變異,形成變異煙花。
2.3.4 煙花選擇。將候選集合(包括當(dāng)代種群中的N 個(gè)煙花、S 個(gè)爆炸火花和N 個(gè)變異火花) 中的所有煙花按適應(yīng)度函數(shù)值從小到大排序,按選擇策略選擇N 個(gè)煙花組成下一代種群。
2.3.5 判斷適應(yīng)度函數(shù)值是否滿足收斂準(zhǔn)則,如果是,轉(zhuǎn)步驟2.3.7,否則,轉(zhuǎn)步驟2.3.6。
2.3.6 判斷是否達(dá)到最大迭代次數(shù),如果是,轉(zhuǎn)步驟2.3.7,否則,轉(zhuǎn)步驟2.3.2。
2.3.7 輸出近似最優(yōu)配體構(gòu)象以及分值。
為了測(cè)試FWAVina 在對(duì)接和虛擬篩選中的性能,我們使用了廣泛應(yīng)用的標(biāo)準(zhǔn)數(shù)據(jù)PDBbind 的核心集。對(duì)核心集中的每個(gè)復(fù)合物分別進(jìn)行了30 次對(duì)接,然后每個(gè)復(fù)合物的預(yù)測(cè)結(jié)合能、RMSD 值及運(yùn)行時(shí)間均取其平均值。201 個(gè)復(fù)合物的平均結(jié)合能、平均RMSD 值、平均運(yùn)行時(shí)間見(jiàn)表1。我們分別對(duì)Vina 和FWAVina 預(yù)測(cè)的201 個(gè)復(fù)合物的結(jié)合能、RMSD 值以及運(yùn)行時(shí)間,進(jìn)行配對(duì)樣本t 檢驗(yàn)。p 值表明FWAVina 預(yù)測(cè)構(gòu)象的結(jié)合能、RMSD 值以及運(yùn)行時(shí)間均顯著低于Vina。另外,表1 中展示了Vina 和FWAVina 30 次對(duì)接的平均準(zhǔn)確率,即201 個(gè)復(fù)合物對(duì)接一次后計(jì)算準(zhǔn)確率,一共對(duì)接30 次,準(zhǔn)確率取其平均值。
在運(yùn)行效率方面,與Vina 相比,FWAVina 的執(zhí)行時(shí)間減少了52.5%,見(jiàn)表1。顯然,FWAVina 的對(duì)接速度有了很大的提高。在基于分子對(duì)接的虛擬篩選應(yīng)用方面,分子對(duì)接程序的速度對(duì)虛擬篩選的效率起決定性作用,因此一個(gè)快速的分子對(duì)接程序更適合應(yīng)用于藥物的虛擬篩選。
表1 在Coreset 數(shù)據(jù)集上進(jìn)行30 次對(duì)接后Vina 和FWAVina 的對(duì)接性能對(duì)比
本文提出了一種基于煙花算法的分子構(gòu)象搜索方法,并且在AutodockVina 的框架上予以實(shí)現(xiàn),編寫了分子對(duì)接程序FWAVina。其次,本文在PDBbind 數(shù)據(jù)集上進(jìn)行了分子對(duì)接模擬。結(jié)果表明,FWAVina 與Vina 相比,分子對(duì)接的準(zhǔn)確性略有提升,而對(duì)接效率提升較大,并且FWAVina 對(duì)于不同柔性的配體對(duì)接來(lái)說(shuō)迭代次數(shù)不會(huì)呈現(xiàn)大幅上升。