姚建華 徐雯麗 蔣舒仰 胡 靜 李 佳
中國(guó)科學(xué)院能量調(diào)控材料重點(diǎn)實(shí)驗(yàn)室,中國(guó)科學(xué)院上海有機(jī)化學(xué)研究所(上海 200032)
化學(xué)信息學(xué)是采用計(jì)算機(jī)科學(xué)和信息學(xué)方法及技術(shù)解決化學(xué)問(wèn)題[1-3]的一門學(xué)科,是涉及化學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)以及化學(xué)應(yīng)用領(lǐng)域等多學(xué)科的交叉學(xué)科,屬人工智能范疇?;瘜W(xué)信息學(xué)方法和技術(shù)可用于解決各個(gè)領(lǐng)域中的化學(xué)問(wèn)題。所謂化學(xué)問(wèn)題主要包括:分子設(shè)計(jì)、合成設(shè)計(jì)/反應(yīng)預(yù)測(cè)、結(jié)構(gòu)確定。
化學(xué)信息學(xué)方法主要有三大類:基于數(shù)據(jù)、基于邏輯和基于原理。
具體而言,基于數(shù)據(jù)即建立對(duì)應(yīng)的數(shù)據(jù)庫(kù)系統(tǒng),并利用數(shù)據(jù)庫(kù)系統(tǒng)獲取所需的數(shù)據(jù)和信息。這種方法的特點(diǎn)是只能得到已被數(shù)據(jù)庫(kù)系統(tǒng)收錄的化學(xué)信息,且只適用于獲取已知對(duì)象的數(shù)據(jù)?;谶壿嫾闯浞掷靡咽占拇罅空_的化學(xué)實(shí)驗(yàn)數(shù)據(jù),以及相關(guān)的邏輯推理、歸納和演繹的方法,對(duì)已收集的數(shù)據(jù)進(jìn)行分析、歸納,從中獲取相關(guān)的知識(shí)、規(guī)則和關(guān)系,并利用這些規(guī)則、知識(shí)和對(duì)應(yīng)關(guān)系,對(duì)新化合物、合成路線/反應(yīng)、結(jié)構(gòu)和譜圖進(jìn)行相應(yīng)的預(yù)測(cè)。這種方法的特點(diǎn)是可以處理大批量的數(shù)據(jù)和大的體系,但它不能從原理上解釋預(yù)測(cè)結(jié)果?;谠砑蠢孟嚓P(guān)的理論計(jì)算方法計(jì)算化合物的能量和相關(guān)性質(zhì),根據(jù)計(jì)算結(jié)果,實(shí)現(xiàn)分子設(shè)計(jì)、合成設(shè)計(jì)/反應(yīng)預(yù)測(cè)、結(jié)構(gòu)解析及譜圖模擬。該方法的特點(diǎn)是可以從原理上解釋它們的結(jié)果,但不適用于處理大批數(shù)據(jù)和大的體系??梢?,三類方法各有特點(diǎn),適用于解決不同狀態(tài)下的化學(xué)問(wèn)題。
自1946年第一臺(tái)計(jì)算機(jī)誕生起,人們就開始關(guān)注,如何利用計(jì)算機(jī)處理各種數(shù)據(jù)。在化學(xué)領(lǐng)域,在1957年之前,便有相關(guān)研究工作的報(bào)道[4-5]。隨著應(yīng)用研究的不斷深入,計(jì)算機(jī)在化學(xué)領(lǐng)域的應(yīng)用,從化學(xué)研究本身的數(shù)據(jù)存儲(chǔ)、查詢和分析,逐步深入到分子設(shè)計(jì)、合成設(shè)計(jì)/反應(yīng)預(yù)測(cè)、結(jié)構(gòu)確定,即應(yīng)用于解決化學(xué)問(wèn)題的工作中[2,6-7]。
1998年之前,采用計(jì)算機(jī)技術(shù)開展分子設(shè)計(jì)、合成設(shè)計(jì)或結(jié)構(gòu)確定工作,通常以“計(jì)算機(jī)輔助”作為標(biāo)識(shí),并未形成專門的一個(gè)學(xué)科。1998年,布朗(Brown)博士認(rèn)識(shí)到應(yīng)用信息技術(shù)和管理已成為藥物發(fā)現(xiàn)過(guò)程中的一個(gè)關(guān)鍵部分,并首次提出了化學(xué)信息學(xué)的定義:化學(xué)信息學(xué)可將這些信息資源組合起來(lái),將數(shù)據(jù)轉(zhuǎn)化為信息,再將信息轉(zhuǎn)化為知識(shí),以便于在確定和優(yōu)化藥物先導(dǎo)方面快速作出較合理的決策[8]。盡管布朗博士基于藥物研發(fā)領(lǐng)域提出了化學(xué)信息學(xué)的概念,但隨著計(jì)算機(jī)和信息技術(shù)在化學(xué)領(lǐng)域中應(yīng)用的不斷深入,化學(xué)信息學(xué)的定義經(jīng)多次完善后,在2003年,它的定義被描述為:應(yīng)用信息學(xué)方法及技術(shù)解決化學(xué)問(wèn)題[3]。之后,它的定義繼續(xù)得到補(bǔ)充和完善:化學(xué)信息學(xué)是采用計(jì)算機(jī)科學(xué)和信息學(xué)方法及技術(shù)解決化學(xué)問(wèn)題[1-3]的一門學(xué)科,是涉及化學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)以及化學(xué)應(yīng)用領(lǐng)域等多學(xué)科的交叉學(xué)科。它的方法和技術(shù)可用于解決所有領(lǐng)域中的化學(xué)問(wèn)題。
2003年,以色列化學(xué)家A.Shani博士發(fā)表了一篇題為“化學(xué)幾乎無(wú)處不在”的文章[9]。在該文中,他介紹了化學(xué)的作用,以及與化學(xué)相關(guān)的領(lǐng)域,如生物、醫(yī)藥、生態(tài)、材料、地球科學(xué)、農(nóng)業(yè)、環(huán)境、生物體內(nèi)的各種變化等,它們都與化學(xué)密不可分。為此,我們可以認(rèn)為這些領(lǐng)域中的部分問(wèn)題,本質(zhì)上是屬于化學(xué)問(wèn)題的范疇:分子設(shè)計(jì)、合成設(shè)計(jì)/反應(yīng)預(yù)測(cè)、結(jié)構(gòu)確定。
分子設(shè)計(jì)即采用多種技術(shù)發(fā)現(xiàn)具有特定應(yīng)用所需特定性質(zhì)的新化學(xué)實(shí)體[10]。
應(yīng)用于分子設(shè)計(jì)的化學(xué)信息學(xué)方法主要包括:(1)基于數(shù)據(jù),即利用化合物數(shù)據(jù)庫(kù)系統(tǒng),查詢化合物的相關(guān)信息;(2)基于邏輯,即建立結(jié)構(gòu)與性質(zhì)關(guān)系模型,并基于模型預(yù)測(cè)化合物的性質(zhì);(3)基于原理,即采用理論計(jì)算方法,計(jì)算化合物的物理化學(xué)參數(shù),并根據(jù)計(jì)算結(jié)果,預(yù)測(cè)化合物的特定性質(zhì)。
合成設(shè)計(jì)/反應(yīng)預(yù)測(cè)即采用各種方法和技術(shù)設(shè)計(jì)獲得某個(gè)化合物的合成路線/反應(yīng)途徑。應(yīng)用于合成設(shè)計(jì)/反應(yīng)預(yù)測(cè)的化學(xué)信息學(xué)方法主要包括:(1)基于數(shù)據(jù),即利用反應(yīng)數(shù)據(jù)庫(kù)系統(tǒng),查詢合成路線/反應(yīng)途徑的相關(guān)信息;(2)基于邏輯,即建立反應(yīng)物生成產(chǎn)物的規(guī)則,并基于規(guī)則設(shè)計(jì)預(yù)測(cè)特定化合物的合成路線/反應(yīng)途徑;(3)基于原理,即采用理論計(jì)算方法,計(jì)算反應(yīng)物變成產(chǎn)物所需的能量,相關(guān)的電荷及鍵長(zhǎng)等參數(shù),并根據(jù)計(jì)算結(jié)果,推測(cè)反應(yīng)物變成產(chǎn)物的可能性,并解釋其反應(yīng)機(jī)理。
結(jié)構(gòu)確定包含兩部分工作:(1)結(jié)構(gòu)解析;(2)譜圖模擬。結(jié)構(gòu)解析即根據(jù)一組譜圖推斷一組候選化合物。譜圖模擬即根據(jù)化合物的化學(xué)結(jié)構(gòu)獲得預(yù)測(cè)對(duì)應(yīng)的譜圖。
應(yīng)用于結(jié)構(gòu)解析的化學(xué)信息學(xué)方法主要包括:(1)基于數(shù)據(jù),即利用譜圖數(shù)據(jù)庫(kù)系統(tǒng),查詢被解析的譜圖所對(duì)應(yīng)化合物的結(jié)構(gòu)信息;(2)基于邏輯,即建立譜圖與化學(xué)結(jié)構(gòu)的對(duì)應(yīng)關(guān)系,并根據(jù)對(duì)應(yīng)關(guān)系,預(yù)測(cè)可能的化合物結(jié)構(gòu)。
應(yīng)用于譜圖模擬的化學(xué)信息學(xué)方法主要包括:(1)基于數(shù)據(jù),即利用化合物數(shù)據(jù)庫(kù)系統(tǒng),查詢與指定化合物相關(guān)的譜圖信息;(2)基于邏輯,即建立結(jié)構(gòu)與譜圖關(guān)系模型,并基于模型預(yù)測(cè)化合物的譜圖;(3)基于原理,即采用理論計(jì)算方法,計(jì)算化合物的譜圖數(shù)據(jù),并根據(jù)計(jì)算結(jié)果,預(yù)測(cè)化合物對(duì)應(yīng)的譜圖。
最后,比較模擬得到的譜圖和被解析譜圖,如果兩張譜圖相同,則用于譜圖模擬的化合物即為被解析譜圖的化合物。
解決三大類化學(xué)問(wèn)題的化學(xué)信息學(xué)方法有三種,但在實(shí)際應(yīng)用中,通常沒(méi)有固定的使用模式,需要根據(jù)問(wèn)題的內(nèi)容制定使用方案。
化學(xué)信息學(xué)的方法研究主要集中在基于數(shù)據(jù)和基于邏輯兩類。
基于數(shù)據(jù)的研究工作主要為“建立數(shù)據(jù)庫(kù)系統(tǒng)”。通常一個(gè)數(shù)據(jù)庫(kù)系統(tǒng)的建立包含兩個(gè)部分內(nèi)容:(1)數(shù)據(jù)采集和規(guī)范化處理;(2)數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì)與開發(fā)。具體的研究?jī)?nèi)容主要包括:(1)應(yīng)用圖論[11]/化學(xué)圖論[12-13]方法,實(shí)現(xiàn)化學(xué)結(jié)構(gòu)的存儲(chǔ)、分析和運(yùn)算;(2)數(shù)據(jù)規(guī)范化處理規(guī)則的建立;(3)數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)、查詢算法設(shè)計(jì)和系統(tǒng)開發(fā),這部分工作屬軟件工程[14]范疇。
基于邏輯的研究工作主要為“知識(shí)發(fā)現(xiàn),建立知識(shí)庫(kù)系統(tǒng)”。對(duì)于分子設(shè)計(jì)和結(jié)構(gòu)確定而言,研究?jī)?nèi)容主要包括:(1)應(yīng)用圖論/化學(xué)圖論方法實(shí)現(xiàn)化學(xué)結(jié)構(gòu)的存儲(chǔ)、分析和運(yùn)算;(2)應(yīng)用數(shù)據(jù)分析方法,如回歸分析、方差分析、聚類分析、神經(jīng)網(wǎng)絡(luò)等[15],實(shí)現(xiàn)化合物性質(zhì)數(shù)據(jù)的分析;(3)采用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法[16-19]研究化合物結(jié)構(gòu)與性質(zhì)的關(guān)系,并建立對(duì)應(yīng)的關(guān)系模型。對(duì)于合成設(shè)計(jì)/反應(yīng)預(yù)測(cè)而言,研究?jī)?nèi)容主要包括:(1)應(yīng)用圖論/化學(xué)圖論方法實(shí)現(xiàn)化學(xué)反應(yīng)數(shù)據(jù)的存儲(chǔ)、分析和運(yùn)算;(2)將圖論/化學(xué)圖論與數(shù)據(jù)分析方法組合,實(shí)現(xiàn)反應(yīng)物生成產(chǎn)物的規(guī)則提??;(3)建立知識(shí)庫(kù)管理系統(tǒng):知識(shí)管理系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)、查詢算法設(shè)計(jì)和系統(tǒng)開發(fā),這部分工作屬軟件工程范疇。
圖1 傳統(tǒng)模式
從人類學(xué)會(huì)使用火,就開始了最早的化學(xué)實(shí)踐活動(dòng)。人類對(duì)“煉丹”和“煉金”活動(dòng)本質(zhì)的認(rèn)識(shí),為化學(xué)最終成為一門科學(xué)積累了素材。隨著人類各種生產(chǎn)活動(dòng)內(nèi)容的積累,人們總結(jié)感性知識(shí),進(jìn)行化學(xué)變化的理論研究,使化學(xué)成為自然科學(xué)的一個(gè)分支。自從化學(xué)成為一門獨(dú)立的學(xué)科后,隨著化學(xué)研究的不斷深入,以及與其他學(xué)科的交叉,新的化學(xué)分支學(xué)科不斷產(chǎn)生,現(xiàn)有的分支學(xué)科有:有機(jī)化學(xué)、無(wú)機(jī)化學(xué)、分析化學(xué)、高分子化學(xué)、物理化學(xué)、環(huán)境化學(xué)、核化學(xué)、材料化學(xué)、生物化學(xué)、元素有機(jī)化學(xué)、天然有機(jī)化學(xué)、藥物化學(xué)和食品化學(xué)等。自化學(xué)信息學(xué)誕生至今,尚未滿30年??梢?,相較于已有的化學(xué)分支學(xué)科,化學(xué)信息學(xué)是一門非常“年輕”的化學(xué)分支學(xué)科。與其他分支學(xué)科不同,它不做實(shí)際的化學(xué)實(shí)驗(yàn),但它應(yīng)用計(jì)算機(jī)科學(xué)和信息學(xué)技術(shù)開展相應(yīng)的化學(xué)研究工作;同時(shí),它將相關(guān)的數(shù)學(xué)方法/算法轉(zhuǎn)化成適用于處理化學(xué)信息的方法/算法。
化學(xué)信息學(xué)方法和技術(shù)的應(yīng)用,將促進(jìn)化學(xué)研究從傳統(tǒng)模式(見圖1)向現(xiàn)代模式轉(zhuǎn)換(見圖2),并可提高解決化學(xué)問(wèn)題的效率,降低盲目性。
圖2 現(xiàn)代模式