姚建華 李 佳 徐雯麗 蔣舒仰 胡 靜 李玉玲李靖靖 王宇飛
1中國科學院能量調(diào)控材料重點實驗室,中國科學院上海有機化學研究所(上海 200032)2鄭州工程技術學院(河南鄭州 450044)
合成化學是研究物質(zhì)創(chuàng)造與轉(zhuǎn)化的科學??v觀人類發(fā)展的歷史,我們可以發(fā)現(xiàn),合成化學實際上一直伴隨著人類社會的發(fā)展,并在其中發(fā)揮著重要作用。自20世紀40年代第一臺計算機出現(xiàn)以來,計算機技術在各個領域逐步得到應用,并體現(xiàn)出它的積極作用。在合成化學領域,化學家一直期望利用計算機輔助技術來輔助開展合成設計工作。20世紀60年代后期,CoreyEJ和WipkeWT博士合作發(fā)表了題為“計算機輔助復雜有機合成設計(Computer-assisteddesignofcomplexorganicsyntheses)” 的文章。在這篇文章中,他們提出了“反合成分析”概念,并利用計算機輔助技術完成某些類型的反合成分析工作,最終獲得目標化合物的一組可能的合成路線[1]。這種方法在很大程度上可以幫助化學家解決某些類型的合成問題。
所謂“反合成分析”即根據(jù)目標化合物的化學結(jié)構(gòu),判斷合成該化合物的反應物;再將反應物作為目標產(chǎn)物,判斷合成它的反應物;循環(huán)這樣的過程,直到得到的反應物是已經(jīng)存在的化合物,最后可以得到一顆反向樹。具體過程如圖1所示。
圖1 反合成分析過程示意圖
本文將介紹用于合成設計的計算機輔助方法。
經(jīng)驗型合成設計是以設計者的經(jīng)驗、已有的合成條件、反應物及相關理論為依據(jù),設計特定的化合物的合成路線,其工作流程如圖2所示。
圖2 經(jīng)驗型合成設計工作流程示意圖
圖2所示的經(jīng)驗型合成設計工作流程表明,工作人員根據(jù)產(chǎn)物的化學結(jié)構(gòu),從文獻中查找相關的合成方法報道。如果有相關的文獻報道,且符合研究人員具備的合成條件,對應的合成路線將用于合成特定的化合物;如果沒有相關的報道,那么研究人員將根據(jù)已有的經(jīng)驗,開展反合成分析,并根據(jù)經(jīng)驗和已具備的合成條件,選擇對應的合成路線以合成特定的化合物。
計算機輔助合成設計方法主要包括三大類:基于數(shù)據(jù)(D)、基于邏輯(L)和基于原理(P)(如圖 3 所示)?;跀?shù)據(jù)即利用數(shù)據(jù)庫系統(tǒng),獲得特定化合物的合成路線;基于邏輯即利用化合物的反應規(guī)則,推測產(chǎn)物可能的前體;基于原理即利用量化計算方法,判斷選擇合成路線的合理性和研究反應機理。
圖3 三種計算機輔助合成設計方法
圖4 計算機輔助合成設計的流程
圖3所示的In house數(shù)據(jù)庫系統(tǒng),一般為自建的數(shù)據(jù)庫系統(tǒng)。通常,In house數(shù)據(jù)庫系統(tǒng)由兩部分組成:數(shù)據(jù)庫管理系統(tǒng)和數(shù)據(jù)庫。數(shù)據(jù)庫管理系統(tǒng)用于管理和查詢數(shù)據(jù)庫中的數(shù)據(jù);數(shù)據(jù)庫中包含的結(jié)構(gòu)化數(shù)據(jù),可以是本單位自用的專用實驗與計算研究數(shù)據(jù),也可以是專門從文獻中采集的化合物及其特定性質(zhì)數(shù)據(jù)。
圖3所示的基于邏輯的合成路線設計系統(tǒng),具有根據(jù)產(chǎn)物的化學結(jié)構(gòu),推測其前體的化學結(jié)構(gòu)的功能。而基于原理的方法,即利用相關軟件計算合成路線中某一步反應的相關特性參數(shù),以判斷該步反應的難易度、合理性,研究反應機理。
計算機輔助的合成設計的流程如圖4所示。
圖4顯示的流程表明,計算機輔助合成設計過程中,先利用文獻/數(shù)據(jù)庫系統(tǒng)查詢作為產(chǎn)物的化合物是否已有相關的合成路線報道 (即基于數(shù)據(jù)的方法)。如果數(shù)據(jù)庫中已收錄了對應的合成方法和路線,并且具備相同的實驗條件,那么從數(shù)據(jù)庫系統(tǒng)中獲得的合成方法和路線即可用于合成該產(chǎn)物 (受專利保護的除外)。如果該產(chǎn)物的合成方法和路線沒被數(shù)據(jù)庫系統(tǒng)收錄,那么研究人員可根據(jù)經(jīng)驗,并利用相關的軟件,開展反合成分析,即推測產(chǎn)物的前體化合物(如圖1所示)(即基于邏輯的方法),重復這個過程,直到產(chǎn)物的前體化合物已存在。根據(jù)反合成分析結(jié)果,獲得多條候選合成路線。根據(jù)經(jīng)驗,并采用相關軟件(基于原理的方法)計算相關參數(shù),對候選合成路線作合理性評估。最后,研究人員根據(jù)具有的實驗條件,合理性評估結(jié)果,選擇合成方法和路線。
目前,在化學及相關領域常用的商業(yè)合成/化學反應數(shù)據(jù)庫系統(tǒng)有兩個,分別為美國化學文摘社的SciFinder[2]和愛思唯爾的Reaxys化學數(shù)據(jù)庫系統(tǒng)[3]。In house或非商業(yè)化學數(shù)據(jù)庫系統(tǒng)一般不公開。
已 有 的 研 究 報 道 顯 示 ,LHASA,WODCA,CISOC-Retrosyn和ChemicalAI等反合成分析系統(tǒng)已在合成設計中得到實際應用。
Corey E J博士團隊在20世紀70年代完成LHAS(Logic and Heuristics Applied to Synthetic Analysis)A系統(tǒng)的開發(fā)工作[4],該系統(tǒng)中的相關分析規(guī)則,主要基于經(jīng)驗來定義。
20世紀90年代,德國愛爾蘭根大學的Gasteiger J教授研究團隊,用了9年的時間,開發(fā)了交互式合成方案設計系統(tǒng)WODCA(Workbench for the Organization of Data for Chemical Applications)[5],該系統(tǒng)的反合成分析規(guī)則來自于經(jīng)驗和物化參數(shù),該系統(tǒng)的使用界面如圖5~6所示。
圖5 WODCA系統(tǒng)使用界面
圖6 WODCA系統(tǒng)反應鍵識別界面
自1997年至2004年,中國科學院上海有機化學研究所計算機化學研究團隊 (鄭崇直研究員和袁身剛博士研究團隊),歷經(jīng)8年時間研究和開發(fā),完成了反合成分析系統(tǒng)CISOC-RetroSyn的系統(tǒng)研發(fā)工作,并獲得了中國軟件著作權[6],其核心方法獲得中國專利[7],系統(tǒng)所用規(guī)則源于經(jīng)驗、一百萬條反應數(shù)據(jù)的特征信息。該系統(tǒng)啟動界面如圖7所示,合成過程中的一步反應信息如圖8所示,合成過程中的一組合成路線如圖9所示。該系統(tǒng)輸出的合成方案主要包含以下信息:合成路線、每一步反應的反應條件、反應物的商業(yè)信息。
圖7 CISOC-RetroSyn軟件啟動界面
圖8 CISOC-RetroSyn合成過程中的一步反應信息
圖9 CISOC-RetroSyn合成過程中的一組合成路線
盡管 LHAS,WODCA,CISOC-Retrosyn 三款軟件都是采用人機交互模式進行反合成分析,即根據(jù)目標化合物,推導出它的反應物,并根據(jù)推導出的結(jié)果,輸出一組合成路線,但每個系統(tǒng)的推導方法和識別規(guī)則不同。其中,LHASA在系統(tǒng)中設定的反應鍵識別規(guī)則來自于化學家的經(jīng)驗;WODCA系統(tǒng)中設定的反應鍵識別規(guī)則來自于化學家的經(jīng)驗和物化參數(shù);而CISOC-Retrosyn系統(tǒng)中的反應鍵識別規(guī)則包含了100多萬條反應數(shù)據(jù)的特征分析結(jié)果和化學家的經(jīng)驗。
2018年 3月,Marwin H.S.Segler,Mike Preuss和Mark P.Waller合作在《自然》雜志上發(fā)表了題為“Planning chemical syntheses with deep neural networks and symbolic AI”的文章[8],介紹了他們用神經(jīng)網(wǎng)絡算法和符號AI發(fā)現(xiàn)目標化合物的反合成路線的工作。不過,目前的研究成果只是階段性的,還未達到阿爾法圍棋(AlphaGo)下圍棋的性能。這可能與以下因素有關:(1)合成方案涉及的因素和復雜度遠遠高于下圍棋;(2)很多成熟的算法還不能直接用于化學反應數(shù)據(jù)分析,但可以用于圍棋的棋譜信息分析。
盡管目前的計算機輔助合成設計系統(tǒng)還存在一定的不足,但與經(jīng)驗型的合成設計相比,計算機輔助合成設計已顯示出它特有的作用:有效提高了設計的效率和精準性,降低了實驗的盲目性和危險度。