續(xù)冉,趙月紅*,韓清珍,溫浩
1. 中國科學院過程工程研究所,環(huán)境技術(shù)與工程研究部,多相復雜系統(tǒng)國家重點實驗室,北京 100190
2. 中國科學院大學,北京 100049
數(shù)據(jù)庫(集)基本信息簡介
數(shù)據(jù)庫(集)名稱 商品化合物數(shù)據(jù)庫 數(shù)據(jù)作者 續(xù)冉、趙月紅、韓清珍、溫浩 數(shù)據(jù)通信作者 趙月紅(yhzhao@ipe.ac.cn) 數(shù)據(jù)時間范圍 2017–2019年 數(shù)據(jù)量 74 KB 數(shù)據(jù)格式 *.xls 數(shù)據(jù)服務(wù)系統(tǒng)網(wǎng)址 http://www.sciencedb.cn/dataSet/handle/914(89個樣例數(shù)據(jù)集) 基金項目 國家科技基礎(chǔ)條件平臺項目(DKA2017-12-02-05);“十三五”院信息化專項(XXH1350303-103)。 數(shù)據(jù)庫(集)組成 中國、美國、歐盟現(xiàn)有化學物質(zhì)名錄中的34 177種化合物,包含標識信息(CAS登錄號、中英文名稱、所屬名錄、化學式、摩爾質(zhì)量、SMILES碼)、理化性質(zhì)數(shù)據(jù)(熔點Tm、正常沸點Tb、蒸汽壓P、密度ρ、表面張力σ、黏度η)和萃取性能(分配系數(shù)mij、選擇性βij、溶解能力SPij、溶劑損失SLi)。
目前許多國家和地區(qū)都編制了本國的化學物質(zhì)管理法規(guī),要求對生產(chǎn)、加工、銷售、使用或從國外進口的化學物質(zhì)進行注冊/通報。我國自2003 年開始建立并執(zhí)行新化學物質(zhì)登記制度[1-2],根據(jù)是否列入目錄,將化學物質(zhì)分為現(xiàn)有化學物質(zhì)和新化學物質(zhì)?,F(xiàn)有化學物質(zhì)的安全、環(huán)境和健康風險已知,通過有效的技術(shù)手段和監(jiān)管措施可防范可能出現(xiàn)的危害,且可根據(jù)CAS 登錄號獲得化合物的化學物質(zhì)安全技術(shù)說明書(Material safety data sheet,MSDS),可為安全生產(chǎn)/儲存/運輸/使用/處置、泄露應(yīng)急處理、勞動保護和救護措施等提供指導。
為了便于利用名錄中的化合物,中國科學院過程工程研究所基于中國、美國和歐盟的現(xiàn)有化學物質(zhì)名錄,建立了商品化合物數(shù)據(jù)庫(Existing Commercial Compounds Database,ECCD)。ECCD 中除了包含名錄中化合物的基本信息外,還根據(jù)CAS 登錄號添加了表征化合物結(jié)構(gòu)信息的mol 文件。由于缺乏實驗數(shù)據(jù),無法滿足化合物篩選數(shù)據(jù)一致性和完備性的要求,我們利用化合物分子結(jié)構(gòu)信息,采用基團貢獻法和基團匹配工具CACTVS 開發(fā)了化合物物性估算程序,進行物性估算,用于擴充化合物的物性信息,包括熔點、正常沸點、密度、黏度等,作為功能化合物篩選的基礎(chǔ)數(shù)據(jù)集。對于有特定功能需求的化合物篩選,可以在基礎(chǔ)數(shù)據(jù)集的基礎(chǔ)上,增加專題功能數(shù)據(jù)。如,為了滿足萃取劑篩選的需求,實現(xiàn)煤化工廢水中多種污染物的萃取,我們在ECCD 庫中補充了針對廢水中12種典型污染物的萃取性能數(shù)據(jù),并進一步開發(fā)了基于多物性聯(lián)合檢索的高通量篩選方法。由于ECCD中化合物環(huán)境健康風險已知,有可能進一步發(fā)現(xiàn)“老”化合物的“新”功能,有利于提高功能化合物開發(fā)效率,降低經(jīng)濟和時間成本。
目前,世界主要國家和地區(qū)的化學物質(zhì)名錄有:中國現(xiàn)有化學物質(zhì)名錄(Inventory of existing chemical substances,IECSC)、美國有毒物質(zhì)控制名錄(The toxic substances control act,TSCA)、歐洲現(xiàn)有商業(yè)化學物質(zhì)名錄(European inventory of existing commercial chemical substances,EINECS)、菲律賓化學品和化學物質(zhì)名錄(Philippine inventory of chemicals and chemical substances,PICCS)、韓國現(xiàn)有化學物質(zhì)清單(Korea existing chemical list,KECI)、加拿大國內(nèi)物質(zhì)清單(Domestic substances list,DSL)、日本現(xiàn)有和新化學物質(zhì)(Existing and new chemical substances,ENCS)、澳大利亞化學物質(zhì)名錄(Australia inventory of chemical substances,AICS)等[3-4]。
收錄化合物數(shù)量最多的6 個名錄中化合物的分布如圖1 所示,其中文恩圖由Tbtools[5]繪制。可以看出歐洲現(xiàn)有商業(yè)化學品名錄(EINECS)[6]、美國有毒物質(zhì)控制名錄(TSCA)[7]和中國現(xiàn)有化學物質(zhì)名錄(IECSC)[8-9]基本可以包含世界化學品名錄中的大部分化合物。因此,本文以這三個名錄為基礎(chǔ)建立ECCD 數(shù)據(jù)庫。
圖1 世界化學品名錄中化合物的數(shù)量分布圖
3 個名錄中化學物質(zhì)的數(shù)量如表1 所示,總共有10 萬多種化學物質(zhì)。名錄中的化學物質(zhì)一般包含CAS 號、流水號、物質(zhì)名稱和化學分子式等基本信息。為了擴充數(shù)據(jù)庫信息,以支持功能化合物篩選,我們以CAS 號為依據(jù)從中國科學院上海有機化學研究所獲取了化合物的mol 文件。排除重復的化合物后,ECCD 中共有34 177 種含分子結(jié)構(gòu)信息的化合物。
表1 3 個名錄中的化合物情況
為了擴展數(shù)據(jù)庫的應(yīng)用范圍,ECCD 添加了化合物的物性數(shù)據(jù),包括摩爾質(zhì)量M、熔點Tm、正常沸點Tb、蒸汽壓P、密度ρ、表面張力σ 和粘度η 等。由于實驗數(shù)據(jù)完備性不足,ECCD 中的物性數(shù)據(jù)采用基團貢獻法進行估算?,F(xiàn)有物性計算方法中,基團貢獻法具有適用范圍廣、計算簡單、估算精度誤差范圍可接受等優(yōu)點。表2 總結(jié)了本數(shù)據(jù)庫中采用的物性計算方法[10-12],包括C-G 法、Joback 法、GCVOL 法和CSGC 法。
表2 物性數(shù)據(jù)的計算方法
物性數(shù)據(jù) 計算方法 表面張力σ CSGC_ST1 黏度η CSGC_VK
物性估算程序包括3 個步驟:首先利用Open Babel 2.3.2 軟件將化合物結(jié)構(gòu)mol 文件轉(zhuǎn)化成SMILES 碼;根據(jù)SMARTS 碼的編碼規(guī)則,對不同基團貢獻法中的基團進行表達。然后利用CACTVS化學工具庫[13]進行SMILES 碼和SMARTS 碼的匹配,將分子結(jié)構(gòu)拆解成基團。最后采用相應(yīng)的基團貢獻法估算化合物的性質(zhì)。物性估算程序采用Tcl 語言(Tool Command Language)[14]編寫,可以實現(xiàn)不同物性估算任務(wù)的批處理作業(yè),以及程序與外部數(shù)據(jù)的連接。
根據(jù)不同的化合物篩選需求,用戶可以在現(xiàn)有ECCD 數(shù)據(jù)庫上的基礎(chǔ)上添加專用的物性數(shù)據(jù)和功能數(shù)據(jù),實現(xiàn)相應(yīng)的功能化合物的篩選。例如,為了將ECCD 數(shù)據(jù)庫應(yīng)用于煤化工廢水中多種污染物脫除的萃取劑設(shè)計,我們在庫中添加了萃取性能數(shù)據(jù)??紤]到廢水中污染物濃度很低,萃取操作液液相平衡計算采用了無限稀活度系數(shù)。萃取劑對12 種典型污染物(苯酚、甲基酚、二甲基酚、苯二酚、苯三酚、聯(lián)苯、三聯(lián)苯、萘、茚、吡啶、吲哚、喹啉)的萃取性能的計算方法如下:
為了方便使用ECCD 進行萃取劑篩選,以SQL Server 2008 作為數(shù)據(jù)庫管理系統(tǒng),在Windows 7環(huán)境下,利用C#語言和Visual Studio 2010 開發(fā)了ECCD 的圖形用戶界面。ECCD 的主界面和檢索界面如圖2 和圖3 所示。
圖2 現(xiàn)有商品化合物數(shù)據(jù)庫的登錄界面
圖3 現(xiàn)有商品化合物數(shù)據(jù)庫檢索欄
ECCD 采用CAS 號作為唯一標識字段,化合物的基本信息、物性數(shù)據(jù)和功能數(shù)據(jù)均通過CAS 號集成到數(shù)據(jù)庫中。針對不同功能化合物篩選擴充的物性數(shù)據(jù)表也可以通過CAS 登錄號集成到ECCD中。表3–5 分別是化合物的標識數(shù)據(jù)表、理化性質(zhì)數(shù)據(jù)表和萃取性能數(shù)據(jù)表。其中各個表包含的信息為:(1)標識數(shù)據(jù):CAS 登錄號、中文名稱、英文名稱、所屬名錄、分子式、SMILES 碼、摩爾質(zhì)量;(2)理化性質(zhì)數(shù)據(jù):正常沸點、熔點、密度、蒸汽壓、黏度、表面張力;(3)萃取性能數(shù)據(jù):分配系數(shù)、選擇性、溶解能力、溶劑損失。
表3 ECCD 的化合物標識數(shù)據(jù)表
字段 數(shù)據(jù)類型 含義 說明 Name_EN nvarchar(255) 英文名稱 IUPAC 命名 Inventory nvarchar(255) 所屬名錄 ? MF nvarchar(255) 化學式 ? smiles nvarchar(255) SMILES 碼 ? M float 摩爾質(zhì)量 單位:g?mol?1
表4 ECCD 的理化性質(zhì)數(shù)據(jù)表
表5 ECCD 的相間行為參數(shù)數(shù)據(jù)表
分子結(jié)構(gòu)和基團的表達以及基團匹配順序?qū)Σ鸾饨Y(jié)果的正確性產(chǎn)生影響,本庫通過對分子mol文件進行顯氫處理,以避免SMILES 碼因隱氫引起的拆解錯誤。此外,修改了部分基團的SMARTS碼和基團匹配順序,以保證基團匹配結(jié)果的正確性。
無限稀釋活度系數(shù)采用Dortmund UNIFAC 模型[15-16]計算,它改進了活度系數(shù)組合項和剩余項,能更好地描述稀釋區(qū)的真實行為。關(guān)聯(lián)模型參數(shù)的數(shù)據(jù)集來自多特蒙德數(shù)據(jù)庫(Dortmund Data Bank,DDB),關(guān)聯(lián)中不僅使用了汽–液平衡數(shù)據(jù),還使用了超額焓、超額等壓熱容、液–液平衡、共沸、固–液平衡數(shù)據(jù)、無限稀釋活度系數(shù)數(shù)據(jù),與原始UNIFAC 模型相比,Dortmund UNIFAC 模型估算精度更高,估算范圍更廣,預(yù)測無限稀釋活度系數(shù)的誤差可比原始UNIFAC 模型降低40%–50%[17]。
ECCD 數(shù)據(jù)已經(jīng)開發(fā)完成,目前僅限于內(nèi)部使用,已具備在線數(shù)據(jù)查詢和數(shù)據(jù)可視化能力。ECCD數(shù)據(jù)庫包括兩個賬戶,管理員賬戶和普通用戶賬戶。管理員可以實現(xiàn)數(shù)據(jù)的檢索、導入、導出和刪除。普通用戶可以進行數(shù)據(jù)的檢索和導出。圖4 是檢索后的結(jié)果界面。點擊圖中的“查看”,可以得到基本信息、理化性質(zhì)和萃取性能。用戶可以設(shè)定物性約束范圍進行檢索,批量下載篩選后的結(jié)果。本數(shù)據(jù)庫還可以根據(jù)不同的體系添加相應(yīng)的物性數(shù)據(jù),更新數(shù)據(jù)集,擴展其應(yīng)用范圍。如需深入 了 解 ECCD 包 含 數(shù) 據(jù) 內(nèi) 容 , 樣 例 數(shù) 據(jù) 集 可 以 從 Science Data Bank(http://www.sciencedb.cn/dataSet/handle/914)下載(包含89 組樣例數(shù)據(jù))。需要指出的是ECCD 系統(tǒng)尚未對外提供服務(wù),正式線上服務(wù)工作正在準備中。如需使用本系統(tǒng),可聯(lián)系作者。
數(shù)據(jù)作者分工職責
續(xù)冉(1990—)女,山東臨沂人,博士研究生,研究方向為計算化學與化工。主要承擔工作:商品化合物數(shù)據(jù)庫的創(chuàng)建、物性數(shù)據(jù)的計算、更新和維護。
趙月紅(1973—),男,內(nèi)蒙古包頭人,博士,副研究員,研究方向為計算化學與化工。主要承擔工作:商品化合物數(shù)據(jù)庫的創(chuàng)建、更新和維護。
韓清珍(1979—)女,山東臨沂人,博士,副研究員,研究方向為計算化學與化工。主要承擔工作:商品化合物數(shù)據(jù)庫的維護。
溫浩(1957—),男,北京人,博士,研究員,研究方向為計算化學與化工。主要承擔工作:商品化合物數(shù)據(jù)庫的設(shè)計。