孫飛飛,雷樂(lè)成,朱京科
(浙江大學(xué)化學(xué)工程與生物工程學(xué)院,生物質(zhì)化工教育部重點(diǎn)試驗(yàn)室,浙江 杭州310027)
溶解度是化合物的一種基本性質(zhì),由化合物的分子結(jié)構(gòu)所決定,在化工過(guò)程、藥物和環(huán)境中化學(xué)物質(zhì)遷移等研究方面都具有重要作用,因此建立快捷、可靠、普適的溶解度預(yù)測(cè)方法引起了人們極大興趣。自20世紀(jì)70年代后,研究者們相繼提出各種理論模型預(yù)測(cè)溶解度。1975年,Amidon等[1]基于分子表面積法建立理論模型,用于預(yù)測(cè)158個(gè)有機(jī)化合物的溶解度。之后,研究者們又相繼提出了基團(tuán)貢獻(xiàn)法[2]、分子連接性指數(shù)法[3]以及人工神經(jīng)網(wǎng)絡(luò)法[4]等方法。此類(lèi)方法均可歸結(jié)為定量結(jié)構(gòu)-性質(zhì)構(gòu)效關(guān)系(QSPR)方法,即根據(jù)化合物的分子結(jié)構(gòu)參數(shù)(分子描述符)與某一性質(zhì)(如溶解度)之間的定量關(guān)系建立預(yù)測(cè)模型。進(jìn)行溶解度的QSPR研究主要包括兩大步驟:①分子描述符的計(jì)算與優(yōu)化;②模型的建立與評(píng)價(jià)。分子描述符通常根據(jù)所解決的問(wèn)題從化合物的一系列理化參數(shù)中篩選,針對(duì)化合物溶解度的預(yù)測(cè)問(wèn)題,研究者們相繼提出了3類(lèi)分子描述符:①組成描述符;②試驗(yàn)參數(shù);③理論計(jì)算描述符。而相關(guān)的建模方法主要有:①線(xiàn)性建模法;②非線(xiàn)性建模法;③線(xiàn)性與非線(xiàn)性聯(lián)合建模法。本文基于文獻(xiàn)報(bào)道的溶解度預(yù)測(cè)方法的研究進(jìn)展,分別評(píng)述了三類(lèi)分子描述符所具有的特點(diǎn),并介紹了三類(lèi)最常用的建模方法,最后歸納總結(jié)溶解度預(yù)測(cè)方法所面臨的挑戰(zhàn),并展望其未來(lái)發(fā)展趨勢(shì)。
分子描述符是指分子在某一方面性質(zhì)的度量,既可以是分子的物理化學(xué)性質(zhì),也可以是根據(jù)分子結(jié)構(gòu)通過(guò)各種算法計(jì)算的數(shù)值指標(biāo)[5-6]。這些性質(zhì)可分為宏觀(guān)與微觀(guān)兩類(lèi):前者包括化合物沸點(diǎn)、熔點(diǎn)、折光率和脂水分配系數(shù)(Kow)等,后者涉及分子尺寸形貌、偶極矩、分子能量、鍵能及氫鍵等。
此類(lèi)描述符主要是基于基團(tuán)貢獻(xiàn)法計(jì)算得到的描述符,主要有:分子中各類(lèi)原子、片段、指紋和化學(xué)鍵的相對(duì)或絕對(duì)數(shù)目、分子量、不同類(lèi)型的環(huán)數(shù)等。在總結(jié)前人的基礎(chǔ)上,Klopman等[7]提出了一套較為全面的包括118個(gè)官能團(tuán)的描述符體系,包括52個(gè)常見(jiàn)的基本組成參數(shù)以及66個(gè)通過(guò)CASE法找出的額外組成參數(shù),并應(yīng)用于1168個(gè)化合物的溶解度預(yù)測(cè)[決定系數(shù)(R2)=0.95,標(biāo)準(zhǔn)偏差(SD)=0.50],證明了這組描述符能夠較好地表達(dá)化合物分子結(jié)構(gòu)?;鶊F(tuán)組成描述符計(jì)算簡(jiǎn)單,且無(wú)需借助其他理論計(jì)算方法,因而成為溶解度預(yù)測(cè)研究中最常使用的一類(lèi)描述符。但基團(tuán)貢獻(xiàn)法不能反映化合物整體分子結(jié)構(gòu)信息。
試驗(yàn)參數(shù)指由試驗(yàn)測(cè)定的一類(lèi)參數(shù),與溶解度相關(guān)的經(jīng)驗(yàn)描述符主要是化合物分子的集合性質(zhì),如Kow、熔沸點(diǎn)和折射率等。而Kow是化合物在水和辛醇中溶解能力的反映,與溶解度存在最直接的關(guān)系。如2001年,Jain和Yalkowsky[8]首次提出只包含Kow和熔點(diǎn)(Tm)兩個(gè)參數(shù)的GSE方程(general solubilityequation)預(yù)測(cè)580個(gè)化合物溶解度,其預(yù)測(cè)結(jié)果的平均絕對(duì)誤差值(AUE)達(dá)到0.42,具有很好的預(yù)測(cè)效果。然而,這類(lèi)參數(shù)通常需要試驗(yàn)測(cè)定,相比與測(cè)定溶解度并未簡(jiǎn)化。
理論計(jì)算描述符指一類(lèi)無(wú)需借助于試驗(yàn)測(cè)定,只需根據(jù)分子的結(jié)構(gòu)信息就能計(jì)算得到的參數(shù)。隨著計(jì)算機(jī)技術(shù)的發(fā)展,Dragon、MOE、Cerius2等軟件包可計(jì)算得到近5000個(gè)涵蓋化合物分子的電子結(jié)構(gòu)(如分子軌道、鍵能及電荷分布等)與空間結(jié)構(gòu)(分子拓?fù)浣Y(jié)構(gòu)、幾何構(gòu)象等)各類(lèi)理化參數(shù),原則上均可作為分子描述符。理論計(jì)算描述符對(duì)化合物結(jié)構(gòu)描述全面,物化意義明確,理論性較強(qiáng)。
由軟件計(jì)算得到的此類(lèi)描述符數(shù)量眾多,若全部用于建模將導(dǎo)致計(jì)算量大且模型不穩(wěn)定,因此利用理論計(jì)算描述符建模必須先進(jìn)行變量篩選。目前,常見(jiàn)的變量篩選方法主要有逐步回歸法(SRM)、遺傳算法(GA)以及替換法(RM)等[9]。目前在QSPR研究中,SRM是使用最多的一種變量篩選方法,Jiao等[10]利用SRM篩選出11個(gè)描述符建立模型,成功預(yù)測(cè)了23個(gè)二英類(lèi)物質(zhì)溶解度值[R2=0.9753,均方根誤差(RMSE)=0.041]。盡管該方法簡(jiǎn)單易于實(shí)現(xiàn),但該方法并不適用于大量的分子描述符量篩選。1992年Leardi等[11]提出用于變量篩選的GA法,之后GA在解決溶解度預(yù)測(cè)問(wèn)題上得到了廣泛應(yīng)用。如Yin等[12]利用GA挑選出3個(gè)理論計(jì)算描述符(范德華面積,羧基中碳氧原子上電荷之和,溶質(zhì)溶劑最高最低能級(jí)差),建立了71個(gè)含硫芳香酯溶解度的QSPR模型[R2=0.92,預(yù)測(cè)殘差平方和(PRESS)=13.18]。與逐步回歸法相比,GA適用范圍更廣。2008年Duchowicz等[13]首次提出了RM法,并成功運(yùn)用該方法從Dragon計(jì)算的1497個(gè)分子描述符篩選出3個(gè)(X1sol、MLOGP、RDF060u)建立了預(yù)測(cè)145個(gè)藥物溶解度的QSPR模型(R2=0.76,RMSE=1.2)。與GA相比,基于兩種方法建立的模型精度相當(dāng),但RM法計(jì)算量較小。
對(duì)比三類(lèi)分子描述符可知,從參數(shù)獲得難易角度,組成描述符計(jì)算量小,最易獲得,而試驗(yàn)參數(shù)需通過(guò)試驗(yàn)測(cè)定,涉及多種復(fù)雜測(cè)試方法,工作量大。理論計(jì)算描述符參數(shù)眾多,需要對(duì)參數(shù)進(jìn)行優(yōu)化,計(jì)算量較組成描述符更大;從參數(shù)準(zhǔn)確性角度,試驗(yàn)參數(shù)直接由試驗(yàn)測(cè)定,而組成描述符和理論計(jì)算描述符均通過(guò)分子結(jié)構(gòu)信息計(jì)算得到,因此試驗(yàn)參數(shù)的準(zhǔn)確性明顯優(yōu)于另兩種描述符;從參數(shù)全面性角度考慮,理論計(jì)算描述符包含各類(lèi)理化參數(shù),對(duì)化合物結(jié)構(gòu)的描述更全面細(xì)致,理論性更強(qiáng)。而試驗(yàn)參數(shù)需通過(guò)試驗(yàn)測(cè)定,對(duì)不易獲得的化合物,無(wú)法得到相應(yīng)試驗(yàn)參數(shù)。組成描述符通常伴有成分缺失問(wèn)題,因而不能很好地表達(dá)化合物整體分子結(jié)構(gòu)信息。由此可見(jiàn),描述分子結(jié)構(gòu)的三類(lèi)描述符各有其優(yōu)缺點(diǎn),在溶解度的QSPR研究中,應(yīng)根據(jù)具體情況選擇描述符。
目前在溶解度的QSPR研究中,已發(fā)展了各種建模方法,一般可分為線(xiàn)性和非線(xiàn)性模型,或是線(xiàn)性和非線(xiàn)性方法的組合??捎酶鞣N統(tǒng)計(jì)軟件來(lái)實(shí)現(xiàn)建 模,如SPSS[14],SAS[15],Matlab[16]和STATISTICA[17]等。
常見(jiàn)溶解度預(yù)測(cè)的線(xiàn)性方法有偏最小二乘法(PLS)、主成分回歸(PCR)以及多元線(xiàn)性回歸法(MLR)等。PLS法是通過(guò)同時(shí)考慮分子描述符X與溶解度Y并折衷各自空間內(nèi)的因子,從而建立能夠同時(shí)描述兩者的模型,尤其適合溶解度樣本較少的情況。潘善飛等[18]采用PLS法對(duì)84個(gè)有機(jī)物在離子液體中的溶解度進(jìn)行QSPR研究(R2=0.98,SD=0.17),獲得了很好的預(yù)測(cè)效果。PCR法是通過(guò)主成分分析法(PCA)從計(jì)算得到的大量分子描述符中選取對(duì)溶解度影響最大的幾個(gè)主成分以建立相應(yīng)的QSPR模型。
MLR法是建立多個(gè)分子描述符X與溶解度Y之間的關(guān)系,并為進(jìn)一步了解影響化合物溶解度的本質(zhì)因素提供有用信息,因此MLR法是使用最廣泛的建立溶解度預(yù)測(cè)模型的方法[6]。王振東等[19]基于分子連接性指數(shù)建立了MLR模型,對(duì)鹵代烷、環(huán)烷烴、烷基苯和鹵代苯等有機(jī)污染物的溶解度進(jìn)行預(yù)測(cè),結(jié)果表明該模型具有良好的預(yù)測(cè)能力(R2=0.99)。Hewitt等[20]建立了基于理論計(jì)算描述符MLR模型,并對(duì)139個(gè)化合物進(jìn)行了溶解度預(yù)測(cè)(R2=0.74,均方根誤差RMSE=0.95),其預(yù)測(cè)結(jié)果表明:對(duì)于溶解度預(yù)測(cè),MLR法要優(yōu)于其他更復(fù)雜的建模方法。2001年,Yalkowsky等[8]建立了基于經(jīng)驗(yàn)描述符Kow和Tm的MLR模型,如式(1)。
式(1)(即GSE方程)預(yù)測(cè)溶解度時(shí)需要試驗(yàn)值Kow和Tm,實(shí)際應(yīng)用中具有局限性。近年來(lái),一些研究者對(duì)GSE方程作了改進(jìn),提出用其他變量來(lái)替換Tm,即EGSE方程[21-22]。盡管近年EGSE方程不斷改進(jìn),但仍未完全避免使用試驗(yàn)值,尤其對(duì)于較難獲得的化合物,因得不到Kow值而不能預(yù)測(cè)相應(yīng)的溶解度。
采用線(xiàn)性方法建立溶解度預(yù)測(cè)模型,過(guò)程較為簡(jiǎn)單,但比較適用于處理簡(jiǎn)單體系、樣本量少的情況,且體系干擾嚴(yán)重時(shí),易導(dǎo)致模型失真。
化合物溶解度與分子結(jié)構(gòu)之間關(guān)系復(fù)雜,采用線(xiàn)性法建立的QSPR模型往往過(guò)于簡(jiǎn)單,模型的預(yù)測(cè)精度通常不及非線(xiàn)性方法建立的模型。Wang等[6]總結(jié)了近年來(lái)建立的溶解度預(yù)測(cè)模型,發(fā)現(xiàn)非線(xiàn)性方法的預(yù)測(cè)精度通常優(yōu)于線(xiàn)性方法。近年來(lái)計(jì)算機(jī)技術(shù)的不斷成熟使得基于“機(jī)器學(xué)習(xí)”的非線(xiàn)性建模方法得以飛速發(fā)展,目前常用的非線(xiàn)性建模方法主要有人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)以及高斯過(guò)程(GP)等。
ANN是由數(shù)目眾多、功能相對(duì)簡(jiǎn)單的神經(jīng)元相互連接而成的復(fù)雜非線(xiàn)性系統(tǒng),在溶解度預(yù)測(cè)領(lǐng)域,其地位僅次于MLR[6]。由于其吸取了生物神經(jīng)網(wǎng)絡(luò)的許多特點(diǎn),因而具有較強(qiáng)的非線(xiàn)性映射能力、容錯(cuò)性、自學(xué)習(xí)和自適應(yīng)能力。此外還兼有動(dòng)態(tài)、處理模糊信息和不連續(xù)數(shù)值等特點(diǎn)[23]。人工神經(jīng)網(wǎng)絡(luò)的種類(lèi)繁多,其中在溶解度預(yù)測(cè)領(lǐng)域,前饋神經(jīng)網(wǎng)絡(luò)(FFNN)使用最為廣泛,其基本結(jié)構(gòu)如圖1所示[24]。網(wǎng)絡(luò)的輸入層接收外部信號(hào),其神經(jīng)元個(gè)數(shù)對(duì)應(yīng)于輸入?yún)?shù)的個(gè)數(shù);一個(gè)神經(jīng)元的輸出層對(duì)應(yīng)化合物溶解度;隱含層個(gè)數(shù)則根據(jù)具體情況優(yōu)化得到。Farhad等[25]建立了基于基團(tuán)組成描述符的ANN模型,成功預(yù)測(cè)了室溫下3585個(gè)有機(jī)化合物在水溶液中的溶解度(R2=0.86,RMSE=0.4)。Piliszek等[26]以GA優(yōu)化后的理論計(jì)算描述符,建立了預(yù)測(cè)209個(gè)偶氮苯溶解度的ANN模型(R2>0.9,RMSE<0.6)。
圖1 關(guān)聯(lián)預(yù)測(cè)化合物溶解度的FFNN結(jié)構(gòu)
近年來(lái),SVM作為一種由機(jī)器學(xué)習(xí)算法發(fā)展的新算法在關(guān)于溶解度QSPR研究領(lǐng)域引起人們廣泛的關(guān)注。蘭州大學(xué)劉滿(mǎn)倉(cāng)教授課題組[27]基于理論計(jì)算描述符,運(yùn)用SVM方法建立了溶解度預(yù)測(cè)模型,成功預(yù)測(cè)了217個(gè)烴類(lèi)化合物在飽和鹽水中的溶解度(R2=0.987,RMSE=0.192),同時(shí)還闡明了與烴類(lèi)化合物溶解度相關(guān)的結(jié)構(gòu)特征以及驗(yàn)證了SVM方法的靈活性。此外,GP作為一種新近提出的QSPR研究方法,目前也被用來(lái)構(gòu)建溶解度預(yù)測(cè)模型。如Rostami等[28]成功運(yùn)用GP建立了關(guān)于原油中瀝青的溶解度預(yù)測(cè)模型(RMSE=0.37),并通過(guò)比較表明該模型預(yù)測(cè)精度優(yōu)于之前的模型。
與線(xiàn)性建模方法相比,非線(xiàn)性方法建立溶解度預(yù)測(cè)模型具有一定優(yōu)勢(shì),其適用范圍廣,預(yù)測(cè)精度高,具有容錯(cuò)性、自適性等優(yōu)點(diǎn),但該方法也存在不足之處:第一,非線(xiàn)性方法建模類(lèi)似于“黑箱”操作,無(wú)法像線(xiàn)性建模法一樣得到明確的輸入輸出關(guān)系;第二,若樣本量過(guò)少,易造成過(guò)擬合;第三,結(jié)果重復(fù)性不如線(xiàn)性方法。
在QSPR研究中,盡管使用線(xiàn)性或非線(xiàn)性建模法建立的溶解度預(yù)測(cè)模型已達(dá)到較好的預(yù)測(cè)精度,但近年發(fā)展的線(xiàn)性與非線(xiàn)性結(jié)合方法具有更好的建模結(jié)果。使用較多的是先利用線(xiàn)性法篩選出分子描述符的最優(yōu)子集,然后以該最優(yōu)子集為輸入變量建立非線(xiàn)性模型。GA-MLR和ANN聯(lián)用建模是一種典型的方式,其中GA-MLR主要用于篩選最優(yōu)子集表達(dá)化合物分子結(jié)構(gòu),而ANN則以該最優(yōu)子集為輸入?yún)?shù),樣本溶解度值為輸出變量建立QSPR模型。如Gharagheizi等[29]利用GA-MLR從Dragon軟件計(jì)算的1259個(gè)分子描述符中篩選出5個(gè)分子描述符表達(dá)溶劑分子結(jié)構(gòu),以此為基礎(chǔ)構(gòu)建的ANN模型成功預(yù)測(cè)了富勒烯在128種不同溶劑中的溶解度(R2=0.943,RMSE=0.071)。PLS和PCR等線(xiàn)性建模方法也被用來(lái)篩選分子描述符,與非線(xiàn)性建模方法聯(lián)用建模。如Liu等[30]利用主成分分析法找出與溶解度最相關(guān)的主成分,并以此作為ANN模型的輸入,達(dá)到了很好的預(yù)測(cè)效果(R2=0.90,RMSE=0.68)。
此外,Hansen等[31]則基于HH方程[32](Henderson-Hasselbalchequation)提出了線(xiàn)性和非線(xiàn)性組合方法預(yù)測(cè)有機(jī)化合物在不同pH值水溶液中的溶解度。針對(duì)4548個(gè)有機(jī)化合物,該方法首先分別建立分子結(jié)構(gòu)與本征溶解度及與化合物酸解離系數(shù)pKa的非線(xiàn)性QSPR模型(RMSE分別為0.7和0.71),然后根據(jù)線(xiàn)性的HH方程預(yù)測(cè)不同pH值水溶液中化合物的溶解度。經(jīng)已知27個(gè)化合物不同pH值的溶解度數(shù)據(jù)驗(yàn)證,預(yù)測(cè)精度RMSE達(dá)到0.79。
線(xiàn)性和非線(xiàn)性組合方法更適合復(fù)雜問(wèn)題,能處理前兩類(lèi)方法無(wú)法直接使用的體系。具有擬合能力強(qiáng)的明顯優(yōu)勢(shì),但是由于同時(shí)采用兩類(lèi)方法,一般模型擁有相對(duì)較多的參數(shù),更易過(guò)擬合,尤其在兩類(lèi)方法的偏差存在疊加效應(yīng)時(shí),容易產(chǎn)生較大的預(yù)測(cè)誤差。
隨著QSPR研究溶解度的不斷深入,相應(yīng)建立的溶解度預(yù)測(cè)模型也發(fā)生變化。2004年之后,研究者們普遍傾向于研究大量化合物在室溫、純水中的溶解度。如Wang等[33]建立了以基團(tuán)組成描述符為輸入的溶解度預(yù)測(cè)模型,很好地預(yù)測(cè)了3664個(gè)化合物的水溶液中的溶解度(AUE=0.631,RMSE=0.850),并將該模型用于預(yù)測(cè)Huuskonen報(bào)道的溶解度值[34],也達(dá)到了較好的預(yù)測(cè)效果(AUE=0.54,RMSE=0.72)。而近兩三年來(lái),研究者們逐漸開(kāi)始考慮化合物在pH值、溫度、溶劑等外在條件參數(shù)改變時(shí)的溶解度值(即表觀(guān)溶解度)。如Valenzuela等[35]研究了30個(gè)化合物在超臨界CO2中的溶解度并建立了相應(yīng)的QSPR模型(R2>0.91)。
盡管目前已經(jīng)報(bào)道過(guò)的一些溶解度預(yù)測(cè)模型具有不錯(cuò)的預(yù)測(cè)精度,但是關(guān)于溶解度的QSPR研究,依舊任重而道遠(yuǎn)。Hewitt等[20]通過(guò)32個(gè)已知溶解度的化合物對(duì)自己建立的MLR、ANN等溶解度預(yù)測(cè)模型以及其他一些商業(yè)來(lái)源的預(yù)測(cè)模型進(jìn)行評(píng)估,這些模型的RMSE值在0.82~1.56,且模型的平均預(yù)測(cè)誤差達(dá)到1.1(lgS)。說(shuō)明目前進(jìn)行溶解度預(yù)測(cè)仍舊面臨巨大挑戰(zhàn)??偨Y(jié)報(bào)道的溶解度預(yù)測(cè)模型不難看出,關(guān)于室溫水溶液中溶解度的QSPR研究日趨成熟,而由于化合物表觀(guān)溶解度很難獲得,因此目前關(guān)于化合物的表觀(guān)溶解度值及其變化情況的QSPR研究較少,且涉及的化合物種類(lèi)單一。
隨著近年來(lái)計(jì)算機(jī)技術(shù)的飛速發(fā)展,研究者們依托編程及軟件開(kāi)發(fā)提出大量用于預(yù)測(cè)化合物溶解度的模型,這些模型的建立除了對(duì)化合物溶解度的預(yù)測(cè)具有指導(dǎo)性意義外,同時(shí)對(duì)了解化合物分子結(jié)構(gòu)與溶解度之間的關(guān)系也提供了一定參考。目前,關(guān)于溶解度的QSPR研究仍存在不足,如何提高溶解度預(yù)測(cè)模型的預(yù)測(cè)精確是未來(lái)仍需解決的問(wèn)題。此外,研究者們將更關(guān)注不同pH值、溫度、溶劑等條件下化合物分子結(jié)構(gòu)與溶解度的構(gòu)效關(guān)系。為此,在未來(lái)的溶解度預(yù)測(cè)模型建立過(guò)程中,從數(shù)據(jù)采集、描述符計(jì)算和篩選、模型方法的選擇及建立,到模型的驗(yàn)證每一個(gè)建模步驟都需要采取恰當(dāng)?shù)拇胧┘右愿倪M(jìn),以提高最終建立模型的預(yù)測(cè)可靠性。
[1]Amidon G,Yalkowsky S,Anik S,etal.Solubility of nonelectrolytes in polar solvents.V.Estimation of the solubility of aliphatic monofunctional compounds in water using amolecular surface area approach[J].TheJournalofPhysicalChemistry,1975,79(21):2239-2246.
[2]van Krevelen D W.Properties of Polymers:Their Estimation and Correlation w ith Chem ical Structure[M].Amsterdam:Elsevier Scientific Publ.,1976.
[3]Bicerano J.Prediction of Polymer Properties[M].New York:Marcel Dekker,1993.
[4]Ebube N K,Owusu-Ababio G,Adeyeye CM.Preformulation studies and characterization of the physicochem ical properties of amorphous polymers using artificial neural networks[J].InternationalJournalof Pharmaceutics,2000,196(1):27-35.
[5]任偉,孔德信.定量構(gòu)效關(guān)系研究中分子描述符的相關(guān)性[J].計(jì)算機(jī)與應(yīng)用化學(xué),2009(11):1455-1458.
[6]Wang J,Hou T.Recentadvances on aqueous solubility prediction[J].CombinatorialChemistry&HighThroughputScreening,2011,14(5):328-338.
[7]Klopman G,Zhu H.Estimation of the aqueous solubility of organic molecules by the group contribution approach[J].Journalof ChemicalInformationandComputerSciences,2001,41(2):439-445.
[8]Jain N,Yalkowsky SH.Estimation of the aqueous solubilityⅠ:Application to organic nonelectrolytes[J].JournalofPharmaceutical Sciences,2001,90(2):234-252.
[9]Jouyban A,Shayanfar A,Ghafourian T,etal.Solubility prediction of pharmaceuticals in dioxane+waterm ixtures at various temperatures:Effects of different descriptors and feature selection methods[J].JournalofMolecularLiquids,2014,195:125-131.
[10]Jiao L,LiH.QSPR studieson theaqueous solubility of PCDD/Fsby using artificial neural network combined w ith stepw ise regression[J].ChemometricsandIntelligentLaboratorySystems,2010,103(2):90-95.
[11]LeardiR,Boggia R,Terrile M.Genetic algorithms as a strategy for feature selection[J].JournalofChemometrics,1992,6(5):267-281.
[12]Yin C,Liu X,GuoW,etal.Prediction and application in QSPR of aqueous solubility of sulfur-containing aromatic esters using GA-based MLRwith quantum descriptors[J].WaterResearch,2002,36(12):2975-2982.
[13]Duchow icz PR,TaleviA,Bruno-Blanch LE,etal.New QSPR study for the prediction of aqueous solubility of drug-like compounds[J].Bioorganic&MedicinalChemistry,2008,16(17):7944-7955.
[14]Noru?is Marija J.SPSS Inc.SPSS Professional Statistics 6.1[M].Prentice Hall,1994.
[15]SASVisualAnalytics6.1:User’sGuide[M].Sas Institute,2012.
[16]GuideM U.TheMathworks[M].Inc.,Natick,MA,1998.
[17]StatSoftH.Statistica 6[M].Springer,2002.
[18]潘善飛,胡桂香,呂楊,等.離子液體中有機(jī)物溶解度的QSPR模型分析[J].物理化學(xué)學(xué)報(bào),2010,26(9):2494-2502.
[19]王振東,楊鋒,周培疆.分子連接性指數(shù)對(duì)部分有機(jī)污染物溶解度及疏水參數(shù)的預(yù)測(cè)[J].環(huán)境化學(xué),2003,22(4):380-384.
[20]Hew itt M,Cronin M T,Enoch S J,et al.In silico prediction of aqueous solubility:The solubility challenge[J].JournalofChemical InformationandModeling,2009,49(11):2572-2587.
[21]Hughes LD,Palmer D S,Nigsch F,etal.Why are some properties more difficult to predict than others?A study of QSPR models of solubility,melting point,and Log P[J].JournalofChemical InformationandModeling,2008,48(1):220-232.
[22]Zhou D,Alelyunas Y,Liu R.Scores of extended connectivity fingerprintas descriptors in QSPR study ofmelting pointand aqueous solubility[J].JournalofChemicalInformationandModeling,2008,48(5):981-987.
[23]王洪元,史國(guó)棟.人工神經(jīng)網(wǎng)絡(luò)技術(shù)及其應(yīng)用[M].北京:中國(guó)石化出版社,2002.
[24]Mehrpooya M,MohammadiA H,Richon D.Extension of an artificial neural network algorithm for estimating sulfur content of sour gases at elevated temperatures and pressures[J].Industrial&Engineering ChemistryResearch,2009,49(1):439-442.
[25]Gharagheizi F,Eslam imanesh A,Mohammadi A H,et al.Representation/prediction of solubilities of pure compounds in water using artificial neural network——Group contribution method[J].JournalofChemical&EngineeringData,2011,56(4):720-726.
[26]Wilczyńska Piliszek A J,Piliszek S,F(xiàn)alandysz J.QSAR and ANN for the estimation of water solubility of 209 polychlorinated trans-azobenzenes[J].JournalofEnvironmentalScienceandHealth,PartA,2012,47(2):155-166.
[27]馬衛(wèi)平.線(xiàn)性和非線(xiàn)性方法在QSAR/QSPR研究中的應(yīng)用[D].蘭州:蘭州大學(xué),2007.
[28]Rostam i H,Khaksar Manshad A.Prediction of asphaltene precipitation in live and tank crude oil using gaussian process regression[J].PetroleumScienceandTechnology,2013,31(9):913-922.
[29]Gharagheizi F,Alamdari R F.A molecular‐based model for prediction of solubility of C60 fullerene in various solvents[J].Fullerenes,Nanotubes,andCarbonNonstructures,2008,16(1):40-57.
[30]Liu Y,Sun X,Ouyang A.Nondestructivemeasurement of soluble solid content of navel orange fruit by visible-NIR spectrometric technique w ith PLSR and PCA-BPNN[J].LWT-FoodScienceand Technology,2010,43(4):602-607.
[31]Hansen N T,Kouskoumvekaki I,J?rgensen FS,etal.Prediction of pH-dependent aqueous solubility of druglikemolecules[J].Journalof ChemicalInformationandModeling,2006,46(6):2601-2609.
[32]Hasselbalch K.Calculation of blood pH based on the free and bound carbonic acid,and oxygen binding of blood as function of pH[J].Die Biochem.Z,1916,78:112-144.
[33]Wang J,Hou T,Xu X.Aqueous solubility prediction based on weighted atom type counts and solvent accessible surface areas[J].JournalofChemicalInformationandModeling,2009,49(3):571-581.
[34]Huuskonen J,Rantanen J,Livingstone D.Prediction of aqueous solubility for a diverse set of organic compounds based on atom-type electrotopological state indices[J].EuropeanJournalofMedicinal Chemistry,2000,35(12):1081-1088.
[35]Valenzuela LM,Reveco A,del Valle JM.Modelling solubility in supercritical carbon dioxide using quantitative structure-property relationships[J].TheJournalofSupercriticalFluids,2014,94(10):113-122.