饒火瑜,祝志強(qiáng),樂長高,徐珍珍
(東華理工大學(xué) 應(yīng)用化學(xué)系,江西 南昌 330013)
化合物的臨界溫度、臨界壓力和臨界體積等臨界參數(shù)是描述化合物特征的重要參數(shù),可用于液體密度、氣體熱容、真實(shí)氣體狀態(tài)方程的參數(shù)計算,也可用于化工過程的模擬和設(shè)計[1-8]。然而通過實(shí)驗(yàn)方法測定臨界參數(shù)往往耗時長、費(fèi)用高,而且技術(shù)上面臨一些難以克服的困難,因?yàn)橛行┪镔|(zhì)在它達(dá)到臨界溫度以前就已經(jīng)分解。因此,從現(xiàn)有文獻(xiàn)出發(fā)利用現(xiàn)有的實(shí)驗(yàn)數(shù)據(jù)建立一個模型用于預(yù)測化合物的臨界溫度,對于化工生產(chǎn)有著重要意義。
近年來,定量結(jié)構(gòu)性質(zhì)關(guān)系(QSPR)研究在化學(xué)、環(huán)境、生命等研究中取得了廣泛的應(yīng)用[9-14]。QSPR研究是以分子微觀結(jié)構(gòu)和分子中各原子的連接方式為基礎(chǔ),用數(shù)字來定量表達(dá)分子[15],進(jìn)而與物質(zhì)的理化性質(zhì)相關(guān)聯(lián),建立有意義的關(guān)系式。隨著計算機(jī)的飛速發(fā)展和軟件技術(shù)的更新,使得用數(shù)字表征分子的微觀結(jié)構(gòu)更加方便快捷。
本工作以量子化學(xué)計算得到的分子幾何參數(shù)為基礎(chǔ),利用Alvadesc軟件計算分子的分子描述符,進(jìn)而將分子描述符和41種脂肪醇的臨界溫度關(guān)聯(lián),運(yùn)用逐步多元線性回歸建立了一個五參數(shù)線性QSPR模型。
從文獻(xiàn)[16]中選取54個具有臨界溫度實(shí)驗(yàn)值的一元脂肪醇分子,隨機(jī)選擇41個作為訓(xùn)練集,余下的13個歸入外部測試集。以訓(xùn)練集建模,所得到的QSPR模型用于計算外部測試集的脂肪醇臨界溫度。
采用量子化學(xué)軟件包Gaussian-16對一元脂肪醇分子進(jìn)行密度泛函理論計算,所用基組為6-311g(d,p),考慮羥基和烷基的不同取代位置對分子能量的影響,并加以頻率分析,獲得每個脂肪醇分子最穩(wěn)定的構(gòu)象;以優(yōu)化所得最穩(wěn)定構(gòu)象的幾何參數(shù)為基礎(chǔ),用Alvadesc軟件計算分子描述符[17],將所得到的分子描述符與脂肪醇分子的臨界溫度相關(guān)聯(lián)。
以訓(xùn)練集脂肪醇分子的臨界溫度為因變量,Alvadesc軟件計算所得的分子描述符為自變量,去除全為零、或數(shù)值幾乎相等的分子描述符,運(yùn)用逐步多元線性回歸方法構(gòu)建QSPR模型,采用均方根誤差、平均絕對相對誤差、決定系數(shù)、Fisher檢驗(yàn)值、t-檢驗(yàn)值和方差膨脹因子(VIF)等方法檢驗(yàn)?zāi)P蛿M合的適用性。VIF的定義式為:
式中,是以第i個變量為因變量、其他變量為自變量建立的多元線性關(guān)系式的決定系數(shù);1-為容忍度。VIF值越大,說明多重共線性越強(qiáng),一般認(rèn)為VIF大于10時,多重共線性不能接受,所得多元線性關(guān)系式用于預(yù)測是不可靠的。
采用留一法交叉驗(yàn)證和留多法交叉驗(yàn)證對模型的穩(wěn)健性進(jìn)行檢驗(yàn),計算了和[18]。用所得的模型對測試集脂肪醇的臨界溫度進(jìn)行預(yù)測,并采用均方根誤差等參數(shù)對模型的預(yù)測能力進(jìn)行評估。此外,還采用外部驗(yàn)證系數(shù),,對模型的預(yù)測能力進(jìn)行評估[18-20]。
經(jīng)逐步多元線性回歸分析,由Alvadesc軟件計算 得 到 piPC01,ATS6e,GATS2e,GATS3i,E2m等五個分子描述符對脂肪醇的臨界溫度有顯著貢獻(xiàn),將這五個分子描述符加上常見的實(shí)驗(yàn)測定的三個理化參數(shù)(密度、分子量、沸點(diǎn))組成八個參數(shù),一起與脂肪醇的臨界溫度進(jìn)行逐步多元線性回歸,程序選擇了五個分子描述符為描述脂肪醇分子結(jié)構(gòu)的自變量,從而得到最終的回歸模型,見式(2):
模型的樣本數(shù)n=41,自變量數(shù)k=5,樣本容量和樣本與解釋變量的比例是合適的,足以描述因變量。相關(guān)系數(shù)為0.999 8,決定系數(shù)為0.999 6,調(diào)整決定系數(shù)為0.999 5,顯著性檢驗(yàn)值為0,F(xiàn)isher檢驗(yàn)值為15 707,遠(yuǎn)遠(yuǎn)大于Fisher檢驗(yàn)臨界值,說明QSPR模型擬合性能強(qiáng)。
分子描述符piPC01基于分子路徑計算,計算公式為ln(1+x),式中x為分子中所含C—C和C—O單鍵的數(shù)目,計算公式簡單,因公式含有對數(shù),隨著碳原子數(shù)的增加,piPC01的計算值增大,但增大量越來越小,這與脂肪醇臨界溫度隨脂肪醇碳原子數(shù)的增加而增加的規(guī)律較相似。單獨(dú)以piPC01為自變量與脂肪醇的臨界溫度相關(guān)聯(lián),決定系數(shù)達(dá)0.897 9,說明piPC01對脂肪醇分子的臨界溫度產(chǎn)生顯著影響。
分子描述符ATS6e,GATS2e,GATS3i都是二維自相關(guān)指數(shù),以電負(fù)性或電離勢加權(quán),對脂肪醇分子的區(qū)分度較好;E2m是按質(zhì)量加權(quán)的2階組成定向WHIM指數(shù),由分子的三維結(jié)構(gòu)產(chǎn)生,對脂肪醇分子的不同異構(gòu)體區(qū)分較好。
這五個分子描述符加在一起時,將決定系數(shù)由0.897 9提高到0.999 6,非常接近1,只余下0.000 4未能加以解釋。
表1列出了多元線性回歸模型的檢驗(yàn)值,包括各自變量的系數(shù)、t-值、p-值和VIF。當(dāng)│t│>tα/2(nk-1)時,說明自變量對因變量有顯著性影響,顯著性水平α取0.05,查t-檢驗(yàn)顯著性水平分布表或在WPS表格中輸入“=Tinv(0.025,35)”,可得t0.025(35)=2.34。從表1可看出,五個自變量對臨界溫度都有顯著性影響;每一個自變量的VIF值都大于1小于10,說明各自變量之間不存在明顯的多重共線性,所得QSPR模型對訓(xùn)練集的樣本擬合優(yōu)良。
表1 脂肪醇臨界溫度的多元線性回歸模型檢驗(yàn)值Table 1 Test value of multiple linear regression model of critical temperature(Tc) for aliphatic alcohols
行之有效的評價模型預(yù)測能力的方法是進(jìn)行內(nèi)外部驗(yàn)證。表2和表3分別列出了訓(xùn)練集和外部測試集中脂肪醇分子的分子描述符、臨界溫度及臨界溫度實(shí)驗(yàn)值,表2和表3最右列的預(yù)測臨界溫度數(shù)據(jù)大部分由文獻(xiàn)[21]計算得到,所缺少的數(shù)據(jù)采用文獻(xiàn)[22]的方法計算得到。
由表2可看出,訓(xùn)練集脂肪醇的臨界溫度預(yù)測值與實(shí)驗(yàn)值非常接近,殘差位于區(qū)間[-3.94,4.36],均方根誤差為1.77 K,平均絕對相對誤差僅為0.23%。
按表2所列脂肪醇順序,依次留下7個樣本不參與回歸,以訓(xùn)練集余下的34個樣本建模,對未參與建模的7個樣本的臨界溫度進(jìn)行預(yù)測,所有樣本都經(jīng)過一遍留多法交叉驗(yàn)證,所得為0.999 2,均方根誤差為2.38 K;同理按上述方法,做40次留一法交叉驗(yàn)證,所得為0.999 2,均方根誤差為2.36 K。留多法交叉驗(yàn)證和留一法交叉驗(yàn)證的系數(shù)和模型的決定系數(shù)非常接近,兩者的均方根誤差與模型的均方根誤差也接近,說明模型具有內(nèi)部穩(wěn)健性和可靠性。
表2 訓(xùn)練集脂肪醇的臨界溫度和分子描述符Table 2 Tc and molecular descriptors of aliphatic alcohols in the training set
由表3可看出,測試集脂肪醇的臨界溫度預(yù)測值與實(shí)驗(yàn)值非常接近,殘差位于區(qū)間[-8.01,6.97],平均絕對相對誤差為0.47%,小于1%,測試集中脂肪醇臨界溫度的均方根誤差為3.74 K;進(jìn)一步計算了模型的,,,分別達(dá)到0.996 5,0.996 2,0.998 0,說明模型對外預(yù)測能力良好。
表3 外部測試集脂肪醇的臨界溫度和分子描述符Table 3 Tc and molecular descriptors of aliphatic alcohols in the test set
以全部數(shù)據(jù)集的脂肪醇臨界溫度的預(yù)測值對實(shí)驗(yàn)值、預(yù)測殘差對臨界溫度實(shí)驗(yàn)值做圖,分別得到圖1和圖2。從圖1可看出,所有的數(shù)據(jù)點(diǎn)緊靠y=x這條直線,說明預(yù)測值與實(shí)驗(yàn)值十分接近;從圖2可看出,訓(xùn)練集和測試集的預(yù)測殘差分布均勻,殘差間不存在自相關(guān),絕大多數(shù)的點(diǎn)位于殘差區(qū)間[-6,6],只有兩個點(diǎn)位于區(qū)間外,并且預(yù)測殘差僅為6.97和-8.01。圖1和圖2進(jìn)一步說明預(yù)測模型穩(wěn)健可靠。
圖1 總數(shù)據(jù)集的臨界溫度實(shí)驗(yàn)值與預(yù)測值的關(guān)系Fig.1 Plot of Tc-cal.vs.Tc-obs.of whole dataset.
將模型的預(yù)測結(jié)果與基團(tuán)貢獻(xiàn)法的預(yù)測結(jié)果進(jìn)行比較,基團(tuán)貢獻(xiàn)法預(yù)測效果最好的是張克武法[21-22],其他方法如 Joback 法[23]和定位基團(tuán)貢獻(xiàn)法[24]預(yù)測效果較差。本工作僅與張克武法進(jìn)行比較,結(jié)果見表4。從表4可看出,張克武法預(yù)測結(jié)果的平均絕對誤差高、最大絕對誤差大,本模型用于預(yù)測脂肪醇的臨界溫度,各方面都優(yōu)于張克武法的預(yù)測結(jié)果。
表4 模型預(yù)測結(jié)果與張克武法[22]計算結(jié)果的比較Table 4 Comparison of the prediction results of the model with Zhang Kewu method[22]
張克武法需要用到物質(zhì)的沸點(diǎn),隨著脂肪醇中碳原子數(shù)量的增加,脂肪醇的沸點(diǎn)測定會更加困難,張克武法雖然較為簡便,但由于不同文獻(xiàn)提供的脂肪醇的沸點(diǎn)相差較大,導(dǎo)致計算的臨界溫度相差較大。表5列出了三種脂肪醇的沸點(diǎn)、本模型預(yù)測的臨界溫度及張克武法預(yù)測的臨界溫度(來自文獻(xiàn)[22]),其中,沸點(diǎn)BP1數(shù)據(jù)取自文獻(xiàn)[16]、沸點(diǎn)BP2數(shù)據(jù)取自文獻(xiàn)[25]。從表5可看出,沸點(diǎn)來源不同,計算的臨界溫度差異較大;張克武法的預(yù)測結(jié)果取決于沸點(diǎn)數(shù)據(jù)的精確度,含碳原子數(shù)多的脂肪醇的沸點(diǎn)測定精確度較差,而本模型不依賴于脂肪醇的沸點(diǎn),只需通過對分子進(jìn)行理論計算得到分子描述符,即可得到脂肪醇臨界溫度的預(yù)測值,本模型預(yù)測的三種脂肪醇的臨界溫度與實(shí)驗(yàn)臨界溫度的差值均低于2.00 K,優(yōu)于張克武法的預(yù)測結(jié)果。
表5 三種脂肪醇的沸點(diǎn)及預(yù)測的臨界溫度Table 5 Boiling point(BP) and Tc-cal.of three aliphatic alcohols
1)運(yùn)用Gaussian-16和Alvadesc軟件計算得到了對脂肪醇臨界溫度有顯著貢獻(xiàn)的五個分子描述 符 piPC01,ATS6e,GATS2e,GATS3i,E2m,運(yùn)用逐步多元線性回歸建立了五參數(shù)線性QSPR模型,相關(guān)系數(shù)為0.999 8,均方根誤差僅為1.77 K,這些分子描述符較好地描述了脂肪醇分子的結(jié)構(gòu)、大小和連接信息。
2)經(jīng)過決定系數(shù)、均方根誤差、平均絕對相對誤差、Fisher檢驗(yàn)、t-檢驗(yàn)、VIF檢驗(yàn)、留一法交叉驗(yàn)證、留多法交叉驗(yàn)證以及外部測試集驗(yàn)證,表明所建立的QSPR模型擬合能力優(yōu),內(nèi)部穩(wěn)健可靠,外部預(yù)測能力強(qiáng),可用于預(yù)測脂肪醇的臨界溫度。