陳 璐,高翠芳,魯海燕
江南大學(xué) 理學(xué)院,江蘇 無錫 214122
蛋白質(zhì)是生物生命活動的重要組成部分,主要由20種天然氨基酸組成,這些氨基酸不同的排列順序和個數(shù)使得蛋白質(zhì)具有多樣的二級結(jié)構(gòu),根據(jù)Levitt和Chothia提出的蛋白質(zhì)結(jié)構(gòu)分類,蛋白質(zhì)通常分為四種類別:All-α、All-β、α/β和α+β類,蛋白質(zhì)二級結(jié)構(gòu)分類對于更深入研究蛋白質(zhì)三級結(jié)構(gòu)和蛋白質(zhì)的功能與相互作用具有重要意義。然而,隨著基因組和蛋白質(zhì)科學(xué)的快速發(fā)展,蛋白質(zhì)結(jié)構(gòu)分類的實驗注釋滯后于蛋白質(zhì)數(shù)據(jù)庫規(guī)模的急劇擴大。因此,急需開發(fā)自動確定和識別蛋白質(zhì)結(jié)構(gòu)類別的預(yù)測方法[1]。
預(yù)測蛋白質(zhì)二級結(jié)構(gòu)通常有兩個步驟。首先,不同長度的蛋白質(zhì)序列通過特征提取可以用固定長度的特征向量來表示,再將特征向量輸入到某種分類算法進(jìn)行預(yù)測。對于蛋白質(zhì)序列特征提取研究,已經(jīng)有學(xué)者提出了數(shù)理統(tǒng)計方法和頻譜分析方法,如氨基酸組分特征[2]、偽氨基酸組成[3]、二肽及多肽組成[4-5]、多重進(jìn)化矩陣[6]、基因序列信息[7]以及不同特征的融合等。同時也產(chǎn)生了大量的預(yù)測算法,其中包括統(tǒng)計學(xué)和機器學(xué)習(xí)方法,如最近鄰方法(KNN)[8]、隱馬爾可夫模型(HMM)[9]、貝葉斯網(wǎng)絡(luò)[10]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[11]和支持向量機(SVM)[12]等。
總結(jié)前人的研究可以發(fā)現(xiàn),在將蛋白質(zhì)序列轉(zhuǎn)化為距離矩陣后,將其視作一種紋理圖像,使用灰度共生矩陣和灰度直方圖統(tǒng)計等方法提取其特征,輸入分類器分類結(jié)果不是很高,為了改善這一問題,本文引入小波變換提取距離矩陣中的特征。雙樹復(fù)小波變換源于解決傳統(tǒng)的二維離散實小波變換在圖像處理中存在的一些局限問題,在圖像處理領(lǐng)域取得了較好的使用效果[13-14]。雙樹復(fù)小波變換使用兩對濾波器組對圖像實現(xiàn)L級分解,用每個尺度下得到的6個方向子帶計算它們的能量與標(biāo)準(zhǔn)差,依此構(gòu)造特征向量。本文使用雙樹復(fù)小波變換完成對轉(zhuǎn)化后的蛋白質(zhì)距離矩陣的特征提取,后文中的實驗證明此方法可以有效提高蛋白質(zhì)二級結(jié)構(gòu)的分類精度。
本文使用兩個數(shù)據(jù)集,它們分別來自文獻(xiàn)[15]和文獻(xiàn)[16],兩個數(shù)據(jù)集中蛋白質(zhì)序列的Cα原子三維坐標(biāo)均來自PDB數(shù)據(jù)庫。在下載數(shù)據(jù)的過程中發(fā)現(xiàn),文獻(xiàn)中有些蛋白質(zhì)數(shù)據(jù)在PDB數(shù)據(jù)庫中不存在,故本文選取Cα原子三維數(shù)據(jù)完整的蛋白質(zhì)序列,最后得到第一個數(shù)據(jù)集總共包含197個蛋白質(zhì),其中48個All-α類、60個All-β、45個αβ類和44個α+β類,下文簡稱數(shù)據(jù)集A,第二個數(shù)據(jù)集總共包含1 656個蛋白質(zhì),其中440個All-α類、437個All-β類、342個αβ類和437個α+β類,下文簡稱數(shù)據(jù)集B。兩個數(shù)據(jù)集中所含各蛋白質(zhì)二級結(jié)構(gòu)數(shù)據(jù)如表1所示。
表1 數(shù)據(jù)集Table 1 Data sets
1.2.1 距離矩陣中的紋理信息
建立預(yù)測方法的關(guān)鍵是提取蛋白質(zhì)序列特征,使用蛋白質(zhì)骨架描述其二級結(jié)構(gòu),也就是使用Cα原子的三維坐標(biāo),計算每條蛋白質(zhì)鏈上所有Cα原子兩兩之間的距離,構(gòu)成一個矩陣,這樣的矩陣包含了蛋白質(zhì)結(jié)構(gòu)除手性之外足夠的三維結(jié)構(gòu)信息[17],因此,可以提取蛋白質(zhì)距離矩陣的特征對蛋白質(zhì)三維結(jié)構(gòu)比較。
設(shè)長度為L的蛋白質(zhì)序列P i為:
其中,R1R2R3R4R5表示蛋白質(zhì)序列P i的第一到第五個氨基酸殘基,以此類推,R L表示蛋白質(zhì)序列P i的最后一個氨基酸殘基。則其骨架可定義為:
圖1 不同蛋白質(zhì)二級結(jié)構(gòu)紋理圖Fig.1 Secondary structure texture map of different proteins
紋理是圖像的重要信息和特征,利用圖像的紋理特征進(jìn)行分類是一種有效的方法。提取圖像紋理特征的方法有基于灰度直方圖、灰度共生矩陣以及基于小波變換等方法,但圖像的灰度直方圖只統(tǒng)計了圖像的一階信息,灰度共生矩陣只是從粗的粒度描述了紋理的特征,二維小波變換存在平移改變性和有限的方向選擇性等缺陷,Kingsbury提出的雙樹復(fù)小波變換[18]具有近似的平移不變性、良好的方向選擇性和有限的數(shù)據(jù)冗余等優(yōu)點,能從不同的方向提取圖像的特征,豐富紋理信息。
1.2.2 雙樹復(fù)小波特征
二維雙樹復(fù)小波的定義為:
其中,i為虛數(shù),i2=-1;ψh和ψg分別是正交或雙正交的實小波,且形成Hibert變換對。雙樹復(fù)小波變換可以通過離散小波變換DWT實現(xiàn),一個DWT產(chǎn)生實部,另一個DWT產(chǎn)生虛部。其分解過程如圖2所示。
圖2 二維DT-CWT的分解過程Fig.2 Decomposition of two-dimensional DT-CWT
由圖2可以看出,雙樹復(fù)小波變換實質(zhì)上就是使用兩組低通濾波器h0(n)、g0(n)和高通濾波器h1(n)、g1(n)分別對輸入的二維信號交替進(jìn)行行列間的變換,分解出2個低頻子帶和6個不同方向(-75°,-45°,-15°,15°,45°,75°)的高頻子帶。這樣將圖像分解后就可以從更多方向來分析它的紋理特征。小波分解的級數(shù)越高,其獲得圖像在多尺度上的細(xì)節(jié)特征就越多,但是若分解級數(shù)太高,不僅特征圖像的邊界效應(yīng)更明顯,影響分類精度,還會增加小波變換的計算量,故本文將距離矩陣進(jìn)行4級雙樹復(fù)小波分解,每個尺度下有6個方向子帶Wl,n(i,j),其中l(wèi)=1,2,3,4,n=1,2,3,4,5,6。對這6個子帶按照式(3)和式(4)計算能量E l,n與標(biāo)準(zhǔn)差σl,n[19]。
其中,M×N是子帶圖像Wl,n(i,j)的大小,μl,n是Wl,n(i,j)的均值。使用標(biāo)準(zhǔn)偏差和能量特征的組合,得到如下48維特征向量:
在將蛋白質(zhì)序列經(jīng)過上述步驟轉(zhuǎn)化后,不同長度的蛋白質(zhì)序列均可得到48維特征向量F。
1.2.3 分類預(yù)測
將兩個數(shù)據(jù)集中的蛋白質(zhì)按照上述方法提取特征,輸入KNN分類器,其中K取5,每次實驗采取十重交叉驗證,計算5次實驗結(jié)果的平均值作為最終結(jié)果,在計算兩個特征向量的距離時,采用文獻(xiàn)[20]中的規(guī)范化的歐式距離度量方法。
設(shè)F x、F y分別為兩個蛋白質(zhì)序列P i x和Piy所提取到的特征向量:
因此可得兩蛋白質(zhì)間的距離為:
其中
其中,l,n分別是小波變換的尺度與方向數(shù),σ(E l,n)是E l,n在整個數(shù)據(jù)集上的標(biāo)準(zhǔn)差,σ(σl,n是)σl,n在整個數(shù)據(jù)集上的標(biāo)準(zhǔn)差。
為了檢驗方法的預(yù)測性能,本文采用5個指標(biāo):敏感性(Sensitivity)、特異性(Specificity)、準(zhǔn)確率(Accuracy)、馬氏相關(guān)系數(shù)(Mathew’s correlation coefficient)和總體準(zhǔn)確率(Overall accuracies),這些指標(biāo)越高說明預(yù)測結(jié)果越好。它們定義分別如下[21]:
其中,i表示蛋白質(zhì)的結(jié)構(gòu)類別,本文中i=4,表示全部是第i類的蛋白質(zhì)個數(shù),表示被分類模型錯誤預(yù)測為其他類的第i類的蛋白質(zhì)個數(shù)。表示全部其他類的蛋白質(zhì)個數(shù)。表示被分類模型錯誤預(yù)測為第i類的其他類蛋白質(zhì)個數(shù)。
按照上述雙樹復(fù)小波特征提取和KNN分類方法,在數(shù)據(jù)集A和數(shù)據(jù)集B這兩個數(shù)據(jù)上的預(yù)測結(jié)果如表2和表3所示。
表2 數(shù)據(jù)集A性能預(yù)測Table 2 Data set A performance prediction%
由表2和表3可見,當(dāng)使用雙樹復(fù)小波變換提取距離矩陣的紋理特征時,在兩個數(shù)據(jù)集上的表現(xiàn)都很好,四個指標(biāo)結(jié)果大部分范圍在94%~100%,特別在數(shù)據(jù)集A的All-α和All-β這兩個結(jié)構(gòu)類別上,特異性(Specificity)達(dá)到了100%。這是因為雙樹復(fù)小波變換使用了兩棵樹對圖像進(jìn)行變換,增強了紋理信息的表達(dá)。為了便于對比,本文還按照下述方法提取了距離矩陣的其他特征。(1)提取灰度直方圖統(tǒng)計特征[22],即計算圖像的均值、方差、對比度、三階中心矩、四階中心矩、均勻性和熵,得到7維特征向量。(2)提取灰度共生矩陣特征,即根據(jù)距離矩陣計算0°、45°和135°這3個方向的灰度共生矩陣,再計算每個方向上灰度共生矩陣的對比度、相關(guān)性、能量和均勻性這四種特征,最終得到12維特征向量。(3)提取小波能量特征,即用sym4小波包對距離矩陣進(jìn)行4級分解,計算相應(yīng)近似系數(shù)的能量百分?jǐn)?shù)Ea和相應(yīng)的水平細(xì)節(jié)系數(shù)Eh、垂直系數(shù)Ev、對角細(xì)節(jié)系數(shù)能量的百分?jǐn)?shù)Ed,這樣就得到13維特征向量。將上述特征向量分別輸入KNN分類器分類,KNN中K取值都為5。表4和表5列出了數(shù)據(jù)集A和B分別提取上述四種特征的KNN分類結(jié)果。
表3 數(shù)據(jù)集B性能預(yù)測Table 3 Data set B performance prediction%
表4 數(shù)據(jù)集A結(jié)果比較Table 4 Comparison of results of dataset A%
表5 數(shù)據(jù)集B結(jié)果比較Table 5 Comparison of results of dataset B%
由表4和表5可見,提取距離矩陣的雙樹復(fù)小波特征,在數(shù)據(jù)集A和數(shù)據(jù)集B上分類總體準(zhǔn)確率分別是89.33%和99.87%,比灰度直方圖統(tǒng)計特征和灰度共生矩陣特征都高出許多,對于每一個二級結(jié)構(gòu)分類,準(zhǔn)確率都有不同程度的提高。在部分結(jié)構(gòu)類別上,雙樹復(fù)小波特征比小波能量特征略低,但總體來說,本文方法更可靠些。
為了證明本文提取特征的方法效果不依賴于分類算法,實驗中還使用了SVM分類器分類,借助由臺灣大學(xué)林智仁教授開發(fā)設(shè)計的一個易于使用和快速有效的SVM軟件包LIBSVM,其中SVM中的主要參數(shù)(最佳懲罰參數(shù)c和核函數(shù)參數(shù)g)由網(wǎng)格搜索法得到,核函數(shù)選取RBF,每次實驗采取十重交叉驗證,計算五次實驗結(jié)果的平均值作為最終結(jié)果。不同特征提取方法使用LIBSVM分類總體準(zhǔn)確率如表6所示。
表6 不同方法在兩個數(shù)據(jù)集上的結(jié)果比較Table 6 Comparison of results between different methods on two datasets %
由表6可以看出,利用SVM分類器分類,相對于前面三種特征表示方法,雙樹復(fù)小波特征在數(shù)據(jù)集A上分別高出了7.15、5.72和4.84個百分點,在數(shù)據(jù)集B上結(jié)果分別高出了3.51、1.69和0.53個百分點。為了更直觀地體現(xiàn)本文方法的有效性,本文將在數(shù)據(jù)集A和數(shù)據(jù)集B上使用不同方法提取特征的總體準(zhǔn)確率表示成圖3。
從圖3(a)和(b)中可以看出,提取的灰度直方圖統(tǒng)計特征、灰度共生矩陣特征準(zhǔn)確率總體來說比提取小波變換特征低,這是因為灰度直方圖只是提取了圖像的一階統(tǒng)計信息,很難反映圖像像素的空間位置等相關(guān)信息。灰度共生矩陣只是從比較粗的粒度描述紋理的特征,缺少對圖像紋理的整體空間分布特征,而小波變換可以把圖像分解到多個頻帶中,且具有方向性,充分挖掘圖像的紋理和細(xì)節(jié)信息。使用雙樹復(fù)小波變換的準(zhǔn)確率比小波能量特征要高一些,這是因為小波變換在處理圖像時有兩個主要的缺點,即平移改變性和有限的方向選擇性,而雙樹復(fù)小波變換正好解決這兩個問題,能夠從不同方向提取圖像信息,豐富圖像的特征。
本文引入雙樹復(fù)小波變換提取蛋白質(zhì)的結(jié)構(gòu)特征,對于蛋白質(zhì)的距離矩陣的紋理信息,利用了雙樹復(fù)小波變換的近似的平移不變性、良好的方向選擇性和有限的數(shù)據(jù)冗余等優(yōu)點,避免了傳統(tǒng)提取圖像的灰度共生矩陣缺少圖像紋理的整體空間分布特征的缺陷,以及離散二維小波變換在處理圖像時的局限性,使用KNN、SVM兩種分類器對提取到的特征向量進(jìn)行分類驗證,預(yù)測結(jié)果較好,其中使用SVM在兩個數(shù)據(jù)集上的分類結(jié)果分別達(dá)到了98.50%和99.29%,蛋白質(zhì)序列還有許多其他特征提取方法,比如經(jīng)典的偽氨基酸組分方法,未來研究可以嘗試對傳統(tǒng)方法進(jìn)行改進(jìn),或者與本文方法結(jié)合運用,以及將本文方法應(yīng)用于其他具有紋理特征的蛋白質(zhì)數(shù)據(jù)。