熊邦書 XIONG Bangshu 張郝東 ZHANG Haodong 歐巧鳳 OU Qiaofeng 葉毅嘉 YE Yijia
論著
基于相似度圖的凝膠圖像間蛋白點(diǎn)特征分析
熊邦書 XIONG Bangshu 張郝東 ZHANG Haodong 歐巧鳳 OU Qiaofeng 葉毅嘉 YE Yijia
作者單位 南昌航空大學(xué)無損檢測技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室 江西 南昌 330063
針對現(xiàn)有凝膠圖像間蛋白點(diǎn)匹配方法在選擇特征時,沒有直觀和統(tǒng)一標(biāo)準(zhǔn)的問題,本文提出了基于相似度圖的蛋白點(diǎn)特征分析方法。首先給出相似度圖的定義和生成方法;其次利用相似度圖法分析坐標(biāo)相似度、形狀上下文相似度和形態(tài)參數(shù)相似度等5種常用特征的特點(diǎn)及優(yōu)劣;最后根據(jù)特征分析結(jié)果提出一種多特征綜合利用的乘積法,相比均值法具有更好的匹配效果。為驗(yàn)證相似度圖和多特征綜合乘積法的有效性,開展了多種圖源的凝膠圖像蛋白點(diǎn)匹配實(shí)驗(yàn),結(jié)果表明,相似度圖能夠直觀、有效地反映蛋白點(diǎn)特征的匹配性能,對多特征的選擇和綜合利用具有很好的指導(dǎo)意義。
凝膠電泳圖像;蛋白點(diǎn)匹配
凝膠電泳技術(shù)是蛋白質(zhì)組學(xué)分析蛋白質(zhì)表現(xiàn)的重要方法,通過比對分析提取差異蛋白質(zhì)點(diǎn),進(jìn)而為疾病診斷、藥物研制或環(huán)境污染分析提供依據(jù)。近年學(xué)者們提出了許多凝膠圖像間蛋白點(diǎn)匹配方法[1-2],這些方法均需要對蛋白點(diǎn)進(jìn)行相似性度量,考慮的主要特征可分為兩類:形態(tài)描述[3-7]和幾何分布[6-10]。蛋白點(diǎn)形態(tài)描述是表示蛋白點(diǎn)外觀形態(tài)特征,如面積、灰度相似度、結(jié)構(gòu)相似度等;幾何分布是表示蛋白點(diǎn)在圖像中的分布情況,如坐標(biāo)、形狀上下文等。在基于灰度匹配的基礎(chǔ)上,Rohr等[3]提出了手工添加少數(shù)標(biāo)記點(diǎn)進(jìn)行圖像形變校正的方法,能夠顯著提高匹配精度;Dowsey等[4]融入了多分辨率概念和體積不變B樣條,實(shí)現(xiàn)了凝膠圖像的精準(zhǔn)對齊。Lin[5]采用最大相關(guān)張成樹法,提出了基于局部圖像像素灰度的匹配方法。熊邦書等[6]利用蛋白點(diǎn)坐標(biāo)相似度特征和蛋白點(diǎn)局部圖像灰度相似度特征,提出了基于分層策略的匹配算法。唐浩等[7]采用灰度分層和幾何分塊相結(jié)合的匹配策略,結(jié)合形狀上下文與灰度相似度對蛋白點(diǎn)進(jìn)行匹配。Rogers等[8]分別利用歐式距離和形狀上下文特征并結(jié)合迭代最近點(diǎn)[11]策略進(jìn)行蛋白點(diǎn)匹配。Horaud等[9]采用剛性變換疊加的變換模型,并利用最大似然估計(jì)方法訓(xùn)練剛性變換參數(shù),獲得了較好的圖像對齊效果。Noma等[10]提出了以蛋白點(diǎn)為節(jié)點(diǎn)組成圖,再根據(jù)圖進(jìn)行匹配的方法。現(xiàn)有匹配方法對于特征的選擇、優(yōu)劣及多種特征的綜合效果,只能從最終的匹配結(jié)果中得出,缺少直觀和統(tǒng)一的評估標(biāo)準(zhǔn)。本文采用相似度圖方法對多種常用的蛋白點(diǎn)特征進(jìn)行直觀分析和評估,在此基礎(chǔ)上提出了一種多特征綜合利用的乘積法,提高了蛋白點(diǎn)匹配的精度。
相似度計(jì)算是在參考凝膠圖像中的蛋白點(diǎn)和待匹配凝膠圖像中的蛋白點(diǎn)間進(jìn)行,計(jì)算前需對凝膠圖像進(jìn)行蛋白點(diǎn)檢測,獲得蛋白點(diǎn)的中心坐標(biāo)和所在區(qū)域信息。
設(shè)參考凝膠圖像中的蛋白點(diǎn)集為Sa={Si|i=1,2,...,Na},待匹配凝膠圖像Ib中的蛋白點(diǎn)集為Sb={Sj|j=1,2,...,Nb},其中Na和Nb分別為兩凝膠圖像中的蛋白點(diǎn)個數(shù)。令蛋白點(diǎn)si和sj的某種特征歸一化相似度為mij∈[0,1],則Ia和Ib中蛋白點(diǎn)間的相似度矩陣為:
為便于觀察相似度的分布情況,將Mab的元素值線性映射到區(qū)間[0,255]上,并取整為像素的灰度值,生成相似度圖。相似度圖中的像素亮度越高,表示對應(yīng)的兩個蛋白點(diǎn)越相似。
本文以坐標(biāo)相似度、形狀上下文相似度、形態(tài)參數(shù)相似度、灰度相似度和結(jié)構(gòu)相似度5個現(xiàn)有蛋白點(diǎn)匹配方法[6-8]中常用的蛋白點(diǎn)特征為研究對象,進(jìn)行特征相似度分析,并分別生成相似度圖進(jìn)行對比。上述特征中前2個特征屬于幾何分布類別,后3個特征屬于形態(tài)描述類別。用于對比試驗(yàn)的凝膠圖像見圖1。
為便于特征相似度對比分析,本文采用人工方法對圖1所示的圖源進(jìn)行匹配,并生成標(biāo)準(zhǔn)相似度圖(圖2A),用于各特征相似度圖的對照。對應(yīng)的相似度矩陣中,若兩蛋白點(diǎn)相匹配,則其相似度為1,否則為0。
2.1 坐標(biāo)相似度 為了降低圖像尺寸和蛋白點(diǎn)分布偏差的影響,需先對蛋白點(diǎn)坐標(biāo)進(jìn)行歸一化處理。設(shè)兩幅凝膠圖像Ia和Ib的尺寸分別為Wa×Ha和Wb×Hb,根據(jù)是否已知待匹配圖像與參考圖像間的變換關(guān)系,坐標(biāo)歸一化的計(jì)算分為兩種情況。
圖1 特征相似度分析采用的凝膠圖像。A、B分別為參考凝膠圖像和待匹配凝膠圖像,圖中蛋白點(diǎn)較為明顯,包含較少的干擾因素
2.1.1 未知凝膠圖像間變換關(guān)系 凝膠圖像間的變換關(guān)系未知時,根據(jù)蛋白點(diǎn)平均坐標(biāo)確定凝膠圖像間的位置偏差。設(shè)圖像Ia中所有蛋白點(diǎn)的平均坐標(biāo)為Ca=(xa,ya),蛋白點(diǎn)Sai的坐標(biāo)為Xai=(xai,yai),則蛋白點(diǎn)Sai的中心歸一化坐標(biāo)為:
同理可得凝膠圖像Ib中蛋白點(diǎn)的中心歸一化坐標(biāo)。
2.1.2 已知凝膠圖像間變換關(guān)系 設(shè)Ib到Ia的變換關(guān)系為T(·),Sai和Sbj分別為圖像Ia和Ib中的蛋白點(diǎn)。Sai的歸一化坐標(biāo)為:
Sbj的歸一化坐標(biāo)為:
蛋白點(diǎn)坐標(biāo)相似度為:
若兩個蛋白點(diǎn)的坐標(biāo)越相似,則Oai,bj值越趨近于1。
圖2B給出了圖1的坐標(biāo)相似度圖,對照標(biāo)準(zhǔn)相似度圖2A,可以看出相匹配蛋白點(diǎn)間相似度值較高;非匹配蛋白點(diǎn)間相似度值較低,但存在許多干擾區(qū)域。因此僅使用坐標(biāo)相似度不能獲得很好的匹配結(jié)果,但具有一定的利用價(jià)值。
2.2 形狀上下文相似度 形狀上下文[12]描述了近鄰點(diǎn)的分布情況,常用于目標(biāo)識別。首先統(tǒng)計(jì)徑向區(qū)域內(nèi)的蛋白點(diǎn)數(shù)量,生成近鄰蛋白點(diǎn)的分布直方圖(圖3);然后計(jì)算兩直方圖間的χ2距離,得到兩蛋白點(diǎn)間的形狀上下文相似度Cai,bj∈[0,1]。若兩個蛋白點(diǎn)的形狀上下文越相似,則Cai,bj值越趨近于1[7]。
圖2 特征相似度圖。A為標(biāo)準(zhǔn)相似度圖,B為坐標(biāo)相似度圖,C為形狀上下文相似度圖,D為形態(tài)參數(shù)相似度圖,E為灰度相似度圖,F(xiàn)為結(jié)構(gòu)相似度圖
圖3 形狀上下文相似度。A為蛋白點(diǎn)分布,B為直方圖
圖2C給出了圖1的結(jié)構(gòu)相似度圖,對照坐標(biāo)相似度圖2B,可以看出形狀上下文相似度同坐標(biāo)相似度的效果十分相似,但是在部分細(xì)節(jié)上有所不同。
2.3 形態(tài)參數(shù)相似度 形態(tài)參數(shù)有面積、平均灰度、基準(zhǔn)、深度、飽和度、稀疏度等,為了降低圖像間亮度差異和噪聲的影響,提高蛋白點(diǎn)形態(tài)參數(shù)的可靠性,需對凝膠圖像進(jìn)行去噪、增強(qiáng)和灰度歸一化等預(yù)處理。
設(shè)凝膠圖像I中蛋白點(diǎn)集為S={si|i=1,2,2...,N},N為蛋白點(diǎn)個數(shù)。記蛋白點(diǎn)si內(nèi)的像素個數(shù)為面積Area (si),第k個像素的灰度為Gray(si,k),像素灰度的最小值為Vall(si);邊緣點(diǎn)集共有Peri(si)個像素,第k個像素的灰度為Gp(si,k);蛋白點(diǎn)si與sj(j≠i)的距離為Dist(si,sj),則蛋白點(diǎn)的平均灰度為:
基準(zhǔn)為:
深度為:
飽和度為:
稀疏度為:
參數(shù)歸一化計(jì)算公式為:
面積、平均灰度、基準(zhǔn)、深度、飽和度和稀疏度等參數(shù)歸一化時將公式(12)中Para替換成各參數(shù),如歸一化面積計(jì)算公式為:
將蛋白點(diǎn)的面積、平均灰度、基準(zhǔn)、深度、飽和度和稀疏度參數(shù)組成表征向量:
蛋白點(diǎn)間的形態(tài)參數(shù)相似度定義為表征向量歐式距離的倒數(shù),計(jì)算公式為:
若兩個蛋白點(diǎn)的形態(tài)越相似,則Pai,bj值越趨近于1。
圖2D給出了圖1的形態(tài)參數(shù)相似度圖,對照標(biāo)準(zhǔn)相似度圖2A,可以看出形態(tài)參數(shù)相似度圖雜亂無章,存在許多相匹配蛋白點(diǎn)間相似度值較低的情況。因此,形態(tài)參數(shù)基本沒有利用價(jià)值。
2.4 灰度相似度 灰度相似度(歸一化互信息)常用以衡量兩幅圖像間的相似度[13],在文獻(xiàn)[6]中則通過兩個蛋白點(diǎn)局部圖像間的相似度表示兩個蛋白點(diǎn)間的相似度。
設(shè)在凝膠圖像Ia有蛋白點(diǎn)sai,坐標(biāo)為(xai,yai),局部圖像區(qū)域Lai為同樣,凝膠圖像Ib中的蛋白點(diǎn)sbj坐標(biāo)為(xbj,ybj),局部圖像區(qū)域Lbj為sai和sbj間灰度相似度計(jì)算的
主要步驟如下:
步驟1:將Lai和Lbj進(jìn)行縮放,統(tǒng)一尺寸為和其中,
步驟2:計(jì)算圖像L'ai中像素的平均灰度μai和標(biāo)準(zhǔn)差σai:
其中,N為像素個數(shù),lai(n)表示第n個像素的灰度值。同理計(jì)算圖像L'bj的平均灰度μbj和標(biāo)準(zhǔn)差σbj。
步驟3:計(jì)算圖像L'ai和L'bj的協(xié)方差:
步驟4:計(jì)算圖像L'ai和L'bj的灰度相似度:
其中,c為極小項(xiàng),用于避免式中出現(xiàn)分母為0的情況,本文實(shí)驗(yàn)中取為10-6。若兩個蛋白點(diǎn)的圖像越相似,則Rai,bj值越趨近于1。
圖2E給出了圖1的灰度相似度圖,對照標(biāo)準(zhǔn)相似度圖2A和坐標(biāo)相似度圖2B,可以看出相匹配蛋白點(diǎn)間相似度值較高;非匹配蛋白間相似度值較低,但存在許多干擾,又與坐標(biāo)相似度圖中干擾程區(qū)域狀不同。因此,僅使用灰度相似度不能獲得很好的匹配結(jié)果,灰度相似度與坐標(biāo)相似度存在一定的互補(bǔ)性。
2.5 結(jié)構(gòu)相似度 結(jié)構(gòu)相似度[14]與灰度相似度類似,能夠衡量兩幅圖像間的相似度,目前常用于圖像質(zhì)量評估領(lǐng)域。
其計(jì)算方法類似于灰度相似度,先獲取兩蛋白點(diǎn)的局部圖像并縮小至同一尺寸,其次計(jì)算兩局部圖像的灰度均值μai和μbj,標(biāo)準(zhǔn)差σai和σbj及協(xié)方差σai,bj,最后計(jì)算兩個局部圖像間的相似度,計(jì)算公式為:
其中,c1和c2為輔助常數(shù),用于穩(wěn)定結(jié)果,經(jīng)典取值為c1=(k1c)2,c2=(k2c)2,其中k1=0.01,k2=0.03,c為圖像像素的顏色數(shù),對于8位的灰度圖像,c=256。若兩個蛋白點(diǎn)的圖像越相似,則Sai,bj值越趨近于1。
圖2F給出了圖1的結(jié)構(gòu)相似度圖,對照灰度相似度圖2E,可以看出結(jié)構(gòu)相似度同灰度互相關(guān)的效果十分相似,但是在部分細(xì)節(jié)上有所不同。
由“2特征相似度”分析可知,坐標(biāo)相似度、形狀上下文相似度、灰度相似度、結(jié)構(gòu)相似度4個特征具有較高的利用價(jià)值,但均存在較多干擾,單獨(dú)使用某一個特征無法獲得較好的匹配結(jié)果;不同特征具有自己的特點(diǎn),且兩類特征間又具有很強(qiáng)的互補(bǔ)性。因此蛋白點(diǎn)匹配時需要綜合考慮多個具有較高利用價(jià)值的特征。
文獻(xiàn)[6]中對坐標(biāo)相似度和灰度相似度進(jìn)行加權(quán)平均,獲得了較好的匹配效果;文獻(xiàn)[7]中對坐標(biāo)相似度、形狀上下文相似度和灰度相似度進(jìn)行加權(quán)平均,具有更好的匹配效果。兩項(xiàng)研究采用的綜合方法都是對多個特征進(jìn)行加權(quán)平均,簡稱均值法。為觀察均值法的效果,對坐標(biāo)相似度、形狀上下文相似度、灰度相似度、結(jié)構(gòu)相似度4個特征值進(jìn)行等權(quán)值平均,相似度圖見圖4A。
將圖4A與圖2中各相似度圖對比,可以看出均值法在一定程度上降低了非匹配蛋白點(diǎn)間的相似度值,效果明顯優(yōu)于單個特征。
為進(jìn)一步提升多特征綜合效果,根據(jù)4個特征的特點(diǎn)設(shè)計(jì)不同的綜合方法,通過觀察比較對應(yīng)的綜合相似度圖確定優(yōu)劣,提出將4個特征的相似度值相乘(乘積法)具有更好的效果。圖4B給出乘積法的相似度圖,對照標(biāo)準(zhǔn)相似度圖2A和均值法相似度圖4A,可以看出乘積法相似度圖更接近標(biāo)準(zhǔn)相似度圖。
為了驗(yàn)證相似度圖和乘積法的有效性和適應(yīng)性,分別根據(jù)各個特征相似度、均值法相似度和乘積法相似度,采用多個圖源的凝膠圖像進(jìn)行匹配實(shí)驗(yàn)。
現(xiàn)有的匹配方法將匹配過程分為粗匹配和精匹配兩步:粗匹配過程完成部分蛋白點(diǎn)的準(zhǔn)確匹配;精匹配過程將已匹配點(diǎn)作為參考標(biāo)記點(diǎn),采用某種策略實(shí)現(xiàn)剩余蛋白點(diǎn)的匹配。因此,粗匹配的精度直接影響最終匹配的精度,為方便起見,本文僅進(jìn)行粗匹配實(shí)驗(yàn),采用文獻(xiàn)[6]中的粗匹配方法,實(shí)驗(yàn)用凝膠圖像分別見圖5~7。
為量化匹配結(jié)果,通過公式(21)計(jì)算正確匹配率r和公式(22)計(jì)算誤匹配率f:
圖4 綜合相似度圖。A為均值法相似度圖,B為乘積法相似度圖
圖5 國際凝膠圖像[15]。A、B兩凝膠圖像的背景亮度不一致,A中背景過亮,能夠檢測到的蛋白點(diǎn)數(shù)目比B中少
圖6 Bio-Rad公司測試圖像[16]。A、B兩凝膠圖像間存在較大的非線性扭曲,并且蛋白點(diǎn)由于染色不足而顏色較淺
圖7 A、B兩凝膠圖像中存在蛋白點(diǎn)拖尾粘連現(xiàn)象,并且膠板存在裂縫干擾條紋
其中,np為凝膠圖像中真實(shí)存在的蛋白點(diǎn)對數(shù),nr為結(jié)果中正確匹配的對數(shù),nf為結(jié)果中錯誤匹配的對數(shù)。粗匹配實(shí)驗(yàn)結(jié)果見表1。
由表1可見,形態(tài)參數(shù)相似度具有最低的正確匹配率和最高的誤匹配率,基本無利用價(jià)值;幾何分布類特征比形態(tài)描述類特征具有較高的正確匹配率和較低的誤匹配率,具有更高的使用價(jià)值;形狀上下文相似度比坐標(biāo)相似度使用價(jià)值較高;結(jié)構(gòu)相似度與灰度相似度性能相近,前者略有優(yōu)勢;兩種綜合相似度均比單一特征相似度具有較高的使用價(jià)值;乘積法綜合相似度比均值法綜合相似度具有更高的使用價(jià)值。
表1 粗匹配實(shí)驗(yàn)結(jié)果
上述匹配實(shí)驗(yàn)結(jié)果驗(yàn)證了本文相似度圖法能直觀、有效地分析蛋白點(diǎn)特征的匹配性能,也驗(yàn)證了本文提出的多特征綜合乘積法的有效性。
總之,本文提出了基于相似度圖的凝膠圖像間蛋白點(diǎn)特征分析方法,采用相似度圖對蛋白點(diǎn)特征進(jìn)行直觀分析,在此基礎(chǔ)上提出了多個特征綜合利用的乘積法,相對于均值法具有更高的粗匹配精度。通過多圖源真實(shí)凝膠圖像的匹配實(shí)驗(yàn),驗(yàn)證了相似度圖的有效性,對多特征的選擇和綜合利用具有很好的指導(dǎo)意義。
[1] Rabilloud T,Chevallet M,Luche S,et al.Two-dimensionalgel electrophoresis in proteomics:past,present and future.J Proteomics,2010,73(11):2064-2077.
[2] Rogowska-Wrzesinska A,Le Bihan M,Roepstorff P.2D gels still have a niche in proteomics.J Proteomics,2013,88(SI):4-13.
[3] Rohr K,Cathier P,W?rz S.Elastic registration of electrophoresis images using intensity information and point landmarks.Pattern Recognit,2004,37(5):1035-1048.
[4] Dowsey AW,Dunn MJ,Yang GZ.Automated image alignment for 2D gel electrophoresis in a high-throughput proteomics pipeline.Bioinformatics,2008,24(7):950-957.
[5] Lin DT.Autonomous sub-image matching for two-dimensional electrophoresis gels using MaxRST algorithm.Image Vis Comput,2010,28(8):1267-1279.
[6] 熊邦書,陳樂平,歐巧鳳,等.基于分層策略的凝膠圖像間蛋白點(diǎn)匹配算法.中國生物醫(yī)學(xué)工程學(xué)報(bào),2012,31(3):422-427.
[7] 唐浩,熊邦書,歐巧鳳,等.基于灰度分層和幾何分塊的蛋白質(zhì)點(diǎn)匹配算法.生物醫(yī)學(xué)工程學(xué)雜志,2014,31(3):487-492,498.
[8] Rogers M,Graham J.Robust and accurate registration of 2-D electrophoresis gels using point-matching.IEEE Trans Image Process,2007,16(3):624-635.
[9] Horaud R,F(xiàn)orbes F,Yguel M,et al.Rigid and articulated point registration with expectation conditional maximization.IEEE Trans Pattern Anal Mach Intell,2011,33(3):587-602.
[10] Noma A,Pardo A.Cesar Jr RM.Structural matching of 2D electrophoresis gels using deformed graphs.Pattern Recognit Lett,2011,32(1):3-11.
[11] Hermans J,Smeets D,Vandermeulen D,et al.Robust point set registration using EM-ICP with information-theoretically optimal outlier handling.2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).2011:2465-2472.
[12] Belongie S,Malik J,Puzicha J.Shape matching and object recognition using shape contexts.IEEE Transactions on Pattern Analysis & Machine Intelligence,2002,24(4):509-522.
[13] 余慧婷,張杰,潘萌.噪聲對三維圖像歸一化互信息配準(zhǔn)的影響.中國醫(yī)學(xué)影像學(xué)雜志,2011,19(11):844-849.
[14] Wang Z,Bovik AC,Sheikh HR,et al.Image quality assessment:from error visibility to structural similarity.IEEE Trans Image Process,2004,13(4):600-612.
[15] Lemkin P.The LECB 2-D PAGE Gel Images Data Sets.U.S.National Cancer Institute's Laboratory of Experimental and Computational Biology,2015-02-08.http://www.bioinformatics.org/lecb2dgeldb/.
[16] Anon.Imaging and Analysis of 2-D Electrophoresis Gels.Bio-Rad Laboratories,2015-02-08.http://www.bio-rad.com/en-us/ product/pdquest-2-d-analysis/.
(本文編輯 張春輝)
Analysis of Protein Spot Characteristics Based on Similarity Map
There are no intuitive and unified standards for selecting features in existing protein gel image point matching method,for which an analysis method based on similarity map is proposed.Firstly,the definition and generation methods of similarity map were presented.Secondly,trait and merits of features such as coordinate similarity,shapecontext similarity and morphology similarity were analyzed using similarity map method.Finally,comprehensive utilization of multi-features named product-method which has a better effect than mean-method was proposed based on the results.Many experiments using different 2-DE gel images were carried out to prove the validity of similarity map and product-method.The results showed that similarity map could be used for intuitional,effective analysis of matching performance and to guide the selection and comprehensive utilization of multi-features.
Gel electrophoresis imaging; Gel images
10.3969/j.issn.1005-5185.2015.10.016
熊邦書
Key Laboratory of Nondestructive Testing (Ministry of Education),Nanchang Hangkong University,Nanchang 330063,China
Address Correspondence to:XIONG Bangshu E-mail:xiongbs@126.com
國家自然科學(xué)基金項(xiàng)目(61163047);江西省自然科學(xué)基金項(xiàng)目(20114BAB201036);江西省教育廳科技項(xiàng)目(GJJ14532);南昌航空大學(xué)江西省圖像處理與模式識別重點(diǎn)實(shí)驗(yàn)室基金項(xiàng)目(TX201504005);江西省2013年度研究生創(chuàng)新專項(xiàng)資金項(xiàng)目(YC2013-S219)。
TP391.4
2015-02-09
2015-06-20
中國醫(yī)學(xué)影像學(xué)雜志2015年 第23卷 10期:775-779,784
Chinese Journal of Medical Imaging 2015 Volume 23(10):775-779,784