楊月瑩,劉 娣 ,丁常宏,祁雪蓮
(1.東北農(nóng)業(yè)大學(xué) 理學(xué)院,黑龍江 哈爾濱150030;2.黑龍江省農(nóng)業(yè)科學(xué)院,黑龍江 哈爾濱150086;3.黑龍江中醫(yī)藥大學(xué) ,黑龍江 哈爾濱150040)
生物體是復(fù)雜的交互系統(tǒng),寒冷、炎熱刺激短期內(nèi)會引起內(nèi)分泌,組織間信號傳導(dǎo)等生理方面的反應(yīng)[1-5]。近年來,關(guān)于動物抗寒相關(guān)基因方面的討論工作已經(jīng)有所開展[6-10]。東北民豬是東北地區(qū)的一個古老的地方豬種,與我國其他地方豬種相比,抗寒性是民豬的一大特色。因為黑龍江省是全國氣溫最低的省份,在這樣寒冷氣候下生長培育出的民豬具有極強的抗寒特性。對民豬的抗寒性進(jìn)行系統(tǒng)和深入的觀察研究,可為民豬保持良好的生長狀態(tài),提高抗病性和適應(yīng)能力,降低發(fā)病率,多產(chǎn)高產(chǎn)提供參考依據(jù)。在民豬的抗寒性方面[11-13],生物體在分子水平上的表達(dá)差異性對于抗寒性能的發(fā)生發(fā)展,應(yīng)激反應(yīng)等方面都起到重要作用。在不同的溫度及生理條件下,機體作為一個統(tǒng)一的整體進(jìn)行調(diào)節(jié),在個體發(fā)育過程中保持高度時間、空間,表達(dá)量的協(xié)調(diào)性。從全基因組水平考查抗寒性狀相關(guān)基因的表達(dá)差異,有助于高通量篩選寒冷相關(guān)基因表達(dá)并對其進(jìn)行功能方面的分析、鑒定及預(yù)測。
通過系統(tǒng)地識別和鑒定寒冷條件下豬表達(dá)特異的基因,對于揭示豬抗寒性狀的發(fā)生本質(zhì)是有價值和意義的,識別特征基因的方法已經(jīng)非常多[14-17]。Brown 等采用支持向量機用同屬于一個代謝途徑的一組基因訓(xùn)練分類器,并且運用所得分類器進(jìn)行分類檢驗。Ben -Dor 等運用了支持向量機和AdaBoost 等方法對兩類組織進(jìn)行分類。Alon 等對兩類組織樣本數(shù)據(jù)進(jìn)行了分類。本文對于常溫狀態(tài)和低溫狀態(tài)下的兩類民豬樣本進(jìn)行了基因芯片表達(dá)譜研究,采用一種優(yōu)化方法進(jìn)行抗寒性狀相關(guān)基因的篩選,對這些特異的基因進(jìn)行表達(dá),可以明確這些抗寒相關(guān)基因如何與蛋白之間發(fā)生相互作用而行使功能,并能高效地完成動物體抵御外界環(huán)境刺激的使命。在寒冷條件下豬抗寒性狀研究是復(fù)雜的系統(tǒng)工程,如果能全面掌握豬在寒冷條件下表現(xiàn)的優(yōu)勢基因組合,必將為提高豬抗病抗寒能力,達(dá)到高產(chǎn)優(yōu)產(chǎn)提供依據(jù)。
選取3 窩3 月齡同期出生的民豬,將每窩個體隨機分成2 組,組成低溫處理組和常溫處理組。一組置于常溫(10 ~15 ℃),另一組置于低溫(-10 ~15 ℃),分別處理15 d。在低溫處理期的15 d 之內(nèi),每天需測量天氣溫度和風(fēng)速;每天分早、中、晚3 個時間段測量豬只的體表溫度、呼吸頻率和每分鐘肌肉顫栗次數(shù)。采用人為觀測結(jié)合攝像頭檢測錄像的辦法,觀察記錄實驗個體每天的采食行為,主要包括采食量、每次采食時間、飲水次數(shù)、飲水量、群居行為、活動與睡眠行為和異常行為。
處理結(jié)束后,采血并分別制備血清和血漿。血漿中IL24 和IL210 采用雙抗體夾心ELISA 試劑盒測定;皮質(zhì)醇和ACTH 采用RIA 試劑盒測定。血清中T3 和T4 濃度用中國原子能研究院生產(chǎn)的放射免疫藥盒測定,去甲腎上腺素用2 mol/L 高氯酸抽提,經(jīng)中性Al2O3吸附,0.3 mol/L 醋酸溶液浸泡提取,中性條件下K3Fe(CN)6氧化,產(chǎn)物在堿性溶液中生成三羥基吲哚類的熒光化合物。Fluormax -2 型熒光光譜儀檢測,激發(fā)光波長410 nm,發(fā)射光波長524 nm。屠宰實驗豬群,采集肝臟和肌肉組織樣品,置于液氮中保存帶回實驗室。
將實驗樣品按照實驗要求合成芯片,采用的是Affymetrix GeneChip 3000 TG System 實驗平臺,用Invitrogen 的TRIzol 提取總RNA,定量檢測純化總RNA,合成cDNA 等實驗后,按照芯片類型在芯片中注入預(yù)雜交液,將芯片放入雜交爐中進(jìn)行預(yù)雜交。在洗滌工作站FS450 上按照芯片類型,運行洗脫程序,對芯片進(jìn)行清洗、染色和信號放大過程。對芯片進(jìn)行掃描和信號值轉(zhuǎn)換,在芯片質(zhì)控結(jié)果良好的情況下,獲得低溫狀態(tài)和常溫狀態(tài)兩類樣本基因的表達(dá)數(shù)據(jù)。獲得芯片結(jié)果后,對實驗結(jié)果進(jìn)行分析,篩選出與冷誘導(dǎo)相關(guān)的候選基因。
1.2.1 特征提取方法 對基因表達(dá)數(shù)據(jù)補充缺失值并且進(jìn)行標(biāo)準(zhǔn)化處理,消除實驗過程中混雜在變量中的噪聲的影響。標(biāo)準(zhǔn)化按如下公式進(jìn)行:
抗寒性狀相關(guān)的基因集合的獲得需要考慮以下問題。常溫處理和寒冷處理得到的表達(dá)譜數(shù)據(jù)并非一般意義上的線性分類,因此可假設(shè)有參數(shù) β0,β1,β2,…,βn使得以下式子成立:
β0+其中,ei是彈性變量。
當(dāng)樣本屬于常溫處理組的樣本,有ei>0;當(dāng)樣本屬于低溫處理組的樣本,有ei<0。
模型中參數(shù) β0,β1,β2,…,βn被確定,該模型還可以被應(yīng)用于新的樣本分類。
應(yīng)用目標(biāo)規(guī)劃估計參數(shù)值β0,β1,β2,…,βn,用2 個非負(fù)變量d-和d+的差值,來評價ei。對于任意至多有1 個取得正值,分別代表常溫樣本被錯分為冷處理樣本和冷處理樣本被錯分為常溫樣本的樣本數(shù)目。
其中,用b0用于估計β0,bj用于估計βj為了限制分類函數(shù)中的基因數(shù)目,再引入了一個目標(biāo)。
min Σjyjyj=0 或1
當(dāng)bj=0 時yj=0,但當(dāng)bj≠0 時yj=1。因此,Σjyi的最小值表示分類函數(shù)中基因的數(shù)目。
篩選出的特征基因可以通過評價分類效能的方法來推斷特征選擇的結(jié)果,采用分類正確率評價指標(biāo)來反映特征子集的分類效能,TP 表示真陽性,F(xiàn)P 表示假陽性,TN 表示真陰性,F(xiàn)N 表示假陰性。
1.2.2 特征提取和分類器訓(xùn)練流程 流程如下:
Step1:對標(biāo)準(zhǔn)化后的基因芯片數(shù)據(jù)進(jìn)行樣本劃分,生成訓(xùn)練集和檢驗集,對于每組訓(xùn)練樣并行運用目標(biāo)優(yōu)化方法訓(xùn)練分類器,轉(zhuǎn)Step2。
Step2:根據(jù)分類器加權(quán)打分排序,篩選特征基因集合,加權(quán)值排序在前列的特征基因入選特征基因組合,轉(zhuǎn)Step3。
Step3:采用5 -fold 交叉驗證,滿足目標(biāo)規(guī)劃約束的所有特征基因構(gòu)成的集合,即抗寒性狀相關(guān)基因候選組合。
Step4:對于分類性能進(jìn)行評價,運用檢驗樣本獲得分類準(zhǔn)確率。
實驗數(shù)據(jù)總共有24 123 個基因,其中有22 458 個基因是已知基因,1 665 個對照的探針。通過優(yōu)化方法篩選得到抗寒性狀相關(guān)基因。根據(jù)功能檢索,筆者進(jìn)行了注釋。應(yīng)用數(shù)學(xué)規(guī)劃算法對基因芯片數(shù)據(jù)進(jìn)行特征基因的選取,采用五倍交叉驗證進(jìn)行樣本集合的選擇,每組訓(xùn)練樣本含有相應(yīng)比例的常溫狀態(tài)樣本和低溫狀態(tài)樣本,訓(xùn)練樣本分類器的同時進(jìn)行特征基因的加權(quán)篩選,進(jìn)行1 000次擾動依據(jù)權(quán)重均值對所篩選的特征基因進(jìn)行排序,選取高分值的特征基因子集。這些特征基因子集的構(gòu)成見表1。
表1 特征基因集合Tab.1 Feature gene sets
針對以上基因子集,對于包含寒冷樣本和常溫樣本兩類的檢驗樣本,分別應(yīng)用目標(biāo)優(yōu)化算法、支持向量機分類算法和神經(jīng)網(wǎng)絡(luò)分類器對分類效能的穩(wěn)定性進(jìn)行評估,以此對目標(biāo)規(guī)劃算法篩選得到的特征基因子集的分類性能進(jìn)行評價。分類穩(wěn)定性分析結(jié)果如圖1。
結(jié)果表明:通過目標(biāo)規(guī)劃算法應(yīng)用篩選得到的特征基因子集分類效果都非常穩(wěn)定,分類準(zhǔn)確率比較高;應(yīng)用支持向量機應(yīng)用不同特征基因子集進(jìn)行分類,分類性能較好,其中應(yīng)用5 個特征基因子集進(jìn)行分類的效果比較差,原因在于基因調(diào)控過程中關(guān)聯(lián)的基因比較多,過少的特征基因造成有效數(shù)據(jù)的損失,直接導(dǎo)致分類準(zhǔn)確率下降;神經(jīng)網(wǎng)絡(luò)分類器過程中分類準(zhǔn)確率也比較高,但是過多基因構(gòu)成的特征基因子集引起了數(shù)據(jù)冗余造成分類效能減弱。3 種分類方法都具備穩(wěn)定分類正確率的特征基因子集是10 個特征基因,所以回溯得到這10 個特征基因的基因功能,通過注釋分析,這些基因注釋到多個功能節(jié)點上,基因功能注釋如表2。
圖1 分類穩(wěn)定性分析結(jié)果Fig.1 Classification accuracy
表2 基因功能注釋Tab.2 Gene functional annotation
對于25 個分類有效的特征基因和35 個分類效果較好的特征基因,其中部分基因功能還不完全清楚,對于這些基因功能的驗證是下一步研究的工作。
對于寒冷脅迫下的地方民豬抗寒性狀相關(guān)基因的篩選,本文提出了一種集特征基因組選擇和兩類別樣本分類性能為一身的數(shù)學(xué)優(yōu)化算法,通過對于冷脅迫下的基因表達(dá)譜數(shù)據(jù)的五倍交叉驗證,篩選得到幾組不同容量的抗寒相關(guān)基因。這個方法運行效率非常高,篩選特征基因的同時,也可以對兩類樣本進(jìn)行分類,而且篩選得到的特征基因通過其他分類方法的佐證表明分類準(zhǔn)確率很高。
數(shù)學(xué)方法的最終目的還是獲得抗寒相關(guān)基因,既然這樣幾組抗寒相關(guān)基因?qū)τ诔貥颖竞偷蜏貥颖痉诸愋芊浅8?,這組基因的功能驗證就非常重要。從基因表達(dá)水平對樣本進(jìn)行分型克服了基于表型分類的主觀性,顯著提高了檢索特征基因的效率,為進(jìn)一步的分子實驗提供了極大的啟示。
針對越來越多的被量化的生物學(xué)實驗數(shù)據(jù),提高測量技術(shù)、開拓存儲技術(shù)、深入分析研究都是必要的。為了加快對于不同科學(xué)數(shù)據(jù)的深入研究,推進(jìn)算法改進(jìn)技術(shù)將為地方生物遺傳特性的研究具有重要的價值,對于這些生物的遺傳特征的研究將為保種育種提供寶貴的理論依據(jù),這不是單純解決一些特殊問題而采取的技術(shù)策略,從長遠(yuǎn)發(fā)展的角度出發(fā),研究地方動物的基因組信息具備深遠(yuǎn)的意義。
寒冷脅迫下動物體發(fā)生了復(fù)雜的生理變化,生物體分子水平上基因和蛋白的結(jié)構(gòu)和功能都隨外界環(huán)境的刺激而相應(yīng)形成反饋。單純從單基因角度對于寒冷條件刺激引起的防御應(yīng)答是沒有辦法全面準(zhǔn)確的反饋機體變化的全過程的,識別冷應(yīng)激脅迫下生物體基因表達(dá)水平的全面信息進(jìn)行整體研究將有利于研究整個寒冷脅迫的復(fù)雜反應(yīng)機制。
基因芯片數(shù)據(jù)一般都是樣本容量比較小,基因探針數(shù)目非常大,運用統(tǒng)計學(xué)方法對于這種低樣本,高通量的數(shù)據(jù)的處理不可避免會有系統(tǒng)誤差。如何降低小樣本高維的芯片數(shù)據(jù)分析誤差,一方面提高基因芯片數(shù)據(jù)實驗技術(shù),另一方面就是要從復(fù)雜的高維數(shù)據(jù)出發(fā)提高數(shù)據(jù)處理技術(shù)。對基因芯片數(shù)據(jù)的處理方法已經(jīng)非常普遍,筆者對提出的優(yōu)化算法進(jìn)行特征基因的數(shù)據(jù)挖掘方法的局限性也有思考。例如,通過優(yōu)化方法篩選的抗寒性狀相關(guān)基因普遍分類效能良好,然而采用非線性神經(jīng)網(wǎng)絡(luò)方法處理數(shù)據(jù)的時候,網(wǎng)絡(luò)誤差在開始時收斂速度較快,后期卻衰減的比較嚴(yán)重,耗時較長。所以對于后期基因功能的驗證將是下一步的具體工作。
[1]Yih-Cherng L,Ante T,Peter L D,et a1.Mimicry of ice structure by surface hydroxyls and water of a beta-h(huán)elix antifreeze protein[J].Nature,2000,406:322 -324.
[2]Airaksinen S,Jokilehto T,Robergh C M,et a1.Heat -and cold -inducible regulation of HSP70 expression in zebrafish ZF4 cells[J].Comp Biochem Physiol Part B,2003,136:275 -282.
[3]楊明,李慶芬,黃晨西. 布氏田鼠在冷暴露條件下褐色脂肪組織產(chǎn)熱的神經(jīng)內(nèi)分泌調(diào)節(jié)[J]. 動物學(xué)報,2003,49(6):748 -754.
[4]王秋菊.耐旱基因PC2300 AF1 在寒地粳稻上的功能驗證[J].江西農(nóng)業(yè)大學(xué)學(xué)報,2012,34(3):434 -438.
[5]胡振,龔亮,張彥博,等.甜菜夜蛾P(guān)AP 基因克隆及在高溫脅迫下其表達(dá)量的變化[J].江西農(nóng)業(yè)大學(xué)學(xué)報,2011,33(3):458 -464.
[6]楊發(fā)青,錢令嘉.寒冷適應(yīng)差異表達(dá)的研究[J].生物學(xué)報,2003,55(3):360 -363.
[7]鐘其旺,樊廷俊.魚類抗凍蛋白的研究進(jìn)展[J].生物化學(xué)與生物物理學(xué)報,2002,34:124 -130.
[8]Baardsnes J,Davies P L.Contribution of hydrophobic residues to ice binding by fish type Ill antifreeze proteins[J].Biochim Biophys Acta,2002,1601:49 -54.
[9]Cambi A,F(xiàn)igdor C G.Dual function of C-type lectin-like receptors in the immune system[J].Cur Opi Cell Biol,2003,l5:539 -546.
[10]王金濤,李寧,徐世文. 急慢性冷應(yīng)激對雛雞腓腸肌及血清抗氧化功能的影響[J]. 中國農(nóng)學(xué)通報,2007,23(3):28 -32.
[11]陳萍,楊煥民,李士澤,等.急性冷暴露對仔豬血漿中IL -2、IL -6、ACTH 和皮質(zhì)醇水平的影響.應(yīng)用與環(huán)境生物學(xué)報[J].2009,15 (1):91 -94.
[12]黃小波,楊恒,曹三杰,等.DLY 豬白細(xì)胞介素IL-6 基因的克隆及生物信息分析[J/OL].中國科技論文在線,2013,[2013 -01 -17].http://www.paper.edu.cn/releasepaper/content/2013 -01 -803.
[13]沈婷.冷應(yīng)激對豬的影響及其預(yù)防[J].安徽農(nóng)業(yè)科學(xué),2007,35(36):11839 -11840.
[14]Brown M P,William N Grundy,David Lin,et al. Knowledge -based analysis of microarray gene expression data by using support vector machines[J].Proc Natl Acad Sci,2000,97:262 -267.
[15]BenDor A,Bruhn L,F(xiàn)riedman N,et al,Tissue classification with gene expression profiles[J]. J Comput Biol,2000,7:559 -583.
[16]Alon U,Barkai N,Notterman D A,et al.Broad patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by oligonucleotide arrays[J].Proc Natl Acad Sci,1999,96:6745 -6750.
[17]鐘偉紅,馬修水,關(guān)宏偉,等. 基于RBF 神經(jīng)網(wǎng)絡(luò)的三坐標(biāo)測量機動態(tài)測量誤差預(yù)測[J]. 中國科技論文,2012,7(7):560 -562.