鄧 甦, 姜 楊, 付長賀
(1. 沈陽師范大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院, 沈陽 110034;2. 內(nèi)蒙古財經(jīng)大學(xué) 統(tǒng)計與數(shù)學(xué)學(xué)院, 呼和浩特 010070)
細(xì)胞中2個基因同時突變有時會產(chǎn)生一種表現(xiàn)型異常于單個基因突變的效應(yīng),這種現(xiàn)象被稱為基因相互作用[1-2]?;蛳嗷プ饔貌煌诘鞍踪|(zhì)之間的物理聯(lián)系(通過共價鍵形成蛋白質(zhì)復(fù)合體),其表現(xiàn)為基因之間的功能聯(lián)系,如:互補(bǔ)基因、異位顯性基因、修飾基因、抑制基因、調(diào)節(jié)基因等[3]。此外,基因相互作用還可以有效地解釋有性生殖和重組的選擇優(yōu)勢[4]以及輔助識別細(xì)胞信號通路[5-7]。近些年,基因相互作用的研究已經(jīng)變得越來越系統(tǒng),尤其在模式生物酵母菌中實(shí)驗規(guī)模也越來越大[8-12]。這些實(shí)驗數(shù)據(jù)為定量定義基因相互作用提供了機(jī)會,也為基因表達(dá)的潛因子分析提供了新的思路[13-14]。
定量方式定義基因相互作用需要2個部分:數(shù)據(jù),即生物體由于基因突變而觀測到的可量化的表型測量,通常包括單個基因突變的表型測量數(shù)據(jù)(單突變值)、一對基因同時突變的表型測量數(shù)據(jù)(對突變值)和重復(fù)實(shí)驗的偏移度等;預(yù)期中立函數(shù)或預(yù)期函數(shù),用于預(yù)測2個單突變同時發(fā)生卻互不影響情況下的表型值,一般有乘法型、加法型、對數(shù)型和最小型[15]。定量形式定義的基因相互作用就是對突變值偏離于這2個單突變的預(yù)期中立函數(shù)值。因此,這種定義方式可以定義2種基因相互作用,如果對突變值小于預(yù)期值,則這對基因的相互作用就被定義為惡化型(synergistic),若相反則定義為弱化型(alleviating)。這種偏移如果很小就認(rèn)為這對基因之間沒有相互作用。
目前,大多數(shù)基因相互作用研究都以酵母菌為模式生物,采用的表型測量基本都是適合度(fitness),即微生物種群的生長效率,而根據(jù)不同的適合度測量方法出現(xiàn)了乘法型、加法型、對數(shù)型的預(yù)期中立函數(shù)[3,15-17]。此外,還有一種最小型期望函數(shù),即取2個單突變值的最小值作為返回值。最小型期望函數(shù)的理論假設(shè)是2個單突變都破壞了一個限制細(xì)胞生長的細(xì)胞通路,因此其中一個突變實(shí)質(zhì)上比另一個更具限制性,而對突變可能會表現(xiàn)出最大限制單突變體的表型[18-19]。關(guān)于上述4種方法,文獻(xiàn)[15]指出,即使是同一形式變種的乘法型、加法型、對數(shù)型預(yù)期函數(shù),在同一數(shù)據(jù)集上也會得到不同的相互作用。盡管如此,還是有一些有趣的結(jié)果被發(fā)現(xiàn),對于獨(dú)立且比較小的適應(yīng)性突變,乘法型定義和加法型定義結(jié)果基本一致,而與其他定義不同[16];當(dāng)其中一個單突變具有野生型適應(yīng)度時(突變未引起適合度顯著變化),所有預(yù)期函數(shù)得到的基因相互作用都相同[17]??偟膩碚f,目前研究表明,對于大多數(shù)情況,沒有實(shí)際經(jīng)驗可供參考該如何選擇預(yù)期函數(shù),也不清楚是否存在其他類型的期望函數(shù),更不清楚對于其他表型測量方法上述預(yù)期函數(shù)是否適用。
鑒于上述問題,本文設(shè)計了一種數(shù)據(jù)驅(qū)動的基因相互作用定義方法,該方法基于機(jī)器學(xué)習(xí)思想,從實(shí)驗數(shù)據(jù)出發(fā)構(gòu)建符合數(shù)據(jù)特征的中立函數(shù)。該方法克服了經(jīng)典固定中立函數(shù)極易受到實(shí)驗批次效應(yīng)等環(huán)境因素影響的缺點(diǎn),基于實(shí)驗數(shù)據(jù)自身特征通過回歸擬合方法構(gòu)建期望中立函數(shù),進(jìn)而定義更為精準(zhǔn)的基因相互作用。為了去除惡化型和弱化型對突變回歸中立方程的影響,該方法采用迭代回歸的框架,每次迭代首先回歸出中立函數(shù),然后計算每組估計對突變表型值和實(shí)際觀察值之間的殘差,最后剔除殘差相對比較大的樣本,使用新的數(shù)據(jù)進(jìn)行下一次循環(huán)。在包含8000組對突變的數(shù)據(jù)集中使用本方法,發(fā)現(xiàn)了2 000對惡化型和1 000對弱化型基因相互作用,比經(jīng)典定義方法更為精準(zhǔn)。
青櫻不覺苦笑,柔聲道:“你生下三阿哥才三個多月,這樣跟著我疾走,豈不傷了身子?”青櫻見她身體姿孱孱,愈加不忍,“是我不好,沒察覺你跟著我來了?!?/p>
為了獲得精確的回歸中立函數(shù),采用迭代的過程逐批剔除殘差絕對值比較大的點(diǎn),這里設(shè)置了一個剔除參數(shù)cutoff,表示每次迭代剔除多少個樣本,此參數(shù)設(shè)置大小可影響迭代次數(shù)以及結(jié)果的精確度,可以作為超參數(shù)調(diào)節(jié)。ε為收斂精度參數(shù),可根據(jù)數(shù)據(jù)質(zhì)量適當(dāng)調(diào)節(jié)。原始數(shù)據(jù)如果不是乘法型適應(yīng)度表型值可以事先轉(zhuǎn)換,并全部取對數(shù)以滿足模型(3),算法大致流程如圖1所示。
y=x1·x2
(1)
情況 3 v9不染1, 不失一般性,假設(shè)它染3,則可用上述的方法將窮點(diǎn)v1,v5的顏色2改染為顏色1, 并用2 來染v。
(2)
使用python語言的pandas包、sklearn包和matplolib包對數(shù)據(jù)進(jìn)行分析。通過超參數(shù)調(diào)整,最后設(shè)定cutoff=100,ε=0.000 1,程序運(yùn)行了20次迭代后趨于收斂,獲得的回歸系數(shù)為b1=1.003,b2=1.091,C=0.991。把這些系數(shù)帶入公式(2)可得回歸中立函數(shù)為
式(4)看上去和經(jīng)典式(1)沒有太大的差別(只有接近于1的系數(shù)差別),但是使用這個函數(shù)定義的基因相互作用為惡化型有81 555對,弱化型有80 856對,而傳統(tǒng)函數(shù)定義的數(shù)字是惡化型有100 108對,弱化型有521 163對??梢娀貧w中立函數(shù)(4)定義的基因相互作用更為均勻,通過回歸系數(shù)調(diào)節(jié)使得回歸超平面更適合當(dāng)前數(shù)據(jù)的分布,得到的結(jié)果更符合生物客觀規(guī)律。
lny=lnC+b1lnx1+b2lnx2
(3)
將在上一小節(jié)中獲得的b1,b2,exp(C)直接帶入公式(2)中即可得到回歸中立方程,相對傳統(tǒng)中立方程公式(1),加入的3個參數(shù)是通過數(shù)據(jù)回歸獲得的,這使得其更貼合當(dāng)前數(shù)據(jù)特征。在定義基因相互作用時,由于實(shí)驗誤差等隨機(jī)因素存在,所以一般不會直接把突變值減去中立預(yù)期值小于零定義為惡化型,大于零定義為弱化型,而是預(yù)設(shè)一個閾值,一般為0.08或0.12,只有差值絕對值大于這些閾值才被定義為基因相互作用。
線性回歸模型在許多領(lǐng)域都有廣泛應(yīng)用,主要是針對乘法型預(yù)期中立函數(shù)的微生物適合度表型數(shù)據(jù)建立回歸模型,其經(jīng)典的乘法型預(yù)期函數(shù)如下:
圖1 算法流程圖Fig.1 Algorithm flow chart
這里并沒有對誤差項進(jìn)行討論,假設(shè)公式(3)誤差項服從正態(tài)分布。對于公式(3),可以對原始數(shù)據(jù)取對數(shù),再采用經(jīng)典線性回歸方法估計出其中參數(shù)。
為了驗證本文方法的有效性,將這一方法應(yīng)用于文獻(xiàn)[11]數(shù)據(jù)中定義基因相互作用并同傳統(tǒng)定義方法進(jìn)行比較。該數(shù)據(jù)集是一個酵母菌雙突變表型數(shù)據(jù)集,包含了660多萬條記錄,每條記錄有13列,主要包括查詢基因名、陣列基因名、查詢單突變值、陣列突變值、對突變值以及實(shí)驗p值等,提取其中p值小于0.05的記錄,以避免較大的實(shí)驗誤差。而對于對稱記錄(一對基因分別作為查詢基因和陣列基因成為2條記錄)的矛盾問題,剔除這對記錄對突變值之差的絕對值大于0.04的記錄。最后的實(shí)驗數(shù)據(jù)集一共包含了將近68萬條記錄。
其中:參數(shù)b1和b2的作用是調(diào)節(jié)x1和x2對于y的影響;C控制總體偏移。顯然,對公式(2)兩邊取對數(shù)可以得到經(jīng)典的線性回歸模型:
(4)
“我不信你一點(diǎn)兒也不重要,可是梁兒對此深信不疑。他堅信你懷了他的孩子,找我大吵大鬧,最后不惜和我決裂?!秉S書記又說。
其中:y表示預(yù)期中立值;x1和x2分別表示突變的單個表型值。建立模型如下:
通過實(shí)現(xiàn)銅冶煉工廠的自動化、數(shù)字化、模型化、集成化、智能化,構(gòu)建企業(yè)的智能決策、智能生產(chǎn)管理、智能執(zhí)行與感知體系,打造從管理決策到執(zhí)行反饋的閉環(huán)管控結(jié)構(gòu),實(shí)現(xiàn)制造效率、成本、質(zhì)量等資源優(yōu)化配置的智能化工廠。
進(jìn)一步對2種方法定義的基因相互作用得分進(jìn)行分析,ε定義如下:
隨著人工智能技術(shù)的發(fā)展,萬物皆媒,全息傳播的智媒體時代已經(jīng)到來,我們必須強(qiáng)化戰(zhàn)略意識和危機(jī)意識,加強(qiáng)法制建設(shè)和科技攻關(guān),深化文化體制改革,牢牢掌握馬克思主義的領(lǐng)導(dǎo)權(quán)話語權(quán),努力增強(qiáng)新聞傳播特別是網(wǎng)絡(luò)傳播信息安全的責(zé)任感,加強(qiáng)中國哲學(xué)社會科學(xué)話語體系建設(shè)和構(gòu)建意識形態(tài)安全防御體系,創(chuàng)新講好中國故事,為構(gòu)建人類命運(yùn)共同體提供正確的精神指引。
ε=yo-ye
(5)
式中:yo為實(shí)際觀測到的對突變值;ye是通過式(1)或式(4)計算的期望中立值。由2種方法定義的基因相互作用得分ε的分布,不難得出經(jīng)典式(1)定義的基因相互作用得分均值正向偏移,而本文方法定義的幾乎以零值對稱,進(jìn)一步證明了本文方法的有效性。
基于迭代回歸的基因相互作用定義方法,充分利用當(dāng)前表型數(shù)據(jù)集蘊(yùn)含的信息定義,更符合生物規(guī)律的基因相互作用,克服了經(jīng)典方法中固定中立函數(shù)帶來的不足。本文設(shè)計的方法只針對乘法型適定性表型測量數(shù)據(jù),對于最小型等其他類型還在進(jìn)一步研究當(dāng)中。