關鍵詞:深度學習;生物信息學;蛋白質磷酸化;計算生物學
中圖分類號:TP389.1 文獻標志碼:A
0 引言(Introduction)
近年來,植物病理學的深入研究,極大地增進了我們對植物與病原菌相互作用機制的認知,也揭示了蛋白質磷酸化在諸多生物學過程中的關鍵作用,為農作物病害的防控提供了新的視角[1]。對蛋白質磷酸化的迅速判斷,對農作物病害的有效防治也變得愈發(fā)重要。
然而,傳統(tǒng)的蛋白質磷酸化的檢測分析多采用實驗方法,如液相色譜串聯(lián)質譜、放射性化學標記和免疫檢測、鄰近連接分析、染色質免疫沉淀和蛋白質印跡[2]。這些技術通常耗時且勞動強度大。整個實驗過程耗時較長,并且需要實驗人員具備較高的專業(yè)技能和經驗,這在一定程度上限制了蛋白質磷酸化研究的規(guī)模和效率。隨著技術的進步和新計算方法的涌現,研究人員開發(fā)了許多基于智能算法的工具,這些工具極大地豐富了該領域的研究手段[3]。但是,目前的計算方法通常無法同時滿足使用簡單、快速檢測、高精度等需求,本研究致力于開發(fā)一種高效、精準且操作簡便的計算方法,旨在實現磷酸化位點的快速檢測。
1 相關理論(Related theory)
1.1 蛋白質磷酸化
蛋白質磷酸化是一種生物學過程,其中磷酸基團被共價地添加到蛋白質分子的特定氨基酸殘基上。這一修飾過程通常通過激酶酶類催化,其在細胞內發(fā)揮著關鍵的調控作用。磷酸基團的添加可以改變蛋白質的結構、功能和相互作用機制,影響其在細胞內的活性和穩(wěn)定性[4]。通常,酪氨酸(Tyr)、絲氨酸(Ser)和蘇氨酸(Thr)是常見的磷酸化位點,在這些磷酸化位點上,氨基酸的OH 基團與ATP的γ-磷酸基團形成磷酸酯,而這些位點是磷酸化研究中受到廣泛研究的對象。
1.2 磷酸化位點預測
在蛋白質工程領域,深度學習的應用日益凸顯其重要性,它依托于蛋白質序列和結構等豐富數據作為輸入,通過生成特征并采用不同的算法進行模型構建和優(yōu)化。這一方法為更精確地分類和尋找磷酸化位點提供了新的途徑。隨著生物大數據集的構建和計算能力的提升,越來越多的計算方法被提出并用于磷酸化位點的預測。KHALILI等[5]使用處理表格數據的深度學習模型訓練了一個大豆蛋白磷酸化預測器。LV等[6]使用卷積神經網絡-長短期記憶網絡(CNN-LSTM)識別感染SARS冠狀病毒2型(SARS-CoV-2)的宿主細胞中的磷酸化位點。WANG等[7]提出了一個名為TransPhos的預測器,用于預測磷酸化位點。這些研究表明,深度學習方法在磷酸化位點預測方面取得了顯著的進展。
1.3 門控機制
門控機制在神經網絡中的應用由來已久,常使用Sigmod 函數或Tanh函數控制信息流的比例,是一個決定特征是否繼續(xù)流入下一層的控制器。gMLP[8]是一種基于MLP與門控機制的簡單的神經網絡架構,它融合了線性空間投影和乘法門控機制,在掩碼語言建模方面取得了出色的結果,甚至在參數更少的情況下其性能超過了一些基于Transformer的模型。在增加數據和計算能力的情況下,具有類似gMLP這樣簡單的空間交互機制的模型,已經展現出了與Transformer相媲美的強大性能。gMLP主要依靠靜態(tài)參數化的通道映射(channelprojections)和空間映射(spatial projections),由L 個相同結構和大小的模塊組成,X∈ n×d 代表長度為n 且序列維度是d 的向量表示,每個模塊可以表示為
2 方法概述(Methodology overview)
2.1 數據預處理
在以往的研究中,通常遵循3個原則進行數據預處理:①作為陽性樣本的磷酸化位點經過實驗驗證;②使用聚類工具刪除序列相似性過高的蛋白質序列;③隨機選取的陰性位點,完整的蛋白質序列中至少有3個已確認陽性位點。
真核生物磷酸化位點數據庫(Eukaryotic PhosphorylationkJR8M4CmiapE6wNXAznypoTAg0zeBausBnu8vZfjJQo=Site Database,EPSD)由LIN等[9]重新整理,是近期更新的最具體和最全面的磷酸化位點數據庫之一,本研究采用該數據庫作為主要的數據來源,并延續(xù)以往的經驗,采用相似的數據處理過程。為避免陽性和陰性數據集中存在同源序列導致預測模型的性能被高估,利用CD-HIT(一種用于聚類相似生物序列的工具)[10]以40%的序列相似性為標準,對磷酸化蛋白質序列進行聚類,具有中心為絲氨酸、蘇氨酸和酪氨酸殘基及經實驗驗證的磷酸基團的肽鏈,被視為陽性樣本,并選擇15作為采樣窗口大?。ㄔ谶x定的磷酸化位點上左、右各取15個氨基酸組成肽鏈),隨機選擇一部分與陽性樣本數量相當的非冗余的陰性樣本,以平衡數據集。
根據上述條件進行樣本提取時,可能存在大量的經實驗驗證的磷酸化位點在肽鏈中排列過于緊密,導致同一個肽段反復被添加到陽性樣本中,本研究采用一種新的采樣方式,即在同一個采樣窗口內僅采樣一次,跳過那些在同一個窗口中過于密集的肽段。在第一個采樣窗口中,選中一個磷酸化位點后,右邊的窗口中符合要求的陽性樣本將不再被考慮,陰性樣本同理,同時選取陰性樣本時,還要考慮不與陽性樣本的窗口重疊。圖1為數據處理流程。
2.2 序列特征
實驗中涉及的氨基酸包括構成生物體的20種標準氨基酸和由基因密碼子直接編碼的2種非標準氨基酸,以數字1~22 對其進行編碼。在蛋白質研究中,為了方便計算機處理和分析,研究者通常將不同類型的氨基酸以數字形式進行編碼。這種編碼方式的選擇是為了將具有不同性質的氨基酸轉化為統(tǒng)一的數字表示,從而將目標肽鏈轉化為L×1的向量(L 表示肽鏈的長度)。每一個數字都代表特定的氨基酸類型。
2.3 蛋白質內在無序性得分
近年來的研究表明,蛋白質中存在一些并沒有固定結構的無序區(qū)域,這些區(qū)域在許多細胞過程中發(fā)揮著重要的功能作用,并且與蛋白質之間的相互作用密切相關[11]。本研究采用IUPred3(Intrinsically Unstructured Protein Predictor)[12]工具獲取蛋白質內在無序性得分,它依賴于能量估計方法,能預測每個氨基酸處于無序區(qū)域的趨勢。對于長度為m 的氨基酸序列S,構建一個m×3的向量,分別代表短無序評分(缺乏穩(wěn)定的三維結構且長度不超過30個殘基的肽段)和長無序評分(長度超過30個殘基的肽段)及ANCHOR(Analyzing the Chainof Ordered Regions)分數。
2.4 方法整體架構
本研究構建了一個網絡架構,以gMLP作為編碼層。將蛋白質轉為數據特征后經過gMLP編碼,得到的語義信息將與內在無序性得分進行拼接。為了提升模型的表達能力,對數據進行了標準化。對數據依次進行卷積、池化等操作,其中卷積操作有助于提取蛋白質的語義特征,而池化操作則可以減小特征圖的尺寸。
為了將提取的特征有效地映射到最終的輸出空間,引入了線性層。采用Sigmoid激活函數將輸出映射到0~1,以便進行二分類。這樣的設計不僅能有效地處理蛋白質序列的語義信息,還能充分利用內在無序性得分,為蛋白質研究和分類任務提供更為有效的工具。圖2為本文方法的整體框架。
3 實驗和結果(Experiment and result)
3.1 數據集劃分
本研究按照64%、16%、20%的比例將數據劃分為訓練集、驗證集和測試集(按照五倍交叉驗證的原則,即1∶4的比例劃分測試集和訓練集,再將訓練集的20%劃為驗證集),數據劃分如圖3所示,并在此基礎上進行模型的訓練和評估。
在模型訓練的過程中,引入學習率調度器,在訓練的不同階段動態(tài)地調整學習率,以更好地適應數據分布的變化。將初始學習率設置為0.001,并設定了每隔10個批次,學習率以0.9的比例進行衰減。采用這一學習率調整策略旨在訓練初期使用較大的學習率使模型更快收斂,隨著訓練的進行,逐漸減小學習率,有助于模型更精細地學習數據的特征。
3.3 評價指標
本研究中所用評價指標包括準確率(Accuracy,ACC)、AUC-ROC曲線下面積(Area Under the Curve,AUC)、特異性(Specificity,SP)、精確率(Precision,PRE)、召回率(Recall)、F1 分數(F1 Score,F1)和馬修斯相關系數(Matthews CorrelationCoefficient,MCC)。
ACC 是分類模型正確預測的樣本數占總樣本數的比例,表示正確分類樣本占總樣本數的百分比;AUC 是AUC-ROC 曲線下的面積,用于度量二分類模型的性能,范圍為0~1,數值越大,表示模型性能越好;Recall(真正例率)是真正例在實際正例中的比例,表示在所有實際正例中,模型正確預測為正例的比例;SP(真負例率)是真負例在實際負例中的比例,表示在所有實際負例中,模型正確預測為負例的比例;PRE(真正例率)表示在模型預測為正例的樣本中,實際為正例的比例;F1 是精確率和召回率的調和平均值,用于綜合考慮分類模型的性能衡量模型在精確率和召回率之間的平衡;MCC是衡量二分類模型性能的綜合指標,常用于衡量模型的綜合性能,尤其在不平衡數據集中更具優(yōu)勢。
3.4 在不同物種數據集上的性能比較
針對不同的農作物品種蛋白質,采用相同的數據處理方式分別進行訓練。所用的數據均從EPSD[9]數據庫中獲取,以小麥、水稻亞種-粳稻、水稻亞種-秈稻、玉米及大豆為例,表1中展示了使用本文模型訓練上述數據集在五倍交叉驗證下的準確率、AUC-ROC曲線下面積、特異性、精確率、召回率、F1分數及馬修斯相關系數。正、負樣本的篩選與比例,以及訓練集、驗證集和測試集的劃分均按照前文描述的方法進行。各農作物所使用的訓練樣本數量詳見表2。
3.5 與其他方法的比較
為了評估本研究提出模型的預測能力,將其與另外3種方法進行了比較,包括DeepIPs、TabNet和TransPhos,并采用五倍交叉驗證進行了驗證。
DeepIPs[6]是一個專門用于識別SARS-CoV-2感染宿主細胞中磷酸化位點的深度學習模型,通過詞嵌入方法和CNNLSTM架構進行特征提取和分類。
TabNet模型由ARIK等[13]提出,主要用于表格數據集,KHALILI等[5]首次將其用于處理和分析生物數據,并取得了良好的效果。
TransPhos[7]是一個專門用于預測蛋白質磷酸化位點的深度學習模型,由基于Transformer編碼器和密集連接的卷積神經網絡塊構成。
以玉米磷酸化位點的預測為例,本研究使用相同的數據進行5種方法的訓練。正、負樣本的總數分別為7 729個,其中Ser/S、Thr/T和Tyr/Y的數量分別為12 244個、2 724個、490個。使用相同的隨機種子,表3展示了使用不同方法訓練玉米數據集在五倍交叉驗證下的部分關鍵指標。
3.6 消融實驗
為探索該模型不同部分的貢獻,本研究進行了一系列實驗,評估了該方法在缺失不同內容時對整體性能的影響。本研究對使用gMLP與否和使用無序性得分作為特征與否進行了組合驗證。圖4中為五倍交叉驗證中的ACC、AUC、SP、PRE、Recall、F1分數的平均值。這些實驗結果也驗證了在模型中引入內在無序性得分和gMLP的有效性,并為其在實際應用中的可靠性提供了有力支持。
4 結論(Conclusion)
在本研究提出的方法中,使用gMLP作為特征提取器,引入門控機制,更高效地利用了蛋白質語義信息流;同時,優(yōu)化了數據采樣方式,每個窗口內僅采樣一次,避免了同源肽段被頻繁添加至訓練集;此外,引入內在無序性得分作為特征,使模型能夠學習到更多的蛋白質語義關聯(lián)信息。實驗結果表明,該方法能夠有效提升預測精度,并且優(yōu)于基于Transformer模型的方法,僅使用從序列中提取的特征,避免了復雜的特征提取操作,顯著降低了計算成本,對計算資源沒有較高的要求且操作簡單。該方法相較于目前先進的計算方法(如DeepIPs、TabNet、TransPhos)在磷酸化位點預測上的表現更為出色,為農作物病害的深入研究和治理提供了一種更為高效和可行的途徑。
作者簡介:
段旭福(1998-),男,碩士生。研究領域:深度學習,蛋白質組學。
李重(1975-),男,博士,教授。研究領域:計算生物學,人工智能與數據分析,圖形圖像與虛擬現實。