馬曉玉 岳欣蕾 韓佳玲
摘要:蛋白質與適配體間的相互作用廣泛存在于生物體,且在各種生命活動中發(fā)揮著重要作用。核酸適配體(簡稱適配體)是與靶標具有高親和力的、長度大約在30~80 nt的核苷酸鏈,其與蛋白質的特異性結合對于疾病的靶向治療研究具有重要意義。隨著大數(shù)據(jù)和人工智能的發(fā)展,基于生物信息學的蛋白質-適配體相互作用預測及適配體篩選的計算方法的實現(xiàn)能有效解決傳統(tǒng)實驗方法的周期長、費用高等問題。本文就蛋白質-適配體相互作用預測實現(xiàn)方法和以蛋白質為靶標的適配體的篩選方法作一綜述,以期為臨床選擇適合的預測方法提供參考。
關鍵詞:蛋白質;適配體;蛋白質-適配體相互作用預測;生物信息學
Abstract:The interaction between proteins and aptamers is widespread in organisms and plays an important role in various life activities. Nucleic acid aptamers (abbreviation form of aptamers) are high-affinity nucleotide chains with a length of about 30~80 nt, and their specific binding to proteins is of great significance for the targeted treatment of diseases. With the development of big data and artificial intelligence, the implementation of calculation methods for protein-aptamer interaction prediction and aptamer selection based on bioinformatics can effectively solve the problems of long cycle and high cost of traditional experimental methods. This article reviews the realization methods of protein-aptamer interaction prediction and the selection methods of protein-targeted aptamers, in order to provide a reference for clinical selection of suitable prediction methods.
Key words:Protein;Aptamer;Protein-aptamer interaction prediction;Bioinformatics
適配體是一類較短的核酸序列,其具有特異性和高親和力的分子結合能力[1]。盡管蛋白質與適配體之間的相互作用具有重要的研究意義和應用前景,但其相關研究工作也面臨著諸多難題。傳統(tǒng)的實驗方法過程復雜、實驗周期長、費用高,隨著數(shù)據(jù)量的增多,其弊端更加突出,需采用高效的計算方法來進行蛋白質-適配體相互作用的研究工作。隨著高通量測序和計算機技術的成熟與發(fā)展,機器學習和深度學習在生物信息學領域得到了廣泛的應用[2-4]。本文對蛋白質-適配體相互作用預測方法以及以蛋白質為靶標的適配體篩選方法作一綜述。
1蛋白質-適配體相互作用預測實現(xiàn)方法
蛋白質-適配體相互作用預測方法的基本框架是通過將蛋白質與適配體的序列轉化為可用于計算的特征值,通過機器學習模型對特征空間進行訓練得到預測模型。特征與機器學習方法的選取和優(yōu)化是影響模型預測性能的重要因素,根據(jù)待解決問題的特點提取序列的關鍵特征并選擇合適的機器學習方法至關重要。通常情況下,特征空間主要來源于對蛋白質與適配體的序列信息的計算,特征空間的維度也是影響預測性能的重要因素。此類問題是一種二分類的問題,常用的機器學習分類方法包含決策樹、樸素貝葉斯、隨機森林以及支持向量機等。由于樸素貝葉斯是在各屬性相互獨立的假設上進行的分類,因此對于特征之間相關性較大的問題其分類效果較差。決策樹由于算法較為簡單,可對較大的數(shù)據(jù)集實現(xiàn)快速的分類,但是對于缺失數(shù)據(jù)處理困難且易產生過擬合問題。目前,隨機森林與支持向量機是生物信息學應用較為廣泛的機器學習方法。
1.1隨機森林? 隨機森林(random forest)[5]是在決策樹基礎上進行改進的一種集成方法,是一種典型的Bagging算法。該算法是將多個決策樹集成一個預測精度更高的分類器,通過樣本的隨機性與屬性的隨機性以及少數(shù)服從多數(shù)的投票機制有效解決了決策樹的過擬合問題。隨機森林方法在蛋白質-適配體相互作用預測中實現(xiàn)了很好的預測效果。Li BQ等[6]提出了一種基于偽氨基酸的隨機森林的方法,首次實現(xiàn)了使用計算方法預測蛋白質-適配體的相互作用,其研究通過收集Aptamer Base[7]數(shù)據(jù)庫中的蛋白質-適配體條目構建數(shù)據(jù)集,提取了核苷酸組成、氨基酸組成和偽氨基酸組成(PseAAC)[8]這三種特征作為模型的輸入,為減少特征冗余度和降低計算度,通過最大相關最小冗余方法(mRMR)和增量特征選擇(IFS)方法對290維的特征進行最佳特征的篩選后得到了220維的最優(yōu)特征組合,該預測模型在獨立測試集上的預測準確率為0.774,敏感性為0.483,特異性為0.871。張麗娜[9]提出一種基于多源特征提取策略和集成方法的蛋白質-適配體相互作用預測方法,該方法使用了基于隨機森林的集成方法,通過對三個隨機森林分類器的訓練得到三個預測模型,并將三個模型的預測結果的平均值作為最終的結果。該研究在Li BQ等[6]構建的數(shù)據(jù)集的基礎上對訓練集進行數(shù)據(jù)重構,其基于多源特征提取策略,提取了偽K元組核苷酸組成(K分別為2和3)、離散余弦變換、二元位置特異性打分矩陣和無序區(qū)域信息[10]這些重要特征作為模型的輸入,并通過Relief-増量特征選擇方法對特征進行篩選后得到了304維的最優(yōu)特征空間,該預測模型在獨立測試集上的預測準確率為0.719,敏感性為0.738,特異性為0.713。
這兩種基于隨機森林的預測方法實現(xiàn)了蛋白質-適配體相互作用的有效預測?;趥伟被岬碾S機森林的方法因其較小的特征維度和使用單一的隨機森林分類器,其模型的計算復雜度較低,但是由于數(shù)據(jù)集的不平衡,造成了大小樣本的預測準確率的嚴重失衡。此外,該方法的特征提取較為單一,蛋白質與適配體的結合涉及到多方面的性質,忽略這些關鍵特征造成特征向量不能有效表征蛋白質與適配體而影響預測效果。而基于多源特征提取策略和集成方法的預測方法因提取了更多的特征以及使用了基于3個隨機森林分類器的集成方法,顯著地均衡大小樣本的預測準確率,但是也增加了預測模型的計算復雜度。此外,將3個平衡的訓練子集用于3個機器學習分類器,單個分類器的負樣本訓練數(shù)據(jù)較少使得對訓練樣本的學習不足造成了負樣本預測準確率的降低。
1.2支持向量機? 支持向量機(support vector machines,SVM)[11,12]是一種二分類模型,它的基本模型是定義在特征空間上的間隔最大的線性分類器。線性可分即存在一個超平面可以將樣本根據(jù)類別一分為二,而線性不可分即找不到這個超平面導致支持向量機無法實現(xiàn)分類。核函數(shù)的引入使得支持向量機也可以解決高維非線性數(shù)據(jù)的分類問題。支持向量機具有很好的泛化能力,能有效解決二分類問題,但是不適用于大規(guī)模樣本和多分類的問題。Yang Q等[13]提出一種基于自動編碼[14,15]特征提取和集成方法的蛋白質-適配體相互作用預測方法,使用了基于支持向量機的集成方法,將自動編碼特征、核苷酸組成、偽核苷酸組成(PseKNC)和一般序列相關的偽三核苷酸組成(SC-PseTNC-General)作為特征輸入,通過梯度下降樹(GBDT)[16]對676維的特征進行篩選后,得到的最優(yōu)特征空間維數(shù)為616。該方法也在Li BQ等[6]構建的數(shù)據(jù)集基礎上采用了數(shù)據(jù)重構的方法,將訓練集分為3個平衡的訓練子集并分別用于3個支持向量機模型的訓練,將3個訓練模型最終集成為一個預測精度更高的模型。在獨立測試集上該模型的預測準確率為0.757,其特異性和敏感性分別為0.745和0.793。基于三個支持向量機的集成預測方法,相較于其他兩種方法實現(xiàn)了更好的預測效果,但是此方法高維度的特征造成高復雜度的計算而影響預測性能;且將自動編碼特征作為蛋白質表示的唯一特征,雖然能有效的提取蛋白質的序列信息,但是也導致了蛋白質的結構特征和理化性質等被忽略。
基于隨機森林與支持向量機的蛋白質-適配體預測方法能有效地實現(xiàn)預測功能,實現(xiàn)的三種方法[5,9,13]在相同的獨立測試集上進行了獨立測試。由于使用了不平衡的數(shù)據(jù)集,準確率不能真正客觀的評價預測性能,需綜合考慮敏感性、特異性等評價標準以及模型的計算復雜度,3種方法具有不同的優(yōu)缺點及適用情況?;趥伟被岬碾S機森林的方法因其較低的特征維度,計算復雜度較低,對于樣本數(shù)量較大的數(shù)據(jù)集能快速的進行預測,但是該方法的特異性較高、敏感性較低,適用于對于真陰性有較高要求的預測;反之,對于真陽性有較高要求的預測,此方法不能滿足其預測效果?;诙嘣刺卣魈崛〔呗院图煞椒ǖ念A測方法相較于基于偽氨基酸的隨機森林的方法敏感性顯著提高,雖然對負樣本的預測準確度有所降低,但是對正負樣本均可實現(xiàn)有效預測,此方法的計算復雜度雖高于基于偽氨基酸的隨機森林的方法,但仍可滿足大量樣本的快速預測需求。對于預測精度要求高、數(shù)據(jù)量大的數(shù)據(jù)集可使用該方法進行相互作用預測。而基于自動編碼特征提取和集成方法的預測方法其敏感性和特異性均高于基于多源特征提取策略和集成方法的預測方法,對負樣本的預測準確度雖不如基于偽氨基酸的隨機森林的方法,但對正樣本的預測準確度有大幅度的提升,該方法相較于其他兩種方法,實現(xiàn)了更高的預測精度,對預測精度要求高且數(shù)據(jù)量較少的數(shù)據(jù)集,該方法是一個很好的選擇;但對于大量數(shù)據(jù)的批量預測,由于其較高計算復雜度需要的時間會較長。
2以蛋白質為靶標的適配體的篩選
傳統(tǒng)的SELEX實驗方法進行蛋白質靶標的適配體篩選要對序列文庫經過十幾輪的擴增與篩選,此技術雖已較為成熟,但是其過程復雜,時間成本高。通過計算方法實現(xiàn)以蛋白質為靶標的適配體的篩選可從縮小序列范圍、加快識別與蛋白質具有相互作用的序列兩方面著手。Lee W等[17]提出了一種基于序列和結構信息的蛋白質靶標的RNA篩選方法,數(shù)據(jù)集主要來源于PDB數(shù)據(jù)庫和Li BQ等[6]構建的數(shù)據(jù)集,訓練集包含了35個樣本(RNA適配體-蛋白質復合物),并收集了696個RNA-蛋白質復合物用于計算核苷酸與氨基酸相互作用傾向(IP),測試集包含56個正樣本和56個負樣本,特征空間由核苷酸與氨基酸相互作用傾向(IP)[18,19]、單核苷酸組成、偽核苷酸組成、偽氨基酸組成等特征構成。根據(jù)結構特征,將6×106的隨機RNA文庫序列經過RNAfold[20]分析后挑選出符合條件的序列并使用經過對訓練集進行學習的隨機森林模型來計算RNA序列與蛋白質之間的結合概率。通過二級結構特征進行序列文庫的初步篩選,縮小了后續(xù)篩選的范圍,減輕了結合概率計算的工作量。將自由能和結合概率排序結果為前10的RNA作為以此蛋白質為靶標的適配體的篩選結果。該方法在獨立測試集上篩選的準確率為0.714,證明了此方法的有效性和實用性。通過計算方法實現(xiàn)針對某一蛋白質的適配體的篩選相較于SELEX實驗方法其費用更低,時間更快,但是由于初始的序列文庫較大且過程復雜,對于多個蛋白質的批量處理較為困難;且此方法只對蛋白質的RNA適配體進行篩選,無法對DNA適配體進行篩選。
3總結
通過計算方法實現(xiàn)相互作用預測及適配體的篩選可有效減輕相關研究人員的工作量,加快研究進程,但是現(xiàn)有的方法也存在一定的問題,通過以上所述,目前的蛋白質-適配體相互作用預測方法存在以下不足:①對不平衡數(shù)據(jù)集沒有進行平衡處理而造成小樣本的預測準確率較低,數(shù)據(jù)重構方法減少了訓練集的樣本數(shù)使得分類器對樣本的學習不充足而降低了整體的預測準確率;②特征選取單一,而忽略關鍵特征影響了預測性能,特征選取不當易造成較高的計算復雜度,不利于大量樣本的預測;③對機器學習方法缺少優(yōu)化,預測準確度仍有提升的空間。目前蛋白質靶標的適配體篩選方法主要存在無法大規(guī)模開展,篩選范圍不全面的問題。此外,實現(xiàn)的方法缺少對工具的開發(fā),不方便研究人員使用。蛋白質-適配體相互作用預測及適配體篩選的計算方法已實現(xiàn)了較好的效果,隨著更多的多中心研究,相信未來會有更快速、更準確的方法和工具的出現(xiàn)。
參考文獻:
[1]Kinghorn AB,F(xiàn)raser LA,Lang S,et al.Aptamer Bioinformatics[J].Int J Mol Sci,2017,18(12):2516.
[2]Xu Y,Ju L,Tong J,et al.Supervised Machine Learning Predictive Analytics For Triple-Negative Breast Cancer Death Outcomes[J].Onco Targets Ther,2019(12):9059-9067.
[3]Halilaj E,Rajagopal A,F(xiàn)iterau M,et al.Machine learning in human movement biomechanics:Best practices,common pitfalls,and new opportunities[J].J Biomech,2018(81):1-11.
[4]譚志穎.基于深度學習的流感病毒抗原變異和病毒宿主預測[D].湖南大學,2018.
[5]Matsuki K,Kuperman V,Van Dyke JA.The Random Forests statistical technique:An examination of its value for the study of reading[J].Sci Stud Read,2016,20(1):20-33.
[6]Li BQ,Zhang YC,Huang GH,et al.Prediction of aptamer-target interacting pairs with pseudo-amino acid composition[J].PLoS One,2014,9(1):e86729.
[7]Cruz-Toledo J,Mckeague M,Zhang X,et al.Aptamer Base:a collaborative knowledge base to describe aptamers and SELEX experiments[J].Database(Oxford),2012(2012):bas006.
[8]Chou KC.Prediction of protein cellular attributes using pseudo-amino acid composition[J].Proteins,2001,43(3):246-255.
[9]張麗娜.基于機器學習的蛋白質類別及蛋白質-配體相互作用預測研究[D].山東大學,2017.
[10]Li M,Cho SB,Ryu KH.A novel approach for predicting disordered regions in a protein sequence[J].Osong Public Health Res Perspect,2014,5(4):211-8.
[11]Guo Y,Jia X,Paull D.Effective Sequential Classifier Training for SVM-Based Multitemporal Remote Sensing Image Classification[J].IEEE Trans Image Process,2018.
[12]Huang S,Cai N,Pacheco PP,et al.Applications of Support Vector Machine(SVM)Learning in Cancer Genomics[J].Cancer Genomics Proteomics,2018,15(1):41-51.
[13]Yang Q,Jia C,Li T.Prediction of aptamer-protein interacting pairs based on sparse autoencoder feature extraction and an ensemble classifier[J].Math Biosci,2019(311):103-108.
[14]李興球,姜洪開,王瑞欣,等.基于遷移深度降噪自動編碼器的飛機關鍵機械部件故障診斷方法[C]//第十三屆全國振動理論及應用學術會議,2019.
[15]劉楚鴻,汪培萍.基于自動編碼器集合的入侵檢測系統(tǒng)的研究與實現(xiàn)[J].中國新通信,2019,21(24):71-74.
[16]Gui L,Xia Y,Li H,et al.Prediction of NOX Emission from Coal-fired Boiler Based on RF-GBDT[C]//Proceedings of the 2017 6th International Conference on Energy and Environmental Protection(ICEEP 2017),2017.
[17]Lee W,Lee J,Han K.Finding Potential RNA Aptamers for a Protein Target Using Sequence and Structure Features[C]//International Conference on Intelligent Computing,2018.
[18]Choi S,Han K.Prediction of RNA-binding amino acids from protein and RNA sequences[J].BMC Bioinformatics,2011,12(Suppl 13):S7.
[19]Choi S,Han K.Predicting protein-binding RNA nucleotides using the feature-based removal of data redundancy and the interaction propensity of nucleotide triplets[J].Comput Biol Med,2013,43(11):1687-97.
[20]Zhang K,Meng Y,Cao X,et al.Genetic variants in p53 signaling pathway genes predict chemotherapy efficacy in colorectal cancer[J].Cancer Med,2019,8(7):3428-3436.
收稿日期:2020-03-25;修回日期:2020-04-07
編輯/杜帆