王波 李玲玲 劉佰泉 陶佰睿 李敬有
摘? 要:提出一種群優(yōu)化擬合方法,通過測(cè)試函數(shù)和優(yōu)化模型,分析驗(yàn)證了其具有較好的優(yōu)化能力。采用群優(yōu)化擬合方法計(jì)算了關(guān)鍵特征集合,并結(jié)合臨床數(shù)據(jù)提出了一種基于群優(yōu)化擬合及臨床數(shù)據(jù)的癌癥lncRNA預(yù)測(cè)方法。該方法在關(guān)鍵特征集合的基礎(chǔ)上采用判別分析完成預(yù)測(cè),預(yù)測(cè)過程中采用馬氏統(tǒng)計(jì)距離的最小原則。實(shí)驗(yàn)結(jié)果表明,該方法獲得了較好的收斂性能,在精確度、召回率和F1-Score三個(gè)指標(biāo)上都達(dá)到了較好的預(yù)測(cè)結(jié)果。
關(guān)鍵詞:群優(yōu)化擬合;臨床數(shù)據(jù);lncRNA預(yù)測(cè)技術(shù);癌癥
中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)16-0008-05
Prediction Technology Study of Cancer lncRNA Based on Swarm Optimization Fitting and Clinical Data
WANG Bo1,2,LI Lingling3,LIU Baiquan3,TAO Bairui4,LI Jingyou4
(1.College of Computer and Control,Qiqihar University,Qiqihar? 161006,China;2.College of Computer Science and Technology,Harbin Engineering University,Harbin? 150001,China;3.Network Information Center,Qiqihar University,Qiqihar? 161006,China;4.School of Communications and Electrical Engineering,Qiqihar University,Qiqihar? 161006,China)
Abstract:In this paper,a method of swarm optimization fitting was proposed,which was proved to have good optimization ability by test function and optimization model. The pivotal feature set was calculated by the method of swarm optimization fitting,and a prediction method of cancer lncRNA based on swarm optimization fitting and clinical data was proposed in combination with clinical data. The method used discriminant analysis to complete the prediction based on pivotal feature set,and the Mahalanobis statistical distance principle was adopted in the prediction process. Experimental results show that this method achieved good convergence performance and good prediction results in accuracy,recall rate and F1-Score.
Keywords:swarm optimization fitting;clinical data;lncRNA prediction technology;cancer
0? 引? 言
lncRNA是一種不具有編碼功能且長(zhǎng)度大于200個(gè)核苷酸的RNA。研究表明很多復(fù)雜的疾病都與lncRNA的變異或異常表達(dá)相關(guān),在分子層面對(duì)致病lncRNA的研究可以找到致病的生物靶標(biāo)和藥物靶標(biāo)[1,2]。目前研究lncRNA與肺癌、乳腺癌、前列腺癌、結(jié)腸直腸癌、胃癌、膀胱癌和宮頸癌等有密切關(guān)系[3-5],各種相關(guān)數(shù)據(jù)庫(kù)也在逐步完善[6-9]。本文提出采用群優(yōu)化擬合方法完成關(guān)鍵特征集合的計(jì)算,并結(jié)合臨床數(shù)據(jù)實(shí)現(xiàn)了lncRNA與疾病關(guān)聯(lián)的預(yù)測(cè),實(shí)驗(yàn)表明該方法有較好的預(yù)測(cè)性能。本文受黑龍江省教育廳基本科研業(yè)務(wù)專項(xiàng),齊齊哈爾大學(xué)科學(xué)研究類項(xiàng)目的支持,目前已經(jīng)完成與疾病關(guān)聯(lián)的lncRNA預(yù)測(cè)技術(shù)的相關(guān)研究,完成數(shù)據(jù)的整理和預(yù)測(cè)模型測(cè)試與調(diào)試,實(shí)驗(yàn)結(jié)果良好。
1? lncRNA關(guān)鍵特征選擇
將研究對(duì)象抽象為lncRNA向量lncRNA={lncRNAi,i∈
[1,N]},N個(gè)lncRNAi中的關(guān)鍵特征選擇是進(jìn)行與疾病關(guān)聯(lián)預(yù)測(cè)lncRNA的預(yù)處理過程,設(shè)每個(gè)lncRNAi的影響度為influence-degreei,influence-degreei的動(dòng)態(tài)調(diào)整會(huì)得的lncRNA的不同的總體評(píng)價(jià)值ΛlncRNA,lncRNA的ΛlncRNA的計(jì)算公式如下:
當(dāng)ΛlncRNA達(dá)到最大值的時(shí)候,取前Γ個(gè)lncRNAi為關(guān)鍵特征集合lncRNAiΦ(Φ表示為關(guān)鍵特性),lncRNAiΦ的總體評(píng)價(jià)值ΛlncRNAΦ的計(jì)算公式為:
這樣求解lncRNA關(guān)鍵特征選擇,抽象為一個(gè)最優(yōu)化問題,求得ΛlncRNA達(dá)到最大值采用群優(yōu)化擬合方法實(shí)現(xiàn)。
2? LncRNA預(yù)測(cè)
在進(jìn)行l(wèi)ncRNA預(yù)測(cè)之前,要將lncRNAiΦ與臨床數(shù)據(jù)進(jìn)行關(guān)聯(lián),本文研究用到的臨床數(shù)據(jù)來自于TCGA數(shù)據(jù)。與lncRNAiΦ關(guān)聯(lián)的臨床數(shù)據(jù)為clinical-,最終預(yù)測(cè)數(shù)據(jù)集合為ΦlncRNA-clinical=lncRNAiΦ∪clinical-。
2.1? 預(yù)測(cè)數(shù)據(jù)集的平滑處理
預(yù)測(cè)數(shù)據(jù)集合ΦlncRNA-clinical的數(shù)據(jù)集中會(huì)有一些缺失或者噪聲數(shù)據(jù),因此需要對(duì)ΦlncRNA-clinical進(jìn)行數(shù)據(jù)的平滑處理,如果不對(duì)ΦlncRNA-clinical進(jìn)行平滑處理,會(huì)使算法執(zhí)行異?;蛘叱霈F(xiàn)執(zhí)行的結(jié)果偏差較大等情況。對(duì)數(shù)據(jù)的平滑處理可以選用均值平滑和邊界平滑。對(duì)于缺失數(shù)據(jù)和噪聲數(shù)據(jù)通過不同的方法完成平滑處理,平滑處理有兩個(gè)準(zhǔn)則:
準(zhǔn)則1(缺失-邊界):對(duì)于缺失數(shù)據(jù),ΦlncRNA-clinical具有整體性和局部性,往往缺失數(shù)據(jù)的局部性可能對(duì)其真實(shí)值的影響更大,所以對(duì)于缺失數(shù)據(jù)的平滑處理選用邊界平滑。
準(zhǔn)則2(噪聲-均值):對(duì)于噪聲數(shù)據(jù),分析ΦlncRNA-clinical的數(shù)據(jù)分布特征發(fā)現(xiàn),它的方差較大,說明數(shù)據(jù)的波動(dòng)較大。此時(shí)如果選用邊界平滑,會(huì)出現(xiàn)如果待處理數(shù)據(jù)的邊界恰好是波動(dòng)最大值,往往這樣的數(shù)值有存在異常的可能性,所以此時(shí)用邊界平滑的的方法會(huì)使這種異常的出現(xiàn)概率提升。所以針對(duì)噪聲數(shù)據(jù)選擇均值平滑,用噪聲異常值總體的均值對(duì)噪聲數(shù)據(jù)進(jìn)行平滑處理。
上述平滑技術(shù)可以使ΦlncRNA-clinical更加完整,可提高算法的執(zhí)行精度。
2.2? 群優(yōu)化擬合
群優(yōu)化擬合方法的目標(biāo)是使擬合函數(shù)?最大或者最小,本研究擬合函數(shù)?為ΛlncRNA。通過群體的仿生運(yùn)動(dòng),從而實(shí)現(xiàn)?的優(yōu)化。群擬合優(yōu)化方法有下文所述三類運(yùn)動(dòng)方式。
2.2.1? 方式1:散漫隨機(jī)運(yùn)動(dòng)
該運(yùn)動(dòng)方式為在進(jìn)化初期為了得到全局最優(yōu)值,群體執(zhí)行散漫隨機(jī)運(yùn)動(dòng),個(gè)體可以根據(jù)自身的方向傾向性,而自行運(yùn)動(dòng),這樣也使整個(gè)群體的運(yùn)動(dòng)區(qū)域具有全局性,可以保證在全局范圍內(nèi)尋優(yōu)。
2.2.2? 方式2:原地避讓運(yùn)動(dòng)
由于個(gè)體在散漫隨機(jī)運(yùn)動(dòng)的過程中,可能會(huì)有不同的個(gè)體在某一時(shí)刻恰好運(yùn)動(dòng)到系統(tǒng)同一地點(diǎn),由于某個(gè)地點(diǎn)只能允許一個(gè)個(gè)體占有,此時(shí)就發(fā)生了碰撞,那么需要其中一個(gè)個(gè)體執(zhí)行原地避讓運(yùn)動(dòng),個(gè)體中能量最高的占有這個(gè)位置,而能量較低的其他個(gè)體要原地避讓,等待下一時(shí)刻搜尋運(yùn)動(dòng)地點(diǎn)。
2.2.3? 方式3:域內(nèi)群聚運(yùn)動(dòng)
在進(jìn)化的后期,由于此時(shí)若再執(zhí)行散漫隨機(jī)運(yùn)動(dòng),可能會(huì)使優(yōu)化趨勢(shì)被破壞,所以這個(gè)時(shí)候在選擇下一時(shí)刻運(yùn)動(dòng)的位置時(shí),應(yīng)該考慮此時(shí)群體聚集的趨勢(shì)中心點(diǎn)的位置,應(yīng)該向這個(gè)中心點(diǎn)運(yùn)動(dòng)。這樣群聚的方向即為最優(yōu)解的方向。
2.2.4? 強(qiáng)制機(jī)制
在群體的進(jìn)化運(yùn)動(dòng)過程中會(huì)遇到個(gè)體盲選的情況,就是該個(gè)體不知道未來時(shí)刻的運(yùn)動(dòng)位置方向,此時(shí)我們需要執(zhí)行強(qiáng)制機(jī)制。強(qiáng)制機(jī)制的原理是:個(gè)體沿著逆時(shí)針方向旋轉(zhuǎn)(1≤integer(θ)≤Ω),在所有試探的方向中選擇一個(gè)最佳的位置;設(shè)個(gè)體為ΦlncRNA-clinicali,當(dāng)前位置為locationi,按角度? 旋轉(zhuǎn)的位置為locationi|。設(shè)第ω個(gè)位置為最佳位置的表示公式為:
群優(yōu)化擬合算法描述如下,群優(yōu)化擬合流程圖如圖1所示。
步驟1:種群的初始化,初始化迭代次數(shù)及參數(shù),設(shè)置擬合函數(shù)?的公告板。
步驟2:判斷當(dāng)前迭代次數(shù)d是否大于最大迭代次數(shù)D的1/2,如果是轉(zhuǎn)到步驟3,否則轉(zhuǎn)到步驟4。
步驟3:執(zhí)行域內(nèi)群聚運(yùn)動(dòng),更新群體的全部個(gè)體的信息。
步驟4:執(zhí)行散漫隨機(jī)運(yùn)動(dòng),更新群體的全部個(gè)體的信息。
步驟5:判斷當(dāng)前狀態(tài)中是否碰撞,如果是轉(zhuǎn)到步驟6,否則轉(zhuǎn)到步驟7。
步驟6:執(zhí)行原地避讓運(yùn)動(dòng),對(duì)碰撞個(gè)體不做更新操作,其余個(gè)體執(zhí)行更新操作。
步驟7:判斷當(dāng)前狀態(tài)中是否有盲選,如果是轉(zhuǎn)到步驟8,否則轉(zhuǎn)到步驟9。
步驟8:執(zhí)行強(qiáng)制機(jī)制,個(gè)體沿著逆時(shí)針方向旋轉(zhuǎn) (1≤integer(θ)≤Ω),在所有試探的方向中選擇一個(gè)最佳的位置。
步驟9:更新公告板,獲得當(dāng)前最優(yōu)值。
步驟10:判斷是否達(dá)到了最大迭代次數(shù),如果是轉(zhuǎn)到步驟11,否則轉(zhuǎn)到步驟2。
步驟11:算法終止,輸出最優(yōu)值。
2.3? 三種運(yùn)動(dòng)的四個(gè)機(jī)制
群優(yōu)化擬合的散漫隨機(jī)運(yùn)動(dòng)、原地避讓運(yùn)動(dòng)和域內(nèi)群聚運(yùn)動(dòng)具有不同的運(yùn)動(dòng)機(jī)制。
機(jī)制1:散漫隨機(jī)運(yùn)動(dòng),由于其運(yùn)動(dòng)速度與運(yùn)動(dòng)方向都具有很大的隨機(jī)性,這樣可以增加解空間的基數(shù),基數(shù)越大尋優(yōu)的可能空間就越大。
機(jī)制2:散漫隨機(jī)運(yùn)動(dòng)還具有動(dòng)態(tài)性,可在不同時(shí)刻動(dòng)態(tài)變化個(gè)體的運(yùn)動(dòng)速度和運(yùn)動(dòng)方向。
機(jī)制3:原地避讓運(yùn)動(dòng),在整個(gè)進(jìn)化過程中加入了壓抑機(jī)制,因?yàn)榉N群都處于活躍狀態(tài)會(huì)使碰撞概率更大,可能算法會(huì)頻繁地解決處理碰撞,導(dǎo)致算法的負(fù)載過重,性能嚴(yán)重下降。引入原地避讓運(yùn)動(dòng)就是為了減低碰撞概率,減輕算法的負(fù)載。這里選擇原地避讓而沒有選擇變化位置的避讓,原因是在進(jìn)化過程中為了保證局域?qū)?yōu)結(jié)果,所以選擇原地避讓是最好方案,若選擇其他位置進(jìn)行避讓則無(wú)法保證當(dāng)前尋優(yōu)結(jié)果的準(zhǔn)確性。
機(jī)制4:域內(nèi)群聚運(yùn)動(dòng),這個(gè)機(jī)制在進(jìn)化的后期執(zhí)行,這里采用的是聚類的思想,即往往個(gè)體運(yùn)動(dòng)的方向是群體選擇最多的運(yùn)動(dòng)方向,而這個(gè)方向可能是最優(yōu)的結(jié)果方向。
2.4? 群優(yōu)化擬合的實(shí)例化
群優(yōu)化擬合方法用于計(jì)算關(guān)鍵特征選擇,需要將群優(yōu)化擬合方法進(jìn)行實(shí)例化,種群個(gè)體為lncRNA集合,在這集合中我們需要計(jì)算出關(guān)鍵特征。每一個(gè)個(gè)體就是某一個(gè)lncRNA,任意一個(gè)lncRNA執(zhí)行群優(yōu)化擬合方法中的三種運(yùn)動(dòng)。在群優(yōu)化擬合方法中的lncRNA,除了本身表達(dá)值之外,還有兩個(gè)附加信息,就是lncRNA的位置和方向,此時(shí)lncRNA可以理解為是一個(gè)三維向量。其中,三維向量的位置信息用于馬氏統(tǒng)計(jì)距離的判定使用,在移動(dòng)的過程中,下一時(shí)刻的位置發(fā)生變化,該向量的位置信息會(huì)更新變化。由于個(gè)體的周圍會(huì)存在著若干個(gè)移動(dòng)中心點(diǎn),那么個(gè)體需要根據(jù)方向再結(jié)合馬氏統(tǒng)計(jì)距離,綜合判定下一時(shí)刻要移動(dòng)的位置。此外,群優(yōu)化擬合的目標(biāo)實(shí)例化為擬合函數(shù)?,這里要求解的是擬合函數(shù)?的最大值,在?達(dá)到最大值時(shí),為最終的最優(yōu)解。整個(gè)群優(yōu)化擬合過程中都是以?最大值為目標(biāo),所以每次迭代都要更新?,每一個(gè)尋優(yōu)的動(dòng)作都是以?最大為準(zhǔn)則,當(dāng)算法達(dá)到了最大迭代次數(shù)后,算法結(jié)束。
2.5? lncRNA預(yù)測(cè)
本文提出了基于群優(yōu)化擬合及臨床數(shù)據(jù)的癌癥lncRNA預(yù)測(cè)方法(Prediction method of cancer lncRNA based on swarm optimization fitting and clinical data,PCL-SOF-CD),PCL-SOF-CD采用群優(yōu)化擬合方法計(jì)算了關(guān)鍵特征集合,在關(guān)鍵特征集合的基礎(chǔ)上采用判別分析完成lncRNA預(yù)測(cè)。首先根據(jù)已知預(yù)測(cè)標(biāo)簽的數(shù)據(jù),分別計(jì)算各個(gè)預(yù)測(cè)標(biāo)簽的中心點(diǎn);其次,對(duì)于任意一個(gè)學(xué)習(xí)數(shù)據(jù)判別它與中心點(diǎn)的馬氏距離;最后,根據(jù)距離最小原則完成預(yù)測(cè)。
3? 實(shí)驗(yàn)性能分析與討論
3.1? 群優(yōu)化擬合的進(jìn)化性能
本文出的群優(yōu)化擬合方法在計(jì)算關(guān)鍵特征集合lncRNAiΦ的前Γ個(gè)lncRNAi時(shí),尋優(yōu)曲線如圖2所示,該方法在150代的時(shí)候,就趨于平穩(wěn),獲得較好的收斂性能。
3.2? 群優(yōu)化擬合的優(yōu)化能力
為了進(jìn)一步驗(yàn)證群優(yōu)化擬合方法的優(yōu)化能力,選用了如表1所示的三個(gè)測(cè)試函數(shù)來分析優(yōu)化能力,其中Griewank和Rastrigin為高維度測(cè)試函數(shù),Rosenbrock為不確定維度測(cè)試函數(shù),三個(gè)測(cè)試函數(shù)的最優(yōu)值均為0。其中,xi為第i個(gè)變量,i為xi的個(gè)數(shù);D為維度。
圖3顯示了三個(gè)測(cè)試函數(shù)的迭代曲線,其中Rosenbrock在迭代220次時(shí)達(dá)到收斂,Griewank在迭代580次時(shí)達(dá)到收斂,Rastrigin在迭代700次時(shí)達(dá)到收斂,這說明群優(yōu)化擬合方法達(dá)到了較好的收斂性能。
同時(shí)如表2所示,選用2個(gè)優(yōu)化模型綜合分析群優(yōu)化方法的優(yōu)化能力(對(duì)比方法為AFSA、PSO和AGSO)。
優(yōu)化結(jié)果如表3所示,對(duì)于優(yōu)化模型1,群優(yōu)化擬合在迭代120次時(shí)達(dá)到了最優(yōu)值,AFSA在迭代304次時(shí)達(dá)到了最優(yōu)值,PSO在迭代278次時(shí)達(dá)到了最優(yōu)值,AGSO在迭代420次時(shí)達(dá)到了最優(yōu)值,顯然群優(yōu)化擬合求解速度最快。對(duì)于優(yōu)化模型2,群優(yōu)化擬合的優(yōu)化結(jié)果為0.683 05,AFSA的優(yōu)化結(jié)果為0.686 52,PSO的優(yōu)化結(jié)果為0.698 74,AGSO的優(yōu)化結(jié)果為0.699 28,顯然群優(yōu)化擬合方法的求解精度最高。
3.3? PCL-SOF-CD算法性能
本文提出的PCL-SOF-CD與5個(gè)對(duì)比方法進(jìn)行了對(duì)比分析,這5個(gè)對(duì)比方法為:Bayes Net、SMO、LWL、Adaboost.M1和IBK。實(shí)驗(yàn)執(zhí)行了10折交叉驗(yàn)證,對(duì)比指標(biāo)為精確率、召回率和F1-Score。如圖4所示,PCL-SOF-CD的精確率為0.88,Bayes Net為0.79,SMO為0.72,LWL為0.81,Adaboost.M1為0.68,IBK為0.77,綜上可見PCL-SOF-CD精確率最高。
如圖5所示,PCL-SOF-CD的召回率為0.81,Bayes Net為0.71,SMO為0.68,LWL為0.66,Adaboost.M1為0.63,IBK為0.74,綜上可見PCL-SOF-CD的召回率最高。
如圖6所示,PCL-SOF-CD的F1-Score為0.84,Bayes Net為0.75,SMO為0.70,LWL為0.73,Adaboost.M1為0.65,IBK為0.75,綜上可見PCL-SOF-CD的F1-Score最高。根據(jù)對(duì)比結(jié)果可以得知,PCL-SOF-CD在精確率、召回率和F1-Score三個(gè)指標(biāo)上都達(dá)到了較好的預(yù)測(cè)性能。
4? 結(jié)? 論
本文提出一種群優(yōu)化擬合方法,定義了該方法的3種運(yùn)動(dòng)方式:散漫隨機(jī)運(yùn)動(dòng)、原地避讓運(yùn)動(dòng)和域內(nèi)群聚運(yùn)動(dòng)。基于群優(yōu)化擬合方法計(jì)算了關(guān)鍵特征集合,并結(jié)合臨床數(shù)據(jù)采用判別分析實(shí)現(xiàn)了lncRNA與疾病的關(guān)聯(lián)預(yù)測(cè),提出了一種基于群優(yōu)化擬合及臨床數(shù)據(jù)的癌癥lncRNA預(yù)測(cè)方法,實(shí)驗(yàn)表明該方法具有很高的推廣價(jià)值。
參考文獻(xiàn):
[1] WASHIETL S,KELLIS M,GARBER M. Evolutionary dynamics and tissue specificity of human long noncoding RNAs in six mammals [J].Genome Research,2014,24(4):616-628.
[2] GUTTMAN M,RINN J L. Modular regulatory principles of large non-coding RNAs [J].Nature,2012,482(7385):339-346.
[3] HUARTE M. The emerging role of lncRNAs in cancer [J].Nature Medicine,2015,21(11):1253-1261.
[4] LI J,XUAN Z Y,LIU C N. Long Non-Coding RNAs and Complex Human Diseases [J].IJMS,2013,14(9):18790-18808.
[5] CHEN X,SUN Y Z,GUAN N N,et al. Computational models for lncRNA function prediction and functional similarity calculation [J].Briefings in functional genomics,2019,18(1):58-82.
[6] JANG S Y,KIM G,PARK S Y,et al. Clinical significance of lncRNA-ATB expression in human hepatocellular carcinoma [J].Oncotarget,2017,8(45):78588-78597.
[7] MIAO Y,SUI J,XU S Y,et al. Comprehensive analysis of a novel four-lncRNA signature as a prognostic biomarker for human gastric cancer [J].Oncotarget,2017,8(43):75007-75024.
[8] MO X B,WU L F,ZHU X W,et al. Identification and evaluation of lncRNA and mRNA integrative modules in human peripheral blood mononuclear cells [J].Epigenomics,2017,9(7):943-954.
[9] ZHANG Y L,LI X B,HOU Y X,et al. The lncRNA XIST exhibits oncogenic properties via regulation of miR-449a and Bcl-2 in human non-small cell lung cancer [J].Acta Pharmacologica Sinica,2017,38(3):371-381.
作者簡(jiǎn)介:王波(1980—),男,漢族,黑龍江齊齊哈爾人,副教授,博士生,研究方向:與復(fù)雜疾病關(guān)聯(lián)的lncRNA預(yù)測(cè)技術(shù)。