国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)場(chǎng)與3-D圖形表示的DNA序列分析

2020-12-24 07:59:09鄭卓趙佳玲李春
科技資訊 2020年21期
關(guān)鍵詞:序列分析

鄭卓 趙佳玲 李春

摘? 要:該文提出了DNA序列的一種3-D圖形表示,并且針對(duì)此圖形表示的非退化性給出了數(shù)學(xué)證明。然后計(jì)算所提3維圖形表示的L/L矩陣的ALE指標(biāo),并給出了所提3維圖形的圖半徑,從而對(duì)DNA序列進(jìn)行數(shù)值刻畫。結(jié)合物理學(xué)中重力場(chǎng)勢(shì)函數(shù)的思想,構(gòu)造了向量形式的數(shù)據(jù)對(duì)象間的勢(shì)函數(shù),進(jìn)而以K-近鄰算法為分類器,對(duì)208個(gè)RIG-I基因進(jìn)行了分類識(shí)別。實(shí)驗(yàn)結(jié)果證明了該文所提的分類辦法是有效的。

關(guān)鍵詞:圖形表示? 數(shù)值刻畫? 數(shù)據(jù)場(chǎng)? RIG-I基因? 序列分析

中圖分類號(hào):Q78 ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2020)07(c)-0027-03

DNA Sequence Analysis Based on Data Field and 3-D Graphical Representation

ZHENG Zhuo1? ZHAO Jialing1? LI Chun2*

(1.School of Mathematics and Physics, Bohai University, Jinzhou, Liaoning Province, 121000 China; 2.College of Mathematics and Statistics, Hainan Normal University, Haikou, Hainan Province, 570000 China)

Abstract: This paper presents a 3-D graphical representation of the DNA sequence, and gives a mathematical proof for the non-degenerate nature of the graphical representation. Then calculate the ALE index of the L/L matrix represented by the proposed 3-dimensional graph, and give the graph radius of the proposed 3-dimensional graph, thereby numerically characterizing the DNA sequence. Combining the idea of the potential function of gravity field in physics, the potential function between data objects in the form of vectors is constructed, and then 208 RIG-I genes are classified and identified using the K-nearest neighbor algorithm as the classifier. The experimental results prove that the classification method proposed in this paper is effective.

Key Words: Graphical representation; Numerical characterization; Data field; RIG-i gene; Sequence analysis

隨著現(xiàn)代測(cè)序技術(shù)的發(fā)展和生物序列數(shù)據(jù)的急劇積累,序列分析已成為生物信息學(xué)中的一項(xiàng)重要任務(wù)。圖形表示為序列數(shù)據(jù)的定性和定量研究提供了強(qiáng)有力的工具。Gates[1]通過(guò)將x軸的正負(fù)方向賦予C和G,y軸正負(fù)方向賦予T和A,提出了DNA序列的一種2-D圖形表示(見(jiàn)圖1(a))。類似地,Nandy[2]提出了一種DNA序列的AG/CT圖;Leong and Morgenthaler[2]則給出了AC/GT圖(見(jiàn)圖1)。上述圖形表示在生命科學(xué)的很多研究領(lǐng)域都得到了應(yīng)用,然而遺憾的是這些方法都存在嚴(yán)重退化現(xiàn)象。結(jié)合Nandy的2-D圖,Guo等[3]通過(guò)將4個(gè)方向翹起一個(gè)小的角度進(jìn)行改進(jìn),即進(jìn)行如下的賦向:? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?這里d取正整數(shù)(見(jiàn)圖1(d))。文中證明了當(dāng)d是偶數(shù)時(shí),圈的最小長(zhǎng)度為4d;當(dāng)d是奇數(shù)時(shí),圈的最小長(zhǎng)度為2d。這表明Guo等的改進(jìn)圖形表示并未能完全避免退化現(xiàn)象。

受Guo等改進(jìn)思想的啟發(fā),該文提出了DNA序列的一種3-D圖形表示,證明了此種圖形表示是非退化的,并給出了其在DNA序列分析中的應(yīng)用。

1? 方法

1.1 DNA序列3-D圖形表示及其性質(zhì)

在3維空間中,將DNA序列4種堿基A、G、C、T分別賦予4個(gè)方向向量(見(jiàn)圖1(e)):

對(duì)任一給定的長(zhǎng)度為n的DNA序列? ? ? ? ? ? ? ? ? ?1從左到右每次觀察一個(gè)堿基,遇到哪個(gè)堿基就按上述規(guī)則在當(dāng)前位置沿著相應(yīng)方向行走。這樣,遍歷n個(gè)堿基后就得到3維空間中n個(gè)點(diǎn)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?1將各點(diǎn)依次連接,于是序列S便轉(zhuǎn)化為一條3-D曲線。其中,點(diǎn)1? ? ? ? ? ? ? ? ? ? ? 可以按照如下公式得到:

這里? ? ? ? ? ? ? ? ? ? ? 為堿基SK對(duì)應(yīng)的向量的第i個(gè)分量。

性質(zhì)1:該3-D圖形表示是無(wú)圈的,即非退化。

證明:假設(shè)圖中存在圈,設(shè)圈長(zhǎng)為m,且用m、cm、m、tm別表示4種堿基A、C、G、T在該圈中出現(xiàn)的數(shù)目,則有:

即:

從而圈長(zhǎng)? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 即無(wú)圈。性質(zhì)1得證。

1.2 DNA序列的數(shù)值刻畫

對(duì)于每一個(gè)3-D圖形表示來(lái)說(shuō),與Nandy 2-D圖形表示類似,可提取其圖半徑我們規(guī)定相應(yīng)定義如下:

一旦序列的圖形表示被給出,文獻(xiàn)中另一個(gè)進(jìn)行數(shù)值刻畫的途徑是將圖轉(zhuǎn)化為矩陣,然后提取有關(guān)不變量[4,5]。該文考慮L/L矩陣,其矩陣元素定義如下:

其中,為圖中第i, j兩點(diǎn)間的歐式距離,表示它們的圖論距離。L/L矩陣有一個(gè)很好的特點(diǎn),就是其元素都被規(guī)范到[0,1]區(qū)間。在此基礎(chǔ)上,該文選擇我們提出的ALE指標(biāo)作為不變量[6]:

其中:

上面我們是把4個(gè)方向向量依次賦予A、C、G、T而得到的3-D圖形。不難發(fā)現(xiàn),若將這4個(gè)方向向量依次賦予G、T、A、C,在對(duì)稱的意義上,所得的圖形是同一個(gè)。事實(shí)上,基于這樣的4個(gè)方向向量,本質(zhì)上有12種不同的3-D曲線與同一條DNA序列相對(duì)應(yīng)。從每一個(gè)3-D曲線提取1個(gè)ALE指標(biāo)和1個(gè)圖半徑。于是,一條DNA序列S便與一個(gè)24維向量相對(duì)應(yīng),其中有12個(gè)ALE指標(biāo),12個(gè)。為了方便,將這個(gè)24維向量記為特別的,在實(shí)際問(wèn)題中為了剔除序列長(zhǎng)度的背景影響,可進(jìn)一步令

此外,被認(rèn)為是DNA序列分析中一個(gè)重要的量[7]。其中a、c、g、t分別表示序列中堿基A、C、G、T出現(xiàn)的頻率。從而,我們便將一條DNA序列S轉(zhuǎn)化為一個(gè)帶有ρ值的24維向量:

2? 應(yīng)用

2.1 數(shù)據(jù)場(chǎng)與數(shù)據(jù)對(duì)象間的勢(shì)函數(shù)

場(chǎng)的概念最早是由英國(guó)物理學(xué)家法拉第于1837年提出,用來(lái)描述物質(zhì)粒子間的非接觸性相互作用[8]。參照物理場(chǎng),如果我們把24維空間中的每一個(gè)點(diǎn)都視為一個(gè)粒子,便有數(shù)據(jù)場(chǎng)的概念,進(jìn)而可定義數(shù)據(jù)對(duì)象X對(duì)Y(理解成在Y處)的勢(shì)函數(shù)。參考重力場(chǎng)勢(shì)函數(shù),并借鑒簡(jiǎn)艷等[9]的思想,該文定義兩個(gè)數(shù)據(jù)對(duì)象X、Y之間的勢(shì)函數(shù)關(guān)系如下:

其中

顯然,二者間的關(guān)系越密切,它們的勢(shì)值越大。

2.2 RIG-I基因的分類識(shí)別

當(dāng)機(jī)體感染病毒時(shí),會(huì)誘導(dǎo)產(chǎn)生相應(yīng)免疫反應(yīng)。RIG-I (維甲酸誘導(dǎo)基因I)是細(xì)胞質(zhì)中的模式識(shí)別受體,能夠識(shí)別病毒復(fù)制產(chǎn)生的雙鏈RNA和5三磷酸基團(tuán)的單鏈RNA,并通過(guò)激活Ⅰ型干擾素來(lái)引發(fā)抗病毒免疫反應(yīng)[10]。該文所使用的數(shù)據(jù)集包括208個(gè)RIG-I序列數(shù)據(jù),其中147個(gè)是脊索動(dòng)物,其余61個(gè)為無(wú)脊椎動(dòng)物。所有數(shù)據(jù)均來(lái)自NCBI數(shù)據(jù)庫(kù)。為了敘述方便,我們稱數(shù)據(jù)集中147個(gè)脊索動(dòng)物基因?yàn)檎龢颖炯涀鱏+;稱其余61個(gè)基因?yàn)樨?fù)樣本集,記作S-。

由于兩個(gè)基因間的勢(shì)函數(shù)值越大,二者間的關(guān)系越密切,所以可以根據(jù)勢(shì)函數(shù)值大小確定“鄰近”關(guān)系。該文在前述所構(gòu)造的勢(shì)函數(shù)的基礎(chǔ)上,采用K近鄰(K-NN)算法進(jìn)行分類識(shí)別。我們從S+、S-中分別隨機(jī)選取55%的樣本作為訓(xùn)練集,其余45%作為測(cè)試集(共93條序列)。實(shí)驗(yàn)中有兩個(gè)待定參數(shù):最近鄰居數(shù)K和勢(shì)函數(shù)中的。依次給定K=1,3,5,7,然后測(cè)試的不同取值。結(jié)果發(fā)現(xiàn),當(dāng)時(shí),分類識(shí)別可達(dá)到較理想效果。我們進(jìn)行了10次交互驗(yàn)證,實(shí)驗(yàn)結(jié)果見(jiàn)表1。從表1可以看出,每次的識(shí)別率(AC)在97%以上。10次實(shí)驗(yàn)的平均精度達(dá)到了98.51%。

參考文獻(xiàn)

[1] 產(chǎn)院東.基于多核和眾核平臺(tái)的并行DNA序列比對(duì)算法[D].山東大學(xué),2019.

[2] Dwaipayan Sen,Proyasha Roy,Ashesh Nandy,etal. Graphical representation methods: How well do they discriminate between homologous gene sequences?[J]. Chemical Phgsizs,2018(513):156-164.

[3] GUO XF, RANDIC M, BASAK SC. A novle 2-D graphical representation of DNA sequences of low degeneracy[J].Chemical Physics Letters,2001, 350:106-112.

[4] 向其林.基于新型表達(dá)模式的序列特征獲取方法及應(yīng)用研究[D].湖南大學(xué),2017.

[5] 崔穎,徐澤龍,李建中.基于綜合DNA序列特征的支持向量機(jī)方法識(shí)別核小體定位[J].生物醫(yī)學(xué)工程學(xué)雜志,2020,37(31):1-6.

[6] LiChun,Lz Xueqm,Lin Yan-xia. Numerical Characterization of Protein Sequences Based on the Generalized Chou's Pseudo Amino Acid Composition[J]. APPLied Scouces,2016,6(12):406.

[7] Chun Li,Nadia Helal,Jun Wang. Recognition of protein coding genes in the yeast genome based on the relative-entropy of DNA[J].COmbunatorial Chemistry 8c Higt Throughput Screening,2006,9(1): 49-54.

[8] 仲茜,李涓子,唐杰,等.基于數(shù)據(jù)場(chǎng)的大規(guī)模本體映射[J].計(jì)算機(jī)學(xué)報(bào),2010,33(6):955-965.

[9] 簡(jiǎn)艷,賈洪勇.一種基于數(shù)據(jù)場(chǎng)的K-均值算法[J].計(jì)算機(jī)應(yīng)用研究,2010,27(12):4498-4501.

[10] 程玉強(qiáng).雞MDA5-STING-IFN-β抗病毒天然免疫通路的發(fā)現(xiàn)及其信號(hào)轉(zhuǎn)導(dǎo)機(jī)制[D].上海交通大學(xué),2016.

[11] 費(fèi)文超.DNA序列的圖形表示及其應(yīng)用[D].渤海大學(xué)大學(xué),2016.

[12] 王科.基于圖形表示的DNA序列相似性分析[D].河北科技大學(xué),2016.

猜你喜歡
序列分析
石榴果皮DHQ/SDH基因的克隆及序列分析
三個(gè)小麥防御素基因的克隆及序列分析
山葡萄DFR基因全長(zhǎng)cDNA的克隆與序列分析
麻風(fēng)樹(shù)油質(zhì)蛋白JcOle16.6基因克隆及序列分析
人參CYP716A53v2基因的克隆與序列分析
木薯MeCWINV4啟動(dòng)子的克隆及其活性分析
黃粉甲翅芽生長(zhǎng)因子基因的克隆及表達(dá)分析
纖維素酶系基因的克隆與序列分析
阿勒泰羊脂肪酸合成酶及脂蛋白酯酶基因的序列分析
柴達(dá)木盆地梭梭耐鹽相關(guān)基因PrxQ的克隆及其蛋白結(jié)構(gòu)預(yù)測(cè)
嘉兴市| 蒙山县| 吕梁市| 嵊州市| 天柱县| 沙河市| 丘北县| 二连浩特市| 阳泉市| 炎陵县| 新竹县| 泗洪县| 大同市| 黄骅市| 扬州市| 南召县| 托克逊县| 吉林省| 齐河县| 湘阴县| 迭部县| 永宁县| 八宿县| 方城县| 巴里| 澄迈县| 无为县| 黎城县| 灌阳县| 白山市| 昌都县| 新绛县| 仁寿县| 榆中县| 来安县| 舞钢市| 泽库县| 逊克县| 海盐县| 桐乡市| 乐昌市|