劉慧,鄒棖,林鳳
1 沈陽農(nóng)業(yè)大學(xué)生物科學(xué)技術(shù)學(xué)院,遼寧 沈陽 110866
2 中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所,北京 100081
1977年,Jacq等[1]通過單基因克隆的方法獲得了與功能基因相似性非常高但卻不能行使功能的基因,這種序列首次被發(fā)現(xiàn)并被定義為假基因。隨著測(cè)序技術(shù)的飛速發(fā)展,許多物種全基因組序列陸續(xù)被發(fā)表,這為基因組范圍內(nèi)假基因的鑒定奠定了基礎(chǔ)。近年來,許多科研小組根據(jù)物種基因組數(shù)據(jù)對(duì)假基因進(jìn)行了鑒定,以人類為例:Yao等[2]依據(jù)人類全基因組轉(zhuǎn)錄及蛋白序列鑒定了2 011個(gè)假基因并進(jìn)行了分類,同時(shí)找到加工及未加工假基因,并在此基礎(chǔ)上鑒定了轉(zhuǎn)錄的假基因。Molineris等[3]在人類基因組中鑒定獲得2 288個(gè)加工假基因。Zhang等[4]對(duì)人類及其近緣物種的基因庫進(jìn)行分析,鑒定了 76個(gè)單一假基因 (Unitary pseudogenes)。
另外,假基因的功能研究也取得了重大的進(jìn)展[5],例如與功能基因 pou5f1相似性達(dá)到 97%的假基因 pou5f1p1可以在細(xì)胞系和結(jié)腸癌組織中表達(dá),其功能與腫瘤形成有關(guān)[6]。除此之外,假基因還能夠通過生物體內(nèi)小RNA產(chǎn)生關(guān)鍵性的調(diào)節(jié)作用:如通過產(chǎn)生siRNA進(jìn)行干擾以調(diào)控基因的表達(dá);又如假基因作為miRNA的靶位點(diǎn),通過與功能基因靶位點(diǎn)競(jìng)爭(zhēng)miRNA的結(jié)合調(diào)控功能基因的表達(dá)。因此,對(duì)假基因功能的探索成為研究基因表達(dá)調(diào)控的一個(gè)重要內(nèi)容。本文圍繞近年來假基因鑒定和假基因功能兩個(gè)研究熱點(diǎn)進(jìn)行較全面的介紹。
假基因的概念最初由 Jacq等[1]克隆 1個(gè)5S rRNA相關(guān)基因時(shí)提出:由于基因序列的5′端缺失或錯(cuò)配使這個(gè)截短的5S rRNA喪失功能,并將其描述為假基因。后來研究發(fā)現(xiàn),假基因大多是由于存在提前終止子或移碼突變而喪失了正常編碼蛋白的功能[7]。所以,目前,公認(rèn)的假基因定義表述為與已知功能基因組DNA有很高的序列相似性,但由于某些遺傳缺陷造成不能正常表達(dá)的基因序列。
對(duì)于假基因的產(chǎn)生,目前認(rèn)為主要存在以下兩種方式:一種是DNA復(fù)制過程中,由于堿基突變產(chǎn)生移碼突變或提前終止子進(jìn)而形成假基因,被稱為未加工方式;另一種通過反轉(zhuǎn)錄轉(zhuǎn)座作用獲得,即DNA轉(zhuǎn)錄為mRNA后,再由mRNA反轉(zhuǎn)錄成cDNA,然后cDNA隨機(jī)插入到基因組位點(diǎn)后形成加工后假基因,又被稱為逆轉(zhuǎn)座型假基因。另外,由于啟動(dòng)子喪失功能使一些低表達(dá)的基因逐漸假基因化 (Pseudogenization),也可以形成假基因[8]。
長(zhǎng)期以來,人們認(rèn)為假基因是存在于生物體中無功能的“死亡基因”,是基因組進(jìn)化過程當(dāng)中的“化石”[9]。人們對(duì)生物體內(nèi)這一“垃圾基因”進(jìn)行了研究和分析,到目前已經(jīng)在擬南芥、果蠅、斑馬魚、小鼠、人類等物種中獲得了假基因序列信息 (表1),下面列出幾種模式物種體內(nèi)假基因含量。
從圖中我們可以發(fā)現(xiàn):人類和小鼠基因組包含大約 22 000個(gè)已注釋的蛋白編碼基因和分別大約 17 000個(gè)和 19 000個(gè)假基因。果蠅D. melanogaster中有大約14 000個(gè)蛋白編碼基因,假基因只有2 200個(gè)。可能由于果蠅中具有高基因組消亡率[10],而造成了其功能基因與假基因比例與其他物種相差較大。植物中已獲得假基因數(shù)量的主要為水稻和擬南芥,分別含有5 600個(gè)和 2 700個(gè)假基因[11-12],將其與水稻基因組487 Mb——大約45 000基因 (International Rice Genome Sequencing Project,2005)以及擬南芥基因組135 Mb——大約27 411基因 (http://www.arabidopsis.org,TAIR10,2010)比較可知,基因組大小不同可能是造成兩者假基因差距較大的原因。Podlaha等[13]對(duì)假基因數(shù)量進(jìn)行了深入研究后發(fā)現(xiàn),決定假基因數(shù)量差異的因素主要是不同物種內(nèi)基因的產(chǎn)生率和消亡率。假基因產(chǎn)生率決定于DNA和RNA發(fā)生變化的概率;而消亡率主要決定于進(jìn)化當(dāng)中中性突變及清除速率。除了決定性因素外,影響假基因尤其是加工假基因產(chǎn)生的還有表達(dá)組織和表達(dá)量?jī)蓚€(gè)因素。新產(chǎn)生的假基因需要隸屬于生殖細(xì)胞系或胚胎干細(xì)胞(其可產(chǎn)生生殖細(xì)胞系),而僅僅在體細(xì)胞中表達(dá)的基因不能產(chǎn)生加工假基因。在表達(dá)量方面,管家基因等高表達(dá)的基因由于能夠被逆轉(zhuǎn)錄插入的 mRNA分子很多,因而有更大產(chǎn)生逆轉(zhuǎn)錄轉(zhuǎn)座子的可能性。研究發(fā)現(xiàn)能夠產(chǎn)生最多假基因的基因類型有:核糖體蛋白、DNA及RNA結(jié)合蛋白、特定結(jié)構(gòu)蛋白和代謝酶等[13],例如:人類核糖體蛋白被大約 80個(gè)基因編碼,有大約 2 000個(gè)假基因[14]。除上面因素外,還有兩種情況也會(huì)產(chǎn)生假基因,一種為上游調(diào)節(jié)區(qū)域的突變使開放閱讀框表達(dá)衰退進(jìn)而形成假基因,例如:Yang等[8]對(duì)擬南芥中已注釋的蛋白編碼基因進(jìn)行分析,鑒定了1 939個(gè)幾乎沒有表達(dá)證據(jù)但已被注釋為編碼蛋白的基因,這些基因普遍比表達(dá)基因短,非同義突變概率高出正?;?倍,上游序列趨異的概率也比表達(dá)基因高,說明轉(zhuǎn)座元件的插入等因素使得這些低表達(dá)的基因通過啟動(dòng)子退化作用走上假基因化道路;另一種為突變作用,其產(chǎn)生也會(huì)影響假基因的產(chǎn)生率,尤其是一個(gè)物種在生態(tài)上突然變化造成很多有功能的基因變得無功能。
表1 不同物種假基因數(shù)量分布Table 1 Pseudogene distribution in different species
對(duì)于假基因在染色體上的分布,不同物種有較大區(qū)別:酵母Saccharomyces cerevisiae H. 基因組中98個(gè)假基因有44%分布于近端粒區(qū)域,著絲粒附近較少[15];果蠅 D. melanogaster大部分假基因分布在著絲粒附近。而對(duì)人類的研究結(jié)果卻表明,近端粒和著絲粒處的加工假基因數(shù)目都比較少[16],這可能分別與端粒附近易發(fā)生基因重組和 DNA置換,而著絲粒附近擁有較低 GC含量有關(guān)[17]。劉國(guó)慶等[18]以加工假基因?yàn)槔芯考倩蛟谌旧w上分布的影響因素,發(fā)現(xiàn)基因分布、重組率和GC含量3個(gè)因素較為關(guān)鍵且影響程度依次減弱。加工假基因分布與基因分布為正相關(guān),即較多地分布在基因密區(qū);重組率對(duì)加工假基因分布有負(fù)相關(guān)作用。而對(duì)于GC含量,它與重組率、基因密度等變量之間互相關(guān)聯(lián)。去掉重組率和基因密度影響時(shí),加工假基因密度和 GC含量間的關(guān)系會(huì)由原先的正相關(guān)變?yōu)樨?fù)相關(guān),這種負(fù)相關(guān)性體現(xiàn)在較長(zhǎng)加工假基因上(>400 bp),而短加工假基因的密度與 GC含量之間卻沒有顯著相關(guān)性。
全基因組范圍內(nèi)進(jìn)行假基因鑒定的操作流程主要包括 PseudoPipe、PseudoFinder、RetroFinder、REGEXP 等[3,19]。PseudoPipe 是一種基于同源性搜索全面鑒定假基因的方法,過程主要通過本地 Blast[20]找能夠匹配到蛋白序列的基因組序列,然后去掉已注釋的編碼基因序列和重復(fù)冗余序列 (http://www.girinst.org/repbase/index.html),將同一方向得分最高的蛋白序列根據(jù)內(nèi)含子大小特點(diǎn)進(jìn)行合并[12],再通過同源性、內(nèi)含子-外顯子結(jié)構(gòu)、提前終止子或移碼突變等假基因特征判斷序列中造成編碼缺陷的突變類型和位置,進(jìn)而鑒定得到假基因。Zheng等[21]以PseudoPipe作為基礎(chǔ)進(jìn)行了延伸:在獲得候選假基因片段后,通過尋找外顯子-內(nèi)含子剪接處,依據(jù)剪接處對(duì)假基因進(jìn)行分類 (PseudoPipe鑒定流程如圖 1所示)。Zou等[12]在鑒定擬南芥和水稻的過程中也利用上述方法,通過對(duì)比假基因與蛋白序列尋找外顯子-內(nèi)含子剪接位置,計(jì)算剪接位置的個(gè)數(shù),通過個(gè)數(shù)不同劃分其為加工、未加工假基因以及假基因片段區(qū)。
除了PseudoPipe,其他科研小組也根據(jù)假基因特點(diǎn)提出了自己的鑒定流程:由加利福尼亞大學(xué)發(fā)表的 PseudoFinder方法[22],通過同源匹配(Homologous mapping) 鑒定了人類當(dāng)中的假基因。此方法利用已知的人類基因組序列作為參考序列[23],通過HomoMap找到參考序列的同源序列片段,將這些片段進(jìn)行連接后再與已知參考序列進(jìn)行比對(duì),得到一致性分?jǐn)?shù)、提前終止子的數(shù)量等一系列結(jié)果。利用Support Vector Machines(SVMs)從所有結(jié)果中挑出陽性樣本 (與已知的假基因匹配的基因)和陰性樣本 (與參考基因有重疊的基因)并做標(biāo)記。最后將沒有顯著功能、具有多項(xiàng)假基因特征的片段保留,將假基因特征不明顯、證據(jù)不充足的部分去掉獲得最終假基因。PseudoFinder準(zhǔn)確度較高,通過10X交叉驗(yàn)證測(cè)試結(jié)果表明此方法比其他方法更有效。
圖1 假基因鑒定流程圖[12]Fig. 1 Pseudogene Identification pipeline[12].
同樣由加利福尼亞大學(xué)發(fā)表的 RetroFinder方法專注于加工假基因的注釋[22]。其首先從GenBank中檢索人類所有 mRNA序列,通過Blastz將序列比對(duì)到基因組上[23]。每一個(gè)序列通過分析其序列位置、剪接位點(diǎn)個(gè)數(shù)、重復(fù)元件覆蓋度以及外顯子個(gè)數(shù)等生物特征,獲得一個(gè)基于每個(gè)位點(diǎn)逆轉(zhuǎn)錄轉(zhuǎn)座子發(fā)生可能性的分?jǐn)?shù)。通過研究已知的假基因推斷一個(gè)閾值,并根據(jù)閾值鑒定加工假基因。
上述鑒定方法雖然依賴于不同的流程,但都需要物種的基因組、轉(zhuǎn)錄組以及蛋白組信息,這些流程對(duì)于已知生物 EST及蛋白信息的物種很有效,但對(duì)非模式生物的假基因鑒定比較困難。Molineris等[3]提出了新的鑒定加工假基因方法REtrotransposed Gene EXPlorer (REGEXP)。REGEXP僅僅依賴DNA序列,不依賴mRNA、EST或蛋白信息,從而對(duì)于轉(zhuǎn)錄組注釋缺乏的物種假基因鑒定有很重要的意義。其中心思想是編碼基因和加工假基因能夠通過一系列的兩兩同源基因比對(duì) (Pairwise paralogous alignments)找到高分?jǐn)?shù)對(duì) (High score pairs,HSPs),根據(jù)加工假基因僅含有原始基因外顯子的特點(diǎn),尋找HSPs附近的簇,假基因?qū)?yīng)的HSPs互相非常接近,而正常同源基因雖然較近,但卻被內(nèi)含子分割,依照此特點(diǎn)構(gòu)建假基因數(shù)據(jù)庫,又因一個(gè)祖先基因可以得到多個(gè)加工假基因,后續(xù)還包括對(duì)其分析并找到對(duì)應(yīng)的原始唯一的祖先基因。為了降低假陽性以及對(duì)祖先基因不完整注釋的概率,還需要至少 3個(gè)剪接缺口 (Splicing gaps)以獲得 1個(gè)候選序列。將得到的結(jié)果與 Ensemble、VEGA以及Pseudogene.org上的假基因數(shù)據(jù)進(jìn)行假基因比對(duì),有很好的一致性。
除了針對(duì)生物體內(nèi)普遍假基因鑒定的方法外,Zhang等[4]指出了一種新的鑒定無功能且無配對(duì)祖先基因——單一假基因 (Unitary pseudogenes)的方法。過程首先將人類與小鼠同源的基因找到,之后與小鼠的蛋白序列比對(duì),找出不在同源基因內(nèi)的小鼠蛋白序列后,將這些序列與人類基因組比對(duì),能夠匹配上的作為假基因候選序列,根據(jù)內(nèi)含子與小鼠基因是否一致以及是否具有假基因的提前終止子、移碼突變等特征進(jìn)而鑒定人類假基因。利用獲得的鑒定結(jié)果,Zhang等還比較了兩個(gè)物種整體詳細(xì)的直系同源基因信息,結(jié)合靈長(zhǎng)類單一假基因的年齡,得到較早產(chǎn)生功能的基因在靈長(zhǎng)類進(jìn)化過程中不是突然消失功能,而是有規(guī)律性變化的結(jié)論。
結(jié)合之前假基因鑒定的方法和結(jié)果,Pei等[24]系統(tǒng)地進(jìn)行了人類假基因的鑒定以及基于鑒定結(jié)果進(jìn)行的表達(dá)水平、轉(zhuǎn)錄因子、RNA聚合酶Ⅱ結(jié)合位點(diǎn)以及染色質(zhì)標(biāo)記分析。其在過程中利用 HAVANA小組以及 PseudoPipe和RetroFinder獲得的結(jié)果,在人類全基因組范圍內(nèi)鑒定了11 216個(gè)假基因以及138個(gè)單一假基因。同時(shí),實(shí)驗(yàn)找到9 368個(gè)假基因?qū)?yīng)的親本基因3 391個(gè) (1 848個(gè)假基因由于注釋不精準(zhǔn)得不到其親本基因),其中2 071個(gè)僅對(duì)應(yīng)1個(gè)假基因,另外一些如核糖體蛋白 (Ribosomal protein L21,RPL21)對(duì)應(yīng)143個(gè)假基因,甘油醛-3-磷酸鹽脫氫酶 (Glyceraldehyde-3-phosphate dehydrogenase,GAPDH)對(duì)應(yīng)68個(gè)假基因,這也驗(yàn)證了之前管家基因擁有更多假基因的結(jié)論。文章還具體闡述了之所以較之前的鑒定結(jié)果有差別,主要的原因有兩個(gè):一是實(shí)驗(yàn)中未將有偏差的基因組區(qū)域加入,因?yàn)閷?duì)于一個(gè)單一區(qū)域包含很大一簇專一作用的假基因 (例如Olfactory receptor假基因)來說,其并不能代表整個(gè)人類基因組內(nèi)情況[22];二是隨著基因注釋的進(jìn)步,注釋基因整體數(shù)量的變化也會(huì)造成鑒定的假基因數(shù)量產(chǎn)生差異。
假基因功能的研究主要經(jīng)過了3個(gè)階段:第1階段是假基因發(fā)現(xiàn)的早期,這個(gè)階段主要是在單個(gè)假基因鑒定的過程中由于基因內(nèi)產(chǎn)生的缺陷而失去正常功能的報(bào)道;第2階段是間接證據(jù)階段,即通過研究證明了某些假基因在進(jìn)化特點(diǎn)上有類似功能基因的特點(diǎn),例如沒有功能的假基因被證明突變的積累并不是完全中立等,并且也發(fā)現(xiàn)少量的假基因可以被轉(zhuǎn)錄;第3階段是豐富的直接實(shí)驗(yàn)證據(jù)階段,在這個(gè)階段,主要涉及的是假基因?qū)τH本基因的調(diào)控及其作用機(jī)理。下面就針對(duì)各階段的研究進(jìn)行總結(jié) (表2)。
假基因由正常功能基因演化而來,在假基因化的漫長(zhǎng)過程中,低表達(dá)的蛋白編碼基因可能已經(jīng)具有了假基因的特征,但由于處在過渡狀態(tài),這些基因仍然不會(huì)完全喪失功能:例如果蠅中假基因adh (Alcohol dehydrogenase)由于存在多個(gè)突變從而喪失編碼蛋白的能力,但是Begun等[34]發(fā)現(xiàn)adh具有功能基因應(yīng)有的特征,包括外顯子核酸突變率比內(nèi)含子低,密碼子仍然保留偏好性以及沉默突變率明顯高于替代突變率等。又如,雞中IglV和IghV終止子出現(xiàn)的數(shù)量比正常核酸發(fā)生隨機(jī)突變情況下產(chǎn)生的終止子少很多,而且大部分由于點(diǎn)突變產(chǎn)生的終止子能夠通過修復(fù)機(jī)制還原為功能基因[27],此現(xiàn)象在老鼠中也被發(fā)現(xiàn)[35],說明替換機(jī)制可能使假基因恢復(fù)為原來的功能基因或者新的功能基因。Zou等[12]對(duì)植物中假基因進(jìn)行了研究,比較了水稻和擬南芥中假基因的非同義替代/同義替代值,比值小于1的結(jié)果說明自然選擇抑制有害突變發(fā)生,即許多植物的假基因在進(jìn)化過程中并不是中立的,而是進(jìn)行了很強(qiáng)的純化選擇[12]。通過對(duì) 685個(gè)擬南芥以及926個(gè)水稻的假基因——親本基因研究,發(fā)現(xiàn)ω值≤0.2,說明這些假基因與大部分功能基因具有的選擇限制一樣強(qiáng),進(jìn)而表明其可能在相當(dāng)長(zhǎng)的時(shí)間為功能基因,后來才成為假基因。更進(jìn)一步的研究還發(fā)現(xiàn)假基因的5′區(qū)域到第1個(gè)終止子比3′區(qū)域有更強(qiáng)的選擇限制,說明假基因的 5′區(qū)域在提前終止子出現(xiàn)后的很長(zhǎng)時(shí)間里仍有功能。
表2 假基因功能研究的3個(gè)階段Table 2 Three stages on the function research of pseudogenes
3.2.1 假基因的表達(dá)證據(jù) (正義表達(dá)/反義表達(dá))
假基因由于缺乏有功能的啟動(dòng)子和調(diào)節(jié)元件而不能編碼蛋白,在單細(xì)胞低等生物體內(nèi),正在假基因化的基因能夠被排除[36],但一些研究證實(shí)在具有比較大而復(fù)雜的基因組物種中,如小麥、大麥等,假基因存在十分普遍[37]。人們開始對(duì)多細(xì)胞生物體內(nèi)存在的假基因進(jìn)行功能研究,發(fā)現(xiàn)其具有轉(zhuǎn)錄功能。以一氧化氮合酶nos對(duì)應(yīng)的假基因makorin1-p1為例:通過形成mRNA,makorin1-p1與 nos的 mRNA互補(bǔ)形成穩(wěn)定的RNA-RNA雜合體,引起nos蛋白表達(dá)降低[29]。隨后,Hirotsune等[38]把 sex-lethal基因插入到makorin1-p1假基因中部導(dǎo)致了小鼠的死亡。進(jìn)一步生化及遺傳學(xué)實(shí)驗(yàn)表明小鼠的死亡是由于makorin1-p1被破壞所致,第一次驗(yàn)證了假基因具有功能。而在同樣的處理?xiàng)l件下,超表達(dá)makorin1-p1或者makorin1后轉(zhuǎn)基因小鼠并未死亡,從而進(jìn)一步證明假基因具有功能。隨后,人類白細(xì)胞干擾素 (Leukocyte interferon)[39]、腫瘤抑制基因 pten[40]以及 oct4[41]當(dāng)中的假基因都被發(fā)現(xiàn)能夠進(jìn)行轉(zhuǎn)錄,而且有的假基因比對(duì)應(yīng)的功能基因有更多的轉(zhuǎn)錄子。王國(guó)亮等[42]應(yīng)用RT-PCR技術(shù)檢測(cè)50例良、惡性甲狀腺病變中假基因hmga1l2 mRNA的表達(dá)。結(jié)果發(fā)現(xiàn)在12例結(jié)節(jié)性甲狀腺腫、9例甲狀腺腺瘤和15例甲狀腺乳頭狀癌中,其陽性表達(dá)率均為100%。目前,通過 5′ RACE (Rapid Amplification of cDNA Ends),嵌合芯片分析 (Tiling Array Analysis)和高通量測(cè)序技術(shù) (High-throughput Sequencing)[43]可以系統(tǒng)地分析整個(gè)生物體范圍內(nèi)的假基因轉(zhuǎn)錄功能,研究從單個(gè)基因走向全基因組范圍。哺乳動(dòng)物中利用相似表達(dá)標(biāo)簽分析發(fā)現(xiàn)2%~5%的假基因能夠表達(dá)[43];GENCODE鑒定了11 224個(gè)人類假基因,其中863個(gè)能夠進(jìn)行轉(zhuǎn)錄[24]。RNA-seq技術(shù)的發(fā)展,解決了可變剪接[44](Alternative splicing)、等位基因特異性表達(dá)(Allelic-specific expression)[45]以 及 RNA 編 輯(RNA editing)[46]等復(fù)雜情形下的轉(zhuǎn)錄問題,人們也開始將其應(yīng)用于假基因的功能研究中,如人類核糖體蛋白假基因的轉(zhuǎn)錄研究就利用了RNA-seq技術(shù)[47]:通過 RPKM (Reads Per Kilobase per Million mapped reads)預(yù)測(cè)基因表達(dá)量,對(duì) RNA測(cè)序數(shù)據(jù)——Illumina Human Body Map 2.0 project中的16個(gè)人類組織進(jìn)行研究,發(fā)現(xiàn)1個(gè)假基因的RPKM為170、3個(gè)假基因RPKM>10、13個(gè)假基因RPKM>5;而且與核糖體蛋白功能基因在幾乎所有組織中表達(dá)不同的是,假基因的表達(dá)僅在特定組織中進(jìn)行。緊隨其后,通過RNA-seq技術(shù),Shanker等[48]對(duì)鑒定出的293個(gè)代表人類13種癌癥和正常組織的假基因進(jìn)行了系統(tǒng)的功能研究,發(fā)現(xiàn)其在細(xì)胞分化和癌癥的發(fā)展中起到重要作用。
對(duì)于假基因能夠進(jìn)行轉(zhuǎn)錄,目前主要有兩種解釋:一種是產(chǎn)生年代較新的假基因由于順式調(diào)控元件區(qū)沒有完全退化,完整的假基因編碼區(qū)反應(yīng)著完整的與之相連的啟動(dòng)子區(qū),非同源基因的啟動(dòng)子可能由于與假基因相鄰而驅(qū)動(dòng)假基因轉(zhuǎn)錄。另一種認(rèn)為其衍生于較早的基因,進(jìn)化中有很強(qiáng)的純化選擇,最近才進(jìn)入假基因化。但后一種情況的發(fā)生很少,所以還未有數(shù)據(jù)上的證據(jù)[12]。
隨著假基因能夠被轉(zhuǎn)錄的證據(jù)越來越多,人們將注意力集中在挖掘假基因轉(zhuǎn)錄與功能基因轉(zhuǎn)錄的區(qū)別。Zou等[12]對(duì)水稻和擬南芥EST/MPSS的分析表明,擬南芥和水稻中分別有73%和 49%的基因有 EST/MPSS表達(dá)證據(jù),然而兩者分別僅有2%~5%和2%~3%的假基因有表達(dá)證據(jù)。實(shí)驗(yàn)還比較了外顯子在功能基因及假基因正反義鏈上的表達(dá)情況,發(fā)現(xiàn)擬南芥中外顯子在正義鏈或反義鏈的表達(dá)均比假基因表達(dá)高,但水稻中 (正義鏈) 外顯子的表達(dá)和假基因類似。另外,僅針對(duì)假基因正反義鏈的表達(dá)也被進(jìn)行了研究,結(jié)果顯示610個(gè)擬南芥 (16.79%) 與1 047個(gè)水稻 (22.91%)的假基因可能存在正義鏈表達(dá)[49],而523個(gè)擬南芥 (14.42%)和922個(gè)水稻 (20.17%)的假基因在反義方向表達(dá)[12],可以看到假基因在兩種植物中的正義表達(dá)均比反義表達(dá)高一些,即正義鏈相比反義鏈更具有轉(zhuǎn)錄功能。因此,在轉(zhuǎn)錄的方式和特點(diǎn)上,假基因與功能基因有較大區(qū)別。
3.2.2 假基因的調(diào)控功能
自從假基因被發(fā)現(xiàn)能夠轉(zhuǎn)錄,對(duì)其功能的探索就不斷地進(jìn)行。隨著高通量鏈特異性RNA測(cè)序技術(shù) (High-Throughput Illumina Strand-Specif i c RNA Sequencing)的發(fā)展,克服了傳統(tǒng)RNA測(cè)序技術(shù)過程中由于缺少RNA極性信息而不能進(jìn)行真核生物復(fù)雜轉(zhuǎn)錄組解碼的缺陷,對(duì)基因組注釋、新轉(zhuǎn)錄組收集、RNA正反義鏈鑒定以及精確基因表達(dá)分析都有很重要的意義[50]。通過鏈特異性RNA測(cè)序技術(shù),人們將假基因與非編碼小RNA聯(lián)系在一起,通過測(cè)定非編碼小RNA的兩條鏈結(jié)構(gòu)方面與假基因的聯(lián)系并進(jìn)行分析,獲得了很多突破性的結(jié)論。目前,已確定的假基因功能表現(xiàn)為以下兩點(diǎn):
功能一:假基因通過產(chǎn)生siRNA影響親本基因的表達(dá)。假基因之所以能夠形成 siRNA,主要是因?yàn)槠渑c功能基因具有序列相似性。通過兩者互補(bǔ)配對(duì),雙鏈RNA能夠與 Argonaute蛋白結(jié)合,在 Dicer酶作用下產(chǎn)生雙鏈內(nèi)源 siRNA(圖2)[32-33,51-52],然后再在ATP的參與下,siRNA結(jié)合在 RISC (RNA-induced silencing complex)上,產(chǎn)生的復(fù)合物與靶標(biāo)基因編碼區(qū)或 UTR區(qū)配對(duì)進(jìn)而降解靶標(biāo)基因。利用此原理,人們首先以生物信息學(xué)方法找到假基因來源的siRNA,通過siRNA對(duì)靶基因作用過程中酶的敲除或抑制,然后利用實(shí)時(shí)定量 RCR檢測(cè)靶基因表達(dá)量的變化進(jìn)而間接挖掘假基因的調(diào)節(jié)作用。Tam等[32]不僅驗(yàn)證了假基因產(chǎn)生的內(nèi)源 siRNA能調(diào)節(jié)基因的表達(dá),而且描述了假基因衍生的siRNA作用的兩種方式:假基因-功能基因配對(duì)方式和假基因-假基因方式。前者功能基因作為形成 siRNA的正義鏈,反義鏈來自于與功能基因互補(bǔ)的假基因[32];后者通過重復(fù)片段的插入,形成發(fā)夾結(jié)構(gòu)進(jìn)而得到雙鏈siRNA。隨后,Guo等[53]提出假基因可以通過順式或反式作用產(chǎn)生小 RNA。其鑒定了145個(gè)能夠形成siRNA的假基因,其中大于一半為24 nt,siRNA的形成依賴于RNA聚合酶Rdr2以及類Dicer蛋白3 (Dcl3),表明小RNA可能會(huì)進(jìn)行順式作用抑制假基因本身的轉(zhuǎn)錄;反式作用則主要通過假基因產(chǎn)生小 RNA作為反義siRNA干擾親本功能基因。Wen等[54]對(duì)非洲布氏錐體蟲African Trypanosoma brucei的研究表明,假基因能夠產(chǎn)生siRNA,再通過RNA干擾作用對(duì)基因表達(dá)進(jìn)行抑制,同時(shí),抑制蟲體內(nèi)類Dicer蛋白 Tbdcl1產(chǎn)生過程中對(duì)應(yīng)酶的基因,通過實(shí)時(shí)定量 PCR方法檢測(cè)到靶基因表達(dá)量上升,從而確認(rèn)了假基因介導(dǎo)的 siRNA對(duì)靶基因的調(diào)控功能 (圖 2)。
圖2 假基因介導(dǎo)的內(nèi)源siRNAs (endo-siRNAs) 產(chǎn)生過程示意圖[32-33,51-52]Fig. 2 Pseudogene-derived endo-siRNAs formation process[32-33,51-52]. Pseudogenes could be formatted in two ways:duplication & retrotransposition. (A) The mRNA transcript of its parent gene and the antisense transcript from pseudogenes complemented with each other and formed the double-stranded small interfering RNA. (B)Single strand RNA was formed through retrotransposition. Hairpin structure was formed through its own complementation and the transcribed double strand mRNA formed 21 nt endo-siRNAs cut by Dicer, which degraded mRNA guided by the RISC complex.
功能二:假基因通過miRNA調(diào)控基因表達(dá)。MicroRNAs (miRNAs)是在真核生物中發(fā)現(xiàn)的一類內(nèi)源性的具有調(diào)控功能的非編碼 RNA,在動(dòng)植物所有的細(xì)胞過程和細(xì)胞類型當(dāng)中參與發(fā)育、細(xì)胞增殖和凋亡以及病毒防御等很多重要的調(diào)節(jié)途徑。miRNA通過與編碼序列互補(bǔ)或結(jié)合于目的基因的3′ UTR區(qū)從而減少目的蛋白的富集[55]。目前已進(jìn)行的研究中,假基因與 siRNA的研究較多,因?yàn)閟iRNA為雙鏈小干擾RNA,假基因作為其中一條鏈可以很好地解釋 siRNA行使功能的方式。但鑒于miRNA為單鏈,且產(chǎn)生及作用機(jī)制已經(jīng)被研究得較為透徹,針對(duì)miRNA與假基因之間關(guān)系的研究還較少。Megraw等[56]也認(rèn)為 miRNA和假基因之間沒有一個(gè)廣泛存在的聯(lián)系。然而,Poliseno等[30]研究了腫瘤抑制基因 pten的假基因 ptenp1與miRNA之間的關(guān)系,發(fā)現(xiàn)ptenp1的3′ UTR區(qū)有抑制腫瘤活性的作用,以pten為靶基因的miRNA同樣會(huì)將ptenp1作為靶基因,即一個(gè)基因的假基因與基因競(jìng)爭(zhēng)miRNA的結(jié)合。進(jìn)一步的研究表明pten與假基因ptenp1的3′ UTR區(qū)前2/3是相近的,其中S1部分完全一致,而miRNA以pten的 S1部分為靶位點(diǎn),故而同樣以 ptenp1的 S1部分進(jìn)行作用,即 miRNA同樣作用于 ptenp1(圖 3B,3C)。另外,由于 ptenp1保守性更差,一些miRNA僅以其作為靶基因,而完全不作用于pten。為了確定pten與ptenp1之間競(jìng)爭(zhēng)miRNA結(jié)合是否為特例,Poliseno等[30]還將研究擴(kuò)展到其他與癌癥相關(guān)的基因及假基因中。結(jié)果表明miRNA與功能基因及其假基因的結(jié)合位點(diǎn)非常保守:例如miR-145結(jié)合位點(diǎn)在oct4及其假基因oct4-pg1,oct4-pg3,oct 4-pg4以及 oct4-pg5(oct4-pg1和oct4-pg5僅僅在癌癥組織中表達(dá),正常組織中不表達(dá);oct4-pg5的5′端被截短,僅僅是跟著 3′ UTR的一小部分開放閱讀框表達(dá));miR-1家族結(jié)合于cx43及其假基因;miR-34家族結(jié)合在cdk4ps;miR-182結(jié)合于foxo3b;miR-17家族結(jié)合于e2f3p1以及miR-143和let-7家族結(jié)合于kras1p。而且根據(jù)pten與ptenp1的3′ UTR區(qū)類似,研究發(fā)現(xiàn)kras與假基因kras1p也有相似的關(guān)系,即kras1p 3′ UTR在DU145細(xì)胞中過表達(dá)會(huì)造成kras mRNA積累增加,換句話說,kras1p的增加會(huì)使得 miRNA與 kras的結(jié)合減弱。Poliseno等[30]將這一發(fā)現(xiàn)進(jìn)行了擴(kuò)展,認(rèn)為任何兩個(gè)共表達(dá)基因——分別命名為 g和 G,如果兩者同時(shí)被同一個(gè)非編碼RNA調(diào)控,那么g和G被稱為具有誘捕 (Decoys)關(guān)系;如果某一RNA對(duì)g豐度有直接影響,那么也會(huì)影響G的豐度。
圖3 假基因與功能基因競(jìng)爭(zhēng)miRNA結(jié)合位點(diǎn)[30]Fig. 3 Pseudogenes were targeted by parent gene-targeting miRNAs[30]. (A) Different from the usually thought that miRNA regulated the abundance of the target gene, mRNA competed for the binding site of miRNA and the amount of one kind of mRNA influenced the other[57]. (B)pten is protected from miRNA binding by ptenp1. (C)The 3′ UTR region of pten and ptenp1, which contained a highly conserved part (Dark grey)and one with low conservation (Light grey). For the dark grey part (S1), pten-targeting miRNA seed matches within the high homology region are conserved between ptenp1 and pten, miRNA bond ptenp1 to keep it from binding on pten, thus kept pten free from miRNA cleavage.
此發(fā)現(xiàn)通過比較miRNA作用靶基因位點(diǎn)處功能基因與假基因的結(jié)構(gòu),找到假基因與miRNA的關(guān)系。另外,根據(jù)目前所知,作用位點(diǎn)位于3′UTR的miRNA僅占一小部分,miRNA還可以作用于生物體的5′ UTR或編碼區(qū),類似的方法探究這些位置上功能基因與假基因的關(guān)系可能會(huì)獲得更多信息。相信此研究將作為后續(xù)研究的鋪墊,未來基于功能基因及其假基因上的miRNA靶位點(diǎn)為突破口尋找假基因與miRNA之間關(guān)系的研究將會(huì)越來越多。
通過競(jìng)爭(zhēng)性結(jié)合miRNA從而產(chǎn)生調(diào)節(jié)作用并不僅僅在上述基因中發(fā)生,此也不為假基因所特有。Fau等[58]首先在植物中提出了“target mimicry”的概念。通過對(duì)比 IPS1 (Induced by Phosphate Starvation1)和 PHO2 (Phosphate2)的mRNA,發(fā)現(xiàn)兩者同時(shí)具有與miR399序列互補(bǔ)的相似性非常高的片段,IPS1能夠通過結(jié)合miR399從而阻止其抑制PHO2 mRNA的積累和翻譯。Salmena等[59]擴(kuò)大了“target mimicry”的范圍,認(rèn)為在假基因、mRNA、長(zhǎng)鏈非編碼RNA(Long non-coding RNAs)以及其他能夠作為miRNA結(jié)合位點(diǎn)的 RNA分子中都有競(jìng)爭(zhēng)miRNA進(jìn)而對(duì)功能基因進(jìn)行調(diào)節(jié)的可能,改變了之前“蛋白編碼 mRNA必須通過翻譯成蛋白而發(fā)揮作用”的觀點(diǎn),并且將這類RNA命名為競(jìng)爭(zhēng)性內(nèi)源 RNAs (Competing endogenous RNAs,ceRNA)。隨后,人們對(duì) ceRNA 轉(zhuǎn)錄后水平的調(diào)節(jié)作用進(jìn)行了更深入的研究[60-63],例如Cesana等[60]證明了針對(duì)肌肉組織的長(zhǎng)鏈非編碼RNA,linc-MD1在肌肉差異表達(dá)過程中的重要作用。因此,ceRNA的機(jī)制從植物到人類都廣泛、保守地存在,假基因作為 ceRNA的一類,通過競(jìng)爭(zhēng)miRNA進(jìn)而對(duì)功能基因進(jìn)行調(diào)控的機(jī)制也應(yīng)廣泛存在于各物種中。
但與上述相反,Chiefari等[64]在對(duì)假基因hmga1-p 3′ UTR進(jìn)行功能研究時(shí),發(fā)現(xiàn)其對(duì)維持功能基因表達(dá)穩(wěn)定起很大作用。實(shí)驗(yàn)首先將 5′端缺少248 bp的區(qū)域 (與hmga1-p 5′ UTR區(qū)相關(guān))連接載體后瞬時(shí)轉(zhuǎn)染入 hela細(xì)胞中,發(fā)現(xiàn)hmga1 mRNA表達(dá)下降了50%。將hmga1-p全長(zhǎng)與載體連接后轉(zhuǎn)入細(xì)胞中,獲得了相類似的結(jié)果;相反,將 hmga1-p 3′端缺失1 276 bp (與 hmga1 3′ UTR相關(guān))的片段瞬時(shí)轉(zhuǎn)入細(xì)胞中發(fā)現(xiàn),hmga1表達(dá)幾乎沒有變化,從而得知hmga1-p 3′區(qū)域是影響 hmga1表達(dá)穩(wěn)定性的關(guān)鍵因素。之后,為了尋找 hmga1-p 3′ UTR影響功能基因hmga1 mRNA穩(wěn)定性的位置及方式,Chiefari將hmga1-p 3′ UTR進(jìn)行突變,通過實(shí)時(shí)定量PCR發(fā)現(xiàn):突變掉hmga1-p 3′ UTR 的291~1 026部分時(shí),hmga1的表達(dá)輕微上升;突變掉hmga1-p 3′UTR的1 253~1 276部分,hmga1的表達(dá)顯著下降;而突變掉hmga1-p 3′ UTR的3′末端152 bp片段后,發(fā)現(xiàn)hmga1的表達(dá)下降40%~50%,這個(gè)結(jié)果說明hmga1-p的RNA通過特定位置的反式調(diào)節(jié)方式對(duì)hmga1表達(dá)進(jìn)行調(diào)控。不僅如此,Chiefari等[64]還在生理方面做了實(shí)驗(yàn),以圖通過實(shí)驗(yàn)找到假基因調(diào)節(jié)的機(jī)制。其發(fā)現(xiàn)了1個(gè)影響mRNA穩(wěn)定性的蛋白αCP1。用siRNA抑制αCP1表達(dá)后,hmga1 mRNA表達(dá)下降。αCP1蛋白能夠影響RNA-蛋白結(jié)合活性,含有一組KH-保守域的RNA-保守域結(jié)合蛋白能夠特異性地結(jié)合于C富集區(qū),進(jìn)而控制 mRNA的穩(wěn)定性[65]。而hmga1-p 3′ UTR區(qū)富含 C,能夠競(jìng)爭(zhēng)性地結(jié)合αCP1蛋白從而使hmga1 mRNA表達(dá)。
3.2.3 組織特異性表達(dá)
假基因作為結(jié)構(gòu)具有缺陷的“不成功產(chǎn)物”,雖然轉(zhuǎn)錄過程與功能基因相同,但在轉(zhuǎn)錄結(jié)果及特點(diǎn)上存在區(qū)別。Zheng等[22]在研究假基因轉(zhuǎn)錄過程中,在編碼區(qū)域找到 14個(gè)能夠進(jìn)行轉(zhuǎn)錄的假基因,其中5個(gè)在睪丸中進(jìn)行表達(dá),另外4個(gè)被發(fā)現(xiàn)也表達(dá)于特定組織中。不僅如此,有時(shí)特定組織或條件下假基因比同源功能基因轉(zhuǎn)錄更為普遍。例如,肌球蛋白輕鏈激酶假基因mylkp1(Myosin light chain kinase pseudogene)部分復(fù)制于 mylk (編碼肌球蛋白輕鏈激酶 smooth muscle myosin light chain kinase亞型,smMLCK isoforms),mylkp1啟動(dòng)子在正常支氣管上皮細(xì)胞中幾乎沒有活性,但是卻在肺癌細(xì)胞中表現(xiàn)出了很高的活性,且在癌細(xì)胞中的過表達(dá)會(huì)抑制RNA穩(wěn)定性進(jìn)而抑制 smMLCK表達(dá),從而促使細(xì)胞分裂增加[66]。之所以假基因的表達(dá)具有組織特異性,是因?yàn)殡m然假基因與功能基因有很高的序列相似性,但作為“不成功產(chǎn)物”,在結(jié)構(gòu)上,尤其是啟動(dòng)子上有突變的位點(diǎn),在正常情況下可能造成假基因少量表達(dá)甚至不表達(dá),但是當(dāng)條件改變時(shí),例如癌癥等特定條件下的轉(zhuǎn)錄因子能夠彌補(bǔ)假基因喪失的功能。除了上述情況外,不同生理?xiàng)l件下假基因表達(dá)也可能產(chǎn)生特異的變化[64],例如當(dāng)酵母在新的脅迫環(huán)境下,假基因能夠在特殊信號(hào)的刺激下恢復(fù)活性[67]。擬南芥脅迫過程中,基因及假基因表達(dá)也會(huì)隨之發(fā)生變化[68]。
假基因相關(guān)的研究發(fā)展迅速,目前已發(fā)現(xiàn)參與生物生長(zhǎng)發(fā)育、調(diào)節(jié)生物與非生物脅迫等各個(gè)方面。然而,在對(duì)假基因功能研究的過程中,對(duì)同一假基因是否存在“功能性”卻提出了不同的觀點(diǎn)。例如,Hirotsune等[38]得出makorin1-p1基因具有“功能性”的結(jié)論。然而,Gray等[69]卻否定了上述基因的“功能性”觀點(diǎn):認(rèn)為之前歸功于makorin1-p1產(chǎn)生的轉(zhuǎn)錄子實(shí)際上是被忽視的從makorin1位點(diǎn)得到的mRNA亞型;且其同時(shí)證明了 makorin1-p1 5′區(qū)域位點(diǎn)完全假基化,不能進(jìn)行轉(zhuǎn)錄。相反的結(jié)論需要更加系統(tǒng)的分析和數(shù)據(jù)支持。相信隨著對(duì)基因組鑒定的不斷完善,未知基因逐漸減少,人們對(duì)于某一假基因特定功能的研究將具有更加確定的結(jié)論。
另外,針對(duì)假基因的功能大都是從假基因本身的單一層面進(jìn)行研究,而對(duì)整體假基因功能機(jī)制研究還較少。假基因-小RNA-靶基因之間是相互聯(lián)系密不可分的,假基因可以產(chǎn)生小 RNA,小RNA可以反過來抑制假基因表達(dá),或者抑制靶功能基因表達(dá);一個(gè)小RNA可以有較多靶基因,而單獨(dú)的一個(gè)基因又可以擁有很多不同調(diào)節(jié)方向的假基因,且一般來講,miRNA及 siRNA不會(huì)觸發(fā)次級(jí)siRNA產(chǎn)生,但目前卻證明22 nt的miRNA能夠觸發(fā)次級(jí)siRNA的合成[70]。人們對(duì)于研究生物體內(nèi)這種復(fù)雜的網(wǎng)狀情形還處于初級(jí)階段。通過生物信息學(xué)的方法結(jié)合現(xiàn)今對(duì)RNA-seq技術(shù)逐漸成熟的使用進(jìn)而挖掘參與調(diào)節(jié)途徑的假基因與小 RNA、靶基因以及形成假基因的親本基因之間的關(guān)系,并在不同的生物之間建立網(wǎng)絡(luò)結(jié)構(gòu)必將成為今后研究的熱點(diǎn)。對(duì)假基因的研究也應(yīng)從某個(gè)具體的性狀擴(kuò)展到細(xì)胞整體水平。
雖然假基因的調(diào)控功能主要發(fā)現(xiàn)于動(dòng)物以及人類中,但植物中的研究也逐漸發(fā)展起來。目前,水稻和擬南芥等植物全基因范圍內(nèi)假基因鑒定數(shù)據(jù)已經(jīng)發(fā)表,已有文獻(xiàn)報(bào)道DCL對(duì)siRNA發(fā)揮功能起關(guān)鍵作用:水稻中類Dicer4在siRNA作用過程中為關(guān)鍵因素[71];Qian等[72]對(duì)玉米中的5個(gè)Dicer、18個(gè)Ago以及5個(gè)依賴RNA的RNA聚合酶進(jìn)行全面的分析,發(fā)現(xiàn) Dcl包含有DExD、Helicase-C、DUF283、PAZ,RNaseIII以及dsRB保守的domain區(qū)域,不同DCL包含的保守區(qū)域有一些區(qū)別。我們可以在找到假基因產(chǎn)生小干擾RNA的基礎(chǔ)上,根據(jù)已知信息,通過抑制 siRNA起作用的關(guān)鍵因素,查看 siRNA靶基因的表達(dá)變化進(jìn)而間接得到假基因在植物體內(nèi)作用的證據(jù)。除此之外,在動(dòng)物中發(fā)現(xiàn)的假基因功能很可能在植物中有類似的情況,例如:ceRNA的發(fā)現(xiàn),早在2007年植物中就出現(xiàn)“target mimicry”的說法[58],而在這之后才在動(dòng)物的研究中提出ceRNA,假基因轉(zhuǎn)錄的產(chǎn)物作為ceRNA的一種,在動(dòng)物中的機(jī)制很可能會(huì)在植物中出現(xiàn)相類似的機(jī)制。另外,假基因的精確鑒定是研究其在生物體功能方面發(fā)揮作用的研究基礎(chǔ)。但目前為止,對(duì)假基因鑒定方法仍然需要將基因組DNA與蛋白序列比對(duì),去掉已知編碼序列的過程中會(huì)同時(shí)刪掉一些正在變成假基因過程中的“年輕假基因”,因?yàn)橐粋€(gè)造成ORF破壞的突變要經(jīng)歷上百萬年的時(shí)間才能變成穩(wěn)定的缺少選擇限制的基因,由于沒有充足的時(shí)間積累提前終止子或者移碼突變,這些“年輕假基因”就可能不被列入假基因名下造成數(shù)量被低估。同樣地,非常古老的假基因由于已經(jīng)沒有同源的蛋白編碼基因而不能被找到。因此,看似成熟的鑒定方法實(shí)際上丟掉了很多有用的信息。站在更廣的角度上,鑒定方法都依據(jù)于假基因的定義,定義中的關(guān)鍵就是“無功能”。但這個(gè)無功能幾乎在實(shí)驗(yàn)上不可能得到實(shí)踐,發(fā)掘“無功能”比“有功能”難很多[13]?,F(xiàn)在,越來越多的科研小組對(duì)所謂假基因在生物體內(nèi)基因調(diào)節(jié)的意義進(jìn)行發(fā)表[33],截止目前已經(jīng)有很大一部分非編碼序列,包括已注釋的假基因能夠產(chǎn)生轉(zhuǎn)錄子。另外還有研究稱假基因不通過轉(zhuǎn)錄可直接發(fā)揮功能[13],假基因的定義越來越難。稱呼一個(gè)有調(diào)節(jié)功能但無編碼功能的基因假基因還對(duì)嗎?其定義界限變得模糊。所以,隨著研究的進(jìn)步,很可能假基因這個(gè)名字會(huì)被賦予更多的含義,又或者將其中的一類分出并定義成為新的一類調(diào)控基因,但研究假基因無可爭(zhēng)議具有重大的意義。
[1]Jacq C, Miller J, Brownlee G. A pseudogene structure in 5S DNA of Xenopus laevis. Cell, 1977,12(1): 109?120.
[2]Yao A, Charlab R, Li P. Systematic identification of pseudogenes through whole genome expression evidence profiling. Nucleic Acids Res, 2006,34(16): 4477?4485.
[3]Molineris I, Sales G, Bianchi F, et al. A new approach for the identification of processed pseudogenes. J Comput Biol, 2010, 17(5):755?765.
[4]Zhang ZD, Frankish A, Hunt T, et al. Identification and analysis of unitary pseudogenes: historic and contemporary gene losses in humans and other primates. Genome Biol, 2010, 11(3): R26.
[5]Wen YZ, Zheng LL, Qu LH, et al. Pseudogenes are not pseudo any more. RNA Biol, 2012, 9(1):27?32.
[6]Fang J. The processed pseudogene POU5F1P1 in 8q24 is expressed in tumor and shows oncogenicity. Cancer Res, 2012, 72(8): S1.
[7]Kreahling J, Graveley BR. The origins and implications of Aluternative spicing. Trends Geneti, 2004, 20(1): 4?11.
[8]Yang L, Takuno S, Waters ER, et al.Lowly-expressed genes in Arabidopsis thaliana bear the signature of possible pseudogenization by promoter degradation. Mol Biol Evol, 2011, 28(3):1193?1203.
[9]Harrison PM, Hegyi H, Balasubramanian S, et al.Molecular fossils in the human genome:identification and analysis of the pseudogenes in chromosomes 21 and 22. Genome Res, 2002, 12(2):272–280.
[10]Petrov D, Lozovskaya E, Hartl D. High intrinsic rate of DNA loss in Drosophila. Nature, 1996, 384(6607): 346?349.
[11]Benovoy D, Drouin G. Processed pseudogenes,processed genes, and spontaneous mutations in the Arabidopsis genome. J Mol Evol, 2006, 62(5):511?522.
[12]Zou C, LehtiShiu MD, ThibaudNissen F, et al.Evolutionary and expression signatures of pseudogenes in arabidopsis and rice plant physiol.PLoS Genetics, 2009, 151(1): 3?15.
[13]Podlaha O, Zhang JZ. Pseudogenes and Their Evolution [EB/OL]. [2012-04-05]. Encyclopedia of Life Sciences, 2010, a0005118. http://onlinelibrary.wiley.com/doi/10.100219780470015902.a0005118.pubz/abstract.
[14]Balasubramanian S, Zheng D, Liu YJ, et al.Comparative analysis of processed ribosomal protein pseudogenes in four mammalian genomes.Genome Biol, 2009, 10(1): R2.
[15]Harrison P, Kumar A. A small reservoir of disabled orfs in the yeast genome and its implications for the dynamics of proteome evolution. J Mol Biol, 2002,316(3): 409?419.
[16]Zhang Z, Harrison PM, Liu Y, et al. Millions of years of evolution preserved: a comprehensive catalog of the processed pseudogenes in the human genome. Genome Res, 2003, 13(12): 2541?2558.
[17]Zhang Z, Gerstein M. Large-scale analysis of pseudogenes in the human genome. Curr Opin Genet Dev, 2004, 14(4): 328?335.
[18]Liu GQ, Li H. The correlation of processed pseudogene distribution with recombination rate and gene density in human genome. Acta Biophysica Sin, 2008, 24(5).
[19]Chen SM, Ma KY, Zeng J. Pseudogene: lessons from PCR bias, identification and resurrection. Mol Biol Rep, 2011, 38(6): 3709?3715.
[20]Altschul S, Madden T, Sch?ffer A, et al. Gapped BLAST and PSI-BLAST:a new generation of protein database search programs. Nucleic Acids Res, 1997, 25(17): 3389?3402.
[21]Zheng D, Gerstein MB. A computational approach for identifying pseudogenes in the ENCODE regions. Genome Biol, 2006, 7(1): S13.
[22]Zheng D, Gerstein MB, Frankish A. Pseudogenes in the ENCODE regions: consensus annotation,analysis of transcription, and evolution. Genome Res, 2007, 17(6): 839?851.
[23]Schwartz S, Kent WJ, Smit A, et al. Human-mouse alignments with BLASTZ. Genome Res, 2003, 13(1): 103?107.
[24]Pei B, Sisu C, Frankish A, et al. The GENCODE pseudogene resource. Genome Biol, 2012, 13:1465?6906.
[25]Graur D, Shuali Y, Li W. Deletions in processed pseudogenes accumulate faster in rodents than in humans. J Mol Evol, 1989, 28(4): 279?285.
[26]Li W, Gojobori T, Nei M. Pseudogenes as a paradigm of neutral evolution. Nature, 1981,292(5820): 237?239.
[27]Rothenfluh HS, Blanden RV, Steele EJ. Evolution of V genes: DNA sequence structure of functional germline genes and pseudogenes. Immunogenetics,1995, 42: 159?171.
[28]Frith MC, Wilming LG, Forrest A, et al.Pseudo-messenger RNA: phantoms of the transcriptome. PLOS Genetics, 2006, 2(4): e23.
[29]Korneev SA, Park J, O’Shea M. Neuronal expression of neural nitric oxide synthase (nNOS)protein is suppressed by an antisense RNA transcribed from an NOS pseudogene. J Neurosci,1999, 19(18): 7711?7720.
[30]Poliseno L, Salmena L, Zhang J, et al. A coding-independent function of gene and pseudogene mRNAs regulates tumour biology.Nature, 2010, 465(7301): 1033?1038.
[31]Pink RC, Wicks K, Caley DP, et al. Pseudogenes:pseudo-functional or key regulators in health and disease? RNA, 2011, 17(5): 792?798.
[32]Tam O, Aravin A, Stein P, et al.Pseudogene-derived small interfering RNAs regulate gene expression in mouse oocytes. Nature,2008, 453(7194): 534?538.
[33]Watanabe T, Totoki Y, Toyoda A, et al.Endogenous siRNAs from naturally formed dsRNAs regulate transcripts in mouse oocytes.Nature, 2008, 453(7194): 539?543.
[34]Begun DJ. Origin and evolution of a new gene descended from alcohol dehydrogenase in Drosophila. Genetics, 1997, 145(2): 375?382.
[35]Schiff C, Milili M, Fougereau M. Functional and pseudogenes are similarly organized and may equally contribute to the extensive antibody diversity of the IgVHII family. EMBO J, 1985,4(5): 1225?1230.
[36]Kuo C, Ochman H. The extinction dynamics of bacterial pseudogenes. PLoS Genetics, 2010,6(8):e1001050.
[37]Wicker T, Mayer KF, Gundlach H, et al. Frequent gene movement and pseudogene evolution is common to the large and complex genomes of wheat, barley, and their relatives. Plant Cell, 2011,23(5): 1706?1718.
[38]Hirotsune S, Yoshida N, Chen A, et al. An expressed pseudogene regulates the messenger-RNA stability of its homologous coding gene. Nature, 2003, 423(6935): 91?96.
[39]Goeddel DV, Leung DW, Dull TJ, et al. The structure of eight distinct cloned human leukocyte interferon cDNAs. Nature, 1981, 290(5801): 20?26.
[40]Fujii G, Morimoto A, Berson A, et al.Transcriptional analysis of the PTEN/MMAC1 pseudogene, psiPTEN. Oncogene, 1999, 18(9):1765?1769.
[41]Redshaw Z, Strain AJ. Human haematopoietic stem cells express Oct4 pseudogenes and lack the ability to initiate Oct4 promoter-driven gene expression. J Negat Results Biomed, 2010, 9(1): 2.
[42]Wang GL, Zhang GC, Li F, et al. The Expression of pseudogene HMGA1L2 in Thyroid Lesions.Hereditas(Beijing)2006, 28(11): 1365?1370.
[43]Harrison P, Zheng D, Zhang Z, et al. Transcribed processed pseudogenes in the human genome: an intermediate form of expressed retrosequence lacking protein-coding ability. Nucleic Acids Res,2005, 33(8): 2374?2383.
[44]Sultan M, Schulz MH, Richard H, et al. A global view of gene activity and alternative splicing by deep sequencing of the human transcriptome.Science, 2008, 321(5891): 956?960.
[45]Pastinen T. Genome-wide allele-specific analysis:insights into regulatory variation. Nat Rev Genet,2010, 11(8): 533?538.
[46]Li M, Wang IX, Li Y, et al. Widespread RNA and DNA sequence differences in the human transcriptome. Science, 2011, 333(6038): 53?58.
[47]Tonner P, Srinivasasainagendra V, Zhang S, et al.Detecting transcription of ribosomal protein pseudogenes in diverse human tissues from RNA-seq data. BMC Genomics, 2012, 13(1): 412.
[48]Shanker KS, Chandan KS, Sunita S, et al.Expressed pseudogenes in the transcriptional landscape of human cancers. Cell, 2012, 149(7):1622?1634.
[49]Yamada K, Lim J, Dale JM, et al. Empirical analysis of transcriptional activity in the Arabidopsis genome. Science, 2003, 302(5646):842?846.
[50]Zhong S, Joung JG, Zheng Y, et al.High-throughput illumina strand-specific RNA sequencing library preparation. Cold Spring Harb Protoc, 2011(8): 940?949.
[51]Okamura K, Chung W, Ruby J, et al. The Drosophila hairpin RNA pathway generates endogenous short interfering RNAs. Nature, 2008,453(7196): 803?806.
[52]Kawamura Y, Saito K, Kin T, et al. Drosophila endogenous small RNAs bind to Argonaute2 in somatic cells. Nature, 2008, 453(7196): 793?797.
[53]Guo X, Zhang Z, Gerstein MB, et al. Small RNAs originated from pseudogenes: cis- or trans-acting?PLoS Comput Biol, 2009, 5(7): e1000449.
[54]Wen YZ, Zheng LL, Liao JY, et al.Pseudogene-derived small interference RNAs regulate gene expression in African Trypanosoma brucei. Proc Natl Acad Sci USA, 2011, 108(20):8345?8350.
[55]Bartel DP. MicroRNAs: target recognition and regulatory functions. Cell, 2009, 136(2): 215?233.
[56]Megraw M, Sethupathy P, Corda B, et al. miRGen:a database for the study of animal microRNA genomic organization and function. Nucleic Acids Res, 2007, 35(Database issue): D149?155.
[57]Seitz H. Redefining microRNA targets. Curr Biol,2009, 19(10): 870?873.
[58]Fau F ZJ, Adrian V, Marco T, et al. Target mimicry provides a new mechanism for regulation of microRNA activity. Nat Genet, 2007, 39(8):1033?1037.
[59]Salmena L, Poliseno L, Tay Y, et al. A ceRNA hypothesis: the rosetta stone of a hidden RNA language? Cell, 2011, 146(3): 353?358.
[60]Cesana M, Cacchiarelli D, Legnini I, et al. A long noncoding RNA controls muscle differentiation by functioning as a competing endogenous RNA. Cell,2011, 147(2): 358?369.
[61]Karreth FA, Tay Y, Perna D, et al. In vivo identification of tumor-suppressive PTEN ceRNAs in an oncogenic BRAF-induced mouse model of melanoma. Cell, 2011, 147(2): 382?395.
[62]Tay Y, Kats L, Salmena L, et al.Coding-independent regulation of the tumor suppressor PTEN by competing endogenous mRNAs. Cell, 2011, 147(2): 344?357.
[63]Sumazin P, Yang X, Chiu HS, et al. An extensive microRNA-mediated network of RNA-RNA interactions regulates established oncogenic pathways in glioblastoma. Cell, 2011, 147(2):370?381.
[64]Chiefari E, Iiritano S, Paonessa F, et al.Pseudogene-mediated posttranscriptional silencing of HMGA1 can result in insulin resistance and type 2 diabetes. Nat Commun, 2010, 1: 40.
[65]Liebhaber SA. mRNA stability and the control of gene expression. Nucleic Acids Symp, 1997, 36:29?32.
[66]Han YJ, Ma SF, Yourek G, et al. A transcribed pseudogene of MYLK promotes cell proliferation.FASEB J, 2011, 25(7): 2305?2312.
[67]Gerstein M, Zheng D. The real life of pseudogenes.Sci Am, 2006, 295(2): 48?55.
[68]Zeller G, Henz SR, Widmer CK, et al.Stress-induced changes in the Arabidopsis thaliana transcriptome analyzed using whole-genome tiling arrays. Plant J, 2009, 58(6): 1068?1082.
[69]Gray TA, Wilson A, Fortin PJ, et al. The putatively functional Mkrn1-p1 pseudogene is neither expressed nor imprinted, nor does it regulate its source gene in trans. Proc Natl Acad Sci USA,2006, 103(32): 12039?12044.
[70]Chen HM, Chen LT, Patel K, et al. 22-Nucleotide RNAs trigger secondary siRNA biogenesis in plants. Proc Natl Acad Sci USA, 2010, 107(34):15269?15274.
[71]Liu B, Chen Z, Song X, et al. Oryza sativa dicer-like4 reveals a key role for small interfering RNA silencing in plant development. Plant Cell,2007, 19(9): 2705?2718.
[72]Qian Y, Cheng Y, Cheng X, et al. Identification and characterization of Dicer-like, Argonaute and RNA-dependent RNA polymerase gene families in maize. Plant Cell Rep, 2011, 30(7): 1347?1363.