付春鵬
(山東省濰坊科技學(xué)院 壽光 262700)
自人類(lèi)基因組計(jì)劃完成以來(lái),科學(xué)家相繼完成了多個(gè)生物基因組的測(cè)序工作,龐大的數(shù)據(jù)讓科學(xué)家對(duì)基因組有了全面的認(rèn)識(shí)。研究表明,人類(lèi)的基因組大約有30多億個(gè)堿基對(duì),而其中僅有不到2%的DNA序列編碼蛋白質(zhì),其余98%以上的序列則一度被認(rèn)為是近中性選擇條件下的進(jìn)化過(guò)程產(chǎn)生的、沒(méi)有功能的“垃圾序列”。近年發(fā)現(xiàn)這些所謂的“垃圾序列”并不是“一無(wú)是處”,假基因(pseudogene)就是其中之一。相關(guān)研究證實(shí),有些假基因不但能夠轉(zhuǎn)錄生成RNA,進(jìn)一步翻譯生成蛋白質(zhì),而且還在多個(gè)水平調(diào)控基因表達(dá),進(jìn)而參與有機(jī)體的多個(gè)生理、生化過(guò)程。假基因已成為生命科學(xué)研究的熱點(diǎn)領(lǐng)域之一。
1.1 假基因的發(fā)現(xiàn) 假基因是指具有與功能基因相似的序列,但由于發(fā)生眾多突變導(dǎo)致其失去了原有的功能的DNA序列。1977年,Jacq等[1]在非洲爪蟾基因組中克隆到1個(gè)與5srRNA相類(lèi)似的基因序列。通過(guò)與5srRNA基因比對(duì)后發(fā)現(xiàn),該基因在5′端存在16bp的缺失和14bp的錯(cuò)配,而在非洲爪蟾體內(nèi)沒(méi)有檢測(cè)到該基因的mRNA序列,表明它沒(méi)有表達(dá)活性,于是就將這個(gè)5srRNA的同源物描述為假基因。隨著基因組測(cè)序技術(shù)的發(fā)展,大量不同家族的假基因被陸續(xù)發(fā)現(xiàn),假基因也被定義為功能基因有缺陷的拷貝[2]。
1.2 假基因的產(chǎn)生機(jī)制 假基因主要通過(guò)兩種途徑產(chǎn)生: ①細(xì)胞在分裂之前復(fù)制整個(gè)基因組時(shí),DNA復(fù)制或染色體聯(lián)會(huì)交換過(guò)程中功能基因的編碼區(qū)或調(diào)控區(qū)發(fā)生的各種突變(堿基的插入、缺失、置換或移碼),均會(huì)導(dǎo)致復(fù)制后的基因無(wú)法進(jìn)行編碼,從而喪失正常功能而成為假基因,這種假基因稱(chēng)為重復(fù)假基因[3];②DNA轉(zhuǎn)錄為mRNA后再逆轉(zhuǎn)錄為cDNA并重新整合進(jìn)入基因組(很可能發(fā)生在生殖細(xì)胞中),在此過(guò)程中因?yàn)椴迦胛稽c(diǎn)不合適或序列發(fā)生突變而失去正常功能,這樣形成的假基因稱(chēng)為加工假基因或返座假基因[4]。
1.3 假基因的鑒定 由于假基因與親本基因存在高度的序列相似性,所以正確區(qū)分假基因和親本基因就成為假基因研究的關(guān)鍵環(huán)節(jié)。這方面最早的工作是通過(guò)計(jì)算核酸的非同義替換與同義替換的比率(Dn/Ds)來(lái)識(shí)別假基因的[5]。理論上分析,由于假基因不編碼蛋白質(zhì),不受正選擇或者純化選擇影響,所以推測(cè)在近中性選擇條件下假基因的Dn/Ds值應(yīng)該等于或接近1。通過(guò)該方法已經(jīng)在多個(gè)物種中鑒別出眾多假基因,例如在人類(lèi)基因組序列中就發(fā)現(xiàn)了8000個(gè)假基因。隨著測(cè)序技術(shù)發(fā)展,大量假基因的鑒定逐漸變得主要由生物信息學(xué)來(lái)完成,PseudoPipe、 RetroFinder和PseudoFinder是3種常用的分析軟件[6],但它們都需要物種的基因組、轉(zhuǎn)錄組以及蛋白組信息,因此上述軟件不適用于非模式生物的假基因鑒定。鑒于此,Molineris等[7]提出適用于多數(shù)物種的假基因鑒定方法——REGEXP。REGEXP方法的流程為: 將編碼基因和假基因進(jìn)行比對(duì)從而找到高匹配對(duì)(high score pairs, HSPs),進(jìn)而尋找HSPs附近的基因簇。由于加工假基因僅含有原始基因外顯子,且假基因?qū)?yīng)的HSPs互相非常接近,故正常功能基因所對(duì)應(yīng)的HSPs反而被內(nèi)含子分割。據(jù)此建立數(shù)據(jù)庫(kù),并與Ensemble、 VEGA以及Pseudogene.org等假基因數(shù)據(jù)比對(duì),最終確定假基因[8]。
1.4 假基因的作用機(jī)制 假基因的作用序列具有專(zhuān)一性,只影響與假基因本身相似的一些序列。由假基因介導(dǎo)的調(diào)控機(jī)制主要發(fā)生于轉(zhuǎn)錄水平和轉(zhuǎn)錄后水平。
1.4.1 轉(zhuǎn)錄水平的調(diào)控機(jī)理 當(dāng)mRNA逆轉(zhuǎn)錄生成加工假基因時(shí),沒(méi)有正常編碼功能的加工假基因整合到基因組中作為一個(gè)新位點(diǎn),并與其親本基因相互作用而調(diào)控細(xì)胞的不同生化過(guò)程。高遷移率族蛋白A1(high mobility group protein A1, HMGA1)是基因激活的特定輔助因子,與腫瘤和糖尿病的發(fā)生密切相關(guān)。其假基因HMGA1-P的轉(zhuǎn)錄物可降解功能基因HMGA1的轉(zhuǎn)錄物,原因在于HMGA1-P的轉(zhuǎn)錄物和親本基因HMGA1的轉(zhuǎn)錄本在3′非翻譯區(qū)上共同分享一個(gè)重要的轉(zhuǎn)錄調(diào)控元件[9]。
1.4.2 轉(zhuǎn)錄后水平的調(diào)控機(jī)理 假基因的轉(zhuǎn)錄物可通過(guò)作為親本基因的反義RNA、競(jìng)爭(zhēng)性結(jié)合親本基因的微小RNA(microRNA, miRNA)和產(chǎn)生內(nèi)源性小干擾RNA(small interfering RNA, siRNA)來(lái)降解親本基因等幾種方式在轉(zhuǎn)錄后水平調(diào)控親本基因的表達(dá)。其中siRNA的生成機(jī)制研究較為透徹: 假基因主要通過(guò)假基因—親本基因以及假基因—假基因兩種配對(duì)方法來(lái)產(chǎn)生相關(guān)的siRNA。前一種配對(duì)中的親本基因作為產(chǎn)生siRNA的正義鏈,反義鏈則來(lái)自于互補(bǔ)的假基因片段;后一種配對(duì)情況則通過(guò)插入重復(fù)片段形成發(fā)夾結(jié)構(gòu)而生成siRNA。
2.1 基因表達(dá) 人們起初認(rèn)為假基因不具有編碼蛋白質(zhì)功能,但是近年來(lái)相關(guān)研究表明某些假基因可以編碼比親本功能基因稍短的蛋白質(zhì)。例如,磷酸甘油酸變位酶3基因(phosphoglycerate mutase family 3,PGAM3)是第一個(gè)被發(fā)現(xiàn)的具有編碼能力的假基因[10];2個(gè)含膿素結(jié)構(gòu)域的NLR家族假基因(NLR family, pyrin domain containing 2 pseudogene,NLRP2P)是高等靈長(zhǎng)目特有的加工型假基因;最近人們發(fā)現(xiàn)其具有與親本基因膿素蛋白基因(pyrin-only protein 2,POP2)類(lèi)似的功能。NLRP2P具有完整的開(kāi)放閱讀框,編碼45個(gè)氨基酸,這些氨基酸可以形成類(lèi)似的膿素結(jié)構(gòu)域(pyrin-domain)。而且NLRP2P的編碼區(qū)與功能基因POP2相似度達(dá)80%以上。進(jìn)一步的研究表明,該假基因具有調(diào)控細(xì)胞因子生成、細(xì)胞周期和細(xì)胞死亡的功能[11]。上述結(jié)果表明,假基因并非沒(méi)有編碼能力,有些假基因在選擇壓力的作用下日趨進(jìn)化,逐漸地具備了各種各樣的功能。因此現(xiàn)在的觀點(diǎn)傾向于認(rèn)為: 假基因是生物體的基因貯備庫(kù)。
2.2 調(diào)控基因表達(dá) 假基因?qū)虮磉_(dá)調(diào)控主要通過(guò)反義鏈、siRNA和miRNA等幾種方式來(lái)進(jìn)行。例如,Korneev等[12]在蝸牛中發(fā)現(xiàn)一氧化氮合酶的假基因(nitric oxide synthase, NOS)轉(zhuǎn)錄本,能作為反義RNA與親本基因的轉(zhuǎn)錄本形成RNA雙鏈,在蝸牛記憶形成的關(guān)鍵時(shí)期抑制一氧化氮合成。此結(jié)果說(shuō)明假基因轉(zhuǎn)錄的反義RNA在細(xì)胞中的重要作用。同源性磷酸酶張力蛋白基因(phosphatase and tensin homolog,PTEN)是迄今發(fā)現(xiàn)的第一個(gè)具有磷酸酶活性的抑癌基因,維持細(xì)胞內(nèi)正常的PTEN蛋白水平可以夠抑制腫瘤的發(fā)生。其假基因PTENP1的3′端非編碼區(qū)序列與PTEN高度相似,PTENP1假基因競(jìng)爭(zhēng)性結(jié)合miRNA,導(dǎo)致細(xì)胞內(nèi)miRNA的濃度降低,致使PTEN逃離miRNA介導(dǎo)的抑制作用,從而調(diào)控腫瘤的發(fā)生[13]。
2.3 基因重排 動(dòng)物體存在多種免疫球蛋白,而基因重排是產(chǎn)生免疫球蛋白多樣化的主要機(jī)制?;蛑嘏艡C(jī)制首先在雞中被發(fā)現(xiàn),雞免疫球蛋白重鏈和輕鏈的可變區(qū)(V區(qū))基因上游存在大量的假基因,這些假基因插入并置換重排V區(qū)的同源序列,從而使免疫球蛋白呈現(xiàn)多樣化[14]。類(lèi)似的功能基因和假基因間的基因重排導(dǎo)致的抗體多樣性例子在其他脊椎動(dòng)物中都能發(fā)現(xiàn)。
2.4 標(biāo)記物種親緣關(guān)系和進(jìn)化距離 細(xì)胞核線粒體假基因(nuclear mitochondrial pseudogenes,Numts)是線粒體DNA轉(zhuǎn)移到核DNA中的片段,是研究細(xì)胞核內(nèi)外兩套遺傳物質(zhì)的橋梁。因?yàn)镹umts的進(jìn)化速率慢于線粒體基因,常被看做是線粒體DNA的“分子化石”,可以根據(jù)Numts中保留的原始基因信息確定物種之間的親緣關(guān)系和進(jìn)化距離。例如,在人類(lèi)起源問(wèn)題上,Zischler等[15]使用核基因組中的一段D-loop區(qū)的Numts序列作為外群,證實(shí)了現(xiàn)代人類(lèi)起源于非洲的假說(shuō),結(jié)束了很久以來(lái)關(guān)于現(xiàn)代人類(lèi)起源地的爭(zhēng)論。
長(zhǎng)期以來(lái)一直認(rèn)為假基因是看似正常、卻沒(méi)有功能的“死亡基因”,是基因組進(jìn)化歷程中的“化石記錄”,然而事實(shí)卻遠(yuǎn)非如此。如上所述,假基因在基因表達(dá)、基因調(diào)控、產(chǎn)生基因多樣性等方面都扮演著極為重要的角色。因此,人們重新定義了假基因的概念: 即假基因是指源于功能基因,卻不能夠表達(dá)相同類(lèi)型產(chǎn)物(如蛋白質(zhì)、tRNA及rRNA等)的基因組序列[16]。
生物體猶如一架精密的儀器,每個(gè)生化反應(yīng)都要經(jīng)歷嚴(yán)謹(jǐn)而復(fù)雜的調(diào)控過(guò)程。在生物進(jìn)化的歷程中,細(xì)胞基因組中大約有98%的“垃圾序列”會(huì)被“束之高閣”嗎?答案顯然是否定的,而物盡其用應(yīng)是其更合理的解釋。例如,當(dāng)下受到研究者廣泛關(guān)注的長(zhǎng)鏈非編碼RNA(long non-coding RNA, lncRNA)就是所謂的“垃圾序列”的一部分,原先被認(rèn)為是轉(zhuǎn)錄過(guò)程中產(chǎn)生的“噪音”,現(xiàn)在被證明在生物體中發(fā)揮著重要的生物學(xué)功能。假基因也不例外,相信在不久的將來(lái),隨著分子生物學(xué)技術(shù)的發(fā)展,科研人員必定對(duì)假基因有一個(gè)全面正確的認(rèn)識(shí),還假基因本來(lái)之真面目。