孔進姣,石麗媛,王 鵬
鼠疫是嚴重危害人類健康的烈性傳染病,它通過媒介蚤造成鼠間的傳播,人類也會偶然被感染,在一定的條件下甚至可造成人間鼠疫的流行。鼠疫桿菌是引起鼠疫的病原體,是一種高毒力,高傳染性、高致病性的細菌性微生物,是由假結核耶爾森菌在3 300年前進化而來的[1]。在進化過程中鼠疫菌為了應對生態(tài)環(huán)境的優(yōu)勝劣汰不斷進行選擇性適應,從而導致了基因在生態(tài)位上的變異,形成了特征多樣性的鼠疫菌株[2]。目前我國存在12塊鼠疫自然疫源地,由于這些疫源地內的地理景觀和生態(tài)環(huán)境不同,使得疫源地內的鼠疫菌株在免疫原性、毒力、感受性、敏感性、流行病學特征方面存在較大差異,這將更加有利于菌株來源的分析。現(xiàn)在鼠疫仍是我國主要的公共衛(wèi)生問題之一,弄清鼠疫的來源及變異,是預防與控制鼠疫暴發(fā)流行的科學基礎,而單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP)是溯源的常用技術之一,了解其目前的研究現(xiàn)狀,將有助于疫情的監(jiān)測與防控。因此,本文對SNP的最新研究成果及其在鼠疫菌分型中的應用進行簡要的綜述。
SNP是指在基因組上由單個核苷酸的變異所引起的 DNA 序列的多態(tài)性。在細菌的基因組中,這種變異可能發(fā)生在編碼區(qū),分為同義SNP(sSNP)和非同義SNP(nSNP),sSNP不會引起所編碼氨基酸的改變,其多態(tài)性能客觀的反應細菌的進化情況,而nSNP不僅引起編碼氨基酸的改變,也引起編碼蛋白序列的改變,甚至可能使編碼氨基酸的密碼子轉變?yōu)榻K止密碼子,引起無義突變;也可能發(fā)生在非編碼區(qū),這個區(qū)域SNP數(shù)量眾多,但不會改變個體表型特征,卻能作為群體遺傳和進化研究的遺傳標記[3]。目前通過許多生物化學方法已經能確定個體的SNP,并且SNP因具有高分辨率和完整的數(shù)據(jù)信息,現(xiàn)在已經廣泛應用于金黃色葡萄球菌、炭疽芽孢桿菌、鼠疫耶爾森氏菌、肺炎衣原體和梅毒螺旋體等致病菌的群體遺傳的研究中[4-7]。近來由于SNP技術的成熟,數(shù)據(jù)信息日益增多,這也帶動了SNP數(shù)據(jù)庫的建立,現(xiàn)在國際上關于致病性細菌的SNP數(shù)據(jù)庫主要有Sujay、Chatto、padhyay等人建立的微生物變異組數(shù)據(jù)庫 (Microbial Variome Database),Geoffrey L、Winsor 等建立的假單胞菌屬基因組數(shù)據(jù)庫(Pseudomonas Genome Database),以及Broad研究中心開發(fā)的基因組分析工具包(Genome Analysis Toolkit,GATK)[8-9],這些數(shù)據(jù)庫的存在將推動SNP分析的進一步發(fā)展。
目前對細菌的分型技術主要有早期的表型分析、血清型分析、噬菌體分析和質粒分析以及基于基因水平的多位點可變數(shù)目串聯(lián)重復序列分析(MLVA)、差異片段分析(DFR)、成簇的規(guī)律間隔的短回文重復序列(CRISPRs)、DNA分析技術(RAPD)、插入序列周圍DNA多態(tài)性分析技術(ISCP)等多種方法[10]。生態(tài)分型能找到菌株的地理分布,揭示細菌與宿主和人的關系,但由于分辨率低不能發(fā)現(xiàn)菌株間的親緣關系及差異。血清型、噬菌體分析由于同質性較高,適用于血清型和噬菌體型較多的菌株,而質粒分析則通過質粒大小和含量的變異來進行分型,但通常無法區(qū)分親緣關系和地理區(qū)域較近的菌株。PFGE分辨率強、重復性好,但費用昂貴,需與其他分型技術聯(lián)合使用。MLVA方法操作簡便、成本低、分型能力較好,適用于在基層推廣,分型依賴于VNTR位點的選擇。CRISPRS位點多態(tài)性高,是細菌分型的理想靶標,分辨能力強,能反應一定的遺傳關系,但費用較高。RAPD適用于分析同科同屬甚至同種下的種型差異,無需特異的DNA信息,隨機性強,但可比性、可重復性較差。ISCP技術是一種快速、簡便、有效的分型方法,穩(wěn)定性好,但對于基因比較保守的菌,會使設計插入序列引物時比較困難[11]。
傳統(tǒng)的分型技術已經不能滿足疾病診斷和流行病學調查的需要,隨著分子分型技術的不斷更新發(fā)展,基于全基因組的單核苷酸多態(tài)性鑒定和構建最大似然樹,已成為研究種間及種下分型的的“金標準”[11]。與其他分型技術相比,他數(shù)量多、分布廣泛、遺傳穩(wěn)定,適用于快速、規(guī)?;Y查;等位基因頻率容易篩查,易于基因分型;可操作性和重復性容易受到選擇壓力、環(huán)境等因素的影響,適合于親緣關系較近的物種內微進化特性研究[12];可以對拷貝數(shù)非常低及降解的樣本進行分型。這些特性使SNP能夠應用于溯源、DNA分析、個體化用藥、復雜疾病的定位以及法醫(yī)工作等方面。當然,SNP對技術人員的專業(yè)要求較高,只能用于識別、發(fā)現(xiàn)基于全基因組的系統(tǒng)發(fā)育群。而要實現(xiàn)SNP分型的快速化,準確化和規(guī)?;?,首先要確保用于細菌分型的是序列的保守的基因或者是基因中序列的保守片段,其次,要保證聚合酶鏈式反應(PCR)的高保真性,這可以通過選擇高保真性的DNA聚合酶(如Pfu DNA Polymerase),提高退火溫度和純化模板來實現(xiàn);再次,確?;驕y序產物的準確性,目前已有研究發(fā)現(xiàn)當測序深度≥6X,等位基因比率在15%~85%的閾值范圍內,結合聚類分析,測序結果的準確性高達100%[13]。而鼠疫菌進化形成較晚、基因組較保守、進化時間短、遺傳較穩(wěn)定,SNP變異位點較少,因此SNP技術可以通過將散在病例尋找潛在聯(lián)系,及時發(fā)現(xiàn)疫情,對已確認的暴發(fā)疫情進行傳染源的追蹤,從而有效預防疫情的再次發(fā)生。
雖然SNP位點的發(fā)現(xiàn)高度依賴于全基因組的數(shù)據(jù),但是目前已使用簡單的PCR擴增和測序,多重luminex檢測、變性HPLC、MALDI-TOF質譜(MS)、溶解錯配擴增突變實驗(Melt-MAMA)、TapMan實時PCR、高分辨率溶解曲線(HRM)、等位基因特異寡核苷酸連接反應、質譜和變性高效液相色譜(DHPLC)等技術完成了SNP位點的篩選。其中多重PCR是早期分析常用的技術,多結合DHPLC等一起使用,TapMan實時PCR特別適用于需要高靈敏度的情況,多重luminex檢測基于luminex懸浮芯片技術和高密度SNP芯片技術[1,14]。
根據(jù)遺傳信息構建系統(tǒng)樹的方法主要有距離矩陣法、最大簡約法、最大似然法(ML)和貝葉斯法,其中常最用的是最大似然法,其與距離矩陣法相比,似然法試圖充分有效地利用所有資料而不是將資料簡縮為距離的集合,與簡約法的不同之處在于其進化概率模型采用了標準的統(tǒng)計方法[15]。
基于世界各地不同疫源地菌株的分子分型技術和全基因組測序的進展,Achtman[16]、Morelli[17-19]、Touchman[20]、Riehm[21]等人對CO92、KIM、91001、FV-1以及美國、馬達加斯加、蒙古等多個國家的鼠疫菌進行研究,確定了鼠疫耶爾森菌病原體的全球發(fā)育系統(tǒng),建立了包括1、2、0三個分支和0.PE1、0.PE2、0.PE3、0.PE4、1.ANT、1.ORI、2.ANT、2.MED,8個主要種群的遺傳進化樹,估計出每個分支的進化時間,確定了古典型菌株主要由1.ANT和2.ANT兩個種群組成,并推斷出美國菌株起源于中國并經遠洋擴散到美國。崔玉軍[22]、李艷君[23]、王娜[24]、朱鵬[25]等人也先后利用不同方法把國內不同疫源地的鼠疫菌分為12個型,12個SNP型又分屬于分支1(東方型菌株)、分支2(中世紀型菌株)和分支0(田鼠型菌株)三大分支,古典型菌株則分散于三個分支內,并發(fā)現(xiàn)了我國菌株具有明顯的地理區(qū)域性和生態(tài)集聚性特征,證實了基因組具有高度的多態(tài)性,構建了中國鼠疫菌遺傳進化圖,建立了一種快速高通量的檢測鼠疫菌的技術,這不僅為鼠疫的地理定位提供了理論支持,也為疫情的監(jiān)測及診斷提供了技術支持。
2013年Cui等人[26-27]首次使用基于全基因技術的SNP分析,對來自亞洲、非洲、歐洲和美洲的133株鼠疫菌以及28個EV-76的SNP進行了鑒定,證實了第一次鼠疫大流行的時間點與安哥拉菌株的分化時間點高度吻合;第二次鼠疫大流行與當下鼠疫菌的分支形成息息相關;絲綢之路、唐蕃古道和茶馬古道對鼠疫的傳播發(fā)揮了極其重要的作用。并通過分子鐘分析得出SNP的固定率在系統(tǒng)發(fā)育過程中存在較大差異的結論。這次研究譜寫了鼠疫菌間的進化關系史,描繪了中國鼠疫間的傳播途徑和進化關系,明確了不同分支的鼠疫菌的SNP變異累計速率差異較大,重建了疫苗菌株的譜系的傳播史。2015年郭辰儀等[28]從烏蘇地區(qū)菌株鑒定出166個SNP 位點,并把所有菌株定位于0.ANT1分支中。此研究還發(fā)現(xiàn)了12個變異熱區(qū),而最明顯的熱區(qū)均位于rpoz編碼基因,基因總長276bp。此次研究推論出rpoz基因可能與環(huán)境適應性密切相關,是增強鼠疫流行強度的一個生物因素,這在鼠疫的預防控制環(huán)節(jié)中起到了至關重要的作用。
2016年Seifert等[29]對德國出土的5具鼠疫菌陽性的人的骸骨進行SNP分型發(fā)現(xiàn)s12、s1431、s1195三個異常位點,證實了在德國500公里的范圍內長期存在一種獨特的基因型。2017年Galina等人[30]首次把吉爾吉斯斯坦3個高山疫源地的菌株定位于0.ANT2、0.ANT3、0.ANT5分支,并發(fā)現(xiàn)該地所有高致病性菌株的祖先起源于天山山脈。Mitchell等[31]以馬達加斯加菌株為試點研究了一種agarose-MAMA PCR的分型方法,這種方法的實現(xiàn)增強了發(fā)展中國家實驗室基于單核苷酸多態(tài)性的基因分型能力。2018年Zhgenti等[32]利用SNP芯片對格魯?shù)貐^(qū)和高加索地區(qū)的12株菌進行了分析,不僅證實了該方法具有高通量及較好的重現(xiàn)性,也證實了高加索地區(qū)存在兩個獨立的、距離較遠的發(fā)育群。Kutyrev等[33]對獨立國家聯(lián)合體27個疫源地的158株菌的種群結構進行研究,建立了鼠疫菌高加索(0.PE2)、安哥拉(0.PE3)、中亞(0.PE4)、提貝提卡(0.PE7)、烏列蓋卡(0.PE5)和青???0.PE10)7中種群分類亞型。這些研究豐富了鼠疫的發(fā)育系統(tǒng),為鼠疫的快速溯源提供理論依據(jù)。
截止2019年4月3日為止,國際上公布的(NCBI數(shù)據(jù)庫)已完成全基因測序的鼠疫菌有378株。標準株CO92的基因大小為4.82986MB,GC%含量為47.6065,KIM的基因大小為4.70174,GC%含量為47.6558,91001的基因大小為4.80322,GC%含量為47.7169。這3株菌的基因序列是研究其他鼠疫菌的比對序列國內的菌株主要與CO92進行比對,獲得特有基因組和泛基因組,確定突變位點,通過聚類分析,構建系統(tǒng)發(fā)育樹,從而實現(xiàn)鼠疫菌的溯源的研究。
SNP位點的突變通常是由于堿基的轉換和顛換所引起的,其中轉換指腺嘌呤A和鳥嘌呤G或胸腺嘧啶T和胞嘧啶C之間的置換,顛換指嘌呤與嘧啶間的置換。一般基因序列中具有眾多的SNP位點,從多位點中找出變異位點是進行SNP分析的關鍵。前人研究發(fā)現(xiàn)S1-S14位點突變僅存在于古典型及東方型菌株中,S15-S19位點突變僅存在中世紀型及古典型菌株中,S20-S25位點突變僅存在中世紀型菌株中,S126位點的突變僅在古典型菌株中發(fā)現(xiàn),而田鼠型菌株均不出現(xiàn)S1-S126位點的突變情況。表1列出了前期研究發(fā)現(xiàn)的特異性SNP位點及其位點上突變的堿基[22-25],從中可以看出突變多發(fā)生在堿基T上,占了45.78%(38/83),其次是A 27.71%(23/83),G和C分別占了14.46%(12/83)、12.05%(10/83),這些數(shù)據(jù)顯示發(fā)生在嘌呤之間的突變遠高于嘧啶之間,這可能成為研究鼠疫暴發(fā)流行的的一個關鍵節(jié)點。
表1 特異的SNP位點及鼠疫菌變異位點的堿基狀態(tài)
Tab.1 Base state of specific SNP sites andyersiniapestismutation sites
SNP位點SNP位點類型SNP位點SNP位點類型SNP位點SNP位點類型SNP位點SNP位點類型S1T/CS17T/TS82TS240GS2A/GS18AS83TS360TS3T/CS19A/TS84TS391TS4A/CS20TS85G/TS402TS5AS21C/AS86C/TS488TS6G/AS22AS87T/GS812TS7C/TS23TS88CS2230GS8A/TS24TS89TS2251TS9TS25A/TS90TS2381TS10C/TS29AS91AS2437AS11AS30AS92AS2778AS12T/AS31G/AS93AS3006GS13TS34GS126AS3383TS14GS36AS177CS2920CS15T/GS80T/GS234TS3104TS16A/TS81TS236T
根據(jù)進化領域目前最新的研究結果顯示[26],中國鼠疫菌可分為 5 大種系(0、1、2、3、4)26譜系,其中分支0多為古典型和田鼠型的菌株,包括0.ANT1、0.ANT2、0.ANT3、0.PE2、0.PE3、0.PE4A、0.PE4B、0.PE4C、0.PE7,10個分支;分支1多為古典型和東方型的菌株,包括1.IN1、1.IN2、1.IN3、1.ANT、1.ORI1、1.ORI2、1.ORI3、Ancient genomes,8個分支;分支2多為中世紀型和古典型的菌株,包括2.ANT1、2.ANT2、2.ANT3、2.MED1、2.MED2、2.MED3,6個分支;3和4分支包括3.ANT1、3.ANT2和4.ANT1,3個分支。其中可以公開獲得菌株的基因組的分支有0.PE2、0.PE3、0.PE4B、1.ORI1、1.ORI2、1.ORI3、1.ANT、2.ANT1、2.ANT3、2.MED1。其中鼠疫菌的共同祖先假結核菌均位于0分支上,而最古老的鼠疫菌種群0.PE7,僅在青藏高原被分離出,經鑒定發(fā)現(xiàn)除了0.PE4 之外,所有已知的譜系均可以致病。結合地理情況來看,青藏高原附近聚集了4個種系的菌株,由此向外延伸,東北部和西北部主要是2及0,西南主要是1和2,南部主要是1,而3和4主要存在于北部地區(qū)[25]。近年來已經把研究的重點定位于基因組的遺傳多樣性,而SNP數(shù)量較多,在所有分型中具有最高的分辨率,尤其現(xiàn)階段處于二代測序技術普及,三代測序技術廣泛應用的時期,基于全基因序列來開展SNP位點的研究已經越來越多,其在鼠疫的系統(tǒng)發(fā)育研究中已經占據(jù)了無以取代的地位。
利益沖突:無