李 敏, 張丹麗, 李榮榮, 雷 廷, 宋鮮梅, 卜文俊
(1.太原師范學(xué)院生物系, 山西晉中 030619; 2.南開大學(xué)生命科學(xué)學(xué)院昆蟲學(xué)研究所, 天津 300071)
隨著轉(zhuǎn)錄組測序技術(shù)的發(fā)展,對蝽類昆蟲轉(zhuǎn)錄組測序越來越多,截止2021年1月,美國國家生物技術(shù)信息中心(NCBI)創(chuàng)建和維護(hù)的TSA(Transcriptome Shotgun Assembly)數(shù)據(jù)庫收錄了105種蝽類昆蟲的轉(zhuǎn)錄組數(shù)據(jù),主要來自于陸生吸血和植食性種類,如長紅獵蝽Rhodniusprolixus、騷擾錐獵蝽Triatomainfestans、吸血錐獵蝽Triatomadimidiata、溫帶臭蟲Cimexlectularius、茶翅蝽Halyomorphahalys、豆莢草盲蝽Lygushesperus、美國牧草盲蝽Lyguslineolaris、稻綠蝽Nezaraviridula、南瓜緣蝽Anasatristis等。對于其基因功能的挖掘,也主要集中于這些種類。Nevoa等(2018)利用高通量測序技術(shù)組裝并描述了獵蝽科的錐蝽屬Panstrongyluslignarius的唾液腺和脂肪體轉(zhuǎn)錄組產(chǎn)生的編碼序列,發(fā)現(xiàn)在唾液腺的蛋白質(zhì)家族中,脂鈣素是最豐富的;脂肪體轉(zhuǎn)錄組顯示了與代謝功能相關(guān)的蛋白質(zhì),提高了對血食性獵蝽的唾液腺和脂肪體功能的認(rèn)識,并發(fā)現(xiàn)了在病媒和脊椎動物宿主之間相互作用中的重要分子。Denecke等(2020)以稻綠蝽N.viridula中腸為研究對象,利用轉(zhuǎn)錄組學(xué)和蛋白質(zhì)組學(xué)的方法,建立了中腸4個(gè)部分的表達(dá)圖譜,表明中腸前段(M1-M3區(qū)域)在消化和異種生物代謝中發(fā)揮作用,而中腸最后段(M4區(qū)域)富含跨膜蛋白,為后續(xù)研究稻綠蝽的中腸分子生理奠定了基礎(chǔ)。對于水生、捕食性蝽類,目前只檢索到TSA數(shù)據(jù)庫中有絨盾大仰蝽N.glauca轉(zhuǎn)錄組測序數(shù)據(jù),但是并未有詳細(xì)的文獻(xiàn)報(bào)道。
同源異型基因(homeotic genes)是調(diào)控生物體型生長發(fā)育的一類基因家族,該基因家族因含有一段長約180 bp高度保守的DNA序列,即同源異型盒(homeobox),也稱為Hox基因。Hox基因在真核生物中廣泛存在,通常成簇分布,在胚胎發(fā)育中對于體節(jié)和組織特征的決定以及器官的形成具有重要的調(diào)控作用(Erikssonetal., 2010; Feiner and Wood, 2019)。Hox基因最早在果蠅中發(fā)現(xiàn),分為ANTP-C(antennapediacomplex)基因簇和BX-C(bithoraxcomplex)基因簇兩大類,ANTP-C基因簇包括labial(lab),proboscipedia(pb),Deformed(Dfd),Sexcombsreduced(Scr),Antennapedia(Antp);BX-C基因簇包括Ultrabithorax(Ubx),abdominal-A(abd-A)和abdominal-B(abd-B)等基因(McGinnis and Krumlauf, 1992; Gehringetal., 2009)。
本研究擬采用高通量測序技術(shù)對中華大仰蝽進(jìn)行轉(zhuǎn)錄組測序,建立中華大仰蝽轉(zhuǎn)錄組數(shù)據(jù),并通過本地ncbi-blast-2.1軟件對其Hox基因進(jìn)行鑒定,為進(jìn)一步研究其捕食行為及仰泳仿生學(xué)機(jī)制提供分子生物學(xué)依據(jù);利用軟件MISA(Beieretal., 2017)基于中華大仰蝽轉(zhuǎn)錄組unigenes進(jìn)行SSR新標(biāo)記挖掘和篩選,通過毛細(xì)管電泳進(jìn)行多態(tài)性檢測,為后期研究中華大仰蝽遺傳多態(tài)性及基因圖譜構(gòu)建提供一種方便而快捷的途徑,同時(shí)推動中華大仰蝽種質(zhì)資源的保護(hù)。
本研究試蟲中華大仰蝽采自山西省太原市尖草坪區(qū)上蘭村水文站(38°0′11″N, 112°26′28″E),去掉腹部后置于RNAlater(索萊寶Solarbio)樣本保存液中,帶回實(shí)驗(yàn)室放-80℃低溫冰箱保存。中華大仰蝽地理種群信息見表1。
表1 中華大仰蝽地理種群樣本信息
用Trizol法提取中華大仰蝽的總RNA,總RNA質(zhì)量以紫外分光光度計(jì)和瓊脂糖凝膠電泳檢測。樣品檢測合格后合成cDNA第1鏈,隨后加入dNTPs、DNA Polymerase I、RNaseH和緩沖液合成cDNA第2鏈,并純化雙鏈cDNA。純化的雙鏈cDNA,先進(jìn)行末端修復(fù),加A尾并連接相應(yīng)的測序接頭,再用AMPureXP beads選擇其片段大小,最后通過橋式PCR擴(kuò)增,富集得到cDNA文庫。文庫構(gòu)建完成后,使用Agilent 2100對文庫質(zhì)量進(jìn)行評估,文庫檢測合格后采用第2代測序技術(shù),基于Illumina NextSeq500測序平臺,對文庫進(jìn)行雙末端測序。
對中華大仰蝽轉(zhuǎn)錄組測序得到原始序列(raw reads),通過接頭污染去除和質(zhì)量過濾獲得clean reads。同時(shí)計(jì)算Q20(堿基識別準(zhǔn)確率在99%以上的堿基所占百分比),Q30(堿基識別準(zhǔn)確率在99.9%以上的堿基所占百分比)和GC含量?;贒BG(De Bruijn Graph)拼接原理,使用Trinity v2.0.2軟件(k-mer 25 bp)對高質(zhì)量序列(clean reads)進(jìn)行拼接,獲得轉(zhuǎn)錄本序列。
將Trinity v2.0.2拼接得到的每一條transcript與參考nr數(shù)據(jù)庫進(jìn)行blastx比對(E-value<1e-5)。將比對至相同GI號的transcript歸為同一unigene。對聚類得到的unigenes比對nr, NCBI, Swiss-Prot, GO, eggNOG和KEGG數(shù)據(jù)庫進(jìn)行基因功能注釋。
通過NCBI(http:∥www.ncbi.nlm.nih.gov/)的Protein數(shù)據(jù)庫下載黑腹果蠅Drosophilamelanogaster的Hox基因家族序列,利用本地軟件ncbi-blast-2.11.0中makeblastdb程序建立黑腹果蠅Hox蛋白序列參考數(shù)據(jù)庫。以中華大仰蝽轉(zhuǎn)錄組unigenes為查詢序列,利用ncbi-blast-2.11.0中blastx程序與所建本地參考數(shù)據(jù)庫進(jìn)行比對(E-value<1e-5),然后使用perl腳本在結(jié)果中篩選相似度大于50%的序列,獲得中華大仰蝽的Hox基因序列。
同樣方法下載半翅目豌豆長管蚜Acyrthosiphonpisum、鞘翅目赤擬谷盜Triboliumcastaneum和鱗翅目家蠶Bombyxmori的Hox蛋白序列,利用MEGA X(Kumaretal., 2018)軟件基于p-distance模型和最小進(jìn)化法(minimum evolution method, ME)構(gòu)建Hox蛋白序列的系統(tǒng)樹。
用MISA軟件對中華大仰蝽轉(zhuǎn)錄組unigenes進(jìn)行SSR位點(diǎn)掃描。選擇二核苷酸至六核苷酸不同重復(fù)序列的SSR位點(diǎn),用SSRHunter v1.3軟件(Li and Wan, 2005)截取SSR位點(diǎn)上下游150 bp,利用Primer Premier 5.0(Lalitha, 2000)設(shè)計(jì)引物。引物設(shè)計(jì)遵循標(biāo)準(zhǔn):引物序列長度為18~25 bp,預(yù)計(jì)擴(kuò)增產(chǎn)物長度在100~350 bp,GC含量為40%~60%之間,退火溫度為55~65℃,正反向引物的退火溫度值相差不大于3℃,引物末端禁用A和T(Blairetal., 2009)。共設(shè)計(jì)引物29對(表2),由上海派森諾生物科技股份有限公司合成。
表2 基于中華大仰蝽轉(zhuǎn)錄組數(shù)據(jù)鑒定的SSR引物信息
利用通用型基因組提取試劑盒(康為世紀(jì))按照說明書步驟提取中華大仰蝽浙江安期峰(ZJZT)、江蘇瓦屋山(JSCL)和安徽黃山(AHHH)3個(gè)地理種群(表1)總基因組DNA,然后用NanoDrop 2000分光光度計(jì)(Thermo Scientific)檢測基因組DNA濃度,將提取的基因組DNA在-20℃保存,用于SSR引物初篩。PCR反應(yīng)體系(20 μL): 基因組DNA模板(130 ng/μL)1 μL, 2×Taq Master Mix 10 μL,正反向引物(10 μmol/L)各1 μL, 加ddH2O至20 μL。PCR擴(kuò)增程序: 94℃預(yù)變性5 min; 94℃變性30 s, 最佳退火溫度30 s, 72℃延伸30 s, 30次循環(huán); 72℃再延伸5 min, 4℃保存。PCR產(chǎn)物用3%瓊脂糖凝膠電泳,采用PBR 322 DNA/Msp Ⅰ Maker作為分子量標(biāo)準(zhǔn),用凝膠成像系統(tǒng)(Bio-Rad)的Image Lab軟件拍照,進(jìn)行結(jié)果分析。
從16對SSR引物中選擇擴(kuò)增條帶單一且清晰的5對引物(NcAF/NcAR, NcCF/NcCR, NcKF/NcKR, NcLF/NcLR和NcQF/NcQR)(表2),在其正向引物的5′端加FAM熒光標(biāo)記,用未加標(biāo)記的反向引物與5′ FAM的正向引物對選自代表中國大陸的遼寧得利寺(LNSD)、山東萊蕪(SDJL)、山西運(yùn)城(SXTF)、陜西少華山(SXXW)、陜西寶雞(SXXB)、湖北宜昌(HBWQ)、重慶彭水(CQPB)和廣東南嶺(GDGN)7個(gè)地理種群的樣本(表1)分別進(jìn)行PCR擴(kuò)增,進(jìn)行SSR引物復(fù)選、基因分型以及多態(tài)性驗(yàn)證。PCR反應(yīng)體系(20 μL): 基因組DNA模板(15 ng/μL)1 μL, dNTPs(2.5 mmol/L)0.5 μL, Taq 酶0.5 μL, 正向熒光引物(10 μmol/L)1 μL, 反向普通引物(10 μmol/L)1 μL, 10×Buffer 2 μL, ddH2O 14 μL。PCR擴(kuò)增程序: 95℃ 5 min; 95℃ 30 s, 62-52℃ 30 s, 10個(gè)循環(huán); 72℃ 30 s, 95℃ 30 s, 52℃ 30 s, 25個(gè)循環(huán); 72℃ 30 s, 72℃ 7 min, 4℃保存。擴(kuò)增PCR產(chǎn)物用3730XL DNA Analyzer(ABI,美國)進(jìn)行毛細(xì)管電泳檢測。檢測結(jié)果用GeneMarker v2.2.0軟件讀取,獲得毛細(xì)管電泳的峰圖和每個(gè)信號峰的片段長度。利用Cervus 3.0軟件分析各個(gè)SSR位點(diǎn)的等位基因數(shù)(Na)、觀測雜合度(Ho)、期望雜合度(He)和多態(tài)信息含量(PIC)。
運(yùn)用Illumina NextSeq500測序平臺對中華大仰蝽轉(zhuǎn)錄組測序,獲得36 675 702條原始reads;堿基錯(cuò)誤率為0.01%;Q20堿基比例為90.22%;Q30堿基比例為83.12%。數(shù)據(jù)過濾后,獲得的clean reads平均數(shù)為34 782 282條(NCBI SRA數(shù)據(jù)庫登錄號: SRR13259254),組裝到37 801條unigenes,總長度為25 517 069 bp,最大長度為23 542 bp,平均長度為675 bp。N50和N90分別為913 bp和304 bp,所對應(yīng)序列數(shù)分別為7 888條和27 612條。GC百分比含量為52.92%。所有37 801條unigenes序列用于后續(xù)的SSR搜索。
注釋到nr數(shù)據(jù)庫的unigenes最多,為36 474條,占96.49%;32 470條unigenes注釋到Swiss-Prot數(shù)據(jù)庫,占85.89%;27 781條unigenes注釋到GO數(shù)據(jù)庫,占73.49%;35 079條unigenes注釋到eggNOG數(shù)據(jù)庫,占92.80%;5 638條unigenes注釋到KEGG數(shù)據(jù)庫,占14.91%。在所有數(shù)據(jù)庫中都能被注釋到的unigenes為4 542條,占12.02%(表3)。
表3 中華大仰蝽轉(zhuǎn)錄組unigenes在5個(gè)數(shù)據(jù)庫中的注釋結(jié)果統(tǒng)計(jì)
GO注釋結(jié)果表明,27 781條unigenes共得到279 368條功能注釋,分為三大類,即生物學(xué)過程(biological process)、細(xì)胞組分(cellular component)和分子功能(molecular function)。其中生物學(xué)過程注釋的序列數(shù)最多為119 086條,包括24個(gè)功能條目,其次是細(xì)胞組分注釋的序列為118 137條,包括21個(gè)功能條目,注釋序列最少的是分子功能為41 425條,包括17個(gè)功能條目(圖1)。在生物學(xué)過程分類中,注釋到細(xì)胞進(jìn)程(cellular process)和單有機(jī)體進(jìn)程(single-organism process)的序列數(shù)最多,分別為19 242和17 044條。在細(xì)胞組分中,注釋到細(xì)胞(cell)和細(xì)胞部分(cell part)的序列占主導(dǎo)地位,分別為20 834和20 832條。在分子功能分類中,注釋到結(jié)合(binding)和催化活性(catalytic activity)的序列數(shù)最多,分別為19 959和11 556條。注釋的序列超過10 000條的功能條目共有11個(gè),分別是細(xì)胞、細(xì)胞部分、結(jié)合、細(xì)胞進(jìn)程、細(xì)胞器(organelle)、單有機(jī)體進(jìn)程、代謝進(jìn)程(metabolic process)、生物調(diào)節(jié)(biological regulation)、細(xì)胞器部分(organelle part)、催化活性和細(xì)胞膜(membrane)。
圖1 中華大仰蝽轉(zhuǎn)錄組unigenes的GO功能注釋
eggNOG的注釋結(jié)果如圖2所示。37 801條unigenes共得到41 259條注釋,分為25類,數(shù)量最多的是注釋到S類未知功能(function unknown),有6 205條;其余依次是T類信號轉(zhuǎn)導(dǎo)機(jī)制(signal transduction mechanisms),有6 159條;R類僅一般功能預(yù)測(general function prediction only),有6 035條;K類轉(zhuǎn)錄(transcription),有3 840條;O類翻譯后修飾、蛋白質(zhì)轉(zhuǎn)換、伴侶(posttranslational modification, protein turnover, chaperones)有3 147條;U類細(xì)胞內(nèi)運(yùn)輸、分泌和囊泡運(yùn)輸(intracellular trafficking, secretion, and vesicular transport)有2 183條;其余的都低于2 000條;X類未定義的(undetermined)為0條。
圖2 中華大仰蝽轉(zhuǎn)錄組unigenes的eggNOG功能注釋分類圖
KEGG代謝通路富集分析結(jié)果表明,共有5 638條unigenes參與到新陳代謝(metabolism)、遺傳信息處理(genetic information processing)、環(huán)境信息處理(environmental information processing)、細(xì)胞進(jìn)程(cellular process)、人類疾病(human disease)和有機(jī)系統(tǒng)(organism system)這六大類生化代謝通路中(圖3)。其中有機(jī)系統(tǒng)通路中基因最多(2 009條),它們主要參與內(nèi)分泌系統(tǒng)(endocrine system)和免疫系統(tǒng)(immune system)等過程,分別為551條和410條。在這38組代謝通路子類別中,信號轉(zhuǎn)導(dǎo)(signal transduction)通路的基因最多,為1 142條。這些代謝通路相關(guān)的基因分布于已知的245個(gè)代謝通路,其中富集最多的10條通路分別是核糖體(ribosome)、RNA運(yùn)輸(RNA transport)、內(nèi)吞作用(endocytosis)、內(nèi)質(zhì)網(wǎng)中的蛋白質(zhì)加工(protein processing in endoplasmic reticulum)、嘌呤代謝(purine metabolism)、剪接體(spliceosome)、氧化磷酸化(oxidative phosphorylation)、PI3K-Akt信號通路(PI3K-Akt signaling pathway)、泛素介導(dǎo)的蛋白水解作用(ubiquitin-mediated proteolysis)和嘧啶代謝(pyrimidine metabolism)。
圖3 中華大仰蝽轉(zhuǎn)錄組unigenes的KEGG通路分析
中華大仰蝽轉(zhuǎn)錄組中共注釋到17條Hox基因序列,包含了所有主要的8種Hox基因:lab1條(unigene: c23840_g1_i2),pb2條(unigenes: c57238_g1_i1, c14084_g1_i1),Dfd1條(unigene: c48312_g1_i1),Scr1條(unigene: c25114_g7_i1),Antp3條(unigenes: c25114_g1_i5, c25114_g6_i1, c25114_g3_i3),Ubx1條(unigene: c25114_g2_i1),abd-A1條(unigene: c25114_g5_i1)和abd-B7條(unigenes: c17276_g1_i1, c2333_g1_i1, c7432_g1_i2, c22062_g1_i1, c7763_g1_i1, c76858_g1_i1, c22143_g1_i1)(圖4)。
圖4 最小進(jìn)化法構(gòu)建的基于氨基酸序列的Hox蛋白系統(tǒng)發(fā)生樹
中華大仰蝽轉(zhuǎn)錄組unigenes序列經(jīng)MISA軟件搜索,得到3 124個(gè)SSR位點(diǎn),占總unigenes數(shù)量的8.26%,分布于2 671條unigenes序列中,發(fā)生頻率(含有SSR位點(diǎn)的unigenes數(shù)量與總unigenes數(shù)量的比值)為7.07%。含1個(gè)以上SSR位點(diǎn)的unigenes序列350條,含不同重復(fù)類型SSR位點(diǎn)的unigenes序列171條。長度大于20 bp的SSR位點(diǎn)有245個(gè),占總數(shù)的7.84%,長度在12~20 bp的SSR位點(diǎn)有1 859個(gè),占總數(shù)的59.51%,其中20 bp以上的低級重復(fù)基元有237個(gè),占20 bp以上SSR位點(diǎn)數(shù)的96.73%。從分布情況看,中華大仰蝽轉(zhuǎn)錄組unigenes中每8 168 bp就出現(xiàn)一個(gè)SSR位點(diǎn),即平均距離。從中華大仰蝽轉(zhuǎn)錄組中共搜索到6種核苷酸重復(fù)類型,不同重復(fù)類型差異較大,重復(fù)基元主要以單、二和三核苷酸為主,有3 095個(gè),占中華大仰蝽SSR位點(diǎn)總數(shù)的99.07%。出現(xiàn)數(shù)量最多的是單核苷酸重復(fù)類型,占總SSR位點(diǎn)的53.49%,其次是三核苷酸重復(fù)類型,占總SSR位點(diǎn)的33.00%,數(shù)量最少的是六核苷酸重復(fù)類型,只占總SSR位點(diǎn)的0.03%。不同核苷酸重復(fù)基元的重復(fù)次數(shù)有所差異,單核苷酸重復(fù)基元的重復(fù)次數(shù)主要集中在10~13次,二核苷酸重復(fù)基元的重復(fù)次數(shù)主要集中在6~8次,三核苷酸重復(fù)基元的重復(fù)次數(shù)主要集中在5~7次,四、五、六核苷酸重復(fù)基元的重復(fù)次數(shù)主要以5次為主(表4)。共有33種重復(fù)基元出現(xiàn),單、二、三、四、五以及六核苷酸重復(fù)基元的種類分別是2, 4, 10, 14, 2和1種。其中出現(xiàn)頻率最多的重復(fù)基元是A/T,其次是AGG/CCT。單核苷酸重復(fù)基元中,A/T為優(yōu)勢基元,占單核苷酸重復(fù)的88.51%;二核苷酸重復(fù)基元中,出現(xiàn)頻率最多的是AC/GT,占二核苷酸重復(fù)的37.15%,其次是AG/CT,占二核苷酸重復(fù)的36.39%;三核苷酸重復(fù)基元中,出現(xiàn)頻率最高的為AGG/CCT,占三核苷酸重復(fù)的24.25%;四、五和六核苷酸重復(fù)基元類型數(shù)量最少,總計(jì)占總SSR數(shù)量的0.91%(表5)。
表4 中華大仰蝽轉(zhuǎn)錄組SSR位點(diǎn)的數(shù)量與分布
表5 中華大仰蝽轉(zhuǎn)錄組SSR重復(fù)基元的分布特征
PCR擴(kuò)增結(jié)果表明,29對SSR引物中有16對可以成功擴(kuò)增出目的條帶,擴(kuò)增效率為55.17%,有13對引物的擴(kuò)增結(jié)果與預(yù)期產(chǎn)物片段不符。隨機(jī)選取2對引物對3個(gè)地理種群進(jìn)行PCR擴(kuò)增,結(jié)果顯示引物NcB1F/NcB1R和NcAF/NcAR均可以擴(kuò)增出目的條帶(圖5)。毛細(xì)管電泳及GeneMarker v2.2.0軟件分析顯示,在7個(gè)群體中擴(kuò)增5個(gè)位點(diǎn)(NcAF/NcAR, NcCF/NcCR, NcKF/NcKR, NcLF/NcLR和NcQF/NcQR),除NcQF/NcQR外,均有明確且符合預(yù)期的等位基因擴(kuò)增產(chǎn)物。位點(diǎn)NcAF/NcAR等位基因數(shù)(Na)為2,多態(tài)信息含量(PIC)為0.375,在群體分析中所能提供的遺傳信息較少;NcCF/NcCR, NcKF/NcKR和NcLF/NcLR等位基因數(shù)分別為13, 18和14,多態(tài)信息含量(PIC)分別為0.870, 0.902和0.857,均大于0.5(表6),說明中華大仰蝽微衛(wèi)星的等位基因分布較豐富,可以用于種群差異性分析(Botsteinetal., 1980)。
圖5 中華大仰蝽3個(gè)地理種群SSR引物NcB1F/NcB1R(A)和NcAF/NcAR(B)的PCR檢測結(jié)果
表6 中華大仰蝽7個(gè)地理種群轉(zhuǎn)錄組5個(gè)微衛(wèi)星位點(diǎn)的遺傳多樣性
由于目前中華大仰蝽全基因組尚未公布,其各相關(guān)基因信息無法得知,導(dǎo)致中華大仰蝽基因功能研究進(jìn)展緩慢。本研究通過RNA-seq技術(shù)對中華大仰蝽轉(zhuǎn)錄組進(jìn)行測序,并進(jìn)行denovo組裝與分析,共獲得34 782 282條clean reads,樣本Q30堿基比例不低于83.12%,unigenes 37 801條,N50為913 bp。據(jù)報(bào)道,樣本數(shù)據(jù)的Q30堿基比例不小于80%,測序質(zhì)量較好;N50值越大說明序列拼接的完整性越好??梢姳驹囼?yàn)獲得的測序數(shù)據(jù)質(zhì)量較好,保證了轉(zhuǎn)錄組分析的準(zhǔn)確性及重要功能基因挖掘的可能性。
根據(jù)與nr和Swiss-Prot蛋白質(zhì)數(shù)據(jù)庫的比對結(jié)果,36 474條unigenes(96.49%)比對至nr數(shù)據(jù)庫,85.89%的unigenes被比對至Swiss-Prot數(shù)據(jù)庫(表3),說明本次Illumina測序獲得了大量在中華大仰蝽中表達(dá)的不同基因。GO數(shù)據(jù)庫可以全面描述中華大仰蝽基因和基因產(chǎn)物的屬性。本研究在GO數(shù)據(jù)庫中共得到279 368條功能注釋,分為三大類,其中注釋到生物學(xué)過程的unigenes數(shù)目最多、其次為注釋到細(xì)胞組分的,注釋到分子功能的unigenes最少(圖1),這與已報(bào)道的蠋蝽Armachinensis(Zouetal., 2013)、大墊尖翅蝗Epacromiuscoerulipes(金永玲等, 2015)、綠豆象Callosobruchuschinensis(鄭海霞等, 2018)、中國真龍虱Cybisterchinensis(Hwangetal., 2018)以及麥紅吸漿蟲Sitodiplosismosellana(蔣月麗等, 2020)等相同。而黃曲條跳甲的轉(zhuǎn)錄組GO分類結(jié)果則是注釋到分子功能的unigenes數(shù)目最多,其次為注釋到生物學(xué)過程的,注釋到細(xì)胞組分的unigenes最少(賀華良等, 2012),這可能與不同的昆蟲有關(guān)。利用eggNOG數(shù)據(jù)庫對中華大仰蝽unigenes進(jìn)行基因功能分類(圖2),可從組學(xué)水平上找尋直系同源體,預(yù)測未知ORF的生物學(xué)功能。研究表明基于Nanopore長讀段測序數(shù)據(jù)在全長ORF預(yù)測和鑒定新基因方面具有顯著優(yōu)勢(杜宇等, 2020),為下一步完善中華大仰蝽的組學(xué)信息、提高基因功能注釋的準(zhǔn)確性,提供了可靠思路。根據(jù)KEGG數(shù)據(jù)庫對上述unigenes進(jìn)行代謝通路分析,發(fā)現(xiàn)涉及245個(gè)具體的代謝通路分支,參與到中華大仰蝽的核糖體、RNA運(yùn)輸、內(nèi)吞、內(nèi)質(zhì)網(wǎng)中的蛋白質(zhì)加工、嘌呤代謝、剪接體、氧化磷酸化、PI3K-Akt信號通路、泛素介導(dǎo)的蛋白水解作用和嘧啶代謝等過程中(圖3)。同時(shí)鑒定出了所有主要的8種Hox基因(lab,pb,Dfd,Scr,Antp,Ubx,abd-A和abd-B),為進(jìn)一步大量挖掘中華大仰蝽生長發(fā)育過程中的重要表達(dá)基因,開展中華大仰蝽的基因克隆及功能驗(yàn)證等研究提供了基礎(chǔ)數(shù)據(jù)。
設(shè)計(jì)并進(jìn)行PCR擴(kuò)增的29對引物中,16對可以擴(kuò)增出目的條帶,但部分目的條帶不是很清楚,且出現(xiàn)非特異性條帶。雖然目前無法確定它們多態(tài)性的高低,但是說明用于多態(tài)性檢測和分析的SSR位點(diǎn)的數(shù)量相當(dāng)可觀。SSR位點(diǎn)擴(kuò)增失敗可能是由于本研究所設(shè)計(jì)引物的SSR序列在基因組中的覆蓋率很低,造成擴(kuò)增產(chǎn)物很少以至于無法被檢測到,而對于一些引物的擴(kuò)增產(chǎn)物具有大量非特異性條帶的情況,很可能是因?yàn)檫@些SSR位于同源基因序列上的緣故(魏丹丹等, 2014)。
通過生物信息學(xué)方法,從中華大仰蝽轉(zhuǎn)錄組數(shù)據(jù)庫37 801條unigenes中發(fā)掘出3 124個(gè)SSR位點(diǎn),位點(diǎn)出現(xiàn)頻率為8.26%,比黃粉蟲Tenebriomolitor(1.67%)(Zhuetal., 2013)、云南切梢小蠹Tomicusyunnanensis(1.29%)(袁遠(yuǎn)等, 2014)、桔小實(shí)蠅Bactroceradorsalis(4.23%)(魏丹丹等, 2014)和扶桑綿粉蚧Phenacoccussolenopsis(5.79%)(羅梅等, 2014)出現(xiàn)頻率要高,比灰飛虱Laodelphaxstriatellus(16.67%)(Zhangetal., 2010)和黑翅土白蟻Odontotermesformosanus(9.98%)(Huangetal., 2012)出現(xiàn)頻率要低。分析原因,除了由于SSR搜索方法或標(biāo)準(zhǔn)有所差異外,最根本的原因可能是物種本身的差異。
中華大仰蝽轉(zhuǎn)錄組SSR的種類較多,一至六核苷酸重復(fù)都有出現(xiàn),重復(fù)類型主要為單核苷酸重復(fù),其次是三核苷酸重復(fù)(表4),這與扶桑綿粉蚧、黃粉蟲和褐飛虱Nilaparvatalugens(劉玉娣和侯茂林, 2010)SSR重復(fù)類型是一樣的。而在粘蟲Mythimnaseparata(胡艷華等, 2015)及近緣的蠋蝽(Zouetal., 2013)轉(zhuǎn)錄組中SSR重復(fù)類型主要為單核苷酸重復(fù),其次是二核苷酸重復(fù);黑翅土白蟻O.formosanus轉(zhuǎn)錄組中SSR重復(fù)類型主要為二核苷酸重復(fù),其次是三核苷酸重復(fù);齒緣刺獵蝽Sclominaerinacea(黎東海和趙萍, 2019)轉(zhuǎn)錄組中SSR重復(fù)類型主要為三核苷酸重復(fù),其次是二核苷酸重復(fù)。由此可見不同物種間SSR的重復(fù)類型存在差異。
中華大仰蝽SSR重復(fù)基元主要以單、二和三核苷酸為主,有3 095個(gè),占中華大仰蝽SSR位點(diǎn)總數(shù)的99.07%。Dreisigacker等(2004)認(rèn)為低級基元,包括單、二、三核苷酸重復(fù)基元普遍比高級基元的SSR多態(tài)性高。Temnykh等(2001)的研究表明,SSR的長度是影響多態(tài)性的重要因素。當(dāng)SSR長度在20 bp及20 bp以上時(shí)多態(tài)性較高,在12~20 bp之間的SSR多態(tài)性中等,長度在12 bp以下時(shí)多態(tài)性極低。本研究發(fā)現(xiàn)長度大于20 bp的SSR位點(diǎn)有245個(gè),占SSR位點(diǎn)總數(shù)的7.84%,長度在12~20 bp的SSR位點(diǎn)有1 859個(gè),占SSR位點(diǎn)總數(shù)的59.51%。此外,本研究中20 bp以上的低級重復(fù)基元較多,共237個(gè),占20 bp以上SSR位點(diǎn)數(shù)的96.73%。
等位基因數(shù)和雜合度與SSR位點(diǎn)的多態(tài)性成正相關(guān)。多態(tài)信息含量(PIC)是衡量微衛(wèi)星位點(diǎn)基因多態(tài)性高低的重要指標(biāo)。PIC>0.5具高度多態(tài)性,0.25