楊艷北, 許 晶, 馬荊鄂, 馮育林, 孫 勇
(1.江西中醫(yī)藥大學博士后流動站/正邦集團有限公司博士后工作站,江西南昌 330000;2.南昌師范學院生物技術研究院/江西省地方雞種遺傳改良重點實驗室,江西南昌 330000; 3.南昌師范學院生命科學學院,江西南昌 330000)
沼澤紅假單胞菌是光合細菌的代表菌株之一,屬于益生菌的一種,廣泛作為動物飼料添加劑和水質凈化劑使用。在實際應用過程中,沼澤紅假單胞菌菌株種類雜,效果不穩(wěn)定,相似菌株間凈水功能差異大。因此,從功能模體水平上,探索沼澤紅假單胞菌相似菌株間功能差異的機理,對于沼澤紅假單胞菌相似菌株的實際應用具有重要的參考價值。模體也譯為基序,是DNA或蛋白質具有的局部保守序列區(qū)域,一般也被稱為功能模體或結構模體,相當于超二級結構,它是蛋白質的基本結構單位和功能單位,決定著蛋白質的主要功能。蛋白質具有結構域和生物功能位點,功能相近的蛋白質或同類蛋白質家族成員表現出該功能所必需的模體,這個模體不僅反映蛋白質的功能位點,而且也作為蛋白質家族的識別信號。Prosite(https://prosite.expasy.org/)是蛋白質家族和結構域的數據庫,在Prosite數據庫中,一些有重要生物學意義的氨基酸序列可以被概括成規(guī)則的表達式,稱作模式,被用于模體的識別,這些模式均具有實驗上證實的結構或功能。
Python是一種功能強大的多用途編程語言,可用于生物信息學分析,尤其Biopython為各式各樣的生物信息學問題提供Python庫。Python有一套自身的語法,使它成為一套可以自行編譯、開發(fā)的完美語言。Python是一種強大的編程語言,適合腳本編寫。本研究以Prosite數據庫中下載的用于識別蛋白質組序列模體的模式文件為基礎,利用循環(huán)遍歷算法和Python特有的字典數據格式,編寫腳本test.py和difference analysis.py,篩選和分析沼澤紅假單胞菌CGA009和YSC3差異功能模體,探索沼澤紅假單胞菌相似菌株間功能差異的機理。
試驗于2021年在南昌師范學院生物技術研究院實驗室完成。
試驗中沼澤紅假單胞菌CGA009和YSC3蛋白質組序列來自于美國國家生物信息中心(NCBI)中已登錄的序列,下載文件分別為GCF_000195775.1_ASM19577v1_protein.faa、GCF_013415845.1_ASM1341584v1_protein.faa。試驗中用于識別蛋白質組序列模體的模式文件來自于Prosite數據庫(https://prosite.expasy.org/),下載文件為prosite. dat。
第1步:在Windows操作系統(tǒng)下安裝Python 3.7.0編程軟件和geany-1.33文本編輯器。
第2步:打開蛋白質組序列文件GCF_000195775.1_ASM19577v1_protein.faa,內容復制到新的文本文件protein.txt,儲存格式為fasta。打開模體文件prosite.dat,內容復制到新的文本文件prosite.txt。將上述3個文件置于同一個文件夾內。創(chuàng)建Python運行腳本,命名為test.py。
第3步:打開蛋白質組序列文件GCF_013415845.1_ASM1341584v1_protein.faa,內容復制到新的文本文件protein.txt,儲存格式為fasta。打開模體文件prosite.dat,內容復制到新的文本文件prosite.txt。將上述3個文件置于同一個文件夾內。創(chuàng)建Python運行腳本,命名為test.py。
第4步:Python運行腳本test.py具體代碼如下(注意代碼縮進,“#”代表代碼的注釋)。
#導入re模塊
import re
#讀取功能模體,選取PATTERN模式,存儲到新文件中
f = open("prosite_new.txt","a+")
prosite = open("prosite.txt").read()
separator_1 = re.compile(′∥′)
prosite_group = separator_1.split(prosite)
for group in prosite_group:
if "PATTERN" in group:
f.write(str(group))
#讀取新文件中模體的登錄(AC)號,蛋白名稱和序列,存儲到字典prosite_dict
prosite_seq = []
name_motif = []
AC = []
with open(′prosite_new.txt′) as file_object:
for line in file_object:
if line.startswith(′DE′):
name_motif.append(line[5:-2])
if line.startswith(′AC′):
AC.append(line[5:-2])
if line.startswith(′PA′):
prosite_seq.append(line[5:-1])
prosite_seq_str = "".join(prosite_seq)
prosite_seq_motif = prosite_seq_str.split(".")
prosite_seq_motif.pop()
prosite_key_list = [(i, j) for i, j in zip(AC, name_motif)]
prosite_dict = {i : j for i, j in zip(prosite_key_list, prosite_seq_motif)}
#讀取蛋白質序列,儲存到字典protein_dict
protein = open("protein.txt").read()
separator = re.compile(′>′)
protein_group = separator.split(protein)
protein_seq = []
name_protein = []
for group in protein_group:
group_new = group.split(" ")
name_protein.append(group_new[0])
protein_seq.append(group_new[1:])
for i in name_protein:
if i == "":
name_protein.remove(i)
protein_seq_new = []
for i in protein_seq:
j = "".join(i)
protein_seq_new.append(j)
protein_seq_new.pop(0)
protein_dict = {i : j for i, j in zip(name_protein, protein_seq_new)}
f1 = open("檢測結果.txt", "a+")
for prosite_dict_key, pattern in prosite_dict.items():
#將Prosite正則表達式轉換為Python正則表達式
pattern = pattern.replace(′{′, ′[^′)
pattern = pattern.replace(′}′, ′]′)
pattern = pattern.replace(′(′, ′{′)
pattern = pattern.replace(′)′, ′}′)
pattern = pattern.replace(′-′, '')
pattern = pattern.replace(′x′, ′.′)
pattern = pattern.replace(′>′, ′$′)
pattern = pattern.replace(′<′, ′^′)
pattern_motif = re.compile(pattern)
for protein_dict_key, protein_seq_group in protein_dict.items():
match_all = pattern_motif.findall(str(protein_seq_group))
match_iter = pattern_motif.finditer(str(protein_seq_group))
if match_all:
f1.write(" " + "**************************" + " " )
f1.write("Prosite的AC號和功能模體名稱: " +
str(prosite_dict_key) + " ")
f1.write("匹配模式: " + str(pattern) + " ")
f1.write("蛋白質ID號和名稱: " + str(protein_dict_key) + " ")
f1.write("蛋白質序列: " + str(protein_seq_group) + " ")
f1.write(" ")
for t in match_iter:
f1.write("蛋白質中的匹配序列:" + str(t.group()) + " ")
f1.write("蛋白質中的起始位置: " + str(t.start()) + " ")
f1.write("蛋白質中的終止位置: " + str(t.end())+ " ")
f1.write(" " + "**************************" + " ")
第5步:將上述軟件運行后,獲得的2個"檢查結果.txt"文件,分別命名為analysis _1.txt、analysis _2.txt。將上述2個文件置于同一個文件夾內。創(chuàng)建Python運行腳本,命名為difference analysis.py。
第6步:Python運行腳本difference analysis.py具體代碼如下(注意代碼縮進,"#"代表代碼的注釋)。
#創(chuàng)建文件
f_0_1 = open("1相同2結果.txt","a+")
f_0_2 = open("2相同1結果.txt","a+")
f_1_1 = open("1差異2結果.txt","a+")
f_1_2 = open("2差異1結果.txt","a+")
#讀取文件內容
f_2 = open("analysis_1.txt").readlines()
f_3 = open("analysis_2.txt").readlines()
#篩選差異功能模體并儲存在新文件中
for line in f_2:
if "Prosite的AC號和功能模體名稱:" in line:
if line in f_3:
f_0_1.write(line)
else:
f_1_1.write(line)
for line in f_3:
if "Prosite的AC號和功能模體名稱:" in line:
if line in f_2:
f_0_2.write(line)
else:
f_1_2.write(line)
Python運行腳本test.py后,在2個不同的文件夾內分別自動創(chuàng)建“檢測結果.txt”文本文件,運行結果見圖1(文件過大,只顯示部分運行結果)。輸出結果包括:(1)Prosite的AC號和模體名稱;(2)匹配模式(Python正則表達式);(3)蛋白質ID號(NCBI)和名稱;(4)蛋白質序列;(5)蛋白質中的匹配序列;(6)蛋白質中的起始位置;(7)蛋白質中的終止位置。Python運行腳本difference analysis.py后,自動創(chuàng)建含有分析結果的新文件(1相同2結果.txt、2相同1結果.txt、1差異2結果.txt、2差異1結果.txt),見圖2。輸出結果包括 Prosite的AC號和模體名稱。
沼澤紅假單胞菌CGA009與YSC3比較,獨有14種功能模體。沼澤紅假單胞菌YSC3與CGA009比較,獨有5種功能模體見表1。
表1 沼澤紅假單胞菌CGA009和YSC3差異功能模體
本研究編寫的Python腳本不僅適用于沼澤紅假單胞菌的研究,也廣泛適用于細菌、真菌、動物、植物等所有物種,用于篩選相似物種間的差異功能模體,探索相似物種間功能差異的機理。
沼澤紅假單胞菌CGA009與YSC3比較,獨有14種功能模體。核糖核苷酸還原酶是DNA 合成和修復的關鍵酶和限速酶,對細胞的增殖和分化起著調控作用,在幾乎所有生物生長和繁殖的生命活動中起著非常重要的作用。DNA聚合酶是催化DNA精確復制的關鍵酶。異檸檬酸裂解酶是乙醛酸支路代謝中的關鍵酶,催化異檸檬酸轉化為琥珀酸和乙醛酸,乙醛酸支路是三羧酸循環(huán)的替代支路。跨膜通道蛋白是橫跨質膜的親水性通道,允許適當大小的離子順濃度梯度通過,包括離子通道、孔蛋白、水孔蛋白等。胰蛋白酶抑制劑是對胰蛋白酶具有抑制作用的一類物質,在動物、植物和微生物中都有發(fā)現,在微生物中,胰蛋白酶抑制劑主要來源于酵母菌、鏈霉菌屬等。胰蛋白酶抑制劑屬于絲氨酸蛋白酶抑制劑家族,其分子的活性部位是賴氨酸,主要與胰蛋白酶等酶的絲氨酸結合,使其失活,起到抑制作用。SASP蛋白與雙鏈DNA結合后,導致DNA構象變化,保護DNA骨架結構免受化學試劑或酶的裂解,使DNA對紫外線具有高抗性。位點特異性重組在原核生物DNA重排中起著重要作用。位點特異性重組中,DNA節(jié)段的相對位置發(fā)生移動,從而使DNA序列發(fā)生重排。脯氨酰內肽酶廣泛存在于動物、植物和微生物體內。脯氨酸內肽酶是一類能夠特異性水解多肽鏈中脯氨酸殘基羧基端的內切酶,是絲氨酸蛋白酶家族成員之一,其能有效降解小于30個含有脯氨酸殘基的多肽鏈,脯氨酸內肽酶能特異性地水解許多含脯氨酸的多肽類神經遞質和激素。甘氨酰自由基酶共享以甘氨酸為中心的保守區(qū)域,參與多種功能,例如核苷酸、丙酮酸和甲苯的代謝等。乙二醛酶Ⅰ(又稱乳酰谷胱甘肽裂解酶)催化乙二醛途徑的第一步,即催化甲基乙二醛和谷胱甘肽轉化為- 乳酰谷胱甘肽,然后再由乙二醛酶Ⅱ將底物- 乳酰谷胱甘肽轉化為乳酸。乙二醛酶Ⅰ是普遍存在的一種酶,序列很保守。甲基乙二醛破壞細胞平衡,具有毒性,乙二醛酶系統(tǒng)能夠清除過量的甲基乙二醛,維持細胞內的動態(tài)平衡。核糖體蛋白參與細胞內蛋白質合成。NADH脫氫酶參與呼吸鏈反應。吡咯烷酮羧酸肽酶(又稱焦谷氨酰胺基肽酶)是從蛋白質的-末端去除焦谷胺酸的酶,存在于細菌和古細菌中。沼澤紅假單胞菌CGA009獨有的14種功能模體,功能主要集中在:(1)DNA 復制、合成、修復、重排和保護;(2)蛋白質合成;(3)呼吸鏈的電子轉移;(4)細胞的增殖和分化;(5)生長和繁殖;(6)代謝途徑的補充;(7)離子運輸;(8)清除毒性物質甲基乙二醛。
沼澤紅假單胞菌YSC3與CGA009比較,獨有5種功能模體。內質網靶向序列是存在于內質網蛋白上的非常保守的靶向序列。類血紅素結構域能與多種分子和蛋白質結合。多銅氧化酶含有多個銅結合中心,催化有機底物使其氧化,參與微生物對重金屬銅的抗性,降解多種生物胺的活性。DNA甲基化酶識別DNA的特定序列,并使該序列中的胞嘧啶甲基化,保護細胞自身的DNA不被限制性內切酶破壞。視蛋白是一種膜蛋白,有7個跨膜區(qū),屬于G蛋白偶聯受體超家族。視蛋白廣泛分布于動物和微生物中,是一種重要的感光物質,具有調節(jié)生物節(jié)律和光周期等多種功能。沼澤紅假單胞菌YSC3獨有的5種功能模體,功能主要集中在:(1)對重金屬銅的抗性;(2)降解生物胺;(3)調節(jié)生物節(jié)律和光周期。
沼澤紅假單胞菌CGA009對紫外線和化學試劑具有抵抗能力,DNA骨架結構更穩(wěn)定,生長和繁殖性能更強。沼澤紅假單胞菌YSC3,對光照反應更加敏感,對重金屬銅具有抵抗能力,能夠降解生物胺,生存能力更強。本研究編寫的Python腳本,用于篩選相似物種間差異功能模體,探索相似物種間功能差異的機理,該腳本適用于所有物種。