国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

UniProt蛋白質(zhì)數(shù)據(jù)庫簡介

2019-09-04 12:20羅靜初
生物信息學(xué) 2019年3期
關(guān)鍵詞:知識庫條目蛋白質(zhì)

羅靜初

(北京大學(xué) 生命科學(xué)學(xué)院,北京100871)

1 UniProt數(shù)據(jù)庫及其前身的創(chuàng)建歷史

1.1 國際上最早創(chuàng)建的蛋白質(zhì)序列數(shù)據(jù)庫PIR-PSD

蛋白質(zhì)序列數(shù)據(jù)庫的創(chuàng)建可以追溯到半個多世紀(jì)以前。二十世紀(jì)六十年代中期,美國國家生物醫(yī)學(xué)基金會(National Biomedical Foundation, NBRF) Margaret Dayhoff領(lǐng)導(dǎo)的研究小組著手收集蛋白質(zhì)序列數(shù)據(jù),以《蛋白質(zhì)序列和結(jié)構(gòu)圖集》(Atlas of Protein Sequence and Structure)為書名編著出版,以后又多次更新,一共出了5卷;最后一卷共470頁,于1978年出版。1983年,Dayhoff不幸病逝(1925-1983),她的同事Winona Barker 繼續(xù)從事蛋白質(zhì)序列收集和蛋白質(zhì)家族分類研究。1984年,這一項(xiàng)目獲美國國立衛(wèi)生研究院(National Institutes of Health, NIH)資助,Barker和NBRF 主任Robert Ledley一起,成立了蛋白質(zhì)信息資源部(Protein Information Resource, PIR),開發(fā)了蛋白質(zhì)資源鑒定系統(tǒng)(Protein Identification Resource)。該系統(tǒng)包括數(shù)據(jù)庫和分析軟件兩部分,其中數(shù)據(jù)庫則以蛋白質(zhì)序列為主,也包括核酸序列[1]。1988年,NBRF聯(lián)合德國慕尼黑蛋白質(zhì)序列信息中心(Munich Information Center for Protein Sequence, MIPS)和日本國際蛋白質(zhì)信息數(shù)據(jù)庫(Japan International Protein Information Database, JIPID),在原有PIR的基礎(chǔ)上成立了國際蛋白質(zhì)序列數(shù)據(jù)庫(PIR-International Protein Sequence Database, PIR-PSD)。PIR-PSD是當(dāng)時數(shù)據(jù)量最大的蛋白質(zhì)序列數(shù)據(jù)庫,根據(jù)序列注釋信息的不同,將所收集的蛋白質(zhì)序列分為PIR1-PIR4四個不同級別[2]。

1.2 人工審閱和注釋的瑞士蛋白質(zhì)序列數(shù)據(jù)庫Swiss-Prot

1986年,瑞士日內(nèi)瓦大學(xué)醫(yī)學(xué)院Amos Bairoch創(chuàng)建了蛋白質(zhì)序列數(shù)據(jù)庫Swiss-Prot,并作為他博士學(xué)位論文的一部分[3]。Swiss-Prot數(shù)據(jù)庫的格式借鑒1981年創(chuàng)建的歐洲核酸序列數(shù)據(jù)庫(EMBL),其數(shù)據(jù)來源除上述PIR-PSD數(shù)據(jù)庫外,還包括核酸序列數(shù)據(jù)庫EMBL中編碼區(qū)序列翻譯得到的蛋白質(zhì)序列,以及文獻(xiàn)中收集的蛋白質(zhì)序列。該數(shù)據(jù)庫的特色是對序列條目進(jìn)行人工審閱和注釋,包括物種分類學(xué)來源、功能、定位、表達(dá)等,同時也包括與其它數(shù)據(jù)庫的鏈接。1987年起,Swiss-Prot由日內(nèi)瓦大學(xué)和位于德國海德堡的歐洲分子生物學(xué)實(shí)驗(yàn)室(European Molecular Biology Laboratory, EMBL)共同管理和發(fā)布。1994年,EMBL下屬歐洲生物信息學(xué)研究所(European Bioinformatics Institute, EBI)在英國劍橋南郊基因組園區(qū)建立,成為僅次于美國NCBI的國際生物信息中心,歐洲分子生物學(xué)實(shí)驗(yàn)室負(fù)責(zé)維護(hù)的數(shù)據(jù)庫移交EBI。

1.3 核酸序列翻譯所得的蛋白質(zhì)序列數(shù)據(jù)庫TrEMBL

20世紀(jì)90年代,隨著核酸序列測定技術(shù)的發(fā)展,核酸序列數(shù)據(jù)激增,由核酸序列通過計(jì)算機(jī)程序翻譯得到的蛋白質(zhì)序列也急劇增長。1996年,歐洲生物信息學(xué)研究所Rolf Apweiler和瑞士日內(nèi)瓦大學(xué)Bairoch共同創(chuàng)建了蛋白質(zhì)序列數(shù)據(jù)庫TrEMBL,作為Swiss-Prot數(shù)據(jù)庫的補(bǔ)充和后備,專門存放核酸序列數(shù)據(jù)庫EMBL中蛋白質(zhì)編碼序列翻譯所得氨基酸序列。1998年,瑞士生物信息研究所(Swiss Institute of Bioinformatics,SIB)成立,主要負(fù)責(zé)管理、維護(hù)、發(fā)布和進(jìn)一步開發(fā)Swiss-Prot數(shù)據(jù)庫,而EBI主要負(fù)責(zé)管理、維護(hù)和發(fā)布TrEMBL數(shù)據(jù)庫。

1.4 蛋白質(zhì)數(shù)據(jù)庫UniProt

2002年,獲美國國立衛(wèi)生研究院(National Institutes of Health)和美國科學(xué)基金會(National Science Foundation)、歐盟(European Union),以及瑞士聯(lián)邦政府教育和科研聯(lián)合辦公室等機(jī)構(gòu)資助,Swiss-Prot、TrEMBL和PIR三個國際上主要蛋白質(zhì)序列數(shù)據(jù)庫合并,建立了通用蛋白質(zhì)資源(Universal Protein Resource, UniProt),統(tǒng)一收集、管理、注釋、發(fā)布蛋白質(zhì)序列數(shù)據(jù)及注釋信息[4]。UniProt的核心數(shù)據(jù)是蛋白質(zhì)序列,因此也常被稱為蛋白質(zhì)序列數(shù)據(jù)庫,或簡稱蛋白質(zhì)數(shù)據(jù)庫。目前,UniProt已經(jīng)成為歐洲生命科學(xué)大數(shù)據(jù)聯(lián)盟(European Life Science Infrastructure for Biological Information, ELIXIR)主要核心數(shù)據(jù)資源之一,研究開發(fā)團(tuán)隊(duì)共100多人,歐洲生物信息學(xué)研究所Alex Bateman、瑞士生物信息研究所Alan Bridge和美國特拉華大學(xué)(University of Delaware)生物信息學(xué)和計(jì)算生物學(xué)中心Cathy Wu共同擔(dān)任項(xiàng)目負(fù)責(zé)人,基金資助來源包括美國和歐洲多個政府部門。UniProt從創(chuàng)建至今,一直遵循人類基因組計(jì)劃實(shí)施時國際科學(xué)界達(dá)成的共識,即基因組、蛋白組等生物信息數(shù)據(jù)資源應(yīng)該為全人類共享,為世界各國公眾提供無償服務(wù)。不言而喻,UniProt已經(jīng)成為生命科學(xué)研究和生物技術(shù)開發(fā)不可或缺的蛋白質(zhì)序列信息資源。

2 UniProt數(shù)據(jù)庫主要內(nèi)容

UniProt包括三個主要部分,即蛋白質(zhì)知識庫(UniProt Knowledgebase, UniProtKB)、蛋白質(zhì)序列歸檔庫(UniProt Sequence Archive, UniParc)和蛋白質(zhì)序列參考集(UniProt Reference Clusters, UniRef)。為適應(yīng)蛋白組學(xué)研究的需要,UniProt數(shù)據(jù)庫還新增了蛋白組(Proteome)和參考蛋白組數(shù)據(jù)。此外,UniProt數(shù)據(jù)庫還包括文獻(xiàn)引用(Literature Citations)、物種分類學(xué)來源(Taxonomy)、亞細(xì)胞定位(Subcellular Locations)、數(shù)據(jù)庫交叉鏈接(Cross-reference Databases)、相關(guān)疾病(Diseases)和關(guān)鍵詞(Keywords)等輔助數(shù)據(jù)。

2.1 蛋白質(zhì)知識庫UniProtKB

蛋白質(zhì)知識庫UniProtKB是UniProt的精華,除核心數(shù)據(jù)蛋白質(zhì)序列外,還包含大量注釋信息[5]。這些信息是從學(xué)術(shù)文獻(xiàn)和其它數(shù)據(jù)庫中通過人工閱讀和計(jì)算機(jī)提取得到的,內(nèi)容包括蛋白質(zhì)功能基因本體(Gene Ontology, GO)注釋、物種名及分類、亞細(xì)胞定位、蛋白質(zhì)加工修飾、表達(dá)等信息。此外,UniProtKB還提供與基因組、核酸序列、蛋白質(zhì)結(jié)構(gòu)、蛋白質(zhì)家族、蛋白質(zhì)功能位點(diǎn)、蛋白質(zhì)相互作用等其它數(shù)據(jù)庫的交叉鏈接。

UniProtKB分為Swiss-Prot和TrEMBL兩個子庫。兩個子庫序列條目分類相似,主要差別在于Swiss-Prot子庫中的序列條目以及相關(guān)信息都經(jīng)過手工注釋(Manual Annotation)和人工審閱(Reviewed),由瑞士生物信息研究所團(tuán)隊(duì)負(fù)責(zé)。該團(tuán)隊(duì)由經(jīng)驗(yàn)豐富的分子生物學(xué)家和生物化學(xué)家組成,專門從事蛋白質(zhì)序列數(shù)據(jù)的搜集、整理、分析、注釋,力圖為用戶提供高質(zhì)量的蛋白質(zhì)序列和豐富的注釋信息。

TrEMBL子庫由歐洲生物信息學(xué)研究所團(tuán)隊(duì)負(fù)責(zé),所有序列條目由計(jì)算機(jī)程序根據(jù)一定規(guī)則進(jìn)行自動注釋,內(nèi)容包括蛋白質(zhì)名、基因名、物種名、分類學(xué)地位等基本信息,功能、表達(dá)、定位、家族和結(jié)構(gòu)域等注釋信息,以及與其它數(shù)據(jù)庫的交叉鏈接。需要說明的是,TrEMBL子庫中的序列未經(jīng)手工注釋,也未經(jīng)人工審閱(Unreviewed),可靠性遠(yuǎn)不及Swiss-Prot子庫中的序列,使用時需謹(jǐn)慎。TrEMBL和Swiss-Prot采用統(tǒng)一的數(shù)據(jù)庫格式和登錄號系統(tǒng),TrEMBL中的序列經(jīng)手工注釋和人工審閱后,歸并到Swiss-Prot子庫中,不再在TrEMBL子庫中保留。這兩個子庫的數(shù)據(jù)量差別很大,如2019年1月發(fā)布的統(tǒng)計(jì)報表,Swiss-Prot子庫約含56萬條序列,而TrEMBL子庫的數(shù)據(jù)量達(dá)到1.4億條。

2.2 蛋白質(zhì)序列歸檔庫UniParc

蛋白質(zhì)序列歸檔庫UniParc是目前數(shù)據(jù)最為齊全的非冗余蛋白質(zhì)序列數(shù)據(jù)庫。由于數(shù)據(jù)來源、測定方法、遞交時間、審閱方式和更新周期等多種原因,同一蛋白質(zhì)可能存放于多個數(shù)據(jù)庫,而某個數(shù)據(jù)庫中收錄的若干條目其序列也可能相同。為避免上述冗余問題,UniParc 歸檔庫對相同序列歸并到同一個記錄中,并賦予特定標(biāo)識符(Unique Identifier,UPI)。特定標(biāo)識符一旦賦予,就不再改變,也永不刪除。UniParc定期更新,若源數(shù)據(jù)庫中某個序列有了更新,可以在UniParc中查到更新記錄。通過上述策略,UniParc以序列唯一性為標(biāo)準(zhǔn),將國際上不同蛋白質(zhì)序列數(shù)據(jù)庫整合在一起,搜索UniParc,就相當(dāng)于同時搜索這些數(shù)據(jù)庫。UniParc的數(shù)據(jù)來源除UniProtKB知識庫外,還包括國際核酸序列數(shù)據(jù)庫(EMBL/DDBJ/GenBank)、NCBI參考序列數(shù)據(jù)庫(Reference Sequence, RefSeq)、基因組數(shù)據(jù)庫(Ensembl)、脊椎動物基因組注釋(Vertebrate Genome Annotation, VEGA)、擬南芥等模式生物數(shù)據(jù)庫、蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫(Protein Data Bank, PDB),以及歐美、日本、韓國等蛋白質(zhì)序列專利數(shù)據(jù)庫,共計(jì)二十多個。2019年1月發(fā)布的UniParc歸檔庫中,約含2.5億個記錄。

每個UniParc記錄除包含特定標(biāo)識符UPI、序列、循環(huán)冗余校驗(yàn)碼(Cyclic Redundancy Check Number)等基本信息外,同時列出源數(shù)據(jù)庫,包括源數(shù)據(jù)庫名稱、源數(shù)據(jù)庫中該序列的登錄號、版本號、最早收錄時間和最近更新時間。不論這些序列條目源自何處,具有同一標(biāo)識符的所有條目序列完全相同。若源數(shù)據(jù)庫已經(jīng)不復(fù)存在或源數(shù)據(jù)庫中該序列條目已經(jīng)不復(fù)存在,則標(biāo)注為無效(Inactive)條目。以血紅蛋白alpha亞基為例,其UniParc標(biāo)識符為UPI0000000239,共包括214個有效條目,1 178個無效條目(2019年1月發(fā)布的版本)。通過有效條目中的登錄號,可以查看源數(shù)據(jù)庫中該序列條目。通過無效條目,可以追蹤該序列歷史,搞清該序列曾經(jīng)出現(xiàn)在哪些數(shù)據(jù)庫中。

2.3 蛋白質(zhì)序列參考集UniRef

蛋白質(zhì)序列參考集UniRef分為三個數(shù)據(jù)集(Sequence Cluster),分別為UniRef100、UniRef90和UniRef50,其數(shù)據(jù)主要來自UniProtKB知識庫,同時也包括UniParc歸檔庫中部分條目[6]。2019年1月發(fā)布的數(shù)據(jù),UniRef100數(shù)據(jù)集約含1.7億個記錄,UniRef90數(shù)據(jù)集記錄數(shù)約為UniRef100的一半,約9千萬個,而UniRef50數(shù)據(jù)集含3千多萬個記錄。UniRef三個數(shù)據(jù)集的構(gòu)建采用一定算法,分三步進(jìn)行。第一步是把不同物種中長度不小于11個氨基酸的相同序列和序列片段合并在一起,得到UniRef100數(shù)據(jù)集。第二步是按相同位點(diǎn)所占序列全長比例90%為閾值,將UniRef100數(shù)據(jù)集中高度相似序列合并在一起,產(chǎn)生UniRef90數(shù)據(jù)集。第三步則是按相同位點(diǎn)所占序列全長比例50%為閾值,將UniRef90數(shù)據(jù)集中具有一定相似性的序列合并在一起,所得數(shù)據(jù)集即UniRef50。

UniRef三個數(shù)據(jù)集中每個記錄都有一個標(biāo)識符,便于查詢和比較。例如,標(biāo)識符為UniRef100_P01308的記錄中含4條胰島素序列(確切地說,應(yīng)該是胰島素原前體Pre-proinsulin),3條為人胰島素(Insulin),1條為大猩猩(Gorilla)胰島素。若對這4條序列進(jìn)行多序列比對,所有位點(diǎn)完全相同。需要說明的是,3條人胰島素序列中有2條為TrEMBL中未經(jīng)審閱的序列,其中1條為序列片段,長度為94 aa,而全長胰島素原前體長度為110 aa。UniRef三個數(shù)據(jù)集的每個記錄中,選取序列長度最長的一條序列作為種子序列(Seed),選擇注釋最為詳盡的序列為代表序列(Representative)。例如,上述UniRef100_P01308記錄4條序列中,種子序列為大猩猩胰島素(登錄號Q6YK33),長度為110 aa;代表序列為人胰島素(登錄號P01308)。

UniRef90_P01308記錄中包含11條序列,其相同位點(diǎn)比例不低于90%。除上述UniRef100_P01308中的4條序列外,其它7條序列來自6種靈長類動物:倭黑猩猩(Pygmy Chimpanzee)、婆羅洲猩猩(Bornean Orangutan)、蘇門答臘猩猩(Sumatran Orangutan)、白頰長臂猿(Northern White-cheeked Gibbon)、白頸白眉猴(Sooty Mangabey)、金絲猴(Golden Snub-nosed Monkey),以及1種非靈長類動物樹鼩(Tree Shrew)。這11條序列中,種子序列為來自UniParc的白頰長臂猿胰島素剪接變體(Isoform1 X1),序列長度為134 aa;代表序列仍為人胰島素(P01308)。

UniRef50_P01308記錄共含79條序列,其相同位點(diǎn)比例不低于50%,物種分布范圍則包括靈長類、嚙齒類、獸類、兩棲類、魚類等多個譜系。這79條序列中,種子序列為來自UniParc的巖鴿(Rock Dove)胰島素剪接變體,長度為139 aa;代表序列仍為人胰島素(P01308)。

2.4 蛋白組Proteome

除UniProtKB知識庫、UniRef參考序列集和UniParc歸檔庫外,自2011年9月起,UniProt又增加了蛋白組數(shù)據(jù)。英文“蛋白組”(Proteome)這一術(shù)語,由澳大利亞學(xué)者M(jìn)arc Wilkins于1994年在一次學(xué)術(shù)討論會上提出。我們知道,一個物種的基因組DNA序列只有一套,而轉(zhuǎn)錄組mRNA序列則不止一套,不同組織、不同發(fā)育階段、不同環(huán)境條件的轉(zhuǎn)錄組均不相同。即使是同一套轉(zhuǎn)錄組,經(jīng)過翻譯后處理、修飾等,其最終產(chǎn)物蛋白組也很不相同。盡管目前已經(jīng)可以通過質(zhì)譜等手段直接測定肽段序列,并經(jīng)過拼接后獲得蛋白質(zhì)序列,與基因組和轉(zhuǎn)錄組測序相比,無論是測序成本還是測序通量,仍有較大距離。UniProt數(shù)據(jù)庫中的蛋白組數(shù)據(jù),主要是指已經(jīng)完成全基因組測序物種的核酸序列翻譯所得的蛋白質(zhì)序列。

截至2019年1月,UniProt數(shù)據(jù)庫中收錄的蛋白組數(shù)據(jù)共18.8萬多組,每組數(shù)據(jù)都賦予蛋白組特定標(biāo)識符(Unique Proteome Identifier),如大腸桿菌K12菌株的標(biāo)識符為UP000000625。上述蛋白組數(shù)據(jù)絕大部分來自細(xì)菌和病毒,如大腸桿菌就有6 000多套蛋白組數(shù)據(jù),而艾滋病毒也有近6 000套蛋白組數(shù)據(jù)。由于研究背景、測序質(zhì)量、注釋程度等多方面原因,同一物種不同蛋白組的數(shù)據(jù)質(zhì)量也參差不齊。為此,UniProt數(shù)據(jù)庫挑選測序質(zhì)量較好、數(shù)據(jù)比較完整、注釋比較詳盡的蛋白組為參考蛋白組(Reference Proteome),目前總計(jì)有1.3萬多套參考蛋白組數(shù)據(jù)。參考蛋白組通常為具有代表性的蛋白組,有的通過人工選擇確定,有的則通過一定算法由計(jì)算機(jī)選擇得到。大腸桿菌共三套參考蛋白組數(shù)據(jù),分別來自K12、O157:H7和ISC11三個不同菌株,而艾滋病毒則有6套蛋白組數(shù)據(jù),包括I型和II型兩種不同亞型的數(shù)據(jù)。真核生物蛋白組數(shù)據(jù)遠(yuǎn)比細(xì)菌和病毒少,2019年1月發(fā)布的版本中不到1 500套。

需要說明的是,參考蛋白組中的序列條目并非都經(jīng)過人工審閱,如上述大腸桿菌三個參考蛋白組的數(shù)據(jù),K12菌株共有4 446個條目,其中4 345個條目已經(jīng)人工審閱;O157:H7(蛋白組標(biāo)識符UP000000558)共有5 062個條目,其中2 028個已經(jīng)人工審閱;而ISC11(蛋白組標(biāo)識符UP000019194)全部6 130個條目均未經(jīng)人工審閱。人類基因組計(jì)劃指定的模式生物釀酒酵母(Saccharomyces cerevisiae, strain ATCC 204508 / S288c, 蛋白組標(biāo)識符UP000002311)所有6 049個序列條目,均已經(jīng)過人工審閱。人類參考蛋白組(蛋白組標(biāo)識符UP000005640)共計(jì)約7.4萬個序列條目,其中約2萬個已經(jīng)人工審閱。

3 UniProt網(wǎng)站功能模塊

與NCBI和EBI等國際著名生物信息中心一樣,UniProt網(wǎng)站(https://www.uniprot.org/)的用戶界面簡潔明了,使用十分方便[7]。主頁面中用一句話說明UniProt的宗旨:為廣大用戶無償提供完整的、高質(zhì)量的蛋白質(zhì)序列和功能信息。主頁面上方列出了UniProt主要組成部分名稱和簡單說明,即蛋白質(zhì)知識庫UniProtKB及其兩個子庫Swiss-Prot和TrEMBL的數(shù)據(jù)量,蛋白質(zhì)序列參考集UniRef,蛋白質(zhì)序列歸檔庫UniParc和蛋白組Proteome,以及文獻(xiàn)引用、交叉數(shù)據(jù)庫、物種分類學(xué)來源、疾病、亞細(xì)胞定位、關(guān)鍵詞等主要輔助信息。主頁面右側(cè)新聞(News)專欄可供用戶了解數(shù)據(jù)庫更新等情況。此外,UniProt還提供了常用工具、數(shù)據(jù)下載、統(tǒng)計(jì)報表、數(shù)據(jù)遞交、應(yīng)用程序接口等多個功能模塊。而該網(wǎng)站高級檢索功能、幫助文檔、以及蛋白質(zhì)分子精選(Protein Spotlight),則是UniProt數(shù)據(jù)庫的特色板塊。限于篇幅,下面對這些功能模塊只作簡單介紹。

3.1 高級檢索

方便實(shí)用的數(shù)據(jù)庫檢索功能是UniProt網(wǎng)站最大特色之一,特別是高級檢索功能。利用強(qiáng)大的數(shù)據(jù)庫索引技術(shù),基于數(shù)據(jù)庫條目中不同字段,對數(shù)據(jù)庫中大量注釋信息作了索引,為快速準(zhǔn)確查找特定信息提供了方便。值得一提的是,UniProt網(wǎng)站為該數(shù)據(jù)庫中的不同數(shù)據(jù)集提供了統(tǒng)一的檢索界面,點(diǎn)擊檢索框左側(cè)下拉式菜單,即可列出所有可檢索的數(shù)據(jù)集,包括UniProtKB知識庫、UniRef參考序列集、UniParc歸檔庫、Proteome蛋白組,以及文獻(xiàn)、物種等輔助數(shù)據(jù)集,就連幫助文檔也可按關(guān)鍵詞進(jìn)行檢索。此外,UniProt數(shù)據(jù)庫也支持基于邏輯運(yùn)算的高級檢索,便于用戶依據(jù)序列條目注釋信息進(jìn)行精確檢索。

3.2 幫助文檔

豐富的幫助文檔,是UniProt數(shù)據(jù)庫另外一大特色。無論是用戶指南中給出的文本檢索實(shí)例(Text Search),還是有關(guān)UniProt數(shù)據(jù)庫的基本介紹(About UniProt),或者是常見問題解答(FAQ),以及UniProtKB用戶手冊(User Manual),都提供了大量數(shù)據(jù)庫使用的幫助信息。而所有這些幫助信息,均在幫助頁面(https://www.uniprot.org/help/)中分門別類地列出,供用戶瀏覽;也可在主頁面上方的檢索框中指定檢索對象為幫助文檔(Help)后輸入關(guān)鍵詞進(jìn)行全文搜索。

3.3 在線工具

UniProt數(shù)據(jù)庫中提供的在線工具包括數(shù)據(jù)庫相似性搜索工具(Blast)、序列比對工具(Sequence Alignment)、數(shù)據(jù)批量提取和登錄號映射(Retrieve/ID Mapping)工具和多肽搜索工具(Peptide Search)。在線獲得多序列比對結(jié)果后,用戶可根據(jù)注釋信息和氨基酸特性用不同顏色標(biāo)注不同位點(diǎn)的序列特征信息。

3.4 數(shù)據(jù)下載

UniProt所有數(shù)據(jù)均可免費(fèi)下載,其數(shù)據(jù)發(fā)布基于國際知識共享(Creative Commons Attribution CCBY 4.0)許可(https://creativecommons.org/licenses/by/4.0/)。 該網(wǎng)站數(shù)據(jù)下載頁面詳細(xì)列出UniProtKB、UniRef和UniParc等不同數(shù)據(jù)集專用文件下載服務(wù)器(FTP)的鏈接,同時包括常見問題回答(FAQ)和必讀文檔(README)等,為用戶特別是初學(xué)者提供了有用的信息。值得一提的是,UniProt 還提供基因組注釋數(shù)軌(Genome Annotation Tracks),用戶可用基因組瀏覽器(Genome Browser)查看UniProt序列條目的注釋信息,為基因組研究提供了很大幫助。需要說明的是,UniProt數(shù)據(jù)庫某些數(shù)據(jù)集的數(shù)據(jù)量極大,需要很大的存儲空間和網(wǎng)絡(luò)帶寬,下載時須謹(jǐn)慎。

3.5 統(tǒng)計(jì)報表

UniProt網(wǎng)站統(tǒng)計(jì)報表提供了大量信息,內(nèi)容十分豐富,本文第4部分專門介紹。

3.6 數(shù)據(jù)遞交

盡管UniProt數(shù)據(jù)庫的絕大部分?jǐn)?shù)據(jù)均由數(shù)據(jù)庫開發(fā)團(tuán)隊(duì)收集,用戶也可向UniProt遞交序列數(shù)據(jù),包括用質(zhì)譜等方法測得的蛋白質(zhì)序列和用DNA測序所得的核苷酸序列,后者在存放到數(shù)據(jù)庫前由計(jì)算機(jī)自動翻譯成蛋白質(zhì)序列。此外,UniProt鼓勵用戶對數(shù)據(jù)庫中的條目提交校正和更新信息,以提高數(shù)據(jù)庫注釋質(zhì)量。

3.7 應(yīng)用程序接口

UniProt網(wǎng)站提供的應(yīng)用程序接口(Application Programming Interface, API),為通過計(jì)算機(jī)程序查詢和獲取UniProt數(shù)據(jù)庫中的序列或各種注釋信息提供了方便。通過基于表征性狀態(tài)轉(zhuǎn)移規(guī)范(Representational State Transfer, REST)的網(wǎng)頁訪問應(yīng)用程序接口,既可訪問單個序列條目,也可批量訪問多個序列條目;既可通過網(wǎng)頁地址直接訪問某個序列條目,也可通過查詢語句訪問指定的序列條目。UniProt幫助文檔中給出了Perl, Python, RUBY, Java等計(jì)算機(jī)語言程序?qū)嵗晒┯脩魠⒖?。此外,UniProt還提供了利用REST應(yīng)用程序接口訪問序列條目在基因組上位置信息以及基因組注釋信息。而利用數(shù)據(jù)庫查詢應(yīng)用程序接口(SPARQL API),則可批量獲取UniProt后臺數(shù)據(jù)庫中數(shù)據(jù),構(gòu)建本地數(shù)據(jù)庫。此外,UniProt還提供了用于Java應(yīng)用程序接口的Java程序庫。

3.8 蛋白質(zhì)分子精選

UniProt網(wǎng)站另一個特色板塊是科普短文蛋白質(zhì)分子精選(Protein Spotlight),由Vivienne Gerritsen撰寫和維護(hù)。自2000年9月起,Gerritsen從UniProtKB知識庫中每月挑選一個特色蛋白質(zhì),用生動幽默的語言,講述該蛋白質(zhì)的故事,或介紹某個蛋白質(zhì)的特殊功能,如綠色熒光蛋白;或描述某個蛋白質(zhì)的發(fā)現(xiàn)過程,如胰島素;或關(guān)注某個蛋白質(zhì)背后的科學(xué)家,如血紅蛋白。通過文末文獻(xiàn)和登錄號,可進(jìn)一步了解該蛋白質(zhì)研究背景和最新進(jìn)展,在UniProtKB知識庫中查看其詳細(xì)注釋信息。截至2019年1月,一共撰寫了210篇科普短文。

4 UniProtKB統(tǒng)計(jì)報表

4.1 統(tǒng)計(jì)報表概況

UniProtKB知識庫通常每四周更新發(fā)布一次。每次發(fā)布新版時,同時發(fā)布Swiss-Prot和TrEMBL兩個子庫的統(tǒng)計(jì)報表(Release Statistics),除數(shù)據(jù)總量、更新情況、數(shù)據(jù)類別、物種分布等基本信息外,還列出所有注釋信息更新情況,包括常規(guī)注釋信息(General Annotation)、序列特征注釋信息(Sequence Feature)和數(shù)據(jù)庫交叉鏈接(Database Cross-reference)等。熟悉這些注釋信息,不僅有助于了解UniProtKB知識庫主要內(nèi)容,而且有助于通過高級檢索從數(shù)據(jù)庫中快速高效地獲取所需信息,有助于利用數(shù)據(jù)庫條目中豐富的注釋信息和數(shù)據(jù)庫交叉鏈接,深入了解研究課題相關(guān)或感興趣的蛋白質(zhì)。

根據(jù)分工,Swiss-Prot子庫原始統(tǒng)計(jì)報表由瑞士生物信息學(xué)研究所發(fā)布,而TrEMBL子庫原始統(tǒng)計(jì)報表由歐洲生物信息學(xué)研究所發(fā)布,而在UniProt網(wǎng)站上的統(tǒng)計(jì)報表則是則兩個原始報表的簡化版(見表1)。

表1 UniProtKB知識庫統(tǒng)計(jì)報表網(wǎng)址Table 1 URLs of the UniProtKB statistics

UniProtKB知識庫每次發(fā)布新版,統(tǒng)計(jì)報表中均給出新增條目數(shù)和更新條目數(shù)。更新條目絕大部分為注釋信息更新,僅有極少量條目的序列有所更新,如2019年1月發(fā)布的版本中,更新的36萬多條序列中,僅有22條的序列信息與上一版不同。

最近幾年,隨著DNA測序技術(shù)的不斷改進(jìn),測序成本快速下降,全基因組測序已經(jīng)成為基因組學(xué)和基礎(chǔ)醫(yī)學(xué)等研究的常規(guī)手段。因此,TrEMBL數(shù)據(jù)庫中數(shù)據(jù)量按指數(shù)級別快速增長。由于同一細(xì)菌的不同菌株由不同國家、不同研究機(jī)構(gòu)的不同測序結(jié)果翻譯成蛋白質(zhì)序列后,都存放到TrEMBL數(shù)據(jù)庫中,而絕大部分細(xì)菌不同菌株的同一個基因編碼的蛋白質(zhì)序列相同,這就帶來了數(shù)據(jù)庫冗余的問題。例如,2015年2月發(fā)布的TrEMBL子庫約含1 700個結(jié)核分枝桿菌(Mycobacteriumtuberculosis)的近600萬條序列。數(shù)據(jù)庫的高度冗余,不僅增加了維護(hù)管理成本,也不便于用戶查詢、搜索。為此,自2015年4月起,TrEMBL對上述冗余數(shù)據(jù)進(jìn)行適當(dāng)處理,去除了約4 700萬條冗余數(shù)據(jù),整個數(shù)據(jù)庫容量減少約一半。

4.2 數(shù)據(jù)類別

需要特別注意的是,UniProtKB知識庫中并非所有條目都具有蛋白質(zhì)存在證據(jù)(Protein Existence)。所謂蛋白質(zhì)存在證據(jù),是指已經(jīng)通過實(shí)驗(yàn)手段分離純化獲得該蛋白質(zhì)。即使是人工審閱的Swiss-Prot子庫,其中大部分條目也是由計(jì)算機(jī)推斷所得,人工審閱過程僅為審閱計(jì)算機(jī)推斷信息是否可靠,并不意味經(jīng)實(shí)驗(yàn)手段進(jìn)行驗(yàn)證。計(jì)算機(jī)推斷則包括根據(jù)轉(zhuǎn)錄本推斷、根據(jù)同源序列推斷和從頭預(yù)測三類(見表2)。具有編碼某蛋白質(zhì)的mRNA序列的條目稱為具有轉(zhuǎn)錄水平證據(jù),而直接從DNA序列推斷得到的序列又根據(jù)是否具有已知同源序列分為同源推斷和從頭預(yù)測兩類。這幾類不同蛋白質(zhì)存在證據(jù)的條目所占比例在Swiss-Prot和TrEMBL兩個子庫中很不相同。

此外,Swiss-Prot子庫中尚有部分存疑序列(Uncertain)。2009年1月發(fā)布的版本共包括1 834條存疑序列,列在前四位的699條來自釀酒酵母、576條來自人、117條來自擬南芥、108條來自大腸桿菌K12株。這些條目通常帶有“假想蛋白”(Putative Protein)或“未鑒定蛋白”(Uncharacterized Protein)等注釋信息,在功能注釋欄目下還有“警示”(Caution)信息,說明該蛋白質(zhì)序列有可能由假基因翻譯得到,或來自不太可靠的預(yù)測結(jié)果。為慎重起見,對這些已經(jīng)收錄的存疑序列,在沒有確定的證據(jù)前,一般仍加以保留。

4.3 物種分類學(xué)來源

物種分類學(xué)來源是蛋白質(zhì)序列最基本的注釋信息之一。UniProtKB知識庫中絕大部分序列條目都包含物種分類學(xué)來源信息,Swiss-Prot和TrEMBL兩個子庫統(tǒng)計(jì)報表中分別以餅狀圖方式給出物種分布大體情況。值得注意的是,無論是人工審閱序列還是未經(jīng)審閱序列,均以細(xì)菌序列居多,在兩個子庫中均占一半以上。真核生物序列在Swiss-Prot子庫中約占三分之一。除細(xì)菌和真核生物外,其余為古菌(Archaea)和病毒序列,比例較小,各占5%左右。真核生物序列又分為動物、植物、真菌三大類,而動物來源的序列又細(xì)分為哺乳動物、昆蟲和其它后生動物(Metazoa)。

表2 UniProtKB知識庫數(shù)據(jù)類別Table 2 Dataset type of the UniProtKB %

*數(shù)據(jù)來自UniProtKB知識庫2019年1月發(fā)布的統(tǒng)計(jì)報表。

通過Swiss-Prot子庫原始統(tǒng)計(jì)報表,還可以進(jìn)一步查詢某些物種具體序列條目數(shù)。例如,人的序列最多,共2萬多條,約占Swiss-Prot子庫總量的3.5%,其次是小鼠和擬南芥,均超過1.5萬條,而大鼠、斑馬魚、果蠅、線蟲、酵母以及水稻等其它模式生物的序列條目數(shù)也均超過3 000(見表3)。值得一提的是,大腸桿菌(Escherichiacoli)、枯草桿菌(Bacillussubtilis)和結(jié)核分枝桿菌(Mycobacteriumtuberculosis)的基因組均遠(yuǎn)小于真核生物,編碼的蛋白質(zhì)總數(shù)也僅幾千,但由于這三種細(xì)菌在分子生物學(xué)、工業(yè)生產(chǎn)和人類疾病研究中的重要性,Swiss-Prot注釋團(tuán)隊(duì)對它們“情有獨(dú)鐘”,收錄的序列條目數(shù)均名列前茅,大腸桿菌和結(jié)核分枝桿菌各有兩個菌株的序列條目數(shù)排在前20位。

表3 UniProtKB知識庫Swiss-Prot子庫中數(shù)據(jù)條目數(shù)前20位的物種Table 3 The first 20 species in the UniProtKB/Swiss-Prot based on entry numbers

4.4 序列長度分布

UniProtKB知識庫對收錄的蛋白質(zhì)序列長度進(jìn)行了分布統(tǒng)計(jì),并以直方圖形式展示(見圖1)。我們知道,生物多樣性是生命與非生命的重要區(qū)別之一,而生物多樣性的基礎(chǔ)很大程度上取決于種類繁多、大小不一的蛋白質(zhì)。UniProtKB知識庫中,長度為100-500 aa的序列數(shù)目最多,長度為500-2 000 aa的序列數(shù)目隨長度增加而逐漸減少,而長度為2 000-4 000 aa的序列則更少了。Swiss-Prot子庫中長度超過4 000個氨基酸的序列有300多個,其中分子量最大的是肌聯(lián)蛋白(Titin)。小鼠的肌聯(lián)蛋白(登錄號A2ASS6)共35 213個氨基酸,由300多個結(jié)構(gòu)域組成,包括144個免疫球蛋白類結(jié)構(gòu)域(Ig-like)、132個III型纖維連接蛋白(Fibronectin type-III),以及多個重復(fù)序列片段。把肌聯(lián)蛋白比作蛋白質(zhì)分子中的“巨無霸”一點(diǎn)也不過分,它是脊椎動物橫紋肌的重要組成部分,與肌肉收縮有關(guān)。人的肌聯(lián)蛋白(登錄號Q8WZ42)僅次于小鼠肌聯(lián)蛋白,共34 350個氨基酸。

圖1 UniProtKB知識庫Swiss-Prot子庫序列長度分布(2019年1月)Fig.1 The sequence length distribution of UniProt/Swiss-Prot (released in Jan 2019)

注: X-軸為序列長度,Y-軸為序列條目數(shù),長度大于4 000 aa的序列條目合并顯示。

需要說明的是,長度小于50個氨基酸(50 aa)的序列習(xí)慣上稱為肽(Peptide)或多肽(Polypepetide)。Swiss-Prot子庫中將近1萬條序列的長度小于50 aa,其中包括一大類多肽毒素,如蛇毒(Snake Toxin)、蝎毒(Scorpion Toxin)、蜘蛛毒素(Spider Toxin)、芋螺毒素(Conotoxin)等。上世紀(jì)九十年代以來,湖南師范大學(xué)梁宋平教授課題組一直從事蜘蛛毒素序列、結(jié)構(gòu)和功能研究[8]。他們從我國廣西、海南等丘陵地帶特有的捕鳥蛛(Chinese Bird Spider)毒液中分離純化得到一系列多肽類毒素,測定了它們的氨基酸序列和核磁共振溶液構(gòu)象。UniProtKB知識庫中收錄的海南捕鳥蛛(Cyriopagopushainanus)和虎紋捕鳥蛛(Cyriopagopusschmidti)多肽類毒素就達(dá)300多個。以九十年代初最早測定序列和溶液構(gòu)象的虎紋捕鳥蛛毒素-I(Huwentoxin-I)為例(UniProt登錄號P56676),編碼該多肽毒素的mRNA序列全長458 bp(GenBank登錄號AY263711),編碼區(qū)序列243 bp(71-313 bp),共編碼長度為81個氨基酸的虎紋捕鳥蛛毒素-I前體原(Pre-prohuwentoxin-I),在N-端1-24 aa信號肽的引導(dǎo)下,分泌到細(xì)胞外間質(zhì)中,信號肽切除后折疊成具有一定構(gòu)象但沒有活性的虎紋捕鳥蛛毒素-I前體(Prohuwentoxin-I);而在捕獵時切除第22-48 aa共27個氨基酸, 剩下的C-端33個氨基酸(49-81 aa)即為最終產(chǎn)物虎紋捕鳥蛛毒素-I。這種蜘蛛體型足有手掌大小,能捕食鳥類、青蛙等小動物,通過鰲爪將毒素注入獵物體內(nèi),阻斷其細(xì)胞膜上的鈣離子通道,抑制神經(jīng)肌肉信號傳遞。

4.5 氨基酸含量

盡管地球上的物種多種多樣,無論是動物還是植物,無論是細(xì)菌還是病毒,組成其蛋白質(zhì)的基本單元為氨基酸。氨基酸種類繁多,常見的有20種,而20種氨基酸的含量在蛋白質(zhì)中所占比例相去甚遠(yuǎn)(見表4),有些氨基酸的含量接近平均水平5%,如脯氨酸、蘇氨酸,有的則遠(yuǎn)高于平均水平,接近10%,如亮氨酸、丙氨酸,而有的則含量偏低,如色氨酸僅1%,半胱氨酸僅1.3%。

表4 UniProtKB知識庫中20種氨基酸含量百分比Table 4 Distribution percentage of 20 amino acids in UniProtKB

*數(shù)據(jù)來自UniProtKB知識庫2019年1月發(fā)布的統(tǒng)計(jì)報表。SP: Swiss-Prot子庫;Tr: TrEMBL子庫

4.6 常規(guī)注釋信息

如前文所述,除基本信息外,UniProtKB知識庫統(tǒng)計(jì)報表中還提供了大量注釋信息統(tǒng)計(jì)數(shù)據(jù)。注釋信息主要包括兩大類,一類是基于整條序列的常規(guī)注釋信息,如功能、表達(dá)、亞細(xì)胞定位等。表5列出2019年1月發(fā)布的Swiss-Prot子庫中所有常規(guī)注釋信息的中英文名稱和數(shù)量,及其在數(shù)據(jù)庫中條目數(shù)和占數(shù)據(jù)庫條目總量比例。例如,2019年1月發(fā)布的Swiss-Prot子庫條目總數(shù)為559 077,其中445 565條序列具有功能注釋,占數(shù)據(jù)庫條目總數(shù)的83%,注釋信息共466 212條(有些條目的注釋信息不止一條)。

4.7 序列特征注釋信息

UniProtKB知識庫中另一類注釋信息不是基于整條序列或整個蛋白質(zhì),而是基于序列特定區(qū)域或特定位點(diǎn),因此也稱序列特征注釋信息。序列特征注釋信息共分以下七大類。

(1)分子加工(Molecular Processing)

包括信號肽(Signal Peptide)、轉(zhuǎn)移肽(Transition Peptide)、前體肽(Propeptide)、N-末端甲硫氨酸等。

(2)序列區(qū)域(Region)

包括結(jié)構(gòu)域(Domain)、序列模體(Motif)、重復(fù)序列(Repeat)、無規(guī)卷曲(Coiled Coil)、跨膜螺旋(Transmembrane)、鋅指結(jié)構(gòu)(Zinc Finger)、DNA結(jié)合區(qū)(DNA Binding)、核苷酸結(jié)合區(qū)(Nucleotide Binding)、鈣結(jié)合區(qū)(Calcium Binding)等。

(3)序列位點(diǎn)(Site)

包括活性位點(diǎn)(Active Site)、金屬結(jié)合位點(diǎn)(Metal Binding)等。

(4)氨基酸修飾(Amino Acid Modification)

包括二硫鍵(Disulfide Bond)、糖基化(Glycosylation)、脂質(zhì)化(Lipidation)、交聯(lián)鍵(Cross-link)、非標(biāo)準(zhǔn)氨基酸(Non-standard Residue)等。

(5)天然變異(Natural Variations)

包括天然突變位點(diǎn)和選擇性剪接產(chǎn)物(Alternative Splicing)。

(6)實(shí)驗(yàn)信息(Experimental Information)

包括突變(Mutagenesis)、非連續(xù)氨基酸(Non-adjacent Residues)、非末端氨基酸(Non-terminal Residues)、存疑序列(Sequence Uncertainty)、矛盾序列(Sequence Conflict)等。

(7)二級結(jié)構(gòu)(Secondary Structure)

包括alpha螺旋(Alpha Helix)、beta折疊(Beta Sheet)、beta回折(Beta Turn)。

表5 UniProtKB知識庫Swiss-Prot子庫中常規(guī)注釋信息統(tǒng)計(jì)表Table 5 Statistics of general annotation in UniProt/Swiss-Prot

4.8 數(shù)據(jù)庫交叉鏈接

除上述常規(guī)注釋信息和序列特征注釋信息外,UniProtKB知識庫中序列條目與其它數(shù)據(jù)庫的交叉鏈接則是另外一類重要注釋信息。

生物信息數(shù)據(jù)庫種類繁多,內(nèi)容千差萬別,數(shù)據(jù)量大小、數(shù)據(jù)質(zhì)量也參差不齊。據(jù)中國科學(xué)院基因組研究所大數(shù)據(jù)中心構(gòu)建的“生物數(shù)據(jù)庫目錄”(Database Commons)網(wǎng)站(http://bigd.big.ac.cn/databasecommons/)不完全統(tǒng)計(jì),國際上已經(jīng)發(fā)表的生物數(shù)據(jù)庫共計(jì)4 500多個。1996年起,英國牛津大學(xué)出版社出版的《核酸研究》半月刊(Nucleic Acids Research, NAR)于每年第一期出版專集,專門刊登有關(guān)生物信息數(shù)據(jù)庫論文。2009年,牛津大學(xué)出版社創(chuàng)刊的網(wǎng)絡(luò)雜志《生物數(shù)據(jù)庫和審編》(The Journal of Biological Databases and Curation, JBDC)上線,專門發(fā)表生物信息數(shù)據(jù)庫相關(guān)論文。除上述兩個雜志外,牛津大學(xué)出版社出版的《生物信息學(xué)》(Bioinformatics)和《生物信息學(xué)簡報》(Briefings in Bioinformatics)、英國生物醫(yī)學(xué)核心期刊出版集團(tuán)(Biomed Central, BMC)出版的《BMC 生物信息學(xué)》(BMC Bioinformatics)等雜志也不定期刊登生物信息數(shù)據(jù)庫相關(guān)論文。

為便于用戶快速查看某個蛋白質(zhì)在其它數(shù)據(jù)庫中的信息,UniProtKB知識庫中收錄了100多個重要生物信息數(shù)據(jù)庫,并通過序列條目中的數(shù)據(jù)庫交叉鏈接,直接查看該數(shù)據(jù)庫中有關(guān)該蛋白質(zhì)的信息,如蛋白質(zhì)編碼基因序列、基因組定位、蛋白質(zhì)代謝通路、蛋白質(zhì)相互作用、蛋白質(zhì)三維結(jié)構(gòu)、蛋白質(zhì)表達(dá)、亞細(xì)胞定位、蛋白質(zhì)家族和結(jié)構(gòu)域、演化和系統(tǒng)發(fā)生等。UniProtKB知識庫統(tǒng)計(jì)報表中將上述100多個數(shù)據(jù)庫分為以下幾類,每類包括幾個或十幾個各具特色的數(shù)據(jù)庫。

(1)序列數(shù)據(jù)庫(Sequence Databases)

包括NCBI人和小鼠共有編碼序列數(shù)據(jù)庫(Consensus Coding Sequences, CCDS)、NCBI參考序列數(shù)據(jù)庫(RefSeq)、EBI核酸序列數(shù)據(jù)庫(EMBL)等。

(2)蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫(3D Structure Databases)

包括國際蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(Protein Data Bank, PDB)、EBI蛋白質(zhì)結(jié)構(gòu)概覽(PDBSUM)、國際蛋白質(zhì)結(jié)構(gòu)模型數(shù)據(jù)庫(Protein Model Portal)、瑞士生物信息研究所蛋白質(zhì)結(jié)構(gòu)同源模型數(shù)據(jù)庫(Swiss Model Repository, SMR)等。

(3)蛋白質(zhì)相互作用數(shù)據(jù)庫(Protein-protein Interaction Databases)

包括國際模式生物基因和蛋白質(zhì)相互作用數(shù)據(jù)庫(The Biological General Repository for Interaction Datasets, BioGRID)、EBI 生物大分子相互作用數(shù)據(jù)庫(Molecular Interaction Database, IntAct)和手工注釋的生物大分子復(fù)合物數(shù)據(jù)庫(Complex Portal)、歐洲分子生物學(xué)實(shí)驗(yàn)室(European Molecular Biology Laboratory, EMBL)與瑞士生物信息學(xué)研究所等合作維護(hù)的蛋白質(zhì)相互作用數(shù)據(jù)庫(Search Tool for Recurring Instances of Neighbouring Genes, STRING)、德國哺乳動物蛋白質(zhì)復(fù)合物綜合資源庫(Comprehensive Resource for Mammalian Protein Complex, CORUM)、美國加州大學(xué)洛杉磯分校具有實(shí)驗(yàn)證據(jù)的蛋白質(zhì)相互作用數(shù)據(jù)庫(Database of Interacting Proteins)等。

(4)化學(xué)小分子數(shù)據(jù)庫(Chemistry Databases)

包括EBI藥物類生物活性分子數(shù)據(jù)庫(ChEMBL)、加拿大阿爾貝塔大學(xué)(University of Alberta)藥物和藥物靶標(biāo)數(shù)據(jù)庫(DrugBank)、國際基礎(chǔ)和臨床藥理學(xué)會(International Union of Basic and Clinical Pharmacology, IUPHAR)和英國藥理學(xué)會(British Pharmacology Society)合作構(gòu)建的藥理信息網(wǎng)站(Guide to Pharmacology)、加州大學(xué)圣地亞哥分校(UCSD)蛋白質(zhì)和化學(xué)小分子結(jié)合數(shù)據(jù)庫(Binding Database)等。

(5)特殊類別蛋白質(zhì)數(shù)據(jù)庫(Family/Group Databases)

包括國際食品過敏特異免疫治療聯(lián)盟(Food Allergy Specific ImmunoTherapy)過敏分子數(shù)據(jù)庫(Allergome)、EBI蛋白酶數(shù)據(jù)庫(MEROPS)、法國艾克斯-馬賽大學(xué)(Aix Marseille University)糖代謝酶(Carbohydrate-Active Enzyme Database, CAZy)和多功能蛋白質(zhì)數(shù)據(jù)庫(MoonDB)、法國圖盧茲大學(xué)(University of Toulouse)過氧化物酶數(shù)據(jù)庫(PeroxiBase)、新英格蘭生物實(shí)驗(yàn)室(New England BioLabs)限制性內(nèi)切酶數(shù)據(jù)庫(REBASE)、美國加州大學(xué)戴維斯分校(UC Davis)轉(zhuǎn)運(yùn)蛋白分類數(shù)據(jù)庫(Transporter Classification Database, TCDB)、瑞士生物信息研究所凝集素數(shù)據(jù)庫(UniLectin)、加拿大康考迪亞大學(xué)(Concordia University)真菌源木質(zhì)纖維素蛋白質(zhì)數(shù)據(jù)庫(mycoCLAP)等。

(6)翻譯后修飾數(shù)據(jù)庫(Post-translational Modification (PTM) Databases)

包括蛋白質(zhì)翻譯后修飾數(shù)據(jù)庫(iPTMNet)、蛋白質(zhì)羰基化位點(diǎn)數(shù)據(jù)庫(CarbonylDB)、蛋白質(zhì)糖基化數(shù)據(jù)庫(Glyconnect)、糖生物學(xué)數(shù)據(jù)庫(UniCarbKB)人類去磷酸化數(shù)據(jù)庫(DEPOD)等。

(7)多態(tài)性和突變體數(shù)據(jù)庫(Polymorphism Databases)

包括NCBI單核苷酸多態(tài)性數(shù)據(jù)庫(dbSNP)、美國喬治-華盛頓大學(xué)癌癥相關(guān)單核苷酸多態(tài)性數(shù)據(jù)庫(BioMuta)等。

(8)雙向凝膠電泳數(shù)據(jù)庫(2D Gel Databases)

包括瑞士雙向聚丙烯酰胺凝膠電泳數(shù)據(jù)庫(Swiss-2DPage)、南京大學(xué)醫(yī)學(xué)院生殖相關(guān)雙向聚丙烯酰胺凝膠電泳數(shù)據(jù)庫(Reproduction-2DPage)、愛爾蘭都柏林大學(xué)雙向聚丙烯酰胺凝膠電泳數(shù)據(jù)庫(UCD 2D-Page)等。

(9)蛋白組數(shù)據(jù)庫(Proteome Databases)

包括EBI蛋白質(zhì)組鑒定數(shù)據(jù)庫(Pride)、國際蛋白組聯(lián)盟蛋白組數(shù)據(jù)庫(CTDB)、蘇格蘭蛋白組動態(tài)百科全書(EPD)、瑞士生物信息研究所蛋白質(zhì)豐度數(shù)據(jù)庫(PaxDB)、德國馬普所蛋白組數(shù)據(jù)庫(MaxDB)、西雅圖蛋白組中心肽段數(shù)據(jù)庫(PeptideAtlas)、日本蛋白組數(shù)據(jù)庫(jPOST)、奧地利維也納大學(xué)蛋白組數(shù)據(jù)庫(ProMex)等。

(10) 基因組注釋數(shù)據(jù)庫(Genome Annotation Databases)

包括EBI基因組注釋平臺和數(shù)據(jù)庫(Ensembl)、美國加州大學(xué)圣克魯茲分校的基因組瀏覽器(UCSC)、NCBI基因數(shù)據(jù)庫(GeneID)、日本京都大學(xué)基因和基因組百科全書(KEGG)、國際植物基因組注釋數(shù)據(jù)庫(Gramene)、美國過敏和傳染病研究所病原菌信息資源中心(Patric)和無脊椎動物病原菌數(shù)據(jù)庫(VectorBase)等。

(11) 特殊物種數(shù)據(jù)庫(Organism-specific Databases)

UniProt數(shù)據(jù)庫中與特殊物種數(shù)據(jù)庫的交叉鏈接共三十多個,其中大部分是模式生物基因組數(shù)據(jù)庫,包括小鼠(MGI)、大鼠(RGD)、非洲爪蟾(Xenbase)、斑馬魚(ZFIN)、果蠅(Flybase)、線蟲(WormBase);擬南芥(TAIR和Araport)、玉米(MaizeDB);釀酒酵母(SGD)、裂殖酵母(PomBase);大腸桿菌(EcoBase)、結(jié)核分枝桿菌(TubercuList)、嗜肺性軍團(tuán)病桿菌(LegioList)、念珠菌(CGD)、盤基網(wǎng)柄菌(dictyBase);丙肝病毒(euHCVdb)等。另一類是與人類健康關(guān)系密切的基因和蛋白質(zhì)數(shù)據(jù)庫,如人類孟德爾單基因疾病數(shù)據(jù)庫(MIM)、人類基因、蛋白、疾病數(shù)據(jù)庫(GeneCards)、人類蛋白質(zhì)組織特異性表達(dá)(HPA)、藥理遺傳學(xué)和基因組數(shù)據(jù)庫(PharmGKB)、比較環(huán)境毒理學(xué)數(shù)據(jù)庫(CTD)、人類基因及變異與疾病相關(guān)數(shù)據(jù)庫(DisGeNet)、真核生物病原菌數(shù)據(jù)庫(EuPathDB)。第三類是某些特殊物種的特殊蛋白質(zhì)數(shù)據(jù)庫,如蜘蛛毒素(ArachnoSever)和芋螺毒素(ConoSever)。此外還包括人類和脊椎動物基因命名數(shù)據(jù)庫(HGNC和VGNC)。

(12) 系統(tǒng)發(fā)生數(shù)據(jù)庫(Phylogenomic Databases)

包括Ensembl基因樹數(shù)據(jù)庫(GeneTree)、EBI動物基因樹(TreeFam數(shù)據(jù)庫)、歐洲分子生物學(xué)實(shí)驗(yàn)室直系同源簇和功能注釋數(shù)據(jù)庫(eggNOG)、瑞士生物信息研究所直系同源基因數(shù)據(jù)庫(OrthoDB)、瑞士蘇黎世大學(xué)直系同源數(shù)據(jù)庫(OMA)、瑞典直系同源簇數(shù)據(jù)庫(inParanoid)等。

(13) 酶和代謝通路數(shù)據(jù)庫(Enzyme and Pathway Databases)

包括國際生物反應(yīng)和過程知識庫(REACTOME)、德國酶學(xué)數(shù)據(jù)庫(BRENDA)、意大利信號網(wǎng)絡(luò)開放資源(SIGNOR)、德國海德堡生物化學(xué)反應(yīng)和動力學(xué)數(shù)據(jù)庫(SABIO-RK)、日本京都大學(xué)代謝通路數(shù)據(jù)庫(KEGG)等。

(14) 基因表達(dá)數(shù)據(jù)庫(Gene Expression Databases)

包括EBI基因表達(dá)數(shù)據(jù)庫(ExpressionAtlas)、瑞士生物信息學(xué)研究所正常組織基因表達(dá)數(shù)據(jù)庫(Bgee)等。

(15) 蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫(Family/Domain Databases)

包括EBI綜合蛋白質(zhì)序列分類數(shù)據(jù)庫和分析平臺(InterPro)和蛋白質(zhì)家族和結(jié)構(gòu)域數(shù)據(jù)庫(Pfam)、歐洲分子生物學(xué)實(shí)驗(yàn)室蛋白質(zhì)結(jié)構(gòu)域分類數(shù)據(jù)庫和分析平臺(SMART)、NCBI保守結(jié)構(gòu)域數(shù)據(jù)庫(CDD)、美國南加州大學(xué)蛋白組功能和演化數(shù)據(jù)庫(PANTHER)、美國喬治敦大學(xué)基于全長序列的蛋白組分類數(shù)據(jù)庫(PIRSF)、倫敦大學(xué)蛋白質(zhì)分類數(shù)據(jù)庫CATH中結(jié)構(gòu)域數(shù)據(jù)庫(Gene3D)、英國劍橋大學(xué)蛋白質(zhì)結(jié)構(gòu)和功能注釋數(shù)據(jù)庫(SuperFamily)、英國曼切斯特大學(xué)蛋白組指紋圖譜數(shù)據(jù)庫(PRINTS)、瑞士生物信息研究所蛋白質(zhì)功能位點(diǎn)數(shù)據(jù)庫(Prosite)、法國蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(ProDom)等。

5 討 論

5.1 本文統(tǒng)計(jì)數(shù)據(jù)說明

本文列出了許多統(tǒng)計(jì)數(shù)據(jù),以便讀者對UniProt數(shù)據(jù)庫中不同數(shù)據(jù)集的數(shù)據(jù)量有一個大體了解,如上文提到的“Swiss-Prot子庫約含56萬條序列,而TrEMBL子庫的數(shù)據(jù)量將近1.4億條”。讀者不必拘泥于具體數(shù)字,UniProt數(shù)據(jù)庫每4周更新一次,這些統(tǒng)計(jì)數(shù)字隨著UniProt數(shù)據(jù)庫的更新而不斷變化。本文初稿于2019年2月初完成,文中數(shù)據(jù)均來自UniProt數(shù)據(jù)庫網(wǎng)站2019年1月16日發(fā)布的版本,而文章于4月底定稿時文中統(tǒng)計(jì)數(shù)據(jù)和最新版統(tǒng)計(jì)報表中有所不同。讀者若需要了解不同版本的統(tǒng)計(jì)數(shù)據(jù),可以查閱每個版本的統(tǒng)計(jì)報表。

5.2 現(xiàn)有蛋白質(zhì)序列是個很小的子集

隨著基因組測序不斷進(jìn)展,UniProt數(shù)據(jù)庫數(shù)據(jù)量快速增長。然而,目前我們所測得的序列,只是蛋白質(zhì)序列空間(即所有可能序列)的一小部分。我們知道,蛋白質(zhì)序列是由20種不同氨基酸組成的線性分子,以序列長度為6個氨基酸為例,理論上可有6 400萬(206)種排列方式,即6 400萬種不同序列;當(dāng)序列長度增加到8時,則有256億種排列方式;當(dāng)序列長度增加到10時,則有1 024萬億種排列方式。而通常蛋白質(zhì)序列長度遠(yuǎn)遠(yuǎn)不止10個氨基酸,理論上蛋白質(zhì)序列空間是個天文數(shù)字。根據(jù)UniParc統(tǒng)計(jì)數(shù)據(jù),迄今為止已收錄到數(shù)據(jù)庫中的蛋白組序列總數(shù)約2.5億條,而UniRef100參考集中各不相同的序列約1.7億條。這就是說,今天我們從地球上現(xiàn)存所有生物體中鑒定到的所有蛋白質(zhì)序列,是蛋白質(zhì)序列空間的一個很小子集。已故理論物理學(xué)和生物信息學(xué)家郝柏林先生在“基因組測序永無止境的根本原因”一文中指出:“從自然界中抽提出來的生物學(xué)符號序列,不是隨機(jī)序列,而屬于同等長度或更長的序列集合中的非典型序列子集合,對它們幾乎要一條一條地具體研究”。言下之意,就是說自然界中實(shí)際存在的蛋白質(zhì)序列,是億萬年演化的結(jié)果,而不是隨機(jī)產(chǎn)生的[10]。

5.3 UniProt給我們的啟示

從統(tǒng)計(jì)報表可以看出,最近幾年,UniProt數(shù)據(jù)庫總體數(shù)據(jù)量增長很快,而Swiss-Prot子庫數(shù)據(jù)量增長很慢(見表6)。這是因?yàn)椋琒wiss-Prot子庫所有條目都需人工審閱。

盡管目前瑞士生物信息研究所有一支將近四十人的數(shù)據(jù)庫注釋團(tuán)隊(duì),仍遠(yuǎn)遠(yuǎn)不能滿足需求。二十年前,已故北京大學(xué)生命科學(xué)學(xué)院教授顧孝誠曾向瑞士科學(xué)基金會建議,從我國生命科學(xué)領(lǐng)域選派若干博士生或博士后,加入Swiss-Prot數(shù)據(jù)庫注釋團(tuán)隊(duì),為國際生物信息數(shù)據(jù)庫資源建設(shè)作出應(yīng)有貢獻(xiàn),也向國際同行學(xué)習(xí)數(shù)據(jù)庫開發(fā)的有益經(jīng)驗(yàn)。這一建議雖得到當(dāng)時瑞士科學(xué)基金會和Swiss-Prot負(fù)責(zé)人支持,由于各種各樣的原因,卻始終未能實(shí)現(xiàn)。最近三十多年來,基因組、轉(zhuǎn)錄組、蛋白組和蛋白質(zhì)三維結(jié)構(gòu)等數(shù)據(jù)飛速增長,生命科學(xué)研究大數(shù)據(jù)時代已經(jīng)到來,這些數(shù)據(jù)中的信息有待于我們挖掘,而數(shù)據(jù)庫注釋則是數(shù)據(jù)挖掘的基礎(chǔ),需要大量人力物力。十分遺憾的是,無論是國際核酸序列數(shù)據(jù)庫聯(lián)盟(International Nucleotide Sequence Database Collaboration, INSDC),還是國際蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(Worldwide Protein Data Bank, wwPDB),或者是UniProt國際蛋白質(zhì)序列數(shù)據(jù)庫,均沒有我國參與,這與世界第二經(jīng)濟(jì)體的大國地位很不相稱。為改變上述情況,中國科學(xué)院北京基因組研究所(Beijing Institute of Genomics, BIG)于2015年底成立了大數(shù)據(jù)中心(BIG Data Center, BIGD, http://bigd.big.ac.cn/)。幾年來,BIGD在基因組數(shù)據(jù)匯交、整合、發(fā)布,專業(yè)數(shù)據(jù)庫構(gòu)建、注釋等方面取得了卓有成效的進(jìn)展[9]。UniProt蛋白質(zhì)數(shù)據(jù)庫及其前身PIR-PSQ, Swiss-Prot和TrEMBL等創(chuàng)建三十多年來,一直秉承為廣大用戶提供公益性無償服務(wù)的宗旨,已經(jīng)成為生命科學(xué)和生物工程研究開發(fā)不可或缺的寶貴資源,其成功經(jīng)驗(yàn)值得借鑒。

表6 UniProt數(shù)據(jù)庫主要統(tǒng)計(jì)數(shù)據(jù)Table 6 Main statistics of different datasets in UniProt

5.4 后記

UniProt是以蛋白質(zhì)序列為核心的蛋白質(zhì)知識寶庫,內(nèi)容十分豐富。自2001年起,筆者在北京大學(xué)生命科學(xué)學(xué)院和中國農(nóng)業(yè)科學(xué)院研究生院開設(shè)《實(shí)用生物信息技術(shù)》(Applied Bioinformatics Course, ABC)研究生課程[11]。ABC是一門上機(jī)操作課(http://abc.cbi.pku.edu.cn/),UniProt數(shù)據(jù)庫是本課程主要內(nèi)容之一[12]。選修本課程的同學(xué),通過高級檢索從UniProtKB知識庫中查找自己研究課題相關(guān)蛋白質(zhì),瀏覽該蛋白質(zhì)注釋信息,并通過數(shù)據(jù)庫交叉鏈接,進(jìn)一步查看該蛋白質(zhì)及其編碼基因信息,為課題實(shí)驗(yàn)研究提供參考。教學(xué)實(shí)踐中深刻體會到,若要快速高效找到感興趣的蛋白質(zhì),并充分利用UniProtKB中該蛋白質(zhì)的注釋信息,有必要了解UniProt數(shù)據(jù)庫的基本內(nèi)容,搞清常規(guī)注釋信息、序列特征信息,數(shù)據(jù)庫交叉鏈接等基本概念。希望本文能為生命科學(xué)和生物技術(shù)研究開發(fā)人員對UniProt數(shù)據(jù)庫的使用有所裨益。限于筆者水平,對該數(shù)據(jù)庫也只是有個粗淺了解,本文許多地方也只是淺嘗輒止。文中謬誤和遺漏之處,懇請讀者發(fā)送郵件(uniprot@pku.edu.cn)指正,筆者將在正在編寫的教科書中予以更正。在了解該數(shù)據(jù)庫基本情況后,讀者可結(jié)合課題研究實(shí)際需要,參閱UniProt網(wǎng)站幫助文檔,閱讀相關(guān)文獻(xiàn),邊學(xué)邊用、邊用邊學(xué),在使用過程中逐步熟悉和用好UniProt,也歡迎讀者通過郵件交流使用過程中的心得體會。

致 謝

本文撰寫過程中,得到了北京蛋白組研究中心朱偉民、Henning Hermjacob的幫助;感謝兩名審稿人以及江志強(qiáng)、文可佳、周群飛、楊冬英對本文初稿所提寶貴的修改意見。

猜你喜歡
知識庫條目蛋白質(zhì)
蛋白質(zhì)自由
人工智能與蛋白質(zhì)結(jié)構(gòu)
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
《詞詮》互見條目述略
Can we treat neurodegenerative diseases by preventing an age-related decline in microRNA expression?
高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
對縣級二輪修志采用結(jié)構(gòu)體式的思考
位置與方向測試題
不服不行的搜索記錄