国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生物數(shù)據(jù)結(jié)構(gòu)化淺析
——以FlyBase為例

2014-07-27 06:20陳志鵬
創(chuàng)新科技 2014年14期
關(guān)鍵詞:數(shù)據(jù)結(jié)構(gòu)結(jié)構(gòu)化生物學(xué)

陳志鵬

(鄭州城市職業(yè)學(xué)院圖書館,河南 鄭州 452370)

生物數(shù)據(jù)結(jié)構(gòu)化淺析
——以FlyBase為例

陳志鵬

(鄭州城市職業(yè)學(xué)院圖書館,河南 鄭州 452370)

本文分析了生物數(shù)據(jù)結(jié)構(gòu)化面臨的責(zé)任和挑戰(zhàn),并以FlyBase生物模型數(shù)據(jù)庫為例,介紹了FlyBase進(jìn)行生物數(shù)據(jù)結(jié)構(gòu)化處理的工作流程,最后對(duì)生物數(shù)據(jù)結(jié)構(gòu)化工作的開展進(jìn)行了總結(jié)和展望。

生物數(shù)據(jù)結(jié)構(gòu)化;生物信息學(xué);生物模型數(shù)據(jù)庫

隨著互聯(lián)網(wǎng)Web2.0和云技術(shù)的發(fā)展、普及,互聯(lián)網(wǎng)數(shù)據(jù)信息在原有快速增長的基礎(chǔ)上又有了指數(shù)級(jí)別的激增。同時(shí),生物信息學(xué)、基因遺傳學(xué)科技的突飛猛進(jìn),也帶動(dòng)了相關(guān)醫(yī)學(xué)研究領(lǐng)域的發(fā)展,醫(yī)學(xué)文獻(xiàn)增長位居各學(xué)科之首。截止2008年7月,PubMed已經(jīng)擁有1.8億篇文獻(xiàn)[1]。研究人員面對(duì)如此龐大的數(shù)據(jù),如何從上億篇文獻(xiàn)中快速、準(zhǔn)確地找到有價(jià)值的信息,是一個(gè)亟待解決的難題。2008年,《Nature》雜志在“Big data:The future of biocuration”一文中提出了“Biocuration(生物數(shù)據(jù)結(jié)構(gòu)化)”的概念,提出利用數(shù)據(jù)結(jié)構(gòu)化處理,對(duì)生物學(xué)信息進(jìn)行組織、表述和轉(zhuǎn)換,從而讓研究人員和計(jì)算機(jī)軟件可以方便的獲取相關(guān)信息[1]。雖然在線數(shù)據(jù)庫已經(jīng)成為科研人員收集信息,獲取前沿資訊和發(fā)表研究成果的重要途徑,但現(xiàn)在生物數(shù)據(jù)進(jìn)行結(jié)構(gòu)化管理的速度卻遠(yuǎn)遠(yuǎn)滯后于數(shù)據(jù)產(chǎn)生的速度。國外的生物學(xué)數(shù)據(jù)庫種類眾多,大大超過了國內(nèi)的數(shù)據(jù)庫數(shù)量。比如像FlyBase,WormBase和Mouse Genome Informatics等通用生物模型數(shù)據(jù)庫(同類型數(shù)據(jù)庫超過20個(gè));像GenBank,UniProt和Protein Data Bank這樣的基因序列數(shù)據(jù)庫;還有諸如PubMed這樣的生物書目數(shù)據(jù)庫等。另外,國外還有上百個(gè)實(shí)驗(yàn)驅(qū)動(dòng)型,特定主題的小型數(shù)據(jù)庫,包括BioGRID,F(xiàn)lyExpress和Homophila等等[2]。

在線數(shù)據(jù)庫的種類和數(shù)量如此龐大,科研人員如果想快速、準(zhǔn)確地獲取相關(guān)信息,就必須對(duì)這些生物數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。生物數(shù)據(jù)結(jié)構(gòu)化處理自產(chǎn)生以來,一直隨著生物科技的發(fā)展和生物數(shù)據(jù)量的增長,不斷發(fā)展變化。

1 生物數(shù)據(jù)結(jié)構(gòu)化的責(zé)任與挑戰(zhàn)

1.1 生物數(shù)據(jù)結(jié)構(gòu)化的目的。生物數(shù)據(jù)結(jié)構(gòu)化的主要目的是從浩如煙海、不斷增長的生物學(xué)信息中發(fā)現(xiàn)、收集數(shù)據(jù),分析、提取出有價(jià)值的信息,并以標(biāo)準(zhǔn)的格式進(jìn)行整合、表述,最后以統(tǒng)一的檢索入口提供給各行各業(yè)的用戶,從而讓科研人員可以很容易地從各種復(fù)雜的生物學(xué)信息中找到他們所需要的內(nèi)容。對(duì)于FlyBase這樣的生物模型數(shù)據(jù)庫,生物數(shù)據(jù)結(jié)構(gòu)化的工作主要包括標(biāo)識(shí)相關(guān)生物學(xué)文獻(xiàn),利用語料庫對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換,方便檢索,并與數(shù)據(jù)庫和網(wǎng)站開發(fā)人員一起合作,保證所有生物數(shù)據(jù)的可用性。

1.2 生物數(shù)據(jù)結(jié)構(gòu)化的挑戰(zhàn)。近年來,生物學(xué)研究日新月異,新的研究方法不斷涌現(xiàn),因此生物數(shù)據(jù)結(jié)構(gòu)化工作也必須與之相適應(yīng)。每年不光生物學(xué)數(shù)據(jù)量增長迅猛,數(shù)據(jù)的格式和種類也在不斷豐富,這給生物數(shù)據(jù)結(jié)構(gòu)化帶來前所未有的挑戰(zhàn)。如果一直處理以前已經(jīng)非常熟悉,理解透徹的生物學(xué)數(shù)據(jù)相對(duì)容易。因?yàn)榻?jīng)過長時(shí)間的經(jīng)驗(yàn)積累,已建立起一套成熟的數(shù)據(jù)處理流程,但對(duì)于新產(chǎn)生的生物學(xué)數(shù)據(jù)來說,要充分理解數(shù)據(jù)內(nèi)容,建立相應(yīng)的數(shù)據(jù)庫結(jié)構(gòu)并開發(fā)數(shù)據(jù)結(jié)構(gòu)化協(xié)議,會(huì)成倍地增加工作量,使數(shù)據(jù)結(jié)構(gòu)化工作就變得異常困難。雖然很多數(shù)據(jù)庫都在想辦法用程序來解決一部分?jǐn)?shù)據(jù)結(jié)構(gòu)化處理的問題,比如用文本挖掘技術(shù)或其他軟件技術(shù)從文獻(xiàn)中自動(dòng)提取元數(shù)據(jù),但現(xiàn)在的數(shù)據(jù)結(jié)構(gòu)化處理工作主要還得靠生物學(xué)專家來完成。尤其對(duì)于像FlyBase這樣的生物模型數(shù)據(jù)庫,文本挖掘工具有時(shí)候甚至?xí)?yán)重影響數(shù)據(jù)的結(jié)構(gòu)化處理。比如很多的基因名稱中包含了太多的常用詞,即使是一些很簡單的基因名稱標(biāo)識(shí)工作都很難用文本挖掘工具來完成。當(dāng)然,生物數(shù)據(jù)結(jié)構(gòu)化處理工作的挑戰(zhàn),除了軟件原因以外,還會(huì)遇到很多人為因素的影響。一般情況下,生物數(shù)據(jù)結(jié)構(gòu)化專家必須與文獻(xiàn)作者合作,花費(fèi)大量精力才能快速、準(zhǔn)確地發(fā)現(xiàn)文獻(xiàn)中的基因?qū)ο螅ū热缁?、等位基因和重組基因)和實(shí)驗(yàn)結(jié)果。但如果文獻(xiàn)作者沒有提供標(biāo)準(zhǔn)的統(tǒng)一標(biāo)識(shí)符,或者文獻(xiàn)中的相關(guān)信息不完整,就會(huì)導(dǎo)致很多有價(jià)值的數(shù)據(jù)無法被結(jié)構(gòu)化處理,也就沒辦法在數(shù)據(jù)庫中提供使用。這同樣會(huì)導(dǎo)致生物數(shù)據(jù)結(jié)構(gòu)化工作效率降低,速度異常緩慢。

2 FlyBase的數(shù)據(jù)結(jié)構(gòu)化流程

FlyBase數(shù)據(jù)庫主要收錄與果蠅研究相關(guān)的數(shù)據(jù),它把表型數(shù)據(jù),分子數(shù)據(jù)和基因數(shù)據(jù)進(jìn)行整合,為用戶提供統(tǒng)一的檢索入口。FlyBase的數(shù)據(jù)結(jié)構(gòu)化過程主要是以標(biāo)準(zhǔn)化的方法從文獻(xiàn)中提取相關(guān)信息,并將其與數(shù)據(jù)庫中已有的數(shù)據(jù)進(jìn)行融合(見圖1)。最終目的是在數(shù)據(jù)結(jié)構(gòu)化過程中發(fā)現(xiàn)生物實(shí)驗(yàn)中使用的基因和分子對(duì)象,并將其與實(shí)驗(yàn)結(jié)果建立關(guān)聯(lián),為用戶提供不同的數(shù)據(jù)庫檢索途徑。

2.1 數(shù)據(jù)瀏覽與分類。生物數(shù)據(jù)結(jié)構(gòu)化的第一步是對(duì)相關(guān)數(shù)據(jù)進(jìn)行標(biāo)識(shí)。據(jù)估計(jì),每年發(fā)表的與果蠅研究相關(guān)的論文大約有2000多篇。因此FlyBase要對(duì)所有文獻(xiàn)進(jìn)行瀏覽和分類,首先通過瀏覽確定文章中主要的基因研究對(duì)象,建立索引,方便以后按基因種類對(duì)文章進(jìn)行分類;與此同時(shí),還要發(fā)現(xiàn)文章中需要進(jìn)行結(jié)構(gòu)化處理的關(guān)鍵性數(shù)據(jù),并按照重要程度進(jìn)行標(biāo)識(shí),確保用戶感興趣的信息不被忽略。通過以上兩步,F(xiàn)lyBase對(duì)文獻(xiàn)進(jìn)行了基礎(chǔ)的結(jié)構(gòu)化處理,并建立一個(gè)基本框架,為以后的進(jìn)一步結(jié)構(gòu)化處理工作做好準(zhǔn)備。

2.2 數(shù)據(jù)結(jié)構(gòu)化處理。在對(duì)文檔進(jìn)行瀏覽和分類后,工作人員接下來要從文獻(xiàn)的研究成果(文本,圖表和數(shù)字)中提取出表型數(shù)據(jù),等位基因數(shù)據(jù),基因本體術(shù)語,基因模型更改數(shù)據(jù),基因相互作用數(shù)據(jù)和基因表達(dá)模式數(shù)據(jù)等。FlyBase已將數(shù)據(jù)庫中約57%文獻(xiàn)進(jìn)行了上述關(guān)鍵數(shù)據(jù)的提取和結(jié)構(gòu)化工作。

圖 1 FlyBase數(shù)據(jù)結(jié)構(gòu)化流程圖

當(dāng)數(shù)據(jù)提取工作完成后,下一步要用結(jié)構(gòu)化的受控詞表統(tǒng)一對(duì)數(shù)據(jù)進(jìn)行表述和記錄,最終形成基因本體(Gene Ontolo?gy)。FlyBase通過這種方法,保證數(shù)據(jù)庫內(nèi)的信息能及時(shí)進(jìn)行結(jié)構(gòu)化,并為不同用戶提供跨數(shù)據(jù)庫、跨平臺(tái)的一站式檢索。FlyBase把受控詞表嵌入了他們的檢索工具 QueryBuilder和 TermLink之中[3]。

2.3 數(shù)據(jù)表述。FlyBase生物數(shù)據(jù)結(jié)構(gòu)化的最后一步是通過對(duì)結(jié)構(gòu)化數(shù)據(jù)的重新表述,保證其可用性。新處理的結(jié)構(gòu)化數(shù)據(jù)必須與已有的數(shù)據(jù)進(jìn)行整合,使其清晰易懂,才能體現(xiàn)其價(jià)值?,F(xiàn)在,F(xiàn)lyBase的數(shù)據(jù)結(jié)構(gòu)化管理員每天都要與網(wǎng)站的開發(fā)人員不斷溝通,從而確保經(jīng)過結(jié)構(gòu)化處理后的數(shù)據(jù)能以專業(yè)和清晰的方式出現(xiàn)在網(wǎng)站上,供科研人員使用。另外,F(xiàn)lyBase還與數(shù)據(jù)庫設(shè)計(jì)人員一道緊密協(xié)作,開發(fā)出各種檢索工具,方便研究人員從數(shù)據(jù)庫中檢索和下載數(shù)據(jù)。FlyBase的許多數(shù)據(jù)結(jié)構(gòu)化管理員都是生物學(xué)專家,并且經(jīng)常使用FlyBase數(shù)據(jù)庫進(jìn)行生物學(xué)研究,因此他們在開發(fā)網(wǎng)站和檢索工具時(shí),會(huì)充分從用戶角度出發(fā),為用戶提供專業(yè)、高效的服務(wù)。

3 生物數(shù)據(jù)結(jié)構(gòu)化展望

由于生物數(shù)據(jù)結(jié)構(gòu)化對(duì)數(shù)據(jù)的準(zhǔn)確性和效率要求非常高,現(xiàn)在的工作大多由生物學(xué)科研人員來完成,生物數(shù)據(jù)結(jié)構(gòu)化要成為一種職業(yè)還不成熟。但最近,生物數(shù)據(jù)結(jié)構(gòu)化人員已經(jīng)開始組織、建立國際生物數(shù)據(jù)結(jié)構(gòu)化聯(lián)盟(ISB),以促進(jìn)生物數(shù)據(jù)結(jié)構(gòu)化工作成為一種專業(yè)的職業(yè)。

目前,生物學(xué)比以往任何時(shí)候的發(fā)展速度都要快,相關(guān)的生物學(xué)數(shù)據(jù)也以史無前例的速度在不斷增長。生物數(shù)據(jù)結(jié)構(gòu)化工作人員的工作目標(biāo)就是厘清數(shù)據(jù)洪流,對(duì)數(shù)據(jù)進(jìn)行分類、關(guān)聯(lián)、解釋和排序,讓科研人員能從不斷出現(xiàn)的數(shù)據(jù)中發(fā)現(xiàn)自己需要的、有價(jià)值的信息。生物數(shù)據(jù)結(jié)構(gòu)化人員不但要獨(dú)立進(jìn)行研究,而且還要經(jīng)常參加會(huì)議,共同討論、攜手合作,解決各種數(shù)據(jù)結(jié)構(gòu)化過程中出現(xiàn)的問題,開發(fā)新的數(shù)據(jù)集,每天都要竭盡全力去發(fā)現(xiàn)新方法,整合各種各樣的數(shù)據(jù)類型,開發(fā)新的檢索工具,讓生物數(shù)據(jù)結(jié)構(gòu)化處理的速度適應(yīng)生物學(xué)學(xué)科的發(fā)展。這是一項(xiàng)艱巨而偉大的工作,同時(shí)也充滿了樂趣和挑戰(zhàn)。

TP311

A

1671-0037(2014)07-59-1.5

10.1038/ 455047a.

陳志鵬(1977-),男,碩士研究生,館員,研究方向:網(wǎng)絡(luò)信息資源建設(shè)。

[2]Evolution of genes and genomes on the Drosophila phyloge?ny.Nature 2007;4 50:203-18.

[3]Tweedie S,Ashburner M,F(xiàn)alls K,Leyland P,McQuil?ton P,Marygold S,et al.FlyBase:enhancing Drosophila Gene On?tology annotations.Nucleic Acids Res 2009;37:555-9.

猜你喜歡
數(shù)據(jù)結(jié)構(gòu)結(jié)構(gòu)化生物學(xué)
丁酸梭菌的篩選、鑒定及生物學(xué)功能分析
谷稗的生物學(xué)特性和栽培技術(shù)
數(shù)據(jù)結(jié)構(gòu)線上線下混合教學(xué)模式探討
改進(jìn)的非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)動(dòng)態(tài)搜索算法
深度學(xué)習(xí)的單元結(jié)構(gòu)化教學(xué)實(shí)踐與思考
重典型應(yīng)用,明結(jié)構(gòu)關(guān)系
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
左顧右盼 瞻前顧后 融會(huì)貫通——基于數(shù)學(xué)結(jié)構(gòu)化的深度學(xué)習(xí)
為什么會(huì)有“數(shù)據(jù)結(jié)構(gòu)”?
初中生物學(xué)糾錯(cuò)本的建立與使用
永寿县| 邵武市| 诸城市| 九龙县| 祁连县| 梧州市| 建昌县| 平遥县| 三台县| 平乡县| 依兰县| 高唐县| 昆明市| 深州市| 上高县| 怀集县| 广安市| 乐都县| 杭锦后旗| 交口县| 盘锦市| 闵行区| 兰坪| 双柏县| 石柱| 灌阳县| 连云港市| 长治县| 白银市| 天峻县| 南雄市| 拜泉县| 长春市| 桃江县| 横峰县| 华池县| 绥芬河市| 新余市| 奉化市| 太谷县| 霍邱县|