国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

生物信息學與計算機科學

2006-04-19 02:48
計算機教育 2006年4期
關鍵詞:信息學計算機科學測序

許 東

生物信息學(Bioinformatics)是在20世紀90年代才出現(xiàn)的一個新名詞,雖然作為一門新興學科,但是對許多計算機工作者來說并不陌生。事實上,生物信息學已經(jīng)成為計算機科學的一個重要分支,或者說計算機科學是生物信息學的主要支柱之一。另外兩個重要支柱則是生物學和統(tǒng)計學,數(shù)學、物理學、化學、醫(yī)學,以及工程都與之有密切的關系。這里筆者主要就生物信息學與計算機科學的關系作一點介紹,本文主要是針對計算機科學的研究者及學生,特別是對生物信息學研究有興趣的人士。

生物信息學的定義及興起

對于生物信息學的定義,一直以來都有不同的看法。目前援引最多的定義是美國衛(wèi)生部給出的(http://www.bisti.nih.gov/):生物信息學是一門針對生物、醫(yī)學、行為和健康方面數(shù)據(jù)的發(fā)掘,而為相關的計算工具及方法進行研究、開發(fā)及應用的學科,其研究范疇包括對這些數(shù)據(jù)的采集、表達、描述、儲存、分析和圖形顯示(“research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, represent, describe, store, analyze, or visualize such data”)。這一定義很具有概括性,并能長期使用。目前生物信息學主要研究的對象還是在生物和醫(yī)學的數(shù)據(jù)方面,特別是在分子水平上,包括蛋白質(zhì)和核酸的分析。

生物信息學的興起是與人類基因組的測序計劃分不開的,人類基因組又被稱為是我們生命的藍圖,因為它作為遺傳的載體,標志著人類與其他物種的不同,另外,我們每個人的基因組的差異在很大程度上決定了個體的容貌和健康狀況(例如容易得什么?。?。從計算機科學的角度,我們可以把人類基因組想象成由三十億個字符串(序列)組成,代表了人體所有約三萬個基因??梢韵胍?,分析這樣復雜的序列沒有計算機是不可能的,再加上世界上萬千變化的無數(shù)動物、植物、微生物,其中數(shù)以百計的物種人們已經(jīng)完成了它們的測序工作,數(shù)萬物種的測序任務將在今后十年內(nèi)完成。不過序列只是一個開端,基因組給出的只不過是一個類似“元素周期表”的基本單元,正如少數(shù)幾十種化學元素可以組成豐富多彩的化學世界, 基因的表達、修飾及其相互作用, 成為生命現(xiàn)象多彩多姿,奇妙深奧的一個基礎。由于有了基因組這樣一個“周期表”,人們可以用系統(tǒng)的方法, 例如基因芯片(Microarray)、蛋白組學(Proteomics)、代謝組學(Metabolomics)等手段來跟蹤一個物種內(nèi)所有基因與其產(chǎn)物的活動及作用,這些數(shù)據(jù)比序列來說又不知要大多少。正是這一“數(shù)據(jù)爆炸”使得生物學成為一門高度量化的科學,并帶來了生物信息學的繁榮。

計算機科學與生命科學的相互作用

生物學的“數(shù)據(jù)爆炸”為計算機科學帶來了巨大的挑戰(zhàn)和機遇,傳統(tǒng)的計算機科學一般處理的數(shù)據(jù)要遠遠小于這一規(guī)模,如何處理、儲存、檢索、查詢這些龐大的數(shù)據(jù)并非易事。另外,許多生物數(shù)據(jù)中的誤差較大,信噪比甚低,為分析數(shù)據(jù)帶來了很大的困難。更為主要的是,生物系統(tǒng)比一般的物理,工程系統(tǒng)要復雜得多,如何從各類數(shù)據(jù)中發(fā)現(xiàn)復雜的生物規(guī)律和機制,建立有效的計算模型,并以這些模型來進行快速的模擬和預測,指導生物學的實驗,輔助藥物設計,改良物種用于造福人類可以說是計算生物學中最賦有挑戰(zhàn)性并最具有影響力的任務。正是這些挑戰(zhàn)給計算機科學帶來了新的機遇,帶動了計算機科學大部分領域在生物信息學中的研究,包括數(shù)據(jù)庫、數(shù)據(jù)發(fā)掘、人工智能、算法、圖形計算、軟件工程、平行計算、網(wǎng)絡技術等都被用于生物計算的研究。特別是對一些發(fā)展趨于瓶頸的領域,例如模式識別和機器學習,帶來了全新的生命和生長點,使得這些領域更有用武之地。因此,美國大多數(shù)研究型的計算機系都招聘了以生物信息學為主的師資,并且開設這方面的課程及專業(yè)。

計算機科學通過生物信息學對生命科學的影響日益受到重視,特別值得一提的是生物信息學在人類基因組測序中所起的作用。Gene Myers等計算機科學家運用巧妙的算法,使得對人類基因組進行全基因鳥槍測序(Whole genome shotgun sequencing)成為可能,并使之成為各種基因組測序的通用方法,大大降低了基因組測序的成本。Gene Myers本人也因此成為美國科學院院士,他的貢獻得到科學界的公認。今天,大量生物信息學的軟件,數(shù)據(jù)庫已在生物學中得到廣泛應用,例如BLAST, 一個序列比較的軟件,已經(jīng)成為在生物學中常識性的名詞。生物信息學已經(jīng)是生物學中不可或缺的一個重要組成,在許多情況下,生物數(shù)據(jù)的產(chǎn)生變得相對容易,而對這些數(shù)據(jù)的分析變得日趨重要和復雜。當然,數(shù)據(jù)的分析在很多的情況下并不是僅靠計算工作就可以完成的,往往需要進行多學科的合作,比如有時需要由計算工作者來發(fā)現(xiàn)數(shù)據(jù)中一些特征和規(guī)律,由統(tǒng)計工作者來分析這些特征規(guī)律的可靠性,并由生物學工作者來判斷并作實驗來驗證這些發(fā)現(xiàn)。

生物信息學前沿中與計算機科學緊密相關的研究方向很廣,筆者在此僅舉兩個例子。第一個例子是計算系統(tǒng)生物學(Computational systems biology),計算系統(tǒng)生物學綜合分析各種數(shù)據(jù),把生物體當成一個系統(tǒng)來進行研究,這其中一個重要的課題是如何從已有的廣泛數(shù)據(jù)里面,特別是基因表達、蛋白相互作用、基因組序列等數(shù)據(jù)中,建立信息傳導路徑及基因調(diào)控網(wǎng)絡的模型。另外,如何模擬生物化學分子的代謝過程,預測在一個物種中基因改變對其代謝過程的影響也是計算系統(tǒng)生物學的研究課題。計算系統(tǒng)生物學界和實驗科學結合可以直接幫助預測一個人得某種病的可能性,根據(jù)病人分子水平的數(shù)據(jù)進行對癥下藥,設計基因工程以改造植物提高其產(chǎn)量,增強其抗旱抗病的能力,改造微生物來生產(chǎn)有益人類的藥物和能源物質(zhì)(如氫氣或乙醇)。第二個例子是信息的開發(fā),現(xiàn)在科研人員越來越難以掌握層出不窮的文獻資料,經(jīng)常無法了解到一些對自己研究課題有價值的信息,而生物信息學可以在分子水平上對數(shù)百萬的論文進行快速的檢索和查詢,比如兩個基因的名稱經(jīng)常出現(xiàn)在同一個論文中,就可以推測這兩個基因可能有某種相關性或相互作用。信息開發(fā)的另一途徑是語義網(wǎng)(Semantic Web),它使計算機可解釋在網(wǎng)絡上的文件及數(shù)據(jù)中的內(nèi)容,并提供一種網(wǎng)站之間信息傳遞的共同機制,這一任務在生物信息學中可以通過基因本體論(Gene ontology)(一套可控的基因功能詞匯)等手段來實現(xiàn)。語義網(wǎng)可以使廣大的生物信息學數(shù)據(jù)庫和服務器為單一用戶共同提供資源。

事實上,計算機科學對生物學的影響并不是單向的,計算機領域中廣泛使用的很多方法,如人工智能、神經(jīng)網(wǎng)絡、遺傳算法等都是起源于生命科學的概念。隨著對生命科學的不斷深入發(fā)展,這類方法還將不斷涌現(xiàn)。比如蟻群算法(Ant colony algorithm)利用螞蟻群覓食的規(guī)律來解優(yōu)化問題就是一個新的發(fā)展。更為有趣的是人們正在研究螞蟻通過身體接觸及氣味來傳遞信息的機制,并試圖運用這些機制來有效地管理互聯(lián)網(wǎng)的運作(見《自然》雜志,2003年5月1日刊)。還值得一提的是DNA計算(DNA computing),運用DNA及酶的生物化學反應來解決計算問題,能極大地提高計算的速度和信息儲存量。

生物信息學的入門及深造

生物信息學,由于其巨大的潛力,無論是作為基礎研究還是技術應用,對于有志攻關的青年學子,特別是在校的學生,都不失為一個好的事業(yè)選擇。生物信息學中等待攻克的難題要比已解決的問題多得多,例如雖然人類基因組的序列已經(jīng)得到,但這三十億個字符串在很大程度上對科學家來說還是一部“天書”,其中絕大部分的奧秘還有待包括生物信息學工作者在內(nèi)的多學科科研人員的共同努力來發(fā)現(xiàn)。另外,生物信息學的研究當前還主要集中在蛋白質(zhì)和核酸的分析,在亞細胞、細胞、生物組織、生物體和生態(tài),以及分子水平的數(shù)據(jù)與生物表型、行為的關系等方面的研究還剛剛起步,未來生物信息學將發(fā)展出的新技術,其應用潛力也是巨大的。同時,由于生物信息學課題的多樣性和復雜性,常常使研究和開發(fā)工作者樂得其中。但另一方面也應看到,并不是所有計算機專業(yè)的學生都適合選擇生物信息學作為自己今后發(fā)展的方向。曾幾何時,略懂些生物信息學皮毛的人就可以受到重金聘請,但生物信息學通過這十幾年的發(fā)展,門檻也隨之越來越高,像其他成熟的學科一樣,要是沒有扎實的功底,在生物信息學領域發(fā)展今后也會越來越難。如果沒有對生命科學有很大的興趣,或者對多學科廣泛學習的動力,生物信息學未必是一個合適的事業(yè)取向。

至于如何培養(yǎng)生物信息學的專業(yè)人才,目前尚存在著諸多爭議。在美國,設置生物信息學專業(yè)的方式有若干種, 有些學校,例如匹茲堡大學(University of Pittsburg),成立專門生物信息學方向的系,而多數(shù)學校,包括筆者所在的密蘇里大學哥倫比亞分校(University of Missouri-Columbia),則成立跨系的中心或?qū)W院,其中的師資由各系的教授來兼任。另外也有不少學校則由單一系科派生出生物信息學專業(yè),這些系包括計算機系、生物系、醫(yī)學院、物理系、生物工程系、統(tǒng)計系、數(shù)學系等。這些設置生物信息學專業(yè)的模式在實際運作中各有長短,選擇哪一種往往由一個學校的具體情況來定,這些模式會在今后很長一段時期共存。另一方面我們看到,生物信息學自身也在日趨成熟,已逐漸形成一整套的理論基礎及方法論,在保持著交叉學科特色的同時,生物信息學也被廣泛認識到是一門獨立的學科,在這一點上,其發(fā)展的軌跡很類似生物物理學。

作為在生物信息學上發(fā)展的學生,無論是出于什么樣的專業(yè)設置,除了生物信息學的專業(yè)課程,也應打下廣泛的相關基礎。多數(shù)學者認為,一個能夠獨立工作的生物信息學研究開發(fā)人員,應該具備計算機、生物和統(tǒng)計三方面的良好基礎。也許有些讀者覺得這樣要學的內(nèi)容太多,當然一個對生物信息學很支持的專業(yè)設置在一定程度上可以減輕一些課業(yè),比如計算機系里并非所有傳統(tǒng)課程都與生物信息學有很大關系,編譯器、操作系統(tǒng)等課程或許生物信息學方向的學生可以免修。即使這樣,生物信息學方向的學生還是要比其他一般專業(yè)的學生要多學不少知識,這些知識一部分可以通過系統(tǒng)的選課來獲取,但更多的則需要由自學,讀文獻,聽報告,實際做項目來實現(xiàn)。就拿筆者為例,我是物理科班出身,計算機、生物和統(tǒng)計的知識主要都是在長期從事生物信息學研究中積累的。經(jīng)過這十幾年,我不但從事生物信息學方法的研究,還可以做生物上的具體應用問題,也在一個計算機系里承擔算法、編程、軟件工程等計算機基礎課程的教學任務。這并不是說課程學習不重要,課程學習的確可以讓人少走彎路,但由于生物信息學及其相關領域日新月異的突飛猛進,再全面的課程設置也不能涵蓋生物信息學科研所需的所有知識,保持一個“活到老,學到老”的精神是非常重要的。

展望

計算機科學和生命科學可以說是本世紀對人類影響最大的領域,生物信息學發(fā)展于兩者之間能起的作用是潛力巨大的。生命科學的發(fā)展目前是如火如荼,新的技術層出不窮,生物信息學也隨之迅猛發(fā)展,不過這僅是一個開始,更為廣泛的應用還在后面。對應計算機領域的發(fā)展,直到20世紀80年代第一臺個人電腦的出現(xiàn),才使許多成熟的理論和技術得以廣泛的使用。在生命科學中,這樣的“第一臺個人電腦”還沒有來臨,不過這也許不會太遠了。目前科學界正在積極研究所謂的“一千美金基因組”的測序機,也就是說,只需花一千美金就可以將任何一個人,任何一個物種的基因組全部測出,這樣的測序機預計在今后十年就可能開發(fā)出來。到那時,基因組序列這樣的高科技就可以像個人電腦一樣走入尋常百姓家,普通人就可以在自己家中的個人電腦上看基因組的序列,并用生物信息學的工具去分析基因組的序列來了解自己和家人, 這樣的發(fā)展對社會各方面的影響之大是無法想象的。

國內(nèi)這幾年在生物信息學方面有了長足的發(fā)展,許多大學紛紛建立生物信息學專業(yè),很多大學和科研機構積極開展了廣泛的生物信息學的研究。更為可喜的是,近幾年在國際生物信息學主流雜志上不斷有來自國內(nèi)的論文發(fā)表,生物信息學的研究正在對國內(nèi)醫(yī)學及農(nóng)業(yè)的發(fā)展產(chǎn)生重大的影響,也為信息產(chǎn)業(yè)帶來了機遇。目前印度的一些公司已開始為歐美提供生物信息學的軟件及服務,我國在這方面起步較晚,但應當能夠后起直追來擴大這方面的市場份額。據(jù)估計,生物信息學科占到生物技術市場的8%~10%,而目前全球生物技術的市場已達到300~400億美元,并以每年約25%的增長速度在發(fā)展,可見生物信息學作為高科技其商業(yè)價值也是不可低估的。

許東,博士,密蘇里大學哥倫比亞分校計算機系“James Dowell”副教授,“Christopher S. Bond”生命科學中心研究員。研究方向:生物信息學。

猜你喜歡
信息學計算機科學測序
新一代高通量二代測序技術診斷耐藥結核病的臨床意義
宏基因組測序輔助診斷原發(fā)性肺隱球菌
生物測序走在前
美國《CSTA計算機科學教師標準》評介
試論計算機科學與技術的現(xiàn)代化運用
蕪湖市選手在國際信息學奧林匹克競賽中獲佳績
新英鎊
基因測序技術研究進展
基于學生思維發(fā)展的初中信息學課堂提問策略
“不插電的計算機科學”,你試過嗎?