王瑢
1984年,美國國家生物醫(yī)學研究基金會啟動了一個免費在線數據庫項目——蛋白質信息資源數據庫(PIR),其中包含超過28.3萬種蛋白質序列。如今,世界各地的科學家都可以將其獲得的未知蛋白質與該數據庫中的已知蛋白質進行比對,考察它們的相似性和差異性。借助這些數據,科學家能夠快速、準確地推斷出某種蛋白質的進化史,及其與各種生命形式的關系。
這個規(guī)模龐大的在線數據庫的建立,要歸功于一位名叫瑪格麗特·戴霍夫的女性撰寫的《蛋白質序列與結構圖冊》。這本書記載了當時已知的65種蛋白質序列。為了編寫這本圖冊,戴霍夫采用了尖端的計算機技術來解決生物學問題,從而在無形中推動了“生物信息學”這個全新領域的誕生。
前衛(wèi)的研究方法
1925年3月11日,戴霍夫出生于美國費城。1945年,她以優(yōu)異的成績畢業(yè)于紐約大學數學系。同年,她進入哥倫比亞大學,在著名化學家喬治·金博爾的指導下攻讀量子化學博士學位,用了3年獲得了量子化學博士學位。這在當時是非常罕見的事情,因為男性在化學領域占據著壟斷地位,只有5%的化學博士學位被授予女性。
在戴霍夫就讀期間,哥倫比亞大學是美國計算技術的重鎮(zhèn),擁有美國歷史最悠久的計算機實驗室,其中包括沃森科學計算實驗室。在第二次世界大戰(zhàn)的最后幾個月里,沃森科學計算實驗室是盟軍的計算機中心。戰(zhàn)爭結束后,它成為首批超級計算機的開發(fā)地,“阿波羅計劃”所使用的超級計算機就是在這里誕生的?!敖畼桥_先得月?!贝骰舴驅⒆约簩瘜W的興趣與打孔卡片機(早期的計算機)進行的計算相結合。打孔卡片機能夠自動執(zhí)行計算,將算法存儲在一組卡片上,將數據存儲在另一組卡片上。通過使用該機器,戴霍夫能夠更快、更準確地進行計算。戴霍夫特別感興趣的研究對象是多環(huán)有機化合物,她使用打孔卡片機進行了大量計算。1949年,她與金博爾作為共同作者,在《化學物理》雜志上發(fā)表了題為《共振能的打孔卡片計算》的論文。
1952年,戴霍夫的第一個孩子出生了,她暫時告別了研究工作,做起了全職媽媽。重返研究領域后,戴霍夫迎來了職業(yè)生涯中的黃金時期。1960年,她接受了生物物理學家羅伯特·萊德利的邀請,加入了美國國家生物醫(yī)學研究基金會。在萊德利看來,戴霍夫高超的計算機技能對于該基金會完成將計算、生物學和醫(yī)學領域相結合的目標是至關重要的。
戴霍夫和萊德利使用全新的晶體管計算機搜索蛋白質序列。和速度較慢、體積較大的真空管計算機相比,晶體管計算機速度更快、效率更高,能夠處理復雜的應用程序。他們用自己編寫的程序對蛋白質序列進行比較。他們將計算機分析應用于生物學和化學的做法在當時非常前衛(wèi)。那時,大多數生物學和化學領域的研究者對統(tǒng)計分析非常陌生——更不用說利用計算機進行數據分析了,有些人甚至以不懂數據分析為榮。
“局外人”的貢獻
蛋白質的功能是什么?自20世紀50年代以來,研究人員就一直苦苦思索這個問題。蛋白質測序是解答這個問題的方法之一,但是對單個蛋白質進行測序的效率非常低下。戴霍夫和萊德利采用了不同的方法。他們沒有孤立地分析蛋白質,而是比較了不同物種的蛋白質,尋找其中相同的部分。如果一個蛋白質序列在所有物種中都相同,那就表明該序列對于蛋白質的功能至關重要。
戴霍夫進行了更深入的研究。她不僅分析了不同物種的蛋白質的相似性,還分析了它們的差異。她用這些差異來衡量物種之間的進化關系,然后據此重新構建系統(tǒng)發(fā)生樹(又稱演化樹或進化樹,是表明被認為具有共同祖先的各物種間演化關系的樹狀圖)。
1969年,戴霍夫在《科學美國人》雜志上發(fā)表《蛋白質進化的計算機分析》一文,向公眾介紹了她使用計算機對蛋白質進行測序的研究成果。她寫道:“每測定一個蛋白質序列,每闡明一個進化機制,每揭示一個進化史上的重大突破,都將增進我們對生命科學史的理解。”她試圖向生命科學界展示計算機模型的巨大潛力。
戴霍夫的另一個重要工作是將所有已知的蛋白質收集起來,研究人員可以在其中找到所需要的序列并將其與其他序列進行比較。與如今僅用一個關鍵字即可輕松地在電子數據庫中調用數據不同,戴霍夫當時不得不翻閱無數文獻來查找她想要的蛋白質。在許多情況下,這意味著要檢查研究人員的工作是否存在錯誤。即使借助計算機,對蛋白質序列的收集和分類也需要大量的時間和敏銳的科學眼光。
但是,當時并不是每個人都認為戴霍夫所做的事情有價值。對很多生物學家來說,戴霍夫的工作類似于19世紀自然史研究者的收集和編目工作,而不是20世紀科學家的實驗工作。因此,戴霍夫成了他們眼中的“局外人”,她的貢獻沒有得到認可。
1965年,戴霍夫的《蛋白質序列和結構圖冊》出版了,書中收集了當時已知的蛋白質序列。這份成果不斷更新,并催生了蛋白質信息資源數據庫。如今,各種數據庫已經成為生物學研究的必備工具。研究者不僅會在研究成果中提供新的數據,還會將自己的數據與公共數據庫中的數據進行比對,做出推論。毫不夸張地說,正是由于戴霍夫的開拓性貢獻,一場生物信息學革命才如火如荼地展開。
探索生命起源的強大工具
戴霍夫運用計算機輔助科研的能力在天文學領域也得到了發(fā)揮。1961年,通過光譜學家利平科特的介紹,戴霍夫結識了天文學家卡爾·薩根。他們3人進行了為期6年的合作。戴霍夫設計了一個計算機程序來計算行星大氣層中氣體的平衡濃度。利平科特和薩根利用戴霍夫開發(fā)的程序對元素進行分析,從而研究出許多不同的大氣成分。最終,他們建立了金星、木星、火星以及地球的原始大氣模型。
戴霍夫相信,對地球原始大氣的研究能幫助她找到“生命形成所必需的化合物”。從微小的蛋白質到廣闊的大氣層,戴霍夫利用計算技術不斷探索有關地球生命起源的秘密。雖然她沒能揭開所有的秘密,但她給后來者提供了繼續(xù)展開跨學科研究的強大工具。
(摘自《科學畫報》2020年第12期)