在爭議不斷的浪潮中,
一種接管科研流程的工具成了新一波浪頭。
當(dāng)一個國際研究團(tuán)隊著手創(chuàng)建一位“人工智能科學(xué)家”來處理整個科研流程時,他們并不確定自己最終能走多遠(yuǎn)。他們創(chuàng)造的系統(tǒng)真的能夠生成有趣的假設(shè)、進(jìn)行實驗、評估結(jié)果并撰寫論文嗎?
研究員陸聰(Cong Lu,音譯)表示,他們最終得到的成果是一個據(jù)他們判斷相當(dāng)于低年級博士生的人工智能工具。他說,該系統(tǒng)有“一些創(chuàng)造力驚人的點子”,但這些好點子的數(shù)量遠(yuǎn)遠(yuǎn)少于壞點子。它很難流暢連貫地將自己的結(jié)果撰寫成論文,有時還會誤解自己的實驗結(jié)果,陸聰說:“它和一個盲目猜測某種現(xiàn)象為何成立的博士生水平差不太多?!倍遥苍S就像那些還沒搞懂學(xué)術(shù)倫理的低年級博士生一樣,盡管研究人員竭力讓它保持誠實,它有時還是會在論文中胡編亂造。
陸聰是加拿大不列顛哥倫比亞大學(xué)的博士后研究員,他與其他數(shù)位學(xué)者以及來自東京熱門初創(chuàng)公司“魚群”(Sakana AI)的研究人員共同參與了這一項目。該團(tuán)隊最近在預(yù)印本平臺ArXiv上發(fā)布了他們的成果。盡管這篇論文預(yù)印本中包含了對成果局限性和倫理問題的探討,但文中也使用了一些極盡夸張的語言,稱這個人工智能科學(xué)家是“科學(xué)發(fā)現(xiàn)的新時代之開端”,并且是“第一個全自動實現(xiàn)科學(xué)發(fā)現(xiàn)的綜合框架,能夠讓前沿的大型語言模型(LLMs)獨立進(jìn)行研究并傳達(dá)其發(fā)現(xiàn)”。
人工智能科學(xué)家似乎捕捉到了時代精神。它正乘著將人工智能應(yīng)用于科學(xué)的熱潮乘風(fēng)破浪,但一些批評者認(rèn)為,這股浪潮最終不會在科學(xué)領(lǐng)域留下任何有價值的東西。
“將人工智能應(yīng)用于科學(xué)”的熱潮
這項研究是“將人工智能應(yīng)用于科學(xué)”這一更廣泛趨勢的參與者之一??梢哉f,這股熱潮是由谷歌DeepMind在2020年引發(fā)的——當(dāng)時它推出了AlphaFold,這一人工智能系統(tǒng)以前所未有的精確度預(yù)測了蛋白質(zhì)的三維結(jié)構(gòu),令生物學(xué)家們大為驚嘆。自從生成式人工智能問世以來,越來越多的大型企業(yè)紛紛參與其中。索尼人工智能公司的高級研究員塔雷克 · 貝索德(Tarek Besold)負(fù)責(zé)主持該公司的人工智能促進(jìn)科學(xué)發(fā)現(xiàn)項目,他表示,將人工智能應(yīng)用于科學(xué)是“人工智能社區(qū)可以為之團(tuán)結(jié)的目標(biāo),不僅是為了推進(jìn)底層技術(shù)的發(fā)展,更重要的是,為了幫助人類應(yīng)對我們這個時代最緊迫的一些問題”。
然而,這股浪潮也面臨批評。2023年,DeepMind發(fā)表了一篇論文,聲稱發(fā)現(xiàn)了220萬個新的晶體結(jié)構(gòu)(“相當(dāng)于近800年的知識量”),但不久后,兩位材料科學(xué)家隨機(jī)抽取了部分結(jié)構(gòu)進(jìn)行分析,發(fā)現(xiàn)“幾乎沒有證據(jù)表明其中的化合物能同時滿足新穎性、可信性和實用性三要素”。換句話說,人工智能雖然能快速生成大量結(jié)果,但這些結(jié)果未必真正有用。
人工智能科學(xué)家的工作原理
在人工智能科學(xué)家項目中,陸聰和合作者們僅在計算機(jī)科學(xué)領(lǐng)域測試了他們的系統(tǒng)。他們要求它研究與大語言模型和擴(kuò)散模型相關(guān)的課題。大語言模型為聊天機(jī)器人(如ChatGPT)和人工智能科學(xué)家自身提供了驅(qū)動力,擴(kuò)散模型則是DALL-E等圖像生成器的重要動力源。
人工智能科學(xué)家運作的第一步是生成假設(shè)?;谒芯磕P偷拇a,它會自由生成一系列旨在提高模型性能的實驗想法,并根據(jù)趣味性、新穎度和可行性對每個想法進(jìn)行評分。它可以在這一步進(jìn)行迭代,生成最高分想法的不同變體。隨后,它會在學(xué)術(shù)搜索引擎“語義學(xué)者”(Semantic Scholar)上檢查其提議是否與既有研究過于相似。接著,它會用一款名為“援手”(Aider)的編程助手來運行代碼,并以實驗日志的形式記錄結(jié)果。它可以基于這些結(jié)果生成后續(xù)實驗的點子。
下一步是讓人工智能科學(xué)家根據(jù)會議指南模板將研究結(jié)果寫成論文。然而,陸聰表示,該系統(tǒng)很難寫出一篇條理清晰、九頁長的論文來解釋其結(jié)果?!白珜戨A段可能和實驗階段一樣難以搞定?!彼f。因此,研究人員將這一過程分解為多個步驟:人工智能科學(xué)家每次只寫一個章節(jié),并將每個章節(jié)與其他章節(jié)進(jìn)行核對,以剔除重復(fù)和相互矛盾的信息。此外,它還會再次使用“語義學(xué)者”來查找引用文獻(xiàn)并生成參考書目。
然而,還有所謂的“幻覺”問題——這個術(shù)語指的是人工智能會編造信息。陸聰表示,盡管他們指示人工智能科學(xué)家只使用實驗日志中的數(shù)據(jù),“但它有時仍然不聽話”。陸聰說,模型不聽話的時間不到10%,但“我們認(rèn)為10%大概仍是不可接受的”。他說,他們正在研究解決方案,例如指示系統(tǒng)將論文中的每個數(shù)字鏈接到它在實驗日志中的出現(xiàn)位置。不過,系統(tǒng)還會犯一些不太明顯的推理和理解錯誤,這些問題似乎更難解決。
此外,讓人意想不到的是,人工智能科學(xué)家甚至包含了一個同行評審模塊,用于評估它所生成的論文。陸聰說:“我們早就知道我們想要某種自動化的評估功能,這樣我們就不必花費數(shù)小時審閱所有稿件。雖然總有人擔(dān)心這像是我們自己給自己的作業(yè)打分,但評審員模型是基于頂級人工智能會議神經(jīng)信息處理系統(tǒng)大會(NeurIPS)的審稿指南確立的,結(jié)果發(fā)現(xiàn),它在總體上比人類評審員更為嚴(yán)苛。理論上,同行評審功能可以用來指導(dǎo)下一輪實驗?!?/p>
對人工智能科學(xué)家的批評
盡管研究人員將他們的人工智能科學(xué)家局限于機(jī)器學(xué)習(xí)實驗,但陸聰表示,團(tuán)隊與其他領(lǐng)域的科學(xué)家進(jìn)行了幾次有趣的對話。他說,理論上,人工智能科學(xué)家能在任何可以通過模擬運行實驗的領(lǐng)域提供幫助。“一些生物學(xué)家表示,他們有很多工作可以通過計算機(jī)模擬完成?!彼€提到,量子計算和材料科學(xué)也是人工智能科學(xué)家可能參與的研究領(lǐng)域。
但對于人工智能促進(jìn)科學(xué)運動的一些批評者可能會對這種廣泛的樂觀態(tài)度提出異議。2024年早些時候,美國加州大學(xué)伯克利分校的計算生物學(xué)教授詹妮弗 · 利斯特加藤(Jennifer Listgarten)在《自然-生物技術(shù)》(Nature Biotechnology)期刊上發(fā)表了一篇文章,認(rèn)為人工智能不太可能在多個科學(xué)領(lǐng)域帶來突破。她寫道,與自然語言處理和計算機(jī)視覺等人工智能領(lǐng)域不同,大多數(shù)科學(xué)領(lǐng)域都不具備訓(xùn)練模型所需的大量公開數(shù)據(jù)。
另外兩位研究科學(xué)實踐的學(xué)者,美國耶魯大學(xué)的人類學(xué)家麗莎 · 梅塞里(Lisa Messeri)和普林斯頓大學(xué)的心理學(xué)家莫莉 · 克羅克特(M. J. Crockett)于2024年在《自然》期刊上發(fā)表了一篇論文,試圖揭穿圍繞“將人工智能應(yīng)用于科學(xué)”這一話題的炒作。當(dāng)被問及對這位人工智能科學(xué)家的看法時,兩人重申了她們對于將“人工智能產(chǎn)品視為自主研究人員”的擔(dān)憂。她們認(rèn)為,這樣做可能會將研究范圍局限成適合人工智能處理的問題,使我們失去推動真正創(chuàng)新的多元化視角。她們表示:“盡管‘人工智能科學(xué)家’所承諾的生產(chǎn)力對某些人來說很有吸引力,但創(chuàng)造論文和創(chuàng)造知識可不是一回事,忘記這一點可能會讓我們產(chǎn)出得更多,但理解得更少?!?/p>
但另一些人認(rèn)為人工智能科學(xué)家是朝著正確方向邁出的一步。索尼人工智能公司的貝索德表示,他認(rèn)為這是一個很好的實例,說明當(dāng)今的人工智能在應(yīng)用于正確的領(lǐng)域和任務(wù)時,可以為科學(xué)研究提供支持。“這可能會成為幫助人們構(gòu)想人工智能在科學(xué)發(fā)現(xiàn)領(lǐng)域的應(yīng)用前景的少數(shù)幾個早期原型之一。”
人工智能科學(xué)家的下一步發(fā)展
陸聰表示,團(tuán)隊計劃繼續(xù)開發(fā)人工智能科學(xué)家,在提升其性能的過程中會有很多容易實現(xiàn)的階段性成果。至于這些人工智能工具最終是否會在科學(xué)流程中發(fā)揮重要作用,他表示:“時間會證明這些模型的真正價值。” 在研究項目的早期階段,當(dāng)研究人員試圖勾勒多個可能的研究方向時,這類工具或許會大有幫助——盡管批評者指出,我們需要等待未來的研究,看這些工具是否真的足夠全面、公正,從而真正提供幫助。
陸聰還說,如果這些模型能被改進(jìn)到相當(dāng)于“一名優(yōu)秀的三年級博士生”的水準(zhǔn),那么對于任何試圖鉆研某個科研創(chuàng)意的人來說,這些模型都能成為強(qiáng)大的助力?!暗侥菚r,任何人都可以成為教授,實施自己的研究計劃,”陸聰說,“這是十分激動人心的前景,我很期待?!?/p>
資料來源 IEEE
本文作者艾麗莎 · 斯特里克蘭(Eliza Strickland)是《IEEE綜覽》的高級編輯,主要負(fù)責(zé)人工智能與生物醫(yī)學(xué)工程方面的報道