李建會 楊 寧
人工智能驅(qū)動的科學研究(AI for Science)是大數(shù)據(jù)時代以機器學習(ML,machine learning)為代表的人工智能技術(shù)與科學研究深度融合(AI+Science)的產(chǎn)物。作為AI子領(lǐng)域,機器學習,特別是深度學習技術(shù)以其在理解高維數(shù)據(jù)和解析復雜系統(tǒng)方面遠勝人類的優(yōu)勢,成為科學研究數(shù)字化和自動化轉(zhuǎn)型的中堅力量。當前,AI for Science在物理學、生命科學、材料科學和地球科學等領(lǐng)域的知識發(fā)現(xiàn)與成果優(yōu)化方面表現(xiàn)驚人,基于多領(lǐng)域整合和人-機協(xié)作的數(shù)據(jù)驅(qū)動型科學發(fā)現(xiàn)模式越來越得到科學家的認可和應用。AI for Science不僅加速科學的發(fā)展,而且反過來,加速發(fā)展的科學又推動AI的加速發(fā)展。AI與科學之間的持續(xù)雙向賦能使得AI向著其技術(shù)奇點加速邁進。在這個循環(huán)加速的發(fā)展中,數(shù)據(jù)隱私和AI模型可信度及可控性等重要科技倫理問題也引發(fā)社會擔憂,使得開發(fā)可解釋的AI模型成為焦點議題。在AI領(lǐng)跑科技創(chuàng)新的國際競爭背景下,開展AI for Science的前瞻性規(guī)劃及其資源整合研究對推動我國基礎(chǔ)科研實力具有非常重要的價值。
科學研究的目的之一是做出科學發(fā)現(xiàn)。AI誕生初期,一些專家便開始嘗試開發(fā)程序以通過機器進行科學發(fā)現(xiàn)。起初,他們雄心勃勃地認為,“學習的每一個方面或智力的任何其他特征在原則上都可以被精確地描述,以至于可以制造一臺機器來模擬它?!雹費cCarthy J., Minsky M. L., Rochester N, et al. “A proposal for the dartmouth summer research project on artifi‐cial intelligence,august 31,1955”,AI magazine,2006,27(4),p.12.20世紀40―70年代的傳統(tǒng)AI只服務于特定的任務,通過邏輯和啟發(fā)式算法實現(xiàn)游戲、知識表達、推理和專家系統(tǒng)。此后的30年里,感知機模型的提出使研究界更加關(guān)注從觀察數(shù)據(jù)中自動提取“規(guī)律”,并開始嘗試為能夠?qū)崿F(xiàn)指定任務的候選模型搭建一個統(tǒng)一架構(gòu)。進入新世紀,“深度學習之父”杰弗里·辛頓(Geoffrey Hinton)解決了困擾神經(jīng)網(wǎng)絡用于表征學習的模型過擬合和梯度擴散難題,并進一步開發(fā)出更高精度的卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNNs)模型AlexNet②Alom M. Z., Taha T. M., Yakopcic C., et al. “The history began from alexnet: A comprehensive survey on deep learning approaches”,arXiv preprint arXiv:1803.01164,2018,pp.1-39.,基于多層次型人工神經(jīng)網(wǎng)絡(artificial neural network,ANN)的深度學習(deep learning,DL)因此成為AI 的新的潮流。作為ML技術(shù)的強大子集,DL更加適應多層次結(jié)構(gòu)數(shù)據(jù)的表征學習③指將原始數(shù)據(jù)轉(zhuǎn)換成能被機器學習有效開發(fā)的表征,即允許機器通過簡化復雜的原始數(shù)據(jù),自動發(fā)現(xiàn)并提取可用于檢測或分類的特征。,成為語音識別、計算機視覺、自然語言處理、知識圖譜和自動駕駛的重要方法④LeCun Y.,Bengio Y.,Hinton G.,“Deep learning”,Nature,2015,521(7553),pp.436-444.。
在AI發(fā)展的第一階段,著名的AI專家赫伯特·西蒙(Herbert Simon)就提出了用計算機模擬人的創(chuàng)造性思維的想法。為此,西蒙及其研究團隊嘗試用機器再現(xiàn)歷史上的科學發(fā)現(xiàn)過程,他們研制了BACON系列程序,這些程序不僅重新發(fā)現(xiàn)了波義耳定律、開普勒行星運動第三定律、理想氣體定律等多種定律和函數(shù)關(guān)系,而且還涉及一些定性定律的再發(fā)現(xiàn)、結(jié)構(gòu)模型的再發(fā)現(xiàn)和過程模型的再發(fā)現(xiàn)、以及實驗過程設(shè)計的再現(xiàn)等方面。他們還設(shè)計了GLAUBER 程序和DALTON程序等。GLAUBER程序能再發(fā)現(xiàn)酸和堿的概念以及有關(guān)的定性定律;DALTON程序能夠模擬多重化學反應,甚至可以應用于粒子物理學和經(jīng)典遺傳學,比如發(fā)現(xiàn)孟德爾(G.Mendel)遺傳學定律。另外一個科學再發(fā)現(xiàn)模型是列納特(D.B.Lenat)開發(fā)的AM程序。AM能在初等數(shù)學和集合論中重新發(fā)現(xiàn)概念和假設(shè),比如發(fā)現(xiàn)加法、乘法、素數(shù)等概念以及哥德巴赫猜想等等?!斑@些再發(fā)現(xiàn)程序使科學發(fā)現(xiàn)邏輯的研究重新興旺起來,為思考發(fā)現(xiàn)的邏輯是否存在,及其能否作為科學哲學合法研究主題問題的研討,提供了新的論域?!雹莘柍蹋骸犊茖W創(chuàng)造力的機器發(fā)現(xiàn)研究述評》,《自然辯證法研究》2007年第11期,第40頁。
科學假說或理論的評價問題也是早期機器發(fā)現(xiàn)專家努力的目標之一。著名認知科學家薩伽德(P.Thagard)用聯(lián)結(jié)主義方法開發(fā)了ECHO 程序來評判相互競爭的理論假設(shè)的優(yōu)劣問題。ECHO程序?qū)茖W中許多對立的理論進行過對比分析,比如,ECHO對氧化理論和燃素說、進化論和神創(chuàng)論、哥白尼天文學和托勒密天文學等學說的優(yōu)劣進行了評判。
除了模擬或重建歷史上的科學發(fā)現(xiàn)過程和對理論假設(shè)進行評價外,機器發(fā)現(xiàn)還嘗試進行真正的科學發(fā)現(xiàn)。例如:“AUTOCLASS系統(tǒng)通過對紅外光譜的分析,擴展了原先主要基于可見光譜分析的恒星分類學;RL系統(tǒng)能發(fā)現(xiàn)有經(jīng)濟價值的化學藥品的致癌性的定性規(guī)律;PRPGOL系統(tǒng)能應用于基因變異中化學因素的發(fā)現(xiàn);GRAFFITI系統(tǒng)在數(shù)論和其他離散數(shù)學領(lǐng)域中產(chǎn)生的猜想已經(jīng)引發(fā)了數(shù)學領(lǐng)域?qū)W者的研究興趣;MECHEM系統(tǒng)自動發(fā)現(xiàn)了乙烷氫化裂解反應的新機理;PAULI系統(tǒng)得到了能解釋產(chǎn)生守恒定律的歷史數(shù)據(jù)的新守恒定律;LAGRAMGE 系統(tǒng)發(fā)現(xiàn)了生態(tài)行為的時間定律等?!雹俜柍蹋骸犊茖W創(chuàng)造力的機器發(fā)現(xiàn)研究述評》,《自然辯證法研究》2007年第11期,第41頁。早期的機器發(fā)現(xiàn)研究雖然取得了一系列成果,但由于數(shù)據(jù)、算法和算力的局限性,機器發(fā)現(xiàn)取得的成果非常有限,進一步的發(fā)展需要等待計算機在數(shù)據(jù)、算法和算力方面取得突破性進展。
隨著數(shù)字化時代到來,計算機和高通量實驗儀器成為科學研究的基本工具。AI不僅模擬感知智能,而且還模擬認知智能和決策智能②Xu Y., Liu X., Cao X., et al. “Artificial intelligence: A powerful paradigm for scientific research”, The Innova‐tion,2021,2(4),p.2.。AI通過整合計算機科學、數(shù)學、神經(jīng)科學和機械工程等學科的思想,具備科學與技術(shù)的雙重特性。AI帶來的“數(shù)據(jù)、算法、算力”三位一體的計算方式極大提升了應對海量數(shù)據(jù)處理和復雜系統(tǒng)求解的能力。在數(shù)據(jù)驅(qū)動與模型驅(qū)動兩種方法的有效整合下,AI驅(qū)動的科學研究——AI for Science模式——在設(shè)計科研框架、揭示科學定律和知識、提升數(shù)值模擬速度和準確度方面取得了巨大的成績。以蛋白質(zhì)三維結(jié)構(gòu)解析為例,傳統(tǒng)的實驗室方法復雜且難以得出有意義的結(jié)果,AI的應用則迅速推進了此類研究的進展:2014年領(lǐng)域內(nèi)開始通過ML方法預測蛋白質(zhì)二維結(jié)構(gòu),預測準確率在一年間突破80%;2016年AlphaGo以4∶1戰(zhàn)勝頂尖棋手時,AI預測蛋白三維結(jié)構(gòu)的嘗試也悄然展開③Wang S.,Li W.,Liu S.,et al.“RaptorX-Property:a web server for protein structure property prediction”,Nucle‐ic acids research,2016,44(W1),pp.430-435.,2017年就實現(xiàn)了以DL方法對蛋白質(zhì)結(jié)構(gòu)氨基酸間空間距離的預測,并被用以搭建AI預測系統(tǒng)Alpha Fold;2020年,Alpha Fold 2在第14屆國際蛋白質(zhì)結(jié)構(gòu)預測競賽(CASP14)中以絕對優(yōu)勢奪冠,引起世界關(guān)注。當前,AI for Science的可行性和適應性已在更廣泛的應用場景中被證實,如藥物和材料設(shè)計、求解薛定諤方程和控制論方程、加速分子和空間模擬等等,AI正在幫助加快走完科學研究和技術(shù)創(chuàng)新之間的最后一公里。
值得一提的是,科學的進步也在啟發(fā)機器學習理論(Science for AI),助力神經(jīng)網(wǎng)絡模型訓練方法的持續(xù)迭代。生物學和神經(jīng)科學一直是AI發(fā)展的靈感原型,上世紀中期受生物神經(jīng)細胞啟發(fā)而設(shè)計的感知機(perceptron),是神經(jīng)網(wǎng)絡模型和現(xiàn)代DL算法的重要基礎(chǔ),前沿的CNNs中神經(jīng)計算的數(shù)個標志也源自哺乳動物視覺皮層單細胞對視覺輸入的獨特處理④Holzinger A., “Introduction to machine learning & knowledge extraction (make) ”, Machine learning and knowledge extraction,2019,1(1),pp.1-20.。近年來,大型復雜系統(tǒng)的對稱性、大規(guī)模自由度、多尺度和多分辨率動態(tài)等特征對科學仿真和ML技術(shù)提出更高的要求。例如,量子計算實現(xiàn)了更高性能的量子機器學習,量子增強、量子比特和連續(xù)變量(continuous variable)量子強化了生成模型(generative model)的表達⑤Dunjko V., Briegel H. J., “Machine learning & artificial intelligence in the quantum domain: a review of recent progress”,Reports on Progress in Physics,2018,81(7):074001,pp.1-116.;統(tǒng)計力學的物理分析方法為深度學習的表達、信號傳播和泛化等理論原則提供了概念性解答①Bahri Y., Kadmon J., Pennington J,. et al. “Statistical mechanics of deep learning”, Annual Review of Con‐densed Matter Physics,2020,11,pp.501-528.。此外,用智能材料升級的計算機和智能機器的設(shè)備和芯片,必將大幅度促進AI在所有領(lǐng)域的發(fā)展和應用,AI研究正在致力于開發(fā)能夠從先前經(jīng)驗中自主學習的軟件,如ChatGPT4,甚至嘗試實現(xiàn)全自動的無人研究閉環(huán)②Shahriari B.,Swersky K.,Wang Z.,et al.“Taking the human out of the loop:A review of Bayesian optimization”,Proceedings of the IEEE,2015,104(1),pp.148-175.,將會以智能化搜索和數(shù)字孿生助力科技創(chuàng)新與制造。
可見,兼具跨領(lǐng)域知識和人機合作創(chuàng)新的“AI+Science”(包含AI for Science和Science for AI)形成了AI和科學之間的雙向賦能,并將持續(xù)推動二者間的循環(huán)加速發(fā)展。
生命世界具有高度的復雜性和多樣性,在后基因組時代,生物技術(shù)的數(shù)字化和數(shù)據(jù)驅(qū)動的高性能計算平臺對生命科學研究越發(fā)重要。AI技術(shù)提高了探索生物過程及其相關(guān)機制的效率和精度,引領(lǐng)著生命科學研究“從顛覆性使能技術(shù)(enabling techonology)創(chuàng)新走向工程化平臺建設(shè)”③趙國屏:《合成生物學:開啟生命科學“會聚”研究新時代》,《中國科學院院刊》2018年第11期,第1141頁。。
1.組學研究
基因是人類生存的密碼,其表達水平與疾病的篩查、檢測和治療休戚相關(guān)。AI參與進行的分子生物學研究范圍已經(jīng)覆蓋了從基因到表型的關(guān)鍵過程與機制,研究對象涉及DNA序列、DNA的化學修飾和開放程度、組蛋白的分布和化學修飾、RNA及RNA的轉(zhuǎn)錄后修飾、蛋白質(zhì)、代謝通路和代謝產(chǎn)物④Caudai C., Galizia A., Geraci F., et al. “AI applications in functional genomics”, Computational and Structural Biotechnology Journal,2021,19,pp.5762-5790.。DNA序列和DNA在細胞核內(nèi)的組織方式和折疊狀態(tài)是調(diào)控基因表達水平的關(guān)鍵因素,通過AI理解基因調(diào)控過程的方法能夠高效全面地整合和解釋高通量測序獲得的組學信息。例如,基于CNNs的Akita⑤Fudenberg G.,Kelley D.R.,Pollard K.S.,“Predicting 3D genome folding from DNA sequence with Akita”,Na‐ture methods,2020,17(11),pp.1111-1117.僅依靠DNA序列就準確預測出基因組的三維空間結(jié)構(gòu),揭示DNA序列如何編碼一個特定基因座的折疊模式,解碼基因組功能?;贒L的Enformer⑥Avsec ?.,Agarwal V.,Visentin D.,et al.“Effective gene expression prediction from sequence by integrating longrange interactions”,Nature methods,2021,18(10),pp.1196-1203.提高了對基因序列表達及其單個位點變體效應的預測精度,并學會直接從DNA序列中預測增強子-啟動子的相互作用,推進了疾病-位點映射研究前沿。細胞對基因擾動的反應一直是基因藥物組學的重要問題,但可能的多基因擾動組合數(shù)量巨大,傳統(tǒng)實驗難以覆蓋,而GEARS方法⑦Roohani Y., Huang K., Leskovec J., “GEARS: Predicting transcriptional outcomes of novel multi-gene perturba‐tions”,BioRxiv,2022,2022.07.12.499735,p.5.實現(xiàn)了根據(jù)單細胞RNA測序數(shù)據(jù)預測細胞對單基因或多基因擾動的轉(zhuǎn)錄反應,并泛化到訓練集尚未覆蓋的基因擾動,其預測精度是先前方法的翻倍。
2.智慧醫(yī)療
自然語言處理、計算機視覺和數(shù)據(jù)挖掘正在快速推動智慧醫(yī)療的發(fā)展。自然語言處理的著名應用案例是IBM Watson平臺開發(fā)的腫瘤專家系統(tǒng)“沃森醫(yī)生”(Doctor Watson),可利用病例、病史和文獻知識儲備提供治療建議,以提高不同病情的診斷率。計算機視覺中的許多模型可用于醫(yī)學圖像的分類、檢測和分割任務,幫助識別異常和診斷疾病。例如,算法對黑色素瘤可疑色素病變的自動識別準確率與專業(yè)醫(yī)師診斷間的一致性高達88%①Soenksen L.R.,Kassis T.,Conover S.T.,et al.“Using deep learning for dermatologist-level detection of suspicious pigmented skin lesions from wide-field images”,Science Translational Medicine,2021,13(581):eabb3652,p.1.;針對宮頸癌開發(fā)的AI醫(yī)療工具突破了組織病理學檢測水平和醫(yī)生個人經(jīng)驗的限制,利用臨床數(shù)據(jù)庫提高了篩查效率②Bao H.,Sun X.,Zhang Y.,et al.“The artificial intelligence‐assisted cytology diagnostic system in large‐scale cer‐vical cancer screening: a population‐based cohort study of 0.7 million women”, Cancer medicine, 2020, 9 (18),pp.6896-6906.。醫(yī)療效率方面,基于ML的預測或預后模型利用覆蓋遺傳、臨床和人口特征的醫(yī)藥大數(shù)據(jù)平臺,準確預測患者的藥物反應以指定最佳處方,提高了重度抑郁等疑重癥的診治效率③Taliaz D., Spinrad A., Barzilay R., et al. “Optimizing prediction of response to antidepressant medications using machine learning and integrated genetic, clinical, and demographic data”, Translational psychiatry, 2021, 11 (1),p.381.。精準醫(yī)療是近年來迅速發(fā)展的新興概念,根據(jù)個體的基因組學信息、遺傳學和生活方式等因素,定制個體化的精確診斷、用藥及醫(yī)療方案。隨著對基因-疾病關(guān)系的深入了解,AI技術(shù)在精準醫(yī)療中的應用更加全面,主要涉及基于測序和醫(yī)學成像的疾病早篩④Dlamini Z.,Francies F.Z.,Hull R.,et al.“Artificial intelligence (AI) and big data in cancer and precision on‐cology”,Computational and structural biotechnology journal,2020,18,pp.2300-2311.,依據(jù)組學數(shù)據(jù)的靶向藥物選擇⑤Yang Y., Yang J., Shen L., et al. “A multi-omics-based serial deep learning approach to predict clinical out‐comes of single-agent anti-PD-1/PD-L1 immunotherapy in advanced stage non-small-cell lung cancer”,American jour‐nal of translational research,2021,13(2),p.743.,以及基于基因編輯技術(shù)⑥Choi G. C. G., Zhou P., Yuen C. T. L., et al. “Combinatorial mutagenesis en masse optimizes the genome editing activities of SpCas9”,Nature methods,2019,16(8),pp.722-730.和核酸藥物成藥性⑦Wei J., Chen S., Zong L., et al. “Protein–RNA interaction prediction with deep learning: structure matters”,Briefings in bioinformatics,2022,23(1),p.540.的基因治療。
3.藥物研發(fā)
傳統(tǒng)的藥物研發(fā)是一個投入成本高昂且產(chǎn)出高度不確定的復雜過程,經(jīng)歷信號通路研究,蛋白結(jié)構(gòu)解析,藥物作用位點探索,藥物分子設(shè)計和發(fā)現(xiàn),以及藥物分子活性優(yōu)化后才能進入臨床試驗⑧Paul D.,Sanap G.,Shenoy S.,et al.“Artificial intelligence in drug discovery and development”,Drug discovery today,2021,26(1),p.80.。AI通過賦能藥物靶點、藥物分子和二者間親和力(相互作用力)這三個關(guān)鍵層面的研究,正在引領(lǐng)藥物研發(fā),尤其是藥物設(shè)計、藥物篩選和藥理檢測,走上降本增效的高速路。藥物靶點解析方面,通過采用DL算法,Alpha Fold 2預測人類蛋白質(zhì)組三維結(jié)構(gòu)的范圍提升至98.5%⑨Tunyasuvunakool K., Adler J., Wu Z., et al. “Highly accurate protein structure prediction for the human pro‐teome”,Nature,2021,596(7873),pp.590-596.,并實現(xiàn)了對RNA近天然態(tài)結(jié)構(gòu)的高精度優(yōu)化①Xiong P., Wu R., Zhan J., et al. “Pairing a high-resolution statistical potential with a nucleobase-centric sam‐pling algorithm for improving RNA model refinement”,Nature Communications,2021,12(1):2777,pp.1-2.。藥物設(shè)計與合成方面,2018年提出使用深度神經(jīng)網(wǎng)絡和符號AI來發(fā)現(xiàn)逆向合成路線②Segler M. H. S., Preuss M., Waller M. P., “Planning chemical syntheses with deep neural networks and symbolic AI”,Nature,2018,555(7698),pp.604-610.,比傳統(tǒng)的計算機輔助搜索速度要快30倍,產(chǎn)生的分子數(shù)量幾乎是后者的兩倍。近期,深度圖像生成模型Deep LigBuilder③Li Y., Pei J., Lai L., “Structure-based de novo drug design using 3D deep generative models”, Chemical sci‐ence,2021,12(41),pp.13664-13675.推進了基于結(jié)構(gòu)的新藥設(shè)計和線索優(yōu)化,通過從頭藥物設(shè)計策略實現(xiàn)了具有高度藥物親和力的類藥分子的三維構(gòu)象?;贒L模型的AI工具Deep Tox④Mayr A., Klambauer G., Unterthiner T., et al. “DeepTox: toxicity prediction using deep learning”, Frontiers in Environmental Science,2016,3,p.80.通過識別藥物分子的靜態(tài)和動態(tài)特性來預測分子毒性,在擴展藥物篩選維度的同時提升藥物可用性檢測的效率。蛋白-蛋白親和力計算的主要難題在于蛋白間作用位點的采樣數(shù)量巨大,且蛋白動態(tài)構(gòu)象變化難以用傳統(tǒng)方法描述。對此,AI能夠快速處理復雜的動態(tài)數(shù)據(jù),擅長高維空間的搜索;神經(jīng)網(wǎng)絡的高維表示能力也為高效采樣提供了解決方案⑤Wang D., Wang Y., Chang J., et al. “Efficient sampling of high-dimensional free energy landscapes using adap‐tive reinforced dynamics”,Nature Computational Science,2022,2(1),pp.20-29.。關(guān)于蛋白動態(tài)構(gòu)象研究,常用的分子動力學模擬計算法受到力場精度和采樣效率的限制而成本過高,而ML模型idp GAN⑥Janson G., Valdes-Garcia G., Heo L., et al. “Direct generation of protein conformational ensembles via machine learning”,Nature Communications,2023,14(1),p.774.實現(xiàn)了通過模擬數(shù)據(jù)進行訓練,直接生成物理上真實的蛋白質(zhì)構(gòu)象集合,還能泛化到訓練集以外的構(gòu)象,使得計算成本可以忽略不計。
在物理學領(lǐng)域,ML憑借其自適應配置和數(shù)據(jù)處理,特別是圖像重建與分析方面的優(yōu)勢,在相應的粒子物理學、核物理學、凝聚態(tài)物理學和宇宙物理學中都發(fā)揮著重要作用。AI正在幫助加速粒子的模擬與識別。在超級計算機上使用馬爾可夫鏈蒙特卡洛模擬方法來研究夸克間強相互作用力的非擾動特性時,難以避免拓撲凍結(jié)和臨界減速,而DL通過提出和測試新算法克服了此類困難⑦Foreman S., Jin X. Y., Osborn J. C., “Deep Learning Hamiltonian Monte Carlo”, arXiv preprint arXiv:2105.03418,2021,p.1.。不僅如此,ML還可以縮減物理觀測數(shù)據(jù)的方差,通過區(qū)分信號和廣泛的背景事件來優(yōu)化數(shù)據(jù)信噪比和縮短生成數(shù)據(jù)的時間成本⑧Zhang R., Fan Z., Li R., et al. “Machine-learning prediction for quasiparton distribution function matrix ele‐ments”,Physical Review D,2020,101(3):034516,pp.1-19.。核探測方面,傳統(tǒng)探測法通過脈沖信號的不同波形(脈沖信息分布)來進行分離與識別,但只能處理單脈沖波,ML通過對波形組合的分類實現(xiàn)了多脈沖波的特征分析,甚至能夠改進和重建算法,使探測效率高且誤差小。凝聚態(tài)物理學方面,AI模型顯示出捕捉原子間力場(描述原子間的相互作用)的巨大優(yōu)勢,不斷推進分子動力學模擬方法的發(fā)展。一些AI原子間勢模型已經(jīng)被開發(fā)出來,DimeNet⑨Gasteiger J.,Gro? J.,Günnemann S.,“Directional message passing for molecular graphs”,arXiv preprint arXiv:2003.03123,2020,p.9.構(gòu)建定向信息傳遞的神經(jīng)網(wǎng)絡時,能夠?qū)⒃娱g的鍵長、鍵角、二面角和未連接原子間的相互作用通通加入模型中,以獲得良好的精確度。宇宙物理學方面,觀測和數(shù)據(jù)分析在天文研究中起著核心作用。除了長期進行的銀河數(shù)據(jù)溯源和星系分類,如今基于CNNs的引力波信號實時檢測和解碼,已經(jīng)能夠在2毫秒內(nèi)重建所有參數(shù),而傳統(tǒng)算法需要幾天時間才能完成同樣的任務①George D.,Huerta E.A.,“Deep neural networks to enable real-time multimessenger astrophysics”,Physical Re‐view D,2018,97(4):044039,p.20.。此外,已經(jīng)開發(fā)出基于DL的自動智能溯源工具②Lao B., An T., Wang A., et al. “Artificial intelligence for celestial object census: the latest technology meets the oldest science”,arXiv preprint arXiv:2107.03082,2021,pp.1-28.,不僅在操作速度上有很大的優(yōu)勢,而且可以識別傳統(tǒng)軟件和視覺檢查無法檢測到的特殊形式的物體,促進人類對宇宙的全面了解。
歷史上,新材料的發(fā)現(xiàn)和工業(yè)應用往往需要相當長的時間。2011年,美國首次提出材料基因組計劃(Materials Genome Initiative,MGI),目標至少兩倍速地提升了先進材料的發(fā)現(xiàn)、開發(fā)、制造和部署的進度。在MGI與大數(shù)據(jù)的不斷融合下,數(shù)據(jù)驅(qū)動模型已被視為材料研究中最有前途的方法,AI技術(shù)是獲得成分-結(jié)構(gòu)-工藝-性能關(guān)系的關(guān)鍵③Pollice R., dos Passos Gomes G., Aldeghi M., et al. “Data-driven strategies for accelerated materials design”,Accounts of Chemical Research,2021,54(4),pp.849-860.,甚至有望徹底改變材料科學。
眾所周知,當前形式的化學元素周期表是在一個世紀左右的時間里被構(gòu)建出來的,而ML技術(shù)的輔助使得科學家有可能在幾個小時內(nèi)重建周期表。一個名為Atom2Vec的無監(jiān)督機器從已知化合物和材料的廣泛數(shù)據(jù)庫中自主學習原子的基本屬性,然后在神經(jīng)網(wǎng)絡中運用它們來預測新材料的詳細特征,并具有顯著的準確性④Zhou Q., Tang P., Liu S., et al. “Learning atoms for materials discovery”, Proceedings of the National Academy of Sciences,2018,115(28),pp.6411-6417.。在新興的超材料領(lǐng)域,高分子復合材料的結(jié)構(gòu)幾何和基本成分決定了對合成設(shè)計至關(guān)重要的材料參數(shù),二者的組合變化遠超出傳統(tǒng)試錯法的能力。AI仿真模型則能高效高精度地實現(xiàn)從分子單體到鏈結(jié)構(gòu)再到大分子團聚結(jié)構(gòu)的多尺度建模,以探索聚合物材料的構(gòu)效關(guān)系⑤Luo X., “Subwavelength artificial structures: opening a new era for engineering optics”, Advanced Materials,2019,31(4):1804680,p.1.。同時,借助ML不斷產(chǎn)生的新高分子聚合物數(shù)據(jù),填補了目前數(shù)據(jù)缺乏的問題,最終實現(xiàn)更高性能的材料合成⑥Goldsmith B.R.,Esterhuizen J.,Liu J.X.,et al.“Machine learning for heterogeneous catalyst design and discov‐ery,AIChE Journal,2018,64(9),p.3553.。大規(guī)模的高質(zhì)量數(shù)據(jù)集是AI技術(shù)擴展到材料科學研究領(lǐng)域的必要設(shè)施,“atomly.net”數(shù)據(jù)庫計算了超過18萬種無機化合物的特性,在此基礎(chǔ)上建立的ML模型,實現(xiàn)了快速預測幾乎任何給定化合物的形成能量,產(chǎn)生了相當好的預測能力⑦Liang Y., Chen M., Wang Y., et al. “A universal model for the formation energy prediction of inorganic com‐pounds”,arXiv preprint arXiv:2108.00349,2021,p.9.。近十年,拓撲(電子和聲子)材料憑借奇特的物理特性成為熱電、光學、催化和能源相關(guān)領(lǐng)域的新寵,而利用高通量方法建立的相關(guān)數(shù)據(jù)庫為加速篩選和實驗發(fā)現(xiàn)新型拓撲材料的功能應用提供了可能⑧Chen X. Q., Liu J., Li J., “Topological phononic materials: Computation and data”, The Innovation, 2021, 2(3):100134,pp.1-3.。
地球演化史研究、氣候變化評估、災害事件預測、自然資源計算和環(huán)境管理治理等重要地球科學問題緊密關(guān)聯(lián)著人類的生存生活與社會發(fā)展。然而,地球科學現(xiàn)象具有明顯的動態(tài)時空結(jié)構(gòu),其變量服從非線性關(guān)系,在不同程度上表現(xiàn)出不完整性、噪聲和不確定性,使得實驗手段難以有效觀測地球系統(tǒng)實況并探究其子系統(tǒng)之間和內(nèi)部的聯(lián)系①Karpatne A.,Ebert-Uphoff I.,Ravela S.,et al.“Machine learning for the geosciences:Challenges and opportuni‐ties”,IEEE Transactions on Knowledge and Data Engineering,2018,31(8),pp.1544-1554.。當前,智能傳感器、圖像可視化和智能反演(intelligent inversion)等計算建模手段為解決上述難題提供了更多可能,ML算法和模式挖掘技術(shù)的整合正在幫助模擬地質(zhì)演化的極端條件、從觀測中估計地學變量并預測系統(tǒng)走勢、解析地學數(shù)據(jù)的潛在規(guī)律,以及因果發(fā)現(xiàn)與推理②Toms B.A.,Barnes E.A.,Ebert‐Uphoff I.,“Physically interpretable neural networks for the geosciences:Applica‐tions to earth system variability”,Journal of Advances in Modeling Earth Systems,2020,12(9),pp.1-20.。惰性氣體同位素測年是地球早期物質(zhì)演化史研究的重要途徑,例如,檢測氦在典型地殼巖石中的流失時,主要的巖漿脫氣過程要求高溫低壓的極端反應條件,已通過AI技術(shù)實現(xiàn)了傳統(tǒng)實驗和計算手段均無法滿足的精度要求,并且通過仿真得到的數(shù)據(jù)與經(jīng)典分子動力學計算結(jié)果及實驗數(shù)據(jù)較為一致③Luo H., Karki B., Ghosh D. B., et al. “Diffusional fractionation of helium isotopes in silicate melts”, Geochemi‐cal Perspectives Letters,2021,19,pp.19-22.。天氣預測方面,已有研究用深度生成模型取代大氣物理方程,實現(xiàn)了200萬平方公里的大氣層的物理仿真④Ravuri S., Lenc K., Willson M., et al. “Skilful precipitation nowcasting using deep generative models of radar”,Nature,2021,597(7878),pp.672-677.。在基于雷達的風速估算方法來確定大致的降雨范圍上,DL繞開物理條件的約束對未來降雨率進行直接預測。此外,地質(zhì)資源管理方面,自適應智能動態(tài)資源規(guī)劃系統(tǒng)的設(shè)計和應用是可持續(xù)自然資源管理的亮眼成果⑤Krishnan S.R., Nallakaruppan M.K., Chengoden R., Koppu S., Iyapparaja M., Sadhasivam J., Sethuraman S.,“Smart Water Resource Management Using Artificial Intelligence—A Review”, Sustainability. 2022, 14(20): 13384,pp.1-28.,AI技術(shù)發(fā)揮其在建模、靈活性、推理和預測資源需求量方面的顯著優(yōu)勢,在優(yōu)化資源配置的同時最小化運營成本,助力可持續(xù)性發(fā)展。
圖靈獎得主吉姆·格雷(Jim Gary)將近代以來的科學研究劃分為:經(jīng)驗范式、理論范式、計算范式和作為第四范式的數(shù)據(jù)密集型范式。通過引入大數(shù)據(jù)分析,“第四范式”反映了經(jīng)由信息技術(shù)和數(shù)字化技術(shù)賦能科學研究和發(fā)展的本質(zhì),適用于各科學領(lǐng)域。作為當下科學實踐中的一種革命性工具⑥Zdeborová L.,“New tool in the box”,Nature Physics,2017,13(5),pp.420-421.,盡管AI的科學解釋能力尚不足以生成嚴格庫恩意義上的顛覆性理論⑦趙云波:《AI預測可以代替科學實驗嗎?——以Alpha Fold破解蛋白質(zhì)折疊難題為中心》,《醫(yī)學與哲學》2021年第6期,第17—21頁。,但“大數(shù)據(jù)+智能算法”模式已被集中應用于實現(xiàn)自動化、建模、逆向問題和發(fā)現(xiàn),引發(fā)了新一輪科技革命。在2022年首屆科學智能峰會上,有專家指出AI for Science是建基于應用數(shù)學之上的機理和數(shù)據(jù)的融合計算,更將其稱作“科學研究的第五范式”①張偉:《AI賦能科研“第五范式”引變革》,《中國高新技術(shù)產(chǎn)業(yè)導報》2022年8月15日,第13版。。對AI for Science新范式全景及其基礎(chǔ)的探討,仍需對更多具體研究領(lǐng)域的典型案例進行基本原理和關(guān)鍵技術(shù)分析,但可以確認的是,AI for Sci‐ence已然推進了科學發(fā)現(xiàn)進程、擴展了科學理解途徑,并帶來了對科技倫理的挑戰(zhàn)。
數(shù)據(jù)驅(qū)動的科學仿真,也即AI模型,成為重要的科學發(fā)現(xiàn)手段。科學模型是一種具有重要科學意義的理想化表征②Weisberg M.,“Three kinds of idealization”,The journal of Philosophy,2007,104(12),pp.639-659.,而AI技術(shù)為科學研究提供了一種以數(shù)據(jù)為中心的科學仿真和預測性分析方法。在樸素科學時代,解決科學問題的關(guān)鍵在于追問能否觀測并總結(jié)規(guī)律;計算機普及后,科學活動依賴于實現(xiàn)有效近似的多項式和計算機模擬。如今,科學活動的數(shù)字化使可用數(shù)據(jù)和計算資源迅速增加,將海量非結(jié)構(gòu)性數(shù)據(jù)轉(zhuǎn)化為形式化的知識成為基本科學任務。在算法和算力的強耦合下,AI技術(shù)更頻繁地輔助研究人員創(chuàng)建現(xiàn)實世界的“數(shù)字孿生”,從混亂數(shù)據(jù)中提取洞見、開發(fā)模型或測試假設(shè)。因此,科學解謎轉(zhuǎn)型為首先尋找問題背后的可用數(shù)據(jù)和原理。參考藥物研發(fā)領(lǐng)域的進展,AI for Science正在走向一種融合物理模型與數(shù)據(jù)的系統(tǒng)處理模式,在實測數(shù)據(jù)不足的情況下,可以利用高精度物理模型生成的仿真數(shù)據(jù)反過來優(yōu)化和糾正AI模型。對此,ML算法已經(jīng)開發(fā)出基于領(lǐng)域知識和目標參數(shù)來模擬復雜系統(tǒng)的替代模型,例如,通過設(shè)計蛋白質(zhì)折疊轉(zhuǎn)換網(wǎng)絡塑造了單體蛋白的多種突變途徑(不改變其四元結(jié)構(gòu)而切換折疊),幫助發(fā)現(xiàn)了更全面的蛋白質(zhì)進化機制及其變體效應③Ruan B.,He Y.,Chen Y.,et al.“Design and characterization of a protein fold switching network”,Nature Com‐munications,2023,14(1),p.431.。以Alpha Fold 2的驚人表現(xiàn)為例,當前生成式AI已經(jīng)能夠?qū)W習先驗知識和科學原理,更將“知識”“數(shù)據(jù)”和“模型”有機結(jié)合起來,以推進科學原理的進步。從數(shù)據(jù)分析擴展到預測性分析和規(guī)范性設(shè)計,AI的前景或許不再僅僅是一種高性能工具,AI模型甚至可能成為一種新的知識形式,與人類能夠理解的知識并駕齊驅(qū),共同組成科學知識。
科學目的除了真理、解釋和預測外,也包括科學理解的重要一環(huán)④De Regt H. W., “Understanding, values, and the aims of science”, Philosophy of Science, 2020, 87 (5),pp.921-932.。AI在科學理解中已經(jīng)扮演了兩種角色:首先,放大數(shù)據(jù)規(guī)律的“計算顯微鏡”。例如,用AI自動提取以視頻形式記錄的實驗數(shù)據(jù)中的隱藏變量⑤Chen B., Huang K., Raghupathi S., et al. “Automated discovery of fundamental variables hidden in experimental data”,Nature Computational Science,2022,2(7),pp.433-442.。其次,提供創(chuàng)新靈感的“人工繆斯”。這類啟發(fā)通常來自于⑥Krenn M.,Pollice R.,Guo S.Y.,et al.“On scientific understanding with artificial intelligence”,Nature Reviews Physics,2022,4(12),pp.761-769.:專家對數(shù)據(jù)異常的識別、對ML模型的重新審視(如,通過反事實解釋打開算法“黑箱”)和對人工自主體(artificial agent)行為及其內(nèi)在獎勵策略的探測,AI對科學文獻特殊點的自動抓取,以及算法提供的可解釋性解決方案(如,數(shù)學公式、圖論等)中的新概念?!皩W習”是這個時代AI研究的關(guān)鍵詞,ML本身是關(guān)于理解用來設(shè)計和開發(fā)算法的智能,其工作流涉及⑦Bengio Y., Courville A., Vincent P., “Representation learning: A review and new perspectives”, IEEE transac‐tions on pattern analysis and machine intelligence,2013,35(8),pp.1798-1828.:從原始數(shù)據(jù)中學習,提取知識,使其普遍化,對抗維度詛咒,以及破解數(shù)據(jù)背后的解釋要素,以達到在時間推移中優(yōu)化自身學習行為的目的。AI先驅(qū)唐納德·米奇(Donald Michie)曾將機器學習分類為弱機器學習、強機器學習和超機器學習。最后一類不再是輔助性角色,而是作為“理解主體”直接獲得新的科學見解,并傳授給人類專家。二十世紀八九十年代,科學知識社會學家和認知科學哲學家就對“AI能否替代科學家獨立完成科學發(fā)現(xiàn)”問題展開過激烈論戰(zhàn)①曾點:《人工智能能替代科學家嗎?——再思STS的一場論戰(zhàn)》,《哲學分析》2023年第1期,第159—171頁?!,F(xiàn)在,AI工具正在演化出能夠自主學習的“AI科學家”。例如,AI-笛卡爾(AI-Descartes)已然實現(xiàn)了開普勒行星運動第三定律的再發(fā)現(xiàn)②Cornelio C.,Dash S.,Austel V.,et al.“Combining data and theory for derivable scientific discovery with AI-Des‐cartes”,Nature Communications,2023,14(1):1777,pp.1-10.,通過利用符號回歸和邏輯推理尋找方程擬合數(shù)據(jù),該系統(tǒng)得以確定哪些方程最符合背景科學理論,未來甚至可能自己構(gòu)建背景理論。然而,哲學家們質(zhì)疑先進的計算方法和理想化模型是否在根本層面上幫助人們獲得新的科學理解③Potochnik A., “The diverse aims of science”, Studies in History and Philosophy of Science Part A, 2015, 53,pp.71-80.。此類爭議的一個潛在解決方案是開發(fā)可解釋AI(ex‐plainable AI,XAI)④Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,也即解釋學習算法的內(nèi)在邏輯、由學習算法產(chǎn)生的模型或基于知識的推理方法的發(fā)展。此外,也有研究建議對人類決策的結(jié)構(gòu)因果模型進行形式化處理,并將這些模型中的特征映射到DL方法中⑤Holzinger A., Langs G., Denk H., et al. “Causability and explainability of artificial intelligence in medicine”,Wiley Interdisciplinary Reviews:Data Mining and Knowledge Discovery,2019,9(4):e1312,p.10.。
盡管AI for Science表現(xiàn)出蓬勃生機,但AI生成內(nèi)容(AI generated content)受到ML模型“黑箱”屬性的干擾仍然表現(xiàn)出半客觀性,在數(shù)據(jù)隱私性和決策嚴謹性方面存在隱患⑥鄧莎莎、李鎮(zhèn)宇、潘煜:《ChatGPT和AI生成內(nèi)容:科學研究應該采用還是抵制》,《上海管理科學》2023年第2期,第15—20頁。,因而招致科技應用在倫理、公平和信任方面的持續(xù)爭議。相關(guān)熱點議題包括但不限于:如何確保AI系統(tǒng)的設(shè)計和使用方式的道德和社會責任,并尊重基本的人權(quán)和價值觀⑦Muller H., Mayrhofer M. T., Van Veen E. B., et al. “The ten commandments of ethical medical AI”, Computer,2021,54(07),pp.119-123.?如何確保AI系統(tǒng)是公平的,不會延續(xù)或放大現(xiàn)有的偏見或歧視⑧Angerschmid A., Zhou J., Theuermann K., et al. “Fairness and explanation in ai-informed decision making”,Machine Learning and Knowledge Extraction,2022,4(2),pp.556-579.?如何確保AI系統(tǒng)的透明性和可解釋性,以建立用戶和利益相關(guān)者的信任⑨Holzinger K.,Mak K.,Kieseberg P.,et al.“Can we trust machine learning results?artificial intelligence in safetycritical decision support”,Ercim News,2018 (112),pp.42-43.?以及,面對上述倫理和社會影響,應如何制定和實施有效的政策、法規(guī)和治理框架,并促進各方利益相關(guān)者間的對話和合作?目前學界普遍認為,確保研究對象在科研鏈上各環(huán)節(jié)的詳細記錄的可溯性和可驗證性是提高AI模型可信度的重要思路之一?;谠撀窂酱罱ǖ乃菰茨P停╬rovenance model)能夠以機器可讀的方式留存研究歷史檔案①Wittner R.,Mascia C.,Gallo M.,et al.“Lightweight Distributed Provenance Model for Complex Real–world En‐vironments”,Scientific Data,2022,9(1),p.503.,在分布式多機構(gòu)協(xié)作背景下實現(xiàn)了對數(shù)據(jù)質(zhì)量的程序化評估。另外,魯棒性和可解釋性是提升可靠性和確保AI系統(tǒng)時刻受控的重要因素。魯棒性的一個可能強化方法是將統(tǒng)計學習與知識表示相結(jié)合②Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,可解釋性則使人們得以理解和評估AI系統(tǒng)的決策過程,確保AI解決方案的可信度和公平性③Holzinger A., Dehmer M., Emmert-Streib F., et al. “Information fusion as an integrative cross-cutting enabler to achieve robust,explainable,and trustworthy medical artificial intelligence”,Information Fusion,2022,79,pp.263-278.。醫(yī)藥等敏感領(lǐng)域已對可解釋性提出強制性要求,例如,歐洲體外診斷法規(guī)(IVDR)已有明確條例對軟件和AI算法提出要求④Müller H.,Holzinger A.,Plass M.,et al.“Explainability and causability for artificial intelligence-supported medi‐cal image analysis in the context of the European in Vitro Diagnostic Regulation”, New Biotechnology, 2022, 70,pp.67-72.,針對遺傳資源獲取和共享的《名古屋議定書》(Nagoya Protocol)強調(diào)了數(shù)據(jù)的透明度、可追蹤性和可解讀性⑤Martins J., Cruz D., Vasconcelos V., “The Nagoya Protocol and its implications on the EU Atlantic Area coun‐tries”,Journal of Marine Science and Engineering,2020,8(2),p.92.。在具體策略上,還可以考慮對AI模型的結(jié)構(gòu)和訓練過程提供清晰的文件和說明,使用可解讀的(interpretable)模型或技術(shù)⑥Rudin C., “Stop explaining black box machine learning models for high stakes decisions and use interpretable models instead”,Nature machine intelligence,2019,1(5),pp.206-215.,以及將模型的輸出和決策過程可視化等。
大數(shù)據(jù)時代,利用多源異構(gòu)的科學數(shù)據(jù)來推進知識前沿的追求激發(fā)了AI技術(shù)與科學研究的深度融合,但數(shù)據(jù)、知識、模型、算法、算力共同建構(gòu)的AI for Science僅被挖出冰山一角,前路仍遠。一方面,作為新興技術(shù),ML盡管取得迅猛進步,但算法難以解釋因果關(guān)系,相應模型敏感于微小的輸入差異以至產(chǎn)生大幅輸出變化,且部分研究領(lǐng)域仍存在低質(zhì)量數(shù)據(jù)。要提高AI在科學研究中的可信度和可控性,尚需提高AI模型的魯棒性,并在保持準確率的前提下,降低ML模型對計算資源的依賴。從可解釋性方面來看,作為科學理解的要素,前文提及的XAI盡管被視為有前景的技術(shù)出口,但“解釋”的定義和涵蓋解釋各種屬性和維度的結(jié)構(gòu)化格式尚不清晰⑦Vilone G.,Longo L.,“Notions of explainability and evaluation approaches for explainable artificial intelligence”,Information Fusion,2021,76,pp.89-106.,一些ML主導的閉環(huán)研究仍有賴于人類專家的領(lǐng)域知識進行概念性理解和決策。
AI for Science已成為全球新前沿,AI協(xié)助的科技創(chuàng)新發(fā)展對國家經(jīng)濟實力和國際競爭力具有重大意義。以新材料研發(fā)為例,對材料的利用能力是人類生產(chǎn)力和生產(chǎn)方式的標志性體現(xiàn),材料作為“工業(yè)骨骼”為各行業(yè)的技術(shù)進步起到基礎(chǔ)性和先導性作用。2014年美國將“材料基因組計劃”提升為國家戰(zhàn)略,配套建設(shè)了45個材料基因組創(chuàng)新平臺,每個平臺政府投資0.7~1.2億美元,建設(shè)周期5~7年①宿彥京、付華棟、白洋、姜雪、謝建新:《中國材料基因工程研究進展》,《金屬學報》2020 年第10 期,第1313—1323頁。。包括我國在內(nèi)的多個國家也迅速啟動類似的研究計劃,爭取在新一輪材料革命中占得先機。事實上,針對我國高科技人才短缺和AI生態(tài)系統(tǒng)不成熟的問題,國內(nèi)已擁有良好的AI技術(shù)基礎(chǔ)和全球最龐大的人口市場,突破口在于針對未來發(fā)展趨勢展開前瞻性規(guī)劃和相應的基礎(chǔ)研究②陸成寬:《中國科學院院士楊金龍:讓AI for Science更好服務國家戰(zhàn)略需求》,《科技日報》2023年5月22日,第5版。。近期,為落實國家《新一代人工智能發(fā)展規(guī)劃》,科技部會同自然科學基金委啟動了“人工智能驅(qū)動的科學研究”專項部署工作,點名藥物研發(fā)、基因研究、生物育種、新材料研發(fā)等重點領(lǐng)域的科技研發(fā)體系布局??梢?,我國AI for Science發(fā)展的當務之急在于為重大科學問題研究建設(shè)專用平臺,鼓勵建設(shè)計算與智算融合的科研生態(tài)體系和更多的開放科學數(shù)據(jù)。從文章第二部分的案例中發(fā)現(xiàn),AI方法在科學領(lǐng)域內(nèi)的發(fā)展和普及通常是由一個既定科學問題推動的,而成功的最佳途徑是AI技術(shù)員在各個科研環(huán)節(jié)與科學家緊密合作。因此,跨領(lǐng)域融合的科研組織模式與跨學科重構(gòu)的綜合人才培養(yǎng)是拉動創(chuàng)新平臺建設(shè)與專項研究的重要基礎(chǔ),也是推進資源整合和政策合力的重要一環(huán)。首先,需要鼓勵科研人員積極接納和學習AI工具和手段,在國家戰(zhàn)略性需求領(lǐng)域的科學難題上實現(xiàn)技術(shù)突破,推進我國在基礎(chǔ)科研的國際競爭中的主動地位。其次,除了實現(xiàn)AI技術(shù)創(chuàng)新的人工智能人才,更需要高校建立跨學科的人才培養(yǎng)體系,通過設(shè)置交叉學科來培養(yǎng)能夠快速適應智能手段,甚至快速將技術(shù)創(chuàng)新轉(zhuǎn)化為實用科研設(shè)計的高層次人才。最后,要建設(shè)開放創(chuàng)新的專項智研平臺與公共大數(shù)據(jù)平臺,并制定配套的AI治理原則、數(shù)據(jù)安全規(guī)范和跨學科交叉研究政策。只有實現(xiàn)“項目、平臺、人才”三方合力的可持續(xù)發(fā)展聯(lián)合體,才能全面提升我國AI驅(qū)動的科學研究自主能力與范式變革。
加快新一代AI的發(fā)展是我國的一項關(guān)鍵戰(zhàn)略,旨在促進科技發(fā)展,升級各工業(yè)領(lǐng)域,并提高整體生產(chǎn)力。最大限度地發(fā)揮AI在基礎(chǔ)科研領(lǐng)域的潛力,要求更健康的科研體系布局與多方協(xié)作,實現(xiàn)研究機構(gòu)、投資者、企業(yè)和市場之間的合作和知識轉(zhuǎn)移??梢栽O(shè)想,在“AI+物理模型+高性能計算+自動化實驗”的基礎(chǔ)上,以“搜索”為核心的精準仿真建模和重新設(shè)計(de novo de‐sign)有望真正實現(xiàn)“以終為始”——從需求出發(fā)升級工業(yè)設(shè)計和智能制造,重塑相關(guān)行業(yè)的技術(shù)標準和商業(yè)模式,最終推動我國的制造業(yè)轉(zhuǎn)型和實體經(jīng)濟發(fā)展。因此,為更好地利用AI for Sci‐ence帶來的科研范式革命的機遇,我們應當鼓勵科學工作者積極擁抱AI for Science,加快AI for Science的科學研究平臺建設(shè),挖掘AI for Science在各類科學研究中的潛力,使AI for Science在科學研究中最大限度地發(fā)揮作用,更好地服務國家戰(zhàn)略需求,以增強我國的科學研究實力,確保這一領(lǐng)域在國際競爭中處于世界前列。