孫坦,趙瑞雪,楊曉蓉*,王劍
1.中國農業(yè)科學院,北京 100081
2.農業(yè)農村部農業(yè)大數據實驗室,北京 100081
3.中國農業(yè)科學院農業(yè)信息研究所,北京 100081
進入新世紀的第二個10 年,以大數據、人工智能為代表的戰(zhàn)略性信息技術呈現出疊浪式發(fā)展的態(tài)勢,不同技術之間的橫向融合及其對科學研究交互應用的滲透廣度、深度進一步加強,大數據及其相關技術所帶來的思維、理念和方法對科研領域全方位賦能的同時,也顯著拓展各學科領域研究范圍和創(chuàng)新能力,繼而對科研模式的方方面面產生了顛覆性的影響[1],形成了“科研信息化、信息數據化、數據知識化”科研治理新業(yè)態(tài)。在這一背景下,科研人員也在積極思考應對在數據密集型環(huán)境下科學研究工作所面臨的挑戰(zhàn),迫切需要構建一種面向海量數據的新的研究方法、模式、技術和服務[2]。就理論基礎而言,這種基于數據的研究方法與分析技術注重于從海量數據中抽取研究對象的變化規(guī)律和內在聯(lián)系,主張以量化、計算和自動化的理念,從數據出發(fā),應用先進的計算技術和定量方法,開展數據化分析、數據驅動決策以及智能化分析應用等[3]。這意味著,在大數據環(huán)境下,未來科學研究會顯現出以數據為中心,以定量化和數據化分析為原則,擁有智能性、融合性和可自動處理性等計算型特征,這種具備計算特征的科研活動可被概括為“計算型科研”。就本質而言,計算型科研作為一種基于數據密集型科研范式的新型科研模式,是“計算型思維”擴展到科研領域的表現形式,也是“第四科研范式”發(fā)展的一個新階段。在實踐中,計算型科研能夠推動人工智能、網絡分析、建模仿真等數據分析處理技術與科研活動的深度融合,減少傳統(tǒng)基于人工判斷所引發(fā)的主觀性誤差,真正實現數據在科研活動中的要素驅動作用[4]??梢?,計算型科研是大數據時代科研活動發(fā)展的一個必然趨勢[5],了解和應用計算型科研思維理念和技術方法,對于提升科研創(chuàng)新能力,應對數據密集型科研范式變革具有重要意義。
隨著大數據時代的到來,科學研究活動正從傳統(tǒng)的理論科研、實驗科研向數據密集型科研轉變[6]。在這一過程中,基于定性和實驗現象分析的科研模式已經無法滿足日益復雜的科研活動需求和科技創(chuàng)新任務,進而需要面向海量數據所開展的精準化、細粒度的分析來提升科研創(chuàng)新的質量[7]。在這種科研模式變革的背景下,2007 年美國國家工程院院士Jim Gray 第一次提出了科學研究領域的第四范式的概念[8]。在此基礎上,哈佛大學的Lazer 教授等人基于“Data Intensive Computing(數據密集型計算)”的理念提出了“Computational SocialScience(計算型社會科學)”的概念,強調利用數據分析技術來開展社會科學研究工作,從數據計算結果和各類信息的相關性來揭示研究對象的內在變化機理和運行規(guī)律。在實踐中,伴隨著上述理論的擴展,計算型科研模式逐漸演變成型,它的本質是一種數據驅動型的研究模式,是以大數據為研究基點,綜合實驗、推理和模擬等研究方法要素,并能有效應對當前海量數據挑戰(zhàn)的新型研究方式。在計算型科研模式下,科研活動過程在直接面對被研究物的同時,注意力更多地轉向到探索海量數據中所蘊含的信息。在這一過程中,研究者所面臨的研究客體、數據形式、科學分工、研究驅動方式和科學發(fā)現模式等要素也隨之產生了很大變化[9]。因此,在科研實踐中,與描述自然現象的實驗科學、采用模型或歸納法的理論研究,以及使用計算機進行模擬復雜現象的仿真科學的科研方式相比,計算型科研模式是以數據為研究基礎,通過實驗、理論、仿真融合的方法開展研究活動,其具有以下特征:
(1)在研究對象上,表征具體研究對象的海量數據在研究過程中的地位不斷提升,使研究對象呈現出來源多樣化、結構復雜化、數量海量化的特性[10]。因此,大量數據的獲取和從大量復雜數據中獲取有用數據以及洞見知識的能力將成為計算型科研模式開展的關鍵。
(2)在研究推理上,關聯(lián)關系與邏輯關系并重的分析模式的出現,使研究過程更加復雜,但更客觀。計算型科研通過構建基于科學研究問題的數學模型,進而進行數據分析得出結論,數據模型往往具有客觀的科學依據,使人為主觀因素在科學研究中的作用越來越小。
(3)在研究手段上,海量數據的存儲、分析、識別已經超出人工甚至是普通計算機的功能范圍,將更加依賴通過提高計算機計算、存儲以及知識挖掘等能力來實現科研創(chuàng)新[11]。計算型科研從數據獲取、建模到分析預測,全部由計算機自動完成。因此,計算機、網絡等科研信息化設施的水平提升成為計算型科研模式開展的重要基礎。
(4)在研究結果驗證上,傳統(tǒng)科學研究過程為:假設—論證—驗證。而基于計算型科研模式的研究過程不僅僅立足于傳統(tǒng)的假設前提,而是將基于大量數據的推理論證而得出研究結果,這種結果可能具有不可假設的特性。這意味著,在大數據時代,科學研究的關注重點將從傳統(tǒng)意義上的單一型因果關系逐步向新型的邏輯與相關性并重的復合型要素轉變,這使得基于計算型科研模式所獲取的研究成果相較于傳統(tǒng)的科研成果更具有說服力。
當前,隨著科研活動從定量、計量向計算轉變,其研究方法的“計算”特征日益凸顯,計算型科研模式逐步走向“前臺”。在國外,以美歐為首的發(fā)達國家對計算型科研或計算化科研活動非常重視,在政策、設施、資金、人員等方面投入了大量資源,構建起支撐計算型科研應用體系,以期在新一輪科技競爭中獲得更多優(yōu)勢[12]。我國也積極打破行業(yè)及主體壁壘,強化科研資源共享與協(xié)同合作,旨在推進以數據融合和計算分析為主的科研生態(tài)加速發(fā)展,以應對計算型科研帶來的科技創(chuàng)新挑戰(zhàn)。相關應用實踐及主要經驗體現在以下幾個方面:
2012 年3 月,美國政府制定了“大數據研發(fā)計劃”,并把大數據納入到國家戰(zhàn)略體系中來。在此背景下,2014—2016 年,美國政府相繼啟動了“云計算測試床建設”項目、國家級的“戰(zhàn)略性計算計劃”“大數據研究與開發(fā)戰(zhàn)略計劃”等[13]。在歐洲方面,歐盟委員會為了推動新興的信息與通信技術發(fā)展,制定了一系列規(guī)劃與政策,其中《充分發(fā)揮ICT 潛能:賦予歐洲更多能力》報告已成為當前歐洲各國發(fā)展新一代通訊與信息技術、推動數字科研戰(zhàn)略的共同綱領[7]。在我國,盡管在大數據科研戰(zhàn)略方面起步較晚,落后于美國和歐盟,但隨著世界范圍內對大數據研究重視度的不斷提升,我國在此領域的發(fā)展較為迅速。2018 年國務院辦公廳在其印發(fā)的《科學數據管理辦法》中詳細說明了相關單位在數據收集、存儲、共享、使用、管理和匯交中的職責,以及數據安全保障等各方面的工作事項[2]。在此背景下,各地方政府也紛紛出臺一些方針政策促進數據科學與產業(yè)的融合發(fā)展。農業(yè)農村部、國家海洋局、交通運輸部、國土資源部等國家部委機關,也從各自負責的行業(yè)領域實際需求出發(fā)制定了科學數據管理與使用的方針和政策[3],有力地推動了我國國家政策加速向大數據技術研究與應用轉變。在農業(yè)領域,2016 年農業(yè)農村部印發(fā)了《農業(yè)農村大數據試點方案》提出了“推動涉農數據共享、開展單品種大數據建設、推動農業(yè)農村大數據應用”等主要任務,促進了農業(yè)農村數據生態(tài)的完善和發(fā)展。
與計算機仿真不同,計算型科研發(fā)展的一個重要要素是“研究領域擁有大量的數據”,而大數據所蘊含的各類數據間關系也往往超過一般用戶的認知范圍,這使其更加難以理解。為了突破這一瓶頸,解決計算型科研所引發(fā)的大數據處理與分析問題,全球范圍內正在加快以超級計算、云計算、計算集群、分步式數據庫為代表的信息化基礎設施建設,打造具備一流計算、處理和傳輸能力的計算型科研生態(tài)系統(tǒng)。在美國,由美國國家科學基金會(National Science Foundation, NSF)出資,多個大學參與所研發(fā)的超級計算機,其重點聚焦海量數據計算與處理過程中存儲資源與計算資源的平衡問題,并提供了硬件層面上的加速與協(xié)處理功能[14]。在歐洲方面,歐盟委員會投資1 億歐元來推動面向數據科學的基礎設施建設,并在其“地平線2020 計劃”中將面向數據的信息化基礎設施建設當作重點領域加以推動[15]。我國政府也積極推動國家重大科研基礎設施的布局與建設:2013 年,我國“天河二號”晉升為全球第一的超級計算機,在此基礎上,2020 年,中國科學院面向高端芯片產業(yè)研發(fā)了具備分布式異構彈性特征的高性能計算環(huán)境,可支持1000 多個設計用戶同時開展芯片研發(fā)任務,為超大規(guī)模和高端芯片設計提供靈活高效的計算資源[16],推動了我國高端芯片產業(yè)核心制造技術的攻關,形成了高性能計算服務科技創(chuàng)新的工作新形態(tài)。在農業(yè)領域,隨著網絡生態(tài)與高性能計算在農業(yè)生產領域的融合應用,智能化、自動化的集成裝備技術已逐步成熟,有效推動了農業(yè)機械化設備和生產設施智能化改造,使農業(yè)上的各類資源、氣象、生產、銷售數據得到了大規(guī)模的積累與沉淀,構成了農業(yè)計算型決策方式的“大腦”,有效推進了國家鄉(xiāng)村振興戰(zhàn)略的實施。
在信息技術推動下,世界經濟合作趨勢日益加快,科研活動更多地以多學科、多機構、多層次的分工協(xié)作模式開展,且整體研究過程的體系化、平臺化和精細化程度日益突出,開放科學以網絡平臺和眾包科學的方式越來越頻繁地進入到科學研究中,大數據應用的科學共同體所展現的凝聚力和包容性極大優(yōu)化了各學科領域非結構化數據的有效利用,推動更多的學者跨學科參與相關研究、分享各自的研究成果、及時檢驗和矯正科研數據,從而最大限度避免了數據錯誤的發(fā)生,減少重復的科研活動,提升了科研質量,加快了科學研究的進程。當前,歐美發(fā)達國家非常重視開放科學與協(xié)作科研,2016年,美國國家科學基金會在未來十大項目計劃中把以開放科學、協(xié)作科研為特征的融合研究作為重要機制與支撐創(chuàng)新計劃之一[13];歐盟制定的“開放科學共享空間方案” (Open Science Commons)也提出要通過設施、平臺、工具和服務的建設,營造良好的協(xié)作科研環(huán)境,推動開放科學的發(fā)展[17]。我國政府也非常關注開放與協(xié)作研究,國家自然基金委員會早在成立之初就設置了重大項目來資助多學科合作研究;2020 年,中國科學院微生物研究構建了微生物資源全球數據合作網絡,覆蓋了全球50 個國家的133 個微生物資源中心[16],有效支撐了微生物資源基因組測序和功能挖掘的國際科研協(xié)作。在農業(yè)領域,集互聯(lián)網、移動互聯(lián)網、云計算和物聯(lián)網技術為一體全新智慧農業(yè)的出現,讓多種信息技術在農業(yè)中實現綜合、全面的應用,有效加速了農業(yè)跨區(qū)域的科研協(xié)作與共建,從而助推農業(yè)科研全面騰飛。
計算型科研作為“計算思維(Computational Thinking)”的一種表現形式,其本質是一種分析方式,即利用計算這一基本理念來開展科學研究中的問題排查、系統(tǒng)設計和規(guī)律找尋等活動[18]。具體而言,計算型科研是通過抽象物理世界的各類對象和關系,并利用計算機以自動化的方式解析和處理這些抽象,這其中的“計算”包含抽象和自動化2 個基本要素[19],重點強調通過多種信息技術輔助科研人員的分析活動,并構建功能廣泛的信息化基礎設施來支撐科研協(xié)作體系的建立。由此,在科研模式向計算型科研轉型升級的過程中,數據與技術設施的支撐具有決定性的推動作用,計算型科研模式對其的需求表達主要體現在以下幾個方面。
基礎設施效能化是指科研活動所依托的計算設備、存儲設備、網絡設備等信息化基礎設施性能顯著增強,擴展性持續(xù)提升。這是因為在計算型科研模式下,絕大多數與計算相關的科學研究活動已經突破傳統(tǒng)模式的簡單、定性化的統(tǒng)計分析,轉變?yōu)槊嫦虼髷祿鄬碗s的定量分析、相關性分析和語義分析等形式[20]。在實踐中,這類分析模式由于數據處理量大、計算復雜度高、實時性強,因而必須借助高效能的信息化基礎設施,才能從計算、存儲和傳輸等方面支撐計算型科研活動,使相關研究任務在有限的時間內得以完成。這就要求新時期支撐計算型科研的條件設施必須依托云計算、分步式存儲、虛擬化等技術,重點解決傳統(tǒng)單一服務器設施和并行化計算所面臨的耗能高、處理器性能弱、內存占用大、網絡傳輸慢等問題,大幅增加數據存儲與處理能力,滿足計算型科研下的計算與存儲需求。
研究對象數字化是指應用信息化手段,擴展科研活動所涉及的各類對象,并推動其各類屬性信息由傳統(tǒng)的紙質或模擬信號形式轉變?yōu)閿底只问?。隨著數字化、互聯(lián)網技術賦能科學研究的深入,各種科研信息及其所依托的載體數字化程度不斷增強,數字化信息已成為計算型科研活動的一種常態(tài),這不但顯著擴展了傳統(tǒng)領域科研分析的客體范圍,也使科研對象的可計算性大幅提升[21]。這意味著科研活動所采集和整理的信息只有通過數字化的方式,才能夠更有效地進行分析和使用,最大限度地發(fā)揮其價值。從這一點意義上來說,以數字化形式存在的各類數據資源由于具備能夠被計算設備讀取和處理的特性,已經日益成為計算型科研活動的基石[14]。這就要求計算型科研支撐環(huán)境建設應進一步強化信息技術對科研活動的賦能作用,研制新型的數字化智能裝備,將新技術融入實驗設計、分析和創(chuàng)新發(fā)現等科研活動的各個過程,打造具有適應不同環(huán)境下的低成本的智能設備和數字化設施,有效提升科研對象的數字化水平。
研究模式融合化是指在科學研究過程中借助跨學科領域的各類工具、理念和技術,突破學科之間的壁壘,形成一種覆蓋創(chuàng)新過程全鏈條、多方研究主體廣泛參與的科學研究框架模式。在實踐中,由于計算型科研的開放性與協(xié)作性,使得新時期科研活動必須在加強溝通和聯(lián)結后,才能實現科研活動從問題中來、到問題中去的閉環(huán)過程模式,形成一個綜合、全面的研究框架[22]。這就要求計算型科研支撐能力與環(huán)境建設不僅僅局限于運用技術和工具將各類學科領域的人員聚合在一起,而是要營造一個以問題為導向,多學科領域開放協(xié)作的研究環(huán)境;借助先進的信息技術手段為科研人員設計目標、部署實驗、挖掘數據,推動多種知識、理論、數據和方法的融合與滲透,形成多領域科研人員廣泛認可的研究框架和研究方法,有效提升跨學科領域研究的融合水平。
研究方法智能化是指隨著機器學習、知識表達、語義推理等技術的發(fā)展與深度應用,科學研究所依托方法的智能性不斷提升的一種趨勢。即研究方法和工具已突破傳統(tǒng)的統(tǒng)計分析的范疇,轉向更高層次的計算建模方向發(fā)展。在科研活動中,由于傳統(tǒng)的統(tǒng)計分析方法很難在海量數據中抽取出其所蘊含的知識和規(guī)律,只有運用智能化的計算與分析方法才能夠在不同的數據環(huán)境下,以自動化的方式發(fā)現潛在的知識、關系和規(guī)律,從而解決更復雜、更前沿的科學問題[15],在科研活動中真正解放人的腦力勞動。從這點意義上來說,傳統(tǒng)科研模式向計算型科研模式轉變的實質是研究方法從簡單的統(tǒng)計計算形式轉變?yōu)楦唠A的建模計算應用形式,這說明在大數據時代,單一地應用人腦判斷和簡單的統(tǒng)計方法已不能完整地發(fā)現科研對象的內部關系并滿足科研活動深層次的需求。因此,只有依托具備智能化的計算方法和模型,才能幫助研究者更快、更有效地揭示大數據所蘊含的各類關系和特征,實現對研究對象的深度分析和理解。這就要求計算型科研的研究方法模型必須深度融合大數據、人工智能等核心關鍵技術,形成一系列支撐智能化研究方法的工具、模型及產品,構建智能化研究協(xié)作平臺,充分滿足研究者對科研對象深度洞察的需求。
計算型科研的本質是在大數據和第四范式變革的背景下,以數據為中心,通過運用計算機可處理的方法和工具來分析數據所蘊含關聯(lián)信息的一種研究方式。在計算型科研環(huán)境下,計算方法與計算工具的發(fā)展程度是科研分析與創(chuàng)新能力的重要基礎[13]。因此,構建有效支撐計算型科研的環(huán)境與設施,推動科研創(chuàng)新范式的革命性改變與提升,是新時期科研發(fā)展的必由之路。特別是對于農業(yè)這一學科領域,由于其研究范圍廣、研究對象繁多、研究環(huán)節(jié)復雜,科研過程對數據分析方法與工具的依托更加緊密。這意味著,農業(yè)科研活動只有迅速適應計算型科研模式所帶來的新的科研環(huán)境和科研條件,加速與開放科學的融合發(fā)展,才能推動海量的農業(yè)數據資源在復雜應用場景的深度融合,由此可以預期未來農業(yè)科研將會充分遵循基于“云-數-智”計算型理念與方法,實現農業(yè)產學研協(xié)同創(chuàng)新的引領與帶動作用,使“數據”與“計算”要素充分融入農業(yè)科研活動的各個環(huán)節(jié),推動農業(yè)創(chuàng)新發(fā)現與計算分析能力實現顛覆性革新,這也是新時期農業(yè)科學研究發(fā)展與變革的重要方向。然而,值得注意的是,當前國內計算型科研在農業(yè)領域的應用相較歐美等發(fā)達國家還存在著一定差距,具體表現在農業(yè)領域內數據“重收集、輕應用”,數據分析處理的基礎與核心技術缺乏、數據共享與協(xié)作環(huán)境還未充分建立等。為此,在充分吸收和借鑒國外先進發(fā)展經驗的基礎上,應正視自身的缺陷與不足,進一步推動計算型科研模式在農業(yè)科研領域的深入變革與應用?;诖?,可提出以下幾點啟示。
計算型科研方式對以信息技術為基礎的科研基礎設施提出了更高要求,這使得以智能化、數字化和網絡化為主要特征的信息化基礎設施日益成為計算型科研環(huán)境下研究活動的必備條件。在農業(yè)領域,重視計算型科研對信息化條件和設施的新需求,加快農業(yè)科研信息化基礎設施戰(zhàn)略布局,對于提升農業(yè)科技創(chuàng)新能力具有重大意義。為此,應積極規(guī)劃面向農業(yè)領域的科研信息化基礎設施建設,打造以科研工作者為核心、全面覆蓋農業(yè)各類創(chuàng)新主體的科研基礎環(huán)境,支撐跨學科、跨部門、跨地域的科研協(xié)作,拓展支撐計算型科研的數據資源和計算資源應用范圍,切實滿足計算型科研轉型與升級的技術與設施需求。
擁有海量數據并對其進行有效共享與應用是計算型科研模式的主要特征[15]。為此,農業(yè)計算型科研變革應積極推進農業(yè)基礎數據匯聚,融合各類面向農業(yè)學科領域的基地、實驗室等各類創(chuàng)新單元的科研大數據資源,以平臺建設促進科研數據共享服務,實現農業(yè)領域各類數據和計算資源的共享與高效利用。進一步完善面向整個農業(yè)學科領域數據資源的匯聚與共享管理機制體制,增強基礎數據分類管理和共享應用算法與技術的研發(fā)以及相關工具的研制,以共享平臺建設推動系統(tǒng)化積累農業(yè)全源數據集,為農業(yè)計算型科研的深度應用提供必要的數據基礎環(huán)境。
在計算型科研模式下,類型豐富、數量龐大的數據資源已日益成為其重要的研究基礎,這意味著在農業(yè)計算型科研的轉型升級過程也是數據資源大規(guī)模采集和匯聚的過程,其所帶來的不僅僅是新型的數據采集方法與技術在農業(yè)學科領域的應用,更多的是數據采集智能工具和裝備的推陳與出新。為此,應充分借助高速網絡、人工智能等戰(zhàn)略性信息技術,加大研發(fā)投入力度,研制具有人類部分信息感知能力和行動能力的自動化、半自動化農業(yè)數據采集工具與裝備,使得科研人員能夠在短時間內采集數量更多、精度更高的觀測數據,智能判斷排除數據所存在的各類問題,增強農業(yè)海量數據采集與處理能力,夯實農業(yè)科研數據基礎性要素,賦能計算型科研創(chuàng)新發(fā)展。
在計算型科研模式下,以開放協(xié)作為主要特征的開放科學已日益成為數據密集型科研范式的重要研究形式。為此,農業(yè)科研信息化發(fā)展應聚焦基于計算型科研模式的開放科學與科研協(xié)作體系,研發(fā)支持開放科學理念的協(xié)同創(chuàng)新平臺,打造開放式科研協(xié)作環(huán)境,大力提升跨機構、跨部門、跨地域的資源共享和實驗協(xié)同深度與廣度,增強重點農業(yè)學科領域科研協(xié)作交流活躍度,推動傳統(tǒng)科研向計算型科研的轉型與升級。
計算研究素質是指研究主體靈活應用計算型方法與工具開展相關研究活動的思維方式。對于農業(yè)科研領域來說,由于其研究對象和研究范圍的廣泛性與復雜性,培育農業(yè)科研人員計算研究素質對于推動農業(yè)計算型科研深入革新具有重要意義。為此,應大力增強計算型科研普適性培育,使計算研究素質真正成為農業(yè)科研人員必備的基本條件,鼓勵農業(yè)科研人員自覺融匯集成各類數據資源,利用各類數據自動處理工具,開展計算與分析工作,提升農業(yè)科研活動的客觀性和問題解決效率,推動計算型科研模式切實融入農業(yè)整體研究體系中。
本文通過對計算型科研模式探討,概略介紹了其產生的背景、內涵、理念及對科研設施與環(huán)境的需求。在這其中可見,計算型科研模式和傳統(tǒng)科研模式雖然在功能表現和分析方法上有所差異,但其本質和目標是一致的,計算型科研是傳統(tǒng)科研“深度研究”的表現形式,也是科研活動適應當前數據密集型環(huán)境和社會需求的一種變化趨勢。在農業(yè)領域,計算型科研的變革對科研能力、科研素養(yǎng)和科研方法提出了更高的要求。因此,深入探索農業(yè)領域計算型科研發(fā)展的理論、工具、應用和方法,為計算型科研效率的改善與提升提供啟示建議,全面增強計算型科研理論方法面向農業(yè)科研創(chuàng)新的“融入環(huán)境、嵌入過程”的能力,將是新時期農業(yè)科研轉型升級的關鍵。
利益沖突聲明
所有作者聲明不存在利益沖突關系。