国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科學數據“東數西算”組織機制與傳輸模式研究

2023-11-08 05:46:38方肖胡正銀韓銳鄭亮
數據與計算發(fā)展前沿 2023年5期
關鍵詞:東數西算東數區(qū)塊

方肖,胡正銀*,韓銳,鄭亮

1.中國科學院成都文獻情報中心,四川 成都 610299

2.中國科學院聲學研究所,北京 100190

3.國家超級計算成都中心,四川 成都 610299

引 言

“東數西算”是國家重大發(fā)展戰(zhàn)略[1],科學數據作為“數據”的重要組成部分,已成為國家科技創(chuàng)新發(fā)展和經濟社會發(fā)展的重要基礎性戰(zhàn)略資源,科學研究也已步入數據密集型的“第四范式”時代[2]。現階段科學數據存儲主要集中于東部地區(qū)[3],而東部地區(qū)資源緊張不能滿足科學數據研究分析所需的海量算力、電力資源??茖W數據“東數西算”具備較大的經濟價值和推動西部地區(qū)產業(yè)發(fā)展的能力,因此有必要對該過程的組織機制和傳輸模式進行研究,助力國家“東數西算”重大戰(zhàn)略。

1 科學數據“東數西算”組織機制

當前,國家“東數西算”工程重點關注布局在政務、金融、交通、企業(yè)、醫(yī)療、教育等能夠快速轉化數字經濟價值的領域[4]??茖W數據“東數西算”在相關研究領域具有經濟價值與迫切性,能夠為科研機構節(jié)省大量科研經費,但科學數據偏向于基礎研究,直接轉化經濟價值較低,拉動地方GDP的效果遠低于其他數字經濟領域。因此,地方政府會根據科學項目的影響力給予較多的政策支持,但直接資源投入相對較少。從組織機制的角度對科學數據的處理大致可以分為以下3種模式。

1.1 單機構模式

單機構模式是指獨立的研究機構依托國家財政支持或自籌經費等形式,開展科學數據的生產、傳輸、處理。一些大型的基礎科學項目、大科學裝置例如500 m口徑球面射電望遠鏡(FAST)[5]、錦屏地下實驗室[6]等多采用該模式。

單機構模式的優(yōu)點在于研究機構自建實驗探測裝置用于科學數據的生成,自建私有數據存儲設施進行科學數據的存儲和計算,科學數據自產、自存、自用,安全可控,效率高。但也存在一些問題,例如:(1)自建數據存儲設施需要投入大量建設資源,消耗研究經費;(2)科學數據每年持續(xù)增長,自建的數據存儲設施難以進行配套升級;(3)自建數據存儲設施選址需考慮政策、安全、地理等多方面因素,如離實驗裝置所在地較遠還需要投入數據傳輸資源;(4)需要配備專門的運維團隊,相關專業(yè)人才需要的培養(yǎng)周期較長;(5)每年需要消耗相應的運維經費,所依托的實驗項目結題后,后續(xù)運維經費來源存在問題;(6)自建數據存儲設施所服務的實驗項目結題后,相關計算、存儲資源難以轉化再利用。從科學數據自主安全可控的角度出發(fā),研究機構大多傾向于單機構模式,但該模式的局限性會制約大科學裝置、大型基礎科研項目的研究與發(fā)展。

1.2 公共科學數據中心模式

公共科學數據中心模式是指匯集大量計算、存儲、網絡資源形成實體機構為科研用戶提供一站式科學數據處理服務,通過集中存儲計算、統(tǒng)一管理,高效利用軟硬件資源,避免資源閑置和數據孤島。目前,我國已建成了包括國家地震科學數據中心、國家人口健康科學數據中心等20個國家級科學數據中心[7],但這些數據中心多集中于我國東部。

建立公共科學數據中心是科學數據共享、多學科融合發(fā)展的趨勢[8],但也存在一些問題,例如:(1)資源投入巨大,如表1所示前期投入保守估計達數億級別;(2)目前科學數據中心主要依托科學數據提供機構建立,研究機構將科學數據存入公共數據中心的意愿不高;(3)缺乏盈利模式,難以維系每年海量的運維費用。

表1 公共科學數據中心投入估算Table 1 Investment estimation for public scientific data centers

鑒于公共科學數據中心模式存在的問題,大多數地方政府對建立公共科學數據中心持慎重態(tài)度,希望充分整合利用現有資源,形成具體的科研服務示范之后再逐步推動數據中心的實體建設。

1.3 科研聯(lián)盟模式

在科學數據“東數西算”過程中,可以通過眾多機構利用各自現有的資源來完成科學數據的“東數西算”,各機構之間形成類似聯(lián)盟的組織。如表2所示,在這個過程中各機構扮演的角色大體可以分為五類,并且各角色的訴求也各不相同??茖W數據使用者對科學數據以及相關計算資源服務的需求是促進科學數據在不同機構間流通的重要因素,科學數據的所有者在同意使用者的需求申請后通過傳輸者將數據傳遞給科學數據的處理者,處理者將數據進行計算之后將結果返回,存儲者在這一過程中提供協(xié)助。通過這一過程既利用了西部地區(qū)的資源優(yōu)勢,相對低成本地完成了科學數據的計算需求,又為參與的各機構帶來了經濟收益盤活閑置資源,以較低的投入帶動地方產業(yè)發(fā)展。

表2 科學數據“東數西算”中各機構扮演角色及訴求Table 2 The roles and demands played by various institutions under “East-West Computing Resource Transfer”

科研聯(lián)盟模式充分整合利用現有資源、前期投入較少、形成示范之后更容易逐步推動項目的升級和發(fā)展。相較而言,該模式在科學數據“東數西算”過程中最具經濟性和可實施性,當聯(lián)盟成員較少時機構之間容易協(xié)調,但隨著聯(lián)盟成員的不斷增多,需要研究構建一種傳輸模型保證科學數據流通過程清晰明確、可記錄、可回溯,才能在界定各方的權責利益時有所依據,保證科學數據的安全可信,形成科學數據“東數西算”的順暢鏈條。

2 科研聯(lián)盟模式下的科學數據傳輸模型

科研聯(lián)盟的模式可以有效整合利用現有資源,實現閑置資源的再利用,在不增加大量投入的情況下,完成科學數據的“東數西算”。但是這個過程涉及很多不同的組織機構,需要建立信任機制,使科學數據流動的整個過程有跡可循,確??茖W數據安全和權責清晰。本文基于聯(lián)盟鏈的相關理論[9],結合科研聯(lián)盟模式下科學數據“東數西算”的具體應用場景,構建基于科研聯(lián)盟的科學數據傳輸模型,以期促進科學數據安全流通與高效利用。

2.1 聯(lián)盟鏈在科研聯(lián)盟場景下的適用性分析

區(qū)塊鏈是一種計算機技術的新型應用模式,可以做到點對點傳輸、分布式數據存儲、共識機制、加密算法等。其本質是基于互聯(lián)網的一種新型的信息傳輸方式,即可以實現多個信息化系統(tǒng)間的廣播式數據交互的技術。區(qū)塊鏈技術的主要優(yōu)勢是分布式和去中心化,信息的不可篡改,基于共識機制的信息傳輸和共享,從而實現在各類型場景下均能確保信息安全的目的[10]。

區(qū)塊鏈大體上可以分為3 類,公有鏈、私有鏈和聯(lián)盟鏈。公有鏈各個節(jié)點可以自由地加入和退出網絡,并參加鏈上數據的讀寫,讀寫時以扁平的拓撲結構互聯(lián)互通,網絡中不存在任何中心化的服務端節(jié)點;聯(lián)盟鏈各個節(jié)點一般會有與之對應的實體機構組織,必須通過授權后才能加入或退出網絡,各機構組織組成利益相關的聯(lián)盟,共同維護區(qū)塊鏈的健康運轉;而私有鏈的各節(jié)點寫入權限則收歸內部控制,而讀取權限可根據實際需求選擇性地對外開放[11]。對于科研聯(lián)盟這種由不同實體機構組成,且科學數據規(guī)模有限的情況,采取聯(lián)盟鏈的方式進行科學數據傳輸模型構建是一種合適的選擇。

聯(lián)盟鏈是一種部分去中心化的、參與節(jié)點事先確定好的區(qū)塊鏈,其特點介于公有鏈和私有鏈之間,信息數據訪問只在其內部,交易確認速度較快,其信息數據保有一定程度的隱私性[12]。當前聯(lián)盟鏈已經在金融領域、生命健康領域等多個領域有著廣泛的應用,根據聯(lián)盟成員的權限和數據范圍對上鏈信息數據進行監(jiān)管,保證權責清晰和數據安全。當前比較流行的聯(lián)盟鏈項目主要有:區(qū)塊鏈服務網絡BSN、企業(yè)以太坊聯(lián)盟(EEA)、超級賬本(Hyperledger)、中國分布式總賬基礎協(xié)議聯(lián)盟(ChinaLedger)、R3 區(qū)塊鏈聯(lián)盟等[13]。Yang等[14]構建了聯(lián)盟鏈的Hyperledger Fabric 系統(tǒng),如圖1 所示,該系統(tǒng)的邏輯架構主要分為成員管理、共識機制、智能合約三部分。

圖1 聯(lián)盟鏈Hyperledger Fabric系統(tǒng)邏輯架構Fig.1 Logical architecture of the Hyperledger Fabric system in the alliance chain

成員管理可以對科研聯(lián)盟內部成員的身份、權限進行管理確認,分配相應的登錄方式和屬性證書。共識機制在科研聯(lián)盟的應用場景下可以采用BFT-DPoS 共識機制進行輪流記賬[15],由聯(lián)盟的成員機構節(jié)點周期性地投票選舉出受信任的數個超級節(jié)點,由超級節(jié)點輪流或者隨機進行記賬產生區(qū)塊。同時,這些超級節(jié)點也將對產生的新區(qū)塊進行投票,只有當通過的票數超過閾值才會達成共識。智能合約是一種特殊類型的程序,是情景對應型的計算機程序或事務協(xié)議,能夠對交互數據開展接受、處理、存儲、發(fā)送等操作,實現科研聯(lián)盟內部數據靈活的管理與控制。智能合約需要自動化的數據、過程、系統(tǒng)的組合與相互協(xié)調,將科研聯(lián)盟內部的協(xié)議、合約代碼化嵌入計算機程序,具有自動化執(zhí)行、去中心化、不可篡改性、無需信任和高效性等特征,能夠部署在數據區(qū)塊、交互環(huán)節(jié)、有形或無形資產中,實現基于軟件定義的可編程控制系統(tǒng)[16]。

在科研聯(lián)盟的模式下,需要科學數據可以在不同機構之間根據預先設置的規(guī)則快捷地進行傳輸,數據的流通傳遞過程需要被記錄下來,并且相關的記錄數據要保證真實性和完整性,從而為界定各機構權責利益提供依據。同時,科學數據的安全性至關重要,要保證數據提供者對數據的所有權以及數據不被隨意篡改和泄露。聯(lián)盟鏈技術將記錄科學數據流通過程的信息數據按照一定順序進行存儲排列,可以清楚獲取信息數據的源頭以及科學數據的流通過程記錄。信息數據以哈希值的方式存儲于區(qū)塊鏈上,具有不可逆性,可以保證上鏈的信息數據無法被隨意篡改。通過該機制對數據流通的過程信息進行記錄,使科研聯(lián)盟模式下的科學數據流動具備溯源能力。聯(lián)盟鏈具有非對稱性加密算法、多通道隔離賬本以及智能合約等技術,可以保證存儲的信息數據不被篡改,科學數據傳輸是在聯(lián)盟成員之間,減少了數據泄露和惡意篡改風險。因此,聯(lián)盟鏈的相關技術特征十分切合科研聯(lián)盟模式下的數據傳輸需求[17]。

2.2 基于聯(lián)盟鏈的數據傳輸模型構建

如圖2所示,HAN等[18]學者提出了一種基于聯(lián)盟鏈的數據共享安全保護模型。在該模型下不同的數據存儲于不同的數據庫,并且集中存放于存儲層。區(qū)塊的創(chuàng)建和廣播在區(qū)塊鏈服務層完成,接口層為各種信息交換提供接口的連接層。智能合約層為用戶提供各種類型的合約服務,包括合約日志記錄、數據記錄等。應用層為用戶成員提供各種服務,實現用戶對數據的傳輸和共享。該模型為提高數據安全水平,進行了層級功能細分,構建出了通用數據傳輸模型的清晰整體架構,并著重解釋了區(qū)塊鏈的創(chuàng)建,利用多節(jié)點投票機制加強了區(qū)塊鏈的抗風險能力。

在科研聯(lián)盟的應用場景下,涉及科學數據的提供方式、按規(guī)則傳輸機制、數據獲取索引上鏈、科學數據本體另行存儲等特征,通用的科學數據共享模型并不完全適用。因此,本文結合通用科學數據共享模型與科研聯(lián)盟應用場景下的具體特征,構建了科研聯(lián)盟模式下基于聯(lián)盟鏈的科學數據傳輸模型,以便科學數據在聯(lián)盟內部能快速流通并且保證數據流通過程有跡可循。

如圖3所示,該模型主要分為4層,其中數據提供層描述了科研聯(lián)盟中科學數據的來源,多是大科學裝置、實驗探測器等??茖W數據的原始數據量龐大,無法上鏈進行存儲,通常采用分布式本地存儲方式,同時將數據的獲取信息進行上鏈存儲。數據處理者在聯(lián)盟鏈內得到數據獲取信息之后還需要數據提供者提供外部權限,才能最終訪問到科學數據,通過多層監(jiān)控機制保證了數據的安全。該層補充了通用模型中對科學數據來源部分的不清晰,以此體現原始科學數據的合理性、完整性和真實性。

圖3 科研聯(lián)盟模式下科學數據傳輸模型Fig.3 Scientific data transmission model under the mode of scientific research alliance

存儲層通過云存儲等網絡存儲形式以及加密存儲等技術,對科學數據獲取信息和聯(lián)盟鏈信息進行存儲。聯(lián)盟鏈數據庫分為協(xié)議合約數據庫、科學數據獲取路徑數據庫、聯(lián)盟成員數據庫、鏈上數據庫,對不同的數據進行分類存儲。其中的科學數據獲取路徑數據庫保存了數據的獲取信息,在通用模型的基礎上進一步對獲取路徑進行了設置,保證了數據的隱私性,為數據溯源和隱秘傳輸提供了支持。

數據處理層基于聯(lián)盟鏈理論構建,主要包括成員管理、共識機制、智能合約3部分,科研聯(lián)盟中的機構成員通過聯(lián)盟授權認證之后才能擁有區(qū)塊鏈網絡中信息的訪問權限,可以憑借聯(lián)盟成員的身份對聯(lián)盟鏈的數據進行新增、使用、更新、維護。共識機制采用BFT-DPoS共識機制進行輪流記賬,周期性地投票選舉超級節(jié)點,由超級節(jié)點輪流或者隨機進行記賬產生區(qū)塊??蒲新?lián)盟內部機構之間的協(xié)議合約,通過程序化形成智能合約。智能合約是具體的計算程序,在數據流通過程中只有滿足合約條件才會執(zhí)行其中的代碼,實現數據的流通、交互、獲取等請求。

應用層則是為聯(lián)盟成員機構提供管理科學數據的相關功能,包括了科學數據確權、科學數據溯源、科學數據獲取、科學數據安全幾個方面。機構成員可以通過以上功能對數據進行獲取和處理,整個過程都會被記錄下來,避免了數據被惡意篡改和濫用的風險,使數據的安全得到保證。

2.3 基于科研聯(lián)盟模式的數據傳輸模型討論

成立科研聯(lián)盟是希望整合各機構分散的資源,共同實現科學數據的“東數西算”。當參與協(xié)作的機構較少時,可以通過互簽協(xié)議等方式明確權責利益。但當參與機構數量眾多時容易產生混亂,需要使科學數據的流動有跡可循,以避免不必要的糾紛。為描述科學數據“東數西算”過程中原始科學數據的來源、存儲方式以及記錄科學數據在不同機構間流動的信息,構建了基于聯(lián)盟鏈技術的科學數據傳輸模型。在這一模型中,科學數據的提供者、使用者、傳輸者、處理者均需要進行注冊登記,基于智能合約進行必要的身份驗證。每位機構成員都會獲得注冊證書和公私密鑰,用于驗證其在聯(lián)盟鏈中的身份和訪問權限。數據的提供者還會額外獲取數據所有權密鑰,用于數據確權。通過嚴格的成員身份認證,加強數據流通過程的安全性。

由于科學數據體量龐大,難以進行上鏈存儲,數據的提供者只需基于智能合約的標準將數據的獲取信息上傳至聯(lián)盟鏈中進行存儲。數據的使用者、傳輸者、處理者在與提供者協(xié)商一致后,可以通過聯(lián)盟鏈進行數據訪問請求,該請求會被據實記錄至聯(lián)盟鏈中并啟動廣播。在數據請求廣播之后,會對聯(lián)盟鏈中的數據信息進行檢索,找到相應的科學數據獲取信息,并在廣播之后將該信息發(fā)送給對應的數據申請者。整個過程都將被聯(lián)盟鏈記錄且不可篡改,這就使數據在各機構之間流通的過程清晰明確,為各機構間的權責界定提供了依據。

數據申請者在訪問科學數據時還需要科學數據提供者外部審核批準才能獲取到數據,并且科學數據僅是經傳輸者提供的網絡路徑傳輸至處理者進行處理,處理結果再返回數據申請者。這一過程中,數據是以流的形式進行流通、處理、返回,杜絕了大量實體數據拷貝外泄,進一步加強了數據的安全性。

基于科研聯(lián)盟模式的科學數據傳輸模型主要描述了科學數據的來源、存儲以及如何記錄數據流通信息。通過聯(lián)盟鏈的相關技術對聯(lián)盟內機構進行成員管理,記錄不同機構之間數據申請、傳輸、使用的相關信息,以確保數據流通有跡可循,避免機構眾多時產生糾紛。科學數據的實體傳輸在機構間達成一致且被聯(lián)盟鏈記錄流通信息后,由數據傳輸者通過實體網絡及相關傳輸技術完成。

3 科研聯(lián)盟模式下的示范案例

基于理論研究,聯(lián)合中國科技云成渝樞紐、中國科學院聲學研究所、上??萍即髮W、國家超級計算成都中心,合作開展科學數據“東數西算”示范驗證。并通過簽署“合作協(xié)議”、利用聯(lián)盟鏈記錄等方式,確保協(xié)作過程權責利益清晰,數據流通有跡可循。

中國科技云成渝樞紐作為中國科技云[19]“十四五”規(guī)劃“四大樞紐”之一,是一項立足中國科學院,面向成都科學城,輻射成渝雙城經濟圈重要科研機構與大科學裝置的戰(zhàn)略性、基礎性新型國家級科研信息化基礎設施樞紐節(jié)點。在示范驗證中作為數據傳輸者為科學數據傳輸提供節(jié)點中轉和網絡環(huán)境支持。

SEANet[20]網絡技術是中國科學院聲學研究所主導研發(fā)的一種新型網絡傳輸協(xié)議用來替代傳統(tǒng)TCP/IP協(xié)議。它通過“一包一路由”的數據傳輸方式,使外部竊取監(jiān)聽數據流更加困難,最多只能截取到數據包片段,難以獲取完整的數據信息,提高了數據傳輸的安全性。同時基于“一包一路由”,在數據傳輸過程中可以選擇最通暢的網絡路徑以及多網絡路徑傳輸,實現數據傳輸加速。在示范驗證中聲學所作為數據傳輸者為科學數據傳輸提供網絡環(huán)境和安全傳輸技術加持。

上海科技大學硬X射線自由電子激光裝置[21]作為科學數據提供者,在示范驗證中提供大量相干衍射成像數據。國家超級計算成都中心,是西部地區(qū)首個國家超算中心,算力峰值性能300PFlops,具備豐富算力資源和西部地區(qū)能耗優(yōu)勢,在示范驗證中作為科學數據處理者。

如圖4所示,上海的科學數據通過網絡經中國科技云成渝樞紐傳輸到國家超算成都中心進行運算。針對上??萍即髮W到國家超級計算成都中心的遠距離、高通量數據傳輸需求,充分利用中國科技云成渝樞紐節(jié)點的功能,發(fā)揮SEANet 網絡技術智能多路徑傳輸優(yōu)勢,通過動態(tài)多路徑優(yōu)化保證數據傳輸始終處于最優(yōu)網絡路徑,使硬X射線自由電子激光裝置相干衍射成像數據日均TB級海量圖像數據在廣域網上穩(wěn)定高效傳輸。如圖5 所示,基于SEANet 技術的傳輸網絡與傳統(tǒng)網絡進行了性能測試對比,在相同出入口帶寬情況下,在UDP 協(xié)議512B 數據包模式下,傳統(tǒng)網絡速率僅為90Mbps,而采用SEANet獨有的多路徑傳輸后2 條路徑可達到250Mbps的傳輸速率,采用4 路徑可達到600Mbps 的速率;在UDP 協(xié)議1,250B 數據包模式下傳統(tǒng)網絡速率僅為100Mbps,而采用多路徑傳輸后2 條路徑可達到300Mbps的傳輸速率,采用4路徑可達到900Mbps的速率。由此可見基于SEANet的傳輸網絡傳輸性能優(yōu)于傳統(tǒng)網絡。

圖5 基于SEANet技術的傳輸速率比較Fig.5 Comparison of transmission rates based on SEANet

整個數據傳輸過程,充分整合利用現有的網絡、計算、存儲資源,在相對較少的投入下完成科學數據“東數西算”示范驗證,為后續(xù)大規(guī)??茖W數據“東數西算”,充分利用西部地區(qū)資源優(yōu)勢,帶動西部地區(qū)產業(yè)發(fā)展做出了預研與示范。

4 結論與展望

科學數據“東數西算”具備經濟價值和推動西部地區(qū)產業(yè)發(fā)展的能力,通過眾多機構整合利用現有資源共同完成科學數據“東數西算”的科研聯(lián)盟模式最具經濟性和可行性?;诼?lián)盟鏈理論構建的科學數據傳輸模型使得科學數據在各機構間的流通過程清晰明確、可回溯、不可篡改,為機構間權責利益的明確提供了可靠的依據,能夠提高不同機構參與科學數據流動的積極性。建立科學的組織機制與傳輸模式能夠減少科學數據“東數西算”過程中的資源投入,提高數據傳輸效率,促進科學數據安全流通與高效利用。

當前理論模型的研究還不夠深入,科學數據“東數西算”示范驗證也僅僅是在少數機構間完成,未來需要進一步優(yōu)化理論模型,聯(lián)合更多機構進行大規(guī)??茖W數據“東數西算”,充分利用西部地區(qū)資源優(yōu)勢,帶動西部地區(qū)產業(yè)發(fā)展。

利益沖突聲明

所有作者聲明不存在利益沖突關系。

猜你喜歡
東數西算東數區(qū)塊
東數西算
科學大觀園(2022年6期)2022-04-21 21:58:33
“東數西算”能為我們算出怎樣的未來
科學之友(2022年4期)2022-04-21 11:30:43
“東數西算”,億萬藍海
華東科技(2022年3期)2022-04-15 01:46:40
“東數西算”全面啟動
科學導報(2022年16期)2022-03-24 22:36:33
“東數西算”優(yōu)化全國數據中心布局
河南科技(2021年16期)2021-11-28 10:55:23
國家“東數西算”工程戰(zhàn)略支點確定 我國加快構建新型算力網絡體系
決策探索(2021年13期)2021-07-23 04:23:18
“東數西算”重要性類似于南水北調
“東數西算”:努力構建數字時代“經濟新版圖”
區(qū)塊鏈:一個改變未來的幽靈
科學(2020年5期)2020-11-26 08:19:12
區(qū)塊鏈:主要角色和衍生應用
科學(2020年6期)2020-02-06 08:59:56
紫阳县| 昌乐县| 文山县| 浪卡子县| 城口县| 龙江县| 布拖县| 贵南县| 友谊县| 罗源县| 措美县| 嘉峪关市| 黄骅市| 肥东县| 原阳县| 诸暨市| 余姚市| 北辰区| 工布江达县| 澎湖县| 礼泉县| 河源市| 胶州市| 大庆市| 安康市| 井研县| 普陀区| 浪卡子县| 平乐县| 长治县| 安岳县| 壶关县| 肥东县| 长宁县| 游戏| 吉林省| 彭泽县| 临安市| 神池县| 沧州市| 景谷|