馮圣中 李根國 栗學(xué)磊 齊富民 黃典 萬藝 吳金成
近20年來,高性能計(jì)算應(yīng)用的廣度前所未有地?cái)U(kuò)展,以數(shù)據(jù)驅(qū)動或數(shù)據(jù)密集型計(jì)算為主要特征的高性能計(jì)算應(yīng)用不斷涌現(xiàn),人工智能技術(shù)在新型和傳統(tǒng)高性能計(jì)算應(yīng)用領(lǐng)域獲得成功實(shí)踐,應(yīng)用領(lǐng)域遍及生物信息與生命科學(xué)領(lǐng)域、智慧城市與城市治理、網(wǎng)絡(luò)信息安全等。這些應(yīng)用又反過來對高性能計(jì)算技術(shù),包括矩陣并行求解技術(shù)、高性能大數(shù)據(jù)處理技術(shù)、智能芯片技術(shù)等,產(chǎn)生巨大的影響,促進(jìn)了高性能計(jì)算技術(shù)創(chuàng)新。
新興高性能計(jì)算行業(yè)應(yīng)用主要為數(shù)據(jù)驅(qū)動型應(yīng)用,應(yīng)用領(lǐng)域從智慧城市到生物信息處理,乃至基本粒子物理學(xué)、天文學(xué)和宇宙學(xué)等眾多領(lǐng)域。數(shù)據(jù)密集型計(jì)算為其最主要的計(jì)算行為特征。
2008年,IBM提出智慧地球愿景,智慧城市的概念也隨之出現(xiàn)。交通擁堵、環(huán)境污染、氣候變化、犯罪率上升等一系列問題降低了城市的宜居、宜產(chǎn)程度。智慧城市利用各類傳感器采集的數(shù)據(jù),匯聚到高性能計(jì)算平臺,在集成處理的基礎(chǔ)上,服務(wù)城市決策、社會生產(chǎn)和居民生活。而遍布城市的各類傳感器及物聯(lián)網(wǎng)設(shè)備采集的數(shù)據(jù),呈現(xiàn)爆炸式增長。2018年,中國的數(shù)據(jù)總量約為7.6 ZB(1 ZB=1021字節(jié)),占全球總量的23.4%。預(yù)計(jì)到2025年,中國的數(shù)據(jù)總量將增長至48.6 ZB,占全球數(shù)據(jù)總量的27.8%,中國將成為全球最大的數(shù)據(jù)圈。
大規(guī)模數(shù)據(jù)的產(chǎn)生,對數(shù)據(jù)管理和處理技術(shù)提出了嚴(yán)峻的挑戰(zhàn)。如何從各種各樣類型的大量非結(jié)構(gòu)化視頻數(shù)據(jù)中精準(zhǔn)提取目標(biāo)信息,包括人、車、物以及各種行為信息,仍是視頻信息處理的難點(diǎn)。未來的5G通信技術(shù)能夠提供極快的傳輸速度,支持更多的終端接入,縮短延時時間。通信時間大幅縮短之后,“請求-響應(yīng)”時間的長短對實(shí)時計(jì)算的要求更高,作為支撐智慧城市深入發(fā)展和廣泛應(yīng)用的核心技術(shù),高性能計(jì)算也面臨著機(jī)遇和挑戰(zhàn)。
當(dāng)前主流型號服務(wù)器,支持10~100通道視頻實(shí)時處理,大城市監(jiān)控視頻達(dá)到10~100萬個攝像頭,后臺處理就可能需要1萬節(jié)點(diǎn)規(guī)模。
生物計(jì)算,包括 DNA數(shù)據(jù)處理、蛋白質(zhì)結(jié)構(gòu)預(yù)測、腦模擬等,近20年來,呈現(xiàn)快速發(fā)展態(tài)勢。這些計(jì)算大部分也是數(shù)據(jù)密集型的。
(1)在基因數(shù)據(jù)處理應(yīng)用方面。高通量測序技術(shù)的進(jìn)步,推動了基因數(shù)據(jù)爆炸性增長。然而,DNA包含信息的復(fù)雜性,仍對數(shù)據(jù)分析算法提出新挑戰(zhàn)。機(jī)器學(xué)習(xí)在基因組分析與預(yù)測的多個方面獲得研究與應(yīng)用,如識別轉(zhuǎn)錄起始位點(diǎn)/剪切位點(diǎn)/TF結(jié)合位點(diǎn)、預(yù)測基因功能/疾病表型等。深度學(xué)習(xí)應(yīng)用的最新突破已經(jīng)在預(yù)測性能方面超過了許多傳統(tǒng)的統(tǒng)計(jì)推斷算法,并且機(jī)器學(xué)習(xí)在基因組學(xué)中的癌癥診斷、臨床遺傳、作物改良、流行病、公共衛(wèi)生、人口遺傳、進(jìn)化、功能基因組等均具有明顯發(fā)展?jié)摿?。?dāng)前,大多數(shù)問題的預(yù)測能力都沒有達(dá)到實(shí)際應(yīng)用的預(yù)期,對這些抽象模型的解釋也沒有闡明深刻的認(rèn)識。如何有效利用機(jī)器學(xué)習(xí)獲取更強(qiáng)大、更智能的基因組解釋能力,還需要探索依賴于特定任務(wù)的機(jī)器學(xué)習(xí)模型。
(2)在蛋白質(zhì)結(jié)構(gòu)預(yù)測應(yīng)用方面。蛋白質(zhì)結(jié)構(gòu)預(yù)測與設(shè)計(jì)對深入理解蛋白質(zhì)結(jié)構(gòu)和功能具有重要意義。蛋白質(zhì)是一切生命系統(tǒng)的物質(zhì)基礎(chǔ),但其生物功能的發(fā)揮,需要蛋白質(zhì)正確折疊為特定的3D結(jié)構(gòu),蛋白質(zhì)折疊研究也是藥物設(shè)計(jì)的基礎(chǔ)。實(shí)驗(yàn)學(xué)的方法如X射線(X-ray)、核磁共振(NMR)和冷凍電鏡解析蛋白質(zhì) 3D結(jié)構(gòu)普遍存在設(shè)備昂貴、時間和人力成本過高等問題。開發(fā)能夠自動、快速、準(zhǔn)確地將未知蛋白序列分類為特定折疊類別的計(jì)算預(yù)測方法成為計(jì)算生物學(xué)家長期努力的方向。使用深度卷積神經(jīng)網(wǎng)絡(luò)和殘存網(wǎng)絡(luò)高精度的預(yù)測蛋白中的氨基酸-氨基酸接觸作用,并將預(yù)測結(jié)果直接用于蛋白質(zhì) 3D結(jié)構(gòu)重建是近期的一個熱點(diǎn)。谷歌DeepMind將AlphaGo轉(zhuǎn)型,開發(fā)了可預(yù)測蛋白質(zhì)折疊的程序 Alpha-Fold,并以該項(xiàng)目參加了全球蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽CASP13,取得了優(yōu)異的成績。麻省理工學(xué)院(MIT)的Belpler和Berger利用人工智能(AI)技術(shù),直接通過氨基酸序列預(yù)測蛋白質(zhì)分子的生物學(xué)功能。
(3)在腦模擬和腦科學(xué)應(yīng)用方面。腦病變給人類帶來的經(jīng)濟(jì)和生活負(fù)擔(dān)遠(yuǎn)遠(yuǎn)超過其他領(lǐng)域,已成為全球致殘的首要因素。2013年歐盟推出了15個歐洲國家參與、預(yù)期10年的“人類腦計(jì)劃”,該計(jì)劃側(cè)重于借用超級計(jì)算機(jī)技術(shù),通過研究腦連接圖譜模擬腦神經(jīng)網(wǎng)絡(luò)功能。自該計(jì)劃以后,其他國家紛紛提出各自腦計(jì)劃。人腦大約由1010個神經(jīng)元和1014個突觸組成。
現(xiàn)有的模擬研究多用于小區(qū)塊模擬,規(guī)模約105個神經(jīng)元。小規(guī)模模擬存在明顯局限性,其中神經(jīng)元連接的約50%突觸分布在區(qū)塊以外,而功能回路在整個大腦內(nèi)完成,區(qū)塊之間相互影響明顯。全腦模擬計(jì)算規(guī)模巨大,現(xiàn)階段難以實(shí)現(xiàn)。當(dāng)前,已達(dá)到的最大規(guī)模腦網(wǎng)絡(luò)模擬是基于開源軟件NEST完成的。該網(wǎng)絡(luò)包括 1.51×109個神經(jīng)元和1.68×1012個突觸,在日本超級計(jì)算機(jī)K(共88128節(jié)點(diǎn),每節(jié)點(diǎn)8核,2 GHz,16 GB RAM)上全節(jié)點(diǎn)運(yùn)行模擬。該模擬達(dá)到了人腦規(guī)模的10%。
(4)在新藥創(chuàng)制應(yīng)用方面。高性能計(jì)算可在加速藥物研發(fā),降低藥物開發(fā)風(fēng)險的多個方面發(fā)揮重要作用,如超大規(guī)模篩選藥物先導(dǎo)化合物、大規(guī)模搜尋藥物潛在靶點(diǎn)、精確計(jì)算蛋白配體自由結(jié)合能、精確計(jì)算電子級別靶點(diǎn)藥物共價和非共價作用、復(fù)雜生物體系模擬、藥物網(wǎng)絡(luò)化相互作用等。國內(nèi),北京大學(xué)、中國科學(xué)院上海藥物研究所、上海交通大學(xué)在相關(guān)領(lǐng)域做出了可喜成果。
網(wǎng)絡(luò)信息安全已經(jīng)成為國家安全的基石。近年來高性能計(jì)算技術(shù)也被廣泛用于解決信息安全中面臨的問題。典型應(yīng)用場景,如模擬攻防對抗網(wǎng)絡(luò)靶場、大數(shù)據(jù)隱私保護(hù)和入侵檢測等。
(1)網(wǎng)絡(luò)靶場。這是一種為網(wǎng)絡(luò)技術(shù)、信息安全攻防技術(shù)和信息安全構(gòu)想等提供定量和定性評估的實(shí)驗(yàn)環(huán)境,具備可信性、可控性和可操作性強(qiáng)等特點(diǎn)。目前,網(wǎng)絡(luò)靶場已經(jīng)在美國、英國、澳大利亞和日本等國實(shí)施。在網(wǎng)絡(luò)靶場中,往往需要支持不同安全等級環(huán)境下的計(jì)算機(jī)網(wǎng)絡(luò)防御、偵查、攻擊測試,需要靶場具有對虛擬節(jié)點(diǎn)的可擴(kuò)展能力,以生成成千上萬的測試節(jié)點(diǎn)。例如,互聯(lián)網(wǎng)環(huán)境生成技術(shù) LARIAT可用于模擬互聯(lián)網(wǎng)上的HTTP、HTTPS、TCP/IP、SSH 和SMTP等協(xié)議;為了給網(wǎng)絡(luò)靶場中成千上萬節(jié)點(diǎn)生成的大規(guī)模網(wǎng)絡(luò)流量,LARIAT分布式地配置在每一個節(jié)點(diǎn)上。
(2)隱私保護(hù)。隱私保護(hù)是大數(shù)據(jù)時代面臨的重大挑戰(zhàn)。大數(shù)據(jù)技術(shù)往往具有兩面性。一方面,研究人員可以通過大數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián),提供對事物的多視角洞察,給數(shù)據(jù)持有者更多的決策信息;另一方面,攻擊者對大數(shù)據(jù)的內(nèi)在聯(lián)系的分析,往往使得數(shù)據(jù)的隱私難以得到有效的保障。在除去患者標(biāo)記的某種疾病病例中,攻擊者可以通過社保、出行記錄、消費(fèi)記錄等數(shù)據(jù)來綜合推斷出患者的信息。因此,大數(shù)據(jù)中的數(shù)據(jù)隱私保護(hù)是至關(guān)重要的。
(3)入侵檢測。入侵檢測和防御系統(tǒng)有一定的實(shí)時性,因此后臺對于數(shù)據(jù)處理的性能要求較高。Erfani等提出了一種深度置信網(wǎng)絡(luò)和單邊支持向量機(jī)混合的模型用于異常檢測。從實(shí)驗(yàn)結(jié)果來看,采用高性能算法以后訓(xùn)練的時間減少為原來的1/3,測試的時間減少為原來的1/1000。
(1)石油勘探領(lǐng)域新方法。新興的海量地震數(shù)據(jù)采集對地震數(shù)據(jù)處理、解釋、建模等工作提出了極高的挑戰(zhàn),大規(guī)模數(shù)據(jù)處理理論與技術(shù)研究成為當(dāng)前的研究熱點(diǎn)。人工智能在石油勘探的應(yīng)用研究主要分為3類:解釋、預(yù)處理、反演。① 地震數(shù)據(jù)解釋是較早發(fā)展AI方法的領(lǐng)域,以AI代替人機(jī)交互為目的,解決大規(guī)模數(shù)據(jù)解釋。傳統(tǒng)地震解釋屬于人為工作,需要大量工作人員與專家參與。② 數(shù)據(jù)預(yù)處理以提高地震信號質(zhì)量為目的,如數(shù)據(jù)重建、噪音壓制、濾波等。傳統(tǒng)預(yù)處理多利用積分變換方法,多存在常見的不理想現(xiàn)象。新興的AI方法能夠取得更好的預(yù)處理效果。③全波型反演是近期的研究熱點(diǎn),其迭代收斂導(dǎo)致計(jì)算量大幅度上升,且信號噪音的存在導(dǎo)致出現(xiàn)局部極小值收斂的問題。基于AI方法的反演成像,取得了一定進(jìn)展。然而,AI技術(shù)的應(yīng)用對數(shù)據(jù)存儲和計(jì)算資源也提出更高要求。
(2)氣象預(yù)報領(lǐng)域新方法。數(shù)值預(yù)報是高性能計(jì)算的傳統(tǒng)應(yīng)用領(lǐng)域,幾乎在任一時期,數(shù)值天氣預(yù)報系統(tǒng)都使用了當(dāng)時最快速的高性能計(jì)算機(jī)。AI在天氣預(yù)報領(lǐng)域的應(yīng)用有較長歷史。當(dāng)前,AI技術(shù)在天氣和氣候領(lǐng)域中的應(yīng)用研究主要包括:觀測數(shù)據(jù)質(zhì)量控制、衛(wèi)星數(shù)據(jù)反演及數(shù)值模式資料同化、數(shù)值模式參數(shù)化及后處理、天氣系統(tǒng)識別、極端和災(zāi)害性天氣預(yù)報、短時臨近預(yù)報、臺風(fēng)海洋天氣預(yù)報、氣候分析和預(yù)測、環(huán)境污染相關(guān)預(yù)報、可再生能源相關(guān)的預(yù)報等。2013年,Earth Risk發(fā)布的TempRisk Apollo 40 d的氣溫概率預(yù)報模式,利用深度學(xué)習(xí)方法填補(bǔ)了傳統(tǒng)的數(shù)值天氣預(yù)報15~30 d之間的延伸期預(yù)報空白。2016年,IBM 通過收購 The Weather Company(天氣公司),實(shí)現(xiàn)0.2~1.2英里小尺度超局地天氣的準(zhǔn)確預(yù)報,精準(zhǔn)服務(wù)于運(yùn)輸公司、公共事業(yè)單位甚至是零售商。2017年,中國氣象局聯(lián)合天津大學(xué)共同研發(fā)的全國強(qiáng)對流服務(wù)產(chǎn)品加工系統(tǒng),運(yùn)用圖像識別和深度學(xué)習(xí)等新技術(shù),判斷出未來30 min內(nèi)強(qiáng)對流天氣發(fā)生和影響的區(qū)域,并發(fā)布空間分辨率為1 km,每6 min滾動更新的預(yù)測產(chǎn)品。然而,僅基于圖像識別和深度學(xué)習(xí)的預(yù)報方法無法涵蓋天氣過程發(fā)生的物理基礎(chǔ),仍然無法取代傳統(tǒng)數(shù)值模式預(yù)報。未來,隨著計(jì)算能力提升和 AI方法的進(jìn)步,氣象預(yù)報領(lǐng)域應(yīng)用是否能有新的突破,值得氣象學(xué)者與計(jì)算機(jī)學(xué)者共同協(xié)作,進(jìn)一步探索。
計(jì)算機(jī)仿真用于模擬現(xiàn)實(shí),并且用于探索新的理論,設(shè)計(jì)新的實(shí)驗(yàn),以及測試新的理論。當(dāng)現(xiàn)象無法觀測,測量不切實(shí)際或者過于昂貴的時候,仿真為實(shí)驗(yàn)和觀測科學(xué)提供了另一種選擇。30年來,仿真理論和技術(shù)對工程領(lǐng)域才產(chǎn)生了巨大的影響,計(jì)算仿真替代了大部分的物理實(shí)驗(yàn),而且有一些無法做實(shí)驗(yàn)的極端工況可用計(jì)算機(jī)來仿真。計(jì)算機(jī)仿真的水平是衡量工業(yè)企業(yè)競爭力的主要標(biāo)志之一,計(jì)算機(jī)仿真是成就未來工程和科學(xué)發(fā)展的關(guān)鍵。
國際上著名的制造業(yè)大公司已實(shí)現(xiàn)了產(chǎn)品的虛擬化設(shè)計(jì)和制造,并實(shí)現(xiàn)了全球資源共享。美國波音公司從 20世紀(jì)80年代起,在飛機(jī)設(shè)計(jì)中利用計(jì)算機(jī) 仿真替代了大量的風(fēng)洞實(shí)驗(yàn)等傳統(tǒng)的物理實(shí)驗(yàn)和樣機(jī)驗(yàn)證過程?,F(xiàn)在物理實(shí)驗(yàn)反而成為驗(yàn)證和輔助手段,飛機(jī)的設(shè)計(jì)周期大大縮短,研發(fā)費(fèi)用大幅度下降。從飛機(jī)布局研究、關(guān)鍵氣動部件設(shè)計(jì)、發(fā)動機(jī)設(shè)計(jì)到飛機(jī)性能分析,都廣泛應(yīng)用到了計(jì)算流體力學(xué)(CFD)技術(shù)。飛機(jī)全機(jī)計(jì)算中,采用工程湍流模式的全機(jī)網(wǎng)格規(guī)模早就突破千萬量級。
汽車工業(yè)中,以計(jì)算機(jī)仿真為核心的數(shù)字化開發(fā)是重要的技術(shù)突破,也被認(rèn)為是繼福特流水線生產(chǎn)、豐田精益生產(chǎn)之后,汽車工業(yè)具有革命性意義的重大技術(shù)進(jìn)步。以汽車安全性研究為例來看,早期的汽車耐撞性研究主要采用實(shí)驗(yàn)手段來進(jìn)行,車對障礙物的撞擊試驗(yàn)是評價一輛汽車抗撞強(qiáng)度的唯一方法。制造商為了評價某種車型零部件更改的效果并證明最終產(chǎn)品符合各項(xiàng)汽車安全標(biāo)準(zhǔn),需要投入數(shù)百萬美元的費(fèi)用進(jìn)行數(shù)百次試驗(yàn),這是一種很昂貴的試錯過程。從零部件直至整車裝配級別的研發(fā)設(shè)計(jì)階段都有大量計(jì)算分析,涉及剛度、強(qiáng)度、噪聲、振動與聲振粗糙度(NVH)、機(jī)構(gòu)運(yùn)動、碰撞模擬、板件沖壓、疲勞和空氣動力學(xué)分析等方面,計(jì)算機(jī)仿真發(fā)揮著無可替代的優(yōu)勢和作用,從而大幅度提高設(shè)計(jì)質(zhì)量,縮短產(chǎn)品開發(fā)周期,節(jié)省大量開發(fā)費(fèi)用。
上海汽車公司在10多年來“榮威”系列車型開發(fā)過程中,均借助了超級計(jì)算平臺完成了大量虛擬安全碰撞試驗(yàn)計(jì)算工作,使虛擬碰撞試驗(yàn)數(shù)量、分析精度、精細(xì)程度和設(shè)計(jì)周期等都接近全球一流汽車研發(fā)水平。
新型行業(yè)應(yīng)用的計(jì)算行為基本特征就是數(shù)據(jù)密集。大數(shù)據(jù)涌現(xiàn)在高性能計(jì)算應(yīng)用廣度和深度的進(jìn)一步拓展方面、高性能計(jì)算系統(tǒng)發(fā)展方面、高性能算法和軟件研發(fā)方面,帶來一些新的趨勢。
(1)大數(shù)據(jù)應(yīng)用層出不窮。在物聯(lián)網(wǎng)技術(shù)、5G技術(shù)及各種數(shù)據(jù)采集技術(shù)快速發(fā)展的背景下,以大數(shù)據(jù)為基本特征的各類應(yīng)用層出不窮,從智慧城市、生命健康到粒子物理、天體物理,大數(shù)據(jù)應(yīng)用廣度和深度不斷拓展。
(2)傳統(tǒng)問題的人工智能求解帶來新機(jī)遇。人工智能產(chǎn)生應(yīng)用的基本條件,大數(shù)據(jù)和計(jì)算力已經(jīng)發(fā)展到新階段,人工智能對傳統(tǒng)問題,生命健康、基礎(chǔ)物理乃至氣象氣候預(yù)報、石油勘探等眾多領(lǐng)域,產(chǎn)生積極推動作用。2018年Gordon Bell獎之一,就是利用深度學(xué)習(xí)方法,分析氣候變化模式。
(3)多領(lǐng)域問題協(xié)同分析陸續(xù)出現(xiàn)。大數(shù)據(jù)的積累和計(jì)算力的大幅度提升,也為復(fù)雜系統(tǒng)或多領(lǐng)域問題協(xié)同分析創(chuàng)造了可能,如環(huán)境與生態(tài)的模擬問題、物理化學(xué)和生命的多尺度分析、精準(zhǔn)醫(yī)療等。
(1)專用加速硬件興起。從傳統(tǒng)的圖形處理器(GPU)到張量處理器(TPU)、深度計(jì)算器(DCU)等專用硬件的流行,高性能計(jì)算加速芯片不斷涌現(xiàn)。其中TPU是近年來Google提出的專用于深度學(xué)習(xí)加速的張量處理單元,其提供低精度高通量的計(jì)算。相比GPU,TPU擁有更高的I/O(輸入/輸出)效率和更低的能耗。
(2)大數(shù)據(jù)處理對超級計(jì)算機(jī)網(wǎng)絡(luò)提出新要求。典型的大數(shù)據(jù)處理問題,數(shù)據(jù)I/O等從存儲到計(jì)算的頻繁程度和帶寬需求大幅度上升,而計(jì)算進(jìn)程之間通信更多以小消息為主,約占消息總數(shù)的95%。因此,大數(shù)據(jù)處理對存儲網(wǎng)絡(luò)和計(jì)算網(wǎng)絡(luò)的性能需求,產(chǎn)生顯著分離。
(3)大數(shù)據(jù)處理平臺的非功能需求特點(diǎn)。新的業(yè)務(wù)對應(yīng)用提出了眾多非功能性的需求,如要求應(yīng)用具備快速開發(fā)、可擴(kuò)展、易重用、有統(tǒng)一接口、有完整的生態(tài)供下游業(yè)務(wù)進(jìn)行作業(yè),以及自動容錯等。
(1)大數(shù)據(jù)矩陣的稀疏性特點(diǎn)。大多數(shù)大數(shù)據(jù)處理問題,最終轉(zhuǎn)化成矩陣計(jì)算,這些矩陣通常具有稀疏性(零元數(shù)據(jù)個數(shù)遠(yuǎn)遠(yuǎn)大于非零元數(shù)據(jù)個數(shù)),但一般不具備偏微分方程求解問題中稀疏矩陣非零元對角分布特性。另外,傳統(tǒng)的稀疏矩陣求解通常要求精確解,但隨著新應(yīng)用的出現(xiàn),人們對于稀疏矩陣的求解精度要求,往往讓位于求解速度的要求。例如,在商品推薦、搜索引擎和社交網(wǎng)絡(luò)等大規(guī)模推理任務(wù)中,用戶往往只需要在Top k(Rank k)的結(jié)果中出現(xiàn)想要的結(jié)果,即認(rèn)為求解符合預(yù)期。而在求解性能方面,可能要求計(jì)算復(fù)雜度O(k)(k<<n)的算法。
(2)大數(shù)據(jù)時空性特點(diǎn)。新興智慧城市等應(yīng)用中,時空特性越來越受到人們的關(guān)注。例如:交通流量預(yù)測中,GPS前后有很強(qiáng)的時序關(guān)系;自然語言處理(NLP)中,上下文前后詞語之間也呈現(xiàn)出明顯的時空特性。
(3)大數(shù)據(jù)高維度特點(diǎn)。數(shù)據(jù)的維度通常隨著業(yè)務(wù)問題規(guī)模的增大而指數(shù)級增大。為了約減數(shù)據(jù)集的維度,研究人員通常采用特征抽取、去不相關(guān)、去低方差和去常量屬性等技術(shù)。數(shù)據(jù)體量大增加了數(shù)據(jù)維度約減的難度。
(4)異構(gòu)大數(shù)據(jù)融合特點(diǎn)。大數(shù)據(jù)往往是異構(gòu)的,數(shù)據(jù)的屬性是不一致的。面臨體量大、種類多和數(shù)據(jù)持續(xù)產(chǎn)生等特點(diǎn)。如何有效地融合多個異質(zhì)數(shù)據(jù)集并挖掘出其中有用的信息,是高性能計(jì)算需要解決的問題。
(5)大規(guī)模圖處理特點(diǎn)。基于圖來發(fā)現(xiàn)事物之間的關(guān)聯(lián)性是大數(shù)據(jù)領(lǐng)域的典型問題。大規(guī)模圖處理往往面臨數(shù)據(jù)局部性差、數(shù)據(jù)剖分困難、通信開銷大等挑戰(zhàn),而實(shí)際應(yīng)用對于算法實(shí)時性又往往存在較高要求。隨著數(shù)據(jù)體量的增大,如何進(jìn)一步減少數(shù)據(jù)的處理時間,是高性能計(jì)算面臨的新挑戰(zhàn)。
針對上述新趨勢,高性能計(jì)算發(fā)展面臨新需求、新機(jī)遇,我們建議大力推動高性能計(jì)算系統(tǒng)、高性能計(jì)算環(huán)境、高性能計(jì)算應(yīng)用等各個層面的創(chuàng)新,促進(jìn)高性能計(jì)算在科技創(chuàng)新和國民經(jīng)濟(jì)社會發(fā)展的各個層面,發(fā)揮更大的作用。
(1)加大專用加速硬件創(chuàng)新支持力度。新興應(yīng)用對硬件加速計(jì)算提出了更高的I/O需求和更低的能耗要求,傳統(tǒng)的眾核加速處理器難以適應(yīng)新興應(yīng)用需求,有必要加大專用眾核加速處理器的創(chuàng)新與發(fā)展,為新興應(yīng)用提供更強(qiáng)大的高性能計(jì)算環(huán)境。
(2)加大超級計(jì)算機(jī)網(wǎng)絡(luò)創(chuàng)新力度。為解決大數(shù)據(jù)存儲與計(jì)算I/O次數(shù)和帶寬需求大幅提升問題,有必要加大存儲和計(jì)算網(wǎng)絡(luò)的I/O性能的創(chuàng)新與發(fā)展,適應(yīng)現(xiàn)有大數(shù)據(jù)處理對通信次數(shù)和粒度的需求。
(1)加大大數(shù)據(jù)系統(tǒng)平臺創(chuàng)新力度。為適應(yīng)新興應(yīng)用對非功能性需求的提出,有必要發(fā)展大數(shù)據(jù)系統(tǒng)平臺在可應(yīng)用性、可擴(kuò)展性、容錯性的創(chuàng)新,建立更加完整的超算生態(tài)環(huán)境。
(2)加大人工智能開放平臺創(chuàng)新力度。針對人工智能應(yīng)用全流程,包括數(shù)據(jù)預(yù)處理、訓(xùn)練、參數(shù)調(diào)整、過程監(jiān)控、測試等步驟,進(jìn)行統(tǒng)一規(guī)劃管理,研發(fā)構(gòu)建領(lǐng)域數(shù)據(jù)集和智能開發(fā)一體化環(huán)境,有效降低非專業(yè)領(lǐng)域用戶、科研用戶使用難度,全面服務(wù)智能應(yīng)用創(chuàng)新。
(1)大力推進(jìn)新型應(yīng)用軟件研發(fā)。大數(shù)據(jù)、人工智能方興未艾,智能技術(shù)被視為第四次技術(shù)革命的標(biāo)志性技術(shù),我們應(yīng)大力推進(jìn)智能制造、精準(zhǔn)醫(yī)療、生命健康、智慧助理、智慧能源、智能駕駛、虛擬靶場等各類應(yīng)用研發(fā),促進(jìn)新型應(yīng)用更廣更深入拓展。
(2)大力推進(jìn)高性能應(yīng)用軟件和工具軟件研發(fā)。目前高性能計(jì)算應(yīng)用軟件和工具軟件占統(tǒng)治地位的是美國發(fā)展的,在該領(lǐng)域我國自主可控能力十分薄弱,差距巨大,甚至遠(yuǎn)遠(yuǎn)落后于硬件的發(fā)展,風(fēng)險極高,計(jì)算規(guī)模和復(fù)雜度也不夠。需要持續(xù)推進(jìn)高性能計(jì)算軟件和工具軟件研發(fā)。
傳統(tǒng)的計(jì)算化學(xué)、計(jì)算物理學(xué)、計(jì)算生物學(xué)等交叉學(xué)科仍在快速發(fā)展,藥物智能篩選、分子動力學(xué)模擬等面臨新的發(fā)展機(jī)遇,氣候模擬、氣象預(yù)報、能源開發(fā)、腦模擬、社會模擬等面臨新的突破,大力推進(jìn)數(shù)據(jù)驅(qū)動新方法研發(fā)具有重要意義。
新型應(yīng)用數(shù)據(jù)呈現(xiàn)混合精度、數(shù)據(jù)密集與I/O密集疊加、通信行為的隨機(jī)性增強(qiáng),傳統(tǒng)的以Linpack為代表的基準(zhǔn)測試已經(jīng)不能反映新型應(yīng)用的計(jì)算需求,迫切需要研發(fā)能夠代表新型應(yīng)用計(jì)算行為特征的新領(lǐng)域基準(zhǔn)評測工具?!?/p>