錢德沛
回顧過去20年中國高性能計算的發(fā)展,可謂舉步維艱,成績卓然。簡單算一筆賬,國際上通常的發(fā)展速度是10年性能提高1000倍,20年差不多100萬倍,但我們提高了5000多萬倍,我們在20年走完了別人30年甚至40年走的路。
一、高性能計算發(fā)展的回顧
高性能計算是戰(zhàn)略性、前沿性的高技術(shù),是發(fā)達國家爭奪的戰(zhàn)略制高點。
高性能計算是解決國家經(jīng)濟建設(shè)、社會發(fā)展、科學進步、國家安全方面一系列重大挑戰(zhàn)性問題的重要手段,是國家創(chuàng)新體系的重要組成部分。高性能計算產(chǎn)生的原始創(chuàng)新和高端技術(shù)會影響下游產(chǎn)業(yè)的發(fā)展,因此美國、日本、歐盟在這方面均有大量的投入,包括資金和人力,以確保他們的技術(shù)始終保持著領(lǐng)先地位。
我國的高性能計算發(fā)展得益于“863計劃”的實施,受國際及國內(nèi)科研和工業(yè)發(fā)展需求的變化,期間經(jīng)歷了幾次研究重點的轉(zhuǎn)變。1987年啟動之初,研究重點是智能計算機系統(tǒng),當時受到日本五代機的影響,而且80年代人工智能處于高潮時期,當時的重點是研究Lisp機、Prolog機,目標是實現(xiàn)高效規(guī)約、推理,從而支持人工智能應(yīng)用。1990年,根據(jù)國內(nèi)科研與工業(yè)的現(xiàn)實需求,重點轉(zhuǎn)向研制并行計算機,像SMP、MPP等,期間成立國家智能機中心,并于1993年成立曙光公司。1998年,受美國網(wǎng)格計劃的影響,研究重點從研制單臺高性能計算機轉(zhuǎn)向高性能計算機與網(wǎng)絡(luò)計算環(huán)境并重,目的是建立互聯(lián)網(wǎng)上普遍共享的計算能力,形成國家計算基礎(chǔ)設(shè)施。2006年,又提出高性能向高效能的轉(zhuǎn)變,這導致計算機研制技術(shù)路線的變化,從單純強調(diào)峰值性能變?yōu)閺娬{(diào)除性能指標之外的可編程性、可移植性和系統(tǒng)的可靠性。在強調(diào)依托自主技術(shù)實現(xiàn)E級計算機的今天,我們又處在一個轉(zhuǎn)折的節(jié)點,面臨研究重點新的轉(zhuǎn)變,即強調(diào)如何建立基于自主技術(shù)的高性能計算生態(tài)環(huán)境。
過去的15年里,“863計劃”連續(xù)支持了三個重大的項目,即2002—2005年的重大專項“高性能計算機及核心軟件”,2006—2011年的重大項目“高效能計算機及網(wǎng)格服務(wù)環(huán)境”,2011—2016年的重大項目“高效能計算機及應(yīng)用服務(wù)環(huán)境”。歷經(jīng)多年努力,研制了一系列的高性能計算機,包括 “天河” “神威” “曙光”以及聯(lián)想的“深騰”。這些機器構(gòu)成了我國的計算資源,很好地支持了一批重要的應(yīng)用。
回顧過去20年中國高性能計算的發(fā)展,可謂舉步維艱,成績卓然。1996年的“曙光1000”,計算能力是25億次,當時美國的計算能力是萬億次,相差400倍。2016年中國制造的“神威·太湖之光”,計算能力是12.5億億次,性能提升了5000萬倍,領(lǐng)先美國最快的TITAN系統(tǒng)4倍多。簡單算一筆賬,國際上通常的發(fā)展速度是10年性能提高1000倍,20年差不多100萬倍,但我們提高了5000多萬倍。我們在20年走完了別人30年甚至40年走的路程。
從過去20年我國高性能計算環(huán)境與美國的對比,可以了解我國高性能計算基礎(chǔ)設(shè)施的發(fā)展情況。1996年,我國在合肥建立了第一個國家高性能計算中心,裝備了計算能力6.4億次的曙光一號。同期美國在NSF的PACI計劃支持下,由NCSA和SDSC兩個超算中心牽頭,建立了美國國家級計算網(wǎng)格,當時我們大大落后于美國。到了2016年,我國實現(xiàn)了由17個高性能計算中心構(gòu)成的中國國家高性能計算服務(wù)環(huán)境,資源能力位居世界前列。此時美國的共享計算基礎(chǔ)設(shè)施XSEDE環(huán)境也是由十多個超級計算中心構(gòu)成。實際上,我們和美國已經(jīng)實現(xiàn)了并跑。
過去20年,我國高性能計算應(yīng)用的廣度和深度有了長足的進步。1996年,我國高性能計算的應(yīng)用范圍僅限于氣象預報、石油勘探等少數(shù)領(lǐng)域,達到的并行性也僅有十幾個到幾十個處理器,使用的應(yīng)用軟件主要依賴進口。到了2016年,我國的高性能計算應(yīng)用已擴展到諸多領(lǐng)域,例如大飛機研發(fā)、高鐵列車設(shè)計、石油勘探、新藥發(fā)現(xiàn)、集合氣象預報、生物信息、汽車研發(fā)、流體機械優(yōu)化設(shè)計、電磁環(huán)境計算等。在“863計劃”支持下,研發(fā)了一批大規(guī)模并行應(yīng)用軟件,并在相關(guān)行業(yè)和領(lǐng)域得到應(yīng)用,發(fā)揮了實際的作用。并行應(yīng)用的規(guī)模已經(jīng)突破千萬核處理器。硬件和應(yīng)用規(guī)模的突破,使得我們能夠獲得國際高性能計算應(yīng)用水平標志性獎——戈登·貝爾獎。
在過去20年的發(fā)展歷程中,我們積累了很多的經(jīng)驗。首先是國家科技計劃與地方、應(yīng)用部門的發(fā)展計劃相結(jié)合。這種結(jié)合不僅實現(xiàn)了多渠道籌資研制高效能計算機,而且實現(xiàn)了科技部和地方政府共同出資建設(shè)國家超算中心。其次是產(chǎn)學研用的結(jié)合。高性能計算中心作為提供計算服務(wù)的單位,在高效能計算機的研制過程中發(fā)揮了重要作用。例如,由高性能計算中心提出系統(tǒng)的性能指標,參與遴選研制隊伍。企業(yè)通過直接參與國家計劃,提升了自身的技術(shù)水平,同時也促進了其市場份額的提高。此外,應(yīng)用單位牽頭研發(fā)應(yīng)用軟件,也保證了軟件的實用性。再次是始終堅持機器、環(huán)境、應(yīng)用三者的均衡發(fā)展,相互促進。高性能計算機體現(xiàn)了計算機技術(shù)的最新成就,為高性能計算應(yīng)用提供計算資源,推動了高性能計算應(yīng)用和計算機產(chǎn)業(yè)的進步。高性能計算環(huán)境實現(xiàn)了計算資源的共享,提高了資源的利用率,降低了高性能計算的應(yīng)用門檻,促進了高性能計算應(yīng)用的普及和提高。高性能計算應(yīng)用的發(fā)展對計算機技術(shù)的發(fā)展起到了直接的牽引作用,同時產(chǎn)生應(yīng)用實效。
當然,在高性能計算機的發(fā)展過程中也暴露出一些問題,值得我們關(guān)注。首先,我國的高性能計算發(fā)展缺少國家級的長期戰(zhàn)略規(guī)劃。目前的情況是,國家層面每五年論證一次,高性能計算需要和很多兄弟領(lǐng)域競爭國家的經(jīng)費支持。從近年來的情況來看,對高性能計算應(yīng)用的經(jīng)費支持力度偏低。其次,當前高性能計算機研制的基本模式是國家、地方和應(yīng)用部門共同出資,而國撥經(jīng)費的比例偏低有可能使這種模式難以為繼。另外,探索新的發(fā)展模式是高性能計算環(huán)境發(fā)展必須思考的問題,國家支持與有償服務(wù)相結(jié)合的發(fā)展機制也許值得探討。
我國在高性能計算核心關(guān)鍵技術(shù)方面與美國相比還有較大差距。我國在高性能計算機的基礎(chǔ)關(guān)鍵器件(處理器、存儲器等)、大規(guī)模并行算法與軟件等核心關(guān)鍵技術(shù)方面仍依賴國外。要實現(xiàn)高性能計算的可持續(xù)發(fā)展,必須加強基礎(chǔ)研究,提高技術(shù)儲備的縱深,其中,發(fā)展應(yīng)用軟件是關(guān)鍵。目前的現(xiàn)狀是,高性能計算機硬件技術(shù)發(fā)展較快,而進口的軟件卻跟不上國產(chǎn)應(yīng)用計算機的并行規(guī)模,所以需要通過自主研發(fā)、開源、共享等技術(shù)手段,來解決并行應(yīng)用軟件的問題。
我國高性能計算領(lǐng)域的人才儲備嚴重不足,嚴重制約了應(yīng)用發(fā)展,要通過學科交叉,拓寬人才培養(yǎng)渠道,在實踐中再培訓,切實解決人才不足的問題。
最后,發(fā)展高性能計算,要建立產(chǎn)學研用相結(jié)合、多學科協(xié)作的長效機制,形成群體優(yōu)勢力量,這是高性能計算長久穩(wěn)定發(fā)展的必需。
二、為什么要發(fā)展高性能計算
我國的經(jīng)濟建設(shè)、社會發(fā)展和國家安全需要E級高性能計算
我國社會經(jīng)濟發(fā)展和國家安全對E級高性能計算有迫切需求。以百億億次量級的計算需求為例,首先解決國家發(fā)展的重大挑戰(zhàn)性問題,如能源短缺、環(huán)境污染、全球氣候變化等對E級計算有迫切需求;其次,E級計算在促進傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級中有重要作用,如航空工業(yè)、高速鐵路、重大裝備制造、汽車工業(yè)等領(lǐng)域,技術(shù)的研發(fā)都對計算提出強烈需求;第三,高性能計算能幫助提高人民生活水平,例如,涉及老百姓生活和身體健康的精準醫(yī)學、個性化藥物研發(fā)、突發(fā)惡性傳染病的應(yīng)對等方面,E級計算都可以發(fā)揮巨大作用;最后,重大科學發(fā)現(xiàn)和基礎(chǔ)科學研究,更是高性能計算的傳統(tǒng)應(yīng)用領(lǐng)域,如高能物理、天文物理、材料高通量計算等,對高性能計算的依賴程度非常高。
高性能計算促進我國信息產(chǎn)業(yè)發(fā)展
高性能計算對我國信息產(chǎn)業(yè)的發(fā)展具有極大的促進作用。首先,高端計算系統(tǒng)的研發(fā)和技術(shù)輻射促進了我國服務(wù)器產(chǎn)業(yè)的進步。目前,國內(nèi)HPC和服務(wù)器的銷售額已經(jīng)接近200億元,在國際市場上也占有一席之地。高端系統(tǒng)和服務(wù)器產(chǎn)業(yè)的發(fā)展極大促進了我國核心部件和關(guān)鍵元器件的自主研發(fā),為形成具有自主產(chǎn)權(quán)的硬件系統(tǒng)奠定了基礎(chǔ)。其次,高性能計算應(yīng)用的研發(fā)和普及為國產(chǎn)高性能計算軟件產(chǎn)業(yè)的發(fā)展奠定了基礎(chǔ)。長期以來,我國的應(yīng)用軟件主要依賴進口,尤其是在工業(yè)生產(chǎn)領(lǐng)域和基礎(chǔ)科學研究領(lǐng)域,支出大量采購經(jīng)費,且軟件升級受制于外方。因此,在發(fā)展硬件技術(shù)的同時,拓展應(yīng)用軟件市場,逐步占據(jù)高端市場,輻射低端市場,最終替換商業(yè)軟件,搶占HPC軟件的市場,是我國應(yīng)用軟件發(fā)展的必由之路。最后,國家高性能計算環(huán)境的發(fā)展,催生我國計算服務(wù)業(yè)的發(fā)展,通過環(huán)境運行,探索運營與盈利的新模式,從單純提供計算機向提供解決方案和交鑰匙服務(wù)方向轉(zhuǎn)變,這將促進我國高性能計算服務(wù)業(yè)的發(fā)展,也有利于提升我國相關(guān)企業(yè)的競爭力。
自主可控是我國高性能計算發(fā)展的必由之路
處理器是計算機的核心部件,長期以來中國超級計算機的處理器依賴進口。隨著我國超級計算機規(guī)模的提高,計算能力不斷增強,引起美國的關(guān)注。美國于2015年起開始對中國禁運新一代微處理器,拖延了“天河二號”超級計算機的升級。同時,國外限制高端應(yīng)用軟件向我國的出口,也造成國家超算中心應(yīng)用軟件采購受限,直接影響服務(wù)質(zhì)量?,F(xiàn)實告訴我們,中國的高性能計算事業(yè)不能完全建立在國外技術(shù)的基礎(chǔ)上,中國必須大力發(fā)展自主關(guān)鍵技術(shù),提升高性能計算的核心技術(shù)水平和自主可控能力。
三、發(fā)展E級計算面臨的挑戰(zhàn)
E級計算機核心技術(shù)的挑戰(zhàn)
E級計算機的研制面臨巨大的技術(shù)挑戰(zhàn),主要體現(xiàn)在功耗 (Power consumption)、應(yīng)用性能 (Performance)、可編程性 (Programmability)和可靠性 (Resilience)幾個方面,可簡單總結(jié)為3個P,1個R。
為了應(yīng)對這些挑戰(zhàn),我們需要在體系結(jié)構(gòu)上有所突破,探索突破當前異構(gòu)加速、異構(gòu)多態(tài)、國產(chǎn)眾核等途徑的新型體系結(jié)構(gòu)。在核心關(guān)鍵技術(shù)方面要有創(chuàng)新,尋求在高性能處理器、高速互連、低功耗技術(shù)、系統(tǒng)軟件、并行算法等方面的技術(shù)創(chuàng)新。同時要以軟硬件協(xié)同的方式,改善系統(tǒng)性能,提高系統(tǒng)可靠性,降低系統(tǒng)能耗。
大規(guī)模并行軟件的挑戰(zhàn)
應(yīng)用軟件方面的挑戰(zhàn)主要來自E級計算應(yīng)用軟件的大規(guī)模并行性。要充分考慮如何發(fā)展適應(yīng)體系結(jié)構(gòu)的大規(guī)模并行算法,如何支持數(shù)百萬核至數(shù)千萬核水平的大規(guī)模并行程序的開發(fā),如何應(yīng)對異構(gòu)體系結(jié)構(gòu)帶來的新的編程問題,如何實現(xiàn)大規(guī)模并行程序的調(diào)試和性能調(diào)優(yōu)。如果這些基本問題得不到解決,我國高性能計算的應(yīng)用水平難以提高。
高性能計算環(huán)境建設(shè)的挑戰(zhàn)
除了硬件和軟件之外,高性能計算的推廣離不開良好的生態(tài)環(huán)境。要建立環(huán)境可持續(xù)發(fā)展的運行模式,研發(fā)支撐軟件平臺,實現(xiàn)高性能計算環(huán)境的基礎(chǔ)設(shè)施生態(tài)運行;一方面要注重不斷豐富環(huán)境的資源,另一方面要建立有效的資源共享模式與機制,提高資源利用率,充分發(fā)揮資源的效益;要發(fā)展新的應(yīng)用服務(wù)模式,拓展環(huán)境的應(yīng)用;要與時俱進,在新的技術(shù)條件下提供更高質(zhì)量、更好體驗的服務(wù)。這些都是值得我們探討和努力解決的問題。
構(gòu)建高性能計算生態(tài)環(huán)境任務(wù)緊迫
當前國際形勢下,采用國產(chǎn)處理器實現(xiàn)E級計算機,不是應(yīng)該不應(yīng)該,而是不得不采取的措施,依托自主技術(shù)已經(jīng)成為我國高性能計算發(fā)展的必然選擇。要發(fā)揮基于國產(chǎn)處理器的E級計算機系統(tǒng)的作用,必須建立適應(yīng)國產(chǎn)處理器的應(yīng)用生態(tài)環(huán)境,需要我們在系統(tǒng)軟件、工具軟件、應(yīng)用軟件方面有所建樹。事實上,在應(yīng)用生態(tài)環(huán)境建設(shè)方面我們?nèi)匀淮嬖诜浅4蟮膯栴}。做一兩臺高端的計算機不是我們的終點,恰恰是新的起點。未來需要有更多的企業(yè)、研發(fā)部門、應(yīng)用部門、學術(shù)界一同努力,共同推進我國高性能計算機產(chǎn)業(yè),特別是服務(wù)器產(chǎn)業(yè)的發(fā)展。只有很多人來做這件事情,國產(chǎn)處理器的應(yīng)用生態(tài)問題才能得到解決。