John Edwards
在當(dāng)今數(shù)據(jù)驅(qū)動的世界中,高性能計算(HPC)成為組織的首選平臺,很多組織希望深入了解基因組學(xué)、計算化學(xué)、財務(wù)風(fēng)險建模、地震成像等領(lǐng)域。最初由需要執(zhí)行復(fù)雜數(shù)學(xué)計算的研究科學(xué)家所采用,高性能計算(HPC)現(xiàn)在引起了各個領(lǐng)域組織和企業(yè)的關(guān)注。
高性能計算(HPC)數(shù)據(jù)存儲系統(tǒng)Panasas公司系統(tǒng)工程總監(jiān)Dale Brantly說:“我們依靠數(shù)據(jù)的收集、分析、分發(fā)而蓬勃發(fā)展的環(huán)境,并依靠可靠的高性能計算來支持具有強大計算能力的簡化工作流程?!?/p>
雖然中小型企業(yè)采用高性能計算技術(shù)仍然相對較少,但對于愿意投資于這種技術(shù)和專業(yè)知識的組織來說,高性能計算(HPC)具有巨大的潛力。
通常,高性能計算用例專注于某種類型的仿真。谷歌云首席技術(shù)官辦公室高性能計算和量子計算技術(shù)總監(jiān)Kevin Kissell說:“高性能計算可以模擬機翼上的氣流、發(fā)動機燃燒、行星氣象系統(tǒng)、核反應(yīng)以及投資組合的估值?!逼渌美齽t以分析為目的,例如統(tǒng)計廣告投資回報率或評估業(yè)務(wù)部門的績效。仍然可以將其他用例歸類為翻譯或轉(zhuǎn)換。他說:“就像視頻的渲染一樣?!?/p>
無需超級計算機的高性能計算
許多企業(yè)和IT領(lǐng)導(dǎo)者都誤以為高性能計算系統(tǒng)都是基于超級計算機的。實際上,雖然由Atos、IBM、HPE、Cray和Fujitsu等公司生產(chǎn)的超級計算機是眾多專用高性能計算系統(tǒng)的核心,但一種更廣泛使用的方法是將多臺小型計算機集成到互連的集群中以提供高性能計算功能。在這種安排下,集群中的每臺計算機都充當(dāng)節(jié)點。每個節(jié)點通常配備有多個處理器(稱之為計算核心)用于處理計算任務(wù)。每個節(jié)點內(nèi)的處理器、圖形處理單元(GPU)和內(nèi)存資源相互連接以創(chuàng)建高性能計算系統(tǒng)。
由于采購和運行超級計算機及其定制軟件的成本高達(dá)數(shù)百萬美元,其成本遠(yuǎn)遠(yuǎn)超出了大多數(shù)企業(yè)的財務(wù)承受能力。使用運行現(xiàn)成軟件的相對便宜的互連計算機,集群型高性能計算通常更易于部署和運行。盡管如此,對于大多數(shù)企業(yè)來說,即使是規(guī)模適中的基于集群的高性能計算都是一筆巨大的投資,尤其是那些高性能計算需求有限的企業(yè)。
現(xiàn)在這種情況正在改變。希望在不破壞IT預(yù)算的情況下獲得高性能計算訪問權(quán)限的企業(yè)現(xiàn)在可以選擇使用公共云服務(wù),例如谷歌云、Microsoft Azure、AWS和IBM Cloud。
數(shù)字服務(wù)和軟件工程商Ciklum公司的.NET技術(shù)負(fù)責(zé)人Maksym Pavlov說:“這些服務(wù)使企業(yè)能夠訪問高性能計算功能來滿足其業(yè)務(wù)需求,而無需大量投資高性能計算集群的硬件基礎(chǔ)設(shè)施?!盜BM公司云計算副總裁David Turek補充道:“云計算的出現(xiàn)在一定程度上平衡了小公司和大公司之間的競爭環(huán)境?!?/p>
從高性能計算集群遷移到云計算高性能計算
北卡羅來納大學(xué)教堂山分校(UNC-Chapel Hill)長期以來一直依靠其本地高性能計算集群來支持多個科學(xué)、工程和醫(yī)學(xué)領(lǐng)域的研究活動。然而,隨著研究計算需求的持續(xù)增長,用戶需求開始超過當(dāng)前系統(tǒng)的計算資源和容量。該大學(xué)并沒有增加現(xiàn)有的高性能計算投資,而是決定采用云計算技術(shù)提供按需的高性能計算環(huán)境。
實踐證明,該方法既具有成本效益,又具有高度靈活性。北卡羅來納大學(xué)教堂山分校首席信息官Michael Barker表示:“采用云計算,我們就可以提供完成所要求工作所需的計算工作。這是一種滿足運行計算工作的需求非常有效的方式?!?/p>
該校高級研究助理Jeff Roach指出,高性能計算向云端遷移既是必要的,也是受歡迎的。他說:“我們有一個非常傳統(tǒng)的本地集群。然而隨著時間的推移,該系統(tǒng)逐漸無法跟上越來越多的需要領(lǐng)先計算能力和更快性能的用戶的步伐。我們發(fā)現(xiàn),本地集群對于設(shè)計該集群的人員確實非常有效,但是他們的一些案例正變得越來越少?!?/p>
隨著需要計算的用例迅速成為規(guī)范,北卡羅來納大學(xué)教堂山分校開始與谷歌云以及仿真和分析軟件提供商Techila科技公司合作,以規(guī)劃其進(jìn)入云計算高性能計算的旅程。其規(guī)劃之后的第一步是概念評估的證明。
英國約克大學(xué)也在研究中采用了基于云計算的高性能計算方法。英國皇家學(xué)會行業(yè)研究員、約克大學(xué)生物系教授James Chong指出,高性能計算可以應(yīng)用在生物學(xué)、物理、化學(xué)和計算機科學(xué)等科學(xué)系以及語言學(xué)和其他幾個學(xué)科的研究工作。
Chong所在的研究部門目前正在使用谷歌云平臺分析DNA序列數(shù)據(jù)。他解釋說:“我的團(tuán)隊對微生物群感興趣,這些微生物群涉及將廢物轉(zhuǎn)化為沼氣的混合微生物。我們使用高性能計算將短小的DNA序列一起組合為一個基因組,然后分離出不同微生物的基因組,以便我們能了解這些生物如何響應(yīng)其生長條件的變化?!?/p>
就像北卡羅來納大學(xué)教堂山分校的研究人員一樣,Chong對高性能計算云計算服務(wù)可以提供的強大功能和靈活性表示贊賞。他說:“我們的高性能計算需要滿足一系列要求,有些用戶希望采用大量的處理器,而其他用戶則需要采用高內(nèi)存。作為生物學(xué)家,我們使用的一些應(yīng)用程序很快就會綁定到I/O,因此通過超高速磁盤訪問也很有用?!?/p>
約克大學(xué)使用的云計算高性能計算還具有適應(yīng)不斷變化的需求的能力。Chong指出:“我們中的許多人開始使用機器學(xué)習(xí)技術(shù),并希望能夠利用不同的體系結(jié)構(gòu)。約克大學(xué)的廣泛用戶意味著我們還需要訪問一系列不同的軟件包?!迸c大多數(shù)云計算高性能計算一樣,約克大學(xué)使用的服務(wù)允許各種類型的研究人員輕松快速地在軟件工具之間切換,而不會將時間浪費在獲取、部署或配置問題上。
配備超級計算機的高性能計算
盡管云計算高性能計算服務(wù)具有某些優(yōu)勢,但對于關(guān)注安全性和隱私的企業(yè)而言,它并不總是最佳或最合乎邏輯的選擇。Turek指出:“數(shù)據(jù)存放位置非常敏感。特別是當(dāng)受到歐洲的GDPR法規(guī)限制時?!蓖ㄓ脭?shù)據(jù)保護(hù)條例(GDPR)是歐盟發(fā)布的隱私法規(guī)。
為了解決隱私問題和對強大計算能力的需求,邁阿密大學(xué)最近選擇投資于基于本地的超級計算機的高性能計算系統(tǒng)。最關(guān)鍵的是,該大學(xué)認(rèn)為,擁有大量多維數(shù)據(jù)集的研究項目可以在專門設(shè)計的高性能超級計算機上運行得更快。
去年8月,邁阿密大學(xué)推出了基于Power Systems AC922服務(wù)器的新型IBM Triton超級計算機。邁阿密大學(xué)計算科學(xué)中心主任、數(shù)據(jù)和研究計算副教務(wù)長Nicholas Tsinoremas指出,已有2000多名學(xué)生和教員使用該系統(tǒng)從事氣候預(yù)測、基因組學(xué)、生物信息學(xué)、計算機視覺和人工智能等項目。
其部署雖然成功,但在初期卻遇到了一些障礙,幾乎所有采用高性能計算的用戶都能遇到這種情況,無論其規(guī)模、領(lǐng)域或計算需求如何。Tsinoremas說:“遷移問題始終是一個問題,還必須解決用戶培訓(xùn)和再培訓(xùn)問題。新系統(tǒng)與傳統(tǒng)存儲系統(tǒng)的集成是另一個挑戰(zhàn)?!?/p>
所有這些問題都凸顯了一個事實,即高性能計算系統(tǒng)是基于內(nèi)部部署還是基于云計算,其采用需要大量的計劃和準(zhǔn)備。Tsinoremas警告說:“企業(yè)具有專業(yè)知識是必要的,并且必須有一個計劃。了解工作負(fù)載的性質(zhì)和要求也很重要。換句話說,采用者需要了解他們試圖解決的問題以及希望高性能計算如何幫助解決這些問題?!?/p>
高性能計算工作負(fù)載入門另一個要點是選擇正確的資源管理工具,該工具使組織能夠訪問和優(yōu)化高性能計算環(huán)境。Altair公司高級產(chǎn)品管理主管Jérémie Bourdoncle說:“無論是購買傳統(tǒng)的高性能計算硬件環(huán)境,還是利用云中的高性能計算或同時使用這兩者,選擇最適合組織的工作類型和吞吐量要求的高性能計算工作負(fù)載管理器都是至關(guān)重要的?!?/p>
Kissell建議采用一種注重知識、簡單、選擇和謹(jǐn)慎的采納策略。他說:“這可能是一段漫長的旅程,因此需要規(guī)劃行程,但要給自己機會進(jìn)行調(diào)整。組織需要選擇一個簡單但具有代表性的測試用例,并且可以清楚地識別從高性能計算仿真或分析中獲得的知識和見解。然后選擇針對自己的問題類別設(shè)計的軟件包的簡短列表,并進(jìn)行更多的嘗試。”