李曼
1993年9月,美國政府宣布實施一項新的高科技計劃――“國家信息基礎設施”(National Information Infrastructure,簡稱NII),旨在以因特網為雛形興建 “信息高速公路”,使所有的美國人方便地共享海量的信息資源?!靶畔⒏咚俟贰钡陌l(fā)展為美國帶來了巨大的社會經濟效益,同時也在世界范圍內掀起了建設信息高速公路的熱潮。
信息基礎設施關系國家安全和重大利益,攸關產業(yè)命脈。中國自改革開放以來,與發(fā)達國家相比信息基礎設施仍十分薄弱,一直依賴于美國政府主導構建的“信息高速公路”,核心芯片也主要來源于美國進口。隨著IT3.0時代的到來,人-機-物三元高度融合,傳統(tǒng)的“信息高速公路”已無法滿足中國人的海量數據處理需求,同時為徹底解決信息技術“卡脖子”的問題,就要走中國人自己的路——構建“信息高速鐵路”。為此,2018年底,北京中科睿芯科技有限公司研發(fā)完成了全球首臺高通量計算機——“金剛”。“金剛”的成功研發(fā)離不開睿芯團隊的堅持與努力。
用心鉆研,從“芯”出發(fā)
2000年,范東睿從北京交通大學理學院應用數學系畢業(yè)。4年的學習仍無法滿足他對知識的渴望,大學畢業(yè)后范東睿選擇進入中國科學院計算技術研究所(以下簡稱“中科院計算所”)學習。在這里,開啟了他的科研之路。
2009年范東睿被評為中科院計算所卓越之星;2010年獲評北京市科技新星;2013年獲北京市科學技術獎;2014年獲中科院卓越青年科學家獎;2017年獲首都科技領軍人才;2018年入選科技部創(chuàng)新人推進計劃;2019年成為中組部“萬人計劃”領軍人才。一個個傲人的成績源于一次次用心的鉆研。
范東睿在中科院計算所接觸到了第一批芯片——龍芯處理器設計。然而范東睿發(fā)現,若是只專注于做芯片,卻沒有相配套的板卡整機,也沒有匹配的應用軟件、應用系統(tǒng),無法形成完整的生態(tài)鏈,即使研發(fā)成功了芯片,也無用武之地。美國早在20多年前就已經擁有了信息高速公路計劃,而中國只能走在美國為我們鋪好的道路上,一旦美國不再為我們鋪路的時候,中國的信息發(fā)展將會受到掣肘,從“中興事件”中我們不難看出這一點。
2005年,研發(fā)團隊成立,專門從事“延長摩爾定律的處理芯片新原理、新結構、新方法”的新體系結構研究。2009年研發(fā)團隊自主研發(fā)的并行加速千核萬線程模擬器SMARTSIMU研制成功,在北京理工大學、華中科技大學、美國特拉華大學等科研機構均有試用。2010年,睿芯團隊自主研發(fā)眾核處理芯片睿芯一號SmarCo-1(Godson-T)成功流片,并于2011年入選“全球十大服務器芯片設計”。2013年,高通量眾核視頻處理芯片睿芯二號SmarCo-2(DPU-m)成功流片,研發(fā)團隊獲“北京市科學技術獎”。
“我們肩上擔負的責任重大,中國的信息發(fā)展缺乏完整的系統(tǒng)的解決方案,不管是視頻大數據,還是對特殊場景的模擬,都需要一個軟硬件一體的協同創(chuàng)新的平臺。作為中科院所屬的企業(yè),要以做出中國人自己的睿智的芯片為己任,公司就叫‘中科睿芯吧。公司名中帶了創(chuàng)始人的名字,如果做不好,那就丟了自己的臉?!敝锌圃河嬎闼L孫凝暉說。因此,2014年11月,北京中科睿芯科技有限公司(以下簡稱“中科睿芯”)正式成立,總部設立于北京市中關村地區(qū),由中國科學院計算技術研究所和中科院計算所高通量計算中心團隊共同投資建立。中科睿芯致力于成為高通量計算的引領者,提供高通量計算的前沿技術研究、實現和整體解決方案。
自2014年成立以來,中科睿芯的技術研發(fā)實力和市場營銷能力快速提升,相繼獲得中關村高新、國家高新、瞪羚企業(yè)等資質,并先后獲得中科院科技成果轉化獎、德勤明日之星、北京市科學技術二等獎等榮譽,已具備以自主高端芯片為核心的全系統(tǒng)級研發(fā)及產品體系。
用心鉆研,用“芯”成就
“我國現有的信息基礎設施經歷了一個漫長的過程,從以單機計算為代表的IT1.0時代,到后來的以人-機二元計算為代表的IT2.0時代,再到目前正在進入以人-機-物三元網絡計算為代表的IT3.0時代。計算機的核心需求已經從以計算為中心轉變?yōu)橐詳祿橹行摹!狈稏|睿表示。
他認為,傳統(tǒng)計算機系統(tǒng)設計所賴以生存的業(yè)務基礎已經發(fā)生巨變,新的應用需求集中體現在高并發(fā)負載和強實時服務保障等方面,而傳統(tǒng)計算機在高負載環(huán)境下不僅無法達到實時的響應需求,也無法確保高并發(fā)、高利用率和強實時的同時滿足。為此,中科睿芯研發(fā)團隊根據中國科學院率先在國際上提出的“高通量計算”技術的研究,展開了高通量技術的產品研發(fā)和產業(yè)化。終于,在 2018年底完成了全球首臺高通量計算機——“金剛”。
“金剛”針對高通量應用場景所體現出的高并發(fā)特點,采用了計算所自主研發(fā)的全球首款高通量眾核處理器,在網絡視頻處理場景下可支持千路視頻的實時并發(fā)處理;并應用了計算所自主研制的國內首款云端深度學習加速芯片,該芯片在全球首次系統(tǒng)性提出了深度學習指令集;為了高效發(fā)揮出上述核心芯片的處理性能,“金剛”首次提出并研制了具備大數據處理和深度學習平臺深度融合的高通量計算軟件平臺,該平臺支持軟硬件協同的垂直優(yōu)化,從而進行最大化系統(tǒng)處理。
“金剛”依靠上述技術,實現了遠高于傳統(tǒng)服務器的高密度和高能效,還可針對業(yè)務環(huán)境的高并發(fā)特點,采用可擴展眾核設計,支持海量線程并發(fā),以滿足高通量計算“算的多”這一核心需求。通過軟硬件協同技術支持實時性感知的任務調度和數據訪問,從而實現了高并發(fā)、高利用率的同時還能確保應用的服務質量?!敖饎偂睋碛械暮诵募夹g自主可控,其核心加速芯片和軟件平臺均是國產自研技術,整機安全可控。
“‘金剛的研發(fā)成功不是一蹴而就的,是經歷了一次又一次的研究和挫折的。”中科睿芯總經理王達說。研發(fā)之初,團隊大多以九零后為主,他們年輕有活力,有向上的沖勁,雖然他們缺乏實踐經驗,但是在團隊的相互配合和鼓勵下,又有老員工從旁協助發(fā)揮帶頭作用,很完美地完成了項目。不僅使老員工發(fā)揮了自己的專業(yè)所長,也使團隊中的年輕人得到了成長,團隊得到了更好的融合。
“金剛”的服務器包含數千種各類元器件,工程師們把每個元器件的特性,以及可替換的同類元器件的特性都牢記在腦海里,以便于在研發(fā)過程中可以及時合理的調配,在滿足各種性能指標的同時最大限度的降低成本。為了節(jié)約研發(fā)時間,睿芯團隊在項目管理上建立了嚴格的開發(fā)流程和規(guī)范,做到在“規(guī)范與效率”和“質量與風險”之間的完美平衡。睿芯團隊還充分利用國內現有的成熟產業(yè)鏈,以外包或外協的方式完成一些非關鍵部件的生產加工,充分發(fā)揮專業(yè)分工的優(yōu)勢,有效地提高了時間的利用率。
“金剛”的研發(fā)成功,一方面改善了我國服務器市場核心芯片受制于人的境況,極大提升了服務器核心部件的國產化率和整體安全性;另一方面,高通量計算機有效解決了當前數據中心服務器利用率偏低的問題(當前基于傳統(tǒng)架構的數據中心服務器的平均利用率普遍僅在10%~30%)。王達表示,目前“金剛”高通量計算機已經在一系列典型場景中開展示范應用,并將逐步應用到國民經濟主戰(zhàn)場中,貢獻于國計民生。