国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

鯤云科技發(fā)布更高算力性價(jià)比AI芯片CAISA

2020-11-12 09:40熊安迪
機(jī)器人產(chǎn)業(yè) 2020年4期
關(guān)鍵詞:數(shù)據(jù)流算力星空

熊安迪

高性能AI芯片公司鯤云科技近日發(fā)布了全球首款數(shù)據(jù)流AI芯片CAISA,以及基于CAISA芯片的星空系列邊緣和數(shù)據(jù)中心計(jì)算平臺(tái)——X3加速卡和X9加速卡。與依靠更大的芯片面積和制程工藝的傳統(tǒng)方式不同,鯤云科技的定制數(shù)據(jù)流技術(shù)通過數(shù)據(jù)流動(dòng)控制計(jì)算順序,從而提升實(shí)測(cè)性能,為用戶提供更高的算力性價(jià)比。

6月23日,鯤云科技在深圳舉行產(chǎn)品發(fā)布會(huì)。發(fā)布會(huì)上,鯤云科技創(chuàng)始人兼CEO牛昕宇博士發(fā)布了全球首款數(shù)據(jù)流AI芯片CAISA。該芯片定位于高性能AI推理,目前已實(shí)現(xiàn)量產(chǎn)。

鯤云科技是一家高性能AI芯片公司,致力于提供下一代AI計(jì)算平臺(tái),加速AI落地。此次,鯤云科技通過自主研發(fā)的數(shù)據(jù)流技術(shù)在芯片實(shí)測(cè)算力上實(shí)現(xiàn)了技術(shù)突破,較同類產(chǎn)品在芯片利用率上提升了最高11.6倍。第三方測(cè)試數(shù)據(jù)顯示,僅用1/3的峰值算力,CAISA芯片可以實(shí)現(xiàn)同類產(chǎn)品最高3.91倍的實(shí)測(cè)性能。

超高芯片利用率,完成3.0升級(jí)

鯤云科技此次發(fā)布的CAISA芯片采用其自主研發(fā)的定制數(shù)據(jù)流芯片架構(gòu)CAISA 3.0。CAISA搭載了四個(gè)CAISA 3.0引擎,具有超過1.6萬個(gè)MAC(Multiply Accumulate,乘積累加運(yùn)算)單元,峰值性能可以達(dá)到10.9TOPs。該芯片采用28nm工藝,通過PCIe 3.0×4接口與主處理器通信,同時(shí)具有雙DDR通道,為每個(gè)CAISA引擎提供超過340Gbps的帶寬。

與上一代芯片架構(gòu)相比,CAISA 3.0在架構(gòu)效率和實(shí)測(cè)性能方面均得到了大幅提升。而且它在算子支持上更加通用,支持絕大多數(shù)神經(jīng)網(wǎng)絡(luò)模型快速地實(shí)現(xiàn)檢測(cè)、分類和語義分割部署。CAISA 3.0在多引擎支持上提供了比上一代高出4倍的并行度選擇,大大提高了架構(gòu)的可拓展性。在AI芯片內(nèi),每一個(gè)CAISA都可以同時(shí)處理AI工作負(fù)載,進(jìn)一步提升了CAISA架構(gòu)的性能,在峰值算力提升6倍的同時(shí),保持了高達(dá)95.4%的芯片利用率,實(shí)測(cè)性能得到線性提升。此外,新一代CAISA架構(gòu)對(duì)鯤云科技編譯器RainBuilder的支持也更加友好。軟硬件協(xié)作的進(jìn)一步優(yōu)化,能夠在系統(tǒng)級(jí)別上為用戶提供更好的端到端性能。

CAISA 3.0的指令集架構(gòu)采用馮·諾依曼計(jì)算方式,通過指令執(zhí)行次序控制計(jì)算順序,并通過分離數(shù)據(jù)搬運(yùn)與數(shù)據(jù)計(jì)算提供計(jì)算通用性。CAISA架構(gòu)依托數(shù)據(jù)流流動(dòng)次序控制計(jì)算次序,采用計(jì)算流和數(shù)據(jù)流重疊運(yùn)行的方式消除空閑計(jì)算單元,并采用動(dòng)態(tài)配置的方式保證對(duì)AI算法的通用支持,突破指令集技術(shù)對(duì)于芯片算力的限制。

通過此次升級(jí),CAISA 3.0架構(gòu)的三大技術(shù)突破解決了以數(shù)據(jù)流架構(gòu)作為AI計(jì)算平臺(tái)的挑戰(zhàn)。

通過時(shí)鐘級(jí)準(zhǔn)確的計(jì)算實(shí)現(xiàn)高算力性價(jià)比。

CAISA 3.0架構(gòu)由數(shù)據(jù)流來驅(qū)動(dòng)計(jì)算過程,無指令操作,可以實(shí)現(xiàn)時(shí)鐘級(jí)準(zhǔn)確的計(jì)算,最大限度地減少硬件計(jì)算資源的空閑時(shí)間。CAISA 3.0架構(gòu)通過數(shù)據(jù)計(jì)算與數(shù)據(jù)流動(dòng)的重疊,壓縮計(jì)算資源的每一個(gè)空閑時(shí)鐘;通過算力資源的動(dòng)態(tài)平衡,消除流水線的性能瓶頸;通過數(shù)據(jù)流的時(shí)空映射,對(duì)芯片內(nèi)的數(shù)據(jù)流帶寬進(jìn)行最大化的復(fù)用,減少對(duì)外部存儲(chǔ)帶寬的需求。這種設(shè)計(jì)使CNN算法的計(jì)算數(shù)據(jù)在CAISA 3.0內(nèi)可以實(shí)現(xiàn)不間斷的持續(xù)運(yùn)算,最高可實(shí)現(xiàn)95.4%的芯片利用率,在同等峰值算力的條件下,可獲得相比于GPU 3倍以上的實(shí)測(cè)算力,從而為用戶提供更高的算力性價(jià)比。

通過流水線動(dòng)態(tài)重組實(shí)現(xiàn)高架構(gòu)通用性。

在保證每個(gè)算法在CAISA上運(yùn)行均能實(shí)現(xiàn)高芯片利用率的同時(shí),CAISA 3.0架構(gòu)支持絕大多數(shù)的CNN算法。CAISA 3.0架構(gòu)可以通過流水線動(dòng)態(tài)重組實(shí)現(xiàn)對(duì)不同深度學(xué)習(xí)算法的高性能支持。通過CAISA架構(gòu)層的數(shù)據(jù)流引擎、全局?jǐn)?shù)據(jù)流網(wǎng)、全局?jǐn)?shù)據(jù)流緩存,以及數(shù)據(jù)流引擎內(nèi)部的AI算子模塊、局部數(shù)據(jù)流網(wǎng)、局部數(shù)據(jù)流緩存的分層設(shè)計(jì),在數(shù)據(jù)流配置器控制下,CAISA架構(gòu)中的數(shù)據(jù)流連接關(guān)系和運(yùn)行狀態(tài)均可以被自動(dòng)化動(dòng)態(tài)配置,從而生成面向不同AI算法的高性能定制化流水線。在保證高性能的前提下,支持用戶使用基于CAISA 3.0架構(gòu)的計(jì)算平臺(tái)實(shí)現(xiàn)廣泛的AI算法應(yīng)用,如目標(biāo)檢測(cè)、分類及語義分割等。

通過算法的端到端自動(dòng)化部署實(shí)現(xiàn)高軟件易用性。

針對(duì)CAISA芯片,鯤云科技提供編譯工具鏈RainBuilder 3.0,支持從算法到芯片的端到端自動(dòng)化部署。用戶無需底層數(shù)據(jù)流架構(gòu)的背景知識(shí),通過簡單的兩步即可將已有的算法遷移和部署到CAISA硬件平臺(tái)上。

編譯工具鏈RainBuilder可自動(dòng)提取主流AI開發(fā)框架(TensorFlow、Caffe、Pytorch、ONNX等)中開發(fā)的深度學(xué)習(xí)算法的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)信息,并針對(duì)CAISA架構(gòu)進(jìn)行優(yōu)化。其中的運(yùn)行時(shí)(Runtime)和驅(qū)動(dòng)(Driver)模塊負(fù)責(zé)硬件管理并為用戶提供標(biāo)準(zhǔn)的API接口,運(yùn)行時(shí)可以基于精確的CAISA性能模型,實(shí)現(xiàn)算法向CAISA架構(gòu)的自動(dòng)化映射,同時(shí)提供可以被高級(jí)語言直接調(diào)用的API接口。最底層的驅(qū)動(dòng)可以實(shí)現(xiàn)對(duì)用戶透明的硬件控制。

高算力性價(jià)比的AI計(jì)算平臺(tái)

此次發(fā)布會(huì)上,鯤云科技還發(fā)布了基于CAISA芯片的星空系列邊緣和數(shù)據(jù)中心計(jì)算平臺(tái)——X3加速卡和X9加速卡,并公布了包括ResNet-50、YOLO v3等在內(nèi)的主流深度學(xué)習(xí)網(wǎng)絡(luò)的實(shí)測(cè)性能。

星空X3加速卡

星空X3加速卡是搭載單顆CAISA 芯片的數(shù)據(jù)流架構(gòu)深度學(xué)習(xí)推斷計(jì)算平臺(tái),為工業(yè)級(jí)半高半長單槽規(guī)格的PCIe板卡。得益于其輕量化的規(guī)格,X3加速卡可以與不同類型的計(jì)算機(jī)設(shè)備進(jìn)行適配,包括個(gè)人電腦、工業(yè)計(jì)算機(jī)、網(wǎng)絡(luò)視頻錄像機(jī)、工作站、服務(wù)器等,滿足了邊緣和高性能場(chǎng)景中的AI計(jì)算需求。相較于英偉達(dá)邊緣端旗艦產(chǎn)品Xavier,X3可實(shí)現(xiàn)1.48-4.12倍的實(shí)測(cè)性能提升。

星空X9加速卡

星空X9加速卡為搭載4顆CAISA 芯片的深度學(xué)習(xí)推斷板卡,峰值性能43.6TOPS,主要滿足高性能場(chǎng)景下的AI計(jì)算需求。與英偉達(dá)旗艦產(chǎn)品T4相比,X9在ResNet-50、 YOLO v3等模型上的芯片利用率提升了2.84-11.64倍。在實(shí)測(cè)性能方面,在ResNet50上,X9可以達(dá)到5240FPS,與T4性能接近;在YOLO v3、UNet Industrial等檢測(cè)分割網(wǎng)絡(luò)上,X9提升了1.83-3.91倍的性能。在達(dá)到最優(yōu)實(shí)測(cè)性能的情況下,X9處理延時(shí)比T4降低了1.83-32倍。實(shí)測(cè)性能以及處理延時(shí)的領(lǐng)先,使數(shù)據(jù)流架構(gòu)為AI芯片的發(fā)展提供了提升峰值性能之外的另一條技術(shù)路線。

據(jù)了解,目前,星空X3加速卡已經(jīng)實(shí)現(xiàn)量產(chǎn),星空X9加速卡將于今年8月推向市場(chǎng)。

商業(yè)落地在路上

基于其自主研發(fā)的AI芯片,鯤云科技提供一體化計(jì)算平臺(tái)設(shè)備,能夠保證產(chǎn)品的標(biāo)準(zhǔn)化,降低AI落地的成本。與之相輔相成,鯤云科技還提供與CAISA芯片相配套的領(lǐng)域落地解決方案,能夠降低其計(jì)算平臺(tái)的落地門檻和使用難度。此次鯤云科技公布的CAISA 3.0已經(jīng)是第三代架構(gòu),其前兩代架構(gòu)此前已經(jīng)交付給用戶使用。

牛昕宇表示,CAISA芯片是一個(gè)計(jì)算平臺(tái),而計(jì)算平臺(tái)需要為所有的AI領(lǐng)域提供算力支持。智能制造和自動(dòng)駕駛等行業(yè)需要產(chǎn)生實(shí)時(shí)反饋,包括車路協(xié)同,對(duì)延時(shí)均有高性能的要求。從其落地客戶的反饋信息可以看出,鯤云科技數(shù)據(jù)流架構(gòu)的低延時(shí)優(yōu)勢(shì)比較明顯。

由于鯤云科技的CAISA芯片考慮到了主流的開發(fā)環(huán)境、用戶使用習(xí)慣,以及不同的操作系統(tǒng)和開發(fā)框架,客戶對(duì)其在落地中的通用性和易用性表示了肯定。但對(duì)于芯片公司而言,軟件生態(tài)也是一件非常重要的事情?!坝行┸浖纳鷳B(tài)還是需要我們?nèi)ヅΓ吘刮覀兪且粋€(gè)初創(chuàng)的芯片公司?!?鯤云科技合伙人兼COO王少軍博士承認(rèn),“這種生態(tài)不是一天就能建立起來的,需要多年的積累,我們也一直重視生態(tài)的構(gòu)建?!?/p>

此外,鯤云科技的星空3代加速卡也已經(jīng)在航空、航天、電力、教育、工業(yè)檢測(cè)、智慧城市等領(lǐng)域落地。

對(duì)標(biāo)芯片數(shù)據(jù)來源:

[1] Xavier性能數(shù)據(jù)來源:https://developer. nvidia. com/embedded/jetson-agx-xavier-dl-inference-benchmarks

[2] ResNet50、ResNet152算法網(wǎng)絡(luò)來源:https://github. com/tensorflow/models/tree/master/research/slim

[3] YOLO算法網(wǎng)絡(luò)來源:

a.官方:https://pjreddie. com/darknet/yolo/

b.其他:https://github.com/pushyami/yolov3-caffe/

[4] SSD-ResNet50算法網(wǎng)絡(luò)來源:https://ngc.nvidia. com/catalog/models/nvidia:ssdtf_fp16

[5] UNet Industrial算法網(wǎng)絡(luò)來源:https://ngc. nvidia. com/catalog/models/nvidia:unetindtf_fp16

[6] T4性能數(shù)據(jù)來源:https://developer.nvidia. com/deep-learning-performance-training-inference#resnet50-latency

猜你喜歡
數(shù)據(jù)流算力星空
應(yīng)用數(shù)據(jù)流分析排除起動(dòng)機(jī)不轉(zhuǎn)故障的研究
杭州“算力小鎮(zhèn)”
數(shù)據(jù)流和波形診斷技術(shù)在發(fā)動(dòng)機(jī)故障診斷中的應(yīng)用
智能計(jì)算浪潮迭起
邊緣計(jì)算與算力網(wǎng)絡(luò)專題導(dǎo)讀
計(jì)算萬物 算力之下要有堅(jiān)實(shí)的地基
數(shù)據(jù)流安全查詢技術(shù)綜述
星空
利用數(shù)據(jù)流進(jìn)行電控故障診斷的案例分析
你也愛吃仰望星空派嗎?
溧阳市| 桑植县| 兰西县| 宣汉县| 海南省| 漳平市| 石河子市| 吴忠市| 凭祥市| 上虞市| 平顺县| 西吉县| 南阳市| 资阳市| 淮安市| 凌云县| 曲水县| 泽库县| 铜陵市| 苗栗县| 特克斯县| 娄底市| 蓬安县| 昌都县| 盐池县| 临夏市| 清水县| 申扎县| 贡嘎县| 甘孜县| 将乐县| 南京市| 奈曼旗| 兰州市| 张家港市| 天镇县| 大荔县| 海盐县| 永新县| 高要市| 天柱县|