国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

工業(yè)機器視覺中的AI算力需求

2020-01-04 07:09牛昕宇
機器人產(chǎn)業(yè) 2020年6期
關(guān)鍵詞:數(shù)據(jù)流算力乘法

質(zhì)檢是工業(yè)生產(chǎn)的重要一環(huán),以往這項工作需要由人工完成,檢測效率和檢測精度等存在提升空間。隨著人工智能技術(shù)的快速發(fā)展,工業(yè)機器視覺逐步實現(xiàn)落地應(yīng)用,但同時也對算力提出了更高要求。在2020世界計算機大會工業(yè)互聯(lián)與制造生態(tài)專題論壇現(xiàn)場,鯤云科技創(chuàng)始人兼CEO牛昕宇圍繞工業(yè)機器視覺中的AI算力需求,展開了詳細解讀,并給出了鯤云科技的解決方案。

鯤云科技是一家初創(chuàng)企業(yè),總部在深圳。我們的核心是圍繞數(shù)據(jù)流芯片和基于數(shù)據(jù)流芯片的AI應(yīng)用,在這方面擁有全套自主知識產(chǎn)權(quán),而且現(xiàn)在是全球第一家量產(chǎn)數(shù)據(jù)流AI芯片的企業(yè)。圍繞這些技術(shù),鯤云科技與浪潮、戴爾等企業(yè)都建立了戰(zhàn)略合作關(guān)系。

簡單講一下,在工業(yè)領(lǐng)域我們現(xiàn)在面臨什么挑戰(zhàn)。其實,在工業(yè)領(lǐng)域我們面臨的一個比較大的挑戰(zhàn),是我們需要大量的人力來做各種各樣的工業(yè)生產(chǎn)工作,其中有很大一部分是工業(yè)質(zhì)檢。在這方面,我們用了很多傳統(tǒng)CV(Computer Vision,計算機視覺)的方法來實現(xiàn)工業(yè)自動化,但是傳統(tǒng)的工業(yè)CV有很多缺陷,包括精度不高、泛化能力不強,在各種復(fù)雜場景下定制化的成本非常高,這是深度學習或人工智能在工業(yè)領(lǐng)域所能解決的問題。

工業(yè)機器視覺應(yīng)用案例

在落地過程中,鯤云科技工業(yè)機器視覺主要在四個方面能夠發(fā)揮比較強的作用,一是對元器件的定位,二是對各種缺陷的檢測,三是批次/型號分類,四是復(fù)雜的OCR(Optical Character Recognition,光學字符識別)。

首先看第一個案例,PCB面板的缺陷檢測。在生產(chǎn)PCB的過程中有大量目檢人員,他們需要解決PCB面板元器件的撞件、少件、結(jié)構(gòu)損傷和IC覆膜破損等問題。在應(yīng)用深度學習之前,這些問題都是通過人工的方法解決。應(yīng)用深度學習,我們將其可以分兩個階段,第一階段是缺陷風險區(qū)域檢測,第二階段是在缺陷風險區(qū)域進行缺陷識別和缺陷元器件定位。這里面其實面臨一些挑戰(zhàn),在工業(yè)領(lǐng)域是一些非常常見的挑戰(zhàn)。第一,缺陷的數(shù)據(jù)很少,因為大量的工業(yè)產(chǎn)品質(zhì)量良好,缺陷問題非常少。第二,缺陷的種類非常多。所以,我們基本會采用遷移學習、預(yù)訓練和數(shù)據(jù)增廣等方法來解決挑戰(zhàn)。

應(yīng)用深度學習之后,每條產(chǎn)線可減少6名目檢人員,目檢人員的主要工作從以前的檢測各種缺陷,變?yōu)閷ι疃葘W習檢測結(jié)果進行復(fù)檢,每條產(chǎn)線年均節(jié)約人力成本近50萬元,而且采用深度學習和人工智能芯片的方法,可以大幅降低單個產(chǎn)品檢測時間,由15秒縮短至3秒,檢測效率提升5倍。

第二個案例是基于深度學習的PCB線路板印刷缺陷檢測。傳統(tǒng)上一般采用人工的方法進行檢測,因為傳統(tǒng)CV的方法很難在各種各樣的環(huán)境下,對不同的問題進行實時檢測。通過采用深度學習算法,我們可以對不同環(huán)境下的不同形狀、不同外觀、不同情況的缺陷進行非常準確的檢測。相對于傳統(tǒng)的CV算法,深度學習的好處在于:第一,泛化能力更強,電路板的不同缺陷都可以得到非常好的檢測;第二,檢測精度更高,一般而言,深度學習相比于傳統(tǒng)CV,檢測精度能從90%~95%提升至99%左右,這并非是提升了5%左右的精度,而是代表誤檢率和漏檢率從10%降低至1%,是10倍的檢測精度的提升。

第三個案例是基于深度學習的電子元器件標識。我們做了很多諸如電容、電阻等的元器件的缺陷檢測,主要是電子元器件上的OCR識別,通過識別電子元器件上印制的標簽進行檢測。例如,生產(chǎn)10歐姆的電阻,如果檢測到電阻上印制了100歐姆的標識,那么這些缺陷電阻都要被檢測識別出來。

第四個案例是基于深度學習的液體包裝缺陷檢測。這個案例是化妝水瓶外觀的缺陷檢測,包括外觀上有凹槽、污漬等。這是一個非常復(fù)雜的檢測過程,首先要檢測缺陷的區(qū)域,然后進行分類,判斷是哪種區(qū)域,最后通過分割計算區(qū)域面積,確定其是否是真正的缺陷目標。

第五個案例是基于深度學習的數(shù)據(jù)線Boot缺陷檢測。

算法和算力面臨突破

以上是深度學習在工業(yè)智能化產(chǎn)線中的應(yīng)用。其實,在應(yīng)用過程中面臨著很大的問題,一是需要各種各樣的深度學習算法;二是算力要能夠滿足要求。深度學習精度高、泛化能力強,但它有一個明顯的劣勢,即對算力的要求呈指數(shù)級增長,相比于傳統(tǒng)的CV而言,二者的算力要求遠不是同一級別。據(jù)統(tǒng)計,在2010—2020年間,算力的需求增加了100萬倍,但算力性能僅提升了1000倍。在實際的應(yīng)用場景中,我們需要實時性,需要高精度,需要運行非常大的網(wǎng)絡(luò),需要降低工業(yè)智能化的部署成本,這些都對算力提出了要求,我們不可能在工業(yè)產(chǎn)線上布置一個超算中心來支持運營,所以這就需要我們引入新的人工智能芯片。

整個產(chǎn)線分兩個階段,分別是算法的開發(fā)和算法的部署。我們在產(chǎn)業(yè)線上收集缺陷目標,把它訓練成一套成熟的算法,這是算法的開發(fā)過程。開發(fā)過程完成后,要把算法真正部署在產(chǎn)線上,使之在每條產(chǎn)線、每個環(huán)節(jié)上運行,這是算法的推斷過程。在工業(yè)產(chǎn)線上,常規(guī)配置是1臺訓練機加N臺推理機,所以在工業(yè)的大規(guī)模部署過程中,最強的算力需求是推斷的算力。

現(xiàn)在的GPU有什么問題?這有一組舉例數(shù)據(jù),在Batch Size=1時,延時是5ms,吞吐率是191images/sec。GPU有一個特點,即它自身的利用率較低,所以需要采用大量數(shù)據(jù)同時輸入的方式提高利用率。在Batch Size=128時,即一次性輸入128張圖片時,吞吐率超過了1500images/sec,但延時達到了85ms。在工業(yè)領(lǐng)域,延時是一個非常嚴苛的指標,所以用延時換吞吐率的方式,在工業(yè)上是不可接受的,也就是說,這種算力對于很多工業(yè)場景而言是難以使用的。

其次是可靠性要求。工業(yè)的智能化還處于發(fā)展的初級階段,我們見到很多客戶將商業(yè)顯卡用在了工業(yè)環(huán)境中,其實這種穩(wěn)定性非常不可靠。我們見到很多工業(yè)推理機中準備了兩個商業(yè)顯卡,以此保障商業(yè)顯卡損壞后可以及時更換。其實,這不符合可靠性要求。

我們今天所面臨的挑戰(zhàn)主要有兩方面,一是有沒有足夠的算法能解決工業(yè)場景中的智能化問題,二是沒有足夠強、成本足夠低的算力,能夠解決實際需求,解決工業(yè)AI落地的最后一公里。

AI算力解決方案

這是鯤云科技所提供的算力解決方案。鯤云科技在6月剛剛量產(chǎn)了全球第一顆數(shù)據(jù)流AI芯片。其中有兩個核心指標,一是芯片的利用率高達95.4%。芯片利用率是指,芯片運行在實際場景中的實測性能與芯片峰值性能的比例。鯤云科技的這顆芯片,基本上可以把理論極限性能發(fā)揮出來,提供給用戶。二是它的工作溫度在-40℃至125℃,可以滿足所有工業(yè)現(xiàn)場的工業(yè)級的溫控和穩(wěn)定性要求。鯤云科技的星空加速卡X3可以滿足工業(yè)的各種要求,以及性價比的要求。

我們?yōu)槭裁匆獜娬{(diào)這是一顆數(shù)據(jù)流芯片,為什么說商業(yè)GPU或現(xiàn)有的GPU架構(gòu)難以滿足工業(yè)的要求?當我們用一顆AI芯片部署工業(yè)智能化的應(yīng)用時,我們需要的是實測算力,也就是算法運行時,需要多少延時才能輸出結(jié)果,而大部分GPU給到用戶的是標稱算力或峰值算力。芯片的峰值算力是用芯片計算單元數(shù)量乘以主頻,計算得到的物理極限。GPU通過推高這一物理極限來獲得更高的性能,這會帶來更大的面積、更大的功耗,更關(guān)鍵的是算力的成本會非常高。在工業(yè)領(lǐng)域最講究成本低、性能高,性價比非常關(guān)鍵,這也是目前商業(yè)顯卡或GPU面臨的一個問題。

數(shù)據(jù)流芯片走的是另一條道路,除了提升峰值算力之外,還有一條路是把現(xiàn)有的算力更好地發(fā)揮出來,用好存量。目前,GPU的芯片利用率只有10%~30%,如果想提升3倍性能,理論上有兩個方向,一是把芯片面積做大3倍,或用更好的工藝提升芯片的峰值算力。當然,這樣做理論上可以提升3倍性能,但實際上并不能提升3倍,因為這不是一個線性增長的過程。二是把利用率從10%提升到30%,或從30%提升到90%,把芯片的峰值性能發(fā)揮出來,這就是鯤云科技CAISA數(shù)據(jù)流架構(gòu)所做的事情。

國際上,做數(shù)據(jù)流芯片的公司有很多家,鯤云科技是第一家能夠量產(chǎn)數(shù)據(jù)流AI芯片的企業(yè)。指令集計算和定制數(shù)據(jù)流計算有什么區(qū)別?假設(shè)我們現(xiàn)在做一顆芯片,當然這是一個非常簡單的例子,支持一維的乘累加計算。任何計算芯片,支持目標算法要滿足兩個條件:第一,所有的計算單元都可以支持,在這個例子里,乘法和加法必須支持;第二,所有的乘法和加法,按照規(guī)定的次序進行計算,在這個例子中,要先算乘法再算加法。目前,市面上大部分AI芯片主要是走指令集的道路,即我們常說的馮·諾依曼架構(gòu)體系。簡單講,設(shè)計兩條指令,一條乘法指令,一條加法指令,如何保證計算次序?先運行乘法指令,再運行加法指令就可以了。但是這有一個劣勢,為了保證通用性,指令一定是切割成幾個步驟的,數(shù)據(jù)搬運、計算、數(shù)據(jù)搬出,所以在運行前面的乘法指令時,加法的計算單元一直在等待,等乘法計算完成之后,再將結(jié)果搬進來、計算、搬出。在這個例子中,我們放了一個乘法器、一個加法器,當我賣給你這顆芯片時,我會告訴你這顆芯片的峰值算力是10個周期可以計算10次乘法和10次加法,這是理論峰值性能。但在實際運行時,只能計算1次乘法和1次加法,利用率只有10%,這就是通用性的代價。大部分的時間實際是在搬運數(shù)據(jù),并沒有花在真正的計算上。

定制數(shù)據(jù)流計算是什么思路?定制數(shù)據(jù)流計算通過數(shù)據(jù)的流動次序來控制計算次序。這很像工廠流水線,如何控制工序A在工序B之前?讓工序A在流水線前端,工序B在流水線后端。在上述例子里,整個計算的“流水線”中,乘法器在前,加法器在后,數(shù)據(jù)就像工廠中的零部件一樣流過這條產(chǎn)線。這樣的話,一定是先算乘法,再算加法,這樣的話效率就會非常高,因為乘法和加法在每個周期都進行計算。

當然,這并不意味著定制數(shù)據(jù)流架構(gòu)一定比指令集架構(gòu)好,二者各有優(yōu)劣。如果你想要通用計算,你需要指令集架構(gòu)。如果你希望針對AI領(lǐng)域有限的AI算法,做一個定制化的架構(gòu),做一個AI的計算平臺,那么定制數(shù)據(jù)流架構(gòu)非常適合。

關(guān)于定制數(shù)據(jù)流CAISA架構(gòu),主要介紹兩點:第一,有各種各樣定制化的數(shù)據(jù)流的算子,通過流水線的網(wǎng)絡(luò)將其串接成不同的針對算法的流水線,通過流水線的方式保證高效率;第二,通過重構(gòu),不同的連接關(guān)系可以進行重構(gòu),形成不同的深度學習算法,可以保證通用性。通過更低的成本、更小的芯片面積實現(xiàn)更高的實測性能,這就是數(shù)據(jù)流AI芯片的價值。

我們還有專為CAISA架構(gòu)設(shè)計的RainBuilder編譯工具鏈,無縫鏈接TensorFlow、Caffe、PyTorch及ONNX等深度學習開發(fā)框架,支持C/C++的API。鯤云科技基于CAISA芯片、星空加速卡X3打造針對工業(yè)領(lǐng)域的算力平臺,解決算法落地的最后一公里問題,適配各種主流的AI服務(wù)器。

在工業(yè)智能領(lǐng)域,我們面臨很多挑戰(zhàn),一個核心的挑戰(zhàn)是人員不足。我們現(xiàn)在用什么解決這一挑戰(zhàn)?用深度學習算法,把以前人腦中的“know how”變成算法部署在現(xiàn)場。另外,我們采用鯤云科技自主研發(fā)的CAISA架構(gòu)芯片支持算法的部署,相對于傳統(tǒng)的GPU,它具有非常高的性價比、低延時、寬工作溫度,以及非常穩(wěn)定的工作狀態(tài),可以滿足工業(yè)環(huán)境中各種各樣的要求。

(本文根據(jù)鯤云科技創(chuàng)始人兼CEO牛昕宇在“2020世界計算機大會”上的演講整理而成,未經(jīng)演講人審閱)

猜你喜歡
數(shù)據(jù)流算力乘法
應(yīng)用數(shù)據(jù)流分析排除起動機不轉(zhuǎn)故障的研究
杭州“算力小鎮(zhèn)”
數(shù)據(jù)流和波形診斷技術(shù)在發(fā)動機故障診斷中的應(yīng)用
智能計算浪潮迭起
邊緣計算與算力網(wǎng)絡(luò)專題導讀
《整式的乘法與因式分解》鞏固練習
計算萬物 算力之下要有堅實的地基
數(shù)據(jù)流安全查詢技術(shù)綜述
關(guān)于線性變換乘法與矩陣乘法
利用數(shù)據(jù)流進行電控故障診斷的案例分析
美姑县| 扎赉特旗| 铜梁县| 嘉鱼县| 桐乡市| 右玉县| 中方县| 西吉县| 巴东县| 华池县| 柳州市| 伊金霍洛旗| 共和县| 遂昌县| 西畴县| 镇安县| 囊谦县| 湟源县| 西宁市| 甘孜县| 射洪县| 岳阳县| 安阳县| 德惠市| 泾源县| 安化县| 乐平市| 石景山区| 图木舒克市| 沧州市| 钦州市| 朝阳县| 鹤峰县| 游戏| 庐江县| 祥云县| 沁源县| 金门县| 木兰县| 蛟河市| 祁连县|