清華教授溫江濤：后摩爾時(shí)代的視覺感知應(yīng)回歸能耗

2019-04-01 15:15張靜

海外星云 2019年23期

張靜

溫江濤在演講

“我們現(xiàn)在已經(jīng)進(jìn)入到了一個(gè)面向特定域設(shè)計(jì)架構(gòu)的時(shí)代，現(xiàn)在最大的限制因素就是能耗，我們需要提出一系列新的理論指導(dǎo)下的算法，針對(duì)特定應(yīng)用領(lǐng)域，面向應(yīng)用和算法設(shè)計(jì)架構(gòu)，面向應(yīng)用和架構(gòu)設(shè)計(jì)算法，思考怎么可以更高效地感知、處理我們獲得的數(shù)據(jù)?！便K巖科技CEO溫江濤在峰會(huì)上表示。

溫江濤于2012年回到學(xué)術(shù)界后僅僅3年即當(dāng)選國際知名學(xué)會(huì)IEEE Fellow，是當(dāng)時(shí)中國大陸最年輕的當(dāng)選者。他現(xiàn)任清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長(zhǎng)聘正教授，同時(shí)也是媒體與網(wǎng)絡(luò)技術(shù)教育部———微軟重點(diǎn)實(shí)驗(yàn)室聯(lián)合主任。

需要提到的是，他于21世紀(jì)初在美國從事視頻編碼、多媒體通信等相關(guān)的研究和標(biāo)準(zhǔn)制定工作，曾有多個(gè)專利被國際標(biāo)準(zhǔn)采用。他作為共同創(chuàng)始人，主要技術(shù)負(fù)責(zé)人和天使投資人也參與創(chuàng)辦了多家公司，先后被Dell、Facebook等上市公司收購，產(chǎn)品在世界各地廣泛應(yīng)用，包括三星、華為、阿里巴巴、谷歌等公司都在使用他設(shè)計(jì)實(shí)施的產(chǎn)品。

他在大會(huì)上以《摩爾定律之后的視覺感知》為題發(fā)表了演講，他認(rèn)為現(xiàn)在正處在3個(gè)趨勢(shì)的交匯期：無處不在的視頻和視覺應(yīng)用;摩爾定律和登納德縮放效應(yīng)的終結(jié);倫理和隱私問題。他認(rèn)為，相機(jī)的分辨率、處理器能力、AI算力已遇瓶頸，而能耗更是最終的限制因素。

既使用我們能設(shè)想的最先進(jìn)的理想半導(dǎo)體技術(shù)，要實(shí)現(xiàn)類似生物大腦的信息處理能力也需要10兆瓦的能耗，但是生物大腦的能耗不過10瓦，這里面有1000000：1的差距。如果要把視覺數(shù)據(jù)通過網(wǎng)絡(luò)傳輸?shù)脑挘臅?huì)更大若干的數(shù)量級(jí)，而且延時(shí)對(duì)很多應(yīng)用來講不能接受。

所以人們希望可以通過AI處理器來解決這樣的問題，比如華為和英偉達(dá)等公司，它們希望可以讓攝像頭更智能，避免攝像頭和云服務(wù)器之間的數(shù)據(jù)傳輸，并且處理視覺信息比傳統(tǒng)通用服務(wù)器更有效率。

除了數(shù)據(jù)在芯片上和芯片外、網(wǎng)絡(luò)中的傳輸，現(xiàn)有體系對(duì)于視覺信號(hào)的表示和處理的效率也不是很高。人類大腦可以通過各種方式直接實(shí)現(xiàn)非線性處理，但是機(jī)器只能處理0和1這樣的二進(jìn)制數(shù)據(jù)，需要用很多門電路才能完成對(duì)復(fù)雜邏輯和函數(shù)的模擬。這在很大程度上也限制了效率。因此有公司希望通過開發(fā)不同線路來模擬人類大腦功能，有一些致力于開發(fā)神經(jīng)芯片，通過監(jiān)控神經(jīng)元的突起開發(fā)出深度學(xué)習(xí)的算法并集成到線路中。

而在下一代“視覺感知”技術(shù)中，溫江濤認(rèn)為“會(huì)有這樣一種新的陣列，它的耗能是非常低的，而且整體延遲率非常低，并且可以具有學(xué)習(xí)能力，可以進(jìn)行不斷的自我演進(jìn)，這是后摩爾定律和登納德縮放效應(yīng)時(shí)代視覺處理的必由之路?！?/p>

他把這類視覺處理器架構(gòu)稱為VPU，VPU（Visual Perception Unit，視覺感知單元）可以以極低的功耗和延時(shí)，更好地完成感知、追蹤和識(shí)別等基本視覺任務(wù)。

能耗1000000：1

VPU直接利用光子的數(shù)據(jù)，低功耗低延遲實(shí)現(xiàn)追蹤等基礎(chǔ)視覺任務(wù)

傳統(tǒng)的效果是把光子信息通過光電轉(zhuǎn)換和復(fù)雜的信號(hào)處理重建為一系列數(shù)據(jù)量巨大的高清晰度像素點(diǎn)陣序列信息。這些信息再通過通用或者專用處理器處理，中間涉及大量的無效計(jì)算和數(shù)據(jù)傳輸，并且為了完成數(shù)據(jù)傳輸，需要壓縮、解壓縮等復(fù)雜處理。而VPU可以直接感知光子，不需要通過視頻序列的重建就可以直接完成視覺任務(wù)，從而在根本上實(shí)現(xiàn)現(xiàn)有體系無法達(dá)到的功耗、延時(shí)和處理性能。

生物視覺的另外一個(gè)特征是大量不同類型的視覺細(xì)胞（比如人類就有兩種）甚至復(fù)眼系統(tǒng)的信息融合，以達(dá)到更寬廣的視野和更好的感知能力。VPU架構(gòu)也需要把不同的信息融合在一起，還需要考慮兼容性、同步、異步、可靠性等等問題。這個(gè)融合可以在芯片內(nèi)完成，也可以在芯片外完成，甚至可以通過攝像頭陣列來實(shí)現(xiàn)。

因?yàn)榇罅康母兄獑卧\(yùn)行著一系列隨機(jī)的任務(wù)，為了能更好地配置資源，必須要高效建模，然后實(shí)時(shí)動(dòng)態(tài)地對(duì)數(shù)以萬計(jì)的處理資源做優(yōu)化的分配。這一核心技術(shù)也可以用在英特爾CPU這樣的通用處理器上，實(shí)現(xiàn)諸如實(shí)時(shí)、低延時(shí)、高廣播級(jí)超高清視頻編碼這樣對(duì)計(jì)算資源和數(shù)據(jù)吞吐率有極高要求的應(yīng)用。

溫江濤的團(tuán)隊(duì)今年在世界上首次實(shí)現(xiàn)了廣播級(jí)8K+5G的實(shí)時(shí)轉(zhuǎn)播，在諸如男籃世界杯比賽，新華社國慶70周年慶祝活動(dòng)24小時(shí)直播得到了應(yīng)用。

同時(shí)，溫江濤和團(tuán)隊(duì)也在和內(nèi)容制作商探討，把這項(xiàng)技術(shù)更好地運(yùn)用在體育、音樂等領(lǐng)域。“我們希望能夠搭建起一個(gè)生態(tài)系統(tǒng)，更好地建立面向下一代的視頻技術(shù)。”

問：從廣播電視一直到網(wǎng)絡(luò)數(shù)字圖象發(fā)展非常速度快，現(xiàn)在已經(jīng)到4K、8K、16K，你怎么評(píng)價(jià)這種趨勢(shì)？

溫江濤：首先肯定是很快，我覺得最核心的幾個(gè)要素現(xiàn)在已經(jīng)具備了：首先是帶寬，其次現(xiàn)在比較流行的一些短視頻軟件都允許用戶直接在手機(jī)上進(jìn)行編輯編碼，從而大大提到用戶生成內(nèi)容的觀賞價(jià)值。

但是這里有一個(gè)非常重要的問題，今天給人看的和給機(jī)器看的視頻是沒有區(qū)別的。今天拍攝到的絕大部分內(nèi)容可能是永遠(yuǎn)不會(huì)有人看的，比如城市監(jiān)控這些視頻，除非調(diào)出來，出事的時(shí)候才會(huì)有人看。而有更多的攝像機(jī)永遠(yuǎn)都不會(huì)被接到顯示器上去。

在將來，視頻的應(yīng)用是無處不在的。我們希望被人看的視頻能越來越清晰，而除了娛樂以外，針對(duì)機(jī)器看的東西希望能開始重新設(shè)計(jì)一套機(jī)理讓它廣泛應(yīng)用起來，在一些用很復(fù)雜的傳感器來解決問題的地方，可以用視頻來解決。但是最核心的東西，一個(gè)是成本，一個(gè)是功耗。

溫江濤接受采訪

問：你演講里提到的1000000：1等等比例，是不是主要指的就是能耗？怎么去理解視覺感知正處在三種趨勢(shì)的交匯期？

溫江濤：對(duì)，主要是能耗和它計(jì)算的效率。某種程度上我不像有些專家對(duì)人工智能那么歡欣雀躍或者憂心忡忡。比如下棋下過人類，這個(gè)事情固然了不起，但是首先，它是針對(duì)一類特定的問題;這類問題都是人發(fā)明出來為難我們自己的，人工智能系統(tǒng)采用眾多的服務(wù)器恨不得后面有一個(gè)核電站給這類機(jī)器供電。柯潔、李世石早上隨便吃了點(diǎn)就來跟你下，所以我覺得人的效率的高的不得了。

而伴隨著摩爾定律和登納德縮放效應(yīng)的終結(jié)，現(xiàn)有計(jì)算機(jī)處理能力既使采用針對(duì)應(yīng)用的架構(gòu)設(shè)計(jì)也很難有摩爾定律時(shí)代的10000：1甚至1000000：1的飛躍，能耗更是越來越高，所以我們必須找到下一個(gè)10000：1飛躍的方向。我覺得最根本的東西，未來是能量受限的。在這種情況下，真正的人工智能不是用機(jī)器去挑戰(zhàn)一個(gè)什么樣的功能，或許是合成一個(gè)什么樣的“器官”，用兩碗豆?jié){就可以支撐完成一些任務(wù)。現(xiàn)在提到的很多機(jī)器人和人工智能可能沒有關(guān)系。所以未來的話，最核心的東西不一定在電化學(xué)機(jī)理上仿真，但至少從它的系統(tǒng)設(shè)計(jì)的思想和概念上去仿真。

問：今天很多的人工智能的應(yīng)用其實(shí)只要是涉及到人的一些基本功能的，其實(shí)相當(dāng)復(fù)雜，視覺只是其中之一。有人在從機(jī)理上做生物芯片，試圖模擬電化學(xué)反應(yīng)過程或者電信號(hào)處理過程。但是我們現(xiàn)在想的是如何從邏輯上模擬大腦的過程，空氣中有溫度、觸覺等等刺激，大腦是如何將之過濾掉并呈現(xiàn)出視覺表象的？

溫江濤：大腦中間的每一個(gè)腦細(xì)胞，可能都是不太可靠的。但是大量的東西結(jié)合在一起就變得可靠了，我們希望這些東西能解決一些問題，如果大量部署，那么就會(huì)非常便宜而且非常低功耗?？赡芗す饫走_(dá)要賣2 萬美元，而這個(gè)東西只賣25美分，但是我們可以放在很多地方。比如讓老人用的輪椅具有避障等安全功能，如果在輪椅上裝激光雷達(dá)那成本太高，我們可以裝很多小的、便宜的攝像頭。

我希望在價(jià)格、功耗、延時(shí)和性能之間做一個(gè)權(quán)衡取舍。一些不需要高精度的地方以成本和功耗為主，不斷再去提升性能。隱私方面，比如我想在停車場(chǎng)拍車牌，除了拍到車牌以外，還會(huì)拍到其他那些東西，比如駕駛員的臉之類的，這就涉及到隱私問題。假如我做一個(gè)攝像機(jī)，它唯一的功能就是識(shí)別車牌。那么，這個(gè)攝像機(jī)可以抓拍任何地方，大家覺得很安全，不怕被泄漏隱私。

問：除了在輪椅上以外，你設(shè)想的產(chǎn)品還會(huì)用在哪些領(lǐng)域？

溫江濤：一些低速的機(jī)器人，比如倉庫里面的，它有一個(gè)基本固定的路線，不需要走很快，但是這過程中可能有東西掉下來，周邊的工人需要躲避等等場(chǎng)景。

這樣的一些環(huán)境是可以很快應(yīng)用的，假如成本做得很便宜的話，我們可以裝很多，它協(xié)同工作的時(shí)候會(huì)很可靠，同時(shí)這堆東西的出錯(cuò)概率非常低。

問：這個(gè)思路有沒有別人也想出來或者他們正在做的？

溫江濤：針對(duì)人類視覺的想法有很多探索，但是我們這樣定義視覺感知單元（VisualPerception Unit），而不是視頻處理單元（VideoProcessing Unit），或者人工智能芯片，應(yīng)該是沒有了。這是由應(yīng)用需求、技術(shù)發(fā)展兩者的綜合效應(yīng)決定的一個(gè)可能是最有效的方式。我們的輸入是vision，不是先將其重建為video. 目標(biāo)是perception，也不是處理。事實(shí)上現(xiàn)有很多神經(jīng)芯片用模擬電路仿真深度學(xué)習(xí)的一些方法，由于架構(gòu)和算法脫節(jié)，可能不會(huì)實(shí)現(xiàn)非常理想的效果。

問：5G對(duì)視覺感知領(lǐng)域會(huì)帶來什么影響？

溫江濤：因?yàn)?G帶來了對(duì)消耗帶寬的需求，所以8K今年得到了及其大的重視。我們做了世界杯男籃的轉(zhuǎn)播，國慶的時(shí)候我們做了新華社24小時(shí)的直播。8K 超高清視頻通過5G現(xiàn)網(wǎng)實(shí)現(xiàn)直播，這是世界首次，我們也非常榮幸能和上下游的合作伙伴一起實(shí)現(xiàn)這些世界第一。

另外一些5G的物聯(lián)網(wǎng)或者機(jī)器人的應(yīng)用可能要到明年或者更晚一些。目前來看，普通消費(fèi)者可能感覺不到4K、8K、16K的區(qū)別，但是有幾個(gè)地方是需要的：安防領(lǐng)域，攝像頭的位置和數(shù)量是有限制的，很多裝的非常遠(yuǎn)，在建筑物頂上，又要看到很寬的范圍，這就需要超高清晰度，這是8K、16K的硬需求，甚至這些都還是不夠的，可能需要十億像素級(jí)別的分辨率;第二個(gè)是體育領(lǐng)域，在轉(zhuǎn)播中因?yàn)槭軝C(jī)位限制，無法設(shè)置過多的4K 相機(jī)，而在一個(gè)大的場(chǎng)景里用8K去拍，不用剪來剪去，大分辨率可以支持自動(dòng)剪裁，不需要增加成本和效率。

問：技術(shù)本身有沒有一些挑戰(zhàn)和瓶頸？FPGA是不是一個(gè)有效的方案？

溫江濤：最大的瓶頸在于資源的調(diào)度和高性能的計(jì)算，還有一個(gè)是數(shù)據(jù)的傳輸，這些都是要?jiǎng)討B(tài)控制的，是挺難的事情。

FPGA有一點(diǎn)兒像CPU和GPU中間的一種，可以用一些硬件的辦法去優(yōu)化一些核心的處理能力。這一類東西適合在今天人工智能里面做深度學(xué)習(xí)的訓(xùn)練。但是對(duì)視頻來講，輸入沒有辦法把它做得很規(guī)整，所以它并不適合做很多的視頻處理。

我認(rèn)為你只要同意視頻未來有重大的需求，CPU和GPU會(huì)遇到巨大的瓶頸，一定會(huì)有新的架構(gòu)出現(xiàn)才可以。

問：你在美國工作有十多年了，有很多專利被采用，包括在UCLA里面最大的專利授權(quán)協(xié)議。能不能談一下你是如何推動(dòng)些學(xué)術(shù)研究落地的？

溫江濤：實(shí)際上今天去看那些發(fā)明，不是在做了科學(xué)研究或者理論之后，再想這個(gè)東西可以在什么地方用。假如你真正很厲害的話，需要先找到要解決哪一些問題，然后再一一去找解決方案。為什么有些研究不太能落地，就是因?yàn)樽隽艘恍┎恍枰某橄?，解決了一些其實(shí)不需要解決的問題。

麻省理工學(xué)院Bob Gallager教授說過，做教授最基本的職責(zé)是幫助學(xué)生去找到一個(gè)最簡(jiǎn)單的沒解決的問題，我覺得這里每一個(gè)都是關(guān)鍵詞。

所謂硬核的科技，這些東西需要一定的流程和培育方式，一些方式不光是在課本里。我覺得目前中國對(duì)硬核科技或者是真正有價(jià)值的技術(shù)的認(rèn)識(shí)在不斷改變。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

清華教授溫江濤：后摩爾時(shí)代的視覺感知應(yīng)回歸能耗