本刊記者/曹素妨 實(shí)習(xí)記者/劉文清
?
“解碼”視頻:人工智能走向智能
本刊記者/曹素妨 實(shí)習(xí)記者/劉文清
摘 要:人工智能在近兩年異?;钴S,認(rèn)知計(jì)算、深度學(xué)習(xí)、大數(shù)據(jù)等新的理念和技術(shù)層出不窮。人工智能會(huì)往類人方向發(fā)展,到了一定階段機(jī)器人也會(huì)有自我、認(rèn)知以及創(chuàng)造。機(jī)器如果想要真正實(shí)現(xiàn)智能,還需要從仿生物的方向研究。
關(guān)鍵詞:人工智能;視頻;解碼
黃鐵軍:北京大學(xué)信息科學(xué)技術(shù)學(xué)院計(jì)算機(jī)科學(xué)技術(shù)系主任,數(shù)字媒體研究所所長(zhǎng),數(shù)字視頻編解碼技術(shù)國(guó)家工程實(shí)驗(yàn)室副主任,兼任國(guó)家數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組(AVS)和 AVS產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟秘書長(zhǎng)。
“人工智能在近兩年異?;钴S,認(rèn)知計(jì)算、深度學(xué)習(xí)、大數(shù)據(jù)等新的理念和技術(shù)層出不窮,但機(jī)器真的實(shí)現(xiàn)智能了嗎?黃鐵軍認(rèn)為,人工智能與視頻的“碰撞”開辟了人工智能的全新方向?!?/p>
人工智能,經(jīng)歷了2015年的躁動(dòng) 、進(jìn)化,2016年,是時(shí)候開個(gè)好頭了。
而數(shù)字視頻,從躍躍欲試到競(jìng)相追逐,從布局到深耕,似乎從來(lái)就沒(méi)離開過(guò)人工智能,
那么,這背后的秘密到底是什么?
行業(yè)專家如何“解碼”視頻?
3·25,由新華網(wǎng)融媒體未來(lái)研究院和數(shù)字視頻產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟主辦,《中國(guó)傳媒科技》雜志社承辦,繁星戲劇村、EMC(易安信)公司、上海星紅桉數(shù)據(jù)科技有限公司聯(lián)合主辦的主題沙龍——當(dāng)視頻遇見人工智能,邀請(qǐng)到了業(yè)內(nèi)專家探討視頻行業(yè)人工智能應(yīng)用的現(xiàn)狀,問(wèn)題、機(jī)遇與前景,“解碼”視頻。
針對(duì)人工智能與視頻的碰撞黃鐵軍有自己的看法,他說(shuō),智能和視頻從來(lái)都是不可分的。智能來(lái)自于感覺,而人類的感覺有2/3來(lái)自于視覺,人類獲取的信息70%是通過(guò)眼睛獲得的,我們想問(wèn)題的時(shí)候,經(jīng)常有空間感、抽象感,這些詞的用法最終都能夠在視覺里找到它的來(lái)源,因此沒(méi)有視覺就不可能產(chǎn)生感覺,智能也無(wú)從談起。
他還提到,人類的視皮層占大腦皮層的約1/5,視覺作為生物體最基本的功能對(duì)計(jì)算機(jī)來(lái)說(shuō)卻是弱項(xiàng),但是機(jī)器視覺一直是廣義人工智能的重要部分,因此,視覺絕不僅僅是智能的一部分,而是智能的來(lái)源。人工智能這個(gè)概念被提出的時(shí)候,大家所關(guān)心的都是計(jì)算機(jī)能夠做到人不能做到的,例如計(jì)算、推理和記憶,但黃鐵軍則認(rèn)為這些只是一些高級(jí)的功能,跟人的本能還相差甚遠(yuǎn),不能算作智能。
“比如大家說(shuō)阿爾法狗有布局的能力很厲害,其實(shí)背后的模型并不復(fù)雜,我們把今天人工智能叫做智能模型驅(qū)動(dòng),模型是人設(shè)定的,知識(shí)則來(lái)源于大量的數(shù)據(jù),作為技術(shù)人員,我們?cè)O(shè)計(jì)模型,在模型上裝載數(shù)據(jù)然后讓機(jī)器學(xué)習(xí)。但我們看一個(gè)棋局,很快就知道這樣的布局是否合理,所以今天的人工智能跟生物的智能相比還差很遠(yuǎn)?!睂?duì)此,他做了進(jìn)一步解釋:“人工智能的發(fā)展過(guò)程和人的進(jìn)化過(guò)程正好是相反的,人工智能一開始就在做所謂的高級(jí)計(jì)算、數(shù)據(jù)分析、記憶等功能,其實(shí)這些功能都是比較容易形式化的,但是自我、認(rèn)知、情緒等功能都是很難形式化的,也是難以模擬的。目前的機(jī)器不具備這種條件,因此也不可能產(chǎn)生類人類的智能。”
盡管如此,黃鐵軍也認(rèn)為人工智能不會(huì)永遠(yuǎn)受制于此,而是會(huì)往類人方向發(fā)展,到了一定階段機(jī)器人也會(huì)有自我、認(rèn)知以及創(chuàng)造。他認(rèn)為,在人工智能發(fā)展的過(guò)程中,除了像阿爾法狗那樣的棋局的數(shù)據(jù)輸入以外,傳感網(wǎng)絡(luò)、物聯(lián)網(wǎng)、環(huán)境的刺激等,能夠讓一個(gè)機(jī)器人在環(huán)境里探索,并獲得類似于生物進(jìn)化一樣的條件,產(chǎn)生新的本能。他預(yù)言第一代具有自我意識(shí)的機(jī)器將會(huì)是仿照人腦結(jié)構(gòu)的。
“騙過(guò)人眼是視頻技術(shù)所追求的目標(biāo)?!秉S鐵軍坦言道。最早照相需要8個(gè)小時(shí),發(fā)展到現(xiàn)在脫離了膠卷,相片即拍即成;最早的電影是12幀/秒,而人眼對(duì)運(yùn)動(dòng)感知程度要到20幾輪才能顯現(xiàn),現(xiàn)在的電影已經(jīng)是符合人眼感知的高幀率電影,所以,這些技術(shù)都在逐漸接近人的眼睛。
黃鐵軍提到,電視視頻技術(shù)的發(fā)展也在欺騙我們的眼睛。首先電視視頻的清晰度在不斷提高,因?yàn)槿祟愌劬χ杏?00萬(wàn)個(gè)色彩感知細(xì)胞,亮度有1億多像素,所以人眼是高度清晰的,而現(xiàn)在的顯示技術(shù)已經(jīng)超過(guò)人眼標(biāo)準(zhǔn)。其次是刷新速度,目前生產(chǎn)出的4K電視,刷新速度在50幀/秒,比以前的25幀/秒提高了一倍。但是,100幀/秒左右的速度才能讓人眼將事物判斷為真實(shí)事物,因此,我們也可以推測(cè)將來(lái)的8K電視有可能到120幀/秒。
對(duì)于視頻技術(shù)的發(fā)展,黃鐵軍表示非常看好,但是他也提到,在視頻傳播方面,視頻的壓縮是一個(gè)難題。目前人們通過(guò)高清電視播放視頻,高清電視如果純粹采集完之后,是每秒1.5Gbps,需要對(duì)視頻進(jìn)行編碼,將1.5Gbps的數(shù)據(jù)壓縮為幾兆,方便大家通過(guò)網(wǎng)絡(luò)或廣播電視等方法傳播視頻。
黃鐵軍提到,壓縮視頻的技術(shù)純粹作為數(shù)字視頻技術(shù)已經(jīng)做了60多年,標(biāo)準(zhǔn)也已經(jīng)做了30 余年。只有技術(shù)是不夠的,沒(méi)有標(biāo)準(zhǔn)會(huì)產(chǎn)生許多問(wèn)題,沒(méi)有自己的標(biāo)準(zhǔn),就要花錢去買別人的標(biāo)準(zhǔn)。比如視頻,如果用最新的標(biāo)準(zhǔn),封頂費(fèi)要交2500萬(wàn)美元。而且這只是單專利權(quán)的標(biāo)準(zhǔn),所以編碼視頻表面是一個(gè)技術(shù),但是背后也存在著經(jīng)濟(jì)問(wèn)題。所以中國(guó)從2002年就開始組織做自己的標(biāo)準(zhǔn),2006年發(fā)布了第一代標(biāo)準(zhǔn),現(xiàn)在中國(guó)2/3的高清頻道已經(jīng)切換成中國(guó)標(biāo)準(zhǔn)在傳輸,中國(guó)視頻體系已經(jīng)切換成中國(guó)標(biāo)準(zhǔn),節(jié)約了大量專利費(fèi)用。
黃鐵軍還提到,視頻不僅是電視,還包括視頻監(jiān)控。在視頻監(jiān)控方面,中國(guó)標(biāo)準(zhǔn)比國(guó)際標(biāo)準(zhǔn)的效率還要高一倍,這一點(diǎn)全世界只有中國(guó)能夠做到。他表明,2020年中國(guó)將完成高清視頻監(jiān)控從標(biāo)清到高清的切換,而且將不會(huì)存在技術(shù)難點(diǎn)。從這一角度,黃鐵軍非常看好視頻技術(shù)的發(fā)展。
黃鐵軍提到一組數(shù)據(jù),現(xiàn)在視頻占互聯(lián)網(wǎng)流量的90%,推動(dòng)了全球數(shù)據(jù)總量的高速增長(zhǎng),在十年之內(nèi),全球數(shù)據(jù)量將增長(zhǎng)50倍,視頻將占比最多。按照國(guó)家發(fā)改委的規(guī)劃,到2020年,視頻將全部高清化、連網(wǎng)化,那么視頻所需占用的存儲(chǔ)空間是巨大的,所以對(duì)于挖掘視頻內(nèi)容的需求也是巨大的。在中國(guó),每個(gè)省的攝像頭約有100萬(wàn)個(gè),到2020年還將持續(xù)增長(zhǎng),但每個(gè)省全部警種的視頻分析人員不超過(guò)10萬(wàn)個(gè),所以未來(lái)視頻的處理分析一定是機(jī)器來(lái)完成,而非人類。
近年來(lái)基于深度學(xué)習(xí)的技術(shù)成果不斷呈現(xiàn),但是這是大數(shù)據(jù)訓(xùn)練出來(lái)的結(jié)果,需要人來(lái)設(shè)計(jì)模型,基于大量的數(shù)據(jù),才具有檢測(cè)識(shí)別對(duì)象的功能,比人眼還要差很多。賦予機(jī)器真正的智能需要避免被常規(guī)概念錯(cuò)誤引導(dǎo),回歸人類生物功能的方向。
對(duì)此他解釋道:“現(xiàn)在人們對(duì)視頻的理解只是為滿足媒體產(chǎn)業(yè)發(fā)展需要所定義的概念。比如‘幀’這個(gè)概念,是利用了人眼對(duì)頻率的識(shí)別,使人50毫秒之內(nèi)保留對(duì)視頻畫面的印象。但是從生物視覺上講,我們的大腦之所以能夠從復(fù)雜的環(huán)境里分辨人的動(dòng)作,是因?yàn)橐暰W(wǎng)膜接收連續(xù)的光子撞擊,神經(jīng)節(jié)細(xì)胞接收到足夠刺激后發(fā)放脈沖,脈沖序列傳送給大腦,使得大腦產(chǎn)生連續(xù)的印象,而非每秒30幀、50幀。所以傳統(tǒng)視頻輸入的方法,不一定適用于人工智能?!?/p>
所以,機(jī)器如果想要真正實(shí)現(xiàn)智能,還需要從仿生物的方向研究,人們應(yīng)該弄清楚眼睛發(fā)放脈沖是如何將信息編碼傳送給大腦的。
提到進(jìn)展,黃鐵軍表示目前可以通過(guò)高速攝像機(jī)記錄脈沖發(fā)放過(guò)程,并由發(fā)放過(guò)程還原影像。雖然只能察覺畫面有一些變化,還遠(yuǎn)遠(yuǎn)不足以掌握精確的解碼過(guò)程,但是脈沖的發(fā)放已經(jīng)有一些規(guī)律性的東西出現(xiàn)了,相信機(jī)器將會(huì)真正實(shí)現(xiàn)智能。