“解碼”視頻：人工智能走向智能

2016-06-22 09:25:53曹素妨劉文清

中國(guó)傳媒科技 2016年4期

本刊記者/曹素妨實(shí)習(xí)記者/劉文清

“解碼”視頻：人工智能走向智能

本刊記者/曹素妨實(shí)習(xí)記者/劉文清

摘要：人工智能在近兩年異?；钴S，認(rèn)知計(jì)算、深度學(xué)習(xí)、大數(shù)據(jù)等新的理念和技術(shù)層出不窮。人工智能會(huì)往類人方向發(fā)展，到了一定階段機(jī)器人也會(huì)有自我、認(rèn)知以及創(chuàng)造。機(jī)器如果想要真正實(shí)現(xiàn)智能，還需要從仿生物的方向研究。

關(guān)鍵詞：人工智能；視頻；解碼

黃鐵軍：北京大學(xué)信息科學(xué)技術(shù)學(xué)院計(jì)算機(jī)科學(xué)技術(shù)系主任，數(shù)字媒體研究所所長(zhǎng)，數(shù)字視頻編解碼技術(shù)國(guó)家工程實(shí)驗(yàn)室副主任，兼任國(guó)家數(shù)字音視頻編解碼技術(shù)標(biāo)準(zhǔn)工作組（AVS）和 AVS產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟秘書長(zhǎng)。

“人工智能在近兩年異?；钴S，認(rèn)知計(jì)算、深度學(xué)習(xí)、大數(shù)據(jù)等新的理念和技術(shù)層出不窮，但機(jī)器真的實(shí)現(xiàn)智能了嗎？黃鐵軍認(rèn)為，人工智能與視頻的“碰撞”開辟了人工智能的全新方向?！?/p>

人工智能，經(jīng)歷了2015年的躁動(dòng) 、進(jìn)化，2016年，是時(shí)候開個(gè)好頭了。

而數(shù)字視頻，從躍躍欲試到競(jìng)相追逐，從布局到深耕，似乎從來(lái)就沒(méi)離開過(guò)人工智能，

那么，這背后的秘密到底是什么？

行業(yè)專家如何“解碼”視頻？

3·25，由新華網(wǎng)融媒體未來(lái)研究院和數(shù)字視頻產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略聯(lián)盟主辦，《中國(guó)傳媒科技》雜志社承辦，繁星戲劇村、EMC（易安信）公司、上海星紅桉數(shù)據(jù)科技有限公司聯(lián)合主辦的主題沙龍——當(dāng)視頻遇見人工智能，邀請(qǐng)到了業(yè)內(nèi)專家探討視頻行業(yè)人工智能應(yīng)用的現(xiàn)狀，問(wèn)題、機(jī)遇與前景，“解碼”視頻。

人工智能到真正智能的路途依然遙遠(yuǎn)

針對(duì)人工智能與視頻的碰撞黃鐵軍有自己的看法，他說(shuō)，智能和視頻從來(lái)都是不可分的。智能來(lái)自于感覺，而人類的感覺有2/3來(lái)自于視覺，人類獲取的信息70%是通過(guò)眼睛獲得的，我們想問(wèn)題的時(shí)候，經(jīng)常有空間感、抽象感，這些詞的用法最終都能夠在視覺里找到它的來(lái)源，因此沒(méi)有視覺就不可能產(chǎn)生感覺，智能也無(wú)從談起。

他還提到，人類的視皮層占大腦皮層的約1/5，視覺作為生物體最基本的功能對(duì)計(jì)算機(jī)來(lái)說(shuō)卻是弱項(xiàng)，但是機(jī)器視覺一直是廣義人工智能的重要部分，因此，視覺絕不僅僅是智能的一部分，而是智能的來(lái)源。人工智能這個(gè)概念被提出的時(shí)候，大家所關(guān)心的都是計(jì)算機(jī)能夠做到人不能做到的，例如計(jì)算、推理和記憶，但黃鐵軍則認(rèn)為這些只是一些高級(jí)的功能，跟人的本能還相差甚遠(yuǎn)，不能算作智能。

“比如大家說(shuō)阿爾法狗有布局的能力很厲害，其實(shí)背后的模型并不復(fù)雜，我們把今天人工智能叫做智能模型驅(qū)動(dòng)，模型是人設(shè)定的，知識(shí)則來(lái)源于大量的數(shù)據(jù)，作為技術(shù)人員，我們?cè)O(shè)計(jì)模型，在模型上裝載數(shù)據(jù)然后讓機(jī)器學(xué)習(xí)。但我們看一個(gè)棋局，很快就知道這樣的布局是否合理，所以今天的人工智能跟生物的智能相比還差很遠(yuǎn)?！睂?duì)此，他做了進(jìn)一步解釋：“人工智能的發(fā)展過(guò)程和人的進(jìn)化過(guò)程正好是相反的，人工智能一開始就在做所謂的高級(jí)計(jì)算、數(shù)據(jù)分析、記憶等功能，其實(shí)這些功能都是比較容易形式化的，但是自我、認(rèn)知、情緒等功能都是很難形式化的，也是難以模擬的。目前的機(jī)器不具備這種條件，因此也不可能產(chǎn)生類人類的智能。”

盡管如此，黃鐵軍也認(rèn)為人工智能不會(huì)永遠(yuǎn)受制于此，而是會(huì)往類人方向發(fā)展，到了一定階段機(jī)器人也會(huì)有自我、認(rèn)知以及創(chuàng)造。他認(rèn)為，在人工智能發(fā)展的過(guò)程中，除了像阿爾法狗那樣的棋局的數(shù)據(jù)輸入以外，傳感網(wǎng)絡(luò)、物聯(lián)網(wǎng)、環(huán)境的刺激等，能夠讓一個(gè)機(jī)器人在環(huán)境里探索，并獲得類似于生物進(jìn)化一樣的條件，產(chǎn)生新的本能。他預(yù)言第一代具有自我意識(shí)的機(jī)器將會(huì)是仿照人腦結(jié)構(gòu)的。

視頻將很快超越人眼標(biāo)準(zhǔn)

“騙過(guò)人眼是視頻技術(shù)所追求的目標(biāo)?！秉S鐵軍坦言道。最早照相需要8個(gè)小時(shí)，發(fā)展到現(xiàn)在脫離了膠卷，相片即拍即成；最早的電影是12幀/秒，而人眼對(duì)運(yùn)動(dòng)感知程度要到20幾輪才能顯現(xiàn)，現(xiàn)在的電影已經(jīng)是符合人眼感知的高幀率電影，所以，這些技術(shù)都在逐漸接近人的眼睛。

黃鐵軍提到，電視視頻技術(shù)的發(fā)展也在欺騙我們的眼睛。首先電視視頻的清晰度在不斷提高，因?yàn)槿祟愌劬χ杏?00萬(wàn)個(gè)色彩感知細(xì)胞，亮度有1億多像素，所以人眼是高度清晰的，而現(xiàn)在的顯示技術(shù)已經(jīng)超過(guò)人眼標(biāo)準(zhǔn)。其次是刷新速度，目前生產(chǎn)出的4K電視，刷新速度在50幀/秒，比以前的25幀/秒提高了一倍。但是，100幀/秒左右的速度才能讓人眼將事物判斷為真實(shí)事物，因此，我們也可以推測(cè)將來(lái)的8K電視有可能到120幀/秒。

對(duì)于視頻技術(shù)的發(fā)展，黃鐵軍表示非常看好，但是他也提到，在視頻傳播方面，視頻的壓縮是一個(gè)難題。目前人們通過(guò)高清電視播放視頻，高清電視如果純粹采集完之后，是每秒1.5Gbps，需要對(duì)視頻進(jìn)行編碼，將1.5Gbps的數(shù)據(jù)壓縮為幾兆，方便大家通過(guò)網(wǎng)絡(luò)或廣播電視等方法傳播視頻。

黃鐵軍提到，壓縮視頻的技術(shù)純粹作為數(shù)字視頻技術(shù)已經(jīng)做了60多年，標(biāo)準(zhǔn)也已經(jīng)做了30 余年。只有技術(shù)是不夠的，沒(méi)有標(biāo)準(zhǔn)會(huì)產(chǎn)生許多問(wèn)題，沒(méi)有自己的標(biāo)準(zhǔn)，就要花錢去買別人的標(biāo)準(zhǔn)。比如視頻，如果用最新的標(biāo)準(zhǔn)，封頂費(fèi)要交2500萬(wàn)美元。而且這只是單專利權(quán)的標(biāo)準(zhǔn)，所以編碼視頻表面是一個(gè)技術(shù)，但是背后也存在著經(jīng)濟(jì)問(wèn)題。所以中國(guó)從2002年就開始組織做自己的標(biāo)準(zhǔn)，2006年發(fā)布了第一代標(biāo)準(zhǔn)，現(xiàn)在中國(guó)2/3的高清頻道已經(jīng)切換成中國(guó)標(biāo)準(zhǔn)在傳輸，中國(guó)視頻體系已經(jīng)切換成中國(guó)標(biāo)準(zhǔn)，節(jié)約了大量專利費(fèi)用。

黃鐵軍還提到，視頻不僅是電視，還包括視頻監(jiān)控。在視頻監(jiān)控方面，中國(guó)標(biāo)準(zhǔn)比國(guó)際標(biāo)準(zhǔn)的效率還要高一倍，這一點(diǎn)全世界只有中國(guó)能夠做到。他表明，2020年中國(guó)將完成高清視頻監(jiān)控從標(biāo)清到高清的切換，而且將不會(huì)存在技術(shù)難點(diǎn)。從這一角度，黃鐵軍非常看好視頻技術(shù)的發(fā)展。

機(jī)器真正實(shí)現(xiàn)智能需要找對(duì)方向

黃鐵軍提到一組數(shù)據(jù)，現(xiàn)在視頻占互聯(lián)網(wǎng)流量的90%，推動(dòng)了全球數(shù)據(jù)總量的高速增長(zhǎng)，在十年之內(nèi)，全球數(shù)據(jù)量將增長(zhǎng)50倍，視頻將占比最多。按照國(guó)家發(fā)改委的規(guī)劃，到2020年，視頻將全部高清化、連網(wǎng)化，那么視頻所需占用的存儲(chǔ)空間是巨大的，所以對(duì)于挖掘視頻內(nèi)容的需求也是巨大的。在中國(guó)，每個(gè)省的攝像頭約有100萬(wàn)個(gè)，到2020年還將持續(xù)增長(zhǎng)，但每個(gè)省全部警種的視頻分析人員不超過(guò)10萬(wàn)個(gè)，所以未來(lái)視頻的處理分析一定是機(jī)器來(lái)完成，而非人類。

近年來(lái)基于深度學(xué)習(xí)的技術(shù)成果不斷呈現(xiàn)，但是這是大數(shù)據(jù)訓(xùn)練出來(lái)的結(jié)果，需要人來(lái)設(shè)計(jì)模型，基于大量的數(shù)據(jù)，才具有檢測(cè)識(shí)別對(duì)象的功能，比人眼還要差很多。賦予機(jī)器真正的智能需要避免被常規(guī)概念錯(cuò)誤引導(dǎo)，回歸人類生物功能的方向。

對(duì)此他解釋道：“現(xiàn)在人們對(duì)視頻的理解只是為滿足媒體產(chǎn)業(yè)發(fā)展需要所定義的概念。比如‘幀’這個(gè)概念，是利用了人眼對(duì)頻率的識(shí)別，使人50毫秒之內(nèi)保留對(duì)視頻畫面的印象。但是從生物視覺上講，我們的大腦之所以能夠從復(fù)雜的環(huán)境里分辨人的動(dòng)作，是因?yàn)橐暰W(wǎng)膜接收連續(xù)的光子撞擊，神經(jīng)節(jié)細(xì)胞接收到足夠刺激后發(fā)放脈沖，脈沖序列傳送給大腦，使得大腦產(chǎn)生連續(xù)的印象，而非每秒30幀、50幀。所以傳統(tǒng)視頻輸入的方法，不一定適用于人工智能?！?/p>

所以，機(jī)器如果想要真正實(shí)現(xiàn)智能，還需要從仿生物的方向研究，人們應(yīng)該弄清楚眼睛發(fā)放脈沖是如何將信息編碼傳送給大腦的。

提到進(jìn)展，黃鐵軍表示目前可以通過(guò)高速攝像機(jī)記錄脈沖發(fā)放過(guò)程，并由發(fā)放過(guò)程還原影像。雖然只能察覺畫面有一些變化，還遠(yuǎn)遠(yuǎn)不足以掌握精確的解碼過(guò)程，但是脈沖的發(fā)放已經(jīng)有一些規(guī)律性的東西出現(xiàn)了，相信機(jī)器將會(huì)真正實(shí)現(xiàn)智能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

“解碼”視頻：人工智能走向智能

人工智能到真正智能的路途依然遙遠(yuǎn)

視頻將很快超越人眼標(biāo)準(zhǔn)

機(jī)器真正實(shí)現(xiàn)智能需要找對(duì)方向