□ 文/鄭 韜
深度學(xué)習(xí)加速推進(jìn)智慧城市建設(shè)
□ 文/鄭 韜
從技術(shù)角度來說,智慧城市就是感知、分析和提取城市系統(tǒng)的各種信息并做出相對應(yīng)反饋的一整套城市管理系統(tǒng),其中,原始的視頻數(shù)據(jù)是城市系統(tǒng)信息的重要組成部分?,F(xiàn)如今,海量視頻數(shù)據(jù)已成必然,需要一套可以自動從視頻中提取結(jié)構(gòu)化信息的方案,把視頻、圖像“翻譯”成機(jī)器可以理解的語言,并進(jìn)行保存,確保后續(xù)提供給上層應(yīng)用平臺調(diào)用和處理的素材。
視頻或者圖像數(shù)據(jù),從前端傳感器直接獲得,從技術(shù)上來說,是一種非結(jié)構(gòu)化信息。只有在實(shí)現(xiàn)結(jié)構(gòu)化處理之后,才能將其中有價值的數(shù)據(jù)直觀、高效的保存、處理和應(yīng)用。
在智慧城市建設(shè)中,有成千上萬路監(jiān)控?cái)z像頭或者傳感器,晝夜不停地監(jiān)視或采集其他原始數(shù)據(jù)。其中,會產(chǎn)生海量的音視頻數(shù)據(jù),需要監(jiān)控管理平臺處理。即便人力充沛的情況下,面對龐大的視頻數(shù)據(jù),要求快速、準(zhǔn)確地從海量數(shù)據(jù)中找到有效的信息,幾乎是不可能的。受制于肉眼識別勞動強(qiáng)度的極限,在發(fā)生緊急事件時,人力調(diào)配和視頻資源往往存在矛盾,不依靠計(jì)算機(jī)自動進(jìn)行篩選,必然造成貽誤戰(zhàn)機(jī)。
視頻結(jié)構(gòu)化就是實(shí)現(xiàn)將海量視頻中的人、車目標(biāo)進(jìn)行提取并識別的過程。一旦有重要事件發(fā)生,系統(tǒng)就可在數(shù)據(jù)庫中快速查找到關(guān)鍵的“人”、“車”、“物”等相關(guān)音視頻線索。針對海量監(jiān)控視頻錄像的事后分析,傳統(tǒng)以人海戰(zhàn)術(shù)為主的視頻線索查找,顯然不能滿足高效查找,正面臨巨大挑戰(zhàn),急需一種更為高效的、自動的、智能的系統(tǒng)實(shí)現(xiàn)上述需求。
過去幾年中,得益于高速的計(jì)算芯片(GPU)及大量的標(biāo)注數(shù)據(jù),作為當(dāng)下最流行的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)在各個應(yīng)用領(lǐng)域中都取得了突破性的成績,未來人們會擁有大量的AI,各種為私人定制的AI,包括醫(yī)療領(lǐng)域,制造業(yè)領(lǐng)域,在商業(yè)方面也會有各式各樣的AI應(yīng)用產(chǎn)生,包括:營銷,供應(yīng)鏈,預(yù)測及人力資源等,AI會以各種不同的方式出現(xiàn)在我們身邊,例如:機(jī)器人,無人機(jī)和一些小型機(jī)器,AI將使機(jī)器更具智能化,使其變得更加安全易用。未來的AI發(fā)展速度將超越摩爾定律。由于幾乎所有的人工智能領(lǐng)域的問題都可以轉(zhuǎn)化為分類問題,因此機(jī)器學(xué)習(xí)的基本步驟可分為如下形式:
如上圖所示機(jī)器學(xué)習(xí)是一個級聯(lián)串行結(jié)構(gòu),因此每一環(huán)節(jié)的處理結(jié)果都會影響到最后的分類效果,在傳統(tǒng)的機(jī)器學(xué)習(xí)中針對其中的各個環(huán)節(jié)都有其各自獨(dú)立的算法。由于上述方法具有各自獨(dú)立性,因此傳統(tǒng)機(jī)器學(xué)習(xí)算法在處理問題時需要對各個環(huán)節(jié)進(jìn)行優(yōu)化,并通過組合優(yōu)化方法在各個模塊中選取最優(yōu)的組合方式。
與傳統(tǒng)機(jī)器學(xué)習(xí)相比深度學(xué)習(xí)可以把機(jī)器學(xué)習(xí)中的各個部分合成一個整體結(jié)構(gòu),通過統(tǒng)一的訓(xùn)練方法(Backpropagation)對其中所有的參數(shù)進(jìn)行調(diào)節(jié)。當(dāng)前人們所指的深度學(xué)習(xí)主要是以CNN(卷積網(wǎng)絡(luò))為核心的一系列應(yīng)用算法,其算法結(jié)構(gòu)如下圖所示:
上圖中的每一層都是采用卷積方式與某一卷積核進(jìn)行卷積所得到的結(jié)果,每一結(jié)果代表了從原始圖像所提取的特征,通過級聯(lián)方式對圖像或信號進(jìn)行特征提取,最后得到人們想要的分類結(jié)果。
在安防行業(yè)中,通過深度學(xué)習(xí)對視頻進(jìn)行結(jié)構(gòu)化信息提取,完成了傳統(tǒng)算法無法完成的功能,算法效果也得到大幅度提高。
在安防大數(shù)據(jù)背景下,大華推出“DeepSense睿智”系列的視頻結(jié)構(gòu)化服務(wù)器,可搭載8塊Tesla-P4卡(176TOPS),2顆E5系列CPU,128G內(nèi)存,4個千兆網(wǎng)口,功耗在1600W左右,支持2+2冗余電源。其最大可支持192路1080P高清實(shí)時視頻分析,完成結(jié)構(gòu)化信息提取。
“DeepSense睿智”系列的視頻結(jié)構(gòu)化服務(wù)器主要功能是把實(shí)時視頻進(jìn)行結(jié)構(gòu)化分析。將復(fù)雜場景中的人、機(jī)動車、非機(jī)動車分離(共可區(qū)分轎車、面包車、公交車、卡車、貨車,2輪非機(jī)動車、3輪非機(jī)動車、行人等類型),全方位提取車輛特征,如車型、車系、車身顏色、車牌顏色、車牌號碼識別、主副駕駛是否系安全帶、是否打電話、有無遮陽板、有無年檢標(biāo)、有無掛墜、有無紙巾盒;針對行人,“DeepSense睿智”服務(wù)器可以多方面分析其相關(guān)特征,包括性別、表情、年齡段、服飾特征(上下衣著顏色、眼鏡)、攜帶物特征(背包、打傘)、運(yùn)動特征等。同時,也可以針對符合像素要求的人臉、車輛號牌,進(jìn)行識別。
傳統(tǒng)的CV算法在處理視頻算法時,往往先用檢測或者比較簡單的識別算法,將目標(biāo)從背景中提取出來。然后,通過識別算法分辨是否是正常目標(biāo),最后判斷目標(biāo)類型。
而利用深度學(xué)習(xí)技術(shù),可直接通過分類器,將目標(biāo)從背景中識別出來再進(jìn)行跟蹤,同時可以直接得到目標(biāo)類別。這種模式下,目標(biāo)檢測的準(zhǔn)確率和跟蹤的穩(wěn)定性都能夠大幅度提高。
同時,算法不需要根據(jù)不同目標(biāo)類型調(diào)用不同模塊進(jìn)行目標(biāo)分割或者特征提取,可直接利用目標(biāo)識別結(jié)果,進(jìn)行特征識別,直接獲得相應(yīng)的目標(biāo)屬性。
深度學(xué)習(xí)技術(shù)顛覆傳統(tǒng)算法,輕松完成視頻結(jié)構(gòu)化信息提取。除此之外,結(jié)合深度學(xué)習(xí)本身的技術(shù)特色,還對車輛信息提取、人臉識別等已有功能進(jìn)行改善,效果尤為明顯。
在這之前,人臉識別在傳統(tǒng)算法中,有非常好的效果。在預(yù)處理之后,通過提取特定的特征并對特征值進(jìn)行訓(xùn)練,最后得到分類器,進(jìn)行識別。深度學(xué)習(xí)優(yōu)化了人臉識別的方案,將比較依靠專家選擇的特征提取模塊簡化,通過輸入樣本即可直接訓(xùn)練得到分類器。
智能交通卡口或者電警攝像頭智能抓拍車輛圖片,并識別車輛號牌字符、車輛顏色、車輛類型等數(shù)據(jù)。引入深度學(xué)習(xí)技術(shù)之后,車輛的車系信息、年款等信息也被開發(fā)出來,更多的車輛信息被挖掘,為后續(xù)平臺應(yīng)用提供的更多的數(shù)據(jù)支撐。
“DeepSense睿智”系列視頻結(jié)構(gòu)化服務(wù)器,應(yīng)用深度學(xué)習(xí)算法,支持192路實(shí)時全高清視頻處理,同時搭載英偉達(dá)最新Tesla?P4GPUs,極大的提高了安防行業(yè)的算法應(yīng)用和硬件配置,夯實(shí)了智慧城市和城市數(shù)據(jù)大腦等建設(shè)提供智能化服務(wù)的基礎(chǔ)。同時,服務(wù)器集群設(shè)計(jì),充分考慮到可擴(kuò)展性和云架構(gòu)的兼容性,并發(fā)計(jì)算能力和服務(wù)器臺數(shù)成正比例增加。另外,服務(wù)器集成度高,相對每路視頻分析的功耗非常低。以上這些完全符合大數(shù)據(jù)計(jì)算的高要求。
另外,算法訓(xùn)練和應(yīng)用都在英偉達(dá)統(tǒng)一平臺進(jìn)行搭建,節(jié)約研發(fā)開發(fā)成本,統(tǒng)一智能化效果,為行業(yè)提供了一套應(yīng)用深度學(xué)習(xí)技術(shù)、快速研發(fā)產(chǎn)品的新方案,為使用GPU方案進(jìn)行深度學(xué)習(xí)研發(fā)的公司樹立了榜樣。
作者單位:浙江大華技術(shù)股份有限公司