蘆偉
現(xiàn)在已經(jīng)進(jìn)入到大數(shù)據(jù)時(shí)代,每天產(chǎn)生的信息量已經(jīng)無(wú)法用G和T來(lái)描述,而是以P(1千T),E(1百萬(wàn)T)或Z(10億T)作為計(jì)量單位。如今兩天就能創(chuàng)造出自文明誕生以來(lái)到2003年所產(chǎn)生的數(shù)據(jù)總量,預(yù)計(jì)到2020年各種數(shù)據(jù)量還將會(huì)比現(xiàn)在還要增加50倍。
我們常用的百度,其首頁(yè)導(dǎo)航每天要從超過(guò)1.5PB的龐大數(shù)據(jù)中進(jìn)行挖掘,這些數(shù)據(jù)如果打印出來(lái)將超過(guò)5千億張A4紙,摞起來(lái)會(huì)超過(guò)4萬(wàn)公里高,接近地球同步衛(wèi)星軌道長(zhǎng)度,平鋪可以鋪滿海南島。在如此龐大的數(shù)據(jù)中,占據(jù)比例最大的是視頻圖像數(shù)據(jù)。
2012年的統(tǒng)計(jì)結(jié)果顯示,視頻和圖像數(shù)據(jù)已經(jīng)占到整個(gè)大數(shù)據(jù)的80%,而且隨著視頻高清化、超高清化的發(fā)展,這個(gè)比例還在不斷增大。數(shù)據(jù)量的急劇增加,給人們工作生活帶來(lái)了很多好處,同時(shí)也給數(shù)據(jù)處理帶來(lái)很大的麻煩,面對(duì)超乎人們想象的海量視頻數(shù)據(jù)如何進(jìn)行快速檢索,找到有用的信息,成為近年來(lái)國(guó)內(nèi)外很多機(jī)構(gòu)公司研究的重點(diǎn)。
視頻檢索的必要性
在專業(yè)視聽(tīng)方面,視頻數(shù)據(jù)最多的地方,那應(yīng)該是監(jiān)控了。為了保障人民生活安全,改善社會(huì)治安和交通狀況,國(guó)家和各級(jí)政府投入巨資進(jìn)行了“天網(wǎng)工程”、“平安城市”的建設(shè),成千上萬(wàn)路監(jiān)控?cái)z像頭遍布大街小巷,晝夜不停地監(jiān)視和錄像,以備需要時(shí)能夠隨時(shí)調(diào)取采用。不過(guò)如此多的數(shù)據(jù),在發(fā)生情況時(shí),卻發(fā)現(xiàn)要找到真正有價(jià)值的那部分視頻是一件很困難的事情。
如2012年江蘇南京市曾發(fā)生一起持槍搶劫案,一個(gè)男子光天化日下持槍搶劫銀行取款人,擊中取款人頭部并搶錢之后逃竄。案發(fā)后,南京警方通過(guò)調(diào)取持槍劫匪作案后逃離現(xiàn)場(chǎng)的視頻資料,最終將劫匪捉拿歸案。不過(guò)事后得知,這部分視頻的獲取是相當(dāng)不易的,是500多個(gè)民警經(jīng)過(guò)24小時(shí)對(duì)上萬(wàn)小時(shí)的視頻圖像逐一進(jìn)行甄別取得的。
另一個(gè)真實(shí)案例是,前不久廣州一騎電動(dòng)車女子被一輛違章貨車刮倒致死,經(jīng)過(guò)長(zhǎng)達(dá)20多天對(duì)事故地點(diǎn)附近學(xué)校、商場(chǎng)、網(wǎng)吧等單位的數(shù)千個(gè)小時(shí)的監(jiān)控錄像進(jìn)行分析,并調(diào)取附近街175萬(wàn)多張監(jiān)控照片比對(duì)后,警方才鎖定了肇事車輛。由此可以看出,傳統(tǒng)視頻檢索模式工作量極大、獲取到有效信息耗時(shí)很長(zhǎng),往往為了一分鐘甚至幾十秒的有效視頻需要審看幾十個(gè)甚至上百個(gè)攝像頭、前后數(shù)天的視頻。為了不漏掉重要信息,需要將視頻從頭到尾順序播放。由于人眼長(zhǎng)時(shí)間觀看視頻錄像會(huì)產(chǎn)生視覺(jué)疲勞,因此一段視頻往往需要花費(fèi)更多的時(shí)間進(jìn)行重復(fù)審看,大大增加了工作量。此外為了降低遺漏和誤差,還不得不加大人力,采用人海戰(zhàn)術(shù),綜合投入成本高但成效卻一般。因此市場(chǎng)急需高效視頻檢索技術(shù)來(lái)提高工作效率。
當(dāng)傳統(tǒng)思維遇到大數(shù)據(jù)
雖然已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,但現(xiàn)在相當(dāng)多的地方視頻監(jiān)控檢索仍沒(méi)有充分考慮海量數(shù)據(jù)帶來(lái)的影響,還在從傳統(tǒng)思維入手改良。如根據(jù)日期、時(shí)間、時(shí)段查詢的時(shí)間檢索法,這種方式對(duì)于時(shí)間、地點(diǎn)明確的事件查詢還是可行的,但往往很多事件各種因素不太確定或涉及多地不同時(shí)段,那檢索起來(lái)的難度和工作量可想而知,因此這種太過(guò)粗略和簡(jiǎn)單的檢索法正在被逐漸淘汰。
后來(lái)又出現(xiàn)了視頻標(biāo)注法,通過(guò)人工的方式將某一段視頻進(jìn)行主觀的屬性標(biāo)注,然后以文本的方法進(jìn)行檢索。這種方式比時(shí)間檢索發(fā)又進(jìn)了一步,但依然不能完全滿足對(duì)視頻數(shù)據(jù)檢索的需要。原因是首先依靠人工手動(dòng)完成添加注釋工作量很大,而且效率很低:其次,某些視頻和感知特征很難用文字來(lái)描述,而且特定的標(biāo)簽只適合特定的查詢:再次,文字標(biāo)簽是靠觀察者加上去的,因此受主觀因素的影響,不同的觀察者可能有不同的描述,必然導(dǎo)致不同的標(biāo)注結(jié)果。
此外在傳統(tǒng)思維的基礎(chǔ)上,后來(lái)還引申出其他檢索方法,但均不同程度存在工作量太大、時(shí)間太長(zhǎng)、檢索效果不好的弊端。面對(duì)大數(shù)據(jù),傳統(tǒng)思維陷入了瓶頸,框在其中不能自拔。事實(shí)上,當(dāng)今的大數(shù)據(jù)視頻檢索已不再是一個(gè)簡(jiǎn)單的系統(tǒng),它涉及多項(xiàng)學(xué)科,使用到了視頻分割、自動(dòng)數(shù)字化、語(yǔ)音識(shí)別、鏡頭檢測(cè)、關(guān)鍵幀抽取、內(nèi)容自動(dòng)關(guān)聯(lián)、視頻結(jié)構(gòu)化等各種技術(shù),并融合了圖像處理、模式識(shí)別、計(jì)算機(jī)視覺(jué)、數(shù)據(jù)庫(kù)管理等領(lǐng)域的知識(shí)。因此只有主動(dòng)跳出來(lái),占在更高更廣的角度來(lái)考慮,從對(duì)海量視頻數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析的思維出發(fā),有效地提取視頻內(nèi)容的特征,在此基礎(chǔ)上才能實(shí)現(xiàn)更高效視頻數(shù)據(jù)的檢索。
分析與檢索
大數(shù)據(jù)時(shí)代的視頻檢索是建立在視頻分析基礎(chǔ)之上的,如果沒(méi)有智能視頻分析技術(shù)為依托,高效的視頻檢索是不可能實(shí)現(xiàn)的。智能視頻分析源自計(jì)算機(jī)視覺(jué)技術(shù),它能夠在圖像及圖像內(nèi)容描述之間建立映射關(guān)系,從而使計(jì)算機(jī)能夠通過(guò)數(shù)字圖像處理和分析來(lái)有限理解視頻畫面中的內(nèi)容。在大數(shù)據(jù)時(shí)代,人們對(duì)智能視頻分析技術(shù)越來(lái)越看重。智能視頻分析依賴于視頻算法對(duì)視頻內(nèi)容進(jìn)行分析,通過(guò)提取視頻中關(guān)鍵信息,進(jìn)行標(biāo)記或者相關(guān)處理,并形成相應(yīng)事件和告警的監(jiān)控方式,人們可以通過(guò)各種屬性描述進(jìn)行快速檢索。
智能視頻分析的核心是算法。視頻不同于文字、圖片、語(yǔ)音等,它是一種更接近于現(xiàn)實(shí)的、動(dòng)態(tài)的呈現(xiàn)方式,在不同環(huán)境中即使擁有相同場(chǎng)景,其算法也有很大差別,因此開(kāi)發(fā)這類算法需要在經(jīng)驗(yàn)和實(shí)踐中不斷地總結(jié),進(jìn)行大量的背景建模,同時(shí)開(kāi)發(fā)的算法還需要有一定的自動(dòng)適應(yīng)能力。如此在各種不同場(chǎng)景、不同環(huán)境下的視頻才能夠被讀懂并精準(zhǔn)分析出來(lái),而這也正是顯示不同廠商技術(shù)水平高低的地方。
當(dāng)前常用的視頻分析算法有目標(biāo)檢測(cè)、目標(biāo)跟蹤、目標(biāo)識(shí)別、行為分析、數(shù)據(jù)融合等。其中目標(biāo)檢測(cè)智能化分析的基礎(chǔ),它是按一定時(shí)間間隔從視頻圖像中抽取像素,采用軟件技術(shù)來(lái)分析數(shù)字化的像素,將運(yùn)動(dòng)物體從視頻序列中分離出來(lái),常用的算法有背景減除法、時(shí)間差分法和光流法;目標(biāo)識(shí)別是利用物體顏色、速度、形狀、尺寸等信息進(jìn)行判別,區(qū)分人、交通工具和其他對(duì)象,我們熟悉的車牌識(shí)別和人臉識(shí)別就是屬于此類。
車牌照識(shí)別是目前應(yīng)用最廣泛和技術(shù)最成熟的,而人臉識(shí)別應(yīng)用潛力巨大,但目前還存在不少困難。它的難點(diǎn)在于比較復(fù)雜,首先要在動(dòng)態(tài)的場(chǎng)景與復(fù)雜的背景中判斷是否存在面像,并分離出這種面像,之后對(duì)人臉特征進(jìn)行提取,并與面像庫(kù)中的特征進(jìn)行比對(duì),找出最佳的匹配對(duì)象,然后對(duì)被檢測(cè)到的面貌進(jìn)行動(dòng)態(tài)目標(biāo)跟蹤。此中涉及的數(shù)據(jù)量相當(dāng)大,可選擇的算法具有多樣性,很容易由于算法的局限、特征提取的不準(zhǔn)確、過(guò)多或太少造成誤報(bào)、不報(bào)。行為分析是指在目標(biāo)檢測(cè)、跟蹤和識(shí)別的基礎(chǔ)上,對(duì)其行為進(jìn)行更高層次的語(yǔ)義分析,可以進(jìn)行更為復(fù)雜的分析,但難度相應(yīng)也更高。
如今視頻分析技術(shù)已經(jīng)衍生出許多不同的運(yùn)用模式,主要體現(xiàn)在兩個(gè)方向。其一是以車牌識(shí)別、人臉識(shí)別為核心代表的智能識(shí)別技術(shù),主要應(yīng)用于電子警察、機(jī)楊、海關(guān)。另一個(gè)是以周界防范、人數(shù)統(tǒng)計(jì)、自動(dòng)追蹤、逆行、禁停等規(guī)則為代表的行為分析技術(shù),主要應(yīng)用于圍墻周界警戒區(qū)、商場(chǎng)、交通、景點(diǎn)流量統(tǒng)計(jì),道路禁停禁放、違章逆行、場(chǎng)景跟蹤等方面。
在市場(chǎng)上,受歡迎的視頻分析產(chǎn)品一般既可以在發(fā)現(xiàn)異常情況或者突發(fā)事件能及時(shí)的發(fā)出警報(bào),也可以方便地進(jìn)行事后檢索。這種檢索當(dāng)然不是傳統(tǒng)的以時(shí)間、日期為條件的視頻搜索,而是一種智能檢索,能夠通過(guò)設(shè)定的特征條件進(jìn)行快速的視頻搜索,比如以特定場(chǎng)景、嫌疑人、車或物體的出現(xiàn),或以顏色、形狀等為搜索條件,進(jìn)行特定視頻條件的智能搜索,如此再結(jié)合其他智能視頻功能,可以使大量的無(wú)序信息在短時(shí)間內(nèi)形成有價(jià)值的證據(jù)鏈。
另外隨著視頻清晰度提高、檢索數(shù)量的增多,整體視頻數(shù)據(jù)量仍顯得太大,檢索起來(lái)很耗時(shí)間,于是人們又研發(fā)出了視頻摘要來(lái)實(shí)現(xiàn)快速檢索視頻的方式。視頻摘要,又叫視頻濃縮摘要、視頻壓縮或者視頻濃縮。它是指從原視頻中提取有意義的部分,和背景視頻合成剪輯而成的較短視頻片斷,此可以將一天的視頻被壓縮成一個(gè)簡(jiǎn)短到幾十分鐘的事件摘要視頻,其中包含了原視頻中所有重要的目標(biāo)活動(dòng)詳情和快照。視頻濃縮摘要可以采用原始視頻分辨率,也可以根據(jù)存儲(chǔ)要求降低分辨率。管理人員通過(guò)點(diǎn)擊濃縮視頻中的目標(biāo)或者視頻左側(cè)快照,播放目標(biāo)出現(xiàn)前后的原始視頻。如果希望更加快捷檢索,還可以采用分割前景和背景,提取活動(dòng)目標(biāo),用快照列表這種更加直觀便捷的方式展示。視頻摘要大大方便了的視頻查找和存儲(chǔ),相對(duì)于原始的視頻資料,視頻摘要的長(zhǎng)度要短很多,極大地節(jié)省了查找時(shí)間,降低了檢索成本。
擁抱大數(shù)據(jù)未來(lái)更可待
與以往相比,近幾年視頻檢索技術(shù)得到了快速發(fā)展,準(zhǔn)確率及效率有了大幅度的提高,雖然應(yīng)用還不夠普遍,仍有不少不足的地方,但市場(chǎng)的快速增長(zhǎng)說(shuō)明客戶對(duì)此的接受和滿意程度在不斷提升。未來(lái)視頻檢索必然會(huì)與大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)等實(shí)現(xiàn)更緊密的結(jié)合,從海量的監(jiān)控?cái)?shù)據(jù)中,作出更深度的分析和挖掘,拓展出更廣泛的應(yīng)用。