穆雪漫 宮法明
摘要
近年來以攝像頭以采集工具獲取實(shí)時(shí)視頻數(shù)據(jù),直觀而客觀地展現(xiàn)目標(biāo)對(duì)象的動(dòng)態(tài)變化過程的智能監(jiān)控方法成為各行各業(yè)監(jiān)控與管理的主流方法。以視頻智能識(shí)別為研究對(duì)象,探討了機(jī)器學(xué)習(xí)在視頻智能識(shí)別中的應(yīng)用,并以Google的Video IntelligenceAPI為重點(diǎn)闡述了其工作原理以及演示案例,對(duì)于提高視頻監(jiān)控系統(tǒng)系統(tǒng)自動(dòng)檢測(cè),識(shí)別、跟蹤等能力具有重要意義。
【關(guān)鍵詞】機(jī)器學(xué)習(xí) 視頻數(shù)據(jù) 智能識(shí)別
圖像識(shí)別是機(jī)器學(xué)習(xí)算法的重要應(yīng)用方向,基于機(jī)器學(xué)習(xí)算法的圖像識(shí)別的應(yīng)用場(chǎng)景眾多,例如國(guó)土部門基于遙感影像識(shí)別房屋、道路等目標(biāo)物體、快遞公司根據(jù)快遞單號(hào)實(shí)現(xiàn)快遞分揀與遞送、交警部門基于違章拍攝視頻實(shí)現(xiàn)違章車輛車牌號(hào)碼識(shí)別等等。近年來隨著物聯(lián)網(wǎng)技術(shù)的發(fā)展與普及應(yīng)用,城市的各個(gè)關(guān)鍵監(jiān)察點(diǎn)均布設(shè)了各類攝像頭以供不同單位與部門調(diào)用、分析與數(shù)據(jù)挖掘,以支撐智慧城市的信息化建設(shè)與智能化發(fā)展。目標(biāo)識(shí)別的對(duì)象早己開始由像素的世界延伸到圖像以外,視頻是大量的圖像在連續(xù)時(shí)間序列下所形成的動(dòng)態(tài)監(jiān)控信息,一直以來視頻都被視為計(jì)算機(jī)視覺里面的“暗物質(zhì)”,其無法像圖片一樣實(shí)現(xiàn)便捷的搜索,也無法像圖片一樣以像素為基本單元進(jìn)行像素灰度差異化分析與圖像識(shí)別,因此對(duì)于全球范圍內(nèi)的目標(biāo)識(shí)別研究人員而言,視頻智能識(shí)別是一項(xiàng)極具挑戰(zhàn)性的研究。
1 機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是人工智能的核心,其專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能。機(jī)器學(xué)習(xí)涉及概率論、統(tǒng)計(jì)學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科,通過糅合各類算法與技術(shù)使得計(jì)算機(jī)具有自動(dòng)化學(xué)習(xí)與智能化綜合分析的能力,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域。與傳統(tǒng)計(jì)算機(jī)工作不同,其不再是按照操作人員的操作步驟按部就班地完成工作,用戶只需要輸入數(shù)據(jù)以及某些必要的參數(shù),機(jī)器學(xué)習(xí)可以根據(jù)內(nèi)在機(jī)制自行計(jì)算與運(yùn)行,并給出分析結(jié)果以及結(jié)果精度,可以說機(jī)器學(xué)習(xí)某種意義上具有了人類處理事情的能力。
機(jī)器學(xué)習(xí)與模式識(shí)別、統(tǒng)計(jì)學(xué)習(xí)、數(shù)據(jù)挖掘、計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等領(lǐng)域有著很深的聯(lián)系。從范圍上來說,機(jī)器學(xué)習(xí)跟模式識(shí)別、統(tǒng)計(jì)學(xué)習(xí)、數(shù)據(jù)挖掘是類似的,同時(shí),機(jī)器學(xué)習(xí)與其他領(lǐng)域的處理技術(shù)的結(jié)合,形成了計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等交叉學(xué)科。最常用的機(jī)器學(xué)習(xí)算法包括線性回歸、邏輯回歸、決策樹、支撐向量機(jī)、貝葉斯模型、隨機(jī)森林、K-均值聚類等算法,現(xiàn)實(shí)世界中的大部分?jǐn)?shù)據(jù)問題都可以通過上述機(jī)器學(xué)習(xí)算法加以解決。
2 機(jī)器學(xué)習(xí)在視頻智能識(shí)別中的應(yīng)用
視頻數(shù)據(jù)相較于圖片數(shù)據(jù)而言具有動(dòng)態(tài)、海量、實(shí)時(shí)的特征,作為結(jié)構(gòu)化大數(shù)據(jù)的典型對(duì)象,運(yùn)用機(jī)器學(xué)習(xí)算法對(duì)視頻數(shù)據(jù)中的目標(biāo)對(duì)象進(jìn)行高效率、高精度分類與識(shí)別是當(dāng)前結(jié)構(gòu)化大數(shù)據(jù)挖掘與分析的重要研究方向?;跈C(jī)器學(xué)習(xí)的視頻智能識(shí)別方法基本原理在于依托機(jī)器學(xué)習(xí)算法對(duì)視頻中的對(duì)象所構(gòu)成的訓(xùn)練樣本進(jìn)行訓(xùn)練與模擬,構(gòu)建能夠滿足智能識(shí)別精度要求的機(jī)器學(xué)習(xí)模型,以訓(xùn)練好的模型為核心依托,對(duì)待識(shí)別視頻數(shù)據(jù)進(jìn)行模型實(shí)踐與推理,從視頻數(shù)據(jù)中快速檢測(cè)并識(shí)別出響應(yīng)的目標(biāo)對(duì)象或指定地物。當(dāng)前國(guó)際主流的IT企業(yè)均在推進(jìn)其視頻智能識(shí)別研究工作,2017年Google公布了新的機(jī)器學(xué)習(xí)API:VideoIntelligence API,它可以自動(dòng)識(shí)別視頻中的物體,開發(fā)者可以開發(fā)能在視頻內(nèi)部偵測(cè)目標(biāo)的應(yīng)用程序,讓視頻變成可以搜索、可以發(fā)現(xiàn)的視頻。比如開發(fā)者可以用動(dòng)詞、名詞代表這些目標(biāo)對(duì)象,例如“跑”“狗”,然后進(jìn)行搜索,使得從視頻中提取信息變得跟從圖像中提取信息一樣簡(jiǎn)單。Video Intelligence API的工作原理為:其相當(dāng)于服務(wù)與應(yīng)用的橋梁,新API連接到“谷歌云機(jī)器學(xué)習(xí)”(Google CloudMachine Learning)平臺(tái),這個(gè)平臺(tái)主要用來計(jì)算;同時(shí)Video Intelligence API又將帶注釋的視頻存儲(chǔ)到“谷歌云存儲(chǔ)”(Google CloudStorage)。用谷歌新API開發(fā)的應(yīng)用程序可以獲得一些特殊功能,讓終端用戶在視頻內(nèi)搜索目標(biāo)變得更加容易。用戶可以在視頻文件中搜索每一個(gè)瞬間,可以查找事件,探尋意義;Video Intelligence API還可以幫助用戶在視頻中確定名詞實(shí)體,確定目標(biāo)對(duì)象在視頻中出現(xiàn)的時(shí)間以及出現(xiàn)的頻次,還可以檢索視頻、照片、每一幀之中的相關(guān)信息,將信號(hào)與噪音分離。
如圖1所示為基于Video Intelligence API的智能識(shí)別演示案例,在演示案例中,用戶在MP4視頻文件中搜索動(dòng)物,文件時(shí)長(zhǎng)約為1.5分鐘。Cloud Video Intelligence會(huì)生成標(biāo)簽,比如動(dòng)物、野生動(dòng)物、動(dòng)物園、陸生動(dòng)物、自然、旅游、旅游景點(diǎn)等標(biāo)簽。新API可以偵測(cè)視頻場(chǎng)景,例如,在同樣的演示視頻中,Cloud Video Intelligence發(fā)現(xiàn)場(chǎng)景變化了48次,它可以實(shí)時(shí)偵測(cè),當(dāng)場(chǎng)景變化時(shí)為目標(biāo)物貼上標(biāo)簽;有一幕場(chǎng)景顯示的是老虎Tom,API生成了7種標(biāo)簽;有一幕場(chǎng)景對(duì)準(zhǔn)動(dòng)物園的標(biāo)志,系統(tǒng)生成了2種標(biāo)簽,這些標(biāo)簽都是實(shí)時(shí)生成的,這是視頻智能識(shí)別區(qū)別于圖像識(shí)別的重要特征,基于Video Intelligence API,用戶可以利用工具在視頻中搜索目標(biāo),正如在文檔中搜索一樣,同時(shí)搜索與識(shí)別的效率以及精度均能滿足用戶的視頻數(shù)據(jù)挖掘需求。
參考文獻(xiàn)
[1]張傳娟.機(jī)器學(xué)習(xí)在智能交通中的應(yīng)用關(guān)鍵技術(shù)研究[J].電子世界,2017(22):186-187.
[2]郭利敏,劉煒,吳佩娟,張磊.機(jī)器學(xué)習(xí)在圖書館應(yīng)用初探:以TensorFlow為例[J].大學(xué)圖書館學(xué)報(bào),2017,35(06):31-40.
[3]呂云翔,馬連韜,熊漢彪,徐宇楠.基于機(jī)器學(xué)習(xí)的監(jiān)控視頻行人檢測(cè)與追蹤系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].工業(yè)和信息化教育,2016(11):66-72.
[4]呂益民,吳旻中,蘇偉杰.基于Spark大數(shù)據(jù)平臺(tái)在視頻中搜索特征車輛的研究[J].警察技術(shù),2016(04):80-82.