陳華, 孫宇晨
(中國石油大學(xué)(華東) 理學(xué)院, 青島 266580)
計算機視覺是用計算機實現(xiàn)人的視覺功能,對客觀世界的三維場景的感知、識別和理解,即對圖像進行自動處理并報告“圖像中有什么的過程”。計算機視覺在人工智能、機器學(xué)習(xí)等學(xué)科占據(jù)重要地位,為交通流實時監(jiān)控做了深厚的理論鋪墊。隨著非結(jié)構(gòu)數(shù)據(jù)的急速增加、“天網(wǎng)行動”的開展(基礎(chǔ)設(shè)施的完善)、人工智能的火熱,國內(nèi)計算機視覺技術(shù)無疑將持續(xù)高速發(fā)展。目前,計算機視覺技術(shù)實現(xiàn)過程中應(yīng)用傳感器技術(shù)作為硬件支撐,例如:工業(yè)器件檢查、智能監(jiān)控系統(tǒng)、視頻存儲和檢索、智能人機環(huán)境、智能家居環(huán)境、智能行為身份識別、虛擬現(xiàn)實技術(shù)等[1],并且取得了可觀的經(jīng)濟回報,且精度較傳統(tǒng)技術(shù)提高了20-40%。由于近年來恐怖事件的增多,各國政府對于公共安全防范工作的重視程度也逐漸加強,而利用計算機視覺技術(shù)則首先被廣泛的認(rèn)可。計算機視覺技術(shù)可以被分為運動物體檢測、運動物體跟蹤、運動物體分類識別、行為分析4個部分[2],主要解決問題的思路為檢測出運動的物體并分塊、利用濾波等技術(shù)預(yù)測運動物體的運動軌跡并進一步篩選、對待確定樣本進行機器學(xué)習(xí)處理,將樣本分類并和數(shù)據(jù)庫進行對比從而找出目標(biāo)對象,在此基礎(chǔ)上對于運動目標(biāo)的運動軌跡預(yù)測被認(rèn)為是行為分析的基本手段,行為分析通常結(jié)合機器學(xué)習(xí)、邏輯推理、自然語言等技術(shù)出現(xiàn),通過找到發(fā)生異常行為的潛在規(guī)律,從而有效地預(yù)防異常行為的發(fā)生或即時報警。在智能交通的實現(xiàn)上,計算機視覺已經(jīng)顯示出了其獨特的優(yōu)點,并在交通調(diào)度、無人停車場、無人駕駛、車禍報警、GPS車禍防范等方面得到了初步應(yīng)用。本文將計算機視覺技術(shù)分為上文所述的4個部分進行研究,對近年來常用技術(shù)進行優(yōu)缺點分析并總結(jié),最終給出計算機視覺技術(shù)在智能交通領(lǐng)域的發(fā)展方向。
目前,基于計算機視覺的運動物體檢測技術(shù)多采用背景差分法、幀間差分法、光流場法、基于目標(biāo)特征模型檢測法。
背景差分法是一種對靜止場景進行運動分割的通用方法,它將當(dāng)前獲取的圖像幀與背景圖像做差分運算,得到目標(biāo)運動區(qū)域的灰度圖,對灰度圖進行閾值化提取運動區(qū)域,其性能依賴于所使用的背景建模技術(shù)??傮w來說,背景差分法算法簡單,在一定程度上克服了光線影響且在背景靜止的情況下檢測精度高。但是出于環(huán)境的多變,背景圖像的實時更新較困難;與靜止背景相對應(yīng)的,對于運動的攝像頭,背景差分法無法處理;背景差分法對于噪聲的影響較敏感。
S Mitropoulos使用混合高斯模型進行物體的檢測,該方法能適應(yīng)變化的環(huán)境,對目標(biāo)物體的輪廓進行提取并通過多級算法處理,最終通過監(jiān)督學(xué)習(xí)的分類歸納樹(C4.5)處理得到結(jié)果;Drayer B等提出了一種基于框架級對象檢測的視頻圖像分割方法,該方法提取了基于時間一致的數(shù)據(jù),有效的克服了無監(jiān)督視頻分割的典型問題;Zhou Z[3]等基于子空間更新的背景算法,引入學(xué)習(xí)因子并運用二維主成分分析來進行背景差分,實際結(jié)果表明該方法取得較好結(jié)果;Shakeri M[4]等將低秩和不變稀疏分解用于運動目標(biāo)檢測。
幀間差分法是將視頻流中相鄰兩幀或相隔幾幀圖像的兩幅圖像像素值相減,并對相減后的圖像進行閾值化來提取圖像中的運動區(qū)域。它具有較強的自適應(yīng)能力且算法簡單、不易受環(huán)境光線的影響、并且背景更新快,魯棒性較強。但是它不能用于運動攝像頭、靜止的物體,不易找到合適的幀間間隔,精度稍有遜色;最大的問題在于,當(dāng)運動物體表面有大面積灰度值相似情況下,做差分會出現(xiàn)空洞。
Sengar S S等提出了一種基于塊的運動目標(biāo)檢測方法,該方法利用三幀差分法避免了兩幀差分法的固有缺點,并具有成本低,精度較好的優(yōu)點;Chung W T[5]等提出了一個兩級前景傳播的運動物體檢測模型,該方法在第一階段建立權(quán)重矩陣,減少背景模型變化的影響,在第二階段運用了迭代的方法,該方法可以精確地將前景提取出來。
光流場是用來表征圖像中像素點的灰度值發(fā)生變化趨勢的瞬時速度場。利用光流場法實現(xiàn)目標(biāo)檢測的基本思想是:首先計算圖像中每一個像素點的運動向量,即建立整幅圖像的光流場。如果場景中沒有運動目標(biāo),則圖像中所有像素點的運動向量應(yīng)該是連續(xù)變化的;如果有運動目標(biāo),由于目標(biāo)和背景之間存在相對運動,目標(biāo)所在位置處的運動向量必然和鄰域的運動向量不同,從而檢測出目標(biāo)。光流場法能夠完全提取動態(tài)信息、并獲得三維物體結(jié)構(gòu)的豐富信息,而且可以應(yīng)用于運動攝像頭。但是由于算法的復(fù)雜使得其實時性較差,且抗噪能力較弱。
Min Q等提出了一種基于運動平臺的立體運動融合檢測方法,該方法運用三位運動模型集成的光流參數(shù)來估計物體的運動,在大量檢測的結(jié)果下,證明了其有效性。
基于目標(biāo)特征模型檢測法是將提取出的目標(biāo)特征,利用機器學(xué)習(xí)的方法判斷其是否為運動物體。隨著深度學(xué)習(xí)的出現(xiàn),基于目標(biāo)特診模型檢測法的精度大幅提高,成為近年來最盛行的方法,深度學(xué)習(xí)尤其適用于視頻、圖像數(shù)據(jù),和計算機視覺匹配度高。該方法檢測結(jié)果準(zhǔn)確性高,檢測過程簡單、耗時少;但是目標(biāo)特征提取算法復(fù)雜、計算量大,需要樣本大、訓(xùn)練時間長,最終導(dǎo)致實時性較差。
Varagula J[6]等運用時滯網(wǎng)絡(luò)模型,提取目標(biāo)HOG特征,并利用IDNN識別、分類了障礙物,結(jié)果表明該方法不僅能夠檢測出障礙物,還可運用于行人車輛的檢測,并且具有較高的準(zhǔn)確性。
實際選擇方法首先要按照工作對于檢測的要求分開。若對數(shù)據(jù)要求不高,一般選擇背景差分法和幀間差分法。背景差分法最大的問題在于背景建模方法及背景更新算法的選擇,幀間差分法最大的問題在于空洞現(xiàn)象的產(chǎn)生,所以常用的解決方法是將兩種方法結(jié)合起來,避免短板的出現(xiàn)。若需要運動物體的特定屬性,一般選擇光流場法、基于目標(biāo)特征模型檢測法,光流場法最大的問題在于算法復(fù)雜,基于目標(biāo)特征模型檢測法最大的問題在于實時性差。但云計算的發(fā)展已可以有效提高基于目標(biāo)特征模型檢測法的計算速度。除此之外,運動物體檢測還需要解決除噪等預(yù)處理工作,并進行圖像分割。
基于計算機視覺的運動物體跟蹤技術(shù)可以分為二維視覺追蹤、三維視覺追蹤,而二維視覺追蹤多在學(xué)習(xí)階段過度使用,在實際生活中,一般只使用三維視覺追蹤。三維視覺追蹤原理上是二維視覺數(shù)據(jù)根據(jù)三維模型的一個投影,結(jié)果的好壞要取決于投影模型的好壞。目前,現(xiàn)有的目標(biāo)跟蹤算法主要包括:基于圖像特征的跟蹤、基于模板匹配的跟蹤和基于運動預(yù)測的跟蹤等方法。
該方法對于從跟蹤目標(biāo)中的靜態(tài)特征(諸如顏色、幾何結(jié)構(gòu)、紋理等特征)進行跟蹤,基本步驟是特征提取、特征匹配、目標(biāo)跟蹤,最后用特征描述實現(xiàn)更新,但是當(dāng)運動目標(biāo)比較多時,特征采集的難度增加,跟蹤路程非常復(fù)雜。常用的目標(biāo)特征分為3類:全局特征、局部特征以及上下文特征。該算法簡單,并可以對多個目標(biāo)進行跟蹤,但是易受觀測角度(遮擋)影響。
Shi J[7]等研究了間歇性觀測跟蹤擴展目標(biāo)的問題,基于實際應(yīng)用兩個伯努利分布隨機變量描述了位置測量和目標(biāo)范圍的測量的間歇現(xiàn)象。
基于模板匹配的跟蹤就是要提前確定目標(biāo)模型,通過點線的方式構(gòu)造追蹤目標(biāo)幾何模型,分析模型的特征,并將視頻中采集到的目標(biāo)特征與幾何模型進行匹配分析,進而將跟蹤問題轉(zhuǎn)化為匹配問題。目前,外觀模型主要分為三類:生成模型、判別模型以及生存-判別模型。該方法不受觀測角度(遮擋)的影響,但是算法復(fù)雜度較高。
核方法(kernel method)可以把數(shù)據(jù)集從低維映射到高維,使得原來線性不可分的數(shù)據(jù)集變得線性可分,Wang Y[8]等對幾種著名的基于kernel的方法進行了定量的比較,結(jié)果表明基于核的在線子空間算法在實現(xiàn)目標(biāo)跟蹤的穩(wěn)定性和實時處理之間取得了較好的平衡;Dey J運用遺傳算法完成運動目標(biāo)跟蹤;Bozorgtabar B等提出一種基于稠密子圖的多目標(biāo)跟蹤算法,該方法尤其適用于遮擋情況。
常用的基于運動預(yù)測的跟蹤方法主要有卡爾曼濾波法、擴展卡爾曼濾波法、粒子濾波等。經(jīng)過改良的粒子濾波算法在非線性和非高斯系統(tǒng)中表現(xiàn)出優(yōu)越性以及很好的多模態(tài)處理能力,因此常被選做目標(biāo)跟蹤。但是,該方法的缺點很明顯,首先,需要大量的樣本才能完成對近似系統(tǒng)的后驗概率密度計算,從而導(dǎo)致計算量大。其次,粒子濾波算法存在粒子的退化現(xiàn)象。
Chen S基于無人機環(huán)境(UAV),提出了在復(fù)雜室內(nèi)和室外跟蹤地面目標(biāo)的方法;Sun W[9]等提出了一種基于最小二乘法和智能避碰的行人跟蹤模型,提高了傳統(tǒng)的卡爾曼算法的精度。
對于運動物體預(yù)測方法的選擇,首先要考慮較常發(fā)生的問題,例如:遮擋、影子、背景干擾、重補丟失目標(biāo)等。在具體問題具體處理對應(yīng)情況后就可以考慮精度問題了,現(xiàn)有的算法大多數(shù)人都會選擇基于運動預(yù)測的跟蹤,這主要由于它獨特的優(yōu)越性以及不低的精度。
視頻監(jiān)控系統(tǒng)中車輛的識別和分類起著舉足輕重的作用,準(zhǔn)確、穩(wěn)健的對視頻圖像中的車輛進行分類識別是執(zhí)行其它更高層次的視覺任務(wù)的基礎(chǔ)。目標(biāo)識別可以看做是一個標(biāo)準(zhǔn)的模式識別過程,是在目標(biāo)檢測、跟蹤的基礎(chǔ)上進行的,首先根據(jù)實際的需要確定好要分的類別,從檢測到的目標(biāo)中提取合適的特征;然后根據(jù)選取的特征運用分類器進行分類,從而得到圖像中運動目標(biāo)的類型和數(shù)量。目前,現(xiàn)有的目標(biāo)分類識別算法主要包括:基于形狀信息的識別、基于運動信息的識別和二者混合的識別等方法。由于近年來詞袋模型以及深度學(xué)習(xí)的優(yōu)越,本文主要介紹這兩種方法而不對比其他方法的優(yōu)缺點。
詞袋模型從2005年開始被廣泛認(rèn)可,并在很多主流數(shù)據(jù)庫上和歷年的PASCAL VOC目標(biāo)識別競賽中都取得了較好的結(jié)果。詞袋模型最初產(chǎn)生于自然語言處理領(lǐng)域,通過建模文檔中單詞出現(xiàn)的頻率來對文檔進行描述與表達。Csurka等人于2004年首次將詞典的概念引入計算機視覺領(lǐng)域。由此大量的研究工作集中開始于詞袋模型的研究,并逐漸形成了由特征提取、特征聚類、特征編碼、特征匯集和分類器4部分組成的標(biāo)準(zhǔn)目標(biāo)分類框架。詞袋模型中大量的工作集中于在特征編碼和特征匯集方面。
深度學(xué)習(xí)模型不同于傳統(tǒng)目標(biāo)識別模型,其基本思想是通過有監(jiān)督學(xué)習(xí)或者無監(jiān)督的方式學(xué)習(xí)層次化的特征表達,來對目標(biāo)進行從底層到高層的描述。深度學(xué)習(xí)中的每一個節(jié)點代表一個神經(jīng)元,這種層次很好的符合了人腦的神經(jīng)元處理結(jié)構(gòu),并通過引入反饋機制模擬人腦的認(rèn)知過程。從2012年開始,深度學(xué)習(xí)模型取得了突破性的進展,在大規(guī)模數(shù)據(jù)庫ImageNet-1000上取得了比詞袋模型高出10%的分類精度,并且迅速成為研究熱點,并引領(lǐng)了近年的研究熱潮。
Zaki M H等利用最近鄰分類算法對上海雙行道的機動車、非機動車進行分類,從運動物體跟蹤軌跡中提取最大速度、步頻、加速度參數(shù)作為分類特征,經(jīng)檢驗,該方法的正確分類率高達93%;MVM Jayathilake等利用高斯混合模型對同質(zhì)和異質(zhì)交通環(huán)境視頻流中的車輛進行檢測和分類;Rad M S等使用深度學(xué)習(xí)模型對道路垃圾進行分類,并用其提出了道路清潔的指標(biāo);Sheikh M A A[10]等利用色彩特征和神經(jīng)網(wǎng)絡(luò)對道路標(biāo)識進行檢測、分類,正確分類率高達88%;García-Ordás M T等利用形狀描述符和機器學(xué)習(xí)技術(shù)對銑削過程中的刀具磨損水平進行分析和分類;Valiere P[11]等提出了一種適用于嚴(yán)重陰影和遮擋情況的車輛分類計數(shù)方法,精度高達98%;Zhu Z[12]等利用卷積神經(jīng)網(wǎng)絡(luò)對于交通標(biāo)識進行分類。
根據(jù)現(xiàn)有文獻,目前人體行為識別按照其研究對象的復(fù)雜程度可以分為四個層次:基元行為、單人行為、交互行為、群體行為。根據(jù)實際需要,可以分為行為分類和行為檢測。根據(jù)識別方法,可以分為單層次識別方法、多層次識別方法。本文將按照識別方法分類進行書寫。
單層次方法是一種基于序列圖像的人體行為表示和識別方法,該方法將人體看成是視頻中的動態(tài)目標(biāo),此時的人體目標(biāo)是一個動態(tài)事件,包含時間變化,而不是一個靜態(tài)物體,該方法十分適合人體姿態(tài)識別和具有時空特征的人體行為識別,此類方法常應(yīng)用于簡單行為識別。單層次方法又被分為時空表示法和序列表示法。
Ter-Sarkisov A[13]等利用Bootstrapping標(biāo)記數(shù)據(jù)集進行奶牛跟蹤和行為分析,該方法可以在混亂的背景使用,并區(qū)分出奶牛的基本行為;Yamamoto J[14]等提出基于頂視圖深度相機的客戶行為分析研究,精度高于89.5%;Wu Y[15]等運用迭代、回歸、計算機視覺等知識進行面部特征檢測和面部表情分析;Wu Y[16]等利用面部遮擋法同時進行面部標(biāo)志物檢測、姿勢和變形估計。
多層次方法是一種先將人的行為分解成為一些子行為或原子級動作,在這些自行為的基礎(chǔ)上構(gòu)建出高層復(fù)雜行為的識別方法。多層次方法適用于交互行為、群體行為和復(fù)雜行為的識別。多層次方法又被分為基于統(tǒng)計的方法、基于文法的方法和基于描述的方法。
Jensen J S等提出一種基于計算機視覺的智能系統(tǒng)中波束形成行為的合成與分析框架;Katsageorgiou V M等運用社會交往的知識進行小鼠的無監(jiān)督行為分析,并提出了mean-covariance限制玻爾茲曼機適用于抽象更高層次的行為這一結(jié)論;Kok V J等分別從物理學(xué)和生物學(xué)角度分析了計算機視覺用于群體行為分析的意義。
在行為識別研究前期,研究對象主要是在簡單場景下的單人行為,行為類別比較少,場景比較簡單,研究者們提出的行為識別方法大多集中在單人簡單行為的表達。在這段時間,出現(xiàn)了一些基于序列和基于時空體的經(jīng)典行為識別算法,為后期相對復(fù)雜的行為識別打下了堅實的基礎(chǔ)。在后期的行為識別中,研究對象相對比較復(fù)雜,除了從單人發(fā)展到多人、場景更加復(fù)雜外,數(shù)據(jù)庫的規(guī)模逐步擴大,數(shù)據(jù)類型也隨著計算機視覺及硬件技術(shù)的進步變得更加多樣化。
國內(nèi)在行為識別技術(shù)發(fā)展前期屬于空白階段,在近期逐步重視,但是多人交互行為研究仍待努力。國外的發(fā)展則更為全面,覆蓋時間更長。我國現(xiàn)階段行為分析方法主要發(fā)展多層次識別方法,單層次識別方法已經(jīng)基本完善。
計算機視覺是一個非常熱門的研究方向,結(jié)合自然語言、云計算、機器學(xué)習(xí)等技術(shù)在實際應(yīng)用中的使用更加廣泛。目前,運動物體檢測與識別方面已經(jīng)較完善,主要研究在于復(fù)雜環(huán)境的影響、突發(fā)情況的處理以及精度提升;運動物體分類識別方面近年來基本已經(jīng)被機器學(xué)習(xí)所獨占,比其他方法都要突出的精確率、簡單的思路、易實現(xiàn)的大數(shù)據(jù)平臺,這些優(yōu)越的條件使得運動物體分類識別領(lǐng)域在短期內(nèi)不會有過大的改變,因此,該方面在近期研究方向應(yīng)當(dāng)為優(yōu)化機器學(xué)習(xí)、無監(jiān)督學(xué)習(xí)的研究;行為分析方面是以上3個方面的綜合運用,是具有最大潛力的領(lǐng)域,因此,今后的發(fā)展方向為異常行為分析、多行業(yè)融合。總之,計算機視覺會得到各領(lǐng)域研究者們的持續(xù)關(guān)注,并在各個方面快速發(fā)展。