鄒香玲 門 威
(河南廣播電視大學(xué),河南 鄭州 450046)
智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測的研究
鄒香玲 門 威
(河南廣播電視大學(xué),河南 鄭州 450046)
基于視頻監(jiān)控技術(shù)和物聯(lián)網(wǎng)技術(shù)的智慧視頻感知應(yīng)用體系,是智慧城市建設(shè)的重要組成部分,更是整個智慧城市感知體系的關(guān)鍵部分和重要的信息來源。本文擬基于深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行復(fù)雜場景下目標(biāo)檢測的相關(guān)研究,從認(rèn)知角度、更高層次地、更抽象地融入上下文信息對于目標(biāo)輔助刻畫目標(biāo)本身具有更為重要的作用,從而提高復(fù)雜背景下目標(biāo)檢測的準(zhǔn)確性;針對復(fù)雜場景中目標(biāo)多視角問題,擬提出利用GBRF改進基于隨機森林的局部圖像塊聚類方法,基于傳統(tǒng)霍夫投票目標(biāo)檢測框架,提出一種適用于多視角目標(biāo)的加權(quán)投票檢測方法,并利用多類線性SVM學(xué)習(xí)不同視角下投票組合權(quán)重,從而提高復(fù)雜場景下,多視角目標(biāo)檢測的準(zhǔn)確性。
智慧視頻;復(fù)雜環(huán)境;目標(biāo)檢測
基于視頻信息的目標(biāo)檢測和視頻數(shù)據(jù)壓縮是計算機視覺的重要研究方向,該技術(shù)能廣泛適應(yīng)于目標(biāo)跟蹤、物體檢測和識別、情報分析、圖像檢索、信息安全、物聯(lián)網(wǎng)等學(xué)科和工程應(yīng)用領(lǐng)域;是《國家自然科學(xué)基金“十三五”發(fā)展規(guī)劃》中重點支持的研究方向和信息科學(xué)學(xué)部優(yōu)先發(fā)展領(lǐng)域(第十二項網(wǎng)絡(luò)數(shù)據(jù)挖掘與理解),同時也是《國家中長期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要》前沿技術(shù)類智能感知技術(shù)方向,對智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測進行深入的開發(fā)和研究,對機器學(xué)習(xí)、視頻圖像處理、數(shù)據(jù)挖掘等學(xué)科和領(lǐng)域的發(fā)展具有重要促進作用。
智慧視頻感知中復(fù)雜環(huán)境下的目標(biāo)檢測,對于智慧城市電子平臺建設(shè)以及城市資源分配具有很強的社會意義和經(jīng)濟意義。智慧視頻感知中復(fù)雜環(huán)境下的目標(biāo)檢測,能夠有效獲取城市中攝像機場景內(nèi)出現(xiàn)的關(guān)注目標(biāo),同時對檢測到的關(guān)注目標(biāo)的種類、顏色、特征、速度等其他相關(guān)細(xì)節(jié)進行處理和分析,為智慧視頻感知的應(yīng)用系統(tǒng)中的大數(shù)據(jù)應(yīng)用積累原始的、可識別的信息基礎(chǔ),實現(xiàn)對圖像視頻中所含信息數(shù)據(jù)的智能分析與情報服務(wù),從而能有效根據(jù)城市實時情況自適應(yīng)地進行流量控制、移動目標(biāo)的智能交通、城市資源分配、城市安防檢測、電子商務(wù)、身份管理等,極大提高資源分配的效率和合理性,有利于提升政府管理水平。
智慧視頻感知中復(fù)雜環(huán)境下的目標(biāo)檢測,是當(dāng)今信息時代和將來相當(dāng)長一段時間的研究熱點,對于智慧城市中的智慧視頻感知來說極其重要,是實現(xiàn)系統(tǒng)智能化的基礎(chǔ),提供了系統(tǒng)識別和利用圖像數(shù)據(jù)信息的能力。
復(fù)雜環(huán)境下的目標(biāo)檢測由于城市場景中目標(biāo)自身類型變化大(如剛性/非剛性形變、視角差異)、目標(biāo)所處環(huán)境復(fù)雜(如光照、遮擋)等造成了對該問題的研究一直面臨嚴(yán)峻的挑戰(zhàn)。目前國內(nèi)外的眾多研究者都從不同角度對該問題進行了研究。Felzenszwalb等人在傳統(tǒng)畫報模型的基礎(chǔ)上,提出了基于部件的目標(biāo)檢測模型,它既考慮了部件的局部外觀信息,也加入了各部件相對于目標(biāo)中心的位置形變約束。[1]該模型能容忍一定的幾何形變和遮擋問題,但是它對如何將目標(biāo)劃分為多個部件以及形變和遮擋情況下多個部件間的相互約束關(guān)系表達不夠充分,同時該模型中各部件對整體目標(biāo)檢測的重要性并沒有做出區(qū)分?;贖ough投票的目標(biāo)檢測算法,該方法首先基于特征點將圖像劃分為很多小塊,然后利用大量樣本的圖像塊聚類得到視覺單詞,最后利用單詞在檢測圖像中對目標(biāo)中心位置和尺度進行投票,并最終確定目標(biāo)中心。該類方法簡單、高效,但單詞之間關(guān)系獨立,上下文信息并未得到利用,在大的形變和遮擋情況下效果并不理想。在此基礎(chǔ)上用樹結(jié)構(gòu)組織單詞,加快檢測速度,但在形變和遮擋情況下單詞之間的約束關(guān)系并沒有充分表達。在對遮擋的處理中,Xiaoyu Wang提出了一種利用LBP+HOG特征,通過部件遮擋的關(guān)聯(lián)圖建立聯(lián)合全局目標(biāo)檢測和局部部件區(qū)域檢測的目標(biāo)檢測算法,該算法雖然顯示建立了部件及整體的遮擋關(guān)系,但是局限性很大,對更復(fù)雜場景并不適用。為了設(shè)計適合于復(fù)雜背景下的目標(biāo)檢測算法,特別是針對形變和遮擋問題,必須對傳統(tǒng)目標(biāo)檢測算法進行改進,
傳統(tǒng)的基于全局窗口的檢測算法已不再適用,不論是處理形變還是遮擋問題,目標(biāo)的全局信息已經(jīng)發(fā)生了很大的變化,但是目標(biāo)內(nèi)部很多區(qū)域信息卻變化不大。Martin Bergtholdt[2]提出一種基于部件的檢測模型,并用完全圖建立了部件之間的關(guān)聯(lián),最后利用上下文信息在圖上進行MAP推理,得到檢測目標(biāo)?;趫D模型的算法可以很好建立部件之間的上下文信息,但是此類算法訓(xùn)練和檢測過程時間復(fù)雜度太大,不能很好滿足實際需求;對于各種不同目標(biāo),確定部件劃分和部件對目標(biāo)整體檢測的貢獻也是研究者重點關(guān)注的問題。P.Felzenszwalb直接利用LSVM對樣本進行訓(xùn)練,自動聚類學(xué)習(xí)部件,但是在形變較大且無監(jiān)督情況下,部件聚類效果并不理想。RoozbehMottaghi[3]提出了無監(jiān)督的針對不規(guī)則形變目標(biāo)的部件劃分方法,其具體做法是利用HOG bundles[4],結(jié)合統(tǒng)計的幾何信息和外觀信息,建立部件模型。在復(fù)雜背景下,如何建立部件與目標(biāo)整體、部件與部件之間的上下文約束是當(dāng)前研究的熱點。為了處理目標(biāo)形變,基于星型模型建立了各部件位置和目標(biāo)中心的幾何約束關(guān)系。但在實際應(yīng)用中,星型模型不足以描述這種幾何約束,為此提出了完全圖模型,但該類方法由于其極大的時間和空間開銷限制了該類算法的實際應(yīng)用。近年來,深度學(xué)習(xí)模型越來越多地被應(yīng)用于目標(biāo)檢測領(lǐng)域,其中Marc'Aurelio Ranzato[5]將深度學(xué)習(xí)用于目標(biāo)識別,利用RBM來構(gòu)建深度網(wǎng)絡(luò)模型,學(xué)習(xí)了部件之間的依賴關(guān)系。王曉剛團隊利用深度網(wǎng)絡(luò)模型建立了目標(biāo)部件之間的可見關(guān)系,很好地處理了遮擋情況下的行人檢測問題。雖然當(dāng)前方法取得了一定的成果,但與真正的人類視覺系統(tǒng)還有一定的差距,不能滿足在復(fù)雜場景中,準(zhǔn)確進行目標(biāo)檢測,無法滿足現(xiàn)實生活中實際應(yīng)用的需求。
本文主要從理論和應(yīng)用兩個方面進行研究,理論研究針對智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測的關(guān)鍵技術(shù)問題進行深入研究,擬沿著傳統(tǒng)的機器學(xué)習(xí)方法和深度學(xué)習(xí)方法兩條技術(shù)路線提出有效的智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測算法。應(yīng)用研究是把該項目產(chǎn)品以全新的角度通過情報服務(wù)應(yīng)用于智慧城市中資源分配、安全預(yù)警等眾多領(lǐng)域。
(一)理論上主要是解決智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測的關(guān)鍵問題
1.擬基于深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行復(fù)雜場景下目標(biāo)檢測的相關(guān)研究,基于上下文信息的目標(biāo)檢測主要從兩個層面上進行上下文信息的遷移融入。一方面是針對原始圖像本身的目標(biāo)上下文信息的融合;另一方面是首先對原始圖像進行相應(yīng)處理,在處理后獲得更高抽象層次的圖像信息,然后在此基礎(chǔ)上完成更抽象的上下文信息的遷移融合。本文是針對當(dāng)前已有的基于遷移學(xué)習(xí)中沒有重視利用上下文信息進行遷移學(xué)習(xí)的一個有效補充,特別是關(guān)于第二方面利用更高層次的上下文信息的遷移研究,從認(rèn)知角度、更高層次的、更抽象的上下文信息對于目標(biāo)輔助刻畫目標(biāo)本身具有更為重要的作用。利用深度學(xué)習(xí)的CNN從數(shù)據(jù)本身進行多層次的特征提取,能夠更準(zhǔn)確地刻畫目標(biāo)本征,從而提高目標(biāo)檢測的準(zhǔn)確性。
2.針對復(fù)雜場景中目標(biāo)自身移動或者拍攝位置不同,導(dǎo)致最終目標(biāo)在圖像/視頻中以多種不同視角呈現(xiàn)的問題。首先擬提出利用GBRF改進基于隨機森林的局部圖像塊聚類方法,給出一種緊致性視覺單詞定義方法;然后,基于生成的緊致性視覺單詞集,擴展傳統(tǒng)霍夫投票目標(biāo)檢測框架,提出一種適用于多視角目標(biāo)的加權(quán)投票檢測方法,通過投票組合權(quán)重約束投票單元對不同視角目標(biāo)的貢獻;最后,給出一種無監(jiān)督視角子類劃分方法,并利用多類線性SVM學(xué)習(xí)不同視角下投票組合權(quán)重,從而提高復(fù)雜場景下,多視角目標(biāo)檢測的準(zhǔn)確性。
(二)利用智慧視頻感知中復(fù)雜環(huán)境下的目標(biāo)檢測的智能分析系統(tǒng)獲取相關(guān)情報信息的應(yīng)用
目前,國內(nèi)外的應(yīng)用設(shè)計相對層次都較低,大多需要人為干預(yù)和監(jiān)督,自動化程度較低,往往會因為人為疏忽導(dǎo)致重要的數(shù)據(jù)信息遺漏,不利于大規(guī)模推廣應(yīng)用。利用基于視頻的相應(yīng)圖像處理技術(shù),能自動實現(xiàn)相應(yīng)目標(biāo)檢測,提高其應(yīng)用的自動化程度,從而易于操作和推廣。該系統(tǒng)基于獲取的視頻信息,通過對現(xiàn)有數(shù)據(jù)的智能分析,能自適應(yīng)地提供更為豐富的多樣化的情報服務(wù),實現(xiàn)智慧城市中資源的合理高效快速分配,極大提高智慧城市中相應(yīng)資源的使用效率。比如利用獲取的視頻信息的智能分析,通過情報服務(wù)實現(xiàn)車流疏導(dǎo)、車位???、貨物和行李存放、人流疏導(dǎo)、安全預(yù)警等。
智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測的研究內(nèi)容包含復(fù)雜場景下如何針對視頻或圖片進行相關(guān)的目標(biāo)檢測,以及在目標(biāo)檢測的基礎(chǔ)上利用感知獲取的相關(guān)信息進行智能分析?;谝曨l信息的復(fù)雜環(huán)境下目標(biāo)檢測及智能分析主要是提供基于視頻的城市目標(biāo)檢測和智能分析模塊,集成到智慧城市的整體系統(tǒng)中,以便增加智慧城市中基于視頻數(shù)據(jù)的智能分析能力,提升智慧城市建設(shè)的競爭力。智慧城市的智能分析系統(tǒng)是在智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測的基礎(chǔ)上,通過對其相應(yīng)數(shù)據(jù)的分析結(jié)果進行自動播報,內(nèi)容確認(rèn)、監(jiān)聽和校對,以及預(yù)警、權(quán)限管理、決策管理等情報服務(wù)。[6]
具體兩個子模塊的設(shè)計如下:智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測及智能分析,通過對視頻進行分析,從而獲得相應(yīng)的識別結(jié)果。智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測及智能分析系統(tǒng)組織結(jié)構(gòu)圖如1圖所示,其模塊內(nèi)容包括如下幾個方面。
圖1 智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測及智能分析系統(tǒng)三層結(jié)構(gòu)
(1)前景檢測:包括城市中復(fù)雜場景下目標(biāo)的檢測。
(2)目標(biāo)分割:將諸如車輛、行人等移動目標(biāo)從前景檢測結(jié)果中分割出來。
(3)行人目標(biāo)檢測:將前景團塊中屬于行人的目標(biāo)檢測出來。
(4)車輛目標(biāo)檢測:將前景團塊中屬于車輛的目標(biāo)檢測出來。
(5)行李或貨物目標(biāo)檢測:將前景團塊中屬于行李或貨物的目標(biāo)檢測出來。
(6)其他地面目標(biāo):根據(jù)智慧城市的具體要求進行相關(guān)目標(biāo)的檢測。
(7)人臉檢測:對行人的人臉定位,以便識別人臉更精細(xì)的特征。
(8)目標(biāo)識別:首先根據(jù)用戶宏觀特征識別的需求,對輸入的包含航空港地面目標(biāo)的清晰畫面進行宏觀特征區(qū)域的選擇(比如車形,車系,行人衣著、人群密度、車流人流運動趨勢、外貌等),然后對特征區(qū)域進行識別并且將結(jié)果轉(zhuǎn)換為文字形式。
基于視頻的目標(biāo)檢測是目標(biāo)跟蹤的前提,對于復(fù)雜場景下,研究融合目標(biāo)場景的上下文信息能更為準(zhǔn)確地檢測遷移目標(biāo),利用與目標(biāo)相關(guān)的上下文信息和CNN技術(shù)實現(xiàn)不同的地面多目標(biāo)檢測。針對復(fù)雜場景中目標(biāo)自身移動或者拍攝位置不同,導(dǎo)致最終目標(biāo)在圖像/視頻中以多種不同視角呈現(xiàn)的問題,利用GBRF改進聚類方法等實現(xiàn)多視角的目標(biāo)檢測。
智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測的技術(shù)路線主要從基于傳統(tǒng)機器學(xué)習(xí)的目標(biāo)檢測和基于深度學(xué)習(xí)的目標(biāo)檢測兩方面進行論述。
1.針對復(fù)雜場景下基于傳統(tǒng)的機器學(xué)習(xí)方法的目標(biāo)檢測
對于多視角的目標(biāo)檢測擬采用GBRF改進基于隨機森林的局部圖像塊聚類方法,給出一種緊致性視覺單詞定義方法;然后,基于生成的緊致性視覺單詞集,擴展傳統(tǒng)霍夫投票目標(biāo)檢測框架,提出一種適用于多視角目標(biāo)的加權(quán)投票檢測方法,通過投票組合權(quán)重約束投票單元對不同視角目標(biāo)的貢獻;最后,給出了一種無監(jiān)督視角子類劃分方法,并利用多類線性SVM學(xué)習(xí)不同視角下投票組合權(quán)重,從而提高復(fù)雜場景下,多視角目標(biāo)檢測的準(zhǔn)確性。其具體流程包括:(1)在樣本圖像中隨機提取局部圖像塊,構(gòu)成訓(xùn)練集合,類似ISM方法,正樣例局部圖像塊標(biāo)記其相對目標(biāo)圖像中心的偏移向量。(2)利用GBRF,訓(xùn)練局基于部圖像塊的視覺單詞。類似霍夫森林中利用隨機森林訓(xùn)練視覺單詞的做法,在利用GBRF逐層劃分圖像塊集合過程中,節(jié)點分裂函數(shù)需通過交替優(yōu)化節(jié)點圖像塊集合類純度和節(jié)點中正樣例局部圖像塊相對偏移向量的偏離平方差得到視覺單詞的判別力。(3)對訓(xùn)練好的森林中每個葉子節(jié)點中圖像塊集合,利用聚類算法對其劃分成不同子集,每個顯著的子集被定義為一個視覺單詞,最終構(gòu)成一種緊致的視覺單詞集。(4)檢測過程中,先遍歷測試圖像中所有圖像塊,然后利用構(gòu)建的GBRF建立測試圖像塊和視覺單詞的匹配關(guān)系,并計算每個視覺單詞對假設(shè)中心位置的投票分值,最終利用不同視角下的投票組合權(quán)重,組合各單詞投票分值,并在霍夫空間對應(yīng)位置記錄各視角中最大的那個投票分值。(5)類似ISM 方法,利用Mean-Shift算法在霍夫空間找到真正的目標(biāo)中心。整體流程如圖2所示,主要包含局部圖像塊提取、視覺單詞生成和加權(quán)投票三部分。
圖 2智慧視頻感知中復(fù)雜環(huán)境下基于傳統(tǒng)機器學(xué)習(xí)的目標(biāo)檢測方法流程
2.沿著基于深度學(xué)習(xí)的目標(biāo)檢測
在復(fù)雜背景下,利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進行目標(biāo)檢測。研究如何在特定場景下,利用CNN獲得的高層圖像表達完成上下文表示,并利用學(xué)習(xí)的自適應(yīng)上下文信息,輔助進行目標(biāo)檢測。提出了復(fù)雜場景下基于上下文信息的CNN目標(biāo)檢測模型。整體框架主要包含訓(xùn)練階段和檢測階段兩步。第一步,訓(xùn)練自適應(yīng)的上下文特征選擇模型,在特定場景下,提取目標(biāo)圖像及其上下文圖像的兩組CNN特征圖;在同一尺度下,計算兩組特征圖間的差異;記錄并統(tǒng)計所有樣本差異度小于設(shè)定閾值的特征圖位置索引;選取有效的上下文CNN特征圖的位置索引。第二步,在獲取自適應(yīng)的上下文特征選擇模型的基礎(chǔ)上,訓(xùn)練基于自適應(yīng)上下文信息的CNN目標(biāo)檢測模型。
本文在復(fù)雜場景中目標(biāo)檢測的基礎(chǔ)上提出了智能分析系統(tǒng),該系統(tǒng)擬解決以下幾個關(guān)鍵問題:(1)根據(jù)智能分析的結(jié)果自動進行決策管理。比如利用相應(yīng)的復(fù)雜場景中獲取的各類目標(biāo)信息,利用網(wǎng)絡(luò)化特點對城市中大范圍內(nèi)出現(xiàn)的相應(yīng)檢測目標(biāo)進行關(guān)聯(lián),有效分析檢測目標(biāo)的實時狀態(tài),并對檢測信息進行智能分析。(2)能夠根據(jù)歷史數(shù)據(jù)進行自主學(xué)習(xí),進行常規(guī)性信息服務(wù),如根據(jù)城市中日常不同目標(biāo)的分布特點;自主學(xué)習(xí)其運動規(guī)律分布情況,從而結(jié)合歷史規(guī)律進行常規(guī)性的信息服務(wù),比如相應(yīng)路段的智能交通服務(wù)等。
基于視頻監(jiān)控技術(shù)和物聯(lián)網(wǎng)技術(shù)的智慧視頻感知應(yīng)用體系是智慧城市建設(shè)的重要組成部分,也是城市管理公共服務(wù)及應(yīng)急指揮的核心支撐平臺,更是整個智慧城市感知體系的關(guān)鍵部分和重要的信息來源。智慧視頻感知中復(fù)雜環(huán)境下的目標(biāo)檢測及智能分析是智慧視頻感知的基礎(chǔ),后期會在此基礎(chǔ)上進行進一步的研究。
[1]高華,鄔春學(xué),魯俊.基于動態(tài)加權(quán)可變形部件模型的行人檢測[J].電子科技,2016,29(9):1-3.
[2]陳凡,童瑩,曹雪虹.復(fù)雜環(huán)境下基于視覺顯著性的人臉目標(biāo)檢測[J].計算機技術(shù)與發(fā)展,2017,(1):48-52.
[3]梁義濤,張德善.復(fù)雜環(huán)境下運動目標(biāo)檢測的改進算法[J].河南科技學(xué)院學(xué)報(自然科學(xué)版),2015,43(5):53-57.
[4]沈翀.復(fù)雜視頻監(jiān)控環(huán)境下的運動目標(biāo)檢測與跟蹤算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2015.
[5]伍妍妮,潘煉,王薇.基于分形特征的復(fù)雜環(huán)境目標(biāo)檢測方法研究[J].計算機測量與控制,2014,22(5):1327-1329.
[6]羅浩,袁杰,都思丹,等.復(fù)雜環(huán)境下視頻目標(biāo)檢測及其在交通系統(tǒng)中的應(yīng)用[J].交通信息與安全,2005,23(5):56-59.
TP391.41
A
1671-2862(2017)03-0104-05
2017-03-12
本文系2017年度河南省科技廳課題“智慧視頻感知中復(fù)雜環(huán)境下目標(biāo)檢測及智能分析系統(tǒng)”(課題編號:172102210236),2016年度河南省教育廳課題“基于云計算解決方案的河南省志愿服務(wù)信息云平臺的研究設(shè)計與構(gòu)建”(課題編號:16B520008)的研究成果。
鄒香玲,女,河南沈丘人,碩士研究生,河南廣播電視大學(xué)助教,研究方向:計算機軟件;門威,男,河南永城人,碩士研究生,河南廣播電視大學(xué)助教,研究方向:云計算、軟件工程。