国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

室內(nèi)單目機(jī)器人視覺目標(biāo)發(fā)現(xiàn)與跟隨①

2018-02-07 02:41
關(guān)鍵詞:聚類像素機(jī)器人

駱 頗

(復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 120013)

隨著技術(shù)的發(fā)展,機(jī)器人逐步從最初的軍事、航天等領(lǐng)域逐步擴(kuò)展到工業(yè)制造,并向民用領(lǐng)域發(fā)展.服務(wù)機(jī)器人是機(jī)器人家族中一個(gè)較為年輕的成員,主要分為專業(yè)領(lǐng)域的服務(wù)機(jī)器人和個(gè)人服務(wù)機(jī)器人.服務(wù)機(jī)器人大多可以移動.在家用場景下存在著對目標(biāo)進(jìn)行發(fā)現(xiàn)和跟隨的需要.

本文研究室內(nèi)場景下低成本單目機(jī)器人上視覺目標(biāo)人的發(fā)現(xiàn)和跟隨.相關(guān)的研究工作在進(jìn)行目標(biāo)人追蹤時(shí)主要依賴人臉檢測[1],頭肩檢測[2]或者是目標(biāo)人手持彩色板[3]的方式進(jìn)行,應(yīng)用上存在較大局限.本文針對整個(gè)人進(jìn)行發(fā)現(xiàn)和追蹤,能夠適應(yīng)遮擋,不需要人為發(fā)出指令.本文主要研究場景變化檢測算法和視覺目標(biāo)追蹤算法,并介紹了目標(biāo)人檢測和主動跟隨的實(shí)現(xiàn)方法.

場景變化檢測算法分析可能出現(xiàn)人的圖像幀和區(qū)域.和此需要相關(guān)的主要是視頻分析領(lǐng)域,同時(shí)定位、建圖和運(yùn)動目標(biāo)追蹤 (Simultaneous Localization And Mapping and Moving Object Tracking,即 SLAMMOT)領(lǐng)域和多體運(yùn)動恢復(fù)結(jié)構(gòu)(Multibody Structure From Motion)領(lǐng)域.視頻分析的運(yùn)動區(qū)域檢測領(lǐng)域有大量的研究成果,方法主要有幀間差分法[4],光流法[5]和背景減除法[6].然而監(jiān)控視頻中的運(yùn)動分析方法主要適用于攝像頭固定的場景.多體運(yùn)動恢復(fù)結(jié)構(gòu)[7]和SLAMMOT[8]的研究主要利用投影幾何約束關(guān)系,結(jié)合光流或者是占用網(wǎng)格等方法來發(fā)現(xiàn)運(yùn)動物體并且進(jìn)行持續(xù)的追蹤.這兩種方法應(yīng)用于家庭場景的主要問題在于對家庭場景中常見的自運(yùn)動物體如風(fēng)扇、植物等比較敏感.本文針對本研究場景提出了基于關(guān)鍵場景的超像素聚類的候選運(yùn)動區(qū)域檢測算法.通過快速高效的場景變化檢測,為視覺目標(biāo)人檢測提供潛在變化幀和潛在變化區(qū)域,提高系統(tǒng)運(yùn)行速度,減少機(jī)器人卡頓.

視覺目標(biāo)追蹤領(lǐng)域近年來取得了很多新的研究成果[9-11].但是現(xiàn)有的研究成果主要面向攝像頭參數(shù)未知的場景,僅利用2維圖像信息來對目標(biāo)進(jìn)行建模和追蹤,并未考慮到圖像序列中包含的場景結(jié)構(gòu)信息.且目前的追蹤算法主要是通過檢測進(jìn)行追蹤,在模型更新的時(shí)候大多直接將當(dāng)前幀的目標(biāo)框內(nèi)的圖像認(rèn)為是屬于目標(biāo)的,未直接考慮遮擋、目標(biāo)框內(nèi)包含部分背景信息等問題.針對以上問題,本文研究結(jié)合表觀模型與機(jī)器人在同時(shí)定位和建圖時(shí)得到的場景信息,減少由于遮擋,目標(biāo)區(qū)域包含背景信息等原因?qū)е碌钠?

視覺目標(biāo)人檢測方面使用深度神經(jīng)網(wǎng)絡(luò).目標(biāo)檢測近二十年取得了很多的研究成果[12,13].尤其是在2012年以后,深度學(xué)習(xí)在目標(biāo)檢測問題上取得了較大突破[14].近幾年,研究人員提出了大量的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來解決目標(biāo)檢測問題[15-17].目前目標(biāo)檢測較好的神經(jīng)網(wǎng)絡(luò)需要使用計(jì)算顯卡來進(jìn)行運(yùn)算,而低成本機(jī)器人并不配備計(jì)算顯卡,且CPU的計(jì)算能力有限.本文針對室內(nèi)場景下人的檢測訓(xùn)練一個(gè)小型深度網(wǎng)絡(luò),在檢測效果和運(yùn)行速度方面取得一個(gè)較好的平衡.

1 系統(tǒng)概述

本系統(tǒng)總體分成三部分:相關(guān)Web頁面獲取模塊、Web信息抽取模塊、知識表示模塊.系統(tǒng)總體框圖如圖1所示.

圖1 系統(tǒng)總體框圖

在機(jī)器人采集到新的圖像幀之后,先進(jìn)行SLAM過程.本研究中SLAM模塊使用ORB_SLAM[18].待SLAM過程結(jié)束之后,如果SLAM過程判斷該位置是關(guān)鍵場景,則建立關(guān)鍵場景背景模型.在當(dāng)前幀同時(shí)進(jìn)行運(yùn)動區(qū)域的檢測.如果當(dāng)前幀存在顯著的運(yùn)動區(qū)域,則目標(biāo)人檢測算法在當(dāng)前幀的運(yùn)動區(qū)域進(jìn)行目標(biāo)人檢測.如果在當(dāng)前幀檢測到目標(biāo)人,視覺追蹤算法會持續(xù)追蹤該目標(biāo)人,并且為機(jī)器人的主動跟隨提供方向信息.在追蹤的過程中SLAM所獲取的場景信息可以用來輔助目標(biāo)追蹤算法.依據(jù)視覺目標(biāo)追蹤提供的目標(biāo)方向信息,控制機(jī)器人跟隨目標(biāo).

2 各模塊的算法設(shè)計(jì)與實(shí)現(xiàn)

2.1 場景變化檢測

本文研究的重點(diǎn)在于在常見的家庭場景,基于低成本的單目攝像機(jī)的機(jī)器人平臺來較好地完成對目標(biāo),主要是人,進(jìn)行跟隨的任務(wù).在跟隨任務(wù)中跟目標(biāo)保持一定距離.在單目SLAM能夠較為穩(wěn)定工作的假設(shè)下,在常見家庭場景下進(jìn)行運(yùn)動區(qū)域檢測的主要關(guān)注點(diǎn)在于有較高的運(yùn)行速度,對光照變化、自運(yùn)動、震動等具備良好的適應(yīng)性,能夠減少對目標(biāo)進(jìn)行較為耗時(shí)的檢測算法的調(diào)用.

基于應(yīng)用場景的需要,本文設(shè)計(jì)了基于關(guān)鍵場景的超像素聚類的候選運(yùn)動區(qū)域檢測算法.關(guān)鍵場景的選取依據(jù)SLAM過程中所分析出來的關(guān)鍵幀位置.采樣關(guān)鍵幀前后位置及關(guān)鍵幀圖像進(jìn)行超像素分割,并在HSI空間中對超像素進(jìn)行聚類,建立背景模型.當(dāng)機(jī)器人采集到新的圖像幀時(shí),將機(jī)器人采集的圖像進(jìn)行超像素分割,選取空間位置相鄰的場景模型,在HSI空間中相對于場景模型進(jìn)行聚類,依據(jù)與聚類中心和聚類半徑之間的關(guān)系計(jì)算超像素的背景概率.

2.1.1 場景模型

為了構(gòu)建關(guān)鍵場景的場景模型,在SLAM過程得到的關(guān)鍵場景(關(guān)鍵幀)位置,抽取臨近的p幀圖像,序號記為t.使用 SLIC (Simple Linear Iterative Clustering)[19]算法進(jìn)行超像素分割,在HSI空間中提取HS通道信息進(jìn)行聚類.算法步驟如下:

① 將第t幀圖像進(jìn)行超像素分割,得到Nt個(gè)超像素.每個(gè)超像素由一個(gè)特征向量來表示.

2.1.2 模型使用

當(dāng)新的圖像幀到達(dá)的時(shí)候,將新的圖像在RGB空間中分割為Nt個(gè)超像素.為了計(jì)算該幀每個(gè)像素屬于前景的概率,我們在HSI空間中評估每個(gè)超像素,并且計(jì)算對應(yīng)超像素對應(yīng)于空間位置最為相近的場景變化的概率,每個(gè)超像素的概率由它屬于哪個(gè)聚類和在特征空間中與聚類中心之間的距離這兩個(gè)因素決定.

第一個(gè)因素在于超像素相對于所屬的聚類clst(i)而言,該超像素是否位于聚類半徑內(nèi).第二個(gè)因素是一個(gè)權(quán)重因子,這個(gè)因子考慮了距離的影響.一個(gè)超像素的特征在特征空間中距離對應(yīng)的聚類中心越遠(yuǎn),那么這個(gè)超像素屬于該聚類的可能性越低,每個(gè)超像素的置信度由以下公式度量:

2.1.3 候選區(qū)域生成

依據(jù)針孔攝像頭模型,計(jì)算5米處1.5米高的直立人在圖像中的成像外接矩形面積.當(dāng)圖像幀中存在大于該面積1/3且概率大于0的連通區(qū)域,則認(rèn)為該幀是潛在運(yùn)動幀,該區(qū)域周圍一定范圍的區(qū)域?yàn)闈撛谀繕?biāo)區(qū)域.

2.1.4 模型在線學(xué)習(xí)

當(dāng)機(jī)器人重新進(jìn)入相似位置和場景的時(shí)候,在去除圖片中人的信息之后,將新抽取的H個(gè)圖像,加入訓(xùn)練圖像集.這個(gè)過程保留了過去在該場景下的多個(gè)圖像信息.每K次經(jīng)過該場景時(shí),使用保存的信息更新一次表觀模型.具體更新算法同訓(xùn)練過程.

2.1.5 算法實(shí)驗(yàn)

本文在錄制的3個(gè)室內(nèi)場景視頻中進(jìn)行了實(shí)驗(yàn).圖2為樣例圖.圖2(c)中的風(fēng)扇處于打開并轉(zhuǎn)動狀態(tài).

圖2 場景變化檢測樣例圖

表1為候選目標(biāo)區(qū)域檢測算法在測試數(shù)據(jù)上的表現(xiàn)結(jié)果.表中計(jì)算時(shí)間減少時(shí),對比基準(zhǔn)設(shè)定為每5幀執(zhí)行1次檢測算法.測試中候選目標(biāo)區(qū)域檢測算法的運(yùn)行速度為 39 fps.目標(biāo)檢測耗時(shí)為 0.73 s/幀.如果記候選目標(biāo)區(qū)域檢測算法每幀處理時(shí)間為t1,記檢測算法每幀處理時(shí)間為t2,檢測比為p.那么計(jì)算時(shí)間減少可以由以下公式計(jì)算得出:

表1 候選目標(biāo)區(qū)域檢測算法結(jié)果

表1中計(jì)算時(shí)間減少一欄結(jié)果表明,本文提出的基于關(guān)鍵場景超像素聚類的候選目標(biāo)區(qū)域檢測算法能夠有效減少調(diào)用檢測算法的次數(shù),降低了總體的計(jì)算時(shí)間.值得一提的是,減少調(diào)用檢測算法的次數(shù)不僅僅是降低總體的計(jì)算時(shí)間,更重要的是使得機(jī)器人在運(yùn)行的時(shí)候能夠較少卡頓,提高交互性.

我們分析了實(shí)驗(yàn)中誤報(bào)的幀,發(fā)現(xiàn)誤報(bào)主要集中在以下兩點(diǎn).第一點(diǎn)是如果相機(jī)對于場景遍歷比較稀疏,那么當(dāng)相機(jī)以不同的位置或朝向經(jīng)過類似場景的時(shí)候,圖像中所包含的場景區(qū)域不一樣,會有一些誤報(bào).第二點(diǎn)是在光線充足的鏡面反射區(qū)域,視角的輕微差距便會導(dǎo)致圖像有較大的區(qū)別,導(dǎo)致誤報(bào)較多.圖3是未遍歷場景誤報(bào)和鏡面反射誤報(bào).

圖3 (a)(b)為未遍歷場景誤報(bào);(c)(d)為鏡面反射誤報(bào)

從實(shí)驗(yàn)結(jié)果可以看到,本文設(shè)計(jì)的方法能夠顯著提高運(yùn)行速度.本文的算法優(yōu)點(diǎn)在于能夠適應(yīng)一定程度的光照變化,對于家庭場景中常見的自運(yùn)動物體具備良好的適應(yīng)性.本文設(shè)計(jì)的方法劣勢在于忽略了物體在場景中的相對位置信息如人從沙發(fā)上站起來,運(yùn)動區(qū)域檢測算法并不能夠魯棒地分析出該運(yùn)動.應(yīng)該認(rèn)識到的是,這個(gè)劣勢在本文的研究場景下并不會造成障礙.如果機(jī)器人一直在伴隨人,那么人的圖像信息會被過濾掉,并不會進(jìn)入背景模型.

2.2 視覺目標(biāo)人檢測

2.2.1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

目前目標(biāo)檢測較好的神經(jīng)網(wǎng)絡(luò)需要使用計(jì)算顯卡來進(jìn)行運(yùn)算,而低成本機(jī)器人并不配備計(jì)算顯卡,且CPU的計(jì)算能力有限.在本文的實(shí)驗(yàn)平臺上,使用大型的深度網(wǎng)絡(luò)yolo,檢測一幀640×480像素的圖片需要約10 s.而在家庭場景中進(jìn)行目標(biāo)人的發(fā)現(xiàn)并不需要支持1000類甚至更多類別的物體識別能力.因而需要一個(gè)對人的檢測效果較好且運(yùn)算速度快的神經(jīng)網(wǎng)絡(luò).本文中的目標(biāo)檢測網(wǎng)絡(luò)使用和tiny-yolo相同的網(wǎng)絡(luò)結(jié)構(gòu).tiny-yolo的創(chuàng)新之處是將檢測和定位問題轉(zhuǎn)換成一個(gè)回歸問題,只需要對圖像進(jìn)行一次處理就可以得到該圖像中包含的所有目標(biāo)的位置.tiny-yolo包含9個(gè)卷基層,其中前4個(gè)卷積層后面有一個(gè)2×2的最大值池化層.網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示.

圖4 tiny-yolo 網(wǎng)絡(luò)結(jié)構(gòu)[17]

2.2.2 數(shù)據(jù)

本文中神經(jīng)網(wǎng)絡(luò)的訓(xùn)練使用pascal voc(pascal visual object classes challenge)[20]數(shù)據(jù)集加上我們搜集人的圖片進(jìn)行訓(xùn)練,其中voc數(shù)據(jù)共16552張,我們搜集的人的數(shù)據(jù)共1897張,其中走廊場景241張,室內(nèi)場景1656張.voc中的圖像橫向的尺寸大多在500*375左右,縱向的尺寸大多在375*500左右.我們搜集的數(shù)據(jù)尺寸為460*640.樣例訓(xùn)練圖片如圖5所示.

圖5 訓(xùn)練數(shù)據(jù)樣例.(a)(b)來自 voc[20];(c)(d)是我們搜集的

測試數(shù)據(jù)使用我們標(biāo)注的室內(nèi)場景數(shù)據(jù)共482張,所有測試數(shù)據(jù)中的人均未在訓(xùn)練數(shù)據(jù)中出現(xiàn)過.樣例圖片如圖6所示.

圖6 測試數(shù)據(jù)樣例

2.2.3 算法實(shí)驗(yàn)

目標(biāo)檢測實(shí)驗(yàn)對比了tiny-yolo,yolo和我們的模型.在voc數(shù)據(jù)上訓(xùn)練得到的tiny-yolo模型記為tinyyolo-voc.我們在voc數(shù)據(jù)集和搜集的人數(shù)據(jù)上訓(xùn)練得到的模型記為tiny-yolo-voc-lab.tiny-yolo-voc和我們的模型使用同樣的訓(xùn)練參數(shù),區(qū)別在于我們的模型加入了更多的人的圖片.yolo模型使用作者提供的預(yù)訓(xùn)練的模型.評測指標(biāo)為 AP (Average Precision),AP 是PR(Precision Recall)曲線下面的面積.實(shí)驗(yàn)結(jié)果如表2所示.

表2 目標(biāo)檢測結(jié)果

檢測結(jié)果樣例如圖7.

圖7 目標(biāo)檢測結(jié)果樣例

實(shí)驗(yàn)結(jié)果表明,即使是網(wǎng)絡(luò)規(guī)模較小的神經(jīng)網(wǎng)絡(luò),在訓(xùn)練集中包含更多室內(nèi)場景下包含人的圖片時(shí),能夠取得較好的效果,縮小和大型神經(jīng)網(wǎng)絡(luò)的差距.

2.3 視覺目標(biāo)追蹤

本模塊算法詳細(xì)流程如圖8所示.目標(biāo)追蹤的過程為在當(dāng)前幀的前一幀的目標(biāo)位置周圍尋找目標(biāo).當(dāng)前幀的目標(biāo)位置為目標(biāo)概率最大的區(qū)域.由視覺表觀模型和地圖點(diǎn)信息共同決定每個(gè)像素屬于目標(biāo)的概率或者叫置信度.表觀模型部分使用超像素追蹤算法[21].

圖8 視覺目標(biāo)追蹤算法詳細(xì)流程

2.3.1 表觀模型

為了構(gòu)建目標(biāo)和背景的表觀模型,可以從m個(gè)訓(xùn)練幀中提取每個(gè)像素的標(biāo)簽信息.對于第t幀中坐標(biāo)位置為(x,y)的像素.我們可以得到該像素的標(biāo)簽:

在通常的追蹤場景下,這個(gè)信息難于獲得.在追蹤開始之前從一組樣本中推斷先驗(yàn)信息是一種可行的方式.以下方法可以用于從樣本中推斷超像素和目標(biāo)之前的關(guān)系.

① 將第t幀中的目標(biāo)周圍區(qū)域進(jìn)行超像素分割,得到Nt個(gè)超像素.每個(gè)超像素由一個(gè)特征向量來表示.

特征表示使用歸一化的HSI顏色空間直方圖.sp 代表super pixel(超像素),clst代表cluster(聚類).

使用超像素的優(yōu)點(diǎn)在于,即使有少量的背景超像素出現(xiàn)在目標(biāo)區(qū)域,它們大部分也會被聚類到背景超像素所在的聚類,且可以進(jìn)行逐像素的前景估計(jì).使用超像素的劣勢在于,隨著目標(biāo)的運(yùn)動,目標(biāo)的尺寸、形態(tài)的變化,目標(biāo)區(qū)域會被更多的背景超像素所占據(jù).因而模型在更新的過程中,更多的背景超像素被當(dāng)做目標(biāo),模型逐漸的就會漂移.本文結(jié)合SLAM過程所建立的地圖信息來處理模型偏移問題.

2.3.2 追蹤

2.3.2.1 表觀模型打分

當(dāng)新的圖像幀到達(dá)的時(shí)候,首先在前一幀的目標(biāo)區(qū)域周圍提取一個(gè)搜索區(qū)域,并且分割為Nt個(gè)超像素.為了計(jì)算該幀的置信度,我們評估每個(gè)超像素,并且計(jì)算對應(yīng)的得分,每個(gè)超像素的初始得分由它屬于哪個(gè)聚類和在特征空間中與聚類中心之間的距離這兩個(gè)因素決定.第一個(gè)因素在于如果一個(gè)超像素屬于聚類的前景置信度表明了該超像素屬于前景的可能性.第二個(gè)因素是一個(gè)權(quán)重因子,這個(gè)因子考慮了距離的影響.一個(gè)超像素的特征在特征空間中距離對應(yīng)的聚類中心越遠(yuǎn),那么這個(gè)超像素屬于該聚類的可能性越低,每個(gè)超像素的置信度由以下公式度量:

對于整個(gè)圖像幀,通過以下步驟得到每個(gè)像素的置信值.對于搜索區(qū)域內(nèi)每個(gè)屬于超像素的像素打分為對于搜索領(lǐng)域之外的像素打分為–1.

2.3.2.2 地圖點(diǎn)打分

依據(jù)表觀模型對新的圖像幀中的目標(biāo)領(lǐng)域進(jìn)行打分之后,依據(jù)SLAM所建模的地圖點(diǎn)信息,對于地圖點(diǎn)所在的超像素判斷是否屬于背景,進(jìn)而對置信度打分進(jìn)行調(diào)整.

在SLAM過程中計(jì)算得到的地圖點(diǎn)有兩個(gè)重要的信息:一是共見次數(shù);二是地圖點(diǎn)的位置.

共見次數(shù)就是某一個(gè)地圖點(diǎn)在多少個(gè)圖像幀中被發(fā)現(xiàn)到,即地圖點(diǎn)在該幀圖像中的投影點(diǎn)和多少幀中的投影點(diǎn)可以關(guān)聯(lián)上.目標(biāo)表面會存在邊界等能夠提取出角點(diǎn)的位置,且符合在不同圖像幀之間的幾何約束,但是運(yùn)動的目標(biāo)表面無法存在持續(xù)而穩(wěn)定的符合極點(diǎn)幾何的特征點(diǎn).使用簡單的可見次數(shù)閾值就可以過濾掉大部分錯(cuò)誤匹配的目標(biāo)表面角點(diǎn).地圖點(diǎn)周圍的超像素塊屬于背景的可能性隨著地圖點(diǎn)共見次數(shù)升高而降低.我們用以下公式來計(jì)算地圖點(diǎn)所在超像素塊的的置信度.

2.3.2.3 打分融合

表觀模型的得分和地圖點(diǎn)的得分通過求均值的方式進(jìn)行融合,融合的位置僅限地圖點(diǎn)周圍的超像素,沒有地圖點(diǎn)的超像素的打分僅由表觀模型決定.

2.3.2.4 遮擋判定

當(dāng)概率最大的目標(biāo)候選區(qū)域的平均置信度低于閾值且置信度較低的區(qū)域伴隨大量可靠地圖點(diǎn),即可判定目標(biāo)被遮擋.具體的遮擋程度以及目標(biāo)可見部分的位置和大小使用類似于camshift[22]中所使用的質(zhì)心法來估算.計(jì)算步驟如下:

① 以超像素為單位進(jìn)行高斯模糊.

② 使用meanshift尋找概率密度最高的區(qū)域.

④ 繼續(xù)步驟2和3直到收斂.

⑤ 如果步驟3得到的s低于當(dāng)前目標(biāo)尺寸一定閾值,則判定目標(biāo)遮擋

如果判斷目標(biāo)被遮擋,那么該幀的目標(biāo)圖像信息不會用來更新表觀模型.

2.3.3 表觀模型在線更新

表觀模型在線學(xué)習(xí)使用滑動窗口的學(xué)習(xí)模式.在追蹤過程中存儲H個(gè)圖像幀構(gòu)成的序列,每隔U個(gè)圖像幀,放入一個(gè)新的圖像幀進(jìn)入該序列,并且刪除序列中最老的幀.這個(gè)過程保留了過去H*U個(gè)圖像幀的一個(gè)記錄.對于這個(gè)序列中的每個(gè)幀,保留它的目標(biāo)狀態(tài)和超像素分割的結(jié)果.位于目標(biāo)區(qū)域外或者是地圖點(diǎn)判斷為屬于背景的的超像素作為負(fù)樣本,位于目標(biāo)區(qū)域內(nèi)且未被地圖點(diǎn)信息判斷為屬于背景的超像素作為正樣本.每W幀使用保存的信息更新一次表觀模型.具體更新算法同訓(xùn)練過程.

2.3.4 實(shí)驗(yàn)

本文主要的研究目的是幫助室內(nèi)機(jī)器人進(jìn)行目標(biāo)的主動跟隨,確定機(jī)器人路徑規(guī)劃的目標(biāo),機(jī)器人路徑規(guī)劃的目標(biāo)由視覺目標(biāo)追蹤算法提供.由于無法構(gòu)造完全一樣的場景和目標(biāo)移動過程來對比多個(gè)視覺目標(biāo)追蹤算法且目前常用的目標(biāo)追蹤數(shù)據(jù)集并不包含錄制時(shí)鏡頭內(nèi)參信息,而SLAM系統(tǒng)需要該信息來進(jìn)行建圖,故錄制實(shí)驗(yàn)數(shù)據(jù)集,本節(jié)實(shí)驗(yàn)在離線視頻上評估追蹤算法在應(yīng)對場景變化,目標(biāo)遮擋等問題時(shí)的表現(xiàn).

本文3段視頻上比較了4個(gè)算法,比較的4個(gè)算法是 CT (Compressive Tracking)[9],TLD (Tracking-Learning-Detection)[10],SPT (Super Pixel Tracking)[21],STRUCK (Structured output tracking with kernels)[23].

2.3.4.1 視覺目標(biāo)追蹤數(shù)據(jù)集

視頻數(shù)據(jù)集的錄制設(shè)備為iPhone 6s,自動對焦參數(shù)設(shè)置為 0.74F.數(shù)據(jù)集為 lab1,lab2,lab3.數(shù)據(jù)集錄制選取常見的室內(nèi)場景.視頻中的目標(biāo),主要為人在室內(nèi)正常的走動,過程中有不同程度的遮擋,尺度變化和光照變化.視頻如圖9所示.

2.3.4.2 視覺目標(biāo)追蹤評測指標(biāo)

實(shí)驗(yàn)結(jié)果使用兩個(gè)指標(biāo)來衡量.第一個(gè)評價(jià)指標(biāo)是成功率,幀內(nèi)追蹤得分為是追蹤算法得到的目標(biāo)框,ROIG是標(biāo)注的目標(biāo)真實(shí)位置.如果在某一個(gè)幀里的得分(score)大于0.5,則認(rèn)為該幀追蹤成功.第二個(gè)評價(jià)指標(biāo)是中心位置偏移 (center location error).偏移值為追蹤算法得到的目標(biāo)框中心坐標(biāo)和標(biāo)注的目標(biāo)中心之間的距離長度.

圖9 目標(biāo)追蹤的數(shù)據(jù)集.(a)Lab1 視頻中目標(biāo)短暫嚴(yán)重遮擋;(b)Lab2 視頻中目標(biāo)長期部分遮擋;(c)Lab3 視頻中目標(biāo)迅速且持續(xù)被嚴(yán)重遮擋

2.3.4.3 實(shí)驗(yàn)結(jié)果和分析

表3和4給出了算法評測結(jié)果.效果最好的用字體加粗來表示,效果次好的用斜體來表示.

從表3中可以看出,本文提出的基于單目SLAM的目標(biāo)追蹤算法的成功率在3個(gè)測試視頻中的1個(gè)視頻上取得第一,1個(gè)視頻上取得第二,1個(gè)視頻上與第二相差無幾的效果.尤其是本文提出的算法SPT+MapPoint,相對于SPT在長期部分遮擋的情況下取得了較大的提升.由于追蹤算法在丟失之后得出的目標(biāo)位置是隨機(jī)的,并不能很好的反映算法的定位能力,因而平均中心位置偏移在此僅列出,具體的價(jià)值需要由使用場景來確定.

表3 算法追蹤成功率 (單位:%)

表4 算法中心位置偏移 (單位:像素)

測試視頻Lab1中目標(biāo)有較為短暫的嚴(yán)重遮擋,TLD算法和CT算法逐步向背景漂移,STRUCK表現(xiàn)最好.TLD算法篩選出大量代表性正負(fù)樣例,在短期的嚴(yán)重遮擋并伴隨視角的快速變化的情況下,迅速丟失目標(biāo),但是當(dāng)目標(biāo)重新以相似視角出現(xiàn)時(shí)可以找回目標(biāo).CT算法由于采用了逐幀更新的模式,在遮擋之后迅速漂移,目標(biāo)重新出現(xiàn)之后無法找回.STRUCK篩選出的正負(fù)支撐向量能夠有效區(qū)分目標(biāo)和背景,在短暫的嚴(yán)重遮擋下表現(xiàn)最好.SPT算法由于在模型跟新的時(shí)候采取和CT類似的不加區(qū)分的將目標(biāo)框內(nèi)的圖像信息認(rèn)作是目標(biāo),迅速漂移.本文提出的SPT+MapPoint的算法能夠有效判斷遮擋,阻止不屬于目標(biāo)的圖像信息進(jìn)入模型,且在目標(biāo)脫離遮擋之后,重新追蹤成功.相對于SPT取得了顯著的42.75%的提升.

Lab2中目標(biāo)同時(shí)存在光照變化,部分遮擋和尺度變化.CT算法依舊最先漂移.TLD算法能夠較好處理尺度變化,但是對于目標(biāo)的外觀變化,光照變化等情況存在一些問題,當(dāng)這些問題同時(shí)出現(xiàn)的時(shí)候,算法的表現(xiàn)一般.STRUCK表現(xiàn)較好,但是在持續(xù)的遮擋情形下,也會逐步漂移.本文提出的算法SPT+MapPoint由于能夠較好的進(jìn)行遮擋判定,相對于SPT算法取得了74.68%的相對提升.

Lab3中目標(biāo)從最初的無遮擋到部分遮擋到最終被嚴(yán)重遮擋的變化過程很快,在這個(gè)過程中TLD算法最先丟失,CT 緊隨其后.STRUCK 算法表現(xiàn)最好.由于目標(biāo)很快被嚴(yán)重遮擋.本文提出的算法相比于SPT而言,沒有提升.

以上視頻的總體結(jié)果來看,在比較的四種算法中,STRUCK表現(xiàn)最好.本文提出的算法性能高于STRUCK或與STRUCK接近.但是相對于沒有利用地圖點(diǎn)信息的原始SPT算法而言,在利用地圖點(diǎn)信息之后,取得了非常明顯的提升.在家用機(jī)器人追蹤目標(biāo)的應(yīng)用場景下,面對經(jīng)常出現(xiàn)的長期部分遮擋,光線變化,目標(biāo)尺度變化等問題時(shí),本文提出的算法在實(shí)驗(yàn)數(shù)據(jù)上取得較好的成績.

2.4 機(jī)器人主動跟隨

2.4.1 跟隨目標(biāo)

由于單目攝像頭無法得到可靠的深度信息.視覺目標(biāo)追蹤算法僅能給機(jī)器人提供目標(biāo)相對于機(jī)器人正前方的角度偏移,因而機(jī)器人的主動跟隨的控制目標(biāo)是使得目標(biāo)人位于機(jī)器人攝像頭的水平成像中心上.

其中c代表機(jī)器人的控制指令,Ctx代表目標(biāo)在圖像中的水平位置,Cix代表圖像的水平中心點(diǎn).

2.4.2 跟隨實(shí)驗(yàn)

本文的主要研究內(nèi)容是目標(biāo)人的發(fā)現(xiàn)與視覺追蹤,并且實(shí)現(xiàn)機(jī)器人的主動跟隨,不涉及到機(jī)器人的全局路徑規(guī)劃和避障能力的研究.跟隨部分實(shí)現(xiàn)機(jī)器人在無障礙和有障礙兩種情形下的主動跟隨.

本研究基于的機(jī)器人平臺是小強(qiáng)機(jī)器人,其主要參數(shù)如表5所示.

表5 機(jī)器人平臺主要參數(shù)

圖10和圖11為機(jī)器人主動跟隨結(jié)果.機(jī)器人運(yùn)動控制的目標(biāo)是保持跟隨的人位于機(jī)器人攝像頭成像水平中心位置.在圖 10 和圖 11 中,人最初在右邊,機(jī)器人面朝人前進(jìn),當(dāng)人移動到左邊之后,機(jī)器人轉(zhuǎn)而向左前方前進(jìn).圖11中間圖中人被凳子遮擋.

圖10 無遮擋機(jī)器人主動跟隨實(shí)驗(yàn)結(jié)果

圖11 有遮擋機(jī)器人主動跟隨實(shí)驗(yàn)結(jié)果

3 結(jié)語

本文詳細(xì)介紹了在低成本輪式單目機(jī)器人上對于目標(biāo)人的視覺發(fā)現(xiàn)和跟隨的研究.本文主要研究了場景變化檢測算法和視覺目標(biāo)追蹤算法,并介紹了神經(jīng)網(wǎng)絡(luò)在單目機(jī)器人上進(jìn)行目標(biāo)人檢測的經(jīng)驗(yàn).實(shí)驗(yàn)表明結(jié)果表明基于關(guān)鍵場景的場景變化檢測算法運(yùn)行速度快 (39 fps),能夠有效減少檢測算法的運(yùn)行次數(shù),提高系統(tǒng)運(yùn)行效率,減少機(jī)器人卡頓.針對室內(nèi)場景下人進(jìn)行訓(xùn)練的小型深度網(wǎng)絡(luò)在檢測效果和運(yùn)行速度之間取得了較好的平衡,和大型深度網(wǎng)絡(luò)的差距不大.結(jié)合SLAM過程改進(jìn)的超像素追蹤算法能夠較好的處理遮擋,光照變化等問題.在實(shí)驗(yàn)平臺上,機(jī)器人在有障礙物存在的情況下成功跟隨人.

1 Feyrer S,Zell A.Detection,tracking,and pursuit of humans with an autonomous mobile robot. Proceedings of International Conference on Intelligent Robots and Systems(IROS’99).Kyongju,Korea.1999.864–869.

2 Hirai N,Mizoguchi H.Visual tracking of human back and shoulder for person following robot.Proceedings of 2003 IEEE/ASME International Conference on Advanced Intelligent Mechatronics.Kobe,Japan.IEEE.2003.527–532.

3 Hassan MS,Khan AF,Khan MW,et al.A computationally low cost vision based tracking algorithm for human following robot. Proceedings of the 2nd International Conference on Control,Automation and Robotics (ICCAR).Hong Kong,China.2016.62–65.

4 Collins RT,Lipton AJ,Kanade T,et al.A system for video surveillance and monitoring.Pittsburgh:Carnegie Mellon University,2000.

5 Lucas BD,Kanade T. An iterative image registration technique with an application to stereo vision.Proceedings of the 7th International Joint Conference on Artificial Intelligence.Vancouver,BC,Canada.1981.674–679.

6 Stauffer C,Grimson WEL.Adaptive background mixture models for real-time tracking. Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Fort Collins,CO,USA.1999.252.

7 Vidal R,Yi M,Soatto S,et al.Two-view multibody structure from motion. International Journal of Computer Vision,2006,68(1):7–25.[doi:10.1007/s11263-005-4839-7]

8 Wang CC,Thorpe CS,Thrun S,et al. Simultaneous localization,mapping and moving object tracking. The International Journal of Robotics Research,2007,26(9):889–916.[doi:10.1177/0278364907081229]

9 Zhang KH,Zhang L,Yang MH.Real-time compressive tracking.In:Fitzgibbon A,Lazebnik S,Perona P,et al,eds.European Conference on Computer Vision. Berlin,Heidelberg.Springer.2012.864–877.

10 Kalal Z,Mikolajczyk K,Matas J. Tracking-learningdetection. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(7):1409–1422.

11 Babenko B,Yang MH,Belongie S.Visual tracking with online multiple instance learning. Proceedings of IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA.2009.983–990.

12 Viola P,Jones Ml.Rapid object detection using a boosted cascade of simple features. Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Kauai,HI,USA.2001.I-511–I-518.

13 Dalal N,Triggs B.Histograms of oriented gradients for human detection.Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego,CA,USA.2005.886–893.

14 Krizhevsky A,Sutskever I,Hinton GE. Imagenet classification with deep convolutional neural networks.Proceedings of the 25th International Conference on Neural Information Processing Systems.Lake Tahoe,NV,USA.2012.1097–1105.

15 Girshick R,Donahue J,Darrell T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA.2014.580–587.

16 Girshick R.Fast R-CNN.Proceedings of IEEE International Conference on Computer Vision. Santiago,Chile. 2015.1440–1448.

17 Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV,USA.2016.779–788.

18 Mur-Artal R,Montiel JMM,Tardós JD.ORB-SLAM:A versatile and accurate monocular SLAM system. IEEE Transactions on Robotics,2015,31(5):1147 –1163.[doi:10.1109/TRO.2015.2463671]

19 Achanta R,Shaji A,Smith K,et al. SLIC superpixels compared to state-of-the-art superpixel methods. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11):2274–2282.[doi:10.1109/TPAMI.2012.120]

20 Everingham M,Van Gool L,Williams CKI,et al.The pascal visual object classes (voc)challenge.International Journal of Computer Vision,2010,88(2):303–338.[doi:10.1007/s11263-009-0275-4]

21 Wang S,Lu HC,Yang F,et al. Superpixel tracking.Proceedings of 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona,Spain. 2011.1323–1330.

22 Bradski GR. Real time face and object tracking as a component of a perceptual user interface.Proceedings of the Fourth IEEE Workshop on Applications of Computer Vision,1998.WACV’98.Princeton,NJ,USA.1998.214–219.

23 Hare S,Golodetz S,Saffari A,et al.Struck:Structured output tracking with kernels.IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(10):2096–2109.[doi:10.1109/TPAMI.2015.2509974]

猜你喜歡
聚類像素機(jī)器人
像素前線之“幻影”2000
“像素”仙人掌
數(shù)種基于SPSS統(tǒng)計(jì)工具的聚類算法效率對比
面向WSN的聚類頭選舉與維護(hù)協(xié)議的研究綜述
改進(jìn)K均值聚類算法
基于Spark平臺的K-means聚類算法改進(jìn)及并行化實(shí)現(xiàn)
高像素不是全部
機(jī)器人來幫你
認(rèn)識機(jī)器人
機(jī)器人來啦