謝 瀟,朱 慶,張葉廷,周 艷,許偉平,吳 晨.武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北武漢30079;2.慕尼黑工業(yè)大學(xué)地圖制圖系,德國(guó)慕尼黑80333;3.西南交通大學(xué)地球科學(xué)與環(huán)境工程學(xué)院,四川成都6003;.電子科技大學(xué)資源與環(huán)境學(xué)院,四川成都673
多層次地理視頻語(yǔ)義模型
謝 瀟1,2,朱 慶3,1,張葉廷1,周 艷4,許偉平1,吳 晨1
1.武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北武漢430079;2.慕尼黑工業(yè)大學(xué)地圖制圖系,德國(guó)慕尼黑80333;3.西南交通大學(xué)地球科學(xué)與環(huán)境工程學(xué)院,四川成都610031;4.電子科技大學(xué)資源與環(huán)境學(xué)院,四川成都611731
針對(duì)公共安全應(yīng)急響應(yīng)中支持推理、挖掘和關(guān)聯(lián)分析的地理視頻建模難題,提出了一種顯式表達(dá)視頻變化的多層次地理視頻語(yǔ)義模型,并用UML圖進(jìn)行描述。該模型的特點(diǎn)是:改變了傳統(tǒng)視頻流整體語(yǔ)義描述方法,通過(guò)面向變化的三域(特征域-行為過(guò)程域-事件域)定義地理視頻語(yǔ)義的層次結(jié)構(gòu)和數(shù)據(jù)的層次表達(dá);在各層次語(yǔ)義描述中將地理環(huán)境語(yǔ)義與視頻內(nèi)容語(yǔ)義有機(jī)結(jié)合,支持多地理視頻數(shù)據(jù)的關(guān)聯(lián)表示。以公共安全事件監(jiān)控視頻為例闡明了模型的實(shí)用性和有效性。
視頻GIS;地理視頻;語(yǔ)義模型;事件;時(shí)空關(guān)聯(lián)
地理視頻(geovideo)是包含地理時(shí)空信息的視頻數(shù)據(jù)。它具有對(duì)地理空間動(dòng)態(tài)、實(shí)時(shí)和真實(shí)感表達(dá)的優(yōu)勢(shì),符合人類直觀感知和認(rèn)知特點(diǎn),是智慧城市與城市安全領(lǐng)域廣泛采用的關(guān)鍵信息內(nèi)容。復(fù)雜城市環(huán)境中公共安全事件呈現(xiàn)出多尺度流動(dòng)、多階段演化以及時(shí)空并發(fā)與不確定等新特性,公共安全應(yīng)急響應(yīng)亟須突破傳統(tǒng)分散獨(dú)立存檔和局部解析分析的視頻表示與處理方式,實(shí)現(xiàn)支持推理、挖掘和關(guān)聯(lián)分析的地理視頻建模。
現(xiàn)有地理視頻建模研究主要集中在地理信息系統(tǒng)和計(jì)算機(jī)兩個(gè)領(lǐng)域。
GIS領(lǐng)域的相關(guān)研究成果主要面向視頻數(shù)據(jù)與空間數(shù)據(jù)的關(guān)聯(lián)表示,其中,空間數(shù)據(jù)主要采用全球定位系統(tǒng)獲取的攝像機(jī)空間參考信息?,F(xiàn)有研究成果根據(jù)關(guān)聯(lián)方式的不同可以分為時(shí)間關(guān)聯(lián)模式和位置關(guān)聯(lián)模式兩類:①時(shí)間關(guān)聯(lián)模式,其特點(diǎn)是以時(shí)間戳為基準(zhǔn),通過(guò)時(shí)間索引實(shí)現(xiàn)視頻數(shù)據(jù)與GPS定位信息的同步關(guān)聯(lián);②位置關(guān)聯(lián)模式,其特點(diǎn)是以相機(jī)定位信息為基礎(chǔ)進(jìn)行視頻關(guān)聯(lián)。根據(jù)實(shí)現(xiàn)方法的不同,位置關(guān)聯(lián)模式的研究成果又可分為兩類:一類是通過(guò)視頻與GPS定位信息的實(shí)時(shí)調(diào)制實(shí)現(xiàn)二者的關(guān)聯(lián),代表性成果包括在音頻信道上調(diào)制GPS信號(hào)[1]以及利用高級(jí)流媒體格式(advanced systems format,ASF)實(shí)現(xiàn)定位信息、視頻音頻信息的調(diào)制編碼[2];另一類是通過(guò)在攝像機(jī)定位信息基礎(chǔ)上擴(kuò)展幾何、專題、屬性、語(yǔ)義標(biāo)注等元數(shù)據(jù)實(shí)現(xiàn)視頻數(shù)據(jù)與空間數(shù)據(jù)的關(guān)聯(lián),代表性成果包括擴(kuò)展攝像機(jī)的地址屬性與GPS定位信息[34],擴(kuò)展相機(jī)GPS定位、姿態(tài)和成像參數(shù)信息[5-6],擴(kuò)展成像的視椎體、視景體模型等[7]。
計(jì)算機(jī)領(lǐng)域的相關(guān)研究,則主要側(cè)重視頻內(nèi)容中的地理對(duì)象及其局部時(shí)空關(guān)系建模。這些對(duì)象包括了圖形對(duì)象和語(yǔ)義對(duì)象。根據(jù)建模內(nèi)容的側(cè)重點(diǎn)的不同可分為3類:①側(cè)重離散視頻幀記錄的實(shí)體對(duì)象及對(duì)象間空間關(guān)系表示[6,8-10],這類研究成果可支持視頻圖像中對(duì)象空間位置的查詢以及包含指定地理對(duì)象的視頻數(shù)據(jù)查詢;②側(cè)重連續(xù)視頻序列內(nèi)物理對(duì)象及其運(yùn)動(dòng)軌跡的時(shí)空連續(xù)性與時(shí)空關(guān)系表示[11-15],這類研究成果可支持連續(xù)視頻序列中地理對(duì)象運(yùn)動(dòng)軌跡的空間查詢;③側(cè)重連續(xù)視頻序列內(nèi)實(shí)體(包括具體的物理對(duì)象和抽象的角色、事件等)及其屬性與時(shí)序關(guān)系表示[1620],這類研究成果可支持連續(xù)視頻序列內(nèi)容的語(yǔ)義查詢。在實(shí)現(xiàn)方式上,這些研究均采用基于動(dòng)態(tài)圖像專家組(moving pictures experts group,MPEG)的可擴(kuò)展標(biāo)記語(yǔ)言(extensible markup language,XML)文件來(lái)描述視頻圖像或視頻鏡頭。
綜上所述,現(xiàn)有GIS領(lǐng)域的地理視頻建模研究主要面向攝像機(jī)的空間參考信息,缺乏對(duì)視頻內(nèi)容中地理場(chǎng)景的建模和分析。同時(shí),由于傳統(tǒng)GIS及其專題擴(kuò)展模型仍以地理實(shí)體和地理過(guò)程的幾何與屬性特征表示為主[21-23],現(xiàn)有模型也難以有效表示與傳統(tǒng)地理空間數(shù)據(jù)存在明顯差異的非結(jié)構(gòu)化地理視頻以及視頻內(nèi)容中包含的具有高維語(yǔ)義關(guān)聯(lián)性的地理場(chǎng)景。因此,現(xiàn)有視頻GIS系統(tǒng)仍主要將視頻數(shù)據(jù)作為空間數(shù)據(jù)的屬性,獨(dú)立存儲(chǔ)和可視化;系統(tǒng)能力也局限在視頻流或視頻片段與空間位置的交互檢索,難以實(shí)現(xiàn)視頻數(shù)據(jù)中監(jiān)控對(duì)象、監(jiān)控區(qū)域與地理環(huán)境信息的關(guān)聯(lián)分析。計(jì)算機(jī)領(lǐng)域的現(xiàn)有研究均著重探討單一視頻幀的圖形對(duì)象建模和連續(xù)視頻序列中的小尺度時(shí)空關(guān)系表示,缺乏對(duì)大尺度多視頻數(shù)據(jù)內(nèi)容間語(yǔ)義和語(yǔ)境的研究。因此,對(duì)于非連續(xù)和跨區(qū)域的監(jiān)控視頻,僅能依靠圖像的相似性實(shí)現(xiàn)關(guān)聯(lián)性判斷,難以支持地理視頻數(shù)據(jù)之間、視頻內(nèi)容與地理環(huán)境之間復(fù)雜時(shí)空關(guān)聯(lián)性統(tǒng)一描述。
地理視頻可視為對(duì)動(dòng)態(tài)地理環(huán)境在特定尺度時(shí)空窗口的映射,地理視頻反映了地理環(huán)境的變化片段。由于這些變化片段對(duì)應(yīng)的地理問(wèn)題存在復(fù)雜的領(lǐng)域綜合、動(dòng)態(tài)演化、區(qū)域關(guān)聯(lián)和尺度依賴,導(dǎo)致地理視頻內(nèi)容在時(shí)間、空間和專題等基本變化要素層次的關(guān)聯(lián)錯(cuò)綜復(fù)雜[24];多傳感器類型、多視角、多時(shí)間粒度與多時(shí)空分辨率特性使地理視頻和動(dòng)態(tài)地理環(huán)境間的映射關(guān)系更加多樣化,加劇了地理視頻內(nèi)容基本變化要素間關(guān)聯(lián)的復(fù)雜度。為此,本文面向公共安全應(yīng)用,提出一種表達(dá)視頻內(nèi)容變化的多層次地理視頻語(yǔ)義模型。
面向地理視頻內(nèi)容變化的顯示表示,將地理視頻場(chǎng)景變化中的載體、驅(qū)動(dòng)力和呈現(xiàn)模式3個(gè)關(guān)鍵因素及其相互關(guān)系具體化為具有關(guān)聯(lián)性的地理實(shí)體和場(chǎng)景、對(duì)象行為和多層次事件對(duì)象,并依次抽象為相互關(guān)聯(lián)的特征域、行為過(guò)程域和事件域3個(gè)層次。為支持復(fù)雜地理環(huán)境中不同地理視頻的關(guān)聯(lián)表示與推理,在各數(shù)據(jù)層次內(nèi)容語(yǔ)義的基礎(chǔ)上引入統(tǒng)一時(shí)空框架下的地理語(yǔ)義,其概念模型如圖1所示。
特征域(feature-domain)。地理實(shí)體和場(chǎng)景(geographic entity and scenario,Oge)作為特征對(duì)象是地理環(huán)境變化的載體,地理實(shí)體通常表示具有改變自身狀態(tài)的行為能力的對(duì)象,而場(chǎng)景通常表示為狀態(tài)相對(duì)不變的對(duì)象,由條件(condition)、實(shí)例(instance)、語(yǔ)義(semantics)和關(guān)系(relationship)4元組描述,形式化為:Oge=({C},{I},{Sge},{R})。其中,{C}約定了理解和表達(dá)Oge的時(shí)空尺度、結(jié)構(gòu)類型、狀態(tài)的相對(duì)變化性質(zhì)等條件,如二維圖像、三維模型等實(shí)例化形式;{I}為{C}限定下的對(duì)象結(jié)構(gòu),如柵格圖像、真三維幾何模型等;{Sge}為Ogf的語(yǔ)義描述,表示為Oge的特征參量與附加屬性,體現(xiàn)Oge具有的變化條件和變化能力,包括對(duì)象的時(shí)空屬性等特征語(yǔ)義(feature semantics)及其在地理環(huán)境統(tǒng)一時(shí)空框架下的位置語(yǔ)義(location semantics)。其中,位置語(yǔ)義包括:絕對(duì)或相對(duì)位置描述,位置的拓?fù)?、方位和度量關(guān)系,位置的顏色、范圍、組成、用途等內(nèi)涵屬性及由此產(chǎn)生的外延規(guī)則,位置語(yǔ)義支持對(duì)象時(shí)空分布的描述與位置關(guān)聯(lián)的表達(dá),其外延規(guī)則同時(shí)為事件的判定提供基礎(chǔ);{R}表示Oge與對(duì)象行為和多層次事件的狀態(tài)映射關(guān)系(state mapping)。
行為過(guò)程域(behavioral process-domain)。對(duì)象行為(object behavior,Oob)作為過(guò)程域?qū)ο笫堑乩硪曨l內(nèi)容變化的驅(qū)動(dòng)力,對(duì)應(yīng)了地理實(shí)體的狀態(tài)、時(shí)空關(guān)系及屬性的變化過(guò)程,是地理視頻解析與分析的基本單元,由變化流程(activity process)、關(guān)鍵狀態(tài)(key state)、語(yǔ)義(semantics)和關(guān)系(relationship)4元組描述,形式化為:Oob=(AP(Oge),KS(Oge),{Sob},{R})。其中,AP(Oob)包括對(duì)象行為發(fā)生的環(huán)境描述、表達(dá)式或有序離散點(diǎn)描述的對(duì)象運(yùn)動(dòng)軌跡、對(duì)象內(nèi)部或?qū)ο箝g的關(guān)系變化軌跡,記錄為表示連續(xù)變化的函數(shù)/解析式等非線性模型或表示離散變化的線性時(shí)間戳模型;KS(Oge)為行為生命周期中一系列重要狀態(tài)的顯示表達(dá),如初始、突變、終止?fàn)顟B(tài)等;{Sob}為Oob的行為趨勢(shì)、結(jié)果及影響的語(yǔ)義描述,包括描述行為類型與特點(diǎn)等的動(dòng)作語(yǔ)義(action semantics)和建立在地理環(huán)境統(tǒng)一時(shí)空框架下的軌跡語(yǔ)義(trajectory semantics)。其中,動(dòng)作語(yǔ)義強(qiáng)調(diào)行為特征的描述(如:無(wú)參照的靜止、步行、跑等動(dòng)作描述,有參照的靠近、通過(guò)等動(dòng)作描述);軌跡語(yǔ)義側(cè)重對(duì)行為的結(jié)果及影響的描述,軌跡語(yǔ)義包括軌跡特征語(yǔ)義(如:走-停-走)、軌跡地理語(yǔ)義(如:從位置A到位置B、經(jīng)過(guò)位置C)以及軌跡關(guān)系(如:相遇、平行等)。同時(shí),對(duì)象行為依賴于地理實(shí)體和場(chǎng)景,一個(gè)對(duì)象的特征語(yǔ)義決定了它的行為能力,而位置語(yǔ)義的外延規(guī)則約束了行為的可行性,為異常判斷和事件推理提供了支持。因此在實(shí)際應(yīng)用中需要針對(duì)的典型對(duì)象類型,對(duì)專題知識(shí)中涉及的行為進(jìn)行預(yù)定義和分類;{R}表示Oob與多層次事件的條件聚合關(guān)系(conditional aggregation),聚合作用體現(xiàn)在:對(duì)象行為需根據(jù)其滿足的語(yǔ)義關(guān)聯(lián)要素進(jìn)行語(yǔ)義關(guān)聯(lián)關(guān)系的推理構(gòu)建行為鏈,進(jìn)而實(shí)現(xiàn)多層次事件的表達(dá)。聚合規(guī)則為:設(shè)RU為專題領(lǐng)域的事件規(guī)則庫(kù),{Ru}x為某事件規(guī)則集合,{Ru}xRU,當(dāng)有P(Oob)1、P(Oob)2、
事件域(event-domain)。多層次事件(hierarchical event,Ohe)作為事件域?qū)ο笫堑乩硪曨l內(nèi)容變化呈現(xiàn)模式的抽象描述,由有序的對(duì)象行為鏈組成,事件的層次性體現(xiàn)了行為變化的復(fù)雜性,表現(xiàn)為支持不同尺度事件對(duì)象因影響、反饋和關(guān)聯(lián)而相互影響而遞歸聚合為局部小尺度事件、區(qū)域中尺度事件和全局大尺度事件,聚合規(guī)則為:仍設(shè){Ru}xOEx的子事件。Ohe由事件規(guī)則(rule)、過(guò)程集合(process)、語(yǔ)義(semantics)和關(guān)系(relationship)4元組描述,形式化為:Ohe=({Ru},{P(Oob)},{She},{R})。其中,{Ru}表示事件判斷和推理的一系列規(guī)則,表示為事件模板,是應(yīng)用領(lǐng)域事件規(guī)則庫(kù)的元素或子集,是對(duì)Ohe包含有序關(guān)聯(lián)性對(duì)象行為更高層次含義的理解和表達(dá);{P(Oob)}表示構(gòu)成事件的一系列有序過(guò)程集合;{She}是對(duì)事件知識(shí)的語(yǔ)義描述,包括事件的內(nèi)容語(yǔ)義(content semantics)以及事件發(fā)生環(huán)境的地理語(yǔ)義(geographic semantics);{R}為事件對(duì)象對(duì)過(guò)程對(duì)象的控制約束關(guān)系(control constraint),控制約束作用體現(xiàn)在:根據(jù)多層次事件演進(jìn)階段、因果規(guī)律、發(fā)展趨勢(shì)和應(yīng)用層次等內(nèi)在變化階段抽象出的反饋、原因、影響、包含等語(yǔ)義關(guān)系,形成對(duì)視頻內(nèi)容中對(duì)象行為語(yǔ)義關(guān)系判斷,如前后兩者反饋不同演進(jìn)階段的順序行為;前后兩者呈現(xiàn)因果性觸發(fā)條件的條件行為;前者對(duì)后者施加控制約束的約束行為;前后兩者屬于不同層次,且前者高于后者的聚類行為。
以視頻內(nèi)容的變化即人的行為和周圍環(huán)境變化為基本單元,將地理視頻分為地理視頻幀、地理視頻鏡頭和地理視頻鏡頭組分為3個(gè)粒度層次,各層次的形式定義和結(jié)構(gòu)特點(diǎn)如下。
地理視頻幀(geovideo frame,Ogf),地理視頻數(shù)據(jù)的最小結(jié)構(gòu)粒度和數(shù)據(jù)變化的解析單元,形式化為:Ogf=({C},{I},{Sgf},{R}。其中,{C}表示編碼格式、碼率、幀率、分辨率等;{I}為與編碼格式對(duì)應(yīng)的靜態(tài)圖像對(duì)象,其中,狀態(tài)相對(duì)變化的地理實(shí)體和狀態(tài)相對(duì)靜態(tài)的地理場(chǎng)景分別實(shí)例化為分離提取前景圖像和背景圖像;{Sgf}包括圖像的攝像機(jī)方位、姿態(tài)、時(shí)刻、成像參數(shù)等圖像物理特征描述,以及可選的領(lǐng)域相關(guān)的圖像分割規(guī)則等外部語(yǔ)義描述,圖像內(nèi)容蘊(yùn)含的語(yǔ)義對(duì)象等內(nèi)部語(yǔ)義描述,對(duì)應(yīng)了特征域?qū)ο螅唬鸕}表示Ogf與地理視頻鏡頭、地理視頻鏡頭組的狀態(tài)映射關(guān)系。
地理視頻鏡頭(geovideo shot,Ogs),結(jié)構(gòu)化地理視頻數(shù)據(jù)的變化單元。面向過(guò)程域的Ogs表示中,Ogs=(AP(Ogf),KS(Ogf),{Sgs},{R});其中,AP(Ogf)為狀態(tài)映射關(guān)系下,基于數(shù)據(jù)相似性劃分的連續(xù)地理視頻幀序列,該序列中的幀有相同的實(shí)例化條件{C}和相似語(yǔ)義項(xiàng){Sgf}取值;KS(Ogf)為AP(Ogf)中具有語(yǔ)義項(xiàng)峰值的一個(gè)或具有相互間最大不相關(guān)性的多個(gè)地理視頻幀;{Sgf}包括鏡頭對(duì)應(yīng)的攝像機(jī)外部語(yǔ)義描述以及鏡頭內(nèi)容中所能解析出的一系列對(duì)象行為,對(duì)應(yīng)了行為過(guò)程域?qū)ο?,{Sgf}是Ogf在時(shí)間維主導(dǎo)下所能表達(dá)的更高維度的語(yǔ)義信息,如從某時(shí)刻到生命周期的語(yǔ)義表達(dá)等;{R}表示Ogs與地理視頻鏡頭組的條件聚合關(guān)系,由AP(Ogf)決定。地理視頻鏡頭Ogs是地理視頻語(yǔ)義建模中地理實(shí)體行為解析與表示的基礎(chǔ)。
地理視頻鏡頭組(geovideo shot group,Ogsg),呈現(xiàn)專題規(guī)則下變化的形成與發(fā)展的有序地理視頻鏡頭集合。相對(duì)于傳統(tǒng)由單攝像頭記錄的物理上連續(xù)的視頻對(duì)象,地理視頻鏡頭組可視為一個(gè)虛擬視頻對(duì)象,支持來(lái)自不同攝像機(jī)但變化邏輯連續(xù)的地理視頻鏡頭。面向事件域的Ogsg表示中,Ogsg=({Ru},{P(Ogs)},{Sgsg},{R});其中,{Ru}為支持地理視頻鏡頭關(guān)聯(lián)的規(guī)則庫(kù)子集;{P(Ogs)}為滿足{Ru}條件聚合的地理視頻鏡頭集合,滿足Ogs-Ogsg以及Ogsg-Ogsg遞歸嵌套的聚合規(guī)則,不同于Ogf與Ogs間基于數(shù)據(jù)相似性的劃分,Ogs與Ogsg的聚合將基于地理視頻的語(yǔ)義關(guān)聯(lián)推理實(shí)現(xiàn);{Sgsg}為對(duì)Ogsg內(nèi)容語(yǔ)義的綜合描述,是{P(Ogs)}中{Sgs}關(guān)聯(lián)表達(dá)后所能反映的更高層次主題含義,對(duì)應(yīng)了事件域?qū)ο螅唬鸕}表示Ogsg對(duì)Ogs的控制約束關(guān)系,這些關(guān)系可分為如下兩大類:①地理視頻場(chǎng)景間的時(shí)空關(guān)聯(lián),包括多視點(diǎn)關(guān)聯(lián),多視角關(guān)聯(lián)和多分辨率關(guān)聯(lián)等;②地理視頻場(chǎng)景對(duì)象間的時(shí)空關(guān)聯(lián),包括典型的GIS對(duì)象間的時(shí)空拓?fù)潢P(guān)系以及事件間反饋、原因影響與包含的語(yǔ)義關(guān)系。實(shí)際應(yīng)用中,不同地理視頻鏡頭、地理視頻鏡頭組的語(yǔ)義關(guān)聯(lián)關(guān)系,需通過(guò)對(duì)視頻內(nèi)容的推理和判斷得到;其中,地理視頻數(shù)據(jù)不同層次的語(yǔ)義描述是推理和判斷的依據(jù)。此外,鏡頭組的實(shí)例依賴于多層次事件的實(shí)例,對(duì)多層次事件的表達(dá)是地理視頻鏡頭與地理視頻鏡頭組Ogsg關(guān)聯(lián)的主要目的。記錄了某特定事件的一組鏡頭對(duì)象才聚合表示為對(duì)應(yīng)于該事件的鏡頭組,鏡頭組的聚合除了反映不同時(shí)空尺度的事件,還可表達(dá)那些內(nèi)容存在空間維度的重疊,且因攝像機(jī)成像的不同時(shí)空分辨率而對(duì)同一地理事件不同細(xì)節(jié)層次表達(dá)的多鏡頭。
基于統(tǒng)一建模語(yǔ)言(unified modeling language,UML),設(shè)計(jì)了多層次地理視頻語(yǔ)義模型類圖結(jié)構(gòu)。其中,地理視頻數(shù)據(jù)的3個(gè)粒度:地理視頻幀、地理視頻鏡頭和地理視頻鏡頭組分別表達(dá)為派生于父類GeovideoStructure的3個(gè)核心子類CGeovideoFrame、CGeovideoShot和CGeovideo-ShotGroup。為了支持這些對(duì)象類在實(shí)際數(shù)據(jù)和成像信息上的描述,設(shè)計(jì)了表達(dá)攝像機(jī)元數(shù)據(jù)和實(shí)際圖像編碼的CCanera、CViewpoint、CSimpleImage等10個(gè)附加類,這些信息在表達(dá)實(shí)際地理視頻數(shù)據(jù)的基礎(chǔ)上,還是判斷地理視頻場(chǎng)景間的時(shí)空關(guān)聯(lián)的基礎(chǔ)。更重要的是,為了支持地理視頻的語(yǔ)義描述,將與地理視頻數(shù)據(jù)相映射的3個(gè)地理視頻語(yǔ)義層次:地理實(shí)體和場(chǎng)景、對(duì)象行為和多層次事件分別表達(dá)為派生于父類CInnerSemanticObject的3個(gè)核心子類CGeoEntity、CObjectBehavior、CHierarchicalEvent;同時(shí),設(shè)計(jì)了支持這些語(yǔ)義對(duì)象內(nèi)容描述的特征語(yǔ)義類(CPropertySemantic)/動(dòng)作語(yǔ)義類(CActionSemantics)以及支持地理語(yǔ)義描述的位置語(yǔ)義類(CLoctionSemantics)/軌跡語(yǔ)義類(CTrajectorySementics)。引入以CGeoReferenceTrans為父類的統(tǒng)一時(shí)空語(yǔ)義框架作為地理語(yǔ)義類的重要成員變量,它是支持多地理視頻內(nèi)容和地理環(huán)境語(yǔ)義映射基礎(chǔ)。
表1 博物館公共安全監(jiān)控視頻的三域要素Tab.1 The three-domain of geovideo in museum security monitoring
本文以博物館公共安全監(jiān)控的多路視頻數(shù)據(jù)為例,對(duì)其進(jìn)行分析,利用文中提出的地理視語(yǔ)義模型實(shí)現(xiàn)監(jiān)控視頻數(shù)據(jù)的元數(shù)據(jù)描述和關(guān)聯(lián)表達(dá)。實(shí)例數(shù)據(jù)選用包含20路視頻的監(jiān)控網(wǎng),包括編號(hào)依次為C-01至C-20的相機(jī)視域及分布情況,分別對(duì)應(yīng)了針對(duì)展品、展廳和樓層等不同尺度的監(jiān)控范圍。
博物館公共安全監(jiān)控視頻數(shù)據(jù)的三域要素如表1所示:①在特征域,以地理視頻幀為分析單元,從變化的地理視頻幀中解析出“人”(員工/來(lái)訪者)、“展品”和“地理環(huán)境部件”(室內(nèi)空間/建筑結(jié)構(gòu))3大類特征要素,地理環(huán)境部件是基于城市地理標(biāo)識(shí)語(yǔ)言O(shè)GC CityGML和室內(nèi)多維位置信息標(biāo)識(shí)語(yǔ)言O(shè)GC IndoorGML的國(guó)際標(biāo)準(zhǔn),包含室內(nèi)地理位置的空間關(guān)系及其包含、聯(lián)通等語(yǔ)義關(guān)系,用于支持位置語(yǔ)義和軌跡語(yǔ)義的表達(dá);②在行為過(guò)程域,根據(jù)圖像像素域的視覺、光學(xué)等物理特征以及圖像壓縮域編碼規(guī)則的相似性閾值劃分出包含人員行為變化的地理視頻鏡頭,并解析其中人員的主動(dòng)性行為(分別從動(dòng)作模型和軌跡地理語(yǔ)義兩方面描述)和展品的被動(dòng)性行為;③在事件域,面向文物(展品)突發(fā)安全事件,將與事件相關(guān)的鏡頭聚合為有序地理視頻鏡頭組。
表2列舉了該博物館多路視頻監(jiān)控場(chǎng)景在某夜間時(shí)段內(nèi)解析出的包含人的行為活動(dòng)(源自其中13路相機(jī))的37個(gè)地理視頻鏡頭,其中,重點(diǎn)表達(dá)了視頻數(shù)據(jù)地理關(guān)聯(lián)分析所需要的位置語(yǔ)義和軌跡語(yǔ)義。根據(jù)表中數(shù)據(jù)可知:該組地理視頻鏡頭記錄了兩名員工和兩名來(lái)訪者的行為,其中來(lái)訪者A和B的軌跡語(yǔ)義表明他們分別突破了指定的安全距離,對(duì)展品2和1構(gòu)成威脅,同時(shí)來(lái)訪者B移動(dòng)了展品1的位置。
表2 博物館多路監(jiān)控視頻實(shí)例的三域語(yǔ)義描述Tab.2 The three-domain description of geovideo in museum security monitoring
續(xù)表2
結(jié)合表2中博物館室內(nèi)場(chǎng)景在統(tǒng)一時(shí)空框架下的位置語(yǔ)義,該組地理視頻鏡頭中人的行為軌跡如圖2所示,各地理視頻鏡頭間表達(dá)出基于地理實(shí)體、語(yǔ)義位置和語(yǔ)義軌跡的關(guān)聯(lián)性,因此有助于實(shí)現(xiàn)多尺度事件的理解和推理。本案例中的關(guān)聯(lián)結(jié)果顯示該時(shí)間段多路監(jiān)控視頻數(shù)據(jù)記錄了一個(gè)同時(shí)包含多階段和單體引發(fā)群體并發(fā)性特征的展品(文物)突發(fā)安全事件。
圖2 基于位置語(yǔ)義和軌跡語(yǔ)義的地理視頻關(guān)聯(lián)示意Fig.2 Spatiotemporal association of geovideo based onlocation semantics and trajectory semantics
由于各地理視頻幀、地理視頻鏡頭和鏡頭組包含了時(shí)間、空間、專題(人、展品、威脅事件等)等多維語(yǔ)義信息,因此可靈活支持時(shí)空語(yǔ)義一體化的高維索引構(gòu)建,有助于建立海量監(jiān)控視頻搜索任務(wù)的關(guān)聯(lián)約束,顯著縮小搜索空間,提高搜索效率。
本文針對(duì)傳統(tǒng)視頻數(shù)據(jù)模型支持多視頻有機(jī)關(guān)聯(lián)表示的局限,提出了一種面向特征—行為過(guò)程—事件三域的多層次地理視頻語(yǔ)義模型,該模型的特點(diǎn)與創(chuàng)新性包括:①通過(guò)對(duì)地理視頻內(nèi)容變化的表達(dá),綜合了地理視頻數(shù)據(jù)和內(nèi)容變化時(shí)空屬性的基本維度,實(shí)現(xiàn)了視頻數(shù)據(jù)和地理場(chǎng)景的統(tǒng)一描述與映射規(guī)則;②突破了傳統(tǒng)以攝像機(jī)為單位的連續(xù)視頻流的整體語(yǔ)義描述方法,面向更細(xì)化的多粒度層次建立視頻語(yǔ)義結(jié)構(gòu);③將地理環(huán)境語(yǔ)義與視頻內(nèi)容語(yǔ)義有機(jī)結(jié)合,支持多地理視頻數(shù)據(jù)的關(guān)聯(lián)表示。以博物館公共安全監(jiān)控的多路視頻數(shù)據(jù)為例進(jìn)行實(shí)例分析,結(jié)果表明:模型實(shí)現(xiàn)了多地理視頻內(nèi)容和地理環(huán)境的語(yǔ)義映射,較好地表達(dá)了地理視頻面向公共安全事件的數(shù)據(jù)特征和多視頻間的關(guān)聯(lián)性,有助于視頻空間全生命周期多尺度危機(jī)事件的感知和理解以及建立海量監(jiān)控視頻搜索任務(wù)的關(guān)聯(lián)約束,提高地理視頻的復(fù)雜時(shí)空關(guān)系的認(rèn)知計(jì)算能力與表達(dá)效率。進(jìn)一步的研究將考慮在模型結(jié)構(gòu)和關(guān)系表示的基礎(chǔ)上,設(shè)計(jì)地理視頻語(yǔ)義關(guān)系的度量方法與計(jì)算模型,為分布式地理視頻大數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)的自適應(yīng)組織、高效管理存儲(chǔ)和多約束檢索等更深入的應(yīng)用提供理論支持。
[1] BERRY J K.Capture“Where”and“When”on Video-based GIS[J].GeoWorld,2000,13(9):26-27.
[2] KIM S H,ARSLAN AY S,ZIMMERMANN R.Design and Implementation of Geo-tagged Video Search Framework[J]. Journal of Visual Communication and Image Representation,2010,21(8):773-786.
[3] KIM K H,KIM S S,LEE S H,et al.The Interactive Geographic Video[C]∥2003IEEE International Geoscience and Remote Sensing Symposium:IGARSS'03. Toulouse,F(xiàn)rance:IEEE,2003,1:59-61.
[4] CHRISTEL M G,OLLIGSCHLAEGER A M,HUANG Chang.Interactive Maps for a Digital Video Library[J]. IEEE Multi Media,2000,7(1):60-67.
[5] KONG Yunfeng.Design of Geovideo Data Model and Implementation of Web-based VideoGIS[J].Geomatics and Information Science of Wuhan University,2010,35(2):133-137.(孔云峰.地理視頻數(shù)據(jù)模型設(shè)計(jì)及網(wǎng)絡(luò)視頻GIS實(shí)現(xiàn)[J].武漢大學(xué)學(xué)報(bào):信息科學(xué)版,2010,35(2):133-137.)
[6] NAVARRETE T.Semantic Integration of Thematic Geographic Information in a Multimedia Context[D].Barcelona,Spain:Universitat Pompeu Fabra,2006.
[7] LEWIS P,F(xiàn)OTHERINGHAM S,WINSTANLEY A.Spatial Video and GIS[J].International Journal of Geographical Information Science,2011,25(5):697-716.
[8] HWANG T H,CHOI K H,JOO I H,et al.MPEG-7 Metadata for Video-based GIS Applications[C]∥IEEE International Geoscience and Remote Sensing Symposium:IGARSS'03.Toulouse,F(xiàn)rance:IEEE,2003(6):3641-3643.
[9] PISSINOU N,RADEV I,MAKKI K.Spatio-temporal Modeling in Video and Multimedia Geographic Information Systems[J].GeoInformatica,2001,5(4):375-409.
[10] BLOEHDORN S,PETRIDIS K,SAATHOFF C,et al. Semantic Annotation of Images and Videos for Multimedia Analysis[M]∥The Semantic Web:Research and Applications.Berlin:Springer,2005:592-607.
[11] WANG Xiaofeng,ZHANG Dapeng,WANG Fei,et al. Semantic Trajectory Based Video Event Detection[J]. Chinese Journal of Computers,2010,33(10):1845-1858.(王曉峰,張大鵬,王緋,等.基于語(yǔ)義軌跡的視頻事件探測(cè)[J].計(jì)算機(jī)學(xué)報(bào),2010,33(10):1845-1858.)
[12] AGIUS H W,ANGELIDES M C.Modeling Content for Semantic-level Querying of Multimedia[J].Multimedia Tools and Applications,2001,15(1):5-37.
[13] LIN C H,LEE A H C,CHEN A L P.A Semantic Model for Video Description and Retrieval[M]∥Advances in Multimedia Information Processing:PCM 2002.Berlin:Springer,2002:183-190.
[14] AL SAFADI L A E,GETTA J R.Semantic Modeling for Video Content-based Retrieval Systems[C]∥23rd Australasian Computer Science Conference:ACSC 2000. Canberra,ACT:IEEE,2000:2-9.
[15] CHEN Xianming,WANG Xiaoming.The MPGE-7Video Semantic Description Model Based on Ontology[J]. Journal of South China Normal University:Natural Science Edition,2007(2):51-56.(陳賢明,王小銘.基于本體與MPEG-7視頻語(yǔ)義描述模型[J].華南師范大學(xué)學(xué)報(bào):自然科學(xué)版,2007(2):51-56.)
[16] WANG Yu,ZHOU Lizhu,XING Chunxiao.Video Semantic Models and Their Evaluation Criteria[J].Chinese Journal of Computers,2007,30(3):337-351.(王煜,周立柱,邢春曉.視頻語(yǔ)義模型及評(píng)價(jià)準(zhǔn)則[J].計(jì)算機(jī)學(xué)報(bào),2007,30(3):337-351.)
[17] KOMPATSIARIS Y,HOBSON P.Semantic Multimedia and Ontologies[M].London,UK:Springer-Verlag Limited,2008.
[18] REN W,SINGH S,SINGH M,et al.State-of-the-art onSpatio-temporal Information-based Video Retrieval[J]. Pattern Recognition,2009,42(2):267-282.
[19] LEW M S,SEBE N,DJERABA C,et al.Content-based Multimedia Information Retrieval:State of the Art and Challenges[J].ACM Transactions on Multimedia Computing,Communications,and Applications(TOMCCAP),2006,2(1):1-19.
[20] ZHU Xingquan,ELMAGARMID A K,XUE Xiangyang,et al.Insight Video:Toward Hierarchical Video Content Organization for Efficient Browsing,Summarization and Retrieval[J].IEEE Transactions on Multimedia,2005,7(4):648-666.
[21] ZHU Qing,HU Mingyuan.Lane-oriented 3DRoad Network Model[J].Acta Geodaetica et Cartographica Sinica,2009,37(4):514-520.(朱慶,胡明遠(yuǎn).基于語(yǔ)義的多細(xì)節(jié)層次3維房產(chǎn)模型[J].測(cè)繪學(xué)報(bào),2009,37(4):514-520.)
[22] ZHENG Nianbo,LU Feng,LI Qingquan.Dynamic Multi-scale Road Network Data Model for Navigation[J].Acta Geodaetica et Cartographica Sinica,2010,39(4):428-434.(鄭年波,陸鋒,李清泉.面向?qū)Ш降膭?dòng)態(tài)多尺度路網(wǎng)數(shù)據(jù)模型[J].測(cè)繪學(xué)報(bào),2010,39(4):428-434.)
[23] GONG Jianya,LI Xiaolong,WU Huayi.Spatiotemporal Data Model for Real-time GIS[J].Acta Geodaetica et Cartographica Sinica,2014,43(3):226-232.(龔健雅,李小龍,吳華意.實(shí)時(shí)GIS時(shí)空數(shù)據(jù)模型[J].測(cè)繪學(xué)報(bào),2014,43(3):226-232.)
[24] HORNSBY K,EGENHOFER M J.Identity-based Change:A Foundation for Spatio-temporal Knowledge Representation[J].International Journal of Geographical Information Science,2000,14(3):207-224.
(責(zé)任編輯:宋啟凡)
E-maiI:zhuq66@263.net
HierarchicaI Semantic ModeI of Geovideo
XIE Xiao1,2,ZHU Qing3,1,ZHANG Yeting1,ZHOU Yan4,XU Weiping1,WU Chen1
1.State Key Laboratory of Information Engineering in Surveying,Mapping and Remote Sensing,Wuhan University,Wuhan 430079,China;2.Department of Cartography,TechnicaI University of Munich,Munich 80333,Germany;3.FacuIty of Geosciences and EnvironmentaI Engineering,Southwest Jiaotong University,Chengdu 610031,China;4.SchooI of Resources and Environment,University of EIectronic Science and TechnoIogy of China,Chengdu 611731,China.
The pubIic security incidents were getting increasingIy chaIIenging with regard to their new features,incIuding muIti-scaIe mobiIity,muItistage dynamic evoIution,as weII as spatiotemporaI concurrency and uncertainty in the compIex urban environment.However,the existing video modeIs,which were used/designed for independent archive or IocaI anaIysis of surveiIIance video,have seriousIy inhibited emergency response to the urgent requirements.Aiming at the expIicit representation of change mechanism in video,the paper proposed a noveI hierarchicaI geovideo semantic modeI using UML.This modeI was characterized by the hierarchicaI representation of both data structure and semantics based on the changeoriented three domains(feature domain,process domain and event domain)instead of overaII semantic description of video streaming;combining both geographicaI semantics and video content semantics,in support of gIobaI semantic association between muItipIe geovideo data.The pubIic security incidents by video surveiIIance are inspected as an exampIe to iIIustrate the vaIidity of this modeI.
video GIS;geovideo;semantic modeI;event;spatiotemporaI association
Open Foundation Funded by Key Laboratory of Oasis EcoIogy of Xinjiang University,China(No.XJDX0201-2013-01);The NationaI Key TechnoIogy Research and DeveIopment Program of the Ministry of Science and TechnoIogy of China(No.2012BAH35B02);The NationaI NaturaI Science Foundation of China(Nos.41261086;41471320;41471332)
XIE Xiao(1986—),femaIe,PhD candidate,majors in virtuaI geographic environment and video GIS. E-maiI:xiexiaoImars@gmaiI.com
ZHU Qing
P208
A
1001-1595(2015)05-0555-08
綠洲生態(tài)教育部重點(diǎn)實(shí)驗(yàn)室開放課題(XJDX0201-2013-01);國(guó)家科技支撐計(jì)劃(2012BAH35B02);國(guó)家自然科學(xué)基金(41261086;41471320;41471332)
XIE Xiao,ZHU Qing,ZHANG Yeting,et al.Hierarchical Semantic Model of Geovideo[J].Acta Geodaetica et Cartographica Sinica,2015,44(5):555-562.(謝瀟,朱慶,張葉廷,等.多層次地理視頻語(yǔ)義模型[J].測(cè)繪學(xué)報(bào),2015,44(5):555-562.)
10.11947/j. AGCS.2015.20140176
2014-04-08
謝瀟(1986—),女,博士生,研究方向?yàn)樘摂M地理環(huán)境與視頻GIS。
朱慶
修回日期:2014-06-17