左瓊,曹忠升,王元珍,周強(qiáng)
(華中科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢,430074)
對(duì)多媒體數(shù)據(jù)進(jìn)行有效管理離不開(kāi)元數(shù)據(jù)的支持。當(dāng)前,一些研究者常選多媒體內(nèi)容描述接口MPEG-7作為語(yǔ)義提取、檢索和系統(tǒng)集成的依據(jù),然而,MPEG-7存在2個(gè)大缺陷:(1) 由于MPEG-7基于XML,使得它缺乏對(duì)高級(jí)語(yǔ)義的規(guī)范描述能力[1?2],具有歧義性,不利于系統(tǒng)互連;(2) MPEG-7描述的多媒體數(shù)據(jù)中的元數(shù)據(jù)、結(jié)構(gòu)和內(nèi)容中都含有大量隱含語(yǔ)義,未被有效提取和規(guī)范描述。雖然多媒體特征檢索和基于關(guān)鍵詞的相似性檢索技術(shù)已較成熟,但仍遠(yuǎn)不能滿足高級(jí)語(yǔ)義檢索的需求。為了解決這些問(wèn)題,Rahman等[1?5]將 MPEG-7元數(shù)據(jù)轉(zhuǎn)換為知識(shí)本體,從而把多媒體語(yǔ)義描述和推理轉(zhuǎn)向了語(yǔ)義Web研究領(lǐng)域。事實(shí)證明,知識(shí)本體能有效地協(xié)助多媒體語(yǔ)義描述,可用于建立多媒體索引[3?4]、規(guī)范查詢條件[5]、自動(dòng)提取高級(jí)語(yǔ)義和異構(gòu)系統(tǒng)互連等[3,6?8],如:Hunter等[7?8]提出將MPEG-7語(yǔ)義元數(shù)據(jù)轉(zhuǎn)換為DAML+OIL和 RDF模式(最終 OWL)形式,用于提供異構(gòu)系統(tǒng)互連;DS-MIRF框架[9]是一個(gè)用來(lái)開(kāi)發(fā)基于知識(shí)多媒體應(yīng)用的軟件工程框架,支持 MPEG-7/21元數(shù)據(jù)與OWL表示的本體相集成,將 2個(gè)領(lǐng)域的查詢結(jié)果合并,形成多媒體數(shù)據(jù)上更有效的檢索和用戶交互,并運(yùn)用到個(gè)性化檢索上;Hammiche等[10]提出在MPEG-7元數(shù)據(jù)層上增加一個(gè)概念層,利用領(lǐng)域知識(shí)中的概念詞匯和規(guī)則語(yǔ)言 CARIN來(lái)輔助多媒體內(nèi)容檢索,并支持查詢重寫(xiě)發(fā)掘隱含信息。以上這些方法主要存在3個(gè)問(wèn)題:
(1) 由于MPEG-7多媒體描述方案的MDS繁多,并面向多種應(yīng)用,MPEG-7向知識(shí)本體轉(zhuǎn)換的工作量龐大;不少系統(tǒng)[7?10]僅實(shí)現(xiàn)了MPEG-7中部分描述方案向本體的轉(zhuǎn)換,沒(méi)有充分利用MPEG-7元數(shù)據(jù)信息;有些系統(tǒng)不支持推理機(jī)制[7?8],無(wú)法得到實(shí)際應(yīng)用。
(2) 大量多媒體元數(shù)據(jù)和實(shí)例存放在數(shù)據(jù)庫(kù) DB中,然而,DB用戶無(wú)法對(duì)語(yǔ)義Web中的知識(shí)本體進(jìn)行直接引用。
(3) 不少系統(tǒng)將知識(shí)推理查詢和多媒體結(jié)構(gòu)查詢分別在語(yǔ)義Web和DBMS中完成,然后,組合生成查詢結(jié)果,無(wú)法利用DBMS查詢優(yōu)化策略,大大降低了查詢效率。
隨著數(shù)據(jù)管理與知識(shí)管理結(jié)合越來(lái)越緊密,傳統(tǒng)數(shù)據(jù)庫(kù)廠商開(kāi)始將知識(shí)運(yùn)用到DBMS中,驗(yàn)證了將知識(shí)無(wú)縫結(jié)合到DB數(shù)據(jù)中的可能性,如:Oracle擴(kuò)展了一組系統(tǒng)表及SQL操作符來(lái)存儲(chǔ)OWL本體,支持基于本體的語(yǔ)義匹配[11];IBM DB2采用虛擬視圖集成數(shù)據(jù)和領(lǐng)域知識(shí)[12],用XQuery和SQL/XML重寫(xiě)基于本體的查詢[13]。雖然傳統(tǒng)數(shù)據(jù)庫(kù)對(duì)本體的支持仍有限,但其強(qiáng)大的事務(wù)管理能力、SQL查詢方式和查詢優(yōu)化策略等,為基于本體的查詢提供了良好的服務(wù)。G3M[14]是本實(shí)驗(yàn)室在對(duì)象關(guān)系模型上建立的一個(gè)基于 MPEG-7的通用多媒體數(shù)據(jù)庫(kù)模型。為了解決從MPEG-7繼承的缺陷,同時(shí)利用經(jīng)典RDBMS的優(yōu)點(diǎn),本文作者將知識(shí)本體及其規(guī)則引入 G3M 數(shù)據(jù)庫(kù)模式中,用于消除結(jié)構(gòu)上的歧義性,在內(nèi)容上提供有效的抽象語(yǔ)義表達(dá)和檢索。
MPEG-7的最大優(yōu)點(diǎn)是能對(duì)復(fù)雜的多媒體數(shù)據(jù)從結(jié)構(gòu)、內(nèi)容和元數(shù)據(jù)等多個(gè)層面提供多種描述。G3M充分利用了該特點(diǎn),采用多級(jí)數(shù)據(jù)抽象機(jī)制[15]將整個(gè)模型劃分為6層:原數(shù)據(jù)層、元數(shù)據(jù)層、段層、低級(jí)特征層、時(shí)空語(yǔ)義層和高級(jí)語(yǔ)義層,其中,段層描述結(jié)構(gòu)、連接特征和語(yǔ)義。由于G3M源于MPEG-7,其缺陷也被一并繼承,如:在段劃分上,主要按媒體源、時(shí)空或語(yǔ)義來(lái)劃分,但無(wú)法明確描述相同的段劃分在不同應(yīng)用中的不同含義;在高級(jí)語(yǔ)義描述上,能對(duì)概念對(duì)象/事件、物理對(duì)象/事件進(jìn)行抽象描述,但缺乏對(duì)多個(gè)概念、多元關(guān)系、關(guān)系特性等規(guī)范進(jìn)行描述,無(wú)法推理獲取隱含語(yǔ)義信息。為此,本文作者采用與文獻(xiàn)[10]中相似的方法,在G3M原有的6層模型上增加了1層知識(shí)概念層,如圖1所示。利用本體對(duì)概念化的顯式描述能力[16?17],提高 G3M 語(yǔ)義描述能力。它與文獻(xiàn)[10]中的方法區(qū)別在于:知識(shí)本體被引入關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)中,能更好地與DB中存儲(chǔ)的多媒體元數(shù)據(jù)及實(shí)例相結(jié)合,提供 G3M 上的知識(shí)集成和檢索服務(wù)。
要將本體集成到G3M中,首先要解決的問(wèn)題是:如何在G3M中表示和存儲(chǔ)知識(shí)本體。G3M以輕量級(jí)本體(Lightweight ontology)和領(lǐng)域模型(Domain model)定義[18]為參考,定義多媒體數(shù)據(jù)上的知識(shí)。將知識(shí)本體及其規(guī)則引入 G3M 數(shù)據(jù)庫(kù)模式中,建立本體中概念、屬性和關(guān)系與 G3M 多媒體數(shù)據(jù)模式和實(shí)例緊密聯(lián)接。以下給出G3M上知識(shí)本體的形式化定義。
定義 G3M知識(shí)本體KO由一組概念、屬性、概念間關(guān)系、知識(shí)規(guī)則、對(duì)象實(shí)例和對(duì)象關(guān)系實(shí)例等組成。定義為1個(gè)15元組:KO(IdKO, NKO, UC, UT, UAC, AKO,UD, TKO, LKO, FCC, CFCC,≤CC, Rul, FKM, FKI)。其中:
(1) IdKO和NKO分別為1個(gè)知識(shí)本體KO的唯一標(biāo)號(hào)和名字。
(2) UC為知識(shí)概念集合,是一組描述詞匯,可描述多媒體對(duì)象結(jié)構(gòu)或語(yǔ)義,具體對(duì)應(yīng) G3M 模式定義的段劃分、低級(jí)特征、時(shí)空語(yǔ)義或高級(jí)語(yǔ)義集合,或語(yǔ)義集合內(nèi)部對(duì)象、事件、概念詞等;UT為概念的數(shù)據(jù)類型及取值范圍定義;UAC為概念上的屬性關(guān)系集合,用來(lái)聯(lián)接概念和其對(duì)應(yīng)的取值。
(3) AKO為KO的類別。知識(shí)可以與領(lǐng)域/應(yīng)用相關(guān)或無(wú)關(guān)(即上層本體)。若該 KO與領(lǐng)域相關(guān),則由領(lǐng)域集合UD中的領(lǐng)域標(biāo)號(hào)標(biāo)明相關(guān)領(lǐng)域或應(yīng)用,表示該KO專門(mén)為該領(lǐng)域/應(yīng)用服務(wù)。
(4) TKO和LKO分別為概念出現(xiàn)/發(fā)生的時(shí)間和地點(diǎn)限制,可用來(lái)刻畫(huà)物理對(duì)象或事件間的時(shí)空語(yǔ)義,或用于多媒體數(shù)據(jù)按時(shí)空關(guān)系組合。
(5) FCC表示概念間的非層次關(guān)系。對(duì)于結(jié)構(gòu)概念,F(xiàn)CC描述結(jié)構(gòu)上的時(shí)間關(guān)系、空間關(guān)系、結(jié)構(gòu)語(yǔ)義等,對(duì)應(yīng)G3M中段劃分中的段間關(guān)系或其在特定領(lǐng)域/應(yīng)用中所代表的語(yǔ)義;對(duì)語(yǔ)義概念,F(xiàn)CC描述概念上的各種關(guān)聯(lián)關(guān)系,對(duì)應(yīng) G3M 中的對(duì)象間關(guān)系、事件間關(guān)系、事件對(duì)象關(guān)系、時(shí)空語(yǔ)義關(guān)系、段與高級(jí)語(yǔ)義間的關(guān)系等;CFCC描述 FCC中關(guān)系的特性,包括傳遞性、對(duì)稱性、函數(shù)性等,可以用于關(guān)系上的查詢條件重寫(xiě)。
(6) ≤CC為概念間的層次或分類關(guān)系,常用“is-a”來(lái)描述,用于知識(shí)推理或概念上的主題索引。層次關(guān)系用XML類型很好地表達(dá),因此,將≤CC單獨(dú)定義。
(7) Rul描述概念上的隱含語(yǔ)義關(guān)系或知識(shí)規(guī)則。為了能描述概念或其屬性、關(guān)系上的各種內(nèi)在關(guān)系特別是多元關(guān)系,僅僅用前面定義的 FCC,CFCC和≤CC是不夠的。在知識(shí)本體表示中,通常用Datalog rule[9]來(lái)表示,G3M 把它轉(zhuǎn)換為相應(yīng)的“if (滿足邏輯組合條件) then (斷言/賦值)”語(yǔ)句。
(8) FKM和FKI分別為KO與G3M中管理的多媒體元數(shù)據(jù)或?qū)嵗g的對(duì)應(yīng)關(guān)系,可以是概念對(duì)象、屬性或關(guān)系上的對(duì)應(yīng)關(guān)系,用來(lái)直接建立KO與DB數(shù)據(jù)間的連接。由FKM建立KO與G3M中數(shù)據(jù)庫(kù)模式(對(duì)應(yīng)元數(shù)據(jù))的連接,相應(yīng)地也建立了該組模式中存儲(chǔ)的數(shù)據(jù)(即遵循該元數(shù)據(jù)描述的多媒體實(shí)例)與該知識(shí)本體間的對(duì)應(yīng)關(guān)系,這是一種從抽象到具體的連接。
G3M利用KO描述的抽象概念,將符合其限制條件的實(shí)例聚集到一起,可用于主題索引或高級(jí)語(yǔ)義查詢。用戶可用FKI直接建立某個(gè)多媒體實(shí)例(數(shù)據(jù)庫(kù)模式上的1個(gè)元組)與知識(shí)本體關(guān)聯(lián)。這是一種從特殊到一般的連接,常為多媒體實(shí)例創(chuàng)建者專用,主要用于標(biāo)明該實(shí)例具有特定的語(yǔ)義限制或應(yīng)用范疇,或需要利用該KO上的特殊關(guān)系和規(guī)則為其服務(wù)。
G3M設(shè)計(jì)了一個(gè)客戶端工具來(lái)引入已有的OWL本體或用戶自定義本體。而本體要能真正起到知識(shí)引導(dǎo)的作用,必須與G3M存儲(chǔ)的多媒體數(shù)據(jù)緊密結(jié)合。以下從多媒體結(jié)構(gòu)和語(yǔ)義2個(gè)方面來(lái)建立本體與G3M數(shù)據(jù)間的對(duì)應(yīng)關(guān)系,真正地將知識(shí)本體與各種粒度的多媒體元數(shù)據(jù)及相應(yīng)實(shí)例連接起來(lái)。
在多媒體結(jié)構(gòu)上,G3M主要解決的是從MPEG-7繼承的描述結(jié)構(gòu)歧義性問(wèn)題,主要表現(xiàn)為:
(1) 同一結(jié)構(gòu)在不同應(yīng)用中可能含義不同。
(2) 不同結(jié)構(gòu)可以用來(lái)描述相同的語(yǔ)義。這主要是MPEG-7只定義了描述結(jié)構(gòu),但沒(méi)指明描述結(jié)構(gòu)的應(yīng)用領(lǐng)域和語(yǔ)義環(huán)境,允許用戶任意使用造成的。在結(jié)構(gòu)上,加載領(lǐng)域知識(shí)可以明確該結(jié)構(gòu)的含義。
對(duì)問(wèn)題(1),要主要明確相關(guān)多媒體結(jié)構(gòu)上對(duì)應(yīng)的隱含語(yǔ)義信息。如:段?子段關(guān)系,一般視頻段分解順序?yàn)槎?、?chǎng)景、幀;但在新聞聯(lián)播和足球比賽中,段劃分的含義完全不同,為此,G3M首先建立段本體,用段本體上的≤CC記載段和子段之間的層次關(guān)系;將新聞聯(lián)播、足球賽等設(shè)置為段本體作用的不同領(lǐng)域;本體概念在不同領(lǐng)域下取值不同,在規(guī)則中設(shè)置賦值條件;建立SegUnit模式與段本體的聯(lián)接,如圖2所示。這樣,直接為SegUnit加上應(yīng)用領(lǐng)域約束,從而解決段定義的歧義性。這種抽象語(yǔ)義概念與段結(jié)構(gòu)的直接關(guān)聯(lián)能夠?yàn)槎嗝襟w文檔或結(jié)構(gòu)段上初步的語(yǔ)義信息提取提供支持。
對(duì)問(wèn)題(2),如 MPEG-7中 AgentObject DS和Object DS都可以用來(lái)描述人,在一定的應(yīng)用環(huán)境下,它們具有等價(jià)性。但在數(shù)據(jù)庫(kù)中,它們可能對(duì)應(yīng)2張數(shù)據(jù)庫(kù)表。G3M允許定義它們公用的領(lǐng)域知識(shí)本體,在其中定義這2張表對(duì)應(yīng)的概念A(yù)gentObj和Obj,并在其關(guān)聯(lián)關(guān)系中指明AgentObj和Obj在某領(lǐng)域上具有等價(jià)性;在規(guī)則中,定義2張表中屬性列之間的對(duì)應(yīng)關(guān)系。這樣,將這2張語(yǔ)義相同、結(jié)構(gòu)不同的表聚集在一起,在語(yǔ)義描述上統(tǒng)一起來(lái),便于下一步檢索,提高查全率。
在語(yǔ)義Web界,通常將MPEG-7元數(shù)據(jù)轉(zhuǎn)換為相
圖2 利用領(lǐng)域知識(shí)限定G3M結(jié)構(gòu)語(yǔ)義Fig.2 Ensuring G3M segment semantics with domain knowledge
應(yīng)的上層本體,然后,在上層本體上定義領(lǐng)域本體來(lái)解決MPEG-7的歧義性問(wèn)題[9]。G3M的優(yōu)點(diǎn)在于:它省去了元數(shù)據(jù)向上層本體轉(zhuǎn)換的繁瑣工作,允許DB用戶直接在數(shù)據(jù)庫(kù)中引用領(lǐng)域知識(shí),使得數(shù)據(jù)庫(kù)模式具有明確的語(yǔ)義信息。
在多媒體高級(jí)語(yǔ)義上,G3M關(guān)注KO中的抽象概念、屬性和關(guān)系,特別是概念間的層次關(guān)系、屬性取值、屬性上的層次關(guān)系、概念間的各種關(guān)聯(lián)關(guān)系及規(guī)則。有必要建立KO與G3M模式上元數(shù)據(jù)或?qū)嵗械母鞣N具體對(duì)象、屬性或關(guān)系間的對(duì)應(yīng)關(guān)系。
為了建立知識(shí)本體與多媒體數(shù)據(jù)的關(guān)聯(lián),G3M完成以下輔助工作:
(1) 在高級(jí)語(yǔ)義集合Sem∑中定義概念對(duì)象/事件來(lái)匯集在段上出現(xiàn)的物理對(duì)象/事件。允許直接關(guān)聯(lián)知識(shí)概念與G3M中的概念對(duì)象/事件,這種關(guān)聯(lián)關(guān)系將自動(dòng)傳遞到相關(guān)的物理對(duì)象/事件上。
(2) 特別定義“引用知識(shí)關(guān)系”(KnowledgeRef)和“知識(shí)被引用關(guān)系”(KnowledgeReferredBy),支持用戶顯式指明知識(shí)本體與數(shù)據(jù)的關(guān)聯(lián),如圖2所示。
(3) 支持物理對(duì)象/事件上的顯著低級(jí)特征描述。因此,假設(shè)已知概念實(shí)體及其部分顯著的低級(jí)特征/屬性,并把它們引入 G3M 中,將有助于物理實(shí)體的提取。在領(lǐng)域內(nèi)交流,還可避免語(yǔ)義歧義性。
(4) G3M能靈活地表達(dá)多種概念在實(shí)體上、屬性上、概念與屬性上本體與實(shí)例上的關(guān)系,以便充分描述、正確引入知識(shí)。
除了本體與實(shí)例間的 4種基本關(guān)系(即 partOf,kindOf,instanceOf和 attributeOf)外,G3M 還支持多種特殊關(guān)系定義,如:specializationOf和generalizationOf表示專用和通用;componentOf 和hasComponentOf表示組成或?qū)哟侮P(guān)系,支持屬性繼承和重用;resultOf和causeOf表示因果關(guān)系;similarTo和oppositeTo表示相似與否等,并支持自定義關(guān)系。這些關(guān)系可以用于完善查詢條件,支持查詢推理,提高查詢效率。
語(yǔ)義關(guān)聯(lián)的建立有助于 G3M 利用特定應(yīng)用領(lǐng)域知識(shí)或者用戶背景知識(shí),對(duì)多媒體數(shù)據(jù)描述的語(yǔ)義主題進(jìn)行較完整的知識(shí)補(bǔ)充和聚集,如:假設(shè)一組圖片主題為鳥(niǎo),在 G3M 中引入鳥(niǎo)本體定義,將各種屬于鳥(niǎo)綱的動(dòng)物定義在概念集合中,給出它們的關(guān)聯(lián)關(guān)系、從屬關(guān)系、屬性定義和規(guī)則定義,建立鳥(niǎo)本體概念與G3M中存儲(chǔ)的圖片中物理對(duì)象間的關(guān)聯(lián)。這樣,包含鳥(niǎo)科動(dòng)物的圖片信息能根據(jù)鳥(niǎo)本體概念聚集起來(lái)。這種將描述相同主題概念的多媒體實(shí)體聚集的方式,能大大提高查詢效率。
由KO定義可知:KO可以分為上層知識(shí)或領(lǐng)域/應(yīng)用相關(guān)知識(shí),對(duì) G3M 的語(yǔ)義檢索具有不同的指導(dǎo)作用。
G3M 定義了大量的上層通用關(guān)系[14],如時(shí)空關(guān)系、對(duì)象間關(guān)系、對(duì)象事件關(guān)系、事件間關(guān)系等。這些關(guān)系多有自身特性,如互補(bǔ)性、對(duì)稱性、傳遞性和函數(shù)依賴性。在關(guān)鍵詞查詢中,人們往往忽視這些關(guān)系特性,而導(dǎo)致查詢條件不完整或與MPEG-7語(yǔ)義描述不匹配。例如:尋找1張多媒體圖片,其中出現(xiàn)了對(duì)象A和B,且A在B的前面。其對(duì)應(yīng)的SQL語(yǔ)句為:
SELECT * FROM SegUnit WHERE SType=’image’
AND ExistObj(‘A’) and ExistObj(‘B’)
AND HasTempRelation(‘A’, ‘B’,before)該語(yǔ)句直接用于DB查詢時(shí),查詢結(jié)果可能不完全。如DB中可能存在這樣的描述:對(duì)象B在對(duì)象A的后面。由于’before’和’after’是 1 對(duì)互補(bǔ)關(guān)系,“A before B”和“B after A”在語(yǔ)義上是等價(jià)的,但不滿足關(guān)鍵詞查詢條件。
G3M 用一個(gè)特殊的上層關(guān)系本體來(lái)存儲(chǔ)其所有關(guān)系名、關(guān)系間的關(guān)聯(lián)關(guān)系和關(guān)系特性。當(dāng)1條查詢語(yǔ)句到來(lái)時(shí),查詢引擎首先將語(yǔ)句中出現(xiàn)的關(guān)系謂詞或參數(shù)是否與關(guān)系本體中的關(guān)系名概念相匹配。若存在,則按照關(guān)系特性或規(guī)則對(duì)查詢條件進(jìn)行第1次查詢重寫(xiě)。例如:上例中有關(guān)關(guān)系的條件被重寫(xiě)為:
…AND ( HasTempRelation(‘A’, ‘B’,before)
OR HasTempRelation(‘B’ , ‘A’, after))這次查詢重寫(xiě)的結(jié)果并不一定是最優(yōu)的,需要利用RDBMS上經(jīng)典的關(guān)系優(yōu)化策略進(jìn)行優(yōu)化,生成相對(duì)最優(yōu)的查詢計(jì)劃并執(zhí)行。這樣,直接將查詢優(yōu)化策略運(yùn)用到基于本體的查詢上,提高了基于本體查詢的效率。與將多媒體實(shí)例和本體分別在DB和語(yǔ)義Web中進(jìn)行處理,然后合并查詢結(jié)果的方法相比,本文查詢方法具有明顯優(yōu)勢(shì)。
多媒體數(shù)據(jù)包含豐富的語(yǔ)義信息。不同用戶擁有不同的背景知識(shí),對(duì)同一個(gè)多媒體對(duì)象的關(guān)注點(diǎn)和理解可能完全不同,因此,G3M 允許指明特定領(lǐng)域/應(yīng)用本體與多媒體數(shù)據(jù)的對(duì)應(yīng)關(guān)系。領(lǐng)域知識(shí)的利用將有助于挖掘數(shù)據(jù)中存在的隱含語(yǔ)義。
以前面提到的鳥(niǎo)為例。假設(shè)用戶要查詢“候鳥(niǎo)”,在圖片注釋信息中,可能根本沒(méi)有“候鳥(niǎo)”這個(gè)詞,這時(shí),用戶若直接查詢“尋找包含對(duì)象名為候鳥(niǎo)的圖片”,則無(wú)法得到想要的查詢結(jié)果。
按照人腦思維,首先聯(lián)想所有屬于“候鳥(niǎo)”的鳥(niǎo)類,將查詢轉(zhuǎn)換為對(duì)屬于候鳥(niǎo)的鳥(niǎo)類查詢;若候鳥(niǎo)概念不清楚,則根據(jù)候鳥(niǎo)定義生成相應(yīng)的查詢條件,如“當(dāng)適宜溫度低于 25 ℃時(shí),過(guò)冬方式為向南飛翔的鳥(niǎo)”,尋找所有滿足此條件的鳥(niǎo)類。從知識(shí)本體角度看,以上查詢實(shí)際上是對(duì)鳥(niǎo)本體中候鳥(niǎo)概念集合的遍歷及鳥(niǎo)屬性“適宜溫度”和“過(guò)冬方式”的匹配,而候鳥(niǎo)定義可以視為1個(gè)規(guī)則。為此,在RDBMS原有的查詢引擎上增加1個(gè)G3M語(yǔ)義添加器模擬人腦,以實(shí)現(xiàn)這種基于知識(shí)的查詢。
當(dāng) G3M 查詢引擎發(fā)現(xiàn)查詢條件與本體概念或?qū)傩躁P(guān)聯(lián)時(shí),系統(tǒng)會(huì)進(jìn)行第2次查詢重寫(xiě)。將在本體上按照關(guān)系或規(guī)則推理得到的新概念、屬性或關(guān)系,添加為新的查詢條件,接著按照第1次查詢重寫(xiě)后的步驟來(lái)實(shí)現(xiàn)查詢優(yōu)化處理。這樣,關(guān)鍵詞檢索在 G3M內(nèi)部被轉(zhuǎn)換為高級(jí)語(yǔ)義檢索,從而有效地挖掘了多媒體數(shù)據(jù)上的隱含信息。
以下對(duì)所提出的基于本體的查詢推理方法進(jìn)行實(shí)驗(yàn)驗(yàn)證,從查全率和查準(zhǔn)率上驗(yàn)證此方法的可行性。測(cè)試硬件平臺(tái)為奔騰雙核 2.80 GHz,2 G內(nèi)存;操作系統(tǒng)為Windows XP;開(kāi)發(fā)工具為JAVA+Eclipse;后臺(tái)數(shù)據(jù)庫(kù)為IBM DB2 V9。
在G3M數(shù)據(jù)庫(kù)中準(zhǔn)備了3 000個(gè)關(guān)于鳥(niǎo)的圖片實(shí)例,將對(duì)象鳥(niǎo)的描述存儲(chǔ)在語(yǔ)義對(duì)象表semanticsT中。在知識(shí)本體模式中準(zhǔn)備了1個(gè)鳥(niǎo)本體,建立鳥(niǎo)本體中概念、屬性、規(guī)則和表semanticsT中屬性列的關(guān)聯(lián),并進(jìn)行如下5類語(yǔ)義查詢。
Q1:查詢所有包含“燕子”的圖片,以測(cè)試概念間層次關(guān)系樹(shù)中的葉子節(jié)點(diǎn)。
Q2:查詢所有包含“鷗類”的圖片,以測(cè)試概念間層次關(guān)系樹(shù)中的內(nèi)部節(jié)點(diǎn)。
Q3:查詢所有包含“武漢燕子”的圖片,以測(cè)試概念間層次關(guān)系樹(shù)中的葉子節(jié)點(diǎn)和屬性取值層次關(guān)系樹(shù)中的葉子節(jié)點(diǎn)。
Q4:查詢所有包含“北京涉禽”的圖片,以測(cè)試概念間層次關(guān)系樹(shù)中的內(nèi)部節(jié)點(diǎn)和屬性取值層次關(guān)系樹(shù)中的內(nèi)部節(jié)點(diǎn)。
Q5:查詢所有包含“候鳥(niǎo)”的圖片,以測(cè)試基于知識(shí)規(guī)則推理的查詢。
對(duì)比普通查詢和加入知識(shí)推理的查詢結(jié)果,如表1所示??梢?jiàn):在加入知識(shí)本體后,語(yǔ)義查詢的查詢率和查準(zhǔn)率分別為 75.13%和 95.09%,大大高于普通查詢結(jié)果的查詢率和查準(zhǔn)率?;谥R(shí)查詢的查全率不夠高的原因在于:實(shí)驗(yàn)數(shù)據(jù)是一些隨機(jī)找到的包含鳥(niǎo)的多媒體圖片,部分圖片缺乏對(duì)鳥(niǎo)的原始注釋信息。而查準(zhǔn)率高是因?yàn)橹R(shí)本體對(duì)鳥(niǎo)類的分類和規(guī)則定義是有效的,圖片實(shí)例對(duì)鳥(niǎo)的描述方法和本體中對(duì)鳥(niǎo)的描述方法基本一致,因此,能夠基于知識(shí)本體在基礎(chǔ)數(shù)據(jù)上獲得想要的查詢結(jié)果。
表1 G3M基于本體的語(yǔ)義查詢查全率和查準(zhǔn)率測(cè)試結(jié)果Table 1 Recall radios and precision radios of ontology-based semantic query of G3M
將知識(shí)本體概念、屬性、關(guān)系、規(guī)則直接引入G3M的優(yōu)勢(shì)包括如下4點(diǎn):
(1) 免去了MPEG-7 MDS按某種本體描述語(yǔ)言轉(zhuǎn)換為語(yǔ)義Web中上層本體的工作。G3M模式定義本質(zhì)上是一種對(duì)媒體描述方法的規(guī)范,在DBMS中實(shí)現(xiàn)了知識(shí)語(yǔ)義-MPEG-7概念語(yǔ)義-時(shí)空語(yǔ)義-低級(jí)特征/多媒體物理組織結(jié)構(gòu)之間的無(wú)縫聯(lián)接。
(2) 避免了 MPEG-7描述的不規(guī)范性。通過(guò)在G3M 模式上直接加載領(lǐng)域/應(yīng)用知識(shí),在通用多媒體內(nèi)容和結(jié)構(gòu)描述上直接加注語(yǔ)義約束,變通用模型為專用模型,為系統(tǒng)互連及抽象語(yǔ)義提取提供基礎(chǔ)。
(3) 能夠更好地從知識(shí)層抽象的角度,根據(jù)本體中的相似概念、屬性關(guān)系、歸屬關(guān)系定義等,進(jìn)行多媒體內(nèi)容的高級(jí)抽象,進(jìn)行主題語(yǔ)義聚集,實(shí)現(xiàn)元數(shù)據(jù)的自動(dòng)組織和合并,或在物理上按知識(shí)本體進(jìn)行多媒體數(shù)據(jù)實(shí)例的聚集,能揭露元數(shù)據(jù)上未被識(shí)別的關(guān)聯(lián),引導(dǎo)數(shù)據(jù)庫(kù)中查詢結(jié)果或新知識(shí)的合成,有助于提高語(yǔ)義檢索的效率。
(4) 定義上層本體,用于規(guī)范MPEG-7上已有的關(guān)系定義,提取關(guān)系上的隱含特性;利用查詢重寫(xiě),進(jìn)行語(yǔ)義等價(jià)替換,完善用戶的語(yǔ)義檢索條件;同時(shí),利用領(lǐng)域相關(guān)本體,自動(dòng)在查詢條件中添加知識(shí)推理出來(lái)的條件,充分利用RDBMS上的查詢重寫(xiě)、查詢優(yōu)化策略,真正實(shí)現(xiàn)基于語(yǔ)義的檢索,有助于發(fā)掘隱含語(yǔ)義信息。
參照王煜等[19]提出的豐富語(yǔ)義模型評(píng)價(jià)準(zhǔn)則和它對(duì)多種視頻模型的分析,G3M 在語(yǔ)義獲取能力方面,能滿足 5條評(píng)價(jià)準(zhǔn)則中的 4條(領(lǐng)域知識(shí)引入DBMS、語(yǔ)義初步提取、推導(dǎo)隱含信息或新的抽象信息、支持不同用戶在同一多媒體段具有不同視圖),大大優(yōu)于文獻(xiàn)[19]中的11個(gè)視頻語(yǔ)義模型。
(1) 知識(shí)本體的引入去除了MPEG-7帶給G3M的結(jié)構(gòu)歧義缺陷,增強(qiáng)了G3M的開(kāi)放性,提高了G3M對(duì)高級(jí)語(yǔ)義智能化提取、表達(dá)和檢索能力,有助于隱含語(yǔ)義的發(fā)掘,真正實(shí)現(xiàn)了按多媒體語(yǔ)義檢索。
(2) 實(shí)現(xiàn)了基于知識(shí)本體的智能語(yǔ)義查詢。通過(guò)二次查詢重寫(xiě)手段,將上層關(guān)系本體和領(lǐng)域知識(shí)本體運(yùn)用到存儲(chǔ)在 G3M 中的多媒體數(shù)據(jù)上,變推理規(guī)則為G3M語(yǔ)義查詢條件。本體推理查詢與G3M普通查詢?nèi)诤显贒BMS中,充分利用了RDBMS上經(jīng)典的查詢優(yōu)化技術(shù)和查詢引擎。
[1]Rahman M A, Hossain M A, Kiringa I, et al. Ontology-based unification of MPEG-7 semantic descriptions[C]//The 4th International Conference on Electrical and Computer Engineering. Dhaka, Bangladesh, 2006: 291?294.
[2]García R, Celma ò. Semantic integration and retrieval of multimedia metadata[C]//The 5th International Workshop on Knowledge Markup and Semantic Annotation. Galway, Ireland,2005: 69?80.
[3]Tsinaraki C, Polydoros P, Kazasis F, et al. Ontology-based semantic indexing for MPEG-7 and TV-Anytime audiovisual content[J]. Multimedia Tools and Applications, 2005, 26(3):299?325.
[4]Mylonas P, Athanasiadis T, Wallace M, et al. Semantic representation of multimedia content: Knowledge representation and semantic indexing[J]. Multimedia Tools and Applications,2008, 39(3): 293?327.
[5]SUN Wei, LIU Da-xin. Using ontologies for semantic query optimization of XML database[C]//Nayak R, Zaki M J.Proceeding of 1st International Workshop on Knowledge Discovery from XML Documents. Heidelberg, Berlin:Springer-Verlag, 2006, 3915: 64?73.
[6]Naeve A. The human semantic web: Shifting form knowledge push to knowledge pull[J]. International Journal of Semantic Web and Information Systems, 2005, 1(3): 1?30.
[7]Hunter J. Adding multimedia to the semantic web-building an MPEG-7 ontology[C]//Proceeding of International Semantic Web Working Symposium. Stanford, California Amsterdam: IOS Press, 2001: 261?281.
[8]Hunter J. Enhancing the semantic interoperability of multimedia through a core ontology[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2003, 13(1): 49?58.
[9]Tsinaraki C, Polydoros P, Christodoulakis S. Interoperability support between MPEG-7/21 and OWL in DS-MIRF[J]. IEEE Transactions on Knowledge and Data Engineering, 2007, 19(2):219?232.
[10]Hammiche S, Lopez B, Benbernou S, et al. Query rewriting for semantic multimedia data retrieval[J]. Studies in Computational Intelligence, 2008, 116: 351?372.
[11]Das S, Chong E I, Eadon G, et al. Supporting ontology-based semantic matching in RDBMS[C]//Proc 30th VLDB Conf.Toronto, Canada: VLDB Endowment, 2004: 1054?1065.
[12]Lim L, WANG Hai-xun, WANG Min. Unifying data and domain knowledge using virtual views[C]//Proc 33rd VLDB Conf.Vienna, Austria: VLDB Endowment, 2007: 255?266.
[13]Lim L, WANG Hai-xun, WANG Min. Semantic data management: Towards querying data with their meaning[C]//Proceeding of the 23rd International Conference on Data Engineering. Istanbul, Turkey, 2007: 1438?1442.
[14]ZUO Qiong, CAO Zhong-sheng. G3M: A generalized multimedia data model based on MPEG-7[C]//Proceeding of the 2nd International Conference on Multimedia and Ubiquitous Engineering. Washington DC, USA: IEEE Computer Society,2008: 155?159.
[15]Megalou E, Hadzilacos T. Semantic abstractions in the multimedia domain[J]. IEEE Transactions on Knowledge and Knowledge and Data Engineering, 2003, 15(1): 136?160.
[16]Hammiche S, Benbernou S, Vakali A. A logic based approach for the multimedia data representation and retrieval[C]//Proceeding of the 7th IEEE International Symposium on Multimedia.California, 2005: 241?248.
[17]Benítez A. Multimedia knowledge: Discovery, classification,browsing, and retrieval[D]. New York: Columbia University.Electrical Engineering Department, 2005: 1?50.
[18]Hernandez N, Mothe J, Chrisment C, et al. Modeling context through domain ontologies[J]. Information Retrieval, 2007,10(2): 143?172.
[19]王煜, 周立柱, 邢春曉. 視頻語(yǔ)義模型及評(píng)價(jià)準(zhǔn)則[J]. 計(jì)算機(jī)學(xué)報(bào), 2007, 30(3): 337?351.WANG Yu, ZHOU Li-zhu, XING Chun-xiao. Video semantic models and their evaluation criteria[J]. Chinese Journal of Computers, 2007, 30(3): 337?350.