胡昕 孫巍
摘 要 在實(shí)際的媒體檢索實(shí)踐中,可以觀察到普遍存在一種近鄰關(guān)系非可逆的現(xiàn)象:假設(shè)媒體對象i在媒體對象j的檢索結(jié)果中,但媒體對象_/并不一定存在于媒體對象f的檢索結(jié)果中。然而,如果兩個(gè)媒體對象各自存在于對方的檢索結(jié)果中,也就是兩個(gè)媒體對象滿足近鄰關(guān)系可逆性,那么這兩個(gè)媒體對象很有可能是真正相似的。于是就可以利用近鄰關(guān)系可逆性來幫助提高檢索精度。針對圖像檢索中近鄰關(guān)系對于近鄰數(shù)量的敏感性,提出了一種自適應(yīng)近鄰數(shù)量選擇算法。該算法可以自動(dòng)的為數(shù)據(jù)庫中的每個(gè)圖像選擇一個(gè)合適的近鄰數(shù)量,從而避免算法對不同類型圖像數(shù)據(jù)庫的差異性。
關(guān)鍵詞 跨媒體檢索 圖像檢索 LRGA算法
中圖分類號:TP3 文獻(xiàn)標(biāo)識(shí)碼:A
跨媒體所包含的內(nèi)容非常廣泛,包括多媒體數(shù)據(jù)的存儲(chǔ)、多媒體數(shù)據(jù)檢索、多媒體數(shù)據(jù)的組織管理、多媒體數(shù)據(jù)的傳播和應(yīng)用等等多個(gè)方面相關(guān)理論和技術(shù)。跨媒體指的是跨越媒體數(shù)據(jù)的不同媒體形式而共同表達(dá)同一語義。也就是說,要研究的跨媒體包括多種媒體形式,而這些媒體數(shù)據(jù)相互協(xié)助來共同表達(dá)傳播者要傳播的信息和目的。如在一個(gè)新聞網(wǎng)頁中包含的圖像和文字兩種媒體形式就是所要研究的一個(gè)跨媒體對象,它們表達(dá)的形式不同,但都在描述該條新聞,在表達(dá)時(shí)文本和圖像做到互相補(bǔ)充、互相解釋,共同完成描述該條新聞的功能。
就目前而言,關(guān)于跨媒體的研究主要包括以下幾個(gè)方面:
(1)與跨媒體相關(guān)的硬件技術(shù)。如輸入輸出多媒體數(shù)據(jù)的硬件設(shè)備、存儲(chǔ)和傳輸多媒體數(shù)據(jù)的相關(guān)硬件設(shè)備配置等。
(2)跨媒體內(nèi)容檢索技術(shù)。也就是本文主要介紹的在多種類媒體數(shù)據(jù)之間進(jìn)行檢索。
(3)跨媒體數(shù)據(jù)的表達(dá)。如何更有效地表示跨媒體數(shù)據(jù),方便計(jì)算機(jī)進(jìn)行管理和檢索,是跨媒體研究的重要課題。
(4)跨媒體數(shù)據(jù)的推理。即如何讓計(jì)算機(jī)根據(jù)已知的多媒體數(shù)據(jù),推理產(chǎn)生新的相同類型或不同類型的多媒體數(shù)據(jù),從而實(shí)現(xiàn)更有效的對多媒體數(shù)據(jù)進(jìn)行組織。
(5)跨媒體數(shù)據(jù)的存儲(chǔ)、組織和應(yīng)用。更有效地對跨媒體數(shù)據(jù)進(jìn)行存儲(chǔ)和組織,然后進(jìn)一步利用好跨媒體數(shù)據(jù),使其方便于人類的生產(chǎn)和生活,是跨媒體研究的重要內(nèi)容。
上述跨媒體的五個(gè)研究內(nèi)容中,跨媒體檢索的研究是所有其他研究內(nèi)容的結(jié)合點(diǎn)和最終目標(biāo)。跨媒體檢索的研究目標(biāo)是分析一種媒體數(shù)據(jù)和多種媒體數(shù)據(jù)之間的語義關(guān)聯(lián),在一種或多種媒體數(shù)據(jù)間進(jìn)行檢索。具體而言,跨媒體檢索就是用戶提交任意一種媒體的查詢,檢索相同或者不同種類的相關(guān)多媒體數(shù)據(jù)。由于同種類媒體的檢索可以認(rèn)為是單一媒體形式的檢索,所以人們更多關(guān)注于不同種類間媒體數(shù)據(jù)的檢索,也就是用戶提交某種媒體查詢來檢索出其他種類媒體數(shù)據(jù)。
比如,用戶提交一個(gè)文本查詢,檢索到與該文本相關(guān)的圖像或音頻等。另外,一些跨媒體檢索系統(tǒng)也支持用戶提交多種媒體數(shù)據(jù)對象,來檢索多種媒體數(shù)據(jù)對象。
對圖像提取的全局特征主要包括顏色特征、紋理特征、形狀特征和空間關(guān)系特征等。本小節(jié)將對這幾種全局特征做一簡要介紹。顏色特征:通常情況下,顏色特征由顏色直方圖來表示,而最常用的是1991年提出的顏色直方圖相交方法。
比較常用的局部圖像特征描述子有Harris角點(diǎn)、SIFT和SURF等,其中SIFT特征描述子在基于內(nèi)容的圖像檢索中最為常見,本文后面實(shí)驗(yàn)章節(jié)也是使用的SIFT特征描述子。
在跨媒體檢索研究領(lǐng)域中,最大的障礙就是人們常說的“語義鴻溝”,也就是說在不同媒體類型間找到它們的語義關(guān)聯(lián)。在文獻(xiàn)中,作者將照片剪輯根據(jù)場景分類進(jìn)行了自動(dòng)標(biāo)注,然后根據(jù)這種關(guān)于場景的語義標(biāo)注可以選擇合適的音樂來進(jìn)行多媒體幻燈片的放映。深入挖掘圖像和聲音的語義關(guān)聯(lián),成功對圖像和聲音數(shù)據(jù)進(jìn)行了聚類。為了對跨媒體數(shù)據(jù)進(jìn)行統(tǒng)一表示和組織,文獻(xiàn)提出了一種兩層流形學(xué)習(xí)方法來構(gòu)建跨媒體檢索系統(tǒng)。該方法首先為圖像數(shù)據(jù)、音頻數(shù)據(jù)和文本數(shù)據(jù)。構(gòu)建三個(gè)獨(dú)立的圖,這三個(gè)圖將圖像數(shù)據(jù)、音頻數(shù)據(jù)、文本數(shù)據(jù)映射到三個(gè)獨(dú)立的空間中,然后將這三個(gè)數(shù)據(jù)空間結(jié)合形成多媒體文檔語義空間(Multimedia Document Semantic Space縮寫成MMDSS)。然而這種方法有一定缺陷:在建立這三個(gè)獨(dú)立的空間時(shí),不同種類的多媒體文件間的語義關(guān)聯(lián)并沒有被考慮到;另外,兩層流形學(xué)習(xí)方法需要調(diào)節(jié)大量的參數(shù),其復(fù)雜程度并不適用于實(shí)際使用。于是文獻(xiàn)提出了只建立一個(gè)圖的跨媒體檢索系統(tǒng)方案,在這個(gè)圖中每個(gè)多媒體對象都是一個(gè)頂點(diǎn),圖中頂點(diǎn)間的距離根據(jù)單一媒體對象來確定。盡管這種只建立一個(gè)圖的方法簡化了流形學(xué)習(xí)的困難程度,但仍然沒有能夠?qū)Σ煌N類多媒體文件間的語義關(guān)聯(lián)進(jìn)行很好的分析和利用。
在多媒體關(guān)聯(lián)空間中,每個(gè)多媒體文檔就是該空間中的一個(gè)數(shù)據(jù)點(diǎn)。有研究人員提出了一種排序算法(local regression and global alignment,縮寫為LRGA算法),該算法通過學(xué)習(xí)一個(gè)拉普拉斯矩陣來對數(shù)據(jù)進(jìn)行重排序。盡管LRGA算法在檢索過程中能夠?qū)⒉煌愋偷亩嗝襟w對象結(jié)合起來,但它仍有一些缺陷。首先,盡管多媒體文檔距離能夠把多種類型的多媒體對象信息都包含在內(nèi),但它依賴于該類型的媒體對象的檢索精度,這有可能使得某種媒體對象對當(dāng)前多媒體文檔表達(dá)語義的貢獻(xiàn)變得很小。其次,建立多媒體文檔語義空間需要對所有媒體對象的距離都進(jìn)行計(jì)算,這在處理大型多媒體數(shù)據(jù)庫時(shí)變得困難,因?yàn)殡S著多媒體文檔數(shù)據(jù)量的增大,多媒體文檔距離矩陣也變得異常龐大,這為進(jìn)一步的處理帶來了困難。