国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字圖書館跨媒體檢索技術(shù)研究

2014-12-31 09:13劉忠寶賈君枝趙文娟
圖書館論壇 2014年12期
關(guān)鍵詞:跨媒體異構(gòu)語義

劉忠寶,賈君枝,趙文娟

多媒體檢索技術(shù)是數(shù)字圖書館的關(guān)鍵技術(shù)之一。隨著多媒體數(shù)據(jù)量不斷增長,如何從中發(fā)現(xiàn)有用知識成為熱點。多媒體檢索技術(shù)在實際應(yīng)用中顯示出優(yōu)勢,但“語義鴻溝”問題并未得到有效解決??缑襟w檢索的出現(xiàn)促進了信息檢索技術(shù)的發(fā)展,充分利用網(wǎng)頁、圖像、音頻、視頻等數(shù)據(jù),通過建立多媒體數(shù)據(jù)之間的交叉關(guān)聯(lián)關(guān)系,實現(xiàn)真正意義上的語義檢索??缑襟w技術(shù)的進一步發(fā)展及其在數(shù)字圖書館建設(shè)中的推廣應(yīng)用,將從根本上提升數(shù)字圖書館的信息檢索能力以及用戶的滿意度。

1 數(shù)字圖書館多媒體資源及其交叉關(guān)聯(lián)關(guān)系

數(shù)字圖書館的多媒體資源規(guī)模龐大且形式多樣,其中文本、圖像、音頻、視頻、3D 模型和動畫等多媒體資源出現(xiàn)新特點:(1)多種媒體數(shù)據(jù)共同存在;(2)媒體數(shù)據(jù)的組織結(jié)構(gòu)多樣;(3)不同媒體數(shù)據(jù)語義表達的一致性;(4)多種媒體數(shù)據(jù)之間緊密聯(lián)系。數(shù)據(jù)媒體之間存在四種交叉關(guān)聯(lián)關(guān)系:(1)文本內(nèi)或文本間所包含對象的交叉關(guān)聯(lián);(2)各類型多媒體數(shù)據(jù)所包含對象的交叉關(guān)聯(lián);(3)用戶在檢索過程中提供的標(biāo)注、評價、日志等交換信息之間的交叉關(guān)聯(lián);(4)各類型多媒體數(shù)據(jù)與用戶之間的交叉關(guān)聯(lián)。上述交叉關(guān)聯(lián)關(guān)系見圖1。各類型多媒體數(shù)據(jù)之間存在的語義關(guān)聯(lián)關(guān)系對于整合網(wǎng)上資源、實現(xiàn)個性化檢索具有重要意義。

2 數(shù)字圖書館與跨媒體檢索

圖1 網(wǎng)絡(luò)資源、用戶和檢索行為之間的關(guān)聯(lián)示意圖

數(shù)字圖書館是傳統(tǒng)圖書館在信息時代進一步發(fā)展的產(chǎn)物,不僅具有藏書和提供電子資源的功能,而且還具有向公眾提供綜合信息服務(wù)的功能。隨著數(shù)字圖書館應(yīng)用的不斷深入,其面臨的知識表達和檢索方式問題日益凸顯:當(dāng)前數(shù)字圖書館主要面向用戶提供閱讀服務(wù),其檢索機制多以關(guān)鍵詞檢索為主,缺乏語義理解能力,存在“語義鴻溝”問題,從而限制了信息服務(wù)水平的提升。為了解決上述問題,研究人員提出跨媒體檢索。跨媒體檢索是指信息檢索系統(tǒng)在多媒體檢索基礎(chǔ)上通過對各種媒體特征的分析,綜合利用其內(nèi)在語義聯(lián)系,對具有相同或相近語義的信息進行不同媒體表示形式的處理,從而實現(xiàn)數(shù)字圖書館多媒體資源的有效存儲和精確檢索??缑襟w檢索的工作機理與人類認(rèn)識世界的方式相似,即人類利用多種感覺器官認(rèn)識世界并通過融合多種感知信息來加深對世界的認(rèn)識。在進行跨媒體檢索時,用戶只需將某一媒體信息作為檢索項,數(shù)字圖書館信息檢索系統(tǒng)便會返回語義相同或相近各類型多媒體信息。隨著跨媒體檢索研究的不斷深入,數(shù)字圖書館檢索系統(tǒng)面臨的“語義鴻溝”問題終將得到解決。

3 數(shù)字圖書館跨媒體檢索技術(shù)

3.1 從多媒體檢索到跨媒體檢索

為解決早期基于文本的多媒體檢索費時費力、主觀差異性大的問題,20 世紀(jì)90 年代出現(xiàn)了基于內(nèi)容的多媒體檢索方法,其基本思路是通過視覺、聽覺或者幾何特征來計算被檢索對象和用戶查詢之間的相似度[2-3]。基于內(nèi)容的多媒體檢索的“內(nèi)容”在提出時指的是“底層特征(如視覺或聽覺等特征)”或“檢索樣例”,而非語義內(nèi)容。

為解決信息檢索中存在的“語義鴻溝”問題,研究人員在信息的特征空間和語義空間之間建立某種映射關(guān)系和反饋機制。目前主流的反饋技術(shù)主要有基于反饋定制、概率模型、機器學(xué)習(xí)、用戶驅(qū)動等幾類。反饋技術(shù)的使用有效地提高了檢索效率。但基于內(nèi)容的多媒體檢索無法實現(xiàn)真正意義上的語義檢索,“語義鴻溝”問題并未從根本上予以解決。

多媒體數(shù)據(jù)往往伴隨文本信息以及用戶標(biāo)注信息,從中提取能反映多媒體數(shù)據(jù)語義信息成為近年來的研究熱點。主流研究的基本思路是通過對標(biāo)注訓(xùn)練數(shù)據(jù)集的學(xué)習(xí)得到標(biāo)注對象與文本數(shù)據(jù)之間的對應(yīng)關(guān)系,然后計算語義關(guān)鍵詞在未標(biāo)注數(shù)據(jù)中出現(xiàn)的概率。目前,基于圖像的信息檢索重點研究圖像的語義標(biāo)注,這面臨大規(guī)模圖像標(biāo)注、標(biāo)注擴展以及標(biāo)注不一致等問題。標(biāo)注信息主要利用關(guān)鍵詞檢索和圖像檢索的結(jié)果對其對應(yīng)的文本信息進行主題聚類獲得。隨著圖像檢索技術(shù)的發(fā)展,對圖像的標(biāo)注不僅局限于對整幅圖像,對圖像包含的實體進行標(biāo)注成為當(dāng)下研究的重要方向,典型代表是美國卡內(nèi)基梅隆大學(xué)的人臉標(biāo)注系統(tǒng)“Name It”[4]。

數(shù)字圖書館傳統(tǒng)的單一類型搜索引擎利用文本信息和鏈接屬性實現(xiàn)信息檢索,通過多媒體視聽覺底層特征和樣例,以及相關(guān)反饋技術(shù)實現(xiàn)基于內(nèi)容的多媒體檢索。這些方法忽略了媒體之間存在的關(guān)聯(lián)特性,難以實現(xiàn)不同類型媒體數(shù)據(jù)的統(tǒng)一檢索。為了滿足人們對這些多媒體數(shù)據(jù)檢索的需求,需要研究一種新的檢索方法,可以檢索到相似主題、不同類型的多媒體對象。這種新的檢索方式能夠處理和查詢不同類型的多媒體數(shù)據(jù),極大地擴展人們獲取多媒體信息的途徑和范圍。這類“跨媒體檢索”方式需要達到如下要求[5]:

首先,跨媒體檢索要支持檢索過程中在數(shù)據(jù)類型上的跨越。所謂異構(gòu)多媒體數(shù)據(jù)指的是不同類型的多媒體數(shù)據(jù),如圖像與音頻數(shù)據(jù)就互為異構(gòu)多媒體數(shù)據(jù)。如給定一幅圖像、一篇文本和一段音頻數(shù)據(jù),雖然它們對信息的表現(xiàn)形式各異,底層特征也不同。但是,異構(gòu)多媒體數(shù)據(jù)卻可以在語義層面統(tǒng)一起來:如老虎的圖像、老虎習(xí)性的描述性文字和老虎吼叫的音頻數(shù)據(jù)雖然表達形式各異,卻在語義層面共同表達了老虎這一概念。傳統(tǒng)的單一媒體相關(guān)技術(shù)忽略了異構(gòu)多媒體數(shù)據(jù)在語義上的共性,因而不能有效處理異構(gòu)多媒體數(shù)據(jù)共存的復(fù)雜多媒體數(shù)據(jù),也無法有效跨越“語義鴻溝”。作為單一媒體技術(shù)在理論和功能上的延伸,跨媒體技術(shù)將異構(gòu)多媒體數(shù)據(jù)統(tǒng)一理解分析;圖像、文本、音頻、視頻等異構(gòu)多媒體數(shù)據(jù)在語義層面的共性得以利用,這不但更符合人類的思維方式,而且也便于對異構(gòu)多媒體數(shù)據(jù)的統(tǒng)一管理,以方便用戶對其使用以及信息的傳遞。

其次,跨媒體檢索要支持同構(gòu)多媒體數(shù)據(jù)在語義上的跨越。所謂同構(gòu)多媒體數(shù)據(jù)指的是相同類型的多媒體數(shù)據(jù),如兩幅圖像互為同構(gòu)多媒體數(shù)據(jù)。由于不同概念之間有著復(fù)雜的關(guān)聯(lián),雖然同構(gòu)多媒體數(shù)據(jù)表達方式一致,但是它們所蘊含的語義聯(lián)系卻錯綜復(fù)雜。如何挖掘同構(gòu)多媒體數(shù)據(jù)之間的語義關(guān)聯(lián)信息是跨媒體研究的又一重要內(nèi)容。以不同的文本數(shù)據(jù)為例,它們雖然表達形式一致,但是所蘊含的語義關(guān)聯(lián)卻有可能是相反、相近、相同的??缑襟w研究就是要根據(jù)同構(gòu)多媒體數(shù)據(jù)在特征空間內(nèi)錯綜復(fù)雜的分布找到它們之間的潛在的語義關(guān)聯(lián),從而完成語義的跨越。比如僅僅在文本的特征空間,“稻谷”和“午飯”這兩個文本對象所描述的內(nèi)容屬于不同概念,而在語義層面二者有明顯的關(guān)聯(lián)。跨媒體研究則要根據(jù)全體文本對象在特征空間的分布,挖掘出同構(gòu)多媒體數(shù)據(jù)之間這種固有的語義關(guān)聯(lián),從而方便對這些多媒體數(shù)據(jù)的檢索和利用。

最后,跨媒體檢索也要支持異構(gòu)多媒體數(shù)據(jù)在語義上的跨越。對異構(gòu)多媒體數(shù)據(jù)在語義上的跨越,目的是找到異構(gòu)多媒體數(shù)據(jù)之間錯綜復(fù)雜的語義關(guān)聯(lián),這是對前面所述兩項研究的綜合。比如老虎的叫聲和灰狼的圖像,它們既不是同一類多媒體數(shù)據(jù)(二者類型分別屬于音頻和圖像),表達的語義也不相同(二者語義分別屬于老虎和灰狼),但是考慮到老虎和灰狼同屬食肉動物,這兩類多媒體數(shù)據(jù)之間又有一定的語義關(guān)聯(lián)。這種異構(gòu)多媒體數(shù)據(jù)的語義關(guān)聯(lián)挖掘,傳統(tǒng)的單一媒體研究并沒有涉及。因此,這一研究內(nèi)容是跨媒體研究對傳統(tǒng)單一媒體研究的進一步延伸和拓展。從圖像、音頻等媒體數(shù)據(jù)中提取出來的視覺和聽覺等特征量綱不同,存在異構(gòu)性。要實現(xiàn)跨媒體檢索,需要解決如何度量異構(gòu)特征相似性問題。

最近一些研究通過典型相關(guān)性分析(Canonical Correlation Analysis,CCA)挖掘異構(gòu)數(shù)據(jù)在特征上潛在的統(tǒng)計關(guān)系,從而生成包含不同類型數(shù)據(jù)的同構(gòu)子空間實現(xiàn)異構(gòu)數(shù)據(jù)相似性度量,并在特征降維后能最大程度地保持原始異構(gòu)數(shù)據(jù)的相關(guān)性。由于典型相關(guān)性分析是建立在兩個不同變量場所對應(yīng)矩陣的基礎(chǔ)上,因此,同樣也適用于對圖像與音頻、音頻與文本等跨媒體特征的相關(guān)性分析。

3.2 從多媒體表達到跨媒體表達

在數(shù)字圖書館知識表達方面,早期人工智能領(lǐng)域有一些研究人員主張用統(tǒng)一的邏輯框架來表示各種事物。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,通過統(tǒng)計學(xué)習(xí)的方法獲得多媒體數(shù)據(jù)表達的研究逐漸成為機器學(xué)習(xí)領(lǐng)域的熱點。從多媒體數(shù)據(jù)中提取出文本和視覺、聽覺等底層特征,拼合成特征向量后,需要解決如何學(xué)習(xí)得到特征向量相似度度量函數(shù),使其與數(shù)據(jù)在原始空間幾何分布一致的問題。該方面較有代表性的工作可分為子空間學(xué)習(xí)和流形學(xué)習(xí)兩類。

研究表明數(shù)字圖書館中許多類型數(shù)據(jù)的分布并不是線性的,而是非線性的流形結(jié)構(gòu)?;谏鲜隼碚?,國內(nèi)外研究人員提出多種流形學(xué)習(xí)方法[6]。同時多媒體數(shù)據(jù)中局部特征提取也成為業(yè)界關(guān)注的熱點?!霸~袋”在自然語言理解中表示文檔,受其啟發(fā),“視覺單詞”和“數(shù)據(jù)文法”可以用來表示圖像和視頻數(shù)據(jù)。該方法利用SIFT(Scale- Invariant Feature Transform)算法提取圖像和視頻數(shù)據(jù)的局部特征并將聚類后的結(jié)果作為視覺單詞。計算機視覺中有關(guān)圖像分割技術(shù)的發(fā)展使得通過對圖像中對象識別,構(gòu)建視覺單詞和視覺文法實現(xiàn)圖像解釋成為可能。由于從圖像、視頻、網(wǎng)頁和動畫等多媒體數(shù)據(jù)中提取的特征仍然較多,傳統(tǒng)向量空間模型表示多媒體數(shù)據(jù)存在兩大問題:其一是造成“維數(shù)災(zāi)難”問題;其二是由于特征向量維度過高以及訓(xùn)練樣本不足,將不同屬性特征進行拼合引起“過壓縮”問題,導(dǎo)致大量信息丟失。另外,不同類型特征通過簡單向量拼接也在一定程度上減弱或忽略了視頻中這些多種屬性特征之間關(guān)聯(lián)性。為了反映跨媒體數(shù)據(jù)中存在的交叉關(guān)聯(lián)等復(fù)雜關(guān)系,矩陣、張量和圖等形式下數(shù)據(jù)結(jié)構(gòu)被使用[8],由于其能描述復(fù)雜對象各組成部分之間的拓撲結(jié)構(gòu),并能闡明關(guān)于表示的假設(shè),因而計算效率得到有效提高。如何實現(xiàn)矩陣、張量和圖等復(fù)雜結(jié)構(gòu)處理是實現(xiàn)跨媒體理解要解決的關(guān)鍵問題。

4 未來研究熱點

信息檢索技術(shù)是數(shù)字圖書館建設(shè)的重要內(nèi)容之一,其經(jīng)歷了人工標(biāo)注階段、內(nèi)容檢索階段以及跨媒體檢索階段。隨著互聯(lián)網(wǎng)上數(shù)據(jù)量的不斷增長,信息資源檢索至今仍作為一個熱門研究方向備受關(guān)注。在未來幾年,信息資源檢索在以下方面值得關(guān)注:

(1)底層特征很難與高層語義建立準(zhǔn)確的對應(yīng)關(guān)系,“語義鴻溝”問題仍是跨媒體檢索面臨的一大難題。

(2)Web2.0 時代下,用戶在媒體內(nèi)容生成和編輯過程中的參與度急劇增強。如何從用戶交互中獲取用戶行為,生成偏好信息,發(fā)現(xiàn)用戶社區(qū),實現(xiàn)更理想的個性化檢索將是下一代數(shù)字圖書館提供更優(yōu)質(zhì)服務(wù)的關(guān)鍵所在。

(3)近年涌現(xiàn)出不少利用機器學(xué)習(xí)算法在互聯(lián)網(wǎng)級語料庫或圖像庫實現(xiàn)知識發(fā)現(xiàn)和語義理解的研究成果。該研究的進一步深入是將跨媒體檢索推向?qū)嵱玫谋亟?jīng)之路[10-11]。

(4)壓縮感知和變量選擇理論與方法相結(jié)合,用來對圖像形成更加有效的“稀疏表達”(Sparse Representation),已成為計算機視覺和機器學(xué)習(xí)等領(lǐng)域的研究熱點。如可針對圖像中不同視覺特征在表示特定高層語義時所起重要程度不同,定義結(jié)構(gòu)性組稀疏(Structural Group ing Sparsity)機制實現(xiàn)高維異構(gòu)特征的差別性選擇[12]。

[1] 吳飛,莊越挺.互聯(lián)網(wǎng)跨媒體分析與檢索:理論與算法[J].計算機輔助設(shè)計與圖像圖形學(xué)報,2010,22(1):1- 9.

[2] Datta R.,Joshi D.,Li J.,et al. Image retrieval:ideas,influences,and trends of the new age[J]. ACM Computing Surveys,2008,40(2),5- 60.

[3] Smoliar S.,Zhang H J.. Content based video indexing and retrieval [J]. IEEE Multimedia,1994,1(2):62- 72.

[4] Satoh S.,NakamuraY.,Kanade T..Name- It:naming and detecting faces in news videos [J]. IEEE Multimedia,1999,6(1):22- 35.

[5] Zhuang Y T,Yang Y,Wu F. Mining semantic correlation of heterogeneous multimedia data for cross- media retrieval[J]. IEEE Transactions on Multimedia,2008,10(2):221- 229.

[6] Saul L.K.,Weinberger K.Q.,Ham J.H,et al.Spectral methods for dimensionality reduction [M].Cambridge,MIT Press,2006.

[7] Korn,F(xiàn).,Pagel,B.,F(xiàn)aloutsos,C.. On the “Dimensionality Curse” and the “Self- Similarity Blessing”[J]. IEEE Transactions on Knowledge and Data Engineering,2001,13(1):96- 111.

[8] Tao D.,Li X.,Wu X.,et al. Supervised tensor learning [J]. Knowledge and Information Systems,2007,13(1):1- 42.

[9] Wright J.,Yang A.,Ganesh A.,et al. Robust face recognition via sparse representation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(2):1- 18.

[10] Mahoney M.,Lim L.,Carlsson G.. Algorithmic and statistical challengesin modern large scale data analysis[J].SIGKDD Explorations,2008,10(2):57- 60.

[11] Talwalkar A.,Kumar S.,Rowley H.. Large scale manifold learning[C]. Proceedings of Computer Vision and Pattern Recognition,Anchorage,2008:1- 8.

[12] Wu F,Han Y H,Tian Q,et al. Multilabel boosting for image annotation by structural grouping sparsity [J].ACM Multimedia,2010:15- 24.

猜你喜歡
跨媒體異構(gòu)語義
網(wǎng)絡(luò)多屏視域下傳媒人才培養(yǎng)的新模式
——評《交互敘事與跨媒體敘事:新媒體平臺上的沉浸式故事創(chuàng)作》
試論同課異構(gòu)之“同”與“異”
語言與語義
吳?。憾嘣悩?gòu)的數(shù)字敦煌
試談新環(huán)境下的博物館跨媒體敘事
異構(gòu)醇醚在超濃縮洗衣液中的應(yīng)用探索
批評話語分析中態(tài)度意向的鄰近化語義構(gòu)建
人工智能2.0時代的跨媒體智能
“社會”一詞的語義流動與新陳代謝
“吃+NP”的語義生成機制研究