張寶鵬 彭進(jìn)業(yè) 范建平
摘要:提出基于概念網(wǎng)的媒體大數(shù)據(jù)結(jié)構(gòu)化描述和分析的技術(shù)框架,該框架可以針對(duì)不同的數(shù)據(jù)獲取來(lái)源,通過(guò)層次式多角度概念描述模型融合數(shù)據(jù)的視覺(jué)特征、實(shí)例和概念關(guān)聯(lián)的語(yǔ)義,并提出面向單一媒體和多媒體文檔的跨媒體概念提取及基于結(jié)構(gòu)的語(yǔ)義對(duì)齊方法,從而有效支持媒體大數(shù)據(jù)的語(yǔ)義關(guān)聯(lián)分析及多領(lǐng)域的智能應(yīng)用。
關(guān)鍵詞:概念網(wǎng);媒體大數(shù)據(jù)分析;概念抽取;結(jié)構(gòu)化描述;可視化
Abstract:In this paper, we propose that a topic network-based enabling technology framework for big media analysis and structural description. And it proposes a hierarchical concept description model with multiple perspectives for different sources data to integrating semantic of visual, instance and concept correlation. And cross-media concept extraction method for single media and multimedia document and their structure-based semantic alignment method are also proposed, which can efficiently support the big media analysis and smart application in many domain.
Key words:topic network; big media analysis; concept extraction; structural description; visualization
隨著互聯(lián)網(wǎng)的普及和迅速發(fā)展,各類(lèi)在線社交網(wǎng)絡(luò)(如Facebook、Twitter、新浪微博、騰訊網(wǎng)等)的飛速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)資源越來(lái)越多樣化,并呈爆炸式增長(zhǎng)。這種大數(shù)據(jù)的勢(shì)態(tài)引發(fā)了多行業(yè)、多領(lǐng)域的時(shí)代性變革。大數(shù)據(jù)思想的重要在于[1]:人們可以在很大程度上從對(duì)于因果關(guān)系的追求中解脫出來(lái),轉(zhuǎn)而將注意力放在相關(guān)關(guān)系的發(fā)現(xiàn)和使用上。目前,在互聯(lián)網(wǎng)中,大量文本、圖像、音頻、視頻等媒體大數(shù)據(jù)迅速增長(zhǎng),其中蘊(yùn)含了很多人類(lèi)社會(huì)活動(dòng)的基本規(guī)律,公共衛(wèi)生、商業(yè)乃至思維模式因此醞釀著重大的機(jī)會(huì)和挑戰(zhàn)?;诖髷?shù)據(jù)的研究逐漸成為各國(guó)政府重點(diǎn)發(fā)展的國(guó)家戰(zhàn)略,及時(shí)、準(zhǔn)確地獲取并理解這些數(shù)據(jù)及其關(guān)系不僅僅可以為政府在社會(huì)生活、金融服務(wù)、醫(yī)療衛(wèi)生等方面發(fā)現(xiàn)和處理民生問(wèn)題,輔助政府決策,同時(shí)也為互聯(lián)網(wǎng)經(jīng)濟(jì)的發(fā)展提供有效的客戶(hù)和經(jīng)濟(jì)規(guī)律的知識(shí)輔助,提供商業(yè)智能決策支持。
盡管媒體大數(shù)據(jù)成長(zhǎng)迅速,應(yīng)用廣泛,但其數(shù)據(jù)量大、種類(lèi)繁雜、價(jià)值密度低以及時(shí)時(shí)刻刻不斷變化的特點(diǎn),使得存儲(chǔ)、統(tǒng)計(jì)、分類(lèi)以及調(diào)用都非常困難[2],其價(jià)值遠(yuǎn)沒(méi)有得到充分的利用和開(kāi)發(fā)。而人工智能領(lǐng)域的一些理論和比較實(shí)用的方法,已經(jīng)開(kāi)始用于大數(shù)據(jù)分析方面,推動(dòng)兩個(gè)領(lǐng)域技術(shù)和應(yīng)用融合的加速,但依然只是初期。目前谷歌、百度等通用的搜索引擎提供了基于文本描述的多媒體的檢索機(jī)制,但對(duì)于大數(shù)據(jù)背景下的多種媒體數(shù)據(jù)來(lái)說(shuō),還缺乏準(zhǔn)確文本描述,需要不同的算法分析、理解其內(nèi)容的語(yǔ)義,實(shí)現(xiàn)相應(yīng)的文本描述,從而為搜索引擎所用。另外,媒體數(shù)據(jù)間的異構(gòu)性特點(diǎn),使得當(dāng)前單一媒體的搜索引擎無(wú)法有效支持大數(shù)據(jù)條件下異構(gòu)媒體間的數(shù)據(jù)語(yǔ)義關(guān)聯(lián)檢索。因此,從媒體大數(shù)據(jù)智能應(yīng)用的角度來(lái)看,其表示、理解及檢索是重要的環(huán)節(jié),而根據(jù)異構(gòu)媒體間語(yǔ)義關(guān)系實(shí)現(xiàn)媒體大數(shù)據(jù)的智能的模式發(fā)現(xiàn)是解決這些問(wèn)題的關(guān)鍵點(diǎn)。
1 媒體大數(shù)據(jù)分析和描述的關(guān)鍵問(wèn)題
根據(jù)媒體大數(shù)據(jù)深度分析的目標(biāo),以及其支撐媒體搜索引擎、媒體消費(fèi)和關(guān)聯(lián)分析的需求,盡管當(dāng)前異構(gòu)媒體的關(guān)聯(lián)和分析技術(shù)有一些相關(guān)研究,但有些關(guān)鍵問(wèn)題還沒(méi)有得到解決,包括:
(1)媒體數(shù)據(jù)標(biāo)注的不確定性及歧義性
除了大數(shù)據(jù)的4個(gè)V(Volumn、Variety、Velocity、Value)之外,為充分利用大數(shù)據(jù)蘊(yùn)含的知識(shí)信息,一個(gè)重要的問(wèn)題是解決媒體數(shù)據(jù)標(biāo)注的不確定性、歧義性,這種不確定的標(biāo)簽數(shù)據(jù)包括:
粗糙標(biāo)注,例如圖片中對(duì)象是在圖片層次上給出的,而忽略了其區(qū)域性的語(yǔ)義;
抽象標(biāo)注,指標(biāo)簽只從高層語(yǔ)義角度給出,缺乏具體語(yǔ)義關(guān)聯(lián);
無(wú)關(guān)標(biāo)注,指標(biāo)注和圖像語(yǔ)義并無(wú)關(guān)聯(lián);
噪聲標(biāo)注,指錯(cuò)誤的標(biāo)注。
這些標(biāo)簽數(shù)據(jù)將誤導(dǎo)數(shù)據(jù)驅(qū)動(dòng)的機(jī)器學(xué)習(xí)方法,從而導(dǎo)致數(shù)據(jù)訓(xùn)練分類(lèi)器在性能和準(zhǔn)確率上的退化。目前很多項(xiàng)目開(kāi)展了圖像智能標(biāo)注的工作,旨在提高標(biāo)簽的準(zhǔn)確率,包括傳統(tǒng)概率的方法[3-4]、場(chǎng)景限制下的綜合方法[5]、深度學(xué)習(xí)方法[6]及面向大規(guī)模的方法[7]等,但面向媒體大數(shù)據(jù)的復(fù)雜結(jié)構(gòu),復(fù)雜的語(yǔ)義及智能化的需求使得當(dāng)前技術(shù)還遠(yuǎn)遠(yuǎn)不能滿足其需要。
(2)媒體大數(shù)據(jù)結(jié)構(gòu)化描述及其機(jī)器學(xué)習(xí)的算法
媒體大數(shù)據(jù)包含大量的語(yǔ)義概念,而且語(yǔ)義概念之間有千絲萬(wàn)縷的關(guān)系;同時(shí)對(duì)于不同主域的應(yīng)用環(huán)境,不同的語(yǔ)義關(guān)系需要不同的結(jié)構(gòu)化描述。目前傳統(tǒng)多媒體語(yǔ)義描述模型主要包括兩種:詞袋模型,其源于自然語(yǔ)言理解,適合于視覺(jué)的相似匹配,但與語(yǔ)義并沒(méi)有直接的對(duì)應(yīng)關(guān)系;基于特征-語(yǔ)義的分類(lèi)模型,源于機(jī)器學(xué)習(xí),其主要參考的是人類(lèi)語(yǔ)義感知設(shè)計(jì),提取難度較大,準(zhǔn)確率不高。由于傳統(tǒng)多媒體語(yǔ)義提取采用多類(lèi)學(xué)習(xí)的方法,其中用兩類(lèi)分類(lèi)器合成的方法,訓(xùn)練檢測(cè)復(fù)雜度較高,訓(xùn)練難度大,而傳統(tǒng)的多任務(wù)學(xué)習(xí)和結(jié)構(gòu)化支持向量機(jī)(SVM)學(xué)習(xí)方法,無(wú)法真正發(fā)掘出概念間相似性結(jié)構(gòu)的信息。兩種方法必須要解決的問(wèn)題就是面向媒體大數(shù)據(jù)的泛化能力。目前,基于深度學(xué)習(xí)的多媒體語(yǔ)義提取方法得到了空前的關(guān)注,如文本檢索會(huì)議(TREC)的視頻事件檢測(cè)提出的基于卷積神經(jīng)網(wǎng)的深度學(xué)習(xí)算法,微軟的音、視頻索引服務(wù)(MAVIS)的語(yǔ)音識(shí)別系統(tǒng),Google的深度學(xué)習(xí)模型等,都獲得了很好的效果。但它們主要對(duì)音頻、視頻或文本單一模態(tài)進(jìn)行分析,沒(méi)有充分利用多模態(tài)信息間的相互協(xié)同關(guān)系。
(3)媒體大數(shù)據(jù)的關(guān)聯(lián)性分析
媒體大數(shù)據(jù)分析首先需要研究異構(gòu)媒體的統(tǒng)一表示[8],相似度計(jì)算及語(yǔ)義關(guān)聯(lián)的分析方法。傳統(tǒng)的異構(gòu)媒體采用基于子空間的映射技術(shù),包括典型關(guān)聯(lián)分析(CCA)方法、概率潛語(yǔ)義分析(PLSA)方法等。在相似度計(jì)算方面,主要的度量方法是基于圖模型的相似度度量方法和基于學(xué)習(xí)的相似度度量方法[9],但目前兩者主要都是依賴(lài)共生性假設(shè),即如果兩個(gè)多媒體文檔包含同一個(gè)媒體對(duì)象,則它們具有相同語(yǔ)義,也可以說(shuō)是基于概念和概念的相似性或簡(jiǎn)單的物理依賴(lài)。跨媒體數(shù)據(jù)中的內(nèi)在語(yǔ)義關(guān)系和結(jié)構(gòu)(概念相關(guān)性網(wǎng)絡(luò))并沒(méi)有給予充分的考慮,并且概念間關(guān)系復(fù)雜,因此并不適用于媒體大數(shù)據(jù)的深度分析,而主流的機(jī)器學(xué)習(xí)方法可能無(wú)法直接解決其復(fù)雜、大規(guī)模學(xué)習(xí)問(wèn)題。
(4)媒體大數(shù)據(jù)的可視化與可視化分析
在媒體大數(shù)據(jù)的深度分析中,準(zhǔn)確率和查全率是主要的分類(lèi)器的評(píng)估標(biāo)準(zhǔn),但由于學(xué)習(xí)分類(lèi)器會(huì)過(guò)擬合,以及用于分類(lèi)器訓(xùn)練和測(cè)試的樣本是服從于同樣的分布,因此評(píng)估標(biāo)準(zhǔn)會(huì)誤導(dǎo)分類(lèi)器的判定能力,也就是說(shuō)不能顯式地反映分類(lèi)器和正確率和其辨識(shí)力。一種有效用于分類(lèi)器評(píng)估的方法是可視化分類(lèi)器的邊界和類(lèi)間的邊緣,用戶(hù)可以交互式地評(píng)估其正確率。因此,在機(jī)器學(xué)習(xí)過(guò)程中融合人的交互式操作,來(lái)改善分類(lèi)器訓(xùn)練具有更高的應(yīng)用價(jià)值。
2 媒體大數(shù)據(jù)關(guān)聯(lián)分析的
參考技術(shù)框架
針對(duì)目前在媒體大數(shù)據(jù)深度分析中所面臨的問(wèn)題,其未來(lái)發(fā)展的思路應(yīng)該是基于內(nèi)容語(yǔ)義的、全生命周期的支撐,因此我們提出了基于概念網(wǎng)的核心參考技術(shù)框架,如圖1所示。針對(duì)媒體大數(shù)據(jù)處理的數(shù)據(jù)特點(diǎn),我們需要考慮兩種關(guān)鍵技術(shù)問(wèn)題:有監(jiān)督的媒體語(yǔ)義學(xué)習(xí);無(wú)監(jiān)督的多媒體內(nèi)容理解。
目前媒體大數(shù)據(jù)的跨媒體概念的提取方法主要針對(duì)兩種不同的媒體數(shù)據(jù)獲取類(lèi)型:一種是多媒體文檔,主要是電視節(jié)目和網(wǎng)絡(luò)媒體,包含圖像、視頻、音頻和伴隨文本描述等多種媒體形式。其關(guān)聯(lián)關(guān)系隱含在多媒體文檔中,重點(diǎn)解決的問(wèn)題是多模態(tài)特征融合與跨模態(tài)關(guān)聯(lián)分析的問(wèn)題,而跨模態(tài)深度學(xué)習(xí)技術(shù)可以基于已有的圖像、視頻、音頻及其對(duì)應(yīng)的文本訓(xùn)練其語(yǔ)義概念檢測(cè)模型,檢測(cè)數(shù)據(jù)中的語(yǔ)義概念,并使用跨媒體語(yǔ)義對(duì)齊技術(shù)實(shí)現(xiàn)不同媒體語(yǔ)義概念的對(duì)齊。另外一種是單一視覺(jué)媒體,主要指監(jiān)控錄像和照片包含單一視頻和圖像,但沒(méi)有伴隨文本描述,需要進(jìn)行多媒體數(shù)據(jù)中視覺(jué)語(yǔ)義概念的直接檢測(cè)。其通過(guò)結(jié)合直接的標(biāo)注數(shù)據(jù)和圖像或視頻的初級(jí)語(yǔ)義進(jìn)行結(jié)構(gòu)協(xié)同學(xué)習(xí),提取語(yǔ)義概念并關(guān)聯(lián)到對(duì)應(yīng)的初級(jí)語(yǔ)義概念上,得到跨媒體語(yǔ)義。結(jié)構(gòu)協(xié)同學(xué)習(xí)是基于概念相似性結(jié)構(gòu)進(jìn)行協(xié)同學(xué)習(xí)獲得的分類(lèi)模型的方法,其語(yǔ)義的統(tǒng)一于概念網(wǎng)絡(luò),有助于融合異構(gòu)媒體的內(nèi)容及關(guān)系特征,同時(shí)易于進(jìn)行增量計(jì)算、測(cè)試修正及擴(kuò)展。
該技術(shù)框架可以有效支持異構(gòu)媒體大數(shù)據(jù)的可擴(kuò)展應(yīng)用,包括與當(dāng)前搜索引擎的結(jié)合及面向不同應(yīng)用領(lǐng)域的推薦系統(tǒng)等,如圖2所示。
3 媒體大數(shù)據(jù)關(guān)聯(lián)分析的
關(guān)鍵技術(shù)
3.1 層次式多角度概念描述
多模態(tài)數(shù)據(jù)的語(yǔ)義提取并存儲(chǔ)為語(yǔ)義庫(kù),需要一個(gè)能夠描述所需語(yǔ)義信息,方便語(yǔ)義運(yùn)算的語(yǔ)義模型作為數(shù)據(jù)語(yǔ)義存儲(chǔ)和運(yùn)算格式。由于相關(guān)的數(shù)據(jù)應(yīng)用需要在高層語(yǔ)義、底層特征和實(shí)例樣本等不同的層面處理海量數(shù)據(jù)及其語(yǔ)義,這要求語(yǔ)義描述模型要在統(tǒng)一的框架下存儲(chǔ)所有這些信息。其難點(diǎn)在于:模型必須能夠統(tǒng)一存儲(chǔ)不同種類(lèi)、不同層面差異巨大的媒體數(shù)據(jù)及其特征和語(yǔ)義。我們認(rèn)為:應(yīng)包括3層結(jié)構(gòu)組成的描述模型,通過(guò)整合3個(gè)層次的關(guān)聯(lián)(如圖3所示),實(shí)現(xiàn)語(yǔ)義-實(shí)體-關(guān)系模型。其中位于語(yǔ)義層次的概念網(wǎng)應(yīng)充分考慮大規(guī)模概念間的相關(guān)性,并提供能夠?qū)γ襟w大數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析與結(jié)構(gòu)化描述的新框架,從而用于指導(dǎo)訓(xùn)練大規(guī)模相關(guān)關(guān)聯(lián)的分類(lèi)器,并大幅度提高概念檢測(cè)準(zhǔn)確性。
3.2 基于多媒體文檔的跨媒體概念
提取
傳統(tǒng)搜索引擎技術(shù)支持的圖像-文本對(duì)應(yīng)關(guān)系的獲取具有很大的不確定性(如圖4所示),而面向媒體大數(shù)據(jù),語(yǔ)義對(duì)齊與關(guān)聯(lián)分析可以利用視覺(jué)聚類(lèi)、隨機(jī)行走和概念語(yǔ)義網(wǎng)進(jìn)行相關(guān)性重排以產(chǎn)生更準(zhǔn)確的跨媒體語(yǔ)義對(duì)齊結(jié)果,并提取更準(zhǔn)確的大規(guī)模跨媒體概念,同時(shí)利用視覺(jué)聚類(lèi)可以進(jìn)行跨媒體的語(yǔ)義消歧。這種跨媒體語(yǔ)義對(duì)齊方法可以為機(jī)器視覺(jué)研究提供大量的可靠標(biāo)注的訓(xùn)練數(shù)據(jù)。
3.3 基于單一媒體的跨媒體概念提取
結(jié)構(gòu)協(xié)同學(xué)習(xí)利用多個(gè)語(yǔ)義概念之間的相似性關(guān)系信息設(shè)計(jì)檢測(cè)語(yǔ)義概念的分類(lèi)器,通過(guò)充分利用這種相似性關(guān)系信息(該關(guān)系可以用結(jié)構(gòu)表示),提升大類(lèi)數(shù)媒體數(shù)據(jù)分類(lèi)的性能和準(zhǔn)確率。面向大媒體數(shù)據(jù)的大規(guī)模結(jié)構(gòu)協(xié)同學(xué)習(xí)框架(如圖5所示),首先將語(yǔ)義概念相似性網(wǎng)絡(luò)進(jìn)行分割以形成相似概念組,這一過(guò)程將最相似的語(yǔ)義概念分到同一組,而將差異較大的概念分到不同組,實(shí)現(xiàn)將語(yǔ)義概念中的相似結(jié)構(gòu)表示為概念的分組情況。針對(duì)不同分類(lèi)任務(wù)可選擇不同分類(lèi)算法和不同特征表示,有助于大量減少訓(xùn)練復(fù)雜度。同時(shí),利用多層視覺(jué)樹(shù)[10]來(lái)管理大量分類(lèi)器,實(shí)現(xiàn)快速提取大規(guī)??缑襟w概念。這其中一個(gè)重要的問(wèn)題是:訓(xùn)練圖像實(shí)例如何提取語(yǔ)義。目前,深度學(xué)習(xí)可以得到很好的特征提取及分類(lèi)效果[11],而更為有效的方法是將各種傳統(tǒng)視覺(jué)特征作為先驗(yàn)知識(shí)模型加入到深度學(xué)習(xí)算法的訓(xùn)練當(dāng)中。
3.4 跨媒體語(yǔ)義對(duì)齊
當(dāng)前很多算法都是針對(duì)不同媒體的數(shù)據(jù)構(gòu)建語(yǔ)義結(jié)構(gòu)化模型。這些模型有的較好地關(guān)聯(lián)到了高層語(yǔ)義,但因?yàn)槿狈ο嚓P(guān)的文本數(shù)據(jù)標(biāo)注而無(wú)法關(guān)聯(lián)到高層語(yǔ)義,只能通過(guò)深度學(xué)習(xí)算法獲得大量抽象的語(yǔ)義概念及其關(guān)系。為了統(tǒng)一管理和挖掘媒體大數(shù)據(jù),必須實(shí)現(xiàn)抽象的語(yǔ)義概念與具體的語(yǔ)義概念(語(yǔ)言)對(duì)齊。描述媒體的結(jié)構(gòu)化語(yǔ)義信息的模型一般為圖結(jié)構(gòu),我們需要研究語(yǔ)義對(duì)齊方法實(shí)現(xiàn)多個(gè)語(yǔ)義結(jié)構(gòu)的對(duì)齊,提高語(yǔ)義信息的準(zhǔn)確度。其難點(diǎn)在于:需要精確估計(jì)兩個(gè)圖的部分節(jié)點(diǎn)之間的相似度關(guān)系,但語(yǔ)義概念在不同媒體數(shù)據(jù)中的具體表現(xiàn)差異巨大,難以直接估算相似度。
為了充分利用所有語(yǔ)義信息獲得最高對(duì)齊精度,可以使用流形對(duì)齊方法,該方法對(duì)實(shí)現(xiàn)兩個(gè)語(yǔ)義結(jié)構(gòu)的對(duì)齊是個(gè)較好的選擇。如圖6所示:流形對(duì)齊算法綜合計(jì)算兩個(gè)語(yǔ)義空間的語(yǔ)義概念的相似度和語(yǔ)義概念的內(nèi)在關(guān)聯(lián)結(jié)構(gòu),從而實(shí)現(xiàn)兩個(gè)語(yǔ)義空間的對(duì)齊,這比僅僅依據(jù)語(yǔ)義概念之間的各種相似性的方法具有更高性能。
為簡(jiǎn)化描述,下面我們把抽象的語(yǔ)義概念稱(chēng)為未標(biāo)記實(shí)體,具體的語(yǔ)義概念稱(chēng)為語(yǔ)義實(shí)體。在使用流形對(duì)齊算法過(guò)程中,我們需要計(jì)算部分未標(biāo)記實(shí)體和語(yǔ)義實(shí)體之間的相似度。我們提出了兩種相似度計(jì)算方法:結(jié)構(gòu)協(xié)同分類(lèi)獲得的語(yǔ)義概念包含對(duì)齊的圖像視頻數(shù)據(jù),這些數(shù)據(jù)上也包括深度學(xué)習(xí)算法提取的未標(biāo)記實(shí)體,通過(guò)統(tǒng)計(jì)未標(biāo)記實(shí)體在某個(gè)語(yǔ)義實(shí)體對(duì)應(yīng)的圖像、視頻數(shù)據(jù)中出現(xiàn)的概率,即可計(jì)算出未標(biāo)記實(shí)體和語(yǔ)義實(shí)體的相似度;用結(jié)構(gòu)協(xié)同學(xué)習(xí)獲得的語(yǔ)義概念檢測(cè)模型檢測(cè)所有圖像和視頻關(guān)鍵幀,可以獲得描述其語(yǔ)義的一個(gè)高維矢量,一對(duì)視覺(jué)實(shí)例間的語(yǔ)義相似度可以定義為其語(yǔ)義矢量之間的近似程度,未標(biāo)記實(shí)體和語(yǔ)義實(shí)體的語(yǔ)義相似度則可基于兩者對(duì)應(yīng)的圖像和視覺(jué)結(jié)構(gòu)間的相似度進(jìn)行計(jì)算。為了既可以體現(xiàn)跨媒體數(shù)據(jù)對(duì)齊的信息又利用結(jié)構(gòu)協(xié)同學(xué)習(xí)的結(jié)果,有效的方法是將以上兩種相似度加權(quán)組合獲得未標(biāo)記實(shí)體和語(yǔ)義實(shí)體之間的融合相似度,融合相似度可以用作流形對(duì)齊的節(jié)點(diǎn)間對(duì)應(yīng)信息,從而實(shí)現(xiàn)大規(guī)模媒體數(shù)據(jù)的知識(shí)的融合和一致性處理。
3.5 基于概念網(wǎng)的媒體大數(shù)據(jù)關(guān)聯(lián)性
分析及其可視化
如果把語(yǔ)義概念之間的相似性用一個(gè)加權(quán)圖表示,語(yǔ)義概念之間的相似性結(jié)構(gòu)信息將形成一個(gè)語(yǔ)義概念相似性網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)應(yīng)于語(yǔ)義概念之間的相似性結(jié)構(gòu),因此可以用于結(jié)構(gòu)化學(xué)習(xí)指導(dǎo)分類(lèi)器結(jié)構(gòu)設(shè)計(jì)。構(gòu)造語(yǔ)義概念相似性網(wǎng)絡(luò)首先需要度量語(yǔ)義概念之間的視覺(jué)相似度,而語(yǔ)義概念之間的視覺(jué)相似度基于樣本之間的相似度計(jì)算,樣本之間的相似度要基于底層視覺(jué)特征計(jì)算。為了消除概念之間的相似性非常小卻仍然有連接的現(xiàn)象,我們采用自底向上層次式聚類(lèi)算法裁剪全連接的語(yǔ)義網(wǎng)絡(luò)。
該方法可以有效表示主域的數(shù)據(jù)相關(guān)性。例如,用于描述新聞熱點(diǎn)間的相關(guān)性的新聞概念網(wǎng),如圖7所示。這種概念網(wǎng)提供了一個(gè)對(duì)大規(guī)模媒體概念進(jìn)行關(guān)聯(lián)分析和結(jié)構(gòu)化描述的新框架結(jié)構(gòu),同時(shí)也便于面向不同消費(fèi)系統(tǒng)進(jìn)行擴(kuò)展應(yīng)用。
4 結(jié)束語(yǔ)
當(dāng)前多領(lǐng)域、跨領(lǐng)域的網(wǎng)絡(luò)媒體數(shù)據(jù)呈大規(guī)模增長(zhǎng)的態(tài)勢(shì),而異構(gòu)媒體的智能關(guān)聯(lián)、知識(shí)表示是合理利用數(shù)據(jù)并為行業(yè)提供智能化服務(wù)的核心研究問(wèn)題,因此,突破媒體大數(shù)據(jù)的基于內(nèi)容的結(jié)構(gòu)化描述、關(guān)聯(lián)與深度分析,形成媒體內(nèi)容語(yǔ)義的全生命周期的技術(shù)框架,以支持個(gè)性化搜索與智能推薦、跨終端的多媒體內(nèi)容呈現(xiàn)等關(guān)鍵技術(shù)的發(fā)展,對(duì)建立面向用戶(hù)的智能服務(wù)平臺(tái),推進(jìn)知識(shí)獲取及推廣,改善用戶(hù)體驗(yàn)具有非常重要的意義。
參考文獻(xiàn)
[1] 維克托.邁爾.舍恩伯格, 肯尼思.庫(kù)克耶. 大數(shù)據(jù)時(shí)代: 生活、工作與思維的大變革[M]. 盛揚(yáng)燕, 周濤, 譯. 杭州: 浙江人民出版社, 2013
[2] ZHU W, CUI P, WANG Z. Multimedia Big Data Computing [J]. IEEE Multimedia, 2015, 22(3): 96-105. DOI: 10.1109/MMUL.2015.66
[3] FENG S L, MANMATHA R, LAVRENKO V. Multiple Bernoulli Relevance Models for Image and Video Annotation[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. USA: IEEE, 2004(2): II-1002-II-1009. DOI: 10.1109/CVPR.2004.1315274
[4] BARNARD K, DUYGULU P, FORSYTH D, et al. Matching Words and Pictures [J]. J Mach Learn Res, 2013(3): 1107-1135
[5] LI J L, SOCHER R, LI F F. Towards Total Scene Understanding: Classification, Annotation and Segmentation in an Automatic Framework[C]//Proceedings of the 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition.USA: IEEE, 2009: 2036-2043
[6] FARABET C, COUPRIE C, NAJMAN L, et al. Learning Hierarchical Features for Scene Labeling[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. USA: IEEE, 2012, 35(8): 1915-1929
[7] WESTON J, BENGIO S, USUNIER N. Large Scale Image Annotation: Learning to Rank with Joint Word-Image Embeddings [J]. Machine Learning, 2010, 81 (1):21-35
[8] ZHU S C. Statistical Modeling and Conceptualization of Visual Patterns [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(6): 691-712. DOI: 10.1109/TPAMI.2003.1201820
[9] 唐杰, 陳文光, 面向大社交數(shù)據(jù)的深度分析與挖掘[J]. 科學(xué)通報(bào), 2015, 60(5): 509-519
[10] ZHOU N, FAN J. Jointly Learning Visually Correlated Dictionaries for Large-scale Visual Recognition Applications [J]. IEEE Transaction. on Pattern Analysis and MachineIntelligence, 2014, 36(4):715-730
[11] DEAN J, CORRADO G S, MONGA R, et al. Large Scale Distributed Deep Networks[C]// Proceedings of the 26th Annual Conference on Neural Information Processing Systems. Canada, 2012: 1223-1231