跨媒體語(yǔ)義關(guān)聯(lián)增強(qiáng)的網(wǎng)絡(luò)視頻熱點(diǎn)話題檢測(cè)

2023-11-24 05:25:44張承德劉雨宣

計(jì)算機(jī)研究與發(fā)展 2023年11期

張承德劉雨宣肖霞梅凱

1（中南財(cái)經(jīng)政法大學(xué)信息與安全工程學(xué)院武漢 430073）

2（華中農(nóng)業(yè)大學(xué)公共管理學(xué)院武漢 430070）

（chengdezhang@zuel.edu.cn）

社交網(wǎng)絡(luò)和智能手機(jī)的普及使得網(wǎng)絡(luò)視頻數(shù)量爆炸式增長(zhǎng)，并逐漸取代文本成為普通用戶信息交流的主要載體[1].據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心（CNNIC）發(fā)布的最新報(bào)告[2]，截至2021 年6 月，國(guó)內(nèi)網(wǎng)絡(luò)視頻用戶規(guī)模達(dá)9.44 億，較2020 年增長(zhǎng)1 707 萬(wàn).同時(shí)，國(guó)外最大的視頻分享平臺(tái)YouTube，月活躍用戶人數(shù)已超過(guò)20 億，每分鐘上傳的視頻總時(shí)長(zhǎng)超過(guò)300 h，人們每天在YouTube 上花費(fèi)超過(guò)1010h 尋找和觀看視頻[3].當(dāng)熱點(diǎn)話題發(fā)生時(shí)，用戶需要觀看數(shù)量龐大的網(wǎng)絡(luò)視頻，并花費(fèi)大量時(shí)間和精力梳理和總結(jié)其前因后果，才能初步了解熱點(diǎn)話題的基本情況.而當(dāng)遇到完全陌生的話題時(shí)，則進(jìn)一步增加了這一難度.因此，網(wǎng)絡(luò)視頻熱點(diǎn)話題檢測(cè)變得十分必要.

傳統(tǒng)網(wǎng)絡(luò)視頻熱點(diǎn)話題檢測(cè)方法，主要通過(guò)計(jì)算標(biāo)題、標(biāo)簽間的語(yǔ)義相似度，將視頻劃分到不同的話題[4].通常，網(wǎng)絡(luò)視頻只有十多個(gè)詞描述，且文本信息少、噪聲多，這很容易引起文本語(yǔ)義特征空間稀疏[5]，導(dǎo)致文本間語(yǔ)義關(guān)聯(lián)少且關(guān)聯(lián)強(qiáng)度弱.另外，由于不同的人表達(dá)習(xí)慣不同，以及多義詞、多語(yǔ)言等問(wèn)題，將進(jìn)一步降低文本間語(yǔ)義特征的關(guān)聯(lián)強(qiáng)度，難以建立視頻間聯(lián)系.現(xiàn)有方法主要通過(guò)引入視頻彈幕、評(píng)論等外部信息豐富文本語(yǔ)義空間[6-8].但是，這類方法存在2 方面問(wèn)題：一方面，部分媒體平臺(tái)不支持發(fā)送彈幕和評(píng)論，導(dǎo)致部分視頻缺乏外部信息；另一方面，彈幕、評(píng)論有效信息少，內(nèi)容冗雜，導(dǎo)致文本間語(yǔ)義關(guān)聯(lián)減少.因此，上述方法嚴(yán)重依賴于引入信息與話題的相關(guān)度，導(dǎo)致話題檢測(cè)性能不穩(wěn)定.由于視頻內(nèi)容豐富、客觀，且視頻內(nèi)容與話題往往高度相關(guān).因此，嘗試智能理解視頻內(nèi)容，生成大量準(zhǔn)確、客觀的語(yǔ)義信息，豐富文本語(yǔ)義特征空間，提升熱點(diǎn)話題檢測(cè)效果.

然而，由于視頻內(nèi)容側(cè)重于對(duì)視覺(jué)具體信息的客觀描述，文本信息側(cè)重于對(duì)話題內(nèi)容的抽象表達(dá)，帶有一定的主觀情感，導(dǎo)致同一話題下視覺(jué)語(yǔ)義與文本語(yǔ)義特征差異性較大.如圖1 所示，視頻A的標(biāo)題表達(dá)了一種主觀情感，并未提及任何與話題相關(guān)的信息，字幕則直接表達(dá)科比墜機(jī)這一話題；在視頻B中，字幕僅表達(dá)視頻來(lái)源，與視頻所屬話題無(wú)關(guān)，視頻理解則清晰地展示了“士兵、坦克”等與戰(zhàn)爭(zhēng)主題高度相關(guān)的詞匯；在視頻C中，字幕以及視頻理解表達(dá)的語(yǔ)義都不準(zhǔn)確，只有標(biāo)題清晰地表達(dá)2020 美國(guó)大選這一主題.傳統(tǒng)的融合方法無(wú)法調(diào)和文本與視覺(jué)間的語(yǔ)義鴻溝，反而降低了同一話題下文本間的關(guān)聯(lián)強(qiáng)度.因此，如何克服文本語(yǔ)義與視覺(jué)語(yǔ)義間的差異，增強(qiáng)跨媒體語(yǔ)義的關(guān)聯(lián)，成為一個(gè)巨大的挑戰(zhàn).

Fig.1 Three semantic differences圖1 3 種語(yǔ)義差異

為應(yīng)對(duì)上述挑戰(zhàn)，提出一種新的跨媒體語(yǔ)義關(guān)聯(lián)增強(qiáng)方法.通過(guò)融合視頻理解、字幕、標(biāo)題3 種語(yǔ)義特征，增強(qiáng)文本與視覺(jué)語(yǔ)義間的關(guān)聯(lián)強(qiáng)度，實(shí)現(xiàn)跨媒體信息的互補(bǔ)，解決話題檢測(cè)中的文本稀疏問(wèn)題.該方法共分為4 步：第1 步，通過(guò)雙層注意力機(jī)制，挖掘文本語(yǔ)義特征.第2 步，通過(guò)視頻智能理解以及場(chǎng)景文字識(shí)別，生成一系列與視頻內(nèi)容高度相關(guān)的文本信息，豐富文本語(yǔ)義空間.第3 步，跨媒體語(yǔ)義融合.首先，分別通過(guò)文本語(yǔ)義相關(guān)度和視覺(jué)語(yǔ)義相關(guān)度，構(gòu)建文本語(yǔ)義圖和視覺(jué)語(yǔ)義圖；然后，構(gòu)造時(shí)間衰減函數(shù)，通過(guò)視頻上傳的時(shí)間差，度量跨媒體數(shù)據(jù)間的話題相似性；最后，通過(guò)時(shí)間衰減系數(shù)量化文本語(yǔ)義圖和視覺(jué)語(yǔ)義圖間的連接強(qiáng)度，并將其加權(quán)疊加形成混合語(yǔ)義圖，增強(qiáng)跨媒體語(yǔ)義關(guān)聯(lián).第4 步，話題檢測(cè).通過(guò)圖移位（graph shifts,GS）算法[9]在混合語(yǔ)義圖中挖掘出密集子圖，并通過(guò)TextRank 算法[10]檢測(cè)出熱點(diǎn)話題.

本文的主要?jiǎng)?chuàng)新點(diǎn)和貢獻(xiàn)總結(jié)為3 個(gè)方面:

1）提出一種新的文本信息豐富方法.通過(guò)理解視覺(jué)內(nèi)容，生成大量與話題高度相關(guān)的文本描述信息，避免外部數(shù)據(jù)引入而帶來(lái)的過(guò)多噪聲問(wèn)題，實(shí)現(xiàn)網(wǎng)絡(luò)視頻的文本語(yǔ)義特征空間豐富.

2）構(gòu)建了一種新途徑建立視覺(jué)與文本信息間的語(yǔ)義關(guān)聯(lián).引入時(shí)間特征建立跨媒體語(yǔ)義關(guān)聯(lián)，主要通過(guò)時(shí)間衰減函數(shù)，量化視頻上傳時(shí)間差對(duì)跨媒體數(shù)據(jù)話題相似性的影響，以此增強(qiáng)跨媒體語(yǔ)義關(guān)聯(lián)強(qiáng)度，同時(shí)避免語(yǔ)義融合所帶來(lái)的噪聲干擾.

3）提出一種新的跨媒體語(yǔ)義關(guān)聯(lián)增強(qiáng)方法.通過(guò)構(gòu)建文本語(yǔ)義圖，找到網(wǎng)絡(luò)視頻中缺失的話題關(guān)聯(lián)，并通過(guò)融合文本語(yǔ)義圖與視覺(jué)語(yǔ)義圖，重建文本與視覺(jué)語(yǔ)義間的連接，實(shí)現(xiàn)跨媒體語(yǔ)義互補(bǔ)增強(qiáng).同時(shí)賦予模型良好的可擴(kuò)展性，能輕松地將其他模態(tài)信息融合到語(yǔ)義圖中.

1 相關(guān)工作

1.1 熱點(diǎn)話題檢測(cè)與跟蹤

熱點(diǎn)話題檢測(cè)與跟蹤（topic detection and tracking,TDT）任務(wù)源于美國(guó)國(guó)防高級(jí)研究計(jì)劃局贊助的研究計(jì)劃[11]，核心任務(wù)是從數(shù)據(jù)流中發(fā)現(xiàn)新話題，并收集后續(xù)的相關(guān)報(bào)導(dǎo)[12].早期的話題檢測(cè)主要是面向新聞、博客等長(zhǎng)文本，隨著社交媒體的快速發(fā)展，使得信息的傳播不再局限于文本這一種形式，網(wǎng)絡(luò)圖片和視頻在信息交流中占據(jù)主導(dǎo)地位，話題檢測(cè)也由面向純文本擴(kuò)展為基于文本、圖像、視頻等多模態(tài)融合的話題檢測(cè)[13].

對(duì)于文本信息，早期的話題檢測(cè)方法大多基于LDA（latent Dirichlet allocation）主題模型[14]或其改進(jìn)模型[15].受LDA 固有的局限性，這些方法對(duì)長(zhǎng)文本效果較好、對(duì)短文本效果較差.文獻(xiàn)[16]通過(guò)搜索引入相關(guān)文本以擴(kuò)展短文本，但此方式過(guò)于依賴于輔助文本的質(zhì)量，當(dāng)引入文本質(zhì)量不高或者相關(guān)文本不充足時(shí)，話題檢測(cè)效果較差.文獻(xiàn)[17]提出了一種BTM（biterm topic model）主題模型，這是對(duì)LDA 模型的一種改進(jìn)，利用詞共現(xiàn)關(guān)系豐富詞組，從而緩解短文本的稀疏性問(wèn)題，此模型對(duì)短文本主題檢測(cè)效果有一定的提升.但是，當(dāng)文本特征過(guò)于稀疏或者存在噪聲、一詞多義時(shí)模型的檢測(cè)效果較差.所以這種基于主題模型的話題檢測(cè)方法對(duì)視頻標(biāo)題并不適用.

對(duì)于圖像和視頻，現(xiàn)有方法主要利用豐富的視覺(jué)信息進(jìn)行話題挖掘.文獻(xiàn)[18]通過(guò)注意力提取視頻局部顯著語(yǔ)義特征和全局語(yǔ)義特征，并進(jìn)行分類表示以區(qū)分不同話題.文獻(xiàn)[19]提出了一種圖像主導(dǎo)的主題模型，將視覺(jué)特征作為信息線索進(jìn)行話題檢測(cè).這種檢測(cè)方法雖然較好地利用了視覺(jué)信息，但由于網(wǎng)絡(luò)視頻大多由用戶隨意拍攝和剪輯，再加上拍光照、運(yùn)動(dòng)、拍攝角度等多種因素的變化，導(dǎo)致視覺(jué)語(yǔ)義特征獲取并不準(zhǔn)確、檢測(cè)效果不佳.

對(duì)多模態(tài)數(shù)據(jù)，現(xiàn)有方法主要通過(guò)多種模態(tài)數(shù)據(jù)中的互補(bǔ)信息來(lái)檢測(cè)熱點(diǎn)話題.文獻(xiàn)[20]對(duì)視覺(jué)信息和文本信息之間的相關(guān)性進(jìn)行研究，探索不同模態(tài)數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián).文獻(xiàn)[21]利用圖片理解技術(shù)，挖掘圖片表達(dá)的語(yǔ)義信息；通過(guò)融合文本與圖像信息，實(shí)現(xiàn)了短文本語(yǔ)義空間豐富.受此工作的啟發(fā)，我們通過(guò)視頻理解技術(shù)，深度挖掘網(wǎng)絡(luò)視頻中的語(yǔ)義信息，并與稀疏的文本語(yǔ)義融合，豐富文本語(yǔ)義.

1.2 視頻理解

視頻理解旨在理解視覺(jué)內(nèi)容，實(shí)現(xiàn)視覺(jué)特征向自然語(yǔ)言的轉(zhuǎn)化[22].文獻(xiàn)[23]提出了一種按固定的語(yǔ)法和模板生成句子的方法，但是這種基于模板的方法生成的句子單一，束縛了模型的表達(dá)能力.隨著深度學(xué)習(xí)取得突破性進(jìn)展，基于深度學(xué)習(xí)的視頻理解方法被廣泛應(yīng)用.文獻(xiàn)[24]提出了一種S2VT（sequence to sequence video to text）模型，引入編碼解碼器架構(gòu)，實(shí)現(xiàn)特征的編碼和解碼.同一時(shí)期，文獻(xiàn)[25]在模型中引入注意力機(jī)制，對(duì)視頻幀的卷積特征進(jìn)行加權(quán)求和，實(shí)現(xiàn)更精準(zhǔn)的特征選擇，但是生成的句子表達(dá)依舊不夠準(zhǔn)確，難以滿足實(shí)際生活的需要.近年來(lái)，許多研究都聚焦于改進(jìn)視頻特征提取的方法或改進(jìn)編碼的循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu).文獻(xiàn)[26]提出了一種基于雙向時(shí)序圖的對(duì)象感知聚合模型，通過(guò)構(gòu)建雙向時(shí)序圖實(shí)現(xiàn)了對(duì)視頻特征更為精細(xì)的捕捉.文獻(xiàn)[27]提出了一種視覺(jué)特征編碼技術(shù)，通過(guò)傅里葉變換嵌入時(shí)間動(dòng)態(tài)，并改用循環(huán)門(mén)控單元生成豐富的語(yǔ)義.

此外，網(wǎng)絡(luò)視頻中包含豐富的場(chǎng)景文字信息，往往與視頻主題高度相關(guān).已有部分工作結(jié)合場(chǎng)景文字與視覺(jué)特征，增強(qiáng)圖像和視頻內(nèi)容理解.如文獻(xiàn)[28]將圖像中的場(chǎng)景文字信息與圖像卷積特征相結(jié)合，增強(qiáng)視覺(jué)特征表達(dá).文獻(xiàn)[29]利用圖片中的場(chǎng)景文字，增強(qiáng)短文本與視覺(jué)間的交互關(guān)系，并在上述工作的啟發(fā)下，試圖將視頻中的字幕信息與視頻理解相結(jié)合，挖掘視覺(jué)語(yǔ)義，豐富文本語(yǔ)義空間.

1.3 跨媒體融合

跨媒體數(shù)據(jù)具有分散異構(gòu)、語(yǔ)義關(guān)聯(lián)和多模態(tài)的特點(diǎn)，相同語(yǔ)義可以借由不同跨媒體數(shù)據(jù)表達(dá).而不同跨媒體數(shù)據(jù)低層特征表示不一致，導(dǎo)致無(wú)法直接通過(guò)特征計(jì)算數(shù)據(jù)間的相關(guān)性[30].早期主要是利用人工標(biāo)注跨媒體數(shù)據(jù)，然后通過(guò)標(biāo)簽信息實(shí)現(xiàn)跨媒體數(shù)據(jù)間的關(guān)聯(lián)和檢索，但是人工標(biāo)注成本高、速度慢且具有一定的主觀性，對(duì)海量的跨媒體數(shù)據(jù)并不適用.隨著深度學(xué)習(xí)的成功，針對(duì)圖像和視頻的分析技術(shù)迅速發(fā)展.通過(guò)分析和理解跨媒體數(shù)據(jù)的內(nèi)容，結(jié)合標(biāo)題、場(chǎng)景文字等信息，形成語(yǔ)義標(biāo)簽以輔助跨媒體融合成為了主流方法.文獻(xiàn)[31]提出一種混合注意力模塊，同時(shí)利用多模態(tài)數(shù)據(jù)內(nèi)部的聯(lián)系以及文本詞和圖像位置之間的關(guān)系進(jìn)行融合，實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)的關(guān)聯(lián)和互補(bǔ).文獻(xiàn)[32]捕捉多模態(tài)數(shù)據(jù)的整體特征，并映射到同一空間實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的融合.這種融合方式在一定程度上實(shí)現(xiàn)了跨媒體數(shù)據(jù)的對(duì)齊，但是它們都過(guò)于復(fù)雜，而且要求文本和視覺(jué)信息具有嚴(yán)格的對(duì)應(yīng)關(guān)系，這對(duì)網(wǎng)絡(luò)視頻并不適用.

然而，報(bào)道同一熱點(diǎn)話題的跨媒體數(shù)據(jù)具有相似的語(yǔ)義內(nèi)容，而且通常在相似的時(shí)間上傳，因此，同一話題下的跨媒體數(shù)據(jù)具有很強(qiáng)的語(yǔ)義相似性和時(shí)間相似性.文獻(xiàn)[33]通過(guò)時(shí)間窗口改進(jìn)聚類模型實(shí)現(xiàn)新聞文本主題的精準(zhǔn)捕捉.但其主要是基于文本的分析，尤其是針對(duì)新聞文章，這對(duì)稀疏的視頻文本并不適用.所以為了解決上述問(wèn)題，構(gòu)建了一種簡(jiǎn)單且有效的融合方法.通過(guò)文本語(yǔ)義相似性和視覺(jué)語(yǔ)義相似性，分別構(gòu)建文本語(yǔ)義圖和視覺(jué)語(yǔ)義圖，通過(guò)圖的融合實(shí)現(xiàn)跨媒體數(shù)據(jù)的融合.此外通過(guò)時(shí)間衰減函數(shù)，將時(shí)間特征嵌入混合語(yǔ)義圖，增強(qiáng)文本和視覺(jué)語(yǔ)義關(guān)聯(lián)強(qiáng)度，形成更為平滑的密集子圖.

2 網(wǎng)絡(luò)視頻熱點(diǎn)話題檢測(cè)方法

本文提出的話題檢測(cè)框架如圖2 所示，框架包括4 個(gè)步驟，分別為文本語(yǔ)義特征提取、視覺(jué)語(yǔ)義特征提取、跨媒體語(yǔ)義融合以及話題檢測(cè).

Fig.2 Topic detection framework圖2 話題檢測(cè)框架

2.1 文本語(yǔ)義特征提取

受文獻(xiàn)[34]的啟發(fā)，我們構(gòu)造了一個(gè)雙層注意力模型，分別通過(guò)單詞級(jí)注意力和句子級(jí)注意力挖掘文本核心語(yǔ)義特征.假定數(shù)據(jù)集中共有J篇文本，每篇文本有L個(gè)句子，每個(gè)句子包含T個(gè)單詞.其中j∈[1,J]表示第j篇文本，i∈[1,L]表示文本中第i個(gè)句子，t∈[1,T]表示句子中第t個(gè)單詞.

2.1.1 單詞級(jí)注意力

對(duì)給定的第i個(gè)句子中的第t個(gè)單詞wi,t，由詞向量模型[35]將單詞編碼為詞向量xi,t，接著將詞向量輸入到雙向長(zhǎng)短期記憶網(wǎng)絡(luò)（bi-directional long short-term memory,BiLSTM）[36]單元，分別獲取前向隱藏層狀態(tài)和后向隱藏層狀態(tài).式（1）和式（2）展示了LSTM（long short-term memory）細(xì)胞單元，將隱藏層狀態(tài)傳遞到下一個(gè)細(xì)胞單元，并獲取雙向時(shí)序信息的過(guò)程.

其中xi,t表示LSTM單元的輸入，表示前一時(shí)刻的隱藏層狀態(tài)分別表示LSTM單元的前向和后向隱藏層狀態(tài).然后連接前向和后向的隱藏層狀態(tài)，得到給定單詞wi,t的特征向量表示.式（3）展示了整合前向和后向隱藏層狀態(tài)的過(guò)程.

其中 ⊕表示元素求和，hi,t表示雙向LSTM 輸出的隱藏層狀態(tài).

在單詞級(jí)別，通過(guò)單詞級(jí)注意力區(qū)分不同單詞的重要性，并將其聚合為句子向量表示.首先，將單詞隱藏層向量hi,t輸入帶有激活函數(shù) tanh的非線性神經(jīng)元層，將hi,t投影到同一個(gè)注意力空間（見(jiàn)式（4））；然后，利用uwod作為衡量指標(biāo)，wod為單詞級(jí)標(biāo)記，計(jì)算ui,t的重要性，并將結(jié)果歸一化后得到不同單詞的權(quán)重（見(jiàn)式（5））；最后，通過(guò)加權(quán)求和的方式計(jì)算句子向量Si（見(jiàn)式（6））.單詞上下文向量uwod在訓(xùn)練過(guò)程中被隨機(jī)初始化并聯(lián)合學(xué)習(xí).

其中ui,t表示隱藏層狀態(tài)hi,t的投影向量，T 表示轉(zhuǎn)置，Wwod和bwod表示網(wǎng)絡(luò)的權(quán)重矩陣和偏置值，ai,t表示句子內(nèi)部每個(gè)單詞的權(quán)重，Si表示文本中第i個(gè)句子的特征向量.

2.1.2 句子級(jí)注意力

在句子級(jí)別，通過(guò)句子級(jí)注意力區(qū)分不同句子的重要性，并將其聚合為文本向量表示.首先，通過(guò)BiLSTM 對(duì)文本中的句子進(jìn)行編碼表示，為了簡(jiǎn)單起見(jiàn)，我們將BiLSTM 單元的操作表示為hi=fBiLSTM(Si)，即以句子Si為中心，整合句子上下文信息的隱藏層向量表示；其次，將隱藏層狀態(tài)hi投影到同一個(gè)注意力空間（見(jiàn)式（7）），并隨機(jī)初始化一個(gè)句子級(jí)別的上下文向量usen，用于衡量不同句子的重要性；然后，將計(jì)算出的句子重要性，歸一化后得到每個(gè)句子的權(quán)重（見(jiàn)式（8））；最后，對(duì)句子向量進(jìn)行加權(quán)求和，并經(jīng)過(guò)一個(gè)全連接層映射得到文本語(yǔ)義特征表示（見(jiàn)式（9））.

式（8）和（9）中，ui表示句子隱藏層狀態(tài)的投影向量，T 表示轉(zhuǎn)置.ai表示文本中第i個(gè)句子的權(quán)重，usen表示句子上下文向量，在訓(xùn)練過(guò)程中被隨機(jī)初始化并聯(lián)合學(xué)習(xí)，sen 為句子級(jí)標(biāo)記.式（9）中，表示蘊(yùn)含第j篇文檔結(jié)構(gòu)知識(shí)的文本語(yǔ)義特征表示，tex表示文本標(biāo)記.Wsen，Wtex和bsen，btex分別表示訓(xùn)練得到的權(quán)重和偏置值.

2.2 視覺(jué)語(yǔ)義特征提取

2.2.1 視頻理解

由于傳統(tǒng)模型在復(fù)雜的真實(shí)場(chǎng)景中表現(xiàn)不佳，因此通過(guò)視頻理解結(jié)合光學(xué)字符識(shí)別（optical character recognition,OCR），實(shí)現(xiàn)對(duì)視覺(jué)語(yǔ)義的精準(zhǔn)捕捉.如圖3 所示視頻理解模型包括4 個(gè)階段：

Fig.3 Video caption model圖3 視頻理解模型

1）特征提取階段.利用基于注意力的C3D 網(wǎng)絡(luò)[37]提取視頻顯著性區(qū)域的運(yùn)動(dòng)特征，通過(guò)VGG16[38]提取視頻的全局卷積特征，并通過(guò)全連接層連接這2類特征，作為視頻的特征輸入.

2）特征編碼階段.特征的編碼主要由2 層LSTM和視覺(jué)注意力實(shí)現(xiàn).在每個(gè)時(shí)間步長(zhǎng)下，2 層LSTM將可變長(zhǎng)度的輸入編碼為固定維度的向量，視覺(jué)注意力則用于捕捉視覺(jué)特征中的顯著性區(qū)域.即對(duì)于輸入特征X=(x1,x2,…,xn)經(jīng)過(guò)2層LSTM的編碼得到其隱藏層狀態(tài)序列此序列經(jīng)過(guò)注意力加權(quán)得到當(dāng)前時(shí)刻的特征編碼（式（10））.

其中ct表示編碼后的特征輸出，at,i表示編碼器隱藏層向量hemb的權(quán)重（式（11）），et,i由LSTM 隱藏層狀態(tài)經(jīng)過(guò)激活函數(shù)后得到.ba均表示可學(xué)習(xí)的參數(shù).

3）特征解碼階段.輸入序列經(jīng)過(guò)解碼器解碼為輸出序列Y=(y1,y2，…,yn)上的分布（見(jiàn)式（13）），再通過(guò)Y查詢?cè)~匯表得到對(duì)應(yīng)的單詞.此外，當(dāng)前時(shí)刻生成的單詞會(huì)作為特征序列與輸入特征連接后傳入到解碼器，為下一時(shí)刻單詞的生成提供支持.

其中ct表示編碼器輸出，hdec表示解碼器隱藏層輸出，yt-1表示前一時(shí)刻解碼器輸出的序列，p(y1,y2,…,ym|x1,x2,…,xn) 表示對(duì)于特定輸入X獲得的輸出分布.

4）訓(xùn)練階段.模型以MSVD 數(shù)據(jù)集[39]作為知識(shí)庫(kù)，采用端到端方式訓(xùn)練.訓(xùn)練目標(biāo)是：使得預(yù)測(cè)句子的對(duì)數(shù)釋然估計(jì)值最大.即通過(guò)最大化對(duì)數(shù)釋然估計(jì)值，不斷更新參數(shù) θ讓模型找到最優(yōu)解碼序列Y=(y1,y2,…,ym)，見(jiàn)式（14）.

2.2.2 視覺(jué)語(yǔ)義嵌入

視覺(jué)語(yǔ)義嵌入分為2 步：第1 步，將生成的字幕和視頻描述編碼為詞向量，并將該詞向量輸入到BiLSTM 模型中，得到蘊(yùn)含上下文語(yǔ)義信息的隱藏層特征向量；第2 步，通過(guò)自注意力對(duì)隱藏層狀態(tài)進(jìn)行加權(quán)（見(jiàn)式（15）和式（16）），并將加權(quán)融合后的特征經(jīng)向量全連接層得到視覺(jué)語(yǔ)義特征表示（見(jiàn)式（17））.

其中ei表示隱藏層狀態(tài)經(jīng)過(guò)全連接層后的輸出，u表示經(jīng)過(guò)訓(xùn)練后得到的權(quán)重參數(shù)矩陣，ai表示注意力權(quán)重，表示第j個(gè)視頻的視覺(jué)語(yǔ)義特征表示，L表示文本長(zhǎng)度.W，Wvid，b，bvid分別表示訓(xùn)練權(quán)重和偏置值，vid表示視頻標(biāo)記.

2.3 跨媒體語(yǔ)義融合

2.3.1 文本語(yǔ)義圖

2.3.2 視覺(jué)語(yǔ)義圖

2.3.3 混合語(yǔ)義圖

通過(guò)視頻上傳時(shí)間差，構(gòu)造時(shí)間衰減函數(shù)，以衡量時(shí)間對(duì)跨媒體數(shù)據(jù)間話題相似性的影響，從時(shí)間維度增強(qiáng)話題結(jié)點(diǎn)間的關(guān)聯(lián).時(shí)間衰減函數(shù)為：

其中 β是控制衰減速率的正標(biāo)度參數(shù)，L用于控制衰減周期，ti和tj表示視頻i和視頻j的時(shí)間戳，表示向下取整.從式（22）中可以看出時(shí)間衰減函數(shù)pi,j隨時(shí)間間隔的增加而降低，這表明視頻i和j屬于同一話題的可能性較小.不同數(shù)據(jù)的主題相似度隨它們的時(shí)間間隔呈指數(shù)下降.

如式（23）所示，通過(guò)時(shí)間衰減函數(shù)pi,j賦予文本語(yǔ)義圖和視覺(jué)語(yǔ)義圖不同的連接權(quán)重，并將其加權(quán)疊加形成混合語(yǔ)義圖G=({ni},{wi,j}).融合過(guò)程中，將Gvid和Gtex的結(jié)點(diǎn)合并，得到混合語(yǔ)義圖的結(jié)點(diǎn)集.這樣，缺失的結(jié)點(diǎn)信息在融合過(guò)程中得到豐富和補(bǔ)充，從而建立起更豐富的語(yǔ)義關(guān)聯(lián).結(jié)點(diǎn)間的連接權(quán)重通過(guò)時(shí)間衰減函數(shù)加權(quán)求和并歸一化后得到融合后的連接權(quán)重wi,j.

其中G表示構(gòu)造的混合語(yǔ)義圖，{ni}表示結(jié)點(diǎn)集，{wi,j}表示邊的權(quán)重集.時(shí)間信息的嵌入增強(qiáng)文本語(yǔ)義與視覺(jué)語(yǔ)義間的連接強(qiáng)度，若混合語(yǔ)義圖中的文本語(yǔ)義、視覺(jué)語(yǔ)義以及上傳時(shí)間都相似，那么所對(duì)應(yīng)結(jié)點(diǎn)的連接較強(qiáng)（即邊權(quán)重大），會(huì)在圖中形成一個(gè)稠密的子圖.這種融合方式使模型具有較強(qiáng)的可擴(kuò)展性，能輕松地將其他模態(tài)的信息（如地理位置、情感傾向等）也融合到語(yǔ)義圖中.而且基于圖的方式可以在話題個(gè)數(shù)未知的情況下進(jìn)行話題聚類，使得模型更加魯棒.

2.4 話題檢測(cè)

通過(guò)GS 算法在混合語(yǔ)義圖中由聚類分析找出密集子圖（即話題簇）.GS 算法的輸入是混合語(yǔ)義圖G的鄰接矩陣M，矩陣M中的每一個(gè)元素都由混合語(yǔ)義圖的連接權(quán)值wi,j決定.混合語(yǔ)義圖的子圖由概率簇x∈Δm表示.其中Δm={x|x∈Rm，xi≥0,|x|1=1}，m表示圖中的結(jié)點(diǎn)總數(shù)，x表示一個(gè)映射向量，x=(xi)實(shí)現(xiàn)了圖中的結(jié)點(diǎn)集到單一標(biāo)準(zhǔn)形 Rm的映射，每一個(gè)x∈Δm表示了各結(jié)點(diǎn)的組合概率，稱為概率簇.其中xi表示x的第i個(gè)分量包含結(jié)點(diǎn)ni的概率，xi=0表示該概率簇不包含頂點(diǎn)ni.如式（24）所示，GS 算法通過(guò)衡量子圖x中的平均連接強(qiáng)度，找到g(x)所有的局部極大值 {x*}.每一個(gè)局部極大值x*代表了混合語(yǔ)義圖的一個(gè)密集子圖，也就是我們所探尋的熱點(diǎn)話題.

其中M表示存儲(chǔ)混合語(yǔ)義圖的鄰接矩陣，x表示混合語(yǔ)義圖中結(jié)點(diǎn)到話題簇的映射，g(x)表示子圖的平均連接強(qiáng)度，x*表示g(x)的局部極大值.挖掘出密集子圖后，利用TextRank 算法[10]在密集子圖中抽取出K個(gè)關(guān)鍵詞表示熱點(diǎn)話題.

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

以國(guó)內(nèi)新華網(wǎng)、新浪網(wǎng)，國(guó)外視頻分享網(wǎng)站YouTube、美國(guó)有線電視新聞網(wǎng)CNN 等主流媒體上最熱門(mén)的話題為依據(jù)，爬取了10 個(gè)熱點(diǎn)話題.實(shí)驗(yàn)數(shù)據(jù)集詳細(xì)信息如表1 所示，包括10 021 條文本、10 971個(gè)視頻，利用基于顏色直方圖的方法[40]切分視頻得到89 348 個(gè)視頻段，提取227 930 個(gè)關(guān)鍵幀.實(shí)驗(yàn)所用數(shù)據(jù)集涵蓋多個(gè)角度、覆蓋不同的時(shí)間跨度，范圍從1 個(gè)月到3 年不等，涉及經(jīng)濟(jì)、政治、體育、生活等多個(gè)領(lǐng)域.因此，實(shí)驗(yàn)數(shù)據(jù)具有足夠的代表性，充分驗(yàn)證了實(shí)驗(yàn)的有效性.

Table 1 Experimental Dataset表1 實(shí)驗(yàn)數(shù)據(jù)集

3.2 評(píng)價(jià)指標(biāo)

實(shí)驗(yàn)采用標(biāo)準(zhǔn)的精確率（Precision）、召回率（Recall）和F1 值評(píng)價(jià)所提出方法的有效性.

其中A表示檢測(cè)到的話題數(shù)據(jù)集，B表示與A最匹配的真實(shí)話題數(shù)據(jù)集，B+表示正確檢測(cè)的話題數(shù)據(jù)集.Precision表示所有檢測(cè)出的信息中，正確樣本數(shù)目的占比；Recall表示正確檢測(cè)出的樣本在所有樣本中的占比.由于F1 值兼顧了精確率和召回率的優(yōu)點(diǎn)，因此F1 值被作為評(píng)價(jià)實(shí)驗(yàn)結(jié)果的主要方式.

3.3 參數(shù)設(shè)置及其分析

實(shí)驗(yàn)中，我們?cè)跀?shù)據(jù)集上無(wú)監(jiān)督地訓(xùn)練一個(gè)word-2vec 模型[35]，得到128 維的詞嵌入向量.在視覺(jué)特征提取方面，我們?cè)贗mageNet 數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)VGG16模型[38]，并將其第1 個(gè)全連接層的輸出作為視覺(jué)特征，維度大小為4 096.對(duì)于文本特征，2 層LSTM 維度相同，設(shè)置為64 維.上下文向量uwod和usen設(shè)置為128 維，并且隨機(jī)初始化.

此外，時(shí)間衰減函數(shù)（見(jiàn)式（22））中設(shè)置了2 個(gè)參數(shù)，固定的時(shí)間單位因子L和正標(biāo)度參數(shù) β.L控制時(shí)間函數(shù)的衰減周期，對(duì)實(shí)驗(yàn)結(jié)果影響較小，在我們的模型中設(shè)置L=10；標(biāo)度參數(shù) β控制函數(shù)的衰減速率，即控制檢測(cè)話題的感興趣粒度（熱點(diǎn)話題的持續(xù)時(shí)間），較小的 β使得結(jié)點(diǎn)之間的連接權(quán)重更大，加強(qiáng)數(shù)據(jù)之間的聯(lián)系，使得大粒度的話題更容易形成密集子圖.例如話題6（2016 里約奧運(yùn)會(huì)）的粒度大于話題5（馬拉多納逝世），所以在話題檢測(cè)時(shí)相似性較弱的數(shù)據(jù)結(jié)點(diǎn)更容易被劃分到話題6，從而帶來(lái)一些噪聲.相反，較大的 β值，削弱了結(jié)點(diǎn)之間的聯(lián)系，有利于小粒度的話題，但可能會(huì)丟失一些大粒度話題的正確結(jié)點(diǎn).我們?cè)O(shè)置不同的 β值，以探究 β對(duì)實(shí)驗(yàn)結(jié)果的影響.如圖4 所示，話題檢測(cè)的F1 值隨著 β的增長(zhǎng)，先增大后減小.這是因?yàn)槲覀冞x取的話題粒度不一，β較小時(shí)，大粒度的話題F1 值較高，小粒度的話題F1 值較低，而當(dāng) β較大時(shí)，則小粒度話題的F1 值高，大粒度話題的F1 值低.所以在我們的數(shù)據(jù)集中選取 β=0.25時(shí)能獲得最佳的實(shí)驗(yàn)效果.

Fig.4 Effect of β on topic detection圖4 β 對(duì)話題檢測(cè)的影響

3.4 實(shí)驗(yàn)結(jié)果對(duì)比分析

3.4.1 基線方法

為了全面評(píng)估本文所提出的模型，我們將本文模型與8 種基線方法進(jìn)行對(duì)比，以驗(yàn)證模型的有效性.

1）LDA（latent Dirichlet allocation）[14].該方法利用視頻文本進(jìn)行主題挖掘，通過(guò)推測(cè)文檔的主題分布，得到視頻的主題分布.實(shí)驗(yàn)中，我們將文本輸入到LDA，并設(shè)置挖掘的主題數(shù)量，得到文本-主題分布向量，最后通過(guò)聚類方法得到主題.

2）BTM（biterm topic model）[17].該方法與LDA 主題模型類似，BTM 模型對(duì)多個(gè)詞組建模更適用于短文本.實(shí)驗(yàn)中，我們將文本輸入到BTM，并設(shè)置挖掘的主題數(shù)量，得到文本-主題分布向量，最后通過(guò)聚類方法得到視頻主題.

3）Doc2vec（document to vector）[41].該方法屬于一種無(wú)監(jiān)督算法，通過(guò)預(yù)訓(xùn)練的Doc2vec 模型，從變長(zhǎng)的文本中學(xué)習(xí)得到固定長(zhǎng)度的特征表示.在實(shí)驗(yàn)中，我們將變長(zhǎng)的文本信息編碼為128 維的特征向量，再通過(guò)對(duì)文檔向量的聚類得到視頻主題.

4）BiLSTM_Attn（attention-based bidirectional LSTM）[42].該方法通過(guò)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)挖掘文本上下文語(yǔ)義，并利用注意力對(duì)句子加權(quán)求和得到文本特征表示，再經(jīng)過(guò)分類得到不同主題.

5）VSD_Attn（attention for video saliency detection）[43].該方法通過(guò)視覺(jué)顯著性的注意力模型，提取視頻局部顯著語(yǔ)義特征和全局語(yǔ)義特征，并進(jìn)行分類表示以區(qū)分不同話題.

6）CSG（capsule semantic graph）[44].該方法利用文本中詞共現(xiàn)關(guān)系構(gòu)建關(guān)鍵字子圖，并通過(guò)相似度連接形成膠囊語(yǔ)義圖，最后在語(yǔ)義圖上進(jìn)行聚類得到不同的話題.

7）TopicBERT（topic detection using BERT）[45].該方法通過(guò)多模態(tài)命名實(shí)體識(shí)別和Bert 挖掘單詞間的語(yǔ)義關(guān)聯(lián)，并通過(guò)結(jié)構(gòu)規(guī)則和實(shí)體類別增強(qiáng)話題信息.

8）SMMTM（unsupervised multimodal topic model）[46].該方法通過(guò)圖像信息豐富文本語(yǔ)義，解決文本稀疏問(wèn)題，并利用無(wú)監(jiān)督的多模態(tài)主題模型對(duì)文本和圖像信息進(jìn)行建模和分類.

3.4.2 實(shí)驗(yàn)結(jié)果分析

表2 展示了僅利用文本信息（標(biāo)題+標(biāo)簽）、僅利用視覺(jué)信息（視頻理解+字幕）以及文本與視覺(jué)信息聯(lián)合的實(shí)驗(yàn)結(jié)果.通過(guò)前10 個(gè)主題的平均精確率、平均召回率和平均F1 值評(píng)估話題檢測(cè)方法的總體性能.實(shí)驗(yàn)結(jié)果表明，提出的模型比其他話題檢測(cè)方法表現(xiàn)更優(yōu)，與基線模型相比提升20%～30%（平均F1 值）.

Table 2 Average Experimental Results Under 10 Topics In Multiple models表2 各模型中在10 個(gè)話題下的平均實(shí)驗(yàn)結(jié)果

如表2 所示，LDA 模型在3 組數(shù)據(jù)中的表現(xiàn)都不好.因?yàn)長(zhǎng)DA 是基于概率的主題模型，具有主題模型固有的局限性，導(dǎo)致LDA 對(duì)長(zhǎng)文本較為敏感，對(duì)短文本的檢測(cè)效果較差.而數(shù)據(jù)集中的文本由視頻標(biāo)題組成，通常只含有10 多個(gè)單詞，長(zhǎng)度短、詞共現(xiàn)頻率低，導(dǎo)致LDA 檢測(cè)的效果較差.此外，視覺(jué)信息由視頻理解和字幕信息組成，是對(duì)視頻底層細(xì)節(jié)的客觀描述，包含較多的噪聲以及與主題無(wú)關(guān)的信息，導(dǎo)致LDA 檢測(cè)效果較差.另一方面，直接合并文本和視覺(jué)信息雖然豐富了文本，但引入了大量的噪聲，導(dǎo)致LDA 模型的檢測(cè)效果降低.

BTM 模型也是一種基于概率的主題模型，通過(guò)共現(xiàn)詞對(duì)預(yù)測(cè)文檔主題，比LDA 模型更適用于短文本.實(shí)驗(yàn)結(jié)果表明，BTM 模型對(duì)文本的檢測(cè)效果相比LDA 有一定的提升，但是在視覺(jué)信息上實(shí)驗(yàn)效果仍然較差，因?yàn)锽TM 模型以詞袋模型編碼單詞作為輸入，忽視了詞匯間的語(yǔ)義關(guān)聯(lián)，再加上視覺(jué)信息中所含的噪聲較多，因此實(shí)驗(yàn)效果不佳.

Doc2ve 是一種無(wú)監(jiān)督文本向量模型，相比LDA在3 個(gè)評(píng)價(jià)指標(biāo)上都有較大的提升，相比BTM 模型在平均召回率上有一定的提升.這是因?yàn)镈oc2vec 方法克服了詞袋模型的缺點(diǎn)，考慮到詞匯間的語(yǔ)義關(guān)聯(lián).但Doc2vec 在視覺(jué)信息上的實(shí)驗(yàn)效果也較差，因?yàn)槠鋬H僅是文本中多個(gè)詞向量的平均，沒(méi)有區(qū)分不同單詞的重要性，并且模型忽視了單詞間的時(shí)序信息，導(dǎo)致模型的平均精確率不高.

BiLSTM_Attn 模型基于循環(huán)神經(jīng)網(wǎng)絡(luò)，對(duì)于文本信息，獲得了較高的平均精確率.因?yàn)槟Ｐ屠瞄L(zhǎng)短期記憶網(wǎng)絡(luò)捕捉時(shí)序信息，此外注意力機(jī)制區(qū)分單詞的重要性，獲得精確的語(yǔ)義表達(dá)，故得到較高的平均精確率.但受限于文本信息較少、文本間語(yǔ)義關(guān)聯(lián)較少，導(dǎo)致模型的平均召回率較低、平均F1 值也較低.對(duì)于視覺(jué)信息，注意力機(jī)制的加入使得模型的平均召回率有一定程度的提高，但受噪聲影響，平均精確率提升并不明顯，這導(dǎo)致模型平均F1 值不高.

VSD_Attn 方法獲得較高的平均精確率，這表明若視頻包含了相同的顯著性區(qū)域，則這些視頻通常屬于同一話題.但是，此方法的平均召回率和平均F1 值較低，因?yàn)榕c文本信息相比視覺(jué)內(nèi)容的噪聲更少，平均精準(zhǔn)率更高，但是更容易受到視頻編輯、光照、拍攝角度變化的影響.導(dǎo)致顯著性區(qū)域相似性檢測(cè)不準(zhǔn)確，因此當(dāng)只有視覺(jué)信息時(shí)，平均召回率非常低.事實(shí)上，同一個(gè)話題可以被分割成多個(gè)視覺(jué)場(chǎng)景，而基于顯著性區(qū)域檢測(cè)的方法只能將視覺(jué)特征相似的場(chǎng)景組合到一起，導(dǎo)致同一話題下的視頻缺失.

CSG 方法通過(guò)詞共現(xiàn)關(guān)系構(gòu)建膠囊語(yǔ)義圖，從而挖掘話題信息，相比傳統(tǒng)的主題模型獲得更高的平均召回率和平均F1 值.但由于稀疏文本中詞共現(xiàn)頻率低，再加上個(gè)人語(yǔ)言表達(dá)習(xí)慣問(wèn)題，相同的視頻可能由不同的詞描述，導(dǎo)致相同的語(yǔ)義無(wú)法關(guān)聯(lián)，在社區(qū)檢測(cè)中相關(guān)結(jié)點(diǎn)無(wú)法被準(zhǔn)確地劃分到同一個(gè)子圖中，導(dǎo)致準(zhǔn)確率較低.

TopicBert 方法通過(guò)Bert 和多模態(tài)命名實(shí)體識(shí)別增強(qiáng)文本間的語(yǔ)義關(guān)聯(lián)，獲得較高的平均精確率，但平均召回率提高并不明顯.事實(shí)上，一個(gè)話題包含多種類別的視頻，可能由完全不同或部分不同的場(chǎng)景組成，通過(guò)嵌入實(shí)體類別劃分視頻只能將內(nèi)容相似的場(chǎng)景組合在一起，更多不同場(chǎng)景的視頻將會(huì)丟失.另外基于規(guī)則的主題優(yōu)化方法，也很難將所有的視頻都挖掘形成話題.

SMMTM 方法結(jié)合短文本與圖像信息，通過(guò)視覺(jué)相似性，增強(qiáng)文本間的語(yǔ)義關(guān)聯(lián)，但是對(duì)視覺(jué)特征的簡(jiǎn)單處理，并沒(méi)有解決視覺(jué)相似性檢測(cè)不精確問(wèn)題，因此模型的平均精確率不高.這說(shuō)明SMMTM 雖然可以增強(qiáng)文本間的語(yǔ)義關(guān)聯(lián)，但是不可避免地引入噪聲.

此外，通過(guò)分析數(shù)據(jù)我們得出2 個(gè)結(jié)論：

1）文本比視覺(jué)信息在多個(gè)模型中表現(xiàn)得更好，這說(shuō)明文本特征比視覺(jué)特征更重要.通過(guò)文本與視覺(jué)信息在LDA,BTM,Doc2vec,BiLSTM_Attn 中的結(jié)果可以發(fā)現(xiàn)，將視覺(jué)特征轉(zhuǎn)化為文本信息后，在一定程度上提升了平均召回率，但平均精確率受到了較大影響，導(dǎo)致平均F1 值降低.因?yàn)橐曨l理解將視覺(jué)信息翻譯成自然語(yǔ)言的過(guò)程中丟失了視覺(jué)特征的特異性.例如：在科比墜機(jī)的話題下，會(huì)出現(xiàn)科比打籃球的場(chǎng)景，在里約奧運(yùn)會(huì)這個(gè)話題下同樣會(huì)出現(xiàn)打籃球的場(chǎng)景.但通過(guò)視頻理解它們會(huì)被翻譯為相同的描述：a group of men playing basketball，相似但不相關(guān)視覺(jué)信息被翻譯成相同的語(yǔ)言描述，且在后續(xù)的處理中它們被認(rèn)為是完全相同的特征，導(dǎo)致純視覺(jué)信息檢測(cè)的平均精確率較低.相反，視覺(jué)信息檢測(cè)的平均召回率高于文本檢測(cè)，一方面是因?yàn)槲谋据^為稀疏，所含的有效信息少、噪聲多，使得文本檢測(cè)的平均召回率低，另一方面OCR 從視頻中獲取的字幕信息與視頻內(nèi)容高度相關(guān)，很容易與視頻理解得到的語(yǔ)義信息產(chǎn)生聯(lián)系，從而將更多相關(guān)的數(shù)據(jù)聚集到一起，使得視覺(jué)信息檢測(cè)的平均召回率高于文本檢測(cè).

2）視覺(jué)特征與文本特征的直接合并效果比單一文本更差，這表明實(shí)現(xiàn)視覺(jué)信息與文本信息的互補(bǔ)，需要找到適合的融合方法.以BiLSTM_Attn 模型為例，文本與視覺(jué)信息的直接合并相比于純文本，平均精確率下降15%，平均召回率下降4%，平均F1 值下降8%.這是因?yàn)橐曨l特征經(jīng)由視頻理解會(huì)引入部分的無(wú)意義詞匯，簡(jiǎn)單地合并造成了文本信息的泛化、文本間的語(yǔ)義關(guān)聯(lián)強(qiáng)度降低，導(dǎo)致模型檢測(cè)效果較差.提出的方法在3 種評(píng)價(jià)指標(biāo)上都獲得了最優(yōu)的實(shí)驗(yàn)性能，相比于單一文本或視覺(jué)的最優(yōu)值，本文方法的平均精確率提升約5%，平均召回率提升約10%，平均F1 值提升約15%.因?yàn)橥ㄟ^(guò)雙層注意力，區(qū)分了不同單詞和句子的重要性，極大地降低噪聲的干擾.此外，將文本和視覺(jué)語(yǔ)義融合到同一個(gè)混合語(yǔ)義圖中，保證文本和視覺(jué)語(yǔ)義優(yōu)勢(shì)互補(bǔ)，避免相互干擾，使得模型的平均精確率和平均召回率都有較大的提高.

此外，通過(guò)消融實(shí)驗(yàn)驗(yàn)證本文所提出方法的有效性.如表3 所示，文本、視覺(jué)分別表示僅利用文本、視覺(jué)數(shù)據(jù)構(gòu)建語(yǔ)義圖，文本+視覺(jué)表示文本與視覺(jué)信息融合構(gòu)建語(yǔ)義圖，文本+視覺(jué)+時(shí)間表示嵌入時(shí)間的文本和視覺(jué)語(yǔ)義圖融合.

Table 3 Ablation Experiment表3 消融實(shí)驗(yàn)

通過(guò)對(duì)比實(shí)驗(yàn)數(shù)據(jù)可以得出 2 個(gè)結(jié)論：

相比單一文本或視覺(jué)，跨媒體融合的方式在話題檢測(cè)效果上有較大的提升.雖然文本+視覺(jué)相比于單一視覺(jué)信息，平均精確率略有降低（降低1%），但平均召回率有較大的提高（提高12%），平均F1 值提高7%.這是由于視覺(jué)特征會(huì)受到光照、編輯、拍攝角度等的影響，導(dǎo)致同一場(chǎng)景下的視覺(jué)特征可能完全不同，因此單一視覺(jué)信息具有精確率高、召回率低的特點(diǎn).融合文本信息后，文本語(yǔ)義相似的視頻也會(huì)被納入同一話題，這個(gè)過(guò)程中帶入部分噪聲數(shù)據(jù)，導(dǎo)致平均精確率略有降低，但同時(shí)平均召回率有較大的提升.所以我們?cè)诨旌险Z(yǔ)義圖中嵌入時(shí)間特征，通過(guò)時(shí)間相似性，從時(shí)間維度給文本和視覺(jué)語(yǔ)義關(guān)聯(lián)增加權(quán)重，使得語(yǔ)義上難以區(qū)分的數(shù)據(jù)可以通過(guò)時(shí)間特征被輕松區(qū)分，很好地解決了這一問(wèn)題.

嵌入時(shí)間特征后，本文模型的平均精確率提升3%，平均召回率提升11%，平均F1 值提升8%，表明在混合語(yǔ)義圖中嵌入時(shí)間特征能增強(qiáng)混合語(yǔ)義圖的區(qū)分能力.這是因?yàn)闊狳c(diǎn)話題的爆發(fā)都具有很強(qiáng)的時(shí)間聚集性，所以時(shí)間特征對(duì)于不同的熱點(diǎn)話題具有很強(qiáng)的區(qū)分能力.通過(guò)時(shí)間衰減函數(shù)將時(shí)間分布特征嵌入到混合語(yǔ)義圖中，增強(qiáng)相同時(shí)間跨度內(nèi)文本與視覺(jué)語(yǔ)義間的連接強(qiáng)度，從而避免具有相似文本和視覺(jué)特征的噪聲干擾.因此在本文模型下，文本和視覺(jué)難以區(qū)分的數(shù)據(jù)可通過(guò)時(shí)間分布特征輕松區(qū)分.此外，這種時(shí)間系數(shù)的軟量化在一定程度上保證話題在時(shí)間上的連續(xù)性，防止由于時(shí)間線硬分割而導(dǎo)致的同一話題被錯(cuò)誤分割.

為了進(jìn)一步證明時(shí)間特征可以有效增強(qiáng)話題檢測(cè)效果，我們統(tǒng)計(jì)了短期爆發(fā)和周期型爆發(fā)話題的數(shù)據(jù)分布情況.如圖5 所示，對(duì)于“科比墜機(jī)”這一話題，網(wǎng)絡(luò)視頻在短期內(nèi)集中爆發(fā)，文本和視覺(jué)特征具有很強(qiáng)的時(shí)間相似性.通過(guò)時(shí)間戳的嵌入，可以在時(shí)間維度建立跨媒體數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián)，增強(qiáng)密集子圖中結(jié)點(diǎn)的連接強(qiáng)度，所以模型對(duì)于短期爆發(fā)的熱點(diǎn)話題具有很強(qiáng)的檢測(cè)能力.對(duì)于“新冠疫情”這一話題，在不同時(shí)段內(nèi)形成多個(gè)密集子圖，導(dǎo)致熱點(diǎn)話題被分割成多個(gè)密集子圖.但是，同一話題下密集子圖的語(yǔ)義相似性遠(yuǎn)高于不同話題下的密集子圖.因此，通過(guò)計(jì)算密集子圖間的平均歐氏距離（Euclidean distance）能有效實(shí)現(xiàn)密集子圖的合并，得到完整的熱點(diǎn)話題.

Fig.5 Time distribution characteristics of topics圖5 話題的時(shí)間分布特征

表4 展示了從10 個(gè)話題中挖掘出的高頻話題詞.以話題8 為例，我們不僅挖掘出了Kobe,death,NBA等文本中出現(xiàn)的高頻詞，還挖掘出playing,running,basketball 等低頻詞.視覺(jué)特征向文本信息轉(zhuǎn)換的過(guò)程中生成了大量新詞，增加了playing，running，basketball這類低頻詞的出現(xiàn)頻率，豐富了文本語(yǔ)義空間.此外，視頻理解生成的basketball,player 與標(biāo)題和字幕中的NBA,playing 高度相關(guān)，增強(qiáng)了跨媒體數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián)強(qiáng)度，使得熱點(diǎn)話題更容易形成密集子圖，從而被準(zhǔn)確地檢測(cè).

表5 展示了3 個(gè)具體的例子，以表明本文提出方法的有效性.例1 標(biāo)題中并沒(méi)有出現(xiàn)與“科比墜機(jī)”相關(guān)的單詞，導(dǎo)致語(yǔ)義關(guān)聯(lián)缺失，基線方法僅通過(guò)標(biāo)題無(wú)法準(zhǔn)確劃分.而通過(guò)視頻理解和字幕，從視覺(jué)語(yǔ)義中挖掘出Kobe，bryant，crash，accident 等詞，建立起該視頻結(jié)點(diǎn)與“科比墜機(jī)”話題的聯(lián)系，這有效提高模型的召回率；例2 標(biāo)題中出現(xiàn)“2020 presidential victory”和“Brexit”，極易被錯(cuò)分為“2020 美國(guó)大選”.而通過(guò)融合視覺(jué)語(yǔ)義以及時(shí)間特征，增強(qiáng)了視覺(jué)語(yǔ)義London 與Brexit 的語(yǔ)義關(guān)聯(lián)，這使得該結(jié)點(diǎn)在聚類過(guò)程中被正確劃分.同樣地，例3 中語(yǔ)義融合時(shí)，受文本噪聲financial markets 的影響，該結(jié)點(diǎn)極易與話題“全球金融危機(jī)”混淆，而融合方法從時(shí)間維度對(duì)該結(jié)點(diǎn)進(jìn)行相似度加權(quán)，因?yàn)榇艘曨l上傳時(shí)間處于新冠疫情大爆發(fā)期間，并且視覺(jué)語(yǔ)義masks 與新冠疫情密切相關(guān)，這增強(qiáng)了該視頻結(jié)點(diǎn)與新冠疫情的語(yǔ)義關(guān)聯(lián)強(qiáng)度，從而使得該視頻被正確劃分，因此模型具有較高的精確率.

4 總結(jié)

本文提出一個(gè)新的跨媒體語(yǔ)義關(guān)聯(lián)增強(qiáng)方法，解決文本特征稀疏導(dǎo)致的同一話題下文本語(yǔ)義特征差異大且關(guān)聯(lián)強(qiáng)度弱的問(wèn)題.首先，構(gòu)造一個(gè)雙層注意力模型，通過(guò)單詞級(jí)注意力和句子級(jí)注意力捕捉文本核心語(yǔ)義特征；然后，通過(guò)視頻理解和場(chǎng)景文字識(shí)別，生成與視頻內(nèi)容高度相關(guān)的文本描述信息，豐富文本語(yǔ)義空間；最后，將文本語(yǔ)義和視覺(jué)語(yǔ)義通過(guò)時(shí)間衰減函數(shù)，加權(quán)融合形成混合語(yǔ)義圖，增強(qiáng)跨媒體語(yǔ)義關(guān)聯(lián)，使得話題的分割更為準(zhǔn)確.實(shí)驗(yàn)結(jié)果表明，本文提出的方法能有效提高網(wǎng)絡(luò)視頻熱點(diǎn)話題檢測(cè)效果.

作者貢獻(xiàn)聲明：張承德提出論文思路，并指導(dǎo)論文撰寫(xiě)和修改；劉雨宣負(fù)責(zé)方法設(shè)計(jì)，完成實(shí)驗(yàn)并撰寫(xiě)論文；肖霞對(duì)實(shí)驗(yàn)設(shè)計(jì)和論文撰寫(xiě)提出指導(dǎo)意見(jiàn)；梅凱為實(shí)驗(yàn)數(shù)據(jù)提供支持，并對(duì)數(shù)據(jù)進(jìn)行處理.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡