張承德 劉雨宣 肖 霞 梅 凱
1(中南財(cái)經(jīng)政法大學(xué)信息與安全工程學(xué)院 武漢 430073)
2(華中農(nóng)業(yè)大學(xué)公共管理學(xué)院 武漢 430070)
(chengdezhang@zuel.edu.cn)
社交網(wǎng)絡(luò)和智能手機(jī)的普及使得網(wǎng)絡(luò)視頻數(shù)量爆炸式增長(zhǎng),并逐漸取代文本成為普通用戶信息交流的主要載體[1].據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的最新報(bào)告[2],截至2021 年6 月,國(guó)內(nèi)網(wǎng)絡(luò)視頻用戶規(guī)模達(dá)9.44 億,較2020 年增長(zhǎng)1 707 萬(wàn).同時(shí),國(guó)外最大的視頻分享平臺(tái)YouTube,月活躍用戶人數(shù)已超過(guò)20 億,每分鐘上傳的視頻總時(shí)長(zhǎng)超過(guò)300 h,人們每天在YouTube 上花費(fèi)超過(guò)1010h 尋找和觀看視頻[3].當(dāng)熱點(diǎn)話題發(fā)生時(shí),用戶需要觀看數(shù)量龐大的網(wǎng)絡(luò)視頻,并花費(fèi)大量時(shí)間和精力梳理和總結(jié)其前因后果,才能初步了解熱點(diǎn)話題的基本情況.而當(dāng)遇到完全陌生的話題時(shí),則進(jìn)一步增加了這一難度.因此,網(wǎng)絡(luò)視頻熱點(diǎn)話題檢測(cè)變得十分必要.
傳統(tǒng)網(wǎng)絡(luò)視頻熱點(diǎn)話題檢測(cè)方法,主要通過(guò)計(jì)算標(biāo)題、標(biāo)簽間的語(yǔ)義相似度,將視頻劃分到不同的話題[4].通常,網(wǎng)絡(luò)視頻只有十多個(gè)詞描述,且文本信息少、噪聲多,這很容易引起文本語(yǔ)義特征空間稀疏[5],導(dǎo)致文本間語(yǔ)義關(guān)聯(lián)少且關(guān)聯(lián)強(qiáng)度弱.另外,由于不同的人表達(dá)習(xí)慣不同,以及多義詞、多語(yǔ)言等問(wèn)題,將進(jìn)一步降低文本間語(yǔ)義特征的關(guān)聯(lián)強(qiáng)度,難以建立視頻間聯(lián)系.現(xiàn)有方法主要通過(guò)引入視頻彈幕、評(píng)論等外部信息豐富文本語(yǔ)義空間[6-8].但是,這類方法存在2 方面問(wèn)題:一方面,部分媒體平臺(tái)不支持發(fā)送彈幕和評(píng)論,導(dǎo)致部分視頻缺乏外部信息;另一方面,彈幕、評(píng)論有效信息少,內(nèi)容冗雜,導(dǎo)致文本間語(yǔ)義關(guān)聯(lián)減少.因此,上述方法嚴(yán)重依賴于引入信息與話題的相關(guān)度,導(dǎo)致話題檢測(cè)性能不穩(wěn)定.由于視頻內(nèi)容豐富、客觀,且視頻內(nèi)容與話題往往高度相關(guān).因此,嘗試智能理解視頻內(nèi)容,生成大量準(zhǔn)確、客觀的語(yǔ)義信息,豐富文本語(yǔ)義特征空間,提升熱點(diǎn)話題檢測(cè)效果.
然而,由于視頻內(nèi)容側(cè)重于對(duì)視覺(jué)具體信息的客觀描述,文本信息側(cè)重于對(duì)話題內(nèi)容的抽象表達(dá),帶有一定的主觀情感,導(dǎo)致同一話題下視覺(jué)語(yǔ)義與文本語(yǔ)義特征差異性較大.如圖1 所示,視頻A的標(biāo)題表達(dá)了一種主觀情感,并未提及任何與話題相關(guān)的信息,字幕則直接表達(dá)科比墜機(jī)這一話題;在視頻B中,字幕僅表達(dá)視頻來(lái)源,與視頻所屬話題無(wú)關(guān),視頻理解則清晰地展示了“士兵、坦克”等與戰(zhàn)爭(zhēng)主題高度相關(guān)的詞匯;在視頻C中,字幕以及視頻理解表達(dá)的語(yǔ)義都不準(zhǔn)確,只有標(biāo)題清晰地表達(dá)2020 美國(guó)大選這一主題.傳統(tǒng)的融合方法無(wú)法調(diào)和文本與視覺(jué)間的語(yǔ)義鴻溝,反而降低了同一話題下文本間的關(guān)聯(lián)強(qiáng)度.因此,如何克服文本語(yǔ)義與視覺(jué)語(yǔ)義間的差異,增強(qiáng)跨媒體語(yǔ)義的關(guān)聯(lián),成為一個(gè)巨大的挑戰(zhàn).
Fig.1 Three semantic differences圖1 3 種語(yǔ)義差異
為應(yīng)對(duì)上述挑戰(zhàn),提出一種新的跨媒體語(yǔ)義關(guān)聯(lián)增強(qiáng)方法.通過(guò)融合視頻理解、字幕、標(biāo)題3 種語(yǔ)義特征,增強(qiáng)文本與視覺(jué)語(yǔ)義間的關(guān)聯(lián)強(qiáng)度,實(shí)現(xiàn)跨媒體信息的互補(bǔ),解決話題檢測(cè)中的文本稀疏問(wèn)題.該方法共分為4 步:第1 步,通過(guò)雙層注意力機(jī)制,挖掘文本語(yǔ)義特征.第2 步,通過(guò)視頻智能理解以及場(chǎng)景文字識(shí)別,生成一系列與視頻內(nèi)容高度相關(guān)的文本信息,豐富文本語(yǔ)義空間.第3 步,跨媒體語(yǔ)義融合.首先,分別通過(guò)文本語(yǔ)義相關(guān)度和視覺(jué)語(yǔ)義相關(guān)度,構(gòu)建文本語(yǔ)義圖和視覺(jué)語(yǔ)義圖;然后,構(gòu)造時(shí)間衰減函數(shù),通過(guò)視頻上傳的時(shí)間差,度量跨媒體數(shù)據(jù)間的話題相似性;最后,通過(guò)時(shí)間衰減系數(shù)量化文本語(yǔ)義圖和視覺(jué)語(yǔ)義圖間的連接強(qiáng)度,并將其加權(quán)疊加形成混合語(yǔ)義圖,增強(qiáng)跨媒體語(yǔ)義關(guān)聯(lián).第4 步,話題檢測(cè).通過(guò)圖移位(graph shifts,GS)算法[9]在混合語(yǔ)義圖中挖掘出密集子圖,并通過(guò)TextRank 算法[10]檢測(cè)出熱點(diǎn)話題.
本文的主要?jiǎng)?chuàng)新點(diǎn)和貢獻(xiàn)總結(jié)為3 個(gè)方面:
1)提出一種新的文本信息豐富方法.通過(guò)理解視覺(jué)內(nèi)容,生成大量與話題高度相關(guān)的文本描述信息,避免外部數(shù)據(jù)引入而帶來(lái)的過(guò)多噪聲問(wèn)題,實(shí)現(xiàn)網(wǎng)絡(luò)視頻的文本語(yǔ)義特征空間豐富.
2)構(gòu)建了一種新途徑建立視覺(jué)與文本信息間的語(yǔ)義關(guān)聯(lián).引入時(shí)間特征建立跨媒體語(yǔ)義關(guān)聯(lián),主要通過(guò)時(shí)間衰減函數(shù),量化視頻上傳時(shí)間差對(duì)跨媒體數(shù)據(jù)話題相似性的影響,以此增強(qiáng)跨媒體語(yǔ)義關(guān)聯(lián)強(qiáng)度,同時(shí)避免語(yǔ)義融合所帶來(lái)的噪聲干擾.
3)提出一種新的跨媒體語(yǔ)義關(guān)聯(lián)增強(qiáng)方法.通過(guò)構(gòu)建文本語(yǔ)義圖,找到網(wǎng)絡(luò)視頻中缺失的話題關(guān)聯(lián),并通過(guò)融合文本語(yǔ)義圖與視覺(jué)語(yǔ)義圖,重建文本與視覺(jué)語(yǔ)義間的連接,實(shí)現(xiàn)跨媒體語(yǔ)義互補(bǔ)增強(qiáng).同時(shí)賦予模型良好的可擴(kuò)展性,能輕松地將其他模態(tài)信息融合到語(yǔ)義圖中.
熱點(diǎn)話題檢測(cè)與跟蹤(topic detection and tracking,TDT)任務(wù)源于美國(guó)國(guó)防高級(jí)研究計(jì)劃局贊助的研究計(jì)劃[11],核心任務(wù)是從數(shù)據(jù)流中發(fā)現(xiàn)新話題,并收集后續(xù)的相關(guān)報(bào)導(dǎo)[12].早期的話題檢測(cè)主要是面向新聞、博客等長(zhǎng)文本,隨著社交媒體的快速發(fā)展,使得信息的傳播不再局限于文本這一種形式,網(wǎng)絡(luò)圖片和視頻在信息交流中占據(jù)主導(dǎo)地位,話題檢測(cè)也由面向純文本擴(kuò)展為基于文本、圖像、視頻等多模態(tài)融合的話題檢測(cè)[13].
對(duì)于文本信息,早期的話題檢測(cè)方法大多基于LDA(latent Dirichlet allocation)主題模型[14]或其改進(jìn)模型[15].受LDA 固有的局限性,這些方法對(duì)長(zhǎng)文本效果較好、對(duì)短文本效果較差.文獻(xiàn)[16]通過(guò)搜索引入相關(guān)文本以擴(kuò)展短文本,但此方式過(guò)于依賴于輔助文本的質(zhì)量,當(dāng)引入文本質(zhì)量不高或者相關(guān)文本不充足時(shí),話題檢測(cè)效果較差.文獻(xiàn)[17]提出了一種BTM(biterm topic model)主題模型,這是對(duì)LDA 模型的一種改進(jìn),利用詞共現(xiàn)關(guān)系豐富詞組,從而緩解短文本的稀疏性問(wèn)題,此模型對(duì)短文本主題檢測(cè)效果有一定的提升.但是,當(dāng)文本特征過(guò)于稀疏或者存在噪聲、一詞多義時(shí)模型的檢測(cè)效果較差.所以這種基于主題模型的話題檢測(cè)方法對(duì)視頻標(biāo)題并不適用.
對(duì)于圖像和視頻,現(xiàn)有方法主要利用豐富的視覺(jué)信息進(jìn)行話題挖掘.文獻(xiàn)[18]通過(guò)注意力提取視頻局部顯著語(yǔ)義特征和全局語(yǔ)義特征,并進(jìn)行分類表示以區(qū)分不同話題.文獻(xiàn)[19]提出了一種圖像主導(dǎo)的主題模型,將視覺(jué)特征作為信息線索進(jìn)行話題檢測(cè).這種檢測(cè)方法雖然較好地利用了視覺(jué)信息,但由于網(wǎng)絡(luò)視頻大多由用戶隨意拍攝和剪輯,再加上拍光照、運(yùn)動(dòng)、拍攝角度等多種因素的變化,導(dǎo)致視覺(jué)語(yǔ)義特征獲取并不準(zhǔn)確、檢測(cè)效果不佳.
對(duì)多模態(tài)數(shù)據(jù),現(xiàn)有方法主要通過(guò)多種模態(tài)數(shù)據(jù)中的互補(bǔ)信息來(lái)檢測(cè)熱點(diǎn)話題.文獻(xiàn)[20]對(duì)視覺(jué)信息和文本信息之間的相關(guān)性進(jìn)行研究,探索不同模態(tài)數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián).文獻(xiàn)[21]利用圖片理解技術(shù),挖掘圖片表達(dá)的語(yǔ)義信息;通過(guò)融合文本與圖像信息,實(shí)現(xiàn)了短文本語(yǔ)義空間豐富.受此工作的啟發(fā),我們通過(guò)視頻理解技術(shù),深度挖掘網(wǎng)絡(luò)視頻中的語(yǔ)義信息,并與稀疏的文本語(yǔ)義融合,豐富文本語(yǔ)義.
視頻理解旨在理解視覺(jué)內(nèi)容,實(shí)現(xiàn)視覺(jué)特征向自然語(yǔ)言的轉(zhuǎn)化[22].文獻(xiàn)[23]提出了一種按固定的語(yǔ)法和模板生成句子的方法,但是這種基于模板的方法生成的句子單一,束縛了模型的表達(dá)能力.隨著深度學(xué)習(xí)取得突破性進(jìn)展,基于深度學(xué)習(xí)的視頻理解方法被廣泛應(yīng)用.文獻(xiàn)[24]提出了一種S2VT(sequence to sequence video to text)模型,引入編碼解碼器架構(gòu),實(shí)現(xiàn)特征的編碼和解碼.同一時(shí)期,文獻(xiàn)[25]在模型中引入注意力機(jī)制,對(duì)視頻幀的卷積特征進(jìn)行加權(quán)求和,實(shí)現(xiàn)更精準(zhǔn)的特征選擇,但是生成的句子表達(dá)依舊不夠準(zhǔn)確,難以滿足實(shí)際生活的需要.近年來(lái),許多研究都聚焦于改進(jìn)視頻特征提取的方法或改進(jìn)編碼的循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu).文獻(xiàn)[26]提出了一種基于雙向時(shí)序圖的對(duì)象感知聚合模型,通過(guò)構(gòu)建雙向時(shí)序圖實(shí)現(xiàn)了對(duì)視頻特征更為精細(xì)的捕捉.文獻(xiàn)[27]提出了一種視覺(jué)特征編碼技術(shù),通過(guò)傅里葉變換嵌入時(shí)間動(dòng)態(tài),并改用循環(huán)門(mén)控單元生成豐富的語(yǔ)義.
此外,網(wǎng)絡(luò)視頻中包含豐富的場(chǎng)景文字信息,往往與視頻主題高度相關(guān).已有部分工作結(jié)合場(chǎng)景文字與視覺(jué)特征,增強(qiáng)圖像和視頻內(nèi)容理解.如文獻(xiàn)[28]將圖像中的場(chǎng)景文字信息與圖像卷積特征相結(jié)合,增強(qiáng)視覺(jué)特征表達(dá).文獻(xiàn)[29]利用圖片中的場(chǎng)景文字,增強(qiáng)短文本與視覺(jué)間的交互關(guān)系,并在上述工作的啟發(fā)下,試圖將視頻中的字幕信息與視頻理解相結(jié)合,挖掘視覺(jué)語(yǔ)義,豐富文本語(yǔ)義空間.
跨媒體數(shù)據(jù)具有分散異構(gòu)、語(yǔ)義關(guān)聯(lián)和多模態(tài)的特點(diǎn),相同語(yǔ)義可以借由不同跨媒體數(shù)據(jù)表達(dá).而不同跨媒體數(shù)據(jù)低層特征表示不一致,導(dǎo)致無(wú)法直接通過(guò)特征計(jì)算數(shù)據(jù)間的相關(guān)性[30].早期主要是利用人工標(biāo)注跨媒體數(shù)據(jù),然后通過(guò)標(biāo)簽信息實(shí)現(xiàn)跨媒體數(shù)據(jù)間的關(guān)聯(lián)和檢索,但是人工標(biāo)注成本高、速度慢且具有一定的主觀性,對(duì)海量的跨媒體數(shù)據(jù)并不適用.隨著深度學(xué)習(xí)的成功,針對(duì)圖像和視頻的分析技術(shù)迅速發(fā)展.通過(guò)分析和理解跨媒體數(shù)據(jù)的內(nèi)容,結(jié)合標(biāo)題、場(chǎng)景文字等信息,形成語(yǔ)義標(biāo)簽以輔助跨媒體融合成為了主流方法.文獻(xiàn)[31]提出一種混合注意力模塊,同時(shí)利用多模態(tài)數(shù)據(jù)內(nèi)部的聯(lián)系以及文本詞和圖像位置之間的關(guān)系進(jìn)行融合,實(shí)現(xiàn)了多模態(tài)數(shù)據(jù)的關(guān)聯(lián)和互補(bǔ).文獻(xiàn)[32]捕捉多模態(tài)數(shù)據(jù)的整體特征,并映射到同一空間實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的融合.這種融合方式在一定程度上實(shí)現(xiàn)了跨媒體數(shù)據(jù)的對(duì)齊,但是它們都過(guò)于復(fù)雜,而且要求文本和視覺(jué)信息具有嚴(yán)格的對(duì)應(yīng)關(guān)系,這對(duì)網(wǎng)絡(luò)視頻并不適用.
然而,報(bào)道同一熱點(diǎn)話題的跨媒體數(shù)據(jù)具有相似的語(yǔ)義內(nèi)容,而且通常在相似的時(shí)間上傳,因此,同一話題下的跨媒體數(shù)據(jù)具有很強(qiáng)的語(yǔ)義相似性和時(shí)間相似性.文獻(xiàn)[33]通過(guò)時(shí)間窗口改進(jìn)聚類模型實(shí)現(xiàn)新聞文本主題的精準(zhǔn)捕捉.但其主要是基于文本的分析,尤其是針對(duì)新聞文章,這對(duì)稀疏的視頻文本并不適用.所以為了解決上述問(wèn)題,構(gòu)建了一種簡(jiǎn)單且有效的融合方法.通過(guò)文本語(yǔ)義相似性和視覺(jué)語(yǔ)義相似性,分別構(gòu)建文本語(yǔ)義圖和視覺(jué)語(yǔ)義圖,通過(guò)圖的融合實(shí)現(xiàn)跨媒體數(shù)據(jù)的融合.此外通過(guò)時(shí)間衰減函數(shù),將時(shí)間特征嵌入混合語(yǔ)義圖,增強(qiáng)文本和視覺(jué)語(yǔ)義關(guān)聯(lián)強(qiáng)度,形成更為平滑的密集子圖.
本文提出的話題檢測(cè)框架如圖2 所示,框架包括4 個(gè)步驟,分別為文本語(yǔ)義特征提取、視覺(jué)語(yǔ)義特征提取、跨媒體語(yǔ)義融合以及話題檢測(cè).
Fig.2 Topic detection framework圖2 話題檢測(cè)框架
受文獻(xiàn)[34]的啟發(fā),我們構(gòu)造了一個(gè)雙層注意力模型,分別通過(guò)單詞級(jí)注意力和句子級(jí)注意力挖掘文本核心語(yǔ)義特征.假定數(shù)據(jù)集中共有J篇文本,每篇文本有L個(gè)句子,每個(gè)句子包含T個(gè)單詞.其中j∈[1,J]表示第j篇文本,i∈[1,L]表示文本中第i個(gè)句子,t∈[1,T]表示句子中第t個(gè)單詞.
2.1.1 單詞級(jí)注意力
對(duì)給定的第i個(gè)句子中的第t個(gè)單詞wi,t,由詞向量模型[35]將單詞編碼為詞向量xi,t,接著將詞向量輸入到雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)[36]單元,分別獲取前向隱藏層狀態(tài)和后向隱藏層狀態(tài).式(1)和式(2)展示了LSTM(long short-term memory)細(xì)胞單元,將隱藏層狀態(tài)傳遞到下一個(gè)細(xì)胞單元,并獲取雙向時(shí)序信息的過(guò)程.
其中xi,t表示LSTM單元的輸入,表示前一時(shí)刻的隱藏層狀態(tài)分別表示LSTM單元的前向和后向隱藏層狀態(tài).然后連接前向和后向的隱藏層狀態(tài),得到給定單詞wi,t的特征向量表示.式(3)展示了整合前向和后向隱藏層狀態(tài)的過(guò)程.
其中 ⊕表示元素求和,hi,t表示雙向LSTM 輸出的隱藏層狀態(tài).
在單詞級(jí)別,通過(guò)單詞級(jí)注意力區(qū)分不同單詞的重要性,并將其聚合為句子向量表示.首先,將單詞隱藏層向量hi,t輸入帶有激活函數(shù) tanh的非線性神經(jīng)元層,將hi,t投影到同一個(gè)注意力空間(見(jiàn)式(4));然后,利用uwod作為衡量指標(biāo),wod為單詞級(jí)標(biāo)記,計(jì)算ui,t的重要性,并將結(jié)果歸一化后得到不同單詞的權(quán)重(見(jiàn)式(5));最后,通過(guò)加權(quán)求和的方式計(jì)算句子向量Si(見(jiàn)式(6)).單詞上下文向量uwod在訓(xùn)練過(guò)程中被隨機(jī)初始化并聯(lián)合學(xué)習(xí).
其中ui,t表示隱藏層狀態(tài)hi,t的投影向量,T 表示轉(zhuǎn)置,Wwod和bwod表示網(wǎng)絡(luò)的權(quán)重矩陣和偏置值,ai,t表示句子內(nèi)部每個(gè)單詞的權(quán)重,Si表示文本中第i個(gè)句子的特征向量.
2.1.2 句子級(jí)注意力
在句子級(jí)別,通過(guò)句子級(jí)注意力區(qū)分不同句子的重要性,并將其聚合為文本向量表示.首先,通過(guò)BiLSTM 對(duì)文本中的句子進(jìn)行編碼表示,為了簡(jiǎn)單起見(jiàn),我們將BiLSTM 單元的操作表示為hi=fBiLSTM(Si),即以句子Si為中心,整合句子上下文信息的隱藏層向量表示;其次,將隱藏層狀態(tài)hi投影到同一個(gè)注意力空間(見(jiàn)式(7)),并隨機(jī)初始化一個(gè)句子級(jí)別的上下文向量usen,用于衡量不同句子的重要性;然后,將計(jì)算出的句子重要性,歸一化后得到每個(gè)句子的權(quán)重(見(jiàn)式(8));最后,對(duì)句子向量進(jìn)行加權(quán)求和,并經(jīng)過(guò)一個(gè)全連接層映射得到文本語(yǔ)義特征表示(見(jiàn)式(9)).
式(8)和(9)中,ui表示句子隱藏層狀態(tài)的投影向量,T 表示轉(zhuǎn)置.ai表示文本中第i個(gè)句子的權(quán)重,usen表示句子上下文向量,在訓(xùn)練過(guò)程中被隨機(jī)初始化并聯(lián)合學(xué)習(xí),sen 為句子級(jí)標(biāo)記.式(9)中,表示蘊(yùn)含第j篇文檔結(jié)構(gòu)知識(shí)的文本語(yǔ)義特征表示,tex表示文本標(biāo)記.Wsen,Wtex和bsen,btex分別表示訓(xùn)練得到的權(quán)重和偏置值.
2.2.1 視頻理解
由于傳統(tǒng)模型在復(fù)雜的真實(shí)場(chǎng)景中表現(xiàn)不佳,因此通過(guò)視頻理解結(jié)合光學(xué)字符識(shí)別(optical character recognition,OCR),實(shí)現(xiàn)對(duì)視覺(jué)語(yǔ)義的精準(zhǔn)捕捉.如圖3 所示視頻理解模型包括4 個(gè)階段:
Fig.3 Video caption model圖3 視頻理解模型
1)特征提取階段.利用基于注意力的C3D 網(wǎng)絡(luò)[37]提取視頻顯著性區(qū)域的運(yùn)動(dòng)特征,通過(guò)VGG16[38]提取視頻的全局卷積特征,并通過(guò)全連接層連接這2類特征,作為視頻的特征輸入.
2)特征編碼階段.特征的編碼主要由2 層LSTM和視覺(jué)注意力實(shí)現(xiàn).在每個(gè)時(shí)間步長(zhǎng)下,2 層LSTM將可變長(zhǎng)度的輸入編碼為固定維度的向量,視覺(jué)注意力則用于捕捉視覺(jué)特征中的顯著性區(qū)域.即對(duì)于輸入特征X=(x1,x2,…,xn)經(jīng)過(guò)2層LSTM的編碼得到其隱藏層狀態(tài)序列此序列經(jīng)過(guò)注意力加權(quán)得到當(dāng)前時(shí)刻的特征編碼(式(10)).
其中ct表示編碼后的特征輸出,at,i表示編碼器隱藏層向量hemb的權(quán)重(式(11)),et,i由LSTM 隱藏層狀態(tài)經(jīng)過(guò)激活函數(shù)后得到.ba均表示可學(xué)習(xí)的參數(shù).
3)特征解碼階段.輸入序列經(jīng)過(guò)解碼器解碼為輸出序列Y=(y1,y2,…,yn)上的分布(見(jiàn)式(13)),再通過(guò)Y查詢?cè)~匯表得到對(duì)應(yīng)的單詞.此外,當(dāng)前時(shí)刻生成的單詞會(huì)作為特征序列與輸入特征連接后傳入到解碼器,為下一時(shí)刻單詞的生成提供支持.
其中ct表示編碼器輸出,hdec表示解碼器隱藏層輸出,yt-1表示前一時(shí)刻解碼器輸出的序列,p(y1,y2,…,ym|x1,x2,…,xn) 表示對(duì)于特定輸入X獲得的輸出分布.
4)訓(xùn)練階段.模型以MSVD 數(shù)據(jù)集[39]作為知識(shí)庫(kù),采用端到端方式訓(xùn)練.訓(xùn)練目標(biāo)是:使得預(yù)測(cè)句子的對(duì)數(shù)釋然估計(jì)值最大.即通過(guò)最大化對(duì)數(shù)釋然估計(jì)值,不斷更新參數(shù) θ讓模型找到最優(yōu)解碼序列Y=(y1,y2,…,ym),見(jiàn)式(14).
2.2.2 視覺(jué)語(yǔ)義嵌入
視覺(jué)語(yǔ)義嵌入分為2 步:第1 步,將生成的字幕和視頻描述編碼為詞向量,并將該詞向量輸入到BiLSTM 模型中,得到蘊(yùn)含上下文語(yǔ)義信息的隱藏層特征向量;第2 步,通過(guò)自注意力對(duì)隱藏層狀態(tài)進(jìn)行加權(quán)(見(jiàn)式(15)和式(16)),并將加權(quán)融合后的特征經(jīng)向量全連接層得到視覺(jué)語(yǔ)義特征表示(見(jiàn)式(17)).
其中ei表示隱藏層狀態(tài)經(jīng)過(guò)全連接層后的輸出,u表示經(jīng)過(guò)訓(xùn)練后得到的權(quán)重參數(shù)矩陣,ai表示注意力權(quán)重,表示第j個(gè)視頻的視覺(jué)語(yǔ)義特征表示,L表示文本長(zhǎng)度.W,Wvid,b,bvid分別表示訓(xùn)練權(quán)重和偏置值,vid表示視頻標(biāo)記.
2.3.1 文本語(yǔ)義圖
2.3.2 視覺(jué)語(yǔ)義圖
2.3.3 混合語(yǔ)義圖
通過(guò)視頻上傳時(shí)間差,構(gòu)造時(shí)間衰減函數(shù),以衡量時(shí)間對(duì)跨媒體數(shù)據(jù)間話題相似性的影響,從時(shí)間維度增強(qiáng)話題結(jié)點(diǎn)間的關(guān)聯(lián).時(shí)間衰減函數(shù)為:
其中 β是控制衰減速率的正標(biāo)度參數(shù),L用于控制衰減周期,ti和tj表示視頻i和視頻j的時(shí)間戳,表示向下取整.從式(22)中可以看出時(shí)間衰減函數(shù)pi,j隨時(shí)間間隔的增加而降低,這表明視頻i和j屬于同一話題的可能性較小.不同數(shù)據(jù)的主題相似度隨它們的時(shí)間間隔呈指數(shù)下降.
如式(23)所示,通過(guò)時(shí)間衰減函數(shù)pi,j賦予文本語(yǔ)義圖和視覺(jué)語(yǔ)義圖不同的連接權(quán)重,并將其加權(quán)疊加形成混合語(yǔ)義圖G=({ni},{wi,j}).融合過(guò)程中,將Gvid和Gtex的結(jié)點(diǎn)合并,得到混合語(yǔ)義圖的結(jié)點(diǎn)集.這樣,缺失的結(jié)點(diǎn)信息在融合過(guò)程中得到豐富和補(bǔ)充,從而建立起更豐富的語(yǔ)義關(guān)聯(lián).結(jié)點(diǎn)間的連接權(quán)重通過(guò)時(shí)間衰減函數(shù)加權(quán)求和并歸一化后得到融合后的連接權(quán)重wi,j.
其中G表示構(gòu)造的混合語(yǔ)義圖,{ni}表示結(jié)點(diǎn)集,{wi,j}表示邊的權(quán)重集.時(shí)間信息的嵌入增強(qiáng)文本語(yǔ)義與視覺(jué)語(yǔ)義間的連接強(qiáng)度,若混合語(yǔ)義圖中的文本語(yǔ)義、視覺(jué)語(yǔ)義以及上傳時(shí)間都相似,那么所對(duì)應(yīng)結(jié)點(diǎn)的連接較強(qiáng)(即邊權(quán)重大),會(huì)在圖中形成一個(gè)稠密的子圖.這種融合方式使模型具有較強(qiáng)的可擴(kuò)展性,能輕松地將其他模態(tài)的信息(如地理位置、情感傾向等)也融合到語(yǔ)義圖中.而且基于圖的方式可以在話題個(gè)數(shù)未知的情況下進(jìn)行話題聚類,使得模型更加魯棒.
通過(guò)GS 算法在混合語(yǔ)義圖中由聚類分析找出密集子圖(即話題簇).GS 算法的輸入是混合語(yǔ)義圖G的鄰接矩陣M,矩陣M中的每一個(gè)元素都由混合語(yǔ)義圖的連接權(quán)值wi,j決定.混合語(yǔ)義圖的子圖由概率簇x∈Δm表示.其中Δm={x|x∈Rm,xi≥0,|x|1=1},m表示圖中的結(jié)點(diǎn)總數(shù),x表示一個(gè)映射向量,x=(xi)實(shí)現(xiàn)了圖中的結(jié)點(diǎn)集到單一標(biāo)準(zhǔn)形 Rm的映射,每一個(gè)x∈Δm表示了各結(jié)點(diǎn)的組合概率,稱為概率簇.其中xi表示x的第i個(gè)分量包含結(jié)點(diǎn)ni的概率,xi=0表示該概率簇不包含頂點(diǎn)ni.如式(24)所示,GS 算法通過(guò)衡量子圖x中的平均連接強(qiáng)度,找到g(x)所有的局部極大值 {x*}.每一個(gè)局部極大值x*代表了混合語(yǔ)義圖的一個(gè)密集子圖,也就是我們所探尋的熱點(diǎn)話題.
其中M表示存儲(chǔ)混合語(yǔ)義圖的鄰接矩陣,x表示混合語(yǔ)義圖中結(jié)點(diǎn)到話題簇的映射,g(x)表示子圖的平均連接強(qiáng)度,x*表示g(x)的局部極大值.挖掘出密集子圖后,利用TextRank 算法[10]在密集子圖中抽取出K個(gè)關(guān)鍵詞表示熱點(diǎn)話題.
以國(guó)內(nèi)新華網(wǎng)、新浪網(wǎng),國(guó)外視頻分享網(wǎng)站YouTube、美國(guó)有線電視新聞網(wǎng)CNN 等主流媒體上最熱門(mén)的話題為依據(jù),爬取了10 個(gè)熱點(diǎn)話題.實(shí)驗(yàn)數(shù)據(jù)集詳細(xì)信息如表1 所示,包括10 021 條文本、10 971個(gè)視頻,利用基于顏色直方圖的方法[40]切分視頻得到89 348 個(gè)視頻段,提取227 930 個(gè)關(guān)鍵幀.實(shí)驗(yàn)所用數(shù)據(jù)集涵蓋多個(gè)角度、覆蓋不同的時(shí)間跨度,范圍從1 個(gè)月到3 年不等,涉及經(jīng)濟(jì)、政治、體育、生活等多個(gè)領(lǐng)域.因此,實(shí)驗(yàn)數(shù)據(jù)具有足夠的代表性,充分驗(yàn)證了實(shí)驗(yàn)的有效性.
Table 1 Experimental Dataset表1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)采用標(biāo)準(zhǔn)的精確率(Precision)、召回率(Recall)和F1 值評(píng)價(jià)所提出方法的有效性.
其中A表示檢測(cè)到的話題數(shù)據(jù)集,B表示與A最匹配的真實(shí)話題數(shù)據(jù)集,B+表示正確檢測(cè)的話題數(shù)據(jù)集.Precision表示所有檢測(cè)出的信息中,正確樣本數(shù)目的占比;Recall表示正確檢測(cè)出的樣本在所有樣本中的占比.由于F1 值兼顧了精確率和召回率的優(yōu)點(diǎn),因此F1 值被作為評(píng)價(jià)實(shí)驗(yàn)結(jié)果的主要方式.
實(shí)驗(yàn)中,我們?cè)跀?shù)據(jù)集上無(wú)監(jiān)督地訓(xùn)練一個(gè)word-2vec 模型[35],得到128 維的詞嵌入向量.在視覺(jué)特征提取方面,我們?cè)贗mageNet 數(shù)據(jù)集上預(yù)訓(xùn)練一個(gè)VGG16模型[38],并將其第1 個(gè)全連接層的輸出作為視覺(jué)特征,維度大小為4 096.對(duì)于文本特征,2 層LSTM 維度相同,設(shè)置為64 維.上下文向量uwod和usen設(shè)置為128 維,并且隨機(jī)初始化.
此外,時(shí)間衰減函數(shù)(見(jiàn)式(22))中設(shè)置了2 個(gè)參數(shù),固定的時(shí)間單位因子L和正標(biāo)度參數(shù) β.L控制時(shí)間函數(shù)的衰減周期,對(duì)實(shí)驗(yàn)結(jié)果影響較小,在我們的模型中設(shè)置L=10;標(biāo)度參數(shù) β控制函數(shù)的衰減速率,即控制檢測(cè)話題的感興趣粒度(熱點(diǎn)話題的持續(xù)時(shí)間),較小的 β使得結(jié)點(diǎn)之間的連接權(quán)重更大,加強(qiáng)數(shù)據(jù)之間的聯(lián)系,使得大粒度的話題更容易形成密集子圖.例如話題6(2016 里約奧運(yùn)會(huì))的粒度大于話題5(馬拉多納逝世),所以在話題檢測(cè)時(shí)相似性較弱的數(shù)據(jù)結(jié)點(diǎn)更容易被劃分到話題6,從而帶來(lái)一些噪聲.相反,較大的 β值,削弱了結(jié)點(diǎn)之間的聯(lián)系,有利于小粒度的話題,但可能會(huì)丟失一些大粒度話題的正確結(jié)點(diǎn).我們?cè)O(shè)置不同的 β值,以探究 β對(duì)實(shí)驗(yàn)結(jié)果的影響.如圖4 所示,話題檢測(cè)的F1 值隨著 β的增長(zhǎng),先增大后減小.這是因?yàn)槲覀冞x取的話題粒度不一,β較小時(shí),大粒度的話題F1 值較高,小粒度的話題F1 值較低,而當(dāng) β較大時(shí),則小粒度話題的F1 值高,大粒度話題的F1 值低.所以在我們的數(shù)據(jù)集中選取 β=0.25時(shí)能獲得最佳的實(shí)驗(yàn)效果.
Fig.4 Effect of β on topic detection圖4 β 對(duì)話題檢測(cè)的影響
3.4.1 基線方法
為了全面評(píng)估本文所提出的模型,我們將本文模型與8 種基線方法進(jìn)行對(duì)比,以驗(yàn)證模型的有效性.
1)LDA(latent Dirichlet allocation)[14].該方法利用視頻文本進(jìn)行主題挖掘,通過(guò)推測(cè)文檔的主題分布,得到視頻的主題分布.實(shí)驗(yàn)中,我們將文本輸入到LDA,并設(shè)置挖掘的主題數(shù)量,得到文本-主題分布向量,最后通過(guò)聚類方法得到主題.
2)BTM(biterm topic model)[17].該方法與LDA 主題模型類似,BTM 模型對(duì)多個(gè)詞組建模更適用于短文本.實(shí)驗(yàn)中,我們將文本輸入到BTM,并設(shè)置挖掘的主題數(shù)量,得到文本-主題分布向量,最后通過(guò)聚類方法得到視頻主題.
3)Doc2vec(document to vector)[41].該方法屬于一種無(wú)監(jiān)督算法,通過(guò)預(yù)訓(xùn)練的Doc2vec 模型,從變長(zhǎng)的文本中學(xué)習(xí)得到固定長(zhǎng)度的特征表示.在實(shí)驗(yàn)中,我們將變長(zhǎng)的文本信息編碼為128 維的特征向量,再通過(guò)對(duì)文檔向量的聚類得到視頻主題.
4)BiLSTM_Attn(attention-based bidirectional LSTM)[42].該方法通過(guò)雙向長(zhǎng)短期記憶網(wǎng)絡(luò)挖掘文本上下文語(yǔ)義,并利用注意力對(duì)句子加權(quán)求和得到文本特征表示,再經(jīng)過(guò)分類得到不同主題.
5)VSD_Attn(attention for video saliency detection)[43].該方法通過(guò)視覺(jué)顯著性的注意力模型,提取視頻局部顯著語(yǔ)義特征和全局語(yǔ)義特征,并進(jìn)行分類表示以區(qū)分不同話題.
6)CSG(capsule semantic graph)[44].該方法利用文本中詞共現(xiàn)關(guān)系構(gòu)建關(guān)鍵字子圖,并通過(guò)相似度連接形成膠囊語(yǔ)義圖,最后在語(yǔ)義圖上進(jìn)行聚類得到不同的話題.
7)TopicBERT(topic detection using BERT)[45].該方法通過(guò)多模態(tài)命名實(shí)體識(shí)別和Bert 挖掘單詞間的語(yǔ)義關(guān)聯(lián),并通過(guò)結(jié)構(gòu)規(guī)則和實(shí)體類別增強(qiáng)話題信息.
8)SMMTM(unsupervised multimodal topic model)[46].該方法通過(guò)圖像信息豐富文本語(yǔ)義,解決文本稀疏問(wèn)題,并利用無(wú)監(jiān)督的多模態(tài)主題模型對(duì)文本和圖像信息進(jìn)行建模和分類.
3.4.2 實(shí)驗(yàn)結(jié)果分析
表2 展示了僅利用文本信息(標(biāo)題+標(biāo)簽)、僅利用視覺(jué)信息(視頻理解+字幕)以及文本與視覺(jué)信息聯(lián)合的實(shí)驗(yàn)結(jié)果.通過(guò)前10 個(gè)主題的平均精確率、平均召回率和平均F1 值評(píng)估話題檢測(cè)方法的總體性能.實(shí)驗(yàn)結(jié)果表明,提出的模型比其他話題檢測(cè)方法表現(xiàn)更優(yōu),與基線模型相比提升20%~30%(平均F1 值).
Table 2 Average Experimental Results Under 10 Topics In Multiple models表2 各模型中在10 個(gè)話題下的平均實(shí)驗(yàn)結(jié)果
如表2 所示,LDA 模型在3 組數(shù)據(jù)中的表現(xiàn)都不好.因?yàn)長(zhǎng)DA 是基于概率的主題模型,具有主題模型固有的局限性,導(dǎo)致LDA 對(duì)長(zhǎng)文本較為敏感,對(duì)短文本的檢測(cè)效果較差.而數(shù)據(jù)集中的文本由視頻標(biāo)題組成,通常只含有10 多個(gè)單詞,長(zhǎng)度短、詞共現(xiàn)頻率低,導(dǎo)致LDA 檢測(cè)的效果較差.此外,視覺(jué)信息由視頻理解和字幕信息組成,是對(duì)視頻底層細(xì)節(jié)的客觀描述,包含較多的噪聲以及與主題無(wú)關(guān)的信息,導(dǎo)致LDA 檢測(cè)效果較差.另一方面,直接合并文本和視覺(jué)信息雖然豐富了文本,但引入了大量的噪聲,導(dǎo)致LDA 模型的檢測(cè)效果降低.
BTM 模型也是一種基于概率的主題模型,通過(guò)共現(xiàn)詞對(duì)預(yù)測(cè)文檔主題,比LDA 模型更適用于短文本.實(shí)驗(yàn)結(jié)果表明,BTM 模型對(duì)文本的檢測(cè)效果相比LDA 有一定的提升,但是在視覺(jué)信息上實(shí)驗(yàn)效果仍然較差,因?yàn)锽TM 模型以詞袋模型編碼單詞作為輸入,忽視了詞匯間的語(yǔ)義關(guān)聯(lián),再加上視覺(jué)信息中所含的噪聲較多,因此實(shí)驗(yàn)效果不佳.
Doc2ve 是一種無(wú)監(jiān)督文本向量模型,相比LDA在3 個(gè)評(píng)價(jià)指標(biāo)上都有較大的提升,相比BTM 模型在平均召回率上有一定的提升.這是因?yàn)镈oc2vec 方法克服了詞袋模型的缺點(diǎn),考慮到詞匯間的語(yǔ)義關(guān)聯(lián).但Doc2vec 在視覺(jué)信息上的實(shí)驗(yàn)效果也較差,因?yàn)槠鋬H僅是文本中多個(gè)詞向量的平均,沒(méi)有區(qū)分不同單詞的重要性,并且模型忽視了單詞間的時(shí)序信息,導(dǎo)致模型的平均精確率不高.
BiLSTM_Attn 模型基于循環(huán)神經(jīng)網(wǎng)絡(luò),對(duì)于文本信息,獲得了較高的平均精確率.因?yàn)槟P屠瞄L(zhǎng)短期記憶網(wǎng)絡(luò)捕捉時(shí)序信息,此外注意力機(jī)制區(qū)分單詞的重要性,獲得精確的語(yǔ)義表達(dá),故得到較高的平均精確率.但受限于文本信息較少、文本間語(yǔ)義關(guān)聯(lián)較少,導(dǎo)致模型的平均召回率較低、平均F1 值也較低.對(duì)于視覺(jué)信息,注意力機(jī)制的加入使得模型的平均召回率有一定程度的提高,但受噪聲影響,平均精確率提升并不明顯,這導(dǎo)致模型平均F1 值不高.
VSD_Attn 方法獲得較高的平均精確率,這表明若視頻包含了相同的顯著性區(qū)域,則這些視頻通常屬于同一話題.但是,此方法的平均召回率和平均F1 值較低,因?yàn)榕c文本信息相比視覺(jué)內(nèi)容的噪聲更少,平均精準(zhǔn)率更高,但是更容易受到視頻編輯、光照、拍攝角度變化的影響.導(dǎo)致顯著性區(qū)域相似性檢測(cè)不準(zhǔn)確,因此當(dāng)只有視覺(jué)信息時(shí),平均召回率非常低.事實(shí)上,同一個(gè)話題可以被分割成多個(gè)視覺(jué)場(chǎng)景,而基于顯著性區(qū)域檢測(cè)的方法只能將視覺(jué)特征相似的場(chǎng)景組合到一起,導(dǎo)致同一話題下的視頻缺失.
CSG 方法通過(guò)詞共現(xiàn)關(guān)系構(gòu)建膠囊語(yǔ)義圖,從而挖掘話題信息,相比傳統(tǒng)的主題模型獲得更高的平均召回率和平均F1 值.但由于稀疏文本中詞共現(xiàn)頻率低,再加上個(gè)人語(yǔ)言表達(dá)習(xí)慣問(wèn)題,相同的視頻可能由不同的詞描述,導(dǎo)致相同的語(yǔ)義無(wú)法關(guān)聯(lián),在社區(qū)檢測(cè)中相關(guān)結(jié)點(diǎn)無(wú)法被準(zhǔn)確地劃分到同一個(gè)子圖中,導(dǎo)致準(zhǔn)確率較低.
TopicBert 方法通過(guò)Bert 和多模態(tài)命名實(shí)體識(shí)別增強(qiáng)文本間的語(yǔ)義關(guān)聯(lián),獲得較高的平均精確率,但平均召回率提高并不明顯.事實(shí)上,一個(gè)話題包含多種類別的視頻,可能由完全不同或部分不同的場(chǎng)景組成,通過(guò)嵌入實(shí)體類別劃分視頻只能將內(nèi)容相似的場(chǎng)景組合在一起,更多不同場(chǎng)景的視頻將會(huì)丟失.另外基于規(guī)則的主題優(yōu)化方法,也很難將所有的視頻都挖掘形成話題.
SMMTM 方法結(jié)合短文本與圖像信息,通過(guò)視覺(jué)相似性,增強(qiáng)文本間的語(yǔ)義關(guān)聯(lián),但是對(duì)視覺(jué)特征的簡(jiǎn)單處理,并沒(méi)有解決視覺(jué)相似性檢測(cè)不精確問(wèn)題,因此模型的平均精確率不高.這說(shuō)明SMMTM 雖然可以增強(qiáng)文本間的語(yǔ)義關(guān)聯(lián),但是不可避免地引入噪聲.
此外,通過(guò)分析數(shù)據(jù)我們得出2 個(gè)結(jié)論:
1)文本比視覺(jué)信息在多個(gè)模型中表現(xiàn)得更好,這說(shuō)明文本特征比視覺(jué)特征更重要.通過(guò)文本與視覺(jué)信息在LDA,BTM,Doc2vec,BiLSTM_Attn 中的結(jié)果可以發(fā)現(xiàn),將視覺(jué)特征轉(zhuǎn)化為文本信息后,在一定程度上提升了平均召回率,但平均精確率受到了較大影響,導(dǎo)致平均F1 值降低.因?yàn)橐曨l理解將視覺(jué)信息翻譯成自然語(yǔ)言的過(guò)程中丟失了視覺(jué)特征的特異性.例如:在科比墜機(jī)的話題下,會(huì)出現(xiàn)科比打籃球的場(chǎng)景,在里約奧運(yùn)會(huì)這個(gè)話題下同樣會(huì)出現(xiàn)打籃球的場(chǎng)景.但通過(guò)視頻理解它們會(huì)被翻譯為相同的描述:a group of men playing basketball,相似但不相關(guān)視覺(jué)信息被翻譯成相同的語(yǔ)言描述,且在后續(xù)的處理中它們被認(rèn)為是完全相同的特征,導(dǎo)致純視覺(jué)信息檢測(cè)的平均精確率較低.相反,視覺(jué)信息檢測(cè)的平均召回率高于文本檢測(cè),一方面是因?yàn)槲谋据^為稀疏,所含的有效信息少、噪聲多,使得文本檢測(cè)的平均召回率低,另一方面OCR 從視頻中獲取的字幕信息與視頻內(nèi)容高度相關(guān),很容易與視頻理解得到的語(yǔ)義信息產(chǎn)生聯(lián)系,從而將更多相關(guān)的數(shù)據(jù)聚集到一起,使得視覺(jué)信息檢測(cè)的平均召回率高于文本檢測(cè).
2)視覺(jué)特征與文本特征的直接合并效果比單一文本更差,這表明實(shí)現(xiàn)視覺(jué)信息與文本信息的互補(bǔ),需要找到適合的融合方法.以BiLSTM_Attn 模型為例,文本與視覺(jué)信息的直接合并相比于純文本,平均精確率下降15%,平均召回率下降4%,平均F1 值下降8%.這是因?yàn)橐曨l特征經(jīng)由視頻理解會(huì)引入部分的無(wú)意義詞匯,簡(jiǎn)單地合并造成了文本信息的泛化、文本間的語(yǔ)義關(guān)聯(lián)強(qiáng)度降低,導(dǎo)致模型檢測(cè)效果較差.提出的方法在3 種評(píng)價(jià)指標(biāo)上都獲得了最優(yōu)的實(shí)驗(yàn)性能,相比于單一文本或視覺(jué)的最優(yōu)值,本文方法的平均精確率提升約5%,平均召回率提升約10%,平均F1 值提升約15%.因?yàn)橥ㄟ^(guò)雙層注意力,區(qū)分了不同單詞和句子的重要性,極大地降低噪聲的干擾.此外,將文本和視覺(jué)語(yǔ)義融合到同一個(gè)混合語(yǔ)義圖中,保證文本和視覺(jué)語(yǔ)義優(yōu)勢(shì)互補(bǔ),避免相互干擾,使得模型的平均精確率和平均召回率都有較大的提高.
此外,通過(guò)消融實(shí)驗(yàn)驗(yàn)證本文所提出方法的有效性.如表3 所示,文本、視覺(jué)分別表示僅利用文本、視覺(jué)數(shù)據(jù)構(gòu)建語(yǔ)義圖,文本+視覺(jué)表示文本與視覺(jué)信息融合構(gòu)建語(yǔ)義圖,文本+視覺(jué)+時(shí)間表示嵌入時(shí)間的文本和視覺(jué)語(yǔ)義圖融合.
Table 3 Ablation Experiment表3 消融實(shí)驗(yàn)
通過(guò)對(duì)比實(shí)驗(yàn)數(shù)據(jù)可以得出 2 個(gè)結(jié)論:
相比單一文本或視覺(jué),跨媒體融合的方式在話題檢測(cè)效果上有較大的提升.雖然文本+視覺(jué)相比于單一視覺(jué)信息,平均精確率略有降低(降低1%),但平均召回率有較大的提高(提高12%),平均F1 值提高7%.這是由于視覺(jué)特征會(huì)受到光照、編輯、拍攝角度等的影響,導(dǎo)致同一場(chǎng)景下的視覺(jué)特征可能完全不同,因此單一視覺(jué)信息具有精確率高、召回率低的特點(diǎn).融合文本信息后,文本語(yǔ)義相似的視頻也會(huì)被納入同一話題,這個(gè)過(guò)程中帶入部分噪聲數(shù)據(jù),導(dǎo)致平均精確率略有降低,但同時(shí)平均召回率有較大的提升.所以我們?cè)诨旌险Z(yǔ)義圖中嵌入時(shí)間特征,通過(guò)時(shí)間相似性,從時(shí)間維度給文本和視覺(jué)語(yǔ)義關(guān)聯(lián)增加權(quán)重,使得語(yǔ)義上難以區(qū)分的數(shù)據(jù)可以通過(guò)時(shí)間特征被輕松區(qū)分,很好地解決了這一問(wèn)題.
嵌入時(shí)間特征后,本文模型的平均精確率提升3%,平均召回率提升11%,平均F1 值提升8%,表明在混合語(yǔ)義圖中嵌入時(shí)間特征能增強(qiáng)混合語(yǔ)義圖的區(qū)分能力.這是因?yàn)闊狳c(diǎn)話題的爆發(fā)都具有很強(qiáng)的時(shí)間聚集性,所以時(shí)間特征對(duì)于不同的熱點(diǎn)話題具有很強(qiáng)的區(qū)分能力.通過(guò)時(shí)間衰減函數(shù)將時(shí)間分布特征嵌入到混合語(yǔ)義圖中,增強(qiáng)相同時(shí)間跨度內(nèi)文本與視覺(jué)語(yǔ)義間的連接強(qiáng)度,從而避免具有相似文本和視覺(jué)特征的噪聲干擾.因此在本文模型下,文本和視覺(jué)難以區(qū)分的數(shù)據(jù)可通過(guò)時(shí)間分布特征輕松區(qū)分.此外,這種時(shí)間系數(shù)的軟量化在一定程度上保證話題在時(shí)間上的連續(xù)性,防止由于時(shí)間線硬分割而導(dǎo)致的同一話題被錯(cuò)誤分割.
為了進(jìn)一步證明時(shí)間特征可以有效增強(qiáng)話題檢測(cè)效果,我們統(tǒng)計(jì)了短期爆發(fā)和周期型爆發(fā)話題的數(shù)據(jù)分布情況.如圖5 所示,對(duì)于“科比墜機(jī)”這一話題,網(wǎng)絡(luò)視頻在短期內(nèi)集中爆發(fā),文本和視覺(jué)特征具有很強(qiáng)的時(shí)間相似性.通過(guò)時(shí)間戳的嵌入,可以在時(shí)間維度建立跨媒體數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián),增強(qiáng)密集子圖中結(jié)點(diǎn)的連接強(qiáng)度,所以模型對(duì)于短期爆發(fā)的熱點(diǎn)話題具有很強(qiáng)的檢測(cè)能力.對(duì)于“新冠疫情”這一話題,在不同時(shí)段內(nèi)形成多個(gè)密集子圖,導(dǎo)致熱點(diǎn)話題被分割成多個(gè)密集子圖.但是,同一話題下密集子圖的語(yǔ)義相似性遠(yuǎn)高于不同話題下的密集子圖.因此,通過(guò)計(jì)算密集子圖間的平均歐氏距離(Euclidean distance)能有效實(shí)現(xiàn)密集子圖的合并,得到完整的熱點(diǎn)話題.
Fig.5 Time distribution characteristics of topics圖5 話題的時(shí)間分布特征
表4 展示了從10 個(gè)話題中挖掘出的高頻話題詞.以話題8 為例,我們不僅挖掘出了Kobe,death,NBA等文本中出現(xiàn)的高頻詞,還挖掘出playing,running,basketball 等低頻詞.視覺(jué)特征向文本信息轉(zhuǎn)換的過(guò)程中生成了大量新詞,增加了playing,running,basketball這類低頻詞的出現(xiàn)頻率,豐富了文本語(yǔ)義空間.此外,視頻理解生成的basketball,player 與標(biāo)題和字幕中的NBA,playing 高度相關(guān),增強(qiáng)了跨媒體數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián)強(qiáng)度,使得熱點(diǎn)話題更容易形成密集子圖,從而被準(zhǔn)確地檢測(cè).
表5 展示了3 個(gè)具體的例子,以表明本文提出方法的有效性.例1 標(biāo)題中并沒(méi)有出現(xiàn)與“科比墜機(jī)”相關(guān)的單詞,導(dǎo)致語(yǔ)義關(guān)聯(lián)缺失,基線方法僅通過(guò)標(biāo)題無(wú)法準(zhǔn)確劃分.而通過(guò)視頻理解和字幕,從視覺(jué)語(yǔ)義中挖掘出Kobe,bryant,crash,accident 等詞,建立起該視頻結(jié)點(diǎn)與“科比墜機(jī)”話題的聯(lián)系,這有效提高模型的召回率;例2 標(biāo)題中出現(xiàn)“2020 presidential victory”和“Brexit”,極易被錯(cuò)分為“2020 美國(guó)大選”.而通過(guò)融合視覺(jué)語(yǔ)義以及時(shí)間特征,增強(qiáng)了視覺(jué)語(yǔ)義London 與Brexit 的語(yǔ)義關(guān)聯(lián),這使得該結(jié)點(diǎn)在聚類過(guò)程中被正確劃分.同樣地,例3 中語(yǔ)義融合時(shí),受文本噪聲financial markets 的影響,該結(jié)點(diǎn)極易與話題“全球金融危機(jī)”混淆,而融合方法從時(shí)間維度對(duì)該結(jié)點(diǎn)進(jìn)行相似度加權(quán),因?yàn)榇艘曨l上傳時(shí)間處于新冠疫情大爆發(fā)期間,并且視覺(jué)語(yǔ)義masks 與新冠疫情密切相關(guān),這增強(qiáng)了該視頻結(jié)點(diǎn)與新冠疫情的語(yǔ)義關(guān)聯(lián)強(qiáng)度,從而使得該視頻被正確劃分,因此模型具有較高的精確率.
本文提出一個(gè)新的跨媒體語(yǔ)義關(guān)聯(lián)增強(qiáng)方法,解決文本特征稀疏導(dǎo)致的同一話題下文本語(yǔ)義特征差異大且關(guān)聯(lián)強(qiáng)度弱的問(wèn)題.首先,構(gòu)造一個(gè)雙層注意力模型,通過(guò)單詞級(jí)注意力和句子級(jí)注意力捕捉文本核心語(yǔ)義特征;然后,通過(guò)視頻理解和場(chǎng)景文字識(shí)別,生成與視頻內(nèi)容高度相關(guān)的文本描述信息,豐富文本語(yǔ)義空間;最后,將文本語(yǔ)義和視覺(jué)語(yǔ)義通過(guò)時(shí)間衰減函數(shù),加權(quán)融合形成混合語(yǔ)義圖,增強(qiáng)跨媒體語(yǔ)義關(guān)聯(lián),使得話題的分割更為準(zhǔn)確.實(shí)驗(yàn)結(jié)果表明,本文提出的方法能有效提高網(wǎng)絡(luò)視頻熱點(diǎn)話題檢測(cè)效果.
作者貢獻(xiàn)聲明:張承德提出論文思路,并指導(dǎo)論文撰寫(xiě)和修改;劉雨宣負(fù)責(zé)方法設(shè)計(jì),完成實(shí)驗(yàn)并撰寫(xiě)論文;肖霞對(duì)實(shí)驗(yàn)設(shè)計(jì)和論文撰寫(xiě)提出指導(dǎo)意見(jiàn);梅凱為實(shí)驗(yàn)數(shù)據(jù)提供支持,并對(duì)數(shù)據(jù)進(jìn)行處理.