国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

社交網(wǎng)絡(luò)輿情多模態(tài)知識(shí)圖譜構(gòu)建框架研究*

2024-01-06 08:48:42
情報(bào)雜志 2024年1期
關(guān)鍵詞:輿情圖譜實(shí)體

何 巍

(中國人民警察大學(xué) 廊坊 065000)

0 引 言

隨著移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,社交媒體平臺(tái)作為橋接物理和虛擬世界的信息通信工具,逐漸成為網(wǎng)民表達(dá)訴求、觀點(diǎn)和情緒的渠道之一[1],例如微博、微信、抖音、小紅書等。這些平臺(tái)提供了豐富的多媒體展示空間,網(wǎng)民不再僅僅局限于采用單一模態(tài)的文本信息,而是綜合使用文本、圖像、視頻等多種模態(tài)信息[2]。各種不同模態(tài)數(shù)據(jù)之間相互呼應(yīng)和補(bǔ)充,極大地豐富了人們的感官和認(rèn)知。在這種背景下,僅以文本數(shù)據(jù)作為知識(shí)來源的傳統(tǒng)知識(shí)圖譜將不能全面客觀地反映現(xiàn)實(shí)世界的真實(shí)狀態(tài),需要各種不同模態(tài)數(shù)據(jù)之間進(jìn)行語義上的補(bǔ)充[3]。

多模態(tài)知識(shí)圖譜(Multi-modal Knowledge Graph, MMKG)可以將不同模態(tài)的數(shù)據(jù)(如文本、圖像、視頻等)融合在一起,構(gòu)建跨模態(tài)的實(shí)體以及語義關(guān)系, 豐富只包含文本數(shù)據(jù)的傳統(tǒng)知識(shí)圖譜[4,5]。但是由于不同模態(tài)數(shù)據(jù)之間存在語義鴻溝,而且數(shù)據(jù)結(jié)構(gòu)差異性較大,數(shù)據(jù)之間不能直接融合。所以,如何利用豐富的多模態(tài)數(shù)據(jù)構(gòu)建社交網(wǎng)絡(luò)輿情多模態(tài)知識(shí)圖譜成為一個(gè)關(guān)鍵且具有挑戰(zhàn)性的問題。

1 相關(guān)研究

由于缺乏有效的提取技術(shù),早期的知識(shí)圖譜主要是基于文本數(shù)據(jù)構(gòu)建的,例如維基百科。隨著計(jì)算機(jī)視覺和多模態(tài)學(xué)習(xí)研究的深入[2],提取視覺數(shù)據(jù)成為可能。視覺數(shù)據(jù)能夠?yàn)槎嗄B(tài)知識(shí)圖譜提供更加豐富的實(shí)體信息,幫助人們更好地理解實(shí)體的含義和特征,以及不同實(shí)體之間的關(guān)聯(lián)。

ImageNet等數(shù)據(jù)集的出現(xiàn)為構(gòu)建通用多模態(tài)知識(shí)圖譜提供了基礎(chǔ)。然而,由于圖片搜索的準(zhǔn)確性較低,有學(xué)者提出對(duì)圖片增加文本標(biāo)注,并進(jìn)行知識(shí)庫存儲(chǔ)的方法,以此來提高圖片搜索的質(zhì)量[5]。早期的多模態(tài)知識(shí)圖譜主要是基于這種方式進(jìn)行構(gòu)建的。

根據(jù)知識(shí)圖譜構(gòu)建的目的和應(yīng)用領(lǐng)域不同,一般將知識(shí)圖譜分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜兩大類[6]。下面分別介紹通用多模態(tài)知識(shí)圖譜和領(lǐng)域多模態(tài)知識(shí)圖譜的研究現(xiàn)狀。

1.1 通用多模態(tài)知識(shí)圖譜

表1所示是現(xiàn)有部分通用多模態(tài)知識(shí)圖譜,這些知識(shí)圖譜主要采用文本和圖像模態(tài)數(shù)據(jù)構(gòu)建。早期的Wikidata[7]主要是以嵌入式鏈接的形式提供多媒體文件,并沒有提取多媒體文件本身的視覺特征。IMGpedia[8]開始嘗試對(duì)視覺內(nèi)容進(jìn)行描述,但圖片之間的關(guān)系仍然較為單一,沒有進(jìn)行深入的挖掘。MMKG[9]對(duì)Freebase15k、YAGO15k和DB15k三個(gè)知識(shí)圖譜進(jìn)行了實(shí)體對(duì)齊,但規(guī)模較小,缺乏對(duì)圖像多樣性的考慮。Richpedia是國內(nèi)Wang等人[10]提出的代表性工作,利用圖像的文字描述提取圖像中的實(shí)體,同時(shí)增加了圖像實(shí)體之間的語義關(guān)系。

表1 現(xiàn)有部分通用多模態(tài)知識(shí)圖譜

1.2 領(lǐng)域多模態(tài)知識(shí)圖譜

隨著通用多模態(tài)知識(shí)圖譜的發(fā)展, 越來越多的領(lǐng)域?qū)<议_始嘗試將多模態(tài)技術(shù)應(yīng)用于領(lǐng)域知識(shí)圖譜中。李直旭、茶思月等構(gòu)建了多模態(tài)教學(xué)知識(shí)圖譜[6,11],孟卓宇構(gòu)建了多模態(tài)生長發(fā)育知識(shí)圖譜[12],彭京徽等構(gòu)建了軍事裝備領(lǐng)域多模態(tài)知識(shí)圖譜[13],付國華等構(gòu)建了基于多模態(tài)矮小癥輔助診斷知識(shí)圖譜[14],郭利榮構(gòu)建了汽車行業(yè)多模態(tài)知識(shí)圖譜[15]。

然而,社交網(wǎng)絡(luò)輿情領(lǐng)域的知識(shí)圖譜絕大多數(shù)仍以單模態(tài)文本數(shù)據(jù)為主,例如于凱等構(gòu)建的突發(fā)事件網(wǎng)絡(luò)輿情事理圖譜[16]、夏立新等構(gòu)建的網(wǎng)絡(luò)輿情主題圖譜[17]、王晰巍等構(gòu)建的意見領(lǐng)袖主題圖譜[18]、安璐等構(gòu)建的跨平臺(tái)知識(shí)圖譜[19]等均是以文本數(shù)據(jù)作為數(shù)據(jù)來源,進(jìn)行實(shí)體和關(guān)系的抽取,從而對(duì)網(wǎng)絡(luò)輿情事件的主題、網(wǎng)絡(luò)結(jié)構(gòu)以及輿情事件的演化進(jìn)行分析。由此可見,現(xiàn)階段針對(duì)社交網(wǎng)絡(luò)輿情多模態(tài)知識(shí)圖譜的相關(guān)研究還比較缺乏。

基于此,本文首先介紹多模態(tài)知識(shí)圖譜涉及的相關(guān)概念,然后在分析社交網(wǎng)絡(luò)輿情不同模態(tài)數(shù)據(jù)間語義互補(bǔ)方式的基礎(chǔ)上,探討多模態(tài)數(shù)據(jù)的融合方式和構(gòu)建框架,并進(jìn)一步分析多模態(tài)知識(shí)圖譜構(gòu)建過程中存在的困難與挑戰(zhàn),為多模態(tài)知識(shí)圖譜在社交網(wǎng)絡(luò)輿情領(lǐng)域的相關(guān)研究和應(yīng)用提供參考。

2 相關(guān)概念

在多模態(tài)知識(shí)圖譜的構(gòu)建過程中,涉及多模態(tài)數(shù)據(jù)、多源數(shù)據(jù)、異構(gòu)數(shù)據(jù)和多模態(tài)知識(shí)等多個(gè)概念,概念的內(nèi)涵和外延決定了它們之間具有不同的關(guān)聯(lián)關(guān)系。

2.1 多模態(tài)數(shù)據(jù)

多模態(tài)是指使用不同的輸入和輸出來進(jìn)行交互和傳達(dá)信息的方式,通常包含文本、圖像、視頻、音頻等不同的數(shù)據(jù)形式,用以提高用戶的交互體驗(yàn)和信息傳達(dá)的效率及準(zhǔn)確性。由于社交網(wǎng)絡(luò)輿情領(lǐng)域的數(shù)據(jù)模態(tài)主要以文本、圖像、視頻為主,所以本文主要討論這三種數(shù)據(jù)模態(tài)。

2.2 多源數(shù)據(jù)

多源數(shù)據(jù)是指數(shù)據(jù)的來源不同,例如有的數(shù)據(jù)來源于微博,有的數(shù)據(jù)來源于抖音。所以多源數(shù)據(jù)和多模態(tài)數(shù)據(jù)之間并不存在直接的關(guān)聯(lián)。通常情況下,用于構(gòu)建多模態(tài)知識(shí)圖譜的多模態(tài)數(shù)據(jù)可以從單一數(shù)據(jù)來源中抽取,也可以從多源數(shù)據(jù)中抽取。不同來源的多模態(tài)數(shù)據(jù),語義的互補(bǔ)方式可能存在差異,在進(jìn)行多模態(tài)數(shù)據(jù)表征學(xué)習(xí)時(shí)應(yīng)該進(jìn)行綜合考慮。

2.3 異構(gòu)數(shù)據(jù)

異構(gòu)數(shù)據(jù)是指數(shù)據(jù)的結(jié)構(gòu)和存儲(chǔ)方式不同,例如表格數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù),XML和HTML屬于半結(jié)構(gòu)化數(shù)據(jù),圖像和視頻屬于非結(jié)構(gòu)化數(shù)據(jù)。對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理之后,需要分別存儲(chǔ)在關(guān)系型和非關(guān)系型數(shù)據(jù)庫之中。由于多模態(tài)數(shù)據(jù)含有文本、圖像、視頻等多種不同的表達(dá)形式,所以多模態(tài)數(shù)據(jù)屬于異構(gòu)數(shù)據(jù)。

2.4 多模態(tài)知識(shí)

知識(shí)來源于人們對(duì)客觀世界的認(rèn)識(shí)和理解。在傳統(tǒng)的知識(shí)圖譜中,文本模態(tài)知識(shí)通常被表示為RDF三元組的形式,例如x1(h,r,t),其中x1代表某一種模態(tài),h代表頭實(shí)體,t代表尾實(shí)體,r代表頭實(shí)體和尾實(shí)體之間的關(guān)系。

知識(shí)可以來源于單一的文本實(shí)體與關(guān)系,也可以來源于多個(gè)文本實(shí)體與關(guān)系的組合。從多個(gè)三元組中獲取的文本模態(tài)知識(shí)k1可以表示為f(k1)=x1(h1,r1,t1)+x1(h2,?,t2)+x1(h3,?,?),其中?代表不完整RDF三元組中的未知元素[20],即文本模態(tài)知識(shí)k1可以包含完整和不完整的三元組組合。以此類推,從多個(gè)RDF三元組中獲取的圖像模態(tài)知識(shí)k2可以表示為f(k2)=x2(h1,r1,t1)+x2(h2,?,t2)+x2(h3,?,?),音頻模態(tài)知識(shí)k3可以表示為f(k3)=x3(h1,r1,t1)+x3(h2,?,t2)+x3(h3,?,?)。由于視頻一般可以分解為圖像和音頻,所以視頻模態(tài)知識(shí)可以認(rèn)為是圖像模態(tài)知識(shí)和音頻模態(tài)知識(shí)的組合。

多模態(tài)知識(shí)圖譜中的數(shù)據(jù)屬于異構(gòu)數(shù)據(jù),知識(shí)的復(fù)雜度要高于單純的文本知識(shí)。多模態(tài)知識(shí)需要從不同模態(tài)數(shù)據(jù)中抽取語義知識(shí),然后根據(jù)其一致性或互補(bǔ)性進(jìn)行特征變換和融合得到。所以,多模態(tài)知識(shí)k4可以表示為f(k4)=x1(h1,r1,t1)+x1(h2,?,t2)+x1(h3,?,?)+x2(h4,r4,t4)+x2(h5,?,t5)+x2(h6,?,?)+x3(h7,r7,t7)+x3(h8,?,t8)+x3(h9,?,?),其中x1代表文本模態(tài),x2代表圖像模態(tài),x3代表音頻模態(tài)。

3 多模態(tài)語義互補(bǔ)

在網(wǎng)絡(luò)輿情事件中,社交媒體用戶通過發(fā)表跟輿情事件相關(guān)的博文或評(píng)論來表達(dá)自身的觀點(diǎn)、情感和訴求,發(fā)表的內(nèi)容可能包含文本、圖像、視頻等多種模態(tài)的組合。理解不同模態(tài)數(shù)據(jù)間的語義互補(bǔ)方式,有助于進(jìn)行網(wǎng)絡(luò)輿情相關(guān)事件檢測和情感分析,挖掘多模態(tài)數(shù)據(jù)中的隱含信息。

3.1 事件檢測

僅利用文本信息進(jìn)行事件檢測的方式已經(jīng)無法適應(yīng)當(dāng)下網(wǎng)絡(luò)輿情事件表達(dá)的多樣性。例如,在2021年7月20日發(fā)生的“河南遭遇特大暴雨”事件中,根據(jù)“知微事見”平臺(tái)的統(tǒng)計(jì),網(wǎng)絡(luò)輿論峰值傳播速度達(dá)到了10577條/小時(shí),引起了社會(huì)各界的極大關(guān)注。其中一條微博信息如圖1所示,包含文本和視頻兩種數(shù)據(jù)模態(tài)。

圖1中的文本包含事件的細(xì)節(jié)內(nèi)容,例如,暴雨的發(fā)生時(shí)段為7月20日,地點(diǎn)為河南鄭州。從文本中,我們僅能獲悉暴雨導(dǎo)致“市區(qū)積水嚴(yán)重,地鐵關(guān)閉,鐵路停運(yùn)”,但頭腦中并不能產(chǎn)生直觀的場景,也很難意識(shí)到這場暴雨所帶來的災(zāi)難性后果。然而,文本下面的視頻卻提供了更多關(guān)于暴雨的真實(shí)場景和更加豐富的信息。

圖2中是視頻關(guān)鍵幀截圖,這些圖像對(duì)人的視覺產(chǎn)生了強(qiáng)烈的沖擊,不僅印證了文本中的內(nèi)容,并且補(bǔ)充了文本中缺失的信息。從視頻中可以看到,區(qū)別于普通的暴雨,此次暴雨導(dǎo)致了嚴(yán)重的城市內(nèi)澇,很多室外人員身處危險(xiǎn)之中,急需救援和物資幫助。

所以,通過文本、圖像和視頻在內(nèi)容上的相互關(guān)聯(lián)和呼應(yīng),快速捕捉到輿論信息所反應(yīng)的現(xiàn)實(shí)世界的真實(shí)狀態(tài),能夠幫助我們更好地進(jìn)行網(wǎng)絡(luò)輿情事件的檢測,從而可以及時(shí)做出相應(yīng)地處理和響應(yīng)。

3.2 情感分析

在網(wǎng)絡(luò)輿情的分析中,社交媒體用戶的觀點(diǎn)和情感,是實(shí)時(shí)態(tài)勢最直觀的反映。隨著輿論信息的短文本化和多模態(tài)化,基于文本的語義挖掘在用戶觀點(diǎn)和情緒抽取方面的表現(xiàn)面臨越來越大的挑戰(zhàn)。

圖3所示是在“河南遭遇特大暴雨”事件中,用戶發(fā)布的一條短文本、多模態(tài)的微博內(nèi)容。文本信息很短,只有一句簡單的描述。基于常規(guī)的文本挖掘技術(shù),很難抽取其中用戶的觀點(diǎn)和情感。文本下方的視頻則提供了更加豐富的內(nèi)容,通過對(duì)視頻關(guān)鍵幀信息的分析,可以獲悉本條微博內(nèi)容表達(dá)了對(duì)火箭軍及時(shí)趕到,并轉(zhuǎn)移福利院兒童的感激之情,并且用戶對(duì)戰(zhàn)勝災(zāi)害充滿信心。

圖3 短文本、多模態(tài)微博內(nèi)容示例

所以,從不同的角度和層次抽取社交媒體多模態(tài)數(shù)據(jù)中的信息,然后進(jìn)行特征變換和語義上的融合,能夠獲得比單一模態(tài)更加豐富和準(zhǔn)確的信息,從而為社會(huì)治理提供決策支持。

4 多模態(tài)知識(shí)融合

構(gòu)建多模態(tài)知識(shí)圖譜的一個(gè)關(guān)鍵問題是除文本數(shù)據(jù)外,其它模態(tài)的數(shù)據(jù)以何種形式在知識(shí)圖譜中進(jìn)行表示[2],即存在單模態(tài)特征表示和多模態(tài)特征融合的問題。分析常見社交媒體平臺(tái)中網(wǎng)絡(luò)輿情信息的特點(diǎn),總結(jié)出常見的信息模態(tài)組合方式通常為文本-圖像、文本-視頻、文本-圖像-視頻。下面以突發(fā)自然災(zāi)害事件“河南遭遇特大暴雨”為例,選取社交媒體平臺(tái)中的部分多模態(tài)數(shù)據(jù)進(jìn)行融合方式的說明。

4.1 實(shí)體屬性關(guān)聯(lián)

將圖像、視頻等多模態(tài)數(shù)據(jù)的URL鏈接以實(shí)體屬性的方式嵌入到傳統(tǒng)知識(shí)圖譜中,是最直接的一種多模態(tài)數(shù)據(jù)融合方式[21],如圖4所示。但是在這種情況下,圖像和視頻中的內(nèi)容并沒有被提取出來,沒有被作為獨(dú)立的實(shí)體,只是以鏈接的形式直接被添加到知識(shí)圖譜中。

圖4 實(shí)體屬性關(guān)聯(lián)多模態(tài)知識(shí)圖譜示例

4.2 圖像(視頻)文字描述

圖像(視頻)文字描述是指向傳統(tǒng)的知識(shí)圖譜中添加圖像(視頻)數(shù)據(jù)的同時(shí),還要添加描述該圖像(視頻)的文字描述[22]。在圖5中,圖像和視頻以實(shí)體的形式被添加到傳統(tǒng)知識(shí)圖譜中,同時(shí)增加了對(duì)圖像和視頻內(nèi)容的文字描述,該描述同樣以實(shí)體的形式被添加到傳統(tǒng)知識(shí)圖譜中。這種方式是以模態(tài)轉(zhuǎn)換的形式將圖像(視頻)內(nèi)容轉(zhuǎn)換成文本內(nèi)容,間接提取圖像(視頻)中的信息。但是這種方式不能完全獲取圖像(視頻)中的相關(guān)屬性信息。

圖5 圖像(視頻)文字描述多模態(tài)知識(shí)圖譜示例

4.3 圖像(視頻)屬性

圖像(視頻)屬性是指向圖5所示的多模態(tài)知識(shí)圖譜中繼續(xù)添加從圖像(視頻)中提取出來的屬性信息[23],如圖6所示。

圖6 圖像(視頻)屬性多模態(tài)知識(shí)圖譜示例

例如從圖6左側(cè)第一張圖像中提取出“戶外人員”和“被困”,將其分別以“主體”和“事件”的關(guān)系鏈接到相對(duì)應(yīng)的圖像上;從圖6中間的視頻中提取出“救援人員”和“營救”,將其分別以“主體”和“事件”的關(guān)系鏈接到相對(duì)應(yīng)的視頻上。這樣可以增加知識(shí)圖譜中實(shí)體和關(guān)系的數(shù)量及復(fù)雜度,有利于在下游應(yīng)用中進(jìn)行知識(shí)搜索和推理。但是,這種方式的數(shù)據(jù)融合,圖像(視頻)與圖像(視頻)之間仍然缺乏直接的關(guān)聯(lián)。

4.4 圖像(視頻)關(guān)聯(lián)

圖像(視頻)關(guān)聯(lián)是指直接建立起多模態(tài)知識(shí)圖譜中不同圖像(視頻)間的關(guān)聯(lián)。在圖7中,將中間視頻與左右兩邊圖像的關(guān)系設(shè)定為“救援”。這種融合方式增加了圖像(視頻)之間的關(guān)聯(lián)關(guān)系,提高了不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)度,這樣不同模態(tài)的數(shù)據(jù)之間都能夠直接進(jìn)行知識(shí)搜索和推理,提高了圖譜搜索和推理的靈活性和全面性。

圖7 圖像(視頻)關(guān)聯(lián)多模態(tài)知識(shí)圖譜示例

5 圖譜構(gòu)建框架

根據(jù)社交媒體輿情數(shù)據(jù)分析和圖譜構(gòu)建的需求[20],可以將多模態(tài)知識(shí)圖譜的構(gòu)建步驟分為數(shù)據(jù)獲取、數(shù)據(jù)處理、知識(shí)抽取、知識(shí)融合和圖譜應(yīng)用五個(gè)部分,如圖8所示。

圖8 社交媒體輿情多模態(tài)知識(shí)圖譜的構(gòu)建框架

5.1 數(shù)據(jù)獲取

社交媒體平臺(tái)中通常包含豐富的多模態(tài)數(shù)據(jù),針對(duì)特定的需求,可以采集單一來源數(shù)據(jù)或者多源數(shù)據(jù)。常見的社交媒體多模態(tài)數(shù)據(jù)類型有文本、圖像和視頻。由于不同數(shù)據(jù)模態(tài)的處理技術(shù)存在差異性,這里將視頻中的音頻提取出來單獨(dú)作為一種數(shù)據(jù)模態(tài)進(jìn)行處理。

采集到的原始數(shù)據(jù)可能存在空缺值、無關(guān)值、重復(fù)值等問題,需要進(jìn)行數(shù)據(jù)清洗。數(shù)據(jù)清洗包括去除空缺值、去除無關(guān)值、刪除重復(fù)值等步驟。然后,根據(jù)數(shù)據(jù)模態(tài)的差異,將數(shù)據(jù)進(jìn)行分類存儲(chǔ)。例如可以將結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中,將半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在NoSQL數(shù)據(jù)庫中,將非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)在對(duì)象存儲(chǔ)中。存儲(chǔ)在數(shù)據(jù)庫中的數(shù)據(jù)還需要進(jìn)行質(zhì)量檢測,以確保數(shù)據(jù)的準(zhǔn)確性、完整性和一致性。

5.2 數(shù)據(jù)處理

不同數(shù)據(jù)模態(tài)之間存在著巨大的差異,為了后續(xù)更加全面的進(jìn)行實(shí)體和關(guān)系抽取,需要將圖像、視頻和音頻數(shù)據(jù)進(jìn)行多模態(tài)的轉(zhuǎn)換。

a.圖像數(shù)據(jù)的模態(tài)轉(zhuǎn)換。圖像數(shù)據(jù)的模態(tài)轉(zhuǎn)換是指根據(jù)圖像生成描述文本和場景圖,從而幫助計(jì)算機(jī)理解圖像的內(nèi)容和語義。

基于圖像的文本生成又稱為圖像描述生成,是指讓計(jì)算機(jī)根據(jù)圖像生成語法正確,且能夠描述圖像視覺內(nèi)容的自然語言,實(shí)現(xiàn)從圖像到文本的模態(tài)轉(zhuǎn)換。圖像描述生成的方法主要分為兩類:基于模板的方法和基于深度學(xué)習(xí)的方法?;谀0宓姆椒ㄊ褂妙A(yù)定義的句子模板和規(guī)則,根據(jù)圖像的內(nèi)容填充相應(yīng)的詞語和短語,生成描述文本。而基于深度學(xué)習(xí)的方法則使用深度神經(jīng)網(wǎng)絡(luò)模型[24],通過學(xué)習(xí)大量的圖像-文本對(duì),將圖像映射到一個(gè)語義空間,從而生成描述文本,而后進(jìn)行三元組信息提取。

場景圖是一種圖結(jié)構(gòu),由節(jié)點(diǎn)和邊組成,每個(gè)節(jié)點(diǎn)表示一個(gè)對(duì)象,每條邊表示兩個(gè)對(duì)象之間的關(guān)系,用于描述圖像中的對(duì)象、關(guān)系和屬性。場景圖的生成通?;谏疃葘W(xué)習(xí)算法進(jìn)行目標(biāo)檢測和圖像分割[25]。首先,通過目標(biāo)檢測算法識(shí)別圖像中的對(duì)象,并提取它們的位置和類別信息。然后,通過圖像分割算法對(duì)每個(gè)對(duì)象進(jìn)行像素級(jí)別的分割,得到對(duì)象的精確邊界。最后,根據(jù)對(duì)象之間的空間關(guān)系和語義關(guān)系,構(gòu)建場景圖的節(jié)點(diǎn)和邊。

b.視頻數(shù)據(jù)的模態(tài)轉(zhuǎn)換。視頻是包含時(shí)間序列信息的一系列圖像,視頻數(shù)據(jù)的模態(tài)轉(zhuǎn)換是指將視頻進(jìn)行序列信息處理和生成主題文本。

序列信息處理是指使用計(jì)算機(jī)視覺技術(shù)從視頻數(shù)據(jù)中提取出序列信息,例如視頻的幀序列、動(dòng)作序列、物體序列等[26]。通過提取序列信息,可以將視頻數(shù)據(jù)轉(zhuǎn)換為序列數(shù)據(jù),便于后續(xù)的處理和分析。

生成主題文本是指使用自然語言處理技術(shù)分析視頻的內(nèi)容和語義信息,從視頻數(shù)據(jù)中生成與主題相關(guān)的文本描述,例如圖像描述生成、視頻摘要生成等[27],而后進(jìn)行三元組信息提取。

c.音頻數(shù)據(jù)的模態(tài)轉(zhuǎn)化。音頻數(shù)據(jù)的模態(tài)轉(zhuǎn)換包括背景音處理和生成音頻文本。背景音處理包括噪聲消除、音頻增強(qiáng)和混響消除,從而使音頻中的有效聲音更清晰或更突出?;谡Z音識(shí)別技術(shù)可以生成音頻文本,然后和本文信息一起進(jìn)行三元組信息提取。

5.3 知識(shí)抽取

多模態(tài)知識(shí)圖譜構(gòu)建過程中的知識(shí)抽取是將不同模態(tài)的信息轉(zhuǎn)化為結(jié)構(gòu)化的知識(shí)表示,以便于在知識(shí)圖譜中進(jìn)行存儲(chǔ)和查詢。知識(shí)抽取的過程可以分為文本三元組的知識(shí)抽取、場景圖的知識(shí)抽取、序列信息的知識(shí)抽取和背景音的知識(shí)抽取。

文本三元組的知識(shí)抽取包括命名實(shí)體識(shí)別、實(shí)體消歧、文本關(guān)系抽取和事件抽取。命名實(shí)體識(shí)別是指從文本中識(shí)別出具有特定意義的實(shí)體,如人名、地名、組織機(jī)構(gòu)等。實(shí)體消歧是指將同義實(shí)體進(jìn)行合并,解決同一實(shí)體具有不同表述的問題。文本關(guān)系抽取是指從文本中提取出實(shí)體之間的關(guān)系,如"人物A是人物B的父親"。事件抽取是指從文本中抽取出事件及其相關(guān)實(shí)體和關(guān)系。

場景圖的知識(shí)抽取包括目標(biāo)檢測、特征圖像提取、圖像實(shí)體識(shí)別和視覺關(guān)系檢測。目標(biāo)檢測是指從圖像中檢測出具有特定意義的目標(biāo),如人、車、建筑等。特征圖像提取是指從圖像中提取出具有代表性的特征,以便于后續(xù)的實(shí)體識(shí)別和關(guān)系檢測。圖像實(shí)體識(shí)別是指從圖像中識(shí)別出具有特定意義的實(shí)體,如人物、物體等。視覺關(guān)系檢測是指從圖像中提取出實(shí)體之間的關(guān)系,如"人物A坐在椅子上"。

序列信息的知識(shí)抽取包括動(dòng)作檢測和時(shí)間范圍獲取。動(dòng)作檢測是指從序列信息中檢測出人物或物體的動(dòng)作,如"人物A跑步"。時(shí)間范圍獲取是指從序列信息中獲取事件發(fā)生的時(shí)間范圍,如"事件A發(fā)生的時(shí)間區(qū)間"。

背景音的知識(shí)抽取包括聲音分類和語音識(shí)別。聲音分類是指將背景音進(jìn)行分類,如環(huán)境聲、交通聲等。語音識(shí)別是指將語音轉(zhuǎn)化為文本表示,以便于后續(xù)的知識(shí)表示和關(guān)聯(lián)。

在多模態(tài)知識(shí)圖譜構(gòu)建過程中,從文本中抽取的命名實(shí)體和從場景圖中抽取的圖像實(shí)體需要進(jìn)行跨模態(tài)實(shí)體對(duì)齊,使它們?cè)谥R(shí)圖譜中表示為同一個(gè)實(shí)體,從而實(shí)現(xiàn)不同模態(tài)之間的知識(shí)共享和交互。通過跨模態(tài)實(shí)體對(duì)齊,可以使多模態(tài)知識(shí)圖譜中的知識(shí)聯(lián)系更加緊密,提高知識(shí)的完整性和一致性。

5.4 知識(shí)融合

多模態(tài)知識(shí)融合是將來自不同模態(tài)的知識(shí)進(jìn)行整合,以建立一個(gè)綜合的多模態(tài)知識(shí)圖譜。通過將不同模態(tài)中的實(shí)體進(jìn)行對(duì)齊,并根據(jù)預(yù)定義的關(guān)系建立不同模態(tài)知識(shí)之間的關(guān)聯(lián)關(guān)系,從而實(shí)現(xiàn)知識(shí)的融合,為下游應(yīng)用提供更全面和準(zhǔn)確的支撐。

5.5 圖譜應(yīng)用

基于融合后的多模態(tài)知識(shí),可以進(jìn)行跨模態(tài)的知識(shí)查找。同時(shí),基于已有的關(guān)聯(lián)關(guān)系,可以識(shí)別異常模式,從而對(duì)潛在風(fēng)險(xiǎn)進(jìn)行預(yù)警。這些都是進(jìn)行知識(shí)圖譜質(zhì)量評(píng)估的方式,從而提高多模態(tài)知識(shí)圖譜的質(zhì)量和可靠性。

最后,將通過質(zhì)量評(píng)估的多模態(tài)知識(shí)以圖結(jié)構(gòu)進(jìn)行存儲(chǔ)和部署。通過可視化前端,可以提高多模態(tài)知識(shí)圖譜和下游應(yīng)用之間的交互性,從而實(shí)現(xiàn)更高效的信息處理和應(yīng)用。

6 存在的困難與挑戰(zhàn)

知識(shí)圖譜是實(shí)現(xiàn)人工智能由感知智能向認(rèn)知智能轉(zhuǎn)變的基石。然而,隨著數(shù)據(jù)對(duì)象和交互方式的多樣化,新一代知識(shí)圖譜的構(gòu)建也面臨新的機(jī)遇與挑戰(zhàn)。

a.多模態(tài)語義理解。多模態(tài)語義理解是指將不同模態(tài)的數(shù)據(jù)進(jìn)行融合來獲取豐富、準(zhǔn)確的語義信息。但是,多模態(tài)數(shù)據(jù)之間存在異構(gòu)性。這些異構(gòu)數(shù)據(jù)具有不同的特征和表達(dá)方式,很難直接融合。在文本語義理解任務(wù)中,通常使用基于詞向量的方法來表示文本特征,但這種方法不能直接應(yīng)用于圖像和視頻等其它數(shù)據(jù)模態(tài)的特征提取,所以需要尋找能夠更好地在多模態(tài)數(shù)據(jù)之間進(jìn)行特征提取和融合的方式。此外,視覺檢測領(lǐng)域中的目標(biāo)檢測技術(shù)對(duì)圖像信息的識(shí)別仍然停留在感知層面[2],主要關(guān)注物體的位置和類別,而對(duì)于物體的細(xì)節(jié)和特征表示能力有限,很難實(shí)現(xiàn)細(xì)粒度、實(shí)例化的圖像識(shí)別,導(dǎo)致無法獲取深層的語義信息。所以,如何針對(duì)知識(shí)圖譜本身及其下游任務(wù),讓模型可以自適應(yīng)地提取有價(jià)值的特征,并進(jìn)行高效融合,是進(jìn)行多模態(tài)語義深層理解的關(guān)鍵。

b.多模態(tài)實(shí)體對(duì)齊。多模態(tài)實(shí)體對(duì)齊是指將不同數(shù)據(jù)模態(tài)中的同一實(shí)體進(jìn)行匹配和對(duì)齊。但是,由于不同模態(tài)數(shù)據(jù)之間存在著語義鴻溝,機(jī)器不能自動(dòng)識(shí)別跨模態(tài)數(shù)據(jù)間是否為同一實(shí)體?;谏疃葘W(xué)習(xí)的處理技術(shù)雖然可以對(duì)任務(wù)進(jìn)行輔助,但是依賴于大量的人工標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,訓(xùn)練過程對(duì)計(jì)算機(jī)的算力和存儲(chǔ)能力要求較高。所以,如何降低多模態(tài)預(yù)訓(xùn)練模型對(duì)人工標(biāo)注數(shù)據(jù)的依賴性,過濾噪音數(shù)據(jù),提高其在實(shí)體對(duì)齊任務(wù)中的表現(xiàn)是構(gòu)建多模態(tài)知識(shí)圖譜的另一個(gè)關(guān)鍵。

c.多模態(tài)知識(shí)表示?;诙嘣础悩?gòu)數(shù)據(jù)的多模態(tài)知識(shí)圖譜未來的發(fā)展方向是模態(tài)層次更全面、知識(shí)粒度更細(xì)、語義關(guān)聯(lián)更豐富。基于此,傳統(tǒng)的RDF數(shù)據(jù)模型將不能滿足知識(shí)的建模和表達(dá),亟需一種符合邏輯規(guī)則,涵蓋多種數(shù)據(jù)結(jié)構(gòu)的多模態(tài)知識(shí)表示方法,這是構(gòu)建多模態(tài)知識(shí)圖譜的第三個(gè)關(guān)鍵。

7 結(jié) 語

隨著互聯(lián)網(wǎng)和多媒體技術(shù)的發(fā)展,社交網(wǎng)絡(luò)輿情呈現(xiàn)出文本、圖像、視頻等多種模態(tài)數(shù)據(jù)共存的現(xiàn)象,不同模態(tài)數(shù)據(jù)之間相互呼應(yīng)和補(bǔ)充。所以,如何將不同模態(tài)的數(shù)據(jù)(如文本、圖像、視頻等)融合在一起,構(gòu)建跨模態(tài)的實(shí)體以及語義關(guān)系, 豐富只包含文本數(shù)據(jù)的傳統(tǒng)知識(shí)圖譜[5],是亟需解決的重要問題。

本文在分析通用和領(lǐng)域多模態(tài)知識(shí)圖譜研究現(xiàn)狀的基礎(chǔ)上,提出社交網(wǎng)絡(luò)輿情多模態(tài)知識(shí)圖譜構(gòu)建框架。在多模態(tài)知識(shí)圖譜的構(gòu)建過程中,多模態(tài)數(shù)據(jù)可以從單一數(shù)據(jù)來源中抽取,也可以從多源數(shù)據(jù)中抽取。多模態(tài)數(shù)據(jù)屬于異構(gòu)數(shù)據(jù),所以獲取多模態(tài)知識(shí)需要將異構(gòu)數(shù)據(jù)進(jìn)行特征變換和融合。多模態(tài)數(shù)據(jù)的融合方式包括實(shí)體屬性關(guān)聯(lián)、圖像(視頻)文字描述、圖像(視頻)屬性、圖像(視頻)關(guān)聯(lián)等?;诖?本文將社交媒體輿情多模態(tài)知識(shí)圖譜的構(gòu)建框架分為數(shù)據(jù)獲取、數(shù)據(jù)處理、知識(shí)抽取、知識(shí)融合和圖譜應(yīng)用五個(gè)部分,并進(jìn)一步討論了多模態(tài)知識(shí)圖譜構(gòu)建過程中多模態(tài)語義理解、多模態(tài)實(shí)體對(duì)齊、多模態(tài)知識(shí)表示等方面存在的問題和挑戰(zhàn)。

猜你喜歡
輿情圖譜實(shí)體
繪一張成長圖譜
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
中國外匯(2019年18期)2019-11-25 01:41:54
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
輿情
中國民政(2016年16期)2016-09-19 02:16:48
主動(dòng)對(duì)接你思維的知識(shí)圖譜
輿情
中國民政(2016年10期)2016-06-05 09:04:16
輿情
中國民政(2016年24期)2016-02-11 03:34:38
达日县| 永寿县| 长宁县| 乐东| 旬阳县| 曲麻莱县| 天峨县| 松溪县| 红河县| 扬中市| 博客| 安顺市| 龙泉市| 文昌市| 民丰县| 淅川县| 巴塘县| 车险| 海淀区| 汤原县| 马鞍山市| 莲花县| 玉山县| 新安县| 郧西县| 仙游县| 山西省| 平利县| 常德市| 鄂托克旗| 土默特左旗| 乾安县| 伊宁市| 莱西市| 繁峙县| 天等县| 万全县| 嘉善县| 福建省| 阜宁县| 普宁市|