黑富郁,王景中,趙林浩
(北方工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,北京 100144)
隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)已經(jīng)成為民眾不可或缺的生活必備品.根據(jù)第41 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2017年12月,我國網(wǎng)民規(guī)模達(dá)7.72 億,手機(jī)網(wǎng)民規(guī)模達(dá)7.53 億,網(wǎng)民使用手機(jī)上網(wǎng)人群的占比由2016年的95.1%提升至97.5%[1].人們在獲取多樣化信息的同時(shí),過多的信息也造成了人們注意力的分散,對輿情分析造成了極大的困難.因此對輿情信息進(jìn)行分類具有重要意義.一方面,可以按照類別統(tǒng)計(jì)和查詢各類事件信息,統(tǒng)計(jì)形成相關(guān)的簡報(bào).另一方面,由于同一事件在網(wǎng)絡(luò)上會有大量不同新聞報(bào)道,對輿情進(jìn)行分類可以快速查找定位相關(guān)的信息,從技術(shù)上為判斷不同來源的同一事件提供支持.
現(xiàn)在輿情分析主要是針對文本進(jìn)行分類[2,3],但是大數(shù)據(jù)[4]時(shí)代的到來使得網(wǎng)絡(luò)上的輿情數(shù)據(jù)越來越多且復(fù)雜(例如視頻、聲音、文本等),這些不同類型的數(shù)據(jù)包括圖片、視頻、語音等都承載了越來越多的信息和內(nèi)容.網(wǎng)絡(luò)輿情數(shù)據(jù)中包含的各種類型的信息,它們在內(nèi)容上和結(jié)構(gòu)上相互之間有著密切的相關(guān)性,只是通過網(wǎng)絡(luò)輿情數(shù)據(jù)中的某一類型的數(shù)據(jù)進(jìn)行分類,這種忽視了不同數(shù)據(jù)之間的關(guān)聯(lián)的傳統(tǒng)分類方法漸漸不適用于當(dāng)下的網(wǎng)絡(luò)輿情數(shù)據(jù)信息.
為了應(yīng)對這樣的情況,研究出更先進(jìn)的技術(shù)是組織和管理這些數(shù)據(jù)的重要依據(jù),在這些技術(shù)中優(yōu)秀的分類技術(shù)(例如文本分類、圖像分類等)是其它技術(shù)的基礎(chǔ),通過好的分類技術(shù)可以更好的管理這些信息.近幾年在數(shù)據(jù)處理技術(shù)方面的相關(guān)研究中,神經(jīng)網(wǎng)絡(luò)的發(fā)展勢頭尤其迅猛.在圖像處理方面,通過神經(jīng)網(wǎng)絡(luò)對圖像的處理已經(jīng)屢見不鮮,例如人臉識別、物體識別、場景檢測都已經(jīng)有了長遠(yuǎn)的發(fā)展.在圖像處理、語音處理等領(lǐng)域取得的巨大進(jìn)展的同時(shí),神經(jīng)網(wǎng)絡(luò)的焦點(diǎn)也開始匯集于自然語言處理方面的應(yīng)用.伴隨著相關(guān)技術(shù)的日漸成熟,為各類型數(shù)據(jù)的融合處理打下了良好的基礎(chǔ).其實(shí),國外早在19 世紀(jì)就已經(jīng)開始信息融合的相關(guān)工作,并且將信息融合技術(shù)列為20 世紀(jì)開發(fā)和研究的關(guān)鍵技術(shù)之一.然而我國展開對信息融合技術(shù)的研究時(shí)間較晚,主要局限于軍事相關(guān)的領(lǐng)域且發(fā)展緩慢.通過三十多年的研究,雖然現(xiàn)在信息融合方面的研究尚不成熟,但是信息融合技術(shù)已經(jīng)得到了非常廣泛的關(guān)注和應(yīng)用.
現(xiàn)在的信息融合技術(shù)從抽象的層次來分類,可以分為數(shù)據(jù)層級融合、特征層級融合和決策層級融合.本文主要從特征層級來考慮并實(shí)現(xiàn)對本文課題的研究.基于輿情數(shù)據(jù)的分布情況、現(xiàn)行的概念和技術(shù),本文提出一種結(jié)合了不同類型的數(shù)據(jù)來進(jìn)行綜合考慮的輿情分類方法.
自2012年Krizhevsky 等人在ILSVRC-2012 大賽中,利用深度卷積神經(jīng)網(wǎng)絡(luò)對ImageNet 數(shù)據(jù)集進(jìn)行分類,取得優(yōu)秀的結(jié)果并以此獲得冠軍[5].神經(jīng)網(wǎng)絡(luò)被學(xué)界和工業(yè)界越來越重視,神經(jīng)網(wǎng)絡(luò)得以被廣泛的應(yīng)用于各領(lǐng)域.2014年,Simonyan 等人[6]提出一種名為VGG16的卷積神經(jīng)網(wǎng)絡(luò),該神經(jīng)網(wǎng)絡(luò)模型在ILSVR2014 的比賽中獲得冠軍.Hochreiter 等人在RNN 的基礎(chǔ)上提出了長短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[7],LSTM 很好的解決了語義的長距離依賴問題.近年來,LSTM模型被成功地應(yīng)用于機(jī)器翻譯[8]及信息檢索[9]等方面.
Ngiam 等人提出了多模態(tài)深度學(xué)習(xí)模型,通過玻爾茲曼機(jī)(RBM)分別獨(dú)立地進(jìn)行訓(xùn)練以提取視頻和語音數(shù)據(jù)的特征,在特征層對二者特征進(jìn)行組合,對多模態(tài)數(shù)據(jù)進(jìn)行聯(lián)合表示.再通過多模態(tài)數(shù)據(jù)的聯(lián)合表示的特征去學(xué)習(xí)數(shù)據(jù)的高層語義特征[10].2012年,Srivastava 等人提出了一種新的與Ngiam 等人的方法相似的訓(xùn)練過程,同樣是利用受限玻爾茲曼機(jī)獨(dú)立學(xué)習(xí)不同數(shù)據(jù)的特征然后將二者的特征組合起來,最后再通過監(jiān)督標(biāo)簽對參數(shù)進(jìn)行微調(diào)[11].除此之外與Ngiam等人不同的一點(diǎn)是,Srvastava 處理的是文本和圖像數(shù)據(jù).馮方向通過自動編碼機(jī)分別對不同模態(tài)信息進(jìn)行特征抽取并通過典型關(guān)聯(lián)分析學(xué)習(xí)共有信息以實(shí)現(xiàn)跨模態(tài)檢索[12].異構(gòu)數(shù)據(jù)特征學(xué)習(xí)方法還包括Huiskes 提出的多模態(tài)支持向量機(jī)模型和Guillaumin等人提出的多模特半監(jiān)督學(xué)習(xí)方法等[13-15].
越來越多的神經(jīng)網(wǎng)絡(luò)模型被構(gòu)建,但是它們只是針對單一類型的數(shù)據(jù)來進(jìn)行分類,同時(shí)現(xiàn)在的多模態(tài)學(xué)習(xí)方法也主要是針對各類數(shù)據(jù)信息對稱的異構(gòu)數(shù)據(jù),而針對各類型數(shù)據(jù)信息不對稱的網(wǎng)絡(luò)輿情數(shù)據(jù)分類,以上的方法難以適用.
LSTM 神經(jīng)網(wǎng)絡(luò)是一種特別的RNN 神經(jīng)網(wǎng)絡(luò),使用LSTM 神經(jīng)網(wǎng)絡(luò)來對處理文本信息,通過這種方法可以防止RNN 神經(jīng)網(wǎng)絡(luò)常見的梯度爆炸問題,同時(shí)LSTM的記憶機(jī)制在處理長文本信息方面也具有一定優(yōu)勢.
Embeding 層通過Word2Vec 方法把文本信息表示到向量空間.通過LSTM 隱藏層提取文本特征,LSTM隱藏層由一系列的LSTM 基本單元組成.
圖1 LSTM 模型
平均池化層:通過對LSTM 隱藏層的數(shù)據(jù)特征進(jìn)行池化操作提取出新的特征,實(shí)現(xiàn)特征的降維,這樣既可以降低計(jì)算復(fù)雜度又可以防止過擬合.同時(shí)因?yàn)長STM 隱藏層的每一個(gè)特征向量都對分類結(jié)果有影響,為了保證分類的準(zhǔn)確度這里使用平均池化.最后通過Softmax 層對提取到的特征進(jìn)行分類.
卷積神經(jīng)網(wǎng)絡(luò)采用權(quán)值共享工作方式,相鄰兩層只有部分節(jié)點(diǎn)相連,這種模式顯著降低了神經(jīng)網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量,因而成為了現(xiàn)在眾多領(lǐng)域研究的熱點(diǎn).由于CNN 神經(jīng)網(wǎng)絡(luò)可以繞過復(fù)雜的預(yù)處理過程直接輸入原始圖像,而得到了學(xué)術(shù)界和工業(yè)界的青睞.其中有代表性的VGG16 模型,它是由16 層卷積層和全連接層組合而成,其中前13 層為卷積層,后3 層為全連接層.整個(gè)模型如圖2所示.
卷積神經(jīng)網(wǎng)絡(luò)通過卷積層和池化層來完成特征提取.卷積層使輸入的特征圖(或原始圖像)與卷積核進(jìn)行卷積操作,最終通過非線性的激活函數(shù)得到新的特征圖.池化層進(jìn)行下采樣操作,通過激活函數(shù)得到一個(gè)更小的特征圖,以此減少訓(xùn)練參數(shù)降低神經(jīng)網(wǎng)絡(luò)的復(fù)雜度,并防止過擬合現(xiàn)象.通過全連接層來將特征映射到特征空間,全連接層的每一個(gè)神經(jīng)元與前一層的所有神經(jīng)元進(jìn)行全連接,全連接層可以整合池化層中具有類別區(qū)分性的局部信息.最后一層全連接層的輸出值,通過Softmax 層進(jìn)行分類.
隨著大數(shù)據(jù)時(shí)代的到來和網(wǎng)絡(luò)技術(shù)的不斷提升,不同類型的數(shù)據(jù)開始越來越多出現(xiàn)在網(wǎng)絡(luò)上,這些不同類型的數(shù)據(jù)在網(wǎng)絡(luò)上構(gòu)成了一個(gè)復(fù)雜的集合.與以往不同,單一類型的數(shù)據(jù)難以完整表達(dá)輿情數(shù)據(jù)的信息.通過對輿情數(shù)據(jù)的多種類型數(shù)據(jù)綜合考慮進(jìn)行分類,以便能夠在輿情數(shù)據(jù)中挖掘出更多有價(jià)值的信息和知識,更好地利用輿情數(shù)據(jù).
圖2 VGG16 網(wǎng)絡(luò)模型
不同類型數(shù)據(jù)的底層信息存在明顯的差異,本文考慮到不同類型的數(shù)據(jù),例如圖像數(shù)據(jù)和文本數(shù)據(jù),文本數(shù)據(jù)的表示通常是離散的,而圖像數(shù)據(jù)的表示則是連續(xù)的,因此很難在底層數(shù)據(jù)表示上建立不同類型數(shù)據(jù)之間的關(guān)聯(lián).神經(jīng)網(wǎng)絡(luò)適用于不同類型數(shù)據(jù)信息的特征提取,考慮到各類數(shù)據(jù)信息的特點(diǎn)選擇更加適合的神經(jīng)網(wǎng)絡(luò)模型并通過全連接層來將各類信息特征表達(dá)到相同的特征空間.
神經(jīng)網(wǎng)絡(luò)的全連接層的結(jié)點(diǎn)與上一層的每一個(gè)結(jié)點(diǎn)相連,用來將前面提取到的特征綜合起來.由于其全連接的特性,一般的全連接層的參數(shù)也是最多的.全連接層的核心就是矩陣的乘積操作,具體過程如下:
矩陣表示(其中Wij表示權(quán)重系數(shù),bi表示偏置系數(shù)):
通過全連接層能將特征空間中的特征映射到另一個(gè)特征空間.在CNN 神經(jīng)網(wǎng)絡(luò)中,全連接層一般出現(xiàn)在整個(gè)神經(jīng)網(wǎng)絡(luò)的最后幾層,對前面提取的特征做加權(quán)和,起到將提取到的特征映射到樣本標(biāo)記空間的作用.在RNN 等神經(jīng)網(wǎng)絡(luò)中,全連接層也可以用來將embedding 空間映射到隱層空間,再將其映射到樣本標(biāo)記空間.
圖3 全連接層操作
基于神經(jīng)網(wǎng)絡(luò)對不同類型數(shù)據(jù)的良好適用性,本文通過神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)特征的提取.在現(xiàn)有神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,在最后幾層構(gòu)建全連接層將不同類型的信息表示到同一特征空間,以便對各類數(shù)據(jù)特征進(jìn)行融合.
據(jù)此,本文已構(gòu)建了以下兩個(gè)特征提取模型.在上文提到的CNN 和LSTM 模型的基礎(chǔ)上增加或調(diào)整全連接層構(gòu)建出新的CNN 模型和FC-LSTM 模型如圖4所示.
神經(jīng)網(wǎng)絡(luò)分別單獨(dú)通過不同類型的數(shù)據(jù)訓(xùn)練后,去掉神經(jīng)網(wǎng)絡(luò)的Softmax 分類器即可得到對應(yīng)的特征提取模型.通過調(diào)整的神經(jīng)網(wǎng)絡(luò)模型,它們抽取的特征已經(jīng)表示在了同一特征空間上,在此基礎(chǔ)上可以直接對特征進(jìn)行融合.
由于輿情信息的各類型數(shù)據(jù)包含的內(nèi)容并不對稱,只是簡單地將數(shù)據(jù)特征進(jìn)行融合,難以達(dá)到預(yù)期的效果.考慮到不同類型的信息的重要性,具體的融合過程如下:
其中,V1i、V2i表示不同類型信息的特征向量,Vi表示融合后的特征向量,W1、W2分別表示不同類型信息的權(quán)重,這里通過對若干條數(shù)據(jù)測試來確定W1、W2,測試過程如圖5所示.
圖4 FC-LSTM 模型和CNN 模型
通過特征提取模型之后,在對整個(gè)特征融合過程中,讓特征V1i、V2i分別和權(quán)重W1、W2求積,將它們的結(jié)果相加得到融合后的特征.
最后,使用了Softmax 分類器(3)對融合后的特征進(jìn)行分類.
根據(jù)上文可以架構(gòu)出整個(gè)模型.如圖6所示.
以此(圖6),通過不同的神經(jīng)網(wǎng)絡(luò)分別去提取不同類型網(wǎng)絡(luò)數(shù)據(jù)的特征,將他們表達(dá)到同一特征空間,并通過特征融合獲取更加全面的數(shù)據(jù)信息來對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分類.
圖5 權(quán)重獲取流程圖
在數(shù)據(jù)集上,當(dāng)前缺少一個(gè)公開的具有一定標(biāo)準(zhǔn)的異構(gòu)輿情數(shù)據(jù)庫.為此,本文收集了搜狐、騰訊網(wǎng)站上的圖像和文本數(shù)據(jù)信息,采用圖像和文本這兩種類型的數(shù)據(jù)信息來進(jìn)行實(shí)驗(yàn)驗(yàn)證.它們的內(nèi)容如表1所示.
圖6 輿情分類模型
本文選取內(nèi)容較多的軍事、歷史、旅游、財(cái)經(jīng)、房產(chǎn)、科技、體育、娛樂八個(gè)類別進(jìn)行分類,一共收集了9000 條數(shù)據(jù),各類別數(shù)據(jù)一千多條,將其中的8000 條作為訓(xùn)練數(shù)據(jù)集,剩下1000 條作為測試數(shù)據(jù)集.
表1 數(shù)據(jù)集
通過上文構(gòu)建的CNN 神經(jīng)網(wǎng)絡(luò)和FC-LSTM 神經(jīng)網(wǎng)絡(luò)特征提取模型構(gòu)建分別提取圖像和文本信息的特征,實(shí)現(xiàn)特征融合并進(jìn)行輿情分類.采用CNN、LSTM、FC-LSTM 神經(jīng)網(wǎng)絡(luò)模型和LSTM-CNN 神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比實(shí)驗(yàn).
CNN 神經(jīng)網(wǎng)絡(luò)模型:通過CNN 神經(jīng)網(wǎng)絡(luò)模型僅對圖片進(jìn)行分類.
LSTM 神經(jīng)網(wǎng)絡(luò)模型:通過LSTM 神經(jīng)網(wǎng)絡(luò)模型對文本進(jìn)行分類.
FC-LSTM 神經(jīng)網(wǎng)絡(luò)模型:通過FC-LSTM 神經(jīng)網(wǎng)絡(luò)模型對文本進(jìn)行分類.
LSTM-CNN 多模態(tài)深度學(xué)習(xí)模型:對圖像和文本進(jìn)行特征提取,并對提取到的特征融合后再進(jìn)行分類.
分析圖7可知,隨著文本權(quán)重W1的變小和圖像權(quán)重W2的變大,分類的準(zhǔn)確率開始上升,當(dāng)文本和圖像的權(quán)重分別為W1=0.81,W2=0.19 時(shí),LSTM-CNN 可以得到準(zhǔn)確性最好的分類結(jié)果,之后隨著圖像權(quán)重W2的增加,準(zhǔn)確率開始出現(xiàn)下降.當(dāng)分類結(jié)果達(dá)到最優(yōu)時(shí),圖像權(quán)重W2遠(yuǎn)遠(yuǎn)小于文本權(quán)重W1,經(jīng)分析對比圖像和文本數(shù)據(jù)具備以下特點(diǎn):
1)信息承載量:在圖片中可以包含的信息量少于文本信息.文本信息可以承載更多的信息.
2)信息可靠度:文本信息與圖像信息相比可靠性更高.在一些相對數(shù)據(jù)質(zhì)量不高網(wǎng)絡(luò)數(shù)據(jù)中,相對應(yīng)的圖像質(zhì)量要更低.
圖7 不同權(quán)重下的分類結(jié)果
雖然圖像數(shù)據(jù)有這些不足,但是圖像數(shù)據(jù)作為整個(gè)數(shù)據(jù)的一部分,仍然有著不容忽視的作用.當(dāng)文本信息內(nèi)容出現(xiàn)缺失或兩個(gè)類別特征出現(xiàn)沖突時(shí),將圖像信息作為輔助信息可以得到正確的分類結(jié)果.
訓(xùn)練好的模型的精度如表2所示.
表2 不同模型的分類精度
根據(jù)表2比較各神經(jīng)網(wǎng)絡(luò)模型.CNN 模型和LSTM 模型對比可知,文本信息的可靠度和質(zhì)量要高于圖像信息.對比LSTM 和FC-LSTM 可知,FC-LSTM的全連接層并不會對分類結(jié)果構(gòu)成影響.結(jié)合文本信息和圖像信息的LSTM-CNN 與LSTM 模型(文本)對比準(zhǔn)確率提高了4%,與CNN 模型(圖像)對比準(zhǔn)確率提高了11%.
綜上所述,結(jié)合文本和圖片信息的特征對網(wǎng)絡(luò)數(shù)據(jù)信息進(jìn)行分類,較原來只是通過單一類型的數(shù)據(jù)進(jìn)行分類,準(zhǔn)確率有了一定的提高.對一個(gè)含有圖像和文本的輿情信息而言,根據(jù)數(shù)據(jù)集包含不同類型數(shù)據(jù)的特點(diǎn),圖像和文本信息扮演的角色和重要性也各不相同.實(shí)驗(yàn)結(jié)果證明在本文數(shù)據(jù)集中,文本數(shù)據(jù)相比圖像數(shù)據(jù)無論是信息承載量或信息質(zhì)量都更為出色.但是文本和圖像數(shù)據(jù)都是不可或缺的一部分.本文通過根據(jù)它們的重要性,實(shí)現(xiàn)數(shù)據(jù)特征的融合及整體數(shù)據(jù)的分類.一方面,考慮到了文本信息的重要性,盡量減小圖像對文本信息分類結(jié)果造成的影響.另一方面,當(dāng)文本信息出現(xiàn)不足時(shí),通過圖像數(shù)據(jù)來對文本信息進(jìn)行補(bǔ)充,最終達(dá)到了更好的分類效果.
本文針對現(xiàn)在網(wǎng)絡(luò)上輿情數(shù)據(jù)信息分布的特點(diǎn)和狀況,提出了基于異構(gòu)數(shù)據(jù)的輿情分類方法.與傳統(tǒng)的只是針對單一類型數(shù)據(jù)進(jìn)行分類的方法不同,本文考慮到輿情數(shù)據(jù)的特點(diǎn)對不同類型的網(wǎng)絡(luò)輿情數(shù)據(jù)進(jìn)行特征提取,通過融合后的特征進(jìn)行分類,同時(shí)這種方法最大限度的考慮到了各類數(shù)據(jù)中的有效信息和各類數(shù)據(jù)的不同特性,據(jù)此可以使用不同的神經(jīng)網(wǎng)絡(luò)模型來完成特征提取,使得數(shù)據(jù)分類的結(jié)果更加準(zhǔn)確.
隨著網(wǎng)絡(luò)的發(fā)展例如像微博、微信等新媒體已經(jīng)漸漸興起并壯大,包含多種類型數(shù)據(jù)的輿情信息已經(jīng)成為一種常態(tài),網(wǎng)絡(luò)上的數(shù)據(jù)隨之必然更為復(fù)雜.如何更好地利用不同類型的數(shù)據(jù),并針對這樣的數(shù)據(jù)進(jìn)行綜合的處理和考慮,必然是未來的趨勢.