趙海燕 杜麗娟 劉琨 王廷梅 劉建國
(北京聯(lián)合大學(xué) 北京市 100012)
情感類文本數(shù)據(jù)的識別和挖掘是一種跨領(lǐng)域研究,包括心理學(xué)、自然語言信息處理、機(jī)器學(xué)習(xí)等,具有重要的價(jià)值。情感類文本數(shù)據(jù)是大眾對產(chǎn)品、服務(wù)、組織等對象評價(jià)觀點(diǎn)、情感認(rèn)可態(tài)度的描述。隨著觀點(diǎn)信息的快速增加,需要借助計(jì)算機(jī)來處理那些人工無法處理的海量信息,對電商平臺及社交網(wǎng)絡(luò)的文本數(shù)據(jù)進(jìn)行分析和識別,從而挖掘出其背后巨大的商業(yè)價(jià)值[1]。情感類文本數(shù)據(jù)蘊(yùn)含關(guān)系的識別和挖掘,決定了其在互聯(lián)網(wǎng)信息時(shí)代具有重要的研究意義。為此,本文對基于深度學(xué)習(xí)的情感類文本數(shù)據(jù)蘊(yùn)含關(guān)系識別方法進(jìn)行研究
為了實(shí)現(xiàn)對情感類文本數(shù)據(jù)蘊(yùn)含關(guān)系的有效識別,本章采用將CNN 與BiLSTM 進(jìn)行融合的方式,對文本數(shù)據(jù)對象進(jìn)行初步識別。其中CNN 表示為卷積神經(jīng)網(wǎng)絡(luò);BiLSTM 表示為雙向長短記憶網(wǎng)絡(luò)[2-3]。其中CNN 包括文本數(shù)據(jù)詞匯嵌入層、網(wǎng)絡(luò)卷積層、操作池層,當(dāng)前端輸入情感類文本數(shù)據(jù)時(shí),需要先對詞向量進(jìn)行參數(shù)分析。假定數(shù)據(jù)量為100.0 維度時(shí),可在終端增加一個(gè)3.0×100.0 維度的分類器,設(shè)定分類器數(shù)量為128.0個(gè),識別的步長為1.0。按照卷積操作,對情感類文本數(shù)據(jù)中的關(guān)鍵特征進(jìn)行針對性提取,并在此基礎(chǔ)上,刪除數(shù)據(jù)集合中存在的冗余特征值,以此種方式,生成一個(gè)具有固定維度的情感類文本數(shù)據(jù)特征向量。在上述提出內(nèi)容的基礎(chǔ)上,將終端輸出的數(shù)據(jù)集合輸入BiLSTM 網(wǎng)絡(luò),數(shù)據(jù)在此過程中會(huì)經(jīng)過隱藏層與處理層,相比單獨(dú)使用CNN 提取對象的過程,此種融合方法識別數(shù)據(jù)對象可以兼顧到文本中所有數(shù)據(jù)的特征。此過程可用如圖1 表示。
按照圖1所示的流程,將存在情感的文本數(shù)據(jù)作為分析對象,識別具有價(jià)值的情感信息,在此過程中,具有一定價(jià)值的情感評價(jià)信息主要由終端評價(jià)主體對象、觀念或看法持有者、評價(jià)短語、評論語句等搭配過程。其中,針對評論詞匯或斷句的識別,可以將其作為對文本內(nèi)容中具有情感描述特征詞匯的提取,例如:漂亮、美好等。
圖1:基于CNN 與BiLSTM 融合的文本數(shù)據(jù)對象識別
調(diào)用語料庫可以更加直接地實(shí)現(xiàn)對文本數(shù)據(jù)對象的識別[4]。但在此過程中需要全面考慮的是,調(diào)用語料庫需要提前掌握庫內(nèi)存儲空間的大小,一旦語料庫存儲空間不足,便會(huì)影響對文本數(shù)據(jù)對象識別的準(zhǔn)確度。為此,在開展此方面的細(xì)化研究時(shí),可結(jié)合詞典的應(yīng)用,提取情感詞匯,并根據(jù)詞匯之間的情感聯(lián)系,生成一個(gè)文本數(shù)據(jù)情感結(jié)構(gòu)圖。圖中每個(gè)點(diǎn)均可表示為一個(gè)“評價(jià)詞語”,連接圖像的每個(gè)“線”可表示為兩個(gè)頂點(diǎn)間的關(guān)系。以此種方式,實(shí)現(xiàn)對文本數(shù)據(jù)對象的識別。
在完成對文本數(shù)據(jù)對象的識別后,對情感類文本信息與數(shù)據(jù)進(jìn)行分類處理?;谇楦懈惺軐用娣治觯梢詫⑶楦斜磉_(dá)強(qiáng)度劃分為:無情感、弱情感、普通強(qiáng)度、中等強(qiáng)度、高強(qiáng)度等情感[5]。在此過程中,提出將語義規(guī)則與深度學(xué)習(xí)相結(jié)合的方法,解決在線評論文本情感分類問題,在分類時(shí),結(jié)合不同語句中上下詞匯的關(guān)聯(lián)性與同義性,使用兩個(gè)目標(biāo)詞匯在文本中存在一定的長期記憶,根據(jù)記憶結(jié)果,可以得到一個(gè)基于識別目標(biāo)的LSTM 情感數(shù)據(jù)集合。在此基礎(chǔ)上,引入支持局部情感分類的深度記憶網(wǎng)絡(luò),使用多個(gè)計(jì)算層對詞匯的情感深度進(jìn)行,并在每個(gè)計(jì)算層上使用神經(jīng)網(wǎng)絡(luò)注意力機(jī)制模型,便可以成功推斷出局部情感極性。
為了實(shí)現(xiàn)多層分類目標(biāo)的實(shí)現(xiàn),需要在兩個(gè)情感文本層之間,使用一個(gè)組件,用于生成句子中某個(gè)單詞的特定目標(biāo)描述。同時(shí),需要保留一個(gè)機(jī)制,用于存儲來自CNN 網(wǎng)絡(luò)中RNN 層的原始上下文信息。此外,使用弱監(jiān)督學(xué)習(xí)方法,評價(jià)不同詞匯的正面和負(fù)面含義,通過將每個(gè)單詞表示為連續(xù)向量的方式,構(gòu)建針對每個(gè)詞匯的情感表達(dá)矩陣,矩陣中,每行中表達(dá)的信息對應(yīng)句子中使用的單詞向量,并將詞匯矩陣作為分類器輸入量,將情感標(biāo)簽作為輸出量,反復(fù)訓(xùn)練數(shù)據(jù)集合,以此達(dá)到對情感類文本信息與數(shù)據(jù)分類的目的。
在完成上述相關(guān)研究的基礎(chǔ)上,引進(jìn)深度學(xué)習(xí)模型,對文本數(shù)據(jù)的情感進(jìn)行推理,推理的過程便是一個(gè)對文本數(shù)據(jù)蘊(yùn)含關(guān)系的描述。因此,在進(jìn)行文本數(shù)據(jù)推理過程中,需要引進(jìn)一個(gè)文本數(shù)據(jù)樣本作為前提條件與參照,在此基礎(chǔ)上,將另一個(gè)文本數(shù)據(jù)樣本作為假設(shè)。倘若在情感推理中,通過前提條件P,可以得出假設(shè)H,那么便可以認(rèn)為兩個(gè)文本數(shù)據(jù)是存在情感蘊(yùn)含關(guān)系的。
為了實(shí)現(xiàn)推理過程,可參照深度學(xué)習(xí)過程,在卷積神經(jīng)網(wǎng)絡(luò)的支撐下,判別兩個(gè)文本數(shù)據(jù)中是否存在相似度匹配的數(shù)據(jù)。只有定位到這些可以用于描述文本的數(shù)據(jù)信息,才能夠?qū)ξ谋镜奶N(yùn)含關(guān)系進(jìn)行識別[6]。因此,在此次研究中,提出了一種以學(xué)習(xí)數(shù)結(jié)構(gòu)作為支撐的數(shù)據(jù)提取器,將神經(jīng)網(wǎng)絡(luò)中每一個(gè)信息節(jié)點(diǎn)作為一個(gè)子節(jié)點(diǎn),根據(jù)子節(jié)點(diǎn)的從屬關(guān)系,提取對應(yīng)的父節(jié)點(diǎn),構(gòu)建一個(gè)針對情感文本數(shù)據(jù)的學(xué)習(xí)數(shù)。在此基礎(chǔ)上,按照網(wǎng)絡(luò)中節(jié)點(diǎn)信息之間的關(guān)系,對不同信息節(jié)點(diǎn)進(jìn)行對接,使用TBCNN 作為前提,使用數(shù)據(jù)信息拼接、差值計(jì)算、累加、相乘等方式,對構(gòu)造的情感學(xué)習(xí)樹進(jìn)行語義信息描述,再使用softmax 對語義信息進(jìn)行分類,以分類結(jié)果作為前提條件,對語義信息進(jìn)行文本情感的軟對齊。在完成對信息的對其處理后,匹配存在相似度關(guān)系的文本信息,并使用深度學(xué)習(xí)中的詞匯庫,對每個(gè)特征詞匯進(jìn)行賦權(quán),按照深度迭代理論,對情感詞匯權(quán)值進(jìn)行計(jì)算。計(jì)算公式如下。
公式(1)中:λ 表示為情感類文本數(shù)據(jù)或詞匯代表的權(quán)值;f表示為詞匯之間的相似度;s 表示為詞匯在神經(jīng)網(wǎng)絡(luò)中的子節(jié)點(diǎn)信息;d 表示為詞匯長度或字符串長度;k 表示為卷積神經(jīng)網(wǎng)絡(luò)層數(shù);i 表示為詞匯在文本中的排序;j 表示為學(xué)習(xí)樹層數(shù)。在完成對與此方面相關(guān)內(nèi)容的計(jì)算后,按照權(quán)值大小依次輸出,根據(jù)數(shù)據(jù)權(quán)值對應(yīng)的信息,進(jìn)行文本數(shù)據(jù)匹配,提取匹配結(jié)果,以此作為情感類文本數(shù)據(jù)蘊(yùn)含關(guān)系的識別結(jié)果。
本文通過上述論述,實(shí)現(xiàn)對識別方法的理論設(shè)計(jì),為驗(yàn)證該識別方法在實(shí)際應(yīng)用中是否能夠?qū)崿F(xiàn)對其相互蘊(yùn)含關(guān)系的精準(zhǔn)識別,將其與傳統(tǒng)基于篇章主題的識別方法應(yīng)用到同一情感類文本資料當(dāng)中,并開展如下對比實(shí)驗(yàn):
共選擇五個(gè)情感分類當(dāng)中經(jīng)常使用的數(shù)據(jù)集作為實(shí)驗(yàn)研究對象,每個(gè)數(shù)據(jù)各自具備獨(dú)特的特點(diǎn),以此確保實(shí)驗(yàn)結(jié)果能夠更加全面地對兩種識別方法應(yīng)用效果進(jìn)行反映。每個(gè)數(shù)據(jù)集平均句子長度為25 個(gè)單詞,總共包含12006 條數(shù)據(jù),隨機(jī)選擇數(shù)據(jù)集當(dāng)中1000條數(shù)據(jù)識別結(jié)果,并將其繪制成如表1所示對照表。
表1:兩種方法識別結(jié)果對照表(單位:條)
從表1 中得出的實(shí)驗(yàn)結(jié)果可以看出,本文識別方法得出的結(jié)果與實(shí)際數(shù)據(jù)消極條數(shù)和積極條數(shù)完全一致,而傳統(tǒng)方法識別結(jié)果與實(shí)際情況存在較大差異。因此,通過對比實(shí)驗(yàn)證明,本文方法的識別準(zhǔn)確性更高,能夠針對文本的消極情感和積極情感進(jìn)行更加準(zhǔn)確的識別,并且使識別結(jié)果更具有實(shí)際利用價(jià)值。將該方法應(yīng)用于實(shí)際能夠?yàn)槲谋緮?shù)據(jù)的挖掘和處理提供科學(xué)依據(jù)。
近幾年,情感類文本數(shù)據(jù)的識別和挖掘技術(shù)方面的研究,已趨近一種白熱化趨勢,由于計(jì)算機(jī)技術(shù)的飛速發(fā)展,人工智能、自然語言處理等領(lǐng)域更重視發(fā)表會(huì)議論文,能夠通過會(huì)議及時(shí)交流最新的進(jìn)展,因此,本文在早期研究成果的基礎(chǔ)上,引進(jìn)深度學(xué)習(xí)算法,對情感類文本數(shù)據(jù)蘊(yùn)含關(guān)系識別方法展開設(shè)計(jì)與研究,希望通過此次的研究,為我國工業(yè)界、京東、淘寶、唯品會(huì)等各大電商購物網(wǎng)站和微博等社交軟件,提供情感分析技術(shù)的支撐,并引導(dǎo)終端商戶將此項(xiàng)技術(shù)與方法應(yīng)用到用戶評論分析當(dāng)中,廠家通過用戶評論挖掘,發(fā)現(xiàn)產(chǎn)品存在的問題并加以改進(jìn),以此提升客戶使用體驗(yàn),從而實(shí)現(xiàn)增加產(chǎn)品銷量的目的。