李 博,李洪蓮,關(guān) 青,劉 楊
(哈爾濱商業(yè)大學(xué)圖書館,哈爾濱 150028)
隨著Web2.0 技術(shù)的深入應(yīng)用,微博、微信、短視頻平臺以及論壇等社交網(wǎng)絡(luò)服務(wù)(Social Network Service,SNS)平臺用戶規(guī)模日趨增長。高校師生普遍使用社交網(wǎng)絡(luò)工具進(jìn)行學(xué)習(xí)、科研、工作上的交流[1]。用戶體驗(yàn)圖書館服務(wù)的渠道和方式也日趨多樣化和移動化,微信公眾平臺、微博等社交網(wǎng)絡(luò)平臺已經(jīng)成為高校圖書館數(shù)字化服務(wù)的主要方式和手段。紛繁多樣的社交網(wǎng)絡(luò)平臺引發(fā)了互聯(lián)網(wǎng)信息呈現(xiàn)出指數(shù)級增長[2],用戶產(chǎn)生的文本信息數(shù)據(jù)體量隨之增大,這其中又存在大量的帶有情感傾向的評論,這些資源中蘊(yùn)含的情感信息一定程度上表征了用戶的信息需求、數(shù)據(jù)需求以及潛在想法等。如何從紛繁多樣的文本信息中高效、快捷、高質(zhì)量地進(jìn)行文本情感分析,判斷情感傾向,提取出其蘊(yùn)含的潛在價(jià)值及隱性內(nèi)容,成為了目前學(xué)術(shù)界研究的一個(gè)熱點(diǎn)話題。
情感分析研究也是目前國內(nèi)外圖書館情報(bào)領(lǐng)域人工智能研究熱點(diǎn)問題[3],不同于圖像等數(shù)據(jù)的高稠密性,文本數(shù)據(jù)維度較高,數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)稀疏,并且語義復(fù)雜,文本數(shù)據(jù)分析過程中易產(chǎn)生分析粒度過粗,非結(jié)構(gòu)化評論信息難以向量化以及無法捕捉上下文語義環(huán)境。對篇章級或句子級的整體傾向進(jìn)行判斷,精準(zhǔn)度較低,很難準(zhǔn)確判斷真實(shí)具體的情感傾向,忽略了更細(xì)粒度級的信息,容易造成關(guān)鍵的、有價(jià)值的信息丟失;例如:“圖書館的學(xué)習(xí)氛圍強(qiáng),但是廁所異味太大,而且總有大聲打電話的”,這句話就無法從整句上面來判斷用戶的真實(shí)情感究竟是積極的還是消極的,通過更細(xì)粒度的分析之后得出,用戶對“學(xué)習(xí)氛圍”這個(gè)維度持積極態(tài)度,對“空氣質(zhì)量”和“秩序”這兩個(gè)維度持消極態(tài)度。
為了解決上述問題,本文采用基于深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的自然語言處理技術(shù),充分利用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和層次化注意力機(jī)制的優(yōu)勢,提出一種基于CNN、BiLSTM 和Hierarchical Attention 機(jī)制的高校圖書館社交網(wǎng)絡(luò)細(xì)粒度情感分析模型,并在真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),通過與基準(zhǔn)模型的對比驗(yàn)證本模型的有效性。
情感分析(Sentiment Analysis),又稱情感分類(Sentiment Classification)、傾向性分析(Orientation Analysis),是運(yùn)用自然語言處理、文本分類等技術(shù)自動抽取或分類文本中的情感[4],屬于信息檢索、自然語言處理和人工智能的交叉研究領(lǐng)域[5]。情感分析的目的是讓計(jì)算機(jī)理解人類的喜怒哀樂等情緒,隨著人工智能技術(shù)的發(fā)展,社交網(wǎng)絡(luò)數(shù)據(jù)采集日益方便[1],情感分析可以有效地探索用戶的輿論導(dǎo)向和隱性需求,了解用戶的真實(shí)想法和潛在意見,為高校圖書館個(gè)性化服務(wù)決策提供指引和支撐。
有關(guān)情感分析的研究,在近年來呈現(xiàn)出井噴式地增長,受到諸多專家和學(xué)者的關(guān)注和青睞。PANG 等[6]首次利用傳統(tǒng)機(jī)器學(xué)習(xí)方法解決電影評論的情感二分類問題,為情感分析研究提供了思路。BARBOSA 等[7]提取了文本數(shù)據(jù)中的具有特殊含義的關(guān)鍵信息,包括表情符號、話題、鏈接以及首字母大寫的單詞數(shù)目等Twitter 文本特征,利用有監(jiān)督方法進(jìn)行情感分類。張文亮等基于讀者的視角,抓取大眾點(diǎn)評網(wǎng)上用戶對省級公共圖書館的評論和評分,通過抽取高頻關(guān)鍵詞繪制詞云圖揭示用戶主要的關(guān)注點(diǎn),利用SnowNLP 進(jìn)行情感值的判斷[8]。畢達(dá)天等對情感短語進(jìn)行量化、分類,對比了不同場景下正負(fù)向情感的波動性變化,探討了影響移動圖書館用戶信息接受體驗(yàn)的情境因素和場景因素[9]。曾子明等[10]采取了文檔主題生成模型(Latent Dirichlet Allocation,LDA),借助AdaBoost 算法利用主題特征、情感特征和句式特征變量構(gòu)建5 種不同組合模型,識別微博評論情感傾向分析,著重研究各特征變量對情感分類效果的影響。朱茂然等基于PageRank 算法,結(jié)合社交網(wǎng)絡(luò)的用戶交互,利用LDA模型通過SVM 算法分類分析汽車論壇用戶交互內(nèi)容的情感傾向,識別出具有正面形象的專業(yè)意見領(lǐng)袖。
上述研究采用的主要方法是傳統(tǒng)機(jī)器學(xué)習(xí)中的有監(jiān)督學(xué)習(xí),需要大量的特征選擇提取工作,人工投入量較大。深度學(xué)習(xí)方法依托其機(jī)制的優(yōu)勢,具有稠密層,能夠根據(jù)多次迭代自動進(jìn)行特征的提取,已逐步發(fā)展成為近年來情感分析領(lǐng)域的主流方法。卷積神經(jīng)網(wǎng)絡(luò)CNN 是一種前饋神經(jīng)網(wǎng)絡(luò),KALCHBRENNER等[11]針對不同長度的文本的處理,提出了一種動態(tài)人工神經(jīng)網(wǎng)絡(luò),將CNN 引入自然語言處理。KIM[12]利用CNN 完成了句子級的英文文本分類,并將文本數(shù)據(jù)提前進(jìn)行了向量化處理。BENGIO 等[13]最早利用神經(jīng)網(wǎng)絡(luò)構(gòu)建語言模型。周錦峰等[14]提出了一種多窗口多池化層的卷積神經(jīng)網(wǎng)絡(luò)模型,該模型使用多個(gè)并行的卷積層提取不同窗口大小的上下文局部語義來解決語義距離依賴性和語義多層次性問題,語義特征更加豐富。卷積神經(jīng)網(wǎng)絡(luò)在文本分類中取得了較好的效果,但卷積神經(jīng)網(wǎng)絡(luò)更加關(guān)注局部特征,從而忽略了上下文語義信息,這在一定程度上影響了文本分類的準(zhǔn)確率。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)可以很好地處理時(shí)序數(shù)據(jù),在文本分類、情感分析等研究中使用非常廣泛[15-19],但梯度消失和梯度下降問題影響了分析結(jié)果的準(zhǔn)確性,長短期記憶單元[20]的出現(xiàn)有效地解決了以上問題。WANG 等[21]將注意力機(jī)制引入LSTM 網(wǎng)絡(luò),進(jìn)行細(xì)粒度情感分析研究。余本功等[22]基于特征強(qiáng)化雙向門限遞歸單元模型對汽車論壇網(wǎng)站口碑文本評論數(shù)據(jù)進(jìn)行屬性粒度的情感量化,提出了一種特征強(qiáng)化雙向門限遞歸單元模型(Feature Bidirectional Gated Recurrent Unit,F(xiàn)-BiGRU),該模型在GRU 方法的基礎(chǔ)上引入視覺卷積窗口進(jìn)行強(qiáng)化特征信息提取,通過卷積和池化操作,修正短文本語義特征不明顯及口語化明顯等情況。胡榮磊等[23]提出了基于長短期記憶網(wǎng)絡(luò)和注意力模型的網(wǎng)絡(luò)結(jié)構(gòu),通過在中文酒店評價(jià)語料集進(jìn)行實(shí)驗(yàn)表明,在文本情感傾向分析方面,較之卷積神經(jīng)網(wǎng)絡(luò)結(jié)合注意力機(jī)制的模型表現(xiàn)更佳??紤]到自然語言處理在分析用戶情感方面仍存不足的情況,尤其是從文本、句法結(jié)構(gòu)等角度展開的相關(guān)研究忽略了深層次的語義信息。郝志峰等[24]抽取屬性實(shí)體,融合了文本的依存關(guān)系和詞性等特征屬性,用BiLSTM 構(gòu)建基于序列標(biāo)注的細(xì)粒度意見分析模型,判斷文本情極,基于多特征融合與雙向RNN 的細(xì)粒度意見分析。BAHDANAU 等[25]最早提出了注意力機(jī)制理論,將其首先應(yīng)用到了機(jī)器翻譯領(lǐng)域并取得了不錯的效果,隨后被應(yīng)用于谷歌神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯系統(tǒng)。
不難發(fā)現(xiàn),雖然現(xiàn)有研究針對情感分析問題已經(jīng)在多角度、多層面進(jìn)行開展,但采取的方法普遍較為單一。傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)受算法等方面特點(diǎn)的限制,在進(jìn)行有監(jiān)督學(xué)習(xí)時(shí),大量特征提取的工作耗費(fèi)人力資源,并且浪費(fèi)目前算力資源的配置。深度學(xué)習(xí)方法目前受到廣大研究人員的青睞,但各種類型的深度神經(jīng)網(wǎng)絡(luò)各有所長,面對具體問題的研究也不能單純依靠模型的簡單堆疊和各類模型的變種。在情感分析問題研究方面,需要通過對各種深度神經(jīng)網(wǎng)絡(luò)的充分了解選取合適的方法進(jìn)行深入分析。
從相關(guān)工作的概述中可以看出,集成模型已經(jīng)用于情感分析研究中的多種問題,并且比單個(gè)模型的性能更加出色。本文在以上研究的基礎(chǔ)上,提出一種基于CNN-BiLSTM-HAN 模型的情感分析方法,面向的對象是高校圖書館社交網(wǎng)絡(luò)平臺。在CNN 基礎(chǔ)上添加BiLSTM,彌補(bǔ)了RNN 梯度消失、梯度爆炸的不足[26],進(jìn)行平行局部特征抽取,對過去和未來的雙向長距離依賴信息進(jìn)行特征提取,充分考慮每個(gè)詞語信息前后的影響,做到細(xì)粒度分析,在此網(wǎng)絡(luò)基礎(chǔ)上添加HAN,關(guān)注重點(diǎn)詞特征[27],對從中間層輸出的信息進(jìn)行不同程度的聚焦,采用Dropout 策略防止過擬合,最后通過Softmax 分類器進(jìn)行結(jié)果分類輸出,通過與基準(zhǔn)模型進(jìn)行對比實(shí)驗(yàn),證明了此模型針對高校圖書館社交網(wǎng)絡(luò)平臺文本分類的準(zhǔn)確性和有效性,圖1 為模型的網(wǎng)絡(luò)流程。
圖1 CNN-BiLSTM-HAN 模型網(wǎng)絡(luò)流程圖Fig.1 CNN-BiLSTM-HAN model network flow chart
本文以判斷高校圖書館社交網(wǎng)絡(luò)平臺產(chǎn)生的中文文本數(shù)據(jù)情感極性為出發(fā)點(diǎn),提出了一個(gè)由CNN 模塊,BiLSTM 模塊以及引入層次化注意力機(jī)制形成的HAN 模塊構(gòu)成集成模型CNN-BiLSTM-HAN,用來進(jìn)行高校圖書館社交網(wǎng)絡(luò)平臺細(xì)粒度情感分析。將經(jīng)過人工標(biāo)注并利用Python 語言的jieba 庫分詞后的中文語料數(shù)據(jù)通過Word2vec 轉(zhuǎn)換為詞向量的形式作為模型的輸入層。在以下小節(jié)中,我們將分別介紹所提出的CNN 模型、BiLSTM 模型和HAN 模型。
CNN 是一種前饋神經(jīng)網(wǎng)絡(luò),因其具備良好的分類性能而備受廣大研究人員青睞,能夠提取有助于分類任務(wù)的重要且相關(guān)的特征。本文中我們首先建立一個(gè)CNN 模型來進(jìn)行文本情感極性的預(yù)測。該模型由3 個(gè)并行的CNN 子模型組成。每個(gè)CNN 子模型,都有一定的濾波器大小s 和濾波器數(shù)目m。從每個(gè)濾波器獲得的特征映射大小為n-s+1,其中n 是文本中的詞語的數(shù)量。然后,我們對獲得的特征映射進(jìn)行最大池化操作。這將產(chǎn)生一個(gè)大小為m 的向量。我們在3 個(gè)子模型中使用相同數(shù)量的濾波器。將3 個(gè)子模型的輸出連接起來,生成一個(gè)大小為3m 的向量。接下來添加一個(gè)具有ReLU 激活函數(shù)的全連接層。增加一個(gè)Dropout層,使網(wǎng)絡(luò)正則化,以避免過擬合。最后,使用帶有3個(gè)輸出單元的最大Softmax 層來進(jìn)行情感極性預(yù)測,圖2 為CNN 模型的網(wǎng)絡(luò)結(jié)構(gòu)圖。
綜上所述,在胃癌根治術(shù)中,應(yīng)用單純?nèi)?會使患者的應(yīng)激反應(yīng)增強(qiáng),不利于醫(yī)護(hù)人員的手術(shù)操作,全麻藥物作用量大,且術(shù)后患者會有明顯的疼痛癥狀產(chǎn)生,而應(yīng)用全麻聯(lián)合硬膜外麻醉可以雙向的阻滯受傷區(qū)域的神經(jīng)感受器傳導(dǎo)及中樞神經(jīng)的敏感度,從而降低患者的術(shù)后疼痛及不良反應(yīng),同時(shí)術(shù)中能夠減少茶氨酚的釋放,降低患者應(yīng)激反應(yīng),使循環(huán)系統(tǒng)趨于穩(wěn)定,有利于手術(shù)的順利進(jìn)行[3]。并且全麻聯(lián)合硬膜外麻醉的藥物使用靈活,用量少,易控制患者的應(yīng)激反應(yīng),有利于降低患者的術(shù)后疼痛,提高了患者的滿意度,有臨床推廣的價(jià)值。
圖2 CNN 模型網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 CNN model network structure diagram
LSTM 是為了解決梯度消失和梯度爆炸問題而衍生的一種變種循環(huán)神經(jīng)網(wǎng)絡(luò),普通的LSTM 模型是簡單的單向傳播神經(jīng)網(wǎng)絡(luò),無法學(xué)習(xí)反向特征,缺失了上下文特征的利用,限制了情感極性分類的性能。標(biāo)準(zhǔn)的LSTM 結(jié)構(gòu)如圖3 所示。
圖3 LSTM 結(jié)構(gòu)模型圖Fig.3 LSTM structural model diagram
標(biāo)準(zhǔn)的LSTM 單元計(jì)算如下:
其中⊙表示對應(yīng)元素點(diǎn)積;σ 是神經(jīng)網(wǎng)絡(luò)中的sigmoid 函數(shù);Wf、Wi、Wo、Wc是隱藏層的權(quán)重矩陣,bf、bi、bo和bc是偏差向量,ht是在t 時(shí)刻的輸出,ct為最終記憶單元。
BiLSTM 是對LSTM 的一個(gè)重大改進(jìn),它有效地解決了LSTM 無法學(xué)習(xí)反向特征的問題。因此我們采用雙向BiLSTM 模型用于細(xì)粒度級別的情感極性分類,一個(gè)LSTM 保存前一個(gè)詞的上下文,另一個(gè)保存下一個(gè)詞的上下文。文本數(shù)據(jù)的向量表示首先傳遞給每個(gè)LSTM,每個(gè)LSTM 的大小為h。每個(gè)LSTM 的最終輸出連接起來,生成一個(gè)長度為2h 的向量。然后將這個(gè)向量通過ReLU 激活函數(shù)傳遞到一個(gè)完全連接的層。在LSTM 層之后放置Dropout 層防止過擬合,在全連接層之后放置另一層Dropout。最后,添加了一Softmax 層,給出了文本的情感識別分類標(biāo)簽。圖4 顯示了BiLSTM 模型網(wǎng)絡(luò)結(jié)構(gòu)圖。
圖4 BiLSTM 模型網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 BiLSTM model network structure diagram
對于文本情感極性判斷,在考慮上下文語義關(guān)系的同時(shí),需要關(guān)注部分詞語對句子情感表達(dá)的重要影響,層次化注意力機(jī)制會捕捉更多重點(diǎn)信息,因此,本文增加HAN 模塊,加強(qiáng)對重點(diǎn)詞的關(guān)注。
層次化注意力網(wǎng)絡(luò)表達(dá)能力強(qiáng)的主要原因之一是它們能夠區(qū)分重要的句子或詞匯,HAN 模塊將不同的注意力權(quán)重分配給語義編碼,從而對向量語義編碼的重要性進(jìn)行篩選,提高分類的準(zhǔn)確率。它假設(shè)對于一個(gè)特定的分類任務(wù),有些詞比其他詞更重要,簡單地說,有些句子比其他句子更重要。將BiLSTM 處理后的輸出結(jié)果輸入到HAN 層能夠有效提升分類精度,計(jì)算方法如式(7)、(8)、(9)所示。
本文集成模型網(wǎng)絡(luò)架構(gòu)由CNN 模塊、BiLSTM 模塊和HAN 模塊組成,第一層為輸入層,主要負(fù)責(zé)將輸入的預(yù)處理后的中文文本數(shù)據(jù)進(jìn)行詞向量的映射,轉(zhuǎn)換為詞向量序列矩陣。第二層CNN 模塊對文本矩陣進(jìn)行卷積操作和最大池化操作,卷積操作精準(zhǔn)提取每條數(shù)據(jù)的特征,獲得每個(gè)詞的字符級特征;最大池化操作將小鄰域內(nèi)的特征點(diǎn)進(jìn)行整合處理,從而得到新的特征,加快訓(xùn)練速度。將經(jīng)過CNN 模塊處理后的每個(gè)詞的字符向量拼接組合后的混合向量作為第三層神經(jīng)網(wǎng)絡(luò)模塊BiLSTM 的輸入序列,使模型同時(shí)關(guān)注已經(jīng)過去和即將來到的雙向重要信息,拼接兩個(gè)方向的LSTM 的輸出作為隱含層的輸出。然后利用第四層Attention 模塊通過加權(quán)求和對詞語重要性進(jìn)行計(jì)算,將第三層的輸出解碼出一個(gè)最優(yōu)的標(biāo)記序列,最后通過全連接層、Dropout 層輸入到Softmax 分類器中對中文文本數(shù)據(jù)進(jìn)行情緒分類輸出,集成模型網(wǎng)絡(luò)架構(gòu)如圖5 所示。
圖5 CNN-BiLSTM-HAN 模型網(wǎng)絡(luò)架構(gòu)圖Fig.5 CNN-BiLSTM-HAN model network architecture diagram
本文模型使用Mini-batch 梯度下降方法進(jìn)行模型訓(xùn)練,快速訓(xùn)練模型,提升計(jì)算效率,防止產(chǎn)生局部最優(yōu),使模型能夠更為魯棒地收斂。目標(biāo)函數(shù)為損失交叉熵函數(shù),如式(10)所示,模型訓(xùn)練的目標(biāo)是預(yù)測輸出值和實(shí)際樣本值的交叉熵。
其中,L 為損失值,x 為樣本,n 為樣本數(shù),y 為樣本實(shí)際值,為模型預(yù)測輸出值。
本文利用Python 編程語言以及開源人工智能系統(tǒng)TensorFlow、Keras 構(gòu)建CNN、BiLSTM,并引入HAN機(jī)制,采用Dropout 策略以避免過擬合,模型部分核心代碼如下所示。
本文的實(shí)驗(yàn)環(huán)境為Windows 7 操作系統(tǒng),采用Python 編程語言,利用基于Python 的高級人工神經(jīng)庫Keras 來實(shí)現(xiàn)模型網(wǎng)絡(luò)的搭建,以Tensorflow 作為后端,Keras 底層通過調(diào)用Tensorflow 框架來實(shí)現(xiàn)本文實(shí)驗(yàn)環(huán)境的搭建,對比實(shí)驗(yàn)中的機(jī)器學(xué)習(xí)方法,采用Python 的第三方機(jī)器學(xué)習(xí)庫Scikit-learn 來實(shí)現(xiàn)傳統(tǒng)機(jī)器學(xué)習(xí)的分類方法。
由于沒有公開標(biāo)注的高校圖書館社交平臺相關(guān)的語料數(shù)據(jù),為保證實(shí)驗(yàn)結(jié)果的可靠性,通過爬蟲技術(shù)對國內(nèi)高校圖書館論壇、留言本以及微信公眾平臺留言等評論數(shù)據(jù)進(jìn)行采集,數(shù)據(jù)采集的范圍包括上海交通大學(xué)圖書館、西南石油大學(xué)圖書館、西安交通大學(xué)圖書館、哈爾濱商業(yè)大學(xué)圖書館等15 所國內(nèi)高校的論壇、留言板系統(tǒng)以及微信公眾平臺。獲取原始數(shù)據(jù)26 896 條,經(jīng)過數(shù)據(jù)清洗,分詞等預(yù)處理步驟,剔除過短留言、垃圾評論等無效數(shù)據(jù),拆分較長評論,得到短文本評論句子集,共21 091 條。其次,一方面抽取部分?jǐn)?shù)據(jù)進(jìn)行人工標(biāo)注,手工編碼標(biāo)記正類、中性以及負(fù)類,形成一個(gè)具有正面評論、中性評論以及負(fù)面評論的數(shù)據(jù)集,用于訓(xùn)練和測試本文模型。如表1所示,其中正面語料數(shù)據(jù)量為8 033,中性語料數(shù)據(jù)量為4 355,負(fù)面數(shù)據(jù)量為8 703。
表1 數(shù)據(jù)集示例Fig.1 Trend of applying for RV red
參數(shù)設(shè)置與模型的最終分類效果關(guān)系密切,表2中列出了相關(guān)參數(shù)的設(shè)置。
表2 模型的超參數(shù)Table 2 The hyperparameters of the model
本文選用準(zhǔn)確率A(Accuracy)、精確率P(Precision)、召回率R(Recall)、F1 值(F-measure)作為模型效果評價(jià)指標(biāo)。準(zhǔn)確率代表正確識別積極情感分類占所有正確識別出的積極情感分類的比例,召回率代表正確識別的積極情感分類反應(yīng)占實(shí)際積極情感分類的比例,F(xiàn)1 值(F-measure)是精確率和召回率的加權(quán)調(diào)和平均,用于綜合評估模型的識別性能。公式如下所示。
其中,TP(True Positives)表示正確地識別為積極情感實(shí)體的數(shù)目,TN(True Negative)表示正確地識別為消極情感實(shí)體的數(shù)目,F(xiàn)P(False Positives)表示錯誤地識別為積極情感實(shí)體的數(shù)目,F(xiàn)N(False Negative)表示錯誤地識別為消極的數(shù)目。
為了驗(yàn)證CNN-BiLSTM-HAN 模型在情感分析上的有效性,本實(shí)驗(yàn)選擇了其他模型來進(jìn)行對比實(shí)驗(yàn),包括傳統(tǒng)的機(jī)器學(xué)習(xí)模型支持向量機(jī)(以下簡稱SVM),深 度 學(xué) 習(xí) 模 型LSTM、CNN、BiLSTM、CNN-BiLSTM 共5 個(gè)模型;將本文模型在相同環(huán)境下與SVM、LSTM、CNN、BiLSTM、CNN-BiLSTM 等模型進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。通過實(shí)驗(yàn)結(jié)果,可以看出在處理高校圖書館社交網(wǎng)絡(luò)文本情感分析問題上,CNN-BiLSTM-HAN 模型具有較好的效果。采用準(zhǔn)確率、召回率和F1 值來評估模型的性能,表3 中列出了不同方法進(jìn)行情感分類這一任務(wù)的結(jié)果。
表3 模型對比結(jié)果Table 3 Model comparison results
如表3 所示,傳統(tǒng)機(jī)器學(xué)習(xí)模型SVM 各項(xiàng)實(shí)驗(yàn)結(jié)果指標(biāo)中,只有Precision 一項(xiàng)的值達(dá)到了0.852 3,其他各項(xiàng)指標(biāo)值均偏低,而所有深度學(xué)習(xí)模型,包括單一模型和集成模型的各項(xiàng)指標(biāo)值均優(yōu)于SVM 模型。實(shí)驗(yàn)結(jié)果表明,深度學(xué)習(xí)模型相較于傳統(tǒng)機(jī)器學(xué)習(xí)模型SVM 在性能各方面具有明顯優(yōu)勢。由于CNN 在訓(xùn)練的過程中沒有提取語境中上下文語義關(guān)聯(lián),因此,CNN 模型取得了0.843 9 的準(zhǔn)確率,而LSTM 模型則取得了0.886 1 的準(zhǔn)確率,相較于LSTM,CNN 模型不能更加精確的分析具備上下文語境關(guān)系的語料數(shù)據(jù)。雖然LSTM 擅長處理時(shí)間序列和學(xué)習(xí)數(shù)據(jù)表示,但在實(shí)驗(yàn)中,簡單地使用LSTM 仍然沒有學(xué)習(xí)到數(shù)據(jù)流的最深層次,從指標(biāo)數(shù)據(jù)上對比能夠看出,與BiLSTM模型相比不占主導(dǎo)地位。而總體來看,僅僅使用單一深度學(xué)習(xí)模型的分析性能明顯不如集成模型CNN-BiLSTM和CNN-BiLSTM-HAN,無法很好提升模型預(yù)測效果。使用本文模型進(jìn)行情感分類的方法普遍優(yōu)于其他方法,因?yàn)镠AN 模塊執(zhí)行了特征權(quán)重分配功能,使模型對不同等級權(quán)重特征進(jìn)行了學(xué)習(xí),有利于模型準(zhǔn)確迅速的獲得等級較高的權(quán)重信息,提出的CNN-BiLSTM-HAN模型相比于未引入HAN 機(jī)制的模型準(zhǔn)確率提升3.3%,說明引入HAN 機(jī)制的模型在準(zhǔn)確率提升方面優(yōu)于簡單集成模型和傳統(tǒng)單一神經(jīng)網(wǎng)絡(luò)模型,引入的HAN 機(jī)制起到了分析目標(biāo)和上下文之間的相互作用。在召回率和F1 值指標(biāo)上也均優(yōu)于其他模型,充分證明了本文提出的方法在高校圖書館社交網(wǎng)絡(luò)平臺細(xì)粒度情感分析上的有效性。
本文提出了一種基于CNN-BiLSTM 網(wǎng)絡(luò)引入HAN 機(jī)制的混合神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型,用于進(jìn)行高校圖書館社交網(wǎng)絡(luò)平臺情感分析。通過在真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果證明了CNN-BiLSTM 網(wǎng)絡(luò)引入HAN機(jī)制方法的有效性。本文模型旨在更精確地挖掘高校圖書館社交網(wǎng)絡(luò)平臺用戶情感傾向,為高校圖書館開展服務(wù)過程中用戶留言關(guān)鍵詞提取及情感極性判斷提供了一種啟示、思路和方法,為高校圖書館了解用戶真實(shí)訴求、針對性地改進(jìn)服務(wù)質(zhì)量提供科學(xué)依據(jù)。對高校圖書館社交網(wǎng)絡(luò)平臺進(jìn)行情感分析,可以有效發(fā)現(xiàn)用戶對高校圖書館價(jià)值是否具有認(rèn)同感,能夠促進(jìn)高校圖書館自我提升服務(wù)質(zhì)量,拓寬服務(wù)范圍,幫助圖書館自我定位資源及服務(wù)的長處和不足,有助于圖書館提升自身形象,增強(qiáng)用戶滿意度,整體高質(zhì)量發(fā)展。本研究實(shí)驗(yàn)過程中采用的數(shù)據(jù)集體量相對較小,未來會進(jìn)一步擴(kuò)充數(shù)據(jù)集規(guī)模。另外,由于模型較為復(fù)雜,參數(shù)較多,導(dǎo)致模型訓(xùn)練用時(shí)較長,并且表情符號信息沒有得到有效利用。在未來研究中,參數(shù)的設(shè)置、模型的優(yōu)化和表情符號信息的利用將是下一步研究方向,未來考慮加入BERT 模型,提升模型識別能力及泛化能力。