代耀彬,朱燕燕,黃雙華
(河海大學(xué),江蘇 南京 210098)
網(wǎng)絡(luò)問(wèn)政平臺(tái)是互聯(lián)網(wǎng)時(shí)代下政府為群眾提供服務(wù)的主要平臺(tái),也是政府與群眾信息交流的主要方式。目前,大部分電子政務(wù)系統(tǒng)仍是依靠人工進(jìn)行數(shù)據(jù)整理,不斷攀升的文本數(shù)據(jù)量對(duì)相關(guān)部門(mén)的工作帶來(lái)了極大的挑戰(zhàn),如何快速對(duì)群眾的留言進(jìn)行分類(lèi)成為當(dāng)前的熱點(diǎn)問(wèn)題。深度學(xué)習(xí)在圖像分類(lèi)上有著較好的分類(lèi)效果,不少學(xué)者開(kāi)始研究深度學(xué)習(xí)算法在短文本分類(lèi)上的應(yīng)用[1]。本文擬通過(guò)使用卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)于群眾留言信息的快速分類(lèi)。
本文所設(shè)計(jì)的基于卷積神經(jīng)網(wǎng)絡(luò)群眾留言分類(lèi)模型主要包括3個(gè)方面:數(shù)據(jù)的預(yù)處理、建立模型、結(jié)果診斷,整個(gè)模型架構(gòu)流程如圖1所示。
圖1 模型架構(gòu)流程
本文實(shí)驗(yàn)所用到的數(shù)據(jù)集來(lái)自相關(guān)政務(wù)網(wǎng)站上的群眾留言,數(shù)據(jù)集主要包括群眾的留言信息和工作人員對(duì)留言進(jìn)行的分類(lèi)。留言主要分為勞動(dòng)與社會(huì)保障、環(huán)境保護(hù)、商貿(mào)旅游、城鄉(xiāng)建設(shè)、衛(wèi)生計(jì)生、教育文體、交通運(yùn)輸7大類(lèi)。
首先,采用簡(jiǎn)易數(shù)據(jù)增強(qiáng)(Easy Data Augmentation,EDA)技術(shù)[2]對(duì)文本進(jìn)行數(shù)據(jù)增強(qiáng),減少類(lèi)別分布不均衡的影響。得到了82 872條留言數(shù)據(jù)。其次,對(duì)增強(qiáng)后的數(shù)據(jù)集進(jìn)行分詞與停用詞處理。最后,通過(guò)TF-IDF算法提取留言文本的關(guān)鍵詞,形成關(guān)鍵詞庫(kù)。TF和IDF的計(jì)算公式如(1—2):
其中,f(t,d)表示詞條t在文檔中出現(xiàn)d出現(xiàn)的次數(shù),dft表示語(yǔ)料庫(kù)中包含詞條t的文檔數(shù)量,N表示語(yǔ)料庫(kù)中全部的文檔數(shù)量。
通過(guò)token詞典將關(guān)鍵詞列表轉(zhuǎn)換為數(shù)字列表。對(duì)文本中單詞出現(xiàn)的次數(shù)做統(tǒng)計(jì)并排序,從而將每一條留言的文本分詞列表替換成數(shù)字列表,截長(zhǎng)補(bǔ)短,使得所有記錄的關(guān)鍵詞序列的長(zhǎng)度為50。針對(duì)82 872條留言記錄,最終得到一個(gè)82 872×50的數(shù)組,為模型做數(shù)據(jù)準(zhǔn)備。最后,利用分層抽樣的方法,抽取70%數(shù)據(jù)作為訓(xùn)練集,30%作為測(cè)試集。
卷積神經(jīng)網(wǎng)絡(luò)是一種帶有卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),卷積結(jié)構(gòu)大大減少了深層網(wǎng)絡(luò)占用的內(nèi)存量,全值共享有效減少了網(wǎng)絡(luò)的參數(shù)個(gè)數(shù),緩解了過(guò)擬合問(wèn)題。本文使用基于Tensorflow的keras深度學(xué)習(xí)框架,搭建了兩層卷積神經(jīng)網(wǎng)絡(luò),提高了神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率。卷積層和池化層是卷積神經(jīng)網(wǎng)絡(luò)特征提取的核心模塊,采用自適應(yīng)矩估計(jì)算法(Adaptive moment estimation,Adam)對(duì)網(wǎng)絡(luò)中的權(quán)重參數(shù)逐層反向調(diào)節(jié)[3],使得損失函數(shù)值最小,通過(guò)不斷迭代訓(xùn)練提高神經(jīng)網(wǎng)絡(luò)的精度。模型的流程如圖2所示。
圖2 模型建立流程
(1)embedding層。直接初始化embeddings,基于語(yǔ)料通過(guò)訓(xùn)練模型網(wǎng)絡(luò)來(lái)對(duì)embeddings進(jìn)行更新和學(xué)習(xí),從而將輸入的數(shù)字列表轉(zhuǎn)換為詞向量。
(2)卷積層。經(jīng)過(guò)embedding層之后,每一條留言記錄(留言詳情)由高質(zhì)量特征線性表示,將其輸入卷積層,對(duì)輸入數(shù)據(jù)進(jìn)行特征提取。實(shí)驗(yàn)過(guò)程中,第一層的卷積核大小為3,第二層卷積核的大小為4。采取relu函數(shù)作為激勵(lì)函數(shù)不斷迭代。
(3)池化層。進(jìn)行降維操作,降低文本的向量維度,也是一層特征選取和信息過(guò)濾,由池化大小、步長(zhǎng)和填充控制來(lái)確定池化區(qū)域,實(shí)驗(yàn)過(guò)程中,針對(duì)兩層池化層,取池化大小pol_size=3,步長(zhǎng)stride=3,填充控制padding=same。
(4)全連接層。神經(jīng)網(wǎng)絡(luò)的最后一層,采用全連接層的方式,第二層K_max池化層處理后的文本特征向量經(jīng)過(guò)矩陣的concat和reshape之后變成一維數(shù)組,送入Softmax分類(lèi)器,計(jì)算類(lèi)別概率,預(yù)測(cè)輸出分類(lèi)標(biāo)簽。
本文采用F-score方法對(duì)模型進(jìn)行評(píng)價(jià),根據(jù)分類(lèi)結(jié)果建立混淆矩陣(見(jiàn)表1)。針對(duì)該模型,計(jì)算出各分類(lèi)的精確率、召回率、F1值如表2所示。
表1 分類(lèi)結(jié)果混淆矩陣
表2 模型分類(lèi)效果評(píng)價(jià)
可知,模型的綜合預(yù)測(cè)效果達(dá)到了95%以上,而一般傳統(tǒng)的機(jī)器學(xué)習(xí)模型的準(zhǔn)確率在85%以下,對(duì)于數(shù)據(jù)量大、特征難以提取的文本數(shù)據(jù),用深度學(xué)習(xí)的算法更為合適。用測(cè)試集中的數(shù)據(jù)進(jìn)行預(yù)測(cè),隨機(jī)選取5個(gè)類(lèi)別,從實(shí)驗(yàn)結(jié)果可知,原始數(shù)據(jù)集的標(biāo)簽和預(yù)測(cè)標(biāo)簽的結(jié)果一致。
通過(guò)對(duì)群眾留言的研究,本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的群眾留言分類(lèi)模型,并利用大量的文本數(shù)據(jù)進(jìn)行驗(yàn)證,經(jīng)驗(yàn)證取得了很好的分類(lèi)效果。