王燦 梁霄
(湖北文理學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北 襄陽441053)
近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和盛行,大數(shù)據(jù)時(shí)代已悄然而至,群眾參與政府工作的途徑也越來越多,于是群眾留言信息成為網(wǎng)絡(luò)問政的產(chǎn)物?;ヂ?lián)網(wǎng)的普及加快了網(wǎng)絡(luò)問政的出現(xiàn),它是信息技術(shù)快速發(fā)展和群眾積極性不斷提高的產(chǎn)物,它不但解決了群眾問政的時(shí)空障礙,而且可以讓群眾可以隨時(shí)了解政治動(dòng)態(tài)并直接與政府溝通。
與此同時(shí),網(wǎng)絡(luò)問政也成了學(xué)者的聚焦點(diǎn)。李傳君、李懷陽學(xué)者[1]通過分析政府回應(yīng)網(wǎng)絡(luò)問政存在的問題,提出了構(gòu)建良性的政府回應(yīng)機(jī)制的相關(guān)建議;孟天廣、趙娟[2]討論了關(guān)于了網(wǎng)絡(luò)問政回應(yīng)制度在我國的擴(kuò)散發(fā)展態(tài)勢、制度管理體系設(shè)計(jì)、應(yīng)用以及其運(yùn)行管理模式,考察了政府在不同的管理制度模式下的網(wǎng)絡(luò)問政回應(yīng)制度管理績效,為國家進(jìn)一步建設(shè)現(xiàn)代化的具有回應(yīng)性的政府提供了理論和實(shí)踐參考。沙勇忠[3]等學(xué)者探究政府與群眾互動(dòng)行為對(duì)網(wǎng)絡(luò)問政制度的直接影響,使用文本挖掘技術(shù)和機(jī)器學(xué)習(xí)等方法,利用數(shù)據(jù)探索作為推論——分析統(tǒng)計(jì)檢驗(yàn)的“數(shù)據(jù)驅(qū)動(dòng)”研究理論模式,分析和識(shí)別并描繪了網(wǎng)絡(luò)問政問題中社會(huì)群眾與其他政府以及社會(huì)組織的其他網(wǎng)絡(luò)問政主體互動(dòng)行為及有關(guān)話題的結(jié)構(gòu),進(jìn)一步討論網(wǎng)絡(luò)問政制度效果的影響因素。
本文通過對(duì)武漢市政府網(wǎng)站上的群眾留言和回復(fù)建立分類模型,有助于提高效率,盡快將留言分派至相應(yīng)的職能部門。通過對(duì)群眾留言信息的分析,可以及時(shí)發(fā)現(xiàn)群眾關(guān)心的熱點(diǎn)問題,有助于有關(guān)部門進(jìn)行針對(duì)性地處理,提升政府的服務(wù)效率,對(duì)政府“智慧政務(wù)”的建立具有十分重要的意義。
我們從武漢市政府網(wǎng)站得公開信息中獲取數(shù)據(jù),主要包括群眾留言和政府部門的回復(fù),然后對(duì)獲取的數(shù)據(jù)進(jìn)行分析,實(shí)施數(shù)據(jù)清洗、分詞和去停用詞等文本預(yù)處理操作,并根據(jù)分詞后的結(jié)果畫出高頻詞的詞云圖。本文主要研究的問題有對(duì)群眾留言信息進(jìn)行分類、挖掘熱點(diǎn)問題以及對(duì)政府有關(guān)部門的回復(fù)進(jìn)行評(píng)價(jià)。
本文使用Python中duplicated()方法檢查留言詳情中的重復(fù)對(duì)象,在重復(fù)的留言中,保留一個(gè)即可。中文分詞的目的就是將一個(gè)連貫的句子按照一定的分詞標(biāo)準(zhǔn)將其分成一個(gè)個(gè)具有獨(dú)立含義的詞[4]。分詞的好壞直接影響后期模型的準(zhǔn)確率,它是文本挖掘的基礎(chǔ)。只有經(jīng)過分詞處理,才能把原始的文本數(shù)據(jù)進(jìn)行向量化處理。本文利用Python語言環(huán)境中的jieba工具包對(duì)文本進(jìn)行分詞處理。在本文中,首先擴(kuò)展了通用的停用詞表,然后又自定義了一些新的停用詞,將分詞處理過后所得到的詞與停用詞表進(jìn)行匹配,若匹配成功,則刪除該詞,反之保留。
數(shù)據(jù)中共包含7類一級(jí)標(biāo)簽的9851條數(shù)據(jù),在python語言環(huán)境中,對(duì)這些數(shù)據(jù)重新按標(biāo)簽排列,標(biāo)簽分別為勞動(dòng)和社會(huì)保障、城鄉(xiāng)建設(shè)、教育文體、衛(wèi)生計(jì)生、交通運(yùn)輸、商貿(mào)旅游、環(huán)境保護(hù)。使用duplicated()方法檢查留言詳情中的重復(fù)對(duì)象,結(jié)果顯示有909條重復(fù)對(duì)象,刪除重復(fù)對(duì)象(保留第一個(gè))后,還剩8942條數(shù)據(jù)。去重后各類標(biāo)簽的文本數(shù)量如圖1所示。
圖1 去重后各類別情況
本文采取了通用停用詞表和自定義停用詞表對(duì)留言詳情進(jìn)行分類。通過詞云圖來展示對(duì)留言詳情進(jìn)行這一系列操作后的效果,讓讀者一眼便能看出主要內(nèi)容。以勞動(dòng)和社會(huì)保障類群眾留言詞云圖為例,如圖2所示。
圖2 勞動(dòng)和社會(huì)保障類群眾留言詞云圖
TF-IDF是一種常見的加權(quán)方法,在計(jì)量單詞個(gè)數(shù)的基礎(chǔ)上,降低常見詞的比重,提高稀缺詞的比重。本文先將message(留言詳情)轉(zhuǎn)換成詞頻向量,再將詞頻向量轉(zhuǎn)換成TF-IDF向量,最后開始訓(xùn)練分類器。本文使用了4種不同的機(jī)器學(xué)習(xí)模型,分別為:多項(xiàng)式樸素貝葉斯、線性支持向量機(jī)、邏輯回歸和隨機(jī)森林。這四種模型的準(zhǔn)確率可視化圖如圖3所示。從箱體圖中可以看出隨機(jī)森林分類模型的準(zhǔn)確率最低,主要是因?yàn)殡S機(jī)森林屬于集成分類器——由許多子分類器組成,而集成分類器不適合用來處理高維數(shù)據(jù),比如文本數(shù)據(jù),因?yàn)槲谋緮?shù)據(jù)有許多不同的特征值,使得集成分類器難以應(yīng)付,另外三個(gè)分類器的平均準(zhǔn)確率都在50%以上。其中線性支持向量機(jī)的準(zhǔn)確率最高,故我們選擇支持向量機(jī)模型作為主要的挖掘方法。
圖3 4種機(jī)器學(xué)習(xí)模型的準(zhǔn)確率
其中,準(zhǔn)確率最高的是線性支持向量機(jī)模型,我們查看其混淆矩陣,并將其預(yù)測標(biāo)簽和實(shí)際標(biāo)簽之間的差異表示出來?;煜仃嚾鐖D4所示?;煜仃嚨闹鲗?duì)角線顏色不同,其顯示的是預(yù)測正確的數(shù)量,而除了主對(duì)角線外,其他的都是預(yù)測錯(cuò)誤的數(shù)量。從圖4的混淆矩陣中可以看出“教育文體”這一列除了對(duì)角線數(shù)字和為10,說明有10例預(yù)測錯(cuò)誤,準(zhǔn)確率較高;而“交通運(yùn)輸”這一列除了對(duì)角線數(shù)字和為240,表明有240例預(yù)測錯(cuò)誤,準(zhǔn)確率較低。
圖4 線性支持向量機(jī)模型混淆矩陣
多分類模型一般使用ROC、F-Score等指標(biāo)來評(píng)價(jià)模型,而不使用準(zhǔn)確率評(píng)價(jià),因?yàn)闇?zhǔn)確率反應(yīng)的不是每一個(gè)分類的準(zhǔn)確性,當(dāng)訓(xùn)練數(shù)據(jù)每一類的個(gè)數(shù)相差太大時(shí),準(zhǔn)確率就不可以反映出模型的真實(shí)預(yù)測精度。
從圖5中F1分?jǐn)?shù)來看,“勞動(dòng)和社會(huì)保障”和“商貿(mào)旅游”類的F1分?jǐn)?shù)最高,達(dá)到80%,“交通運(yùn)輸”和“環(huán)境保護(hù)”F1的分?jǐn)?shù)較低,僅34%,主要原因可能是“交通運(yùn)輸”和“環(huán)境保護(hù)”這兩類的數(shù)據(jù)較少,使得支持向量機(jī)模型學(xué)習(xí)的不夠充分,然后導(dǎo)致失誤較多。從該圖中還能看出線性支持向量機(jī)模型的精度為0.70,召回率為0.70,F(xiàn)1分?jǐn)?shù)值為0.69,整體效果較好。
圖5 各個(gè)類的F1分?jǐn)?shù)
主題模型(LDA)算法是數(shù)據(jù)挖掘與文本處理中一個(gè)非常實(shí)用的方法,通過概率分布的形式給出每篇文檔的主題,從文檔中提取實(shí)用的主題信息。對(duì)文字隱藏的主題進(jìn)行建模,改正了以往信息檢索中文檔相似度計(jì)算方法的缺點(diǎn)。在進(jìn)行LDA建模時(shí),需要先確定主題數(shù)量K的值。主題數(shù)量K的值直接影響到最終結(jié)果的好壞。對(duì)于一個(gè)未知的分布,Perplexity(困惑度)越低,則說明模型效果越好。從圖6中可以看出,當(dāng)主題數(shù)為12時(shí),困惑度達(dá)到最低,故我們可以確定最優(yōu)主題數(shù)為12。
圖6 困惑度隨主題數(shù)量的變化圖
根據(jù)確定的最優(yōu)主題數(shù)訓(xùn)練LDA模型,將群眾反映的多數(shù)一致的留言進(jìn)行分類,然后建立熱度評(píng)價(jià)指標(biāo)。本文采用了熱度排行Reddit算法。
根據(jù)預(yù)處理后的數(shù)據(jù),我們建立群眾留言詳情的語料庫詞典,將答復(fù)意見通過doc2bow轉(zhuǎn)化為詞袋模型,對(duì)該模型進(jìn)行進(jìn)一步的處理,獲得新的語料庫,將其通過tfidfmodel處理,得到tfidf。通過計(jì)算token2id得到特征數(shù),然后計(jì)算稀疏矩陣的相似度,建立索引,最后得到相似度結(jié)果。從結(jié)果中我們可以看出,政府答復(fù)意見和對(duì)應(yīng)留言情況的相似度都大于0(主對(duì)角線元素全都大于0),說明政府的答復(fù)意見和群眾留言詳情之間有相關(guān)性。從結(jié)果中,我們還能看出相似度系數(shù)值都不高,究其原因,在實(shí)際生活中,答復(fù)意見都是根據(jù)留言內(nèi)容而定的,一般來說,這兩者之間雖說的是同一個(gè)問題,但一個(gè)是問,一個(gè)是答,兩者之間的聯(lián)系僅僅是主題相同而已,其他內(nèi)容都是不盡相同的,故就造成了相似度值不高這種現(xiàn)象。
本文的主要目的是利用文本挖掘和機(jī)器學(xué)習(xí)技術(shù)建立對(duì)武漢市網(wǎng)絡(luò)問政中群眾留言的多分類模型,并對(duì)模型進(jìn)行評(píng)價(jià)。對(duì)于群眾留言分類,通過對(duì)4種機(jī)器學(xué)習(xí)模型的對(duì)比分析,本文選擇了線性支持向量機(jī)分類模型,其F1值達(dá)到了0.70,分類效果較好。對(duì)于熱點(diǎn)問題分析,通過進(jìn)行LDA建模,首先確定了最優(yōu)主題數(shù)為12,然后根據(jù)確定的主題數(shù)對(duì)留言詳情進(jìn)行劃分,通過Reddit算法建立熱度評(píng)價(jià)指標(biāo),結(jié)果顯示噪聲擾民和強(qiáng)制學(xué)生去定點(diǎn)企業(yè)實(shí)習(xí)是熱度指數(shù)最高的兩個(gè)問題。建議相關(guān)部門多花費(fèi)一些精力去解決這些熱點(diǎn)問題。對(duì)于留言回復(fù)的評(píng)價(jià),通過計(jì)算留言詳情和政府答復(fù)意見的相似度,發(fā)現(xiàn)相似度值都大于0,從而說明了政府的答復(fù)意見和群眾的留言都是相關(guān)的。通過查看詞云圖和高頻詞,可以明顯看出,答復(fù)意見中的前幾個(gè)高頻詞中有“回復(fù)”“收悉”“調(diào)查”等,說明政府對(duì)留言詳情中所涉及的問題基本都進(jìn)行了相應(yīng)的調(diào)查并給予了答復(fù),這些高頻詞表明了政府對(duì)所搜集到的留言都進(jìn)行了答復(fù),并進(jìn)行了相應(yīng)的調(diào)查去核實(shí),這些高頻詞反映出政府答復(fù)意見的完整性和可解釋性都較好。