胡文燁 郭文濤 李振業(yè) 許鴻奎
(山東建筑大學(xué)信息與電氣工程學(xué)院 山東省濟(jì)南市 250000)
近年來,隨著計算機(jī)技術(shù)的發(fā)展,各行業(yè)信息化建設(shè)水平也隨之提高,政務(wù)部門出于對數(shù)據(jù)安全性以及政務(wù)處理智能化的考慮,對于政府的信息化建設(shè)也越來越重視。顯然,政府的信息化建設(shè)必須借助于電子信息及數(shù)字網(wǎng)絡(luò)技術(shù),作為政府信息化建設(shè)中的關(guān)鍵一環(huán),電子政務(wù)業(yè)務(wù)的實(shí)現(xiàn)并不是簡單的將傳統(tǒng)的政府管理事務(wù)及相關(guān)數(shù)據(jù)由紙面遷移到互聯(lián)網(wǎng)上,而是要利用互聯(lián)網(wǎng)技術(shù)給予它們第二次的生命。政府相關(guān)管理事務(wù)需要在互聯(lián)網(wǎng)上進(jìn)行組織結(jié)構(gòu)的重組以及業(yè)務(wù)流程的再造,簡單來說是需要以信息化的方式重塑業(yè)務(wù);而政府在管理運(yùn)行中產(chǎn)生的數(shù)據(jù),也需要在重新整合存儲的基礎(chǔ)上進(jìn)行更加智能化的分析和利用。
2016 年國家首次在政府工作報告中提到了“互聯(lián)網(wǎng)+政務(wù)服務(wù)”的概念,將互聯(lián)網(wǎng)、大數(shù)據(jù)等信息技術(shù)與政府工作緊密連接起來[1]。實(shí)現(xiàn)“互聯(lián)網(wǎng)+政務(wù)服務(wù)”的核心是政務(wù)大數(shù)據(jù)的互通共享,而政務(wù)大數(shù)據(jù)則要依賴信息化、智能化的系統(tǒng)。信息化、智能化的系統(tǒng)可以幫助政務(wù)部門提升工作效率及準(zhǔn)確性,并同步留存關(guān)鍵性的操作數(shù)據(jù)。在政府及中大型企業(yè)中,目前存在并持續(xù)產(chǎn)生的信息形式以文本信息為主,而如何整理文本信息本身就是一個復(fù)雜又消耗時間的過程,因此如何在大量且復(fù)雜的文本信息中獲取到對使用者來說有價值的信息是文本挖掘領(lǐng)域的核心目標(biāo)。文本挖掘是一個涵蓋多種技術(shù)的新興領(lǐng)域,它可以實(shí)現(xiàn)利用計算機(jī)處理技術(shù)從文本數(shù)據(jù)中抽取有價值的信息和知識,同時利用抽取到的知識來更好的組織信息,以便進(jìn)行下一步的利用。這個過程類似于人類學(xué)習(xí)知識又加以應(yīng)用的過程。它的實(shí)現(xiàn)技術(shù)包括了數(shù)據(jù)挖掘技術(shù)[2]、信息檢索[3],機(jī)器學(xué)習(xí)[4]、自然語言處理(natural language processing,NLP)[5]、計算語言學(xué)[6]、線性幾何[7]、概率理論[8]等。表達(dá)文本數(shù)據(jù)最直接的方式就是語言,任何事物都可以通過語言來表達(dá)意圖,政企類文本數(shù)據(jù)作為自然語言的一種表達(dá)形式,從這個角度上來說,自然語言處理是實(shí)現(xiàn)政企類文本數(shù)據(jù)與計算機(jī)之間通信的最合適手段。
文本分類作為文本挖掘領(lǐng)域最基礎(chǔ)且最重要的應(yīng)用,在政企類文本信息的挖掘中有著舉足輕重的作用,它能夠很好的解決大數(shù)據(jù)時代數(shù)據(jù)量大且難以梳理的問題。以政務(wù)部門接線12345 市民熱線電話[9]業(yè)務(wù)為例,業(yè)務(wù)員在接到電話后需要根據(jù)群眾提供的信息首先在新工單中將其整合為事件描述,然后需要根據(jù)個人業(yè)務(wù)經(jīng)驗(yàn)選擇事件處理的部門,由被派單的部門在確認(rèn)后處理,否則工單將被退回重新指派。實(shí)際上,接線員的個人經(jīng)驗(yàn)參差不齊,派單時更多依賴個人想法,且每天接線數(shù)量巨大,給整體的派單準(zhǔn)確率和處理效率都帶來了很大影響,從而影響政府服務(wù)的群眾滿意度。而政企類文本的數(shù)據(jù)來源不僅限于此,社會治理中網(wǎng)格員的事件上報、政府公開網(wǎng)站中群眾反映渠道、各鎮(zhèn)街搜集民意反饋的信息等,來源廣泛、格式風(fēng)格不同的數(shù)據(jù)源成了文本分類中首先要解決的問題。
人們對于文本分類這一文本挖掘應(yīng)用的研究始于上世紀(jì)的50 年代[10]。在此之前一直采用手工分類的方法,直到Luhn 提出的詞匹配法開始走進(jìn)人們的視野[11],但這種方法由于其簡單機(jī)械的特點(diǎn)無法取得好的分類結(jié)果。60 年代以后,Maron 發(fā)表了有關(guān)自動分類的第一篇文章,把文本分類技術(shù)發(fā)展向前推進(jìn)了一個臺階。此后一直到2010 年前后,在文本分類領(lǐng)域占據(jù)主流地位的一直是基于淺層學(xué)習(xí)的模型,例如樸素貝葉斯方法(Nave Bayes,NB)[12],K 近鄰(K‐Nearest Neighbor,KNN)[13]和支持向量機(jī)(Support Vector Machine,SVM)[14]等。
隨著人們對深度學(xué)習(xí)的不斷深入挖掘,自然語言處理領(lǐng)域的難題也得到了不斷突破,通過自然語言處理可以實(shí)現(xiàn)人與機(jī)器之間的交流。在文本分析領(lǐng)域,NLP 做了很大的貢獻(xiàn),而通過結(jié)合NLP 與文本分析,可以幫助政府和企業(yè)在政企類文本大數(shù)據(jù)中獲取更多重要的信息,從而產(chǎn)生巨大的數(shù)據(jù)價值。2005 年,柳炳祥、章義來等人將關(guān)聯(lián)規(guī)則和決策樹兩種數(shù)據(jù)挖掘技術(shù)應(yīng)用到電子政務(wù)數(shù)據(jù)分析中[15],并進(jìn)行了相關(guān)研究,為電子政務(wù)數(shù)據(jù)分析提出了一種新的研究思路。2021 年,李銘鑫等人從自然語言處理的角度對政務(wù)留言文本的分類問題進(jìn)行了研究[16],將機(jī)器學(xué)習(xí)中的邏輯回歸算法、樸素貝葉斯算法以及深度學(xué)習(xí)中的TextCNN 及TextRNN 算法做對比,得出文本一級分類時TextCNN 效果優(yōu)于其他算法。在市民服務(wù)熱線接線分析場景,楊歡提出了Word2vec‐TLSTM‐Attention 的融合神經(jīng)網(wǎng)絡(luò)模型進(jìn)行分類[17],同單一網(wǎng)絡(luò)神經(jīng)模型相比,取得了更好的效果。
上述的研究主要應(yīng)用于語義的簡單分類,例如語句的情感分析或大意理解。然而,隨著業(yè)務(wù)需求不斷提高,對于語句具體含義的理解以及語義與宏觀對象的映射關(guān)系的分析這類復(fù)雜的現(xiàn)實(shí)任務(wù),上述研究所提出的模型并準(zhǔn)確率低且泛化性差,極易出現(xiàn)過擬合問題。而在中文的政企類文本智能分類任務(wù)中,其文本內(nèi)容具有文本較長、信息冗余、映射關(guān)系復(fù)雜、文本質(zhì)量不一等特點(diǎn),對于數(shù)據(jù)處理方法與模型的性能提出了極高的要求。目前,對于中文政企類文本自然語言處理方法的研究大多停留對于簡單模型的應(yīng)用研究,不能滿足實(shí)際應(yīng)用需要,工程落地困難,因此,亟待研究一種擬合能力強(qiáng),泛化性能好的政企類文本智能分類方法。
本文用于訓(xùn)練及學(xué)習(xí)的數(shù)據(jù)集來自于社會治理脫敏數(shù)據(jù),包含了市民熱線、網(wǎng)格員上報、市民信箱、微信公眾號等渠道,數(shù)據(jù)來源比較復(fù)雜。基于NLP 領(lǐng)域目前的相關(guān)研究成果以及前輩老師們的處理經(jīng)驗(yàn),在文本預(yù)處理階段,本文采用了jieba 分詞、去停用詞、LDA 主題模型過濾、Word2vec 詞向量轉(zhuǎn)化等自然語言處理手段;在文本分類研究中對比了DNN、CNN、LSTM、GRU、BERT 等模型的分類效果,在使用經(jīng)典的BERT 預(yù)訓(xùn)練模型的基礎(chǔ)上,對其中的部分參數(shù)和訓(xùn)練方法進(jìn)行調(diào)整,最終得到的模型及參數(shù)得到了81.47%的分類準(zhǔn)確率,相較于其他算法具有明顯的提升。同時,BERT 作為一種無監(jiān)督預(yù)訓(xùn)練模型,通過已經(jīng)訓(xùn)練好的編碼器具備的中文閱讀理解能力,可以應(yīng)用于不同的業(yè)務(wù)場景。此外,本文從模型及技術(shù)實(shí)際應(yīng)用的角度,分析了其在實(shí)際工程生產(chǎn)中的應(yīng)用價值。
在實(shí)際的中文文本分類研究中,原始的中文文本數(shù)據(jù)經(jīng)常會存在許多影響最終分類效果的內(nèi)容,這部分?jǐn)?shù)據(jù)或文本如果不加處理,直接交給模型去學(xué)習(xí),會導(dǎo)致模型無法準(zhǔn)確獲得文本數(shù)據(jù)的特征和語義重點(diǎn),從而會導(dǎo)致模型準(zhǔn)確率低。因此文本預(yù)處理的步驟是幫助文本數(shù)據(jù)更加符合模型的輸入要求而產(chǎn)生的,所有待學(xué)習(xí)的文本數(shù)據(jù)都需要在進(jìn)入文本分類模型之前就被清洗干凈,科學(xué)的文本預(yù)處理環(huán)節(jié)可以起到有效指導(dǎo)選擇、提升模型效果的作用。文本預(yù)處理過程包含的主要環(huán)節(jié)有數(shù)據(jù)清洗(包含缺失值處理、去重處理、噪聲處理、特殊文字處理等)、文本處理(包含分詞、詞性標(biāo)注、命名實(shí)體識別等)、文本張量表示(包含文本編碼、詞向量表示等)、文本語料數(shù)據(jù)分析(包含長度、特征、詞頻等的統(tǒng)計分析)、文本特征處理(包含特征增強(qiáng)、長度規(guī)范等)以及數(shù)據(jù)增強(qiáng)等。
文本數(shù)據(jù)進(jìn)行預(yù)處理前,首先對數(shù)據(jù)情況進(jìn)行分析,以方便確定數(shù)據(jù)處理方法。每一次文本預(yù)處理都應(yīng)該先明確最終你希望把原本的文本數(shù)據(jù)處理成什么格式或者樣例。本文研究的數(shù)據(jù)為政企類文本數(shù)據(jù),數(shù)據(jù)信息具有復(fù)雜性和多變性,且根據(jù)分類目標(biāo)來看,分類數(shù)量多,原始可用數(shù)據(jù)量約12.3 萬條,文本分類的類型數(shù)量約為90。因此本實(shí)驗(yàn)對于文本數(shù)據(jù)在預(yù)處理階段能夠達(dá)到的處理效果有更多的期待,也需要采用更多的方法和途徑來提升文本數(shù)據(jù)與分類模型之間的匹配度。因而在本實(shí)驗(yàn)中,從數(shù)據(jù)的處理前分析、數(shù)據(jù)去重、文本過濾、文本主題挖掘、文本詞向量表示等環(huán)節(jié)都采用了多種方法進(jìn)行效果比較,最終以最優(yōu)的方法進(jìn)行組合,完成文本數(shù)據(jù)的預(yù)處理過程。
政企類文本數(shù)據(jù)的特點(diǎn)是內(nèi)容多,文本的固定位置具有重復(fù)現(xiàn)象。針對某些政企類文本數(shù)據(jù)來說,數(shù)據(jù)的開頭和結(jié)尾分別有表示數(shù)據(jù)來源的信息以及固定的需求表達(dá),或具有某種特定規(guī)律。對于文本數(shù)據(jù)的分析過程來說,這些對類別特征區(qū)分沒有貢獻(xiàn)的文本都是干擾因素,將會影響模型的分析效果,因此首先應(yīng)當(dāng)做去重處理,提取對文本智能分類的分類依據(jù)有實(shí)際貢獻(xiàn)的文本信息。比如在本次實(shí)驗(yàn)數(shù)據(jù)中,來源于12345 市民熱線的文本數(shù)據(jù),由于數(shù)據(jù)是經(jīng)過接線業(yè)務(wù)員轉(zhuǎn)述進(jìn)行重新組合而成的,因而在數(shù)據(jù)結(jié)構(gòu)上顯得較為標(biāo)準(zhǔn)。
以某條文本數(shù)據(jù)為例:張先生來電,某某小區(qū)門口某某路上下水井蓋松動,有安全隱患,請派人維修。處理后請回復(fù)。
在以上文本數(shù)據(jù)中,“張先生來電,”和“處理后請回復(fù)?!痹谒形谋局休^為標(biāo)準(zhǔn),位置固定且內(nèi)容重復(fù),因此可以認(rèn)為,其存在對于模型特征的學(xué)習(xí)并沒有貢獻(xiàn),需要進(jìn)行數(shù)據(jù)去重處理。
文本過濾是在對文本數(shù)據(jù)進(jìn)行去重處理后進(jìn)行的,主要是對數(shù)據(jù)去重后留下的文本信息主體進(jìn)行模型可用信息的過濾提取。常見的處理方法有去停用詞[18]、詞性標(biāo)注、命名實(shí)體識別等。經(jīng)過對于文本數(shù)據(jù)特點(diǎn)的分析,在單條文本描述中,經(jīng)常涉及身份證號、手機(jī)號等數(shù)字字符以及樓牌號等字母字符,以及部分固定的表述方式。這些具有干擾性的文字描述,可通過去停用詞環(huán)節(jié)進(jìn)行處理,即選取合適的中文停用詞表(stop word),再根據(jù)業(yè)務(wù)場景增加部分特有的停用詞,形成具有針對性的專用停用詞表。然后對全量的政企類文本數(shù)據(jù)進(jìn)行文本過濾。而詞性標(biāo)注及命名實(shí)體識別的使用,往往在需要篩查分析不同信息時進(jìn)行使用,對于文本過濾也有很大的意義。例如在文本數(shù)據(jù)描述中出現(xiàn)地名及姓名等,這些都是模型學(xué)習(xí)分類特征不需要的信息,可以通過對于單條文本數(shù)據(jù)詞性的認(rèn)定以及命名實(shí)體識別來篩查去除固定詞性及命名實(shí)體,從而達(dá)到文本過濾的效果。
在文本數(shù)據(jù)描述較長,通過數(shù)據(jù)去重及文本過濾又沒有達(dá)到很好的清洗效果時,可以針對性的進(jìn)行文本主題挖掘的處理。即利用文本分析模型進(jìn)行文本特征學(xué)習(xí)時,將文本數(shù)據(jù)中挖掘到的主題描述結(jié)果,作為輸入的文本特征用于模型訓(xùn)練,其實(shí)際效果可根據(jù)模型學(xué)習(xí)及分類效果進(jìn)行驗(yàn)證。將過濾后的文本利用中文分詞和文本編碼進(jìn)行處理,在此基礎(chǔ)上,采用文本主題挖掘模型提取文本主題關(guān)鍵詞組,形成文本主干;或采用中文詞法分析進(jìn)行文本詞性標(biāo)注并針對性的去除某些詞性的詞語,得到文本關(guān)鍵詞組。文本主題挖掘的過程包括詞干的提取、停用詞的去除、同類詞或語義相近的詞條間的合并、主題排序等。通過文本主題挖掘后得到的主題應(yīng)是彼此間含義不同的一組詞語,且文本信息中較為核心的主題詞匯將排列在前,而用戶有權(quán)在主題挖掘后根據(jù)需要選擇生成主題詞的數(shù)量。
文本主題挖掘可采用TF‐IDF 算法[19]、TextRank 算法以及LDA 主題模型等,在TF‐IDF 算法中,其計算過程如式(1)(2):
其中,ft為詞頻,ni,j表示某個詞在該文本中出現(xiàn)的次數(shù),表示該文本中包含的總詞數(shù);fid為逆向文件頻率,|D|為語料庫中所有文檔總數(shù),為包含詞語ti的文檔數(shù),分母可能出現(xiàn)等于0 的情況,因此使用
在面對某些場景時,可使用改進(jìn)后的詞頻計算公式如式(3):
其中,maxk(nk,j)表示該文本中出現(xiàn)次數(shù)最多的詞的出現(xiàn)次數(shù)
最后計算TF‐IDF,只需要將計算的tf 值與idf 值累乘就得到了某個詞在當(dāng)前文本中的權(quán)重值,經(jīng)過所有詞權(quán)重的排序,就能根據(jù)詞的重要程度保留文本主題。但TF‐IDF 的計算過程決定了它對于長文本數(shù)據(jù)的主題抽取效果較好,對于簡短的文本數(shù)據(jù)結(jié)果則不盡如人意,況且其精準(zhǔn)度很大程度上依賴算法使用的詞表是否合適。
TextRank 算法是一種無監(jiān)督的主題抽取算法,它不依賴于其他語料,可以直接從文本中挖掘主題詞。它的弊端和TF‐IDF 算法類似,在長文本數(shù)據(jù)中表現(xiàn)較好,而且它需要進(jìn)行迭代計算,所以效率會隨著迭代次數(shù)的增加而降低。采用TextRank 算法進(jìn)行關(guān)鍵詞提取,主要步驟如下:
將文本T 按照一個句子進(jìn)行分割,得到T=[S1,S2,...,Sn];
(2)根據(jù)保留的關(guān)鍵詞構(gòu)建有向有權(quán)圖G=(V,E),其中V 為點(diǎn)集合,E 為邊集合,圖中任意兩點(diǎn)Vi,Vj間的邊權(quán)重為Wji。
(3)設(shè)窗口大小為K,根據(jù)以式(4)計算詞語得分:
其中,S(Vi)為詞語得分,I(Vi)為指向Vi點(diǎn)的點(diǎn)集合,O(Vj)為Vj點(diǎn)指向的點(diǎn)集合。根據(jù)公式進(jìn)行迭代傳播,對各節(jié)點(diǎn)得分進(jìn)行排序,得到文本T 的關(guān)鍵詞。
LDA 主題模型方法是一種基于貝葉斯模型誕生的無監(jiān)督的方法,可以自由選擇需要計算的主題詞語數(shù)量,在使用LDA 模型進(jìn)行主題挖掘前,需根據(jù)要處理的文本數(shù)據(jù)訓(xùn)練出LDA 模型,模型將自主學(xué)習(xí)文本數(shù)據(jù)中的詞語重要性,政企類文本數(shù)據(jù)較為規(guī)范,特征比較密集,因此在采用LDA 模型時能得到較好的效果。
文本向量化是將文本表示成眾多能夠表達(dá)文本語義的向量。文本向量化模塊實(shí)現(xiàn)對文本集合的數(shù)值向量化表示,向量化后的文本集合可以被文本分類模型識別和計算。詞語是表達(dá)文本信息的最基本處理單元。當(dāng)前對文本向量化大部分研究都是通過詞向量化實(shí)現(xiàn)的,但也有doc2vec 和str2vec方法將文本和句子作為基本處理單元。為了更好的挖掘句中包含的詞語含義,區(qū)分多類特征,本文采用詞袋模型處理詞向量化的方法進(jìn)行文本向量化表示。
以詞語為處理單元的方法為word2vec 方法[20]。word2vec 方法是基于樣本數(shù)據(jù)中出現(xiàn)的詞語構(gòu)建詞典作為索引,通過統(tǒng)計每個詞語出現(xiàn)的詞頻構(gòu)成向量。word2vec本質(zhì)上是一種簡單的神經(jīng)網(wǎng)絡(luò),它分為CBOW 和Skip‐gram兩種訓(xùn)練模型。CBOW 和Skip‐gram 模型在進(jìn)行處理時目標(biāo)不同,CBOW 模型是根據(jù)周圍的單詞預(yù)測中心單詞,而Skip‐gram 模型則相反。其原理分別如圖1 和圖2 所示。
圖1:CBOW 模型訓(xùn)練原理圖
圖2:Skip-gram 模型訓(xùn)練原理圖
采用gensim 工具包中的word2vec 模型可快速得到文本向量化訓(xùn)練結(jié)果。
文本分類作為一種信息組織和管理的有效方法,在諸多方面有著重要的應(yīng)用,如情感分析、垃圾郵件識別、推薦系統(tǒng)、文檔分類等。將原始數(shù)據(jù)進(jìn)行去重處理、文本過濾、文本主題挖掘等文本預(yù)處理過程后,得到處理后的數(shù)據(jù)集。再根據(jù)分類模型對數(shù)據(jù)集進(jìn)行處理準(zhǔn)備工作。在分析了各種市場主流的文本分類模型后,擬使用比較的分類模型有深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)等。
DNN 模型是基本的深度學(xué)習(xí)網(wǎng)絡(luò),擁有全連接的神經(jīng)元結(jié)構(gòu),包含輸入層、隱藏層、輸出層三部分,使用場景比較廣泛。卷積神經(jīng)網(wǎng)絡(luò)例如CNN,它最初在圖像領(lǐng)域取得了巨大成功,其核心點(diǎn)在于可以捕捉局部相關(guān)性,TextCNN是基于CNN 模型,針對文本領(lǐng)域創(chuàng)造的卷積模型,做文本的特征表達(dá)工作。循環(huán)神經(jīng)網(wǎng)絡(luò)RNN 是NLP 領(lǐng)域常用的模型,它允許信息的持久化,但RNN 容易出現(xiàn)梯度消失或者梯度爆炸的問題,LSTM 和GRU 是改進(jìn)后的兩種算法模型。LSTM 是一種特殊的RNN 模型,是為了解決長序列訓(xùn)練過程中的梯度消失問題而產(chǎn)生的,由4 個全連接層進(jìn)行計算,與原始的RNN 相比,LSTM 增加了一個細(xì)胞狀態(tài),模型的核心結(jié)構(gòu)如圖3。
圖3:LSTM 模型核心結(jié)構(gòu)圖
其中,模型輸入有三部分,即Ct‐1為細(xì)胞狀態(tài)信息,ht‐1為隱層狀態(tài)信息,Xt為t 時刻輸入向量,輸出有兩部分,分別是:細(xì)胞狀態(tài)信息Ct,隱層狀態(tài)信息ht。細(xì)胞狀態(tài)信息和隱層狀態(tài)信息按照不同的線路進(jìn)行傳遞,它們之間的交互叫做“門”結(jié)構(gòu)。在“門”結(jié)構(gòu)中,σ 表示sigmoid 函數(shù),它的輸出在0 到1 之間,tanh是雙曲正切函數(shù),它的輸出在‐1到1 之間。GRU 則是LSTM 網(wǎng)絡(luò)的一種效果很好的變體,相比于LSTM,它的計算更簡單,計算量也比較低,GRU和LSTM 都是通過各種門函數(shù)來將重要特征保留下來,二者實(shí)際效果的優(yōu)劣需針對不同場景來看。
對于語言分析領(lǐng)域,谷歌提出了基于雙向Transformer特征提取器的BERT 模型[21],相較于原來的RNN、LSTM 等,它可以在多個不同層次同時提取詞在句子中的關(guān)系特征,從而能更全面的反映句子意思。BERT 模型的架構(gòu)圖如圖4。
圖4:BERT 模型內(nèi)部架構(gòu)圖
從模型架構(gòu)圖中很明顯可以看出,BERT 模型采用的是雙向編碼,是一個基于雙向transformer 的模型,它可以共同調(diào)節(jié)left‐to‐right 的transformer 和right‐to‐left 的transformer。此外,它將預(yù)訓(xùn)練模型和下游任務(wù)模型結(jié)合在一起,它更注重于識別句子中單詞與單詞之間的關(guān)系或者是句子與句子之間的關(guān)系,它采用一個半監(jiān)督學(xué)習(xí)和語言來表示模型。在預(yù)訓(xùn)練階段,BERT 使用無監(jiān)督的預(yù)測任務(wù)執(zhí)行預(yù)訓(xùn)練,該任務(wù)包括下文遮蔽的語言模型MLM(Masked Language Model,MLM)[22],在執(zhí)行完預(yù)訓(xùn)練后,BERT 模型會針對下游任務(wù)進(jìn)行fine‐tune 來微調(diào)模型參數(shù),以達(dá)到最適應(yīng)的效果。
本實(shí)驗(yàn)的原始數(shù)據(jù)量約12.3 萬條,文本分類的類型數(shù)量約為90。原始數(shù)據(jù)采用隨機(jī)劃分的方式,以8:1:1 的比例劃分為訓(xùn)練集、驗(yàn)證集、測試集,使用訓(xùn)練集訓(xùn)練模型,選取在驗(yàn)證集中表現(xiàn)最好的模型,在測試集中測試模型分類準(zhǔn)確率,以測試集的準(zhǔn)確率作為實(shí)驗(yàn)的評價指標(biāo)。
劃分?jǐn)?shù)據(jù)集后,將每個數(shù)據(jù)集進(jìn)行一定的文本預(yù)處理。為適應(yīng)各類模型的輸入要求,實(shí)驗(yàn)中采用的文本預(yù)處理方法包括根據(jù)文檔中文字出現(xiàn)頻率訓(xùn)練編碼器,文本去重、過濾并編碼,文本去重、過濾、提取主題并編碼,BertTokenizer編碼器,文本去重、過濾、提取主題、BertTokenizer 編碼器等。
將處理后的輸入量輸入分類模型,進(jìn)行文本智能分類訓(xùn)練,并在訓(xùn)練過程中調(diào)整各訓(xùn)練參數(shù)以尋求更優(yōu)結(jié)果。在實(shí)驗(yàn)結(jié)果分析中,發(fā)現(xiàn)在文本預(yù)處理過程中將文本處理的越詳細(xì),模型獲取到的特征越清晰;在模型的互相比較中,BERT 模型在經(jīng)過參數(shù)調(diào)優(yōu)后取得的效果明顯優(yōu)于其他模型,因此著重對BERT 模型的實(shí)驗(yàn)過程進(jìn)行介紹。
首先使用transformers 中的BertTokenizer 編碼器對文本進(jìn)行編碼,其次對編碼數(shù)據(jù)進(jìn)行預(yù)處理:
通過分析,添加特殊編碼[CLS]、[SEP]、[UNK]等標(biāo)志以幫助執(zhí)行分類任務(wù)。
構(gòu)建輸入矩陣:輸入矩陣存放編碼結(jié)果;輔助矩陣使用全零矩陣;注意力掩碼矩陣用于記錄輸入文字長度;標(biāo)簽矩陣存放類別標(biāo)簽。
在模型微調(diào)環(huán)節(jié),使用預(yù)訓(xùn)練模型,對模型進(jìn)行fine‐tune 微調(diào)。具體過程為:
(1)獲取模型:獲取預(yù)訓(xùn)練模型結(jié)構(gòu)與參數(shù);
(2)分類模型構(gòu)建:在預(yù)訓(xùn)練模型后添加MLP 分類器,采用激活函數(shù)softmax;
(3)模型優(yōu)化:優(yōu)化器使用Adam 優(yōu)化器,設(shè)置參數(shù)solver 為’adam’,損失函數(shù)為稀疏分類交叉熵;
(4)模型訓(xùn)練。
在完成全部模型的訓(xùn)練及測試后,得到最終測試集準(zhǔn)確率,多次實(shí)驗(yàn)后各模型及不同編碼方式的分類效果對比如表1 所示。
表1:各模型及不同編碼方式的分類效果對比
在對各類模型進(jìn)行參數(shù)優(yōu)化以及編碼方式的不同效果對比后,可以看出,DNN 作為最基礎(chǔ)的深度學(xué)習(xí)算法,在模型未加改進(jìn)以及優(yōu)化的前提下準(zhǔn)確率較低,而作為后續(xù)出現(xiàn)的CNN 以及GRU、LSTM 等算法都針對文本智能分類工作表現(xiàn)出了各自的優(yōu)勢,其中BERT 作為建立在雙向transformer 上的語言處理模型,以其強(qiáng)大的中文文本理解能力以及模型參數(shù)微調(diào)的能力取得了相對較好的結(jié)果,面對分類種類多、原始數(shù)據(jù)有傾斜的樣本現(xiàn)狀,也有較好的表現(xiàn),完成了預(yù)期實(shí)現(xiàn)的目標(biāo)。而在編碼方式上,通過數(shù)據(jù)對比可以得知,提取文本主題作為模型輸入的方式能夠使模型更好的學(xué)習(xí)樣本特征,在不同的模型中均有準(zhǔn)確率提升的效果。
本實(shí)驗(yàn)針對數(shù)據(jù)原始特征及特性,從各個實(shí)驗(yàn)環(huán)節(jié)提高了實(shí)驗(yàn)效果。對于樣本類別不均衡導(dǎo)致的部分類別特征少,很難從中提取規(guī)律的情況,在具體分析模型效果后,采用了BERT 預(yù)訓(xùn)練模型,使得模型獲得足夠優(yōu)秀的中文閱讀理解能力,再使用fine‐tune 的微調(diào)方法實(shí)現(xiàn)文本分類任務(wù)的需求,降低了對于樣本數(shù)據(jù)的依賴。對于傳統(tǒng)分類模型帶來的嚴(yán)重過擬合現(xiàn)象,采用了MLM 對雙向的Transformers 進(jìn)行預(yù)訓(xùn)練,以生成深層的雙向語言表征,有效的提升了模型的特征提取能力。同時,通過遷移學(xué)習(xí)的方法有效的解決了模型過擬合問題。在通過對實(shí)驗(yàn)?zāi)P偷慕M合和改進(jìn)后,最終獲得了81.47%的效果,優(yōu)化了傳統(tǒng)方法和數(shù)據(jù)本身特點(diǎn)帶來的弊端,唯一值得注意的是,整個訓(xùn)練過程往往需要強(qiáng)大的算力來支撐。
實(shí)際工程項(xiàng)目中的政企類文本數(shù)據(jù)來源廣、數(shù)據(jù)質(zhì)量不一,用于分析的數(shù)據(jù)量收到實(shí)際情況的限制,因而在解決政企類文本分析相關(guān)問題上仍然是一個需要研究的課題。通過以及訓(xùn)練好的模型具備的中文閱讀理解能力,可以應(yīng)對實(shí)際工程中超過80%以上的識別需求。
近年來,智慧城市的建設(shè)漸漸成為數(shù)字化政府建設(shè)的重點(diǎn)需求,而社會治理作為政務(wù)服務(wù)管理中的重要環(huán)節(jié),對于民情事件的智能化流轉(zhuǎn)和迅速響應(yīng)是核心需求?;贜LP的政企類文本智能分類,可以以民情事件的責(zé)任部門作為分類目標(biāo),為部門設(shè)定分類標(biāo)簽,設(shè)置業(yè)務(wù)流程,以文本智能分類手段替代常規(guī)人工業(yè)務(wù)流轉(zhuǎn),從而實(shí)現(xiàn)系統(tǒng)的事件智能分派功能,節(jié)省人工成本、提高處理效率的同時,為城市建設(shè)賦予更多的智能化元素。
此外,政務(wù)服務(wù)部門作為工作量較大、民眾需求比較集中的部門,為更快更好的解決民眾實(shí)際問題,也需要以智能機(jī)器人的形式輔助政務(wù)服務(wù)工作。在保證民眾滿意度的情況下,面對各式各樣的群眾需求,政企類文本智能分類的實(shí)現(xiàn)備受關(guān)注,因而通過分析文本智能分類工作可以大大提升群眾滿意度和政務(wù)工作的積極性。政務(wù)工作的業(yè)務(wù)需求也是推進(jìn)NLP 領(lǐng)域迅速發(fā)展的主要因素。