蔡惠民,印忠文,岳世彬
(1.中電科大數(shù)據(jù)研究院有限公司,貴州 貴陽 550022; 2.提升政府治理能力大數(shù)據(jù)應(yīng)用技術(shù)國家工程實驗室,貴州 貴陽 550022)
2017年以來,最高人民檢察院先后出臺了《關(guān)于深化智慧檢務(wù)建設(shè)的意見》、《全國檢察機(jī)關(guān)智慧檢務(wù)行動指南2018-2020年》等重要文件,為打造智慧檢務(wù)明確了發(fā)展方向。智慧檢務(wù)是指運(yùn)用大數(shù)據(jù)、人工智能等新興技術(shù),通過對司法數(shù)據(jù)的有機(jī)整合與智能分析,挖掘數(shù)據(jù)的潛在價值,使其服務(wù)于司法應(yīng)用,推動更高形式的檢察信息化建設(shè),對于輔助科學(xué)決策、提升辦案效能、規(guī)范司法辦案、推進(jìn)司法改革等有重要意義[1-2]。
隨著大數(shù)據(jù)時代的到來,檢務(wù)大數(shù)據(jù)的積累為進(jìn)一步推進(jìn)智慧檢務(wù)建設(shè)奠定了堅實基礎(chǔ)。檢答網(wǎng)是檢察人員內(nèi)部業(yè)務(wù)研討交流平臺。其作為檢務(wù)信息化建設(shè)的重要組成部分,多年來積累了大量用戶對檢察業(yè)務(wù)知識的咨詢數(shù)據(jù),以及檢察機(jī)關(guān)各級領(lǐng)域?qū)<覍τ脩魡栴}的解答與回復(fù)數(shù)據(jù)。然而,隨著檢察機(jī)關(guān)辦理的案件日益增多,基層檢察辦案人員等用戶對檢務(wù)知識咨詢需求不斷增大,僅僅依賴檢務(wù)領(lǐng)域?qū)<覍ζ淙斯せ卮鹦枰度氪罅康娜肆Τ杀?。其次,對問題的回復(fù)往往需要遵循特定的流程規(guī)范和內(nèi)容審核,使用戶的問題得不到及時解決。同時,很多常規(guī)檢務(wù)知識的提問頻次較高,存在重復(fù)性人工解答的現(xiàn)象。
為了提高用戶咨詢服務(wù)效率,增強(qiáng)計算機(jī)正確理解用戶提問意圖的能力,并準(zhǔn)確預(yù)測用戶提問內(nèi)容所屬的業(yè)務(wù)類型,是構(gòu)建智能問答系統(tǒng)的關(guān)鍵環(huán)節(jié)。因此,該文將基于檢答網(wǎng)用戶提問數(shù)據(jù),提出一種面向檢務(wù)領(lǐng)域用戶咨詢的業(yè)務(wù)類型分類模型。首先對檢答網(wǎng)原始數(shù)據(jù)中的業(yè)務(wù)類型重新進(jìn)行梳理與歸并,構(gòu)建數(shù)據(jù)集。其次,基于句法依存分析得到用戶提問內(nèi)容的圖表示,并應(yīng)用RGCN圖神經(jīng)網(wǎng)絡(luò)模型[3]提取其特征。同時基于鄰域窗口得到用戶提問內(nèi)容的圖表示,將GAT圖神經(jīng)網(wǎng)絡(luò)模型[4]作為其特征編碼器。最后,構(gòu)建一種融合兩種圖表示特征的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)模型,并通過引入輔助分類器優(yōu)化模型性能,采用Focal Loss損失函數(shù)[5]解決樣本數(shù)據(jù)的不均衡問題,實現(xiàn)對用戶提問內(nèi)容的業(yè)務(wù)類型預(yù)測與性能評估,為進(jìn)一步構(gòu)建面向檢務(wù)領(lǐng)域智能問答系統(tǒng)打下堅實的基礎(chǔ)。
文本分類是自然語言處理的基礎(chǔ)問題。與傳統(tǒng)基于樸素貝葉斯方法[6]、支撐向量機(jī)(SVM)[7-8]等文本分類方法相比,以卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9-12]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[13-14]、長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)[15-16]等為代表的深度學(xué)習(xí)模型提供了一種端對端的文本分類方法,以數(shù)據(jù)驅(qū)動的方式自動學(xué)習(xí)文本中潛在的語義模式,避免了人工構(gòu)建特征的繁瑣工作,并獲得了更優(yōu)性能。自2018年提出BERT模型[17]以來,以BERT模型為基礎(chǔ)的多種自然語言處理任務(wù)均獲得較大性能提升。文獻(xiàn)[18]利用預(yù)訓(xùn)練BERT模型提取文本的字符特征,作為文本分類器的輸入。文獻(xiàn)[19]提出了多種基于BERT模型的微調(diào)方法,使其應(yīng)用于文本分類。文獻(xiàn)[20]則將BERT模型用于中文短文本分類。
近年來以圖卷積神經(jīng)網(wǎng)絡(luò)為代表的圖神經(jīng)網(wǎng)絡(luò)模型得到了關(guān)注和發(fā)展[21-22]。圖神經(jīng)網(wǎng)絡(luò)模型不僅保留了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)良特性,同時具有能適應(yīng)圖數(shù)據(jù)的特點,使深度學(xué)習(xí)技術(shù)與圖數(shù)據(jù)的有效結(jié)合成為必然。圖神經(jīng)網(wǎng)絡(luò)通過迭代聚合鄰域節(jié)點特征而學(xué)習(xí)到圖數(shù)據(jù)中各節(jié)點的特征向量,從而支撐節(jié)點分類任務(wù)和圖分類任務(wù)。圖神經(jīng)網(wǎng)絡(luò)模型與自然語言處理技術(shù)的結(jié)合也成為一種趨勢。文獻(xiàn)[23]提出了基于詞與詞之間的互信息,以及詞與文檔之間的TF-IDF權(quán)重構(gòu)建整個文本語料庫圖網(wǎng)絡(luò),并通過圖神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)對語料庫圖網(wǎng)絡(luò)文檔節(jié)點的分類。然而,這種構(gòu)建大規(guī)模文本圖網(wǎng)絡(luò)實現(xiàn)節(jié)點分類的方式雖然能利用語料庫中全局信息,但并不適合模型的在線部署,同時存在較大的內(nèi)存消耗。為此,文獻(xiàn)[24]通過詞的鄰域窗口構(gòu)建文檔的圖表示,并提出了基于文檔的圖神經(jīng)網(wǎng)絡(luò)分類模型。文本的句法依存關(guān)系也用于文本的圖表示。文獻(xiàn)[25]通過將圖神經(jīng)網(wǎng)絡(luò)用于句法依存圖,實現(xiàn)機(jī)器翻譯。文獻(xiàn)[26-27]則將圖神經(jīng)網(wǎng)絡(luò)與句法依存樹相結(jié)合,用于事件抽取任務(wù)。
智能問答系統(tǒng)中的意圖識別通常需要解決用戶提問文本內(nèi)容的領(lǐng)域分類[28]。針對檢答網(wǎng)用戶提問內(nèi)容的長度短等特點,多樣化的圖表示有利于充分挖掘短文本的有用信息,因此嘗試構(gòu)建能融合不同圖表示的異構(gòu)圖神經(jīng)網(wǎng)絡(luò),以用于面向檢務(wù)知識咨詢的文本分類任務(wù)。
針對檢答網(wǎng)中的用戶提問數(shù)據(jù),用戶提問內(nèi)容的長度不一:有些提問簡短,只包含一句話;有些提問的描述較為具體,可能包含多句話。因此,本節(jié)先從句子粒度考慮,通過句法依存分析構(gòu)建單個句子的圖表示。針對多句話的用戶問題,通過單句的圖表示構(gòu)建多句的圖表示。
2.1.1 單句的圖表示
針對中文文本,當(dāng)前句法依存樹的提取技術(shù)較為成熟,該文采用哈工大語言技術(shù)平臺的LTP工具,用于檢答網(wǎng)中用戶提問內(nèi)容的句法依存分析,并基于提取的句法依存樹構(gòu)建單句的圖表示。具體為:首先以句子為單位,將用戶提問內(nèi)容切分為多個句子的集合。針對每個句子,應(yīng)用LTP工具得到分詞后詞與詞之間的句法依存關(guān)系及其指向關(guān)系。以分詞后每個詞為圖節(jié)點,節(jié)點的特征初始化為Word2vec預(yù)訓(xùn)練模型[29]的詞向量。基于句法依存指向關(guān)系列表,連接詞與詞之間存在指向關(guān)系的所有邊,句法依存關(guān)系即定義為邊的類型。考慮到基于句法依存分析的邊稀疏性,為了利于圖神經(jīng)網(wǎng)絡(luò)的特征聚合,將原有句法依存指向性的單向邊更改為雙向邊。同時添加一個句子節(jié)點,該節(jié)點連接句法依存關(guān)系為“HED”的詞匯節(jié)點。此外,句子節(jié)點的特征向量初始化為Word2vec預(yù)訓(xùn)練模型中“起點”的詞向量。通過這種方式,構(gòu)建單句的圖表示。
2.1.2 多句的圖表示
針對多句話的用戶問題,假設(shè)已通過句法依存分析工具得到單句的圖表示,該文通過雙向連接相鄰句子的句子節(jié)點,從而構(gòu)建多句的圖表示。其中該雙向連接的邊類型定義為“SLINK”,如圖1所示。圖1的A部分示意了用戶提問“是否應(yīng)該抗訴?依據(jù)的條款是什么?”經(jīng)過句法依存分析后的多句圖表示。該圖表示的邊均為雙向邊,邊的類型取決于句法依存分析的結(jié)果,句子與句子之間通過類型為“SLINK”的雙向邊連接。
圖1 基于句法依存分析及基于鄰域窗口的多句圖表示(d=2)
基于句法依存分析的圖表示雖然將用戶提問內(nèi)容分解為詞與詞之間的句法關(guān)系,但卻忽略了詞與詞之間的鄰域關(guān)系。而詞的鄰域關(guān)系在詞向量學(xué)習(xí)中有廣泛應(yīng)用。同時,HUANG等提出了將詞的鄰域關(guān)系應(yīng)用于圖神經(jīng)網(wǎng)絡(luò),證明了其可行性與有效性。因此,該文同時考慮基于鄰域窗口的圖表示。
2.2.1 單句的圖表示
基于鄰域窗口的圖表示方式仍以分詞后每個詞為圖節(jié)點,節(jié)點的特征初始化為Word2vec預(yù)訓(xùn)練模型的詞向量。假設(shè)詞的鄰域定義為與詞的距離不大于d的詞集合,則基于鄰域窗口的圖表示構(gòu)建規(guī)則為:單句分詞后每個詞為圖的節(jié)點,每個詞與其鄰域中每個詞建立雙向邊連接,從而得到該單句的圖表示??紤]到用戶提問內(nèi)容長度較短,該文將d設(shè)為2。
2.2.2 多句的圖表示
針對檢答網(wǎng)中用戶提問數(shù)據(jù)的多句情況,仍采用2.1節(jié)中多句圖表示的策略。即通過雙向邊連接相鄰句子的句子節(jié)點,使句子之間的信息可以交流。對于每個句子,句子節(jié)點與句法關(guān)系為“HED”的詞節(jié)點相連,與2.1節(jié)保持一致,如圖1所示。圖1的B部分示意了用戶提問內(nèi)容基于鄰域窗口的多句圖表示。該圖表示的邊均為雙向邊,句子與句子之間也通過雙向邊連接,但不考慮邊類型。
該文同時考慮基于句法依存分析的圖表示,以及基于鄰域窗口的圖表示。從不同維度提取用戶提問內(nèi)容的結(jié)構(gòu)信息,充分利用短文本的有限信息,有利于對提問意圖的正確理解。由于這兩種圖表示方法的差異性,提出一種基于異構(gòu)圖的圖神經(jīng)網(wǎng)絡(luò)模型,將提取并融合這兩種圖表示的特征。
(1)
該文應(yīng)用兩層RGCN編碼器對基于句法依存分析的圖表示提取特征,如圖2中M1部分所示。由于用戶提問內(nèi)容的長度較短,而基于句法依存分析的所構(gòu)建的圖較簡單,不采用更多的RGCN層有利于避免圖神經(jīng)網(wǎng)絡(luò)的過平滑效應(yīng)。每層RGCN編碼器后都經(jīng)過ELU非線性變換以及DropOut層。最后通過ReadOut層得到圖表示的特征編碼。其中ReadOut層定義為輸入全局最大池化和輸入全局平均池化的拼接。
(2)
(3)
基于句法依存分析的圖表示與基于鄰域窗口的圖表示分別經(jīng)過特征編碼后,即各自ReadOut層的輸出向量通過拼接的融合方式作為輸出層的輸入。輸出層由兩層全連接層組成。第一層全連接層后經(jīng)ELU非線性變換以及DropOut層,而第二層全連接層通過Softmax層輸出各類的預(yù)測概率,如圖2中M3部分所示。
圖2 面向檢答網(wǎng)用戶咨詢問題分類的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)模型
為了應(yīng)對異構(gòu)圖特征融合和訓(xùn)練樣本不均衡等問題,該文針對異構(gòu)圖神經(jīng)網(wǎng)絡(luò)模型,通過引入輔助分類器[30]來增強(qiáng)底層網(wǎng)絡(luò)的特征學(xué)習(xí)能力,有效防止梯度消失;同時通過引入Focal Loss損失函數(shù)應(yīng)對訓(xùn)練樣本的不均衡問題。
該文分別針對圖2中M1部分的特征編碼器和M2部分的特征編碼器額外添加全連接層和Softmax層,作為兩個輔助分類器的輸出,如圖3所示。因此,M1部分的ReadOut層引出的輔助分類器對應(yīng)損失函數(shù)Loss1,原M3部分的分類器對應(yīng)損失函數(shù)Loss2,而M2部分的ReadOut層引出的輔助分類器對應(yīng)損失函數(shù)Loss3??偟膿p失函數(shù)Loss通過Loss1、Loss2和Loss3加權(quán)求和而得。如公式(4)所示,Loss1和Loss3賦予相同的權(quán)重α,則Loss2的權(quán)重為1-2α,其中權(quán)重α位于0到0.5區(qū)間。輔助分類器的引入將增加反向傳播的梯度信號,并增強(qiáng)了正則化效果,有利于底層M1部分特征、底層M2部分特征的學(xué)習(xí)。
圖3 異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的輔助分類器示意圖
Loss=α×Loss1+(1-2α)×Loss2+α×Loss3
(4)
由2.1節(jié)可知,檢答網(wǎng)用戶提問內(nèi)容歸并為16個類別,而這些類別存在樣本數(shù)量不均衡的問題,且有些類別的樣本數(shù)量差異較大。解決訓(xùn)練樣本不均衡的方法有很多,該文主要應(yīng)用Focal Loss損失函數(shù),如公式(5)所示,其中N代表總樣本數(shù)量,K代表總類別數(shù),yn,k為第n個樣本屬于類別k的真值,I為指示函數(shù),pi,n,k為圖3中與Lossi對應(yīng)的M模塊關(guān)于分類類別為k的預(yù)測概率。通過對樣本數(shù)量較少的類別k賦予較大的權(quán)重βk來平衡其反向傳播中的梯度信號大小。其中各類別的權(quán)重取值策略為:各類別的歸一化權(quán)重βk正比于自身樣本數(shù)Nk倒數(shù)的平方根。取倒數(shù)的平方根是為了防止權(quán)重差異較大對模型訓(xùn)練帶來的不穩(wěn)定性,如公式(6)所示。另一方面,γ用于鼓勵提高困難樣本對梯度的貢獻(xiàn),而減少簡單樣本的權(quán)重,該文γ取值為1。
(yn,k=1)βk(1-pi,n,k)rlog(pi,n,k)
(5)
(6)
該文以檢答網(wǎng)用戶提問的文本數(shù)據(jù)為研究對象,其提問內(nèi)容覆蓋了全國各省市檢察院檢察辦案人員以及基層檢察辦案人員對檢務(wù)領(lǐng)域的知識咨詢。原始數(shù)據(jù)共包含了53 362條數(shù)據(jù),每條數(shù)據(jù)包含了脫敏后的用戶ID、提問內(nèi)容、業(yè)務(wù)分類等字段。針對用戶提問內(nèi)容的業(yè)務(wù)分類預(yù)測需求,從原始數(shù)據(jù)中提取了提問內(nèi)容和業(yè)務(wù)分類兩個字段用于構(gòu)建數(shù)據(jù)集。
對用戶提問內(nèi)容的業(yè)務(wù)類型進(jìn)行數(shù)據(jù)統(tǒng)計分析時,發(fā)現(xiàn)其存在以下問題:其一,業(yè)務(wù)類型較多,達(dá)到31個業(yè)務(wù)類別;其二,各個業(yè)務(wù)類型下的數(shù)據(jù)數(shù)量分布極不均衡,其中業(yè)務(wù)類別“普通犯罪檢察”的樣本數(shù)量達(dá)到最多的18 271條,而業(yè)務(wù)類別“鐵檢”和“公訴二”的樣本數(shù)量僅為5條;其三,業(yè)務(wù)類型分類存在界限模糊、部分類別重復(fù)定義的情況,比如業(yè)務(wù)類型“未檢”和“未成年人檢察”應(yīng)為相同類別,又如業(yè)務(wù)類型“公益訴訟”和“公益訴訟檢察”可歸并為相同類別。
因此,為了支撐分類算法模型的構(gòu)建,對原始數(shù)據(jù)進(jìn)行預(yù)處理,具體處理內(nèi)容包括:(1)以人工的方式逐條分析用戶提問內(nèi)容和業(yè)務(wù)分類信息,排除無效數(shù)據(jù),并對錯誤分類的數(shù)據(jù)進(jìn)行重新標(biāo)注;(2)去除業(yè)務(wù)類別樣本量不足的少數(shù)數(shù)據(jù);(3)基于檢務(wù)知識背景,制定統(tǒng)一的業(yè)務(wù)分類標(biāo)簽體系,對類別重復(fù)的數(shù)據(jù)進(jìn)行合并和類別標(biāo)簽統(tǒng)一,將業(yè)務(wù)類別數(shù)量從31個壓縮至16個。圖4顯示了16個業(yè)務(wù)類型對應(yīng)的樣本數(shù)量分布圖,其中類型為“司改”的樣本數(shù)量僅為31,因此在圖4中沒有得到清晰顯示。
圖4 檢答網(wǎng)用戶提問數(shù)據(jù)業(yè)務(wù)類型樣本數(shù)量直方圖
最后,對預(yù)處理后每條數(shù)據(jù)的順序隨機(jī)化,并分別對16個業(yè)務(wù)類別按7∶1∶2相同的比例抽取樣本形成訓(xùn)練集、驗證集和測試集,其大小分別為36 275、5 196和10 382。圖5給出了檢答網(wǎng)用戶提問內(nèi)容文本長度直方圖。從圖可知,檢答網(wǎng)用戶提問內(nèi)容以短文本為主。
圖5 檢答網(wǎng)用戶提問內(nèi)容文本長度直方圖
考慮到檢答網(wǎng)用戶提問內(nèi)容的業(yè)務(wù)類別在訓(xùn)練集、驗證集和測試集中存在類型樣本分布極度不均衡等問題,如圖4所示,該文將以宏平均-準(zhǔn)確率作為算法模型性能的統(tǒng)一評估標(biāo)準(zhǔn)。宏平均-準(zhǔn)確率定義為計算各個業(yè)務(wù)類型分類準(zhǔn)確率的平均值。
異構(gòu)圖神經(jīng)網(wǎng)絡(luò)參數(shù)設(shè)置如下:圖3中的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)模型基于Pytorch Geometric框架構(gòu)建。對于M1部分的RGCN層,針對基于句法依存分析的圖表示,邊的類型通過遍歷訓(xùn)練集中所有用戶提問內(nèi)容經(jīng)過句法依存分析后,得到的句法依存關(guān)系集合,同時添加用于連接句子節(jié)點之間的“SLINK”關(guān)系類型??紤]到訓(xùn)練集之外可能存在其他的句法依存關(guān)系,因此添加一個“Others”關(guān)系類型用于應(yīng)對特殊情況,共16個關(guān)系類型。為了縮減RGCN層的參數(shù),每個RGCN層的隱層大小為64。對于M2部分的GAT層,每個GAT層的隱層大小設(shè)置為64。對于M3部分的第一個全連接層,其隱層大小為128。而第二個全連接層的輸出大小為16,即業(yè)務(wù)類型的類別數(shù)量。
模型訓(xùn)練參數(shù)設(shè)置如下:異構(gòu)圖神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 1。訓(xùn)練樣本的batch size設(shè)置為64,epoch的大小設(shè)置為300。訓(xùn)練過程中,根據(jù)模型在驗證集上的指標(biāo)表現(xiàn)確定最終的模型參數(shù)。
模型訓(xùn)練與測試的硬件環(huán)境為:CPU型號為Intel(R) Xeon(R) CPU E5-2620 v4 32核,內(nèi)存64G,GPU型號為NVIDIA GTX1080ti。其軟件環(huán)境為:操作系統(tǒng)為Ubuntu 16.04.7 LTS,Python版本為3.6。
3.3.1 超參數(shù)α對模型的影響
模型的RGCN編碼器和GAT編碼器分別引入輔助分類器,其對應(yīng)的損失函數(shù)為Loss1和Loss3。為了評估超參數(shù)α對模型的影響,該文以0.1為步長從0開始掃描超參數(shù)α,并記錄模型在驗證集下的最大宏平均-準(zhǔn)確率。如圖6所示,超參數(shù)α等于0時,模型在驗證集上的最大宏平均-準(zhǔn)確率為59.3%,此時Loss1和Loss3的權(quán)重均為0,等效于不引入輔助分類器的情況。超參數(shù)α等于0.3時,模型在驗證集上的最大宏平均-準(zhǔn)確率為61.6%,高于超參數(shù)α取其他值時的性能。此時Loss1和Loss3的權(quán)重均為0.3,Loss2的權(quán)重為0.4。通過進(jìn)一步測試,超參數(shù)α等于0和0.3時模型在測試集上的宏平均-準(zhǔn)確率分別為58.0%和59.3%,模型性能提升了1.3%。該對比實驗也說明了通過引入輔助分類器,有助于RGCN編碼器和GAT編碼器的特征學(xué)習(xí),從而提升了模型的整體性能。因此,模型在后續(xù)的性能評估中,超參數(shù)α固定為0.3。
圖6 超參數(shù)α對模型性能在驗證集上的影響
3.3.2 不同編碼器對模型的影響
針對檢答網(wǎng)用戶提問內(nèi)容,該文采用RGCN編碼器對基于句法依存的圖表示進(jìn)行特征提取,同時采用GAT編碼器對基于鄰域窗口的圖表示進(jìn)行特征提取,最后通過特征的拼接融合方式實現(xiàn)所屬業(yè)務(wù)類型的分類,該模型定義為Model-RGCN+GAT。為了評估不同編碼器對模型性能的影響,將獨立采用RGCN編碼器的模型定義為Model-RGCN,模型結(jié)構(gòu)如圖3中M1直接作為M3的輸入,無輔助分類器和M2部分。同時,獨立采用GAT編碼器的模型定義為Model-GAT,模型結(jié)構(gòu)如圖3中M2直接作為M3的輸入,無輔助分類器和M1部分。三者在測試集上的表現(xiàn)如表1所示。從對比結(jié)果看,RGCN編碼器提取的特征與GAT編碼器提取的特征融合后對提升業(yè)務(wù)類型分類的宏平均-準(zhǔn)確率更有幫助。
表1 不同編碼器條件下的模型性能對比
3.3.3 損失函數(shù)對模型的影響
該文引入Focal Loss損失函數(shù)的目的是為了應(yīng)對檢答網(wǎng)用戶提問數(shù)據(jù)中業(yè)務(wù)類型樣本較大的分布差異。為了評估損失函數(shù)對模型性能的影響,如表2所示,將Model-F定義為引入Focal Loss損失函數(shù)的情況(與章節(jié)3.3.2中的Model-RGCN+GAT相同),而Model-C定義為采用傳統(tǒng)交叉熵?fù)p失函數(shù)的情況。表2展示了Model-F和Model-C在測試集上各個業(yè)務(wù)類型的分類準(zhǔn)確率以及宏平均準(zhǔn)確率。由數(shù)據(jù)對比可知,采用傳統(tǒng)交叉熵?fù)p失函數(shù)時,模型的宏平均準(zhǔn)確率為53.7%。對于樣本數(shù)量最少的“司改”類型,模型的預(yù)測準(zhǔn)確率為0。而引入Focal Loss損失函數(shù)后,模型的宏平均準(zhǔn)確率為59.3%,性能提升了5.6%。該模型在各業(yè)務(wù)類型的預(yù)測準(zhǔn)確率更均衡,有13個類別的預(yù)測準(zhǔn)確率均高于對照組。該對比實驗說明了Focal Loss損失函數(shù)有效解決了檢答網(wǎng)用戶提問內(nèi)容業(yè)務(wù)類型的樣本數(shù)量不均衡問題。
表2 Focal Loss損失函數(shù)與傳統(tǒng)交叉熵?fù)p失函數(shù)對模型的性能對比
3.3.4 與其他基準(zhǔn)模型的性能對比
本節(jié)將提出的基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)文本分類模型與傳統(tǒng)CNN、LSTM、Bi-LSTM文本分類基準(zhǔn)模型,同時與近年來主流的BERT模型進(jìn)行性能對比。對比結(jié)果如表3所示。從對比結(jié)果可知,提出的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)文本分類模型在測試集上的性能均優(yōu)于傳統(tǒng)的CNN、LSTM、Bi-LSTM等基準(zhǔn)模型,分別提升了5.6%、5.1%和4.5%。從表1可知,單獨以RGCN編碼器或者GAT編碼器完成文本分類的性能低于BERT分類模型,但RGCN編碼器與GAT編碼器特征融合后的性能卻略優(yōu)于BERT分類模型,性能提升了1.1%。也說明了RGCN編碼器所提取特征與GAT編碼器所提取特征具有一定的互補(bǔ)性,使特征融合后能增強(qiáng)模型整體性能。此外,表3同時比較了各個模型的大小和推理時間。所提出的異構(gòu)圖神經(jīng)網(wǎng)絡(luò)文本分類模型大小與CNN、LSTM、Bi-LSTM等模型相近。相比于BERT模型(型號為chinese_L-12_H-768_A-12),所提出模型的模型大小和推理時間遠(yuǎn)小于BERT模型。該模型占用更少的內(nèi)存空間和計算資源,更有利于模型的在線部署和應(yīng)用。
表3 所提出模型與其他深度學(xué)習(xí)模型的性能對比
該文提出了一種基于異構(gòu)圖神經(jīng)網(wǎng)絡(luò)的檢務(wù)知識咨詢業(yè)務(wù)分類模型。針對用戶提問內(nèi)容長度短的特點,該模型通過RGCN編碼基于句法依存分析的圖表示,并通過GAT編碼基于鄰域窗口的圖表示,最后通過特征融合實現(xiàn)了用戶提問內(nèi)容業(yè)務(wù)類型預(yù)測。這種特征融合方式比單獨采用RGCN編碼器的方式提升了1.9%的性能,而比單獨采用GAT編碼器的方式提升了1.5%的性能。為了平衡這兩個編碼器的特征學(xué)習(xí),分別對RGCN編碼和GAT編碼器引入輔助分類器,使模型提升了1.3%的性能。為了解決檢答網(wǎng)用戶提問內(nèi)容業(yè)務(wù)類型的樣本數(shù)據(jù)不均衡問題,引入Focal Loss損失函數(shù),使模型提升了5.6%的性能。此外,所提出模型在測試集上的宏平均準(zhǔn)確率均優(yōu)于傳統(tǒng)深度學(xué)習(xí)文本分類模型,略優(yōu)于BERT分類模型。所提出模型的模型大小和推理時間遠(yuǎn)小于BERT模型。該模型有助于計算機(jī)正確理解用戶關(guān)于檢務(wù)領(lǐng)域的知識咨詢意圖,為進(jìn)一步構(gòu)建檢務(wù)智能問答系統(tǒng)提供技術(shù)基礎(chǔ)。