沈思,陳猛,馮暑陽,許乾坤,劉江峰,王飛,王東波
(1. 南京理工大學(xué)經(jīng)濟(jì)管理學(xué)院,南京 210094;2. 南京農(nóng)業(yè)大學(xué)信息管理學(xué)院,南京 210095;3. 江蘇省科技情報(bào)研究所,南京 210042)
政策文本是政府政策行為的反映,也是記錄政策發(fā)展走勢(shì)、政策意圖的重要載體,而政策文本研究則是觀察、梳理政策過程的重要途徑[1]。對(duì)于政策文本的類別,Chilton等[2]從3個(gè)層面進(jìn)行了劃分,本研究的政策文本主要為“政府或國家或地區(qū)的各級(jí)權(quán)力或行政機(jī)關(guān)以文件形式頒布的法律、法規(guī)、部門規(guī)章等官方文獻(xiàn)”。目前,政策文本研究主要分為兩類:定性研究與定量研究。其中,定性研究要求研究者擁有較高的實(shí)踐經(jīng)驗(yàn)和分析能力[3],而定量研究則需要研究者擁有大量的數(shù)據(jù)和高性能的計(jì)算模型。隨著我國治理體系的不斷完善和政府信息公開化的發(fā)展,政策文本研究所能獲取的數(shù)據(jù)量愈加龐大,分類體系愈加復(fù)雜,同時(shí)相應(yīng)增長(zhǎng)的還有定性分析所需的人力成本。在數(shù)據(jù)驅(qū)動(dòng)下的政策文本研究中,將政策文本轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù),再基于相應(yīng)的機(jī)器學(xué)習(xí)模型進(jìn)行計(jì)算和分析,這種定量研究的方法極大降低了人力成本,成為政策文本研究的發(fā)展趨勢(shì)[3]。當(dāng)前,政策定量化研究的內(nèi)涵越來越豐富,涌現(xiàn)出政策文本計(jì)算、政策計(jì)量、政策文獻(xiàn)計(jì)量等研究方向[4-7]。政策文本計(jì)算主要通過自然語言處理、機(jī)器學(xué)習(xí)、可視化技術(shù)等進(jìn)行政策文本分析,其中在機(jī)器學(xué)習(xí)方面,比較受關(guān)注的是深度學(xué)習(xí)領(lǐng)域的預(yù)訓(xùn)練語言模型技術(shù)。2003年,Bengio等[8]提出NNLM模型(neural network lan‐guage model),神經(jīng)網(wǎng)絡(luò)技術(shù)開始被用于語言模型的構(gòu)建。在此基礎(chǔ)上,word2vec[9]、GloVe[10]模型進(jìn)一步優(yōu)化性能,靜態(tài)詞向量的誕生使神經(jīng)網(wǎng)絡(luò)方法大規(guī)模應(yīng)用于自然語言處理成為可能。隨著深度學(xué)習(xí)的發(fā)展,CNN(convolutional neural network)、RNN(recurrent neural network)和LSTM(long short-term memory)等神經(jīng)網(wǎng)絡(luò)模型誕生[11-13]。2018年,Google基于Transformer編碼器提出了BERT(bidirectional encoder representations from transform‐ers)模型[14],其在預(yù)訓(xùn)練方法上的創(chuàng)新推動(dòng)了預(yù)訓(xùn)練模型的發(fā)展。在BERT模型的基礎(chǔ)上,F(xiàn)acebook AI團(tuán)隊(duì)推出了RoBERTa[15]模型。由于其突出的性能,BERT與RoBERTa模型被廣泛應(yīng)用于自然語言處理研究,提高了自然語言處理理解和文本挖掘研究的整體水平。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,政策文本研究與深度學(xué)習(xí)的關(guān)聯(lián)也愈發(fā)密切。已有學(xué)者通過具體探究驗(yàn)證了深度學(xué)習(xí)技術(shù)和預(yù)訓(xùn)練模型對(duì)政策文本研究的推動(dòng)作用[16-18]。
目前,針對(duì)政策全文本數(shù)據(jù)的預(yù)訓(xùn)練模型構(gòu)建尚處于起步階段,為了提升政策文本領(lǐng)域知識(shí)挖掘的整體性能,本研究通過爬取259個(gè)政府官方網(wǎng)站的政策文本構(gòu)建了較為完備的中文政策全文本數(shù)據(jù)集,在數(shù)據(jù)集上繼續(xù)預(yù)訓(xùn)練獲得了關(guān)于中文政策文本的預(yù)訓(xùn)練模型,彌補(bǔ)了在中文政策文本研究上預(yù)訓(xùn)練模型的缺失,且在3個(gè)自然語言處理的下游任務(wù)上模型的性能得到了驗(yàn)證。
在大數(shù)據(jù)時(shí)代,對(duì)海量的政策文本進(jìn)行深度挖掘和利用成為一個(gè)亟待解決的重要問題。通過對(duì)已有政策研究的梳理可以發(fā)現(xiàn),政策文本方面的研究已從定性分析逐漸轉(zhuǎn)移到定量分析。政策文本量化通過一系列的轉(zhuǎn)換范式將非結(jié)構(gòu)化政策文本轉(zhuǎn)換為抽象化、特征化的計(jì)算機(jī)可處理的結(jié)構(gòu)化數(shù)據(jù)[19]。近年來,在數(shù)據(jù)驅(qū)動(dòng)研究范式的推進(jìn)下,預(yù)訓(xùn)練技術(shù)與政策文本相結(jié)合逐漸成為政策文本知識(shí)挖掘的主流趨勢(shì)。
政策文本知識(shí)挖掘主要通過機(jī)器學(xué)習(xí)挖掘政策文本中所蘊(yùn)含的知識(shí),實(shí)現(xiàn)政策文本的智能化分析,在一定程度上彌補(bǔ)了內(nèi)容分析法和文獻(xiàn)計(jì)量方法研究的不足。在傳統(tǒng)機(jī)器學(xué)習(xí)和自然語言處理基礎(chǔ)上的政策文本知識(shí)挖掘代表性研究如下。在對(duì)政策文本進(jìn)行自動(dòng)分詞的基礎(chǔ)上,王晶金等[20]借助政策分析工具,對(duì)兩份科技成果轉(zhuǎn)移轉(zhuǎn)化的部委政策文本進(jìn)行了分析,針對(duì)科技成果轉(zhuǎn)移轉(zhuǎn)化過程中存在的缺陷提出了有效的建議?;诳萍颊叩墓δ芏ㄎ缓陀谜Z特征,鄭新曼等[21]通過PMI(pointwise mutual information)和TextRank算法構(gòu)建了科技政策文本的程度詞典。通過把自然語言處理技術(shù)融入政策文本,魏宇等[22]構(gòu)建了基于語義分析的政策量化模型,借助所挖掘出來的語義知識(shí)分析了中央及地方的旅游交通政策的外部屬性和內(nèi)部結(jié)構(gòu)的差異?;贚DA(latent Dirichlet allocation)模型,Du等[23]考察了4種JPCAP(joint prevention and control of atmospheric pollution)政策中政策強(qiáng)度對(duì)大氣污染物排放的影響,并提出了優(yōu)化對(duì)策和解決問題的建議。通過構(gòu)建LDA主題模型和k-means聚類模型,Song等[24]識(shí)別了食品安全政策中的熱點(diǎn)話題,并從4個(gè)方面對(duì)中國的食品安全政策進(jìn)行了分析?;诮處熽?duì)伍建設(shè)改革的政策文本,杜燕萍[25]通過LDA主題模型的知識(shí)挖掘,提出了有針對(duì)性的改革對(duì)策。上述自然語言處理和文本挖掘技術(shù)能夠快速、高效地處理大量的政策文本,在一定程度上彌補(bǔ)了定性方法分析深度不夠和效率低的問題。但隨著政策文本數(shù)據(jù)的增加及對(duì)深度語義知識(shí)挖掘需求的提升,把深度學(xué)習(xí)特別是預(yù)訓(xùn)練模型與政策文本數(shù)據(jù)結(jié)合起來進(jìn)行知識(shí)挖掘,成為獲取深層、多維和細(xì)顆粒度知識(shí)的關(guān)鍵。
神經(jīng)網(wǎng)絡(luò)語言模型(neural network language model,NNLM)是最早的詞嵌入(word embed‐dings)模型。word2vec模型采用無監(jiān)督的方式學(xué)習(xí)語義知識(shí),優(yōu)化了計(jì)算效率,被廣泛地應(yīng)用于工業(yè)界。為了彌補(bǔ)word2vec模型難以統(tǒng)計(jì)全局信息的不足,GloVe模型進(jìn)一步利用詞共現(xiàn)矩陣,使得詞向量充分兼顧到語料庫的全局特征,但word2vec和GloVe仍不能解決一詞多義性問題。上下文嵌入模型ELMo(embeddings from language models)通過學(xué)習(xí)單詞、句法以及語義特征,實(shí)現(xiàn)了根據(jù)輸入句的上下文語境獲得每個(gè)詞的詞嵌入向量。BERT預(yù)訓(xùn)練模型采用雙向語言模型能夠更好地利用上下文的雙向信息,同時(shí)基于Transformer結(jié)構(gòu)更好地捕捉全局信息。
從預(yù)訓(xùn)練模型生成的流程上看,預(yù)訓(xùn)練技術(shù)一般是在一個(gè)基礎(chǔ)數(shù)據(jù)集上進(jìn)行任務(wù)訓(xùn)練,生成一個(gè)基礎(chǔ)網(wǎng)絡(luò),并通過將基礎(chǔ)網(wǎng)絡(luò)學(xué)習(xí)到的特征進(jìn)行微調(diào)或訓(xùn)練新的任務(wù),進(jìn)而解決人工智能相應(yīng)的下游任務(wù)。因此,預(yù)訓(xùn)練模型只需從共性出發(fā),學(xué)習(xí)特定任務(wù)的特征,不僅節(jié)省了大量的時(shí)間,而且擁有更好的泛化效果。在這一范式下,基于BERT的相應(yīng)領(lǐng)域化預(yù)訓(xùn)練模型得以構(gòu)建并應(yīng)用。圍繞自然科學(xué)的學(xué)術(shù)全文本和人文社會(huì)科學(xué)摘要,在BERT模型的基礎(chǔ)上,Beltagy等[26]和Shen等[27]分別訓(xùn)練和構(gòu)建了SciBERT和SsciBERT模型,并在相應(yīng)的下游任務(wù)上進(jìn)行了驗(yàn)證,整體上效果較為突出。Lee等[28]在生物醫(yī)學(xué)語料庫上對(duì)BERT完成了進(jìn)一步的訓(xùn)練,構(gòu)建了BioBERT領(lǐng)域化預(yù)訓(xùn)練模型,同時(shí)在生物醫(yī)學(xué)文本的驗(yàn)證上取得了較好的成績(jī)。在法律文本上,Chalkidis等[29]構(gòu)建了LEGAL-BERT預(yù)訓(xùn)練模型,并在領(lǐng)域任務(wù)上驗(yàn)證了所構(gòu)建模型的性能。在金融文本數(shù)據(jù)上,Araci[30]提出了一種基于BERT的FinBERT用于處理金融領(lǐng)域的NLP(natural lan‐guage processing)任務(wù),并在具體數(shù)據(jù)集上驗(yàn)證了FinBERT的效果。楊晨等[31]在BERT的基礎(chǔ)上提出一種側(cè)重學(xué)習(xí)情感特征的預(yù)訓(xùn)練方法,所得到的SentiBERT在情感任務(wù)上取得了更優(yōu)的效果。在藏文文本上,李亮[32]構(gòu)建了藏文ALBERT預(yù)訓(xùn)練模型,并在分類任務(wù)上對(duì)模型進(jìn)行了驗(yàn)證,效果較為突出。一方面,上述領(lǐng)域化模型的構(gòu)建為本研究政策文本預(yù)訓(xùn)練模型的構(gòu)建提供了探究視角和方案上的支持;另一方面,為模型具體的訓(xùn)練提供了方法和技術(shù)上的支撐。相關(guān)學(xué)者已將通用預(yù)訓(xùn)練模型引入與政策相關(guān)的研究當(dāng)中。Zhang等[33]基于《紐約時(shí)報(bào)》的大規(guī)模新聞?wù)Z料庫對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),提出了一個(gè)基于BERT的模型用于預(yù)測(cè)美國的政策變化。朱娜娜等[34]提出了基于預(yù)訓(xùn)練語言模型的政策識(shí)別方法,在小規(guī)模數(shù)據(jù)上獲得了較優(yōu)的結(jié)果?;陬A(yù)訓(xùn)練語言模型BERT,關(guān)海山等[35]在融入規(guī)則的基礎(chǔ)上,實(shí)現(xiàn)了在稅收優(yōu)惠政策法規(guī)的表征、關(guān)鍵要素抽取和稅收優(yōu)惠的可視化查詢等多個(gè)維度上的探究。在政策文本的知識(shí)建模與關(guān)聯(lián)問答中,華斌等[36]采用BERT語義相似度計(jì)算并完成了對(duì)答案的評(píng)估。上述研究表明,預(yù)訓(xùn)練技術(shù)與政策文本研究的融合是大勢(shì)所趨,一方面,通過預(yù)訓(xùn)練技術(shù)對(duì)政策文本進(jìn)行挖掘,可以更好地獲取政策文本的多維知識(shí);另一方面,通過預(yù)訓(xùn)練模型對(duì)政策文本進(jìn)行識(shí)別、分析、表示等處理,可以在更大程度上提高政策文本處理的效率。但當(dāng)前政策文本領(lǐng)域所使用的預(yù)訓(xùn)練模型均是通用的預(yù)訓(xùn)練模型,缺乏基于大規(guī)模政策文本構(gòu)建的政策文本預(yù)訓(xùn)練模型,本研究對(duì)此進(jìn)行了探究。
本研究由模型的預(yù)訓(xùn)練和模型的性能驗(yàn)證兩個(gè)部分構(gòu)成。在預(yù)訓(xùn)練階段,利用掩碼語言模型(masked language model,MLM)和全詞掩碼(whole word masking,WWM)任務(wù)分別基于BERT-base-Chinese和Chinese-RoBERTa-wwm-ext模型對(duì)政策全文本數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,模型初步評(píng)價(jià)的指標(biāo)為困惑度。在模型的性能驗(yàn)證階段,通過對(duì)比預(yù)訓(xùn)練語言模型和基準(zhǔn)模型在自動(dòng)分詞、詞性標(biāo)注和命名實(shí)體識(shí)別上的效果來評(píng)判政策文本預(yù)訓(xùn)練模型的性能。
目前,采用領(lǐng)域數(shù)據(jù)構(gòu)建預(yù)訓(xùn)練模型的研究通常分為模型的預(yù)訓(xùn)練和模型的性能驗(yàn)證兩大部分。
在模型的預(yù)訓(xùn)練階段中,實(shí)驗(yàn)步驟設(shè)計(jì)的整體性呈現(xiàn)如圖1所示。
圖1 模型預(yù)訓(xùn)練實(shí)驗(yàn)步驟
(1)數(shù)據(jù)獲取與預(yù)處理。首先,進(jìn)行系統(tǒng)而全面的調(diào)研,確定政策數(shù)據(jù)源的網(wǎng)站;其次,通過開發(fā)Python爬蟲工具,獲取全國及各省市的政策文本數(shù)據(jù),進(jìn)行數(shù)據(jù)清洗,同時(shí)將政策文本的標(biāo)題與全文作為預(yù)訓(xùn)練數(shù)據(jù)的基本單元;最后,將所有基本單元合并,并將數(shù)據(jù)按99∶1劃分為訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集。
(2)模型預(yù)訓(xùn)練。基準(zhǔn)模型使用Huggingface網(wǎng)站(https://github.com/sinovation/ZEN)提供的Py‐torch版BERT-base-Chinese和Chinese-RoBERTawwm-ext,并設(shè)定訓(xùn)練集任務(wù)為MLM和WWM。
(3)預(yù)訓(xùn)練模型性能初步測(cè)評(píng)。在信息論中,困惑度(perplexity)[37]被用于度量一個(gè)概率分布或概率模型預(yù)測(cè)樣本的好壞程度。在語言模型評(píng)測(cè)中,困惑度被定義為測(cè)試集概率的倒數(shù),一般認(rèn)為困惑度較低時(shí)語言模型性能較好。因此,本研究將其作為初步評(píng)價(jià)預(yù)訓(xùn)練模型性能指標(biāo)。
本研究中預(yù)訓(xùn)練模型構(gòu)建所使用的政策文本數(shù)據(jù)來自全國及省市的政策發(fā)布平臺(tái),具體包括國家發(fā)展和改革委員會(huì)、財(cái)政部、科學(xué)技術(shù)部和工業(yè)和信息化部,北京、天津、河北等省和直轄市的中小企業(yè)公共服務(wù)平臺(tái)、發(fā)改委、財(cái)政廳、科技廳、工業(yè)和信息化廳,以及深圳、廣州、蘇州等經(jīng)濟(jì)發(fā)展前沿城市的中小企業(yè)公共服務(wù)平臺(tái)、發(fā)改委、財(cái)政局、科技局、工業(yè)和信息化局。政策文本按照政策發(fā)布平臺(tái)劃分為國家級(jí)政策文本、省級(jí)政策文本與市級(jí)政策文本。國家級(jí)政策主要著重于宏觀層面、面向全國,且在法律效力上高于省級(jí)政策和市級(jí)政策,而省級(jí)政策和市級(jí)政策則根據(jù)地方經(jīng)濟(jì)社會(huì)發(fā)展制定,側(cè)重點(diǎn)有所不同。在出現(xiàn)政策內(nèi)容相矛盾時(shí),市級(jí)政策一般服從省級(jí)政策,省級(jí)政策一般服從國家級(jí)政策。不同平臺(tái)所發(fā)布的政策在內(nèi)容上也存在差異,發(fā)改委擬定經(jīng)濟(jì)和社會(huì)發(fā)展政策,財(cái)政部(廳、局)發(fā)布財(cái)稅政策,科技部(廳、局)發(fā)布科技創(chuàng)新政策,工信部(廳、局)發(fā)布產(chǎn)業(yè)政策,中小企業(yè)公共服務(wù)平臺(tái)發(fā)布針對(duì)中小企業(yè)發(fā)展的政策方針?;谒O(shè)計(jì)的網(wǎng)絡(luò)爬蟲共獲取到145043份政策文本,經(jīng)過剔除明顯非政策文本的政策新聞、政策解釋等內(nèi)容,最后得到131390份政策全文本,總字?jǐn)?shù)為305648206,政策文本具體的分布情況如表1所示。為了確保所獲取數(shù)據(jù)的全面性,在獲取國家級(jí)數(shù)據(jù)的基礎(chǔ)上,也獲取了省級(jí)的政策數(shù)據(jù),但部分省級(jí)數(shù)據(jù)公開度有待提高,所以,在具體獲取到的數(shù)據(jù)量上各個(gè)省份存在差異,具體如表2所示。
表1 數(shù)據(jù)基本信息表
表2 政策文本發(fā)布機(jī)構(gòu)分布表
通過對(duì)抓取數(shù)據(jù)的分析,本研究發(fā)現(xiàn)少量數(shù)據(jù)存在非法字符、字符中夾帶內(nèi)容標(biāo)簽(如【一圖讀懂】【問答解讀】等)以及文本中存在大量空白、換行等問題。對(duì)于上述數(shù)據(jù)存在的問題,本研究的具體操作和處理如下:針對(duì)數(shù)據(jù)中存在的非法字符,搜集所有非法字符的類別,替換去除;對(duì)于字符中夾帶的內(nèi)容標(biāo)簽,將標(biāo)簽連同內(nèi)容一并去除;對(duì)于文本中存在大量空白、換行的問題,遍歷文本內(nèi)容替換去除;對(duì)于存在大量html標(biāo)簽的文本,觀察發(fā)現(xiàn)該類文本通常存在內(nèi)容缺失,利用Python正則表達(dá)式甄別出該類數(shù)據(jù)并剔除。數(shù)據(jù)預(yù)處理示例如表3所示。
表3 數(shù)據(jù)預(yù)處理示例
當(dāng)前,預(yù)訓(xùn)練技術(shù)已成為自然語言處理領(lǐng)域的標(biāo)志性技術(shù),并且極大地提升了自然語言處理任務(wù)的性能。面對(duì)不同的任務(wù),通過微調(diào)已有基礎(chǔ)預(yù)訓(xùn)練模型而不是從頭訓(xùn)練已經(jīng)成為一種共識(shí)。通過遷移預(yù)訓(xùn)練模型并進(jìn)行微調(diào),可有效地從大量標(biāo)記以及未標(biāo)記的數(shù)據(jù)中獲取領(lǐng)域特征知識(shí)。針對(duì)中文政策文本,本研究以BERT-base-Chinese和Chinese-Ro‐BERTa-wwm-ext兩個(gè)中文預(yù)訓(xùn)練模型為基線,基于MLM和WWM任務(wù)進(jìn)行預(yù)訓(xùn)練,得到了被命名為ChpoBERT-mlm、ChpoRoBERTa-mlm、ChpoBERT-wwm和ChpoRoBERTa-wwm的中文政策預(yù)訓(xùn)練模型,其中Chpo為Chinese policy的簡(jiǎn)稱,同時(shí)ChpoBERT系列模型全部在Github進(jìn)行了開源,鏈接為https://github.com/S-T-Full-Text-Knowledge-Min‐ing/ChpoBERT。
(1)BERT-base-Chinese
BERT是2018年由Google AI研究院發(fā)布的一種預(yù)訓(xùn)練模型,在自然語言處理的各項(xiàng)下游任務(wù)上取得了優(yōu)異的成績(jī),成為自然語言處理發(fā)展史上的一個(gè)里程碑。BERT設(shè)計(jì)了兩個(gè)任務(wù):一個(gè)是MLM,它用15%的概率隨機(jī)地對(duì)訓(xùn)練序列中的token用mask token([MASK])進(jìn)行替換,然后預(yù)測(cè)[MASK]處原有的單詞;另一個(gè)是NSP(next sen‐tence prediction),用于預(yù)測(cè)兩個(gè)句子是否連在一起。在BERT的基礎(chǔ)上,谷歌還發(fā)布了一個(gè)多語言版本BERT-base-multilingual和一個(gè)中文版本BERT-base-Chinese。在繼續(xù)預(yù)訓(xùn)練階段使用中文語料數(shù)據(jù)的情形下,BERT-base-Chinese通常會(huì)有更好的效果。在文本內(nèi)容上,政策文本有其獨(dú)特的語言表述方式,例如,政策文本中會(huì)大量出現(xiàn)“請(qǐng)”“經(jīng)”“為”“各”等單字詞,且政策文本的行文邏輯較強(qiáng),政策文本數(shù)據(jù)的這兩個(gè)特點(diǎn)正好對(duì)應(yīng)了BERT-base-Chinese的兩個(gè)任務(wù)。
(2)RoBERTa-wwm
在BERT基礎(chǔ)上的改進(jìn)版RoBERTa模型能支持更大的模型參數(shù)量、更大的batch size(批處理量)、更多的訓(xùn)練數(shù)據(jù)。WWM與MLM的區(qū)別在于當(dāng)一個(gè)詞的部分被MASK之后,整個(gè)詞都會(huì)被MASK。這是專門針對(duì)像中文這種語言文本而設(shè)計(jì)的任務(wù),因?yàn)樵谔幚碇形恼Z料時(shí),MLM只能MASK獨(dú)立的文本,而WWM會(huì)將被MASK的字的整個(gè)詞全部MASK。中文政策文本中除了大量出現(xiàn)的單字詞外,也存在中文政策文本特有的多字詞,如“關(guān)于”“根據(jù)”“務(wù)必”“通知”“批準(zhǔn)”等,而WWM在處理多字詞方面有著更為突出的性能。針對(duì)同一個(gè)基準(zhǔn)模型,利用MLM和WWM任務(wù)對(duì)語料庫進(jìn)行預(yù)訓(xùn)練,對(duì)比不同任務(wù)下預(yù)訓(xùn)練模型的性能更有助于把握語料文本的特性及更合適的繼續(xù)預(yù)訓(xùn)練方式。
(3)ERNIE-Gram-zh
ERNIE(enhanced representation through knowl‐edge integration)是百度基于飛槳平臺(tái)研發(fā)的語義理解框架,其基于BERT模型做了進(jìn)一步優(yōu)化,并且在中文的NLP任務(wù)上達(dá)到了較為突出的性能。ERNIE-Gram模型更進(jìn)一步地提出顯示、完備的ngram掩碼語言模型,以實(shí)現(xiàn)顯示的n-gram語義單元知識(shí)建模。在語義理解能力上,ERNIE-Gram可以實(shí)現(xiàn)同時(shí)學(xué)習(xí)細(xì)粒度和粗粒度語義信息,能在預(yù)訓(xùn)練過程中實(shí)現(xiàn)單一位置多語義粒度層次預(yù)測(cè)和顯示的語義信號(hào)學(xué)習(xí),并在中文任務(wù)的NLI、閱讀理解等語義理解任務(wù)上取得了較好的成績(jī)。針對(duì)前兩種模型基于token的掩碼方式,本研究增加了ERNIEGram-zh進(jìn)行對(duì)照,以進(jìn)一步驗(yàn)證所預(yù)訓(xùn)練的中文政策文本模型的性能。
訓(xùn)練語料文本的每一行都包括兩列,分別是標(biāo)題和內(nèi)容。本研究對(duì)國家級(jí)和省市級(jí)的文本內(nèi)容平均字?jǐn)?shù)進(jìn)行了統(tǒng)計(jì),絕大多數(shù)政策文本的內(nèi)容遠(yuǎn)遠(yuǎn)大于512個(gè)字,所以在實(shí)驗(yàn)前設(shè)置最大序列長(zhǎng)度為512的基礎(chǔ)上去除了line by line參數(shù),將單個(gè)文本內(nèi)容混合多行處理,而不是每超過512個(gè)字符就另外算作一個(gè)文本內(nèi)容?;谒@取預(yù)訓(xùn)練政策文本的整體規(guī)模,為了取得較好的預(yù)訓(xùn)練學(xué)習(xí)效果,本研究將初始學(xué)習(xí)率設(shè)置為2e-5,進(jìn)行5輪訓(xùn)練,根據(jù)服務(wù)器配置和模型限制,將train_batch_size設(shè)置為8和16?;谒@取預(yù)訓(xùn)練政策文本的整體數(shù)據(jù)規(guī)模和神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過程中所需的整體算力,本研究采用高性能NVIDIA Tesla P40處理器來完成實(shí)驗(yàn)。計(jì)算機(jī)配置如下:操作系統(tǒng)為CentOS 3.10.0;CPU為48顆Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz;內(nèi)存256GB;GPU為2塊NVIDIA Tesla P40;顯存24GB。模型預(yù)訓(xùn)練參數(shù)值如表4所示。
表4 預(yù)訓(xùn)練模型參數(shù)設(shè)置
本研究采用困惑度(perplexity)初步評(píng)價(jià)預(yù)訓(xùn)練模型的性能。在信息論中,perplexity被用于度量一個(gè)概率分布或概率模型預(yù)測(cè)樣本的好壞程度,被應(yīng)用到自然語言處理中,則可用于衡量語言概率模型的優(yōu)劣。相較于其他衡量方式,使用perplexity來度量更加直觀,在perplexity值相差較大的情況下,perplexity值越低,模型性能越好。具體計(jì)算公式為
其中,S表示句子;N表示句子長(zhǎng)度;p(wi)是第i個(gè)詞的概率,而第一個(gè)詞的概率為p(w1|w0),w0是占位符,表示句子的起始。以sentence=“國務(wù)院關(guān)于同意在全面深化服務(wù)貿(mào)易創(chuàng)新發(fā)展試點(diǎn)地區(qū)暫時(shí)調(diào)整實(shí)施有關(guān)行政法規(guī)和國務(wù)院文件規(guī)定的批復(fù)國函”為例,p(w1|w0)表示sentence這句話以“國”字開頭的概率,同理p(w2|w1)表示該句在第一個(gè)字為“國”的條件下,第二個(gè)字為“務(wù)”的概率,由公式(1)可知,預(yù)測(cè)效果越好,則p的概率越大,per‐plexity值越小。本研究進(jìn)行了MLM和WWM兩個(gè)任務(wù)在兩個(gè)模型上的預(yù)訓(xùn)練實(shí)驗(yàn),所得語言模型perplexity值如表5所示。
表5 預(yù)訓(xùn)練模型perplexity值
由表5可知,預(yù)訓(xùn)練模型和基準(zhǔn)模型的perplex‐ity差值并不顯著。一般來說,perplexity值越小,模型越好。其中,ChpoBERT-mlm的perplexity小于基準(zhǔn)模型,而ChpoBERT-wwm的perplexity值大于基準(zhǔn)模型,初步判斷ChpoBERT-mlm的性能優(yōu)于ChpoB‐ERT-wwm。同樣地,ChpoRoBERTa-mlm的perplexi‐ty值小于基準(zhǔn)模型,ChpoRoBERTa-wwm的perplexi‐ty大于基準(zhǔn)模型,初步判斷ChpoRoBERTa-mlm的性能優(yōu)于ChpoRoBERTa-wwm。在微調(diào)階段,初步認(rèn)為ChpoBERT-mlm和ChpoRoBERTa-mlm的效果要優(yōu)于基準(zhǔn)模型,而ChpoBERT-wwm和ChpoRoBERTawwm的效果要遜于基準(zhǔn)模型。
困惑度能夠在某種程度上反映預(yù)訓(xùn)練模型的效果,但為了進(jìn)一步判斷預(yù)訓(xùn)練模型是否能夠更好地完成自然語言處理的相應(yīng)任務(wù),仍需對(duì)其進(jìn)行更進(jìn)一步的性能驗(yàn)證實(shí)驗(yàn)。結(jié)合所篩選、整理和加工的語料數(shù)據(jù),本研究設(shè)計(jì)了自動(dòng)分詞、自動(dòng)詞性標(biāo)注和實(shí)體識(shí)別3個(gè)驗(yàn)證實(shí)驗(yàn)。
(1)自動(dòng)分詞語料數(shù)據(jù)
自動(dòng)分詞驗(yàn)證語料數(shù)據(jù)集來源于南京農(nóng)業(yè)大學(xué)新時(shí)代人民日?qǐng)?bào)分詞語料庫(http://corpus.njau.edu.cn/)[38],該語料庫由黃水清等基于2015年至2018年之間共9個(gè)月的《人民日?qǐng)?bào)》數(shù)據(jù)構(gòu)建而成,在多項(xiàng)測(cè)評(píng)上,比北京大學(xué)計(jì)算語言研究所構(gòu)建的1988年人民日?qǐng)?bào)分詞語料性能表現(xiàn)更為突出?;谠撜Z料庫,經(jīng)過人工多次和反復(fù)的篩選,從中選取與政策相關(guān)的文本共374篇,總字?jǐn)?shù)為78311字,并按照9∶1劃分訓(xùn)練集和測(cè)試集。所選出來的驗(yàn)證數(shù)據(jù)集完成了人工的分詞精加工,可以支撐對(duì)所構(gòu)建的預(yù)訓(xùn)練模型在自動(dòng)分詞任務(wù)上的驗(yàn)證,具體的分詞的政策文本樣例如表6所示。
表6 驗(yàn)證數(shù)據(jù)樣例
(2)自動(dòng)詞性標(biāo)注語料數(shù)據(jù)
自動(dòng)詞性標(biāo)注驗(yàn)證數(shù)據(jù)集來源于經(jīng)過詞性標(biāo)注的北京大學(xué)人民日?qǐng)?bào)語料,該語料由北京大學(xué)計(jì)算語言學(xué)研究所俞士汶等[39]基于《人民日?qǐng)?bào)》1998年的純文本語料構(gòu)建,是我國第一個(gè)大型的現(xiàn)代漢語詞性標(biāo)注語料庫。基于詞性標(biāo)注語料庫,在人工精篩選的基礎(chǔ)上,獲取了445篇有關(guān)政策的語料文本,共計(jì)112028字。該語料以詞為單位切分并標(biāo)注了詞性,按照9∶1劃分訓(xùn)練集和測(cè)試集。選出來的語料經(jīng)過人工詞性標(biāo)注,在漢語自然語言處理領(lǐng)域具有權(quán)威性和標(biāo)志性。具體的詞性標(biāo)注的語料樣例如表6所示。
(3)實(shí)體識(shí)別語料數(shù)據(jù)
基于所獲取的政策文本,本研究選取了982篇用于標(biāo)注實(shí)體,其中682篇為科技政策文本(共計(jì)902048字),300篇為其他領(lǐng)域的政策文本(共計(jì)1016346字),按照9∶1劃分訓(xùn)練集和測(cè)試集。在制定的實(shí)體標(biāo)注規(guī)范的基礎(chǔ)上,基于“BIOES”標(biāo)注集完成對(duì)所獲取政策文本中實(shí)體的人工標(biāo)注,從而構(gòu)建中文政策預(yù)訓(xùn)練模型的驗(yàn)證數(shù)據(jù)集。數(shù)據(jù)集中所標(biāo)注的實(shí)體共有4類,分別為政策性質(zhì)、政策時(shí)間、適用區(qū)域和政策領(lǐng)域,具體的標(biāo)注實(shí)體樣例如表6所示。
本研究的預(yù)訓(xùn)練模型驗(yàn)證將結(jié)合混淆矩陣,對(duì)于詞匯的分詞、詞性的標(biāo)注和實(shí)體的識(shí)別性能使用精確率P(precision)、召回率R(recall)、F1值(F1-score)指標(biāo)進(jìn)行評(píng)價(jià)。對(duì)于總體分詞、標(biāo)注和識(shí)別性能,使用宏平均(macro-avg)和加權(quán)平均(weighted-avg)中的P、R、F1-score指標(biāo)進(jìn)行評(píng)價(jià),混淆矩陣表如表7所示。具體計(jì)算公式為
表7 混淆矩陣表
同時(shí),宏平均為所有類別的指標(biāo)值的算數(shù)平均值,即宏精確率、宏召回率和宏F1值,具體計(jì)算公式為
同理,加權(quán)平均將樣本數(shù)量占樣本總數(shù)比例作為計(jì)算平均值的權(quán)重,指標(biāo)為加權(quán)精確率、加權(quán)召回率和加權(quán)F1值,具體計(jì)算公式為
在自動(dòng)分詞、詞性標(biāo)注和實(shí)體識(shí)別的參數(shù)設(shè)置上,本研究將訓(xùn)練階段的batch size和測(cè)試階段的batch size均設(shè)為32,最大句長(zhǎng)設(shè)為256,共訓(xùn)練3輪。為避免模型在訓(xùn)練初期因?qū)W習(xí)率過大而造成訓(xùn)練誤差加大,設(shè)置warmup_propotion為0.4。此外,本研究針對(duì)不同的下游任務(wù)測(cè)試了不同的學(xué)習(xí)率,使模型在下游任務(wù)中均獲得了較好的表現(xiàn)。
(1)詞匯分詞結(jié)果
分詞是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù),對(duì)政策文本的精確分詞是挖掘政策文本知識(shí)內(nèi)涵的基礎(chǔ)。由表8可知,ChpoBERT系列模型在分詞任務(wù)上的表現(xiàn)相較于基準(zhǔn)模型上均有一定程度的提升,除ChpoRoBERTa-wwm在分詞的召回率上略低于基準(zhǔn)模型Chinese-RoBERTa-wwm-ext外,ChopBERT系列模型在全部3項(xiàng)指標(biāo)上均超越了基準(zhǔn)模型。在所有模型中,ChpoBERT-wwm在分詞任務(wù)上的準(zhǔn)確率、召回率和調(diào)和平均值上表現(xiàn)均為最佳,分別為97.27%、97.60%和97.43%。ERNIE模型在7個(gè)模型中表現(xiàn)最差,分詞的準(zhǔn)確率、召回率和調(diào)和值均低于其他模型。在分詞驗(yàn)證任務(wù)中,原始BERT模型在準(zhǔn)確率、召回率和調(diào)和平均值上均優(yōu)于原始Ro‐BERTa模型,而基于MLM和WWM任務(wù)繼續(xù)預(yù)訓(xùn)練的ChpoBERT-mlm和ChpoBERT-wwm在準(zhǔn)確率、召回率和調(diào)和平均值上的表現(xiàn)也均優(yōu)于ChpoRo‐BERTa-mlm和ChpoRoBERTa-wwm。政策文本分詞驗(yàn)證的結(jié)果如表8所示。
表8 政策文本分詞結(jié)果
(2)詞性標(biāo)注結(jié)果
詞性標(biāo)注是自然語言處理的基礎(chǔ)模塊,是句法分析、信息抽取等工作的基礎(chǔ)。語料中不同詞性的詞在數(shù)量上存在較大差異,導(dǎo)致整體宏平均值較低,因此,只以準(zhǔn)確率、召回率、調(diào)和平均值的加權(quán)平均值作為詞性標(biāo)注任務(wù)的評(píng)價(jià)指標(biāo)。由表9可知,ChpoBERT系列模型在全部3項(xiàng)指標(biāo)上均超越了基準(zhǔn)模型,其中ChpoBRET-mlm在準(zhǔn)確率上的加權(quán)平均值上表現(xiàn)最優(yōu),達(dá)到89.02%,比基準(zhǔn)模型提升了1.14個(gè)百分點(diǎn),ChpoRoBERTa-mlm在召回率與調(diào)和平均值上的加權(quán)平均值表現(xiàn)最優(yōu),分別為91.44%、90.12%,比基準(zhǔn)模型提升了0.94個(gè)和1.09個(gè)百分點(diǎn)。ERNIE表現(xiàn)最差,與其他模型存在較大差距,準(zhǔn)確率、召回率與調(diào)和平均值的加權(quán)平均值分別為84.05%、88.35%和85.95%。此外,Chpo‐BRET-mlm在詞性標(biāo)注任務(wù)上的表現(xiàn)優(yōu)于Chpo‐BRET-wwm,ChpoRoBERTa-mlm在詞性標(biāo)注任務(wù)上的表現(xiàn)同樣也優(yōu)于ChpoRoBERTa-wwm?;陬A(yù)訓(xùn)練模型的詞性標(biāo)注結(jié)果比較如表9所示。
表9 基于預(yù)訓(xùn)練模型的詞性標(biāo)注識(shí)別結(jié)果比較
(3)實(shí)體識(shí)別結(jié)果
實(shí)體識(shí)別作為自然語言處理的基礎(chǔ)任務(wù),能夠?yàn)樾畔z索、關(guān)系抽取、知識(shí)問答系統(tǒng)等提供有效的實(shí)體知識(shí)支撐。為了進(jìn)一步確認(rèn)預(yù)訓(xùn)練模型的性能,本研究在政策文本預(yù)訓(xùn)練模型以及基準(zhǔn)模型上,使用驗(yàn)證數(shù)據(jù)集進(jìn)行實(shí)體識(shí)別任務(wù)以進(jìn)行比對(duì),具體結(jié)果如表10所示。
表10 實(shí)體識(shí)別結(jié)果驗(yàn)證
從實(shí)驗(yàn)結(jié)果可以看出,ChpoBERT系列模型在實(shí)體識(shí)別效果上均高于其他3種模型。在宏平均上,ChpoBERT-wwm在準(zhǔn)確率、召回率和F1值上表現(xiàn)最優(yōu),分別為77.41%、90.08%和82.43%,分別比基準(zhǔn)模型BERT-base-Chinese提升了1.51個(gè)、2.39個(gè)和2.03個(gè)百分點(diǎn)。ChpoRoBERTa-mlm和ChpoRoBERTa-wwm在準(zhǔn)確率、召回率和F1值上均優(yōu)于基準(zhǔn)模型,與基準(zhǔn)模型Chinese-RoBERTa-wwmext相比,ChpoRoBERTa-mlm在3項(xiàng)指標(biāo)上分別提升了1.80個(gè)、1.66個(gè)和1.78個(gè)百分點(diǎn),ChpoRoBERTawwm在3項(xiàng)指標(biāo)上分別提升了1.66個(gè)、1.96個(gè)和1.75個(gè)百分點(diǎn)。ERNIE在所有模型中表現(xiàn)最差,準(zhǔn)確率、召回率和F1值分別為69.90%、88.08%和77.02%。
在加權(quán)平均上,ChpoBERT-wwm在準(zhǔn)確率、召回率和F1值上表現(xiàn)最優(yōu),分別為78.19%、91.84%和83.79%,比基準(zhǔn)模型提升了1.47個(gè)、2.13個(gè)和1.86個(gè)百分點(diǎn)。ChpoRoBERTa-mlm和ChpoRoBERTa-wwm在準(zhǔn)確率、召回率和F1值相較于基準(zhǔn)模型Chinese-RoBERTa-wwm-ext均有一定的提升,ChpoRoBERTamlm在準(zhǔn)確率、召回率和F1值上分別提升了1.75個(gè)、1.34個(gè)和1.66個(gè)百分點(diǎn),ChpoRoBERTa-wwm在準(zhǔn)確率、召回率和F1值上分別提升了1.02個(gè)、1.61個(gè)和1.33個(gè)百分點(diǎn)。ERNIE在所有模型中表現(xiàn)最差,準(zhǔn)確率、召回率和F1值分別為71.62%、89.97%和78.94%。
首先,以BERT-base-Chinese和Chinese-RoBERTawwm-ext兩個(gè)中文預(yù)訓(xùn)練模型為基準(zhǔn)模型,結(jié)合海量中文政策文本所構(gòu)建的ChpoBERT系列模型在困惑度上相較于基準(zhǔn)模型,最優(yōu)的模型低了0.7924,表現(xiàn)出了較優(yōu)的性能。在自動(dòng)分詞、詞性標(biāo)注和實(shí)體識(shí)別的自然語言處理下游任務(wù)上,政策文本預(yù)訓(xùn)練模型也表現(xiàn)得較為突出。上述性能判定和驗(yàn)證實(shí)驗(yàn)結(jié)果表明,在政策文本的這一領(lǐng)域化數(shù)據(jù)上所構(gòu)建的預(yù)訓(xùn)練模型具有較強(qiáng)的應(yīng)用性。一方面,從人工智能大語言模型的角度,所構(gòu)建的預(yù)訓(xùn)練模型成為政策文本知識(shí)挖掘的基礎(chǔ)模型支撐資源,在一定程度上確保了政策文本領(lǐng)域展開領(lǐng)域化信息智能處理的可能性;另一方面,所構(gòu)建的預(yù)訓(xùn)練模型可以直接應(yīng)用于中文政策文本的自動(dòng)分詞、詞性標(biāo)注、實(shí)體識(shí)別、關(guān)鍵詞抽取和語義標(biāo)注等自然語言處理的基礎(chǔ)任務(wù),同時(shí)也可以支撐政策文本的自動(dòng)分類、自動(dòng)聚類、智能信息檢索、智能知識(shí)推送和智能評(píng)估等應(yīng)用性探究。
其次,面向259個(gè)國家級(jí)、省級(jí)和市級(jí)等目標(biāo)網(wǎng)站,所獲取的3億多字的中文政策文本不僅為相關(guān)研究者展開數(shù)據(jù)驅(qū)動(dòng)下的政策全文本計(jì)量、內(nèi)容分析和文體風(fēng)格等的研究提供了有力的數(shù)據(jù)支撐,而且為構(gòu)建中文政策預(yù)訓(xùn)練模型奠定了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。但目前所獲取的政策文本數(shù)據(jù)存在兩個(gè)方面的問題,一方面,目前通過網(wǎng)站所獲取的國家級(jí)、省級(jí)和市級(jí)政策文本是不全面的,并且缺乏對(duì)過去政策文本的搜集;另一方面,目前沒有獲取縣級(jí)以下的政策文本。上述數(shù)據(jù)缺失的問題導(dǎo)致了預(yù)訓(xùn)練模型的整體性能有待提升,這是因?yàn)樵陬A(yù)訓(xùn)練模型構(gòu)建過程中數(shù)據(jù)量是基礎(chǔ)和關(guān)鍵。通過各種渠道和方法增加政策文本數(shù)據(jù)的總量是未來進(jìn)一步提升政策預(yù)訓(xùn)練模型性能所需要重點(diǎn)強(qiáng)化的任務(wù)。
最后,通過選取精加工的經(jīng)過分詞和詞性標(biāo)注的政策文本和精標(biāo)注政策文本中的實(shí)體,本研究構(gòu)建了自動(dòng)分詞、詞性標(biāo)注和實(shí)體識(shí)別的數(shù)據(jù)集,并設(shè)計(jì)了相對(duì)應(yīng)的政策文本預(yù)訓(xùn)練模型的3個(gè)驗(yàn)證實(shí)驗(yàn)。從驗(yàn)證結(jié)果來看,所構(gòu)建的預(yù)訓(xùn)練模型整體性能較為突出,這也說明了所構(gòu)建模型的領(lǐng)域適應(yīng)性和構(gòu)建領(lǐng)域預(yù)訓(xùn)練模型的必要性。但由于目前沒有公開的與政策文本相關(guān)的精加工數(shù)據(jù)集,本研究在有限的時(shí)間和人力基礎(chǔ)上所搜集和加工的驗(yàn)證數(shù)據(jù)集存在數(shù)據(jù)規(guī)模小、精標(biāo)注淺和覆蓋面窄等問題。上述問題在一定程度上影響了驗(yàn)證所構(gòu)建政策預(yù)訓(xùn)練模型性能的完整性、精準(zhǔn)性和全面性。在未來的研究中,擴(kuò)大、拓展和增強(qiáng)驗(yàn)證數(shù)據(jù)集的規(guī)模、深度和廣度是構(gòu)建政策預(yù)訓(xùn)練模型必須要完善的工作。
近年來,政策文本的智能信息處理是信息科學(xué)領(lǐng)域的研究熱點(diǎn)之一?;谥形恼呷谋菊Z料庫,本研究構(gòu)建了中文政策文本的預(yù)訓(xùn)練模型,一方面,通過困惑度指標(biāo)對(duì)所構(gòu)建預(yù)訓(xùn)練模型進(jìn)行了初步的性能判定;另一方面,通過對(duì)比預(yù)訓(xùn)練語言模型和基準(zhǔn)模型在下游任務(wù)上的性能進(jìn)一步驗(yàn)證所構(gòu)建預(yù)訓(xùn)練模型的性能。研究結(jié)果表明,政策文本的預(yù)訓(xùn)練模型在自動(dòng)分詞、詞性標(biāo)注、實(shí)體識(shí)別上相較于基準(zhǔn)模型取得了較優(yōu)的效果。誠然,本研究也存在不足之處,一方面,政策文本的數(shù)據(jù)量有待于擴(kuò)大,特別是非網(wǎng)上的數(shù)據(jù);另一方面,驗(yàn)證集的數(shù)量、類別和加工的精細(xì)度均有待于完善。因此,通過擴(kuò)大政策文本的規(guī)模訓(xùn)練性能更加突出的預(yù)訓(xùn)練模型,同時(shí)結(jié)合不同主題的政策文本細(xì)化預(yù)訓(xùn)練模型是未來需要探究的內(nèi)容。