国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于預(yù)訓(xùn)練語言模型的藏文文本分類

2022-02-03 13:12:34龍從軍
中文信息學(xué)報 2022年12期
關(guān)鍵詞:藏文向量神經(jīng)網(wǎng)絡(luò)

安 波,龍從軍

(中國社會科學(xué)院 民族學(xué)與人類學(xué)研究所,北京 100081)

0 引言

文本分類是自然語言處理領(lǐng)域的基礎(chǔ)任務(wù),在信息檢索、情感分析、垃圾郵件分類、輿情監(jiān)控等領(lǐng)域具有應(yīng)用價值[1]。隨著互聯(lián)網(wǎng)及自媒體在我國藏族地區(qū)的發(fā)展和普及,以藏文作為語言載體的文本信息呈指數(shù)級增長,如何高效地分類處理這些數(shù)據(jù)成為當(dāng)前的迫切需求[1],在這種背景下,藏文文本分類的重要性也更加凸顯。同時,我國保有數(shù)量眾多的藏文古籍、歷史文獻,這些數(shù)據(jù)對于藏族歷史、漢藏同源等研究具有重要價值。藏文文本分類技術(shù)也可以輔助藏文古籍研究[2-3]。

基于統(tǒng)計的文本分類方法和基于深度學(xué)習(xí)的文本分類方法是當(dāng)前文本分類的主流方法[4-6]。基于統(tǒng)計的文本分類方法包括: 基于最優(yōu)超平面(SVM)[5]的文本分類、基于樸素貝葉斯的文本分類[7]等。隨著深度學(xué)習(xí)在圖像和自然語言處理中的廣泛應(yīng)用,基于深度學(xué)習(xí)的文本分類方法取得了更好的性能[5-6],例如基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)[8]的文本分類、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[9]的文本分類、基于長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[10]的文本分類等。

近期,大規(guī)模預(yù)訓(xùn)練語言模型(Elmo[11]、BERT[12])在自然語言處理領(lǐng)域的多個任務(wù)中取得了顯著性能的提升[12-13]。在預(yù)訓(xùn)練語言模型的基礎(chǔ)上對下游任務(wù)進行微調(diào)也成為當(dāng)前自然語言處理研究的主流范式[12]?;陬A(yù)訓(xùn)練語言模型的文本分類也取得了當(dāng)前最好的效果[11-13]。

大規(guī)模預(yù)訓(xùn)練語言模型,需要大規(guī)模的單語數(shù)據(jù)進行無監(jiān)督訓(xùn)練,如BERT在大規(guī)模文本數(shù)據(jù)上,利用MLM[14]任務(wù)預(yù)測mask掉的詞。然而,在藏文環(huán)境下缺少大規(guī)模公開的文本數(shù)據(jù),目前也沒有開源的藏文預(yù)訓(xùn)練語言模型,因此也藏文環(huán)境下也沒有使用預(yù)訓(xùn)練語言模型進行文本分類的工作。

針對上述現(xiàn)狀,為了進一步提升藏文文本分類的性能,本文首先利用網(wǎng)絡(luò)爬蟲抓取大規(guī)模藏文文本,并在這些文本的基礎(chǔ)上訓(xùn)練得到藏文預(yù)訓(xùn)練語言模型(BERT-base-Tibetan)。其次,我們實現(xiàn)多種常用的基于神經(jīng)網(wǎng)絡(luò)的文本分類模型。最后,對比詞向量的隨機初始化、預(yù)訓(xùn)練的詞向量和預(yù)訓(xùn)練語言模型在藏文文本分類上的效果,實驗結(jié)果表明,預(yù)訓(xùn)練語言模型能夠顯著地提升藏文文本分類的性能。但是由于藏文文本分類的數(shù)據(jù)較少,并且用于藏文預(yù)訓(xùn)練語言模型的語料規(guī)模較小,藏文文本分類的性能遠低于中文和英文的文本分類性能。本文的主要貢獻包括:

(1) 采集了一個較大規(guī)模的藏文文本數(shù)據(jù)集,并在該數(shù)據(jù)集的基礎(chǔ)上訓(xùn)練了一個藏文預(yù)訓(xùn)練語言模型;

(2) 在多種神經(jīng)文本分類方法上的結(jié)果表明,藏文預(yù)訓(xùn)練語言模型能夠顯著地提升藏文文本分類的性能,為后續(xù)的藏文自然語言處理提供了參考。

1 相關(guān)工作

本文的主要工作包括兩部分,藏文預(yù)訓(xùn)練語言模型和藏文文本分類,本節(jié)將分別介紹這兩部分工作。

1.1 大規(guī)模預(yù)訓(xùn)練語言模型

近幾年,大量工作表明預(yù)訓(xùn)練語言模型(Pre-trained Language Model, PTM)能夠?qū)W習(xí)到有價值的文本表示,并對下游自然語言處理(Natural language processing, NLP)任務(wù)具有顯著提升[11-13]。按照時間發(fā)展,PTM大致可以分為兩個階段。

第一階段是以SkipGram[15]、CBOW[16]和Glove[17]為代表的詞向量模型,這些模型通過預(yù)測詞匯共現(xiàn)信息能夠?qū)W習(xí)到有意義的分布式詞向量(Word Embeddings)。在這種方式下,針對每個詞會產(chǎn)生一個或多個向量表示,產(chǎn)生詞級別的表示。對于短語、句子、篇章等粒度的表示,更多地是借助于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[9]、長短時記憶網(wǎng)絡(luò)(LSTM)[10]等模型對詞向量進行組合得到長文表示。

第二階段是以Elmo[11]、BERT[12]、GPT[18]為代表的大規(guī)模預(yù)訓(xùn)練語言模型。這些模型能夠同時建模整個句子的信息,針對每個詞匯在不同的上下文中產(chǎn)生不同的表示向量。因為能夠更好地建模句子的上下文信息,在問答系統(tǒng)、信息檢索、語義解析等方面取得了顯著效果[11-13]。

目前,基于預(yù)訓(xùn)練語言模型在任務(wù)數(shù)據(jù)上進行微調(diào)(Fine-tuning)已經(jīng)成為自然語言處理研究的常用方法。但是第二階段的PTM(如BERT)需要大規(guī)模的訓(xùn)練數(shù)據(jù),同時也需要強大的計算能力來實現(xiàn)語言模型的建模。因此,主要的開源預(yù)訓(xùn)練語言模型集中在漢語、英文等較為主流的語言中,在藏語等少數(shù)民族語言中很少有開源的預(yù)訓(xùn)練語言模型[19]。

1.2 藏文文本分類

文本分類是自然語言處理中最基礎(chǔ)的任務(wù)之一,是問答系統(tǒng)、情感分析、意圖識別等任務(wù)的基礎(chǔ)。當(dāng)前,主流的文本分類方法以基于神經(jīng)網(wǎng)絡(luò)文本分類方法為主。FastText[20]是Facebook研發(fā)的一種通過學(xué)習(xí)詞向量對文本分類的算法,能夠?qū)崿F(xiàn)快速的文本分類。TextCNN[21]利用卷積神經(jīng)網(wǎng)絡(luò)對句子進行表示和分類。為了解決CNN在建模文本時上下文范圍有限的問題,Johnson等人[22]提出了DPCNN,是較早的深層CNN模型在文本分類中的應(yīng)用。為了更好地建模文本的序列信息,基于循環(huán)神經(jīng)網(wǎng)絡(luò)的TextRNN[9]被用于文本分類。為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)梯度爆炸和梯度消失的問題,研究者引入長短時記憶網(wǎng)絡(luò)(LSTM)來優(yōu)化文本分類的結(jié)果。為了能夠在文本分類時更好地關(guān)注核心的分類詞,注意力機制(Attention Mechanism)[22]被引入到文本分類模型中?;谧宰⒁饬C制的Transformer模型在文本分類中也得到了廣泛的應(yīng)用[12]。近期,隨著大規(guī)模預(yù)訓(xùn)練語言模型的快速發(fā)展,基于Emlo和BERT的文本分類方法也得到了廣泛的應(yīng)用[11-12]。

由于文本分類任務(wù)的基礎(chǔ)性和重要性,藏文文本分類任務(wù)也吸引了大量的研究者。藏文文本分類方法按照時間順序大概可以分為三個階段: 基于詞典和規(guī)則的文本分類方法、基于統(tǒng)計學(xué)習(xí)的文本分類方法和基于神經(jīng)網(wǎng)絡(luò)的文本分類方法。賈會強等人[24]提出了基于規(guī)則和詞典的藏文文本分類方法。袁斌[25]設(shè)計不同的情感特征并利用SVM實現(xiàn)藏文的文本分類。王勇[26]利用樸素貝葉斯分類器實現(xiàn)了藏文文本分類。李艾琳[27]也基于樸素貝葉斯分類器實現(xiàn)了用于Web輿情的藏文分類。為了更好地利用上下文信息,基于N-gram的藏文詞和音節(jié)的文本分類方法也被廣泛使用,基于邏輯回歸、AdaBoost等常用的分類模型也被應(yīng)用到藏文文本分類任務(wù)中[28-31]。胥桂仙等人[32]基于欄目信息,設(shè)計了一種藏文網(wǎng)頁分類系統(tǒng)。

近期,基于神經(jīng)網(wǎng)絡(luò)的方法成為藏文文本分類的主要研究方向。Qun等人[33]最早使用神經(jīng)網(wǎng)絡(luò)的方法來解決藏文文本分類,并開源了一個藏文文本分類的數(shù)據(jù)集。Li等人[34]結(jié)合藏文的N-gram特征實現(xiàn)了sepCNN和Bi-LSTM分類器。Ma等人[35]利用FastText實現(xiàn)了一種藏文文本分類器。王等人[31]實現(xiàn)了一種基于多分類器的藏文文本分類方法。

由于藏文目前缺少開源的大規(guī)模預(yù)訓(xùn)練語言模型,藏文預(yù)訓(xùn)練語言模型的相關(guān)研究還較少[37-38],并且在投稿時沒有使用BERT模型在開源文本分類數(shù)據(jù)上開展藏文文本分類工作,無法與之進行直接的對比。

2 基于預(yù)訓(xùn)練語言模型的藏文文本分類

本文首先基于網(wǎng)絡(luò)爬蟲抓取了一個較大規(guī)模的藏文文本語料,并在此基礎(chǔ)上訓(xùn)練了一個藏文預(yù)訓(xùn)練語言模型(BERT-base-Tibetan)。然后,在主流的基于神經(jīng)網(wǎng)絡(luò)的藏文文本分類方法上進行測試。本節(jié)將分別介紹這兩部分工作內(nèi)容。

2.1 藏文預(yù)訓(xùn)練語言模型

由于缺少開源的藏文文本數(shù)據(jù),本文基于Scrapy(1)https://scrapy.org/實現(xiàn)了一個藏文網(wǎng)站的網(wǎng)絡(luò)爬蟲,從主流的藏文新聞網(wǎng)站(中國西藏新聞網(wǎng)、中國藏語等)上抓取了約100萬頁面。

漢語預(yù)訓(xùn)練語言模型通常以字為單位進行表示學(xué)習(xí)。藏文通常以音節(jié)作為基本的語義單位,因此本文首先使用SegT[36]對藏文文本進行切分,形成藏文字,最終得到了包含964 208 205藏文音節(jié)的語料,以音節(jié)為單位進行藏文預(yù)訓(xùn)練語言模型的訓(xùn)練。

在上述語料的基礎(chǔ)上,我們在Pytorch(2)https://pytorch.org/實現(xiàn)了基于Transformer[12]的預(yù)訓(xùn)練語言模型。我們參考BERT-base的參數(shù)設(shè)置,具體的參數(shù)設(shè)置為: max_seq_length為512,learning_rate為0.0001,train_batch_size為128,vocab_size設(shè)置為10 000,block_size設(shè)置為509,hidden size設(shè)置為768。

2.2 基于神經(jīng)網(wǎng)絡(luò)的藏文文本分類

為了更好地驗證預(yù)訓(xùn)練語言模型對于藏文文本分類任務(wù)的價值,本文基于神經(jīng)網(wǎng)絡(luò)模型實現(xiàn)藏文文本分類。本文模型的文本分類框架如圖1所示。通過圖1可知,藏文文本模型主要包括以下幾個層次: 藏文分詞層、詞向量化層、文本表示學(xué)習(xí)層和文本分類層。在本文中,我們使用SegT[36]進行藏文分詞。

圖1 藏文文本分類框架

詞向量化層: 詞向量化層將離散的詞序列轉(zhuǎn)換為分布式表示。本文我們使用三種方式得到詞向量: ①基于隨機初始化的詞向量表示,這種方式下詞向量是基于訓(xùn)練數(shù)據(jù)學(xué)習(xí)得到的; ②基于FastText預(yù)訓(xùn)練得到的詞向量(3)https://fasttext.cc/docs/en/crawl-vectors.html,該詞向量是由Facebook基于藏文文本數(shù)據(jù)訓(xùn)練得到的; ③基于BERT預(yù)訓(xùn)練得到的上下文相關(guān)的向量表示。

文本表示學(xué)習(xí)層: 文本表示是進行藏文文本分類的基礎(chǔ)。本文實現(xiàn)了多種主流的基于神經(jīng)網(wǎng)絡(luò)的文本分類模型,包括TextCNN、TextRNN(LSTM cell)、TextRNN_Att、TextRCNN、DPCNN、Transformer共6種常用的模型。

文本分類層: 本文使用全連接層和Softmax作為最后的分類層。

為了更好地驗證藏文預(yù)訓(xùn)練語言模型的作用,我們使用多種模型設(shè)置開展實驗。

詞向量隨機初始化: 在該設(shè)置中,所有實驗包含藏文分詞層、詞向量化層,文本表示學(xué)習(xí)層、文本分類層。其中詞向量化層為隨機初始化,通過分類數(shù)據(jù)進行訓(xùn)練得到。

基于預(yù)訓(xùn)練FastText的詞向量: 在該設(shè)置中,所有實驗包含藏文分詞、詞向量化層,文本表示學(xué)習(xí)層、文本分類層。我們使用FastText提供的藏文詞向量作為詞向量層的初始化,并在訓(xùn)練中對詞向量進行優(yōu)化。

基于藏文BERT的文本分類: 在該設(shè)置中,所有實驗包含詞向量化層、文本表示學(xué)習(xí)層、文本分類層。因為BERT是以字為單位進行表示學(xué)習(xí)的,因此在這種設(shè)置下不需要進行藏文分詞。此外,詞向量層是使用藏文BERT對每個藏文字符學(xué)習(xí)得到的向量表示,作為詞向量的輸入。

3 實驗

3.1 實驗數(shù)據(jù)

為了更好地與已有的實驗結(jié)果進行比較,本文使用Qun等人[33]開源的藏文文本分類數(shù)據(jù)(4)https://github.com/FudanNLP/Tibetan-Classification,并且以藏文新聞標(biāo)題作為主要的分類對象,包括旅游、經(jīng)濟、教育、藝術(shù)、醫(yī)療等12種類型的藏文新聞文本標(biāo)題。通過主流的文本分類模型,可以更加直觀地觀察藏文預(yù)訓(xùn)練語言模型的效果。由于該數(shù)據(jù)集沒有提供訓(xùn)練數(shù)據(jù)、測試數(shù)據(jù)的切分,因此我們按照其論文中的比例,即8∶1∶1的方式將數(shù)據(jù)集劃分為訓(xùn)練集、開發(fā)集和驗證集。后續(xù)實驗的所有模型均先在訓(xùn)練集上訓(xùn)練,利用開發(fā)集找到最優(yōu)模型,結(jié)果為在驗證集上得到的結(jié)果。具體的數(shù)據(jù)統(tǒng)計信息如表1所示。

表1 藏文文本分類數(shù)據(jù)

續(xù)表

3.2 實驗設(shè)置

本文采用詞向量隨機初始化、預(yù)訓(xùn)練詞向量初始化和預(yù)訓(xùn)練語言模型初始化三種設(shè)置來開展實驗。本節(jié)實驗所涉及的模型的超參數(shù)如表2所示。使用預(yù)訓(xùn)練詞向量的設(shè)置與隨機初始化的模型設(shè)置完全相同,詞向量也會跟著訓(xùn)練進行微調(diào),模型的超參數(shù)如表3所示。

表2 模型超參數(shù)

續(xù)表

表3 基于預(yù)訓(xùn)練語言模型的模型超參數(shù)

續(xù)表

本文使用精確率(Precision,P)、召回率(Recall,R)和F1值(F1)作為文本分類的評測標(biāo)準(zhǔn),同時為了更好地反映計算結(jié)果,宏觀本文也會給出三個指標(biāo)的宏觀平均值(macro avg)及加權(quán)平均值(weighted avg)其權(quán)重為該領(lǐng)域的測試數(shù)據(jù)數(shù)量占總體的測試數(shù)據(jù)比例,其計算方法如式(1)~式(7)所示,其中,TP為正確預(yù)測為正例的數(shù)量,F(xiàn)P是錯誤預(yù)測為正例的數(shù)量,F(xiàn)N是錯誤預(yù)測為負例的數(shù)量。

3.3 實驗結(jié)果

總體的實驗結(jié)果如表4所示,其中P代表精確率、R代表召回率、F代表F1值,Macro avg代表一行結(jié)果的平均是,Weighted avg代表一行結(jié)果的加權(quán)平均值。從實驗結(jié)果可知: ①基于藏文預(yù)訓(xùn)練模型的訓(xùn)練方法能夠顯著提升藏文文本分類的性能,在所有的方法中,我們的方法在精確率(相比于隨機初始化平均提升6.2%,相比于預(yù)訓(xùn)練詞向量平均提升16.1%)、召回率(相比于隨機初始化平均提升10.6%,相比于預(yù)訓(xùn)練詞向量平均提升17.3%)和F1值(相比于隨機初始化平均提升9.3%,相比于預(yù)訓(xùn)練詞向量平均提升18.1%)上均有提升; ②基于預(yù)訓(xùn)練詞向量的方法不能顯著地增強藏文文本分類的性能(精確率平均下降7.9%,召回率平均下降5.5%,F(xiàn)1值平均下降7.0%),這可能是因為預(yù)訓(xùn)練詞向量采用的分詞系統(tǒng)不同,導(dǎo)致詞向量未能很好地被利用; ③幾乎所有的方法在Customs類別上的性能不高,這可能是因為該類別缺少顯著的區(qū)分性; ④與中文文本分類相比,藏文文本分類的總體性能還較低,這一方面是因為藏文文本分類數(shù)據(jù)集的規(guī)模較小,容易導(dǎo)致模型過擬合;另一方面是由于目前藏文分詞準(zhǔn)確率不足、無監(jiān)督數(shù)據(jù)規(guī)模較小等因素導(dǎo)致了性能的下降。這些也為我們后續(xù)的工作提供了借鑒。

為了更清晰地反映預(yù)訓(xùn)練語言模型的價值,我們在圖2中給出了DPCNN模型在隨機初始化、詞向量和預(yù)訓(xùn)練語言模型的下的對比結(jié)果。從圖2可以看出,基于預(yù)訓(xùn)練語言模型的藏文文本分類結(jié)果要顯著優(yōu)于隨機初始化和使用詞向量的結(jié)果。結(jié)合表4可以更清楚地看出,基于預(yù)訓(xùn)練語言模型的藏文文本分類模型在所有模型中的總體指標(biāo)均高于基于隨機初始化和詞向量的模型。

圖2 基于DPCNN的藏文文本分類

表4 藏文文本分類結(jié)果

續(xù)表

4 結(jié)束語

本文通過爬蟲抓取了一個較大規(guī)模的藏文文本數(shù)據(jù)集,并訓(xùn)練了一個藏文預(yù)訓(xùn)練語言模型。通過在多種神經(jīng)網(wǎng)絡(luò)文本分類模型上的實驗表明,基于預(yù)訓(xùn)練語言模型的文本分類方法能夠顯著提升藏文文本分類的性能。同時,我們也發(fā)現(xiàn)藏文文本分類的整體性能與中文、英文等主要語言的文本分類的性能有較大差距。

未來我們計劃從兩個方面來繼續(xù)優(yōu)化藏文文本分類: 一方面,收集整理并開源更大規(guī)模的藏文文本分類數(shù)據(jù);另一方面,抓取更大規(guī)模的藏文文本數(shù)據(jù),并構(gòu)建開源大規(guī)模藏文預(yù)訓(xùn)練語言模型,以更好地推進藏文自然語言處理的發(fā)展。

猜你喜歡
藏文向量神經(jīng)網(wǎng)絡(luò)
向量的分解
聚焦“向量與三角”創(chuàng)新題
西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
布達拉(2020年3期)2020-04-13 10:00:07
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
黑水城和額濟納出土藏文文獻簡介
西夏學(xué)(2019年1期)2019-02-10 06:22:34
藏文音節(jié)字的頻次統(tǒng)計
現(xiàn)代語境下的藏文報刊
新聞傳播(2016年17期)2016-07-19 10:12:05
向量垂直在解析幾何中的應(yīng)用
基于神經(jīng)網(wǎng)絡(luò)的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
桐柏县| 九江县| 双城市| 黄梅县| 孝感市| 岱山县| 大厂| 广东省| 乡宁县| 龙门县| 托克托县| 凤翔县| 西丰县| 斗六市| 马鞍山市| 贵定县| 拉孜县| 法库县| 阜新市| 吉林市| 图们市| 泌阳县| 辰溪县| 泸州市| 南安市| 嘉善县| 密云县| 景宁| 柞水县| 白朗县| 宜丰县| 紫云| 信阳市| 兰州市| 枞阳县| 玉门市| 海阳市| 石渠县| 安国市| 廊坊市| 南和县|