国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT語義分析的短文本分類研究

2023-11-24 10:22:44景永霞茍和平
關(guān)鍵詞:短文語義向量

景永霞,茍和平,劉 強(qiáng)

(1.瓊臺師范學(xué)院 信息科學(xué)技術(shù)學(xué)院,海南 ???571100;2.瓊臺師范學(xué)院 教育大數(shù)據(jù)與人工智能研究所,海南 ???571100)

Web技術(shù)的發(fā)展和移動終端的普及,為網(wǎng)絡(luò)用戶提供了廣闊的信息獲取與分享平臺,用戶不再只是被動地成為信息的接受者,也作為信息的創(chuàng)造者通過網(wǎng)絡(luò)發(fā)布自己的信息,分享自己的知識和觀點(diǎn),因此產(chǎn)生了大量的短文本數(shù)據(jù).為了能夠?qū)崿F(xiàn)短文本數(shù)據(jù)中的文本分類、網(wǎng)絡(luò)輿情監(jiān)控和產(chǎn)品推薦服務(wù)等,人們更加關(guān)注短文本數(shù)據(jù)的分析.

研究者提出了不同的文本分類算法,其中基于機(jī)器學(xué)習(xí)的文本分類算法獲得了廣泛的應(yīng)用,如支持向量機(jī)(SVM)、k最近鄰(kNN)、樸素貝葉斯(Native Bayes)等算法都是常用的文本分類模型.目前,深度學(xué)習(xí)技術(shù)已經(jīng)成為主流的文本分析模型,最初研究人員采用CNN模型實(shí)現(xiàn)短文本分類[1],RNN、RNN與CNN融合等模型也逐步應(yīng)用到短文本分類中[2],同時(shí)還采用融合詞向量的方法來提高文本分類精度[3],采用BTM和BERT模型提取文本主題特征信息和上下文語義信息,構(gòu)建短文本特征向量[4].

在文本分類過程中,采用TF-IDF、LDA等方法實(shí)現(xiàn)文本向量化表示,這些方法在實(shí)現(xiàn)文本表示時(shí)忽略了文本詞之間的語義關(guān)系,而Word2Vec是一種淺層網(wǎng)絡(luò),在實(shí)現(xiàn)文本表示中無法解決一詞多義問題.

在線評論文本具有文本短小,特征稀疏、語法不規(guī)范等特點(diǎn),使用傳統(tǒng)特征表示模型會造成表示模型的高維稀疏性,同時(shí)特征選擇計(jì)算開銷大、適應(yīng)性差,無法表達(dá)文本詞之間的語義關(guān)系或者無法解決在不同上下文環(huán)境中的多義詞,進(jìn)而造成文本語義理解能力不強(qiáng).CNN模型雖然能夠很好地獲得深層語義關(guān)系,但對長距離特征捕獲能力相對較弱;RNN存在短期記憶問題,無法很好地學(xué)習(xí)到全局的結(jié)構(gòu)信息.因此,本文提出一種基于BERT模型的文本表示,這種基于Transformer的模型,能夠較好地實(shí)現(xiàn)長距離特征獲取,解決了短期記憶的問題,實(shí)現(xiàn)文本向量表示,提高短文本分類效果.

1 文本表示模型

1.1 LDA和Word2Vec模型

David Blei等[5]在2003年提出基于貝葉斯理論的方法(Latent Dirichlet Allocation,LDA),該方法可獲取文本中隱藏的主題和特征,從而實(shí)現(xiàn)文本的向量化表示,廣泛應(yīng)用在文本分類等自然語言處理領(lǐng)域[6],但該模型更加適用于長文本,針對短文本存在高維和特征稀疏的情況,需要結(jié)合其他的表示模型實(shí)現(xiàn).Word2Vec是google的開源詞向量計(jì)算工具,通過給定的語料庫進(jìn)行訓(xùn)練,將詞轉(zhuǎn)換為指定實(shí)數(shù)空間中的向量,詞之間的相似度通過計(jì)算詞向量之間的相似度實(shí)現(xiàn).Word2Vec包含CBOW和Skip-gram兩種訓(xùn)練模型[7].利用Word2Vec模型獲取詞在解決短文本特征表達(dá)能力弱的問題時(shí)取得了較好的效果[8],但在進(jìn)行文本向量表示時(shí),存在無法解決一詞多義的問題.

1.2 BERT模型

BERT(Bidirectional Encoder Representations from Transformers,BERT)是google人工智能研究團(tuán)隊(duì)2018年提出的一種基于深度學(xué)習(xí)的語言表示模型,通過文本語料庫訓(xùn)練獲得語言模型,然后下游任務(wù)可以采用此模型進(jìn)行諸如文本分類等任務(wù).采用BERT獲得的詞向量能夠很好地解決GPT等這類單向語言模型無法雙向結(jié)合上下文有效信息的局限性.

BERT的模型架構(gòu)是一個(gè)多層雙向Transformer編碼器[9],其結(jié)構(gòu)如圖1所示.

圖1 BERT模型架構(gòu)

短文本W(wǎng)={w1,w2,…,wN}表示一條短文本,Ei(i=1,2,3,…,N)表示N個(gè)將句子的字符向量、字符類型向量、位置向量相加得到的文本向量表示.Trm表示Transformer處理,整個(gè)文本表征是通過雙向Transformer進(jìn)行堆疊編碼,最后生成融合整個(gè)文本信息的語言表征.Ti(i=1,2,3,…,N)表示輸入的文本字符經(jīng)過多層雙向Transformer進(jìn)行編碼后輸出的字符向量.BERT中Self-Attention機(jī)制獲取句子中每個(gè)字符的詞向量.

BERT模型采用兩種無監(jiān)督任務(wù)進(jìn)行預(yù)訓(xùn)練[9]:①掩碼語言模型(Mask Language Model).為了訓(xùn)練深度雙向表示,隨機(jī)屏蔽一些百分比的輸入標(biāo)記,再根據(jù)剩余的標(biāo)記預(yù)測那些被屏蔽的標(biāo)記;②下句預(yù)測(Next Sentence Prediction).許多重要的下游任務(wù)都是基于對兩個(gè)句子之間關(guān)系的理解,如問答系統(tǒng)、段落排序等自然語言處理任務(wù).

2 基于BERT的短文本分類

本文提出的基于BERT模型短文本分類模型(MBERT)處理流程如圖2所示.該模型主要是采用BERT進(jìn)行文本詞向量表示,通過詞向量融合獲得整個(gè)文本向量表示.

對于包含n條短文本數(shù)據(jù)集D,表達(dá)式為:

D={Ci|i=1,2,3,…,m},

(1)

圖2 基于BERT模型短文本分類模型

其中,Ci(i=1,2,3,…,m)表示文本數(shù)據(jù)的類別,|Ci|表示類別Ci中包含的總文本數(shù).采用BERT進(jìn)行短文本分類主要過程如下.

(1) 短文本數(shù)據(jù)預(yù)處理,對于獲取的短文本數(shù)據(jù),去重,采用分詞的方法,對停用詞處理,如去掉一些虛詞、代詞等文本分類沒有實(shí)際意義的字詞;

(2) 文本標(biāo)記向量化表示.對于短文本數(shù)據(jù)d={w1,w2,…,wN},wi(1,2,3,…,N)表示文本標(biāo)記(詞),根據(jù)BERT模型獲取文本d([CLS])和其對應(yīng)標(biāo)記wi的向量表示為:

(2)

其中,M表示文本標(biāo)記向量的長度,就是BERT模型最后一層隱層輸出的hidden_states狀態(tài),即hidden_size;

(3) 獲得文本標(biāo)記均值向量表示.根據(jù)輸出的文本,可得表達(dá)式為:

(3)

(4) 通過全連接層(FC)和Softmax處理,獲得最后的分類結(jié)果.經(jīng)過全連接層處理獲取的輸出為:

y=WTd′+bias,

(4)

其中,W為768×m維的權(quán)重矩陣,bias為偏置項(xiàng).則有

(5)

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

在本次實(shí)驗(yàn)中,采用BERT預(yù)訓(xùn)練模型:BERTBASE(L=12,H=768,A=12,Total Parameters=110 M),軟件環(huán)境為Python 3.9和Anaconda集成開發(fā)工具.

實(shí)驗(yàn)數(shù)據(jù)為今日頭條TNEWS短文本數(shù)據(jù)集,包含15個(gè)類別,總共382 691條數(shù)據(jù),其中訓(xùn)練集為267 882條,驗(yàn)證集為57 404條,測試集為57 405條.實(shí)驗(yàn)相關(guān)參數(shù)設(shè)置如表1所列.

表1 參數(shù)設(shè)置表

3.2 評價(jià)指標(biāo)

算法評價(jià)采用傳統(tǒng)的文本分類性能評價(jià)指標(biāo),即精確率precision、召回率recall和綜合評價(jià)指標(biāo)F1(F1-measure),根據(jù)文本標(biāo)簽的真實(shí)值和預(yù)測值,給定:

(1)TP,真實(shí)值是positive,預(yù)測值為positive的樣本數(shù)(True Positive);

(2)FP,真實(shí)值是negative,預(yù)測值為positive的樣本數(shù)(False Positive);

(3)FN,真實(shí)值是positive,預(yù)測值為negative的數(shù)量(False Negative);

(4)TN,真實(shí)值是negative,預(yù)測值為negative的數(shù)量(True Negative).

混淆矩陣如表2所列.

表2 文本測試混淆矩陣

根據(jù)表2可得3類評價(jià)的計(jì)算公式為:

(6)

(7)

(8)

3.3 實(shí)驗(yàn)結(jié)果分析

在實(shí)驗(yàn)中采用BERT模型進(jìn)行中文文本詞嵌入處理,采用所提模型最后一層輸出的各個(gè)詞的混合模型來進(jìn)行文本表示和分類.其實(shí)驗(yàn)訓(xùn)練損失和驗(yàn)證損失、訓(xùn)練準(zhǔn)確率和驗(yàn)證準(zhǔn)確率曲線如圖3所示.

圖3 訓(xùn)練與驗(yàn)證的損失與準(zhǔn)確率

文本分類測試結(jié)果的精確率、召回率和F1值的宏平均(Macro avg)與加權(quán)平均(Weighted avg)如表3所列.

表3 文本分類測試結(jié)果

根據(jù)模型測試,其分類準(zhǔn)確率(accuracy)達(dá)到88.66%.且15個(gè)類別的f1-score值的宏平均和加權(quán)平均達(dá)到82.15%和88.61%.因此,采用本文提出的文本分類方法,能夠很好地獲取文本中詞語之間的語義關(guān)系,提升分類性能.

4 結(jié)語

本文提出BERT模型結(jié)合文本中各個(gè)詞嵌入表示獲得文本上下文語義關(guān)系,實(shí)現(xiàn)短文本詞之間的語義關(guān)聯(lián)分析,進(jìn)而獲得整個(gè)文本的語義表示及短文本關(guān)鍵分類特征,提高分類的準(zhǔn)確率.通過實(shí)驗(yàn)分析,能夠獲得較好的分類效果.后續(xù)將研究采用詞向量表示模型,同時(shí)去除短文本中的部分虛詞,減少噪聲對分類結(jié)果的影響,以提高分類效果.

猜你喜歡
短文語義向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
語言與語義
KEYS
Keys
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
認(rèn)知范疇模糊與語義模糊
短文改錯(cuò)
河间市| 且末县| 饶阳县| 扎赉特旗| 平阳县| 永昌县| 治县。| 德惠市| 衡东县| 仁怀市| 西藏| 新绛县| 伊川县| 县级市| 出国| 敦煌市| 固原市| 呈贡县| 清新县| 长垣县| 凌海市| 迁西县| 大理市| 武穴市| 固安县| 台前县| 宁河县| 类乌齐县| 黄浦区| 会同县| 兰坪| 祁东县| 边坝县| 盘山县| 阳东县| 青岛市| 田林县| 西乡县| 汝南县| 巩义市| 亳州市|