国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Bert模型的文本多分類應(yīng)用研究

2023-03-24 01:25:59昌磊王依倫陳艷平
電腦知識與技術(shù) 2023年4期
關(guān)鍵詞:文本分類遷移學(xué)習(xí)

昌磊 王依倫 陳艷平

關(guān)鍵詞:BERT;文本分類;遷移學(xué)習(xí)

1 概述

隨著互聯(lián)網(wǎng)的發(fā)展越來越發(fā)達(dá),教育領(lǐng)域也因教育信息化而發(fā)生了巨大變革,通過搜索引擎和在線答題平臺咨詢學(xué)習(xí)問題已逐漸成為學(xué)生及老師學(xué)習(xí)的一種方式[1]。在咨詢過程中,問答系統(tǒng)會對用戶提出問題的類別進(jìn)行準(zhǔn)確區(qū)分,如題目的學(xué)科或題目考查的知識點(diǎn)。知識點(diǎn)在教育教學(xué)過程中起著重要的作用,可對題庫根據(jù)知識點(diǎn)進(jìn)行分類,然后根據(jù)學(xué)生的學(xué)習(xí)情況,有針對地將習(xí)題推薦給學(xué)生,老師也能根據(jù)學(xué)生的做題情況有針對地進(jìn)行拔高訓(xùn)練,為學(xué)生設(shè)計(jì)階段性學(xué)習(xí)方案,學(xué)生能更快速地掌握知識點(diǎn),學(xué)習(xí)效率能得到快速提升。

傳統(tǒng)上,教師或教研人員需要人工判斷習(xí)題的題型,浪費(fèi)時(shí)間和精力,而且過程十分消耗耐心。在設(shè)計(jì)建立試題庫,問答系統(tǒng)等場景下,就可以利用文本分類的方法對題目進(jìn)行試題分類,即機(jī)器代替人工實(shí)現(xiàn)題型分類提高了教師的工作效率。同時(shí)也能使得試題和試卷的管理更高效而便捷,大大節(jié)省了教師的工作時(shí)間,便于教師有更多時(shí)間和精力致力于教學(xué)方法的研究,畢竟合理的教學(xué)方法也同樣影響著學(xué)生的成績。

題型分類屬于自然語言處理短文本分類任務(wù),需要對相關(guān)文本進(jìn)行處理,得到文本的向量化表示。近年來,深度學(xué)習(xí)方法漸漸興起,目前主要是采用詞嵌入的方式獲得文本的特征表示,如利用word2vec 模型學(xué)習(xí)文本中詞向量的表示,也可以用預(yù)訓(xùn)練模型BERT得到文本的語義表示完成文本分類[2]。

基于轉(zhuǎn)換器的雙向編碼表征BERT是2018年由Google 推出的,在多項(xiàng)NLP 任務(wù)中取得了卓越的效果[3]。使用預(yù)訓(xùn)練模型BERT,能夠解決一詞多義問題,而且對中文文本語義的獲取BERT 預(yù)訓(xùn)練模型有更好的效果。對于不同的下游任務(wù),BERT的結(jié)構(gòu)可能會有不同的輕微變化。

2 相關(guān)研究

2.1Bert 模型

BERT模型是基于Transformer模型的一種雙向多頭自注意力編碼器組成的深層預(yù)訓(xùn)練模型。雙向的意思是該模型能通過某些數(shù)據(jù)便可以獲取這個(gè)句子在上下文語義的功能[4]。BERT模型示意圖如圖1所示,可以很清楚地看到BERT采用了Transformer En? coder block進(jìn)行連接,但舍棄了Decoder模塊, 這樣最終使其擁有了雙向編碼能力和強(qiáng)大的特征提取能力。

2.2 Transformer 和Attention 機(jī)制

多層Transformer 組裝成了Bert模型。而Atten? tion 機(jī)制又是Transformer中最關(guān)鍵的部分,它表示了各個(gè)詞語之間的聯(lián)系程度。Self-Attention就是一種可以考慮全局信息的機(jī)制。Multi-head Self-Attention 獲取輸入文本中每個(gè)不同的字基于不同題型的語義向量,然后進(jìn)行線性組合,最終得到的特征向量和輸入向量長度相同,利用的就是不同的注意力機(jī)制。在Multi Head Self-Attention基礎(chǔ)上添加殘差連接和層歸一化及線性轉(zhuǎn)換。而Bert 模型就是由多個(gè)Trans?former Encoer堆疊起來得到的[5]。

3 基于BERT-CNN 的K12 教育題庫的題型分類模型

本文是基于K12教育題庫的題型多分類問題,采用基于樣本的遷移學(xué)習(xí)方法,其分類模型如圖3所示。

3.1 算法流程

本文提出一種基于BERT-CNN的K12教育題庫的題型分類模型,其具體的算法流程如下。

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)集

本文數(shù)據(jù)集采用K12教育題庫長文本20000個(gè)題目,根據(jù)對應(yīng)的不同知識點(diǎn),一共將文本分為6個(gè)類別,分別是:二次函數(shù)與反比例、三角函數(shù)、生理與健康、科學(xué)、設(shè)計(jì)及生物。每個(gè)題目的平均文本字符長度為20~30,訓(xùn)練集、驗(yàn)證集、測試集的比例為:8:1:1。

4.2 實(shí)驗(yàn)環(huán)境

本次實(shí)驗(yàn)編程軟件使用的是Pycharm 社區(qū)版,操作系統(tǒng)為Windows10,GPU 為NVIDIA RTX3060?;赑ython3.8,使用Anaconda 編程平臺,選擇Pytorch 作為深度學(xué)習(xí)框架。

4.3 參數(shù)設(shè)置

預(yù)訓(xùn)練模型采用Google 發(fā)布的中文BERT-Base,基于64 個(gè)多頭自注意力機(jī)制和12層雙向Transfomer 編碼器對K12教育數(shù)據(jù)短文本進(jìn)行動態(tài)字向量訓(xùn)練。并根據(jù)數(shù)據(jù)集的特點(diǎn)微調(diào)BERT,以提升BERT 的下游任務(wù)的效果[7]。由于電腦顯存限制, batch _size設(shè)置為64,Epoch 設(shè)置為3, learning_rate 設(shè)置為3e-5,num_classes 表示類別總數(shù)設(shè)置為6。

4.4 實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)使用“提前停止”技術(shù),這可以更好地避免過擬合問題。對于文本分類的效果采用精確率(Preci? sion) 、召回率(Recall) 和F1值3個(gè)指標(biāo)進(jìn)行評價(jià)[8],實(shí)驗(yàn)結(jié)果如表1所示。

5 結(jié)論

從表1可看出識別的標(biāo)簽不同,評價(jià)體系得分也不同,所有標(biāo)簽平均得分為0.95. 準(zhǔn)確率也是0.95。

從實(shí)驗(yàn)結(jié)果可以看出,該模型實(shí)現(xiàn)了K12教育題庫類中文文本的多分類,并且Bert- cnn在各項(xiàng)評測指標(biāo)中的表現(xiàn)也令人滿意。但由于習(xí)題科目及知識點(diǎn)種類繁多,關(guān)系復(fù)雜,所以數(shù)據(jù)集的構(gòu)造還需要煩瑣的工作,想要繼續(xù)提升準(zhǔn)確性,還需要優(yōu)化數(shù)據(jù)集并優(yōu)化各種模型及參數(shù)。

猜你喜歡
文本分類遷移學(xué)習(xí)
遷移學(xué)習(xí)研究綜述
從認(rèn)知角度探討大學(xué)英語網(wǎng)絡(luò)教學(xué)模式
基于多特征融合的跨域情感分類模型研究
奇異值分解與移移學(xué)習(xí)在電機(jī)故障診斷中的應(yīng)用
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
基于K—means算法的文本分類技術(shù)研究
文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
科技視界(2016年24期)2016-10-11 09:36:57
吉安县| 大同县| 中江县| 聂荣县| 和平县| 上思县| 常德市| 安图县| 东方市| 特克斯县| 临邑县| 乌鲁木齐市| 修武县| 水城县| 富顺县| 县级市| 山阴县| 襄汾县| 罗城| 天津市| 固安县| 安宁市| 南汇区| 安西县| 庆云县| 阜康市| 麻城市| 呼伦贝尔市| 甘谷县| 平潭县| 大关县| 文水县| 齐齐哈尔市| 桂平市| 中宁县| 上虞市| 蓝山县| 宣恩县| 滕州市| 新干县| 望江县|