基于BERT預(yù)訓(xùn)練模型的教育裝備供應(yīng)鏈輿情報(bào)告系統(tǒng)＊

2022-08-15 06:48章艷華

科技與創(chuàng)新 2022年16期

章艷華，楊碩，柳超

（江蘇電子信息職業(yè)學(xué)院商學(xué)院，江蘇淮安 223003）

當(dāng)前教育裝備輿情分析相關(guān)信息化系統(tǒng)研究并不成熟，多采用傳統(tǒng)方案，如問卷調(diào)查等，使得數(shù)據(jù)源不足，數(shù)據(jù)量和數(shù)據(jù)內(nèi)容較為局限。

網(wǎng)絡(luò)輿情分析主要側(cè)重于事件的監(jiān)測(cè)與分析，包括網(wǎng)絡(luò)輿情觀點(diǎn)、情緒的挖掘以及網(wǎng)絡(luò)集群行為的監(jiān)測(cè)分析[1-2]，而分析與監(jiān)測(cè)報(bào)告主要偏重于統(tǒng)計(jì)分析[3-4]。近年來，蘭月新等[5]研究了大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情的主體交互機(jī)制，張鵬高等[6]進(jìn)行了基于大數(shù)據(jù)的教育輿情監(jiān)控與分析，王丹丹等[7]構(gòu)建了新媒體和大數(shù)據(jù)背景下的多校區(qū)高校網(wǎng)絡(luò)輿情體系，SUN等[8]基于網(wǎng)絡(luò)數(shù)據(jù)分析了教育輿情中的知識(shí)圖譜。上述研究取得一定成效，但直觀度和跨媒體的融合度還不夠。

自然語言處理NLP是一門交叉學(xué)科，集語言學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)為一體，是機(jī)器翻譯、語音助手、推薦系統(tǒng)等領(lǐng)域得到蓬勃發(fā)展的重要核心[9]。隨著計(jì)算機(jī)算力的不斷提升，NLP研究者們開始關(guān)注深度學(xué)習(xí)的可行性，2017年谷歌發(fā)布基于注意力機(jī)制的并行計(jì)算模型Transformers[10]，同時(shí)解決年卷積神經(jīng)網(wǎng)絡(luò)不適用于長文本及循環(huán)神經(jīng)網(wǎng)絡(luò)無法并行計(jì)算的困擾，為NLP乃至于整個(gè)深度學(xué)習(xí)領(lǐng)域帶來了巨大突破。2019年，谷歌推出的深度雙向Transformer模型的預(yù)訓(xùn)練模型BERT刷新了業(yè)界多項(xiàng)記錄。

對(duì)于BERT預(yù)訓(xùn)練模型，本文介紹了一種教育裝備輿情分析決策系統(tǒng)。該系統(tǒng)主要是通過采集來自微博、論壇、專業(yè)網(wǎng)站的輿情數(shù)據(jù)，通過BERT算法完成大數(shù)據(jù)分析，提供決策支持。本文的研究目標(biāo)是將多種類海量數(shù)據(jù)源中進(jìn)行抓取、清洗、梳理并存儲(chǔ)，進(jìn)而克服教育裝備產(chǎn)業(yè)輿情管理涉及面廣、問題復(fù)雜度高的問題。

1 BERT預(yù)訓(xùn)練模型

BERT預(yù)訓(xùn)練模型由輸入層、編碼層和輸出層3部分組成。谷歌提供了2款模型，分別為12層transformer、12層Attention Heads、768個(gè)隱層單元以及1.1億參數(shù)的base模型和24層transformer、16層Attention Heads、1 024個(gè)隱層單元以及3.4億參數(shù)的large模型，具體如表1所示。

表1 2款BERT模型結(jié)構(gòu)對(duì)比

其中，輸入層完成將輸入文本轉(zhuǎn)換為詞向量的工作，將3類特征相加：Token Embedding（詞特征嵌入）、Segment Embedding（句級(jí)特征嵌入）、Position Embedding（位置特征）。

BERT輸入層如圖1所示。BERT使用Transformer結(jié)構(gòu)的編碼器作為模型編碼層，其同時(shí)具有RNN提取長距離依賴關(guān)系的能力和CNN并行計(jì)算的能力。這2種能力主要是得益于Transformer-encoder中的self-attention結(jié)構(gòu)，在計(jì)算當(dāng)前詞的時(shí)候同時(shí)利用了它上下文的詞，使其能提取詞之間長距離依賴關(guān)系；由于每個(gè)詞的計(jì)算都是獨(dú)立不互相依賴，所以可以同時(shí)并行計(jì)算所有詞的特征。

圖1 BERT輸入層

BERT預(yù)訓(xùn)練的時(shí)候使用2大任務(wù)進(jìn)行迭代訓(xùn)練，根據(jù)不同任務(wù)輸出也不同。2大任務(wù)包括：①典型的掩碼學(xué)習(xí)模型（Mask Learning Mode，簡(jiǎn)稱MLM）。隨機(jī)遮擋15%的輸入數(shù)據(jù)，通過上下文預(yù)測(cè)遮蓋詞。通過迭代訓(xùn)練，模型將學(xué)習(xí)到遮擋詞的語法特征、句法特征及上下文特征，提取了豐富的詞特征。其中，在選擇Mask的15%的詞當(dāng)中，以80%的概率直接遮擋掉這個(gè)詞，以10%的概率采用任意詞替換法，這種方式將增強(qiáng)BERT模型的魯棒性。②句子連貫性判斷（Next Sentence Prediction，簡(jiǎn)稱NSP），對(duì)輸入的可能相關(guān)或無關(guān)的兩句話進(jìn)行迭代訓(xùn)練，學(xué)習(xí)句子間的關(guān)系。

通過上面2種方法，BERT首次將無監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)這一模式推廣到更深層的雙向結(jié)構(gòu)中，再加上超大規(guī)模的語料訓(xùn)練集，BERT擁有了極高的魯棒性，提高了BERT在下游任務(wù)中的效率，給自然語言處理領(lǐng)域帶來了里程碑式的提升。

2 系統(tǒng)總體框架與工作流程

2.1 系統(tǒng)總體框架

本系統(tǒng)以信息抽取技術(shù)為核心，針對(duì)無法快速全面獲取信息的問題，設(shè)計(jì)了數(shù)據(jù)采集模塊和數(shù)據(jù)分析模塊。借助Web信息抽取、大數(shù)據(jù)語義分析等技術(shù)，實(shí)現(xiàn)互聯(lián)網(wǎng)海量多樣性數(shù)據(jù)融合，利用BERT算法模型實(shí)現(xiàn)輿情數(shù)據(jù)挖掘，幫助用戶快速獲取豐富且準(zhǔn)確的信息。系統(tǒng)總體框架如圖2所示。

圖2 輿情分析系統(tǒng)總體框架圖

其中，數(shù)據(jù)采集處理模塊主要是根據(jù)教育裝備產(chǎn)業(yè)集群和全供應(yīng)鏈的實(shí)際需要，提供基于Spark集群技術(shù)的大數(shù)據(jù) ETL（Extract Transform Load，抽取、轉(zhuǎn)換、加載）技術(shù)的數(shù)據(jù)服務(wù)。對(duì)于與教育裝備相關(guān)的外部Web環(huán)境，提供相關(guān)的數(shù)據(jù)指標(biāo)抽取、存儲(chǔ)轉(zhuǎn)換和分析處理服務(wù)。采用Web信息抽取以及基于信息熵的核心信息提取關(guān)鍵技術(shù)，是教育裝備行業(yè)的創(chuàng)新，為教育裝備企業(yè)能夠提供準(zhǔn)確優(yōu)質(zhì)的行業(yè)數(shù)據(jù)信息提供了良好保證。

數(shù)據(jù)分析模塊主要實(shí)現(xiàn)從互聯(lián)網(wǎng)環(huán)境的響應(yīng)信息源中抓取輿情信息，實(shí)現(xiàn)數(shù)據(jù)清洗并除存儲(chǔ)，最終基于NLP算法模型實(shí)現(xiàn)輿情分析并提供決策信息。

2.2 系統(tǒng)工作流程

大數(shù)據(jù)和人工智能算法是本系統(tǒng)研發(fā)的理論基礎(chǔ)。系統(tǒng)根據(jù)教育裝備產(chǎn)業(yè)集群和全供應(yīng)鏈的實(shí)際需要，從互聯(lián)網(wǎng)環(huán)境的響應(yīng)信息源抓取輿情信息，預(yù)處理后完成結(jié)構(gòu)化存儲(chǔ)，為自然語言處理算法模型的訓(xùn)練、調(diào)優(yōu)及最終上線提供重要支撐。

本系統(tǒng)所涉及的輿情分析主要是基于教育裝備產(chǎn)業(yè)集群的網(wǎng)絡(luò)數(shù)據(jù)模式以及決策需求。系統(tǒng)總體工作流程如圖3所示。

圖3 系統(tǒng)總體工作流程

從圖3中可以看出，系統(tǒng)工作流程主要包含以下核心步驟。

步驟1：網(wǎng)絡(luò)數(shù)據(jù)采集及存儲(chǔ)。系統(tǒng)抓取互聯(lián)網(wǎng)新聞、論壇、博客等輿情信息，清洗并結(jié)構(gòu)化存儲(chǔ)至系統(tǒng)數(shù)據(jù)庫中，通過輿情搜索引擎對(duì)海量的輿情數(shù)據(jù)進(jìn)行高效檢索。

步驟2：輿情分析。對(duì)采集處理并存儲(chǔ)的數(shù)據(jù)，進(jìn)行自然語言算法模型的訓(xùn)練調(diào)優(yōu)，為后續(xù)決策系統(tǒng)提供對(duì)應(yīng)預(yù)測(cè)結(jié)果的輸出。

步驟3：輿情發(fā)布。根據(jù)業(yè)務(wù)需求，為用戶輸出可視化的決策信息，幫助用戶完成輿情分析決策。

3 系統(tǒng)子模塊構(gòu)成與關(guān)鍵子模塊實(shí)現(xiàn)

3.1 系統(tǒng)子模塊構(gòu)成

綜合整體工作流程，系統(tǒng)涉及的子模塊包括：①Web數(shù)據(jù)抽取模塊。就selenium網(wǎng)絡(luò)爬蟲技術(shù)以及Spark Streaming技術(shù)進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)抽取。②數(shù)據(jù)轉(zhuǎn)換模塊。使用Spark RDD技術(shù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換。③數(shù)據(jù)存儲(chǔ)和加載模塊。使用Spark SQL技術(shù)進(jìn)行數(shù)據(jù)的存儲(chǔ)和加載。④數(shù)據(jù)檢索查詢模塊。使用Spark SQL和正則化匹配技術(shù)完成數(shù)據(jù)的檢索和查找。⑤數(shù)據(jù)錄入模塊。設(shè)計(jì)GUI交互界面，完成相應(yīng)的數(shù)據(jù)手動(dòng)輸入和數(shù)據(jù)導(dǎo)入功能。⑥分類決策模塊。使用支持向量機(jī)技術(shù)實(shí)現(xiàn)分類分析。⑦聚類決策模塊。使用層次聚類技術(shù)實(shí)現(xiàn)聚類分析。⑧回歸預(yù)測(cè)模塊。使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)回歸預(yù)測(cè)分析。⑨大數(shù)據(jù)可視化系統(tǒng)。使用PCA算法實(shí)現(xiàn)降維，并且使用分類和聚類技術(shù)將數(shù)據(jù)區(qū)別化展示。⑩平臺(tái)管理系統(tǒng)。提供平臺(tái)整體角色配置管理、日志管理等。

3.2 數(shù)據(jù)分析模塊的實(shí)現(xiàn)

數(shù)據(jù)分析模塊的核心是自然語言算法模型，對(duì)數(shù)據(jù)采集模塊獲取的輿情數(shù)據(jù)進(jìn)行訓(xùn)練調(diào)優(yōu)，不斷優(yōu)化，建立文本的數(shù)據(jù)挖掘模型，從而實(shí)現(xiàn)智能決策所需要的分類、聚類以及回歸預(yù)測(cè)分析算法功能，方便用戶的決策。數(shù)據(jù)分析流程如圖4所示。

圖4 數(shù)據(jù)分析流程

數(shù)據(jù)分析模塊的回歸預(yù)測(cè)分析部分選用是谷歌公司在2019年提出的一種基于Transformer的雙向語言模型BERT預(yù)訓(xùn)練模型。由于該模型與傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)模型在文本特征方式上不同，使得BERT非常適合遷移學(xué)習(xí)，將預(yù)訓(xùn)練模型應(yīng)用于下游任務(wù)之中，該模型在命名實(shí)體識(shí)別、詞性標(biāo)注、情感分類和智能問答等方面都曾一度取得前所未有的效果。BERT的非線性表征向量可以有效解決“一詞多義”問題，并行運(yùn)算的能力可以極大提升訓(xùn)練和預(yù)測(cè)效率，經(jīng)受過海量語料庫訓(xùn)練的BERT將以極高的魯棒性適應(yīng)本項(xiàng)目輿情分析需求。

此外，數(shù)據(jù)分析系統(tǒng)提供了功能和模塊：①詞庫配置功能。對(duì)常用詞、褒義詞和貶義詞庫進(jìn)行配置，方便對(duì)文本的分析。②分詞模塊。使用前向后向最大匹配算法對(duì)文本進(jìn)行分詞，然后根據(jù)常用詞庫去除無意義的常用詞匯。③詞頻統(tǒng)計(jì)模塊。使用該模塊可以對(duì)分詞以后的結(jié)果進(jìn)行詞頻統(tǒng)計(jì)，得出不同詞匯出現(xiàn)的詞頻，得到詞匯和詞頻的鍵值對(duì)，方便進(jìn)一步的分析。④數(shù)據(jù)管理模塊。通過該模塊可以對(duì)文本處理的中間數(shù)據(jù)進(jìn)行管理，包括數(shù)據(jù)的增刪、復(fù)制、刪除和移動(dòng)等操作。

4 系統(tǒng)實(shí)際應(yīng)用效果

本文基于PyTorch Transformers模型庫構(gòu)建BERT網(wǎng)絡(luò)模型，對(duì)來自網(wǎng)絡(luò)新聞、公眾號(hào)、博客、論壇、微博的輿情數(shù)據(jù)進(jìn)行分析。本文基于優(yōu)化庫torch.optim通過lr_scheduler對(duì)學(xué)習(xí)率進(jìn)行優(yōu)化，最終以0.000 01作為模型學(xué)習(xí)率，實(shí)現(xiàn)Adam優(yōu)化器，最終達(dá)到預(yù)測(cè)AUC值81.48%。

5 結(jié)語

本文介紹了一種教育裝備領(lǐng)域多源輿情數(shù)據(jù)融合分析系統(tǒng)。系統(tǒng)通過抓取海量的網(wǎng)絡(luò)數(shù)據(jù)，對(duì)數(shù)據(jù)自動(dòng)進(jìn)行動(dòng)態(tài)糾偏及實(shí)施校準(zhǔn)，并搭建了面向用戶的多維度數(shù)據(jù)存儲(chǔ)與智能管理中心，通過動(dòng)態(tài)融合多源數(shù)據(jù)并深度挖掘數(shù)據(jù)關(guān)聯(lián)特征，構(gòu)建了教育裝備領(lǐng)域多源輿情數(shù)據(jù)融合分析平體系。在此基礎(chǔ)上，分別從多源數(shù)據(jù)的智能采集、數(shù)據(jù)預(yù)處理過程、數(shù)據(jù)融合分析過程提供動(dòng)態(tài)交互的輔助決策分析服務(wù)，并對(duì)云平臺(tái)的架構(gòu)需求進(jìn)行設(shè)計(jì)，以提供快速實(shí)施系統(tǒng)的各類風(fēng)險(xiǎn)預(yù)警及快速處置，從而全面搭建了多源數(shù)據(jù)融合的輿情數(shù)據(jù)融合分析系統(tǒng)。系統(tǒng)構(gòu)建了多目標(biāo)導(dǎo)向的輿情數(shù)據(jù)融合分析體系，通過分析教育裝備產(chǎn)業(yè)導(dǎo)向和用戶服務(wù)需求導(dǎo)向下輿情數(shù)據(jù)融合分析過程中的各類影響因素，研究多種因素共同作用下用戶滿意度的動(dòng)態(tài)演變規(guī)律。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡