章艷華,楊 碩,柳 超
(江蘇電子信息職業(yè)學(xué)院商學(xué)院,江蘇 淮安 223003)
當(dāng)前教育裝備輿情分析相關(guān)信息化系統(tǒng)研究并不成熟,多采用傳統(tǒng)方案,如問卷調(diào)查等,使得數(shù)據(jù)源不足,數(shù)據(jù)量和數(shù)據(jù)內(nèi)容較為局限。
網(wǎng)絡(luò)輿情分析主要側(cè)重于事件的監(jiān)測(cè)與分析,包括網(wǎng)絡(luò)輿情觀點(diǎn)、情緒的挖掘以及網(wǎng)絡(luò)集群行為的監(jiān)測(cè)分析[1-2],而分析與監(jiān)測(cè)報(bào)告主要偏重于統(tǒng)計(jì)分析[3-4]。近年來,蘭月新等[5]研究了大數(shù)據(jù)背景下網(wǎng)絡(luò)輿情的主體交互機(jī)制,張鵬高等[6]進(jìn)行了基于大數(shù)據(jù)的教育輿情監(jiān)控與分析,王丹丹等[7]構(gòu)建了新媒體和大數(shù)據(jù)背景下的多校區(qū)高校網(wǎng)絡(luò)輿情體系,SUN等[8]基于網(wǎng)絡(luò)數(shù)據(jù)分析了教育輿情中的知識(shí)圖譜。上述研究取得一定成效,但直觀度和跨媒體的融合度還不夠。
自然語言處理NLP是一門交叉學(xué)科,集語言學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)為一體,是機(jī)器翻譯、語音助手、推薦系統(tǒng)等領(lǐng)域得到蓬勃發(fā)展的重要核心[9]。隨著計(jì)算機(jī)算力的不斷提升,NLP研究者們開始關(guān)注深度學(xué)習(xí)的可行性,2017年谷歌發(fā)布基于注意力機(jī)制的并行計(jì)算模型Transformers[10],同時(shí)解決年卷積神經(jīng)網(wǎng)絡(luò)不適用于長文本及循環(huán)神經(jīng)網(wǎng)絡(luò)無法并行計(jì)算的困擾,為NLP乃至于整個(gè)深度學(xué)習(xí)領(lǐng)域帶來了巨大突破。2019年,谷歌推出的深度雙向Transformer模型的預(yù)訓(xùn)練模型BERT刷新了業(yè)界多項(xiàng)記錄。
對(duì)于BERT預(yù)訓(xùn)練模型,本文介紹了一種教育裝備輿情分析決策系統(tǒng)。該系統(tǒng)主要是通過采集來自微博、論壇、專業(yè)網(wǎng)站的輿情數(shù)據(jù),通過BERT算法完成大數(shù)據(jù)分析,提供決策支持。本文的研究目標(biāo)是將多種類海量數(shù)據(jù)源中進(jìn)行抓取、清洗、梳理并存儲(chǔ),進(jìn)而克服教育裝備產(chǎn)業(yè)輿情管理涉及面廣、問題復(fù)雜度高的問題。
BERT預(yù)訓(xùn)練模型由輸入層、編碼層和輸出層3部分組成。谷歌提供了2款模型,分別為12層transformer、12層Attention Heads、768個(gè)隱層單元以及1.1億參數(shù)的base模型和24層transformer、16層Attention Heads、1 024個(gè)隱層單元以及3.4億參數(shù)的large模型,具體如表1所示。
表1 2款BERT模型結(jié)構(gòu)對(duì)比
其中,輸入層完成將輸入文本轉(zhuǎn)換為詞向量的工作,將3類特征相加:Token Embedding(詞特征嵌入)、Segment Embedding(句級(jí)特征嵌入)、Position Embedding(位置特征)。
BERT輸入層如圖1所示。BERT使用Transformer結(jié)構(gòu)的編碼器作為模型編碼層,其同時(shí)具有RNN提取長距離依賴關(guān)系的能力和CNN并行計(jì)算的能力。這2種能力主要是得益于Transformer-encoder中的self-attention結(jié)構(gòu),在計(jì)算當(dāng)前詞的時(shí)候同時(shí)利用了它上下文的詞,使其能提取詞之間長距離依賴關(guān)系;由于每個(gè)詞的計(jì)算都是獨(dú)立不互相依賴,所以可以同時(shí)并行計(jì)算所有詞的特征。
圖1 BERT輸入層
BERT預(yù)訓(xùn)練的時(shí)候使用2大任務(wù)進(jìn)行迭代訓(xùn)練,根據(jù)不同任務(wù)輸出也不同。2大任務(wù)包括:①典型的掩碼學(xué)習(xí)模型(Mask Learning Mode,簡(jiǎn)稱MLM)。隨機(jī)遮擋15%的輸入數(shù)據(jù),通過上下文預(yù)測(cè)遮蓋詞。通過迭代訓(xùn)練,模型將學(xué)習(xí)到遮擋詞的語法特征、句法特征及上下文特征,提取了豐富的詞特征。其中,在選擇Mask的15%的詞當(dāng)中,以80%的概率直接遮擋掉這個(gè)詞,以10%的概率采用任意詞替換法,這種方式將增強(qiáng)BERT模型的魯棒性。②句子連貫性判斷(Next Sentence Prediction,簡(jiǎn)稱NSP),對(duì)輸入的可能相關(guān)或無關(guān)的兩句話進(jìn)行迭代訓(xùn)練,學(xué)習(xí)句子間的關(guān)系。
通過上面2種方法,BERT首次將無監(jiān)督的預(yù)訓(xùn)練和有監(jiān)督的微調(diào)這一模式推廣到更深層的雙向結(jié)構(gòu)中,再加上超大規(guī)模的語料訓(xùn)練集,BERT擁有了極高的魯棒性,提高了BERT在下游任務(wù)中的效率,給自然語言處理領(lǐng)域帶來了里程碑式的提升。
本系統(tǒng)以信息抽取技術(shù)為核心,針對(duì)無法快速全面獲取信息的問題,設(shè)計(jì)了數(shù)據(jù)采集模塊和數(shù)據(jù)分析模塊。借助Web信息抽取、大數(shù)據(jù)語義分析等技術(shù),實(shí)現(xiàn)互聯(lián)網(wǎng)海量多樣性數(shù)據(jù)融合,利用BERT算法模型實(shí)現(xiàn)輿情數(shù)據(jù)挖掘,幫助用戶快速獲取豐富且準(zhǔn)確的信息。系統(tǒng)總體框架如圖2所示。
圖2 輿情分析系統(tǒng)總體框架圖
其中,數(shù)據(jù)采集處理模塊主要是根據(jù)教育裝備產(chǎn)業(yè)集群和全供應(yīng)鏈的實(shí)際需要,提供基于Spark集群技術(shù)的大數(shù)據(jù) ETL(Extract Transform Load,抽取、轉(zhuǎn)換、加載)技術(shù)的數(shù)據(jù)服務(wù)。對(duì)于與教育裝備相關(guān)的外部Web環(huán)境,提供相關(guān)的數(shù)據(jù)指標(biāo)抽取、存儲(chǔ)轉(zhuǎn)換和分析處理服務(wù)。采用Web信息抽取以及基于信息熵的核心信息提取關(guān)鍵技術(shù),是教育裝備行業(yè)的創(chuàng)新,為教育裝備企業(yè)能夠提供準(zhǔn)確優(yōu)質(zhì)的行業(yè)數(shù)據(jù)信息提供了良好保證。
數(shù)據(jù)分析模塊主要實(shí)現(xiàn)從互聯(lián)網(wǎng)環(huán)境的響應(yīng)信息源中抓取輿情信息,實(shí)現(xiàn)數(shù)據(jù)清洗并除存儲(chǔ),最終基于NLP算法模型實(shí)現(xiàn)輿情分析并提供決策信息。
大數(shù)據(jù)和人工智能算法是本系統(tǒng)研發(fā)的理論基礎(chǔ)。系統(tǒng)根據(jù)教育裝備產(chǎn)業(yè)集群和全供應(yīng)鏈的實(shí)際需要,從互聯(lián)網(wǎng)環(huán)境的響應(yīng)信息源抓取輿情信息,預(yù)處理后完成結(jié)構(gòu)化存儲(chǔ),為自然語言處理算法模型的訓(xùn)練、調(diào)優(yōu)及最終上線提供重要支撐。
本系統(tǒng)所涉及的輿情分析主要是基于教育裝備產(chǎn)業(yè)集群的網(wǎng)絡(luò)數(shù)據(jù)模式以及決策需求。系統(tǒng)總體工作流程如圖3所示。
圖3 系統(tǒng)總體工作流程
從圖3中可以看出,系統(tǒng)工作流程主要包含以下核心步驟。
步驟1:網(wǎng)絡(luò)數(shù)據(jù)采集及存儲(chǔ)。系統(tǒng)抓取互聯(lián)網(wǎng)新聞、論壇、博客等輿情信息,清洗并結(jié)構(gòu)化存儲(chǔ)至系統(tǒng)數(shù)據(jù)庫中,通過輿情搜索引擎對(duì)海量的輿情數(shù)據(jù)進(jìn)行高效檢索。
步驟2:輿情分析。對(duì)采集處理并存儲(chǔ)的數(shù)據(jù),進(jìn)行自然語言算法模型的訓(xùn)練調(diào)優(yōu),為后續(xù)決策系統(tǒng)提供對(duì)應(yīng)預(yù)測(cè)結(jié)果的輸出。
步驟3:輿情發(fā)布。根據(jù)業(yè)務(wù)需求,為用戶輸出可視化的決策信息,幫助用戶完成輿情分析決策。
綜合整體工作流程,系統(tǒng)涉及的子模塊包括:①Web數(shù)據(jù)抽取模塊。就selenium網(wǎng)絡(luò)爬蟲技術(shù)以及Spark Streaming技術(shù)進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)抽取。②數(shù)據(jù)轉(zhuǎn)換模塊。使用Spark RDD技術(shù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換。③數(shù)據(jù)存儲(chǔ)和加載模塊。使用Spark SQL技術(shù)進(jìn)行數(shù)據(jù)的存儲(chǔ)和加載。④數(shù)據(jù)檢索查詢模塊。使用Spark SQL和正則化匹配技術(shù)完成數(shù)據(jù)的檢索和查找。⑤數(shù)據(jù)錄入模塊。設(shè)計(jì)GUI交互界面,完成相應(yīng)的數(shù)據(jù)手動(dòng)輸入和數(shù)據(jù)導(dǎo)入功能。⑥分類決策模塊。使用支持向量機(jī)技術(shù)實(shí)現(xiàn)分類分析。⑦聚類決策模塊。使用層次聚類技術(shù)實(shí)現(xiàn)聚類分析。⑧回歸預(yù)測(cè)模塊。使用深度神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)回歸預(yù)測(cè)分析。⑨大數(shù)據(jù)可視化系統(tǒng)。使用PCA算法實(shí)現(xiàn)降維,并且使用分類和聚類技術(shù)將數(shù)據(jù)區(qū)別化展示。⑩平臺(tái)管理系統(tǒng)。提供平臺(tái)整體角色配置管理、日志管理等。
數(shù)據(jù)分析模塊的核心是自然語言算法模型,對(duì)數(shù)據(jù)采集模塊獲取的輿情數(shù)據(jù)進(jìn)行訓(xùn)練調(diào)優(yōu),不斷優(yōu)化,建立文本的數(shù)據(jù)挖掘模型,從而實(shí)現(xiàn)智能決策所需要的分類、聚類以及回歸預(yù)測(cè)分析算法功能,方便用戶的決策。數(shù)據(jù)分析流程如圖4所示。
圖4 數(shù)據(jù)分析流程
數(shù)據(jù)分析模塊的回歸預(yù)測(cè)分析部分選用是谷歌公司在2019年提出的一種基于Transformer的雙向語言模型BERT預(yù)訓(xùn)練模型。由于該模型與傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)模型在文本特征方式上不同,使得BERT非常適合遷移學(xué)習(xí),將預(yù)訓(xùn)練模型應(yīng)用于下游任務(wù)之中,該模型在命名實(shí)體識(shí)別、詞性標(biāo)注、情感分類和智能問答等方面都曾一度取得前所未有的效果。BERT的非線性表征向量可以有效解決“一詞多義”問題,并行運(yùn)算的能力可以極大提升訓(xùn)練和預(yù)測(cè)效率,經(jīng)受過海量語料庫訓(xùn)練的BERT將以極高的魯棒性適應(yīng)本項(xiàng)目輿情分析需求。
此外,數(shù)據(jù)分析系統(tǒng)提供了功能和模塊:①詞庫配置功能。對(duì)常用詞、褒義詞和貶義詞庫進(jìn)行配置,方便對(duì)文本的分析。②分詞模塊。使用前向后向最大匹配算法對(duì)文本進(jìn)行分詞,然后根據(jù)常用詞庫去除無意義的常用詞匯。③詞頻統(tǒng)計(jì)模塊。使用該模塊可以對(duì)分詞以后的結(jié)果進(jìn)行詞頻統(tǒng)計(jì),得出不同詞匯出現(xiàn)的詞頻,得到詞匯和詞頻的鍵值對(duì),方便進(jìn)一步的分析。④數(shù)據(jù)管理模塊。通過該模塊可以對(duì)文本處理的中間數(shù)據(jù)進(jìn)行管理,包括數(shù)據(jù)的增刪、復(fù)制、刪除和移動(dòng)等操作。
本文基于PyTorch Transformers模型庫構(gòu)建BERT網(wǎng)絡(luò)模型,對(duì)來自網(wǎng)絡(luò)新聞、公眾號(hào)、博客、論壇、微博的輿情數(shù)據(jù)進(jìn)行分析。本文基于優(yōu)化庫torch.optim通過lr_scheduler對(duì)學(xué)習(xí)率進(jìn)行優(yōu)化,最終以0.000 01作為模型學(xué)習(xí)率,實(shí)現(xiàn)Adam優(yōu)化器,最終達(dá)到預(yù)測(cè)AUC值81.48%。
本文介紹了一種教育裝備領(lǐng)域多源輿情數(shù)據(jù)融合分析系統(tǒng)。系統(tǒng)通過抓取海量的網(wǎng)絡(luò)數(shù)據(jù),對(duì)數(shù)據(jù)自動(dòng)進(jìn)行動(dòng)態(tài)糾偏及實(shí)施校準(zhǔn),并搭建了面向用戶的多維度數(shù)據(jù)存儲(chǔ)與智能管理中心,通過動(dòng)態(tài)融合多源數(shù)據(jù)并深度挖掘數(shù)據(jù)關(guān)聯(lián)特征,構(gòu)建了教育裝備領(lǐng)域多源輿情數(shù)據(jù)融合分析平體系。在此基礎(chǔ)上,分別從多源數(shù)據(jù)的智能采集、數(shù)據(jù)預(yù)處理過程、數(shù)據(jù)融合分析過程提供動(dòng)態(tài)交互的輔助決策分析服務(wù),并對(duì)云平臺(tái)的架構(gòu)需求進(jìn)行設(shè)計(jì),以提供快速實(shí)施系統(tǒng)的各類風(fēng)險(xiǎn)預(yù)警及快速處置,從而全面搭建了多源數(shù)據(jù)融合的輿情數(shù)據(jù)融合分析系統(tǒng)。系統(tǒng)構(gòu)建了多目標(biāo)導(dǎo)向的輿情數(shù)據(jù)融合分析體系,通過分析教育裝備產(chǎn)業(yè)導(dǎo)向和用戶服務(wù)需求導(dǎo)向下輿情數(shù)據(jù)融合分析過程中的各類影響因素,研究多種因素共同作用下用戶滿意度的動(dòng)態(tài)演變規(guī)律。