趙雨恒 管 青 姜 馳
(中國地質(zhì)大學(xué)(北京)信息工程學(xué)院,北京 100083)
為了獲得競爭優(yōu)勢,礦企從業(yè)人員必須及時(shí)了解并響應(yīng)大眾對(duì)礦產(chǎn)企業(yè)的輿論[1]。傳統(tǒng)的人工獲取大眾輿情的方法存在以下問題。
(1)大眾評(píng)價(jià)過度零碎且“個(gè)性化”
不一樣的礦產(chǎn)資源在需要量、經(jīng)濟(jì)收益等領(lǐng)域出現(xiàn)差別,公眾的評(píng)價(jià)趨向于“個(gè)性化”。高管需要每日核查公眾對(duì)各網(wǎng)站的評(píng)價(jià),人工成本大,易出差錯(cuò)。
(2)對(duì)關(guān)鍵輿論不夠的預(yù)警信息和追蹤
礦產(chǎn)資源開發(fā)設(shè)計(jì)存有一些漏洞,當(dāng)要求提升時(shí),資源進(jìn)到一定時(shí)間時(shí),一部分漏洞會(huì)加快曝露,并突發(fā)性新的漏洞[2]。通常會(huì)導(dǎo)致財(cái)產(chǎn)損失,乃至危害礦山開采生態(tài)體系的總體均衡。
(3)評(píng)論優(yōu)劣和大眾情緒難以得到客觀點(diǎn)評(píng)
手動(dòng)式匯總和區(qū)別很有可能會(huì)因?yàn)樾畔?nèi)容有誤而造成戰(zhàn)略決策不正確。
因?yàn)橐陨系V山公司搜集公眾評(píng)價(jià)的不夠,文中搜集某大型企業(yè)的“中國五礦”點(diǎn)評(píng),運(yùn)用數(shù)字模型和計(jì)算方式完成分析,發(fā)掘公眾對(duì)熱點(diǎn)話題的客觀感情發(fā)展趨勢,為礦產(chǎn)從業(yè)人員緊緊圍繞企業(yè)輿論給予安全可靠的根據(jù)。
可依據(jù)不一樣的工作標(biāo)準(zhǔn),Word2Vec可以設(shè)定最后單詞向量的層面[3],結(jié)果單詞向量具備能加性,可以用來表明Word2Vec單詞向量的總數(shù):vec(Actor)-vec(Actress)=vec(Man)-vec(Woman)Word2Vec中含有連續(xù)詞袋模型(CBOW)和Skip-gram。假設(shè)某個(gè)待推測的詞是wi,則其前后詞信息為Context(wi)={wi-c'…,wi-1',wi+1,…,wi+c}其中C為前后單詞的個(gè)數(shù),wi出現(xiàn)的概率可表示為P=P(wj|Context(wi))。
知識(shí)工程法[4]必須事前搭建有收剖析的文本的各個(gè)領(lǐng)域的情感詞典。完成環(huán)節(jié):即將研究的句子分成單詞,解析xml句子中的單詞,分辨單詞是不是發(fā)生在情感詞典中。統(tǒng)計(jì)分析評(píng)定詞典中產(chǎn)生的單詞和句子中的部位,各自開展水平詞解決和否定詞處理,并依據(jù)具體文本測算權(quán)重值。更細(xì)膩的情感趨向剖析要恰當(dāng)解決文章內(nèi)容中的表情圖、感嘆句、反問句等。最終求合,獲得文章內(nèi)容的情感分值。
基于Word2Vec擴(kuò)展的LDA的文本表示,假設(shè)礦產(chǎn)企業(yè)相關(guān)評(píng)論文本集由N篇評(píng)論文本{d1,d2,…,dN}組成,任一篇文本都包含k個(gè)主題{z1,z2,…,zK},則礦產(chǎn)企業(yè)相關(guān)評(píng)論文本集D可表示為
在其中,ZjiZji等同于第i段文本中的第j段主題幾率,n相當(dāng)于語料庫尺寸,即n篇文本。
與此同時(shí),根據(jù)Skip-gram來練習(xí)詞向量,可以假定單詞空間向量維為K '。假如全部文本都包括M個(gè)詞{w1,w2,w3,…,wm}以及k特性,則文本就可以被表明出來。
實(shí)驗(yàn)的訓(xùn)練集是采用了與“礦山公司”有關(guān)的16186篇評(píng)論性文章。本實(shí)驗(yàn)較為了基于Word2Vec拓展的LDA+SKM、基 于Word2Vec拓 展 的LDA+優(yōu) 化SKM、Word2Vec+SKM、VSM+SKM、傳統(tǒng)式LDA+SKM,比對(duì)五組實(shí)驗(yàn)結(jié)果,如表1所顯示。
表1 五種組合算法對(duì)比實(shí)驗(yàn)評(píng)估結(jié)果
BosonNLP全自動(dòng)搭建成來源于新浪微博、新聞報(bào)道、社區(qū)論壇等數(shù)據(jù)庫的上百萬條情感標(biāo)識(shí)數(shù)據(jù)信息。最先解決要研究的文本中文分詞,隨后反復(fù)文本中的每一個(gè)詞,在詞典中搜索該詞的情感分值,隨后累計(jì)文本中產(chǎn)生的全部詞的情感分值,假如在詞典中找不著文本中的詞,則算為零。全部文本都如上處理,獲得了持續(xù)的文本情感評(píng)定分值。
實(shí)驗(yàn)數(shù)據(jù)選用“中國五礦”礦企的新浪微博等平臺(tái)的評(píng)論文本,文本預(yù)備處理后,12805個(gè)文本任意應(yīng)用2000個(gè)做為檢測集,剩余的10805個(gè)作為訓(xùn)練集。各自應(yīng)用BosonNLP和HowNet評(píng)定字典,依據(jù)礦山公司行業(yè)的詞開展拓展,對(duì)評(píng)論文本開展打分,確定最好閥值后,對(duì)全部文本開展評(píng)定進(jìn)行情感歸類。如圖2所示。
上述3組對(duì)比實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果如表2所示。
表2 3組對(duì)比實(shí)驗(yàn)評(píng)估結(jié)果
此項(xiàng)實(shí)證分析為各個(gè)平臺(tái)設(shè)計(jì)了專業(yè)的網(wǎng)絡(luò)爬蟲,每日手動(dòng)式獲得全新的輿論數(shù)據(jù)信息。應(yīng)用Sqlalchemy庫文件的create_engine函數(shù)將數(shù)據(jù)庫連接到Python專用工具,提取“中國五礦”企業(yè)需要的評(píng)論文本。使用詞云可視化各平臺(tái)對(duì)同一個(gè)礦企的點(diǎn)評(píng),屆時(shí)還可看到不同平臺(tái)對(duì)同一個(gè)礦企的評(píng)價(jià)。如圖3所示。
從圖4可以看得出,針對(duì)“中國五礦”礦企全部平臺(tái)的文本分析,全部平臺(tái)的評(píng)論中含有47%的負(fù)面評(píng)論。
對(duì)于話題檢驗(yàn)方式與情感分析方式的融合非常清晰的反映在“中國五礦”企業(yè)的輿論文本分析中,這二者的運(yùn)用合理緩解了礦企的輿論搜集和分析每日任務(wù)中具有的三個(gè)難點(diǎn):
定向網(wǎng)絡(luò)爬蟲程序的開發(fā)設(shè)計(jì)一定程度解決了大家點(diǎn)評(píng)零碎、“個(gè)性化”產(chǎn)生的輿論信息收集耗費(fèi)人力資源問題。從業(yè)者不需再手動(dòng)式采集大眾評(píng)價(jià),只需運(yùn)作網(wǎng)絡(luò)爬蟲,將全部輿論文本定期升級(jí)儲(chǔ)存在數(shù)據(jù)庫系統(tǒng)中。
“重點(diǎn)輿論的預(yù)警和追蹤”問題一定程度上被整體話題檢測所解決。礦產(chǎn)從業(yè)者無須再人工制作歸納搜集的信息內(nèi)容,只用將全部評(píng)論文本鍵入到話題檢測方式進(jìn)行練習(xí),并自動(dòng)聚類分析每個(gè)話題類型以及濃度值。
“企業(yè)優(yōu)劣和大眾情緒無法獲得客觀性點(diǎn)評(píng)”的問題一定程度上被整體情感分析所解決。從業(yè)人員不用看大眾評(píng)論來分辨情感趨向,只需將要研究的評(píng)論文本鍵入小型神經(jīng)網(wǎng)絡(luò),就可自動(dòng)檢索其情感趨向。
本文使用基于Word2Vec的輿論分析與預(yù)測技術(shù),開展輿論文本話題檢驗(yàn)、輿論文本的情感分析,以"中國五礦"礦企為例子,為礦企給予了進(jìn)行輿論分析和避開輿論風(fēng)險(xiǎn)的方法。