国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于行業(yè)與地域的股票輿情監(jiān)測分析系統(tǒng)設(shè)計(jì)

2019-11-06 03:03
關(guān)鍵詞:輿情監(jiān)測分析

1.香港中文大學(xué)(深圳)物聯(lián)網(wǎng)與云計(jì)算實(shí)驗(yàn)室,廣東深圳,518172

2.武大吉奧信息技術(shù)有限公司,湖北武漢,430223

引言

2018年8月20日,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第42次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]中指出,截至2018年6月30日,中國網(wǎng)民規(guī)模達(dá) 8.02 億,普及率為57.7%,手機(jī)網(wǎng)民規(guī)模達(dá)7.88 億,網(wǎng)民中使用手機(jī)上網(wǎng)人群的占比達(dá) 98.3%。微博月活躍用戶達(dá)到3.77億,微信的全球用戶量達(dá)到10.4 億,公眾號(hào)的數(shù)量超過 1000 萬。便捷的網(wǎng)絡(luò)信息服務(wù)也為股票投資者產(chǎn)生便利:投資者可以通過上市公司的官方網(wǎng)站與微博、微信公眾號(hào)平臺(tái)等了解公司當(dāng)前經(jīng)營狀況;財(cái)經(jīng)及股票論壇的存在則使得投資者們可以第一時(shí)間了解財(cái)經(jīng)資訊,讓不同投資者可以分享投資策略、互動(dòng)交流。龐大的網(wǎng)民基數(shù)、爆炸式增長的網(wǎng)絡(luò)信息量以及日益復(fù)雜的多元社交機(jī)制所帶來的是網(wǎng)絡(luò)輿情影響力的逐漸增大。另一方面,由于輿情管理系統(tǒng)的不完善,虛假的輿論極有可能通過多元化的傳輸渠道進(jìn)行病毒式傳播,引發(fā)股票投資者的羊群效應(yīng),進(jìn)而引發(fā)股票市場的劇烈波動(dòng)。

Fama[2]的有效市場理論指出,有效率的金融市場中,證券價(jià)格應(yīng)當(dāng)充分反映市場信息。因此,建立一個(gè)有效的股票輿情監(jiān)測系統(tǒng),不僅可以幫助政府部門加強(qiáng)市場監(jiān)管、維護(hù)市場秩序,更可以促進(jìn)市場信息高效、透明地傳播,使得市場價(jià)格能更加充分反映市場信息、滿足投資者的需要。

1 建設(shè)目標(biāo)

行為金融學(xué)作為一門新興的金融學(xué)科,主要從個(gè)體心理、個(gè)體情緒的角度來研究、預(yù)測金融市場的發(fā)展。Fisher,Statman[3]研究了個(gè)體投資者、機(jī)構(gòu)投資者與投資相關(guān)媒體作者的投資情緒的關(guān)系。研究證明,個(gè)體投資者的情緒更容易受到半權(quán)威業(yè)界人士、也就是媒體作者的情緒影響。媒體的觀念在愈發(fā)發(fā)達(dá)的互聯(lián)網(wǎng)上不斷擴(kuò)散、發(fā)酵、獲得認(rèn)同,久而久之便形成了“人們對(duì)于該事件的所有認(rèn)知、情感、態(tài)度和行為傾向的集合”,即網(wǎng)絡(luò)輿情(曾潤喜[4]),進(jìn)而對(duì)股票價(jià)格產(chǎn)生影響。越來越多的研究者也從網(wǎng)絡(luò)情緒[5]、公眾情緒狀態(tài)變化[6]等角度研究證實(shí)了網(wǎng)絡(luò)輿情與股票價(jià)格變動(dòng)的關(guān)系。

近年來,輿情服務(wù)在進(jìn)行行業(yè)規(guī)范和整合的同時(shí),正面臨著大數(shù)據(jù)挑戰(zhàn)[7]。輿情產(chǎn)品服務(wù)提供者不僅需要強(qiáng)化輿情監(jiān)測分析系統(tǒng)的數(shù)據(jù)抓取能力與數(shù)據(jù)解讀能力,更得設(shè)法對(duì)數(shù)量繁多的輿情事件信息提供正確且高效的分析方法。具體而言,網(wǎng)絡(luò)輿情事件具有性質(zhì)與地域的特征:一方面,網(wǎng)絡(luò)輿情事件根據(jù)其事件性質(zhì)可劃分成不同類別,如金融類輿情、房地產(chǎn)類輿情、教育類輿情等。與之類似,股票市場上,一些具有相同要素的股票也會(huì)被劃分成同樣類別的股票板塊(中國證監(jiān)會(huì)《上市公司行業(yè)分類指引》[8]將所有上市公司依“行業(yè)要素”劃分成 19 大類、90 小類)。很明顯,特定類別的輿情事件將對(duì)與之具有相同性質(zhì)名稱的股票板塊數(shù)據(jù)產(chǎn)生影響;另一方面,輿情事件同樣具有其地域特征,而處于同一環(huán)境下的上市公司由于具有類似的政治經(jīng)濟(jì)特征[9],在受到當(dāng)?shù)禺a(chǎn)生輿情事件的沖擊會(huì)產(chǎn)生類似的變動(dòng)方向。

因此,筆者將在本文所屬的股票輿情監(jiān)測分析平臺(tái)中引入基于網(wǎng)絡(luò)輿情對(duì)股票行業(yè)與地域的聯(lián)動(dòng)分析功能。本文所述的股票輿情監(jiān)測分析系統(tǒng)是基于云服務(wù)模式的互聯(lián)網(wǎng)金融輿情信息監(jiān)測平臺(tái),以提供 7*24 小時(shí)輿情信息的采集、分析,敏感事件監(jiān)測和預(yù)警,全文檢測等服務(wù)為目標(biāo),覆蓋了輿情事件的發(fā)現(xiàn)、預(yù)警、跟蹤、分析、處置和評(píng)價(jià)等全過程。在輿情信息抓取與解讀的基礎(chǔ)上,本平臺(tái)將以股票市場的行業(yè)板塊及股票上市公司的地域?yàn)閯澐忠蛩剡M(jìn)行聯(lián)動(dòng)分析,直觀展現(xiàn)當(dāng)某一輿情事件出現(xiàn)時(shí),其可能會(huì)對(duì)與之性質(zhì)類似的板塊的股票、與之地域相近的上市公司的股票所造成的影響。通過對(duì)歷史發(fā)生的輿情事件與對(duì)應(yīng)的歷史股票價(jià)格進(jìn)行機(jī)器學(xué)習(xí)分析,可將當(dāng)下時(shí)點(diǎn)發(fā)生的輿情事件與歷史同性質(zhì)輿情事件進(jìn)行對(duì)比、進(jìn)而分析不同類別的輿情事件在不同時(shí)間點(diǎn),對(duì)不同板塊、不同地域的股票所產(chǎn)生的影響方向及大小,進(jìn)而為市場管理者、投資者的決策提供參考。

2 平臺(tái)架構(gòu)

2.1 軟件架構(gòu)

本文所述基于行業(yè)與地域因素的股票輿情監(jiān)測分析系統(tǒng)的軟件架構(gòu)如下。

2.1.1 基礎(chǔ)設(shè)施

基礎(chǔ)設(shè)施是該輿情監(jiān)測分析平臺(tái)運(yùn)行的基礎(chǔ)軟件,包括操作系統(tǒng)、數(shù)據(jù)庫、大數(shù)據(jù)分析基礎(chǔ)軟件等。

2.1.2 數(shù)據(jù)采集

數(shù)據(jù)采集子系統(tǒng)主要提供網(wǎng)絡(luò)站點(diǎn)采集規(guī)則配置、網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)清洗預(yù)處理和數(shù)據(jù)入庫等功能。數(shù)據(jù)采集子系統(tǒng)是平臺(tái)運(yùn)行的數(shù)據(jù)基礎(chǔ),通過數(shù)據(jù)采集子系統(tǒng)從上市公司網(wǎng)站、財(cái)經(jīng)論壇、微信公眾號(hào)、微博采集各類文章和網(wǎng)友評(píng)論等數(shù)據(jù),形成輿情監(jiān)測分析平臺(tái)的數(shù)據(jù)基礎(chǔ)。

2.1.3 大數(shù)據(jù)處理與全文檢索

大數(shù)據(jù)數(shù)據(jù)處理主要功能是對(duì)采集入庫的原始數(shù)據(jù)進(jìn)行一系列的加工處理和分類分析,以達(dá)到將原始數(shù)據(jù)整理成各類輿情信息的目的。數(shù)據(jù)分析處理主要包括中文分詞、上市公司識(shí)別、股票代碼識(shí)別、主題詞提取、行業(yè)分類、文本聚類、文本相似度計(jì)算、文本摘要、熱點(diǎn)事件發(fā)現(xiàn)、情感傾向分析等。

圖1 軟件架構(gòu)Fig.1 Software Architecture

全文檢索建設(shè)面向高效檢索的股票輿主題數(shù)據(jù)庫,將支持主題詞、邏輯表達(dá)式檢索方式,并可運(yùn)用熱點(diǎn)關(guān)鍵字聯(lián)想功能。符合的搜索結(jié)果可以按照類別、時(shí)間、地域、部門、專題等多種維度進(jìn)行歸類,類目中的信息將按照出現(xiàn)頻度、相似熱度排序展示,并進(jìn)行信息排重和消噪、自動(dòng)顯示輿情摘要,并對(duì)關(guān)鍵字部分高亮提示,點(diǎn)擊可以瀏覽和下載全文信息。

搜索引擎采用分布式架構(gòu),總數(shù)據(jù)量為上億級(jí);查詢速度為毫秒級(jí);提供365×7×24高可用性的數(shù)據(jù)服務(wù);數(shù)據(jù)更新間隔為分鐘級(jí),具備在第一時(shí)間內(nèi)從互聯(lián)網(wǎng)的海量信息中監(jiān)測到輿情熱點(diǎn)的能力,滿足高效的檢索響應(yīng)要求。

2.1.4 輿情分析與輿論指標(biāo)庫

輿情分析主要是指對(duì)網(wǎng)上開放平臺(tái)(新聞、紙媒、博客、論壇、微博、微信、新聞客戶端等)的數(shù)據(jù)的挖掘分析。在對(duì)數(shù)據(jù)進(jìn)行歸納、梳理的同時(shí),將同步引入特定輿論事件的性質(zhì)所可能影響的股票板塊數(shù)據(jù)、或該輿論事件所發(fā)生地域的上市公司股票的實(shí)時(shí)數(shù)據(jù),進(jìn)行金融數(shù)據(jù)定量分析或時(shí)空大數(shù)據(jù)關(guān)聯(lián)分析。

通過對(duì)輿情事件的類型按性質(zhì)、地域進(jìn)行分類,各類輿情事件將歸類存儲(chǔ)于“性質(zhì)輿論指標(biāo)庫”與“地域輿論指標(biāo)庫”。庫中所存儲(chǔ)的歷史輿情事件,將結(jié)合同期與當(dāng)前選定庫、選定類別的輿情事件相同板塊性質(zhì)、或者相同地域上市公司所對(duì)應(yīng)的歷史股票價(jià)格數(shù)據(jù),進(jìn)行機(jī)器學(xué)習(xí)與深度學(xué)習(xí)分析,以計(jì)算、優(yōu)化特定類別、特定地域的輿情事件對(duì)股票價(jià)格可能造成的影響因子。

投資者可以選擇當(dāng)前任意特定輿情事件,系統(tǒng)將實(shí)時(shí)展示該輿情對(duì)與其性質(zhì)類似的板塊的股票、與之地域相近的上市公司的股票所造成的影響,并與歷史同類型的輿情事件所造成的影響因子進(jìn)行對(duì)比,為投資者的決策提供參考。

2.2 關(guān)鍵技術(shù)

2.2.1 海量互聯(lián)網(wǎng)數(shù)據(jù)近實(shí)時(shí)數(shù)據(jù)抓取

評(píng)價(jià)輿情監(jiān)測平臺(tái)是否好用有兩個(gè)重點(diǎn)指標(biāo):一是該平臺(tái)監(jiān)測的數(shù)據(jù)是否全面,二是該平臺(tái)數(shù)據(jù)采集是否及時(shí)。沒有數(shù)據(jù)的輿情監(jiān)測平臺(tái)絕不能稱為好用,網(wǎng)絡(luò)爬蟲作為輿情監(jiān)測平臺(tái)的重要數(shù)據(jù)來源,承擔(dān)了數(shù)據(jù)采集的絕大部分工作,互聯(lián)網(wǎng)上的站點(diǎn)有很多,輿情監(jiān)測平臺(tái)不可能將所有的站點(diǎn)數(shù)據(jù)都采集進(jìn)來,另一方面輿情的特性要求數(shù)據(jù)采集必須及時(shí),只有及時(shí)才能第一時(shí)間將輿情預(yù)警給用戶。因此,“海量”和“及時(shí)”兩個(gè)矛盾的指標(biāo)出現(xiàn)了。本平臺(tái)側(cè)重于經(jīng)濟(jì)、時(shí)政網(wǎng)絡(luò)輿情監(jiān)測,使得監(jiān)測的互聯(lián)網(wǎng)站點(diǎn)少了很多,另一方面從網(wǎng)絡(luò)爬蟲著手優(yōu)化,主要從三個(gè)方面著手優(yōu)化:

(1)建立采集緩存

本平臺(tái)采用布隆過濾器建立采集緩存,首先建立一個(gè)布隆過濾器,將所有已采集站點(diǎn) URL的MD5 加入到布隆過濾器中,記錄該 URL 已經(jīng)被采集,在下一輪數(shù)據(jù)采集時(shí)便不再采集。

(2)動(dòng)態(tài)調(diào)整站點(diǎn)采集周期

每個(gè)網(wǎng)站有大道的頻道,如果按照相同的采集周期去遍歷所有頻道,只非常容易造成采集資源的浪費(fèi),應(yīng)該將采集資源集中到更新更為頻繁的頻道,更新不頻繁的頻道少采集。該股票輿情監(jiān)測分析平臺(tái)綜合網(wǎng)站的級(jí)別、歷史采集量、頻道數(shù)、近期更新頻度等因素建立采集周期動(dòng)態(tài)調(diào)整算法,使得數(shù)據(jù)更新頻繁的網(wǎng)站采集頻率更快,不經(jīng)常更新的網(wǎng)站采集頻率更慢,一方面減少資源的浪費(fèi),另一方面提高了采集效率。

(3)偏量計(jì)算采集技術(shù)

采集網(wǎng)站頻道的時(shí)候,經(jīng)常會(huì)碰到頻道列表有翻頁的情況,那么采集數(shù)據(jù)的時(shí)候采集多少頁則是個(gè)問題。所謂偏量采集技術(shù)是指在采集第一頁數(shù)據(jù)的時(shí)候,根據(jù)采集的時(shí)間間隔來預(yù)測跟離上一次采集后,本輪采集周期需要采集多少頁的數(shù)據(jù)的算法,采集這種技術(shù)可以大大減少了采集時(shí)翻頁的數(shù)量。

2.2.2 網(wǎng)頁內(nèi)容結(jié)構(gòu)化抽取。

輿情數(shù)據(jù)采集屬于垂直行業(yè)數(shù)據(jù)采集,一般來說這要求能夠精準(zhǔn)地采集到每篇文章的結(jié)構(gòu)化數(shù)據(jù),傳統(tǒng)輿情系統(tǒng)大部分通過配置數(shù)據(jù)采集規(guī)則的方式來完成數(shù)據(jù)的抽取。通過配置規(guī)則的方式來采集數(shù)據(jù)的缺點(diǎn)是:一旦網(wǎng)站進(jìn)行改版升級(jí),造成網(wǎng)頁結(jié)構(gòu)發(fā)生變化,則需要重新配置數(shù)據(jù)采集規(guī)則,這就給采集規(guī)則維護(hù)帶來很大的工作量。

本平臺(tái)引入基于文本密度的網(wǎng)頁內(nèi)容結(jié)構(gòu)化抽取技術(shù),實(shí)現(xiàn)從網(wǎng)頁 HTML 文本中自動(dòng)提取標(biāo)題、時(shí)間和正文,新聞網(wǎng)頁提取準(zhǔn)確率達(dá)到95% 以上,大大減少了人工配置數(shù)據(jù)采集規(guī)則的工作量。

2.3.3 廣告、色情等垃圾信息有效過濾

少部分網(wǎng)絡(luò)用戶利用互聯(lián)網(wǎng)開放的特性大肆發(fā)布廣告或色情等垃圾信息,嚴(yán)重影響了互聯(lián)網(wǎng)網(wǎng)民的用戶體驗(yàn),也影響互聯(lián)網(wǎng)輿情監(jiān)測平臺(tái)數(shù)據(jù)監(jiān)測的精準(zhǔn)性,高效有用的垃圾信息過濾系統(tǒng)顯得很有必要。本平臺(tái)引入機(jī)器學(xué)習(xí),利用已整理好的垃圾信息樣本不斷地迭代進(jìn)行訓(xùn)練,得到垃圾信息過濾模型,得到可用于生產(chǎn)環(huán)境的垃圾信息識(shí)別模型。

2.3.4 輿情高發(fā)區(qū)域分析

從互聯(lián)網(wǎng)采集到的文章數(shù)據(jù)沒有包括地址信息,無法直接用來做輿情高發(fā)區(qū)域分析。本平臺(tái)利用自然語言處理(NLP)技術(shù)自動(dòng)識(shí)別輿情信息中的位置信息并進(jìn)行聚合分析,并基于地理信息系統(tǒng)(GIS)技術(shù)以熱點(diǎn)力圖的形式展現(xiàn),同時(shí)將各上市公司所在位置在GIS 地圖上疊加展示,可以直觀地查看各類輿情的高發(fā)區(qū)域,方便對(duì)輿論事件所發(fā)生地域的上市公司的股票進(jìn)行關(guān)聯(lián)分析。

2.3.5 輿情影響因子分析

本平臺(tái)將在前人關(guān)于輿情指標(biāo)的研究的基礎(chǔ)上,基于內(nèi)容識(shí)別算法,對(duì)兩個(gè)輿論指標(biāo)庫中存儲(chǔ)的各種類別的歷史輿情事件設(shè)計(jì)輿情變量指標(biāo),并對(duì)其運(yùn)用機(jī)器學(xué)習(xí)與深度學(xué)習(xí)方法,結(jié)合特定輿情事件所對(duì)應(yīng)同性質(zhì)或同地域的股票歷史價(jià)格,計(jì)算并不斷優(yōu)化特定類別的輿情事件對(duì)當(dāng)前時(shí)點(diǎn)對(duì)應(yīng)板塊或地域的股票的影響因子,供投資者參考。

3 系統(tǒng)功能

3.1 數(shù)據(jù)采集子系統(tǒng)

數(shù)據(jù)采集子系統(tǒng)主要提供網(wǎng)絡(luò)數(shù)據(jù)采集、數(shù)據(jù)清洗預(yù)處理和數(shù)據(jù)入庫等功能。數(shù)據(jù)采集子系統(tǒng)是平臺(tái)運(yùn)行的基礎(chǔ),通過數(shù)據(jù)采集子系統(tǒng)從互聯(lián)網(wǎng)采集各類文章、微信公眾號(hào)、微博和網(wǎng)絡(luò)評(píng)論等數(shù)據(jù),形成股票輿情監(jiān)測分析系統(tǒng)的數(shù)據(jù)基礎(chǔ)。

3.1.1 網(wǎng)絡(luò)數(shù)據(jù)采集

網(wǎng)絡(luò)數(shù)據(jù)采集主要任務(wù)是采集互聯(lián)網(wǎng)各類站點(diǎn)的數(shù)據(jù),包括網(wǎng)媒、紙媒、論壇、博客、APP、微博、微信公眾號(hào)、網(wǎng)絡(luò)評(píng)論等。

網(wǎng)絡(luò)數(shù)據(jù)采集采用分布式數(shù)據(jù)采集,支持多個(gè)采集節(jié)點(diǎn)同時(shí)采集,能夠動(dòng)態(tài)增加、移除采集節(jié)點(diǎn),當(dāng)采集節(jié)點(diǎn)發(fā)生異常時(shí),其他采集節(jié)點(diǎn)能夠自動(dòng)接管,不影響數(shù)據(jù)采集進(jìn)度。

網(wǎng)絡(luò)數(shù)據(jù)采集支持 7×24 小時(shí)不間斷采集、支持百萬級(jí)頻道同時(shí)采集,并可以根據(jù)站點(diǎn)優(yōu)先級(jí)的不同,調(diào)整數(shù)據(jù)采集的頻率。網(wǎng)絡(luò)數(shù)據(jù)采集具有可視化采集狀態(tài)監(jiān)控功能,提供當(dāng)前任務(wù)總數(shù)、正在執(zhí)行數(shù)量、已完成數(shù)量、異常采集數(shù)據(jù)數(shù)量、采集節(jié)點(diǎn)運(yùn)行狀態(tài)、采集日志等監(jiān)控。

3.1.2 數(shù)據(jù)清洗預(yù)處理

從互聯(lián)網(wǎng)采集的各類原始數(shù)據(jù)形態(tài)各不一樣、存在相似文章或垃圾文章,數(shù)據(jù)清洗預(yù)處理的目的就是對(duì)這些數(shù)據(jù)進(jìn)行垃圾過濾、數(shù)據(jù)排重、提取關(guān)鍵詞、中文分詞、語義指紋和文章摘要等處理。

垃圾過濾。對(duì)于無效文章、廣告等垃圾文章排除過濾。

數(shù)據(jù)排重。在數(shù)據(jù)采集過程中,需要對(duì)網(wǎng)站不間斷的進(jìn)行數(shù)據(jù)抓取,對(duì)于重復(fù)采集的數(shù)據(jù)進(jìn)行排重,避免重復(fù)采集,降低網(wǎng)絡(luò)帶寬要求,提高采集效率。

提取關(guān)鍵詞。根據(jù)文章內(nèi)容自動(dòng)提取關(guān)鍵詞。

中文分詞。將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞,用于搜索引擎建立索引。

語義指紋。根據(jù)文章正文內(nèi)容生成語義指紋,具有相同含義的文本具有相同的語義指紋。

文章摘要。自動(dòng)提取文章正文內(nèi)容的摘要。

3.1.3 數(shù)據(jù)入庫

數(shù)據(jù)入庫是將采集程序采集到的文章和評(píng)論數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫中,以便于系統(tǒng)進(jìn)行分析處理和結(jié)果展示。

數(shù)據(jù)入庫的內(nèi)容包括文章數(shù)據(jù)和評(píng)論數(shù)據(jù)。在入庫過程中,會(huì)自動(dòng)生成文章的唯一編號(hào),并導(dǎo)入與文章相關(guān)聯(lián)的語義指紋、關(guān)鍵詞、文章摘要、站點(diǎn)、頻道等信息。

數(shù)據(jù)入庫流程包括:讀取已采集的互聯(lián)網(wǎng)信息,關(guān)聯(lián)文章對(duì)應(yīng)的站點(diǎn)編號(hào)、子站點(diǎn)編號(hào)、站點(diǎn)類型等數(shù)據(jù),檢查采集庫是否已經(jīng)存在,如果不存在則添加到數(shù)據(jù)庫中,如果存在則直接跳過。

3.2 數(shù)據(jù)分析處理子系統(tǒng)

數(shù)據(jù)分析處理子系統(tǒng)主要功能是對(duì)采集入庫的原始數(shù)據(jù)進(jìn)行一系列的加工處理和分類分析,以達(dá)到將原始數(shù)據(jù)整理成各類輿情信息的目的。

3.2.1 數(shù)據(jù)處理

垃圾過濾。通過關(guān)鍵詞矩陣,將一些匹配到非法詞的文章過濾掉,可以減少垃圾文章進(jìn)入到平臺(tái)中。例如一些廣告相關(guān)的詞加入到非法詞列表中。

自動(dòng)分類。建立股票行業(yè)主題分類,如房地產(chǎn)、制造業(yè)、住宿和餐飲業(yè)、批發(fā)和零售業(yè)等,利用機(jī)器學(xué)習(xí)文本分類模型,實(shí)現(xiàn)對(duì)文本內(nèi)容自動(dòng)行業(yè)主題分類。

人名識(shí)別。通過建立上市公司高管人員庫和行業(yè)專家?guī)?,并結(jié)合人名識(shí)別算法,實(shí)現(xiàn)對(duì)文本內(nèi)容中的人物自動(dòng)識(shí)別以及關(guān)聯(lián)。

地域識(shí)別。利用地名識(shí)別算法,實(shí)現(xiàn)對(duì)文本內(nèi)容中的區(qū)域自動(dòng)識(shí)別。

熱點(diǎn)事件識(shí)別。在熱點(diǎn)事件發(fā)生后,系統(tǒng)自動(dòng)根據(jù)文章的熱度和網(wǎng)友評(píng)論熱度,運(yùn)行語義分析算法,識(shí)別最近發(fā)生的熱點(diǎn)事件。

3.2.2 語義分析

關(guān)鍵詞提取。基于中文語義分析算法,實(shí)現(xiàn)對(duì)文本內(nèi)容的關(guān)鍵詞自動(dòng)提取。

自動(dòng)摘要。基于中文語義分析算法,實(shí)現(xiàn)對(duì)文本內(nèi)容的摘要自動(dòng)提取。

相似分析。通過對(duì)采集入庫的所有文章進(jìn)行相似分析,實(shí)現(xiàn)對(duì)相似文章的排重和文章熱度的計(jì)算。

情感分析?;谥形恼Z義分析算法,實(shí)現(xiàn)對(duì)文本的輿情預(yù)警和正負(fù)面傾向情感分析。

觀點(diǎn)分析。從大量互聯(lián)網(wǎng)網(wǎng)民的觀點(diǎn)中,找到事件傳播過程中網(wǎng)民的核心觀點(diǎn),從而做出相應(yīng)決策。

3.3 全文檢索子系統(tǒng)

全文檢索子系統(tǒng)建設(shè)面向高效檢索的輿情數(shù)據(jù)庫,支持遠(yuǎn)程輿情庫檢索。支持主題詞、邏輯表達(dá)式檢索方式,支持熱點(diǎn)關(guān)鍵字聯(lián)想功能,符合的搜索結(jié)果可以按照專題類別、時(shí)間、地域、部門、專題等多種維度歸類,類目中的信息按照出現(xiàn)頻度、相似熱度排序展示,支持信息排重和消噪,自動(dòng)顯示輿情摘要,點(diǎn)擊可以瀏覽和下載全文信息,并對(duì)關(guān)鍵字部分高亮提示。

3.4 輿論監(jiān)測分析研判子系統(tǒng)

3.4.1 輿情信息監(jiān)測

今日輿情導(dǎo)讀。今日輿情導(dǎo)讀展示股票證券相關(guān)的重要政策、重大輿情事件和敏感事件等信息,并按照主流媒體和所有媒體進(jìn)行分類展示,同時(shí)給出輿情信息影響因子。

來源監(jiān)測。來源監(jiān)測頻道是按照網(wǎng)媒、論壇、博客、紙媒、微信、APP、微博等來監(jiān)測最新輿情信息。并按照信息來源量展示媒體關(guān)注前十位信息。頻道提供按分類統(tǒng)計(jì)總量餅狀圖和一個(gè)月內(nèi)信息按來源走勢的折線圖,多種渠道對(duì)信息進(jìn)行分析。

綜合輿情。綜合輿情集中展示近期的國家政策、財(cái)政新規(guī)、證券交易所新頒布的交易條例等,為開展輿情工作提供政策信息參考。

熱點(diǎn)監(jiān)測。熱點(diǎn)事件集中監(jiān)測了媒體、論壇對(duì)近期發(fā)生的熱點(diǎn)交管事件的集中報(bào)導(dǎo)與評(píng)論。并提供關(guān)鍵詞統(tǒng)計(jì)排行柱狀圖和數(shù)據(jù)走勢統(tǒng)計(jì)折線圖,用各種圖表對(duì)輿情進(jìn)行多方面的分析。支持熱點(diǎn)事件按熱度排定,發(fā)布每日、每周、每月熱度(指轉(zhuǎn)載、點(diǎn)擊、回帖量)前 10 排行榜。

重點(diǎn)人物。重點(diǎn)人物主要是對(duì)經(jīng)濟(jì)學(xué)家、金融大鱷及各種網(wǎng)絡(luò)名人(微博“大 V”)進(jìn)行重點(diǎn)監(jiān)控,支持按微博賬號(hào)進(jìn)行監(jiān)測。

地區(qū)輿情。根據(jù)設(shè)置的監(jiān)測關(guān)鍵詞,將國內(nèi)股票證券相關(guān)輿情信息按區(qū)域進(jìn)行展示。

微博監(jiān)測。微博監(jiān)測通過對(duì)新浪、騰訊、搜狐、網(wǎng)易等微博進(jìn)行內(nèi)容監(jiān)測,提取內(nèi)容,并按照內(nèi)容的來源,數(shù)據(jù)量生成統(tǒng)計(jì)報(bào)表,并在提取微博內(nèi)容的同時(shí)保存原文鏈接。

微信監(jiān)測。微信監(jiān)測通過對(duì)微信公眾號(hào)進(jìn)行內(nèi)容監(jiān)測,并按照內(nèi)容的公眾號(hào),數(shù)據(jù)量生成統(tǒng)計(jì)報(bào)表,并在提取微信公眾號(hào)文章內(nèi)容的同時(shí)保存原文鏈接。

外媒監(jiān)測。通過對(duì)港澳臺(tái)以及境外主流媒體進(jìn)行監(jiān)測,并在境外設(shè)置數(shù)據(jù)采集服務(wù)器監(jiān)測境外媒體新聞報(bào)道,并按報(bào)道的排行提供柱狀圖進(jìn)行展示。

3.4.2 熱點(diǎn)發(fā)現(xiàn)

利用中文自然語言處理技術(shù)對(duì)自動(dòng)發(fā)現(xiàn)輿情熱點(diǎn),及時(shí)監(jiān)測網(wǎng)友關(guān)注度快速增加的事件。

分析因子包括:站點(diǎn)重要程度、轉(zhuǎn)載媒體數(shù)據(jù)、網(wǎng)友評(píng)論數(shù)量、轉(zhuǎn)載文章相似度等

3.4.3 事件分析

系統(tǒng)運(yùn)用主題聚類方法將同一事件的信息匯聚成專題。主題聚類方法具有如下三個(gè)方面的優(yōu)勢。首先主題聚類以主題分析、主題提取和描述為基礎(chǔ),可以發(fā)揮主題法在組織信息方面的優(yōu)勢,對(duì)聚類特征進(jìn)行主題或語義控制,提高信息服務(wù)的質(zhì)量。

其次,主題聚類是在聚類對(duì)象的主題提取基礎(chǔ)上進(jìn)行的,通過主題提取可以對(duì)聚類對(duì)象進(jìn)行維度約簡,從而避免高維數(shù)據(jù)計(jì)算問題,大大縮短信息服務(wù)的響應(yīng)時(shí)間。最后,主題聚類方法不同于傳統(tǒng)的文本聚類方法在于:它還可以對(duì)聚類的結(jié)果進(jìn)行基于主題的描述,提高聚類結(jié)果的可讀性與可理解性。

3.5 輿論指標(biāo)庫子系統(tǒng)

通過 3.2 節(jié)所提到的各類識(shí)別算法,本平臺(tái)將根據(jù)輿情事件的類別、地域?qū)⑵浞謩e引入性質(zhì)輿論指標(biāo)庫、地域輿論指標(biāo)庫?!靶再|(zhì)輿論指標(biāo)庫”將根據(jù)《上市公司行業(yè)分類指引》(2012年修訂)劃分為包含 A 農(nóng)、林、牧、漁業(yè);B 采礦業(yè);C 制造業(yè)等在內(nèi)的19個(gè)大類,并細(xì)分為90個(gè)小類,與股票市場的股票板塊相對(duì)應(yīng);“地域輿論指標(biāo)庫”則會(huì)在中國省級(jí)行政劃分的基礎(chǔ)上,依據(jù)《2018 中國城市商業(yè)魅力排行榜》對(duì)中國 338個(gè)地級(jí)以上城市的評(píng)選,在省級(jí)行政劃分大類的下屬細(xì)化出三線以上城市的子類。隨后,將具體的網(wǎng)絡(luò)輿情事件依據(jù)其性質(zhì)、地域特征分別歸納進(jìn)對(duì)應(yīng)的“性質(zhì)輿論指標(biāo)庫”小類、“地域輿論指標(biāo)庫”子類。

基于戴媛[10]提出的輿情流通量、輿情內(nèi)容與輿情狀態(tài)等指標(biāo),本平臺(tái)將對(duì)不同的輿情事件進(jìn)行量化處理、得到一個(gè)具體的輿情指標(biāo)量,并存放于性質(zhì)輿論指標(biāo)庫、地域輿論指標(biāo)庫。當(dāng)某一個(gè)類別、某一個(gè)地域的歷史輿情事件樣本量較大時(shí),即可將這些歷史輿情事件指標(biāo)與其所對(duì)應(yīng)的歷史股票價(jià)格變動(dòng)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)與深度學(xué)習(xí)分析、進(jìn)而得到一個(gè)影響因子數(shù)值。隨著樣本量的增大,該影響因子也可得以不斷優(yōu)化、進(jìn)而對(duì)當(dāng)前時(shí)點(diǎn)的股票投資者產(chǎn)生參考意義。

3 結(jié)語

本文所述的基于行業(yè)與地域的股票輿情監(jiān)測分析系統(tǒng)是一個(gè)集云計(jì)算、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、時(shí)空大數(shù)據(jù)分析、金融數(shù)量分析為一體的多元化輿情監(jiān)測與分析平臺(tái),其具有以下優(yōu)勢:

1.本平臺(tái)具有優(yōu)秀的數(shù)據(jù)抓取能力與輿情解讀能力,可以從多元化的數(shù)據(jù)來源最大可能去抓取數(shù)據(jù)信息,并同時(shí)運(yùn)用多類識(shí)別算法將原始數(shù)據(jù)整理成各類輿情信息,形成互聯(lián)網(wǎng)輿情信息大數(shù)據(jù)分析的數(shù)據(jù)基礎(chǔ)。

2.本平臺(tái)具有獨(dú)特的輿情信息分析模式:一方面,本平臺(tái)將對(duì)各類輿情事件進(jìn)行自動(dòng)主題分類,可根據(jù)當(dāng)前輿情事件的主題類別與具有相同性質(zhì)的股票板塊數(shù)據(jù)進(jìn)行橫向?qū)Ρ龋庇^展現(xiàn)當(dāng)前時(shí)間對(duì)該板塊股票市場所產(chǎn)生的影響;另一方面,本平臺(tái)運(yùn)用時(shí)空大數(shù)據(jù)分析方法,利用自然語言處理(NLP)技術(shù)自動(dòng)識(shí)別輿情信息中的位置信息并進(jìn)行聚合分析,并基于地理信息系統(tǒng)(GIS)技術(shù)以熱點(diǎn)力圖的形式展現(xiàn),直觀地查看各類輿情的高發(fā)區(qū)域,并可橫向?qū)Ρ冗x定區(qū)域附近的上市公司對(duì)應(yīng)股票的價(jià)格數(shù)據(jù)。對(duì)于存檔入庫的歷史輿情數(shù)據(jù),本平臺(tái)支持將該“性質(zhì)”、或該“地域”的輿情事件與歷史相關(guān)股票的價(jià)格變動(dòng)進(jìn)行機(jī)器學(xué)習(xí)分析,計(jì)算并不斷優(yōu)化不同類別的輿情事件對(duì)股票的影響因子,供投資者對(duì)當(dāng)期的股票投資進(jìn)行參考。

圖2 熱點(diǎn)輿情自動(dòng)發(fā)現(xiàn)流程Fig.2 The automatic discovering process of public opinion

猜你喜歡
輿情監(jiān)測分析
特色“三四五六”返貧監(jiān)測幫扶做實(shí)做細(xì)
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
數(shù)字輿情
消費(fèi)輿情
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢分析
網(wǎng)絡(luò)安全監(jiān)測數(shù)據(jù)分析——2015年12月
網(wǎng)絡(luò)安全監(jiān)測數(shù)據(jù)分析——2015年11月
輿情
不穿戴也能監(jiān)測睡眠
五台县| 乐亭县| 万源市| 那坡县| 兖州市| 海门市| 宁明县| 射阳县| 海口市| 东乌| 高淳县| 桂东县| 图木舒克市| 富源县| 城固县| 雅江县| 宁南县| 旬邑县| 苗栗县| 札达县| 绥阳县| 萍乡市| 长治县| 调兵山市| 永新县| 潼关县| 平舆县| 常熟市| 哈巴河县| 正宁县| 富阳市| 四会市| 庆阳市| 九台市| 广德县| 汕尾市| 同心县| 三河市| 乌鲁木齐县| 天镇县| 远安县|