国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

監(jiān)控互聯(lián)網(wǎng)輿情助推民族地區(qū)黨建工作智能化

2019-12-08 17:43:13楊文順
關(guān)鍵詞:網(wǎng)頁輿情民族

蘇 鵬,楊文順

(1.大理大學(xué) 數(shù)學(xué)與計算機學(xué)院,云南 大理 671003;2.云南民族大學(xué) 民族團結(jié)進步研究院,云南 昆明 650091)

一、文獻回顧與問題提出

我國是一個多民族國家。黨的十九大以來,在“提高黨建工作質(zhì)量”的基本要求和“走在時代前列”的基本目標的指引下,民族地區(qū)黨的建設(shè)取得了令人矚目的成效。但是,隨著互聯(lián)網(wǎng)大數(shù)據(jù)時代①Viktor Mayer-Schonberger and Kenneth Cukier. Big data a revolution: that will transform how we live, work, and think. Boston: John Murray, 2013.的到來,民族地區(qū)的黨建工作面臨著新的重大機遇和挑戰(zhàn)。

據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心統(tǒng)計,②中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC):《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告(2018年7月)》.http://www.cac.gov.cn/2018-08/20/c_1123296882.htm,2019.2.3截至2018年6月底,中國互聯(lián)網(wǎng)普及率高達57.7%,互聯(lián)網(wǎng)使用人數(shù)已突破8億。其中,手機網(wǎng)民規(guī)模達7.88億,約占98.3%。網(wǎng)民通過各種方式在博客、微博、論壇中發(fā)表意見,表達思想,形成了特征鮮明、影響廣泛的網(wǎng)絡(luò)輿情。

洞察網(wǎng)絡(luò)輿情并加以必要的引導(dǎo)和干預(yù)是提高我黨在民族地區(qū)的黨建工作質(zhì)量的一項重要而艱巨的任務(wù)。 然而,互聯(lián)網(wǎng)大數(shù)據(jù)時代下的網(wǎng)絡(luò)輿情信息有著數(shù)量巨大、結(jié)構(gòu)復(fù)雜與獲取困難等特點,傳統(tǒng)計算方法并不能對其進行精準獲取與有效分析。近年來,隨著信息技術(shù)尤其是網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)挖掘技術(shù)的飛速發(fā)展,用于海量輿情信息獲取與分析的技術(shù)手段逐漸發(fā)展、成熟。

為此,本文提出了一個“互聯(lián)網(wǎng)大數(shù)據(jù)民族地區(qū)黨建輿情監(jiān)控系統(tǒng)”的實施框架。該框架的實施將能顯著促進民族地區(qū)黨建工作的信息化和智能化,敏銳適應(yīng)時代的變化,進而明顯提升民族地區(qū)黨建工作質(zhì)量。

二、系統(tǒng)關(guān)鍵技術(shù)

(一)網(wǎng)頁數(shù)據(jù)搜集技術(shù)

1.聚焦爬蟲技術(shù)

聚焦爬蟲是一個自動程序,其工作流程如下:首先,事先確定查詢目標;然后,訪問互聯(lián)網(wǎng)上的符合目標的網(wǎng)頁與相關(guān)的鏈接;最后,自動判斷及抓取所需要的數(shù)據(jù)及信息。

2.垂直元搜索采集技術(shù)

用戶向一般的搜索引擎(如百度)發(fā)起一個查詢,該引擎就會根據(jù)查詢內(nèi)容采集文檔,并建立索引。而元搜索引擎接到用戶發(fā)起的一個查詢后執(zhí)行如下處理流程:首先,將該查詢按照各個一般搜索引擎的查詢格式做轉(zhuǎn)換;然后,把不同格式的查詢分發(fā)給相應(yīng)的一般搜索引擎;最后,把各個一般引擎返回的搜索結(jié)果重新計算權(quán)重并排序輸出給用戶。元搜索引擎存儲并維護若干一般搜索引擎的參數(shù)信息用于一般引擎的選擇和協(xié)調(diào)。

(二)網(wǎng)頁預(yù)處理技術(shù)

1.網(wǎng)頁去噪技術(shù)

利用網(wǎng)頁自動搜集技術(shù)從互聯(lián)網(wǎng)上抓取的輿情網(wǎng)頁中存在大量不相關(guān)的信息,如廣告、評論、導(dǎo)航條、版權(quán)信息等。這些不相關(guān)的信息稱為網(wǎng)頁噪音。網(wǎng)頁噪音導(dǎo)致同一網(wǎng)頁擁有不同主題。而這會降低以整個網(wǎng)頁為目標的搜索結(jié)果的準確度。解決這一問題的一個方法是使搜索下沉到網(wǎng)頁細節(jié),從而找到所有網(wǎng)頁主題。該方法的一個顯著不足是會導(dǎo)致大量無關(guān)信息的引入。 另一個較好的方法是網(wǎng)頁去噪,也即快速識別并去除網(wǎng)頁噪音。

2.網(wǎng)頁排重技術(shù)

不同的網(wǎng)站間經(jīng)常轉(zhuǎn)載內(nèi)容,所以,網(wǎng)頁需要按內(nèi)容做文檔排重。采用網(wǎng)頁排重技術(shù)可以顯著加強輿情檢索的效果,增加輿情態(tài)勢分析的準確度,同時也能極大節(jié)約存儲空間并減少資源維護消耗。

3.文本特征提取技術(shù)

基于高維向量空間的分類模型會嚴重降低文本分類的處理速度及準確度。為解決這一問題,需要減少文本向量的維度(降維),也即進行特征屬性提取?;バ畔?、卡方檢驗等是常見的文本特征提取方法。

(三)輿情分析挖掘技術(shù)

1.話題追蹤技術(shù)

話題識別與跟蹤是基于事件的信息組織技術(shù),其不僅可實現(xiàn)對新聞報道信息流中已知話題的動態(tài)跟蹤,還可實現(xiàn)新話題的自動識別。

2.情感挖掘技術(shù)

情感挖掘的關(guān)鍵問題是如何抽取句子中的帶有情感色彩的詞(觀點詞),也即觀點抽取。 觀點抽取的目的就是為句子的情感分類提供標準。 傳統(tǒng)的情感分類包含3個類別:褒義、貶義和中性。

(四)大規(guī)模數(shù)據(jù)存儲技術(shù)

大規(guī)模數(shù)據(jù)存儲技術(shù)實現(xiàn)跨設(shè)備和數(shù)據(jù)中心存儲,利用數(shù)據(jù)塊技術(shù)將數(shù)據(jù)保存在物理上互不相關(guān)的多個磁盤中。Lucene是apache軟件基金會的一個全文檢索引擎工具包及架構(gòu)?;贚ucene可以設(shè)計具有較低時間和空間復(fù)雜度的大規(guī)模數(shù)據(jù)索引方案。另外,Lucene源代碼是開放的。

(五)系統(tǒng)集成技術(shù)與圖形化用戶接口

采用Struts2作為系統(tǒng)整體框架,同時利用Hibernate設(shè)計數(shù)據(jù)持久化方案。為降低系統(tǒng)的耦合度,采用Spring作為管理容器整合前兩種技術(shù)。采用JavaScript/jQuery和Ajax技術(shù)提供友好的圖形化動態(tài)Web界面,增強用戶體驗。

三、系統(tǒng)主要功能

(一)互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的自動獲取與清洗

本系統(tǒng)將實現(xiàn)對各大門戶網(wǎng)站、微博、論壇、博客等互聯(lián)網(wǎng)新媒體中的民族地區(qū)黨建動態(tài)、黨建熱點、政策文件、黨風(fēng)評價、黨的形象、國際動態(tài)等黨建數(shù)據(jù)的自動獲取與清洗。

1.互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的自動獲取

本系統(tǒng)將自動定向訪問互聯(lián)網(wǎng)上的符合既定目標的網(wǎng)頁及相關(guān)鏈接,抓取所需的民族地區(qū)黨建輿情數(shù)據(jù)。同時,本系統(tǒng)也將實現(xiàn)利用百度等主流搜索引擎搜索用戶感興趣的民族地區(qū)黨建數(shù)據(jù)。最后,本系統(tǒng)將對前述兩種渠道搜索到的數(shù)據(jù)進行有機融合。

2.民族地區(qū)黨建輿情數(shù)據(jù)的自動清洗

互聯(lián)網(wǎng)上抓取的民族地區(qū)黨建輿情網(wǎng)頁中存在大量的“網(wǎng)頁噪音”。 因此,本系統(tǒng)將實現(xiàn)對網(wǎng)頁噪音的快速且準確的識別,以利于互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)自非結(jié)構(gòu)化至結(jié)構(gòu)化的轉(zhuǎn)換存儲。

互聯(lián)網(wǎng)民族地區(qū)黨建信息網(wǎng)頁中難免存在大量轉(zhuǎn)載、類似的冗余網(wǎng)頁。因此,本系統(tǒng)將實現(xiàn)對冗余網(wǎng)頁的有效排重以精化網(wǎng)頁自動獲取結(jié)果。

(二)互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的存儲與索引

隨著系統(tǒng)的實施應(yīng)用,所獲取的互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)將急劇膨脹。如何實現(xiàn)海量數(shù)據(jù)的有效存儲及快速查詢、分析、統(tǒng)計是本系統(tǒng)成功應(yīng)用的關(guān)鍵。

1.互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的分布式存儲

分布式存儲系統(tǒng)實現(xiàn)了數(shù)據(jù)在若干獨立的可分擔負荷的設(shè)備上的分散存儲。相比集中式存儲系統(tǒng),其具有高可靠性、高可用性、高存取效率及高可擴展性等顯著優(yōu)點。因此,本系統(tǒng)將實現(xiàn)互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的分布式存儲。

2.互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的全文檢索

本系統(tǒng)將實現(xiàn)基于Lucene的互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)的全文檢索引擎。其具有中文分詞、索引建立及優(yōu)化、查詢結(jié)果處理等功能。

(三)互聯(lián)網(wǎng)民族地區(qū)黨建輿情的智能分析

本系統(tǒng)積累的海量數(shù)據(jù)中必然隱藏著很多民族地區(qū)黨建相關(guān)知識。因此,本系統(tǒng)將利用機器學(xué)習(xí)等計算技術(shù)發(fā)現(xiàn)互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)中的高價值知識。

1.民族地區(qū)黨的政策口碑分析

近年來,WEB 2.0技術(shù)獲得了快速發(fā)展,這使得互聯(lián)網(wǎng)上產(chǎn)生了大量用戶發(fā)表的評論信息。這些信息表達了人們的各種情感傾向,如“喜”“怒”“好”“惡”等。因此,對民族地區(qū)黨的政策評論進行挖掘就能展示出其質(zhì)量信息,從而可以找出現(xiàn)有政策的不足并改進。

2.民族地區(qū)黨建負面信息檢測及報警

給黨造成損失的風(fēng)險事件和威脅黨的執(zhí)政地位的網(wǎng)絡(luò)負面信息時有發(fā)生。負面信息在互聯(lián)網(wǎng)上的傳播快速且持久。因此,本系統(tǒng)將通過實現(xiàn)對民族地區(qū)黨建互聯(lián)網(wǎng)負面信息的自動檢測與報警,幫助民族地區(qū)黨建部門制定有效應(yīng)對措施以減少損失。

3.民族地區(qū)黨建熱點發(fā)現(xiàn)與跟蹤

及時發(fā)現(xiàn)民族地區(qū)黨建熱點新聞及話題可以使黨敏銳察覺環(huán)境的變化,并因勢利導(dǎo)的調(diào)整各項政策,保證黨組織的發(fā)展壯大。因此,本系統(tǒng)將實現(xiàn)民族地區(qū)黨建熱點的準確發(fā)現(xiàn)與跟蹤。

4.互聯(lián)網(wǎng)民族地區(qū)黨建輿情知識的圖形化展示

由互聯(lián)網(wǎng)民族地區(qū)黨建輿情數(shù)據(jù)挖掘得到的知識的最終使用者一般是黨的領(lǐng)導(dǎo)干部,若用數(shù)據(jù)方式表示知識將會非常低效。本系統(tǒng)將實現(xiàn)用雷達圖、餅圖等圖形方式把輿情知識直觀、高效地展示給用戶。

四、系統(tǒng)框架及技術(shù)指標

系統(tǒng)擬采用的框架如圖1所示。系統(tǒng)采用5層結(jié)構(gòu),分別是輿情采集層、網(wǎng)頁預(yù)處理層、輿情分析層、用戶交互層與系統(tǒng)集成層。

系統(tǒng)擬達到的主要技術(shù)指標為:

◆ 信息查全率達到85%左右;

◆ 信息查準率達到80%左右;

◆ 熱點偵測準確率達到80%左右;

◆ 熱點偵測召回率達到90%左右;

◆ 高穩(wěn)定性:正常運行半年以上無崩潰。

五、結(jié)語

為使民族地區(qū)黨建工作敏銳適應(yīng)時代的變化以切實提高質(zhì)量,本文提出了一個“互聯(lián)網(wǎng)大數(shù)據(jù)民族地區(qū)黨建輿情監(jiān)控系統(tǒng)”的實施框架。該系統(tǒng)能有效利用互聯(lián)網(wǎng)黨建大數(shù)據(jù)促進民族地區(qū)黨的建設(shè)工作,為新時期民族地區(qū)黨建工作提供了一種新方法。

猜你喜歡
網(wǎng)頁輿情民族
我們的民族
一個民族的水上行走
人民交通(2019年16期)2019-12-20 07:03:44
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
電子制作(2018年10期)2018-08-04 03:24:38
多元民族
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
求真務(wù)實 民族之光
文史春秋(2016年2期)2016-12-01 05:41:54
輿情
中國民政(2016年16期)2016-09-19 02:16:48
輿情
中國民政(2016年10期)2016-06-05 09:04:16
輿情
中國民政(2016年24期)2016-02-11 03:34:38
網(wǎng)頁制作在英語教學(xué)中的應(yīng)用
電子測試(2015年18期)2016-01-14 01:22:58
合川市| 洞口县| 资阳市| 鹿邑县| 伊春市| 平利县| 桃江县| 逊克县| 东莞市| 特克斯县| 阜宁县| 淅川县| 常德市| 益阳市| 桂平市| 池州市| 涡阳县| 宜兴市| 桐城市| 望奎县| 正蓝旗| 岳普湖县| 蓝田县| 武汉市| 康平县| 鄯善县| 古丈县| 崇信县| 仙居县| 阿城市| 隆德县| 滨州市| 富宁县| 盖州市| 平昌县| 保亭| 襄汾县| 公主岭市| 霍山县| 芜湖市| 南通市|