国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

知識和數(shù)據(jù)雙輪驅動的網絡輿情分析技術研究

2018-05-15 10:17張思龍王蘭成
現(xiàn)代情報 2018年4期
關鍵詞:大數(shù)據(jù)

張思龍 王蘭成

〔摘 要〕為應對當前網絡輿情的新挑戰(zhàn)和輿情分析的精準性要求,需要從大數(shù)據(jù)的角度研究輿情處理新模式,從知識工程的角度挖掘輿情知識體系。借鑒知識技術和大數(shù)據(jù)技術在輿情領域的最新研究成果,設計了基于知識和數(shù)據(jù)雙輪驅動的網絡輿情分析模型,討論了模型設計和關鍵技術。最后以“南海問題”主題輿情為案例,對模型在實際輿論工作中的效用進行了驗證,結果顯示該模型能夠較好地對特定主題輿情進行深度分析和挖掘。

〔關鍵詞〕網絡輿情分析;知識技術;大數(shù)據(jù);南海問題

DOI:10.3969/j.issn.1008-0821.2018.04.015

〔中圖分類號〕G206.2 〔文獻標識碼〕A 〔文章編號〕1008-0821(2018)04-0106-06

〔Abstract〕In order to meet the new challenge of the network public opinion analysis technology in the big data era.It is necessary to study new models of public opinion deals from the perspective of big data,and to excavate the public opinion knowledge structure from the perspective of knowledge engineering.The paper used the latest research of knowledge technology and big data technology in public opinion field for reference,and designed a network public opinion analysis model based on knowledge technology and big data science.Then discussed the design and key technology of the model,finally verified the actual utility in the work of the public opinion based on the subject“the South China Sea issue”public opinion analysis.The results showed that the model could good for a particular theme public opinion in-depth analysis and mining.

〔Key words〕network public opinion analysis;knowledge technology;big data;the South China Sea issue

網絡輿情是廣大網民對國家政治、經濟、文化和社會發(fā)展趨勢以及人們普遍關注的社會熱點、難點在互聯(lián)網上的集中體現(xiàn),是網民表達情緒、述求、行為傾向的信息集合[1]。中國互聯(lián)網絡信息中心第39次《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示,截至2016年12月,我國網民規(guī)模達7.31億,互聯(lián)網普及率達到53.2%,手機網民規(guī)模占比達到95.1%。海量的用戶資料和行為數(shù)據(jù)為情報學者研究網絡輿情提供了堅實的數(shù)據(jù)基礎。然而,龐大的數(shù)據(jù)體量、錯綜的行為關系和海量的碎片化知識制約了傳統(tǒng)網絡輿情分析技術的發(fā)展。同時,海量的用戶網絡數(shù)據(jù)是社會輿情在互聯(lián)網上的映射,業(yè)已成為政府了解社會民生、加強執(zhí)政能力,有關部門及時掌握輿論動向,發(fā)現(xiàn)潛在輿論危機的重要參考,網絡輿情分析技術的關鍵性突破顯得尤為迫切。當前大熱的大數(shù)據(jù)、知識工程等相關研究工作為網絡輿情分析技術的研究提供了理論和技術參考,海量的用戶網絡數(shù)據(jù)也已成為大數(shù)據(jù)的重要來源,網絡輿情研究進入了大數(shù)據(jù)和大知識時代[1]。

1 相關研究現(xiàn)狀

1.1 網絡輿情分析基礎理論

網絡輿情是網民情緒、意見、行為傾向的綜合體現(xiàn),按照其信息構成和內容可以分為多種類型[2]。網絡輿情產生和傳播也存在不同的表現(xiàn)形態(tài),比如電子政務、新聞網站、搜索引擎、社交網絡等,當前最為典型的就是百度、網易、新浪微博和騰訊微信等,涉及商品情報的還包括淘寶、京東、亞馬遜等電子商務網站。

網絡輿情分析基礎理論就是要在傳統(tǒng)輿情分析理論的基礎上不斷擴展和深化,既要從宏觀上分析和預測用戶群體性行為,也要從微觀上洞察用戶個體行為的動機和傾向。一般的,網絡輿情分析基本流程包括輿情需求分析、輿情數(shù)據(jù)采集、話題識別、情感和統(tǒng)計分析、熱點發(fā)現(xiàn),以及基于用戶的評價準則進行預測,并為需求方提供輿情服務[3]。宏觀上講,網絡輿情分析包括整個環(huán)節(jié)和流程,但一般只把數(shù)據(jù)采集之后、輿情服務之前的環(huán)節(jié)作為網絡輿情分析的主要內容,其中涉及的關鍵技術主要包括:話題識別與跟蹤、傾向性分析、話題傳播分析等。

話題識別與跟蹤的研究始于1996年,是由美國國防高級研究計劃委員會、卡內基·梅隆大學、DARPA等研究機構的眾多學者共同定義[4]。話題識別與跟蹤的主要任務是對相關話題的報道文本進行聚類,對特定話題進行跟蹤報道,并以某種形式呈現(xiàn)給用戶。常用的話題識別與跟蹤方法主要是基于聚類和分類的方法[4]。其中分類方法主要用于現(xiàn)有話題跟蹤的場景,聚類則是用于識別新話題,包括層次聚類和增量聚類。層次聚類適合非實時的離線數(shù)據(jù)處理,增量聚類則能夠進行在線話題識別,應用廣泛。常用的增量聚類算法有單遍聚類算法、K-means聚類算法。

傾向性分析是通過用戶發(fā)表的內容對用戶要表達的情緒進行判斷,識別出用戶對某一問題或觀點是持樂觀或悲觀、贊同或反對等。相關概念最早是由人工智能創(chuàng)始人之一的Minsky教授提出的。其主要應用在電子商務領域,在政治選舉等輿情領域也有比較多的研究。情感分析隨著機器學習相關技術的發(fā)展,取得了一些成績,朱曉旭[5]提出兩層架構的基于知識庫和檢索引擎的人物分類方法,基于知識庫和機器學習中的文本分類方法對人物評價進行情感分析;房磊[6]結合語法知識,引入少量“評價詞”——“評價對象”的搭配和大量的評論數(shù)據(jù),對情感分析各個任務進行改進,實現(xiàn)功能模型簡單有效,魯棒性好。

話題傳播分析是對話題在用戶之間傳播的途徑和規(guī)律,一般基于傳染病模型進行研究。也有學者借助社會網絡分析的方法,即通過構建輿情社會網絡對用戶關系進行表示,對用戶行為模式進行揭示,進而對話題傳播趨勢進行預判。Zhou[7]等人在原有的社團發(fā)現(xiàn)技術基礎上,結合用戶關聯(lián)關系和用戶參與的話題,挖掘社會網絡結構和話題分布的關系,該方法實現(xiàn)了對微博興趣社團的挖掘。Liu等人[8]將對話題信息和用戶關聯(lián)關系屬性進行綜合,提出了一種生成模型,用于挖掘用戶在話題層面的直接影響力,最終用于預測用戶行為和話題傳播趨勢。

1.2 知識技術及其在網絡輿情分析中應用

輿情知識組織當前是輿情分析領域的研究熱點之一。知識庫是知識組織和管理的基礎,結合網絡輿情的特點,引入知識組織與管理的理論和方法,構建專門的輿情知識庫。從輿情決策基本知識需求出發(fā),從發(fā)現(xiàn)知識到更新知識,不斷擴充知識庫規(guī)模,完善輿情知識內容,從根本上把握網絡輿情的動因和趨向,對科學有效地進行網絡輿情管控和引導工作具有重要的理論價值和現(xiàn)實意義。

王靜婷等在網絡輿情內容分析系統(tǒng)框架中融入知識技術,將知識組織和管理相關研究成果與輿情分析的關鍵流程和技術進行充分融合,建立基于知識技術的網絡輿情內容分析框架,以提高網絡輿情內容分析的準確度[9]。謝明亮等對知識管理相關技術在輿情管理中的應用進行論證,提出輿情機構庫的定義,從特點、構建策略和專業(yè)人員建設三方面進行輿情機構庫研究[10]。郭韌等通過空間向量模型構造網絡輿情的知識需求,挖掘輿情知識供需關系,整合輿情源中的知識片段,結合詞頻變化的方法抽取與主題相關的核心概念[11]。毛秀梅等在構建知識組織——知識供應的兩階段知識服務流程模型的基礎上,研究了面向政府的網絡輿情知識服務能力需求,提出了基于OGSA的網絡輿情知識服務平臺架構[12]。

1.3 大數(shù)據(jù)技術及其在網絡輿情分析中應用

大數(shù)據(jù)通常是指常規(guī)軟硬件平臺無法及時感知、處理的數(shù)據(jù)集,它具有數(shù)據(jù)量大、增長快、來源廣泛等特征。針對大數(shù)據(jù)的特征,網絡輿情分析首要解決人工無法應付的海量網絡數(shù)據(jù)的采集、存儲和處理任務。數(shù)據(jù)采集應當突出高效性和全面性,對于特定需求數(shù)據(jù)需要進行定向采集,散布的零星信息和碎片化知識需要進行全面收集、整理,海量歷史數(shù)據(jù)需要整理再利用。同時,網絡輿情數(shù)據(jù)往往存在用途不同、來源多樣、格式各異等特點,還需要研究多源融合理論和方法,尤其大數(shù)據(jù)環(huán)境下,在數(shù)據(jù)融合基礎上,逐步構建信息融合、知識融合的研究體系[13]。大數(shù)據(jù)處理技術體系方面,基于Hadoop的分布式存儲和大規(guī)模并行處理技術成為當下熱門的解決方案[14]。

另外,近幾年大數(shù)據(jù)知識工程的研究也初見端倪,大數(shù)據(jù)知識工程是從國內興起、引領大數(shù)據(jù)分析走向大知識研究和應用的一個國際前沿研究方向,與傳統(tǒng)知識工程相比,大數(shù)據(jù)知識工程除權威知識源以外,其知識主要來源于用戶生成內容,知識庫具有動態(tài)更新和自我完善能力[15]。

1.4 大數(shù)據(jù)環(huán)境下的輿情知識供給問題

當前網絡輿情數(shù)據(jù)已經成為大數(shù)據(jù)的重要來源,可以說網絡輿情分析已經離不開大數(shù)據(jù)處理技術了,網絡輿情也進入了大數(shù)據(jù)時代,事實上大數(shù)據(jù)分析已經成為當前輿情領域熱點研究之一。相關研究結果表明,通過大數(shù)據(jù)技術的應用,網絡輿情分析可以達到微觀層次,使得即時性、細節(jié)化的用戶情緒和傾向判斷成為可能,大數(shù)據(jù)改變了傳統(tǒng)輿情注重內容而忽略關系的情況,依托大數(shù)據(jù)社會網絡分析,可以將輿情與情報源進行關聯(lián)分析,以生產更高價值的信息[16]。然而從輿情分析的重要目的,輿情決策的角度講,當前輿情分析的現(xiàn)狀還存在不足,在輿情案例研究、政策法規(guī)和領域知識等方面出現(xiàn)了供需不匹配的問題,也就是輿情知識供給的問題。當前包括復旦大學、合肥工業(yè)大學在內研究機構都在致力于大數(shù)據(jù)和知識工程的研究就是要拓展大數(shù)據(jù)到大知識,將大數(shù)據(jù)中離散的多元信息、碎片化知識統(tǒng)一建模,用以構建新型大數(shù)據(jù)知識服務體系,所以解決大數(shù)據(jù)環(huán)境下的輿情知識供給問題還要從大數(shù)據(jù)知識服務相關理論和技術方面著手。

2 知識和數(shù)據(jù)雙輪驅動的網絡輿情分析模型

2.1 必要性分析

大數(shù)據(jù)時代的到來,使得網絡輿情呈現(xiàn)了數(shù)據(jù)體量龐大、知識多元、價值宏大等特征,從數(shù)據(jù)規(guī)模上來看,其規(guī)模是海量級的,從數(shù)據(jù)內容上來看,包含所有與之相關的信息內容,從數(shù)據(jù)類型上來看,包括結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù)及交互數(shù)據(jù)等,更加復雜多樣[17]。傳統(tǒng)的抽樣式的輿情分析方法已不能適應這種新的變化。大數(shù)據(jù)處理技術無疑為網絡輿情研究提供了新的研究思路,網絡輿情大數(shù)據(jù)處理超越了傳統(tǒng)的輿情數(shù)據(jù)處理模式,通過海量數(shù)據(jù)挖掘、智能信息處理和深度語義分析等手段,將輿情分析中各種潛在的關聯(lián)、微觀的異動和動態(tài)的演化進行可視化圖譜演示和分析,并直接用于輔助決策。

然而,大數(shù)據(jù)帶來的是海量的信息流動和離散多元的輿情信息,嚴重影響了輿情信息處理的效率和效果,所以還需要對輿情信息進行組織,相關研究顯示出知識技術的適用性,尤其針對特定主題或特定需求的輿情信息處理場景[9-12]。知識技術的應用主要對特定領域、特定需求的輿情信息進行組織,從而對輿情數(shù)據(jù)的采集、分析進行過程性指導和監(jiān)督,甚至可以直接用于輿情服務,提高大數(shù)據(jù)輿情分析系統(tǒng)的準確性和實用性。

因此,研究知識和數(shù)據(jù)雙輪驅動的網絡輿情分析技術十分必要,它既能夠充分發(fā)揮大數(shù)據(jù)處理技術在智能信息處理和深度語義挖掘方面的優(yōu)勢,又能結合知識技術構建一系列的輿情知識庫和案例庫,從而完善輿情知識服務體系。

2.2 模型設計

本文結合大數(shù)據(jù)處理和知識技術設計了面向知識服務的知識和數(shù)據(jù)雙輪驅動的網絡輿情分析模型,包括輿情知識庫、輿情大數(shù)據(jù)采集、輿情研判、輿情知識服務等功能模塊,如圖1所示。該模型各模塊之間信息互通,形成有機整體。

2.2.1 輿情知識庫模塊

輿情知識庫主要用于提煉知識需求、指導數(shù)據(jù)采集、輿情知識匹配、輿情知識服務等?;谥R的輿情分析系統(tǒng)中可以有一個或多個知識庫用于支撐輿情知識挖掘和利用。本文設計輿情知識庫包括領域知識庫、業(yè)務知識庫、輿情事件庫、輿情案例庫和決策支持庫等。領域知識庫是對特定領域知識的組織和管理,是該領域通用概念及其關系的集合,比如政治領域、公共衛(wèi)生領域等;業(yè)務知識庫則是輿情工作部門業(yè)務知識的集合,往往建立在一定領域知識庫基礎上的,比如政治領域輿情工作知識庫等;輿情事件庫保存了特定輿情事件基本信息和相關信息,比如事件主體、客體、時間、起因、經過等要素;輿情案例庫保存了特定領域系列輿情事件發(fā)生、發(fā)展、處理和效果等信息;決策支持庫保存了輿情決策的相關知識,比如相關案例、引導策略、管控方法等,一般是對輿情案例庫綜合分析而形成的決策支持信息,可直接用于輿情知識服務。

2.2.2 輿情大數(shù)據(jù)采集模塊

大數(shù)據(jù)時代網絡輿情信息涉及的范圍十分廣泛,涉及人們生活活動的方方面面,數(shù)據(jù)來源眾多。所以輿情大數(shù)據(jù)采集的對象除了輿情工作部門日常關注的新聞媒體、門戶網站、以及微博、微信等社交網絡之外,還需要不斷擴展輿情數(shù)據(jù)的來源,發(fā)揮大數(shù)據(jù)全角度、全方位覆蓋的信息優(yōu)勢。比如對電子政務網站、輿情工作部門的業(yè)務數(shù)據(jù)等進行采集匯總,尤其是涉及政策解讀、民生問題等數(shù)據(jù)的收集工作等。從而構建包含媒體報道、網民意見、政府工作等全角度、全方位、立體化的輿情數(shù)據(jù)來源,為輿情知識庫提供源源不斷的知識,同時,輿情知識庫也可以為輿情大數(shù)據(jù)采集提供指導,既保證采集信息全面無遺漏,又能一定程度上保證精準采集,避免不必要的數(shù)據(jù)冗余和資源浪費。

2.2.3 輿情研判模塊

輿情大數(shù)據(jù)為輿情知識庫提供了十分豐富的知識來源,但這些知識往往是低價值密度和離散稀疏的,需要通過輿情研判工作,充分挖掘輿情大數(shù)據(jù)的價值。輿情研判的任務就是對網絡輿情進行價值判斷和前景預測,而這里的價值更多的是體現(xiàn)在輿情知識上。從數(shù)據(jù)、信息和知識的關系上來看,知識往往是對數(shù)據(jù)和信息進行組織、總結、體系化歸納而得到的,知識的獲取需要從數(shù)據(jù)提取信息,從信息歸納知識。所以,輿情研判需要綜合運用數(shù)據(jù)融合、文本分析、深度語義挖掘、智能信息處理等大數(shù)據(jù)處理技術,同時結合輿情知識庫中相關領域知識、業(yè)務知識和輿情案例等知識保障,實現(xiàn)網絡輿情大數(shù)據(jù)的數(shù)據(jù)整合、信息要素提取、知識發(fā)現(xiàn)等相關分析任務。從處理流程上來講,輿情研判首先需要根據(jù)輿情研判的知識需求對采集的數(shù)據(jù)進行初步篩選、過濾和清洗,對多源數(shù)據(jù)進行融合,對數(shù)據(jù)中的輿情信息進行抽取,然后通過語義挖掘和關聯(lián),發(fā)現(xiàn)輿情熱點,提取相關事實知識,通過知識匹配對適合的知識內容存入知識庫,不斷完善知識庫。另外,輿情研判還可以專門針對某一特定事件進行跟蹤,探索輿情事件的演化規(guī)律和傳播效應,為輿情監(jiān)督和管控等提供必要的案例素材。

2.2.4 輿情知識服務模塊

輿情知識服務面向的是網絡輿情業(yè)務工作人員或輿情決策者,主要用于在特定時期和特定任務情況下,根據(jù)輿情決策者的輿情需求或者特定輿情事件發(fā)展的不同時期,為輿情決策者提供相關輿情知識服務。一般的,輿情研判相關結果可直接用于輿情服務,知識庫中包含了大量的事實知識、顯性知識和隱性知識,通過對各類知識的梳理,以一定形式進行可視化,也可以為輿情決策者提供輿情服務。輿情知識服務主要功能包括,對未知輿情危機發(fā)生前進行常規(guī)性的輿情監(jiān)測和預警工作;對特定輿情事件提供事件跟蹤、階段性輿情評估、風險分析及應對策略的輿情服務;根據(jù)不同時期不同任務需要,提供專門性的輿情報告、案例總結、對策意見等咨詢服務。另外,通過人機交互,實現(xiàn)輿情分析系統(tǒng)與輿情決策者的信息互動,對輿情決策者的知識需求進行實時傳遞和反饋,發(fā)揮輿情決策者通過自身業(yè)務知識對網絡輿情的把控優(yōu)勢。

2.3 關鍵技術

2.3.1 輿情知識庫構建技術

輿情知識庫一般以領域知識作為知識庫藍本,借鑒領域專家的知識體系構建輿情知識庫結構。常用的輿情知識庫種類有專家系統(tǒng)、機構數(shù)據(jù)庫、本體庫、主題詞表、分類詞表等。針對不同的知識庫類型,知識庫內容、構建思路和方法也不相同。現(xiàn)有的知識庫構建技術一般包括基于知識管理的、基于知識工程的和基于本體的知識庫構建?;谥R管理的知識庫構建一般用于圖書情報領域,主要側重強調知識的獲取、存儲和共享,一般從現(xiàn)有的文獻資料中提取顯性知識和隱性知識,通過知識分類對知識進行有序化,以便于知識的存儲和共享?;谥R工程的知識構建一般用于人工智能領域,主要側重強調自主學習和知識推理,也就是從當前存儲的事實信息和顯性知識中提取用戶需要的隱性知識。本體是共享的概念模型的形式化規(guī)范化描述,基于本體的知識庫是當前比較流行的語義知識庫解決方案。本體的目標是捕獲相關領域的知識,提供對該領域知識的共同理解,確定該領域內共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯和詞匯間相互關系的明確定義。

2.3.2 輿情大數(shù)據(jù)語義挖掘

輿情大數(shù)據(jù)語義挖掘是為了解決網絡復雜語義環(huán)境中準確提取輿情信息的問題的。當前比較流行的方法是基于主題模型和語義網技術的方法。主題模型是一種語言生成模型,在自然語言處理、機器學習等領域應用廣泛。主題模型起源于隱性語義索引,隱性語義索引為主題模型的發(fā)展奠定了基礎,LDA模型被認為是第一個主題模型。主題模型有利于挖掘潛在的語義關聯(lián)模式,對輿情大數(shù)據(jù)語義挖掘研究具有重要借鑒意義。語義網技術,就是能夠根據(jù)語義進行判斷的智能網絡,實現(xiàn)人與計算機之間的無障礙溝通,目前,語義網的研究主要集中在RDF和本體,語義網的實現(xiàn)包括關聯(lián)數(shù)據(jù)、谷歌知識圖譜等技術,都在大數(shù)據(jù)語義挖掘方面有相關研究。

2.3.3 知識發(fā)現(xiàn)技術

知識發(fā)現(xiàn)是確定數(shù)據(jù)中有效的、新穎的、潛在有用的、基本可理解的模式的特定過程。大多數(shù)知識發(fā)現(xiàn)方法是在人工智能、數(shù)據(jù)庫、信息組織與檢索等領域中發(fā)展來的。典型的基于知識發(fā)現(xiàn)技術包括貝葉斯推理、K-Means聚類、神經網絡、決策樹和粗糙集理論等。

2.3.4 知識匹配技術

知識匹配是知識管理中知識檢索的重要任務。目前,知識匹配主要是基于語義相似度的計算方法。部分學者也從知識的表達方式上探索知識匹配的有效算法,提出基于范疇論的最大公約子范疇用于知識匹配,以解決高維知識結構上的匹配量化問題。

3 “南海問題”主題輿情分析案例研究

“南海問題”相關輿情涉及了國家主權、海洋權益、國際公約和國際政治局勢等眾多敏感話題,我國政府和學術界對“南海問題”輿論工作十分關注。構建基于知識和數(shù)據(jù)雙輪驅動的“南海問題”輿情分析系統(tǒng)有利于整合現(xiàn)有“南海問題”輿情知識庫,及時跟進相關事件發(fā)展,為輿論引導工作提供決策支持。

3.1 “南海問題”輿情分析系統(tǒng)構建

依據(jù)知識和數(shù)據(jù)雙輪驅動的網絡輿情分析模型構建“南海問題”輿情分析系統(tǒng)是模型技術實現(xiàn)的具體化過程,包括了“南海問題”輿情知識庫、輿情數(shù)據(jù)采集、輿情研判、輿情知識服務4個模塊的技術實現(xiàn)過程。

3.1.1 構建“南海問題”輿情知識庫

知識庫使用本體技術實現(xiàn),通過對相關文獻整理篩選初步形成事件類、國家類、關注類、島礁類4類輿情本體庫,以事件類為核心,將事件發(fā)起或介入的國家、關注的媒體或機構、涉及的島礁分別納入國家類、關注類和島礁類本體庫中,媒體所在國家則納入國家類本體庫中,如圖2所示。

3.1.2 “南海問題”輿情數(shù)據(jù)采集

輿情數(shù)據(jù)主要通過網絡爬蟲和相關媒體API接口進行多種渠道、分布式并行采集,一般需要預先設置采集條件,比如關鍵詞和目標網站等。由于多種渠道得到的數(shù)據(jù)分散、格式相異,還需要對采集的數(shù)據(jù)進行整理,對不規(guī)范的數(shù)據(jù)進行規(guī)范和整理,不完整的和不一致的數(shù)據(jù)進行清理,完成數(shù)據(jù)的統(tǒng)一模式轉換。另外,借助“南海問題”輿情知識庫,系統(tǒng)可以根據(jù)用戶提供的關鍵詞,查找更準確表達用戶需求的檢索詞集合,并根據(jù)該檢索詞集合實現(xiàn)對相關內容的全面準確爬取。

3.1.3 “南海問題”輿情研判

輿情研判是一個復雜的過程,根據(jù)不同的任務需要采取不同分析策略。以熱點事件追蹤為例,按照時間軸推進的方式,查找該事件在網絡中的報道、評論,從而獲取該事件的發(fā)展脈絡。比如通過文本處理技術,對采集的網頁正文、微博評論等進行分詞、特征詞提取、主題發(fā)現(xiàn)和分類、時序關聯(lián),獲取事件發(fā)展情況,通過情感分析判斷廣大網友對后續(xù)發(fā)展的態(tài)度。

3.1.4 “南海問題”輿情知識服務

“南海問題”涉及領域范圍廣,知識結構復雜,隨著國際形勢變化,突發(fā)事件頻發(fā),需要及時的積極應對。通過輿情知識服務,突發(fā)事件一旦發(fā)生,一方面要第一時間形成相關歷史事件發(fā)展脈絡圖,掌握相關法律依據(jù),占據(jù)法理高地;另一方面要及時跟進事態(tài)發(fā)展,形成相關輿情報告,引導相關輿論,形成有利的輿情態(tài)勢。

3.2 典型事件“南海仲裁案”的輿情分析

以“南海仲裁案”相關信息,包括事件過程、涉及國家、涉及島嶼和各方觀點為需求,對輿情數(shù)據(jù)進行采集、處理和分析。針對“南海仲裁案”事件,相關國家中國、菲律賓、美國納入國家類庫,涉及島礁黃巖島、美濟礁、仁愛礁和渚碧礁等納入島礁類庫,對此事件報道的新華網、新浪網、微博、微信等納入關注類,如圖3所示。

輿情數(shù)據(jù)主要來源于新華網、新浪網、今日頭條等新聞網站,新浪微博、微信等社交媒體,圍繞關鍵詞“南海問題+南海爭端+南海仲裁”,以2016年7月12日“南海仲裁案”結果發(fā)布后1周為限,即7月12日零時至7月18日24時,通過網絡爬蟲、新浪微博API、搜狗微信搜索對相關平臺數(shù)據(jù)進行采集,借助新浪微輿情社會化大數(shù)據(jù)應用平臺對相關數(shù)據(jù)進行補充。以天為單位對采集的文本數(shù)據(jù)進行分時處理,分詞后利用LDA模型對文本數(shù)據(jù)進行建模,獲取主題詞分布,通過時序分析,獲取輿情發(fā)展走勢。另外,對文本數(shù)據(jù)中涉及實體和關系進行抽取,提取相關的事實知識補充南海本體知識庫。

對比不同平臺提取的信息可以發(fā)現(xiàn),“南海仲裁案”事件信息比較集中,各平臺間轉載量和引用量比較大,用戶評論意見比較一致,形成比較清晰的發(fā)展脈絡。各媒體和廣大網友等關注方意見比較一致,均認為“中國對南海擁有正當領土權益”、“南海仲裁案是披著法律外衣的政治鬧劇”。

同時,通過對知識庫中已有案例對比報道提取的主題詞或關鍵詞用于發(fā)現(xiàn)“南海仲裁案”事件的發(fā)展脈絡和后續(xù)走勢(見表1),包括“2013年1月22日,菲律賓單方面將就南海問題提交國際仲裁”開始,到結果發(fā)布,再到后續(xù)的“多國領導人支持中國南海問題立場”等相關報道。同時南海問題知識庫國家類庫也擴展了新加坡、越南、老撾等國家,島礁類基本涵蓋了與菲律賓有爭議的島礁。

4 結束語

網絡輿情研究是較為復雜的一項系統(tǒng)工程,相比傳統(tǒng)媒體輿情,網絡輿情的表現(xiàn)途徑、用戶規(guī)模和結構特性等更為復雜,同時大數(shù)據(jù)時代的到來為網絡輿情研究提供機遇的同時也帶來了很大挑戰(zhàn)。大數(shù)據(jù)時代網絡輿情分析要在傳統(tǒng)輿情分析理論的基礎上不斷擴展和深化,既要從大數(shù)據(jù)的角度在宏觀和微觀層面上洞察網民群體性動向,也要從知識工程和知識管理的角度對輿情大數(shù)據(jù)進行知識挖掘,以更科學有效的方式提供輿情決策支持。本文借鑒知識技術和大數(shù)據(jù)技術在輿情領域的研究成果,設計了面向用戶知識需求的基于知識和數(shù)據(jù)雙輪驅動的網絡輿情分析模型,討論了模型設計和關鍵技術。最后以“南海問題”主題輿情為案例對模型在實際的輿情工作中的適用場景和實際效用進行了驗證,結果顯示該模型能夠較好的結合知識和大數(shù)據(jù)技術對特定主題輿情進行深度分析和挖掘。

參考文獻

[1]尚明生,陳端兵,高輝.輿情信息分析與處理技術[M].北京:科學出版社,2015:1-10.

[2]汪建基,馬永強,陳仕濤.碎片化知識處理與網絡化人工智能[J].中國科學:信息科學,2017,47(2):171-192.

[3]郝曉玲.網絡輿情研判技術的研究進展[J].情報科學,2012,30(12):1901-1906.

[4]J.allan J.-Carbonell-et-al.Topic Detection and Tracking Pilot Study:Final Report[C].In the Proceeding of the DARPA Broadcast News Transcription and Understanding Workshop,1998.

[5]朱曉旭.人物評價文本情感分析研究[D].蘇州:蘇州大學,2016.

[6]房磊.融合知識的情感分析研究[D].北京:清華大學,2015.

[7]Zhenjun J.Hongxia-and-L.-Yan.Community Discovery and Profiling with Social Messages[C].In the Proceedings of the 2012 KDD,2012:388-396.

[8]Liu T.Jie-H.Jiawei.Mining Topic-level Influence in Heterogeneous Networks[C].In the Proceedings of the CIKM10,2010.

[9]王靜婷,徐震.一種基于知識技術的網絡輿情內容分析系統(tǒng)框架[J].圖書情報導刊,2016,(2):139-143.

[10]謝明亮.基于知識管理的輿情機構庫研究[J].江蘇第二師范學院學報,2016,(3):110-114,124.

[11]郭韌,陳福集.政府面向網絡輿情的知識源整合研究[J].情報科學,2016,34(8):133-137,142.

[12]毛秀梅,楊曄.面向政府的網絡輿情知識服務體系構建研究[J].情報科學,2016,34(9):124-128.

[13]祝振媛,李廣建.“數(shù)據(jù)—信息—知識”整體視角下的知識融合初探-數(shù)據(jù)融合、信息融合、知識融合的關聯(lián)與比較[J].情報理論與實踐,2017,40(2):12-18.

[14]楊愛東,劉東蘇.基于Hadoop的微博輿情監(jiān)控系統(tǒng)模型研究[J].現(xiàn)代圖書情報技術,2016,(5):56-63.

[15]吳信東.從大數(shù)據(jù)到大知識:HACE+BigKE(報告)[J].計算機科學,2016,43(7):3-6.

[16]徐敏.大數(shù)據(jù)環(huán)境下情報學在網絡輿情研究中的作用[J].圖書情報研究,2016,(2):12-18.

[17]瞿志凱,蘭月新,夏一雪.大數(shù)據(jù)背景下突發(fā)事件情報分析模型構建研究[J].現(xiàn)代情報,2017,37(1):45-50.

[18]丁晟春,龔思蘭,周文杰.基于知識庫和主題爬蟲的南海輿情實時監(jiān)測研究[J].情報雜志,2016,35(5):32-37.

(實習編輯:陳 媛)

猜你喜歡
大數(shù)據(jù)
淺談大數(shù)據(jù)在出版業(yè)的應用
“互聯(lián)網+”對傳統(tǒng)圖書出版的影響和推動作用
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
财经| 土默特右旗| 哈尔滨市| 安乡县| 平潭县| 连江县| 法库县| 集安市| 西和县| 牡丹江市| 类乌齐县| 都江堰市| 密山市| 昌宁县| 黄陵县| 长春市| 新巴尔虎右旗| 永善县| 龙里县| 开阳县| 平舆县| 濮阳市| 屏南县| 武强县| 碌曲县| 清新县| 北宁市| 云龙县| 沾化县| 微博| 北安市| 万宁市| 黑山县| 嘉祥县| 留坝县| 中超| 舟山市| 龙泉市| 望江县| 英山县| 安远县|