張四平 王梅
摘 ?要: 從網(wǎng)絡(luò)空間的海量信息中發(fā)現(xiàn)公開情報信息,對于維護(hù)國家安全和社會穩(wěn)定具有重要意義。文章通過開發(fā)的“大數(shù)據(jù)網(wǎng)絡(luò)公開情報發(fā)現(xiàn)系統(tǒng)”,研究多源異構(gòu)數(shù)據(jù)的采集、融合、分析及展示;通過設(shè)計網(wǎng)絡(luò)空間對象關(guān)聯(lián)分析系統(tǒng)來分析處理海量信息,從而能夠支持不良信息的溯源、重點(diǎn)關(guān)注用戶賬號的關(guān)聯(lián)、網(wǎng)絡(luò)嫌疑人身份信息的協(xié)同搜索等。
關(guān)鍵詞: 大數(shù)據(jù)分析; 互聯(lián)網(wǎng)公開情報; 網(wǎng)絡(luò)空間對象; 關(guān)聯(lián)分析系統(tǒng)
中圖分類號:TP393 ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A ? ? 文章編號:1006-8228(2020)03-09-04
Research on big data analysis based Internet open information discovery technology and system
Zhang Siping, Wang Mei
(School of software Hunan College of Information, Changsha, Hunan 410200, China)
Abstract: It is of great significance for maintaining national security and social stability to find open information from the massive information in cyberspace. This paper studies the collection, fusion, analysis and display of multi-source heterogeneous data by the developed "big data Internet open information discovery system"; through the design of network space object association analysis system to analyze and process massive information, so as to support the traceability of bad information, the association of the focused user accounts, and collaborative search of identity information of network suspects, etc.
Key words: big data analysis; Internet open information; network space object; association analysis system
0 引言
社會信息化程度不斷加深,這對傳統(tǒng)的社會形態(tài)有著深遠(yuǎn)的影響,傳統(tǒng)的社會形態(tài)面臨巨大的挑戰(zhàn)。以新聞門戶網(wǎng)站(新浪、網(wǎng)易)、論壇類媒體(BBS和博客)為代表的傳統(tǒng)網(wǎng)絡(luò)媒體,以微博媒體和社交網(wǎng)站為代表的網(wǎng)絡(luò)新媒體,產(chǎn)生海量互聯(lián)網(wǎng)信息,此類網(wǎng)絡(luò)空間信息大數(shù)據(jù)具有模式多態(tài)、動態(tài)交互、碎片化、變化演繹等特點(diǎn),其中蘊(yùn)含著大量有價值的情報信息。如何針對用戶的實際需求和真實搜索意圖,發(fā)現(xiàn)互聯(lián)網(wǎng)的公開情報信息,這項研究對于涉恐辦案情報分析、經(jīng)濟(jì)情報分析、輿論情報分析等,以及對于維護(hù)國家安全和社會穩(wěn)定具有重要意義。
1 研究現(xiàn)狀
現(xiàn)代情報大數(shù)據(jù)具有數(shù)據(jù)規(guī)模大、高速生成、異構(gòu)、多源、細(xì)粒度語義單元分析的特點(diǎn),這些特點(diǎn)對計算平臺、數(shù)據(jù)收集、數(shù)據(jù)組織和數(shù)據(jù)分析等提出了新的挑戰(zhàn),促使在這些領(lǐng)域形成了新的技術(shù)體系。
⑴ 大數(shù)據(jù)計算平臺。大規(guī)模分布式計算平臺是解決大數(shù)據(jù)的規(guī)模問題基本的思路,遵循Map/Reduce計算模型[1]的Hadoop[2]系統(tǒng)是其中的代表產(chǎn)品。在Apache等開源社區(qū)的推動下,針對不同數(shù)據(jù)計算模式的特點(diǎn),分布式計算平臺呈現(xiàn)不同方向發(fā)展:面向大數(shù)據(jù)高時變性的特點(diǎn),出現(xiàn)了以Storm、Spark Stream、S4為代表的流計算平臺[3];大數(shù)據(jù)中數(shù)據(jù)高度關(guān)聯(lián)的特點(diǎn)推動了面向大圖數(shù)據(jù)管理和計算的平臺,包括Pregal(以分布式矩陣計算為基礎(chǔ))、Trinity(基于分布式共享內(nèi)存)、Power Graph(基于GAP模型)和Distributed graphlab為代表的大圖數(shù)據(jù)計算平臺[4];針對大內(nèi)存計算的需求,出現(xiàn)了以Hana、Spark、GemFire為代表的內(nèi)存計算系統(tǒng)[5]。
⑵ 網(wǎng)絡(luò)信息獲取與提取技術(shù)。從各種公開或非公開數(shù)據(jù)源中獲取數(shù)據(jù)是情報大數(shù)據(jù)系統(tǒng)的重要組成部分,其中主要包括數(shù)據(jù)獲取和信息抽取兩個關(guān)鍵技術(shù)。網(wǎng)絡(luò)爬蟲系統(tǒng)是當(dāng)前主要的數(shù)據(jù)獲取手段,Anthelion、Scrapy等系統(tǒng)可以自動地實現(xiàn)對互聯(lián)網(wǎng)上網(wǎng)頁或數(shù)據(jù)庫數(shù)據(jù)的爬取[6]。在信息抽取方面,在互聯(lián)網(wǎng)數(shù)據(jù)分析、醫(yī)療數(shù)據(jù)分析等領(lǐng)域均出現(xiàn)從網(wǎng)頁等文本數(shù)據(jù)抽取各種語義信息的方法,主要包括通過網(wǎng)頁結(jié)構(gòu)進(jìn)行分析獲取其中的數(shù)據(jù)抽取目標(biāo)的技術(shù)。
⑶ 多源異構(gòu)數(shù)據(jù)建模與集成。多源異構(gòu)數(shù)據(jù)集成的研究一直是信息集成領(lǐng)域的主要研究內(nèi)容。在第一代的信息集成系統(tǒng)中主要實現(xiàn)對異構(gòu)的半結(jié)構(gòu)化文本和數(shù)據(jù)庫的集成,主要以解決模式上的異構(gòu)問題為主。
⑷ 情報大數(shù)據(jù)分析技術(shù)。情報分析領(lǐng)域業(yè)務(wù)部門、工業(yè)界和學(xué)術(shù)界多年來已在數(shù)據(jù)挖掘、互聯(lián)網(wǎng)搜索、自然語言處理、在線社交網(wǎng)絡(luò)分析等傳統(tǒng)方向上有成熟技術(shù)和產(chǎn)品基礎(chǔ)。
2 本研究采用的關(guān)鍵技術(shù)
本文研究的技術(shù)路線如圖1所示,主要包括互聯(lián)網(wǎng)情報獲取與融合、情報知識倉庫構(gòu)建和管理、用戶真實搜索意圖理解、用戶搜索意圖的搜索與匹配等部分。
2.1 網(wǎng)絡(luò)空間情報獲取與融合
支持網(wǎng)絡(luò)空間數(shù)據(jù)獲取和推理,包括公開互聯(lián)網(wǎng)、微博、博客、論壇、維基、共享網(wǎng)站等空間中采集文本、圖片、語音、視頻等各種類型的多模態(tài)數(shù)據(jù),以及各類已存在的實體對象情報和關(guān)系情報。數(shù)據(jù)獲取與采集過程不間斷進(jìn)行,采集后的數(shù)據(jù)和知識是后續(xù)推理和搜索的基礎(chǔ)。
2.2 情報知識倉庫構(gòu)建和管理
面向公開互聯(lián)網(wǎng)的海量實體對象情報及關(guān)系情報知識進(jìn)行建模;在此模型實例化的基礎(chǔ)上通過情報知識聚合,構(gòu)建情報知識庫空間,并通過索引、關(guān)聯(lián)和演算等聚合操作預(yù)先形成情報聚合體。知識倉庫中的情報知識是不斷經(jīng)過二次加工的,經(jīng)過用戶的查詢、修改、反饋和自演化的過程,逐步完善,根據(jù)應(yīng)用建立各類索引,同時滿足用戶搜索時的準(zhǔn)確性需求和實時性需求。
2.3 用戶真實搜索意圖理解
真實情報意圖理解的準(zhǔn)確性和歧義消除是用戶的基本需求。結(jié)合用戶的上下文和語義知識等方法,迅速、準(zhǔn)確地理解用戶的真實意圖,并轉(zhuǎn)變成與知識倉庫可匹配推演的表示方式。
2.4 用戶搜索意圖的搜索與匹配
基于意圖理解表示和知識倉庫,經(jīng)過匹配、推理、計算乃至眾包等技術(shù)和方法的處理,形成若干個滿足用戶真正意圖的綜合情報解決方案,并通過結(jié)果評價排序方式給出其優(yōu)先級,為用戶提供智能的情報解答方案。
3 系統(tǒng)整體架構(gòu)
本文中“大數(shù)據(jù)網(wǎng)絡(luò)公開情報發(fā)現(xiàn)系統(tǒng)”(簡稱BDID系統(tǒng))的整體架構(gòu)如圖2所示,包括“大數(shù)據(jù)采集”、“大數(shù)據(jù)計算”、“可擴(kuò)展分析工具與關(guān)聯(lián)情報庫”,以及“情報搜索與展示”四個子系統(tǒng)。
3.1 基于關(guān)聯(lián)的多源異構(gòu)情報大數(shù)據(jù)建模和高效計算
在開源流數(shù)據(jù)處理平臺的基礎(chǔ)上,融合大圖計算平臺,開發(fā)面向動態(tài)異構(gòu)圖數(shù)據(jù)的分布式計算平臺;應(yīng)用基于圖的多版本管理、以代表點(diǎn)為核心的預(yù)計算等方法,提高動態(tài)圖數(shù)據(jù)上基本算子的執(zhí)行效率;利用實體關(guān)聯(lián)網(wǎng)絡(luò)的思想和資源描述框架(簡稱RDF)數(shù)據(jù)描述形式進(jìn)行異構(gòu)數(shù)據(jù)的建模;結(jié)合異構(gòu)網(wǎng)絡(luò)的分析技術(shù)和RDF數(shù)據(jù)查詢技術(shù),實現(xiàn)針對海量關(guān)聯(lián)數(shù)據(jù)的管理和查詢。
3.2 多源異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)智能采集與提取模型
首先采用可擴(kuò)展分布式采集模型實現(xiàn)服務(wù)器無感采集,在分析、仿真真實網(wǎng)絡(luò)用戶群上網(wǎng)行為的基礎(chǔ)上,實現(xiàn)對大規(guī)模分布式采集點(diǎn)的智能調(diào)度。然后,采用熱點(diǎn)信息動態(tài)感知模型實現(xiàn)對社會網(wǎng)絡(luò)的深度采集。再研究高智能內(nèi)容協(xié)商采集模型,包括個性化可配置自動提取和互動式社會網(wǎng)絡(luò)信息智能提取技術(shù)。
3.3 全媒體大數(shù)據(jù)可用性評估理論模型
首先應(yīng)用一階邏輯、時序邏輯和隨機(jī)過程等不同數(shù)學(xué)方法,建立特定事件大數(shù)據(jù)的全面性、準(zhǔn)確性、時效性和實體同一性理論模型,然后在統(tǒng)一的邏輯框架下把用不同數(shù)學(xué)方法建立的理論模型融合成為一個完整的特定事件大數(shù)據(jù)可用性理論模型。在此基礎(chǔ)上,重點(diǎn)解決最大滿足子集求解難題和應(yīng)用需求可滿足性判定問題,并進(jìn)一步設(shè)計高效的特定事件大數(shù)據(jù)可用性的定量評估模型求解算法。
3.4 基于語義網(wǎng)的全媒體特定主題事件大數(shù)據(jù)分布式存儲
由于數(shù)據(jù)源是全面涵蓋傳統(tǒng)網(wǎng)絡(luò)媒體、網(wǎng)絡(luò)新媒體和移動互聯(lián)網(wǎng)媒體的網(wǎng)絡(luò)全媒體,因此在進(jìn)行特定事件大數(shù)據(jù)分布式結(jié)構(gòu)存儲前,首先通過對特定事件數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,發(fā)現(xiàn)其中隱含的相似模式,并為其自動生成RDF 描述的模型框架后,再進(jìn)行基于語義網(wǎng)的分布式結(jié)構(gòu)存儲。在此基礎(chǔ)上,項目進(jìn)一步研究大規(guī)模分布式結(jié)構(gòu)存儲系統(tǒng)中基于文件的RDF圖的存儲優(yōu)化技術(shù),以及大規(guī)模語義網(wǎng)數(shù)據(jù)訪問控制方法。
3.5 基于屬性關(guān)聯(lián)與圖匹配的重點(diǎn)人物關(guān)聯(lián)分析
首先研究重點(diǎn)人物、群體等實體的可關(guān)聯(lián)信息建模方法,通過屬性模板描述不同類型實體的可能關(guān)聯(lián)屬性,通過圖模型描述組成群體的不同個體關(guān)聯(lián)關(guān)系類型;在此基礎(chǔ)上,在RDF語義網(wǎng)的支持下,分別由語義索引匹配和圖索引匹配方法,對可能匹配的實體屬性進(jìn)行輪詢計算,采用分布式處理架構(gòu)與內(nèi)存處理相結(jié)合的方式支持千級屬性維度的并行計算,評估重點(diǎn)人物和群體的信息關(guān)聯(lián)度;進(jìn)而對“可信”匹配特征進(jìn)行拼接,自動發(fā)現(xiàn)、評估和建立重點(diǎn)人物、群體之間的各類關(guān)聯(lián)。
3.6 基于網(wǎng)絡(luò)痕跡鑒別的特殊事件的溯源追蹤分析
基于全媒體特定主題事件的大數(shù)據(jù)模型,首先根據(jù)特定事件的特征(或從樣本數(shù)據(jù)中提取的特征),從事件庫中檢索得到特定事件關(guān)聯(lián)的各種“網(wǎng)絡(luò)痕跡”數(shù)據(jù),包括全媒體的內(nèi)容帖、轉(zhuǎn)發(fā)評論及交互、上網(wǎng)的行為數(shù)據(jù)、其他相關(guān)數(shù)據(jù)等;根據(jù)數(shù)據(jù)的時間戳信息和時序模型,計算痕跡數(shù)據(jù)時間線;在此基礎(chǔ)上,將與事件相關(guān)聯(lián)的人、群體、組織等實體檢索后按照時序關(guān)系組織成溯源圖和追蹤圖;基于概率貝葉斯模型等分類方法對人、群體、組織的虛擬身份進(jìn)行立場分類,篩選并發(fā)現(xiàn)新的重點(diǎn)人員及其軌跡。
3.7 結(jié)合深度學(xué)習(xí)與巨圖匹配的時空敏感數(shù)據(jù)智能分析
針對RDF語義網(wǎng)中的人物、事件相關(guān)快速匹配需求,基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、LSTM神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)方法提取人物、事件相關(guān)的各種數(shù)據(jù)的時間特征、空間特征提取方法,以及不同關(guān)鍵詞間的深度語義關(guān)聯(lián),并在語義空間中研究基于時空相似的快速匹配算法;針對RDF語義網(wǎng)中的關(guān)系類知識的快速匹配算法,基于圖的分布式處理方法,解決億級節(jié)點(diǎn)規(guī)模、十億級邊規(guī)模的大圖和巨圖的并行匹配的分解算法及優(yōu)化方法,通過圖索引確保秒級查詢相應(yīng);針對多尺度混合屬性查詢請求,以多時間尺度間的自動轉(zhuǎn)換方法自動計算新的時空特征及其快速匹配算法。
4 結(jié)束語
本文結(jié)合公安等部門的互聯(lián)網(wǎng)管理業(yè)務(wù),展開了互聯(lián)網(wǎng)上實體/關(guān)系的關(guān)聯(lián)分析研究和開發(fā),在大數(shù)據(jù)存儲管理的基礎(chǔ)上,“大數(shù)據(jù)網(wǎng)絡(luò)公開情報發(fā)現(xiàn)系統(tǒng)”(簡稱BDID系統(tǒng))。該系統(tǒng)能夠?qū)ヂ?lián)網(wǎng)上的特定信息進(jìn)行不間斷采集融合、關(guān)聯(lián)分析和查詢展示,系統(tǒng)按照人物、時間、地點(diǎn)、事件等維度將信息關(guān)聯(lián)起來,為用戶提供多種服務(wù)。
參考文獻(xiàn)(References):
[1] 李超,周瑛,周煥,潘瑋.大數(shù)據(jù)環(huán)境下情報分析方法與情報分析軟件探討[J].現(xiàn)代情報,2017.37(7):151-158,165
[2] 謝新洲.發(fā)展情報方法研究,應(yīng)對大數(shù)據(jù)挑戰(zhàn)[J].圖書情報工作,2014.58(14):5
[3] KIM J, HASTAK M. Social network analysis: Characteris-tics of online social networks after adisaster[J]. International Journal of Information Management,2018.38(1):86-96
[4] 陳云偉.社會網(wǎng)絡(luò)分析方法在情報分析中的應(yīng)用研究[J].情報學(xué)報,2019.38(1):21-28
[5] 馬續(xù)補(bǔ),呂肖娟,秦春秀,劉瑋,劉懷亮,李洋.政策工具視角下我國公共信息資源開放政策量化分析[J].情報理論與實踐,2019.42(5):46-50
[6] ZHAO M, YAN E, LI K. Data set mentions and citations: Acontent analysis of full-textpublications[J]. Journal of the Association for Information Science and Technology,2018.69(1):32-46
[7] 王超,許海云,董坤,方曙.基于創(chuàng)新鏈的產(chǎn)業(yè)競爭情報分析框架與應(yīng)用研究——以國內(nèi)基因工程疫苗產(chǎn)業(yè)為例[J].情報理論與實踐,2018.41(1):87-93