国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識圖譜的人員關(guān)系預(yù)測方法研究

2018-01-04 10:59朱振華于曉昀李超
電腦知識與技術(shù) 2018年28期
關(guān)鍵詞:知識圖譜

朱振華 于曉昀 李超

摘要:針對大量數(shù)據(jù)表到知識圖譜轉(zhuǎn)化時,僅展示有直接關(guān)系的數(shù)據(jù),無法挖掘關(guān)聯(lián)有間接關(guān)系的數(shù)據(jù)的問題進(jìn)行研究,基于公安業(yè)務(wù)場景,闡述了知識圖譜搭建的流程,并以知識圖譜關(guān)系預(yù)測的原理為基礎(chǔ),構(gòu)建了符合公安行業(yè)的知識圖譜關(guān)系信息資源模型,以規(guī)則預(yù)測+算法預(yù)測相結(jié)合的方式,提出了關(guān)系預(yù)測的技術(shù)路線,在海量數(shù)據(jù)中,實現(xiàn)實體的顯性關(guān)系和隱性關(guān)系的深度挖掘和關(guān)系拓展。

關(guān)鍵詞:知識圖譜;公安業(yè)務(wù);海量數(shù)據(jù);關(guān)系預(yù)測

中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)28-0176-03

Research on Prediction Method of Personnel Relationship Based on Knowledge Map

ZHU Zhen-hua, YU Xiao-yun,LI Chao

(The First Research Institute of the Ministry of Public Security of P.R.C, Beijing 100048, China)

Abstract: In view of the problem that a large number of data tables can not be transformed into knowledge map only by displaying directly related data and mining indirectly related data, this paper expounds the process of building knowledge map based on the public security business scenario, and constructs a knowledge map relationship prediction system based on the principle of knowledge map relationship prediction. The relational information resource model of knowledge map is presented. The technical route of relational prediction is put forward by combining rule prediction with algorithm prediction. In large amount of data, the deep mining and relational extension of explicit and implicit relations of entities are realized.

Key words: knowledge map; public security business; massive data; relationship prediction

1 背景

近年隨著“人工智能”概念的再度活躍,除了“深度學(xué)習(xí)”這個炙手可熱的名詞以外,“知識圖譜”無疑也是研究者、工業(yè)界心目中的又一顆“銀彈”。簡單地說,“知識圖譜”就是以圖形(Graph)的方式來展現(xiàn)“實體”、實體“屬性”,以及實體之間的“關(guān)系”。知識圖譜的主要目標(biāo)是用來描述真實世界中存在的各種實體和概念,以及它們之間的關(guān)聯(lián)關(guān)系。

實體或概念是世界中客觀存在的事物,他們之間相互作用、制約,由此形成一定關(guān)系。實體或概念可以是名人、城市、球隊、電影、地標(biāo)性建筑、藝術(shù)品等;而關(guān)系可以是人與人、人與地點、人與物品以及地點與物品之間可能存在關(guān)聯(lián)。例如:實體“《靜夜思》”和“李白”之間存在“創(chuàng)作者”關(guān)系。利用實體或概念,以及他們之間的關(guān)聯(lián)關(guān)系,可以提高搜索精度和優(yōu)化搜索結(jié)果。知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò)的演化版本,其結(jié)點代表實體(Entity)或者概念(Concept),邊代表實體或概念之間的各種語義關(guān)系。

目前成為學(xué)術(shù)界與工業(yè)界關(guān)注熱點的知識圖譜的理論基礎(chǔ)來自RDF(Resource Description Framework)知識表示模型,但其主要面向大規(guī)模實體或概念,及其關(guān)聯(lián)關(guān)系的表示和應(yīng)用問題。2012年5月,Google公司重金收購Metaweb公司,并向外界正式發(fā)布其知識圖譜(Knowledge Graph)。自此,知識圖譜正式走入公眾視野。當(dāng)前的知識圖譜表示一般采用圖模型,其最基本的表示單元是(主體、謂詞、客體)三元組。例如:(達(dá)·芬奇、作者、《蒙娜麗莎》)三元組表示達(dá)·芬奇是《蒙娜麗莎》的作者。三元組中的主體和客體對應(yīng)知識圖譜中的實體或概念(圖中結(jié)點),謂詞對應(yīng)關(guān)系(圖中的邊)。除Google之外,微軟、百度、搜狗等公司都推出了各自的知識圖譜。

2 該文研究內(nèi)容

該文主要是通過對海量數(shù)據(jù)的感知、認(rèn)知,搭建完整的知識體系,在此基礎(chǔ)上,闡述知識圖譜進(jìn)行關(guān)系預(yù)測的基本原理和基本方法,開展基于關(guān)系的知識推理和預(yù)測分析。以模擬真實世界的人活動關(guān)鍵要素為依據(jù)的,構(gòu)建信息資源模型,將參與的自然人、人通過各種方式社交構(gòu)成的社交關(guān)系及相關(guān)聯(lián)的事件等關(guān)鍵要素,結(jié)合相應(yīng)的算法模型,進(jìn)行顯性關(guān)系和隱藏關(guān)系的挖掘和預(yù)測,并對人員實體關(guān)系分析預(yù)測進(jìn)行可視化展示。

3 知識圖譜的關(guān)系預(yù)測方法研究

3.1 知識圖譜搭建流程

搭建知識圖譜需從多種信息源獲取實體或概念,以及他們之間的關(guān)聯(lián)關(guān)系。知識圖譜構(gòu)建是否完備關(guān)鍵在于知識抽取引擎的構(gòu)建,知識抽取細(xì)分為實體、屬性、關(guān)系、事實、事件、分類等識別與抽取。以知識抽取引擎為基礎(chǔ)構(gòu)建知識圖譜的流程圖如下:

知識圖譜的數(shù)據(jù)源是多源異構(gòu)的數(shù)據(jù)體系,包括公安內(nèi)部數(shù)據(jù)、其他部委數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等。知識抽取引擎首先需要融合匯聚來自多個來源的異構(gòu)數(shù)據(jù),其中包括數(shù)據(jù)準(zhǔn)備層,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化標(biāo)注和數(shù)據(jù)格式轉(zhuǎn)換,完成多源異構(gòu)數(shù)據(jù)的語義融合,匯聚管理異構(gòu)數(shù)據(jù),優(yōu)化上層訪問效率。

在數(shù)據(jù)平臺層,知識抽取引擎主要進(jìn)行數(shù)據(jù)采集和數(shù)據(jù)整合工作。數(shù)據(jù)采集工作主要內(nèi)容包括以下幾個方面:

1)結(jié)構(gòu)化數(shù)據(jù)智能抽?。褐悄芑瘮?shù)據(jù)抽取是數(shù)據(jù)深度應(yīng)用的前提,基于機器學(xué)習(xí)技術(shù)通過大規(guī)模自動化智能化對多源數(shù)據(jù)進(jìn)行的采集、清洗、歸類,并關(guān)聯(lián)所有數(shù)據(jù),形成統(tǒng)一數(shù)據(jù)視圖給后續(xù)的智能化應(yīng)用服務(wù)。針對RDB、Streaming、Crawler、CSV/Excel/TXT等數(shù)據(jù)源,支持傳統(tǒng)數(shù)據(jù)轉(zhuǎn)換和機器學(xué)習(xí)數(shù)據(jù)轉(zhuǎn)換。

2)非結(jié)構(gòu)化特征提取,使用機器學(xué)習(xí)等手段提取非結(jié)構(gòu)化數(shù)據(jù)的特征作為標(biāo)注;

3)數(shù)據(jù)格式轉(zhuǎn)換,將不符合預(yù)定格式的數(shù)據(jù)轉(zhuǎn)化為預(yù)定格式下的數(shù)據(jù)。

數(shù)據(jù)整合工作主要內(nèi)容包括以下幾個方面:

1)模式對應(yīng):實現(xiàn)在關(guān)系數(shù)據(jù)庫模式層次和非結(jié)構(gòu)化數(shù)據(jù)在概念層次的匹配對應(yīng);

2)實體鏈接:利用相似性計算、聚類劃分等技術(shù),實現(xiàn)在異構(gòu)數(shù)據(jù)在實例層次對應(yīng);

3)沖突檢測:在完成實例對應(yīng)后,檢測是否存在相同實體的相同屬性值沖突;

4)沖突消除:利用機器學(xué)習(xí)、異常點判定、人工干預(yù)等手段消除檢測到的沖突;

5)數(shù)據(jù)融匯:匯聚異構(gòu)數(shù)據(jù),優(yōu)化上層訪問效率。

經(jīng)知識抽取引擎進(jìn)行數(shù)據(jù)采集和數(shù)據(jù)整合工作后,形成數(shù)據(jù)資源庫,包括基礎(chǔ)資源庫、專題數(shù)據(jù)庫、關(guān)聯(lián)庫和全文檢索庫。為關(guān)系預(yù)測綜合研判提供所需的數(shù)據(jù)支撐。

在關(guān)系抽取層,針對圖譜增強的知識化實體理解技術(shù),開展開源輔助信息關(guān)聯(lián),支撐面向圖譜的高效匹配和關(guān)聯(lián)檢索應(yīng)用。實體關(guān)系抽取主要關(guān)注:實體對之間的關(guān)系的預(yù)測,實體對特定關(guān)系的挖掘,開放式實體關(guān)系的抽取。

在知識圖譜構(gòu)建層,包括知識構(gòu)建、知識更新、知識融合。知識構(gòu)建主要是基于以上流程將知識收集;知識更新主要解決知識的動態(tài)感知和更新問題,用以體現(xiàn)知識的變化對知識圖譜中所存儲知識的影響;知識融合主要是進(jìn)行實體識別,即給定不同數(shù)據(jù)源中的實體,判斷其是否指向同一個真實世界實體。知識融合過程中,要準(zhǔn)確識別待合并知識與知識庫中已有知識相重復(fù)或相矛盾的部分,并對冗余知識和矛盾知識采取適當(dāng)?shù)拇胧┻M(jìn)行處理,以保證知識庫中的知識是一致性,無冗余、無矛盾。

3.2 知識圖譜關(guān)系預(yù)測的原理

知識圖譜關(guān)系預(yù)測根據(jù)是否和業(yè)務(wù)相關(guān),主要分為基于規(guī)則的預(yù)測和基于算法的預(yù)測。

1)基于規(guī)則的預(yù)測: 主要是通過業(yè)務(wù)本體框架中的相關(guān)約束來做相關(guān)的推理預(yù)測,比如類別預(yù)測、屬性預(yù)測等,通過關(guān)系的定義域和值域來推理預(yù)測。關(guān)系的定義域和值域是固定的,實例具有這種關(guān)系,則實例就是定義域或值域規(guī)定的類別。

2)基于算法的預(yù)測:基于算法的預(yù)測可以分為很多種,基于路徑的建模、分布式表示學(xué)習(xí)、基于神經(jīng)網(wǎng)絡(luò)、混合推理等,但推理算法獲得的結(jié)果具有不確定性,不一定等獲得完全正確的關(guān)系,只是一種預(yù)測可能性。比如:通過觀察到知識圖譜中包含這樣的一條路徑“梅琳達(dá)·蓋茨-配偶-比爾·蓋茨-主席-微軟-總部-西雅圖”,推測出梅林達(dá)可能居住在西雅圖。

知識圖譜相關(guān)的推理預(yù)測算法目前主要分為單步推理(直接關(guān)系,沒有考慮路徑特征)和多步推理(間接關(guān)系,考慮路徑特征),在單步推理和多步推理中主要包括4個研究方向:基于傳統(tǒng)的規(guī)則推理、基于分布式表示推理、基于神經(jīng)網(wǎng)絡(luò)的推理、基于上述方法的混合推理。

3.3 知識圖譜關(guān)系信息資源模型設(shè)計

基于知識圖譜的關(guān)系預(yù)測的核心是建立符合業(yè)務(wù)的信息資源模型和算法。信息資源模型的設(shè)計是以模擬真實世界的人活動關(guān)鍵要素為依據(jù)的。參與的自然人(核心和邊緣份子)通過各種社交構(gòu)成的社交關(guān)系,人員個體在相關(guān)關(guān)鍵事件(如違法案件、應(yīng)急突發(fā)事件)過程中,在長時空范圍的系列活動、重點區(qū)域(如案件多發(fā)區(qū)、重點場所)等都是活動關(guān)系構(gòu)成的幾個關(guān)鍵要素,需要在構(gòu)建模型時重點關(guān)注和研究,在業(yè)務(wù)模型的構(gòu)建后采用一些圖算法來開展關(guān)系分析和研判,從而能發(fā)現(xiàn)潛在的關(guān)系。

首先,在進(jìn)行研判的過程中,通過對各類數(shù)據(jù)按照不同業(yè)務(wù)類別進(jìn)行數(shù)據(jù)分析研判,形成不同主題域組織形式的數(shù)據(jù)模型庫。隨著研判的不斷深入,公安知識庫所產(chǎn)生的主題模型也將不斷的擴展,在系統(tǒng)建設(shè)過程中,實現(xiàn)搭建自然人中心主題模型、社交為中心的主題模型、關(guān)鍵事件為中心的主題模型以及重點區(qū)域為中心的主題模型。

第二,基于綜合圖譜模式的匹配技術(shù):在重要行為記錄的事件、組織記錄的模式檢索中,借助基于關(guān)聯(lián)子結(jié)構(gòu)、子模式的匹配技術(shù),可以構(gòu)建頻繁結(jié)構(gòu)索引,剪枝-確認(rèn)迭代操作等進(jìn)行高效的綜合匹配檢索,以實現(xiàn)突破傳統(tǒng)關(guān)鍵字技術(shù)的檢索模式,支持基于復(fù)雜時間,行為軌跡,興趣聚簇的檢索任務(wù),支撐多種上層分析研判應(yīng)用的開展。

利用綜合的多特征場景化實體實現(xiàn)聚簇表示。在多來源和跨時空的公安行業(yè)數(shù)據(jù)獲取、感知、融合、去重等處理后,利用知識圖譜等輔助信息,優(yōu)化對數(shù)據(jù)的表示,提高數(shù)據(jù)概況、索引設(shè)計、數(shù)據(jù)分發(fā)等重要操作的效率,提升知識圖譜的語義知識表示能力。

第三,基于分布表示的多源高維數(shù)據(jù)的快速關(guān)聯(lián)技術(shù):為實現(xiàn)多源異構(gòu)公安行業(yè)數(shù)據(jù)的動態(tài)管理,提升實時響應(yīng)能力,知識圖譜數(shù)據(jù)層將采用基于分布表示的多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)技術(shù)。

3.4 關(guān)系推理預(yù)測的技術(shù)路線

基于數(shù)據(jù)流融合關(guān)聯(lián)和知識圖譜關(guān)系預(yù)測的基本原理,以圖結(jié)構(gòu)數(shù)據(jù)的演化模型為基礎(chǔ),關(guān)注以隱含狀態(tài)轉(zhuǎn)移生成式模型和概率生成圖結(jié)構(gòu)推斷等為基礎(chǔ)的統(tǒng)計建模等技術(shù),分析建模目標(biāo)的行為規(guī)律,甄別周期性和突發(fā)異常行為模式。技術(shù)路線如圖所示:

首先,研究圖結(jié)構(gòu)行為演化預(yù)測模型:針對公安行業(yè)中的行為模式和新場景不斷涌現(xiàn)等問題,通過對檢查站、旅館住宿、網(wǎng)吧上網(wǎng)、乘車乘機、出入境等信息的相似性分析、類統(tǒng)計分析、條件過濾分析等,定位工作對象以及疑似工作對象行為軌跡特征,獲取與其行為相似的相關(guān)人、相關(guān)物品等。結(jié)合監(jiān)控數(shù)據(jù)和多樣輔助來源,基于快速哈希映射的序列相似技術(shù),實現(xiàn)對持續(xù)追蹤任務(wù)中的人員行為模式的有效覆蓋,進(jìn)而追蹤和識別可疑目標(biāo)的臨近和相似個體。

第二,多目標(biāo)異常行為預(yù)測技術(shù):在初始對象網(wǎng)絡(luò)圖譜結(jié)構(gòu)中,首先基于特定群體影響力最大化模型尋找熱點目標(biāo)源;其次研究已有樣本數(shù)據(jù)對象被感染的情況,假定網(wǎng)絡(luò)結(jié)構(gòu)不變的情況下,利用連續(xù)時間傳播模型預(yù)測哪些數(shù)據(jù)對象會在什么時間被感染;最后研究隨著時間變化,網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生變化的情況下,有效對網(wǎng)絡(luò)結(jié)構(gòu)變化進(jìn)行建模和量化,以實現(xiàn)信息溯源和傳播估計的同時,準(zhǔn)確描述網(wǎng)絡(luò)的動態(tài)特性和變化趨勢,達(dá)到抗過擬合特性,解決公安工作中目標(biāo)稀疏和長期潛伏的挑戰(zhàn)。

第三,異常突發(fā)行為預(yù)測支持技術(shù):構(gòu)建知識圖譜的大數(shù)據(jù)平臺關(guān)注實時聚集度是通過對大規(guī)模人群、車輛等軌跡趨勢的分析實時獲取,并對相關(guān)事件進(jìn)行預(yù)警。大數(shù)據(jù)平臺留存所有人員的全息電子檔案,根據(jù)電子檔案的多個維度信息挖掘發(fā)現(xiàn)其可能涉及公共安全的可能事件及相關(guān)的關(guān)系人,對可能出現(xiàn)的情況發(fā)出預(yù)警。大數(shù)據(jù)平臺監(jiān)控敏感地點活動、關(guān)注地點聚集、敏感人群事件等關(guān)注事件,依據(jù)相關(guān)模型對于該事件產(chǎn)生的影響發(fā)出預(yù)測報警,實時發(fā)布預(yù)警信息和行動指令。

基于以上技術(shù)路線,最終展現(xiàn)給用戶的是以圖譜可視化的方式進(jìn)行展示,關(guān)系分析預(yù)測系統(tǒng)的效果圖如下:

圖譜可視化展示不僅能夠分析人員人之間的關(guān)系網(wǎng)絡(luò),對人與事件、其他實體之間的分析也可以用戶網(wǎng)狀結(jié)構(gòu)展示出來,事件和其他實體包括了人員、地址、物品、軌跡、車輛、通訊等各類信息,最終形成一個網(wǎng)狀圖。針對某一類信息,可以基于特定場景下,通過相應(yīng)的業(yè)務(wù)規(guī)則和模型,進(jìn)一步關(guān)聯(lián)分析和關(guān)系拓展,通過層層挖掘,最終形成一個包含顯性關(guān)系和隱藏關(guān)系的關(guān)系網(wǎng)絡(luò)圖。

4 結(jié)束語

該文針對大量數(shù)據(jù)表到知識圖譜轉(zhuǎn)化時,僅展示有直接關(guān)系的數(shù)據(jù),無法挖掘關(guān)聯(lián)有間接關(guān)系的數(shù)據(jù)的問題進(jìn)行研究,基于公安業(yè)務(wù)場景,闡述了知識圖譜搭建的流程,并以知識圖譜關(guān)系預(yù)測的原理為基礎(chǔ),構(gòu)建了符合公安行業(yè)的知識圖譜關(guān)系信息資源模型,以規(guī)則預(yù)測+算法預(yù)測相結(jié)合的方式,提出了關(guān)系推理預(yù)測的技術(shù)路線,在海量數(shù)據(jù)中,實現(xiàn)實體的顯性關(guān)系和隱性關(guān)系的深度挖掘和關(guān)系拓展,以可視化的方式展示給用戶,便于用戶研判分析。下一步,將繼續(xù)與公安業(yè)務(wù)相結(jié)合,優(yōu)化關(guān)系推理算法模型,引入知識交互,為業(yè)務(wù)人員提供便捷的應(yīng)用支持,結(jié)合用戶的業(yè)務(wù)經(jīng)驗,提高關(guān)系分析預(yù)測可視化數(shù)據(jù)特征分析和交互能力。

參考文獻(xiàn):

[1] 江瀏祎. 基于圖的關(guān)系推理算法研究與實現(xiàn)[D]. 成都: 電子科技大學(xué), 2017.

[2] 劉嶠,韓明皓,楊曉慧, 等. 基于表示學(xué)習(xí)和語義要素感知的關(guān)系推理算法[J]. 計算機研究與發(fā)展, 2017, 54(8): 1682-1692.

[3] 郭坤銘. 基于異構(gòu)網(wǎng)絡(luò)的關(guān)系推理及預(yù)測方法研究[D]. 太原: 太原理工大學(xué), 2017.

[4] 漆桂林, 高桓, 吳天星. 知識圖譜研究進(jìn)展[J]. 情報工程, 2017, 3(1): 4-25.

[5] 邵鎣俠, 馮是聰. 社交網(wǎng)絡(luò)分析在公共安全領(lǐng)域的應(yīng)用[J]. 大數(shù)據(jù), 2017, 3(2): 38-44.

[6] 郭琳, 翟社平, 高山. 知識圖譜中的語義推理算法[J]. 計算機與現(xiàn)代化, 2017(12): 71-76.

【通聯(lián)編輯:謝媛媛】

猜你喜歡
知識圖譜
國內(nèi)酒店品牌管理研究進(jìn)展的可視化分析
從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展