喬 慧, 蘇 云, 安 瑾
(江蘇自動化研究所, 江蘇 連云港 222061)
現(xiàn)代情報(bào)系統(tǒng)能夠收集來自地波站、觀通站、偵察站以及??掌脚_上報(bào)的目標(biāo)情報(bào)信息,能夠通過民用海情數(shù)據(jù)服務(wù)系統(tǒng)收集交通部、農(nóng)業(yè)部、海監(jiān)局等地方涉海民用海情信息。后續(xù),隨著圖像、音頻、視頻等類型情報(bào)信息的收集能力的補(bǔ)充,以及民用涉海資源的進(jìn)一步充實(shí),海上數(shù)據(jù)量級將進(jìn)一步加大。傳統(tǒng)的信息存儲與處理方式已經(jīng)滿足不了正在日益增多且更加復(fù)雜的信息的檢索[1]。近幾年目標(biāo)檢測跟蹤領(lǐng)域引入大數(shù)據(jù)處理技術(shù),通過對海量歷史情報(bào)數(shù)據(jù)的挖掘獲取知識,基于知識庫進(jìn)行目標(biāo)智能檢測與跟蹤,引起廣泛關(guān)注,且取得了部分理論研究成果,但與軍事應(yīng)用還存在較大差距。主要在于當(dāng)前理論研究大都基于民用情報(bào)分析需求,例如港口監(jiān)控應(yīng)用[2]、交通智能導(dǎo)引等,未涉及軍事應(yīng)用需求,而需求不同必然帶來方法的不同。
基于此,本文以海情應(yīng)用為背景,提出了面向海量數(shù)據(jù)的海情數(shù)據(jù)分析總體框架,針對海量數(shù)據(jù)訪問、情報(bào)知識體系構(gòu)建等關(guān)鍵問題,對多源異構(gòu)數(shù)據(jù)高效檢索、基于軌跡的目標(biāo)運(yùn)動規(guī)律與異常檢測以及基于模板的目標(biāo)意圖表示與挖掘等關(guān)鍵技術(shù)進(jìn)行了初步探討,為后續(xù)深入研究以及進(jìn)一步形成演示能力提供支撐。
近幾十年,我軍情報(bào)信息系統(tǒng)建設(shè)成果顯著。信息采集、傳輸、處理和顯示等環(huán)節(jié)均已成型;數(shù)據(jù)工程建設(shè)積累了大批基礎(chǔ)性數(shù)據(jù);作戰(zhàn)任務(wù)規(guī)劃系統(tǒng)也取得初步進(jìn)展。然而,現(xiàn)有情報(bào)信息系統(tǒng)的發(fā)展遭遇智能輔助能力滯后的問題,尤其是對智能程度稍高的問題,如態(tài)勢理解、決策輔助等。只有突破智能輔助技術(shù)的瓶頸,方能實(shí)現(xiàn)系統(tǒng)能力的階躍式提升[3]。
海情中心承擔(dān)為各級海情用戶按需提供情報(bào)保障的使命。現(xiàn)有情報(bào)保障主要依賴于實(shí)時(shí)情報(bào)的處理,缺乏對歷史數(shù)據(jù)潛在價(jià)值的有效應(yīng)用。要提升海情情報(bào)實(shí)時(shí)處理智能化程度,一方面需要在實(shí)時(shí)處理中引入智能化處理方法,另一方面需要挖掘歷史數(shù)據(jù)中隱含的知識,同時(shí)將指揮員對行動、環(huán)境、目標(biāo)等的日常判斷形成知識,供實(shí)時(shí)處理智能系統(tǒng)使用。而在數(shù)據(jù)中獲得知識的整個(gè)過程,即為數(shù)據(jù)挖掘[4]。
海情中心業(yè)務(wù)需求,如圖1所示,主要有以下五個(gè)方面。
1)掌握海上目標(biāo)總體情況
重點(diǎn)在于全面掌握各類海上目標(biāo)的總體數(shù)量、分類、分布以及變化趨勢。
2)掌握探測資源的工作情況
重點(diǎn)在于掌握各探測資源的工作情況以及實(shí)際探測能力。
3)掌握關(guān)鍵海域內(nèi)、海上分界線附近目標(biāo)運(yùn)動情況
重點(diǎn)在于掌握關(guān)鍵海域內(nèi)、海上分界線附近目標(biāo)數(shù)量、組成,識別目標(biāo)行為,分析非我方目標(biāo)的戰(zhàn)術(shù)意圖,以及對我方的威脅情況。
4)分辨重點(diǎn)目標(biāo)并掌握其運(yùn)動情況
重點(diǎn)在于根據(jù)目標(biāo)的屬性、類別或運(yùn)動特征,識別重點(diǎn)目標(biāo)或編隊(duì)目標(biāo),判斷其對我方的威脅情況,并預(yù)測其戰(zhàn)術(shù)意圖。
5)發(fā)現(xiàn)異常情況及時(shí)處置
重點(diǎn)在于監(jiān)視轄區(qū)內(nèi)海上目標(biāo)運(yùn)動異常、行為異常、信號異常等情況并及時(shí)做出報(bào)告和處置。
圖1 業(yè)務(wù)需求層次
因此海情中心對“知識”獲取的需求,主要包括:轄區(qū)目標(biāo)總量及趨勢、情報(bào)源探測能力、目標(biāo)關(guān)系、目標(biāo)特征、目標(biāo)活動規(guī)律、目標(biāo)戰(zhàn)術(shù)行為意圖等。本文基于以上所明確的預(yù)期數(shù)據(jù)挖掘目標(biāo),進(jìn)行進(jìn)一步的軟件架構(gòu)設(shè)計(jì)與關(guān)鍵技術(shù)分析。
如圖2所示,面向海量數(shù)據(jù)的海情數(shù)據(jù)分析系統(tǒng)采用“以數(shù)據(jù)資源組織為基礎(chǔ),以批量數(shù)據(jù)處理與挖掘?yàn)槭侄?,以?shù)據(jù)分析服務(wù)為宗旨”的軟件技術(shù)架構(gòu)。具體地,以數(shù)據(jù)為中心,從結(jié)構(gòu)上可分為數(shù)據(jù)獲取層、數(shù)據(jù)分析層和數(shù)據(jù)顯示層,基于數(shù)據(jù)獲取層提供的基于時(shí)空網(wǎng)格的海情數(shù)據(jù)快速存儲和訪問能力,開發(fā)海情數(shù)據(jù)分析軟件,并將數(shù)據(jù)分析結(jié)果予以展示。
圖2 數(shù)據(jù)分析軟件架構(gòu)
該軟件架構(gòu)既可以適應(yīng)現(xiàn)有硬件設(shè)施,亦可適應(yīng)未來分布式數(shù)據(jù)存儲與計(jì)算平臺中,如基于Hadoop的高性能海量數(shù)據(jù)處理平臺[5],僅需增加分布式數(shù)據(jù)存儲與計(jì)算管理軟件即可,解決因數(shù)據(jù)量級大、數(shù)據(jù)多源、數(shù)據(jù)多樣等因素導(dǎo)致的海情數(shù)據(jù)分析困難的問題。
1)數(shù)據(jù)獲取層,基于海情數(shù)據(jù)分析存儲與計(jì)算基礎(chǔ)設(shè)施,采用數(shù)據(jù)整合工具實(shí)現(xiàn)對傳統(tǒng)海情關(guān)系數(shù)據(jù)庫數(shù)據(jù)、文件接口數(shù)據(jù)、以及未來流式數(shù)據(jù)的批量接入;對數(shù)據(jù)予以基本的抽取、清洗等預(yù)處理工作,并基于剖分網(wǎng)格編碼技術(shù)對海情數(shù)據(jù)進(jìn)行高效存儲與組織,實(shí)現(xiàn)海量海情數(shù)據(jù)的關(guān)聯(lián)與整合,形成海情數(shù)據(jù)分析基礎(chǔ)庫,為后續(xù)數(shù)據(jù)挖掘與分析提供數(shù)據(jù)支持,同時(shí)為應(yīng)用提供大批量數(shù)據(jù)快速訪問能力。
數(shù)據(jù)分析服務(wù)支持中間件,通過服務(wù)接口向上層應(yīng)用提供透明、統(tǒng)一、高效的數(shù)據(jù)和應(yīng)用服務(wù),支撐上層業(yè)務(wù)應(yīng)用快速開發(fā)。主要包括數(shù)據(jù)訪問服務(wù)、數(shù)據(jù)存儲服務(wù)、數(shù)據(jù)分析服務(wù)以及數(shù)據(jù)可視化服務(wù)。其中數(shù)據(jù)分析服務(wù)提供通用的數(shù)據(jù)挖掘算法,滿足客戶數(shù)據(jù)分析挖掘功能;數(shù)據(jù)可視化服務(wù),提供圖形、表格等通用可視化方式。
2)數(shù)據(jù)分析層根據(jù)用戶需求,基于數(shù)據(jù)分析支持中間件提供的數(shù)據(jù)訪問、存儲、統(tǒng)計(jì)計(jì)算、挖掘方法以及可視化服務(wù),針對海情業(yè)務(wù)需求,實(shí)現(xiàn)目標(biāo)分類統(tǒng)計(jì)、目標(biāo)特征分析、態(tài)勢分析以及傳感器戰(zhàn)場感知能力分析的功能應(yīng)用,將分析結(jié)果存儲于知識庫中,并向顯示軟件推送。
本層軟件為業(yè)務(wù)核心軟件,其中,海上目標(biāo)分類統(tǒng)計(jì)軟件是,根據(jù)情報(bào)源、時(shí)間、空海類別、敵我屬性、國家/地區(qū)、重要性等條件分類統(tǒng)計(jì)系統(tǒng)記錄的海上目標(biāo)數(shù)據(jù),形成某時(shí)間段各類型目標(biāo)統(tǒng)計(jì)圖表,輔助用戶掌握當(dāng)時(shí)情況和分析近期變化趨勢,形成轄區(qū)目標(biāo)總量及趨勢知識;傳感器戰(zhàn)場感知能力分析軟件是,分析系統(tǒng)記錄的傳感器數(shù)據(jù),提取傳感器或探測平臺實(shí)際能力指標(biāo),形成情報(bào)源實(shí)際感知能力知識;海上目標(biāo)運(yùn)動特征分析軟件,分析系統(tǒng)記錄的海上目標(biāo)偵察數(shù)據(jù),提取海上目標(biāo)運(yùn)動特征以及綜合特征,形成目標(biāo)綜合識別特征知識;海上目標(biāo)態(tài)勢分析軟件是,結(jié)合地理信息、傳感器能力和部署等信息,分析系統(tǒng)記錄的海上目標(biāo)數(shù)據(jù),形成目標(biāo)活動規(guī)律、目標(biāo)行為和意圖、目標(biāo)關(guān)系和戰(zhàn)術(shù)等態(tài)勢知識。
3)數(shù)據(jù)顯示層以Web方式向用戶呈現(xiàn)分析結(jié)果。
面向海量數(shù)據(jù)的海情數(shù)據(jù)分析系統(tǒng)的建設(shè)有三個(gè)關(guān)鍵因素,分別為數(shù)據(jù)基礎(chǔ)、計(jì)算基礎(chǔ)及數(shù)學(xué)基礎(chǔ)。其中計(jì)算基礎(chǔ)即圖2中的數(shù)據(jù)分析分布式存儲與計(jì)算設(shè)施,目前分布式處理平臺及相關(guān)應(yīng)用已相對成熟,很多公司基于Hadoop平臺開發(fā)了系列提供大數(shù)據(jù)平臺處理服務(wù)的產(chǎn)品,能夠?yàn)橛脩籼峁┨幚砗A繑?shù)據(jù)的軟硬件基礎(chǔ)環(huán)境。而其中的數(shù)據(jù)基礎(chǔ)與數(shù)學(xué)基礎(chǔ)則需根據(jù)不同的應(yīng)用,開展相應(yīng)的算法設(shè)計(jì)與技術(shù)攻關(guān)。首當(dāng)其沖的是需要提供異構(gòu)數(shù)據(jù)的高效檢索技術(shù),以滿足應(yīng)用對海量數(shù)據(jù)的訪問需求;其次海情數(shù)據(jù)分析主要針對的數(shù)據(jù)對象是目標(biāo),而目標(biāo)軌跡是理解目標(biāo)最重要的數(shù)據(jù)源,需要從軌跡中獲得對目標(biāo)盡可能多的認(rèn)知;最后,目標(biāo)行為的預(yù)測一直以來都是態(tài)勢領(lǐng)域的研究難點(diǎn),從歷史數(shù)據(jù)挖掘“勢”的知識是我們需要深入研究的。
多源異構(gòu)數(shù)據(jù)高效檢索是數(shù)據(jù)分析首先要解決的問題。時(shí)空數(shù)據(jù)的快速查詢一般都是通過建立時(shí)空數(shù)據(jù)索引來實(shí)現(xiàn)的[6]。傳統(tǒng)索引結(jié)構(gòu)的優(yōu)化,僅能提高小規(guī)模數(shù)據(jù)檢索速度和查詢表鏈接效率。針對當(dāng)前海情數(shù)據(jù)“分別建庫、各自組織、弱關(guān)聯(lián)”組織模式導(dǎo)致數(shù)據(jù)查詢提取操作繁瑣、時(shí)間消耗大的問題,可考慮依托全球時(shí)空剖分網(wǎng)格,建立多源異構(gòu)數(shù)據(jù)統(tǒng)一空間編碼模型和時(shí)間離散編碼模型,通過帶有時(shí)空區(qū)位、屬性擴(kuò)展的結(jié)構(gòu)化編碼體系及剖分索引組織大表,將各類空間數(shù)據(jù)有機(jī)地關(guān)聯(lián)起來,將傳統(tǒng)數(shù)據(jù)組織模型中利用坐標(biāo)或其他數(shù)據(jù)ID建立的數(shù)據(jù)與操作間K維關(guān)聯(lián)模式,轉(zhuǎn)變?yōu)椤耙云史志W(wǎng)格為參考,以網(wǎng)格編碼為紐帶”的“數(shù)據(jù)-編碼-操作”三層關(guān)聯(lián)模式;充分利用數(shù)據(jù)空間網(wǎng)格編碼二進(jìn)制、一維、整型的特點(diǎn),設(shè)計(jì)基于網(wǎng)格編碼的空間大數(shù)據(jù)搜索引擎,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的一體化高效查詢檢索,如圖3所示。
圖3 基于網(wǎng)格編碼的數(shù)據(jù)組織與檢索
剖分網(wǎng)格通過三次地球擴(kuò)展,實(shí)現(xiàn)整度、整分的四叉樹剖分,形成了一個(gè)上至地球(0級)、下至厘米級面元(32級)的較完備多尺度四叉樹網(wǎng)格。將傳統(tǒng)網(wǎng)格全球剖分的浮點(diǎn)數(shù)計(jì)算直接用2的整數(shù)倍完成,提高空間的劃分效率,并且以此設(shè)計(jì)的網(wǎng)格編碼,從度級、分級到秒級編碼的方式,與傳統(tǒng)經(jīng)緯度的記錄方式具有極高的互換性(經(jīng)緯度的二進(jìn)制表達(dá)就是剖分的網(wǎng)格編碼),較傳統(tǒng)全球網(wǎng)格的空間關(guān)系運(yùn)算需要利用浮點(diǎn)計(jì)算和多邊形關(guān)系判斷等過程,這樣的設(shè)計(jì)極大地提高了空間關(guān)系與位置索引的效率。
時(shí)間離散編碼:把時(shí)間離散化為不同長短的時(shí)間區(qū)間(片段),并賦予唯一的二進(jìn)制編碼,使得時(shí)間離散化為有長度的“時(shí)間段”,如圖4所示。該編碼具有多粒度、可定時(shí)、可索引、可計(jì)算、自動關(guān)聯(lián)等優(yōu)點(diǎn),構(gòu)成了大數(shù)據(jù)管理與應(yīng)用的時(shí)間離散框架。
圖4 時(shí)間離散網(wǎng)格編碼
了解目標(biāo)日?;顒右?guī)律對于目標(biāo)的檢測和持續(xù)跟蹤具有重要參考意義,目標(biāo)時(shí)空軌跡是刻畫目標(biāo)活動規(guī)律的重要信息。若對所有的目標(biāo)軌跡、軌跡上所有更新點(diǎn)進(jìn)行分析,一來會產(chǎn)生大量的分析工作,耗時(shí)較長;二來過于精細(xì)化的軌跡,反而在軌跡分析中,丟失了不同目標(biāo)之間軌跡共性特征的分析。因此為了提高分析效率,需要利用MDL(最小描述長度準(zhǔn)則)方法確定各目標(biāo)航跡的特征點(diǎn)集,既有效減少航跡點(diǎn)數(shù)目,又能保持原始航跡的精確性,使得目標(biāo)航跡數(shù)據(jù)精簡。
在軍事應(yīng)用中面臨以某一條目標(biāo)軌跡為樣本,搜索獲得與該目標(biāo)類似軌跡,尋求同一目標(biāo)歷史記錄,并提取目標(biāo)運(yùn)動規(guī)律的需求。而軌跡相似性的刻畫也面臨諸多選擇,具體如表1所示。數(shù)據(jù)分析本身的作用是提供用戶更多可供參考的信息,是一個(gè)反復(fù)迭代的過程,因此在軟件設(shè)計(jì)中需將相似性度量方法進(jìn)行綜合考慮提供用戶予以選擇確認(rèn)。
表1 軌跡相似性度量類別
異常監(jiān)測數(shù)學(xué)角度本身不難,難在軍事上對異常的定義。異常最直觀的解釋是:異常是數(shù)據(jù)中與正常行為模式不符合的模式。盡管導(dǎo)致船舶異常行為的原因有多種,但是所有的原因具有一個(gè)共同特征:對分析人員來說“感興趣”,這是船舶異常行為檢測的關(guān)鍵特征。
異常在數(shù)據(jù)層面大致分為三類:
1)點(diǎn)異常
單個(gè)數(shù)據(jù)與其他剩余數(shù)據(jù)相比被視為異常,如孤立點(diǎn)。
2)上下文異常
某個(gè)/某些數(shù)據(jù)只有在某種具體的環(huán)境下(但在另外環(huán)境下不是)才被視為異常,則稱之為上下文異常或條件異常。
3)集合異常
一個(gè)相關(guān)數(shù)據(jù)的集合與整個(gè)數(shù)據(jù)集相比被視為異常,集合內(nèi)單個(gè)數(shù)據(jù)的出現(xiàn)或許不會被視為異常,但結(jié)合起來整體就會成為異常。
從軍事應(yīng)用出發(fā),異常定義如下:
1)信號異常、航路異常
2)異常進(jìn)入
3)目標(biāo)異常聚集行為
現(xiàn)代戰(zhàn)爭作戰(zhàn)樣式靈活多變,基于各種軍事高新技術(shù)的新戰(zhàn)術(shù)層出不窮,敵方目標(biāo)的行為和意圖隨環(huán)境、時(shí)間、地點(diǎn)、對象的變化而具有多樣性和模糊性特點(diǎn),如何從復(fù)雜多變的戰(zhàn)場目標(biāo)行為中識別敵方的意圖、對意圖進(jìn)行表示是本技術(shù)所要解決的難點(diǎn)問題。
雖然意圖本身因?yàn)樽鲬?zhàn)樣式靈活多變而顯得虛無縹緲,但很多基本的作戰(zhàn)條例及步驟可能在很長一段時(shí)間內(nèi)都不會有大的改動。如美軍的作戰(zhàn)條例明確規(guī)定當(dāng)有飛機(jī)被敵方雷達(dá)鎖定以后,要施放干擾,逃避打擊;中距空戰(zhàn)的過程分為發(fā)現(xiàn)目標(biāo)、接敵和攻擊。因此用結(jié)構(gòu)比較固定的模板來表示目標(biāo)的意圖具有一定的適應(yīng)性。模板的組成要素包括:目標(biāo)主體、目標(biāo)的行動步驟及約束關(guān)系。目標(biāo)主體明確目標(biāo)的類型、數(shù)量及其他屬性;目標(biāo)行動步驟依據(jù)作戰(zhàn)條例或戰(zhàn)法規(guī)則表示目標(biāo)行動序列;約束關(guān)系定義了各個(gè)行動步驟間的時(shí)空關(guān)系。
如圖5是一個(gè)電子偵察具體的模板,作戰(zhàn)目標(biāo)顯示在模板的頂部,每一行對應(yīng)于一個(gè)編隊(duì),各編隊(duì)的行動步驟按最典型的時(shí)間順序排列在每一行上。在該模板中有執(zhí)行電子偵察的偵察機(jī)編隊(duì)、有執(zhí)行護(hù)航任務(wù)的戰(zhàn)斗機(jī)編隊(duì),通過多個(gè)編隊(duì)的協(xié)同共同完成電子偵察的作戰(zhàn)目標(biāo)。
圖5 電子偵察模板
通過對大量目標(biāo)積累的歷史行為數(shù)據(jù)進(jìn)行挖掘,分析具體意圖與典型行為序列模式的關(guān)聯(lián)關(guān)系,篩選意圖模板關(guān)鍵組成要素,建立意圖模板知識庫,為后續(xù)對目標(biāo)的意圖進(jìn)行識別提供基礎(chǔ)保障,如圖 6所示。
圖6 基于模板意圖識別挖掘模型
本文結(jié)合海情數(shù)據(jù)分析業(yè)務(wù)需求,以充分挖掘歷史數(shù)據(jù)中隱含的有價(jià)值的信息,形成目標(biāo)特征、目標(biāo)活動規(guī)律、傳感器探測能力等模板和知識為目標(biāo),提出一種分布式數(shù)據(jù)存儲與分析架構(gòu),并進(jìn)行了軟件功能分解,提出了需進(jìn)一步解決的關(guān)鍵技術(shù)及技術(shù)要點(diǎn)。該架構(gòu)以異構(gòu)數(shù)據(jù)高效檢索為基礎(chǔ),從目標(biāo)的活動規(guī)律分析以及行為要素解構(gòu)出發(fā),逐步挖掘目標(biāo)間以及行為間的關(guān)系,迭代形成目標(biāo)戰(zhàn)術(shù)知識模板,以進(jìn)一步獲取目標(biāo)意圖,輔助值班值勤人員更好地分析掌握轄區(qū)內(nèi)態(tài)勢變化趨勢,并為系統(tǒng)形成目標(biāo)智能情報(bào)處理能力提供支撐。
參考文獻(xiàn):
[1]雷錕,王勁松,陽名喜. 大數(shù)據(jù)在信息作戰(zhàn)指揮決策中的運(yùn)用 [J]. 指揮控制與仿真,2016,37(3):24-27.
[2]肖瀟,等.基于AIS信息的船舶軌跡聚類模型及應(yīng)用[J].中國航海,2015,38(2):82-86.
[3]胡曉峰,郭圣明,賀筱媛. 指揮信息系統(tǒng)的智能化挑戰(zhàn) [J]. 指揮信息系統(tǒng)與技術(shù),2016,7(3):1-7.
[4]Mehmed Kantardzic.數(shù)據(jù)挖掘——概念、模型、方法和算法[M]. 閃四清,陳茵,程雁,等譯.北京:清華大學(xué)出版社,2004.
[5]翟巖龍,等.基于Hadoop的高性能海量數(shù)據(jù)處理平臺研究[J].計(jì)算機(jī)科學(xué),2013,40(3):100-103.
[6]房俊,李冬,郭會云,等. 面向海量交通數(shù)據(jù)的HBase時(shí)空索引[J].計(jì)算機(jī)應(yīng)用,2017,37(2):311-315.