柳偉新,高潔
(中國人民公安大學信息技術(shù)與網(wǎng)絡(luò)安全學院,北京 100038)
進入21世紀,我國經(jīng)濟社會高速發(fā)展的同時,出現(xiàn)各種社會矛盾和不穩(wěn)定因素。爆炸犯罪活動以其爆炸結(jié)果危害大、社會影響惡劣、作案風險小的特點,越來越成為犯罪分子實施犯罪的手段。同時,作為爆炸物的炸藥或化學試劑,相比于槍支更易獲得,使得自制炸藥成為可能。相比于其他暴力行為,爆炸更易造成大量人員傷亡和財產(chǎn)損失,更易造成社會恐慌和達到對政府施壓的效果。
面對日益嚴峻的爆炸犯罪活動,防爆安檢工作得到公安部門的極大重視。其工作范圍涉及兩大方面,一是以預(yù)防爆炸犯罪活動為目的的安全檢查工作,二是關(guān)于涉爆現(xiàn)場的處置工作。其中,安全檢查工作是從源頭控制爆炸犯罪的關(guān)鍵性工作,具體來說,涉及對人身、物品、場地、車輛的安全檢查,以排除危爆物品。涉爆現(xiàn)場的處置通常指已爆現(xiàn)場的處置工作,指借助專業(yè)器材,按照規(guī)范流程對已爆現(xiàn)場進行排查搜索,發(fā)現(xiàn)危爆物并及時、準確地進行處置,有效避免發(fā)生二次爆炸。
知識圖譜作為一種表示認知世界和物理世界中信息和知識的有效載體,具有豐富的語義表達能力和靈活的結(jié)構(gòu)。防爆安檢知識圖譜的構(gòu)建工作,涵蓋了防爆安檢工作的全流程,包括防爆安檢領(lǐng)域?qū)嶓w、實體間關(guān)系、事件以及相關(guān)法律法規(guī)等。防爆安檢知識圖譜的引入,整合了防爆安檢領(lǐng)域相關(guān)知識,對于開展公安防爆安檢工作具有重要意義。
防爆安檢知識圖譜的構(gòu)建流程如圖1,分為模式層構(gòu)建和數(shù)據(jù)層構(gòu)建兩條主線[1]。模式層是知識體系的構(gòu)建,綜合分析了防爆安檢的相關(guān)業(yè)務(wù)、工作流程和涉及的法律法規(guī),引領(lǐng)整個知識圖譜的構(gòu)建。數(shù)據(jù)層是數(shù)據(jù)實例的構(gòu)建,指運用數(shù)據(jù)抽取技術(shù)從各種數(shù)據(jù)源中抽取知識。知識表示提供了一種統(tǒng)一的方式表示模式層和數(shù)據(jù)層兩個層面的知識。知識存儲及可視化是指用Neo4j圖數(shù)據(jù)庫對構(gòu)建的知識圖譜實例進行存儲及可視化查詢顯示。
圖1防爆安檢知識圖譜構(gòu)建流程
基于防爆安檢領(lǐng)域?qū)I(yè)知識和公安領(lǐng)域相關(guān)數(shù)據(jù)資源,對防爆安檢工作的整體架構(gòu)進行分析,確定防爆安檢工作的核心概念,從而形成概念體系。
模式層采用自頂向下的構(gòu)建方式,定義了實體、事件、文檔三大類,實體下分人、物、車、地四類,事件下分常規(guī)安檢事件、突發(fā)情況、爆炸物處置事件三類,文檔下分法律依據(jù)和處置措施兩類。圖2是防爆安檢的概念層級:
圖2防爆安檢的概念層級
依據(jù)定義的三大類,創(chuàng)建了四種語義關(guān)系:
(a)檢查——民警和被檢人員、物、車、場地之間的關(guān)系,指民警對其實施安全檢查。
(b)引起——被檢人員、物、車、場地和事件之間的關(guān)系,指安檢過程中,發(fā)現(xiàn)被檢人員攜帶管制刀具等違禁物品,引起常規(guī)安檢事件;發(fā)現(xiàn)被檢人員、攜帶物品、車輛、場地存在爆炸物等危爆物品,引起爆炸物處置事件;發(fā)現(xiàn)被檢人員、物品、車輛、場地出現(xiàn)突發(fā)情況時,引起突發(fā)情況處置事件。
(c)采取——事件和處置措施之間的關(guān)系,指事件的出現(xiàn)需要采取相應(yīng)的處置措施。
(d)依據(jù)——處置措施和法律法規(guī)之間的關(guān)系,指采取的措施要符合相應(yīng)的法律法規(guī)。
語義關(guān)系見圖3。
圖3防爆安檢的語義關(guān)系
關(guān)鍵實體數(shù)據(jù)屬性的定義,見表1。
表1關(guān)鍵實體的數(shù)據(jù)屬性表
依據(jù)定義的概念、概念的屬性和概念間關(guān)系,運用Protégé本體編輯軟件構(gòu)建了防爆安檢本體模型如圖4所示。
數(shù)據(jù)的有效獲取是保證知識圖譜成功構(gòu)建的關(guān)鍵,數(shù)據(jù)按其組織形式分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),本文的數(shù)據(jù)也來源于這三類數(shù)據(jù)形式。
(1)結(jié)構(gòu)化數(shù)據(jù):具有數(shù)據(jù)結(jié)構(gòu)化程度高,組織形式一致的特點。本文從網(wǎng)上獲取了《危險化學品目錄》,從公安數(shù)據(jù)庫中獲取了部分人員、車輛以及違禁品數(shù)據(jù)。
(2)半結(jié)構(gòu)化數(shù)據(jù):半結(jié)構(gòu)化數(shù)據(jù)具有一定的數(shù)據(jù)結(jié)構(gòu),其結(jié)構(gòu)化程度低于結(jié)構(gòu)化數(shù)據(jù)。本文利用網(wǎng)絡(luò)爬蟲技術(shù),通過關(guān)鍵詞檢索獲取了部分網(wǎng)絡(luò)百科數(shù)據(jù)。
圖4防爆安檢本體模型
(3)非結(jié)構(gòu)化數(shù)據(jù):即純文本數(shù)據(jù)。本文主要采用安檢與排爆領(lǐng)域?qū)I(yè)書籍、相關(guān)法律法規(guī)作為數(shù)據(jù)源。
實體是構(gòu)建知識圖譜的基石,對應(yīng)的實體抽取技術(shù)是知識圖譜構(gòu)建的關(guān)鍵技術(shù),其抽取結(jié)果的高效、準確為后續(xù)工作奠定了根基,是知識圖譜成功構(gòu)建的重要保障。本文采用神經(jīng)網(wǎng)絡(luò)模型BiLSTM+CRF(雙向長短時記憶網(wǎng)絡(luò)和條件隨機場結(jié)合)[2],其中,雙向長短時記憶網(wǎng)絡(luò)實現(xiàn)將輸入的文字序列進行特征表示,具體實現(xiàn)方式為:對于一個輸入序列(x1,x2,…,xt,…xn),BiLSTM模型通過一個正向LSTM表示輸入序列(x1,x2,…,xt,…xn)xt左邊的信息,通過一個逆向 LSTM 表示輸入序列(x1,x2,…,xt,…xn)xt右邊的信息,最后將左右兩邊的信息拼接作為最終的表示。然后將經(jīng)過BiLSTM模型處理的文字序列輸入到CRF模型[3]中,根據(jù)實體類型和BIO標簽對每個詞分類、打分,進而完成實體識別。
關(guān)系抽取采用基于特征工程的方法,通過提取具有顯著區(qū)分性的特征,將其轉(zhuǎn)化為分類器能夠識別的特征向量,進而進行關(guān)系分類,完成關(guān)系抽取[4]。例如:Lixiis the driver of BMWx5(李希是寶馬x5的駕駛?cè)耍?,實體“l(fā)ixi”依存的單詞“driver”的詞性是 NN;實體“BMWx5”依存單詞“of”的詞性是IN。其依存樹特征為:NNP-NP-S-VP-NP-PP-NP-NNP。
本文處理的知識融合主要是指實體消歧,本文采用的方法是基于上下文的相似度計算[5],通過對比實體指稱項的上下文環(huán)境和候選實體的上下文環(huán)境,從而在一定程度上比較出二者間的相似度。對于某一個待消歧的實體指稱項A,經(jīng)由詞向量模型,可向量化表示為(A)=
知識表示[6](包括模式層本體的表示和數(shù)據(jù)層實例的表示)提供了一種統(tǒng)一的方式表示模式層和數(shù)據(jù)層兩個層面的知識。其采用語義網(wǎng)中知識表示方法,包括XML、RDF、RDFs、OWL等。具體體現(xiàn)在知識用統(tǒng)一的三元組來表示,三元組中的實體表現(xiàn)為知識圖譜中的節(jié)點,實體間關(guān)系在圖譜中用節(jié)點之間的邊來表示,以此來存儲現(xiàn)實世界中的知識。本文采用OWL(網(wǎng)絡(luò)本體語言)作為知識表示語言。
OWL以rdfs:subClassOf表示類別的上下位關(guān)系,例如為“實體”類定義“人”子類,OWL語言表示如下:
以owl:ObjectProperty表示類別間語義關(guān)系,以rdfs:domain表示該關(guān)系的定義域,以rdfs:range表示該關(guān)系的值域。例如以語義關(guān)系“引起”為例,OWL語言表示如下:
知識圖譜的存儲結(jié)構(gòu)是基于節(jié)點和邊的結(jié)構(gòu),本文選用查詢語言更加完善的圖數(shù)據(jù)庫Neo4j對知識進行存儲。Neo4j采用表現(xiàn)能力強,查詢效率高的Cypher語言。例如創(chuàng)建部分節(jié)點如下:
CREATE(李希:Person{姓名:"李希",性別:"男",出生日期:"
1984.6",身份證號:5312});
CREATE(劉倩:Person{姓名:”劉倩”,性別:”女”});
CREATE(寶馬:Car{品牌:”寶馬”,車牌:”5631”});
創(chuàng)建人與人、人與物的部分代碼如下:
CREATE(李希)-[:配偶]->(劉倩);
CREATE(李希)-[:駕駛]->(寶馬);
對人物“李?!边M行檢索,對應(yīng)的查詢語言為:
Match(p:人物{姓名:”李?!皚)
Return p;
查詢結(jié)果如圖5所示。通過對人物“李?!暗牟樵?,可以獲得其屬性信息(性別、身份證號)、駕駛車輛信息及其配偶信息。因其攜帶雷管而引發(fā)治安管理處罰事件,處置措施為對雷管進行沒收,對其本人處以拘留,所依照的法律為治安管理處罰法第30條。通過這些關(guān)系的呈現(xiàn),為執(zhí)法人員提供了明晰的執(zhí)法指導(dǎo),有利于執(zhí)法人員準確高效地進行處置,提高工作戰(zhàn)斗力。
安檢防爆主要研究對安檢對象可能存在的危險排查和發(fā)現(xiàn)爆炸物等危險物品的處置,實現(xiàn)對特定場所的安全控制和存在危險的排除。而知識圖譜在安檢防爆中的運用體現(xiàn)了知識的有效組織和語義關(guān)聯(lián),相比于公安現(xiàn)有的關(guān)系型數(shù)據(jù)庫,具有更高效的操作性,更好地適用于公安防爆安檢工作。
(1)相關(guān)專業(yè)性人員培訓(xùn)
因知識圖譜中涵蓋了防爆安檢工作中全流程的知識,對于違禁物品的全面涵蓋、處置措施的明確規(guī)定、法律法規(guī)的準確規(guī)范,可為專業(yè)人員提供各環(huán)節(jié)的科學指導(dǎo),對于防爆安檢工作有了全面、科學、準確的認識。借由知識圖譜對相關(guān)人員進行專業(yè)的培訓(xùn),對于其日后開展相關(guān)工作具有重要的指導(dǎo)價值。
(2)智能機器人應(yīng)用模式
在防爆安檢工作中,知識圖譜作為機器人的智慧大腦,可實現(xiàn)人員信息識別、車輛信息識別、物品信息識別以及提供事件處置流程等。通過機器人的人臉識別模式或者證件核查篩選出重點人員,對警務(wù)人員發(fā)出警示。通過在道口不間斷檢測,通過高清攝像頭對車輛車牌號、車型、車標等進行識別,將獲得的數(shù)據(jù)與公安車輛數(shù)據(jù)庫中的數(shù)據(jù)進行比對,發(fā)現(xiàn)被盜搶或套牌、假牌、肇事逃逸車輛的情況予以上報。檢查卡口人員和道口車輛攜帶的物品,發(fā)現(xiàn)違禁物品時及時上報。知識圖譜構(gòu)建中,配置了大量的處置措施和相關(guān)法律依據(jù),為警務(wù)人員提供了準確高效的指導(dǎo)。
圖5防爆安檢知識圖譜
本文通過構(gòu)建防爆安檢知識圖譜,將防爆安檢領(lǐng)域相關(guān)知識關(guān)聯(lián)成一個“語義網(wǎng)絡(luò)”,為警務(wù)工作提供基礎(chǔ)數(shù)據(jù)支撐,在一定程度上提升了公安防爆安檢工作智能化水平,提高了公安機關(guān)實戰(zhàn)能力。作為知識圖譜在防爆安檢領(lǐng)域的初步探索,本文也存在一些不足,一些實體間關(guān)系的構(gòu)建也不夠詳盡,希望在以后的工作中對其進行完善。同時,隨著知識圖譜在公安領(lǐng)域的深入發(fā)展,其對于公安工作的價值必將日益凸顯。