●鄭廷 張?jiān)茲?文
基于領(lǐng)域本體的數(shù)據(jù)挖掘技術(shù)在賄賂犯罪偵查中的應(yīng)用
●鄭廷*張?jiān)茲?/文
針對(duì)目前職務(wù)犯罪中日益增長(zhǎng)的賄賂犯罪涉案人員關(guān)系復(fù)雜的特點(diǎn),在傳統(tǒng)偵查方法的基礎(chǔ)上,可以嘗試?yán)妙I(lǐng)域本體概念建立賄賂犯罪案件的專業(yè)知識(shí)模型,并根據(jù)該模型分析計(jì)算賄賂犯罪案件的資料和電子信息,利用數(shù)據(jù)挖掘技術(shù)關(guān)聯(lián)關(guān)系算法從犯罪嫌疑人的社會(huì)關(guān)系人群中篩選出案件相關(guān)人,從而為獲取新的案件線索與突破案件提供輔助性幫助。
領(lǐng)域本體數(shù)據(jù)挖掘賄賂犯罪偵查
數(shù)據(jù)挖掘,又稱為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中的信息的過(guò)程。通俗的說(shuō),數(shù)據(jù)挖掘技術(shù)就像采礦,從大量的礦石中提煉出有用的資源。數(shù)據(jù)挖掘技術(shù)目前主要應(yīng)用于以下幾個(gè)方面:(1)分類:將數(shù)據(jù)映射到幾個(gè)已經(jīng)確定好的類別中去;(2)聚類:又稱無(wú)指導(dǎo)的學(xué)習(xí),即在沒(méi)有預(yù)先定義類別的前提下,將屬性相似的數(shù)據(jù)聚集于一起;(3)關(guān)聯(lián)規(guī)則:揭示數(shù)據(jù)之間的隱藏的關(guān)系;(4)時(shí)序模式:用當(dāng)前所有的數(shù)據(jù)預(yù)測(cè)未來(lái)的趨勢(shì);(5)偏差模式:發(fā)現(xiàn)與正常情況不同的異變,以提前預(yù)警。在公安機(jī)關(guān)刑事犯罪偵查中,數(shù)據(jù)挖掘也已經(jīng)發(fā)揮著重要作用,利用對(duì)類似犯罪記錄數(shù)據(jù)的分析獲取相似類型刑事犯罪的特征規(guī)律,已成為確定偵查工作方向的重要借鑒與依據(jù)。
領(lǐng)域本體則指某一概念系統(tǒng)所蘊(yùn)涵的語(yǔ)義結(jié)構(gòu),是對(duì)某一事實(shí)結(jié)構(gòu)的一組非正式的約束規(guī)則。它可以理解和/或表達(dá)為一組概念(如實(shí)體、屬性、過(guò)程)及其定義和相互關(guān)系??偟膩?lái)說(shuō),構(gòu)造本體的目的是為了實(shí)現(xiàn)某種程度的知識(shí)共享和重用,主要有以下兩方面:(1)本體的分析澄清了領(lǐng)域知識(shí)的結(jié)構(gòu),從而為知識(shí)表示打好基礎(chǔ)。本體可以重用,從而避免重復(fù)的領(lǐng)域知識(shí)分析。(2)統(tǒng)一的術(shù)語(yǔ)和概念使知識(shí)共享成為可能。目前常見的領(lǐng)域本體構(gòu)造由五個(gè)基本建模元語(yǔ):類、關(guān)系、函數(shù)、公理和實(shí)例。
基于領(lǐng)域本體的數(shù)據(jù)挖掘技術(shù)對(duì)于賄賂案件偵查具有重要價(jià)值。賄賂犯罪案件的偵查重點(diǎn)往往集中在對(duì)以犯罪嫌疑人為中心的有直接或間接關(guān)系的人物群體的偵查訊問(wèn)。那么如何從犯罪嫌疑人龐大的人際關(guān)系網(wǎng)絡(luò)中,篩選甄別出與案件有關(guān)聯(lián)的人群呢?這就需要分析犯罪嫌疑人的社交人群獲取個(gè)人信息,再判斷其是否與案件有關(guān)聯(lián)關(guān)系。而隨著社會(huì)與科技的進(jìn)步以及信息化產(chǎn)品在日常生活中的廣泛應(yīng)用,犯罪嫌疑人為了隱藏罪證、逃避法律制裁,通過(guò)手機(jī)、網(wǎng)絡(luò)等工具,采用網(wǎng)絡(luò)匿名、間接接觸等聯(lián)系方式,使其犯罪手法亦愈發(fā)隱蔽,犯罪過(guò)程更加復(fù)雜。各類通訊工具以及互聯(lián)網(wǎng)的廣泛應(yīng)用,使得人們的社會(huì)行為軌跡可以通過(guò)留存在手機(jī)、計(jì)算機(jī)、移動(dòng)存儲(chǔ),互聯(lián)網(wǎng)絡(luò)、轉(zhuǎn)賬記錄、消費(fèi)記錄、出行記錄等的數(shù)據(jù)記錄進(jìn)行分析而得以還原,從而有助于偵查人員獲取與犯罪嫌疑人有賄賂關(guān)系的人員群體信息。
數(shù)據(jù)挖掘技術(shù)通常需要有信息收集、數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┻^(guò)程和知識(shí)表示等步驟,是一個(gè)反復(fù)循環(huán)的過(guò)程,每一個(gè)步驟如果沒(méi)有達(dá)到預(yù)期目標(biāo),都需要回到前面的步驟,重新調(diào)整并執(zhí)行。根據(jù)數(shù)據(jù)挖掘的步驟,賄賂案件犯罪嫌疑人關(guān)系人群的篩選過(guò)程可分為以下流程:
(一)賄賂犯罪專業(yè)知識(shí)庫(kù)的建立
此過(guò)程可以分為兩個(gè)階段同時(shí)進(jìn)行。第一階段,利用以往的賄賂案件卷宗資料進(jìn)行數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則計(jì)算,發(fā)現(xiàn)潛在的隱藏關(guān)聯(lián)規(guī)則,作為訓(xùn)練該類案件知識(shí)庫(kù)的素材。比如,通過(guò)分析以往賄賂案件資料可以發(fā)現(xiàn),在100件賄賂犯罪案件中,70件案件中犯罪嫌疑人為職能部門領(lǐng)導(dǎo),而這70件案件中又有30件案件中犯罪嫌疑人的直系親屬參與賄賂犯罪過(guò)程,即部門領(lǐng)導(dǎo)的直系親屬有案件關(guān)聯(lián)的支持度為30/100=0.3,可信度為0.3/0.7=0.43。因此,一方面可以賄賂犯罪罪犯與其他案件相關(guān)人資料卷中出現(xiàn)詞頻較高的具有實(shí)際意義的詞匯作為關(guān)鍵字,設(shè)為領(lǐng)域本體建設(shè)的參考元素節(jié)點(diǎn);另一方面,分析案件統(tǒng)計(jì)數(shù)據(jù),發(fā)掘其中的潛在關(guān)聯(lián)關(guān)系,并選取其中支持度與可信度均較高的部分作為建立領(lǐng)域本體中元素節(jié)點(diǎn)間的關(guān)聯(lián)關(guān)系的參考,并可以將這些關(guān)聯(lián)關(guān)系元素出現(xiàn)的頻率作為該元素的一個(gè)屬性值,用于之后的關(guān)聯(lián)度計(jì)算。
第二階段,基于領(lǐng)域本體的概念,利用第一階段獲取的庫(kù)以及關(guān)聯(lián)規(guī)則集合,建立專業(yè)知識(shí)模型。所謂專業(yè)知識(shí)模型,也可以看作是對(duì)案件相關(guān)人的特征模型畫像,即根據(jù)已有相同類型案件資料,如訊問(wèn)口供、案情內(nèi)容等,通過(guò)中文語(yǔ)義分詞、關(guān)聯(lián)度與權(quán)值的計(jì)算以及從詞庫(kù)中選取的作為特征模型節(jié)點(diǎn)元素的
,將這些元素通過(guò)一定關(guān)聯(lián)關(guān)系聯(lián)系在一起,從而形成的特征知識(shí)庫(kù)模型。之所采用領(lǐng)域本體作為知識(shí)庫(kù)的存在形式,主要是利用領(lǐng)域本體中元素之間的語(yǔ)義關(guān)系,通過(guò)建立元素節(jié)點(diǎn)間的語(yǔ)義關(guān)聯(lián),一方面可以最大限度地避免因?yàn)橥x詞或近義詞而導(dǎo)致遺漏
,另一方面還可以在兩個(gè)沒(méi)有直接關(guān)聯(lián)的
之間尋找到間接關(guān)聯(lián)關(guān)系,從而最大程度地挖掘文本資料的案件相關(guān)信息。這種領(lǐng)域本體模型的建立可以利用本體編輯工具,如斯坦福大學(xué)的protege程序。它提供了本體概念類關(guān)系、屬性和實(shí)例的構(gòu)建,并可以轉(zhuǎn)化XML、RDF(S)、OWL等多種格式文件。下文以建立簡(jiǎn)單的領(lǐng)域本體模型作為示例。
從上圖可以看出,本體的元素節(jié)點(diǎn)間主要存在三種關(guān)聯(lián)形式,即is kind of、is part of、is attribute of。其中,is kind of對(duì)照以protege創(chuàng)建的知識(shí)本體中的父子類關(guān)系;is attribute of對(duì)應(yīng)屬性關(guān)系類,即可以將本體元素間的關(guān)系對(duì)應(yīng)為三元組的格式(subject,relation,object),比如“企業(yè),子類,國(guó)企”、“企業(yè),子類,私企”、“單位,子類,機(jī)關(guān)”、“投資方,投資,融資方”、“行賄人,行賄,受賄人”、“社會(huì)關(guān)系,子類,朋友”等。因此該領(lǐng)域本體的存儲(chǔ)方式可以通過(guò)JENA對(duì)本體的RDF三元組讀取,并以關(guān)系數(shù)據(jù)庫(kù)的形式進(jìn)行存儲(chǔ),分別以RDF三元組的關(guān)系屬性作為表名新建數(shù)據(jù)表,由此獲得的一系列數(shù)據(jù)表就是能夠記錄領(lǐng)域本體各元素節(jié)點(diǎn)間關(guān)系特征的數(shù)據(jù)表。其存儲(chǔ)結(jié)構(gòu)示例如下:
(二)偵查案件相關(guān)人關(guān)聯(lián)度的計(jì)算
第一,信息收集。此階段主要為關(guān)系人Ri的個(gè)人信息數(shù)據(jù)以及與犯罪嫌疑人關(guān)聯(lián)關(guān)系信息的收集工作,即可以采用技術(shù)手段,對(duì)犯罪嫌疑人乃至其聯(lián)系人的通信與網(wǎng)絡(luò)終端進(jìn)行電子證據(jù)取證,獲取信息、通話錄音記錄(利用文字記錄)、聊天記錄、郵件等相關(guān)數(shù)據(jù),也可以收集包括受賄人、行賄人以及證人的初步訊問(wèn)筆錄等傳統(tǒng)的案件資料。將這些文本資料分類分別存儲(chǔ)于不同的文件目錄中,用作下一步分析檢索使用。
第二,信息數(shù)據(jù)的結(jié)構(gòu)化處理。此過(guò)程即將在上一階段獲得的信息數(shù)據(jù)進(jìn)行清理篩選,從中獲取與案件相關(guān)的信息,是將非結(jié)構(gòu)化的文字資料轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù)信息的過(guò)程。該過(guò)程可以通過(guò)多種方式進(jìn)行,如可以采取用戶界面的形式,人工判讀相關(guān)資料信息,通過(guò)填寫表單而將文本中的信息轉(zhuǎn)換為結(jié)構(gòu)化存儲(chǔ),也可以利用中文語(yǔ)義分詞工具,首先將與每個(gè)關(guān)系人對(duì)應(yīng)的資料信息分別處理為關(guān)鍵詞條,將郵件、短信、聊天記錄、通話記錄(文字抄錄)等文本信息通過(guò)中文分詞工具,摒除副詞、介詞、符號(hào)、數(shù)字等不具備主要含義的詞匯,根據(jù)上下文的語(yǔ)義關(guān)系,利用語(yǔ)義分析工具Chinese Semantic Parse,進(jìn)行語(yǔ)義標(biāo)注與語(yǔ)義的元數(shù)據(jù)抽取,將文本中的語(yǔ)句轉(zhuǎn)化為RDF三元組格式。例如,對(duì)于語(yǔ)句“張三是李四的同學(xué)”、“A公司的企業(yè)法人是李四”、“A公司投資B公司”等,該工具可以依次解析為<張三,同學(xué),李四>、、。由于姓名、公司名稱等具體名詞信息在原有的領(lǐng)域本體中并無(wú)元素節(jié)點(diǎn)存在,可以看作是某一類的具體實(shí)例,所以必須將這些實(shí)例加入到本體對(duì)應(yīng)的類元素的節(jié)點(diǎn)中,即將通過(guò)語(yǔ)義分析檢索獲取的三元詞組,加入到對(duì)應(yīng)的關(guān)系數(shù)據(jù)表中。
第三,相關(guān)人案件關(guān)聯(lián)度權(quán)值的計(jì)算。當(dāng)犯罪嫌疑人關(guān)系人的相關(guān)資料被語(yǔ)義分析檢索完成后,關(guān)系數(shù)據(jù)表也同時(shí)被導(dǎo)入完成。此時(shí)可以發(fā)現(xiàn),關(guān)系數(shù)據(jù)庫(kù)已經(jīng)形成一個(gè)網(wǎng)狀的關(guān)系圖,關(guān)系人王X與犯罪嫌疑人李X兩個(gè)節(jié)點(diǎn)之間存在1至N條連通路徑。如下圖:
這些連通路徑即是王X與李X的關(guān)聯(lián)關(guān)系。比如,對(duì)于第i條路徑(李X-領(lǐng)導(dǎo)-A工程-C公司-B公司-法人-王X),可以根據(jù)建立本體時(shí)所賦予的這些實(shí)例所述的類的出現(xiàn)頻率屬性,作為計(jì)算這一關(guān)聯(lián)關(guān)系規(guī)則路徑的支持度與可信度的參數(shù),分別記作SUBri與CONri;將通過(guò)犯罪嫌疑人與其關(guān)系人的所有關(guān)聯(lián)路徑的支持度與可信度,即可以計(jì)算出兩者的關(guān)聯(lián)度。關(guān)聯(lián)度的值越高,可以認(rèn)為兩者關(guān)系更加緊密,與該案件的相關(guān)度越高。
第四,關(guān)聯(lián)度閾值的確定與案件相關(guān)聯(lián)系人的篩選。閾值的確定可以通過(guò)本文介紹的方法對(duì)案件相關(guān)人進(jìn)行計(jì)算分析獲得的結(jié)果與實(shí)際辦案過(guò)程的結(jié)果相對(duì)比,也可以通過(guò)偵辦人員根據(jù)偵查過(guò)程中辦案力量以及案件偵破環(huán)節(jié)等實(shí)際情況,自行設(shè)定調(diào)節(jié),從而獲得不同關(guān)聯(lián)程度范圍的相關(guān)人名單。
(三)案件偵結(jié)后對(duì)偵查輔助系統(tǒng)作用程度的評(píng)估
在數(shù)據(jù)挖掘中,專業(yè)知識(shí)庫(kù)的建立往往是一個(gè)循環(huán)往復(fù)的過(guò)程,因此在整個(gè)案件偵結(jié)后,需要將實(shí)際確定的案件相關(guān)聯(lián)系人與通過(guò)數(shù)據(jù)挖掘篩選獲得的案件相關(guān)聯(lián)系人進(jìn)行對(duì)比分析,并將在挖掘過(guò)程中因?yàn)轭I(lǐng)域本體元素的不完善而導(dǎo)致的最終結(jié)果的遺漏加以記錄,作為領(lǐng)域本體更改補(bǔ)充的依據(jù)。
*安徽省淮南市人民檢察院[232001]