李全輝,劉 丹
犯罪側(cè)寫(Criminal Profiling),又叫犯罪行為分析或犯罪心理畫像。隨著二十世紀(jì)六七十年代美國暴力犯罪的興起,美國聯(lián)邦調(diào)查局行為科學(xué)部在二十世紀(jì)七十年代提出犯罪側(cè)寫這一概念。不同的學(xué)者對(duì)犯罪側(cè)寫有不同的定義,聯(lián)邦調(diào)查局將其定義為一種偵查分析,即“根據(jù)他或她所實(shí)施的犯罪行為來鑒別犯罪人的主要人格特征和行為特征的偵查過程”[1]18-20。Brent Turvey將犯罪側(cè)寫定義為“推斷實(shí)施犯罪的行為人獨(dú)特的人格特征的過程就是犯罪側(cè)寫”[2]。李玫瑾教授對(duì)犯罪側(cè)寫的定義是“在偵查階段根據(jù)已掌握的情況對(duì)未知名的犯罪嫌疑人進(jìn)行相關(guān)的行為、動(dòng)機(jī)、心理過程以及人員心理特點(diǎn)等分析,進(jìn)而通過文字形成對(duì)犯罪嫌疑人的人物形象及心理特征群的描述”[3]。
目前,犯罪側(cè)寫已廣泛應(yīng)用于公安刑事偵查工作中,尤其是當(dāng)現(xiàn)場(chǎng)沒有直接證據(jù)指向特定的嫌疑人時(shí),犯罪側(cè)寫能為偵查決策提供重要的參考價(jià)值,其主要通過對(duì)犯罪現(xiàn)場(chǎng)進(jìn)行勘查以及調(diào)查訪問,并由經(jīng)驗(yàn)豐富的公安干警或具備相關(guān)專業(yè)知識(shí)的專家對(duì)缺乏線索的案件中的犯罪嫌疑人展開分析,以縮小偵查范圍。犯罪側(cè)寫在偵破一些重大案件時(shí)發(fā)揮了重要作用,最著名的莫過于發(fā)生在二十世紀(jì)四十年代至五十年代的“瘋狂炸彈手”案件。布魯舍爾博士根據(jù)現(xiàn)場(chǎng)特征對(duì)犯罪嫌疑人的特點(diǎn)進(jìn)行分析,甚至推測(cè)出犯罪嫌疑人喜歡穿雙排扣衣服,當(dāng)抓獲嫌疑人時(shí),的確在其家中發(fā)現(xiàn)許多雙排扣西裝。犯罪側(cè)寫的神秘性激發(fā)了諸多學(xué)者的研究興趣[1]15-17。Turco從精神分析角度展開研究,強(qiáng)調(diào)了早期依戀、精神障礙等精神分析理論內(nèi)容對(duì)于解釋殺人行為起到的重要作用,并在此基礎(chǔ)上提出了側(cè)寫的四個(gè)方面,包括:調(diào)查現(xiàn)場(chǎng)以分析犯罪人的人格、行為模式和發(fā)展經(jīng)歷;結(jié)合神經(jīng)生理學(xué)和精神病學(xué)知識(shí)進(jìn)行畫像;運(yùn)用精神分析理論分析犯罪人的早期經(jīng)歷、發(fā)展歷程和社會(huì)化過程;結(jié)合現(xiàn)場(chǎng)證據(jù)、被害人和犯罪人信息刻畫犯罪人的人口統(tǒng)計(jì)學(xué)特征[4]。Canter提出了偵查心理學(xué)(Investigative Psychology)概念,指出犯罪側(cè)寫應(yīng)該從心理學(xué)理論角度開展研究,目的在于運(yùn)用心理學(xué)理論輔助偵查活動(dòng)[5]。楊玉章教授基于實(shí)證研究提出“三定偵查法”犯罪心理畫像理論,主要包括定性質(zhì)、定范圍和定臉譜,其中定性質(zhì)是指解析犯罪動(dòng)機(jī),即根據(jù)犯罪現(xiàn)場(chǎng)、被害人、現(xiàn)場(chǎng)感知人等的分析研究確定刑事案件性質(zhì)[6]。熊立榮教授通過對(duì)犯罪人罪后行為進(jìn)行分析,拓展了犯罪心理畫像的理論內(nèi)容,這是依據(jù)心理學(xué)等原理,利用已掌握的犯罪人信息、犯罪信息及犯罪人犯罪后所處的環(huán)境,對(duì)犯罪人犯罪后可能的、具有司法價(jià)值的行為和狀況進(jìn)行分析和預(yù)測(cè)的一項(xiàng)專門工作[7]。以上為對(duì)案件進(jìn)行犯罪側(cè)寫時(shí)較為常用的方法,對(duì)刑偵案件的偵破有很大的幫助。但利用上述方法進(jìn)行犯罪側(cè)寫時(shí),主要依靠犯罪側(cè)寫師的個(gè)人素養(yǎng)、現(xiàn)場(chǎng)勘查所獲得的證據(jù)材料,以及對(duì)之前類似案件的經(jīng)驗(yàn)積累,進(jìn)而對(duì)未知案件的作案人特征進(jìn)行主觀推斷,這對(duì)犯罪側(cè)寫師的專業(yè)知識(shí)、從業(yè)經(jīng)驗(yàn)等要求較高。另外,附加的心理因素也將影響側(cè)寫結(jié)果,因此犯罪側(cè)寫的可靠性和科學(xué)性飽受爭(zhēng)議。由此,提升犯罪側(cè)寫技術(shù)的關(guān)鍵在于如何避免畫像師的主觀臆斷,如何客觀、公正地分析犯罪行為與犯罪人的心理特征、行為特征和社會(huì)特征之間的關(guān)系。
利用計(jì)算機(jī)技術(shù)并結(jié)合相關(guān)算法構(gòu)建自動(dòng)預(yù)測(cè)模型可減少畫像師在進(jìn)行案件犯罪側(cè)寫時(shí)因人為主觀因素產(chǎn)生的誤判。2005年美國杜克大學(xué)的Baumgartner針對(duì)案件犯罪側(cè)寫建立了基于貝葉斯網(wǎng)絡(luò)的預(yù)測(cè)模型,首次將貝葉斯網(wǎng)絡(luò)應(yīng)用于犯罪側(cè)寫中,該方法為犯罪側(cè)寫的研究提供了一種新的思路[8]2706。2012年,Colombini等人提出了一種基于計(jì)算機(jī)技術(shù)的數(shù)字畫像技術(shù),該技術(shù)將傳統(tǒng)犯罪心理畫像技術(shù)和智能電子設(shè)備相結(jié)合,以人機(jī)互補(bǔ)、以人為主的原則重建犯罪現(xiàn)場(chǎng),從而為犯罪側(cè)寫提供重要的參考信息[9]。
然而,犯罪側(cè)寫也存在一定的局限性,在美國曾發(fā)生過不少由于錯(cuò)誤的犯罪側(cè)寫結(jié)論而導(dǎo)致的冤假錯(cuò)案。例如在Kirk Bloodsworth的案件中,沒有找到能指引偵查方向的有價(jià)值的線索,于是偵查人員根據(jù)現(xiàn)場(chǎng)特征和被害人特征進(jìn)行側(cè)寫,根據(jù)側(cè)寫結(jié)論從眾多嫌疑人中找到了與側(cè)寫結(jié)論高度匹配的嫌疑人馬林,以至于偵查人員對(duì)馬林是兇手的側(cè)寫結(jié)論深信不疑,甚至辦理這件案子的州檢察官也認(rèn)為馬林就是殺人兇手。然而,隨著DNA技術(shù)的發(fā)展成熟,DNA檢驗(yàn)結(jié)果證明馬林是無辜的。即便DNA技術(shù)排除了馬林的嫌疑,但是由于偵查人員過分信賴犯罪側(cè)寫,導(dǎo)致他們?nèi)匀粓?jiān)信馬林就是兇手。偵查人員的主觀臆斷占據(jù)主導(dǎo)地位,而忽視了犯罪側(cè)寫與馬林并不匹配。
人為主觀因素對(duì)犯罪側(cè)寫的結(jié)果影響較大,不同的人對(duì)于經(jīng)驗(yàn)、犯罪學(xué)、心理學(xué)、現(xiàn)場(chǎng)勘查學(xué)和行為科學(xué)等知識(shí)所掌握的層次不同,對(duì)同一個(gè)案件會(huì)得出不同的側(cè)寫結(jié)論。隨機(jī)森林算法有強(qiáng)大的學(xué)習(xí)能力,具有分類準(zhǔn)確率高、抗干擾能力強(qiáng)等優(yōu)點(diǎn),目前隨機(jī)森林算法較少應(yīng)用于犯罪預(yù)測(cè)領(lǐng)域。因此,為了降低人為主觀因素對(duì)犯罪側(cè)寫結(jié)論的影響,本文對(duì)數(shù)據(jù)展開實(shí)證分析,采用隨機(jī)森林的分類算法代替人工對(duì)犯罪嫌疑人進(jìn)行側(cè)寫,通過對(duì)單作案人—單受害人的故意殺人案中犯罪現(xiàn)場(chǎng)的犯罪行為特征和被害人特征進(jìn)行建模,從已偵破的案件中獲得故意殺人案件較為典型的犯罪特征,從而推測(cè)出未偵破案件中作案人的特征。
隨機(jī)森林是一種分類算法,由Leo Breiman[10]在2001年提出,是樹預(yù)測(cè)器的組合。該算法認(rèn)為每棵樹都依賴于獨(dú)立采樣的隨機(jī)向量的值,并且對(duì)森林中所有的樹具有相同的分布。隨著森林中樹木數(shù)量的增多,森林的泛化誤差收斂到一個(gè)極限。樹分類器的泛化誤差取決于強(qiáng)度森林中的個(gè)別樹木以及它們之間的相關(guān)性。隨機(jī)森林是一種有效的預(yù)測(cè)工具,注入正確的隨機(jī)性可以使它們成為準(zhǔn)確的分類器和回歸器。單棵樹的分類能力可能很小,但在隨機(jī)產(chǎn)生大量的決策樹后,一個(gè)測(cè)試樣本可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計(jì)后選擇最可能的分類。隨機(jī)森林是機(jī)器學(xué)習(xí)中十分常用的算法,它具有簡便高效、實(shí)用性強(qiáng)、分類準(zhǔn)確率高等優(yōu)勢(shì),在醫(yī)學(xué)、經(jīng)濟(jì)學(xué)、計(jì)算機(jī)視覺等眾多應(yīng)用領(lǐng)域取得了巨大的成功[11]。隨機(jī)森林也是Bagging集成策略中最實(shí)用的算法之一,其流程如圖1所示。
圖1 隨機(jī)森林流程圖
利用MATLAB建立隨機(jī)森林犯罪側(cè)寫模型,隨機(jī)森林算法函數(shù)在MATLAB中直接調(diào)用,設(shè)置適當(dāng)參數(shù),算法模型建立后利用訓(xùn)練集訓(xùn)練模型,用測(cè)試集評(píng)估模型。本文使用精確度來評(píng)估模型的預(yù)測(cè)準(zhǔn)確率,精確度為正負(fù)樣本被正確分類的概率,其計(jì)算公式為:
其中:
P(Positive Sample)為正例的樣本數(shù)量;
N(Negative Sample)為負(fù)例的樣本數(shù)量;
TP(True Positive)為正確預(yù)測(cè)到的正例的數(shù)量;
TN(True Negative)為正確預(yù)測(cè)到的負(fù)例的數(shù)量。
目前,犯罪側(cè)寫根據(jù)調(diào)查員或法醫(yī)心理學(xué)家的解釋將犯罪現(xiàn)場(chǎng)特征和犯罪特征聯(lián)系起來。本研究尋求通過隨機(jī)森林建模方法,從已偵破的案例中有效和系統(tǒng)發(fā)現(xiàn)變量之間不明顯和有價(jià)值的模式。隨機(jī)森林可以用來提取行為模式,并深入了解哪些因素影響了這些行為。因此,當(dāng)一個(gè)新的案件被調(diào)查時(shí),由于罪犯尚未被識(shí)別,輪廓變量是未知的,觀察到的犯罪現(xiàn)場(chǎng)變量被用來推斷未知的變量是基于它們?cè)诮Y(jié)構(gòu)中的連接和相應(yīng)的數(shù)值權(quán)值,其目標(biāo)是產(chǎn)生一個(gè)更系統(tǒng)和更具經(jīng)驗(yàn)的方法,并使用由此產(chǎn)生的隨機(jī)森林模型作為一個(gè)決策工具。
基于已偵破的犯罪案件建立一個(gè)可用于計(jì)算機(jī)學(xué)習(xí)的數(shù)據(jù)集可以有效解決犯罪側(cè)寫分析過程片面化的問題。隨著計(jì)算機(jī)技術(shù)的發(fā)展,越來越多的先進(jìn)技術(shù)在公安工作中得到廣泛應(yīng)用,對(duì)刑事偵查工作產(chǎn)生了深厚的影響。隨著數(shù)據(jù)集樣本容量的不斷擴(kuò)大,犯罪側(cè)寫模型可以學(xué)習(xí)到犯罪現(xiàn)場(chǎng)行為特征、被害人特征和作案人特征之間更高維的映射關(guān)系,實(shí)現(xiàn)案情特征的串并,以達(dá)到高效推理的目的[12]。
本研究共收集了150個(gè)故意殺人案件,案件樣本來源于中國裁判文書網(wǎng)。裁判文書中包含案情簡介、作案人信息、受害人信息、犯罪現(xiàn)場(chǎng)勘查、司法鑒定以及證人證言,完全滿足本研究的數(shù)據(jù)要求。為了便于研究受害人特征、犯罪現(xiàn)場(chǎng)特征和作案人特征之間的映射關(guān)系,本文所選擇的案件均為單受害人和單作案人。
本文全面綜合各種信息分析行為證據(jù)特點(diǎn)之間的相關(guān)性,對(duì)作案人的身體特征、社會(huì)特征和心理特征等進(jìn)行綜合畫像,并結(jié)合犯罪側(cè)寫的實(shí)際情況對(duì)50個(gè)案件進(jìn)行統(tǒng)計(jì)分析,提取特征變量。
變量的選擇標(biāo)準(zhǔn)是:1.行為不容易被誤解,是明顯可觀察到的;2.行為反映在犯罪現(xiàn)場(chǎng),例如,傷害的類型;3.行為表明罪犯如何對(duì)受害者采取行動(dòng)并與之互動(dòng),例如,受害者被捆綁,或被堵住嘴,或遭受酷刑。根據(jù)上述選擇標(biāo)準(zhǔn),選取出描述可觀察犯罪現(xiàn)場(chǎng)的49個(gè)被害人變量,78個(gè)犯罪現(xiàn)場(chǎng)變量以及91個(gè)作案人變量。
對(duì)被害人的研究可以幫助我們推測(cè)出作案人對(duì)作案對(duì)象的選擇原則、作案動(dòng)機(jī)以及作案人與被害人之間的關(guān)系等信息。本文統(tǒng)計(jì)出61個(gè)被害人出現(xiàn)的特征,包括被害人的性別、年齡、婚姻、住址、職業(yè)、愛好以及感情狀態(tài)等方面的特征,通過對(duì)一些低頻率特征的剔除,最終選擇了49個(gè)被害人特征作為輸入變量。
犯罪現(xiàn)場(chǎng)勘查是刑事犯罪偵查中非常重要的一步,犯罪現(xiàn)場(chǎng)可能留有嫌疑人作案時(shí)的痕跡物證,通過對(duì)犯罪現(xiàn)場(chǎng)的分析可以重建犯罪過程,能夠有效推斷出作案人的相關(guān)特征。本文共統(tǒng)計(jì)出78個(gè)犯罪現(xiàn)場(chǎng)特征作為輸入變量,包括案發(fā)地點(diǎn)、案發(fā)時(shí)間、作案工具、工具來源、現(xiàn)場(chǎng)行為和法醫(yī)報(bào)告等。
作案人特征是本文最終需要得到的預(yù)測(cè)結(jié)果。通過對(duì)被害人和犯罪現(xiàn)場(chǎng)的分析,得到作案人特征。本文根據(jù)統(tǒng)計(jì)分析提取出91個(gè)作案人刻畫指標(biāo)用作隨機(jī)森林模型的輸出變量,包括作案人的性別、年齡、教育水平、職業(yè)、與被害人的關(guān)系、住所、作案動(dòng)機(jī)、犯罪前科、性格、愛好等。
本研究的樣本中,被害人特征方面,女性被害人占比52.7%,男性被害人占比47.3%。在所有的受害人中有85.3%是本地人,67.3%已婚,10.7%離婚;從文化程度來看,67.3%的受害人為初中以下文化程度,文化程度低;56%的犯罪現(xiàn)場(chǎng)是被害人的住所;10.7%的受害者住在犯罪現(xiàn)場(chǎng)附近;8%的受害者死于其工作場(chǎng)所。
在犯罪現(xiàn)場(chǎng)的行為特征中,58%的案件作案工具是刀具,作案工具的選擇具有隨機(jī)性,39.3%的案件作案工具為隨身攜帶至現(xiàn)場(chǎng),55.3%的案件作案工具來自現(xiàn)場(chǎng),在無預(yù)謀的案件中,作案工具選擇的隨機(jī)性較強(qiáng)。法醫(yī)報(bào)告指出,有10.7%的人死前飲酒,頭部和頸部為主要致命部位。
在作案人特征中,男性作案人占比91.3%,女性作案人占比僅8.7%,78.7%的案件是本地人作案,作案人的文化程度普遍較低,無固定職業(yè),初中及以下文化程度的作案人占比75.3%。10.7%的作案人有犯罪前科記錄,25.3%的作案人具有自殺傾向,22%的作案人有精神或情緒方面的疾病,作案時(shí)為限制刑事責(zé)任能力人。從作案人與被害人的關(guān)系可以看出,多為熟人和近親屬作案,其中熟人占26.7%,夫妻關(guān)系占29.3%,陌生人作案僅占8%。從作案動(dòng)機(jī)分析,55.3%的作案人是出于一時(shí)沖動(dòng),28.7%是因?yàn)楦星榧m紛,12%是因?yàn)榧彝ゼm紛,14%是出于報(bào)復(fù)殺人,還有8%是因?yàn)閷?duì)生活失去希望,企圖和被害人一起死亡。
根據(jù)統(tǒng)計(jì)分析提取出的49個(gè)被害人特征、78個(gè)犯罪現(xiàn)場(chǎng)特征和91個(gè)作案人特征按照固定順序匯總成“案件特征提取模板”,其中被害人特征和犯罪現(xiàn)場(chǎng)特征作為輸入變量,作案人特征作為輸出變量。所有變量均為二值化數(shù)值,模板對(duì)應(yīng)位置特征值為1,代表該特征在此案件中出現(xiàn),特征值為0,代表此特征未在此案件中出現(xiàn)。利用案件特征提取模板將案件編碼成一個(gè)一維的二值化向量,便于機(jī)器學(xué)習(xí)。
本文采用交叉驗(yàn)證學(xué)習(xí)方法。將150個(gè)樣本分成3組,每組50個(gè),當(dāng)其中兩組作為訓(xùn)練集的時(shí)候,剩下一組則作為驗(yàn)證集,重復(fù)3次。隨機(jī)森林算法在MATLAB軟件中可以直接調(diào)用,本實(shí)驗(yàn)將隨機(jī)森林樹的個(gè)數(shù)設(shè)置為100,對(duì)每一個(gè)輸出變量單獨(dú)預(yù)測(cè),共預(yù)測(cè)91次,最后統(tǒng)計(jì)預(yù)測(cè)準(zhǔn)確的作案人特征數(shù),得出單個(gè)特征預(yù)測(cè)準(zhǔn)確率。經(jīng)過計(jì)算后最終通過求均值得到88.9%的整體預(yù)測(cè)準(zhǔn)確率。通過部分特征預(yù)測(cè)結(jié)果如表1所示:
表1 部分特征預(yù)測(cè)結(jié)果
本文針對(duì)人為主觀因素對(duì)犯罪側(cè)寫帶來較大影響的問題,構(gòu)建了基于隨機(jī)森林的自動(dòng)預(yù)測(cè)模型代替人工的犯罪側(cè)寫。利用統(tǒng)計(jì)分析方法建立“案件特征提取模板”對(duì)案件特征進(jìn)行編碼,并對(duì)隨機(jī)森林犯罪側(cè)寫模型進(jìn)行訓(xùn)練,通過對(duì)“案件特征提取模板”和模型訓(xùn)練算法的更新,即可實(shí)現(xiàn)對(duì)預(yù)測(cè)精度的優(yōu)化。結(jié)果表明,本文采用的方法整體預(yù)測(cè)準(zhǔn)確率為88.9%,與Baumgartner[8]270679.0%的整體預(yù)測(cè)準(zhǔn)確率相比,利用隨機(jī)森林進(jìn)行犯罪側(cè)寫建模方法的整體預(yù)測(cè)準(zhǔn)確率有所提高,實(shí)現(xiàn)了更加精確的預(yù)測(cè)。