許 清
(江蘇省司法警官高等職業(yè)學(xué)校,江蘇 鎮(zhèn)江 212002)
司法部《全面深化司法行政改革綱要(2018—2022年)》目標(biāo)指出,司法部將深化監(jiān)獄體制和機(jī)制改革,建設(shè)“重新犯罪大數(shù)據(jù)監(jiān)測分析平臺”。由此觀之,隨著數(shù)據(jù)時代的到來,運(yùn)用大數(shù)據(jù)推動司法行政系統(tǒng)的履職能力的提升已成為必然趨勢。
實(shí)證法律研究發(fā)展至今,國內(nèi)研究者大多還不能科學(xué)、熟練地運(yùn)用數(shù)理統(tǒng)計(jì)等分析手段與方法對問題展開統(tǒng)計(jì)學(xué)意義上的定量分析[1]。目前,研究者大多傾向于收集特定范圍內(nèi)的小規(guī)模數(shù)據(jù)作為研究對象,同時以基礎(chǔ)的平均數(shù)、方差等為研究工具,對數(shù)據(jù)信息的使用停留在描述、解釋階段,結(jié)合經(jīng)濟(jì)學(xué)、社會學(xué)等學(xué)科進(jìn)行交叉研究等成果較為缺乏。
近年來,以裁判文書網(wǎng)為主的司法公開平臺的建設(shè),將進(jìn)一步推進(jìn)實(shí)證法律研究的發(fā)展。大數(shù)據(jù)的可獲得性豐富了實(shí)證研究的資料來源[2],通過結(jié)合計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等技術(shù),研究者可以獲得更為客觀、角度更加多維的數(shù)據(jù)導(dǎo)向信息[3]?;诖吮尘?,本文借助裁判文書網(wǎng)數(shù)據(jù),抓取重新犯罪者的基本特征,探索基于數(shù)據(jù)分析技術(shù)的實(shí)證法律研究途徑。
截至文章撰寫日期,裁判文書網(wǎng)刑事文書總量為9987409篇。本文根據(jù)研究需要,根據(jù):江蘇省、中級人民法院、刑事案件、判決書、前科等關(guān)鍵詞,篩選出其中1511份判決書。利用Python3.8.3進(jìn)行數(shù)據(jù)載入、清洗(包括關(guān)鍵詞抓取、缺失值處理、數(shù)據(jù)類型轉(zhuǎn)換、數(shù)據(jù)排序、異常值處理)、模型建構(gòu),最終獲取446份完整重新犯罪者數(shù)據(jù)。
本文所處理的判決書包含被告人資料、基本案情等部分案件原始信息,數(shù)據(jù)具有較強(qiáng)的可生成性,為構(gòu)建特色化研究模型提供了豐富資料。然而,由于原始數(shù)據(jù)中包含大量重復(fù)文書、空白文書,同時數(shù)據(jù)無標(biāo)簽且非結(jié)構(gòu)化,經(jīng)過清洗后出現(xiàn)了樣本大量損失的情況。
經(jīng)過預(yù)處理后,實(shí)驗(yàn)中的有效變量以及樣本量遠(yuǎn)遠(yuǎn)達(dá)不到大數(shù)據(jù)量級,但由于數(shù)據(jù)來自江蘇省各地區(qū)中級人民法院所公開的判決書文本,數(shù)據(jù)所涵蓋的地域、事件、案由等在江蘇省內(nèi)具有一定的隨機(jī)性、客觀性,可以在一定程度上區(qū)別于之前相關(guān)研究中數(shù)據(jù)收集的“小范圍”現(xiàn)象。本文擬基于此數(shù)據(jù),探索大數(shù)據(jù)視角下的重新犯罪者特征的統(tǒng)計(jì)學(xué)分析方法。
數(shù)據(jù)挖掘技術(shù),目的在于從數(shù)據(jù)中獲取研究課題所需的信息支撐,在預(yù)處理后的數(shù)據(jù)中選取相關(guān)性較大的特征變量,通過分類模型、回歸模型、神經(jīng)網(wǎng)絡(luò)和關(guān)聯(lián)規(guī)則等機(jī)器算法構(gòu)建模型,最后進(jìn)行深度挖掘。結(jié)合本文數(shù)據(jù)樣本量小、變量少等特征,本文擬對分析方法進(jìn)行創(chuàng)新。
特征選擇和特征抽取是特征工程的兩個重要方向,其中特征選擇僅對特征進(jìn)行基礎(chǔ)的排序、組合,而特征抽取通常會基于主成分分析、因子分析等結(jié)果重新建立特征之間的關(guān)系。目前的深度學(xué)習(xí)可以一定程度上縮減特征提取的工作量,但是在數(shù)據(jù)量不夠大等限制出現(xiàn)時,特征構(gòu)造的有效性一定程度上決定了模型的效率。
在樣本量與變量數(shù)均較小的情況下,可以通過反向特征工程法提高特征構(gòu)造的有效性。反向特征工程中,首先根據(jù)研究目標(biāo)構(gòu)建模擬預(yù)測變量,然后利用相關(guān)系數(shù)法、方差選擇法、卡方檢驗(yàn)、互信息法等方法構(gòu)造變量,利用所構(gòu)造的變量對模擬預(yù)測變量進(jìn)行預(yù)測,最后根據(jù)預(yù)測結(jié)果篩選變量。
例如在本文實(shí)驗(yàn)中,研究目的是描述重新犯罪者的特征。判決書數(shù)據(jù)中可獲取到的被告人信息包括姓名、性別、出生年月、文化水平、住所、前科情況等信息,本文將重新犯罪者的前科次數(shù)作為模擬預(yù)測變量,構(gòu)造兩次犯罪間隔平均時長、首次犯罪年齡、平均刑期等變量,利用SPSS25進(jìn)行多層感知器神經(jīng)網(wǎng)絡(luò)模型預(yù)測前科次數(shù),最終選取由最優(yōu)預(yù)測結(jié)果所對應(yīng)的特征變量:兩次犯罪間隔平均時長、首次犯罪年齡。
小數(shù)據(jù)時代,我們?yōu)榱藴p少樣本異常、錯誤等狀況的出現(xiàn),通常對數(shù)據(jù)質(zhì)量要求較高。為了獲得擬合研究目的的樣本,數(shù)據(jù)預(yù)處理代價增大,大量數(shù)據(jù)清洗算法和模型層出不窮,但抽樣數(shù)據(jù)在經(jīng)歷了極致清洗后,所得到的結(jié)論很可能已不符合客觀事實(shí)。
從同類研究與本文中所選用的數(shù)據(jù)差別來看,大數(shù)據(jù)時代的分析對象,從根據(jù)研究目的小范圍抽樣得到的樣本數(shù)據(jù)變?yōu)閿?shù)據(jù)庫隨機(jī)抽取的結(jié)果,數(shù)據(jù)從抽樣變?yōu)槿珮?,?shù)據(jù)中的缺失、異常等現(xiàn)象被保留至分析階段。通過提高數(shù)據(jù)采集、存儲、分析、呈現(xiàn)等技術(shù)水平,將全樣數(shù)據(jù)所展現(xiàn)的客觀信息挖掘出來,在這樣的思維下,可以允許數(shù)據(jù)展現(xiàn)出“不尋?!笔聦?shí)。
小數(shù)據(jù)時代,數(shù)據(jù)分析的過程中人們更愿意相信因果關(guān)系。但從生活中的“黑天鵝事件”和許多小概率事件的發(fā)生發(fā)現(xiàn),因果關(guān)系非常脆弱,一旦全樣數(shù)據(jù)中的“反例”出現(xiàn),因果關(guān)系就會被推翻。大數(shù)據(jù)時代,機(jī)器學(xué)習(xí)“隱藏層”等數(shù)據(jù)“黑箱”的出現(xiàn),意味著因果關(guān)系幾乎不可能被解釋清楚,而相關(guān)關(guān)系等分析角度將變成一種可嘗試的思路。
本文依據(jù)裁判文書網(wǎng)數(shù)據(jù),經(jīng)過載入、清洗等預(yù)處理過程,構(gòu)建分析模型,從446份樣本數(shù)據(jù)中獲取如下分析結(jié)果。
本文根據(jù)原始數(shù)據(jù)結(jié)構(gòu),構(gòu)建年齡相關(guān)特征進(jìn)行進(jìn)一步分析,包括:重新犯罪者年齡、首次犯罪年齡、重新犯罪間隔時間等特征。經(jīng)交叉分析與多元Logistic回歸分析,分析結(jié)果顯示重新犯罪者年齡分布均勻,不存在明顯的青少年偏多現(xiàn)象,同時首次犯罪年齡大者前科次數(shù)較少且所犯罪行偏重。
為了進(jìn)一步從數(shù)據(jù)中獲取重新犯罪者的更多特征信息,本文構(gòu)建重新犯罪者最近一次被判處的刑罰、重新犯罪者幾次犯罪時間間隔等特征數(shù)據(jù),構(gòu)建重新犯罪者畫像。根據(jù)統(tǒng)計(jì)結(jié)果,重新犯罪者的犯罪行為時間間隔分布均勻(圖1),數(shù)據(jù)并未顯示出重新犯罪行為集中出現(xiàn)在刑滿釋放后5年內(nèi)的現(xiàn)象。
圖1 重新犯罪時間間隔情況統(tǒng)計(jì)
社會危害性、刑事違法性、應(yīng)受刑罰性是犯罪的三個基本特征,社會危害性的大小是正確區(qū)分罪與非罪、決定量刑輕重、是否給予刑事處罰的重要標(biāo)準(zhǔn)[4]。本文根據(jù)重新犯罪者最近一次被判處的刑罰輕重判斷重新犯罪者的社會危害性,分析結(jié)果顯示,重新犯罪社會危害性與相關(guān)性不顯著,即社會危害性不會明顯隨著前科次數(shù)的增加而產(chǎn)生關(guān)聯(lián)變動。
綜上所述,通過對裁判文書網(wǎng)數(shù)據(jù)的分析,不難發(fā)現(xiàn),以司法大數(shù)據(jù)為基礎(chǔ)對重新犯罪的實(shí)證研究相較于以往的小樣本分析具有更為巨大的潛力空間,數(shù)據(jù)規(guī)模的變化使得例如異?,F(xiàn)象、稀有事件的研究成為可能。未來,隨著研究工具的進(jìn)步,數(shù)據(jù)中尚未呈現(xiàn)出的隱藏規(guī)律將會推動法律實(shí)證分析新理論的產(chǎn)生,數(shù)據(jù)背后的價值將會造福于社會發(fā)展。