国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于核密度估計(jì)的泥土物證分類方法

2020-06-06 02:27楊瑞琴郭洪玲
科學(xué)技術(shù)與工程 2020年12期
關(guān)鍵詞:密度估計(jì)概率密度函數(shù)物證

王 黎, 楊瑞琴*, 郭洪玲

(1.中國(guó)人民公安大學(xué)刑事科學(xué)技術(shù)學(xué)院,北京 100038;2.公安部物證鑒定中心,北京 100038)

泥土物證是一種常見的微量物證,常附著于現(xiàn)場(chǎng)不同物體以及嫌疑人身上。泥土檢驗(yàn)的目的是提取泥土物證中包含的各類理化信息并由此將嫌疑人與案件及案件現(xiàn)場(chǎng)關(guān)聯(lián)。對(duì)泥土物證的檢驗(yàn)方法已較為完善,如顏色、粒徑、有機(jī)物,元素(包括常量元素、微量元素)、微生物、植物、孢粉等[1]。如果能夠?qū)δ嗤廖镒C這種復(fù)雜體系進(jìn)行刻畫,將會(huì)在案件偵破與庭審階段提供強(qiáng)有力的支持。

元素分析是目前中國(guó)泥土物證分析中最常用的分析方法[2],該方法選取特定元素進(jìn)行元素含量的測(cè)定,依次比較各種元素含量是否有顯著差異。城市泥土樣本元素含量分布是城市樣本間比對(duì)的基礎(chǔ),前人的研究主要集中泥土元素含量的基礎(chǔ)上,對(duì)于該物證的比對(duì)問題只能給出經(jīng)驗(yàn)性的判斷,缺乏相似度計(jì)算的數(shù)理統(tǒng)計(jì)方法,即沒有建立泥土物證比對(duì)的標(biāo)準(zhǔn)[3-4]。

為給出泥土物證間的相似度大小,引入了核密度估計(jì)與似然比檢驗(yàn)。在進(jìn)行泥土元素檢驗(yàn)時(shí)需要對(duì)該元素的樣本分布進(jìn)行估計(jì),通常采用正態(tài)分布來擬合。但實(shí)驗(yàn)數(shù)據(jù)表明,僅有部分地區(qū)或者部分元素的數(shù)據(jù)結(jié)果符合正態(tài)分布,這時(shí)一些基于正態(tài)分布的假設(shè)檢驗(yàn)方法將不再適用。首先針對(duì)這一問題引入核密度估計(jì),對(duì)泥土元素?cái)?shù)據(jù)的分布統(tǒng)一進(jìn)行估計(jì),選用高斯核函數(shù)并確定最佳窗寬,得到元素分布的概率密度函數(shù)。其次利用判別分析對(duì)泥土物證進(jìn)行分類。判別分析在法庭科學(xué)領(lǐng)域的應(yīng)用已較為成熟[5-6],但判別分析需要樣本滿足正態(tài)分布,因此引入核密度估計(jì)-似然比檢驗(yàn)的方法可以在估算樣本總體分布的基礎(chǔ)上計(jì)算樣本間的相似度,通過LR(likelihood ratio)的大小判斷給出兩樣本相似假設(shè)的支持力度。

1 實(shí)驗(yàn)方法

1.1 泥土樣本采集

在城市各個(gè)區(qū)縣選取采樣點(diǎn)。在選取采樣點(diǎn)時(shí),避開渣土,建筑垃圾,道路等受外來土或其他流動(dòng)因素干擾較大的區(qū)域。在每個(gè)采樣點(diǎn)以五點(diǎn)取樣法,在每個(gè)點(diǎn)位鏟去表層土、植被、腐殖質(zhì)等,在2~3 cm深取約500 g土樣,將五份樣本混合均勻后裝袋封存并標(biāo)號(hào)。

1.2 樣品前處理

烘干:將采集到的每一份樣本裝滿培養(yǎng)皿(濕重約200 g),放在烘干箱以105 ℃條件烘干120 min。烘干后的樣本需用紙質(zhì)袋(紙質(zhì)物證袋)封存,并將其置于干燥箱或者有干燥劑(無水硅膠)的干燥皿中保存且盡快進(jìn)行后續(xù)處理。

研磨:先用20目分樣篩將碎石、植物殘?jiān)?dòng)物尸體(蚯蚓、昆蟲等)等篩除。初篩樣本采用球磨儀研磨,取烘干后的樣本約50 g置于經(jīng)酒精棉洗凈的瑪瑙桶中,并加入約20顆直徑8 mm的瑪瑙球,反復(fù)試驗(yàn)后將研磨程序設(shè)置為15 min,450 r/min。研磨后要確保樣品全部通過200目分樣篩。

1.3 樣品制備與儀器分析

實(shí)驗(yàn)采用X射線熒光法在膠圈模具(內(nèi)徑3 cm)內(nèi)裝入足量已研磨泥土樣本,置于壓片機(jī)在20 MPa壓強(qiáng)下壓片3 min,將其制成厚約2 mm的薄片,放入X射線熒光儀(ZSX100e)分析[7],采用XRF內(nèi)標(biāo)法,以X元素為內(nèi)標(biāo),測(cè)定Al、Si、Fe、K、Na、Mg、Ca、P、Mn、Ti相對(duì)百分含量。

2 數(shù)據(jù)分析

2.1 統(tǒng)計(jì)方法原理與方法

2.1.1 KS(Kolmogorov-Smirnov)檢驗(yàn)

KS檢驗(yàn),基于累積頻率分布,用于檢驗(yàn)該樣本分布是否符合某種理論分布。它假設(shè)兩者無顯著性差異,利用樣本累積頻率分布與理論分布的偏離值,來檢驗(yàn)樣本分布與理論分布是否匹配。當(dāng)KS統(tǒng)計(jì)量顯著性水平大于臨界值P=0.05時(shí),認(rèn)為該樣本符合理論分布。采用KS檢驗(yàn)?zāi)嗤翗颖驹睾渴欠穹险龖B(tài)分布。

2.1.2 核密度估計(jì)與最佳窗寬

核密度估計(jì)(kernel density estimation,KDE)是一種估計(jì)樣本總體概率密度函數(shù)的非參數(shù)估計(jì)方法,在運(yùn)用核密度方法估計(jì)元素分布的概率密度函數(shù)時(shí),重點(diǎn)在于核函數(shù)K(x)的選取和窗寬h的確定。常用核函數(shù)有均勻核、三角核、二次核、四次核、高斯核、余弦核,采用高斯核函數(shù)。在窗寬的選擇過程中指標(biāo)積分均方誤差(mean integrated squared error,MISE),MISE是核密度估計(jì)中常用的評(píng)價(jià)標(biāo)準(zhǔn),其計(jì)算公式為

(1)

(2)

(3)

式(3)中:E為求期望運(yùn)算。其中f(x)2不受核函數(shù)K(x)選擇的影響,則可以定義代價(jià)函數(shù)Cn(h):

(4)

(5)

其中,ψh(ti,tj)為與樣本ti,tj有關(guān)的積分變量,公式為

(6)

可以利用式(6)編程計(jì)算最佳窗寬值。

2.1.3 判別分析

判別分析是一種在一些已知研究對(duì)象用某種方法已經(jīng)分成若干類的情況下,確定新的樣品的觀測(cè)數(shù)據(jù)屬于哪一類的統(tǒng)計(jì)分析方法。常見的有距離判別、Fisher判別(又稱線性判別分析,linear discriminant analysis,LDA)和貝葉斯判別。在法庭科學(xué)領(lǐng)域是常用的分類分析手段。采用Fisher判別法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類分析。

2.1.4 似然比檢驗(yàn)

似然比檢驗(yàn)是一種反映樣本靈敏度與稀有度的復(fù)合指標(biāo),是貝葉斯分析的一種特殊情況。在微量物證領(lǐng)域似然比檢驗(yàn)的應(yīng)用就是以零假設(shè)與備擇假設(shè)之比的大小來衡量物證的價(jià)值,即實(shí)驗(yàn)結(jié)果E的條件下假設(shè)H1:源于同一客體的概率P(E|H1)與假設(shè)H2:源自不同客體的概率P(E|H2)大小的比值,即:

LR=P(E|H1)/P(E|H2)

(7)

為了讓LR更直觀地為調(diào)查人員接受,Evett等[14]提出了一種LR的習(xí)慣性表述(表1)。

表1 LR所代表的含義Table 1 The implication of the LR

采用Zadora等[15]提出的LR計(jì)算方法,在對(duì)h取值改進(jìn)的基礎(chǔ)上計(jì)算LR,從而對(duì)樣本間相似度大小進(jìn)行度量。

2.2 數(shù)據(jù)正態(tài)性檢驗(yàn)

實(shí)驗(yàn)結(jié)果為福州(N=50)與呼和浩特(N=50)兩地十種元素相對(duì)百分含量數(shù)據(jù),由于各元素區(qū)間差異較大,因而統(tǒng)一對(duì)數(shù)據(jù)做對(duì)數(shù)變換。將轉(zhuǎn)換后的數(shù)據(jù)進(jìn)行KS正態(tài)性檢驗(yàn)(IBM SPSS Statistics 20),檢驗(yàn)結(jié)果如表2所示。結(jié)果表明只有少部分元素含量分布符合正態(tài)分布(Sig>0.05),因此采用核密度估計(jì)統(tǒng)一對(duì)元素含量分布進(jìn)行估計(jì),其中Mn元素?cái)?shù)據(jù)波動(dòng)極小(標(biāo)準(zhǔn)差σ=0.045 465,變異系數(shù)CV=-2.772%),擬合已無意義,不納入后續(xù)數(shù)據(jù)處理過程。

2.3 最佳窗寬算法實(shí)現(xiàn)

表2 福州、呼和浩特泥土元素含量正態(tài)性檢驗(yàn)結(jié)果Table 2 Results of normality test of soil elements in Fuzhou and Hohhot

注:*表示真實(shí)顯著水平的下限;a表示Lilliefors 顯著水平修正。

(2)編輯函數(shù):

function(c)=Cn(h,t)

(8)

(3)調(diào)用(2)中函數(shù),由小到大代入h,找到使得函數(shù)值最小的h,同時(shí)可做出函數(shù)Cn(h,t) 隨窗寬h變化的趨勢(shì)圖(圖1)。

圖1 窗寬h的代價(jià)函數(shù)(以福州市P元素為例)Fig.1 The cost function of the bandwidth h (take the Fuzhou P element as an example)

圖2 福州市P元素最佳窗寬示意Fig.2 The best bandwidth for Fuzhou P element

以福州市P元素?cái)?shù)據(jù)為例。經(jīng)上述算法可得h*=0.017[Cn(h)min=-1.155],并按h*做出P元素概率密度函數(shù)(Rversion 3.5.2)。在圖2中,在大于最佳窗寬h*處作圖存在過擬合的情況,而在小于最佳窗寬處密度函數(shù)平滑性較差,圖2(c)得到了最小代價(jià)函數(shù)條件下福州市泥土樣本P元素含量分布。事實(shí)上,可以對(duì)所有元素樣本總體分布統(tǒng)一采用KDE過程進(jìn)行概率密度函數(shù)估計(jì),便于后續(xù)分析,如表3所示。采用計(jì)算出的最佳窗寬可以得到元素分布的概率密度函數(shù)。得到的元素分布概率密度函數(shù)可以代入元素分類與比對(duì)的似然比模型,計(jì)算出樣本間似然比值的大小作為分類與比對(duì)的依據(jù)。

表3 兩地元素分布最佳窗寬Table 3 The best bandwidth of the element distribution between the two places

2.4 樣本分類

2.4.1 判別分析

對(duì)福州市和呼和浩特市兩地泥土樣本進(jìn)行費(fèi)歇爾判別分析(IBM SPSS Statistics 20),如圖3所示,判別結(jié)果表明兩地泥土樣本在市級(jí)層面有著良好的分類效果,數(shù)據(jù)總體分為了福州市與呼和浩特市兩類,但在對(duì)市區(qū)間樣本分類時(shí)效果不理想,判別率與回判率也較低(回判率63%,交叉驗(yàn)證正確率42%)。為對(duì)市區(qū)間樣本進(jìn)行合理分類,采用似然比檢驗(yàn)計(jì)算樣本間相似度大小。

圖3 福州市與呼和浩特市泥土樣本判別分析散點(diǎn)圖Fig.3 Scatter plot of the discriminant analysis of soil samples in Fuzhou and Hohhot

2.4.2 似然比檢驗(yàn)

將核密度估計(jì)得到的最佳窗寬h*取均值(h*=0.058 89) 后代入似然比檢驗(yàn),計(jì)算各市區(qū)樣本間的LR,結(jié)果如表4所示。可以看到在市級(jí)層面比較,LR極小(表4左下部分),可以近似為0,即兩市樣本間存在較大差異。在區(qū)級(jí)層面比較,LR值大小不一(表4左上與右下部分),倉(cāng)山區(qū)與臺(tái)江區(qū)間LR(LR=3 704)較大,即對(duì)兩區(qū)域樣本相似的假設(shè)有著強(qiáng)烈支持;而回民區(qū)與賽罕區(qū)2號(hào)間的LR(LR=0.000 041 04)較小,即兩區(qū)域樣本差異較大。由此,表2所示矩陣可以清晰地給出區(qū)域間樣本相似度的大小,直觀判斷兩區(qū)域泥土樣本是否相似,可作為判別分析的補(bǔ)充。

表4 福州、呼和浩特泥土樣本區(qū)域間LRTable 4 LR between the soil samples of Fuzhou and Hohhot

注:上標(biāo)1、2表示20個(gè)樣本分別在呼和浩特市賽罕區(qū)的兩個(gè)區(qū)域采集。

3 結(jié)論

在核密度估計(jì)過程中采用最小MISE準(zhǔn)則,使擬合出的概率密度函數(shù)盡可能接近原始樣本總體,是估計(jì)未知樣本分布的可靠的方法。研究結(jié)果為不符合正態(tài)分布的樣本總體提供了建立數(shù)據(jù)模型的手段,為泥土樣本元素含量數(shù)據(jù)的概率密度函數(shù)估計(jì)建立了統(tǒng)一的方法。同時(shí),針對(duì)不同層級(jí)的分類需求,初步利用判別分析與似然比檢驗(yàn)建立泥土樣本分類的方法。

猜你喜歡
密度估計(jì)概率密度函數(shù)物證
面向魚眼圖像的人群密度估計(jì)
冪分布的有效估計(jì)*
基于MATLAB 的核密度估計(jì)研究
一種基于改進(jìn)Unet的蝦苗密度估計(jì)方法
基于自適應(yīng)帶寬核密度估計(jì)的載荷外推方法研究
火災(zāi)調(diào)查中物證損壞原因及防范對(duì)策探討
物證鑒定中的物證污染問題分析
“演員中心制”戲劇始于北宋的新物證
試論物證在煙草行政處罰中的適用
已知f(x)如何求F(x)
兴化市| 右玉县| 河南省| 大理市| 中牟县| 屏边| 神农架林区| 会理县| 平顺县| 华宁县| 阿鲁科尔沁旗| 富民县| 揭西县| 安西县| 如东县| 桂阳县| 志丹县| 任丘市| 吴江市| 太仓市| 高清| 华宁县| 华安县| 固安县| 綦江县| 夏邑县| 高阳县| 商南县| 临西县| 上犹县| 皮山县| 天门市| 玉龙| 盐亭县| 黔东| 湘乡市| 汉阴县| 宁晋县| 万荣县| 太谷县| 哈密市|