姜紅,付鈞澤,楊俊
(中國人民公安大學(xué),北京 100038)
隨著科技的進步和發(fā)展,鞋的種類越來越多。對于不同的場合人們會選擇不同種類的鞋,而運動鞋是日常通勤和休閑運動時首選的鞋。在各類案件現(xiàn)場中經(jīng)常會提取到運動鞋鞋底物證,通過鑒別鞋底物證可以判斷購買的人群,縮小偵查范圍[1]。常見的鞋底材料主要是聚氯乙烯(PVC)、聚氨酯(PU)、順丁橡膠(BR)和乙烯-乙酸乙烯酯共聚物(EVA),BR的彈性高并具有較高的耐磨性,EVA彈性高且緩沖性能良好,PU是可降解材料,不會污染環(huán)境[2]。目前對于運動鞋底的研究主要集中在物理性能和制造工藝等方面,對鞋底材料鑒別的研究相對較少[3-5]。在法庭科學(xué)中,姜紅等人[6]利用能量色散型X射線熒光光譜儀對橡膠鞋底樣品無機元素進行了定性和半定量分析,務(wù)瑞杰等人[7]利用掃描電鏡觀察塑料拖鞋表面形貌,X射線能譜儀檢測樣品所含元素的種類及含量,張進等人[8]利用差分拉曼光譜法對40個不同品牌和不同系列的白色運動鞋鞋底樣品進行了研究。張景順[9]利用手持式X射線熒光光譜儀(XRF)檢驗了30個鞋底樣品,獲取鞋底材料中無機填料的元素含量信息。物證的快速、準確、無損檢驗一直是法庭科學(xué)研究的重點,傅立葉變換紅外光譜法是通過對干涉圖進行傅立葉變換測定樣品的紅外光譜。和色散型紅外光譜法相比具有掃描速度快,信噪比和分辨率高等優(yōu)點,是目前檢驗有機物和分子結(jié)構(gòu)效果最好的分析方法之一[10-12]。
利用化學(xué)計量學(xué)和RBFNN模型對45個運動鞋底樣品的紅外光譜分析鑒別和精確分類。實踐中常用方法為通過比較樣品和標準物的紅外吸收峰的峰面積或者峰高比確定樣品成分,但儀器的系統(tǒng)誤差等原因,可能會導(dǎo)致其他重要的光譜信息被忽略。RBFNN是唯一可以克服局部極小值問題的前饋型神經(jīng)網(wǎng)絡(luò),并且具有訓(xùn)練簡單、收斂速度快等優(yōu)點[13]?;瘜W(xué)計量學(xué)可處理大量的紅外光譜數(shù)據(jù),因此提高了RBFNN神經(jīng)網(wǎng)絡(luò)的應(yīng)用價值,特別是對于多變量的數(shù)據(jù)處理。運動鞋底材料屬于混合物,是多維尺度樣品,不同品牌的樣品在組分上會存在不同,即樣品的變量特征不同,借助化學(xué)計量學(xué)可對變量特征的差異性進行綜合考量。本實驗通過兩步聚類對樣品分組后的結(jié)果作為參照構(gòu)建RBF神經(jīng)網(wǎng)絡(luò),訓(xùn)練出置信度較高的神經(jīng)網(wǎng)絡(luò)模型,可對未知運動鞋底物證樣品建模進行區(qū)分鑒別,為法庭科學(xué)中運動鞋底物證的快速無損鑒別提供了新思路。
不同品牌的運動鞋底樣品45個(樣品表略)。
傅立葉變換紅外光譜儀Nicolet6700(美國賽默飛世爾公司),Performer采樣器,掃描范圍為4000~400 cm-1,掃描次數(shù)為64次,分辨率為4 cm-1。
剪取面積約為0.2 cm×0.2 cm的樣品,用無水乙醇棉簽擦拭、晾干,置于Performer采樣器上,調(diào)節(jié)旋緊探頭,采集樣譜圖。隨機選取10#樣品,進行5次重復(fù)性實驗,驗證該方法的重現(xiàn)性。
在同一條件下對10#樣品的5次檢驗取得了較好的效果,5次實驗的峰數(shù)、峰位和峰強基本一致,證明該方法的重現(xiàn)性較好,可以用來檢驗運動鞋底物證。樣品紅外光譜圖,見圖1。
圖1 10#樣品重現(xiàn)性結(jié)果Fig.1 Reproducibility test results of infrared spectrum for sample 10#
通過對鞋底樣品的紅外光譜圖進行解析,運動鞋底材料的主要成分為EVA、PU、PVC和BR四種,45個樣品分可分為四類(見表1)。EVA是一種乙烯共聚物,可提高材料的緩沖性和抗震性,以15#樣品為例(見圖2)。PU是多元異氰酸酯與聚酯型多元醇或聚醚型多元醇反應(yīng)制得,以27#樣品為例(見圖3)。PVC是氯乙烯經(jīng)過游離基聚合得到的高聚物,以4#樣品為例(見圖4)。BR是1,3-丁二烯聚合而成的一種橡膠,以2#樣品為例(見圖5)。共有28個樣品是BR,其他三類樣品數(shù)小于10,可以通過比較紅外吸收峰的峰位以及相對峰高比可以進行區(qū)分。對于樣品最多的第Ⅳ類樣品,需要引入化學(xué)計量學(xué)和RBFNN建立鑒別模型。
圖2 15#樣品紅外光譜圖Fig.2 Infrared spectrum of sample 15#
圖3 27#樣品紅外光譜圖Fig.3 Infrared spectrum of sample 27#
圖4 4#樣品紅外光譜圖Fig.4 Infrared spectrum of sample 4#
圖5 2#樣品紅外光譜圖Fig.5 Infrared spectrum of sample 2#
表1 樣品分類表Tab.1 Classification results of samples
主成分分析(PCA)是一種多變量統(tǒng)計方法,在化學(xué)計量學(xué)中常用于多維數(shù)據(jù)的降維[14],經(jīng)處理后,原始數(shù)據(jù)降為16維,特征值均大于1[15],累計貢獻率達到了99.739%。主成分方差貢獻率見表2。
表2 解釋的總方差Tab.2 Total variances explaine
兩步聚類法(Two-Step Cluster Analysis)是一種執(zhí)行探索性功能分析的算法[16],可以顯示復(fù)雜數(shù)據(jù)背后的分組和分類。將3.3降維提取的16個主成分作為研究對象,聚類結(jié)果顯示第Ⅳ類樣品可聚為3組,聚類的效果達到了較好的水平(見圖6),聚類結(jié)果見表3。
表3 樣品聚類結(jié)果表Tab.3 Clustering results of samples
圖6 兩步聚類質(zhì)量Fig.6 Two-step clustering quality
判別分析是一種監(jiān)督的統(tǒng)計分析方法。依據(jù)類間距離最大和類內(nèi)距離最小的原則計算判別函數(shù)建立判別模型,依據(jù)計算所得的判別函數(shù)對樣品種類進行判別[17],可將判別分析用來檢驗3.4中兩步聚類的聚類結(jié)果。將3.4中兩步聚類的結(jié)果作為分組變量,降維后提取的16個主成分作為自變量,計算基于兩步聚類結(jié)果的Fisher判別式。根據(jù)Fisher判別函數(shù)計算樣品得分并將其劃入得分最高的組別[18]。三個組別Wilk的Lambda檢驗判別結(jié)果見表4,建立的兩個判別函數(shù)的特征值見表5。
表4 Wilk的Lambda檢驗Tab.4 Wilk’s Lambda results
表5 判別函數(shù)特征值Tab.5 Eigenvalues of discriminant functions
表4顯示在判別分析過程中共建立了兩個Fisher判別函數(shù),函數(shù)1和函數(shù)2的顯著性水平都為0,小于閾值0.05,證明這兩個判別函數(shù)判別效果顯著。由表5可知,函數(shù)1的方差百分比為63.5%,函數(shù)2的方差百分比為36.5%。方差百分比可以解釋判別函數(shù)反映的方差變異程度的大小,函數(shù)1所能解釋信息的能力大于函數(shù)2。函數(shù)1的特征值為21.284,函數(shù)2的特征值為12.257,說明函數(shù)1對于判別的貢獻度高。故將樣品在函數(shù)1上的得分作為主要判別依據(jù)。將函數(shù)1和函數(shù)2作為判別軸建立聯(lián)合分布圖,結(jié)果見圖7。
圖7顯示三組樣品在函數(shù)1和函數(shù)2組成的聯(lián)合分布圖上區(qū)分效果顯著。樣品在空間中很好地被分為三組,同一組的樣品均落在了同一區(qū)域,對于在起主要判別作用的函數(shù)1上,三組樣品區(qū)分顯著。通過Fisher判別分析驗證了3.4中兩步聚類的準確性,以聚類結(jié)果作為指標的判別模型在聯(lián)合分布圖上將樣品均回判到各自組別中。
圖7 判別函數(shù)聯(lián)合分布圖Fig.7 Joint distribution of discriminant functions
RBF神經(jīng)網(wǎng)絡(luò)的非線性擬合能力很強,規(guī)則簡單、拓撲結(jié)構(gòu)緊湊,收斂速度快,具有較強的自學(xué)習(xí)能力等優(yōu)點,被廣泛應(yīng)用于模式識別和圖像處理等領(lǐng)域。RBF神經(jīng)網(wǎng)絡(luò)由3層網(wǎng)絡(luò)組成,分別是輸入層、隱含層和輸出層[19]。RBF神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖8所示。
圖8 RBF神經(jīng)網(wǎng)絡(luò)示意圖Fig.8 Schematic diagram of RBF neural network
常用的RBF函數(shù)使用歐氏距離和高斯函數(shù),表示為:
其中xp=(x1p,x2p,…,xmp)T是第p個輸入的樣品,ci是隱含層的節(jié)點中心,是歐氏距離,σ是高斯函數(shù)的方差。RBF神經(jīng)網(wǎng)絡(luò)最終表達式為:
其中wij是RBF神經(jīng)網(wǎng)絡(luò)中隱含層到輸出層的連接權(quán)重,i是隱含層的節(jié)點數(shù),j代表輸出層的節(jié)點,yj為神經(jīng)網(wǎng)絡(luò)中第j個輸出節(jié)點的輸出值[20]。
將第Ⅳ類的28個樣品分成訓(xùn)練集和驗證集,借助隨機數(shù)發(fā)生器隨機把樣品分為兩部分,這樣可以盡量避免人為選擇樣品帶來的偶然誤差,增加網(wǎng)絡(luò)模型的科學(xué)性。最終選取了78.6%的樣品為訓(xùn)練集,21.4%的樣品為測試集,輸入層神經(jīng)元為16,輸出層神經(jīng)元為3,隱含層選擇為10,設(shè)定訓(xùn)練次數(shù)為3000次,誤差率小于0.001%。權(quán)重值是輸入層的紅外光譜降維后的16個主成分訓(xùn)練后得出的[21]。RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖見圖9,繪制的操作特性曲線(Receiver Operating Characteristic,ROC)曲線如圖10(RBF神經(jīng)網(wǎng)絡(luò)質(zhì)量見表6)。
圖9 RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.9 Structure diagram of RBF neural network
圖10 模型ROC曲線Fig.10 Model ROC curve
ROC曲線是模型的工作特征曲線,是反映敏感度和特異度之間關(guān)系的綜合指標。以模型真陽性率(敏感度)為縱軸,假陽性率(1-特異度)為橫軸作圖,即得到ROC曲線。評價ROC曲線的指標是線下面積(area under ROC curve,AUC),AUC越大則代表分類效果越好[22]。圖10可以看出第一組樣品AUC值為0.995,第二組樣品AUC值為0.994,第三組樣品AUC值為1,一般認為當(dāng)AUC大于0.9可認為是準確度較高的診斷實驗,誤診率和漏診率均很低。表6可知,22個樣品作為測試集,6個樣品作為訓(xùn)練集,訓(xùn)練集為100%,訓(xùn)練集的預(yù)測正確率為83.3%,測試結(jié)果證明可在已知樣品組別的基礎(chǔ)上,構(gòu)建對未知運動鞋底樣品的RBF神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)對于未知樣品的精確歸類。
表6 RBFNN模型訓(xùn)練結(jié)果Tab.6 Training results of RBFNN model
本實驗采集了45個不同品牌的運動鞋底樣品的紅外光譜,建立了RBF神經(jīng)網(wǎng)絡(luò)對未知樣品預(yù)判的模型。結(jié)果顯示,訓(xùn)練集的正確率達到了100%,預(yù)測集的正確率均達到了83.3%,ROC曲線顯示說明該模型的分組效果較好??捎脕韺Π讣F(xiàn)場提取的未知運動鞋底物證無損鑒別分類。但由于實驗條件限制,全部樣本量只有45個,對于機器學(xué)習(xí)樣本較少,在接下來的研究中將進一步增加樣品數(shù)量和種類,完善模型相關(guān)參數(shù)等工作。