楊 穩(wěn),劉曉寧,朱 菲
(西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127)
骨骼遺骸的性別決定是法醫(yī)人類學(xué)鑒定過程中的重要一步。人類學(xué)家研究表明,在人體骨骼中,顱骨是最能體現(xiàn)性別差異的骨骼之一[1]。在傳統(tǒng)方法[2-5]中,應(yīng)用最普遍的是線性判別分析方法。在對(duì)顱骨進(jìn)行實(shí)體測(cè)量的基礎(chǔ)上,Ramamoorthy等針對(duì)南印度70個(gè)成人顱骨樣本,測(cè)量了26項(xiàng)特征指標(biāo),利用SPSS建立判別函數(shù)進(jìn)行分析,單變量、逐步和多變量判別函數(shù)的準(zhǔn)確率分別為77.1%、85.7%和72.9%;李明等對(duì)國內(nèi)西南地區(qū)67個(gè)性別明確的成人顱骨測(cè)量了顱長、顱寬等16項(xiàng)指標(biāo),建立單變量及多變量性別判定方程,得到的男性判別準(zhǔn)確率為89.2%,女性判別準(zhǔn)確率為90.0%。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,研究者開始借助計(jì)算機(jī)對(duì)顱骨特征指標(biāo)進(jìn)行測(cè)量,因此計(jì)算機(jī)輔助測(cè)量成為趨勢(shì)。
Tanya等對(duì)50名成人顱骨數(shù)字側(cè)位X線片使用Sidexis XG軟件測(cè)量上頜竇,計(jì)算上頜竇指數(shù)進(jìn)行判別函數(shù)分析,并推導(dǎo)判別性別的判別式,得出的判別函數(shù)分析能夠區(qū)分性別,其敏感性為68%,特異性為76%。線性判別分析方法雖然簡(jiǎn)單,但是該方法需要嚴(yán)格的假設(shè)前提,且不同地區(qū)、不同人種的顱骨的特征指標(biāo)具有明顯的差異,而且測(cè)量工作繁瑣,準(zhǔn)確率也不夠高。
目前有很多學(xué)者[6-8]在研究中發(fā)現(xiàn),選取合適的分類器在性別識(shí)別過程中具有重要作用。Afrianty等對(duì)91例人類骶骨測(cè)量了6項(xiàng)特征指標(biāo),將其作為反向傳播網(wǎng)絡(luò)的輸入,分別用兩種網(wǎng)絡(luò)架構(gòu)進(jìn)行實(shí)驗(yàn),識(shí)別準(zhǔn)確率達(dá)到99.03%,并與傳統(tǒng)的判別函數(shù)分析方法進(jìn)行了對(duì)比,反向傳播神經(jīng)網(wǎng)絡(luò)的性別識(shí)別率明顯高于判別函數(shù)分析方法,但該方法對(duì)數(shù)據(jù)集的要求高,如何選取合適的樣本實(shí)例作為訓(xùn)練集是個(gè)難題;隨著三維數(shù)字化技術(shù)的發(fā)展,Luo等提出一種基于稀疏主成分分析將顱骨的局部形態(tài)特征與性別分類相關(guān)聯(lián)的自動(dòng)方法,對(duì)208例中國成人顱骨進(jìn)行實(shí)驗(yàn),結(jié)果顯示SPCA對(duì)顱骨性別識(shí)別非常有效,識(shí)別率達(dá)95%以上,但該方法對(duì)顱骨樣本完整性要求高,顱骨必須具有局部特征,局部信息影響識(shí)別結(jié)果。
基于上述分析,文中提出一種基于支持向量機(jī)的顱骨性別識(shí)別方法。該方法結(jié)合法醫(yī)人類學(xué)和顱骨解剖學(xué)知識(shí),標(biāo)定自定義顱骨特征點(diǎn)集;利用Fourier變換對(duì)額骨和鼻根形態(tài)進(jìn)行量化表示,用自主開發(fā)的計(jì)算機(jī)測(cè)量系統(tǒng)完成對(duì)顱骨可測(cè)量特征的測(cè)量,將非可測(cè)量特征和可測(cè)量特征融合;對(duì)上述步驟中得到的特征向量進(jìn)行降維,采用支持向量機(jī)(support vector machine,SVM)設(shè)計(jì)分類器進(jìn)行顱骨性別鑒定。算法流程如圖1所示。
圖1 算法流程
以西門子多排螺旋CT機(jī)采集的新疆吐魯番地區(qū)267例維族成人顱骨數(shù)據(jù)為研究對(duì)象,隨機(jī)選取性別明確、無顱病理的117例完整顱骨數(shù)據(jù)L={L1,L2,…,Ln},n=117作為實(shí)驗(yàn)對(duì)象,其中L數(shù)據(jù)中男性60例、女性57例,男性和女性的年齡均值分別為46.95和47.7,標(biāo)準(zhǔn)差分別為6.58和4.39。
利用項(xiàng)目組自主開發(fā)的系統(tǒng)對(duì)顱骨CT數(shù)據(jù)進(jìn)行重構(gòu),得到三維數(shù)字化顱骨模型,將模型轉(zhuǎn)換到法蘭克福坐標(biāo)系下并進(jìn)行歸一化處理,然后進(jìn)行顱骨特征點(diǎn)的標(biāo)定。很多學(xué)者對(duì)顱骨特征點(diǎn)的標(biāo)定進(jìn)行了研究,文中根據(jù)文獻(xiàn)[9]中顱骨特征點(diǎn)的定義,完成了顱骨性別鑒定問題的顱骨特征點(diǎn)標(biāo)定。對(duì)顱骨定義了78個(gè)顱骨特征點(diǎn),其中正中矢狀面12個(gè),對(duì)稱地分布于顱骨兩側(cè)的66個(gè)。
從117例顱骨中選取一套外觀完整的模型作為標(biāo)準(zhǔn)模型,對(duì)標(biāo)準(zhǔn)模型用項(xiàng)目組自主開發(fā)的標(biāo)定系統(tǒng)手動(dòng)標(biāo)定定義的78個(gè)顱骨特征點(diǎn)。其余顱骨模型利用ICP(iterative closest point)配準(zhǔn)算法[10]使其與標(biāo)準(zhǔn)模型對(duì)齊,自動(dòng)實(shí)現(xiàn)特征點(diǎn)標(biāo)定。
根據(jù)法醫(yī)學(xué)和顱骨解剖學(xué)知識(shí)和定義的78個(gè)特征點(diǎn),并考慮計(jì)算機(jī)軟件自動(dòng)測(cè)量過程的要求,文中定義了27項(xiàng)可測(cè)量指標(biāo),其中22項(xiàng)幾何測(cè)量指標(biāo),5項(xiàng)角度測(cè)量指標(biāo),通過歐幾里德和測(cè)地線距離以及角度測(cè)量軟件計(jì)算特征指標(biāo)。
通過閱讀顱骨形態(tài)特征相關(guān)文獻(xiàn)[11],顱骨額骨和鼻根形態(tài)等為非可測(cè)量的形態(tài)??衫脭?shù)字幾何和曲線擬合方法實(shí)現(xiàn)形態(tài)量化,將其轉(zhuǎn)化為可測(cè)量并可進(jìn)行統(tǒng)計(jì)的三維顱骨特征。
非可測(cè)量特征額骨和鼻根是顱骨性別差異的重要區(qū)域,這里應(yīng)用傅里葉變換對(duì)這兩個(gè)非測(cè)量特征進(jìn)行數(shù)據(jù)量化表示。首先,在額骨與鼻根區(qū)域范圍內(nèi)分別標(biāo)定18個(gè)點(diǎn),運(yùn)用Matlab自帶的cftool曲線擬合工具箱擬合出三維顱骨的額骨線和鼻根點(diǎn)凹陷曲線;其次,利用LM(Levenberg Marquardt)算法對(duì)空間曲線進(jìn)行優(yōu)化;最后,將三維空間曲線向二維平面XY進(jìn)行投影,對(duì)投影曲線S做傅里葉變換。以曲線擬合額骨線為例,男女額骨擬合曲線向XY平面進(jìn)行投影,獲取投影后的額骨線如圖2所示。
使用cftool曲線擬合工具箱對(duì)男女的額骨線進(jìn)行曲線擬合,擬合后的男女曲線方程分別為:
y1=-8.668 5-1.438 0x-2.391 6x2-
3.986 6x3+1.061 1x4-4.098 7x5-
3.263 1x6
y2=-16.309 3-5.077 3x-7.289 4x2+
0.177 9x3-0.000 3x4+2.085 2x5-
4.652 5x6
利用文獻(xiàn)[12]中的傅里葉變換也可對(duì)男女額骨線的形態(tài)進(jìn)行量化表示,將二維曲線S的X軸劃分為32份,求曲線上對(duì)應(yīng)的Y值,最后計(jì)算出合成振幅作為性別鑒定的測(cè)量指標(biāo)。對(duì)額骨和鼻根形態(tài)均利用Fourier變換,共獲取了32個(gè)性別鑒定的測(cè)量指標(biāo)。
圖2 額骨線
支持向量機(jī)是一種模式分類和回歸的學(xué)習(xí)算法。支持向量機(jī)的基本訓(xùn)練原理是尋找最優(yōu)線性超平面,使未知的測(cè)試樣本的預(yù)期分類誤差最小化,即良好的泛化性能。根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,一種精確分類訓(xùn)練數(shù)據(jù)屬于一組具有最低VC維度的函數(shù)將其優(yōu)化,而不管輸入空間的維數(shù)如何?;谶@個(gè)原則,線性SVM使用系統(tǒng)的方法來找到具有最低VC維的線性函數(shù)。對(duì)于線性不可分?jǐn)?shù)據(jù),SVM可以將輸入映射到線性超平面的高維特征空間中。由于SVM具有很好的學(xué)習(xí)能力且能夠解決小樣本、非線性及高維度分類等問題[13],因此,SVM成為處理性別鑒定問題的首選分類器。另外,SVM中核函數(shù)的選取是模式識(shí)別領(lǐng)域的重要研究?jī)?nèi)容,分類器參數(shù)的設(shè)置是建立顱骨識(shí)別模型的關(guān)鍵。
給定一個(gè)標(biāo)記的M個(gè)訓(xùn)練樣本集(xi,yi),其中xi∈RN和yi∈RN(yi∈{-1,1})是相關(guān)聯(lián)的。SVM分類器找到正確最大分離超平面數(shù)據(jù)點(diǎn)的一小部分,同時(shí)最大化任意一個(gè)類到超平面的距離。Vapnik[14]表明邊距最大化等價(jià)于在構(gòu)建最優(yōu)超平面時(shí)最小化VC維。計(jì)算最好的超平面是一個(gè)約束優(yōu)化問題,并使用二次規(guī)劃技術(shù)解決。判別式超平面由水平集定義,如式1所示:
(1)
其中,k()是核函數(shù);f(x)的符號(hào)決定了x的隸屬度。構(gòu)造一個(gè)最優(yōu)超平面就相當(dāng)于找到所有的非零值αi。對(duì)應(yīng)于非零αi的任何向量xi是最優(yōu)超平面的支持向量。支持向量機(jī)的理想特征是保留為支持向量的訓(xùn)練點(diǎn)的數(shù)量通常很小,因此提供了一個(gè)緊湊的分類器。
對(duì)于線性SVM,核函數(shù)只是輸入空間中的簡(jiǎn)單點(diǎn)積,而非線性SVM中的核函數(shù)通過非線性映射函數(shù)有效地將樣本投影到更高(可能無限)維度的特征空間:Φ:RN→FN,M?N。然后在F中構(gòu)造一個(gè)超平面。這種映射背后的動(dòng)機(jī)是它更有可能在高維特征空間中找到線性超平面。使用Mercer定理,將樣本投影到高維特征空間中所需的昂貴計(jì)算可以用滿足條件的更簡(jiǎn)單的核函數(shù)來代替,如式2所示:
k(x,xi)=Φ(x)·Φ(xi)
(2)
其中,Φ(x)是低維向高維空間投影的映射函數(shù);·表示兩個(gè)函數(shù)做內(nèi)積運(yùn)算。
(3)
其中,C是一個(gè)常量,當(dāng)C(>0)越大表示對(duì)性別判定錯(cuò)誤的懲罰越大,越小則對(duì)性別判定錯(cuò)誤的懲罰越小。
為了獲取二次規(guī)劃問題中的最佳分隔超平面,通過構(gòu)建一個(gè)拉格朗日算子來實(shí)現(xiàn),得到式4:
(4)
其中,αi和ri是拉格朗日乘子。
對(duì)式4將其看作是變量ω和b的函數(shù),分別對(duì)其求偏導(dǎo),得到ω和b的表達(dá)式。然后代入式4,求其極大值,最后得到:
(5)
其中,α1,α2,…,αm需滿足半正定和非負(fù)約束的條件。
性別判別的準(zhǔn)確率受到核函數(shù)選取的直接影響,文中對(duì)SVM的各種核函數(shù)比較分析后選用徑向基函數(shù)(radial basis function,RBF)作為顱骨特征映射的核函數(shù)。RBF能夠盡可能準(zhǔn)確地?cái)M合顱骨數(shù)據(jù)集上的連續(xù)函數(shù)[15]。數(shù)學(xué)表達(dá)式為:
(6)
其中,xi為核函數(shù)中心;δ為核函數(shù)寬度參數(shù),控制核函數(shù)的徑向作用范圍。
在性別判定的訓(xùn)練階段,參數(shù)C和δ對(duì)性別鑒定的效果影響最大。參數(shù)C的改變能將分類正確的樣本和分類錯(cuò)誤的樣本顯著分開。C越大時(shí)分類錯(cuò)誤率較小,但是間隔也較小,C越小時(shí)間隔較大,但是分類錯(cuò)誤率也較大。參數(shù)δ的改變直接影響核函數(shù)的計(jì)算能力,進(jìn)一步影響性別判定效果。δ越大時(shí),可能會(huì)出現(xiàn)誤判情況,即將訓(xùn)練樣本或測(cè)試樣本都劃分到同一類別;δ越小時(shí),容易出現(xiàn)過擬合現(xiàn)象,即能夠?qū)⒂?xùn)練顱骨樣本性別正確分類,但對(duì)測(cè)試顱骨樣本的分類準(zhǔn)確率不高,泛化能力差。因此,選取合適的參數(shù)C和δ對(duì)性別判定效果非常重要。
優(yōu)化參數(shù)C和δ的常用方法有網(wǎng)格搜索法、遺傳算法及混沌優(yōu)化算法等。文中利用文獻(xiàn)[16]中的算法來確定合適的參數(shù)C和δ。設(shè)定參數(shù)C和δ的范圍,即2-5≤C≤215,2-15≤δ≤25,步長設(shè)為0.5,進(jìn)而獲得M個(gè)C值及N個(gè)δ值。利用構(gòu)造的SVM模型對(duì)顱骨樣本進(jìn)行分類,獲取性別識(shí)別率,根據(jù)性別識(shí)別率確定最優(yōu)參數(shù)C和δ。文中利用留一交叉驗(yàn)證法進(jìn)行測(cè)試,將全部的顱骨樣本均分成N份,1份作為測(cè)試集,其余N-1份為訓(xùn)練集,循環(huán)N次進(jìn)行測(cè)試。求解得到所有顱骨樣本分類結(jié)果的均值,即對(duì)應(yīng)于C和δ的精確度,重復(fù)以上步驟,最后,最優(yōu)參數(shù)就是平均識(shí)別率最高時(shí)所對(duì)應(yīng)的參數(shù)值。若最優(yōu)分類結(jié)果仍沒達(dá)到預(yù)想效果,根據(jù)分類準(zhǔn)確率變化的趨勢(shì),重新設(shè)定C和δ的范圍和步長,直到得到平均識(shí)別率最高所對(duì)應(yīng)的參數(shù)組合為止。
實(shí)驗(yàn)從117個(gè)顱骨模型中選擇78個(gè)顱骨(40男,38女)作為訓(xùn)練樣本,采用徑向核SVM方法建立分類模型,并用其余的39個(gè)(20男,19女)顱骨模型作為測(cè)試樣本,并進(jìn)行回代檢驗(yàn)。徑向核SVM的分類步驟如下:
(1)對(duì)樣本數(shù)據(jù)進(jìn)行歸一化處理,將數(shù)據(jù)歸一化到[0,1]之間;
(2)利用網(wǎng)格搜索和交叉驗(yàn)證方法尋求最優(yōu)的參數(shù)對(duì)C和δ,設(shè)定網(wǎng)格搜索的參數(shù)為2-5≤C≤215,2-15≤δ≤25,捜索步長為0.5,可得到78個(gè)訓(xùn)練樣本下的最優(yōu)參數(shù)C=1.414 2,δ=0.5;
(3)對(duì)78個(gè)顱骨訓(xùn)練樣本應(yīng)用SVM-RFE算法,根據(jù)特征指標(biāo)的權(quán)重大小對(duì)27項(xiàng)顱骨特征指標(biāo)進(jìn)行排序,選取前n個(gè)特征為特征集合,訓(xùn)練SVM模型,分別可得到前n維特征集合相對(duì)應(yīng)的分類精度,如圖3所示。
圖3 特征子集數(shù)目與分類精度的關(guān)系
從圖3可以看出,在訓(xùn)練集合上,分類精度最高可達(dá)到94.1%,當(dāng)特征子集數(shù)目逐漸從1增加到9時(shí),其訓(xùn)練的分類器的分類精度也從70.9%逐漸增加到94.1%;當(dāng)特征子集數(shù)目逐漸從9增加到22時(shí),分類精度在94.1%保持穩(wěn)定;但是當(dāng)特征子集數(shù)目從23再逐漸增加到27的過程中,分類精度開始下降,由于引入了冗余特征;最后隨著特征子集數(shù)目的增加,分類器分類精度保持在91.5%。因此,選取分類精度最高且特征數(shù)目最小的前9維特征(X25、X21、X5、X19、X23、X24、X13、X2)作為顱骨的最優(yōu)特征子集。
(4)根據(jù)9維最優(yōu)特征子集訓(xùn)練SVM模型,對(duì)39例測(cè)試顱骨模型進(jìn)行性別預(yù)測(cè),其預(yù)測(cè)結(jié)果如圖4所示,回代檢驗(yàn)結(jié)果如表1所示。
圖4 SVM測(cè)試樣本預(yù)測(cè)結(jié)果
從圖4可以看出,預(yù)測(cè)分類效果與實(shí)際分類效果存在誤差。測(cè)試集中的第11、19和36個(gè)樣本出現(xiàn)誤判,分類產(chǎn)生了錯(cuò)誤。
表1 SVM回代檢驗(yàn)結(jié)果
從表中可以看出,在20個(gè)男性顱骨中有2個(gè)被誤判,18個(gè)被正確分類,判定率為90.0%;在19個(gè)女性顱骨中有1個(gè)被誤判,18個(gè)被正確分類,判定率為94.7%。男女判定的平均準(zhǔn)確率為92.4%。
針對(duì)傳統(tǒng)性別識(shí)別過程中需要專家參與且依賴于人的主觀經(jīng)驗(yàn)導(dǎo)致分類精度低的問題,提出了一種基于支持向量機(jī)的顱骨性別識(shí)別方法。根據(jù)先驗(yàn)知識(shí)和自主開發(fā)的系統(tǒng)半自動(dòng)實(shí)現(xiàn)顱骨特征點(diǎn)的定義標(biāo)定;提取顱骨的可測(cè)量特征和非可測(cè)量特征,將非可測(cè)量特征量化,利用計(jì)算機(jī)軟件測(cè)量特征指標(biāo);利用SVM對(duì)特征向量降維并設(shè)計(jì)分類器,通過網(wǎng)格搜索算法優(yōu)化參數(shù),得到最佳分類器,實(shí)現(xiàn)對(duì)目標(biāo)樣本的有效分類。實(shí)驗(yàn)結(jié)果表明,該方法能夠取得較高的分類正確率。由于是首次利用顱骨對(duì)象完成維吾爾族顱骨性別識(shí)別的研究,所以樣本較少,但是方法客觀不依賴主觀經(jīng)驗(yàn),可以為實(shí)際應(yīng)用提供參考依據(jù)。下一步將繼續(xù)對(duì)維吾爾族顱骨性別識(shí)別進(jìn)行研究,增加顱骨樣本并進(jìn)一步提高分類精度,為法醫(yī)人類學(xué)、刑偵等領(lǐng)域的實(shí)際應(yīng)用提供更為可靠的參考。