王秋爽 趙航 肖立山
1. 公安部戶政管理研究中心 2. 湖南省公安廳
居民身份證登記指紋工作開展以來(lái),已經(jīng)制發(fā)登記指紋信息居民身份證(以下簡(jiǎn)稱“指紋證”)5億余張。隨著指紋證發(fā)放數(shù)量的累積,社會(huì)各用證部門和單位也逐步試點(diǎn)使用指紋比對(duì)核驗(yàn)設(shè)備進(jìn)行“人證一致性”驗(yàn)證,指紋證即將在社會(huì)上廣泛使用,這對(duì)指紋圖像采集質(zhì)量提出了很高要求。
為全面認(rèn)識(shí)、掌握并提高各省的居民身份證指紋圖像采集質(zhì)量,更好地滿足指紋證社會(huì)應(yīng)用需要,有必要對(duì)指紋圖像質(zhì)量的影響因素進(jìn)行定性和定量的分析。
根據(jù)指紋學(xué)和指紋比對(duì)技術(shù)相關(guān)研究,影響指紋比對(duì)應(yīng)用效果的主要因素是指紋圖像的采集質(zhì)量。從2013年開始,公安部第一研究所組織有關(guān)專家針對(duì)證件指紋圖像質(zhì)量評(píng)分規(guī)則、方法、工具進(jìn)行了專門的研究[1-4],提出評(píng)價(jià)證件指紋算法的關(guān)鍵指標(biāo)為注冊(cè)失敗率、等錯(cuò)誤率、錯(cuò)誤拒絕率為某值下的錯(cuò)誤接受率、響應(yīng)時(shí)間等技術(shù)指標(biāo),并基于此評(píng)價(jià)體系提出指紋圖像質(zhì)量的評(píng)分方法和工具。本文基于上述評(píng)分工具的評(píng)分結(jié)果,通過(guò)對(duì)某省16,496,113個(gè)居民身份證指紋圖像進(jìn)行全量統(tǒng)計(jì),根據(jù)專家經(jīng)驗(yàn)法判定影響圖像質(zhì)量的主要因素有采集季節(jié)、被采集人群、采集設(shè)備、采集指位等4類。
某省的指紋圖像質(zhì)量明顯受季節(jié)因素影響很大,五月至十月的指紋圖像質(zhì)量均值普遍高于全國(guó)均值,也高于冬季的十一月至二月。
被采集人群在16至25歲年齡段的指紋圖像質(zhì)量最好,26至45歲年齡段的指紋圖像質(zhì)量次之,46歲以上中老年人的指紋圖像質(zhì)量再其次,小于15歲未成年人的指紋圖像質(zhì)量最差。被采集人群性別、民族因素對(duì)指紋圖像質(zhì)量沒有明顯影響。
某省的采集設(shè)備類型包括光學(xué)型和電容型兩種,為了比較兩種設(shè)備類型與指紋質(zhì)量的相關(guān)性,均選取對(duì)應(yīng)設(shè)備使用期間和采集人次的四分位數(shù)進(jìn)行比較??傮w來(lái)看,電容型設(shè)備的質(zhì)量評(píng)分普遍高于光學(xué)型,但采集質(zhì)量沒有光學(xué)型穩(wěn)定。
通過(guò)對(duì)某省所有類型采集設(shè)備的使用期間和采集人次統(tǒng)計(jì),指紋圖像質(zhì)量均值和方差,與使用期間的長(zhǎng)短呈現(xiàn)出明顯的負(fù)相關(guān),與采集人次的多少呈現(xiàn)出輕微的負(fù)相關(guān),即使用時(shí)間更長(zhǎng)的設(shè)備采集的指紋圖像質(zhì)量更低。
采集指位因素對(duì)指紋圖像質(zhì)量的影響非常明顯,從拇指到小指的指紋圖像質(zhì)量依次降低。
采用多元線性回歸方法對(duì)某省居民身份證指紋圖像質(zhì)量評(píng)分進(jìn)行定量分析,回歸方程用于解釋在指紋圖像質(zhì)量評(píng)分結(jié)果中,各種影響因素對(duì)評(píng)分的定量影響程度。
研究一個(gè)因變量、與兩個(gè)或兩個(gè)以上自變量的回歸,稱為多元線性回歸,是反映一種現(xiàn)象或事物的數(shù)量依多種現(xiàn)象或事物的數(shù)量的變動(dòng)而相應(yīng)變動(dòng)的規(guī)律,是建立多個(gè)變量之間線性或非線性數(shù)學(xué)模型數(shù)量關(guān)系式的統(tǒng)計(jì)方法。
多元線性回歸方程如下:
其中:Yi: 因變量;X1i~Xki: 自變量;β0~βk:回歸系數(shù),μi:誤差,i: 樣本數(shù),1,2,...,n; k:自變量個(gè)數(shù)。
多元線性回歸分析是一種廣泛使用的定量分析工具,線性依賴于其未知參數(shù)的模型比非線性依賴于其未知參數(shù)的模型更容易擬合,產(chǎn)生的統(tǒng)計(jì)特性更容易確定,其回歸結(jié)果便于評(píng)判和解釋。
對(duì)多元非線性回歸模型求解的傳統(tǒng)做法,仍然是想辦法把它轉(zhuǎn)化成標(biāo)準(zhǔn)線性形式的多元回歸模型來(lái)處理。因此多元線性回歸分析對(duì)于非線性關(guān)系同樣適用,回歸結(jié)果的可決系數(shù)R2用于參考,但用于解釋因變量的影響因素依然適用。
結(jié)合上一部分對(duì)指紋圖像采集質(zhì)量影響因素的定性分析結(jié)論,本文對(duì)某省15,016,845個(gè)指紋圖像進(jìn)行了統(tǒng)計(jì)和整理,選取多個(gè)影響因素的自變量,得到用于分析導(dǎo)致指紋圖像質(zhì)量降低原因的樣本數(shù)據(jù)。
1. 篩選對(duì)指紋評(píng)分影響大的自變量并采用逐步回歸法進(jìn)行回歸
多元線性回歸的平方和分解公式為:
其中,SST:總平方和;SSR:回歸平方和;SSE:誤差平方和。
由上式可知,理想中的多元線性回歸模型既需要有盡可能低的誤差,又需要有盡可能少的自變量。因此,篩選自變量采用一元線性回歸的方法,選取可決系數(shù)R2>0.01,在指紋質(zhì)量評(píng)分低于平均值的區(qū)間篩選出19個(gè)對(duì)指紋評(píng)分影響大的自變量。
通過(guò)對(duì)篩選后的變量進(jìn)行線性回歸,可以得到第一次回歸結(jié)果。
?
2. 判斷回歸結(jié)果是否出現(xiàn)多重共線性
采用觀察回歸結(jié)果的異常點(diǎn)并結(jié)合相關(guān)系數(shù)的方法來(lái)判斷回歸結(jié)果是否出現(xiàn)多重共線性。T檢驗(yàn)的顯著性水平一般取0.05。
觀察表2得到的回歸結(jié)果發(fā)現(xiàn),可決系數(shù)R2較高,但是存在自變量X17、X18的回歸系數(shù)T檢驗(yàn)的P值大于0.05,也就是T檢驗(yàn)不顯著的情況。初步判定存在多重共線性問題。
如果多個(gè)變量之間存在較強(qiáng)的共線性,則它們的回歸系數(shù)是不確定的,且回歸系數(shù)的方差會(huì)很大,也就是回歸結(jié)果不確定。因此,需要采取多種方法減輕或消除多重共線性問題。
經(jīng)觀察相關(guān)系數(shù)矩陣發(fā)現(xiàn),多個(gè)自變量之間存在很強(qiáng)的相關(guān)性。
3. 降低或消除多重共線性
為了降低或消除多元線性回歸中的多重共線性影響,本文采用計(jì)算自變量關(guān)聯(lián)矩陣的特征值和特征向量,以及加入L2范數(shù)懲罰項(xiàng)的嶺回歸方法,剔除自變量并優(yōu)化最終回歸結(jié)果。對(duì)于嶺回歸過(guò)程采用生成并觀察嶺跡圖來(lái)選擇超參數(shù)alpha的方法?;驹瓌t為:
(1)各回歸系數(shù)的嶺估計(jì)基本穩(wěn)定;
(2)不存在有明顯不符合常理的回歸參數(shù),嶺估計(jì)的符號(hào)要合理;
(3)回歸系數(shù)沒有不合實(shí)際意義的絕對(duì)值;
(4)殘差平方和增大不多。
根據(jù)以上原則,最終確定嶺回歸超參數(shù)alpha=10-5。
4. 得到最終回歸結(jié)果
通過(guò)多次處理并明顯降低了多重共線性的影響后,最終得到在指紋評(píng)分區(qū)間內(nèi)的回歸結(jié)果。該結(jié)果共包括27個(gè)自變量,回歸的可決系數(shù)R2相對(duì)較高,且均通過(guò)了F檢驗(yàn)和T檢驗(yàn),證明該回歸結(jié)果較穩(wěn)定,且能夠明確地定量解釋導(dǎo)致指紋圖像質(zhì)量降低的主要因素。
?
?
通過(guò)對(duì)某省居民身份證指紋圖像采集質(zhì)量數(shù)據(jù)的多元線性回歸分析發(fā)現(xiàn):
(1)與指紋質(zhì)量評(píng)分負(fù)相關(guān)的因素主要是采集開始時(shí)間距現(xiàn)在天數(shù),即采集器啟用的越早,指紋質(zhì)量評(píng)分會(huì)逐步降低。
(2)在采集設(shè)備方面,與指紋質(zhì)量評(píng)分負(fù)相關(guān)的因素主要是采集設(shè)備廠商編碼和采集設(shè)備型號(hào)。采集設(shè)備廠商編碼是一個(gè)9位的數(shù)字串,按認(rèn)證通過(guò)時(shí)間頒發(fā),從小到大;采集設(shè)備型號(hào)與采集設(shè)備廠商相關(guān)[5]。也就是說(shuō)隨著采集設(shè)備廠商編碼逐步增大,指紋質(zhì)量評(píng)分會(huì)逐漸降低。與指紋質(zhì)量評(píng)分正相關(guān)的因素是采集設(shè)備類型,依次為未知、光學(xué)、電容三類。正相關(guān)說(shuō)明電容和光學(xué)相比能取得更好的指紋質(zhì)量評(píng)分。
(3)從被采集人角度來(lái)看,與指紋質(zhì)量評(píng)分負(fù)相關(guān)的因素主要是采集年齡≤10歲、采集年齡≥36歲且≤45歲、采集年齡≥66歲的人群。這三類人群的指紋采集數(shù)量越多,質(zhì)量評(píng)分越低。
(4)體現(xiàn)季節(jié)因素的采集時(shí)間,與指紋質(zhì)量評(píng)分負(fù)相關(guān)的主要是11月份、12月份采集的指紋數(shù)量,即這兩個(gè)月采集的指紋數(shù)量越多,質(zhì)量評(píng)分越低。
(5)從采集指位來(lái)看,與指紋質(zhì)量評(píng)分負(fù)相關(guān)的因素主要是右手的拇指、中指、無(wú)名指、小指和左手的中指、小指。
通過(guò)對(duì)上述某省居民身份證指紋圖像采集質(zhì)量的主要影響因素進(jìn)行分析,可以提出幾點(diǎn)改進(jìn)相關(guān)工作的方法和建議:
(1)指紋采集設(shè)備最早啟用時(shí)間,是導(dǎo)致指紋圖像質(zhì)量降低的主要影響因素之一。為保持較高的指紋采集質(zhì)量,建議有條件的單位及時(shí)更換啟用時(shí)間較早的采集設(shè)備。
(2)指紋采集設(shè)備廠商編碼的大小代表設(shè)備廠商通過(guò)認(rèn)證時(shí)間的先后。分析結(jié)果表明早期通過(guò)認(rèn)證的指紋采集設(shè)備廠商,其設(shè)備采集的指紋圖像質(zhì)量較高。因此,建議后續(xù)認(rèn)證通過(guò)的設(shè)備廠商提升產(chǎn)品質(zhì)量或改進(jìn)現(xiàn)有服務(wù)。
(3)被采集人群年齡在“≤10歲”、“≥36歲且≤45歲”、“≥66歲”這三個(gè)區(qū)間的指紋圖像質(zhì)量較低,需要在辦證時(shí)予以重點(diǎn)關(guān)注,可采用一些提高指紋采集質(zhì)量的方法,例如保持手指濕潤(rùn)、增加采集次數(shù)等[4]。
(4)指位對(duì)指紋采集質(zhì)量有一定的影響,建議盡量避免采集對(duì)指紋質(zhì)量造成負(fù)面影響指位的指紋。
本文通過(guò)定性和定量分析的方法,對(duì)某省居民身份證指紋圖像采集質(zhì)量的影響因素進(jìn)行研究。其中,采用多元線性回歸的方法可以整體統(tǒng)計(jì)和評(píng)估居民身份證指紋圖像質(zhì)量數(shù)據(jù)的現(xiàn)實(shí)情況,較為明確地找出導(dǎo)致指紋圖像采集質(zhì)量降低的主要因素。
本文采用的方法也適用于評(píng)估其他省份的居民身份證指紋圖像采集數(shù)據(jù)。