?
從數(shù)據(jù)庫搜索爭(zhēng)論看DNA統(tǒng)計(jì)評(píng)估
張智杰,呂德堅(jiān)
(中山大學(xué)中山醫(yī)學(xué)院法醫(yī)學(xué)系,廣東廣州510089)
摘要:綜述了DNA數(shù)據(jù)庫搜索結(jié)果匹配證據(jù)力統(tǒng)計(jì)學(xué)評(píng)估的兩次爭(zhēng)論。爭(zhēng)論的內(nèi)容在于如何評(píng)價(jià)從數(shù)據(jù)庫搜索到相匹配DNA分型的證據(jù)強(qiáng)度。第一次爭(zhēng)議始于兩種有沖突的方法:似然比法認(rèn)為數(shù)據(jù)庫越大證據(jù)力越大,而np法則認(rèn)為數(shù)據(jù)庫越大證據(jù)力越小。第二次爭(zhēng)論是關(guān)天DNA數(shù)據(jù)庫搜索匹配是否會(huì)減弱DNA證據(jù)力和錯(cuò)誤認(rèn)定概率。爭(zhēng)論涉及各種各樣法醫(yī)學(xué)統(tǒng)計(jì)方法:似然比法、np法、后概率法和頻率論法等。不同學(xué)者從不同的角度出發(fā)得到不同結(jié)論或看法。盡管數(shù)據(jù)庫爭(zhēng)議似乎已經(jīng)得到解決,但是審視這兩次爭(zhēng)議中不同作者的觀點(diǎn)和對(duì)問題的看法,有助于我們準(zhǔn)確理解DNA統(tǒng)計(jì)評(píng)估結(jié)果,并正確對(duì)待統(tǒng)計(jì)學(xué)評(píng)估與法律實(shí)踐的結(jié)合。
關(guān)鍵詞:法庭DNA數(shù)據(jù)庫;DNA統(tǒng)計(jì)評(píng)估;法醫(yī)DNA分析
法醫(yī)DNA數(shù)據(jù)庫已成為尋找罪犯的重要工具之一。例如,假設(shè)某一案件中,現(xiàn)場(chǎng)留有來自于罪犯的生物檢材,通過DNA分析得到基因分型(假設(shè)為A)。用基因分型A與已知的DNA數(shù)據(jù)庫中的基因分型搜索比對(duì),假設(shè)能得出唯一的匹配結(jié)果,即數(shù)據(jù)庫中恰好有且只有一個(gè)人(假設(shè)是張三)的基因分型為A。那么有多大證據(jù)力度來證明張三正是要找的那個(gè)罪犯呢?早先,對(duì)于這個(gè)問題,假定有兩種場(chǎng)景:
場(chǎng)景一:現(xiàn)場(chǎng)遺留檢材的DNA基因分型與DNA數(shù)據(jù)庫中的張三基因分型匹配,并且有其他證據(jù)(人證、物證等)也可以用來證明張三就是罪犯,稱為“合理根據(jù)案件”。
場(chǎng)景二:現(xiàn)場(chǎng)遺留檢材的DNA基因分型與DNA
數(shù)據(jù)庫中的張三基因分型匹配,但沒有其他證據(jù),僅能通過匹配結(jié)果認(rèn)定張三是罪犯,稱為“數(shù)據(jù)庫搜索依賴案件”。
對(duì)這兩種場(chǎng)景的證據(jù)力度,不同的學(xué)者從不同角度分析得出不同的結(jié)論,引出了DNA數(shù)據(jù)庫搜索爭(zhēng)論。
爭(zhēng)論始于1996年,大量法醫(yī)統(tǒng)計(jì)學(xué)家各抒己見??偨Y(jié)有兩種觀點(diǎn):
(1)1995年Balding和Donnelly[1]、1996年Dawid 和Morterra[2]用似然率進(jìn)行比較,得出場(chǎng)景二的證據(jù)力略大于場(chǎng)景一;(2)NRC的兩個(gè)報(bào)告[3]和1999年Stockmarr[4]則運(yùn)用貝葉斯定理得出場(chǎng)景一的證據(jù)力遠(yuǎn)大于場(chǎng)景二。
1.1似然率法
運(yùn)用似然率(LR)解決上述問題的學(xué)者作了如下一組假設(shè):
Hp:是張三在犯罪現(xiàn)場(chǎng)留下的生物檢材;
Hd:是數(shù)據(jù)庫中其他人在犯罪現(xiàn)場(chǎng)留下的生物檢材。
假設(shè)基因分型A出現(xiàn)在所有人中的概率是p,人口總?cè)萘繛镹,已知數(shù)據(jù)庫容量為n,以及事件Hp發(fā)生的概率δ和事件Hd發(fā)生的概率π,可以得到:
而我們知道,該組假設(shè)的前提是所有人都屬于總?cè)丝谥械囊粏T,故可知δ=1/N、π=n/N,代入得
這個(gè)公式表明:隨著n的增大,似然率隨之增大,DNA的證據(jù)力也就增大了。
1.2 np法則
上面的結(jié)果看起來很合理,但1999年Stockmarr[4]批評(píng)上述的假設(shè)Hp和Hd是“依賴數(shù)據(jù)庫的”,因?yàn)闆]有說清楚為什么張三恰好就在數(shù)據(jù)庫中,所以是不合理的。作為替代,Stockmarr[4]提出了新的一組假設(shè):
H'p:犯罪現(xiàn)場(chǎng)遺留的DNA基因分型的來源者在數(shù)據(jù)庫中;
Hd':犯罪現(xiàn)場(chǎng)遺留的DNA基因分型的來源者不在數(shù)據(jù)庫中。
根據(jù)這組假設(shè),同樣運(yùn)用似然率的計(jì)算方法,可得:
顯然,隨著n的增大,似然率成倍減小,DNA的證據(jù)力也隨之減小。與NRC報(bào)告[3]相符:數(shù)據(jù)庫搜索的每一次比對(duì)有兩個(gè)結(jié)果:匹配或不匹配。而每?jī)纱伪葘?duì)之間沒有聯(lián)系、不互相干擾。若單次匹配成功的概率為p,那么n次匹配成功的概率將會(huì)增加。換句話說,對(duì)于數(shù)據(jù)庫容量越大,似然率將會(huì)被削弱n倍。數(shù)據(jù)庫越大本應(yīng)越容易找到罪犯,但其證據(jù)力卻下降,從而形成了法醫(yī)DNA數(shù)據(jù)庫悖論,出現(xiàn)爭(zhēng)論。
爭(zhēng)論出現(xiàn)以后,各抒己見的文章相繼發(fā)表。然而在2001年正如Dawid[5]指出,“似然率”這個(gè)概念只是被用來當(dāng)做針對(duì)不同假設(shè)作出選擇的規(guī)則,而不能被定義為一種衡量證據(jù)價(jià)值高低的工具。因此,對(duì)于“似然率”這個(gè)概念應(yīng)該有一個(gè)正確的認(rèn)識(shí)。2003年,Ronald和Marjan[6]在前人的基礎(chǔ)上根據(jù)“雙痕跡”問題(two-stainproblem)用后驗(yàn)概率來解決數(shù)據(jù)庫搜索爭(zhēng)論。
2.1“雙痕跡”推導(dǎo)出后驗(yàn)概率的解法
眾所周知,后驗(yàn)概率有下列關(guān)系:后驗(yàn)概率=LR×先驗(yàn)概率
根據(jù)先驗(yàn)概率概念,可以得到對(duì)于假設(shè)Hp和Hd的先驗(yàn)概率為δ/(1-δ),而假設(shè)H'p和H'd的先驗(yàn)概率為π/(1-π),從而得出兩組假設(shè)的后驗(yàn)概率均為這表明,隨著數(shù)據(jù)庫容量n的增加,后驗(yàn)概率也隨之增加,證據(jù)力度亦增加,也就是數(shù)據(jù)庫越大越容易從數(shù)據(jù)庫中找到匹配結(jié)果。
這就意味著以上兩組假設(shè)的出發(fā)點(diǎn)是不同的,通過比較各自的假設(shè)而得出的似然率(LR和LR')也就不同,因此所作出的針對(duì)問題的判斷也就不同了。但是兩組假設(shè)都是針對(duì)同一件事情做出假設(shè),所以從本質(zhì)上來說是一樣的,是等價(jià)的,稱之為“有條件等價(jià)”(conditionally equivalent)。
2.2頻率論的解法
2007年,Storvik等[7]提出用貝葉斯定理中的后驗(yàn)概率和頻率論中的假定值相結(jié)合的方法來量化證據(jù)、評(píng)判證據(jù)力度的大小,用頻率論的理論再次證明了后驗(yàn)概率對(duì)于兩組假設(shè)是“有條件等價(jià)”的。
至此,關(guān)于合理根據(jù)案件的匹配結(jié)果和數(shù)據(jù)庫搜索依賴案件的匹配結(jié)果哪個(gè)具有更大的證據(jù)力度的討論暫告一段落。
爭(zhēng)論看似結(jié)束,其實(shí)不然。到了2010年,Schneider 等[8]再次提出了np法則仍然適用。2011年,F(xiàn)immers 等[9]則拋開了np法則與似然率方法之間的爭(zhēng)論,直面論題。
在以前的爭(zhēng)論中,人們往往會(huì)先假設(shè)真正的罪犯的DNA基因分型在數(shù)據(jù)庫中已有收錄。而Fimmers等則提出假設(shè)真正的罪犯不在數(shù)據(jù)庫中,甚至根本不在根據(jù)其他刑事偵查證據(jù)所圈定的犯罪嫌疑人之中,那么問題變得復(fù)雜了。前面所爭(zhēng)論的兩組假設(shè)因此失去了價(jià)值。
Fimmers等首先假設(shè)人群中有N=108個(gè)人是犯罪嫌疑人,數(shù)據(jù)庫的容量則為n=106。因?yàn)橛锌赡苷嬲淖锓覆辉谶@N個(gè)人中,但是每一次數(shù)據(jù)庫搜索卻又能得到匹配結(jié)果,那么就存在錯(cuò)誤匹配的情況(假設(shè)錯(cuò)誤匹配概率為γ)。而根據(jù)Fimmers等的實(shí)踐,對(duì)于數(shù)據(jù)庫搜索依賴案件,它的錯(cuò)誤匹配概率γ=0.368。至于合理根據(jù)案件,因?yàn)橛衅渌C據(jù)的支持,錯(cuò)誤匹配概率γ≤10-6,遠(yuǎn)遠(yuǎn)小于前者,也就是說這樣的證據(jù)更可信。由此可以看出,合理根據(jù)案件匹配結(jié)果的證據(jù)力度遠(yuǎn)遠(yuǎn)大于數(shù)據(jù)庫搜索依賴案件的匹配結(jié)果,與np法則觀點(diǎn)一致。
在上述爭(zhēng)論再現(xiàn)的2011年,很快就有文章反駁上述觀點(diǎn),針對(duì)Fimmers等所使用的錯(cuò)誤匹配(即匹配到的結(jié)果不是真實(shí)的結(jié)果),也可說是“錯(cuò)誤認(rèn)定”(false individualization)。Taroni等[10]認(rèn)為,錯(cuò)誤認(rèn)定的概率不應(yīng)該等同于偶然出現(xiàn)的錯(cuò)誤匹配概率,即理論概率不應(yīng)該等同于僅根據(jù)小樣本量的觀察而得出的事件發(fā)生頻率。所以運(yùn)用決策論的方法,即在假定有一個(gè)決策者(比如法官)對(duì)“合理根據(jù)案件”和“數(shù)據(jù)庫搜索依賴案件”兩種場(chǎng)景進(jìn)行證據(jù)力比較時(shí),他會(huì)首先有自己的一個(gè)“損失函數(shù)”(loss function)和“判定閾值”(decision threshold)(決策論中的概念)。不同的決策者有不同的閾值,同一個(gè)決策者閾值固定,那么對(duì)兩種場(chǎng)景的判斷起點(diǎn)是一樣的,最終在做出決定時(shí)的基礎(chǔ)也是一樣的。根據(jù)Taroni等的方法,“合理根據(jù)案件”得到的錯(cuò)誤認(rèn)定概率與“數(shù)據(jù)庫搜索依賴案件”的錯(cuò)誤認(rèn)定概率是一致的。
由此,DNA數(shù)據(jù)庫搜索爭(zhēng)論有了一個(gè)新的結(jié)論:兩個(gè)場(chǎng)景中的證據(jù)力度在決策者看來是等值的。
(1)統(tǒng)計(jì)學(xué)指標(biāo)受假設(shè)條件的限制
第一階段所謂的悖論其實(shí)是因?yàn)樵诩僭O(shè)時(shí)忽視了DNA數(shù)據(jù)庫組成的前提條件(也就是先驗(yàn)概率)而造成的。假設(shè)的角度不同,先驗(yàn)概率也就不同,似然率也就隨之改變,因而產(chǎn)生悖論。至于后一階段的爭(zhēng)論,則是由于條件的擴(kuò)大導(dǎo)致以往結(jié)論的不適用從而產(chǎn)生了分歧。在經(jīng)過十幾年的爭(zhēng)論之后,目前國(guó)際上主流的觀點(diǎn)是:在統(tǒng)計(jì)學(xué)的角度,“數(shù)據(jù)庫搜索依賴案件”的DNA數(shù)據(jù)庫搜索匹配結(jié)果的證據(jù)力度略微比“合理根據(jù)案件”的證據(jù)力度高;而在法醫(yī)學(xué)角度來看,兩者之間沒有差別。
(2)統(tǒng)計(jì)學(xué)與法醫(yī)學(xué)的結(jié)合
早在2002年Balding[11]指出,法律的要求有時(shí)候是與統(tǒng)計(jì)學(xué)理論相互矛盾的,應(yīng)該以法律實(shí)踐為重點(diǎn)。Donnelly和Friedman[12]在1999年指出“法律體系應(yīng)是統(tǒng)計(jì)學(xué)等相關(guān)科學(xué)的消費(fèi)者”。2012年,Nordgaard 等[13]提出,對(duì)于陪審團(tuán)(法庭或法官)而言,相同DNA樣本的基因分型所具有的證據(jù)力度是沒有區(qū)別的。本文開頭的兩個(gè)場(chǎng)景所作出的假設(shè)其實(shí)是割裂了DNA證據(jù)與其他證據(jù)之間的關(guān)系。例如第一次爭(zhēng)論中,似然率僅僅是針對(duì)兩個(gè)假設(shè),而在法律實(shí)踐中,法醫(yī)上的身源認(rèn)定面對(duì)的是大量假設(shè),這時(shí)單一的似然率是難以解決問題的,甚至?xí)硇碌膯栴}。
其實(shí)在實(shí)踐中,大部分案件還是合理根據(jù)案件。在法庭上,很少存在孤證(即只有一個(gè)DNA數(shù)據(jù)庫匹配結(jié)果這一項(xiàng)證據(jù))的情況。
(3)統(tǒng)計(jì)學(xué)與證據(jù)力的關(guān)系
人是評(píng)估證據(jù)力度的主體。在法庭上,是陪審團(tuán)和法官來決定證據(jù)力的大小以及是否采信,而似然率只是讓陪審團(tuán)或法官可以更加全面地評(píng)估證據(jù)價(jià)值。在法律實(shí)踐中聯(lián)系統(tǒng)計(jì)學(xué)理論是可行的,但并非不可或缺,過多依賴統(tǒng)計(jì)學(xué)理論而忽略了其他證據(jù)易造致錯(cuò)誤結(jié)論。統(tǒng)計(jì)學(xué)終究是協(xié)助判案而不是決定判案,畢竟判案的是人而不是各種演算得出的數(shù)據(jù)。
參考文獻(xiàn):
[1]Balding,D. J.,Donnelly,P.Inferenceinforensicidentification[J]. Journal of the Royal Statistical Society,Series A,1995,(158):21-53.
[2]Dawid,A. P.,Mortera,J. Coherent analysis of forensic identification evidence[J]. Journal of the Royal Statistical Society,Series B, 1996,(58):425-430.
[3]National Research Council. The Evaluation of Forensic DNA Evidence[M]. Washington,D. C.:National Academy Press,1996,(2):31-32.
[4]Stockmarr,A. Likelihood ratios for evaluating DNA evidence when the suspect is found through a database search [J]. Biornetrics,1999,(55):671-677.
[5]Dawid,A. P.. Comment on Stockmarr’s“Likelihood ratios for evaluating DNA evidence when the suspect is found through a database search.”[J]. Biometrics,2001,(57):976-980.
[6]R. Meester,M. Sjerps. The evidential value in the DNA database search controversy and the two-stain problem [J]. Biometrics,2003,(59):727-732.
[7]G.Storvik,Thore Egeland.The DNADatabase Search Controversy Revisited: Bridging the Bayesian-Frequentist Gap [J]. Biometrics,2007,(63):922-925.
[8]P.M. Schneider,H. Schneider,R. Fimmers. Recommendations of the German Stain Commission regarding the statistical evaluation of matches following searches in the national DNA database[J]. Rechtsmedizin,2010,(20):111-115.
[9]R. Fimmers,H. Schneider,M.P. Baur,Reply to the letter of Taroni et al. Recommendations of the German Stain Commission regarding the statistical evaluation of matches following searches in the national DNA database[J]. Rechtsmedizin,2011,(21):57-60.
[10]F. Taroni,A. Biedermann,R. Coquoz,T. Letter to the Editor with reference to Schneider et al. Recommendations of the German Stain Commission regarding the statistical evaluation of matches following searches in the national DNA database[J]. Rechtsmedizin,2011,(21):55-57.
[11]Balding,D. J. The DNA database controversy[J]. Biometrics,2002,(58):241-244.
[12]Donnelly,P.,F(xiàn)riedman,R. D. DNA database searches and the legal consumption of scientific evidence[J]. Michigan Law Review,1999,(97):931-984.
[13]Anders,N.,Karin,H. Letter to the Editor [J]. Forensic Sci Int 2012,(217):e32-e33.
(本文編輯:李成濤)
鑒定制度
Forensic System
The Controversies on Database Searching in the Statistical Evaluation of DNA
ZHANG Zhi-jie,LV De-jian
(Department of Forensic Medicine,Zhongshan Medical College of Sun Yat-sen University,Guangzhou 510089,China)
Abstract:This paper reviews two controversies on forensic DNA database searching. The issue concerns the evidential value of a DNA profile match when the match result is obtained from the search of database. The first controversy starts on the conflicts of two different assessments of evidence. While the likelihood ratio strengthens the evidence with increasing n(size of database),the np rule decreases the evidence dramatically. The second controversy focuses on reducing the value of a database match and false probability of conviction. The arguments involve the likelihood ratio approach,np rule,Bayesian approach and Frequentist approach. Different scholars conclude different conclusions or opinions based on their standpoints. Although the database debate seems to be addressed,review of the two controversies will be helpful for understanding the forensic DNA statistics and evaluating value of a DNA profile match in forensic and legal theory and practice correctly.
Key words:forensic DNA database; DNA statistics; forensic DNA analysis
作者簡(jiǎn)介:張智杰(1992—),男,學(xué)士,主要從事法醫(yī)DNA數(shù)據(jù)庫研究。E-mail: tomatozzj@qq.com。
收稿日期:2015-03-08
文章編號(hào):1671-2072-(2015)05-0079-04
doi:10.3969/j.issn.1671-2072.2015.05.015
文獻(xiàn)標(biāo)志碼:A
中圖分類號(hào):DF795.4