国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

AUC統(tǒng)計(jì)特性概述

2021-07-29 14:04:18廣東工業(yè)大學(xué)王彥光朱鴻斌徐維超
電子世界 2021年13期
關(guān)鍵詞:正例協(xié)方差方差

廣東工業(yè)大學(xué) 王彥光 朱鴻斌 徐維超

接收機(jī)工作特性(ROC)曲線下面積(AUC)可從總體上對二類分類器的分類性能進(jìn)行評估,已被廣泛的應(yīng)用與各個領(lǐng)域。本文從AUC定義出發(fā),給出了AUC的概率解釋,以及AUC與曼惠特尼統(tǒng)計(jì)量的等價性,最后給出了AUC均值和方差的表達(dá)式的證明,以及零假設(shè)分布下AUC的均值和方差。

接收機(jī)工作特性曲線(Receiver Operating Characteristic Curve),簡稱ROC曲線。ROC曲線起源于二戰(zhàn)中的雷達(dá)目標(biāo)檢測領(lǐng)域,當(dāng)時它主要用來整體評價探測的性能通過描述雷達(dá)的檢測概率和虛警概率之間的相互制約關(guān)系。在此之后,ROC曲線以及ROC曲線下面積(AUC)在經(jīng)濟(jì)、醫(yī)療,科技等各個領(lǐng)域均有不同程度的發(fā)展與應(yīng)用。在此,特別需要提及的是AUC在醫(yī)療研究領(lǐng)域的實(shí)際應(yīng)用中得到了持續(xù)的發(fā)展,例如在醫(yī)學(xué)影像的診斷結(jié)果的評估,新冠病毒等流行病毒的識別,醫(yī)療試劑的效果評價等。在上個世紀(jì)的九十年代以后,AUC開始逐漸被用在人工智能領(lǐng)域諸如模式識別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘中的分類器性能評估。此后,隨著人工智能技術(shù)的發(fā)展,AUC成為一種主流的科學(xué)評估分類器算法性能與不同分類器之間性能比較的主要工具。一系列關(guān)于AUC的研究結(jié)論使得人工智能等科研人員對分類識別等算法的性能有了全面而又深刻的認(rèn)識。

1 AUC的概率解釋

定義1:對于一個由正例X={X1,X2, ...,Xm}和負(fù)例Y={Y1,Y2, ...,Yn}組成的數(shù)據(jù)集,存在一個閾值,使得,這里FX(x)和FY(x)分別是X和Y的概率分布函數(shù)。令。則ROC可以定義為:,ROC曲線下面積AUC定義為:

我們知道AUC是一種很好分類器評價方法,可以用來評估和比較與選擇的準(zhǔn)確決策閾值無關(guān)的分類模型的總體性能。AUC=1.0表示分類器性能最好,AUC=0.5表示分類器隨機(jī)進(jìn)行分類決策的性能,這個決策與拋硬幣的概率是等效的。分類算法的AUC值越大代表分類器性能越好,這也是AUC最直觀的理解和解釋。其實(shí),AUC還有一個更深刻的理解和解釋,它還可以用概率解釋。

證明:設(shè)X代表正例,Y代表負(fù)例,F(xiàn)X(●)和FY(●)代表相應(yīng)的概率分布函數(shù),fX和fY代表相應(yīng)的概率密度函數(shù)。由AUC和ROC的定義,我們得到:

其中,上式中是利用ROC的定義中變量的轉(zhuǎn)換。再根據(jù)正例X和負(fù)例Y之間的相互獨(dú)立性,我們得到:

從上面的證明過程我們可以看出,從樣例中隨機(jī)挑選一對正例和負(fù)例組成的樣本對,分類算法根據(jù)分類器計(jì)算得到的score值將正例排在負(fù)例前面的概率就是AUC值。AUC值越大,表明分類算法將正例排在負(fù)例前面概率越大,也就是分類效果越好。

從AUC的定義我們可以看出,AUC的取值范圍是[0,1],而不是[0.5,1],這是因?yàn)槲覀儾]在ROC曲線的定義中定義。這樣在度量正例和負(fù)例的分布差異時,如果AUC小于0.5,它表示分類器預(yù)測的與標(biāo)注的標(biāo)簽相反。

從AUC的概率解釋,可以看出AUC能夠度量兩樣本分布的差異,兩樣本分布差異越大,AUC值也越大。

2 AUC與Mann-Whitney U統(tǒng)計(jì)量的關(guān)系

H.B.Mann和D.R.Whitney提出Mann-Whitney U Statistics(MW)來比較兩個樣本的大小。令與;它們來自兩個連續(xù)的樣本,并且滿足獨(dú)立的相同分布。FX(x)和FY(y)分別用概率密度函數(shù)Fx(x)和Fy(y)任意分布來表示,假設(shè)和是相互獨(dú)立的。根據(jù)Mann Whitney U的統(tǒng)計(jì)資料,X和Y之間的關(guān)系有如下關(guān)系:

在公式(5)中θ有另外的含義,它表示出X>Y的可能性等于在ROC曲線下的面積AUC。

3 AUC的均值和方差

定理2:用θ來表示ROC曲線下的面積AUC,F(xiàn)X(x)和FY(y)是一些未知的參數(shù),θ的均值和方差可以計(jì)算為:

其中:

以上,X是X'的獨(dú)立恒等分量,Y是Y'的獨(dú)立恒等分量。

證明:利用公式(5),我們可以得到:

類似地,從公式(5)中,我們可以得到:

在式(9)中,S2協(xié)方差的和表示所有組合除了(i = l,J = k),對于公式(9)中的第一項(xiàng),標(biāo)注它為S1:

對于式(9)中的協(xié)方差項(xiàng),注意到協(xié)方差S2除非在i = l或j = k的情況下是0。因此可以按照兩種情況把S2分為兩個部分,注解為R1和R2,進(jìn)而有:

當(dāng)i = l和j ≠ k時,有m種方式去得到,且有n(n-1)種方式使得j ≠ k,因此有mn(n-1)種式(9)中的協(xié)方差項(xiàng)形式,我們知道R1滿足:

當(dāng)i ≠ l和j = k時有m(m-1)種方式得到i ≠ l且n種方式得到j(luò);因此有mn(m-1)種式(9)中的協(xié)方差項(xiàng)形式,我們得到R2滿足:

由上面式(10)~(13),我們得到如下最終結(jié)果:

由公式(7)的子項(xiàng)表達(dá)式,可以得到:

將Q0,Q1和Q2代入公式(7),我們可以得到:

結(jié)論:接收機(jī)工作特性曲線分析當(dāng)前廣泛應(yīng)用于醫(yī)學(xué)、經(jīng)濟(jì)、機(jī)器學(xué)習(xí)等科學(xué)領(lǐng)域。接收機(jī)工作特性曲線下的面積(AUC)對二分類器的性能進(jìn)行有效評估。對于AUC相關(guān)分析,本文使用應(yīng)用比較廣泛的非參數(shù)方法,即利用AUC與Mann-Whitney U統(tǒng)計(jì)量的關(guān)系對AUC的均值以及方差進(jìn)行推導(dǎo)證明。除此之外,考慮到某些情況下需要對模型的進(jìn)行假設(shè)檢驗(yàn),因此,本文還進(jìn)一步推導(dǎo)了零假設(shè)情況下AUC的均值和方差的計(jì)算。

猜你喜歡
正例協(xié)方差方差
小學(xué)生舉例表現(xiàn)與概念理解的相關(guān)性研究
方差怎么算
概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
基于概念形成的教學(xué)研究
計(jì)算方差用哪個公式
方差生活秀
高中數(shù)學(xué)概率教學(xué)中的誤區(qū)與應(yīng)對策略分析
不確定系統(tǒng)改進(jìn)的魯棒協(xié)方差交叉融合穩(wěn)態(tài)Kalman預(yù)報(bào)器
一種基于廣義協(xié)方差矩陣的欠定盲辨識方法
“絕不”與“決不”的區(qū)別
珲春市| 嘉兴市| 宿州市| 新巴尔虎右旗| 元朗区| 博湖县| 民丰县| 巍山| 宜宾市| 孟州市| 沈阳市| 建德市| 德钦县| 九台市| 格尔木市| 射洪县| 金湖县| 镇原县| 寻乌县| 新宁县| 安塞县| 泽州县| 舒兰市| 石狮市| 琼海市| 开远市| 娱乐| 凤翔县| 华池县| 水富县| 宾阳县| 莱西市| 兴隆县| 都江堰市| 三门峡市| 城市| 高密市| 德阳市| 绥化市| 万载县| 滕州市|