国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)背景下ROC曲線介紹與應(yīng)用

2021-01-04 18:19:37李子言
科教導(dǎo)刊 2021年14期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

李子言

摘要ROC曲線是研究二分類問題中一種簡便、高效的綜合性工具,它通過連接真陽率與假陽率在不同切斷點(diǎn)或者閾值下的值,構(gòu)造出一條單調(diào)遞增曲線,曲線下的面積AUC即可作為衡量診斷效果的指標(biāo),面積數(shù)值越大,則代表該分類方法越有效。ROC曲線在算法效度研究,心理測評(píng),[1]臨床醫(yī)學(xué)診斷中都有廣泛的應(yīng)用。本文簡單介紹了ROC曲線的構(gòu)造方法、基本性質(zhì)和實(shí)際意義,并以生物醫(yī)學(xué)和機(jī)器學(xué)習(xí)的三個(gè)例子深入介紹了不同情形下ROC曲線的應(yīng)用,最后總結(jié)ROC曲線的優(yōu)缺點(diǎn)和應(yīng)用場景。

關(guān)鍵詞 ROC曲線 AUC生物醫(yī)學(xué) 機(jī)器學(xué)習(xí) 二分類

中圖分類號(hào):R195文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.16400/j.cnki.kjdk.2021.14.026

IntroductionandApplicationofROCCurveundertheBackgroundofBigData

LI Ziyan

(School of Mathematics and Statistics, Central China Normal University, Wuhan, Hubei 430079)

AbstractROC curve is a simple and efficient comprehensive tool in the study of binary classification. It constructs a monotonic increasing curve by connecting the true positive rate and false positive rate at different cut-off points or thresholds. The area AUC under the curve can be used as an index to measure the diagnosis effect. The larger the area is,the more effective the classification method is.ROC curve is widely used in algorithm validity research, psychologicalevaluation,clinicaldiagnosis.This paperbriefly introducestheconstructionmethod,basicpropertiesand practical significance of ROC curve, and introduces the application of ROC curve in different situations with three examples ofbiomedicine and machinelearning.Finally, it summarizes theadvantages and disadvantages of ROCcurve and application scenarios.

KeywordsROC curve; AUC; biomedical science; machine learning; dichotomy

1 ROC曲線的介紹

1.1 ROC曲線

ROC曲線(Receiver Operator Characteristic Curve,接收者操作特征曲線)是一種研究二分類問題的有效工具。對(duì)于二分類問題,它的樣本只有正樣本和負(fù)樣本兩類,但某些情形中,一個(gè)實(shí)驗(yàn)可以提供多個(gè)結(jié)果而不是簡單的正樣本和負(fù)樣本,甚至在某些情形中,實(shí)驗(yàn)結(jié)果是連續(xù)性變量。因此通過以假陽率為橫軸、縱軸為真陽率,ROC曲線可以將不同閾值下計(jì)算的準(zhǔn)確值指標(biāo),比如以識(shí)別實(shí)驗(yàn)結(jié)果是正樣本或假樣本的不同切斷點(diǎn)(cut-off-point)計(jì)算出的準(zhǔn)確值指標(biāo)連成一條曲線,曲線下面積則構(gòu)成了檢驗(yàn)整個(gè)診斷精度的一個(gè)合理指標(biāo)。[2]ROC曲線常在醫(yī)學(xué)中確定診斷準(zhǔn)則時(shí)有重要應(yīng)用。

在醫(yī)學(xué)中一個(gè)癥狀(或一組癥狀,或篩選檢驗(yàn))的真陽率是疾病發(fā)生后出現(xiàn)癥狀的概率,又稱為靈敏度。

需要注意的是,顯然在同一種簡單的分類方法中,切斷點(diǎn)越多,對(duì)應(yīng)的ROC曲線下面積越大,因此對(duì)比兩種分類方法時(shí),切斷點(diǎn)的數(shù)量是固定的。但并不一定要求切斷點(diǎn)數(shù)量一致,因?yàn)榍袛帱c(diǎn)的數(shù)量也可以理解為分類方法的內(nèi)容之一。通常,我們認(rèn)為有五個(gè)以上切斷點(diǎn)的分類或者連續(xù)型數(shù)據(jù)才有繪制ROC曲線的必要。[3]

當(dāng)AUC=1時(shí),所使用的分類器被稱為完美分類器,無論什么閾值都能獲得完全準(zhǔn)確的預(yù)測,但在現(xiàn)實(shí)情況中這樣的分類器一般不存在。

當(dāng)0.5

當(dāng)AUC=0.5時(shí),使用的分類器與隨機(jī)預(yù)測相同,類似于丟硬幣,預(yù)測正確和錯(cuò)誤的概率均為50%,該分類器沒有一個(gè)好的預(yù)測價(jià)值。

當(dāng)AUC<0.5時(shí),使用的分類器比隨機(jī)預(yù)測效果更差,但此時(shí)可以反著預(yù)測,則得到0.5

使用AUC的原因是當(dāng)兩種分類器的ROC曲線相交的時(shí)候,很難直觀判斷出哪個(gè)分類器的性能更好,而AUC能夠比較數(shù)值大小,AUC數(shù)值越大則分類器性能越好。

當(dāng)測試樣本很有限時(shí),ROC曲線圖形是階梯狀的,如圖2,于是計(jì)算每個(gè)階梯下的小矩形面積之和就可以獲得AUC。

但這個(gè)方法實(shí)際上計(jì)算是比較麻煩的,還有一種ROC AUCH法,與梯形面積法都是以逼近法求近似值。[5]

2大數(shù)據(jù)背景下ROC曲線的實(shí)際應(yīng)用

2.1精神衛(wèi)生

中國人的最少精神病測驗(yàn)(CMMS)由114個(gè)項(xiàng)目組成,用于去識(shí)別老年性癡呆。這個(gè)指標(biāo)也被延伸且用到臨床。每個(gè)老人與精神病醫(yī)生及護(hù)士談話并被診斷是否有老年性癡呆。表2僅列出一部分正式受過教育的部分老人資料。

改變分界點(diǎn)值,分別取5,10,15,20,25,30,當(dāng)CMMS合計(jì)值小于該分界點(diǎn)者識(shí)別為有老年性癡呆,計(jì)算真陽率和假陽率構(gòu)建ROC曲線如圖3。

使用梯形面積法,計(jì)算出ROC曲線下的面積s=0.08091,這個(gè)面積意味著醫(yī)生能按照CMMS分?jǐn)?shù)的相對(duì)順序而正確地把一個(gè)非老年癡呆患者從老年癡呆患者中識(shí)別出來的概率是80.91%。當(dāng)正常受試者與不正常受試者有相同分?jǐn)?shù)時(shí),學(xué)者可以隨機(jī)地做決定。

一般情況下,對(duì)于相同疾病地兩個(gè)篩選檢驗(yàn)中,ROC曲線下面積大者被認(rèn)為是較好地檢驗(yàn)。但在某種特殊情形下可以例外,比如在兩個(gè)檢驗(yàn)比較中,某個(gè)值的真陽率或假陽率特別重要時(shí),面積的比較就沒有必要了。

2.2糖尿病預(yù)測算法分析

糖尿病是目前世界上較普遍的一種疾病,且發(fā)病率和患病率逐年提升,甚至日漸呈現(xiàn)低齡化的趨勢,通過皮瑪族印第安女性糖尿病數(shù)據(jù)集(PimaIndiansWomenDiabetes)進(jìn)行分類預(yù)測,并繪制不同算法的ROC曲線,可以尋找高效預(yù)測糖尿病的算法,提高預(yù)測精度,幫助人們盡早發(fā)現(xiàn)糖尿病風(fēng)險(xiǎn)。[6]

對(duì)于此類算法而言,由于結(jié)果與閾值沒有很大聯(lián)系,于是可以僅采用一個(gè)切斷點(diǎn),即一次輸出的結(jié)果,與原點(diǎn)和(0,1)點(diǎn)連接,得到僅有一個(gè)折點(diǎn)的ROC曲線。雖然這樣不能橫向比較同一個(gè)算法中不同分類效果的影響,但通過對(duì)折線下面積的比較,仍然能縱向比較不同算法的分類效果。

如果基于30%的測試集迭代隨機(jī)森林、隨機(jī)森林、K最近鄰、支持向量機(jī)、Logistic回歸、梯度提升機(jī)、決策樹和人工神經(jīng)網(wǎng)絡(luò)分類模型分別畫出ROC曲線。[7]當(dāng)一條曲線完全包裹另一條曲線時(shí),則認(rèn)為該算法更優(yōu),而本例得到的結(jié)果中,迭代隨機(jī)森林、隨機(jī)森林和K最近鄰三個(gè)分類模型的ROC曲線包裹了其他曲線且相交,無法直觀判斷算法優(yōu)良性。此時(shí)便借助AUC值,由于這里只有一個(gè)折點(diǎn),通過梯形面積法很快地就能獲得這三種算法的AUC值,迭代隨機(jī)森林的AUC值為0.7427,高于K最近鄰的0.7407和隨機(jī)森林的0.7368。因此下結(jié)論,認(rèn)為迭代森林算法在該數(shù)據(jù)的分類上有最優(yōu)秀的效果。

2.3人臉識(shí)別

在人臉識(shí)別技術(shù)中,ROC曲線也有重要應(yīng)用,在人臉檢測數(shù)據(jù)集和基準(zhǔn)官方網(wǎng)站(FDDB)中,對(duì)于不同的人臉檢測技術(shù),并考慮閾值,繪制ROC曲線,得到圖4。

圖中,橫軸是誤報(bào)數(shù),縱軸是檢測率,不同曲線代表著不同人臉識(shí)別算法。其中ROC曲線越陡峭,越高的算法性能更好,于是該圖能簡明快速地幫助學(xué)者尋找性能最好的人臉識(shí)別算法。

3 ROC曲線的優(yōu)缺點(diǎn)

3.1優(yōu)點(diǎn)

(1)直觀,ROC曲線將靈敏度和特異度以曲線圖像的形式綜合分析,可以肉眼觀察分類模型的性能。

(2)平衡性好,ROC曲線繪制過程中同時(shí)考慮到正樣本和負(fù)樣本,且即使正樣本與負(fù)樣本的比例發(fā)生了很大變化,ROC曲線也不會(huì)產(chǎn)生大的變化。

(3)簡單,ROC曲線所采用的兩個(gè)指標(biāo),TPR和FPR都不依賴于樣本具體的分布。

3.2缺點(diǎn)

ROC曲線對(duì)類分布的改變不敏感。[8]

這點(diǎn)既是優(yōu)點(diǎn)也是缺點(diǎn)。類分布就是測試集中正例和負(fù)例的比例。在實(shí)際應(yīng)用中,類分布的不平衡現(xiàn)象非常廣泛,類分布不平衡程度達(dá)到1:10,1:100的情況非常常見,有的甚至達(dá)到1:106。

一方面,這種嚴(yán)重的不平衡的類分布使得一些傳統(tǒng)的評(píng)價(jià)標(biāo)準(zhǔn)不再適用,而ROC曲線由于不受類分布的影響,適合于評(píng)估、比較這種不平衡數(shù)據(jù)集。另一方面,當(dāng)模型分類中主要關(guān)心正例的預(yù)測準(zhǔn)確性時(shí),ROC曲線便不好應(yīng)用。并且如果負(fù)例的數(shù)目眾多,會(huì)使得,F(xiàn)PR的增長不明顯,導(dǎo)致ROC曲線呈現(xiàn)一個(gè)過分樂觀的效果估計(jì),大量負(fù)例被錯(cuò)判成正例,在ROC曲線上卻無法直觀地看出來。

在大數(shù)據(jù)分析中,ROC曲線是一種非常形象直觀、操作簡單的方法,受到很多數(shù)據(jù)分析師的青睞。[9]

參考文獻(xiàn)

[1]郭秀艷,楊治良.實(shí)驗(yàn)心理學(xué).人民教育出版社,2004:292-295.

[2]伯納德·羅斯納著.生物統(tǒng)計(jì)學(xué)基礎(chǔ)(第五版).孫尚拱譯.科學(xué)出版社,2020.7.

[3]王曼,徐春燕,施學(xué)忠.醫(yī)學(xué)論文中ROC曲線應(yīng)用錯(cuò)誤例析.編輯學(xué)報(bào),2019,(02):159-161.

[4]雷明.機(jī)器學(xué)習(xí)與應(yīng)用.清華大學(xué)出版社,2019.1.

[5]分類學(xué)習(xí)算法的性能度量指標(biāo)綜述,楊杏麗,計(jì)算機(jī)科學(xué),網(wǎng)絡(luò)首發(fā)2021-04-21.

[6]王成武,晏峻峰.早期糖尿病風(fēng)險(xiǎn)預(yù)測模型的比較研究,智能計(jì)算機(jī)與應(yīng)用. 2021,(01).

[7]劉文博,梁盛楠,秦喜文,等.基于迭代隨機(jī)森林算法的糖尿病預(yù)測,長春工業(yè)大學(xué)學(xué)報(bào),2019,40(06),604-611.

[8]J-JunLiang.P-R曲線與ROC曲線使用總結(jié). https://blog.csdn.net/ jliang3/article/details/88881315.

[9]Two sensitivity orders applied to the comparison of ROC curves,Ramos HéctorM.; Ollero Jorge; Suárez Llorens Alfonso,Communications inStatistics -Theory andMethods,Volume50,Issue 8. 2021. PP 1884-1896.

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
闽清县| 铁岭县| 信阳市| 中方县| 兰考县| 陈巴尔虎旗| 永清县| 新化县| 玉田县| 固镇县| 宁陵县| 晋宁县| 二连浩特市| 大悟县| 涟源市| 衡阳县| 武鸣县| 阜平县| 靖安县| 湘潭市| 万州区| 五指山市| 屏东县| 英超| 嵩明县| 闸北区| 乌拉特后旗| 静海县| 祁阳县| 葫芦岛市| 安岳县| 扬州市| 专栏| 凌海市| 化州市| 当雄县| 石林| 乐清市| 三门县| 北宁市| 开鲁县|