国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新興技術(shù)識別中的不均衡分類研究
——基于代價敏感的隨機(jī)森林算法

2022-11-23 12:03:54盧小賓張楊燚楊冠燦行佳鑫
情報學(xué)報 2022年10期
關(guān)鍵詞:代價分類器專利

盧小賓,張楊燚,楊冠燦,行佳鑫

(中國人民大學(xué)信息資源管理學(xué)院,北京 100872)

1 引言

隨著大數(shù)據(jù)的積累和全球化競爭的加劇,新興技術(shù)識別(emerging technologies identification)對于科技創(chuàng)新、競爭情報等相關(guān)領(lǐng)域的戰(zhàn)略意義日益凸顯。專利通常是一項技術(shù)誕生時尋求壟斷權(quán)利保護(hù)的有效和必要方式,大規(guī)模的專利數(shù)據(jù)包括了技術(shù)相關(guān)的各種關(guān)鍵信息,為新興技術(shù)的早期預(yù)測與識別積累了豐富而有價值的數(shù)據(jù)基礎(chǔ)。針對大規(guī)模的海量專利數(shù)據(jù)實現(xiàn)自動化的前瞻性預(yù)測逐漸成為新興技術(shù)識別的研究重點和發(fā)展趨勢,尤其是基于專利指標(biāo)體系的機(jī)器學(xué)習(xí)分類預(yù)測,目前已被廣泛地應(yīng)用于新興技術(shù)識別的各種場景。

然而,在新興技術(shù)識別這一復(fù)雜問題中,多數(shù)研究都關(guān)注如何根據(jù)特征工程構(gòu)建更完善的專利指標(biāo)以捕捉新興技術(shù)的特征信息,卻忽略了以專利為代表的海量技術(shù)發(fā)明涌現(xiàn)為新興技術(shù)這一事件往往具有小概率的特征,是一種典型的不均衡數(shù)據(jù)分類問題,其預(yù)測效果也會受數(shù)據(jù)集正負(fù)樣本分布不均衡因素等影響,出現(xiàn)分類結(jié)果偏向多數(shù)類的現(xiàn)象,無法實現(xiàn)成功預(yù)測少數(shù)新興技術(shù)涌現(xiàn)的理想效果。傳統(tǒng)研究中,為了規(guī)避數(shù)據(jù)不均衡對新興技術(shù)識別效果的制約,多在數(shù)據(jù)采集階段通過一系列人工的操作,獲取經(jīng)人工篩選后的均衡數(shù)據(jù)集,使機(jī)器學(xué)習(xí)的過程可以運行。但隨著當(dāng)前自動化專利推薦、新興技術(shù)識別趨勢的興起,如何改進(jìn)與優(yōu)化分類策略以提升機(jī)器學(xué)習(xí)面臨新興技術(shù)識別中不均衡分類問題的表現(xiàn),實現(xiàn)在大規(guī)模數(shù)據(jù)上對新興技術(shù)進(jìn)行自動化的識別,成為制約基于機(jī)器學(xué)習(xí)的新興技術(shù)識別效果的瓶頸。

本研究聚焦于機(jī)器學(xué)習(xí)方法在新興技術(shù)識別中面臨不均衡分類問題的應(yīng)用,以預(yù)測癌癥藥物領(lǐng)域?qū)@欠裼谐蔀樾屡d技術(shù)潛質(zhì)的二分類場景為例,在數(shù)據(jù)層面比較漸進(jìn)式采樣思路對分類結(jié)果的影響,在評估層面引入代價敏感學(xué)習(xí),探究在缺乏專家經(jīng)驗時的代價矩陣驗證方式,并將其應(yīng)用于算法層面和決策評估的改進(jìn)。最終在此不均衡分類優(yōu)化的研究框架下,通過對分類預(yù)測效果的有效評價,嘗試在數(shù)據(jù)、算法和評估三個層面綜合實現(xiàn)更好地處理不均衡問題的改進(jìn)分類策略,解決新興技術(shù)識別場景下不均衡分類的預(yù)測問題。

2 相關(guān)研究

2.1 新興技術(shù)識別研究進(jìn)展

新興技術(shù)(emerging technologies)的概念最早由沃頓商學(xué)院Geroge等學(xué)者于2000年出版的Wharton on Managing Emerging Technologies中提出,該書將其明確歸納為“在科學(xué)理論或?qū)嵺`基礎(chǔ)上,具有新興行業(yè)開辟或者現(xiàn)有行業(yè)顛覆意義的創(chuàng)新型技術(shù)”[1]。早期的新興技術(shù)研究多聚焦于文獻(xiàn)或?qū)@麛?shù)據(jù),但以往思路往往只能實現(xiàn)對已存新興技術(shù)的事后評價而非預(yù)測性識別[2]。以德爾菲法(Delphi method)為典型的傳統(tǒng)預(yù)測性研究也因?qū)︻I(lǐng)域經(jīng)驗和精力的高要求以及缺乏直接數(shù)據(jù)支撐解釋而不適用于當(dāng)前大多數(shù)的預(yù)測情景[3]。當(dāng)前,新興技術(shù)識別的需求處于調(diào)整過程中,基于大規(guī)模數(shù)據(jù)的實時預(yù)測正在成為新興技術(shù)識別的重點及趨勢。目前,新興技術(shù)識別的定量研究主要方法如表1所示。

表1 新興技術(shù)識別的主要方法

2.2 機(jī)器學(xué)習(xí)中的不均衡分類問題

機(jī)器學(xué)習(xí)的分類方法能將新興技術(shù)識別問題轉(zhuǎn)化為分類預(yù)測問題,推動新興技術(shù)由傳統(tǒng)的回溯性分析轉(zhuǎn)變?yōu)榍跋虻念A(yù)測性分析,已被廣泛地應(yīng)用于新興技術(shù)識別的各種場景[9]。不均衡分類是數(shù)據(jù)分布復(fù)雜性導(dǎo)致的一種特殊分類場景[10],在不均衡分類問題中,原始數(shù)據(jù)里不同類別的樣本比例差距很大,由于少數(shù)類通常反映出更受重視的信息,是研究的重點,因此,將少數(shù)類記作正類,多數(shù)類記作負(fù)類[11]。在機(jī)器學(xué)習(xí)模型的訓(xùn)練過程中,數(shù)據(jù)不均衡分類主要面臨幾個方面問題[12]:少數(shù)類樣本的稀缺性,包括少數(shù)樣本自身稀少的絕對稀缺和少數(shù)樣本自身不少但多數(shù)樣本過多的相對稀缺[13];難以區(qū)分噪聲數(shù)據(jù)與少數(shù)類數(shù)據(jù)的特征及差異,去噪工作難度大[14];以總體分類效果為學(xué)習(xí)目標(biāo)的分類器出現(xiàn)傾向于多數(shù)類的偏向性[15];以整體指標(biāo)(accura‐cy)評估模型缺乏價值。

2.3 不均衡分類問題的優(yōu)化研究

針對不均衡分類現(xiàn)象,目前主要從數(shù)據(jù)層面、算法層面和評估層面改進(jìn)分類模型的少數(shù)類預(yù)測能力。

(1)數(shù)據(jù)層面。對于不均衡分類數(shù)據(jù)集,可在進(jìn)行模型訓(xùn)練之前,將重采樣方法用于數(shù)據(jù)預(yù)處理以更改數(shù)據(jù)分布比例,達(dá)到均衡數(shù)據(jù)集訓(xùn)練分類器的目標(biāo)。目前,重采樣方法主要有擴(kuò)充少數(shù)類數(shù)據(jù)的過采樣和減少多數(shù)類數(shù)據(jù)的欠采樣。常見的過采樣技術(shù)包括隨機(jī)過采樣方法(random oversampling)[16]、SMOTE(synthetic minority oversampling technique)算法[17]、邊界過采樣(borderline-SMOTE)[18]、自適應(yīng)合成采樣(adaptive synthetic sampling,ADASYN)[19]等。常見的欠采樣技術(shù)有隨機(jī)欠采樣(random un‐dersampling)[20]、cluster centroids欠 采 樣[21]、near miss欠采樣[22]、Tomek links[23]。近年來,針對圖像、視頻方面的數(shù)據(jù)不均衡問題,生成對抗網(wǎng)絡(luò)(gen‐erative adversarial network,GAN)可以被用于數(shù)據(jù)增強(qiáng),如研究顯示經(jīng)過多重偽類生成對抗網(wǎng)絡(luò)(multiple fake classes GAN,MFC-GAN)[24]、條件生成對抗網(wǎng)絡(luò)(conditional GAN,cGAN)[25]數(shù)據(jù)增強(qiáng)后的分類效果都得到了顯著提升。

(2)算法優(yōu)化。常用的分類算法在不均衡分類中,往往由于不均衡分類的特征表現(xiàn)出對少數(shù)類較弱的預(yù)測能力。集成學(xué)習(xí)的思想是通過不同的選舉方法,將多個弱分類器組合成一個最終學(xué)習(xí)效果顯著提升的強(qiáng)分類器[26]。目前,提升(boosting)和裝袋(bagging)是較為經(jīng)典的兩種技術(shù)手段[27],構(gòu)建元模型來融合多個學(xué)習(xí)器的堆疊(stacking)思想也得到了部分應(yīng)用。但集成學(xué)習(xí)的目標(biāo)仍然是提升總體學(xué)習(xí)準(zhǔn)確率,在極度不均衡分類中不能解決根本性問題[28]。深度強(qiáng)化學(xué)習(xí)模型(deep reinforcement learning,DRL)[29]通過設(shè)計給予少數(shù)類樣本較大激勵函數(shù)的方法是有益的嘗試;圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)對于圖數(shù)據(jù)、流數(shù)據(jù)等體現(xiàn)出拓?fù)洳痪馓卣鞯臄?shù)據(jù)而言也具有顯著優(yōu)勢,如雙正則化GCN(dual-regularized GCN,DRGCN)[30]、重新加權(quán)GCN(re-weighted adversarial GCN,RA-GCN)[31]均能有效地防止基于圖的分類器偏向任何特定類。最后,結(jié)合了主動學(xué)習(xí)方法的均衡分類算法,能通過結(jié)合少量專家智慧極大提升模型分類的效率[32-33]。然而,上述研究進(jìn)展主要聚焦于具有特定數(shù)據(jù)結(jié)構(gòu)的研究領(lǐng)域,在適用范圍方面存在一定的局限性。因此,在解決不均衡分類場景時,還需要結(jié)合多層次多角度的嘗試進(jìn)行綜合優(yōu)化。例如,結(jié)合數(shù)據(jù)重采樣,Wu等[34]基于改進(jìn)的SMOTE和Ada‐Boost算法提出了客戶留存及流失預(yù)測分類器;引入代價敏感[35],在AdaBoost樣例權(quán)值更新中引入代價因子,構(gòu)建基于代價敏感的AdaBoost算法[36-38]。

(3)評估層面。代價敏感學(xué)習(xí)[39]用于誤分類代價不同的情況。其核心思想是利用代價矩陣(cost matrix)使不同誤分類產(chǎn)生有差異的懲罰,即非均等代價(unequal cost),使分類器更關(guān)注誤分類代價高的類別。目前,代價敏感信息的引入主要有以下類型[15]:①將代價敏感因子以權(quán)重的方式引入分類模型[40],如最經(jīng)典的AdaBoost迭代改進(jìn)就是Fan等[41]的基于代價權(quán)重的AdaCost;②將代價敏感作為結(jié)果處理階段的元模型,以stacking集成學(xué)習(xí)方式結(jié)合入傳統(tǒng)分類模型的輸出結(jié)果,例如,Domin‐gos[42]提出的MetaCost基于stacking“元學(xué)習(xí)”通過最小期望代價作用于類別修正標(biāo)簽;③重新構(gòu)建基于代價敏感特征的分類器,將代價敏感的特征直接擬合于分類器的基本邏輯,對其整體的損失函數(shù)、訓(xùn)練特征或內(nèi)部機(jī)制進(jìn)行優(yōu)化,例如,在決策樹的歸納過程中通過代價函數(shù)控制其剪枝規(guī)則[43]。

3 研究設(shè)計

本研究從數(shù)據(jù)、算法和評估三個方面綜合考慮如何解決新興技術(shù)識別中的數(shù)據(jù)不均衡問題,以期望獲得更優(yōu)的新興技術(shù)識別的預(yù)測結(jié)果,為后續(xù)類似不均衡數(shù)據(jù)問題的解決提供參考。技術(shù)路線如圖1所示。

圖1 技術(shù)路線

3.1 數(shù)據(jù)來源

在各高新技術(shù)行業(yè)中,制藥領(lǐng)域的癌癥藥物研發(fā)專利一直受到廣泛關(guān)注,選擇該領(lǐng)域進(jìn)行實證研究主要具有以下必要性和優(yōu)勢:藥物專利數(shù)據(jù)集通常在全球范圍內(nèi)都有較好的開放共享性;涉及大規(guī)模投資和研發(fā)高風(fēng)險,且技術(shù)價值與其商業(yè)價值直接相關(guān),能較好地體現(xiàn)與之相關(guān)的新興技術(shù)規(guī)劃與布局等戰(zhàn)略;藥物研發(fā)的創(chuàng)新性即是否能夠涌現(xiàn)為新興技術(shù),相比于其他領(lǐng)域容易評價,例如,在美國,獲得專利頒發(fā)機(jī)構(gòu)許可的癌癥藥物僅僅是獲得技術(shù)的認(rèn)證,只有當(dāng)其同時獲得了FDA(Food and Drug Administration,美國食品和藥物管理局)授權(quán)許可,才意味著其成為滿足上市要求的新藥。因此,癌癥藥物專利集作為該領(lǐng)域技術(shù)的集合,預(yù)測此類專利是否有可能獲得FDA授權(quán)可充分地作為新興技術(shù)識別的目標(biāo)。

數(shù) 據(jù) 集 采 用2016年USPTO(United States Pat‐ent and Trademark Office)癌癥登月計劃開放的癌癥藥物專利數(shù)據(jù)集(Moonshot Cancer Drug Patents)。該癌癥藥物專利數(shù)據(jù)集包含了已發(fā)表和已授權(quán)的癌癥藥物相關(guān)的專利記錄及詳細(xì)信息。同時,為了補充本研究目標(biāo)所需要而該數(shù)據(jù)集尚不完整的信息,基于專利號碼,進(jìn)一步根據(jù)PatentsView API和EPO OPS API對需要的著錄數(shù)據(jù)和家族數(shù)據(jù)進(jìn)行補充。此外,該專利數(shù)據(jù)集中的FDA授權(quán)許可信息僅截止到發(fā)布日期,通過FDA發(fā)布的授權(quán)藥品數(shù)據(jù)說明(即俗稱的“橘皮書”)補充了部分遺漏的藥物專利是否得到FDA授權(quán)的信息。

最終,經(jīng)過數(shù)據(jù)預(yù)處理和篩選,得到2005年1月1日至2015年12月31日的癌癥藥物專利數(shù)據(jù)共61988條。其中,F(xiàn)DA授權(quán)的標(biāo)簽數(shù)據(jù)僅有793條,非授權(quán)的標(biāo)簽數(shù)據(jù)達(dá)到61195條,數(shù)據(jù)極不均衡,只有約1.28%的專利同時能得到FDA的授權(quán),獲得批準(zhǔn)上市,正負(fù)類樣本比例(imbalanced ratio,IR)約為1∶77.17,是典型的新興技術(shù)識別中的不均衡分類數(shù)據(jù)集。表2展示了該數(shù)據(jù)集的統(tǒng)計信息。

表2 數(shù)據(jù)集統(tǒng)計

3.2 專利特征指標(biāo)

由于本研究的關(guān)注重點在于新興技術(shù)識別過程中不均衡分類問題的解決,因此,在選取專利特征指標(biāo)時,遵循簡潔性、代表性和權(quán)威性的指導(dǎo)原則,采用經(jīng)典研究中被廣泛采用的專利指標(biāo)作為專利特征的評價,重點在于體現(xiàn)出新興技術(shù)的關(guān)鍵特征:創(chuàng)新性、相對增長性、連續(xù)性、社會經(jīng)濟(jì)影響力[44-47]。具體的專利特征變量及說明如表3所示。抽取并計算特征變量,表4匯總了本研究中所有專利特征指標(biāo)的描述性統(tǒng)計量。

表3 專利特征指標(biāo)及說明

表4 專利特征指標(biāo)的描述性統(tǒng)計

3.3 數(shù)據(jù)集劃分

采用時間抽樣(out-of-time sampling)和分層抽樣(stratified sampling)結(jié)合的方法將原始數(shù)據(jù)集抽分為三個互斥的樣本集,分別用于訓(xùn)練、驗證及測試。首先,利用時間抽樣法將樣本分割為訓(xùn)練集和測試集。時間抽樣法是一種非隨機(jī)的留出法(holdout sampling),其以時間為依據(jù)進(jìn)行定向抽樣,在模型的評估中會更關(guān)注模型對于現(xiàn)在乃至未來成功預(yù)測出FDA授權(quán)的目標(biāo)表現(xiàn),符合面向未來的預(yù)測識別需求;其次,采用分層抽樣的方式進(jìn)一步劃分訓(xùn)練集和驗證集。分層抽樣能夠在數(shù)據(jù)集分割的同時,保持其中正負(fù)類樣本的比例不變,相當(dāng)于分別對正負(fù)類樣本進(jìn)行等比例抽樣,選取訓(xùn)練集和驗證集的比例分別為80%和20%。最終,根據(jù)新興技術(shù)識別的具體應(yīng)用場景劃分?jǐn)?shù)據(jù)集,如表5所示,進(jìn)一步印證了基于癌癥藥物領(lǐng)域?qū)@男屡d技術(shù)識別是不均衡分類的典型問題。

表5 數(shù)據(jù)集劃分統(tǒng)計

3.4 基于代價敏感學(xué)習(xí)的隨機(jī)森林構(gòu)建

3.4.1 模型選擇

隨機(jī)森林(random forest,RF)是不剪枝的樹集成分類器[55],將多個互相獨立的決策樹通過裝袋(bootstrap aggregating,bagging)的形式構(gòu)建出大規(guī)模的集成模型。因此,當(dāng)決策樹的總量足夠大以及滿足抽樣隨機(jī)性時,隨機(jī)森林的多樣性和泛化能力會增強(qiáng)。在具體的實驗過程中,通過比較模擬確定以下綜合較優(yōu)的關(guān)鍵超參數(shù):n_estimators設(shè)置為400,即采用400棵子樹作為基分類器,此時模型的泛化能力飽和;max_features采用所有專利特征屬性,本研究的特征屬性僅11個,構(gòu)建分類器時考慮所有特征的模型性能更優(yōu)。在此基礎(chǔ)上,袋外評估和隨機(jī)性確保了隨機(jī)森林模型的泛化能力,且由于訓(xùn)練集、驗證集和測試集中正負(fù)樣本的比例和完整數(shù)據(jù)集的比例較為一致,在模型結(jié)果評估時均采用測試集,不必再進(jìn)行分層交叉驗證。

3.4.2 改進(jìn)思想

遵循代價敏感學(xué)習(xí)的理念,將代價矩陣引入隨機(jī)森林的做法主要有三種:其一,以代價矩陣為基礎(chǔ)對隨機(jī)森林自主法采樣進(jìn)行改進(jìn)[40];其二,構(gòu)建基于代價矩陣的代價敏感基分類器[56];其三,在決策階段針對決策樹的葉結(jié)點和集成決策環(huán)節(jié)采用加權(quán)的多數(shù)投票。如圖2所示。假定類別之間以代價矩陣的形式定義了不對稱的錯分成本,從而實現(xiàn)不同的錯誤分類懲罰項的方法被稱為加權(quán)隨機(jī)森林(weighted random forest)[57]。

圖2 代價敏感隨機(jī)森林改進(jìn)

3.4.3 分類訓(xùn)練:代價敏感的基分類器

傳統(tǒng)隨機(jī)森林算法使用的基分類器是決策樹,隨機(jī)選取屬性進(jìn)行分裂,而選擇最佳分割的方式通常是計算劃分后子結(jié)點的最低不純度,因為不純度越低,代表在此結(jié)點中的類分布就越有偏向性,越集中為某一類。不純度的估計一般以最小基尼系數(shù)法作為切分節(jié)點的分割標(biāo)準(zhǔn)。

在代價敏感的隨機(jī)森林中,針對單個基分類器的歸納過程,采用類權(quán)值計算用于選擇分裂切分點的Gini(t)的加權(quán)最小Gini(t),尋找對應(yīng)的代價不純度最低的最佳分割標(biāo)準(zhǔn)。因此,Gini(t)的表達(dá)式轉(zhuǎn)變?yōu)?/p>

其中,i表示類別;C表示類別的個數(shù)。

3.4.4 決策規(guī)則:代價敏感的多數(shù)投票

除了修改作為基分類器的單個決策樹的分裂標(biāo)準(zhǔn),代價敏感信息也會被加入樹的葉結(jié)點即終端決策規(guī)則中去。引入代價敏感思想后,每棵決策樹終端葉結(jié)點的類別判定不再取決于該結(jié)點樣本中數(shù)量居多的類別,而會納入以權(quán)重表示的代價。對于單棵決策樹來講,在最后的分類決策中,葉結(jié)點t指派為正類的概率轉(zhuǎn)變?yōu)?/p>

最后,每棵樹終端葉結(jié)點的類預(yù)測均轉(zhuǎn)為加權(quán)多數(shù)投票,隨機(jī)森林最終預(yù)測類別就是所有樹平均加權(quán)投票值高的類[57],提升了隨機(jī)森林中對不均衡分類更為敏感的樹在多數(shù)投票決策階段的話語權(quán)。

3.5 模型評估及目標(biāo)

在不均衡分類問題中,由于少數(shù)類通常反映更受重視的預(yù)測結(jié)果,是重點的研究對象,一般都將少數(shù)類作為正類(positive,P),多數(shù)類記作負(fù)類(negative,N)[11]。根據(jù)測試樣本的實際歸屬類別與模型的預(yù)測結(jié)果輸出,混淆矩陣能組合出如表6所示的真正例、假正例、真負(fù)例和假負(fù)例四類分類評價。基于二分類混淆矩陣,本研究所采用的評估指標(biāo)計算方式和說明如表6所示。

表6 二分類混淆矩陣

(1)整體準(zhǔn)確率(accuracy):表示模型預(yù)測正確的樣本總和與所有樣本總和之比,

accuracy=(TP+TN)/(TP+TN+FP+FN)

(2)靈敏度(sensitivity)和特異度(specificity):靈敏度表示模型的真正率(true positive rate,TPR),即被正確預(yù)測為正類的樣本數(shù)量與實際所有正類樣本的比例,體現(xiàn)出少數(shù)類被正確預(yù)測出的分類水平;特異度表示模型的真負(fù)率(true negative rate,TNR),即被正確預(yù)測為負(fù)類的樣本數(shù)量與實際所有負(fù)類樣本的比例,體現(xiàn)出多數(shù)類的正確分類水平。計算公式分別為

(3)ROC曲線與AUC值:ROC(receiver operat‐ing characteristic)曲線[58]根據(jù)混淆矩陣對所有可能的分類閾值效果進(jìn)行綜合衡量,本質(zhì)上是不同分類閾值下分類結(jié)果(TPR、FPR)表現(xiàn)的集合,是兼顧正負(fù)分類效果的評估方式,其中縱坐標(biāo)TPR與橫坐標(biāo)FPR(false positive rate)的計算方式分別為

AUC值(area under curve)表示ROC曲線中TPR和FPR對應(yīng)點的連線與坐標(biāo)軸包圍區(qū)域的面積,常被作為評價模型整體性能的測度指標(biāo)。AUC數(shù)值越大,模型的整體預(yù)測能力就越理想。

(4)G-mean[59-61]:在不均衡問題中,同時優(yōu)化多個指標(biāo)是困難的,通常需要進(jìn)行權(quán)衡。相較于傳統(tǒng)的F1值可能會受到不均衡環(huán)境下高FP值的欺騙,產(chǎn)生誤導(dǎo)[62],G-mean表示模型靈敏度(sensitivity)和特異度(specificity)的幾何平均,能夠綜合體現(xiàn)有效識別的總體水平,

4 實證分析

4.1 漸進(jìn)式采樣方法

以訓(xùn)練集的完整數(shù)據(jù)為基礎(chǔ),重構(gòu)多種重采樣數(shù)據(jù)集,將其與完整的采樣數(shù)據(jù)進(jìn)行比較。其中包括四種常見過采樣數(shù)據(jù)集:隨機(jī)過采樣數(shù)據(jù)、SMOTE過采樣數(shù)據(jù)、borderline-SMOTE數(shù)據(jù)和ADASYN數(shù)據(jù),以及四種常見欠采樣數(shù)據(jù)集:隨機(jī)欠采樣數(shù)據(jù)、cluster centroids數(shù)據(jù)、near miss數(shù)據(jù)和Tomek links數(shù)據(jù)。圖3展示了不同模型下各采樣方式ROC曲線的比較。

圖3 各采樣方式ROC曲線的比較

該實驗結(jié)果表明,盡管部分欠采樣和過采樣方法都可以有效地解決不均衡數(shù)據(jù)分類預(yù)測結(jié)果偏向多數(shù)類的問題,但其總體的性能表現(xiàn)卻具有較大差異。隨機(jī)欠采樣表現(xiàn)出了整體更優(yōu)的ROC曲線分布和AUC值,同時,不僅在預(yù)測建模上能夠顯著優(yōu)化分類器的分類性能和少數(shù)類識別能力,更能大幅提升模型的計算效率,是本數(shù)據(jù)集最適宜的采樣方式。

此外,將不均衡數(shù)據(jù)集均衡到什么程度能得到最佳的分類表現(xiàn)也是不均衡分類問題中值得探索的領(lǐng)域。例如,Kim等[63]通過邏輯回歸、樸素貝葉斯、隨機(jī)森林測試了負(fù)訓(xùn)練數(shù)據(jù)與正訓(xùn)練數(shù)據(jù)的比率如何影響機(jī)器學(xué)習(xí)算法在消除作者姓名歧義方面的性能;Peng等[64]在預(yù)測實時交通事故風(fēng)險的研究中探索了不同比例過采樣對實驗結(jié)果的影響。在保證正負(fù)樣本區(qū)分能力足夠的基礎(chǔ)上,不能簡單將正負(fù)類別的均衡比例設(shè)置為1∶1,而應(yīng)當(dāng)通過進(jìn)一步的實驗結(jié)果,結(jié)合分類目標(biāo)確定具體的均衡比例,注重數(shù)據(jù)均衡比例和原始樣本空間改變的平衡。因此,繼續(xù)采用隨機(jī)欠采樣,所有FDA授權(quán)的正類樣本仍然保留在數(shù)據(jù)集中,按照一定的比例隨機(jī)剔除整個樣本中的非FDA授權(quán)的負(fù)類數(shù)據(jù),使數(shù)據(jù)分布更加均衡。正負(fù)類樣本比例分別從1∶1到1∶20用于形成重采樣后的建模數(shù)據(jù)集。表7展示了不同隨機(jī)欠采樣比例下的訓(xùn)練集樣本描述,不同正負(fù)類均衡比例的組合在測試集的預(yù)測結(jié)果如圖4所示。

表7 漸進(jìn)式隨機(jī)欠采樣的訓(xùn)練集分布描述

從圖4可以發(fā)現(xiàn),總體上看,1∶2時,隨機(jī)森林的AUC值為各比例下的最高值(0.881),且在Gmean相比于1∶1損失僅約為0.015的條件下,保持了較高的整體準(zhǔn)確率。因此,使用隨機(jī)欠采樣并以正負(fù)均衡比例1∶2構(gòu)建的隨機(jī)森林模型在大大減少了分析的數(shù)據(jù)量且保留相對更多原始多數(shù)類樣本信息的基礎(chǔ)上,取得了綜合預(yù)測能力提升趨勢較為飽和的不錯的預(yù)測結(jié)果,更適合作為本研究后續(xù)代價敏感學(xué)習(xí)的基礎(chǔ)。

圖4 漸進(jìn)式隨機(jī)欠采樣的隨機(jī)森林比較

4.2 代價矩陣的設(shè)定

代價敏感學(xué)習(xí)的有效性在很大程度上取決于代價矩陣的確定,錯誤的初始化成本會損害模型的學(xué)習(xí)過程。因此,代價矩陣提供的參數(shù)對于代價敏感學(xué)習(xí)至關(guān)重要。目前主要通過兩種方式獲得成本矩陣:領(lǐng)域?qū)<姨峁┙?jīng)驗和目標(biāo),或者采取不同的代價矩陣驗證方法在分類器訓(xùn)練階段學(xué)習(xí)獲得。然而在實際的不均衡分類問題中,諸多情景并不能直觀地依靠金錢損失、時間成本和發(fā)病率等就能得到較為可靠的代價矩陣。因此,更多地還是依靠后者來獲取具體問題的最優(yōu)代價矩陣。

4.2.1 不均衡比例法

目前,針對專家經(jīng)驗的較難獲取性,許多研究都將其簡化為利用不均衡比例(IR)作為估算成本的直接方法。IR方法直接根據(jù)不同類別的樣本比例來設(shè)置少數(shù)類的權(quán)重。以二分類問題為例,假設(shè)完整的樣本集為S,SP為少數(shù)類即正類數(shù)據(jù)的數(shù)量,SN為多數(shù)類即負(fù)類數(shù)據(jù)的數(shù)量,則數(shù)據(jù)集不均衡度IR的計算方式為

4.2.2 ROC-Youden指數(shù)閾值法

以ROC曲線的Youden指數(shù)作為選擇閾值的標(biāo)準(zhǔn),稱為Youden指數(shù)閾值法[65]。Youden指數(shù)在ROC曲線上反映為點與對角交叉線(0,0)和(1,1)之間的縱向距離,Youden指數(shù)的計算公式為

其中,n表示ROC曲線中點的集合;sensitivity(n)和specificity(n)分別為該點對應(yīng)的分類閾值下模型的靈敏度和特異度。

4.2.3 靈敏度/特異度曲線交叉點法

由于靈敏度和特異度曲線交叉處代表同時較高的靈敏度和特異度,很多研究都通過選擇靈敏度和特異度曲線交叉點的方法來確定分類閾值[66-67]。利用ROC曲線計算Youden指數(shù)閾值的方法,通過驗證集采用靈敏度和特異度曲線交叉點法獲取對應(yīng)閾值就能推導(dǎo)出代價矩陣:

4.3 實驗效果分析

最終,通過不均衡比例法,以及驗證集基于ROC-Youden指數(shù)閾值法和靈敏度/特異度曲線交叉點法確定的代價矩陣,1∶2隨機(jī)欠采樣的代價敏感隨機(jī)森林和兩個對照實驗組的預(yù)測結(jié)果如圖5和表8所示。

圖5 不同策略組合的分類器比較

從圖5和表8可發(fā)現(xiàn),總體來看,采用三種方法確定代價矩陣的代價敏感隨機(jī)森林對于新興技術(shù)識別分類預(yù)測能力均有顯著提升,表明代價敏感學(xué)習(xí)對于是否進(jìn)行數(shù)據(jù)采樣處理的分類算法均有提升少數(shù)類分類預(yù)測能力的作用。在未經(jīng)任何數(shù)據(jù)重采樣預(yù)處理的原始樣本對照組中,代價敏感隨機(jī)森林相對原始模型的提升效果極為顯著,可以有效緩解模型無法預(yù)測出任何少數(shù)類的嚴(yán)重偏向性。而1∶1隨機(jī)欠采樣處理的對照組,則進(jìn)一步驗證了漸進(jìn)式采樣的必要性,因為代價敏感學(xué)習(xí)在此時僅能再有限地提升模型預(yù)測能力,過度的采樣已經(jīng)損失了較多的原始數(shù)據(jù)集分布信息,對于多數(shù)類預(yù)測能力和整體性能的降低已經(jīng)無法通過代價敏感學(xué)習(xí)彌補提升。

表8 不同策略組合的分類器預(yù)測結(jié)果統(tǒng)計

此外,通過計算分類結(jié)果的各項評估指標(biāo),發(fā)現(xiàn)其中最優(yōu)的代價矩陣設(shè)定方式為ROC-Youden指數(shù)閾值代價矩陣,其各項性能表現(xiàn)均總體優(yōu)于其他代價矩陣的改進(jìn)。目前,最為常用的不均衡比例代價矩陣盡管很容易實現(xiàn),不需要額外的模型計算成本,但具有結(jié)果不符合預(yù)期的重大局限性,因為數(shù)據(jù)集分布和實際錯分代價并不是簡單的直接關(guān)聯(lián),不均衡比例并非不均衡分類中的唯一困難,正負(fù)樣本噪聲問題、樣本重疊等也會影響到其最優(yōu)代價的變化,采用不均衡比例代價矩陣會對代價敏感問題過度簡化。值得注意的是,由于在第一階段代價未知時,訓(xùn)練的分類器是原始的損失函數(shù)驅(qū)動而沒有引入代價敏感,因此,使用ROC-Youden指數(shù)閾值代價矩陣方法針對代價不敏感的算法來初始化代價矩陣參數(shù)的估計,然后通過估計的代價矩陣構(gòu)建代價敏感學(xué)習(xí)算法,結(jié)果可能會存在一定偏差。盡管如此,該類方法實際上也包含了不均衡比例代價矩陣無法測度的正負(fù)樣本重疊、類內(nèi)不均衡等各類因素對最優(yōu)代價變化的影響。因此,在缺乏特定先驗矩陣的情況下,對比常用的不均衡比例代價矩陣,ROC-Youden指數(shù)閾值矩陣更能獲取符合預(yù)測目標(biāo)模型的更優(yōu)錯分代價,仍然為比較好的代價矩陣替代方案。

最后,基于1∶2均衡比例隨機(jī)欠采樣、以ROC-Youden指數(shù)閾值代價矩陣構(gòu)建的代價敏感隨機(jī)森林模型取得了最好的分類表現(xiàn),其AUC、ac‐curacy、sensitivity、specificity和G-mean分 別 達(dá) 到0.880、0.816、0.828、0.816和0.822,意味著在對應(yīng)的新興技術(shù)識別目標(biāo)中,采納該模型能預(yù)測出82.8%的新興技術(shù),同時能正確識別81.6%的普通技術(shù),實現(xiàn)僅17.2%的漏報率和18.4%的誤報率,進(jìn)一步驗證了綜合漸進(jìn)式采樣、算法優(yōu)化和評估優(yōu)化的分類改進(jìn)策略為整體預(yù)測能力最好的策略組合。與其他對照組相比,其模型對于重點關(guān)注少數(shù)類預(yù)測能力的識別效果和平衡效果均較為良好,在此基礎(chǔ)上構(gòu)建的基于專利指標(biāo)的機(jī)器學(xué)習(xí)新興技術(shù)識別框架具有較強(qiáng)的前瞻性預(yù)測價值。

4.4 不均衡研究相關(guān)方法比較

為證明基于1∶2均衡比例隨機(jī)欠采樣、以ROC-Youden指數(shù)閾值代價矩陣構(gòu)建的代價敏感隨機(jī)森林模型具備優(yōu)勢,本研究選取不均衡分類研究中最近提出的相關(guān)方法——deep reinforcement learn‐ing(DRL)進(jìn)行比較分析。以原始訓(xùn)練集為基礎(chǔ),通過隨機(jī)欠采樣構(gòu)建出1∶1及1∶2重采樣數(shù)據(jù)集,在該環(huán)境下驗證DRL的性能指標(biāo),并選取最優(yōu)的模型結(jié)果與本研究提出的基于代價敏感的隨機(jī)森林模型進(jìn)行比較,結(jié)果如表9所示。

表9 deep reinforcement learning(DRL)與優(yōu)化隨機(jī)森林的對比

從表9可以看出,本研究提出的基于代價敏感的隨機(jī)森林模型在各項指標(biāo)上均顯著優(yōu)于DRL,其中代表FDA授權(quán)樣本預(yù)測能力的sensitivity指標(biāo),較DRL模型高出13.8%,這一現(xiàn)象表明本研究提出的優(yōu)化模型與現(xiàn)有的相關(guān)成果相比具備一定的優(yōu)勢。

5 總結(jié)與展望

本研究通過數(shù)據(jù)維度、算法維度和評估維度三個層次的綜合優(yōu)化策略組合,通過癌癥藥物領(lǐng)域?qū)@膶嵶C結(jié)果,驗證了所提出的基于機(jī)器學(xué)習(xí)的新興技術(shù)識別不均衡分類優(yōu)化框架的可行性、有效性和價值意義。然而,本研究在研究思路、研究內(nèi)容以及研究方法上存在一定的局限性與不足,在未來的深入研究中有優(yōu)化和豐富的空間。

(1)本研究的核心為數(shù)據(jù)維度、算法維度和評估維度三個層次的綜合優(yōu)化框架,盡管其中通過各項實驗組和對照組保證了最終模型組合策略的相對更優(yōu),驗證了本文所提出框架的有效性,但最后基于1∶2均衡比例隨機(jī)欠采樣、以ROC-Youden指數(shù)閾值代價矩陣構(gòu)建的代價敏感隨機(jī)森林模型仍然為局部最優(yōu)的方案,未來研究中可繼續(xù)探索采樣、算法及代價敏感學(xué)習(xí)的應(yīng)用及組合。

(2)本研究尚未對不均衡數(shù)據(jù)集特征及不均衡分類面臨的本質(zhì)問題開展更為深入的研究。未來不均衡分類問題的研究中,除了關(guān)注正負(fù)樣本類間不均衡比例造成的不均衡分類,還需要結(jié)合新興技術(shù)識別問題中的實際數(shù)據(jù)集納入更為細(xì)粒度的因素研究,如少數(shù)類噪聲、多數(shù)類和少數(shù)類的類間樣本重疊、類內(nèi)不均衡以及概念漂移等問題,深入挖掘不均衡分類問題的本質(zhì)。

猜你喜歡
代價分類器專利
專利
水運工程(2022年7期)2022-07-29 08:37:38
發(fā)明與專利
傳感器世界(2019年4期)2019-06-26 09:58:44
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
愛的代價
海峽姐妹(2017年12期)2018-01-31 02:12:22
代價
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
成熟的代價
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
專利
二连浩特市| 嘉义县| 个旧市| 靖远县| 元朗区| 嘉荫县| 横山县| 正定县| 防城港市| 台中县| 阳谷县| 安宁市| 乌兰浩特市| 贡嘎县| 达拉特旗| 郸城县| 桂林市| 十堰市| 乌什县| 安西县| 永吉县| 宜丰县| 永安市| 南靖县| 邳州市| 赤城县| 梁河县| 崇阳县| 漳浦县| 江华| 礼泉县| 万安县| 太谷县| 灵川县| 循化| 新建县| 樟树市| 丰都县| 阿坝| 津南区| 青田县|