李婷婷 呂佳 范偉亞
摘 要:正例無(wú)標(biāo)記(PU)學(xué)習(xí)中的間諜技術(shù)極易受噪聲和離群點(diǎn)干擾,導(dǎo)致劃分的可靠正例不純,且在初始正例中隨機(jī)選擇間諜樣本的機(jī)制極易造成劃分可靠負(fù)例時(shí)效率低下,針對(duì)這些問(wèn)題提出一種結(jié)合新型間諜技術(shù)和半監(jiān)督自訓(xùn)練的PU學(xué)習(xí)框架。首先,該框架對(duì)初始有標(biāo)記樣本進(jìn)行聚類(lèi)并選取離聚類(lèi)中心較近的樣本來(lái)取代間諜樣本,這些樣本能有效地映射出無(wú)標(biāo)記樣本的分布結(jié)構(gòu),從而更好地輔助選取可靠負(fù)例;然后對(duì)間諜技術(shù)劃分后的可靠正例進(jìn)行自訓(xùn)練提純,采用二次訓(xùn)練的方式取回被誤分為正例樣本的可靠負(fù)例。該框架有效地解決了傳統(tǒng)間諜技術(shù)在PU學(xué)習(xí)中分類(lèi)效率易受數(shù)據(jù)分布干擾以及隨機(jī)間諜樣本影響的問(wèn)題。通過(guò)9個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的仿真實(shí)驗(yàn)結(jié)果表明,所提框架的平均分類(lèi)準(zhǔn)確率和F-值均高于基本PU學(xué)習(xí)算法(Basic_PU)、基于間諜技術(shù)的PU學(xué)習(xí)算法(SPY)、基于樸素貝葉斯的自訓(xùn)練PU學(xué)習(xí)算法(NBST)和基于迭代剪枝的PU學(xué)習(xí)算法(Pruning)。
關(guān)鍵詞:正例無(wú)標(biāo)記學(xué)習(xí);間諜技術(shù);半監(jiān)督自訓(xùn)練;聚類(lèi);可靠負(fù)例;可靠正例
中圖分類(lèi)號(hào):TP181
文獻(xiàn)標(biāo)志碼:A
Abstract: Spy technology in Positive and Unlabeled (PU) learning is easily susceptible to noise and outliers, which leads to the impurity of reliable positive instances, and the mechanism of selecting spy instances in the initial positive instances randomly tends to cause inefficiency in dividing reliable negative instances. To solve these problems, a PU learning framework combining new spy technology and semi-supervised self-training was proposed. Firstly, the initial labeled instances were clustered and the instances closer to the cluster center were selected to replace the spy instances. These instances were able to map the distribution structure of unlabeled instances effectively, so as to better assist to the selection of reliable negative instances. Then, the reliable positive instances divided by spy technology were purified by self-training, and the reliable negative instances which were divided as positive instances mistakenly were corrected by secondary training. The proposed framework can solve the problem of PU learning that the classification efficiency of traditional spy technology is susceptible to data distribution and random spy instances. The experiments on nine standard data sets show that the average classification accuracy and F-measure of the proposed framework are higher? than those of Basic PU-learning algorithm (Basic_PU), PU-learning algorithm based on spy technology (SPY), Self-Training PU learning algorithm based on Naive Bayes (NBST) and Iterative pruning based PU learning (Pruning) algorithm.
Key words: Positive and Unlabeled (PU) learning; spy technology; semi-supervised self-training; clustering; reliable negative instance; reliable positive instance
0 引言
正例無(wú)標(biāo)記(Positive and Unlabeled, PU)學(xué)習(xí)是指訓(xùn)練集在僅含正例樣本和無(wú)標(biāo)記樣本的情況下訓(xùn)練分類(lèi)器的過(guò)程[1-2]。從正例樣本和無(wú)標(biāo)記樣本中學(xué)習(xí)分類(lèi)器是實(shí)際應(yīng)用中一類(lèi)重要的分類(lèi)問(wèn)題,常見(jiàn)于在用戶(hù)提供的大量數(shù)據(jù)中檢索相似樣本、網(wǎng)絡(luò)評(píng)論中的欺騙性意見(jiàn)檢測(cè)以及醫(yī)療行業(yè)中疾病基因預(yù)測(cè)等領(lǐng)域[3-4]。
PU學(xué)習(xí)的特點(diǎn)是初始有標(biāo)記樣本中沒(méi)有已標(biāo)注的負(fù)例樣本,常見(jiàn)的監(jiān)督學(xué)習(xí)或者半監(jiān)督學(xué)習(xí)方法在這樣的場(chǎng)景中往往失效[5]。近年來(lái)已有學(xué)者展開(kāi)了相應(yīng)的研究,即通過(guò)找出無(wú)標(biāo)記樣本中的可靠負(fù)例來(lái)擴(kuò)充初始有標(biāo)記樣本集,進(jìn)而在重新初始化后的標(biāo)記樣本集上訓(xùn)練分類(lèi)器對(duì)無(wú)標(biāo)記樣本進(jìn)行分類(lèi),但該方法得出的可靠負(fù)例往往包含較多被誤分為負(fù)例的正例樣本[6]。對(duì)此,Villatoro-Tello等[7]通過(guò)選出無(wú)標(biāo)記樣本集中分布較好的負(fù)例樣本迭代添加到初始已標(biāo)記樣本集中的訓(xùn)練分類(lèi)器,降低了算法對(duì)已標(biāo)記樣本中噪聲的敏感性,有效地選出了無(wú)標(biāo)記樣本中的可靠負(fù)例,并成功地將該方法運(yùn)用于文本分類(lèi)領(lǐng)域。Han等[8]進(jìn)一步研究發(fā)現(xiàn),在選出無(wú)標(biāo)記樣本中可靠負(fù)例的同時(shí),也可以對(duì)應(yīng)選出無(wú)標(biāo)記樣本中的可靠正例,由此提出了一種基于聚類(lèi)提取可靠正負(fù)例樣本的方法,并用加權(quán)極值學(xué)習(xí)機(jī)對(duì)分類(lèi)器進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地對(duì)僅含正樣本和無(wú)標(biāo)記樣本的不確定數(shù)據(jù)流進(jìn)行分類(lèi)。以上方法都是在重新初始化后的已標(biāo)記樣本集上訓(xùn)練分類(lèi)器,但重新初始化后的已標(biāo)記樣本集中正例樣本是絕對(duì)可靠的,而負(fù)例樣本則是相對(duì)可靠的,初始化強(qiáng)烈傾向于正例樣本,這在一定程度上影響了算法的分類(lèi)效果。
第10期
李婷婷等:基于新型間諜技術(shù)的半監(jiān)督自訓(xùn)練正例無(wú)標(biāo)記學(xué)習(xí)
計(jì)算機(jī)應(yīng)用 第39卷
為了解決PU學(xué)習(xí)中重新初始化后的標(biāo)記樣本強(qiáng)烈傾向于正例的問(wèn)題,Zeng等[9]采用一種能平衡傾向性的間諜技術(shù)來(lái)重新初始化標(biāo)記樣本,該技術(shù)通過(guò)將初始正例中部分樣本看作間諜樣本發(fā)送到無(wú)標(biāo)記樣本中,通過(guò)間諜樣本推斷出無(wú)標(biāo)記樣本中未知正例的行為,同時(shí)有效地選出了可靠負(fù)例。文獻(xiàn)[10]將間諜技術(shù)應(yīng)用于移動(dòng)互聯(lián)網(wǎng)流量數(shù)據(jù)的用戶(hù)行為分析上,提出了基于二分網(wǎng)絡(luò)特征的PU學(xué)習(xí)方法用于用戶(hù)行為分類(lèi)和預(yù)測(cè),利用實(shí)際的QQ流量數(shù)據(jù)和移動(dòng)視頻流量數(shù)據(jù)驗(yàn)證了該方法的有效性。類(lèi)似地,文獻(xiàn)[11]描述了現(xiàn)實(shí)獲取的數(shù)據(jù)只包含少量已知的被攻擊的統(tǒng)一資源定位符(Uniform Resource Locator, URL)和大量未標(biāo)記實(shí)例,文中將此形式化為PU問(wèn)題。
通過(guò)將間諜技術(shù)與成本敏感策略相結(jié)合,提出一種基于間諜技術(shù)的PU學(xué)習(xí)算法(PU learning algorithm based on spy technology, SPY),用于檢測(cè)潛在URL攻擊。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效地發(fā)現(xiàn)潛在的URL攻擊。張璞等[12]提出了一種基于間諜技術(shù)的PU學(xué)習(xí)的建議語(yǔ)句分類(lèi)方法,該方法為了降低特征維度、緩解數(shù)據(jù)稀疏性,在自編碼神經(jīng)網(wǎng)絡(luò)特征空間中使用間諜技術(shù)劃分可靠反例無(wú)標(biāo)注樣例進(jìn)行分類(lèi)。由此可見(jiàn),嵌入間諜技術(shù)的PU學(xué)習(xí)方法有效地平衡了初始正負(fù)例樣本,使其在分類(lèi)過(guò)程中具有更好的泛化性,從而更好地對(duì)無(wú)標(biāo)記樣本進(jìn)行分類(lèi)。
然而,傳統(tǒng)間諜技術(shù)極易受噪聲和離群點(diǎn)干擾,分類(lèi)過(guò)程中很少考慮到劃分結(jié)果的純凈度問(wèn)題,且隨機(jī)選擇間諜樣本的機(jī)制也給分類(lèi)結(jié)果帶來(lái)一定的不穩(wěn)定性。本文鑒于半監(jiān)督自訓(xùn)練方法可以迭代選取高質(zhì)量無(wú)標(biāo)記樣本對(duì)分類(lèi)器進(jìn)行更新,更新后的分類(lèi)器能產(chǎn)生更精準(zhǔn)的分類(lèi)效果,從而提出了間諜技術(shù)結(jié)合半監(jiān)督自訓(xùn)練的PU學(xué)習(xí)方法(PU learning method combining spy technology and semi-supervised Self-Training, SPYST),
SPYST通過(guò)將間諜技術(shù)的分類(lèi)結(jié)果用半監(jiān)督自訓(xùn)練方法進(jìn)行二次提純?nèi)〉昧烁行У姆诸?lèi)效果,但SPYST尚未解決間諜樣本選擇的隨機(jī)性帶來(lái)的分類(lèi)誤差。因此,在SPYST的基礎(chǔ)上從數(shù)據(jù)的空間結(jié)構(gòu)出發(fā),將初始正例的空間結(jié)構(gòu)展露出來(lái),然后挑選更具代表性的間諜樣本,進(jìn)一步提出了改進(jìn)間諜技術(shù)后結(jié)合半監(jiān)督自訓(xùn)練的PU學(xué)習(xí)方法(Improved SPYST, ISPYST)。
本文的主要工作為:
1)對(duì)PU學(xué)習(xí)中間諜技術(shù)展開(kāi)研究,結(jié)合自訓(xùn)練方法對(duì)間諜技術(shù)的粗糙分類(lèi)結(jié)果進(jìn)行二次提純。現(xiàn)有的國(guó)內(nèi)外文獻(xiàn)對(duì)間諜技術(shù)的研究主要集中于將該技術(shù)應(yīng)用于文本分類(lèi)、網(wǎng)絡(luò)意見(jiàn)檢測(cè)等方面,極少對(duì)間諜技術(shù)分類(lèi)結(jié)果的純凈度進(jìn)行研究。
2) 間諜技術(shù)中間諜樣本的隨機(jī)選取給分類(lèi)結(jié)果帶來(lái)一定的不穩(wěn)定性,本文通過(guò)對(duì)初始正例的空間結(jié)構(gòu)進(jìn)行研究,選取了離聚類(lèi)中心較近的樣本作為間諜樣本,這些樣本更具代表性,能更好地反映無(wú)標(biāo)記樣本中未知正例的行為方式。
1 相關(guān)工作
1.1 PU學(xué)習(xí)
PU學(xué)習(xí)是指在僅包含少量正例樣本和無(wú)標(biāo)記樣本中進(jìn)行分類(lèi)的一種特殊半監(jiān)督學(xué)習(xí),常見(jiàn)的PU學(xué)習(xí)過(guò)程是把無(wú)標(biāo)記樣本全部看作負(fù)類(lèi)結(jié)合初始正例構(gòu)造分類(lèi)器再對(duì)無(wú)標(biāo)記樣本進(jìn)行分類(lèi),找出無(wú)標(biāo)記樣本中隱藏的可靠負(fù)例,進(jìn)而將可靠負(fù)例加入初始正例樣本重新初始化有標(biāo)記樣本集。分類(lèi)過(guò)程如圖1所示,其中P表示初始正例樣本,U表示無(wú)標(biāo)記樣本,C表示分類(lèi)器,RN表示可靠負(fù)例,P′表示劃分出的正例樣本,N′表示劃分出的負(fù)例樣本。但該方法獲得的標(biāo)記樣本中正例樣本是絕對(duì)可靠的,所包含的樣本信息也絕對(duì)準(zhǔn)確;而標(biāo)記樣本中負(fù)例樣本卻只是相對(duì)可靠,所包含的樣本信息的無(wú)法達(dá)到絕對(duì)真實(shí)。所以,重新初始化后的標(biāo)記樣本更傾向于正例樣本,在后續(xù)的分類(lèi)過(guò)程中更利于無(wú)標(biāo)記樣本中未知正例的劃分,這就造成的分類(lèi)結(jié)果的不平衡性。
1.2 基于間諜技術(shù)的PU學(xué)習(xí)
間諜技術(shù)是基于解決常見(jiàn)PU學(xué)習(xí)中重新初始化后標(biāo)記樣本強(qiáng)烈傾向于正例樣本而提出,該方法能有效地平衡初始化后標(biāo)記樣本的傾向性問(wèn)題,同時(shí)輔助識(shí)別無(wú)標(biāo)記樣本中的可靠負(fù)例。間諜技術(shù)是指通過(guò)從初始有標(biāo)記樣本中隨機(jī)選出部分正例發(fā)送到無(wú)標(biāo)記樣本集,這些選出的正例樣本被稱(chēng)之為間諜樣本,它與無(wú)標(biāo)記樣本中的未知正例樣本的行為是一致的,從而能夠可靠地對(duì)未知正例樣本行為進(jìn)行評(píng)估?;旌祥g諜樣本的無(wú)標(biāo)記樣本集在分類(lèi)算法訓(xùn)練完成后,根據(jù)間諜樣本的后驗(yàn)概率設(shè)置閾值θ,當(dāng)無(wú)標(biāo)記樣本屬于正類(lèi)的概率小于θ時(shí),該樣本被視為可靠負(fù)例,其余樣本則被視為可靠正例[11]2599-2600。通過(guò)間諜技術(shù)劃分?jǐn)?shù)據(jù)類(lèi)別的詳細(xì)算法過(guò)程如下。
1.3 半監(jiān)督自訓(xùn)練學(xué)習(xí)
半監(jiān)督自訓(xùn)練是指在無(wú)標(biāo)記樣本中選取高質(zhì)量樣本給初始標(biāo)記樣本學(xué)習(xí),底層分類(lèi)器被重新訓(xùn)練,直至無(wú)標(biāo)記樣本被全部劃分。半監(jiān)督自訓(xùn)練算法在循環(huán)迭代的過(guò)程中,不斷更新分類(lèi)器劃分無(wú)標(biāo)記樣本,使得無(wú)標(biāo)記樣本每一次都能在分類(lèi)器狀態(tài)最好的情況下被提純,確保了無(wú)標(biāo)記樣本的分類(lèi)準(zhǔn)確率[13-15]。半監(jiān)督自訓(xùn)練算法的一般流程如下:
輸入 初始有標(biāo)記樣本集L,初始無(wú)標(biāo)記樣本集U,底層分類(lèi)器C,迭代次數(shù)f,用于選擇下一次迭代的無(wú)標(biāo)記樣本個(gè)數(shù)H,選擇度量M,選擇函數(shù)E(Uf,H,C,M),最大迭代次數(shù)Maxlteration。
2 本文算法
2.1 SPYST
2.1.1 算法思想
在初始數(shù)據(jù)集分布較好且無(wú)噪聲或離群點(diǎn)干擾的環(huán)境中使用間諜技術(shù)識(shí)別可靠負(fù)例和可靠正例能取得令人滿(mǎn)意的效果,然而,大多數(shù)真實(shí)的數(shù)據(jù)集都含有噪聲或離群點(diǎn),這樣的數(shù)據(jù)集通過(guò)傳統(tǒng)間諜技術(shù)分類(lèi)變得不再可靠。原因是:間諜樣本中離群點(diǎn)的后驗(yàn)概率Pr(C1|st)可能比大多數(shù)甚至所有的實(shí)際的負(fù)例樣本要小得多。在這種情況下,通過(guò)間諜樣本的概率值Pr(C1|st)來(lái)確定閾值θ,就無(wú)法在召回間諜樣本的同時(shí)對(duì)無(wú)標(biāo)記樣本進(jìn)行有效分類(lèi),導(dǎo)致了選出的可靠正例往往不純,可靠負(fù)例過(guò)少甚至沒(méi)有。圖3表示在噪聲干擾的環(huán)境中的分類(lèi)結(jié)果,其中C1代表在分類(lèi)過(guò)程中被當(dāng)作正類(lèi)的樣本集,C-1代表在分類(lèi)過(guò)程中被當(dāng)作負(fù)類(lèi)的樣本集。由圖3可知,在有噪聲或離群點(diǎn)的環(huán)境中通過(guò)間諜技術(shù)選出可靠負(fù)例時(shí)效率不高,得出的可靠正例包含較多被誤分為正類(lèi)的負(fù)例樣本。所以,在數(shù)據(jù)分布較差的環(huán)境中用間諜技術(shù)進(jìn)行PU學(xué)習(xí)的方法變得不盡人意。
因此,本文提出了一種結(jié)合間諜技術(shù)與半監(jiān)督自訓(xùn)練的PU學(xué)習(xí)方法SPYST。SPYST在間諜技術(shù)對(duì)無(wú)標(biāo)記樣本首次分類(lèi)完成后,將RP看作新的無(wú)標(biāo)記樣本U′,并對(duì)新的無(wú)標(biāo)記樣本進(jìn)行自訓(xùn)練提純,此處選用穩(wěn)定性較強(qiáng)的樸素貝葉斯作為分類(lèi)器。SPYST首先對(duì)新的無(wú)標(biāo)記樣本做樸素貝葉斯分類(lèi),然后將分類(lèi)置信度從高到低排序,選出置信度較高的無(wú)標(biāo)記樣本及其相應(yīng)的類(lèi)標(biāo)簽添加到初始正例樣本與RN的合集中,這主要是因?yàn)楦咧眯哦葮颖緮y帶更多有效分布信息,利于分類(lèi)器的重新訓(xùn)練。循環(huán)迭代上述過(guò)程直至新的無(wú)標(biāo)記樣本被全部劃分完成。這也就達(dá)到了對(duì)間諜技術(shù)的粗糙分類(lèi)結(jié)果進(jìn)行精細(xì)化提純的目的,從而得出了分類(lèi)效率更高的PU學(xué)習(xí)框架。SPYST整體學(xué)習(xí)框架如圖4所示,其中P表示初始正例樣本,U表示無(wú)標(biāo)記樣本,S表示選出的間諜樣本,C表示樸素貝葉斯分類(lèi)器,RN表示可靠負(fù)例,RP表示可靠正例,topf表示選出的前f個(gè)高置信度樣本。
2.2.1 算法思想
在SPYST算法流程的Step1中,通過(guò)隨機(jī)選取的機(jī)制選出了初始正例中的間諜樣本,但這種隨機(jī)性就可能導(dǎo)致間諜樣本處于類(lèi)簇的邊界位置,如圖5所示,圖中圈出了初始正例中隨機(jī)選取的間諜樣本,并賦予間諜樣本1~11的編號(hào)。
從圖5可看出:編號(hào)為1和11的兩個(gè)間諜樣本對(duì)于初始正例集來(lái)說(shuō),屬于離群點(diǎn),而編號(hào)為3的間諜樣本屬于噪聲點(diǎn),這些間諜樣本與無(wú)標(biāo)記樣本中未知正例的空間結(jié)構(gòu)相似度較低,無(wú)法有效地對(duì)無(wú)標(biāo)記樣本的空間結(jié)構(gòu)進(jìn)行評(píng)估。在隨機(jī)選擇間諜樣本時(shí),若大量的噪聲或離群點(diǎn)被選作間諜樣本,會(huì)極大地影響分類(lèi)器對(duì)無(wú)標(biāo)記樣本的評(píng)估,這種隨機(jī)選擇的機(jī)制直接導(dǎo)致了分類(lèi)效率的降低。
因此,本文在算法SPYST的基礎(chǔ)上提出了一種結(jié)合改進(jìn)的間諜技術(shù)與自訓(xùn)練方法的PU學(xué)習(xí)算法ISPYST,有效地降低間諜樣本的隨機(jī)性帶來(lái)的分類(lèi)誤差。ISPYST通過(guò)挖掘出初始正例樣本的空間分布信息來(lái)改進(jìn)SPYST算法,在把握空間結(jié)構(gòu)的基礎(chǔ)上計(jì)算正例樣本的聚類(lèi)中心,并找出距離聚類(lèi)中心較近的樣本作為間諜樣本。這些樣本在空間結(jié)構(gòu)上離聚類(lèi)中心更近,所包含正例樣本的真實(shí)信息量也更大,當(dāng)這樣的樣本被選作間諜樣本時(shí),更能有效地體現(xiàn)無(wú)標(biāo)記樣本中未知正例的分布情況。在此,本文選用了簡(jiǎn)單實(shí)用且收斂速度較快的K-Means聚類(lèi)算法對(duì)初始正例進(jìn)行聚類(lèi),K-Means算法的思想很簡(jiǎn)單,對(duì)于給定的樣本集X,按照樣本之間的距離大小,將樣本集劃分為K個(gè)簇,讓簇內(nèi)的點(diǎn)盡量緊密地連在一起,而讓簇間的距離盡量地大,將離聚類(lèi)中心較近的正例樣本選作間諜樣本[16]。
2.2.2 ISPYST算法流程
ISPYST僅對(duì)SPYST算法流程的Step 1進(jìn)行替換,即ISPYST通過(guò)找出初始正例集上離聚類(lèi)中心較近的樣本代替?zhèn)鹘y(tǒng)隨機(jī)選擇的間諜樣本,而SPYST其余步驟Step2至Step16不變,替換完成后形成新算法ISPYST。具體替換步驟如下:
3 仿真實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)說(shuō)明
為了驗(yàn)證算法SPYST以及ISPYST的有效性,選用以下算法進(jìn)行對(duì)比實(shí)驗(yàn):
1)基本PU學(xué)習(xí)算法(Basic PU-learning algorithm, Basic_PU)。
2)基于間諜技術(shù)的PU學(xué)習(xí)算法(SPY)[11]2600。
3)基于樸素貝葉斯的自訓(xùn)練PU學(xué)習(xí)算法(Self-Training PU learning algorithm based on Naive Bayes, NBST)。
4)基于迭代剪枝的PU學(xué)習(xí)(iterative Pruning based PU learning, Pruning)[17]。
對(duì)比實(shí)驗(yàn)所用數(shù)據(jù)集來(lái)自于UCI和Kaggle數(shù)據(jù)庫(kù),總共選用9組二分類(lèi)數(shù)據(jù)進(jìn)行實(shí)驗(yàn)說(shuō)明,數(shù)據(jù)集名稱(chēng)、規(guī)模以及屬性數(shù)見(jiàn)表1。
實(shí)驗(yàn)過(guò)程中,把數(shù)據(jù)集隨機(jī)劃分成訓(xùn)練集和測(cè)試集兩部分,其中訓(xùn)練集占80%,測(cè)試集占20%。首先選出訓(xùn)練集中20%的正例樣本作為初始有標(biāo)記樣本,然后將剩余80%的正例樣本以及訓(xùn)練集中全部的負(fù)例樣本除去標(biāo)簽后作為無(wú)標(biāo)記樣本集。所有算法重復(fù)實(shí)驗(yàn)50次,以平均分類(lèi)準(zhǔn)確率以及F-值作為算法性能評(píng)價(jià)指標(biāo)。
3.2 實(shí)驗(yàn)結(jié)果及分析
為了證明本文算法較傳統(tǒng)間諜技術(shù)的分類(lèi)性能有所提升,設(shè)置了如表2 所示的實(shí)驗(yàn)。表2顯示了當(dāng)初始有標(biāo)記樣本占全部正例樣本的20%,且間諜樣本占初始正例的15%時(shí),本文算法與傳統(tǒng)間諜技術(shù)的分類(lèi)效果提升率。
由表2可知,改進(jìn)后的算法SPYST對(duì)比傳統(tǒng)的間諜技術(shù)在進(jìn)行PU學(xué)習(xí)的過(guò)程中整體上具有更好的分類(lèi)性能。傳統(tǒng)的間諜技術(shù)在數(shù)據(jù)集Somerville Happiness Survey和Vertebral Column上分類(lèi)效果極其異常,說(shuō)明SPY根本無(wú)法在這樣的數(shù)據(jù)集上做PU分類(lèi)。通過(guò)分析得知這兩組數(shù)據(jù)集初始分布不均勻,且其中包含大量噪聲和離群點(diǎn),而SPY對(duì)噪聲和離群點(diǎn)異常敏感,且SPY在初始正例過(guò)少的情況下極難捕捉有效信息,導(dǎo)致了該方法分類(lèi)效率低下。本文所提算法SPYST通過(guò)對(duì)SPY的分類(lèi)結(jié)果做深度自訓(xùn)練,不斷迭代提純可靠正例,從而取得了更高的分類(lèi)效率。由于SPYST采用隨機(jī)選取間諜樣本的機(jī)制,導(dǎo)致分類(lèi)結(jié)果存在一定的不穩(wěn)定性,針對(duì)這一問(wèn)題,本文提出了改進(jìn)后的算法ISPYST,該方法基于初始正例的空間結(jié)構(gòu)選取最具代表性的正例作間諜樣本,有效地減小了隨機(jī)性帶來(lái)的分類(lèi)誤差,從而提高了分類(lèi)效率。從表2可以看出,ISPYST的分類(lèi)效果在SPYST的基礎(chǔ)上整體得到了進(jìn)一步的提升。而在數(shù)據(jù)集Banknote authentication上,算法ISPYST的分類(lèi)提升率相對(duì)低于算法SPYST,這是因?yàn)樵摂?shù)據(jù)集的數(shù)據(jù)分布過(guò)于集中,導(dǎo)致選出的間諜樣本結(jié)構(gòu)極其相似,所含的樣本信息不能很好地對(duì)無(wú)標(biāo)記樣本中的未知正例進(jìn)行評(píng)估。因此,算法ISPYST在空間分布過(guò)于密集的數(shù)據(jù)集上還存在一定的局限性。為了進(jìn)一步驗(yàn)證本文所提算法SPYST與ISPYST的有效性,表3給出了當(dāng)初始有標(biāo)記樣本占全部正例樣本的20%,且間諜樣本占初始正例的15%時(shí),本文算法與4組對(duì)比算法的實(shí)驗(yàn)結(jié)果。
從表3可看出,當(dāng)初始有標(biāo)記樣本占全部正例樣本的20%時(shí),本文所提算法SPYST與ISPYST整體性能均優(yōu)于對(duì)比算法。在數(shù)據(jù)集Somerville Happiness Survey、Balance Scale、Vertebral Column以及Habermans Survival上有較好的體現(xiàn),這主要是因?yàn)檫@四個(gè)數(shù)據(jù)集初始分布太差,對(duì)比算法易受噪聲干擾,無(wú)法有效地利用少量初始正例中的有用信息,導(dǎo)致分類(lèi)誤判率過(guò)高;而SPYST通過(guò)對(duì)間諜技術(shù)的分類(lèi)結(jié)果進(jìn)行再次的精細(xì)化提純,得出了更好的分類(lèi)效果;ISPYST在SPYST的基礎(chǔ)上對(duì)初始正例樣本的空間結(jié)構(gòu)做深入剖析,選出更具代表性的間諜樣本,使得SPYST的分類(lèi)效果得以進(jìn)一步提升。在數(shù)據(jù)集Breast Cancer Wisconsin Prognostic(wdbc)和Electrical Grid Stability Simulated上,本文算法和對(duì)比算法分類(lèi)效果整體相差不大,這是因?yàn)檫@兩組數(shù)據(jù)集原始分布較為均勻,沒(méi)有噪聲和離群點(diǎn)的干擾,本文算法在這樣的數(shù)據(jù)集上進(jìn)行分類(lèi)時(shí),提升效果不明顯。
為了說(shuō)明初始正例樣本占比對(duì)各個(gè)算法的影響,圖6通過(guò)逐步提高初始正例樣本的占比進(jìn)行分類(lèi)實(shí)驗(yàn),得出不同算法在初始樣本數(shù)量不同情況下的準(zhǔn)確率。從圖6可看出,本文所提算法SPYST與ISPYST分類(lèi)準(zhǔn)確率整體上高于對(duì)比算法,尤其是在Wholesale customers、Somerville Happiness Survey、Vertebral Column、Habermans Survival、 pima以及Banknote authentication這6個(gè)數(shù)據(jù)集上,本文算法在初始正例占比極小的情況下相對(duì)于對(duì)比算法有較好的分類(lèi)性能。這是因?yàn)镾PYST對(duì)間諜技術(shù)的粗糙分類(lèi)結(jié)果進(jìn)行自訓(xùn)練加工,能得到更高的分類(lèi)準(zhǔn)確率。此外,ISPYST將少量初始正例的空間結(jié)構(gòu)清晰地展示出來(lái),選出了最能體現(xiàn)無(wú)標(biāo)記樣本中未知正例行為的樣本作為間諜樣本,解決了傳統(tǒng)間諜技術(shù)隨機(jī)選擇間諜樣本所帶來(lái)的分類(lèi)誤差。而隨著初始正例占比的不斷增加,本文所提算法的分類(lèi)優(yōu)勢(shì)逐漸減弱,在數(shù)據(jù)集Breast Cancer Wisconsin Origina、Electrical Grid Stability Simulated、 pima以及Habermans Survival上表現(xiàn)得尤為明顯,這主要是因?yàn)樵诔跏颊銐蚨嗟那闆r下,樣本包含的有用信息更全面,所有算法都能有效地捕捉樣本信息,從而達(dá)到較好的分類(lèi)效果。SPYST與ISPYST傾向于在初始正例極其缺失的情況下做PU學(xué)習(xí),當(dāng)初始正例較多的情況下,本文所提算法并不占優(yōu)勢(shì),甚至可能處于劣勢(shì)。在數(shù)據(jù)集Banknote authentication上,改進(jìn)后的算法ISPYST比SPYST分類(lèi)效果差,這是因?yàn)樵摂?shù)據(jù)集的原始數(shù)據(jù)分布過(guò)于密集,在找出離聚類(lèi)中心較近的樣本作間諜樣本時(shí),間諜樣本相互之間的區(qū)分度并不明顯,導(dǎo)致間諜樣本無(wú)法有效地提取無(wú)標(biāo)記樣本中正例樣本的信息。算法ISPYST在空間分布過(guò)于密集的數(shù)據(jù)集上進(jìn)行PU學(xué)習(xí)時(shí)會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,降低了算法的分類(lèi)性能。
4 結(jié)語(yǔ)
針對(duì)PU學(xué)習(xí)方法在初始正例過(guò)少的環(huán)境中難以有效地獲取樣本空間結(jié)構(gòu)信息,且傳統(tǒng)間諜技術(shù)易受噪聲和離群點(diǎn)干擾,導(dǎo)致劃分可靠負(fù)例時(shí)效率不高、得出的可靠正例不純等問(wèn)題,提出了兩種學(xué)習(xí)框架,即間諜技術(shù)結(jié)合自訓(xùn)練的PU學(xué)習(xí)方法(SPYST)以及改進(jìn)間諜技術(shù)后結(jié)合自訓(xùn)練的PU學(xué)習(xí)方法(ISPYST)。SPYST通過(guò)對(duì)間諜技術(shù)的分類(lèi)結(jié)果進(jìn)行二次訓(xùn)練,選取高置信度樣本加入已標(biāo)記樣本集迭代自訓(xùn)練,解決了部分樣本被誤標(biāo)記的問(wèn)題;ISPYST在SPYST的基礎(chǔ)上利用初始正例空間結(jié)構(gòu)所包含的潛在信息,選出距離簇中心較近的樣本作為間諜樣本,這些間諜樣本更能體現(xiàn)正例的行為特征,從而有效地劃分出可靠正例與可靠負(fù)例。在9組標(biāo)準(zhǔn)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)證實(shí)了本文所提算法在僅含少量初始正例的環(huán)境中也能捕獲全面的數(shù)據(jù)分布信息,進(jìn)而得出更好的分類(lèi)效果。但本文算法在數(shù)據(jù)分布過(guò)于密集的數(shù)據(jù)集上還存在一定的局限性,因此,在后續(xù)工作中,將討論如何通過(guò)挖掘數(shù)據(jù)集原始分布特征來(lái)獲取有用信息,從而選出可靠負(fù)例來(lái)擴(kuò)充初始有標(biāo)記樣本集,進(jìn)而提高PU學(xué)習(xí)的分類(lèi)性能。
參考文獻(xiàn)(References)
[1] du PLESSIS M C, NIU G, SUGIYAMA M. Class-prior estimation for learning from positive and unlabeled data[J]. Machine Learning, 2017, 106(4): 463-492.
[2] SANSONE E, de NATALE F G B, ZHOU Z. Efficient training for positive unlabeled learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 38(7): 99-113.
[3] NIKDELFAZ O, JALILI S. Disease genes prediction by HMM based PU-learning using gene expression profiles[J]. Journal of Biomedical Informatics, 2018, 81: 102-111.
[4] FREY N C, WANG J, BELLIDO G I V, et al. Prediction of synthesis of 2D metal carbides and nitrides (MXenes) and their precursors with positive and unlabeled machine learning [J]. ACS Nano, 2019, 13(3): 3031-3041.
[5] 甘洪嘯. 基于PU學(xué)習(xí)和貝葉斯網(wǎng)的不確定數(shù)據(jù)分類(lèi)研究[D]. 咸陽(yáng): 西北農(nóng)林科技大學(xué), 2017: 1-61. (GAN H X. Research on uncertain data classification based on PU learning and Bayesian network[D]. Xianyang: Northwest A & F University, 2017: 1-61.)
[6] WU Z, CAO J, WANG Y, et al. hPSD: a hybrid PU-learning-based spammer detection model for product reviews[J]. IEEE Transactions on Cybernetics, 2018(99): 1-12.
[7] VILLATORO-TELLO E, ANGUIANO E, MONTES-Y-GMEZ M, et al. Enhancing semi-supevised text classification using document summaries[C]// Proceedings of the 2016 Ibero-American Conference on Artificial Intelligence, LNCS 10022. Berlin: Springer, 2016: 115-126.
[8] HAN D, LI S, WEI F, et al. Two birds with one stone: classifying positive and unlabeled examples on uncertain data streams[J]. Neurocomputing, 2018, 277: 149-160.
[9] ZENG X, LIAO Y, LIU Y, et al. Prediction and validation of disease genes using HeteSim scores[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2017, 14(3): 687-695.
[10] YU K, LIU Y, QIN L, et al. Positive and unlabeled learning for user behavior analysis based on mobile Internet traffic data[J]. IEEE Access, 2018, 6: 37568-37580.
[11] ZHANG Y, LI L, ZHOU J, et al. POSTER: a PU learning based system for potential malicious URL detection[C]// Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2017: 2599-2601.
[12] 張璞, 劉暢, 李逍. 基于PU學(xué)習(xí)的建議語(yǔ)句分類(lèi)方法[J]. 計(jì)算機(jī)應(yīng)用, 2019, 39(3): 639-643. (ZHANG P, LIU C, LI X. Suggestion sentence classification method based on PU learning[J]. Journal of Computer Applications, 2019, 39(3): 639-643.)
[13] JUN N L, QING S Z. Semi-Supervised self-training method based on an optimum-path forest[J]. IEEE Access, 2019, 7(1): 2169-3536.
[14] TANHA J, van SOMEREN M, AFSARMANESH H. Semi-supervised self-training for decision tree classifiers[J]. International Journal of Machine Learning & Cybernetics, 2017, 8(1): 355-370.
[15] 羅云松, 呂佳. 結(jié)合密度峰值優(yōu)化模糊聚類(lèi)的自訓(xùn)練方法[J]. 重慶師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 36(2): 96-102. (LUO Y S, LYU J. Self-training algorithm combined with density peak optimization fuzzy clustering[J]. Journal of Chongqing Normal University (Natural Science Edition), 2019, 36(2): 96-102.)
[16] CAP M, PREZ A, LOZANO J A. An efficient approximation to the K-means clustering for massive data[J]. Knowledge-Based Systems, 2017, 117: 56-69.
[17] FUSILIER D H, MONTES-Y-GMEZ M, ROSSO P, et al. Detecting positive and negative deceptive opinions using PU-learning[J]. Information Processing & Management, 2015, 51(4): 433-443.