国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)自訓(xùn)練模型在業(yè)務(wù)質(zhì)差用戶識別中的應(yīng)用

2021-11-11 06:04:18余立李哲高飛袁向陽楊永
電信科學(xué) 2021年10期
關(guān)鍵詞:精準(zhǔn)度分類器標(biāo)簽

余立,李哲,高飛,袁向陽,楊永

(1. 中國移動通信有限公司研究院,北京 100053; 2. 中國移動通信集團(tuán)公司,北京 100033)

1 引言

隨著移動互聯(lián)網(wǎng)發(fā)展,我國移動互聯(lián)網(wǎng)用戶突破13億戶,占全球網(wǎng)民規(guī)模的32.17%[1],隨著新型技術(shù)(如5G、云計(jì)算等)的發(fā)展,用戶對上網(wǎng)速度、穩(wěn)定性等要求越來越高。

質(zhì)差用戶指在使用移動通信網(wǎng)絡(luò)服務(wù)時(shí),由于網(wǎng)絡(luò)質(zhì)量問題或其他因素對服務(wù)體驗(yàn)不滿的用戶。網(wǎng)絡(luò)質(zhì)量問題導(dǎo)致的質(zhì)差用戶,對網(wǎng)絡(luò)服務(wù)的滿意度會降低,且可能存在投訴、轉(zhuǎn)網(wǎng)等行為。

質(zhì)差用戶群體流失概率較高,他們是各大網(wǎng)絡(luò)運(yùn)營商重點(diǎn)關(guān)注與關(guān)懷對象。傳統(tǒng)質(zhì)差用戶識別通過數(shù)據(jù)采集系統(tǒng)對用戶上網(wǎng)過程中產(chǎn)生的行為單據(jù)XDR(X data record)進(jìn)行分析,即可過濾潛在的質(zhì)差用戶。但各用戶感知無法統(tǒng)一,不滿意原因及不滿意的業(yè)務(wù)也并不一致,傳統(tǒng)分析方法可識別的投訴用戶比例較低,無法滿足現(xiàn)網(wǎng)投訴處理要求。故通過將已存在的滿意度低或投訴行為的質(zhì)差用戶與XDR進(jìn)行關(guān)聯(lián)標(biāo)注后,利用機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)對質(zhì)差用戶進(jìn)行分類識別與預(yù)測。

通過現(xiàn)網(wǎng)收集的XDR數(shù)據(jù)中存在以下問題。

? 不同省份網(wǎng)絡(luò)基礎(chǔ)設(shè)備存在一定差異,數(shù)據(jù)中特征字段并不完全相同,且部分字段填充率較低,無法直接利用。

? 數(shù)據(jù)進(jìn)行標(biāo)簽化標(biāo)注時(shí),不同省份字段計(jì)算方法可能存在差異,且數(shù)據(jù)量巨大,導(dǎo)致標(biāo)注成本高昂。

? 已投訴用戶單據(jù)中投訴原因眾多,部分原因來自于非網(wǎng)絡(luò)問題,存在大量對抗樣本,導(dǎo)致樣本本身含有較大噪聲,訓(xùn)練時(shí)會影響模型性能。

2 半監(jiān)督學(xué)習(xí)

有監(jiān)督學(xué)習(xí)需大量的有標(biāo)簽數(shù)據(jù)訓(xùn)練模型,在質(zhì)差用戶識別模型中,一條有標(biāo)簽數(shù)據(jù)包含兩部分:用戶XDR數(shù)據(jù)和是否為質(zhì)差用戶。前部分?jǐn)?shù)據(jù)通過數(shù)據(jù)采集系統(tǒng)獲得,后部分標(biāo)簽信息需豐富的專家知識,往往判定成本較高,造成整體訓(xùn)練成本的增加[2]。

現(xiàn)網(wǎng)每日會產(chǎn)生海量的用戶XDR數(shù)據(jù),通過標(biāo)注再進(jìn)行訓(xùn)練,模型時(shí)效性較差,無法準(zhǔn)確描述現(xiàn)網(wǎng)實(shí)時(shí)運(yùn)行狀況。半監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)相比可以利用現(xiàn)網(wǎng)實(shí)時(shí)海量無標(biāo)簽數(shù)據(jù),效率較高;與無監(jiān)督學(xué)習(xí)相比可以保證模型準(zhǔn)確率。

質(zhì)差用戶識別為分類問題,已知的半監(jiān)督分類問題主要分為5類,具體優(yōu)劣勢見表1。

表1 半監(jiān)督分類方法優(yōu)劣勢

? 基于圖的半監(jiān)督模型將標(biāo)簽數(shù)據(jù)和未標(biāo)簽數(shù)據(jù)構(gòu)建為圖,圖中節(jié)點(diǎn)為數(shù)據(jù)點(diǎn),邊為節(jié)點(diǎn)權(quán)重,通過尋找圖的最小分割,然后計(jì)算反向傳播權(quán)重,其可應(yīng)用于圖片、中文文本、數(shù)據(jù)分類等各類場景,但是當(dāng)新樣本加入時(shí),需要重新訓(xùn)練得到圖模型,計(jì)算開銷較大[3-4]。

? 基于分歧的半監(jiān)督模型通過選擇差異化基模型,進(jìn)行組合降低“錯(cuò)誤”分類樣本對模型的不良影響,提升模型預(yù)測準(zhǔn)確率,但是其對基模型選擇設(shè)定要求較高,并且運(yùn)算效率也較低[5-6]。

? 半監(jiān)督支持向量機(jī)是將支持向量機(jī)應(yīng)用到半監(jiān)督模型中,將樣本空間映射到高維空間,并選擇合適平面將樣本集劃分,但是模型受參數(shù)影響,最終模型準(zhǔn)確率較低[7]。

? 協(xié)同訓(xùn)練(co-training)用有標(biāo)簽樣本的兩個(gè)視圖分別訓(xùn)練兩個(gè)弱分類器,再利用分類器對未標(biāo)注樣本預(yù)測中高置信度樣本訓(xùn)練另一個(gè)分類器;即用一個(gè)視圖中獲得的知識來訓(xùn)練另一個(gè)視圖。缺點(diǎn)是對樣本要求高,要求具有兩個(gè)充分冗余且滿足條件獨(dú)立性的視圖,實(shí)際情況下較難滿足[8-9]。

? 自訓(xùn)練(self-training)需要一個(gè)基分類器和少量樣本數(shù)據(jù)可以實(shí)現(xiàn),核心思想是先學(xué)習(xí)有標(biāo)簽數(shù)據(jù),然后計(jì)算無標(biāo)簽樣本置信度,并將置信度高的樣本加入訓(xùn)練集,缺點(diǎn)是如果無標(biāo)簽樣本預(yù)測錯(cuò)誤,則隨著訓(xùn)練的深入,會造成錯(cuò)誤的累計(jì)[10-12]。

基于對以上半監(jiān)督方法的研究,本文選取一種改進(jìn)自訓(xùn)練模型,通過設(shè)置基模型參數(shù)以及較高的置信度閾值,引入多個(gè)基模型學(xué)習(xí)器,降低傳統(tǒng)自訓(xùn)練中出現(xiàn)的誤差累計(jì)現(xiàn)象,提高模型訓(xùn)練精度。

3 改進(jìn)自訓(xùn)練應(yīng)用

3.1 改進(jìn)自訓(xùn)練模型

自訓(xùn)練模型是一種增量模型,首先建立基分類器模型,通過有標(biāo)簽數(shù)據(jù)進(jìn)行訓(xùn)練,然后利用訓(xùn)練好的基模型不斷預(yù)測數(shù)據(jù)集中無標(biāo)簽數(shù)據(jù),從中選擇置信度高樣本,將其加入有標(biāo)簽數(shù)據(jù)中進(jìn)行基模型循環(huán)訓(xùn)練。在滿足設(shè)定停止迭代條件后,得到具有最高分類精度和最強(qiáng)的泛化性能的最終分類器。模型在迭代過程中不可避免會產(chǎn)生誤分樣本,基模型學(xué)習(xí)誤分樣本會產(chǎn)生錯(cuò)誤累計(jì),最終影響模型效果。為降低錯(cuò)誤累計(jì),本文做出以下改進(jìn):設(shè)置模型性質(zhì)不同、性能相同的3種基模型,分別進(jìn)行預(yù)測后,通過投票初步選定偽標(biāo)簽樣本,隨后計(jì)算其置信度,將置信度高的偽樣本加入模型訓(xùn)練集中進(jìn)行循環(huán)迭代。改進(jìn)自訓(xùn)練模型示意圖如圖1所示。

圖1 改進(jìn)自訓(xùn)練模型示意圖

其基本流程如下:

(1)根據(jù)有標(biāo)簽數(shù)據(jù)集訓(xùn)練3種基模型;

(2)利用訓(xùn)練得到的基模型預(yù)測無標(biāo)簽數(shù)據(jù);

(3)選擇置信度高的樣本,將其加入有標(biāo)簽數(shù)據(jù)集;

(4)循環(huán)訓(xùn)練模型;

(5)判斷是否滿足迭代條件,重復(fù)(1)~(3)。

改進(jìn)自訓(xùn)練模型算法見算法1。

算法1

輸入有標(biāo)記樣本集:

每i輪基學(xué)習(xí)器為 K1i、 K2i、 K3i;

每i輪預(yù)測得到樣例數(shù)為pi;

流程

(1)初始化設(shè)置 K10、 K20、 K30;

(2)i=1;

(3)利 用 K10、 K20、 K30擬 合Dl得 到 K11、 K21、 K31;

(4)利用 K11、 K21、 K31訓(xùn)練Du,得到pi例樣本不同分類情況下置信度;

(5)進(jìn)行選擇,將pi例預(yù)測樣本加入Dl;

(6)利用新樣本集Dl訓(xùn)練,得到 K12、 K22;

(7)循環(huán)(4)~(6),直到滿足迭代終止條件。

3.2 基模型選取

質(zhì)差用戶識別是一種分類問題,最終評價(jià)標(biāo)簽為質(zhì)差用戶和非質(zhì)差用戶兩種。當(dāng)前主流機(jī)器學(xué)習(xí)分類模型有貝葉斯分類器(NB)、Logistic模型、支持向量機(jī)、樹模型(如隨機(jī)森林(RF)和極限梯度提升(XGBoost)等[13])。本模型選擇樸素貝葉斯分類器、XGBoost、隨機(jī)森林為基模型進(jìn)行訓(xùn)練。

(1)樸素貝葉斯分類器

該模型描述如下:設(shè)訓(xùn)練集中包含m個(gè)類H=(H1,H2,… ,Hm),n個(gè)條件屬性X=(X1,X2, …,Xn),并且假設(shè)所有條件屬性X為類變量H的子節(jié)點(diǎn),并相互獨(dú)立,則當(dāng)待分類樣本x=(x1,x2,…,xn)分配到類Hm時(shí),根據(jù)貝葉斯定理可得:

由于在本監(jiān)督學(xué)習(xí)中需要使用大量的無標(biāo)簽數(shù)據(jù)進(jìn)行模型訓(xùn)練,式(1)修改為:

其中,(n+l) 表示迭代后有標(biāo)簽樣本集與增加標(biāo)記后的無標(biāo)簽樣本集的合集,該合集增加了無標(biāo)簽數(shù)據(jù)中預(yù)測得到的高置信度數(shù)據(jù)。

(2)極限梯度提升和隨機(jī)森林

XGBoost和RF都是基于樹模型的集成模型,但是兩者有所區(qū)別。XGBoost為并行化Boosting處理,RF為串行化Bagging處理[14]。

給定數(shù)據(jù)集D=(Xi,yi),輸入Xi并通過線性疊加模式預(yù)測iy。并設(shè)學(xué)習(xí)使用k棵樹,模型如式(3)、式(4)所示。

其中,()fX代表回歸樹,F(xiàn)代表回歸集合,()qX表示將X分到了某個(gè)葉子節(jié)點(diǎn)上,T為葉子節(jié)點(diǎn)的數(shù)量,ω為葉子節(jié)點(diǎn)分?jǐn)?shù),ωq(X)代表f(X)對樣本的預(yù)測。

通過二階泰勒展開式和正則項(xiàng)調(diào)整得到目標(biāo)函數(shù)如式(5)所示。

4 實(shí)驗(yàn)與分析

4.1 數(shù)據(jù)預(yù)處理

(1)數(shù)據(jù)收集

本次仿真實(shí)驗(yàn)使用數(shù)據(jù)采集系統(tǒng)中的正常XDR數(shù)據(jù)和現(xiàn)網(wǎng)投訴XDR數(shù)據(jù)。其中包含199 998條、46項(xiàng)字段的正常XDR數(shù)據(jù)以及3 355條、125項(xiàng)字段的投訴XDR數(shù)據(jù)。

(2)字段選取

正常XDR數(shù)據(jù)的46項(xiàng)字段中,包含較多非結(jié)構(gòu)化離散字段(如小區(qū)ID、所屬城市、IPV類型等),并且部分字段缺失值比重較大,通過處理最終得到連續(xù)型字段15項(xiàng)。

(3)標(biāo)準(zhǔn)化處理

部分機(jī)器學(xué)習(xí)模型需要數(shù)據(jù)處于同一量綱,所以進(jìn)行數(shù)值量綱轉(zhuǎn)化、標(biāo)準(zhǔn)化處理。處理后數(shù)據(jù)變化到均值為0、方差為1范圍內(nèi)。

(4)樣本均衡

因?yàn)橘|(zhì)差用戶識別為二分類問題,所以需要保證原始訓(xùn)練數(shù)據(jù)樣本集分布相同。使用隨機(jī)采樣方法,最終案例數(shù)據(jù)集組成見表2。

表2 數(shù)據(jù)集組成

(5)關(guān)鍵參數(shù)

TCP建鏈成功到第一條事務(wù)請求的時(shí)延(tcp_ack_srv_dur):在終端和服務(wù)器完成TCP建鏈請求后,到終端發(fā)出業(yè)務(wù)請求前的時(shí)間間隔。

第一個(gè)HTTP響應(yīng)包時(shí)延(fisrt_http_ response_ time):在業(yè)務(wù)請求過程中,第一次業(yè)務(wù)請求發(fā)出后到接收第一次業(yè)務(wù)請求響應(yīng)的時(shí)間間隔。

TCP建鏈確認(rèn)時(shí)延(fisrt_http_response_ time):在TCP建鏈過程中,第二次握手SYNACK報(bào)文發(fā)出后到收到第三次握手ACK報(bào)文的時(shí)間間隔。

4.2 分類器評價(jià)標(biāo)準(zhǔn)

對于每個(gè)待檢測的用戶數(shù)據(jù),分類器最終可能產(chǎn)生4種不同的結(jié)果,本實(shí)驗(yàn)中對不同情況解釋如下。

? TP(true positive):質(zhì)差用戶,且模型預(yù)測結(jié)果為質(zhì)差用戶。

? TN(true negative):非質(zhì)差用戶,且模型預(yù)測結(jié)果為非質(zhì)差用戶。

? FP(false positive):非質(zhì)差用戶,但模型預(yù)測結(jié)果為質(zhì)差用戶。

? FN(false negative):質(zhì)差用戶,但模型預(yù)測結(jié)果為非質(zhì)差用戶。

基于以上4種情況,引入精準(zhǔn)度、F1值和AUC3項(xiàng)指標(biāo)進(jìn)行評判。精準(zhǔn)度和F1主要判斷分類器預(yù)測結(jié)果的準(zhǔn)確性,AUC主要判斷分類器對質(zhì)差用戶區(qū)分能力的強(qiáng)弱。

精準(zhǔn)度即精確率,在本實(shí)驗(yàn)中表示正確判斷為質(zhì)差用戶的樣本占全部質(zhì)差樣本的比例:

F1值是由Precision和Recall的調(diào)和平均數(shù),在本實(shí)驗(yàn)中表示在保持一定精確率同時(shí),盡可能保證所有質(zhì)差用戶可以被模型識別即保證召回率,兩者相互平衡。

AUC值是ROC曲線下方的面積。ROC曲線繪制的橫坐標(biāo)是FPR,而縱坐標(biāo)是TPR。當(dāng)無法直接衡量學(xué)習(xí)性能時(shí),AUC值越大,表明模型效果越好。

4.3 實(shí)驗(yàn)結(jié)果與對比分析

針對實(shí)驗(yàn)數(shù)據(jù),分別使用全監(jiān)督方法、半監(jiān)督方法、無監(jiān)督方法進(jìn)行擬合。其中全監(jiān)督方法選用XGBoost模型,半監(jiān)督方法使用本文提出的改進(jìn)自訓(xùn)練模型,無監(jiān)督方法選用圖傳播label spreading模型。結(jié)果對比見表3。

表3 3種模型運(yùn)行結(jié)果

對比3類模型精準(zhǔn)度可得到如下結(jié)論:全監(jiān)督模型效果最好,各項(xiàng)評價(jià)指標(biāo)數(shù)值最高;無監(jiān)督模型效果最差,因?yàn)樵谀P陀?xùn)練過程中不可避免會學(xué)習(xí)到數(shù)據(jù)中噪聲,影響模型評價(jià)指標(biāo);而半監(jiān)督模型介于兩者之間,可以充分利用大量無標(biāo)簽數(shù)據(jù),此外還可以保證較高精準(zhǔn)度。

為了進(jìn)一步驗(yàn)證半監(jiān)督模型優(yōu)越性,將以上3類模型進(jìn)行對比。其中在半監(jiān)督和無監(jiān)督模型中,橫軸設(shè)置為樣本標(biāo)簽缺失值比率。在全監(jiān)督模型中,橫軸設(shè)置為訓(xùn)練集劃分比率。不同缺失值比率下模型精準(zhǔn)度變化如圖2所示。

圖2 3類模型精準(zhǔn)度對比

通過圖2可知,隨著缺失值比率增加,3類模型精準(zhǔn)度都在下降,半監(jiān)督模型仍然處于一定精準(zhǔn)度變化區(qū)間內(nèi),可以滿足模型識別精準(zhǔn)度要求。

在半監(jiān)督改進(jìn)自訓(xùn)練模型中,使用迭代訓(xùn)練對無標(biāo)簽數(shù)據(jù)進(jìn)行標(biāo)注,當(dāng)缺失值比率相比于上次訓(xùn)練變化幅度低于0.1%時(shí),模型迭代停止。具體數(shù)值和曲線變化如圖3和表4所示。

圖3 半監(jiān)督模型評價(jià)指標(biāo)變化趨勢

表4 半監(jiān)督模型變化趨勢

如表4所示,設(shè)置默認(rèn)參數(shù)和初始樣本缺失值比率(Ratio)后,模型開始訓(xùn)練。通過10輪迭代計(jì)算后,Ratio變化幅度0.07%符合迭代終止條件,迭代停止。觀察表4中數(shù)據(jù)可知,缺失值比率列數(shù)值下降明顯,精準(zhǔn)度、AUC、F1 3項(xiàng)評價(jià)指標(biāo)有一定波動,且浮動下降。這是因?yàn)槟P驮谧杂?xùn)練過程中不可避免會學(xué)習(xí)到樣本集中的噪聲,最終模型性能受到一定影響。為進(jìn)一步提升模型識別精準(zhǔn)度,在之后的模型訓(xùn)練過程中,需改進(jìn)基模型選擇設(shè)計(jì)方案,并通過提高閾值、增加樣本預(yù)測可靠性水平等方法,降低訓(xùn)練過程的誤分類樣本噪聲。

5 結(jié)束語

本文針對質(zhì)差用戶識別問題,設(shè)計(jì)一種改進(jìn)自訓(xùn)練的半監(jiān)督模型,采用無標(biāo)簽樣本占90%的訓(xùn)練集時(shí),最終模型精準(zhǔn)度維持在90%左右。相比于全監(jiān)督模型和無監(jiān)督模型,該模型在保證一定性能指標(biāo)前提下,能夠充分利用無標(biāo)簽樣本數(shù)據(jù),在現(xiàn)網(wǎng)應(yīng)用中可有效降低數(shù)據(jù)標(biāo)注成本,同時(shí)避免了人為主觀因素對于質(zhì)差規(guī)則設(shè)定的影響,可以有效實(shí)現(xiàn)質(zhì)差用戶識別。未來的工作重點(diǎn)為進(jìn)一步提高該模型性能,降低在循環(huán)迭代中噪聲對于模型性能的影響。

猜你喜歡
精準(zhǔn)度分類器標(biāo)簽
BH66F5355 增強(qiáng)型24-bit A/D MCU
傳感器世界(2023年5期)2023-08-03 10:38:18
讓黨建活動更加有“味”——禮泉縣增強(qiáng)“兩新”黨建精準(zhǔn)度
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
論提高不動產(chǎn)產(chǎn)權(quán)保護(hù)精準(zhǔn)度的若干問題
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
標(biāo)簽化傷害了誰
基于多進(jìn)制查詢樹的多標(biāo)簽識別方法
大丰市| 吴川市| 谢通门县| 江川县| 博客| 新乡市| 汤阴县| 米脂县| 涡阳县| 区。| 措美县| 增城市| 丁青县| 松原市| 宝清县| 贺州市| 昌都县| 盐池县| 芦山县| 仙游县| 玉田县| 澳门| 城步| 花莲县| 台东县| 荥经县| 义乌市| 青铜峡市| 临湘市| 山东省| 平泉县| 大英县| 英超| 芜湖市| 湘潭市| 塘沽区| 巩义市| 洛川县| 莎车县| 乃东县| 广州市|