国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于監(jiān)督學(xué)習(xí)LTE質(zhì)差樣本的自動(dòng)修正方法

2017-11-09 10:50:28張霖
電子技術(shù)與軟件工程 2017年19期
關(guān)鍵詞:樣本

張霖

摘 要目前基于監(jiān)督學(xué)習(xí)的LTE質(zhì)差樣本都是通過(guò)人工標(biāo)記形成,由于工作人員對(duì)LTE質(zhì)差的理解存在較大差異,因此LTE質(zhì)差樣本存在很大的主觀性和錯(cuò)誤性。論文中通過(guò)對(duì)LTE質(zhì)差樣本的數(shù)據(jù)表現(xiàn)進(jìn)行計(jì)算分析,能夠過(guò)濾LTE質(zhì)差樣本中數(shù)據(jù)表現(xiàn)趨勢(shì)與標(biāo)簽明顯不符合的訓(xùn)練樣本,避免監(jiān)督學(xué)習(xí)算法對(duì)大量錯(cuò)誤LTE質(zhì)差樣本進(jìn)行訓(xùn)練,提高監(jiān)督學(xué)習(xí)的算法準(zhǔn)確率。

【關(guān)鍵詞】LTE 監(jiān)督學(xué)習(xí) 樣本 自動(dòng)修正

1 引言

隨著人工智能的興起,以及數(shù)據(jù)挖掘不斷發(fā)展和應(yīng)用,目前移動(dòng)網(wǎng)絡(luò)優(yōu)化中心在LTE質(zhì)差的分析方向,引入了監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法來(lái)進(jìn)行主要根因定位,該方案能夠?qū)TE質(zhì)差小區(qū)的根因進(jìn)行矩陣化,通過(guò)概率神經(jīng)網(wǎng)絡(luò)(PNN)進(jìn)行矩陣自學(xué)習(xí),輸出質(zhì)差小區(qū)的主要根因,形成LTE質(zhì)差小區(qū)根因分析的動(dòng)態(tài)經(jīng)驗(yàn)矩陣。

但是,目前監(jiān)督學(xué)習(xí)概率神經(jīng)網(wǎng)絡(luò)(PNN)的訓(xùn)練樣本,是通過(guò)現(xiàn)有LTE質(zhì)差小區(qū)采用人工的方式針對(duì)覆蓋、干擾、容量、參數(shù)等4大類47個(gè)小類根因進(jìn)行人工分析,按照47個(gè)小類的指標(biāo)進(jìn)行分析,給出最有可能的小類根因,并打上相應(yīng)標(biāo)簽,然后提供給監(jiān)督學(xué)習(xí)概率神經(jīng)網(wǎng)絡(luò)(PNN)作為訓(xùn)練樣本。由于通過(guò)人工標(biāo)記標(biāo)簽,在對(duì)質(zhì)差主要根因判斷時(shí)與工作人員的經(jīng)驗(yàn)水平和能力相關(guān),非常依賴于工作人員對(duì)小類根因熟悉程度,因此人工標(biāo)記形成的LTE質(zhì)差樣本標(biāo)簽,存在很大的主觀性和錯(cuò)誤性。

基于上述背景,本文通過(guò)對(duì)LTE質(zhì)差樣本的數(shù)據(jù)表現(xiàn)進(jìn)行計(jì)算分析,能夠過(guò)濾LTE質(zhì)差樣本中數(shù)據(jù)表現(xiàn)趨勢(shì)與標(biāo)簽明顯不符合的訓(xùn)練樣本,避免監(jiān)督學(xué)習(xí)算法對(duì)大量錯(cuò)誤LTE質(zhì)差樣本進(jìn)行訓(xùn)練,提高監(jiān)督學(xué)習(xí)的算法準(zhǔn)確率。

2 LTE質(zhì)差樣本的自動(dòng)修正方法

先把LTE質(zhì)差樣本按人工標(biāo)記的主要根因標(biāo)簽進(jìn)行分類,然后把每類的主要根因標(biāo)簽樣本數(shù)據(jù),按圖1步驟進(jìn)行處理。

2.1 人工標(biāo)記訓(xùn)練樣本

由于LTE質(zhì)差樣本比較多,而且維度較廣,本實(shí)驗(yàn)只取了部分案例數(shù)據(jù),如表1所示:目前LTE質(zhì)差樣本有8個(gè)根因,分別為StatCause001-StatCause008,通過(guò)人工對(duì)質(zhì)差樣本進(jìn)行主要根因標(biāo)記,工作人員根據(jù)自己的能力和經(jīng)驗(yàn),標(biāo)記了主要根因是StatCause001的7個(gè)樣本。

2.2 訓(xùn)練樣本矩陣化處理

其中行表示LTE質(zhì)差樣本根因維度,列表示樣本數(shù)。本矩陣是通過(guò)對(duì)LTE質(zhì)差樣本數(shù)據(jù)進(jìn)行預(yù)處理后,進(jìn)行矩陣轉(zhuǎn)置,方便分析各個(gè)樣本在根因維度的趨勢(shì)表現(xiàn)情況。

2.3 訓(xùn)練樣本數(shù)據(jù)趨勢(shì)分析

根據(jù)LTE質(zhì)差樣本矩陣,繪制樣本根因數(shù)據(jù)趨勢(shì)圖,如圖3。

其中,每一條線都代表一個(gè)樣本,橫坐標(biāo)標(biāo)識(shí)樣本根因,縱坐標(biāo)標(biāo)識(shí)樣本根因值,總的來(lái)說(shuō)就是分析下每個(gè)樣本在各個(gè)根因維度上的趨勢(shì)表現(xiàn)情況。

2.4 計(jì)算樣本軌跡相似度

常用軌跡相似度計(jì)算方法:

歐式距離:最常見(jiàn)的距離度量,衡量的是多維空間中各個(gè)點(diǎn)之間的絕對(duì)距離,又稱之為歐幾里得度量,它定義于歐幾里得空間中,如點(diǎn) X=(x1,…,xn) 和 Y=(y1,…,yn) 之間的距離,因?yàn)橛?jì)算是基于各維度特征的絕對(duì)數(shù)值,所以歐氏度量需要保證各維度指標(biāo)在相同的刻度級(jí)別,具體公式如下:

向量夾角余弦:余弦相似度用向量空間中兩個(gè)向量夾角的余弦值作為衡量?jī)蓚€(gè)樣本間的差異。相比距離度量,余弦相似度更加注重兩個(gè)向量在方向上的差異,而不是距離或長(zhǎng)度上,具體公式如下:

皮爾森相關(guān)系數(shù):皮爾森相關(guān)系數(shù)也稱皮爾森積矩相關(guān)系數(shù),是一種線性相關(guān)系數(shù),用來(lái)反映兩個(gè)變量線性相關(guān)程度的統(tǒng)計(jì)量。相關(guān)系數(shù)用r表示,其中n為樣本量,分別為兩個(gè)變量的觀測(cè)值和均值。r描述的是兩個(gè)變量間線性相關(guān)強(qiáng)弱的程度。r的絕對(duì)值越大表明相關(guān)性越強(qiáng),具體公式如下:

其中E是數(shù)學(xué)期望,cov表示協(xié)方差

本論文通過(guò)以上三種常用軌跡相似度計(jì)算了主要根因是StatCause001的7個(gè)LTE質(zhì)差小區(qū)樣本,把每個(gè)樣本作為一個(gè)向量,然后初步設(shè)定基準(zhǔn)向量為1,最后把每個(gè)樣本向量分別與基準(zhǔn)向量作軌跡相似度計(jì)算,分別得到表2結(jié)果。

從軌跡相似度計(jì)算結(jié)果可以看出,歐式距離的區(qū)分度最小,基本不能反饋出樣本的差異性;向量夾角余弦表現(xiàn)稍微好點(diǎn),樣本1、2和其他樣本有差異,但是表現(xiàn)的不是太明顯;而皮爾森系數(shù)表現(xiàn)的最好,能夠較明顯的區(qū)分出樣本1、2和其他樣本的差異性。

經(jīng)過(guò)三種算法的結(jié)果比較,本提案最終采用皮爾森相關(guān)系數(shù)作為樣本之間軌跡相似度計(jì)算方法,然后存儲(chǔ)每個(gè)樣本的軌跡相似度值,以作下一步分析處理。

2.5 訓(xùn)練樣本離散點(diǎn)處理

從第三步計(jì)算LTE質(zhì)差小區(qū)樣本矩陣向量的相似度之后,獲取每個(gè)樣本軌跡相似度值,然后對(duì)樣本軌跡相似度進(jìn)行異樣點(diǎn)離散點(diǎn)處理,如圖4所示。

從圖4中可以可看出,樣本的25%分位值為3.477,而樣本0和1的軌跡相似度值都分布在25%分位值以下,而其他樣本都分布在25%分位值以上。由此可知樣本0和1偏離了大眾LTE質(zhì)差小區(qū)樣本軌跡,可以打上偏離標(biāo)識(shí)。

2.6 自動(dòng)修正訓(xùn)練樣本

本提案經(jīng)過(guò)以上的算法流程步驟處理后,能夠得到被標(biāo)記為偏離標(biāo)識(shí)的樣本是樣本1、2,這樣就能過(guò)濾錯(cuò)誤樣本,自動(dòng)修正LTE質(zhì)差小區(qū)樣本,最終只拿樣本3-7的5個(gè)LTE質(zhì)差樣本進(jìn)行監(jiān)督學(xué)習(xí)算法模型訓(xùn)練,提高模型準(zhǔn)確率。見(jiàn)表3。

3 應(yīng)用模型準(zhǔn)確率對(duì)比

3.1 數(shù)據(jù)源情況

目前應(yīng)用數(shù)據(jù)取自分析平臺(tái),截止到2017.07.10日,LTE質(zhì)差小區(qū)問(wèn)題記錄為50737條,其中人工標(biāo)記主要根因樣本為6918條,問(wèn)題的觸發(fā)類型共有47個(gè)維度,主要根因有StatCause001-StatCause075,共75個(gè)根因維度。列出前十的問(wèn)題觸發(fā)類型源數(shù)據(jù),具體情況如表3所示。

3.2 樣本自動(dòng)修正后

經(jīng)過(guò)LTE質(zhì)差樣本的自動(dòng)修正方法處理后,共去除過(guò)濾了其中錯(cuò)誤樣本513條記錄,共涉及21個(gè)觸發(fā)模型,過(guò)濾樣本占比為7.42%。見(jiàn)表4。

3.3 模型準(zhǔn)確率對(duì)比

總體來(lái)說(shuō),經(jīng)過(guò)LTE質(zhì)差樣本的自動(dòng)修正方法處理后,總樣本過(guò)濾了513條記錄,占比7.42%,概率神經(jīng)網(wǎng)絡(luò)(PNN)算法訓(xùn)練和測(cè)試集都按9:1比例進(jìn)行,本次應(yīng)用針對(duì)現(xiàn)有PNN模型,以及自動(dòng)修正LTE質(zhì)差樣本后的PNN模型準(zhǔn)確率進(jìn)行相關(guān)對(duì)比,具體結(jié)果如表5所示。

從模型準(zhǔn)確率對(duì)比結(jié)果中可以看出,修正LTE質(zhì)差樣本后,雖然總樣本比例下降了7.42%,但是概率神經(jīng)網(wǎng)絡(luò)(PNN)算法模型的準(zhǔn)確率提升了8.87%,效果還是很明顯的。

4 結(jié)束語(yǔ)

本文針對(duì)監(jiān)督學(xué)習(xí)的人工標(biāo)記樣本中存在的主觀性和錯(cuò)誤性,以及工作人員經(jīng)驗(yàn)水平和能力的局限性,通過(guò)對(duì)LTE質(zhì)差樣本進(jìn)行的矩陣化處理、數(shù)據(jù)趨勢(shì)分析、樣本軌跡相似度計(jì)算、離散點(diǎn)處理,能夠過(guò)濾LTE質(zhì)差樣本中數(shù)據(jù)表現(xiàn)趨勢(shì)與標(biāo)簽明顯不符合的訓(xùn)練樣本,達(dá)到自動(dòng)修正LTE質(zhì)差樣本的目的,避免監(jiān)督學(xué)習(xí)算法對(duì)大量錯(cuò)誤LTE質(zhì)差樣本進(jìn)行訓(xùn)練,提高監(jiān)督學(xué)習(xí)的算法準(zhǔn)確率。

總的來(lái)說(shuō),只要是需要通過(guò)人工標(biāo)記樣本來(lái)進(jìn)行監(jiān)督學(xué)習(xí)的算法模型,都可以通過(guò)本論文的自動(dòng)修正方法處理,過(guò)濾明顯有錯(cuò)誤的標(biāo)記樣本,提高訓(xùn)練樣本的質(zhì)量,進(jìn)而提高監(jiān)督學(xué)習(xí)的模型準(zhǔn)確率。

參考文獻(xiàn)

[1]王希.基于概率神經(jīng)網(wǎng)絡(luò)(PNN)的LTE質(zhì)差小區(qū)分析方法[J].數(shù)字通信世界,2017,(02):2-5.

[2]徐樹(shù)良,王俊紅.結(jié)合無(wú)監(jiān)督學(xué)習(xí)的數(shù)據(jù)流分類算法[J].模式識(shí)別與人工智能,2016,29(07):3-7.

[3]任維雅,李國(guó)輝.面向監(jiān)督學(xué)習(xí)的稀疏平滑嶺回歸方法[J].國(guó)防科技大學(xué)學(xué)報(bào),2015(06):8-15.

[4]郭忠華,王建東,孫英杰,張?jiān)诹?LTE網(wǎng)絡(luò)中CQI質(zhì)差優(yōu)化分析思路[J].山東通信技術(shù),2016,36(4):5-10.

[5]卓松華.VoLTE無(wú)線感知丟包與質(zhì)差小區(qū)問(wèn)題研究[J].廣東通信技術(shù),2017,37(02):5-15.

[6]李學(xué)貴,許少華,李娜,于文韜.一種基于多示例學(xué)習(xí)的動(dòng)態(tài)樣本集半監(jiān)督聚類算法[J]. 化工自動(dòng)化及儀表,2016,43(11):14-20.

[7]李宇峰,黃圣君,周志華.一種基于正則化的半監(jiān)督多標(biāo)記學(xué)習(xí)方法[J].計(jì)算機(jī)研究與發(fā)展,2012,49(06):10-13.

作者單位

中國(guó)電信股份有限公司貴州分公司 貴州省貴陽(yáng)市 550025

猜你喜歡
樣本
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
園區(qū)的開(kāi)放樣本
商周刊(2018年24期)2019-01-08 03:30:36
推動(dòng)醫(yī)改的“直銷樣本”
村企共贏的樣本
樣本的價(jià)值
“官員寫作”的四個(gè)樣本
沂源县| 普安县| 无锡市| 水城县| 桂平市| 云林县| 泌阳县| 连江县| 酒泉市| 临沂市| 甘洛县| 灵台县| 南丰县| 曲水县| 哈密市| 万全县| 自治县| 铁岭市| 大洼县| 泗洪县| 宁城县| 杨浦区| 科技| 广灵县| 华阴市| 金堂县| 安庆市| 石林| 巫山县| 杭锦后旗| 永德县| 盘山县| 驻马店市| 清涧县| 固阳县| 大石桥市| 定远县| 鄂尔多斯市| 石城县| 石家庄市| 游戏|