国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)間序列分析的環(huán)境γ輻射劑量率數(shù)據(jù)預(yù)處理方法研究及評(píng)估

2023-04-29 00:44:03白帆李雪貞馬國(guó)學(xué)等
輻射防護(hù) 2023年2期
關(guān)鍵詞:數(shù)據(jù)預(yù)處理時(shí)間序列環(huán)境

白帆 李雪貞 馬國(guó)學(xué)等

關(guān)鍵詞:數(shù)據(jù)預(yù)處理;環(huán)境γ 輻射劑量率;時(shí)間序列;特殊數(shù)據(jù)檢測(cè);LSTM

中圖分類號(hào):X830. 3 文獻(xiàn)標(biāo)識(shí)碼:A

輻射環(huán)境質(zhì)量數(shù)據(jù)來源于多種監(jiān)測(cè)設(shè)備,由環(huán)境γ 輻射劑量率數(shù)據(jù)、氣象數(shù)據(jù)及各類監(jiān)測(cè)數(shù)據(jù)等共同組成時(shí)序多元數(shù)據(jù)集。這些傳感器連續(xù)數(shù)據(jù)間隔時(shí)間短,因此在短期內(nèi)數(shù)據(jù)規(guī)模極大且含有噪音,由于傳統(tǒng)的手工數(shù)據(jù)清洗方法成本高、效率慢,因此基于時(shí)間序列的數(shù)據(jù)預(yù)處理方法成為研究的熱點(diǎn)。

與此同時(shí),特殊數(shù)據(jù)檢測(cè)也是數(shù)據(jù)挖掘的重要部分。特殊數(shù)據(jù)是指與其他數(shù)據(jù)分布有較為顯著不同的數(shù)據(jù)對(duì)象,也被稱作離群點(diǎn),我們通??梢酝ㄟ^檢測(cè)離群點(diǎn)得知離群點(diǎn)產(chǎn)生的因素,精確的數(shù)據(jù)可以幫助我們更有效地對(duì)特殊數(shù)據(jù)進(jìn)行檢測(cè)及分析,提高檢測(cè)效率。

早在19 世紀(jì),統(tǒng)計(jì)學(xué)家就已經(jīng)對(duì)檢測(cè)數(shù)據(jù)中的特殊數(shù)據(jù)值展開了研究,并隨著時(shí)間的推移,研究出多種基于統(tǒng)計(jì)的特殊數(shù)據(jù)檢測(cè)技術(shù)。常見的有3 倍標(biāo)準(zhǔn)差準(zhǔn)則、箱線圖等傳統(tǒng)統(tǒng)計(jì)方法,以及由Box 和Jenkins 于20 世紀(jì)70 年代初提出的自回歸移動(dòng)平均模型、由Facebook 提出的Prophet 模型等時(shí)間序列預(yù)測(cè)方法[1] 。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,許多基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法被提出,例如基于二元線性的支持向量機(jī)、基于決策樹的隨機(jī)森林、基于距離的K-最近鄰、具有噪聲的基于密度的聚類方法、局部離群因子檢測(cè)方法等聚類模型[2] ,Dorothy Denning 在1986年提出了第一個(gè)入侵檢測(cè)系統(tǒng)的特殊數(shù)據(jù)檢測(cè)模型,通過機(jī)器學(xué)習(xí)來進(jìn)行特殊數(shù)據(jù)檢測(cè)的方法被廣泛應(yīng)用。而當(dāng)前主流的特殊數(shù)據(jù)檢測(cè)算法通?;谏疃葘W(xué)習(xí)技術(shù),按照使用的監(jiān)督信息可以分為有監(jiān)督方法、無監(jiān)督方法、半監(jiān)督方法。例如自動(dòng)編碼器、生成式對(duì)抗網(wǎng)絡(luò)[3] , 長(zhǎng)短期記憶網(wǎng)絡(luò)[4] (LSTM) 等。有監(jiān)督模型通常根據(jù)現(xiàn)有特殊數(shù)據(jù)標(biāo)簽學(xué)習(xí),對(duì)數(shù)據(jù)更為精確地進(jìn)行預(yù)測(cè)分類。由于LSTM 具有學(xué)習(xí)長(zhǎng)期依賴關(guān)系的能力,可以更好地適應(yīng)多元時(shí)間序列數(shù)據(jù),本文主要探究有監(jiān)督LSTM 的特殊數(shù)據(jù)檢測(cè)模型。

本文涉及的數(shù)據(jù)類型包括γ 輻射劑量率數(shù)據(jù)及氣象數(shù)據(jù),以某地區(qū)某時(shí)段γ 輻射劑量率的逐時(shí)數(shù)據(jù)為例,研究數(shù)據(jù)預(yù)處理方法對(duì)特殊檢測(cè)結(jié)果帶來的影響,將詳細(xì)介紹使用到的數(shù)據(jù)預(yù)處理技術(shù),包括:輻射劑量率數(shù)據(jù)和氣象數(shù)據(jù)的解析、數(shù)據(jù)頻率的轉(zhuǎn)換、時(shí)序數(shù)據(jù)去噪、劑量率數(shù)據(jù)及氣象數(shù)據(jù)的完善、數(shù)據(jù)標(biāo)準(zhǔn)化處理等,并利用基于LSTM 的有監(jiān)督特殊數(shù)據(jù)檢測(cè)算法對(duì)數(shù)據(jù)預(yù)處理的結(jié)果從準(zhǔn)確率、精確率、召回率、F1-分?jǐn)?shù)方面進(jìn)行評(píng)估,進(jìn)一步提升輻射自動(dòng)監(jiān)測(cè)數(shù)據(jù)的篩選與優(yōu)化。

1 數(shù)據(jù)預(yù)處理

為確保γ 輻射劑量率數(shù)據(jù)反饋的準(zhǔn)確性,更加可靠真實(shí)地反應(yīng)地區(qū)輻射環(huán)境水平,我們從數(shù)據(jù)的分析目標(biāo)出發(fā),通過探究數(shù)據(jù)分布、應(yīng)用數(shù)據(jù)去噪、數(shù)據(jù)清洗及數(shù)據(jù)變換等數(shù)據(jù)預(yù)處理方法[5-6]消除原始數(shù)據(jù)中可能存在的測(cè)量噪聲等造成的誤導(dǎo)監(jiān)測(cè),為最終算法提供優(yōu)質(zhì)數(shù)據(jù),使得其成為使算法發(fā)揮最佳性能的必要部分。

1. 1 數(shù)據(jù)分析

監(jiān)測(cè)傳感器數(shù)據(jù)是時(shí)間序列數(shù)據(jù)的典型實(shí)例。對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析,通過計(jì)算平均值、標(biāo)準(zhǔn)差、峰值、偏度等統(tǒng)計(jì)值和數(shù)據(jù)正態(tài)分布的擬合情況來了解輻射劑量率數(shù)據(jù)的統(tǒng)計(jì)特征及分布狀態(tài),以便于根據(jù)數(shù)據(jù)特性選擇合適的數(shù)據(jù)預(yù)處理方法,并分析時(shí)間序列數(shù)據(jù)背后隱藏的信息,理解序列模式的行為。

1. 2 數(shù)據(jù)集成

1. 2. 1 合并劑量率數(shù)據(jù)與氣象數(shù)據(jù) 根據(jù)氣象探測(cè)器與劑量率探測(cè)器地理位置坐標(biāo),將同一區(qū)域的氣象監(jiān)測(cè)數(shù)據(jù)與劑量率監(jiān)測(cè)數(shù)據(jù)對(duì)應(yīng)時(shí)間索引相結(jié)合,完善數(shù)據(jù),便于結(jié)合劑量率與氣象數(shù)據(jù)相關(guān)性進(jìn)行分析及數(shù)據(jù)挖掘。

1. 2. 2 填充時(shí)間序列

檢查時(shí)序數(shù)據(jù)是否為等間隔數(shù)據(jù),依據(jù)原始數(shù)據(jù)時(shí)間索引間隔(30 s) 填充時(shí)間戳,缺失數(shù)據(jù)用空值暫時(shí)填充,刪除重復(fù)時(shí)間戳。

1. 3 數(shù)據(jù)清洗

1. 3. 1 改變變量類型

時(shí)間序列是一組按照時(shí)間發(fā)生先后順序進(jìn)行排列的數(shù)據(jù)點(diǎn)序列。本文所處理的數(shù)據(jù)均基于時(shí)間序列,這里將原始數(shù)據(jù)索引規(guī)范為時(shí)間序列,并對(duì)變量(劑量率、電池電壓、γ 輻射監(jiān)測(cè)儀高壓、溫度、濕度、氣壓、雨量、風(fēng)向、風(fēng)速、感雨) 的數(shù)據(jù)類型進(jìn)行轉(zhuǎn)換,其中濕度與風(fēng)向?qū)儆陔x散變量、感雨為分類變量(二值變量)、其他均為連續(xù)變量,為便于對(duì)數(shù)據(jù)進(jìn)行分析及后續(xù)檢測(cè)工作,統(tǒng)一轉(zhuǎn)換為浮點(diǎn)數(shù)。

1. 3. 2 規(guī)定數(shù)據(jù)范圍

本文所使用到的數(shù)據(jù)集為輻射劑量率數(shù)據(jù)與對(duì)應(yīng)同步時(shí)間的氣象數(shù)據(jù),由于人為因素及自然因素均會(huì)引起劑量率數(shù)值的變化,因此在對(duì)于劑量率變化的分析研究中,可以將監(jiān)測(cè)器數(shù)據(jù)及氣象數(shù)據(jù)視作變量,即電池電壓、γ 輻射監(jiān)測(cè)儀高壓、溫度、濕度、氣壓、雨量、風(fēng)向、風(fēng)速、感雨等。由于來源不同,因此獲取的時(shí)間無法簡(jiǎn)單地同步,數(shù)據(jù)中可能會(huì)存在數(shù)據(jù)范圍不統(tǒng)一、數(shù)據(jù)存在少量缺失值等問題。因此,針對(duì)變量單位不統(tǒng)一造成的數(shù)值范圍不統(tǒng)一,需要依具數(shù)據(jù)變量的固定單位,對(duì)數(shù)據(jù)的數(shù)值范圍進(jìn)行調(diào)整。

1. 3. 3 數(shù)據(jù)去噪

時(shí)間序列本身具有非線性和信噪比高的特點(diǎn),采用傳統(tǒng)的高斯去噪、中值濾波等方法往往存在諸多缺陷。由于離散小波變換(DWT)在高頻信號(hào)降噪方面的應(yīng)用廣泛,因此通常采用離散小波變換,選擇緊支撐、具有對(duì)稱性、與信號(hào)波形相似的小波對(duì)時(shí)序數(shù)據(jù)進(jìn)行降噪[7] 。離散小波變換公式如下[8] :

式中, α 代表比例因子, β 代表定位因子, e(λ) 為連續(xù)時(shí)間信號(hào)并非離散信號(hào)。根據(jù)設(shè)定閾值,保留大于閾值的系數(shù),再進(jìn)行反向離散小波變換來重建信號(hào),獲得降噪后的信號(hào)。

1. 3. 4 數(shù)據(jù)缺失值處理

根據(jù)本文實(shí)驗(yàn)數(shù)據(jù)集的特性,對(duì)于部分相關(guān)性不強(qiáng)以及無關(guān)的特征值列,為保證分析的準(zhǔn)確性,可以通過刪除法將其去除。對(duì)于剩余特征值的行缺失數(shù)據(jù),若通過刪除缺失值的方式對(duì)缺失值進(jìn)行處理,對(duì)原始數(shù)據(jù)的子集進(jìn)行挖掘,很可能造成分析結(jié)果由于基于局部產(chǎn)生偏差。因此,我們主要采用基于填充技術(shù)的插補(bǔ)法,避免了刪除法的弊端,使得數(shù)據(jù)集中的重要信息得以保留。為保證插補(bǔ)值的準(zhǔn)確性,從缺失數(shù)據(jù)時(shí)間間隔的限制、變量自身特性、變量間的相關(guān)性以及與時(shí)間序列的關(guān)系等不同方面出發(fā),對(duì)行缺失數(shù)據(jù)進(jìn)行填補(bǔ)。主要變量類型可分為以下三種:

(1)輻射劑量率數(shù)據(jù):由于輻射劑量率與其他變量間存在關(guān)系,且與時(shí)序變動(dòng)有很強(qiáng)的趨勢(shì),因此我們可以優(yōu)先采用冷卡填充的方法,選擇與缺失對(duì)象特征最為相似的第一個(gè)對(duì)象并進(jìn)行填充,即在所有樣本中測(cè)量不同特征值之間的歐式距離進(jìn)行分類,選擇與待填充樣本在特征空間中的1個(gè)最近鄰,再對(duì)剩余劑量率數(shù)據(jù)采用線性插值法進(jìn)行填充。

(2)監(jiān)測(cè)器數(shù)據(jù):監(jiān)測(cè)器數(shù)據(jù)由γ 輻射監(jiān)測(cè)儀高壓及電池電壓組成。由于監(jiān)測(cè)器數(shù)據(jù)與其他變量相關(guān)性較弱,因此基于電壓本身隨時(shí)間變化的特性,我們根據(jù)缺失時(shí)間點(diǎn)前后時(shí)段相鄰最近的數(shù)據(jù),采用線性插值法對(duì)缺失時(shí)間點(diǎn)處的γ 輻射監(jiān)測(cè)儀高壓及電池電壓進(jìn)行填充。

(3) 氣象數(shù)據(jù):氣象數(shù)據(jù)由溫度、氣壓、濕度、雨量、感雨、風(fēng)向、風(fēng)速組成。由于變量間相關(guān)性較強(qiáng),且隨時(shí)間波動(dòng),我們采用時(shí)序中最基本的就近插補(bǔ)法,替換缺失值為缺失時(shí)間點(diǎn)之前或之后最近的觀測(cè)值,對(duì)溫度、氣壓、濕度、雨量、感雨、風(fēng)向、風(fēng)速進(jìn)行填充,再對(duì)剩余氣象數(shù)據(jù)采用線性插值法進(jìn)行填充。

1. 4 數(shù)據(jù)變換

為了解決可能存在的站點(diǎn)數(shù)據(jù)采樣周期不統(tǒng)一、采樣周期過小而導(dǎo)致數(shù)據(jù)量巨大、采樣周期過大而研究過程需要更小采樣周期等問題,須依具研究需求將數(shù)據(jù)變頻為高級(jí)別或低級(jí)別周期,即降采樣或增采樣。為了控制數(shù)據(jù)規(guī)模,降低模型訓(xùn)練開銷,提高運(yùn)算效率,通常選用降采樣的方式。一般情況下降采樣有最大值采樣、平均值采樣和區(qū)域采樣及隨其區(qū)域采樣等。我們通過對(duì)比30 秒頻率數(shù)據(jù)采用平均值求采及最大值求采至5分鐘頻率數(shù)據(jù)后輻射劑量率的數(shù)據(jù)變化曲線,發(fā)現(xiàn)若劃分5 分鐘長(zhǎng)度時(shí)間窗口進(jìn)行數(shù)據(jù)平均會(huì)造成單點(diǎn)極大值在臨近時(shí)間段的平均,降低數(shù)據(jù)的明顯差異,因此,我們需要采用劃分5 分鐘長(zhǎng)度時(shí)間窗口進(jìn)行數(shù)據(jù)最大值的采樣方法以保證檢測(cè)長(zhǎng)時(shí)間段內(nèi)持續(xù)的特殊情況。

1. 5 數(shù)據(jù)轉(zhuǎn)換

由于不同變量的評(píng)價(jià)指標(biāo)不同,具有不同的量綱,數(shù)據(jù)數(shù)值間的差別可能很大,為了消除指標(biāo)之間的量綱和取值范圍差異對(duì)數(shù)據(jù)分析結(jié)果的影響,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即將數(shù)據(jù)按照比例縮放,使之落入一個(gè)特定的區(qū)間,以便于后期對(duì)數(shù)據(jù)的分析及處理。根據(jù)算法及模型的選擇,通常我們需要在數(shù)據(jù)預(yù)處理中或者模型中選擇不同標(biāo)準(zhǔn)化方法對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。常用的標(biāo)準(zhǔn)化方法主要有離差標(biāo)準(zhǔn)化,z-score 標(biāo)準(zhǔn)化等。

2 特殊數(shù)據(jù)檢測(cè)

LSTM 是一種特殊的遞歸神經(jīng)網(wǎng)絡(luò)[9] ,由于具有長(zhǎng)期學(xué)習(xí)依賴關(guān)系的能力,非常適合預(yù)測(cè)時(shí)間序列數(shù)據(jù),也常被用于監(jiān)測(cè)變量集體水平上的特殊數(shù)據(jù)檢測(cè)。LSTM 通過對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行訓(xùn)練,按照固定時(shí)間步長(zhǎng)生成預(yù)測(cè)器,來預(yù)測(cè)下一時(shí)間點(diǎn)的輻射劑量率特征,對(duì)預(yù)測(cè)誤差信號(hào)的分布概率進(jìn)行估計(jì),選取閾值,按照預(yù)測(cè)誤差區(qū)分正常數(shù)據(jù)與特殊數(shù)據(jù)[10] 。

如圖1 所示,LSTM 架構(gòu)由LSTM 單元組成,每個(gè)LSTM 單元包含輸入節(jié)點(diǎn)、輸出節(jié)點(diǎn)及由許多智能節(jié)點(diǎn)組成的隱藏層。A 代表一個(gè)完整的LSTM 單元,接受序列當(dāng)前時(shí)間節(jié)點(diǎn)的輸入向量xt ,輸出當(dāng)前隱藏狀態(tài)向量ht , 并傳遞至下一單元[11] 。

每個(gè)LSTM 單元包含三個(gè)門,即遺忘門、輸入門和輸出門。這些門使 LSTM 網(wǎng)絡(luò)能夠不斷地重置、寫入和讀取單元格,可被表示為式(4):

3 性能評(píng)估指標(biāo)

為了評(píng)估特殊數(shù)據(jù)檢測(cè)算法的性能,我們以算法檢測(cè)出來的正確樣本為主,平衡正負(fù)樣本關(guān)系,主要評(píng)估算法的準(zhǔn)確率、精確率和召回率以及F1 分?jǐn)?shù)。TP (True Positive) 表示真正樣本數(shù),TN(True Negative ) 表示真負(fù)樣本數(shù), FP ( FalsePositive)表示假正樣本數(shù),F(xiàn)N (False Negative) 表示假負(fù)樣本數(shù)[8] 。

準(zhǔn)確率(Accuracy) 是最為常見及直觀的評(píng)價(jià)指標(biāo),是全部樣本中被預(yù)測(cè)正確的樣本概率,對(duì)全部正負(fù)樣本結(jié)果中的預(yù)測(cè)準(zhǔn)確程度,表達(dá)式為式(5):

4 實(shí)驗(yàn)結(jié)果及評(píng)估

4. 1 數(shù)據(jù)集簡(jiǎn)介

本文所用到的輻射劑量率及相關(guān)監(jiān)測(cè)數(shù)據(jù)均由監(jiān)測(cè)站點(diǎn)提供,所有站點(diǎn)均布設(shè)輻射劑量率連續(xù)監(jiān)測(cè)設(shè)備及微型氣象站,提供γ 輻射劑量率數(shù)據(jù)及風(fēng)向、風(fēng)速、溫度、濕度、氣壓、雨量和感雨等氣象數(shù)據(jù)。數(shù)據(jù)時(shí)間范圍為2019 年1 月1 日0 時(shí)到2020 年1 月1 日0 時(shí)。另外,在特殊數(shù)據(jù)檢測(cè)實(shí)驗(yàn)中,用到的測(cè)試數(shù)據(jù)來源于A 站帶人工標(biāo)注標(biāo)簽數(shù)據(jù),數(shù)據(jù)時(shí)間范圍為2019 年1 月1 日0 時(shí)到2021 年1 月1 日0 時(shí)。

由于監(jiān)測(cè)站點(diǎn)間地理位置差距較大,各監(jiān)測(cè)站點(diǎn)本底劑量率數(shù)據(jù)存在明顯差異,某時(shí)段逐時(shí)輻射劑量率如圖2 所示。因此本論文對(duì)不同站點(diǎn)的數(shù)據(jù)分布狀態(tài)及數(shù)據(jù)情況進(jìn)行了統(tǒng)計(jì)分析,表1為其中5 個(gè)監(jiān)測(cè)站點(diǎn)輻射劑量率的分布情況,從中可以看出各站輻射劑量率監(jiān)測(cè)數(shù)據(jù)偏度均大于1. 5,分布不對(duì)稱、形態(tài)偏斜、高峰陡峭,呈偏態(tài)分布。其中B 站輻射劑量率統(tǒng)計(jì)分布示例如圖3所示。

4. 2 數(shù)據(jù)降噪結(jié)果

小波分析庫PyWavelets 提供了眾多可供選擇的小波族, 例如Haar ( haar)、Daubechies ( db)、Symlets (sym)、Coiflets (coif)、Biorthogonal (bior)等。每個(gè)小波族下有不同的系數(shù),共127 個(gè)小波基函數(shù)。其中多貝西小波(Daubechies Wavelet)是最常使用到的小波轉(zhuǎn)換,主要應(yīng)用在離散型的小波轉(zhuǎn)換,通常使用在信號(hào)分析、信號(hào)壓縮跟噪聲去除。為保證通過離散小波變換(DWT)后的去噪結(jié)果仍保留原始時(shí)序數(shù)據(jù)的規(guī)律性等特性以及特殊數(shù)據(jù)的突出部分,我們選用db38 的結(jié)果進(jìn)行去噪。圖4 展示出A 站某時(shí)段進(jìn)行離散小波變換降噪后的劑量率變化與原始時(shí)序數(shù)據(jù)對(duì)比??梢钥吹剑?jīng)過降噪后的劑量率變化曲線變得更為平滑,噪聲數(shù)據(jù)減少,可以更加明顯地區(qū)分正常數(shù)據(jù)與特殊數(shù)據(jù),進(jìn)而有效地避免了噪聲數(shù)據(jù)對(duì)特殊數(shù)據(jù)檢測(cè)效果的影響。

4. 3 實(shí)驗(yàn)設(shè)置

在特殊數(shù)據(jù)檢測(cè)模型建模時(shí)使用A 站2019—2020 年帶人工標(biāo)注標(biāo)簽數(shù)據(jù)集(正常數(shù)據(jù)標(biāo)簽為0,特殊數(shù)據(jù)標(biāo)簽為1),按照0. 7、0. 15、0. 15 的比例將數(shù)據(jù)集隨機(jī)劃分為獨(dú)立的訓(xùn)練集、測(cè)試集、驗(yàn)證集。利用訓(xùn)練集與驗(yàn)證集建立模型并優(yōu)化,通過測(cè)試集預(yù)測(cè)標(biāo)簽結(jié)果與實(shí)際標(biāo)簽從準(zhǔn)確率、精確率、召回率、F1-分?jǐn)?shù)方面進(jìn)行評(píng)估。

LSTM 模型輸入數(shù)據(jù)為Z-score 標(biāo)準(zhǔn)化變換后的數(shù)據(jù),輸入維度為:(樣本數(shù)量,時(shí)間步長(zhǎng),特征數(shù)量),將每個(gè)時(shí)間點(diǎn)的輸入當(dāng)作該點(diǎn)數(shù)據(jù)全部特征的集合,即7 維向量,包含劑量率值、氣壓值、溫度值、濕度值、雨量值、風(fēng)向值、風(fēng)速值;時(shí)間步長(zhǎng)設(shè)置為1,表示每個(gè)時(shí)間點(diǎn)的結(jié)果由前1 個(gè)時(shí)間點(diǎn)來進(jìn)行預(yù)測(cè)。因此,模型的輸入維度為:(樣本數(shù)量,1,7)。

LSTM 模型激活函數(shù)為tanh,循環(huán)激活函數(shù)為sigmoid。通過RMSprop 優(yōu)化器進(jìn)行模型優(yōu)化。為了讓模型可以快速收斂到最優(yōu)解,且在訓(xùn)練后期更加穩(wěn)定,采用動(dòng)態(tài)學(xué)習(xí)率在學(xué)習(xí)中進(jìn)行調(diào)整。初始學(xué)習(xí)率設(shè)置為0. 1,當(dāng)評(píng)價(jià)指標(biāo)F1-分?jǐn)?shù)在連續(xù)10 個(gè)epoch 后不再提升時(shí),則減少學(xué)習(xí)率至原學(xué)習(xí)率的0. 1 倍, 直到學(xué)習(xí)率降低到最小值0. 001。

基于A 站預(yù)處理后帶標(biāo)簽的數(shù)據(jù)訓(xùn)練模型,通過網(wǎng)格搜索對(duì)RMSprop 學(xué)習(xí)效率等模型參數(shù)進(jìn)行選擇。在實(shí)驗(yàn)過程中,我們對(duì)模型的超參數(shù)進(jìn)行調(diào)優(yōu),選擇隱藏層大小為256,設(shè)置batch 尺寸為128,epoch 數(shù)量為50。在模型對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練過程中,對(duì)每個(gè)epoch 通過F1-分?jǐn)?shù)來評(píng)估模型在訓(xùn)練集和驗(yàn)證集上的性能,如圖5 所示。對(duì)訓(xùn)練好的模型通過準(zhǔn)確率、精確率、召回率、F1-分?jǐn)?shù)來對(duì)模型進(jìn)行評(píng)估。并且進(jìn)行更精細(xì)的調(diào)優(yōu),例如嘗試不同數(shù)量的LSTM 隱藏單元等方法,進(jìn)一步提高模型的檢測(cè)性能。

4. 4 性能評(píng)估

A 站2019 年某時(shí)段及該時(shí)段部分放大輻射劑量率數(shù)據(jù)預(yù)處理可視化如圖6 所示,可以看到,預(yù)處理后的數(shù)據(jù)對(duì)缺失數(shù)據(jù)進(jìn)行了有效填充,且保留了原頻率時(shí)序數(shù)據(jù)波動(dòng)特征,平滑了劑量率時(shí)間序列曲線。

同時(shí),基于A 站2019—2020 年帶人工標(biāo)注標(biāo)簽數(shù)據(jù),我們通過對(duì)特殊數(shù)據(jù)算法的評(píng)估,研究數(shù)據(jù)預(yù)處理步驟對(duì)基于LSTM 特殊數(shù)據(jù)檢測(cè)算法性能的影響,實(shí)驗(yàn)結(jié)果列于表2。該表為L(zhǎng)STM 二分類模型5 次運(yùn)行結(jié)果的平均表現(xiàn),通過表2 可以得出,原始數(shù)據(jù)在經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)變換后,應(yīng)用LSTM 模型后的準(zhǔn)確率、精確率、召回率及F1-分?jǐn)?shù)均存在提升,其中精確率、召回率與F1-分?jǐn)?shù)提升幅度較大, 分別提高了58. 8%、237. 3%、176. 6%。

為了進(jìn)一步探究數(shù)據(jù)預(yù)處理是否會(huì)對(duì)特殊數(shù)據(jù)的預(yù)警產(chǎn)生影響,實(shí)驗(yàn)將原始數(shù)據(jù)及預(yù)處理后數(shù)據(jù)分別通過檢測(cè)模型,對(duì)比得到的特殊數(shù)據(jù)與實(shí)際人工標(biāo)注的特殊數(shù)據(jù),并基于時(shí)間序列繪制經(jīng)模型檢測(cè)出的輻射劑量率特殊數(shù)據(jù)散點(diǎn)圖,如圖7 所示。圖中,以測(cè)試集中人工標(biāo)注的特殊數(shù)據(jù)為標(biāo)準(zhǔn),對(duì)模型檢測(cè)出的特殊數(shù)據(jù)與人工標(biāo)注的特殊數(shù)據(jù)重合點(diǎn)比例進(jìn)行放大,可以更直觀的展示出,經(jīng)預(yù)處理后的數(shù)據(jù)相較于原數(shù)據(jù)帶入模型后,檢測(cè)出的正確特殊數(shù)據(jù)更多,更為精確。我們不失一般性地選取一組不同輸入的模型檢測(cè)結(jié)果(即測(cè)試集的原數(shù)據(jù)與預(yù)處理數(shù)據(jù)分別輸入模型后檢測(cè)出的特殊數(shù)據(jù)),并將它們與測(cè)試集中的人工標(biāo)注特殊數(shù)據(jù)進(jìn)行比較,檢測(cè)出的特殊數(shù)據(jù)關(guān)系如圖8 韋恩圖所示。在測(cè)試集30 711 條數(shù)據(jù)中,人工標(biāo)注的特殊數(shù)據(jù)數(shù)量為3 967 條,原數(shù)據(jù)輸入模型后檢測(cè)出的特殊數(shù)據(jù)數(shù)量為2 338 條,正確檢測(cè)出特殊數(shù)據(jù)共1 140 條,精確率為28. 74%,召回率為48. 76%;預(yù)處理數(shù)據(jù)輸入模型后檢測(cè)出的特殊數(shù)據(jù)數(shù)量為4 329 條,正確檢測(cè)出特殊數(shù)據(jù)共2 492 條,精確率為62. 82%,召回率為57. 57%,明顯優(yōu)于原數(shù)據(jù)作為模型輸入數(shù)據(jù)得到的檢測(cè)結(jié)果, 通過評(píng)估此組模型不同輸入的檢測(cè)結(jié)果,可以看出經(jīng)預(yù)處理后的數(shù)據(jù)更適合作為檢測(cè)模型的輸入數(shù)據(jù),檢測(cè)效果更好。另外,預(yù)處理數(shù)據(jù)與原數(shù)據(jù)輸入模型后檢測(cè)出的特殊數(shù)據(jù)重合率占原數(shù)據(jù)檢測(cè)結(jié)果的64. 97%,其中88. 51%為正確檢測(cè)出的特殊數(shù)據(jù),表明數(shù)據(jù)預(yù)處理并不會(huì)降低預(yù)警的靈敏度。因此,我們得出結(jié)論,數(shù)據(jù)預(yù)處理可以有效地提高數(shù)據(jù)質(zhì)量,且數(shù)據(jù)預(yù)處理并不會(huì)對(duì)特殊數(shù)據(jù)的預(yù)警產(chǎn)生影響。

5 結(jié)論

本文介紹了基于時(shí)間序列分析的數(shù)據(jù)預(yù)處理步驟,包括數(shù)據(jù)統(tǒng)計(jì)分析、數(shù)據(jù)清洗、數(shù)據(jù)變換及轉(zhuǎn)換處理,并對(duì)環(huán)境輻射劑量率數(shù)據(jù)集進(jìn)行了數(shù)據(jù)預(yù)處理及特殊數(shù)據(jù)檢測(cè)實(shí)驗(yàn)研究,通過無預(yù)處理的原始數(shù)據(jù)及預(yù)處理后的輻射劑量率特殊數(shù)據(jù)檢測(cè)結(jié)果進(jìn)行評(píng)估,結(jié)果表明,經(jīng)過預(yù)處理后的數(shù)據(jù)應(yīng)用于LSTM 特殊數(shù)據(jù)檢測(cè)模型后,在準(zhǔn)確率、精確率、召回率及F1-分?jǐn)?shù)方面都有所提高,這說明應(yīng)用適當(dāng)?shù)念A(yù)處理可以有效提高特殊數(shù)據(jù)檢測(cè)結(jié)果及數(shù)據(jù)質(zhì)量,為后續(xù)數(shù)據(jù)挖掘及特殊數(shù)據(jù)分析提供有力幫助。在后續(xù)研究中,我們可以通過多個(gè)方面對(duì)數(shù)據(jù)預(yù)處理方法進(jìn)行優(yōu)化,其中,對(duì)缺失值的處理是影響數(shù)據(jù)預(yù)處理效果的重要部分,我們可以根據(jù)經(jīng)驗(yàn)及多次實(shí)驗(yàn)增加更為細(xì)化的填充規(guī)則,例如,設(shè)置更為準(zhǔn)確的缺失值填充方法的時(shí)間間隔限制,采用不同的機(jī)器學(xué)習(xí)及時(shí)間序列預(yù)測(cè)方法等。

猜你喜歡
數(shù)據(jù)預(yù)處理時(shí)間序列環(huán)境
長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
孕期遠(yuǎn)離容易致畸的環(huán)境
環(huán)境
芻議電力系統(tǒng)規(guī)劃設(shè)計(jì)在電力工程設(shè)計(jì)中的應(yīng)用
基于時(shí)間序列的我國(guó)人均GDP分析與預(yù)測(cè)
商(2016年32期)2016-11-24 16:20:57
基于線性散列索引的時(shí)間序列查詢方法研究
軟件工程(2016年8期)2016-10-25 15:43:57
慢性乙肝癥狀與生物信息相關(guān)性的數(shù)據(jù)挖掘研究
基于組合模型的能源需求預(yù)測(cè)
公眾預(yù)期與不良貸款
商情(2016年11期)2016-04-15 20:25:31
绥中县| 麟游县| 望奎县| 当阳市| 淮安市| 靖边县| 金门县| 惠州市| 高雄县| 九江县| 曲沃县| 巴林左旗| 会东县| 东乡| 天津市| 土默特左旗| 桑日县| 金塔县| 新龙县| 红原县| 晋宁县| 吉木萨尔县| 杭锦后旗| 竹北市| 保靖县| 信丰县| 鹿泉市| 镇安县| 分宜县| 白玉县| 深州市| 沾化县| 沙雅县| 武冈市| 筠连县| 延川县| 滦平县| 阳原县| 喜德县| 商丘市| 广宗县|