国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于能量過濾的不確定時間序列數(shù)據(jù)清洗方法

2019-09-12 10:41孫紀舟李建中
智能計算機與應用 2019年4期

孫紀舟 李建中

摘 要: 精確度是數(shù)據(jù)科學領域研究的重要方面,對后續(xù)數(shù)據(jù)處理等過程都有至關重要的影響。利用多個傳感器返回的多個時間序列可提升時間序列數(shù)據(jù)的精確度,稱為不確定時間序列,這多個時間序列樣本在真實數(shù)據(jù)上下隨機波動。已有關于時間序列的研究大多直接在不確定時間序列上提出新算法,其缺點是算法復雜度通常較高,直接對不確定時間序列進行清洗,獲得盡可能接近真實的數(shù)據(jù)有重要意義。本文提出基于能量過濾的方法對不確定時間序列進行清洗,實驗結果表明與已有方法相比,本文方法在效果和效率上都更優(yōu)。

關鍵詞: 不確定時間序列;能量過濾;數(shù)據(jù)清洗

文章編號:2095-2163(2019)04-0001-06 中圖分類號:TP391.41 文獻標志碼:A

0 引 言

時間序列數(shù)據(jù)在日常生活和工業(yè)生產中無處不在,例如氣象學中的溫度、濕度、風速、PM2.5;醫(yī)學中的心跳、血壓、體溫;以及經(jīng)濟學中的股票指數(shù)、恩格爾系數(shù)以及其它描述宏觀經(jīng)濟形勢的指數(shù)等。這些數(shù)據(jù)都是隨時間變化的數(shù)值型數(shù)據(jù)。由于環(huán)境干擾、傳感器的精度不夠、獲取數(shù)據(jù)時的舍入等原因,時間序列數(shù)據(jù)通常是不精確的,距離真實數(shù)據(jù)總有一些誤差。而這些誤差往往給人們的日常生活、醫(yī)療中的病情診斷及監(jiān)控以及政府部門的決策等帶來負面影響。

為了盡可能降低誤差帶來的影響,常用的解決方法就是對同一時間序列數(shù)據(jù)采集多個樣本,每個樣本都在真實數(shù)據(jù)周圍隨機的上下波動,對這些樣本求平均值,或者直接在這些樣本上設計新算法,都能在一定程度上解決誤差帶來的影響。求平均值的方法最簡單快速,但結果精確度不夠高;設計新算法的思路能夠獲得更高的精度,但往往有著很高的時間復雜度。

結合時間序列平滑的特性以及隨機噪聲的波動特性,本文給出一種基于能量過濾的時間序列清洗算法。根據(jù)給定的時間序列樣本,計算出數(shù)據(jù)中噪聲所占能量的比重,根據(jù)這個比重找出一個頻率閾值,并將傅里葉變換之后高于該閾值的部分過濾掉,所得結果更加平滑且接近真實數(shù)據(jù),在Top-k查詢問題上和已有算法做了實驗對比,結果顯示在效果上本文算法較好,而時間效率上本文算法遠遠優(yōu)于已有算法。

1 問題描述

1.1 時間序列

1.2 不確定時間序列

在很多實際情況中,收集到的數(shù)據(jù)往往是不精確的,比如采集溫度數(shù)據(jù)的傳感器,本身有一定的誤差,為降低誤差,對同一時刻的數(shù)據(jù)收集多個數(shù)據(jù)樣本,以提高測量精度。 因此本文給出的不確定時間序列模型描述如下:

(1)不同時刻值的誤差是獨立同分布的隨機變量;

1.3 不確定時間序列的清洗

關于不確定時間序列的已有研究中,都致力于提出新的模型和算法對不確定時間序列數(shù)據(jù)進行搜索、聚類和Top-k查詢等。而相關問題在確定時間序列上的研究已經(jīng)十分成熟,為了使這些方法能夠直接用在不確定時序數(shù)據(jù)上,本文主要研究如何對不確定數(shù)據(jù)進行清洗(或者還原),使之變?yōu)楸M可能接近真實數(shù)據(jù)的確定時間序列。下面給出不確定時間序列的清洗問題。

2 基于能量過濾的清洗方法

由于數(shù)據(jù)點之間的相關性在頻域表現(xiàn)比較明顯,因此本文考慮在頻域進行降維,從而達到清洗數(shù)據(jù)的目的。其直觀思想是,時間序列數(shù)據(jù)在頻域上分布極不均勻。即有些頻率上的數(shù)據(jù)分布很集中(高能區(qū)域),而有些頻率上只有很少數(shù)據(jù)信息(低能區(qū)域),而不確定數(shù)據(jù)中的噪聲在各個頻率上的分布相對均勻。因此,在低能區(qū)域,噪聲數(shù)據(jù)占據(jù)主導地位,直接將其舍棄掉雖然會丟失一部分有用信息,但同時丟掉了更多的垃圾信息,使得整體的數(shù)據(jù)質量得到提升。 該方法的優(yōu)點主要包括:

(1)大大減少了數(shù)據(jù)量,每個時間點的數(shù)據(jù)由m維降低到1維,并且在頻域上只需要保留很少的數(shù)據(jù)(例如在實驗中,長度為2 k的數(shù)據(jù)在頻率域只需要保留100個左右的數(shù)據(jù)點);

(2)大大提升了數(shù)據(jù)質量,通過自適應的選取一個能量閾值,本文的方法能夠去掉盡可能多的噪聲,保留盡可能多的有用信息,從而使最終的估計結果盡可能地接近真實數(shù)據(jù),實驗部分也對此進行了驗證。

2.1 離散傅里葉變換

即在某個頻率上,臟數(shù)據(jù)的能量的期望等于真實數(shù)據(jù)能量期望與噪聲能量期望之和。

2.3 噪聲能量的估計

由于不同時刻的數(shù)據(jù)都是由同一個傳感器收集的,因此不同時刻的隨機噪聲也是獨立同分布的。每個時刻有m個樣本,均由隨機變量s+Ns中采樣得到,其中s是真實值但未知,隨機變量Ns是傳感器的隨機誤差。由于s是常數(shù)不影響方差,因此s+Ns和Ns的方差相等,由概率論知識可知,m個樣本的樣本方差是對s+Ns方差的無偏估計,即是對Ns方差的無偏估計。 由于時間序列很長,因此在每個時間點上的數(shù)據(jù)估計Ns并求平均,根據(jù)大數(shù)定律容易得出,如此求得的方差幾乎等于傳感器隨機誤差的方差:

2.4 算法

至此,可給出基于能量過濾的時間序列清洗算法:

3 實驗驗證

最后在真實數(shù)據(jù)集和合成數(shù)據(jù)集上對本文算法和其它算法做一對比。

3.1 實驗環(huán)境

本文算法代碼用JAVA語言實現(xiàn),硬件環(huán)境是主頻3.60GHz的8核Intel i7處理器,內存大小為8GB,硬盤大小1TB的臺式機,底層操作系統(tǒng)是Windows 7。

3.2 實驗數(shù)據(jù)

本實驗采用的數(shù)據(jù)集為UCR數(shù)據(jù)集,UCR是時間序列數(shù)據(jù)研究中最常用的數(shù)據(jù)集,樣本及噪聲的生成均采用文獻[1]中的方法。

3.3 算法對比

本實驗主要與一個最近的關于不確定時間序列數(shù)據(jù)上Top-k查詢的算法[1]Holistc-PkNN做對比。該算法解決的問題是,給定一個不確定時間序列數(shù)據(jù)集,研究如何從該數(shù)據(jù)集中快速找出與查詢序列Q距離最近的不確定時間序列。該方法是針對不確定時間序列上的老問題設計的新算法,其最大缺點是雖然設計了很多提高性能的優(yōu)化技術,但時間開銷依然很高。