摘 要:邁入信息時代,大數(shù)據(jù)建設逐漸成為各領域研究的熱點。大數(shù)據(jù)建設層次的高低,直接關系到信息產(chǎn)業(yè)的發(fā)展。新形勢下,加快推大數(shù)據(jù)建設與發(fā)展,能夠助力各行業(yè)信息化建設的提高。本文主要從數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)歸約、數(shù)據(jù)變換等方面,重點提出作戰(zhàn)數(shù)據(jù)預處理的方法步驟,為作戰(zhàn)大數(shù)據(jù)建設發(fā)展提供支撐。
關鍵詞:數(shù)據(jù)預處理;數(shù)據(jù)清洗;數(shù)據(jù)歸約
1.數(shù)據(jù)獲取
在特定領域中,參與單位多元、參與行動多樣、協(xié)同關系復雜,數(shù)據(jù)需求種類繁多。如現(xiàn)場環(huán)境數(shù)據(jù),主要包括:地形地貌、氣象水文、空氣質(zhì)量、重力場、電磁環(huán)境、交通、建筑物、防御工程設施、網(wǎng)絡環(huán)境等[1]。傳感器、采集器以及相關部門提供的數(shù)據(jù)都需要系統(tǒng)地、有規(guī)律地進行整合。
1.1采集要求
(1)完整性:保證采集的數(shù)據(jù)信息不存在缺失現(xiàn)象,不完整的信息數(shù)據(jù)可能會使整個實例數(shù)據(jù)失效。(2)唯一性:每一個實例只能對應一條記錄,不允許出現(xiàn)兩個以上相同的實例。(3)一致性:不同的系統(tǒng)設備或者人員采集相同的實例應當是相同的信息,同一實例在不同系統(tǒng)中應當是相同的表達。(4)精準性:采集的數(shù)據(jù)信息能夠準確描述現(xiàn)實事件的特征。(5)時效性:數(shù)據(jù)在所需時間段內(nèi)及時可用,如果數(shù)據(jù)過于陳舊,會使該數(shù)據(jù)分析獲得的結(jié)論失去參考價值。同時在作戰(zhàn)數(shù)據(jù)的采集時,還需要獲得上級領導的批準或者指示。
1.2采集方法
(1)日志采集:日志采集屬于對非結(jié)構化數(shù)據(jù)的采集,分為瀏覽器頁面日志采集和客戶端日志采集。①瀏覽器頁面日志采集:可以通過網(wǎng)絡爬蟲等方法對網(wǎng)頁信息進行獲取,將獲取的信息儲存為本地數(shù)據(jù)文件。②客戶端日志采集:通常是采用軟件開發(fā)工具包(SDK)用于APP等客戶端的數(shù)據(jù)采集,從事件的角度來采集數(shù)據(jù),比如業(yè)務操作事件、點擊事件、登錄事件等。(2)數(shù)據(jù)源數(shù)據(jù)同步:根據(jù)同步的方式可分為直接數(shù)據(jù)源同步、生成數(shù)據(jù)文件同步、數(shù)據(jù)庫日志同步。①直接數(shù)據(jù)源同步:通過特定的接口,直接讀取目標數(shù)據(jù)庫的數(shù)據(jù)。②生成數(shù)據(jù)文件同步:將數(shù)據(jù)源系統(tǒng)生成的數(shù)據(jù)文件,通過文件系統(tǒng)同步到別的數(shù)據(jù)庫中。這種方式需要對文件進行適當加密和壓縮,可以提高數(shù)據(jù)效率和保證數(shù)據(jù)安全。③數(shù)據(jù)庫日志同步:數(shù)據(jù)庫日志文件記錄著數(shù)據(jù)庫所有數(shù)據(jù)的修改信息,防止意外情況導致數(shù)據(jù)庫出問題,可以通過數(shù)據(jù)庫日志進行數(shù)據(jù)恢復。因此可以通過這個數(shù)據(jù)庫日志文件來進行增量同步,從而獲得數(shù)據(jù)。
2.大數(shù)據(jù)預處理
2.1缺失值處理
(1)刪除法。此方法是最簡單、原始的方法,如果一條數(shù)據(jù)有缺失,直接將此有缺失的數(shù)據(jù)實例刪除以解決數(shù)據(jù)缺失的問題。
(2)插補法。作戰(zhàn)數(shù)據(jù)通常數(shù)據(jù)量龐大、屬性繁多,如果因為一個屬性數(shù)據(jù)的缺失而刪除一整條數(shù)據(jù),會造成數(shù)據(jù)浪費。因此,利用一些方法把缺失的數(shù)據(jù)補上即可。常見的方法有:①均值插補:數(shù)據(jù)分為數(shù)值類型和非數(shù)值類型,當缺失值是數(shù)值類型時,將缺失這類屬性的其他所有值求平均,將平均值填入缺失的位置。當缺失值是非數(shù)值類型時,將這類屬性其他所有值求眾數(shù),也就是將這類屬性中出現(xiàn)最頻繁的數(shù)據(jù)填入缺失的位置。②回歸插補:將缺少數(shù)據(jù)的屬性看作因變量,與其相關聯(lián)的其他屬性看作自變量,利用他們之間的關聯(lián)建立回歸模型進行預測,將預測的值填入缺失的位置。③極大似然估計:極大似然估計實際上是概率論在統(tǒng)計分析中的應用,通過已有的數(shù)據(jù)分布情況去推測缺失值。
2.2噪聲過濾
噪聲數(shù)據(jù)是真實存在的數(shù)據(jù),但是存在誤差。隨機誤差產(chǎn)生的噪聲數(shù)據(jù)看起來是正常的,卻影響變量真值,所以噪聲數(shù)據(jù)也會影響最終數(shù)據(jù)分析結(jié)果,需要對其進行去噪。去噪的方法通常有回歸法,均值平滑法,離群點分析法及小波去噪法。
(1)回歸法:回歸法是利用一個函數(shù)或者回歸模型擬合數(shù)據(jù),對數(shù)據(jù)進行光滑處理,利用回歸得到的數(shù)據(jù)值代替原來的噪聲值,從而避免了噪聲數(shù)據(jù)的干擾,但是必須要求大部分數(shù)據(jù)符合線性回歸的趨勢,才可以用此方法解決噪聲數(shù)據(jù)。通??梢韵葘?shù)據(jù)可視化后,人為觀察數(shù)據(jù)的變化趨勢,如果符合線性回歸趨勢,則可用此方法去噪。
(2)均值平滑法:將具有序列特征的變量用臨近的若干數(shù)據(jù)均值來代替先前的噪聲數(shù)據(jù)。
(3)離群點分析:通常是運用某種算法,檢測出異常點,然后將其刪除。通常是采用聚類的算法,然后進行聚類分析,多組實例數(shù)據(jù)聚集為同類稱之為蔟,同一蔟的數(shù)據(jù)相似程度高,而離群點的數(shù)據(jù)實例會獨立出來,不屬于任何一個蔟,這個時候就刪除這些離群點,達到去噪的效果。
(4)小波法:小波去噪屬于音頻處理[2],具有較好的時頻特性。主要是用于對圖像或信號去噪。從數(shù)學角度分析,小波去噪本質(zhì)是函數(shù)逼近問題,根據(jù)衡量標準找出對原信號的最佳逼近,區(qū)別原信號與噪聲信號,找到實際信號空間到小波函數(shù)空間的最佳映射,便于恢復最佳的原信號[3]。從信號學角度分析,小波去噪是信號濾波問題,雖然小波去噪很大程度上可看作低通濾波,但它優(yōu)于傳統(tǒng)低通濾波的地方是去噪后還能保留信號特征。小波去噪可看作是特征提取和低通濾波功能的綜合,輸入帶噪信號后,經(jīng)過特征提取與低通濾波可得到重建信號。
2.3重復值處理
重復的數(shù)據(jù)是相同信息的數(shù)據(jù)重復出現(xiàn),形成重復數(shù)據(jù)實例,造成數(shù)據(jù)信息冗余,并且會造成該樣本在整體數(shù)據(jù)中占比提升,最終可能導致數(shù)據(jù)分析時出現(xiàn)偏差。通常情況下運用算法進行匹配,找出重復多余的數(shù)據(jù)進行刪除即可。
2.4數(shù)據(jù)集成
數(shù)據(jù)集成的一般方法:①聯(lián)邦數(shù)據(jù)庫:這是早期的一種通用方法,在這個數(shù)據(jù)庫中,數(shù)據(jù)源與數(shù)據(jù)源之間可以共享自己的一部分數(shù)據(jù)模式,從而形成一個聯(lián)邦模式,從數(shù)據(jù)集成的效果來看可以分為緊密藕合聯(lián)邦數(shù)據(jù)庫和松散藕合聯(lián)邦數(shù)據(jù)庫。緊密藕合集成度比較高,解決了數(shù)據(jù)集間的異構性,但是構建的全局數(shù)據(jù)模式擴展性差且算法復雜。松散藕合集成度低,沒有全局模式,但其數(shù)據(jù)集成的自治性好、動態(tài)性能好。②中間件集成:該集成方法同樣使用全局數(shù)據(jù)模式,其特點是不僅能夠集成結(jié)構化的數(shù)據(jù)信息,還可以集成半結(jié)構化或者非結(jié)構化數(shù)據(jù)信息。這種集成系統(tǒng)中包括中間件和包裝器,包裝器是對數(shù)據(jù)進行包裝(包裝器和一個特定的數(shù)據(jù)信息進行對應)。中間件就可以通過包裝器進行數(shù)據(jù)交流。操作者通過全局數(shù)據(jù)模式向中間件發(fā)出數(shù)據(jù)信息請求,中間件收到請求并處理。
2.5數(shù)據(jù)歸約
對于海量的數(shù)據(jù)信息,數(shù)據(jù)樣本實例太多,維度過高會引起數(shù)據(jù)超負荷,使得數(shù)據(jù)挖掘的算法不適用且運算量大,因此執(zhí)行數(shù)據(jù)歸約是必要的。數(shù)據(jù)歸約的基本操作是刪除行列和減少列中值的數(shù)量。例如用一列的特征去表示兩列或多列的特征從而刪除列達到減少數(shù)據(jù)量的效果。數(shù)據(jù)維度歸約可以對海量的數(shù)據(jù)進行降維處理,主要是利用主成分分析和小波變換將原始的數(shù)據(jù)映射到較小的空間,從而降低數(shù)據(jù)大小但不降低數(shù)據(jù)特征質(zhì)量,同時不降低數(shù)據(jù)分析結(jié)果質(zhì)量??傊?,數(shù)據(jù)歸約的目的就是對數(shù)據(jù)信息進行細化處理,盡可能壓縮數(shù)據(jù),并且不降低數(shù)據(jù)分析結(jié)果的準確度。
結(jié)語:本文對特定領域用途大數(shù)據(jù)技術中數(shù)據(jù)預處理相關概念進行介紹,對處理的流程進行梳理,并詳細介紹每一個流程的作用和方法。通過數(shù)據(jù)清洗,可以刪除冗余數(shù)據(jù),填補空缺數(shù)據(jù),處理偏差數(shù)據(jù),再通過數(shù)據(jù)集成,使得數(shù)據(jù)格式相同,表達相同,最后經(jīng)過數(shù)據(jù)歸約和變換完成數(shù)據(jù)預處理。作戰(zhàn)所需的數(shù)據(jù)綜合性強,需要多部門、多領域合作,對作戰(zhàn)數(shù)據(jù)進行預處理可以更好地為指揮員及時掌握戰(zhàn)場態(tài)勢,高效科學決策提供數(shù)據(jù)支撐。
參考文獻:
[1]趙一凡,卞良,叢昕.數(shù)據(jù)清洗方法研究綜述[J].軟件導刊,2017,16(12):222-224.
作者簡介:
王曉品,男(1988-),漢族,云南省馬關縣人,畢業(yè)于國防科技大學,計算機科學與技術專業(yè)碩士研究生,現(xiàn)任武警河南省總隊綜合信息保障中心助理工程師。
(武警河南省總隊,河南 鄭州 450000)