劉帥++楊松++常歌++董亞卓
摘 要:論文針對(duì)??漳繕?biāo)航跡數(shù)據(jù)的內(nèi)容與特點(diǎn),面向海空目標(biāo)探測(cè)效能評(píng)估需求,提出了??漳繕?biāo)航跡數(shù)據(jù)清洗方法和流程,包括數(shù)據(jù)格式規(guī)范化處理、數(shù)據(jù)篩選、去離群點(diǎn)和航跡插值等。試驗(yàn)證明,論文提出的數(shù)據(jù)清洗算法能夠優(yōu)化數(shù)據(jù)格式,剔除原始數(shù)據(jù)中的錯(cuò)誤、無(wú)效數(shù)據(jù),增加樣本數(shù)量,從而為后續(xù)開展??仗綔y(cè)效能評(píng)估做好數(shù)據(jù)準(zhǔn)備。
關(guān)鍵詞:??漳繕?biāo)航跡數(shù)據(jù);數(shù)據(jù)清洗;算法
中圖分類號(hào):TP391;E917 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract: Based on the contents and features of the sea and air target trace data, facing the requirements of effectiveness evaluations, this paper puts forward a method and process of the sea and air target trace data cleaning, including data formatting processing, data filtering and so on. The tests prove that the data cleaning algorithm proposed can optimize the data format, eliminate the wrong and invalid data, increase the sample numbers, and prepare the data for the subsequent effectiveness evaluations.
Key words: the sea and air target trace data; data cleaning; algorithm
1 引言
??漳繕?biāo)航跡數(shù)據(jù)是各??漳繕?biāo)探測(cè)系統(tǒng)、海空目標(biāo)信息綜合處理系統(tǒng)、??漳繕?biāo)用戶系統(tǒng)之間生成和傳遞的海上、空中、水下目標(biāo)的位置、屬性、狀態(tài)、時(shí)間等信息數(shù)據(jù)。當(dāng)前,海軍承擔(dān)??漳繕?biāo)探測(cè)任務(wù)的裝備主要有各雷達(dá)站、觀通站、海上平臺(tái)、空中平臺(tái)、水下平臺(tái)等,這些平臺(tái)的使命任務(wù)是及時(shí)、準(zhǔn)確地發(fā)現(xiàn)、定位、跟蹤各類海上、空中、水下目標(biāo),對(duì)目標(biāo)進(jìn)行初步識(shí)別,并將探測(cè)到的原始??漳繕?biāo)航跡數(shù)據(jù)上報(bào)至上級(jí)海空情綜合處理系統(tǒng),海空情綜合處理系統(tǒng)對(duì)各平臺(tái)上報(bào)的??漳繕?biāo)航跡數(shù)據(jù)經(jīng)多級(jí)融合處理和識(shí)別認(rèn)證,形成最終的海空目標(biāo)態(tài)勢(shì)產(chǎn)品,送往指揮所,輔助指揮員指揮決策。
因此,要對(duì)整個(gè)海空目標(biāo)探測(cè)體系的目標(biāo)探測(cè)質(zhì)量、信息流轉(zhuǎn)效率、融合識(shí)別流程等進(jìn)行分析評(píng)估,就離不開對(duì)??漳繕?biāo)探測(cè)數(shù)據(jù)的自動(dòng)、準(zhǔn)確的分析、處理和運(yùn)算。當(dāng)前,由于??漳繕?biāo)探測(cè)體系內(nèi)包含的系統(tǒng)、平臺(tái)、裝備類型眾多,由多家單位承研承建,而在裝備論證之初對(duì)各裝備數(shù)據(jù)記錄的內(nèi)容、格式、量綱等缺少統(tǒng)一要求和規(guī)范,因此,導(dǎo)致整個(gè)體系內(nèi)采集的裝備原始數(shù)據(jù)存在很大程度的不統(tǒng)一、不規(guī)范、不完整等問(wèn)題,同時(shí)還存在部分空數(shù)據(jù)項(xiàng)和錯(cuò)誤數(shù)據(jù)項(xiàng),因此,需要對(duì)原始的??漳繕?biāo)航跡數(shù)據(jù)進(jìn)行清洗和規(guī)范化處理,去除無(wú)效的數(shù)據(jù)字段、增加標(biāo)識(shí)字段、統(tǒng)一格式與量綱、剔除離群點(diǎn)和錯(cuò)誤點(diǎn),對(duì)稀疏航跡進(jìn)行插值,以確保最終入庫(kù)參與運(yùn)算的??漳繕?biāo)航跡數(shù)據(jù)格式統(tǒng)一、規(guī)范、準(zhǔn)確,以便于后續(xù)的分析運(yùn)算和裝備效能評(píng)估。
當(dāng)前,國(guó)外對(duì)數(shù)據(jù)清洗的研究主要集中在四個(gè)方面:檢測(cè)并清除數(shù)據(jù)異常;檢測(cè)并清除近似重復(fù)數(shù)據(jù);數(shù)據(jù)的集成;特定領(lǐng)域的數(shù)據(jù)清洗。國(guó)內(nèi)的數(shù)據(jù)清洗技術(shù)研究主要集中在對(duì)數(shù)據(jù)質(zhì)量需求很高的行業(yè),他們以各自需求為牽引在特定領(lǐng)域展開相關(guān)研究[1,2]。
2 海空目標(biāo)航跡數(shù)據(jù)內(nèi)容及特點(diǎn)分析
各??漳繕?biāo)探測(cè)系統(tǒng)、海空目標(biāo)綜合處理系統(tǒng)和??漳繕?biāo)用戶系統(tǒng)之間傳遞的??漳繕?biāo)航跡數(shù)據(jù),主要包括信息字段:??漳繕?biāo)批號(hào)、情報(bào)源號(hào)、目標(biāo)探測(cè)時(shí)間、目標(biāo)經(jīng)緯度位置、目標(biāo)方位、目標(biāo)距離、目標(biāo)高度、目標(biāo)類型、目標(biāo)屬性等。原始的??漳繕?biāo)航跡數(shù)據(jù)有四個(gè)特點(diǎn)。
(1)數(shù)據(jù)規(guī)模大。由于??漳繕?biāo)態(tài)勢(shì)是動(dòng)態(tài)變化的,??漳繕?biāo)航跡數(shù)據(jù)也在不斷更新,因此整個(gè)海空目標(biāo)探測(cè)體系內(nèi)流轉(zhuǎn)的數(shù)據(jù)量非常大,以方向級(jí)空情綜合處理系統(tǒng)為例,平均每秒鐘報(bào)文更新率在100條左右。
(2)多型裝備數(shù)據(jù)記錄格式不統(tǒng)一。由于在裝備論證之初,缺少對(duì)數(shù)據(jù)記錄內(nèi)容、格式、量綱等的頂層規(guī)劃和統(tǒng)一要求,導(dǎo)致當(dāng)前各裝備記錄的數(shù)據(jù)存在內(nèi)容、格式等不統(tǒng)一、不規(guī)范的問(wèn)題。
(3)存在大量復(fù)合字段。原始海空目標(biāo)航跡數(shù)據(jù)中存在大量的復(fù)合數(shù)據(jù)字段,如“年+月+日”、“站號(hào)+批號(hào)”等,需要將這些數(shù)據(jù)記錄拆分成“年”、“月”、“日”、“站號(hào)”、“批號(hào)”這樣的單獨(dú)字段,以用于后續(xù)的處理、分析和運(yùn)算。
(4)存在離群點(diǎn)和空字段。當(dāng)前,由于??昭b備的探測(cè)能力有限,探測(cè)結(jié)果經(jīng)常會(huì)出現(xiàn)錯(cuò)誤的離群點(diǎn),需要在掃描到這樣的離群點(diǎn)后,將離群信息記錄下來(lái),并將相應(yīng)的數(shù)據(jù)行刪除,離群點(diǎn)不參與后續(xù)運(yùn)算。另外,采集的原始數(shù)據(jù)還存在部分空字段,即沒有探測(cè)到相應(yīng)的目標(biāo)屬性信息,需要在掃描到字段后,對(duì)相應(yīng)的字段進(jìn)行記錄和處理,以確保數(shù)據(jù)入庫(kù)的整齊性。
因此,??漳繕?biāo)航跡原始數(shù)據(jù)存在數(shù)據(jù)記錄格式不統(tǒng)一、存在復(fù)合字段、存在離群點(diǎn)和空字段等問(wèn)題,需要建立一套統(tǒng)一的??漳繕?biāo)航跡數(shù)據(jù)格式規(guī)范,將所有裝備的原始數(shù)據(jù)按照規(guī)范的格式要求進(jìn)行數(shù)據(jù)規(guī)范化處理,并按照數(shù)據(jù)后續(xù)運(yùn)算要求,對(duì)數(shù)據(jù)進(jìn)行篩選、去錯(cuò)、插值等操作,以保證數(shù)據(jù)整齊入庫(kù),便于后續(xù)評(píng)估運(yùn)算。
3 數(shù)據(jù)格式規(guī)范化
進(jìn)行數(shù)據(jù)清洗的第一步是建立統(tǒng)一的??漳繕?biāo)航跡數(shù)據(jù)格式規(guī)范,將所有裝備記錄的??漳繕?biāo)航跡數(shù)據(jù)按照統(tǒng)一的內(nèi)容、格式和量綱等要求集中存儲(chǔ)。經(jīng)全面分析后續(xù)開展裝備效能評(píng)估的需要,建立??漳繕?biāo)航跡數(shù)據(jù)格式規(guī)范,如表1所示。endprint
將來(lái)自多平臺(tái)的多類數(shù)據(jù)按表1的格式要求進(jìn)行規(guī)范化處理,刪除冗余字段、拆分復(fù)合字段、統(tǒng)一格式與量綱,同時(shí)為了辨識(shí)來(lái)自不同試驗(yàn)、不同裝備的多類數(shù)據(jù),需要適當(dāng)增加數(shù)據(jù)標(biāo)識(shí)字段,以實(shí)現(xiàn)數(shù)據(jù)的分門別類存儲(chǔ),便于后續(xù)的數(shù)據(jù)處理和查詢。通過(guò)將算法代碼化,實(shí)現(xiàn)對(duì)海量的??漳繕?biāo)航跡數(shù)據(jù)的自動(dòng)、快速規(guī)范化處理。本文提出的數(shù)據(jù)格式規(guī)范化方法如圖1所示。
第一步:輸入原始的??漳繕?biāo)航跡數(shù)據(jù)。
第二步:添加標(biāo)識(shí)字段。增加多源多類數(shù)據(jù)標(biāo)識(shí)、試驗(yàn)標(biāo)識(shí)、裝備標(biāo)識(shí)等字段,如“數(shù)據(jù)類型編號(hào)”、“所屬試驗(yàn)號(hào)”等字段,實(shí)現(xiàn)數(shù)據(jù)的分門別類存儲(chǔ)。
第三步:刪除冗余字段,拆分復(fù)合字段。按照數(shù)據(jù)格式規(guī)范,從左至右掃描數(shù)據(jù)字段,判斷該數(shù)據(jù)字段是否在數(shù)據(jù)格式規(guī)范中,如果是,則保留,如果不是,則刪除。如果是復(fù)合字段,如“情報(bào)源站號(hào)+批號(hào)”,則提取當(dāng)中的有效字段予以保留存儲(chǔ)。
第四步:統(tǒng)一數(shù)據(jù)格式、量綱。將所有的字段轉(zhuǎn)換成統(tǒng)一的格式和量綱,如將長(zhǎng)度的單位統(tǒng)一為“米”,經(jīng)度、緯度、方位等的單位統(tǒng)一為“度”等。
第五步:數(shù)據(jù)字段排序。按照規(guī)范的格式要求,將數(shù)據(jù)字段排序。
第六步:輸出數(shù)據(jù)。
4 數(shù)據(jù)清洗
在多系統(tǒng)的數(shù)據(jù)進(jìn)行規(guī)范化之后,數(shù)據(jù)清洗過(guò)程是對(duì)數(shù)據(jù)中存在的錯(cuò)誤數(shù)據(jù)行、空數(shù)據(jù)行等進(jìn)行進(jìn)一步的細(xì)化處理。
4.1 數(shù)據(jù)篩選
??漳繕?biāo)航跡數(shù)據(jù)規(guī)模龐大,在進(jìn)行裝備效能評(píng)估時(shí),通常不需要全部時(shí)段的所有數(shù)據(jù),如演習(xí)過(guò)程是10:00至12:00,那么我們就可以重點(diǎn)提取10:00至12:00的數(shù)據(jù)進(jìn)行綜合分析,而不需要考慮全天的數(shù)據(jù)。當(dāng)前,常用的數(shù)據(jù)提取方法有三種:一是按照時(shí)間軸提取,提取固定時(shí)間段或者時(shí)間節(jié)點(diǎn)的數(shù)據(jù);二是根據(jù)經(jīng)緯度進(jìn)行提取,提取重點(diǎn)海域內(nèi)的??漳繕?biāo)航跡數(shù)據(jù);三是根據(jù)演習(xí)關(guān)注的重點(diǎn),提取重點(diǎn)目標(biāo)航跡數(shù)據(jù)。
4.2 檢測(cè)并剔除離群點(diǎn)
在??漳繕?biāo)航跡數(shù)據(jù)中,存在部分離群點(diǎn),即相應(yīng)的目標(biāo)位置偏離目標(biāo)原有航跡不合理的距離,視其為探測(cè)錯(cuò)誤點(diǎn),這樣的航跡點(diǎn),在數(shù)據(jù)監(jiān)測(cè)中,要將其記錄下來(lái)并刪除相應(yīng)的數(shù)據(jù)行,作為問(wèn)題進(jìn)行分析,但不參與后續(xù)裝備效能評(píng)估運(yùn)算。
采用基于鄰近性的離群點(diǎn)檢測(cè)方法[3],基于距離監(jiān)測(cè)離群點(diǎn),對(duì)一個(gè)目標(biāo)航跡定義距離閾值r,如果一個(gè)航跡點(diǎn)與相鄰若干個(gè)航跡點(diǎn)的距離在r之內(nèi),則將其視為有效點(diǎn),如果一個(gè)航跡點(diǎn)與其臨近的若干個(gè)航跡點(diǎn)距離超出r,則將其認(rèn)為是離群點(diǎn),記錄并剔除。
4.3 航跡插值
采集的原始數(shù)據(jù)中,部分航跡點(diǎn)存在航跡過(guò)于稀疏的情況,這樣在后續(xù)計(jì)算中,會(huì)存在樣本量少的問(wèn)題,對(duì)這種情況要將其航跡稀疏現(xiàn)象記錄下來(lái),并進(jìn)行插值處理,增加航跡點(diǎn)數(shù)量。
采用拉格朗日三點(diǎn)插值法[4],對(duì)稀疏的航跡點(diǎn)進(jìn)行插值處理。當(dāng)沒有和真值航跡時(shí)標(biāo)一致的目標(biāo)航跡時(shí),對(duì)與真值航跡時(shí)標(biāo)一致的目標(biāo)航跡點(diǎn)數(shù)據(jù)進(jìn)行插值計(jì)算。確保在兩小時(shí)的目標(biāo)航跡上有至少5個(gè)航跡點(diǎn),且相鄰兩個(gè)航跡點(diǎn)間隔不大于20分鐘。
本文提出的數(shù)據(jù)清洗算法[5]如圖2所示。
第一步:輸入格式規(guī)范后的數(shù)據(jù)。
第二步:數(shù)據(jù)篩選。根據(jù)裝備評(píng)估需求,對(duì)重點(diǎn)時(shí)段、重點(diǎn)目標(biāo)、重點(diǎn)海域的目標(biāo)航跡數(shù)據(jù)進(jìn)行篩選,提取出重點(diǎn)時(shí)間段重點(diǎn)海域的所有航跡數(shù)據(jù),并提取其中的重點(diǎn)目標(biāo)航跡數(shù)據(jù)。
第三步:剔除離群點(diǎn)。針對(duì)重點(diǎn)目標(biāo)航跡數(shù)據(jù),按照時(shí)間軸從前到后掃描每一行數(shù)據(jù)的經(jīng)緯度和探測(cè)時(shí)間信息,采用基于鄰近性的方法判斷航跡點(diǎn)是否為錯(cuò)誤的離群點(diǎn),若是則記錄該離群點(diǎn)出現(xiàn)的時(shí)間、經(jīng)緯度、目標(biāo)屬性、探測(cè)源、目標(biāo)批號(hào)等信息,并刪除該數(shù)據(jù)行。
第四步:重點(diǎn)時(shí)段、重點(diǎn)目標(biāo)、重點(diǎn)海域數(shù)據(jù)的分類存儲(chǔ)。
第五步:針對(duì)重點(diǎn)目標(biāo)航跡數(shù)據(jù),綜合比對(duì)分析該時(shí)段內(nèi)的目標(biāo)真值數(shù)據(jù),分析目標(biāo)航跡數(shù)據(jù)的稀疏程度,分析目標(biāo)航跡數(shù)據(jù)與真值航跡數(shù)據(jù)中時(shí)間戳相同的數(shù)據(jù)行的數(shù)量(因?yàn)楹罄m(xù)在定位誤差等指標(biāo)的計(jì)算中,要比對(duì)同一時(shí)刻的目標(biāo)探測(cè)位置和目標(biāo)真值位置,因此要保證時(shí)間戳相同的數(shù)據(jù)行達(dá)到一定數(shù)量,以確保參與計(jì)算的樣本量),設(shè)置閾值R,如果時(shí)間戳重合數(shù)據(jù)行數(shù)量少于R,則需要對(duì)目標(biāo)航跡進(jìn)行插值處理,如果時(shí)間戳數(shù)據(jù)行數(shù)量大于R,則無(wú)需作任何處理。
第六步:輸出數(shù)據(jù)。
5 試驗(yàn)驗(yàn)證
為驗(yàn)證本文所提出算法的有效性,選取部分樣本數(shù)據(jù),進(jìn)行數(shù)據(jù)規(guī)范化和數(shù)據(jù)清洗。如圖3所示為選取樣本數(shù)據(jù)。樣本數(shù)據(jù)包括原始報(bào)文時(shí)間、站號(hào)、批號(hào)、經(jīng)度、緯度、高度、航速、航向、入庫(kù)時(shí)間、目標(biāo)種類、目標(biāo)屬性、情報(bào)源等信息。
首先進(jìn)行數(shù)據(jù)規(guī)范化處理,增加標(biāo)識(shí)字段、刪除冗余字段、拆分復(fù)合字段,其次進(jìn)行數(shù)據(jù)篩選,設(shè)置篩選條件為入庫(kù)時(shí)間從16:31:00至16:41:00,最后進(jìn)行離群點(diǎn)剔除,得到如圖4所示的清洗結(jié)果數(shù)據(jù)。
原始數(shù)據(jù)中“原始報(bào)文時(shí)間”與“入庫(kù)時(shí)間”兩個(gè)字段分別被拆分為 “原始報(bào)文時(shí)間-時(shí)”、“原始報(bào)文時(shí)間-分”、“原始報(bào)文時(shí)間-秒”與“入庫(kù)時(shí)間-時(shí)”、“入庫(kù)時(shí)間-分”、“入庫(kù)時(shí)間-秒”字段。增加了“數(shù)據(jù)類型編號(hào)”、“數(shù)據(jù)所屬試驗(yàn)號(hào)”等標(biāo)識(shí)字段。篩選了重點(diǎn)時(shí)段數(shù)據(jù),同時(shí)原來(lái)的第6條報(bào)文,因其經(jīng)緯度位置嚴(yán)重偏離正常航跡,被檢測(cè)為離群點(diǎn),記錄離群點(diǎn)信息并刪除該行數(shù)據(jù)。
試驗(yàn)證明,本文提出的算法能夠?qū)崿F(xiàn)對(duì)??漳繕?biāo)原始數(shù)據(jù)的規(guī)范和清洗,實(shí)現(xiàn)對(duì)數(shù)據(jù)的有效存儲(chǔ)。
6 結(jié)束語(yǔ)
為得到高質(zhì)量的數(shù)據(jù)以備后續(xù)指標(biāo)計(jì)算與效能評(píng)估,必須進(jìn)行切實(shí)有效的清洗工作,消除數(shù)據(jù)中的冗余、缺失、離群點(diǎn)、不一致等問(wèn)題。
隨著海軍??漳繕?biāo)探測(cè)體系內(nèi)多型裝備的不斷發(fā)展,獲取的海空目標(biāo)航跡數(shù)據(jù)在內(nèi)容上將更加精細(xì)、規(guī)模上更加龐大,當(dāng)前提出的數(shù)據(jù)清洗方法是為了解決當(dāng)前多系統(tǒng)數(shù)據(jù)記錄不統(tǒng)一、不規(guī)范、不完整等問(wèn)題,在后續(xù)工作中,應(yīng)在裝備規(guī)劃之初,就充分考慮后續(xù)開展裝備效能評(píng)估的需要,規(guī)范各裝備數(shù)據(jù)記錄的內(nèi)容、格式、量綱和導(dǎo)出環(huán)節(jié)等,以確保整個(gè)??漳繕?biāo)探測(cè)體系內(nèi)數(shù)據(jù)記錄的整齊、統(tǒng)一。
參考文獻(xiàn)
[1] 郭逸重.Hadoop分布式數(shù)據(jù)清洗方案[D].廣州:華南理工大學(xué),2012.
[2] 朱前磊.電子政務(wù)系統(tǒng)中海量數(shù)據(jù)清洗[D].上海:東華大學(xué),2010.
[3] 范明,孟曉峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2010.
[4] 同濟(jì)大學(xué)數(shù)學(xué)系.高等數(shù)學(xué)[M].北京:高等教育出版社,2014.
[5] 王紅梅,胡明.算法設(shè)計(jì)與分析[M].北京:清華大學(xué)出版社,2013.endprint