陳 曉 劉長華 劉志亮 王 旭 王春曉 賈思洋
2010~2019年北黃海海域長序列海量溫鹽數(shù)據(jù)分析與處理方法*
陳 曉1, 3劉長華2①劉志亮1, 3王 旭2王春曉2賈思洋2
(1. 河北科技師范學(xué)院 海洋科學(xué)研究中心 河北秦皇島 066004; 2. 中國科學(xué)院海洋研究所 山東青島 266071; 3. 河北省海洋動力過程與資源環(huán)境重點實驗室 河北秦皇島 066004)
保障長期連續(xù)的數(shù)據(jù)完整性和質(zhì)量可靠性是進行浮標數(shù)據(jù)應(yīng)用的首要問題。本文基于中國科學(xué)院近海觀測研究網(wǎng)絡(luò)黃海站位于北黃海長??h附近海域的五套浮標于2010~2019年連續(xù)10 a采集到的海洋表層溫鹽數(shù)據(jù), 進行數(shù)據(jù)分析與處理方法的研究。為了辨識原始溫鹽數(shù)據(jù)中的異常值, 綜合運用極值法、拉依達準則和箱型圖法給出適合溫鹽的異常數(shù)據(jù)分析與處理方法, 并基于2原則和箱型圖法修正了溫鹽界限。為了解決溫鹽數(shù)據(jù)的缺失問題, 提出SoftImpute與IterativeImpute相結(jié)合的插補方法, 有效降低了溫鹽數(shù)據(jù)的標準差。研究結(jié)果表明, 采用本文的方法可有效消除異常和插補缺失, 修正數(shù)據(jù)中的異常點, 得到連續(xù)、平滑、具有顯著年際變化特征與趨勢的溫鹽數(shù)據(jù)分析曲線, 也可增加對該海域海洋溫鹽特征、變化規(guī)律和發(fā)展趨勢等的深入理解, 為海上現(xiàn)場觀測數(shù)據(jù)處理提供借鑒, 并為后續(xù)應(yīng)用研究提供更高質(zhì)量的數(shù)據(jù)。
北黃海; 水溫; 鹽度; 異常數(shù)據(jù); 缺失數(shù)據(jù); 插補處理
隨著信息化和電子通信等技術(shù)的迅猛發(fā)展, 我國已經(jīng)建立了海-陸-空全方位立體式的海洋觀測系統(tǒng)(黃冬梅等, 2016)。通過船舶走航、觀測浮標、海島陸基和遙感衛(wèi)星等方式(Liu, 2016), 已經(jīng)獲取到海量、異構(gòu)且多源的觀測數(shù)據(jù)(錢程程等, 2018), 為“透明海洋”和“智慧海洋”的構(gòu)建奠定了堅實基礎(chǔ), 也對深入了解和認知海洋、推動海洋科學(xué)發(fā)展等具有重要意義和價值。
觀測浮標作為重要、成熟、可靠的實時獲取海洋環(huán)境數(shù)據(jù)的觀測手段之一, 具有成本低、壽命長、布放靈活、長期連續(xù)監(jiān)測、自動采集和實時發(fā)送數(shù)據(jù)等突出優(yōu)勢(劉長華等, 2019a)。即使在惡劣環(huán)境或其他現(xiàn)場監(jiān)測手段難以實施的情況下, 浮標仍可采集到水文、水質(zhì)和氣象等海洋綜合環(huán)境數(shù)據(jù), 為我國海洋經(jīng)濟、海上軍事、海洋災(zāi)害預(yù)報和海洋生態(tài)環(huán)境等方面提供了重要的數(shù)據(jù)支撐和保障(趙聰蛟等, 2016)。
然而, 由于海洋環(huán)境惡劣、通信限制、能源供給不足, 以及漁業(yè)生產(chǎn)無序、甚至人為破壞等原因, 造成近海浮標觀測系統(tǒng)的長期穩(wěn)定性下降, 在一定程度上影響浮標觀測數(shù)據(jù)連續(xù)有效的獲取(劉長華等, 2020), 導(dǎo)致獲取到的海量觀測數(shù)據(jù)存在異常和缺失等情況。如果直接對獲取到的整個原始數(shù)據(jù)集(包含異?;蛉笔У臄?shù)據(jù)集)進行分析與挖掘, 會使研究結(jié)果與客觀現(xiàn)實存在較大偏差, 從而影響海洋防災(zāi)減災(zāi)和生態(tài)環(huán)境保護等輔助決策的精準性?,F(xiàn)有研究表明, 由于海洋觀測環(huán)境多變, 現(xiàn)場觀測維護困難等原因, 很難通過現(xiàn)場補救觀測解決數(shù)據(jù)中存在的異常和缺失情況。因此, 需要采用數(shù)據(jù)后處理技術(shù), 減小設(shè)備自身和人為因素導(dǎo)致的數(shù)據(jù)誤差, 甚至數(shù)據(jù)補缺, 提高海上現(xiàn)場觀測數(shù)據(jù)的有效性和準確性, 進而有效提升數(shù)據(jù)分析的輔助決策能力。
目前, 數(shù)據(jù)的異常檢測(張良均等, 2018; 盧勇奪等, 2019; 張宇等, 2020)和缺失補全(Chen, 2014; Benmarhnia, 2015; Zhang, 2015; Qin, 2019; 陳海洋等, 2020; 孫曉麗等, 2021)普遍存在于各個科研領(lǐng)域, 國內(nèi)外專家和學(xué)者已開展了大量研究。針對海洋浮標數(shù)據(jù), 主要基于經(jīng)驗常識、數(shù)據(jù)檢驗標準庫和統(tǒng)計理論[如極值法、格拉布斯(Grubbs)準則、狄克遜(Dixon)準則和拉依達準則等]方法識別數(shù)據(jù)中的異常值。如, 劉首華等(2016)結(jié)合格拉布斯準則、局地異常值檢驗方法和波高觀測誤差控制建立了一種實用的波高數(shù)據(jù)異常值的質(zhì)控方法。盧勇奪等(2019)綜合運用極值法則、萊以特(拉依達)法則、局部法則和觀測誤差控制, 基于錨系浮標QF110和QF306中海面風(fēng)速、氣溫、有效波高等數(shù)據(jù), 初步提出了浮標異常值檢測方法。當數(shù)據(jù)滿足某種分布假設(shè)時, 上述基于統(tǒng)計分析的方法在對單一參數(shù)的異常檢測中具有較好的效果。針對海洋浮標數(shù)據(jù), 通常采用稀疏數(shù)據(jù)插值(如線性插值、Kriging插值和最優(yōu)插值等)、數(shù)據(jù)重構(gòu)和數(shù)據(jù)插補(如統(tǒng)計學(xué)插補和機器學(xué)習(xí)插補等)方法實現(xiàn)缺失數(shù)據(jù)補全。劉宇(2020)基于單層LSTM (long short-term memory)長短時記憶神經(jīng)網(wǎng)絡(luò)模型和GRU (gate recurrent unit)神經(jīng)網(wǎng)絡(luò)模型提出了LSTM-GRU聯(lián)合多層神經(jīng)網(wǎng)絡(luò)提高了Argo歷史數(shù)據(jù)補全的準確率。隨著信息科學(xué)技術(shù)的不斷發(fā)展, 基于遺傳算法、聚類和神經(jīng)網(wǎng)絡(luò)模型等異常和缺失數(shù)據(jù)的處理方法不斷涌現(xiàn); 然而, 上述方法的參數(shù)設(shè)置(如聚類個數(shù)、神經(jīng)元個數(shù)和神經(jīng)網(wǎng)絡(luò)層數(shù)等)對模型有顯著影響。因此, 本文選擇經(jīng)典的、具有普適性的統(tǒng)計學(xué)理論, 結(jié)合矩陣運算等數(shù)學(xué)方法和信息技術(shù)從而解決浮標水溫和鹽度數(shù)據(jù)中的異常和缺失問題。
為了深入了解北黃海長??h附近海域特征, 掌握溫鹽年月時間序列的線性變化趨勢與相關(guān)關(guān)系等, 本文基于中國科學(xué)院近海觀測研究網(wǎng)絡(luò)黃海站位于北黃海長海縣附近海域的五套浮標2010~2019年連續(xù)10 a的長序列海量觀測數(shù)據(jù), 針對海洋表層水溫和鹽度的數(shù)據(jù)特點, 給出適合該數(shù)據(jù)的異常檢測及插補方法。首先分析水溫和鹽度數(shù)據(jù)并標定異常; 其次對浮標自身缺失和刪除異常后的溫鹽缺失數(shù)據(jù)進行逐月插補; 最后驗證上述方法的有效性。本研究成果可為海上現(xiàn)場觀測數(shù)據(jù)后期處理提供借鑒, 為海洋科學(xué)研究服務(wù)。
1.1.1 研究數(shù)據(jù) 研究數(shù)據(jù)來源于中國科學(xué)院近海海洋觀測研究網(wǎng)絡(luò)黃海站的五套浮標(劉長華等, 2017, 2018, 2019b)。主要觀測區(qū)域是北黃海大連長??h附近海域, 如圖1所示, 其經(jīng)度范圍為122°35′~ 123°06′E, 緯度范圍為38°45′~39°16′N。
圖1 浮標分布與坐標點
注: 01~05表示研究數(shù)據(jù)中五個浮標號; a~d表示對比數(shù)據(jù)中4個坐標點
五套浮標的基本信息如表1所示。其中, 01號為直徑3 m的圓盤形海洋綜合觀測浮標, 是該海域的核心浮標, 包含氣象(如氣溫、濕度、氣壓、風(fēng)速風(fēng)向和能見度等)、水文(如波浪、水溫、鹽度和剖面海流等)和水質(zhì)(如濁度、葉綠素和溶解氧等)等參數(shù); 02~04號為直徑2 m的圓盤形海洋常規(guī)觀測浮標, 05號為直徑2 m的自容垂直剖面鏈式觀測浮標, 這4套浮標包含了水文和水質(zhì)的相關(guān)參數(shù)。其中, 溫鹽是反映物理海洋學(xué)特性的重要參數(shù)(張博等, 2018; 張翠翠等, 2020), 是海洋水文觀測的基本要素, 對認知與研究海洋具有重要意義。
表1 浮標基本信息
五套浮標于2009年6月完成布放并投入使用, 至今已連續(xù)獲取了近12 a的數(shù)據(jù), 目前數(shù)據(jù)累積仍在持續(xù)進行中。本文選取了五套浮標2010~2019年連續(xù)10 a的海洋表層水溫和鹽度數(shù)據(jù)作為研究對象, 數(shù)據(jù)總量為1 048 328條; 不同浮標數(shù)據(jù)的時間范圍略有不同, 如表1所示。原始數(shù)據(jù)集包含了50個以年度為單位的表格型數(shù)據(jù)文件(*.xls), 每個文件中均包含日期時間、水溫和鹽度3列數(shù)據(jù); 其中, 日期時間為文本型數(shù)據(jù)、水溫和鹽度為數(shù)值型數(shù)據(jù)。同一浮標在不同時期的數(shù)據(jù)發(fā)送頻率不同, 主要包括1次/10 min、1次/30 min和1次/60 min三種情況。
當浮標設(shè)備被海洋生物附著等情況下會采集到異常數(shù)據(jù); 在浮標維修期間會產(chǎn)生缺失數(shù)據(jù)。其中, 異常數(shù)據(jù)主要分為2種情況, 一是跳變型異常數(shù)據(jù), 如鹽度數(shù)據(jù)在正常范圍內(nèi), 突然增大或減少, 且在下一時刻還恢復(fù)到正常范圍, 如圖2a和2b所示; 二是漸變型異常數(shù)據(jù), 如鹽度數(shù)據(jù)從30開始逐漸下降到20, 如圖2c所示。因此, 為了保障數(shù)據(jù)挖掘與分析結(jié)果的準確性, 有必要選取有效的方法對數(shù)據(jù)進行處理, 進而提升數(shù)據(jù)質(zhì)量。
圖2 數(shù)據(jù)異常情況
注: a: 跳變型-變大; b: 跳變型-變小; c: 漸變型
1.1.2 對比數(shù)據(jù) 對比數(shù)據(jù)來源于國家海洋和大氣管理局/國家環(huán)境信息中心(National Oceanic and Atmospheric Administration/National Centers for Environmental Information, NOAA/NCEI)世界海洋數(shù)據(jù)庫(World Ocean Database, WOD)中的海洋水溫和鹽度; 數(shù)據(jù)下載鏈接為http://159.226.119.60/cheng/。該數(shù)據(jù)集的時間范圍是1940年至今, 時間分辨率為月平均數(shù)據(jù), 空間分辨率為1°×1°, 垂直范圍為0~2 000 m, 41層, 覆蓋范圍為全球海洋。本文從中選取了與研究數(shù)據(jù)對應(yīng)的時空數(shù)據(jù), 為2010年1月至2019年12月4個坐標點(圖1中a、b、c和d, 坐標分別為122oE/38.5oN、123oE/38.5oN、123oE/39.5oN、124oE/39.5oN)第1層的海洋溫鹽數(shù)據(jù)。
1.1.3 數(shù)據(jù)統(tǒng)計與匯總 基于五套浮標獲取到的原始溫鹽數(shù)據(jù)集, 先對數(shù)據(jù)做整體分析并標定異常; 再基于剔除異常后的數(shù)據(jù)集, 分別統(tǒng)計五套浮標溫鹽數(shù)據(jù)每個月的最大值、最小值和平均值, 得到10 a每年12個月的溫鹽時間序列; 在此基礎(chǔ)上, 五套浮標對應(yīng)月份的溫鹽數(shù)據(jù)再求平均值, 可得到研究海域的時間序列。為了分析溫鹽的季節(jié)和年際變化特征, 通常還會將數(shù)據(jù)按年月進行匯總。其中, 每行是一年的數(shù)據(jù), 每列是某個月份的數(shù)據(jù); 每年每月又分別包含其最大值、最小值和平均值的相關(guān)數(shù)據(jù); 若按行求平均值, 即可得到年平均數(shù)據(jù); 若按列求平均值, 即可得到10 a累計的月平均數(shù)據(jù)。
在對比數(shù)據(jù)中, 對4個坐標點的10 a每年12個月的溫鹽時間序列求平均值, 得到該海域的時間序列; 與研究數(shù)據(jù)同理按年月進行匯總。
1.2.1 異常數(shù)據(jù)分析方法 異常數(shù)據(jù)分析方法主要分為簡單統(tǒng)計分析、拉依達準則和箱型圖等3類方法(張良均等, 2018)。
簡單統(tǒng)計指標主要包括: 最大值、最小值、均值、中位數(shù)和眾數(shù)等。該方法, 采用上述指標對數(shù)據(jù)集中每列(屬性)數(shù)據(jù)分別進行描述性統(tǒng)計, 掌握數(shù)據(jù)的基本結(jié)構(gòu)和特征。最常采用最大值和最小值來判斷數(shù)據(jù)是否超出了合理的范圍, 又稱為極值法(盧勇奪等, 2019)。
拉依達準則, 又稱為萊以特法則, 通常采用均值和標準差來判斷數(shù)據(jù)是否超出了合理的范圍。數(shù)值分布在(±), (±2)和(±3)中的概率分別為68.27%, 95.44%和99.74%。其中, 基于(±2)和(±3)確定界限的方法又分別稱為2原則和3原則。
箱型圖, 又稱為箱線圖或盒式圖, 通常先對數(shù)據(jù)從小到大排序, 再采用四分位法通過上下界(1-1.5×,3+1.5×)判斷數(shù)據(jù)是否超出了合理的范圍; 式中,1和3分別表示第一(25%)和第三(75%)個四分位數(shù);=3-1表示第一至第三個位數(shù)間的距離。
上述方法各有特色和優(yōu)缺點。其中, 拉依達準則假設(shè)數(shù)據(jù)服從正態(tài)分布, 但以此計算的平均值和標準差耐抗性極小, 異常值會對其產(chǎn)生較大影響, 從而導(dǎo)致無法獲取所有異常數(shù)據(jù)。然而真實數(shù)據(jù)往往并不嚴格服從正態(tài)分布, 此時可采用箱型圖法, 它無需考慮數(shù)據(jù)的分布特征, 對異常數(shù)據(jù)的分析比較客觀, 且具有一定的魯棒性。在具體應(yīng)用中, 可根據(jù)實際情況選取不同方法, 從而確定數(shù)據(jù)的上下界限。
1.2.2 缺失數(shù)據(jù)處理方法 缺失數(shù)據(jù)的處理方法主要分為不處理、刪除和數(shù)據(jù)插補等3類方法(張良均等, 2018)。其中, 不處理, 即直接在包含空值的數(shù)據(jù)集上進行分析或研究; 刪除法(Faria, 2014), 先將存在缺失值的對象(記錄或元組)刪除, 再將剩余數(shù)據(jù)看作一個“完整”的數(shù)據(jù)集; 數(shù)據(jù)插補法(Chan, 2003; Skrondal, 2014; Lguensat, 2016), 采用某種策略對缺失值進行填充, 從而得到一個“完備”的數(shù)據(jù)集。
數(shù)據(jù)插補法又可分為統(tǒng)計學(xué)插補法(如均值插補、回歸插補和熱卡插補等)和機器學(xué)習(xí)插補法(如自組織映射插補法和支持向量機插補法等)。本節(jié)僅介紹與本文密切相關(guān)的插補方法, 如下。線性插補(linear interpolation)是指使用連接2個已知量的直線來確定在這2個已知量之間的一個未知量的方法。三次樣條插補(cubic spline interpolation)作為最常用的分段多項式方法, 數(shù)學(xué)上通過求解三彎矩方程組得出曲線函數(shù)組的過程; 該方法具有較好的穩(wěn)定性和收斂性, 但曲線的光滑性較差。拉格朗日插補(Lagrange interpolation)是基于多項式和基函數(shù)的插補方法; 該方法具有較高的區(qū)間內(nèi)插值精確度, 但其計算復(fù)雜度較高。最近鄰(K near neighbor, KNN)插補采用相鄰個數(shù)據(jù)特征的均方差填充缺失值。核范數(shù)最小化(nuclear- norm minimization, NNM)插補采用凸優(yōu)化找到匹配觀測值的低秩解來填充缺失值, 該方法計算效率較慢。迭代軟閾值插補(SoftImpute)采用奇異值分解(singular value decomposition, SVD)處理填充缺失值; 令=, 其中和為酉矩陣,為主對角線矩陣, 對角線元素為奇異值; 該方法適合稀疏矩陣, 且具有較高的效率。IterativeImputer采用循環(huán)方式將具有缺失值的每個特征建模為其他特征的函數(shù)來估算缺失值; 該方法在每個步驟中, 將特征目標列指定為輸出, 將其他列視為輸入, 使用一個回歸器來在未缺失樣本上對(,)進行擬合; 再使用這個回歸器預(yù)測缺失值; 重復(fù)迭代, 將最后一輪的計算結(jié)果返回; 該方法合適在缺失數(shù)據(jù)較多、又不能刪除缺失值所在行列數(shù)據(jù)時使用。
實際應(yīng)用中, 仍需要根據(jù)數(shù)據(jù)特點和目標, 選取適合的具體方法。在本書研究中, 數(shù)據(jù)的匯總形式類似于矩陣, 適用基于統(tǒng)計學(xué)理論和矩陣運算等數(shù)學(xué)方法實現(xiàn)缺失插補。本文不僅要實現(xiàn)缺失數(shù)據(jù)的插補, 還要保障各月插補后的數(shù)據(jù)間的大小關(guān)系, 即: 最大值≥平均值≥最小值。
1.2.3-折交叉驗證與評價指標-折交叉驗證(-fold cross validation)作為數(shù)據(jù)模型有效性的驗證方法之一, 在預(yù)測、聚類和分類等任務(wù)中得到廣泛應(yīng)用。在-折交叉驗證中, 首先將數(shù)據(jù)集平均分為份, 其中-1份作為訓(xùn)練集、1份作為測試集; 其次, 采用訓(xùn)練集構(gòu)建模型; 最后, 通過測試集對模型的效果進行評估。重復(fù)次, 即將每1份均作為測試集1次, 為一次-折交叉驗證。
均方誤差(mean squared error, MSE)和決定系數(shù)(-square,2)是評價預(yù)測模型/算法的常用指標, 本文采用MSE和2對插補方法(模型)進行評價。其中, MSE是模型效能最常用的評價指標, 通過計算真實值與預(yù)測值之間的均方差來評價模型, 其值越小模型穩(wěn)定性越好。2∈[0, 1]是模型擬合效果的評價指標, 其值越接近于1模型的擬合效果越好; 通常情況下,2達到0.4即可滿足應(yīng)用需求。
為了檢測原始溫鹽數(shù)據(jù)中是否存在不合常理的數(shù)值(異常值), 需采用簡單統(tǒng)計分析指標(如最大值、最小值、平均值以及標準差等)對數(shù)據(jù)進行整體分析。其本質(zhì)是通過統(tǒng)計分析確定數(shù)據(jù)的上下界限, 從而識別出異常數(shù)據(jù)。在北黃海長??h附近海域中, 由最小值和最大值可見, 五套浮標總體的水溫范圍是[-7.20 °C, 40.00 °C]、鹽度范圍是[0.00, 62.40]。
目前, 已有一些關(guān)于黃海溫鹽分布與特征分析的研究(鮑獻文等, 2009; 石強, 2013, 2014, 2016, 2019; 齊慶華等, 2019)。如, 鮑獻文等(2009)基于2006~2007年北黃海數(shù)據(jù)指出, 海洋表層水溫在冬春夏秋四季的范圍分別為2.00~9.00 °C、7.50~11.00 °C、19.00~25.00 °C和17.00~19.50 °C, 海洋表層鹽度在冬春夏秋四季的范圍分別為30.00~32.60, 27.00~32.40, 29.00~31.80和28.00~32.20。基于1977~2012/2013年歷年2月份數(shù)據(jù)指出, 北黃海海洋表層水溫和鹽度在冬季的范圍分別為0.29~5.89 °C和30.70~32.45 (石強, 2013), 南黃海海洋表層水溫和鹽度在冬季的范圍分別為1.25~8.90 °C和30.70~32.96 (石強, 2014)?;?976~2015/2016年歷年7~8月份數(shù)據(jù)指出, 北黃海海洋表層水溫和鹽度在夏季的范圍分別為22.00~26.00 °C和30.60~32.10 (石強, 2016), 南黃海海洋表層水溫和鹽度在夏季的范圍分別為25.00~28.50 °C和30.80~32.20 (石強, 2019)。綜上, 依據(jù)文獻歷史資料, 黃海海域水溫和鹽度四季范圍大約為0.29~28.50 °C和27.00~32.96。同時, 在Cheng等(2017, 2021)提供的全球海洋溫鹽數(shù)據(jù)中獲取了2010~2019年北黃海海域中月平均溫鹽數(shù)據(jù), 統(tǒng)計匯總得到全年表層水溫和鹽度范圍分別為0.97~25.41 °C和29.97~34.07。由此可見, 該研究海域的五套浮標中獲取的原始溫鹽數(shù)據(jù)中存在異常。因此, 需進一步采用拉依達準則(2原則和3原則)和箱型圖法進行分析, 并確定溫鹽數(shù)據(jù)的界限, 結(jié)果如表2所示。
對于五套浮標的水溫數(shù)據(jù), 由表2可見, 基于箱型圖法和3原則的平均上下界限分別為[-17.80 °C, 44.44 °C]和[-11.16 °C, 38.32 °C]。這2個界限超過了水溫數(shù)據(jù)的極值范圍, 顯然是不合理的?;?原則的平均上下界限為[-2.92 °C, 30.07 °C], 該界限介于水溫數(shù)據(jù)的極值范圍之間, 且與文獻資料中數(shù)據(jù)較接近??梢? 水溫屬于正態(tài)分布數(shù)據(jù), 適合用2原則確定上下界。
對于五套浮標的鹽度數(shù)據(jù), 由表2可見, 基于2原則和3原則的平均上下界限分別為[19.40, 39.67]和[14.33, 44.47]。這個界限雖然介于鹽度數(shù)據(jù)的極值范圍, 但與文獻中數(shù)據(jù)不相符。與此相比, 基于箱型圖法的平均上下界限為[26.28, 34.99], 較為合理??梢? 鹽度數(shù)據(jù)適合用箱型圖法確定上下界。
表2 原始溫鹽數(shù)據(jù)上下界分析
注: 01~05表示浮標序號
通過對五套浮標溫鹽原始數(shù)據(jù)的統(tǒng)計與分析, 綜合考慮文獻和相關(guān)數(shù)據(jù)資料, 確定水溫界限為[0.00 °C, 31.00 °C]、鹽度界限為[27.00, 34.00]。同時, 水溫小于0.00 °C或大于31.00 °C、鹽度小于27.00或大于34.00的數(shù)據(jù)均標記為異常數(shù)據(jù)。
異常數(shù)據(jù)處理主要分為不處理、平均值修正、視為缺失值和刪除等四種方法(張良均等, 2018)。由表2可見, 異常數(shù)據(jù)會影響原始數(shù)據(jù)的結(jié)構(gòu)分布、平均值等的計算結(jié)果。為了減少對后續(xù)數(shù)據(jù)挖掘與分析質(zhì)量的影響, 又考慮到浮標數(shù)據(jù)的發(fā)送頻率較高, 連續(xù)10 a已經(jīng)獲取了大量數(shù)據(jù); 因此, 本文將異常數(shù)據(jù)視為缺失值, 待后續(xù)與原始缺失數(shù)據(jù)一起處理。
為了驗證溫鹽界限的合理性, 對剔除異常后的數(shù)據(jù)集, 采用2原則和箱型圖法進行了數(shù)據(jù)統(tǒng)計, 如表3所示。由表3可見, 基于2原則的水溫界限為[-2.84 °C, 30.02 °C], 基于箱型圖法的鹽度界限為[28.78, 33.64], 這2個界限均與文獻資料中的范圍比較接近。同時, 五套浮標鹽度的值分別為1.00、1.20、1.30、1.40和1.18, 與表2中值相比, 較為接近且合理。綜上, 五套浮標水溫界限[0.00 °C, 31.00 °C]和鹽度界限[27.00, 34.00]是合理的。
表3 處理后溫鹽數(shù)據(jù)的上下界分析結(jié)果
數(shù)據(jù)有效率即為有效數(shù)據(jù)量占全部數(shù)據(jù)量的比例。在五套浮標中, 剔除水溫和鹽度的異常數(shù)據(jù)后, 按總體、年和月等3種方式對溫鹽數(shù)據(jù)有效率進行統(tǒng)計分析。五套浮標溫鹽總體數(shù)據(jù)有效率統(tǒng)計結(jié)果, 如表4所示; 水溫和鹽度的年、月數(shù)據(jù)有效率統(tǒng)計, 如圖3所示。
表4 溫鹽數(shù)據(jù)有效率統(tǒng)計結(jié)果
圖3 溫鹽數(shù)據(jù)有效率統(tǒng)計
注: a: 年水溫有效率; b: 月水溫有效率; c: 年鹽度有效率; d: 月鹽度有效率
對于溫鹽數(shù)據(jù), 如表4所示, 從總體上看五套浮標的平均有效率分別達到99.76%和84.15%。在圖3a中, 除2017年01和02號浮標、2013年04號浮標外, 其余年度水溫數(shù)據(jù)的平均有效率均超過90.00%; 在圖3b中, 除4月02號浮標、3月01號浮標和5月02號浮標外, 其余月份水溫數(shù)據(jù)的平均有效率均超過85.00%。在圖3c中, 除2013年03和04號浮標、2012年04號浮標外, 其余年度鹽度數(shù)據(jù)的平均有效率均超過60.00%; 在圖3d中, 除6月03和04號浮標、9月03號浮標外, 其余月份鹽度數(shù)據(jù)的平均有效率均超過60.00%。五套浮標中, 水溫數(shù)據(jù)有效率較高、均達到99.50%及以上; 與此相比, 鹽度數(shù)據(jù)有效率偏低, 01、02和05號浮標有效率在90.00%左右, 03和04號浮標有效率在75.00%左右。五套浮標相比, 01號浮標溫鹽的數(shù)據(jù)有效率均為最高值, 且超過90.00%, 適宜以01號浮標數(shù)據(jù)為基準, 與其他浮標數(shù)據(jù)進行對比與分析。
為了掌握數(shù)據(jù)缺失情況、選取合理的處理方法, 將五套浮標10 a的溫鹽數(shù)據(jù), 分別按月進行了統(tǒng)計與匯總, 如表5所示。將由設(shè)備損壞和維修等原因造成的缺失稱為原始缺失, 其缺失率為24.50%。剔除異常數(shù)據(jù)后, 溫鹽數(shù)據(jù)缺失率分別為32.17%和32.33%。以02號浮標數(shù)據(jù)為例, 其10 a 12個月溫鹽數(shù)據(jù)最大值、最小值和平均值的統(tǒng)計結(jié)果, 如圖4a和4b所示, 圖中線段的間斷處為數(shù)據(jù)缺失區(qū)域。對于具有年際變化規(guī)律的溫鹽數(shù)據(jù), 若忽略缺失數(shù)據(jù)(不處理缺失數(shù)據(jù))進行數(shù)據(jù)分析與挖掘, 會影響溫鹽數(shù)據(jù)周期和季節(jié)等變化規(guī)律分析的準確性, 也可能會導(dǎo)致與真實分布或趨勢產(chǎn)生偏差。數(shù)據(jù)缺失不僅會使曲線不連續(xù)或不完整, 也會使匯總的數(shù)據(jù)產(chǎn)生偏差; 如當僅有夏季數(shù)據(jù)時(02號浮標的2016年水溫數(shù)據(jù)), 產(chǎn)生了年度平均值較高的情況, 如圖4c所示。若將缺失數(shù)據(jù)所在年度或月份進行刪除, 如將02號浮標2016年整年的溫鹽數(shù)據(jù)刪除, 會進一步加大數(shù)據(jù)的缺失量。因此, 為了更好地掌握研究海域年月時間序列的特性, 有必要對溫鹽的各月缺失數(shù)據(jù)進行插補處理。
表5 溫鹽數(shù)據(jù)缺失率統(tǒng)計結(jié)果
同時, 由圖4可見, 相同月份溫鹽數(shù)據(jù)的梯度變化較小; 相鄰年月數(shù)據(jù)間具有一定的相關(guān)性。以02號浮標2018和2019年月平均溫鹽數(shù)據(jù)為例, 2年的月平均水溫的季節(jié)變化特征相同, 2019年各月水溫略高, 如圖4c所示; 同理, 與2018年的月平均鹽度相比, 2019年7月之前的鹽度略低于2018年, 2019年8月之后的鹽度略高于2018年, 如圖4d所示。若將匯總后的溫鹽數(shù)據(jù)視為矩陣, 即可采用矩陣等運算方法基于相鄰關(guān)系等特性進行數(shù)據(jù)插補, 相當于基于相鄰月份或不同年度相同月份等對各月缺失的溫鹽數(shù)據(jù)進行插補。
3.2.1 缺失數(shù)據(jù)插補與分析 針對研究數(shù)據(jù)中存在的原始缺失和剔除異常后的缺失問題, 選用Linear、Cubic、Lagrange、KNN、NNM、SoftImpute (SI)和IterativeImpute (II)等方法分別對缺失的溫鹽數(shù)據(jù)進行插補; 綜合考慮各浮標溫鹽數(shù)據(jù)的缺失范圍(13.33%~49.17%), 如表5所示, 將訓(xùn)練集的占比設(shè)計為50%、67%、75%、80%和90%等五種情況進行K-折交叉驗證實驗; 并采用均方誤差MSE和決定系數(shù)2對數(shù)據(jù)的插補效果與方法的擬合度進行分析; 在各種情況下, 重復(fù)實驗10次取平均值作為實驗結(jié)果, 如圖5所示。圖5中, 橫坐標表示訓(xùn)練集所占比例, 縱坐標表示MSE或2值。由于Linear和Cubic中的MSE較大, 未展示出其實驗指標值。
由圖5可見, 隨著已知數(shù)據(jù)量的增加, 各種方法的數(shù)據(jù)插補效果均顯著提升。當訓(xùn)練集占比為50%時, 溫鹽數(shù)據(jù)的MSE均為最大值,2均為最小值。當訓(xùn)練集占比為90%時, 溫鹽數(shù)據(jù)的MSE均為最小值,2均為最大值。各種方法的數(shù)據(jù)插補效果相比, Lagrange最佳, IterativeImpute次之。由于本文在數(shù)據(jù)統(tǒng)計時, 同時匯總了各月份數(shù)據(jù)的最大、最小和平均值; 對于平衡最大、最小和平均值關(guān)系上, Lagrange的效果較差; 此時, SoftImpute的效果最佳, 如圖6所示。但當存在整行(年)整列(月份)數(shù)據(jù)缺失值時, SoftImpute方法僅能填充0.00值; IterativeImpute方法可以有效解決這一問題, 即當整行(年)或整列(某個月10 a的數(shù)據(jù))數(shù)據(jù)缺失時, 其插補效果顯著優(yōu)于其他方法。綜上, 本文采用SoftImpute與IterativeImpute相結(jié)合的方法對溫鹽缺失數(shù)據(jù)進行插補填充。即先采用SoftImpute方法對溫鹽數(shù)據(jù)進行插補; 當存在值為0.00時, 再采用IterativeImpute方法進一步插補, 從而得到“完整”的數(shù)據(jù)集。在研究數(shù)據(jù)中, 已知數(shù)據(jù)平均占比與圖5中67%最接近; 此時, 溫鹽模型的2值大約為0.9和0.8, 可見模型具有較高的擬合度。
圖4 02號浮標月平均溫鹽
注: a: 年水溫有效率; b: 月水溫有效率; c: 年鹽度有效率; d: 月鹽度有效率
圖5 溫鹽數(shù)據(jù)插補效果
注: MSE: mean squared error, 均方誤差;2: 決定系數(shù); a: 水溫MSE; b: 水溫2; c: 鹽度MSE; d: 鹽度2; Linear: 線性插補; Cubic: 三次樣條插補; Lagrange: 拉格朗日插補; KNN: 最近鄰插補; NNM: Nuclear- Norm Minimization, 核范數(shù)最小化插補; SI: SoftImpute, 軟閾值插補; II: IterativeImpute, 循環(huán)模型迭代插補
3.2.2 插補處理前后對比分析 本節(jié)分別以02號浮標和整個研究海域為例, 對插補前后的溫鹽數(shù)據(jù)進行對比分析。
圖6 溫鹽數(shù)據(jù)插補錯誤情況
Fig.6 Temperature and salinity data interpolation errors
注: Linear: 線性插補; Cubic: 三次樣條插補; Lagrange: 拉格朗日插補; KNN: 最近鄰插補; NNM: Nuclear- Norm Minimization, 核范數(shù)最小化插補; SI: SoftImpute, 軟閾值插補; II: IterativeImpute, 循環(huán)模型迭代插補; a: 平均錯誤數(shù); b: 平均錯誤率
對于02號浮標的溫鹽數(shù)據(jù), 分別從長期月平均時序序列、年平均和月平均三方面進行分析。與插補前數(shù)據(jù)相比, 插補后的數(shù)據(jù)具有優(yōu)點如下: (1)得到了連續(xù)(不間斷)的變化曲線, 體現(xiàn)了溫鹽以年度為單位的周期性變化特征, 如圖7a和7b所示; (2)修正了曲線中的異常點, 修正了圖7c中2016年水溫的年平均值; (3)更好地展示了溫鹽的年際(線性)變化趨勢, 如10 a水溫數(shù)據(jù)呈現(xiàn)逐年顯著線性升高趨勢, 如圖7c所示; 10 a鹽度數(shù)據(jù)呈現(xiàn)準平衡狀態(tài), 如圖7d所示; (4)完整體現(xiàn)了溫鹽的季節(jié)變化特征, 如圖7e和7f所示, 溫鹽四季變化近似于正余弦曲線, 基本呈現(xiàn)一峰一谷形式。與對比數(shù)據(jù)(4個坐標點的平均數(shù)據(jù))相比, 水溫插補后的數(shù)據(jù)與對比數(shù)據(jù)比較接近, 鹽度插補后的數(shù)據(jù)與對比數(shù)據(jù)具有較類似的變化幅度。由此可見, 處理后的數(shù)據(jù)有助于提高對研究海域規(guī)律和特征挖掘與分析的準確性。
為了進一步驗證插補后溫鹽數(shù)據(jù)的合理性和有效性, 先基于黃海站五套浮標插補前(剔除異常)和插補后的月平均序列數(shù)據(jù)求平均值, 得到該研究海域的溫鹽時序序列, 再與對比數(shù)據(jù)(4個坐標點的月平均序列的平均值)進行比較, 如圖8所示; 并從最小值、最大值、平均值和標準差等四方面進行統(tǒng)計分析, 如表6所示。由圖8和表6可見, 該海域總體溫鹽平均值分別為12.54 °C和30.90, 標準差分別為7.88和0.71; 基于對比數(shù)據(jù)的總體溫鹽平均值分別為13.25 °C和32.02, 標準差分別為7.76和0.72。與對比數(shù)據(jù)相比, 浮標的溫鹽數(shù)據(jù)值偏低; 總體上, 2個數(shù)據(jù)集中的溫鹽年際變化規(guī)律趨于一致; 插補后的標準差也與對比數(shù)據(jù)更接近。綜上可見, 本研究處理后的數(shù)據(jù)合理可行, 可作為分析與研究該海域特征的基礎(chǔ)數(shù)據(jù)。
基于2010~2019年北黃海長??h附近海域的海洋表層溫鹽數(shù)據(jù), 首先采用簡單統(tǒng)計量分析了原始數(shù)據(jù)的基本結(jié)構(gòu)和特征; 其次基于2原則和箱型圖法確定了數(shù)據(jù)界限, 標定并處理了異常數(shù)據(jù); 再次, 對10 a每個月份的文件數(shù)據(jù)進行了統(tǒng)計與匯總, 并將原始缺失和異常數(shù)據(jù)均作為缺失數(shù)據(jù)處理; 最后, 采用SoftImpute與IterativeImpute相結(jié)合的方法實現(xiàn)了溫鹽各月缺失數(shù)據(jù)的插補, 從而提高了溫鹽數(shù)據(jù)的質(zhì)量。本研究的相關(guān)結(jié)論如下。
圖7 02號浮標溫鹽數(shù)據(jù)插補比較
注: a: 水溫時間序列; b: 鹽度時間序列; c: 年平均水溫, d: 年平均鹽度, e: 月平均水溫, f: 月平均鹽度
圖8 水溫(a)和鹽度(b)數(shù)據(jù)對比
表6 研究海域整體溫鹽數(shù)據(jù)統(tǒng)計結(jié)果
(1)辨識異常數(shù)據(jù)的本質(zhì)問題是, 通過分析原始數(shù)據(jù)的基本特性合理確定數(shù)據(jù)界限。其中, 水溫數(shù)據(jù)適合采用2原則確定上下界限為[0.00 °C, 31.00 °C], 鹽度數(shù)據(jù)適合采用箱型圖法確定上下界限為[27.00, 34.00]。不在該界限范圍內(nèi)的數(shù)據(jù)標定為異常數(shù)據(jù)。剔除異常數(shù)據(jù)后, 水溫數(shù)據(jù)有效率十分理想, 平均達到99.76%; 鹽度數(shù)據(jù)有效率平均達到84.15%。
(2)對于具有年際變化規(guī)律的溫鹽數(shù)據(jù), 適合基于統(tǒng)計學(xué)原理采用矩陣等運算方法實現(xiàn)數(shù)據(jù)插補; 本文采用SoftImpute與IterativeImpute相結(jié)合的方法插補了浮標中的缺失數(shù)據(jù), 該方法具有較低的均方誤差和較高的模型擬合度。數(shù)據(jù)插補后, 溫鹽數(shù)據(jù)曲線連續(xù)、平滑、變化與趨勢更加顯著, 且可以修正曲線中的異常點。與對比數(shù)據(jù)溫鹽年際變化趨勢基本一致, 其標準差也比較接近。
(3)五套浮標相比, 01號浮標溫鹽的數(shù)據(jù)有效率均為最高值; 01號浮標溫鹽的數(shù)據(jù)缺失率均為最低值??梢?1號浮標的數(shù)據(jù)質(zhì)量最高且較完整, 適宜以01號浮標數(shù)據(jù)為基準, 與其他數(shù)據(jù)進行對比與分析; 或?qū)ζ渌酥袛?shù)據(jù)進行校正和插補。
本文主要采用經(jīng)典的數(shù)據(jù)分析與處理方法, 對浮標溫鹽缺失數(shù)據(jù)進行插補。在后續(xù)研究中, 可綜合考慮溫鹽數(shù)據(jù)的相關(guān)性進行缺失數(shù)據(jù)插補, 可基于多年的時序數(shù)據(jù)采用神經(jīng)網(wǎng)絡(luò)預(yù)測模型實現(xiàn)溫鹽缺失數(shù)據(jù)的插補, 還可從不同的時空維度進行數(shù)據(jù)插補, 進一步提升數(shù)據(jù)的精準性和有效性。在此基礎(chǔ)上, 對海洋溫鹽數(shù)據(jù)進行分析與挖掘研究, 從而對海洋的溫鹽特征、變化規(guī)律和發(fā)展趨勢等有更進一步的了解, 并為海洋防災(zāi)減災(zāi)、科學(xué)研究等提供更有價值的參考。
本文數(shù)據(jù)來源于中國科學(xué)院海洋研究所黃海站的五套浮標。感謝中國科學(xué)院近海海洋觀測研究網(wǎng)絡(luò)黃海站所有工作人員的大力支持和付出。
石強, 2013. 北黃海冬季溫鹽年際變化時空模態(tài)與氣候響應(yīng)[J]. 海洋通報, 32(6): 633-640.
石強, 2014. 南黃海冬季溫鹽年際變化時空模態(tài)與氣候響應(yīng)[J]. 海洋通報, 33(2): 148-156, 162.
石強, 2016. 北黃海夏季溫鹽年際變化時空模態(tài)與氣候響應(yīng)[J]. 應(yīng)用海洋學(xué)學(xué)報, 35(4): 469-483.
石強, 2019. 南黃海夏季溫鹽年際變化時空模態(tài)與氣候響應(yīng)[J]. 應(yīng)用海洋學(xué)學(xué)報, 38(2): 169-181.
盧勇奪, 王朝陽, 王豹, 等, 2019. 我國海洋錨系浮標數(shù)據(jù)異常值檢測方法研究——以QF110和QF306為例[J]. 海洋預(yù)報, 36(6): 37-43.
劉宇, 2020. 基于海洋時序數(shù)據(jù)的溫度預(yù)測與補全方法研究[D].長春: 吉林大學(xué)碩士學(xué)位論文.
劉長華, 王彥俊, 2017. 中國科學(xué)院近海海洋觀測研究網(wǎng)絡(luò)黃海站、東海站觀測數(shù)據(jù)集: 2009.06-2010.12[M]. 北京: 海洋出版社.
劉長華, 馮立強, 2018. 中國科學(xué)院近海海洋觀測研究網(wǎng)絡(luò)黃海站、東海站觀測數(shù)據(jù)圖集-Ⅱ[M]. 北京: 海洋出版社.
劉長華, 王春曉, 王旭, 等, 2019a. 錨定式海洋水體剖面觀測技術(shù)的研究與應(yīng)用[J]. 海洋科學(xué), 43(12): 139-147.
劉長華, 李一凡, 2019b. 中國科學(xué)院近海海洋觀測研究網(wǎng)絡(luò)黃海站、東海站觀測數(shù)據(jù)圖集-Ⅷ[M]. 北京: 海洋出版社.
劉長華, 張曙偉, 王旭, 等, 2020. 三錨式浮標綜合觀測平臺的研究和應(yīng)用[J]. 海洋科學(xué), 44(1): 148-156.
齊慶華, 蔡榕碩, 2019. 中國近海海表溫度變化的極端特性及其氣候特征研究[J]. 海洋學(xué)報, 41(7): 36-51.
劉首華, 陳滿春, 董明媚, 等, 2016. 一種實用海洋浮標數(shù)據(jù)異常值質(zhì)控方法[J]. 海洋通報, 35(3): 264-270.
孫曉麗, 郭艷, 李寧, 等, 2021. 基于改進神經(jīng)過程的缺失數(shù)據(jù)填充算法[J]. 中國科學(xué)院大學(xué)學(xué)報, 38(2): 280-287.
張宇, 周燕, 陶邦一, 等, 2020. 基于時序相關(guān)性分析方法的浮標異常數(shù)據(jù)識別[J]. 海洋學(xué)報, 42(11): 131-141.
張博, 曾麗麗, 陳舉, 等, 2018. 基于南海北部開放航次觀測的2004—2005年次表層鹽度異常特征與形成機制[J]. 海洋與湖沼, 49(1): 9-16.
張良均, 王路, 譚立云, 等, 2018. Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)[M]. 北京: 機械工業(yè)出版社: 34-35, 60-64.
陳海洋, 劉喜慶, 環(huán)曉敏, 2020. 一步預(yù)測的SVDDBN缺失數(shù)據(jù)插補算法[J]. 計算機工程與應(yīng)用, 56(7): 81-87.
張翠翠, 魏皓, 宋貴生, 等, 2020. 基于IPCC-CMIP5的中國東部近海表層水溫未來預(yù)估分析[J]. 海洋與湖沼, 51(6): 1288-1300.
趙聰蛟, 孔梅, 孫笑笑, 等, 2016. 浙江省海洋水質(zhì)浮標在線監(jiān)測系統(tǒng)構(gòu)建及應(yīng)用[J]. 海洋環(huán)境科學(xué), 35(2): 288-294.
錢程程, 陳戈, 2018. 海洋大數(shù)據(jù)科學(xué)發(fā)展現(xiàn)狀與展望[J]. 中國科學(xué)院院刊, 33(8): 884-891.
黃冬梅, 鄒國良, 2016. 海洋大數(shù)據(jù)[M]. 上海: 上??茖W(xué)技術(shù)出版社.
鮑獻文, 李娜, 姚志剛, 等, 2009. 北黃海溫鹽分布季節(jié)變化特征分析[J]. 中國海洋大學(xué)學(xué)報, 39(4): 553-562.
BENMARHNIA T, DEGUEN S, KAUFMAN J S,, 2015. Review article: vulnerability to heat-related mortality: a systematic review, meta-analysis, and meta-regression analysis [J]. Epidemiology, 26(6): 781-793.
CHAN K, LEE T W, SEJNOWSKI T J, 2003. Variational Bayesian learning of ICA with missing data [J]. Neural Computation, 15(8): 1991-2011.
CHEN L S, PRENTICE R L, WANG P, 2014. A penalized EM algorithm incorporating missing data mechanism for Gaussian parameter estimation [J]. Biometrics, 70(2): 312-322.
CHENG L J, ABRAHAM J, TRENBERTH K E,, 2021. Upper ocean temperatures hit record high in 2020 [J]. Advances in Atmospheric Sciences, 38(4): 523-530.
CHENG L J, TRENBERTH K E, FASULLO J,, 2017. Improved estimates of ocean heat content from 1960 to 2015 [J]. Science Advances, 3(3): e1601545.
FARIA R, GOMES M, EPSTEIN D,, 2014. A guide to handling missing data in cost-effectiveness analysis conducted within randomised controlled trials [J]. Pharmacoeconomics, 32(12): 1157-1170.
LGUENSAT R, TANDEO P, AILLIOT P,, 2016. Using archived datasets for missing data interpolation in ocean remote sensing observation series [C]//OCEANS 2016-Shanghai. Shanghai: IEEE: 1-5.
LIU Y J, QIU M, LIU C,, 2016. Big data in ocean observation: opportunities and challenges [C]//Second International Conference on Big Data Computing and Communications. Shenyang: Springer: 212-222.
QIN M J, DU Z H, ZHANG F,, 2019. A matrix completion-based Multiview learning method for imputing missing values in buoy monitoring data [J]. Information Sciences, 487: 18-30.
SKRONDAL A, RABE-HESKETH S, 2014. Protective estimation of mixed-effects logistic regression when data are not missing at random [J]. Biometrika, 101(1): 175-188.
ZHANG K K, GONZALEZ R, HUANG B,, 2015. Expectation-maximization approach to fault diagnosis with missing data [J]. IEEE Transactions on Industrial Electronics, 62(2): 1231-1240.
ANALYSIS AND PROCESSING OF LONG SEQUENCE AND MASSIVE TEMPERATURE AND SALINITY DATA OF THE NORTH YELLOW SEA FROM 2010 TO 2019
CHEN Xiao1, 3, LIU Chang-Hua2, LIU Zhi-Liang1, 3, WANG Xu2, WANG Chun-Xiao2, JIA Si-Yang2
(1. Research Center of Marine Science, Hebei Normal University of Science & Technology, Qinhuangdao 066004, China; 2. Institute of Oceanology, Chinese Academy of Sciences, Qingdao 266071, China; 3. Hebei Key Laboratory of Ocean Dynamics, Resources and Environments, Qinhuangdao 066004, China)
Ensuring the integrity and reliability of long-term continuous buoy data is the primary issue for the application of the data. Five sets of buoys in the Yellow Sea located in the waters near Changhai County, North Yellow Sea deployed by the Chinese Academy of Sciences Offshore Observation and Research Network were used. Data analysis and processing methods of the sea surface temperature and salt data collected by the buoys for 10 years from 2010 to 2019 were studied. To identify the abnormal values in the original temperature and salinity data, the extreme value method, the Laida criterion, and the box plot method were compared to find the best one to treat abnormal data. In the 2principle with the box diagram method, the boundary values were adjusted. In addition, to address the data missing, interpolation combining the SoftImpute and IterativeImpute was proposed, by which the standard deviations of the data could be effectively reduced. Results show that the methods are effective and can be used to eliminate anomalies and imputation defects, correct abnormal points, smooth out data curve, and highlight significant interannual variations and trends in the study sea area. This study provided a reference for enhancing marine observation data for future research.
North Yellow Sea; temperature; salinity; abnormal data; missing data; imputation processing
P714.1
10.11693/hyhz20210700170
*國家自然科學(xué)基金面上基金, 41876102號; 中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項項目, XDA190203號; 中國科學(xué)院儀器設(shè)備功能開發(fā)技術(shù)創(chuàng)新項目, GYH201802號; 國家重點研發(fā)計劃“海洋環(huán)境安全保障”專項項目, 2019YFC1407903號; 國家自然科學(xué)基金, 62172352號; 河北省自然科學(xué)基金, F2017209070號。陳 曉, 博士, 助理研究員, E-mail: chenxiao0604@163.com
劉長華, 博士, 教授級高級工程師, E-mail: lch@ qdio.ac.cn
2021-07-29,
2021-10-06