朱南陽 吳昊 尹達恒 王志強 蔣永年 郭亞
摘? ?要:水中溶解氧含量低會影響螃蟹的成活率,保證低溶解氧時刻溶解氧的預測精度非常重要。目前,溶解氧傳感器價格昂貴且易遭受腐蝕,因此通過相關(guān)變量來間接估計溶解氧濃度有重要的意義。本研究在長短時記憶網(wǎng)絡(luò)(LSTM)模型的基礎(chǔ)上,優(yōu)化LSTM反向傳播時的損失函數(shù),提出了提高低溶解氧含量估算精度的溶解氧預測模型(LDO-LSTM)。LDO-LSTM的損失函數(shù)是在平均絕對百分比誤差(MAPE)基礎(chǔ)上,根據(jù)溶解氧值的變化趨勢和溶解氧濃度大小,分別賦予不同權(quán)值的權(quán)重函數(shù),并通過均方根誤差(RMSE)和平均絕對百分比誤差(MAPE)來評估LDO-LSTM和LSTM在不同范圍的溶解氧估算能力。對模型的測試試驗結(jié)果表明:在溶解氧高于6mg/L時,LDO-LSTM和LSTM的RMSE、MAPE差值穩(wěn)定在0.1左右;在溶解氧低于6mg/L時,LDO-LSTM的RMSE值和MAPE值分別比LSTM低0.25和0.139,說明了LDO-LSTM網(wǎng)絡(luò)不但可以保證整體溶氧預測精度,而且能夠提高較低溶解氧值的估算精度。本研究對于降低水產(chǎn)養(yǎng)殖成本、提高溶解氧估算精度有著重要的作用。
關(guān)鍵詞:溶解氧;長短時記憶網(wǎng)絡(luò);損失函數(shù);平均絕對百分比誤差
中圖分類號:S966.16;TP29? ? ? ? ? ? ? ? ? 文獻標志碼:A? ? ? ? ? ? ?文章編號:201905-SA004
朱南陽, 吳? 昊, 尹達恒, 王志強, 蔣永年, 郭? 亞. 基于長短時記憶網(wǎng)絡(luò)(LSTM)的蟹塘溶解氧估算優(yōu)化方法[J]. 智慧農(nóng)業(yè), 2019, 1(3): 67-76.
Zhu N, Wu H, Yin D, Wang Z, Jiang Y, Guo Y. An improved method for estimating dissolved oxygen in crab ponds based on Long Short-Term Memory[J]. Smart Agriculture, 2019,1(3): 67-76. (in Chinese with English abstract)
1? 引言
溶解氧是溶解于水中呈現(xiàn)分子狀態(tài)的氧,水產(chǎn)養(yǎng)殖中的溶解氧主要來源是大氣中向水體滲入的氧氣和水中植物通過光合作用釋放出的氧。溶解氧的含量能反映水產(chǎn)品的生長狀況,是衡量水體質(zhì)量的綜合指標,因此對于水中溶解氧的監(jiān)控具有重要意義。目前,溶解氧的監(jiān)測主要依靠溶解氧傳感器,但是溶解氧傳感器價格昂貴并且易受水體環(huán)境的腐蝕,導致測量不精確。因此,研究在不使用溶解氧傳感器的情況下,通過溫度、pH、濁度和氨氮等環(huán)境變量構(gòu)建溶解氧估算模型具有重要意義。
目前,溶解氧的監(jiān)測預測模型已有大量的研究。余成洲等[1]將集合經(jīng)驗?zāi)B(tài)分解與支持向量機(Support Vector Machine,SVM)結(jié)合,提高了溶解氧濃度的預測精度;陳彥等[2]考慮了季節(jié)效應(yīng),提出了利用條件期望誤差的差分形式實現(xiàn)溶解氧的預測;Chen和Liu[3]通過比較自適應(yīng)神經(jīng)的模糊推理系統(tǒng)(Adaptive Network-based Fuzzy Inference System,ANFIS)、反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,BPNN)和多元線性回歸模型(Multivariable Linear Regression Model,MLR),在溶解氧預測上的性能得出ANFIS要更優(yōu)越;Olyaie等[4]為了提高溶解氧預測模型的性能,將SVM模型、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)和線性遺傳規(guī)劃(Linear Genetic Programming,LGP)進行比較,結(jié)果表明使用SVM可以得到更優(yōu)的模型預測效果;袁洪春和潘金晶[5]改進遞歸最小二乘法優(yōu)化的徑向基函數(shù),對水溫、酸堿度、鹽度氧化還原電位進行建模來預測溶解氧,預測的結(jié)果優(yōu)于徑向基函數(shù);宦娟和劉星橋[6]將K-means聚類算法和極限學習機(Extreme Learning Machine,ELM)神經(jīng)網(wǎng)絡(luò)算法進行結(jié)合,以15分鐘為間隔,通過pH、水溫、溶解氧、濁度、葉綠素、天氣類型、氣溫、氣壓、濕度等環(huán)境特征因素構(gòu)建溶解氧預測模型,雖然該算法在常規(guī)天氣和突變天氣下都有利于提高水產(chǎn)水質(zhì),但是模型使用的環(huán)境變量較多。施珮等[7]將廣義回歸神經(jīng)網(wǎng)絡(luò)(General Regression Neural Network,GRNN)和Elman神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于水產(chǎn)養(yǎng)殖溶解氧的預測,平均相對誤差絕對值分別為7.48%和11.03%;吳靜等[8]劃分溶解氧數(shù)據(jù)為線性和非線性序列,分別采用差分整合移動平均自回歸(Auto Regressive Integrated Moving Average,ARIMA)模型和遺傳算法優(yōu)化小波神經(jīng)網(wǎng)絡(luò)(Genetic Algorithm Optimization Wavelet Neural Network,GAWNN)模型,在不使用環(huán)境數(shù)據(jù)的情況下,得出了將遺傳算法用于優(yōu)化小波神經(jīng)網(wǎng)絡(luò)的預測模型獲得最小的平均絕對誤差的結(jié)論;魏小敏等[9]采用互信息理論(Mutual Information,MI)降低環(huán)境變量鹽度值、pH、硝酸鹽的相關(guān)性,建立了粒子群算法(Particle Swarm Optimization,PSO)優(yōu)化的徑向基神經(jīng)網(wǎng)絡(luò)(Radial Basic Function Neural Network, RBFNN)預測模型。
目前溶解氧的估算模型都是基于統(tǒng)計學習,機器學習算法和深度學習算法,深度學習在處理時間序列上有優(yōu)越性,在各個領(lǐng)域得到了大量的應(yīng)用。深度學習在時間序列方面的預測主要依賴于循環(huán)神經(jīng)網(wǎng)絡(luò),該算法能夠?qū)⑦^去時刻的信息與當前時刻的信息融合,來預測或估算信息,但是該方法在處理長時間序列問題時,容易造成梯度消失和梯度爆炸[10]。循環(huán)神經(jīng)網(wǎng)絡(luò)的變種長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)能夠解決長時間序列的問題。李志剛等[11]采用LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)和ARIMA兩種預測模型對高爐煤氣產(chǎn)生量預測,驗證了結(jié)合LSTM模型與ARIMA模型能夠改善模型的弊端,提高了預測的精度;范竣翔等[12]采用循環(huán)神經(jīng)網(wǎng)絡(luò)用于空氣污染時空序列的預測,并比較不同模型的預測精度,得出了LSTM預測模型要優(yōu)于傳統(tǒng)的全連接神經(jīng)網(wǎng)絡(luò)。Ma等[13]使用LSTM模型自動確定最佳滯后,建立了短期交通預測,表明了LSTM可以在準確性和穩(wěn)定性方面實現(xiàn)最佳預測性能。楊祎玥等[14]采用小波變換將水文時間序列分解為多個低頻和高頻序列,然后針對各個序列建立LSTM預測模型,這種將小波變換和LSTM模型結(jié)合的模型在水文時間序列預測的應(yīng)用上具有一定的幫助。Akita等[15]通過段落向量(Paragraph Vector)將報紙文章轉(zhuǎn)換為分布式表示,模擬過去事件對LSTM模型的時間影響,建立金融時間序列預測模型并得到了很好的預測準確度。石磊[16]等結(jié)合了自注意力機制(Attention)和Tree-LSTM模型實現(xiàn)對社會熱點事件的情感傾向。謝明磊[17]利用主成分分析(Principal Component Analysis,PCA)對氣象數(shù)據(jù)的特征進行降維,然后對自適應(yīng)矩估計(Adaptive Moment Estimation,ADAM)算法優(yōu)化后的LSTM網(wǎng)絡(luò)進行建模,實現(xiàn)住宅負荷的短期預測方法。Najah等[18]研究了多層感知器神經(jīng)網(wǎng)絡(luò)(Multi-Layer Perception-Artificial Neural Network,MLP-ANN),集合神經(jīng)網(wǎng)絡(luò)(Ensemble Neural Network, ENN)和SVM三個模型對溶解氧的預測。Wen等[19]通過對pH、電導率、氯、鈣、總堿度、總硬度、硝態(tài)氮和氨氮等變量建立ANN模型,能夠模擬水質(zhì)的參數(shù),實現(xiàn)溶解氧預測建模。Rankovic等[20]利用Levenberg-Marquardt算法用于訓練前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)NN),并通過靈敏度分析確定最有效的輸入為pH和溫度,進而實現(xiàn)有效的溶解氧預測。然而目前利用LSTM網(wǎng)絡(luò)對溶解氧進行估算較少,陳英義等[21]將PCA和LSTM網(wǎng)絡(luò)模型結(jié)合,通過對水溫、土壤溫度、土壤水分等數(shù)據(jù)建立溶解氧預測模型,提高了溶解氧的預測精度。但是,該模型并沒有針對低溶解氧估算進行優(yōu)化,而是進行全局優(yōu)化,難以最大限度保證低溶解氧時的更高估算精度。
因此,本研究以LSTM為基礎(chǔ)建立了盡量保證低溶解氧含量估算精度的預測模型(Low Dissolved Oxygen Long Short-Term Memory,LDO-LSTM),該模型在不使用溶解氧傳感器的情況下,能夠?qū)Φ腿芙庋踹M行實時估算,當溶解氧濃度含量低的時候就要及時用增氧機增氧。
2? 長短時記憶網(wǎng)絡(luò)(LSTM)
LSTM網(wǎng)絡(luò)是一種特殊的RNN模型,是為了解決RNN在構(gòu)建長依賴序列模型時會出現(xiàn)梯度彌散而提出的[22]。LSTM模型主要由輸入門、遺忘門、輸出門和細胞狀態(tài)組成。輸入門用來控制當前時刻輸入的信息有多少可以加入到細胞狀態(tài)中;遺忘門決定上一時刻細胞狀態(tài)中有多少信息可以傳遞到當前時刻中;輸出門是基于遺忘門和輸入門更新的細胞狀態(tài),來輸出結(jié)果;細胞狀態(tài)用來記錄當前輸入、上一時刻隱藏層狀態(tài)、上一時刻細胞狀態(tài)以及門結(jié)構(gòu)中的信息[10]。LSTM模型的算法公式如下:
(1)
(2)
(3)
(4)
(5)
(6)
其中,f? t是遺忘門,i t是輸入門,a t是候選記憶,C t是記憶單元,ot是輸出門,ht是最后的輸出值,Wo ,Wf,Wi,Wf,Uf,Ui,Ua,Uo是各個門結(jié)構(gòu)的權(quán)值,bf,bi,ba,bo是各個門結(jié)構(gòu)的閾值,tanh 是激活函數(shù)。
在LSTM網(wǎng)絡(luò)結(jié)構(gòu)中,采用的損失函數(shù)為公式(7):
(7)
其中,e(t)是損失函數(shù),yi是真實值,yi是預測值。
在用上述損失函數(shù)反向傳播時,雖然LSTM網(wǎng)絡(luò)能夠?qū)W習到溶解氧的總體特征,但是并不能精確學習到低溶解氧時刻的數(shù)據(jù)分布特征,在低溶解氧時刻的估算不能保證更高的精度。因此,本研究在LSTM網(wǎng)絡(luò)模型的基礎(chǔ)上,改進反向傳播時的損失函數(shù),使網(wǎng)絡(luò)充分學習到低溶解氧時刻的特征。
3? LSTM模型算法改進
為了使得低溶解氧時刻給與更大的權(quán)重,本研究中選用sin函數(shù),具體的t時刻輸出層的損失函數(shù)為:
(8)
其中,
在反向傳播時求梯度時,t時刻的損失函數(shù)不僅來自于當前輸出層的損失函數(shù)e(t),而且來自于t時刻之后的損失函數(shù)。因此,t時刻,總的損失函數(shù)為:
(9)
對隱含層ht、Ct分別求導:
其中,
當溶解氧高于6.5mg/L并且小于8.5mg/L時,真實溶解氧初始的權(quán)重值賦予1+sin(·yi ),預測溶解氧初始的權(quán)重值為0.7+ sin(yi );當溶解氧高于4.5mg/L并且小于等于6.5mg/L時,真實溶解氧的初始值賦予1.2+sin(·yi ),預測溶解氧初始的權(quán)重值為0.6+ sin(yi );當溶解氧小于等于4.5mg/L時,真實溶解氧的初始值賦予1.5+sin(·yi ),預測溶解氧的初始值賦予0.5+ sin(·yi )。φ是初始值,隨著LDO-LSTM網(wǎng)絡(luò)逐漸訓練更新。
4? 試驗方法與結(jié)果分析
為了更好保證溶解氧在低濃度時的預測精度,進行了改進LSTM模型的實驗。通過相關(guān)性分析確定環(huán)境變量和溶解氧之間的關(guān)系,并通過PCA融合環(huán)境變量之間的信息,達到數(shù)據(jù)降維的目的。對降維后的數(shù)據(jù)分別建立LSTM和LDO-LSTM溶解氧預測模型,實現(xiàn)對低溶解氧的精確預測。
4.1? 試驗數(shù)據(jù)獲取
試驗樣本數(shù)據(jù)來自江蘇無錫宜興河蟹養(yǎng)殖基地。該基地位于北緯31°,東經(jīng)119°。基地的池塘面積大約202000m2,水深為1.2~1.5m。采集的數(shù)據(jù)主要是溶解氧、pH、溫度、濁度和氨氮。采用熒光DO探針、差分pH電極、溫度傳感器、Chemins ZS-206在線濁度傳感器和Chemins NHN-202在線氨氮傳感器對池塘溶解氧的水質(zhì)參數(shù)(pH、溫度、濁度和氨氮)進行收集。熒光DO探針傳感器的測量范圍是0~20mg/L,測量精度是±0.1mg/L;差分pH電極傳感器的原理是玻璃電極的恒定電位,它的測量范圍是0~14pH,靈敏度是0.05;溫度傳感器的是電阻傳感,它的測量范圍是-20~80℃,測量精度是≦±0.5℃;Chemins ZS-206在線濁度傳感器的原理是散光法,它的測量范圍是0~1000NTU,測量分辨率是0.1NTU;Chemins NHN-202在線氨氮傳感器的測量范圍是0~100mg/L,測量精度為±2mg/L。這些測量傳感器均安置在距離水底30cm左右。
4.2? 試驗數(shù)據(jù)分析
本試驗數(shù)據(jù)的采集時間為2017年5月1日至2017年7月2日。共收集了6891個樣本數(shù)據(jù),其中10個樣本是缺失值,20個樣本數(shù)據(jù)異常值。在收集的數(shù)據(jù)中,需要對樣本數(shù)據(jù)進行預處理,對于異常值直接刪除,缺失值用該值鄰近的5個值的平均值填充。剩余的有效數(shù)據(jù)總數(shù)為6871個。由于水體環(huán)境惡劣,水中的傳感器容易腐蝕,測得的樣本數(shù)據(jù)會存在噪聲干擾,因此對樣本數(shù)據(jù)進行濾波是非常重要的。在本研究中,采用中值濾波技術(shù)對采集的數(shù)據(jù)進行預處理,濾除噪聲影響大的數(shù)據(jù)。
在對樣本數(shù)據(jù)進行預處理后,通過主成分分析和相關(guān)性分析探索環(huán)境變量和溶解氧之間的關(guān)系,隨后構(gòu)建LDO-LSTM溶解氧預測模型。采用本研究提出的LDO-LSTM建立溶解氧的預測模型,并精準估算出低溶解氧的值。試驗采用的程序設(shè)計語言是Python3.6,集成開發(fā)環(huán)境是PyCharm,使用的深度學習框架是TensorFlow和Keras。LDO-LSTM網(wǎng)絡(luò)的參數(shù)選擇為:(1)網(wǎng)絡(luò)的迭代次數(shù)為300次;(2)輸入層節(jié)點數(shù)為4;(3)輸出層節(jié)點數(shù)為1;(4)隱含層節(jié)點數(shù)為20;(5)學習率為0.001;(6)時間步長為10。圖1是建立LDO-LSTM溶解氧預測模型的流程圖。
在對環(huán)境數(shù)據(jù)中的異常值和缺失值預處理后,需要對各個環(huán)境變量和溶解氧之間的相關(guān)性進行分析[23]。在本研究中,采用互相關(guān)函數(shù)確定各個環(huán)境變量和溶解氧之間的相關(guān)關(guān)系,如表1所示。
成分分析是設(shè)法將原來具有一定相關(guān)性的指標,重新組合成一組較少個數(shù)的互不相關(guān)的綜合指標[24]。綜合指標最大程度地反映了原變量代表的數(shù)據(jù)信息,同時保證新指標之間相互無關(guān),是一種數(shù)據(jù)降維的方法。本研究通過對溫度、pH、氨氮和濁度進行主成分分析,得到了4個成分,這些成分都涵蓋了溫度、pH、氨氮和濁度的信息,通過對這4個主成分的特征值及貢獻率分析,篩選出影響溶解氧的關(guān)鍵成分。各個成分的特征值、特征值差值、貢獻率以及累計貢獻率如表2所示。根據(jù)各個成分的貢獻率,前3個貢獻率比較高,累計貢獻率達到了93.351%,因此,選擇了前3個主成分用于對深度網(wǎng)絡(luò)訓練。
在前期工作中,將LSTM同多種傳統(tǒng)方法對比,例如各種多項式擬合、BP神經(jīng)網(wǎng)絡(luò)等,發(fā)現(xiàn)LSTM比其他方法好,因此,本研究中主要將LDO-LSTM同LSTM模型進行比較。
損失函數(shù)能夠反映模型預測值和真實值之間的差距,能夠用來指揮網(wǎng)絡(luò)如何更新參數(shù)。因此,損失函數(shù)的變化能夠看出該模型對數(shù)據(jù)分布特征的學習情況。圖2是LDO-LSTM和LSTM溶解氧預測模型的損失函數(shù)變化對比。
從圖2可以看出,隨著迭代次數(shù)的增加,LDO-LSTM和LSTM損失函數(shù)的值逐漸變小。當?shù)螖?shù)為0到60時,LDO-LSTM要比LSTM的收斂速度快;當?shù)螖?shù)到達60次時,這兩個損失函數(shù)的收斂速度都趨于平緩,LDO-LSTM的損失函數(shù)值要小于LSTM模型;當訓練次數(shù)達到300次時,LDO-LSTM的損失函數(shù)穩(wěn)定在0.1,而LSTM的損失函數(shù)的值要大于0.1。經(jīng)試驗驗證,迭代次數(shù)達到300次時,LDO-LSTM網(wǎng)絡(luò)模型要比LSTM更能夠充分學習溶解氧的數(shù)據(jù)分布特征,對溶解氧的預測精度能夠達到最優(yōu)。圖3和圖4分別是LSTM和LDO-LSTM溶解氧預測模型擬合圖。
從圖3和圖4可以看出,LDO-LSTM和LSTM對于溶解氧的總體擬合趨勢相差不大,但是對于低溶解氧值的預測來說,LSTM預測值產(chǎn)生很大的誤差,但LDO-LSTM預測的值更逼近真實值。為了更加直觀比較LDO-LSTM網(wǎng)絡(luò)模型和LSTM網(wǎng)絡(luò)模型對不同值大小的溶解氧的預測能力,以溶解氧為6mg/L為界,比較了平均相對誤差(The Root Mean Square Error,RMSE)、平均絕對百分誤差(The Mean Absolute Percentage Error,MAPE)兩個模型評價指標[25]。表3、表4分別是LDO-LSTM和LSTM在溶解氧不同取值范圍內(nèi)的RMSE、MAPE值。在實際養(yǎng)殖過程中,對于某一時間段低溶解氧的預測不準確,容易造成螃蟹的死亡,而本研究的算法恰能克服這一缺點,在確保溶解氧的總體擬合趨勢前提下,更關(guān)注低溶解氧的預測精度,以確保降低螃蟹的死亡率。
表3、表4分別為溶解氧在不同取值范圍時,LDO-LSTM和LSTM網(wǎng)絡(luò)模型的RMSE、MAPE值。在溶解氧低于6mg/L時,LDO-LSTM的RMSE值和MAPE值分別比LSTM低0.25和0.139,這表明了LDO-LSTM能夠提高低溶解氧的預測精度;在溶解氧高于6mg/L時,LDO-LSTM和LSTM的RMSE、MAPE差值穩(wěn)定在0.1左右,這表明了LDO-LSTM模型沒有降低整體的預測精度。對于LDO-LSTM網(wǎng)絡(luò),將溶解氧小于6mg/L和溶解氧大于6mg/L對比發(fā)現(xiàn),前者的RMSE、MAPE值要分別小于后者0.203和0.092,說明了LDO-LSTM在低溶解氧的預測能力要更優(yōu)。
5? 討論與結(jié)論
LDO-LSTM溶解氧預測模型主要通過優(yōu)化LSTM網(wǎng)絡(luò)在反向傳播過程中的損失函數(shù),在平均絕對誤差的基礎(chǔ)上,根據(jù)溶解氧的變化趨勢,賦予溶解氧在不同取值范圍的權(quán)重函數(shù)。低溶解氧時刻,真實值賦予低的權(quán)重函數(shù),高的溶解氧濃度賦予高的權(quán)重函數(shù)。在反向傳播過程中,LDO-LSTM網(wǎng)絡(luò)模型更容易學習到低溶解氧時刻的數(shù)據(jù)分布特征,提高低溶解氧的估算準確率。在評估模型的優(yōu)劣時,考慮到模糊區(qū)間的具體設(shè)定要依賴于具體環(huán)境,而本文的數(shù)據(jù)只是某一個區(qū)域的數(shù)據(jù),模型沒有學習到同地域環(huán)境的依賴關(guān)系,在未來的研究中,可以收集覆蓋面更為廣泛的數(shù)據(jù),同時讓溶氧濃度臨界值6是一個參數(shù)或是一個模糊的區(qū)間,以提高模型的預測性能。通過模型評價指標RMSE、MAPE來評價此LDO-LSTM和LSTM在臨界區(qū)的預測能力,得出LDO-LSTM在低溶解氧時刻的預測準確率要更優(yōu)。
本研究從實際需求出發(fā),在LSTM網(wǎng)絡(luò)模型的基礎(chǔ)上,通過優(yōu)化網(wǎng)絡(luò)模型的損失函數(shù),提高低溶解氧的預測精度。主要采用相關(guān)性分析和主成分分析探究溶解氧和各個環(huán)境變量之間的關(guān)系,融合數(shù)據(jù)特征之間的信息,降低數(shù)據(jù)的維度,確定LDO-LSTM網(wǎng)絡(luò)模型的輸入特征。
本研究建立的LDO-LSTM溶解氧預測模型能夠在不使用溶解氧傳感器的情況下更加準確估算溶解氧濃度低的時候變化,并且此模型不影響總體溶解氧的估算精度,在溶解氧的預測方面具有很好的指導意義。
參考文獻
[1]? ?余成洲, 李勇, 白云. 基于集合經(jīng)驗?zāi)B(tài)分解和支持向量機的溶解氧預測[J].環(huán)境監(jiān)測管理與技術(shù), 2018, 30(03): 27-31.
Yu C, Li Y, Bai Y. DO prediction based on ensemble empirical mode decomposition and support vector machine[J]. The Administration and Technique of Environmental Monitoring, 2018, 30(03): 27-31.
[2]? ?陳彥, 殷建軍, 項祖豐, 等. 基于時間序列模型的海洋溶解氧分析與預測[J]. 輕工機械, 2012, 30(03): 83-87.
Chen Y, Yin J, Xiang Z, et al. Marine dissolved oxygen analysis and prediction based on the time series model[J]. Light Industry Machinery, 2012, 30(03): 83-87.
[3]? ?Chen W, Liu W. Artificial neural network modeling of dissolved oxygen in reservoir[J]. Environmental monitoring and assessment, 2014, 186(2): 1203-1217.
[4]? ?Olyaie E, Abyaneh H Z, Mehr A D. A comparative analysis among computational intelligence techniques for dissolved oxygen prediction in Delaware River[J]. Geoscience Frontiers, 2017, 8(3): 517-527.
[5]? ?袁紅春, 潘金晶. 改進遞歸最小二乘RBF神經(jīng)網(wǎng)絡(luò)溶解氧預測[J]. 傳感器與微系統(tǒng), 2016, 35(10): 20-23.
Yuan H, Pan J. Dissolved oxygen prediction based on improved recursive least square RBF neural network[J]. Transducer and Microsystem Technologies, 2016, 35(10): 20-23.
[6]? ?宦娟, 劉星橋. 基于K-means聚類和ELM神經(jīng)網(wǎng)絡(luò)的養(yǎng)殖水質(zhì)溶解氧預測[J]. 農(nóng)業(yè)工程學報, 2016, 32(17): 174-181.
Huan J, Liu X. Dissolved oxygen prediction in water based on K-means clustering and ELM neural network for aquaculture[J]. Transactions of the CSAE, 2016, 32(17): 174-181.
[7]? ?施珮, 袁永明, 張紅燕, 等. GRNN和Elman神經(jīng)網(wǎng)絡(luò)在水體溶解氧預測中的應(yīng)用[J]. 江蘇農(nóng)業(yè)科學, 2017, 45(23): 217-221.
[8]? ?吳靜, 李振波, 朱玲, 等. 融合ARIMA模型和GAWNN的溶解氧含量預測方法[J]. 農(nóng)業(yè)機械學報, 2017, 48(S1): 205-210, 204.
Wu J, Li Z, Zhu L, et al. Hybrid model of ARIMA model and GAWNN for dissolved oxygen content prediction[J]. Transactions of the CSAM, 2017, 48(S1): 205-210, 204.
[9]? ?魏小敏, 張寶峰, 朱均超, 等. 基于PSO優(yōu)化RBF神經(jīng)網(wǎng)絡(luò)的溶解氧預測算法研究[J]. 自動化與儀表, 2018, 33(05): 57-60.
Wei X, Zhang B, Zhu J, et al. Remote monitoring system of fishery breeding based on Internet of Things[J]. Automation & Instrumentation, 2018, 33(05): 57-60.
[10]? Zhu N, Liu X, Liu Z, et al. Deep learning for smart agriculture: Concepts, tools, applications, and opportunities[J].International Journal of Agricultural and Biological Engineering, 2018, 11(4): 32-44.
[11]? 李志剛, 紀月, 任雄朝. 基于LSTM與ARIMA組合模型的高爐煤氣產(chǎn)生量預測[J]. 鑄造技術(shù), 2018, 39(11): 2456-2460.
Li Z, Ji Y, Ren X. Prediction of blast furnace gas output based on combined model of LSTM and ARIMA[J]. Foundry Technology, 2018, 39(11): 2456-2460.
[12]? 范竣翔, 李琦, 朱亞杰, 等. 基于RNN的空氣污染時空預報模型研究[J]. 測繪科學, 2017, 42(07): 76-83, 120.
Fan J, Li Q, Zhu Y, et al. Aspatio-temporal prediction framework for air pollution based on deep RNN[J]. Science of Surveying and Mapping, 2017, 42(07): 76-83, 120.
[13]? Ma X, Tao Z, Wang Y, et al. Long short-term memory neural network for traffic speed prediction using remote microwave sensor data[J]. Transportation Research Part C: Emerging Technologies, 2015, 54: 187-197.
[14]? 楊祎玥, 伏潛, 萬定生. 基于深度循環(huán)神經(jīng)網(wǎng)絡(luò)的時間序列預測模型[J]. 計算機技術(shù)與發(fā)展, 2017, 27(03): 35-38, 43.
Yan Y, Fu Q, Wan D. A Prediction model for time series based on deep recurrent neural network[J]. Computer Technology and Development, 2017, 27(03): 35-38, 43.
[15]? Akita R, Yoshihara A, Matsubara T, et al. Deep learning for stock prediction using numerical and textual information[C]. IEEE/ACIS International Conference on Computer & Information Science. IEEE, 2016.
[16]? 石磊, 張鑫倩, 陶永才, 等. 結(jié)合自注意力機制和Tree-LSTM的情感分析模型[J]. 小型微型計算機系統(tǒng), 2019, 40(07): 1486-1490.
Shi L, Zhang X, Tao Y, et al. Sentiment analysis model with the combination of self-attention and Tree-LSTM[J]. Journal of Chinese Computer Systems, 2019, 40(7): 1486-1490.
[17]? 謝明磊. 基于LSTM網(wǎng)絡(luò)的住宅負荷短期預測[J]. 廣東電力, 2019, 32(06): 108-114.
[18]? Najah A, El-Shafie A, Karim O A, et al. An application of different artificial intelligences techniques for water quality prediction[J]. International Journal of Physical Sciences, 2011, 6(22): 5298-5308.
[19]? Wen X, Fang J, Diao M, et al. Artificial neural network modeling of dissolved oxygen in the Heihe River, Northwestern China[J]. Environmental Monitoring and Assessment, 2013, 185(5): 4361-4371.
[20]? Rankovic V, Radulovic J, Radojevic I, et al. Neural network modeling of dissolved oxygen in the Gruza reservoir[J]. Serbia. Ecological Modelling, 2010, 221(8): 1239-1244.
[21]? 陳英義, 程倩倩, 方曉敏, 等. 主成分分析和長短時記憶神經(jīng)網(wǎng)絡(luò)預測水產(chǎn)養(yǎng)殖水體溶解氧[J]. 農(nóng)業(yè)工程學報, 2018, 34(17): 183-191.
Chen Y, Cheng Q, Fang X, et al. Principal component analysis and long short-term memory neural network for predicting dissolved oxygen in water for aquaculture[J]. Transactions of the CSAE, 2018, 34(17): 183-191.
[22]? Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[23]? Cohen P, West S G, Aiken L S. Applied multiple regression/correlation analysis for the behavioral sciences[M]. New York: Psychology Press, 2014.
[24]? Abdi H, Williams L J. Principal component analysis[J]. Wiley Interdisciplinary Reviews Computational Statistics, 2010, 2(4): 433-459.
[25]? Willmott C J, Matsuura K. Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance[J]. Climate Research, 2005, 30(1): 79-82.
An improved method for estimating dissolved oxygen in crab ponds based on Long Short-Term Memory
Nanyang Zhu1, Hao Wu2, Daheng Yin1, Zhiqiang Wang1, Yongnian Jiang3, Ya Guo1*
(1. Key Laboratory of Advanced Process Control for Light Industry (Ministry of Education), School of Internet of Things Engineering, Jiangnan University, Wuxi 214122, China; 2. Jiangsu Internet Agricultural Development Center, Nanjing 210017, China; 3. Jiangsu Zhongnong Internet of Things Technology Co., Ltd., Yixing 214200, China)
Abstract: Dissolved oxygen (DO) is vital to aquaculture industry and affects the yield of aquaculture. Low DO in water can lead to death of crabs, therefore, it is important to measure DO accurately. However, the DO sensors are usually expensive and often lost function due to corrosion in water environmental and adsorption of different materials on their surface, which result in the inaccuracy in measured DO values. It is thus important to develop effective methods to estimate DO concentrations by using other environmental variables, which may reduce farmers' cost because DO sensors are not used. In this research, the collected environmental data, including temperature, pH, ammonia nitrogen, turbidity, were used to estimate DO concentrations in crab ponds. The data were preprocessed to eliminate missing values and outlier. Correlation analysis was applied to determine the relationship between environmental variables (temperature, pH, ammonia nitrogen, turbidity) and DO to show the rationale of using these four variables to forecast DO concentration. Principal component analysis was used to reduce the dimension of environmental data to reduce computation cost. For DO concentration estimation, it is more important to make the estimation of DO concentration at low values more accurate because DO concentration at low values is dangerous to crabs. This implies that estimation of DO concentrations at low or high values should be treated differently and applied different rates. Based on the Long Short-Term Memory (LSTM), a low DO concentration estimation model of Low Dissolved Oxygen Long Short-Term Memory(LDO-LSTM), which can improve the estimation accuracy of low DO values was proposed by optimizing the loss function of LSTM back propagation. The loss function of LDO-LSTM was based on the Mean Absolute Percentage Error (MAPE). According to the trend of DO, the true DO and the estimated DO values were applied weight functions. The Root Mean Square Error (RMSE) and the MAPE were used to evaluate the performance of LDO-LSTM and LSTM in DO estimation. Experimental results show that the value of RMSE and MAPE were stable at about 0.1 for LSTM and LDO-LSTM in forecasting DO when dissolved oxygen was higher than 6mg/L and the value of RMSE and MAPE of LDO-LSTM were lower than LSTM by 0.25 and 0.139. The results prove that the proposed method can not only provide desirable estimation accuracy for DO concentrations at high values but also make the estimated DO concentrations at low values more accurate. This research is expected very useful in reducing aquaculture costs and improving accuracy in forecasting DO especially at low values.
Key words: dissolved oxygen; long short-term memory; loss function; mean absolute percentage error