丁作坤,丁晶晶
(安徽省農(nóng)業(yè)信息中心,合肥230001)
“三農(nóng)”問題一直是關(guān)系國計民生的根本性問題,是全黨工作的重中之重,但在快速推進城鎮(zhèn)化的道路上,農(nóng)村相對落后的情況日益凸顯,鄉(xiāng)村振興刻不容緩[1]。黨的十九大報告明確提出了實施鄉(xiāng)村振興戰(zhàn)略,2018 年2 月國務(wù)院發(fā)布《關(guān)于實施鄉(xiāng)村振興戰(zhàn)略的意見》和《農(nóng)村人居環(huán)境整治三年行動方案》,進一步為鄉(xiāng)村振興指明工作方向,為農(nóng)村人居環(huán)境整治優(yōu)化、建設(shè)美麗鄉(xiāng)村提供了具體目標與實施計劃。2019 年中央一號文件也提出,到2020 年實現(xiàn)農(nóng)村人居環(huán)境階段性明顯改善的目標[2]。農(nóng)村人居環(huán)境整治成為鄉(xiāng)村振興戰(zhàn)略的一項重要舉措。
在農(nóng)村人居環(huán)境整治優(yōu)化過程中,需要對工程的時間、成本等各項信息進行上報統(tǒng)計與審批,以便對整治過程進行監(jiān)管。傳統(tǒng)的上報與審批主要采用人工的方式,層層上報,逐個審批,不僅費時費力,執(zhí)行效果也一般[3]。隨著信息化技術(shù)的不斷發(fā)展,大數(shù)據(jù)算法等技術(shù)越來越多地融入到社會生活的各個方面,將信息化技術(shù)應(yīng)用到農(nóng)村人居環(huán)境整治優(yōu)化工作中,將大大提高工作效率,改善工作開展的效果。
安徽省農(nóng)業(yè)農(nóng)村廳在推進美麗鄉(xiāng)村建設(shè)的工作中,構(gòu)建了農(nóng)村人居環(huán)境整治平臺,通過信息化、網(wǎng)絡(luò)化設(shè)計實現(xiàn)相關(guān)工作數(shù)據(jù)的網(wǎng)上填報與展示分析。針對填報的數(shù)據(jù)利用局部異常因子算法和Inception V4圖像分類實現(xiàn)對填報數(shù)據(jù)中的異常結(jié)果進行智能識別,保證美麗鄉(xiāng)村建設(shè)的高質(zhì)量推進。
農(nóng)村人居環(huán)境整治平臺主要分為自然村戶廁改造民生工程填報系統(tǒng)、農(nóng)村人居環(huán)境整治數(shù)據(jù)調(diào)度系統(tǒng)、中央獎補整村推進填報系統(tǒng)。其中自然村戶廁改造民生工程填報系統(tǒng)主要功能是錄入、審核與統(tǒng)計戶廁改造項目的進度信息;農(nóng)村人居環(huán)境整治數(shù)據(jù)調(diào)度系統(tǒng)對全省的人居環(huán)境整治工作進行調(diào)度,為各縣區(qū)工作人員及相關(guān)廳局提供進度填報途徑;中央獎補整村推進填報系統(tǒng)統(tǒng)計各縣區(qū)內(nèi)戶廁改造整村進度,用于中央對戶廁改造獎補的發(fā)放依據(jù)。農(nóng)村人居環(huán)境整治系統(tǒng)界面如圖1 所示。
圖1 農(nóng)村人居環(huán)境整治系統(tǒng)界面
平臺對上報的農(nóng)村環(huán)境整治信息進行統(tǒng)計分析,以表格的形式展示每個縣區(qū)的任務(wù)執(zhí)行情況,主要分為改廁進度、生活污水治理、生活垃圾處理、畜禽糞污利用、村莊清潔、村莊規(guī)劃建設(shè)提升和淮河蓄洪區(qū)農(nóng)村“三大革命”進度幾大類,如圖2 所示。
圖2 統(tǒng)計數(shù)據(jù)可視化
針對農(nóng)村人居環(huán)境整治過程中上報的工程信息數(shù)據(jù),利用大數(shù)據(jù)算法智能篩選出施工時間、成本等數(shù)據(jù)異常的項目,輔助審批人員識別潛在的錯報、誤報信息,智能化監(jiān)管整治工作。本文采用LOF(Local Outlier Factor,局部異常因子)算法對整治過程中工程項目數(shù)據(jù)的異常值進行檢測。
LOF 算法是基于密度的異常值檢測算法中較為經(jīng)典的算法[4],是一種無監(jiān)督異常檢測算法,該算法對離群的異常點具有較高的靈敏度[5],因此可用于工程數(shù)據(jù)中異常信息的檢測。該算法通過計算數(shù)據(jù)集中每個樣本的局部異常因子來反映該樣本的異常程度,局部異常因子表示的是該樣本點周圍的樣本所處位置的平均密度與該樣本點所處位置密度的比值,該值的絕對值越大,表明該樣本點是異常數(shù)據(jù)的可能性就越大[6]。LOF 算法主要通過計算數(shù)據(jù)對象的k-距離、k-距離鄰域、可達距離和局部可達密度來求解數(shù)據(jù)對象的局部異常因子,上述各概念的定義如下:
定義1 對象p 的k-距離
對于任意正整數(shù)k,p 的k-距離記為k-(p) ,定義為對象p 和數(shù)據(jù)集D 中對象o 之間的歐氏距離d(p,o),滿足以下兩個條件:
(1)在數(shù)據(jù)集D 中至少有k 個對象o’,滿足o'∈D?{P} 且
(2)在數(shù)據(jù)集D 中至多有k-1 個對象o’,滿足o'∈D?{P} 且
如圖3 所示,對象p 的k-距離衡量的是p 所處位置周圍的密度,k-距離越大,表明對象p 周圍區(qū)域的密度較小,反之,則表明p 周圍區(qū)域的密度較大。
圖3 p的k-距離示意圖
定義2 對象p 的k-距離鄰域
給定正整數(shù)k,對象p 的k-距離鄰域記為Nk-dis(p)(p),表示包含所有與p 的距離小于等于的對象q 的集合,用公式表達如下:
定義3 對象p 關(guān)于o 的可達距離
給定正整數(shù)k,對象p 關(guān)于o 的可達距離記為reach-disk(p,o),用公式表達如下:
對象p 與o 之間的可達距離表明當p 與o 之間的距離小于o 的k-距離時,二者的可達距離就是o 的k距離;當p 與o 之間的距離大于o 的k-距離時,二者的可達距離為二者之間的實際距離。
定義4 對象p 的局部可達密度
給定正整數(shù)k,對象p 的局部可達密度記為lrdk(p),表示對象p 相對于其k-距離鄰域內(nèi)的對象的平均可達距離的倒數(shù),用公式表達如下:
定義5 對象p 的局部異常因子
給定正整數(shù)k,對象p 的局部異常因子記為LOFk(p),定義為p 的k-距離鄰域內(nèi)各對象的局部可達密度與p 的局部可達密度比值的平均值,用公式表達如下:
對象p 的局部異常因子LOF 表示p 的異常程度,該值的絕對值越接近1,表明p 與鄰域越可能屬于同一簇;越大于1,表明p 越可能是異常值。
安徽省農(nóng)村人居環(huán)境整治平臺的數(shù)據(jù)庫中存儲了包括戶廁改造、垃圾處理、污水治理等整治過程中的各個方面數(shù)據(jù),對這些數(shù)據(jù)中的關(guān)鍵信息,采用LOF 異常值檢測算法篩選出異常值,以挖掘出潛在的錯報、誤報信息。具體的檢測流程如下:
(1)數(shù)據(jù)獲取與預(yù)處理
根據(jù)待檢測數(shù)據(jù)的字段名稱,從數(shù)據(jù)庫中獲取對應(yīng)的數(shù)據(jù)。刪除所獲取數(shù)據(jù)中的空值與異常值(該異常值指的是非數(shù)值類型的數(shù)據(jù)),將處理完成的數(shù)據(jù)組織成LOF 算法所需的m×n 矩陣格式的數(shù)據(jù),其中m 表示數(shù)據(jù)的條數(shù),n 表示數(shù)據(jù)的種類數(shù)量。
(2)LOF 算法參數(shù)給定
根據(jù)實際檢測要求,給定LOF 算法的參數(shù)k 和j(j表示按局部異常因子從大到小的順序輸出數(shù)據(jù)對象的個數(shù))。
(3)計算每個數(shù)據(jù)的k-距離、k-距離鄰域、可達距離和局部可達密度
LOF 算法根據(jù)定義1 和定義2 計算每個數(shù)據(jù)的k-距離及其k-距離鄰域,再根據(jù)式(2)和(3)分別計算每個數(shù)據(jù)的可達距離和局部可達密度。
(4)計算所有數(shù)據(jù)的局部異常因子
根據(jù)步驟(3)的計算結(jié)果和式(4),計算所有數(shù)據(jù)的局部異常因子,并將數(shù)據(jù)按異常因子降序排列。
(5)輸出具有異常值的工程項目
從排列好的數(shù)據(jù)中輸出前j 個工程數(shù)據(jù)及其局部異常因子,展示到系統(tǒng)頁面上,由審批人員進行進一步分析。
LOF 算法可以對一維數(shù)據(jù)或多維數(shù)據(jù)進行異常值檢測,本文以安徽省某月農(nóng)村改廁進度數(shù)據(jù)和村莊清潔行動主要量化指標情況調(diào)度數(shù)據(jù)為例,分別從一維數(shù)據(jù)和多維數(shù)據(jù)兩方面測試LOF 算法的檢測效果。
農(nóng)村改廁進度數(shù)據(jù)主要包括竣工比率、戶均改造費用、施工起始時間等信息,以其中的戶均改造費用為例,測試算法的一維數(shù)據(jù)異常值檢測效果。戶均改造費用數(shù)據(jù)中每一個縣(區(qū))對應(yīng)一條數(shù)據(jù),按照2.2 小節(jié)的檢測流程,從數(shù)據(jù)庫中獲取戶均改造費用數(shù)據(jù),給定參數(shù)k=11 和參數(shù)j=10,并將算法輸出的結(jié)果降序排列,輸出結(jié)果如表1 所示。
表1 一維數(shù)據(jù)異常值檢測結(jié)果
算法輸出前10 個局部異常因子較高的縣(區(qū)),將原始數(shù)據(jù)降序排列,發(fā)現(xiàn)博望區(qū)和雨山區(qū)的戶均改造費用均排在前列,且比其他縣(區(qū))的戶均改造費用高出許多,可能為異常數(shù)據(jù),證明LOF 算法對一維數(shù)據(jù)的異常值檢測具有一定的效果。
村莊清潔行動主要量化指標情況調(diào)度數(shù)據(jù)主要包括村莊數(shù)量、參加人次以及投入資金等20 項指標,每一個縣(市、區(qū))對應(yīng)一條數(shù)據(jù)。從數(shù)據(jù)庫中獲取村莊清潔行動主要量化指標數(shù)據(jù),刪除空值后將數(shù)據(jù)組織成96×20 的矩陣格式,給定參數(shù)k=10 和參數(shù)j=10,將算法輸出結(jié)果按局部異常因子降序排列,輸出前10 個檢測結(jié)果,如表2 所示。
表2 多維數(shù)據(jù)異常值檢測結(jié)果
將原始數(shù)據(jù)按照各指標分別進行排序,發(fā)現(xiàn)檢測結(jié)果中的數(shù)據(jù)不同程度地處于按各指標排序后數(shù)據(jù)的首尾,即檢測結(jié)果的各項指標或多或少地處于極值附近(例如投入資金過高、清理垃圾數(shù)量過少等),易出現(xiàn)異常數(shù)據(jù),表明LOF 算法對多維數(shù)據(jù)的離群點具有一定的檢測能力。
人工檢測數(shù)據(jù)中的異常值主要從定性的角度進行評估,缺乏可靠性和準確性[7],且檢測效率低。利用LOF 算法檢測數(shù)據(jù)中的離群點,不僅能夠提高審批的效率,還為審批過程提供準確可靠的定量依據(jù)。本文從一維和多維數(shù)據(jù)的異常值檢測兩個角度,證明了LOF 算法對農(nóng)村人居環(huán)境整治數(shù)據(jù)的異常值具有較好的檢測效果。
針對廁改完工后上傳的施工成果照片,傳統(tǒng)的人工審核費時費力。本平臺利用深度學習中的Inception V4 算法,通過樣本訓練學習實現(xiàn)廁改工程上報圖片的自動化識別,有效提高審核的效率和準確度。
Inception 系列網(wǎng)絡(luò)是卷積神經(jīng)網(wǎng)絡(luò)發(fā)展史上一個里程碑式的網(wǎng)絡(luò),在此之前,卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展都是依靠不斷堆疊卷積層數(shù)量來試圖提高神經(jīng)網(wǎng)絡(luò)的性能,但一味加深網(wǎng)絡(luò)深度會造成網(wǎng)絡(luò)模型復(fù)雜、參數(shù)量大等多種問題[8]。Inception 系列網(wǎng)絡(luò)引入Inception 模塊,提出分支卷積結(jié)構(gòu),對圖像進行并行卷積與池化操作,以此獲取圖像的不同信息,在避免網(wǎng)絡(luò)參數(shù)量爆炸和計算量劇增等問題的情況下,增加網(wǎng)絡(luò)寬度和深度,為卷積神經(jīng)網(wǎng)絡(luò)的進一步發(fā)展提供了新的方向[9]。 Inception 網(wǎng)絡(luò)的識別精度遠超VGG-16 等無分支的卷積神經(jīng)網(wǎng)絡(luò),其中Inception V4 網(wǎng)絡(luò)的整體架構(gòu)如圖4 所示。
圖4 Inception V4整體架構(gòu)圖
Inception V4 網(wǎng)絡(luò)結(jié)構(gòu)主體部分由14 個Inception模塊、2 個Reduction 模塊和1 個Stem 模塊組成,其中Inception 模塊分為Inception-A、Inception-B 和Inception-C 三種類型,該模塊接收上一層的輸出,通過不同尺度和功能的分支并行處理后拼接為模塊的輸出,實現(xiàn)不同尺度特征的融合[9]。Reduction 模塊是縮減模塊,用于改變網(wǎng)格的寬度和高度,起到類似于pooling的作用[8]。Stem 模塊是整個網(wǎng)絡(luò)的主干,負責在各卷積層之前對原圖進行預(yù)處理,其結(jié)構(gòu)如圖5 所示。
圖5 Stem模塊結(jié)構(gòu)圖
Inception V4 網(wǎng)絡(luò)使用兩個3×3 的卷積代替5×5的卷積,降低了參數(shù)量的同時,使得網(wǎng)絡(luò)訓練更加快速穩(wěn)定;將n×n 對稱的卷積拆分為1×n 和n×1 兩個非對稱卷積,提高了網(wǎng)絡(luò)的非線性度;將網(wǎng)絡(luò)輸入圖像的分辨率增加到299×299,以獲得更好的精度。Inception V4 網(wǎng)絡(luò)具有較高的性能,在圖像分類和目標檢測等領(lǐng)域都發(fā)揮了巨大的優(yōu)勢,將Inception V4 網(wǎng)絡(luò)應(yīng)用到改廁工程圖片的識別中,有助于提高圖片識別的準確率,更精確地輔助工作人員對改廁結(jié)果進行審核。
安徽省農(nóng)村人居環(huán)境整治系統(tǒng)的數(shù)據(jù)庫中存儲了大量地方上報的改廁工程信息,包含上萬張改廁完成后廁屋的現(xiàn)場照片,利用這些照片,采用Inception V4網(wǎng)絡(luò)進行模型訓練與測試。智能識別的整體框架如圖6 所示。
圖6 智能識別的整體框架圖
改廁工程的成果圖片首先由縣農(nóng)業(yè)農(nóng)村局管理人員通過自然村戶廁改造民生工程填報系統(tǒng)填寫上報,存入系統(tǒng)的數(shù)據(jù)庫中;然后將圖片數(shù)據(jù)從數(shù)據(jù)庫中導(dǎo)出,進行人工標注,分為合規(guī)與不合規(guī)兩個類別,存入樣本庫中,可用于后續(xù)模型的調(diào)整與優(yōu)化;再對標注好的圖片進行預(yù)處理,包括去噪、增強、白化等操作,形成訓練集;調(diào)整Inception V4 網(wǎng)絡(luò)的訓練參數(shù),用訓練集進行訓練,主要包括調(diào)整訓練的epoch、batch_size、learning_rate 及其衰減策略等;對訓練完成的模型進行測試,使用查準率、查全率和F1-score 評價指標來判斷模型的分類效果,如果分類效果不滿足審批的要求,則調(diào)整網(wǎng)絡(luò)訓練參數(shù),重新進行模型訓練;如果滿足要求,則輸出分類模型,用于對上報的改廁成果圖片進行識別。
使用Inception V4 網(wǎng)絡(luò)對改廁成果圖片進行訓練并對模型分類效果進行評估,評估結(jié)果如表3 所示。從表中可以看出,模型對兩種類別的識別精度(F1-score)均在95%以上,總體的識別精度也達到了97.7%,識別效果較為準確。后續(xù)通過不斷上報的圖片,可對模型進行訓練優(yōu)化,進一步提高模型的精度。
表3 Inception V4 模型評估結(jié)果
農(nóng)村人居環(huán)境整治作為國家鄉(xiāng)村振興戰(zhàn)略的重要組成部分,其高效率、高質(zhì)量的執(zhí)行是推進美麗鄉(xiāng)村建設(shè)的必然需求。信息化技術(shù)與人居環(huán)境整治優(yōu)化工作相結(jié)合,不僅能夠提高環(huán)境整治工作的效率,還能輔助決策者統(tǒng)籌整治工作的執(zhí)行進度與效果,加強對整治工作的監(jiān)管,推動整治工作高質(zhì)量開展。本文介紹了人居環(huán)境整治系統(tǒng)的功能以及在整治工作執(zhí)行過程中發(fā)揮的重要作用,通過大數(shù)據(jù)和深度學習算法,對整治過程中的異常信息進行識別,獲得較好的識別效果,充分證明了信息化技術(shù)在人居環(huán)境整治工作中具有重要作用。大數(shù)據(jù)和深度學習算法的應(yīng)用范圍非常廣泛,本文只對農(nóng)村人居環(huán)境整治過程中的部分數(shù)據(jù)利用智能算法進行識別檢測,未來還將進一步發(fā)掘智能算法在整治工作中的應(yīng)用場景,推進信息化、智能化技術(shù)在農(nóng)村人居環(huán)境整治工作中的應(yīng)用,促進美麗鄉(xiāng)村的建設(shè)進度,為鄉(xiāng)村振興戰(zhàn)略注入強勁動力。