張彩麗,吳賽賽,李 瑋,王 慧
(1.安徽省農(nóng)業(yè)科學院農(nóng)業(yè)經(jīng)濟與信息研究所,安徽合肥 230031;2.中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所,北京 100081;3.安徽省農(nóng)業(yè)科學院作物研究所,安徽合肥 230031;4.安徽省農(nóng)業(yè)科學院土壤肥料研究所,安徽合肥 230031)
隨著經(jīng)濟的快速蓬勃發(fā)展,全球環(huán)境污染越來越嚴重。其中農(nóng)業(yè)生產(chǎn)引起的土壤污染是面源污染的主要方面,特別在施肥過量時沒有被農(nóng)作物吸收的營養(yǎng)元素是引發(fā)水體水質(zhì)惡化的重要因素;另外,肥料用量不當還會影響農(nóng)作物的產(chǎn)量和質(zhì)量以及土壤的理化性質(zhì),既對農(nóng)民造成財產(chǎn)損失,也對糧食安全造成威脅[1-5]。因此,在農(nóng)業(yè)生產(chǎn)過程中,科學施肥、測土配方施肥都是重要的關(guān)注點??焖?、準確了解種植區(qū)土壤肥力狀況,精準把握不同農(nóng)作物的施肥管理措施勢在必行。
在人工智能飛速發(fā)展的時代,知識圖譜的廣泛應(yīng)用產(chǎn)生了眾多交叉學科,基于知識圖譜的智能問答系統(tǒng)研究也乘勢而起。知識圖譜是基于圖結(jié)構(gòu)的數(shù)據(jù)格式,非常便于計算機系統(tǒng)的存儲及搜索,它強大的語義表達能力可以產(chǎn)生眾多知識服務(wù)應(yīng)用,智能問答系統(tǒng)是其中重要的一個分支[6-7]。在農(nóng)作物科學施肥管理與土壤肥力領(lǐng)域,如果引入專業(yè)的基于農(nóng)業(yè)知識圖譜的智能問答系統(tǒng),高效精準地為農(nóng)業(yè)種植戶、生態(tài)農(nóng)業(yè)中心提供土壤肥力信息與科學施肥管理方法,這對于國家農(nóng)業(yè)發(fā)展具有重要的現(xiàn)實意義。
為此,該研究從構(gòu)建農(nóng)作物科學施肥管理與土壤肥力領(lǐng)域本體入手,通過挖掘安徽省常見農(nóng)作物的科學施肥管理措施及行政區(qū)內(nèi)土壤肥力指標數(shù)據(jù)存入Neo4j圖數(shù)據(jù)庫[8-11],并采用模式匹配方法構(gòu)建問答系統(tǒng)問句類型、關(guān)鍵詞和規(guī)則,從而實現(xiàn)安徽省農(nóng)作物科學施肥管理與土壤肥力查詢知識問答系統(tǒng)的構(gòu)建和實現(xiàn)。
該研究根據(jù)構(gòu)建農(nóng)作物科學施肥管理與土壤肥力知識圖譜的目的和使用范圍,根據(jù)領(lǐng)域?qū)<医ㄗh,采用人工構(gòu)建的方法,使用Protégé本體庫構(gòu)建工具構(gòu)建安徽省農(nóng)作物科學施肥管理與土壤肥力領(lǐng)域本體,其類層次如圖1所示。
圖1 領(lǐng)域本體類層次
安徽省農(nóng)作物科學施肥管理與土壤肥力領(lǐng)域本體共包括3層,其中最高父類為概念(Concepts),其子類包括地區(qū)(Districts)、土壤肥力(Soil fertility)、施肥管理(Fertilization)、常見農(nóng)作物(Crops)4個類。其中,地區(qū)類又包括?。≒rovince)、市(City)、縣/區(qū)(County)、鄉(xiāng)鎮(zhèn)/街道(Town)4個子類;土壤肥力類包括pH、有機質(zhì)(SOM)、全氮(TN)、全磷(TP)、全鉀(TK)、有效氮(AN)、有效磷(AP)、粘粒(Clay)、粉粒(Powder)、砂粒(Sand)10個子類;施肥管理類包括氮肥(Nitrogen fertilizer)、磷肥(Phosphate fertilizer)、鉀肥(Potassium)3個子類;常見農(nóng)作物類包括小麥(Wheat)、水稻(Rice)、玉米(Corn)、油菜(Rape)、馬鈴薯(Potato)、棉花(Cotton)、花生(Peanut)、大豆(Soybean)8個子類。
農(nóng)作物科學施肥管理與土壤肥力知識圖譜構(gòu)建的數(shù)據(jù)層構(gòu)建包括3個方面,其一為從國家地球系統(tǒng)科學數(shù)據(jù)中心平臺獲取的安徽省1∶400萬土壤全氮、全磷、全鉀、pH、有效磷、有效氮、有機質(zhì)、粘粒、砂粒、粉粒分布圖(全國第二次土壤普查數(shù)據(jù))經(jīng)反距離加權(quán)插值法得到的結(jié)構(gòu)化數(shù)據(jù);其二和其三分別是測土配方查詢系統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)、安徽省土壤肥力相關(guān)主題與安徽省常見農(nóng)作物施肥管理政策相關(guān)主題期刊文獻。后兩者的數(shù)據(jù)獲取通過深度學習模型ERNIE-BiLSTM-CRF、PCNN-Attention分別進行實體識別和關(guān)系抽取。
目前常用的知識圖譜存儲方法包括3類:基于關(guān)系數(shù)據(jù)庫的存儲方案、面向RDF的三元組數(shù)據(jù)庫和原生圖數(shù)據(jù)庫[12]。該研究采用第三類中最流行的圖數(shù)據(jù)庫Neo4j存儲抽取到數(shù)據(jù)源中的所有實體、關(guān)系、屬性三元組。
農(nóng)作物科學施肥管理與土壤肥力知識圖譜使用Neo4j的Cypher語言實現(xiàn)實體、關(guān)系及屬性的導入、存儲、查詢、增刪和可視化等操作。圖2展示了農(nóng)作物科學施肥管理與土壤肥力知識圖譜的其中一部分節(jié)點及關(guān)系。
圖2 農(nóng)作物科學施肥管理與土壤肥力知識圖譜
安徽省農(nóng)作物科學施肥管理與土壤肥力農(nóng)業(yè)智能問答系統(tǒng)的主要功能是可以查詢安徽省省級、市級、縣/區(qū)級、鄉(xiāng)鎮(zhèn)/街道級4級行政區(qū)內(nèi)的8種常見農(nóng)作物(小麥、水稻、玉米、油菜、馬鈴薯、棉花、花生、大豆)的科學施肥管理措施,以及相應(yīng)地區(qū)土壤肥力指標(pH、有機質(zhì)、全氮、全磷、全鉀、有效氮、有效磷、粘粒、粉粒、砂粒)的最大值、最小值和平均值?;谥R圖譜的智能問答系統(tǒng)設(shè)計主要包括前端設(shè)計、后端設(shè)計及問答實現(xiàn)。
問答系統(tǒng)前端設(shè)計采用JSON語言,采用Vue3交互框架,Element-Plus布局框架,vite編譯框架。后端設(shè)計采用go語言,Gin web框架,與gorm數(shù)據(jù)庫框架。
問答過程采用模式匹配方式。模式匹配是數(shù)據(jù)結(jié)構(gòu)中字符串的一種基本操作,用于從一條字符串中尋找與另一條子串相同的所有子串。在農(nóng)作物科學施肥管理問答方面,問句類型設(shè)計為:安徽省某地+(可選)某種常見農(nóng)作物+keyword。例如,懷寧縣的水稻施肥建議。在土壤肥力指標查詢方面,問句類型設(shè)計為:安徽省某地+(可選)某種肥力指標+keyword。例如,懷寧縣的pH肥力指標。其中,農(nóng)作物科學施肥管理問答方面keyword選擇施肥管理、施肥、肥料、施肥建議、施肥管理建議、施肥政策、施肥管理政策、肥料建議等。在土壤肥力指標查詢方面,keyword選擇了指標、土壤肥力、肥力、土壤理化指標、理化指標、土壤指標、肥力指標、土壤理化性質(zhì)等。
農(nóng)作物科學施肥管理與土壤肥力智能問答系統(tǒng)設(shè)計完成后,多次對該系統(tǒng)的問答功能與系統(tǒng)部署進行了測試。使用者輸入問句時,詢問的關(guān)鍵詞會被檢索,系統(tǒng)會圍繞該詞作出回答[13-15]。
問答系統(tǒng)在安徽省省級、市級、縣/區(qū)級、鄉(xiāng)鎮(zhèn)/街道級4級行政區(qū)內(nèi)均可以回答8種常見農(nóng)作物的科學施肥管理方法,具體見圖3;同樣地,在4級行政區(qū)上也可以查詢安徽省土壤肥力十大指標的最大值、最小值和平均值。
圖3 智能問答系統(tǒng)中農(nóng)作物科學施肥管理問答
該研究選用準確率(P)、召回率(R)及F1值作為性能指標,公式如下:
式中,P1為問答系統(tǒng)返回正確答案的數(shù)量,R1為問答系統(tǒng)返回答案總數(shù),T為正確答案的數(shù)量。
試驗通過人工標注土壤肥力相關(guān)數(shù)據(jù)1 151條,隨機打亂后選取總數(shù)的20%作為該問答系統(tǒng)的測試數(shù)據(jù),并將問題輸入農(nóng)作物科學施肥管理與土壤肥力問答系統(tǒng)中,得出結(jié)果以統(tǒng)計其中的P值和R值。
試驗結(jié)果表明,基于ERNIE-BiLSTM-CRF的實體識別模型在土壤肥力語料庫上準確率P值達到92.85%、召回率R值達到92.00%、F1值達到92.59%。這說明該研究構(gòu)建的農(nóng)作物科學施肥管理與土壤肥力問答系統(tǒng)可以為使用者提供有效的問答體驗。
目前,隨著大數(shù)據(jù)、人工智能、深度學習等技術(shù)的不斷發(fā)展和成熟,顛覆了以往的知識服務(wù)方式,以這些信息技術(shù)為基礎(chǔ)的信息服務(wù)具有交互更靈活、響應(yīng)更快速、內(nèi)容更豐富、服務(wù)更智能等特點,一方面給人們帶來更多便利,另一方面也節(jié)省了大量人力成本。而在農(nóng)業(yè)科學領(lǐng)域,很多基礎(chǔ)工作有待探索和深入,該研究即嘗試用最有生命力的基于知識圖譜的方法建立智能問答系統(tǒng),初步取得了理想結(jié)果,為踐行智慧農(nóng)業(yè)服務(wù)邁開了重要一步,具有重要的理論與現(xiàn)實意義。
后續(xù)研究工作中,需要解決包括構(gòu)建智能問答系統(tǒng)及知識圖譜在內(nèi)的數(shù)據(jù)來源分散、結(jié)構(gòu)不一致、標注語料質(zhì)量參差不齊,以及僅依靠相關(guān)深度學習模型不能覆蓋所有知識等問題。同時也考慮加強問答系統(tǒng)對自然語言問題多樣性的處理能力,支持自然語言提問,支持對更多形式問題的回答。將該研究構(gòu)建的智能問答系統(tǒng)擴展到更多、更廣泛的農(nóng)業(yè)場景中去,也需要在技術(shù)上不斷嘗試,使問答系統(tǒng)更加智能,用戶使用更加便捷,為我國的智慧農(nóng)業(yè)發(fā)展貢獻力量。
致謝:
感謝國家科技基礎(chǔ)條件平臺-國家地球系統(tǒng)科學數(shù)據(jù)中心(http://www.geodata.cn)提供數(shù)據(jù)支撐。