鮑彤,羅瑞,郭婷,貴淑婷,任妮*
(1江蘇省農(nóng)業(yè)科學(xué)院信息中心,江蘇南京210014;2江蘇大學(xué)科技信息研究所,江蘇鎮(zhèn)江212013)
【研究意義】隨著我國(guó)農(nóng)業(yè)組織形式和生產(chǎn)方式發(fā)生深刻變化,農(nóng)業(yè)技術(shù)服務(wù)有效供給不足、供需對(duì)接不暢等問(wèn)題日益凸顯(趙秋倩等,2020)。農(nóng)業(yè)技術(shù)服務(wù)過(guò)度依賴于領(lǐng)域?qū)<壹皩I(yè)農(nóng)技推廣人員,人才消耗難以滿足農(nóng)業(yè)轉(zhuǎn)型升級(jí)和高質(zhì)量發(fā)展的需要。隨著人工智能等技術(shù)的發(fā)展,構(gòu)建農(nóng)業(yè)領(lǐng)域的智能問(wèn)答系統(tǒng)能更高效、精準(zhǔn)和便捷地為農(nóng)業(yè)生產(chǎn)經(jīng)營(yíng)者提供專業(yè)化農(nóng)技指導(dǎo),為解決上述問(wèn)題提供了一種方法。智能問(wèn)答系統(tǒng)通常由問(wèn)題處理模塊、檢索模塊和答案抽取模塊組成,而問(wèn)答語(yǔ)句的自動(dòng)分類是提問(wèn)處理模塊的關(guān)鍵環(huán)節(jié),直接影響后續(xù)檢索和答案抽取的精確率(鄭實(shí)福等,2002;吳友政等,2005)?!厩叭搜芯窟M(jìn)展】問(wèn)句分類屬于文本分類的研究范疇,一直是自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。其中結(jié)合詞頻和逆文檔頻率的TF-IDF算法(武永亮等,2017)、利用空間聚類的K近鄰(K-NearestNeighbor,KNN)(周慶平等,2016)及基于條件獨(dú)立假設(shè)的樸素貝葉斯(Naive Bayes mode,NBM)(Jiang et al.,2016)等機(jī)器學(xué)習(xí)方法已達(dá)到較好的分類效果,但由于過(guò)于依賴人工定義特征,模型的泛化能力不夠理想。而基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法因強(qiáng)大的特征提取能力備受青睞。Kim(2014)在預(yù)訓(xùn)練Word2vec詞向量的基礎(chǔ)上,首次提出了基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)的文本分類模型;胡萬(wàn)亭和賈真(2020)將新聞的標(biāo)題和正文2個(gè)部分融入TF-IDF算法,進(jìn)行詞向量加權(quán)輸入CNN模型進(jìn)行分類。CNN僅利用卷積和池化就具備很好的特征提取能力,但卷積操作不能考慮文本序列的位置信息,而循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)具有的序列結(jié)構(gòu),可提取文本的上下文特征,因此許多學(xué)者將CNN與RNN相結(jié)合進(jìn)行研究。Hassan和Mahmood(2018)利用CNN提取文本局部的靜態(tài)特征,同時(shí)利用RNN獲取文本的上下文信息,再將特征融合進(jìn)行分類;Liu等(2020)提出CNN和門控循環(huán)單元(Gated recurrent unit,GRU)結(jié)合的短文本分類模型,降低了模型參數(shù),有利于提升文本分類精度。此類組合方法也已經(jīng)運(yùn)用在醫(yī)學(xué)(杜琳等,2018)、知識(shí)產(chǎn)權(quán)(呂璐成等,2020)、公共政策(邱爾麗等,2020)和微博輿情(馬瑩雪和趙吉昌,2021)等領(lǐng)域的文本分類研究中。在農(nóng)業(yè)領(lǐng)域,有學(xué)者利用農(nóng)業(yè)專業(yè)詞庫(kù)已構(gòu)建基于規(guī)則和機(jī)器學(xué)習(xí)方法相結(jié)合的問(wèn)句分類模型(魏芳芳等,2015;趙燕等,2018)。隨著深度學(xué)習(xí)的發(fā)展,趙明等(2018)根據(jù)番茄智能問(wèn)答系統(tǒng)的特點(diǎn),提出基于BiGRU的番茄病蟲(chóng)害問(wèn)答系統(tǒng)問(wèn)句分類模型;金寧等(2020)根據(jù)詞語(yǔ)重要性對(duì)文本詞向量進(jìn)行加權(quán),建立BiGRU和多尺度卷積神經(jīng)網(wǎng)絡(luò)(Multi-CNN)結(jié)合的農(nóng)業(yè)問(wèn)句分類模型;馮帥等(2021)提出基于深度卷積神經(jīng)網(wǎng)絡(luò)的水稻知識(shí)文本分類方法,將ResNet的殘差模塊進(jìn)行改進(jìn)設(shè)計(jì),并利用膠囊網(wǎng)絡(luò)(Capsule network,Caps-Net)進(jìn)行分類;王郝日欽等(2021)利用農(nóng)業(yè)專業(yè)詞庫(kù)對(duì)文本進(jìn)行向量編碼,引入注意力機(jī)制強(qiáng)化關(guān)鍵詞特征,構(gòu)建了水稻問(wèn)答系統(tǒng)中問(wèn)句的自動(dòng)分類模型。農(nóng)業(yè)問(wèn)句長(zhǎng)度較短且句意多蘊(yùn)含在各類專有名詞中,具有很強(qiáng)的領(lǐng)域性和稀疏性,因此當(dāng)下主流的詞向量模型難以適用。隨著B(niǎo)ERT(Bidirectional encoder representations from transformers)(Devlin et al.,2018)等預(yù)訓(xùn)練語(yǔ)言模型的出現(xiàn),有諸多學(xué)者利用BERT訓(xùn)練更細(xì)粒度的動(dòng)態(tài)字詞向量,并在特定領(lǐng)域的文本分類任務(wù)中取得了更好的效果(李悅晨等,2021;劉忠寶等,2021;王思麗等,2021;尹鵬博等,2021),但將該模型應(yīng)用在農(nóng)業(yè)的研究相對(duì)較少。【本研究切入點(diǎn)】農(nóng)業(yè)領(lǐng)域短文本分類存在數(shù)據(jù)稀疏性、高度依賴上下文等問(wèn)題,目前通過(guò)預(yù)訓(xùn)練BERT模型對(duì)農(nóng)業(yè)問(wèn)句分類鮮有報(bào)道?!緮M解決的關(guān)鍵問(wèn)題】通過(guò)對(duì)不同詞向量模型和深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)合進(jìn)行試驗(yàn),選出效果最優(yōu)的模型作為問(wèn)答系統(tǒng)中的分類方法,為后續(xù)構(gòu)建農(nóng)業(yè)領(lǐng)域智能問(wèn)答系統(tǒng)提供技術(shù)支持。
綜合利用預(yù)訓(xùn)練模型BERT和TextCNN模型開(kāi)展農(nóng)業(yè)問(wèn)句分類技術(shù)研究,本研究大致分為農(nóng)業(yè)問(wèn)句嵌入層、特征提取層和分類層3個(gè)部分(圖1)。以“玉米苗枯病怎么防治”為例:(1)BERT模型經(jīng)過(guò)Tokennizer模塊將“玉米苗枯病怎么防治”按照單個(gè)漢字為最小單元進(jìn)行拆分,生成問(wèn)句編碼序列[‘玉’,‘米’,‘苗’,‘枯’,‘病’,‘怎’,‘防’,‘治’];(2)將拆分后序列按照Vocab字典中漢字對(duì)應(yīng)ID進(jìn)行向量編碼并進(jìn)行Padding填充生成固定維度的的詞向量;(3)將詞向量矩陣輸入TextCNN網(wǎng)絡(luò),利用不同大小的卷積核提取多維的特征圖,將多個(gè)特征進(jìn)行拼接作為該句的分類結(jié)果輸出。
在農(nóng)業(yè)問(wèn)句的分類中,BERT對(duì)輸入的問(wèn)句編碼包含字向量(Token embedding)、句向量(Segement embedding)和位置向量(Position embedding)。3個(gè)向量求和后生成最終的特征向量矩陣∈,式中,為句子長(zhǎng)度,為詞向量維度。之后利用不同尺寸的卷積核對(duì)特征向量矩陣M進(jìn)行卷積操作:
式中,為卷積核特征向量,()為卷積層激活函數(shù),為偏置項(xiàng)。本研究中,經(jīng)過(guò)卷積后的向量經(jīng)過(guò)最大池化保留特征作為全連接層的輸入,計(jì)算公式如下:
在融合特征的基礎(chǔ)上,輸出層利用Softmax函數(shù)進(jìn)行分類,并利用Dropout隨機(jī)丟棄神經(jīng)單元。分類函數(shù)的計(jì)算公式如下:
式中,表示模型分類結(jié)果,為輸出層權(quán)重,為偏置項(xiàng)。
本研究利用Python爬蟲(chóng)從農(nóng)業(yè)種植網(wǎng)、幫農(nóng)網(wǎng)、淘金地農(nóng)業(yè)網(wǎng)等網(wǎng)站共爬取76944條問(wèn)答對(duì)數(shù)據(jù),數(shù)據(jù)采集詳情如表1所示。在文本預(yù)處理過(guò)程中刪除問(wèn)句中空格和中英文特殊符號(hào),并在剔除無(wú)效字段后將疑問(wèn)句全部轉(zhuǎn)為陳述句,構(gòu)建農(nóng)業(yè)問(wèn)答對(duì)數(shù)據(jù)庫(kù)。
從預(yù)處理后的問(wèn)答庫(kù)中隨機(jī)抽取20000條問(wèn)句,利用關(guān)鍵詞的詞頻及共現(xiàn)頻次主題聚類后劃分類別。由表2可看出,農(nóng)業(yè)問(wèn)句的分類主要包括病蟲(chóng)草害防治、栽培技術(shù)、田間管理、土肥水管理、品種資源與繁育和其他等6個(gè)類別。在經(jīng)過(guò)多人標(biāo)注和交叉檢驗(yàn)后,按照8∶1∶1的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集用來(lái)建立分類模型,驗(yàn)證集用來(lái)調(diào)整模型參數(shù),測(cè)試集用來(lái)驗(yàn)證模驗(yàn)分類效果。
程序運(yùn)行平臺(tái)的CPU為Intel(R)Xeon(R)Silver 4114,GPU為Tesla P40 64G,操作系統(tǒng)為Ubuntu16.04,深度學(xué)習(xí)框架為Pytorch1.1,BERT選擇中文版本BERT-base-Chinese,詞向量維度為768,Word2vec詞向量維度為300,卷積核大小為[3,4,5],學(xué)習(xí)率為5e-5,截?cái)嚅L(zhǎng)度為32,Drop_rate為0.5。
為驗(yàn)證不同模型的分類效果,選擇精確率(Precision,P)、召回率(Recall,R)和調(diào)和平均值(F1-Score,F(xiàn)1)作為評(píng)價(jià)指標(biāo)。相關(guān)公式如下:
圖1 基于BERT-TextCNN的農(nóng)業(yè)問(wèn)句分類模型Fig.1 Agricultural questions classification model based on BERT-TextCNN
表1 數(shù)據(jù)采集詳情Table 1 Data collection details
表2 農(nóng)業(yè)問(wèn)句類別分布Table 2 Category distribution of agricultural questions
式中,TP代表正類預(yù)測(cè)正確的數(shù)量,F(xiàn)P代表將負(fù)類預(yù)測(cè)為正類的數(shù)量,F(xiàn)N代表將正類預(yù)測(cè)為負(fù)類的數(shù)量。
為探究不同的詞向量編碼方式對(duì)農(nóng)業(yè)問(wèn)句分類模型的影響,將Word2vec-word、Word2vec-char、BERT分別作為編碼層,對(duì)比TextCNN、BiLSTM、TextRCNN、DPCNN等深度學(xué)習(xí)模型的分類效果。在進(jìn)行多輪試驗(yàn)并取最優(yōu)值后,從表3可看出,在以詞向量作為嵌入時(shí),各基線模型效果均不理想,其中TextCNN模型的值為50.55%,BiLSTM模型效果最差,值為47.48%;而將字級(jí)特征作為嵌入時(shí),各基線模型的分類效果均大幅提升,其中TextCNN模型分類效果最優(yōu),值達(dá)91.22%,TextRCNN和DPCNN模型的值也均超過(guò)90%,BiLSTM模型的分類性能略低,值為89.42%。在字向量的對(duì)比中,單純利用BERT模型即得到更優(yōu)秀的表現(xiàn),值達(dá)92.06%;將BERT作為字向量嵌入到其他基線模型中效果也均有小幅的提升,其中表現(xiàn)最好的依然是BERT-TextCNN模型,值達(dá)93.32%,比Word2vecchar-TextCNN提升2.1%;BERT-BiLSTM模型的效果同樣略低,但值仍然達(dá)92.08%,比Word2vec-char-BiLSTM提升2.66%。
為對(duì)比本研究的方法對(duì)農(nóng)業(yè)問(wèn)句的分類效果,采用測(cè)試集分別將BERT-TextCNN和其他現(xiàn)在常用的4種農(nóng)業(yè)領(lǐng)域文本分類方法進(jìn)行測(cè)試和分析。由表4可看出,在農(nóng)業(yè)短文本的分類模型中,相比時(shí)間序列模型BiGRU,基于空間卷積模型的CNN模型分類效果更好,其中引入注意力機(jī)制的Attention_DenseCNN和BiGRU_MulCNN在F1值方面比BiGRU分別提高2.82%和0.54%,其中原因是農(nóng)業(yè)短文本的句式太短,BiGRU在上下文特征提取方面的優(yōu)勢(shì)難以發(fā)揮作用。而預(yù)訓(xùn)練模型BERT在值相比于BiGRU、Attention_DenseCNN和BiGRU_MulCNN均 有 較 大提升,達(dá)92.06%。此外,在BERT的基礎(chǔ)上拼接CNN層,對(duì)BERT生成的字向量進(jìn)行空間維度的特征提取,可有效解決短文本特征稀疏的問(wèn)題,提高分類準(zhǔn)確率,該模型的值達(dá)93.32%,將BERT模型的值提高1.26%,取得了更好的分類效果。
表3 不同詞向量嵌入時(shí)分類結(jié)果比較Table 3 Results of question classification with different word vectors
表4 不同模型農(nóng)業(yè)問(wèn)句分類結(jié)果比較Table 4 Comparison of agricultural questions of different models
為進(jìn)一步對(duì)比模型間的差異和效果,通過(guò)細(xì)分實(shí)驗(yàn)分析BERT字向量嵌入時(shí)各模型在不同類別上的、和值。由表5可看出,各模型在病蟲(chóng)草害防治和土肥水管理2個(gè)類別中評(píng)價(jià)指標(biāo)均很高,而在栽培技術(shù)、田間管理和其他3個(gè)類別中準(zhǔn)確率稍差,因?yàn)榍?個(gè)大類中標(biāo)注的數(shù)據(jù)量較多,而在數(shù)據(jù)量小的類別上性能略有下降。同時(shí),各模型在其他類別的值較低,因?yàn)槠渲邪穗y以判斷或與其他類別有交叉的樣本,影響了整體分類效果??傮w上,BERT-TextCNN在栽培技術(shù)、田間管理、土肥水管理和其他4個(gè)類別中均取得了最優(yōu)的性能,證明TextCNN模型在農(nóng)業(yè)短文本分類中的有效性和魯棒性。
為進(jìn)一步分析模型在各類別的分類情況,對(duì)各模型在測(cè)試集的分類結(jié)果構(gòu)建混淆矩陣。由圖2可看出,在6個(gè)類別中,病蟲(chóng)害防治、土肥水管理和品種資源三個(gè)類別分類結(jié)果相對(duì)集中,錯(cuò)分現(xiàn)象較少,而栽培技術(shù)與田間管理兩個(gè)類別間易出現(xiàn)交叉錯(cuò)分,錯(cuò)分。通過(guò)對(duì)問(wèn)句文本的觀察發(fā)現(xiàn),栽培技術(shù)和田間管理在少部分問(wèn)句中分類界限比較模糊,如問(wèn)句“苗木移栽時(shí)為什么要進(jìn)行修剪”,其中“移栽”和“修剪”分別屬于栽培技術(shù)和田間管理2個(gè)類別,此類樣本在一定程度上影響了分類精度。另外,數(shù)據(jù)集中存在一句多問(wèn)的樣本,同時(shí)包含多個(gè)分類類別,也對(duì)分類效果產(chǎn)生了負(fù)面影響。而其他類別的錯(cuò)分情況比較分散,這是因?yàn)樵擃愒跀?shù)據(jù)標(biāo)注時(shí)包含了大量難以明確定義的問(wèn)句,在特征方面與別的類別存在融合,導(dǎo)致了分類錯(cuò)誤,但是總體而言,各類別分錯(cuò)的占比較低。
表5 基于BERT嵌入時(shí)各模型在不同類別的結(jié)果Table 5 Classification results of BERT embedding in different categories
圖2 基于BERT模型的分類結(jié)果混淆矩陣Fig.2 Confusion matrix of classification results based on BERT
模型中超參數(shù)的設(shè)置對(duì)最終分類結(jié)果有重要影響,為進(jìn)一步提升BERT-TextCNN的分類性能,固定其他參數(shù)不變,對(duì)卷積核大小、迭代次數(shù)和學(xué)習(xí)率大小等參數(shù)進(jìn)行進(jìn)一步的探究。卷積核的大小決定了TextCNN抽取文本特征的視野程度,卷積核越大,捕獲的特征越多,但同時(shí)也會(huì)產(chǎn)生更多的參數(shù)計(jì)算,因此選擇合適的卷積核至關(guān)重要。由表6可看出,在卷積核大小設(shè)置為[3,4,5]時(shí),模型分類的效果最好,當(dāng)卷積核大小設(shè)置為[4,5,6]和[3,4,5,6]時(shí)效果也非常接近,但卷積核的寬度增加也帶來(lái)了更高的計(jì)算成本,因此,本研究中卷積核大小設(shè)定為[3,4,5]。
迭代次數(shù)可反映深度學(xué)習(xí)模型損失函數(shù)的下降程度和模型收斂情況。由圖3可看出,在BERTTextCNN模型迭代效果分析調(diào)參的3次試驗(yàn)中,當(dāng)訓(xùn)練迭代至2次時(shí),分類效果已有明顯的提升,迭代次數(shù)至4次時(shí),模型已收斂完成并達(dá)到最優(yōu)值,證明TextCNN在提取特征方面的并行計(jì)算能力可讓模型可更快速地收斂,之后繼續(xù)訓(xùn)練對(duì)模型的分類性能不再有明顯的提升。而為降低訓(xùn)練時(shí)間和計(jì)算成本,本研究中模型迭代次數(shù)設(shè)為5。
表6 卷積核大小對(duì)試驗(yàn)結(jié)果的影響Table 6 Influence of convolution kernel size on experimental results
學(xué)習(xí)率作為深度學(xué)習(xí)中重要的參數(shù),決定著優(yōu)化函數(shù)能否收斂及何時(shí)收斂到全局最小值。當(dāng)學(xué)習(xí)率設(shè)置得過(guò)小時(shí),收斂過(guò)程將變得十分緩慢,會(huì)增加訓(xùn)練時(shí)間;而當(dāng)學(xué)習(xí)率設(shè)置的過(guò)大時(shí),模型可能陷入局部最優(yōu),甚至不能收斂。由表7可看出,當(dāng)學(xué)習(xí)率設(shè)置為1e-3時(shí),BERT-TextCNN模型未能收斂;隨著學(xué)習(xí)率的增加,模型在5e-5時(shí)達(dá)最優(yōu)值;而當(dāng)學(xué)習(xí)率為5e-6時(shí),分類性能開(kāi)始下降。因此,本研究中學(xué)習(xí)率設(shè)定為5e-5。
圖3 迭代次數(shù)對(duì)分類結(jié)果的影響Fig.3 Influence of number of iterations on the experimental results
表7 學(xué)習(xí)率大小對(duì)試驗(yàn)結(jié)果的影響Table 7 Influence of learning rate on experimental results
本研究通過(guò)采集網(wǎng)絡(luò)文本中的農(nóng)業(yè)問(wèn)句數(shù)據(jù),經(jīng)過(guò)清洗后構(gòu)建農(nóng)業(yè)問(wèn)句語(yǔ)料庫(kù),并基于農(nóng)業(yè)問(wèn)句詞語(yǔ)特征稀疏、文本長(zhǎng)度較短的特點(diǎn),提出基于BERT字向量和TextCNN結(jié)合的農(nóng)業(yè)問(wèn)句分類模型,在進(jìn)行多個(gè)深度學(xué)習(xí)模型對(duì)比試驗(yàn)后,發(fā)現(xiàn)BERT模型作為詞向量嵌入時(shí)所有的分類評(píng)價(jià)指標(biāo)上均優(yōu)于Word2vec模型,說(shuō)明BERT經(jīng)過(guò)海量語(yǔ)料預(yù)訓(xùn)練后生成的動(dòng)態(tài)字向量比Word2vec具有更強(qiáng)的表征能力,與其他學(xué)者在情感分類(劉思琴和馮胥睿瑞,2020)、醫(yī)學(xué)(趙旸等,2020)及社交電商(李可悅等,2021)等領(lǐng)域的研究結(jié)果相符,證明BERT模型生成的字向量在專業(yè)領(lǐng)域文本分類中具有更好的分類性能。同時(shí),在以Word2vec-word、Word2vec-char和BERT-char等不同向量編碼進(jìn)行時(shí),TextCNN的值均優(yōu)于其他模型,表明在短文本的分類中,TextCNN僅通過(guò)卷積和池化操作獲取的局部特征可達(dá)到不錯(cuò)的分類效果;而以BiLSTM為代表的循環(huán)神經(jīng)網(wǎng)絡(luò)模型在不同詞向量嵌入時(shí)值均低于其他模型,說(shuō)明循環(huán)神經(jīng)網(wǎng)絡(luò)在問(wèn)句文本較短、特征稀疏的情況下,其長(zhǎng)距離特征提取的優(yōu)勢(shì)不能充分發(fā)揮,分類效果不佳。最后,將BiLSTM和最大池化結(jié)合的TextRCNN及更深層次的DPCNN模型分類效果也均優(yōu)于BiLSTM模型,也證明了在短文本分類中CNN模型的卷積和池化操作對(duì)分類性能具有明顯的提升效果。
目前,在農(nóng)業(yè)問(wèn)句的研究中,王郝日欽等(2021)提出基于Attention_DenseCNN的水稻問(wèn)答系統(tǒng)問(wèn)句分類,證明CNN模型可提高農(nóng)業(yè)問(wèn)句分類性能;馮帥等(2021)提出深度卷積神經(jīng)網(wǎng)絡(luò)的水稻知識(shí)文本分類方法也表明具有卷積結(jié)構(gòu)的CNN網(wǎng)絡(luò)更適合進(jìn)行農(nóng)業(yè)短文本分類,這與本研究的結(jié)果一致。金寧等(2020)提出BiGRU和MulCNN模型證明混合網(wǎng)絡(luò)可獲得比單一CNN網(wǎng)絡(luò)更好的分類效果,這與本研究結(jié)果結(jié)合,表明構(gòu)建表征能力更強(qiáng)的詞向量和多特征混合神經(jīng)網(wǎng)絡(luò)對(duì)于提升農(nóng)業(yè)短文本分類效果具有積極的作用。
本研究采用的方法在農(nóng)業(yè)問(wèn)據(jù)的分類上雖取得了良好的效果,但在某些方面還需進(jìn)一步改進(jìn)。首先,構(gòu)建數(shù)據(jù)集采用的是多個(gè)不同網(wǎng)頁(yè)自動(dòng)收集的方法,導(dǎo)致源數(shù)據(jù)中存在大量的噪聲,盡管經(jīng)過(guò)數(shù)據(jù)清洗等預(yù)處理操作,也難以避免模型在此數(shù)據(jù)集上的學(xué)習(xí)受到干擾。其次,本研究?jī)H利用TextCNN進(jìn)行特征提取,對(duì)農(nóng)業(yè)問(wèn)句中多維度的特征挖掘還不充分,模型在編碼過(guò)程中并未考慮詞頻與文檔等層面的特征分布,僅通過(guò)單一的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行分類,易造成誤分現(xiàn)象。
在農(nóng)業(yè)問(wèn)句的采集過(guò)程中,不同農(nóng)技服務(wù)平臺(tái)或網(wǎng)頁(yè)的字段內(nèi)容、格式不同,導(dǎo)致數(shù)據(jù)存在較大噪聲,需要花費(fèi)大量人力和時(shí)間成本進(jìn)行清洗。因此,需要規(guī)范農(nóng)業(yè)問(wèn)句的采集和處理流程,可利用正則表達(dá)式去除標(biāo)簽、表格等無(wú)效的HTML字段,并清洗入庫(kù);在數(shù)據(jù)的標(biāo)注過(guò)程中可采用阿里NLP、哈工大LTP等開(kāi)源共享平臺(tái),進(jìn)行多人協(xié)同標(biāo)注和交叉檢驗(yàn),提升數(shù)據(jù)集構(gòu)建質(zhì)量。
農(nóng)業(yè)問(wèn)句長(zhǎng)度較短且口語(yǔ)化嚴(yán)重,文本的特征稀疏。各類專有名詞如杜鵑花、設(shè)施農(nóng)業(yè)、番茄病毒病等具有很強(qiáng)的領(lǐng)域性,在去除停用詞后進(jìn)行分詞往往只能保留少數(shù)動(dòng)詞和名詞,再加上分詞工具的錯(cuò)誤拆分會(huì)進(jìn)一步稀疏特征,制約了模型的分類性能。建議采用TF-IDF等算法引入詞頻及文檔信息,并在特征提取階段加入BiLSTM、注意力機(jī)制等模型獲取問(wèn)句上下文和關(guān)鍵詞特征,擴(kuò)大特征提取范圍,提高模型分類精度。
農(nóng)業(yè)問(wèn)句表述的是農(nóng)民實(shí)際生產(chǎn)、生活中遇到的迫切需要解決的問(wèn)題,其中,病蟲(chóng)害診斷防治和栽培管理技術(shù)是廣大農(nóng)民群眾在生產(chǎn)中咨詢最多的話題。建議相關(guān)政府職能部門加強(qiáng)與農(nóng)村合作社、農(nóng)業(yè)科研院所等部門的合作,完善農(nóng)技推廣與服務(wù)人員培訓(xùn)體系。充分利用各類農(nóng)技推廣平臺(tái)和移動(dòng)終端應(yīng)用程序等現(xiàn)代信息技術(shù),開(kāi)設(shè)農(nóng)業(yè)科學(xué)技術(shù)相關(guān)培訓(xùn)課程,提高農(nóng)民知識(shí)儲(chǔ)備和技能水平,并利用線上線下結(jié)合的農(nóng)技指導(dǎo)服務(wù)模式,積極開(kāi)展農(nóng)業(yè)生產(chǎn)病蟲(chóng)害防治和栽培技術(shù)相關(guān)指導(dǎo)工作。