張輝,串麗敏,鄭懷國,趙靜娟,齊世杰
北京市農(nóng)林科學(xué)院數(shù)據(jù)科學(xué)與農(nóng)業(yè)經(jīng)濟研究所,北京 100097
隨著數(shù)據(jù)科學(xué)的不斷創(chuàng)新與發(fā)展,論文、專利、基金項目等學(xué)術(shù)研究載體數(shù)量迅速增長,內(nèi)容豐富且深入,在研究內(nèi)容中蘊含了大量高學(xué)術(shù)價值的知識,涉及專家學(xué)者的研究觀點、研究方法、研究成果等重要信息。面對海量學(xué)術(shù)信息,科技情報工作者、領(lǐng)域科研人員僅憑人工處理這些信息,并主觀分析解讀這些信息資源,不僅耗時耗力,而且難以全面、準(zhǔn)確地識別出研究主題,獲取有價值的信息。如何利用新興信息技術(shù)對海量科技信息進(jìn)行快速有效地主題內(nèi)容識別,輔助科學(xué)知識發(fā)現(xiàn),提高科研工作效率是目前迫切需要解決的關(guān)鍵問題。
主題識別的目的是對大規(guī)模的數(shù)據(jù)信息進(jìn)行處理和分析,從而快速抽取其中的研究主題,并使用表征詞對關(guān)鍵性的信息進(jìn)行表示[1]。目前國內(nèi)外學(xué)者在主題識別方法上開展了深入研究,主要集中在共詞分析和主題模型兩個方向。通過構(gòu)建詞語共現(xiàn)網(wǎng)絡(luò),利用復(fù)雜網(wǎng)絡(luò)算法識別研究主題;通過機器學(xué)習(xí)算法挖掘隱藏在文檔中的主題表征詞信息。現(xiàn)有研究主要通過抽取詞匯并計算詞匯間關(guān)系強度來實現(xiàn),然而單獨使用缺乏上下文語境的詞匯作為主題表征詞,很難準(zhǔn)確揭示主題含義。短語相比詞匯更能表達(dá)豐富的語義信息,易于理解和分析。因此,從主題表示形式角度出發(fā),構(gòu)建生成短語結(jié)構(gòu)表征詞的主題識別新方法成為迫切需要。
另外,主題識別完成的同時,如何準(zhǔn)確地揭示研究主題內(nèi)容同等重要,而相關(guān)研究多側(cè)重于主題識別算法的改進(jìn)、基于主題詞、時間跨度進(jìn)行主題演化及熱點分布等研究,較少針對主題所屬的原始文本信息進(jìn)行細(xì)粒度挖掘。文本句子語步結(jié)構(gòu)識別可以從語義角度對內(nèi)容進(jìn)行劃分類別,能夠有效找出表達(dá)文本中研究目的、研究方法、研究結(jié)果以及研究結(jié)論的句子。通過對句子的深入挖掘,將有助于對主題進(jìn)行語步結(jié)構(gòu)的區(qū)塊劃分,對于揭示文本深層、細(xì)粒度的科學(xué)知識具有重大意義。
因此,本文基于潛在狄利克雷分布模型(Latent Dirichlet Allocation,LDA)進(jìn)行主題識別,對LDA 主題識別結(jié)果的主題表征詞進(jìn)行擴展,構(gòu)建表征詞短語集合作為候選主題短語,利用Sentence Transformer 預(yù)訓(xùn)練模型,對候選短語和主題文本集合進(jìn)行語義相似度計算,確定主題表征詞擴展短語。同時,將主題文本切分成句子集合,通過訓(xùn)練的BERT 分類模型,標(biāo)注主題句子功能標(biāo)簽(研究背景、研究目標(biāo)、研究方法、結(jié)果、結(jié)論),對主題內(nèi)容功能結(jié)構(gòu)層面進(jìn)行深度分析。在此基礎(chǔ)上,選擇農(nóng)業(yè)資源環(huán)境領(lǐng)域論文數(shù)據(jù)進(jìn)行實證研究,對主題內(nèi)容進(jìn)行細(xì)粒度、多維度的解讀與分析。
目前,主題識別主要包含基于共詞分析法和基于主題模型分析。基于共詞分析方法由Callon等[2]提出,利用在同一篇文獻(xiàn)中詞匯對的共同出現(xiàn)頻次,表示詞對之間的親疏關(guān)系,進(jìn)而推斷出該語料庫中的學(xué)科和主題之間的結(jié)構(gòu)關(guān)系[1]。眾多學(xué)者在這方面進(jìn)行了諸多研究,如郭崇慧、李鋒等[3-4]通過統(tǒng)計領(lǐng)域文獻(xiàn)中的高頻關(guān)鍵詞構(gòu)建共現(xiàn)矩陣,同時結(jié)合互信息概念和AP 聚類算法,進(jìn)行領(lǐng)域主題識別分析;閆濤[5]在基于VSM改進(jìn)的共現(xiàn)潛在語義向量空間模型(CLSVSM)基礎(chǔ)上,引入特征詞詞頻信息,再將引入的詞頻作為權(quán)重賦予CLSVSM 的共現(xiàn)強度,最終構(gòu)建特征加權(quán)的CLSVSM模型,提升文本聚類性能;田鵬偉等[6]通過構(gòu)建專利文本共現(xiàn)網(wǎng)絡(luò),采用OVL 算法及加權(quán)運算對異構(gòu)信息網(wǎng)絡(luò)進(jìn)行融合,基于融合后的網(wǎng)絡(luò)開展專利技術(shù)主題識別。丁敬達(dá)等[7]在運用共詞分析進(jìn)行主題聚類的基礎(chǔ)上,通過Word2Vec 加權(quán)向量分別計算文獻(xiàn)向量與聚類主題向量,并基于余弦相似度進(jìn)行文獻(xiàn)與主題的語義匹配,實現(xiàn)將相關(guān)文獻(xiàn)匹配至對應(yīng)主題。基于主題模型的分析方法用于對文本中潛在的語義關(guān)系和主題信息進(jìn)行挖掘,當(dāng)下主流方法是潛在狄利克雷分布(Latent DirichletAllocation,LDA)模型,作為非監(jiān)督機器學(xué)習(xí)方法,受到學(xué)者們廣泛關(guān)注與使用。如張琴等[8]通過建立頻繁短語挖掘算法,設(shè)計候選短語重要度計算方法,結(jié)合“短語袋”主題模型PhraseLDA 進(jìn)行主題挖掘。Tajbakhsh 等[9]結(jié)合了詞語共現(xiàn)提出優(yōu)化的LDA 模型用于對Twitter 短文本進(jìn)行聚類;趙林靜[10]通過HowNet常識知識庫計算輸入單詞與當(dāng)前主題聚類中單詞間的語義相似度,以此調(diào)整LDA 模型中的超參數(shù)β,提高聚類準(zhǔn)確率;王紅斌等[11]基于傳統(tǒng)LDA 模型,結(jié)合獨立性檢測、方差檢測和信息熵檢測3種不同的特征檢測方法,識別文本主題內(nèi)容,解決數(shù)據(jù)集中不同主題間文本數(shù)量不均衡導(dǎo)致文本主題識別不準(zhǔn)確問題;張晨晨[12]提出TF-COLDA模型進(jìn)行主題挖掘,首先通過TF-LDA 特征采樣模型進(jìn)行過濾與主題無關(guān)的詞得到標(biāo)準(zhǔn)化文檔,再利用CO-LDA詞共現(xiàn)主題模型提取共現(xiàn)詞匯表來構(gòu)建詞共現(xiàn)矩陣,解決語義特征稀疏、共現(xiàn)信息不足的問題。
語步是語言學(xué)概念,指實現(xiàn)完整交流功能的一個修辭單位[13],語步的標(biāo)注可以幫助閱讀者有針對性地快速了解寫作意圖和內(nèi)容。目前在學(xué)術(shù)論文語步結(jié)構(gòu)識別方面相關(guān)學(xué)者開展了研究,如陳果等[14]采用主動學(xué)習(xí)策略,利用結(jié)構(gòu)化的語步訓(xùn)練數(shù)據(jù)作為初始語料,訓(xùn)練SVM、CNN、Bi-LSTM 3 種分類器,同時結(jié)合少量人工標(biāo)注訓(xùn)練集,多次迭代優(yōu)化以識別科技文獻(xiàn)句子語步功能結(jié)構(gòu)。王末等[15]采用深度學(xué)習(xí)中的BERT預(yù)訓(xùn)練模型,結(jié)合文本句子位置改進(jìn)模型輸入,對學(xué)術(shù)論文句子進(jìn)行語步分類。歐石燕等[16]提出的BERT預(yù)訓(xùn)練模型與深度森林分類算法相結(jié)合的混合模型,充分利用人工識別出的句子位置與結(jié)構(gòu)特征,和深度學(xué)習(xí)自動識別的文本深層語義特征,取得較好的識別效果;趙旸等[17]對BERT 模型的輸入層進(jìn)行修改,通過融合每個語步句子在該篇摘要中的位置信息以實現(xiàn)摘要中各語步的精準(zhǔn)識別;郭航程等[18]提出基于Paragraph-BERTCRF神經(jīng)網(wǎng)絡(luò)架構(gòu)的摘要語步識別模型,能夠充分利用摘要文本中的篇章上下文信息,同時考慮了注意力機制和語步標(biāo)簽序列內(nèi)部的轉(zhuǎn)移關(guān)系,實現(xiàn)提升語步功能信息的識別效果。
然而,目前已有研究存在主題識別內(nèi)容語義信息不足、主題表征詞專用短語較少等問題。因此,本文在LDA主題模型基礎(chǔ)上,對主題表征詞進(jìn)行語義擴展,構(gòu)建頻繁共現(xiàn)短語作為候選主題表征詞,并利用Sentence Transformer預(yù)訓(xùn)練模型對表征詞主題文本進(jìn)行語義相似度計算,獲取主題表征詞擴展短語。同時,引入語步分析法對主題內(nèi)容進(jìn)行細(xì)粒度挖掘,通過訓(xùn)練BERT語步分類模型,標(biāo)注主題句子功能,對主題內(nèi)容進(jìn)行功能結(jié)構(gòu)層面的理解和分析,以此為主題解讀提供新的思路。
本文提出的基于LDA和語步標(biāo)注的主題識別與分析方法框架(圖1),主要包括兩部分內(nèi)容:
圖1 研究框架Fig.1 Research framework
(1)基于LDA 主題識別與主題詞短語提取。通過數(shù)據(jù)預(yù)處理,結(jié)合文檔標(biāo)題、關(guān)鍵詞、摘要3 個維度對文檔進(jìn)行向量表示,生成語料庫,并利用Python 中的Gensim 庫進(jìn)行LDA 主題建模,識別主題信息。在此基礎(chǔ)上,對主題表征詞進(jìn)行擴展,通過短語結(jié)構(gòu)分析,構(gòu)建短語集合,并對主題表征詞是否出現(xiàn)在短語集合內(nèi)進(jìn)行匹配,以提取候選主題短語集合,同時利用Sentence Transformer預(yù)訓(xùn)練模型,對候選短語和主題文本集合進(jìn)行語義相似度計算,得到主題表征詞短語,用戶根據(jù)實際情況選擇最佳短語進(jìn)行解讀。
(2)基于SciBERT模型的語步標(biāo)注。通過構(gòu)建農(nóng)業(yè)領(lǐng)域的語步訓(xùn)練集,對SciBERT預(yù)訓(xùn)練模型進(jìn)行微調(diào),訓(xùn)練適用新任務(wù)的模型。在此基礎(chǔ)上,將主題對應(yīng)的文本以句子為單位進(jìn)行切分,利用訓(xùn)練好的模型對句子進(jìn)行功能識別。綜合主題內(nèi)句子功能識別結(jié)果,對主題內(nèi)容進(jìn)行多維度分析與解讀。
2.2.1 LDA主題識別
主題模型(Topic Model)能夠識別文檔里的主題,并且挖掘語料里隱藏的信息,在主題聚合、從非結(jié)構(gòu)化文本中提取信息、特征選擇等場景有廣泛的用途。本文通過LDA 主題模型,將文檔-詞匯矩陣變成文檔-主題矩陣(分布)和主題-詞匯矩陣(分布),其實現(xiàn)流程如圖2所示:首先,按照概率P(di)選中一篇文檔di,從Dirichlet分布α中抽樣生成文檔di的主題分布θm,從主題分布θm中抽取文檔di第j個詞的主題Zm,n,從Dirichlet分布β中抽樣生成主題Zm,n對應(yīng)的詞分布ψk,最后從詞分布ψk中抽樣生成詞wm,n。
圖2 LDA模型概率圖Fig.2 LDA model probability diagram
因此,LDA 模型的語料庫的生成概率如公式(1)所示,其中,α和β分別是主題分布θ和主題詞分布φ的先驗分布參數(shù),w和z分別表示模型生成的主題及最終的主題詞,K為主題個數(shù),M為總的文檔數(shù)量。
本文基于Python中主題模型工具庫Gemsim進(jìn)行主題抽取,將每一篇文檔文本向量化,轉(zhuǎn)化為詞袋(Bag of words,BOW)向量,即構(gòu)建詞頻向量輸入LDA 模型中。在詞袋構(gòu)建過程中,本文對文檔中摘要文本轉(zhuǎn)化的同時,對文檔標(biāo)題和關(guān)鍵詞也進(jìn)行轉(zhuǎn)化,通過實驗計算給予三部分文本內(nèi)容一定權(quán)重,以提高文本主題聚類效果。
2.2.2 主題詞短語提取
在實際應(yīng)用過程中,每個主題通過指定數(shù)量的主題表征詞進(jìn)行主題內(nèi)容表達(dá),但主題僅使用單詞無法充分描述主題內(nèi)容,對于非領(lǐng)域內(nèi)人員無法準(zhǔn)確看出特定詞組搭配,更無法將它們組成正確短語。因此,本文在構(gòu)建高質(zhì)量的主題表征詞方面,重點構(gòu)建以短語為核心的主題詞。研究采用Sentence-BERT 網(wǎng)絡(luò)結(jié)構(gòu)[19],它是對預(yù)訓(xùn)練BERT 網(wǎng)絡(luò)的一種改進(jìn),Sentence-BERT 網(wǎng)絡(luò)的左右兩個神經(jīng)網(wǎng)絡(luò)在結(jié)構(gòu)完全相同的基礎(chǔ)上共享網(wǎng)絡(luò)權(quán)重,以此通過簡單、快捷的方法實現(xiàn)對句子、段落等密集向量的表達(dá)。
首先,選取適用語義-文本相似度(Semantic Textual Similarity,STS)任務(wù)的預(yù)訓(xùn)練模型,本文選擇paraphrase-distilroberta-base-v2 模型對文本進(jìn)行表示,其在針對STS 基準(zhǔn)數(shù)據(jù)集上表現(xiàn)優(yōu)秀,更符合本文需要;其次,構(gòu)建候選短語,以LDA 主題識別單詞作為種子詞,結(jié)合短語結(jié)構(gòu)搭配對文本進(jìn)行劃分,提取候選短語,實現(xiàn)流程如圖3 所示;最后,利用預(yù)訓(xùn)練模型將候選短語和文本嵌入到向量空間,使用余弦相似度計算找到與文檔最相似的短語,以此描述整個主題內(nèi)容,實現(xiàn)過程如圖4所示。
圖3 提取候選詞Fig.3 Extract candidate word
圖4 計算主題短語流程Fig.4 Calculate topic phrase flow
提取候選短語。短語生成可利用檢索慣例化表達(dá)的句法結(jié)構(gòu)進(jìn)行提取[20]。通過總結(jié)歸納,結(jié)合句法分析,構(gòu)建文字搭配結(jié)構(gòu),生成候選短語。本文選用名詞、形容詞作為生成短語的單元,通過識別最長的形容詞和名詞序列,構(gòu)建候選短語集合。利用NLTK 工具庫的pos_tag 方法,對單詞的詞性進(jìn)行標(biāo)記,篩選名詞和形容詞詞性('JJ','JJR','JJS','NN','NNS','NNP','NNPS'),識別短語序列,同時對短語序列進(jìn)行詞頻統(tǒng)計、合并同義詞、過濾低頻詞等處理操作,最終確定主題包含的候選短語集合。
計算主題短語。本文文本輸入1 為某一主題候選主題短語集中一個短語,輸入2為某一主題的全部文本分詞、去除停用詞后的預(yù)處理結(jié)果。通過文本表示層將兩部分內(nèi)容映射為詞向量,并輸入到特征編碼層,特征編碼層對詞向量進(jìn)行語義特征抽取,相似度計算層對候選主題短語與主題文本向量進(jìn)行語義相似度計算,最終輸出最相似的主題擴展短語TopN,用戶根據(jù)實際情況確定主題表征短語。
2.2.3 基于SciBERT模型的語步標(biāo)注
本文將語步標(biāo)注任務(wù)轉(zhuǎn)化為文本分類任務(wù),通過選取預(yù)訓(xùn)練模型,構(gòu)建語步標(biāo)簽的訓(xùn)練集,訓(xùn)練得到文本語步分類模型,以實現(xiàn)對文本內(nèi)容的語步標(biāo)注??萍嘉谋菊膬?nèi)容高度凝練,具有結(jié)構(gòu)化的撰寫模式,通常包含:研究背景(BACKGROUND)、研究目標(biāo)(OBJECTIVE)、研究方法(METHODS)、結(jié)果(RESULTS)、結(jié)論(CONCLUSIONS)五類句子,以此描述文本的核心思想。本文采用SciBERT 預(yù)訓(xùn)練模型[21]進(jìn)行訓(xùn)練學(xué)習(xí),標(biāo)注上述五類語步結(jié)構(gòu)。SciBERT是利用大型科學(xué)出版物語料庫[包括生物醫(yī)學(xué)(82%)以及計算機科學(xué)(18%)方向總共114萬篇論文樣本]進(jìn)行無監(jiān)督預(yù)訓(xùn)練的BERT 模型,因此,更加適用于科技文本數(shù)據(jù)的自然語言處理任務(wù)。
構(gòu)建訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)的特性和數(shù)量是決定一個模型性能好壞的最主要因素。本文重點針對農(nóng)業(yè)領(lǐng)域科技文本進(jìn)行主題分析,現(xiàn)有公開數(shù)據(jù)集未涉及農(nóng)業(yè)領(lǐng)域,因此,首先構(gòu)建農(nóng)業(yè)領(lǐng)域語步標(biāo)注訓(xùn)練數(shù)據(jù)集,再對預(yù)訓(xùn)練模型進(jìn)行微調(diào),該模型將更適應(yīng)農(nóng)業(yè)領(lǐng)域文本標(biāo)注任務(wù)。為保證語步標(biāo)注訓(xùn)練數(shù)據(jù)的準(zhǔn)確性和權(quán)威性,本文以WOS(Web of Science)數(shù)據(jù)庫中的結(jié)構(gòu)化摘要論文作為語料來源,利用語步標(biāo)簽詞語作為檢索詞,通過檢索篩選研究方向為農(nóng)業(yè)領(lǐng)域的文獻(xiàn)進(jìn)行數(shù)據(jù)導(dǎo)出,利用Python語言編寫處理程序?qū)φ撐恼M(jìn)行清洗,識別語步標(biāo)簽并提取標(biāo)簽后對應(yīng)的句子,最終形成農(nóng)業(yè)領(lǐng)域語步標(biāo)注訓(xùn)練數(shù)據(jù)集。
訓(xùn)練語步分類模型。本文利用Pytorch深度學(xué)習(xí)框架,選取SciBERT 中推薦的scibert-scivocab-uncased 預(yù)訓(xùn)練模型進(jìn)行語步識別任務(wù)訓(xùn)練。首先對輸入的語步標(biāo)簽、句子文本進(jìn)行編碼,轉(zhuǎn)為模型需要的編碼格式,使用輔助標(biāo)記符[CLS]和[SEP]來表示句子的開始和分隔。然后根據(jù)輸入得到對應(yīng)的embedding,在得到整體的embedding 后使用模型進(jìn)行學(xué)習(xí),最終根據(jù)本任務(wù)的分類層得到語步標(biāo)注結(jié)果。對模型微調(diào)時訓(xùn)練參數(shù)如表1 所示,模型微調(diào)實現(xiàn)原理如圖5所示。
表1 SciBERT訓(xùn)練參數(shù)設(shè)置Table 1 SciBERT training parameter setting
圖5 模型微調(diào)實現(xiàn)原理Fig.5 Implementation principle of model fine tuning
本文的實證研究對象為農(nóng)業(yè)資源環(huán)境領(lǐng)域論文數(shù)據(jù),以Incites 數(shù)據(jù)庫為基礎(chǔ),Incites 是基于30 年來WOS 核心合集七大引文數(shù)據(jù)庫建立的科研評估與分析數(shù)據(jù)庫,擁有更加全面的數(shù)據(jù)資源、多元化的指標(biāo)和豐富的可視化效果。從Incites數(shù)據(jù)庫研究方向中選擇“中國國務(wù)院學(xué)位委員會學(xué)科分類(China SCADC Subject 97 Narrow)”,再選擇“農(nóng)業(yè)資源與環(huán)境(0903 Agricultural Resources and Environment Science)”一級學(xué)科,提取2020 年該領(lǐng)域的論文數(shù)據(jù),檢索時間為2021年9月24日。共檢索到5,882篇文章。導(dǎo)出文獻(xiàn)全部信息,經(jīng)過核查、補充不完整信息等處理,選擇標(biāo)題、摘要、關(guān)鍵詞三部分文本信息進(jìn)行主題識別。
(1)構(gòu)建領(lǐng)域詞典。利用自定義分詞字典進(jìn)行文本分詞,有助于提高切分詞語的準(zhǔn)確率。本文挑選WOS 數(shù)據(jù)庫中農(nóng)業(yè)領(lǐng)域期刊,提取近5年發(fā)表論文的作者關(guān)鍵詞(Author Keywords),以及補充關(guān)鍵詞(Keywords Plus),通過數(shù)據(jù)清洗,過濾無意義詞語,最終確定91萬條領(lǐng)域詞語。
(2)文本處理。首先采用NLTK、Spacy 等自然語言處理工具庫對文本內(nèi)容進(jìn)行分詞、去停用詞、詞型還原、詞性標(biāo)注。同時,在文本向量表示過程中,通過壓縮詞向量,降低高頻詞和低頻詞對主題識別影響,最后提取分詞結(jié)果用于LDA主題識別。
(1)主題數(shù)量確定。本研究采用困惑度(Perplexity)指標(biāo)確定最優(yōu)主題個數(shù)。困惑度表示文檔所屬主題的不確定性,當(dāng)困惑度下降趨勢不再明顯或處于拐點處時,此時主題取值為最優(yōu)主題數(shù)。計算公式如公式(2)所示:
其中,D代表測試數(shù)據(jù)集;M代表文檔數(shù)量;wd代表構(gòu)成文檔集合D的單詞集合;Nd表示第d個文檔中出現(xiàn)的詞語總數(shù)。
本文初始設(shè)定主題數(shù)10 個,通過實驗結(jié)果可以看出當(dāng)主題數(shù)量為4~6 時,困惑度值趨于平緩,如圖6所示。因此,結(jié)合領(lǐng)域?qū)<已信?,最終確定本研究論文數(shù)據(jù)主題數(shù)量為4最佳。
圖6 困惑度計算Fig.6 Confusion calculation
(2)主題識別結(jié)果?;谡Z料分詞結(jié)果構(gòu)造字典和詞袋,并對詞袋向量進(jìn)行壓縮,減少高頻詞和低頻次對主題識別的影響,包括去掉出現(xiàn)在全部語料中頻次小于2的詞,以及在50%的文檔都出現(xiàn)的詞語,經(jīng)過篩選后的語料輸入LDA 模型。本文LDA主題模型參數(shù)設(shè)置為:主題個數(shù)4個,迭代次數(shù)1,000 次,輸出主題詞個數(shù)10 個。LDA主題識別結(jié)果如表2所示。
表2 主題識別結(jié)果Table 2 Subject identification results
基于LDA 輸出的主題表征詞進(jìn)行擴展,通過查找包含主題詞短語作為候選短語,統(tǒng)計詞頻排序并設(shè)置閾值,頻率低于5次的短語將會被剔除,以降低對核心短語提取影響。在計算候選短語與主題相似度過程中,選取計算結(jié)果排名前3的短語作為擴展短語,并根據(jù)實際主題內(nèi)容經(jīng)過專家篩選,最終確定主題表征短語。選取其中一個主題擴展短語進(jìn)行展示與對比,如表3 所示。通過對擴展結(jié)果的閱讀理解,可以更為準(zhǔn)確地確定主題、了解主題涵蓋內(nèi)容等。
表3 主題短語擴展結(jié)果Table 3 Subject phrase extension results
通過對訓(xùn)練數(shù)據(jù)集的清洗與篩選,共獲得句子標(biāo)注語料為160,361 條,其中研究背景32,130條、研究目標(biāo)10,018條、研究方法38,602條、結(jié)果53,739條、結(jié)論25,872條。利用訓(xùn)練數(shù)據(jù)進(jìn)行語步模型訓(xùn)練,最終得到訓(xùn)練結(jié)果如表4所示。從訓(xùn)練結(jié)果看,研究方法、結(jié)果、結(jié)論3個功能標(biāo)簽識別效果較好,準(zhǔn)確率在80%以上,研究目標(biāo)識別效果不理想,只有66%,還有待提升。從整體識別效果看,加權(quán)平均各個標(biāo)簽的F1值,最終模型識別效果F1值為81.9%。
表4 SciBERT語步分類訓(xùn)練結(jié)果Table 4 SciBERT move classification training results
利用模型訓(xùn)練結(jié)果,對各主題文本進(jìn)行語步標(biāo)注,實驗標(biāo)注結(jié)果示例如表5所示。通過標(biāo)注結(jié)果可以看出,模型實際應(yīng)用效果較好,但也存在研究背景、研究目標(biāo)等句子被標(biāo)注錯誤的現(xiàn)象。
表5 SciBERT語步分類標(biāo)注結(jié)果Table 5 SciBERT move classification annotation results
在相同數(shù)據(jù)集上,使用原始SciBERT模型與改進(jìn)預(yù)訓(xùn)練模型進(jìn)行對比實驗,實驗結(jié)果如表6所示。與原始SciBERT模型相比,本語步標(biāo)注方法由于構(gòu)建了農(nóng)業(yè)領(lǐng)域的訓(xùn)練集,整體表現(xiàn)具有更佳效果,平均準(zhǔn)確率、召回率、F1 值分別提高5.7%、2.7%、4.7%。
表6 語步標(biāo)注結(jié)果對比Table 6 Comparison of move tagging results
基于主題識別與主題句子語步結(jié)果進(jìn)行主題內(nèi)容分析,將從以下兩方面進(jìn)行解讀:
3.7.1 主題挖掘
通過LDA主題識別結(jié)果(表2),結(jié)合主題表征詞擴展結(jié)果(表3),經(jīng)過人工篩選,最終確定農(nóng)業(yè)資源環(huán)境研究主題內(nèi)容(表7)。通過閱讀分析,發(fā)現(xiàn)2020 年農(nóng)業(yè)資源環(huán)境相關(guān)論文研究方向主要集中在4 個主題:主題0 主要研究作物根際與微生物多樣性,如有機微生物分解、微生物多樣性、根際微生物對作物生長的影響;主題1主要研究土壤退化模擬與評估,如土壤退化模型應(yīng)用與評估、土壤退化相關(guān)理化性狀、數(shù)字土壤制圖等;主題2 主要研究生物炭施用及效應(yīng),如生物炭投入對作物產(chǎn)量、氮素利用效率、土壤肥力、重金屬元素有效性的影響等研究;主題3 主要涉及土壤質(zhì)量提升研究,如采取不同耕作措施、不同填閑作物覆蓋等對土壤理化性質(zhì)的影響,以提升土壤質(zhì)量。
表7 主題表征詞結(jié)果Table 7 Topic representation results
3.7.2 主題內(nèi)語步分析
對主題內(nèi)文本語步結(jié)構(gòu)進(jìn)行標(biāo)注和梳理,綜合各類語步結(jié)構(gòu)進(jìn)行解讀分析。
主題0:主要研究作物根際與微生物多樣性,如有機微生物分解、微生物多樣性、作物生長影響。
微生物群落功能多樣性是土壤質(zhì)量變化重要的指標(biāo),可綜合反映土壤肥力和環(huán)境質(zhì)量狀況。有學(xué)者為充分了解植物-微生物-土壤三者之間相互作用,研究了不同植物種類在生長、產(chǎn)量、抗病等方面的影響因素,采用(CO2)-C-13 連續(xù)標(biāo)記番茄菌根野生型祖細(xì)胞(MYC)及其菌根缺陷突變體(減少菌根定殖:RMC),以追蹤土壤中的根C 輸入,并量化受AMF 共生和氮肥影響的根際啟動效應(yīng)(RPE);還有研究人員分別利用16S rRNA 為基礎(chǔ)的高通量測序技術(shù)(HTS)和微孔箱(MWCs)原位培養(yǎng)技術(shù),探索與小麥根際相關(guān)的可培養(yǎng)的根際細(xì)菌群落多樣性;或利用從森林、大豆和番茄土壤中分離的不同微生物菌劑進(jìn)行微生物移植試驗,測定它們對滅菌番茄土壤中番茄植株生物量和養(yǎng)分同化的影響。學(xué)者們通過眾多方法試驗發(fā)現(xiàn)了影響根際微生物群落的組成、數(shù)量和多樣性等的諸多因素;也提出根際微生物具有培肥地力、病原生物防治等作用,同時可改善植物對營養(yǎng)元素的吸收,促進(jìn)植物生長發(fā)育。
主題1:主要研究土壤退化模擬與評估,如土壤退化模型評估、土壤理化性狀、數(shù)字土壤制圖等。
土壤是自然環(huán)境的重要組成部分,也是最重要的自然資源之一,土壤退化在全球是一個普遍存在的問題,導(dǎo)致可利用的耕地、草地、林地等不斷減少,因此,如何解決土壤退化問題引起了廣泛關(guān)注。研究者們采用CNN 深度學(xué)習(xí)模型、LANDPLANER模型、WetSpass模型、SWAT模型等眾多模型進(jìn)行土壤理化性狀分析與預(yù)測、土壤退化模型構(gòu)建研究,并評估各類因素對土壤侵蝕的影響;另有研究者基于已有土壤數(shù)據(jù),利用沙普利加和解釋(SHAP)值、重采樣分類樹(DSMART)、隨機森林模型與綜合采樣策略相結(jié)合等方法,識別和繪制數(shù)字土壤制圖(DSM),作為高質(zhì)量的土壤基準(zhǔn)信息。并且,研究人員通過實驗與評估,發(fā)現(xiàn)未來氣候變化可能是增加土壤侵蝕風(fēng)險的主要驅(qū)動因素。因此,研究人員提出今后幾年迫切需要加強水土保持研究和管理;將退化的土地和裸地進(jìn)行重新造林、等高線耕作和農(nóng)田平行梯田相結(jié)合,可實現(xiàn)最大程度的減少土壤退化;開展的模型構(gòu)建可準(zhǔn)確預(yù)測土壤性狀,評估對土壤侵蝕的影響,以提高農(nóng)產(chǎn)品質(zhì)量和減少土壤退化等負(fù)面環(huán)境影響及相關(guān)風(fēng)險;可以在沒有收集土壤信息的地區(qū),構(gòu)建準(zhǔn)確度較高的土壤特性單元圖,記錄土壤性狀和空間分布,對區(qū)域內(nèi)外的農(nóng)業(yè)和環(huán)境資源進(jìn)行有效管理與研究。
主題2:主要研究生物炭施用及效應(yīng),如生物炭投入對作物產(chǎn)量效應(yīng)、氮素利用效應(yīng)、土壤肥力、重金屬元素有效性等研究。
生物炭作為一種土壤改良劑,可以影響土壤的物理、化學(xué)和生物性質(zhì)。近年來,研究人員在改善土壤肥力、土壤有機碳和作物產(chǎn)量,提高氮素利用效率,修復(fù)受重金屬污染的土壤等方面開展了深入研究。將生物炭與其他有機改良劑聯(lián)合應(yīng)用、與控釋尿素與普通尿素相結(jié)合以及與不同有機肥料及其組合相結(jié)合,研究其對土壤性質(zhì)改良、土壤肥力提高、作物產(chǎn)量增加的效果。也有學(xué)者研究了連續(xù)施用石灰、鋁改性生物炭、稻殼生物炭、70%無機肥和30%有機肥的比例聯(lián)合施用等方法,對土壤中鎘、銅、鋁、鋅、鎳、砷等金屬元素污染修復(fù)作用。有研究結(jié)果顯示,污泥衍生生物炭可以提高氮的利用效率;尿素與控釋尿素的混合比為3:7搭配時,可有效減少氮肥施用;家禽糞便和生物炭的聯(lián)合施用、生物炭和其他有機改良劑的聯(lián)合應(yīng)用是改良酸性土壤和提高土壤肥力的有效策略;酸性鎘污染稻田可以通過連續(xù)施用適量的石灰來實現(xiàn)水稻的安全生產(chǎn);鋁改性生物炭可以有效將金屬砷(尤其是鋁)固定在酸性土壤中;稻殼生物炭在降低鎳生物有效性方面最為有效;以70%無機肥和30%有機肥的比例聯(lián)合施用,可能是重金屬污染風(fēng)險最小的前提下作物高產(chǎn)的較好策略。
主題3:主要研究土壤質(zhì)量提升,如耕作措施、理化性質(zhì)、覆蓋作物等對土壤質(zhì)量提升效果。
土壤質(zhì)量是土壤提供生態(tài)系統(tǒng)功能和服務(wù)的能力,其在農(nóng)業(yè)生態(tài)系統(tǒng)健康可持續(xù)發(fā)展方面起著至關(guān)重要的作用。隨著土壤退化問題日趨嚴(yán)重,了解土壤質(zhì)量下降影響因素、掌握土壤管理策略,對土壤質(zhì)量提升具有重要意義。通過長期試驗,研究人員評估了免耕、常規(guī)耕作、作物輪作、秸稈還田等耕作措施對土壤有機碳的礦化和積累特征的影響;研究多種覆蓋作物對提高土壤有機碳儲量影響;研究疏水物質(zhì)和孔結(jié)構(gòu)土壤憎水性、土壤水力特性和土壤孔隙系統(tǒng)結(jié)構(gòu)等因素對土壤參數(shù)的影響。結(jié)果表明,常規(guī)耕作和免耕耕作制度下多樣化作物輪作提高了土壤物理和水文特性;作物輪作和冬季覆蓋作物的種植制度有可能提高土壤有機碳、孔隙特征以及相關(guān)的物理和水文特性;長期保護(hù)性耕作提高了土壤有機碳儲量,減少了碳損失,從而對土壤健康和可持續(xù)性產(chǎn)生了積極影響;與耕作處理相比,免耕增強了土壤有機碳和土壤易氧化有機碳的積累和宏觀聚集,覆蓋種植和復(fù)合種植進(jìn)一步提高了土壤有機碳的積累;適當(dāng)?shù)纳顚油寥罃_動在激活大團(tuán)聚體和封閉微團(tuán)聚體中更多的碳固存方面具有巨大潛力,對制定土壤管理策略具有重要意義。
本文提出基于LDA和語步標(biāo)注的主題識別與分析方法,在LDA主題模型基礎(chǔ)上,通過短語結(jié)構(gòu)分析和深度學(xué)習(xí)Sentence Transformer 預(yù)訓(xùn)練模型對主題表征詞進(jìn)行語義擴展,獲取主題表征詞擴展短語,提高了主題解讀性。同時,引入語步分析法,通過構(gòu)建領(lǐng)域語步訓(xùn)練數(shù)據(jù)集,基于SciBERT 預(yù)訓(xùn)練模型,訓(xùn)練語步標(biāo)注模型,并對主題結(jié)果進(jìn)行句子功能標(biāo)注,提高了主題內(nèi)容在功能結(jié)構(gòu)層面的理解與分析。在實證分析中,本研究相比傳統(tǒng)主題識別與分析方法,更易于主題內(nèi)容的解讀和細(xì)粒度分析,證明了研究方法的合理性。
本文為主題內(nèi)容解讀提供了新思路,但還需要進(jìn)一步研究。首先,目前實驗數(shù)據(jù)為文獻(xiàn)數(shù)據(jù),文本內(nèi)容描述相對統(tǒng)一規(guī)范,因此實驗結(jié)果較好,后續(xù)還需在其他文本類型(比如基金項目、專利等)進(jìn)行實證分析。其次,擴展的主題短語存在含義相同問題,有待針對表征詞的多樣性方面進(jìn)一步改進(jìn)。最后,語步功能識別特別是針對研究背景、研究目標(biāo)等標(biāo)簽的識別,準(zhǔn)確率方面有待進(jìn)一步提升。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。