王騰陽,趙小丹,胡林
(中國農(nóng)業(yè)科學(xué)院,農(nóng)業(yè)信息研究所,北京 100081)
馬鈴薯是中國第四大糧食作物,除了能夠兼做糧食、蔬菜和飼料,還有很多加工用途,產(chǎn)業(yè)鏈較長,有很大的潛力增產(chǎn)增收[1]。馬鈴薯育種研究人員育成新品種后會(huì)以論文的形式發(fā)布研究成果,內(nèi)容通常包括馬鈴薯新品種的選育過程、特征特性、抗病性、品質(zhì)分析等[2]。由于論文采用自然語言編寫,缺少結(jié)構(gòu)化的表述信息,積累了大量的非結(jié)構(gòu)化文本數(shù)據(jù),因此大規(guī)模的育種文獻(xiàn)給人工整理品種數(shù)據(jù)帶來了極大的挑戰(zhàn)[3]。因此,亟需利用自然語言處理等技術(shù)自動(dòng)分析馬鈴薯育種文獻(xiàn)文本,抽取文本中的品種名、親本、株高株型、抗病性等屬性。這些信息可以用來搭建馬鈴薯遺傳育種數(shù)據(jù)庫,為馬鈴薯智能育種決策提供基礎(chǔ)服務(wù)。
信息抽取指的是從自然語言文本中抽取指定類型的實(shí)體、屬性等信息,并形成結(jié)構(gòu)化數(shù)據(jù)的文本處理技術(shù)[4]。張萌等[5]對(duì)城市軌道交通安全事件案例的自由文本制定知識(shí)元屬性、構(gòu)建詞庫,并對(duì)文本進(jìn)行分詞,利用正則表達(dá)式抽取事件信息,但因其抽取規(guī)則制定不完善,部分知識(shí)元抽取效果不理想。譚永濱等[6]研究提取交通微博文本信息的方法,提出基于線性參照方法構(gòu)建位置表達(dá)模式庫,并將模式庫表達(dá)為Trie樹,利用有限狀態(tài)機(jī)匹配微博文本中位置表達(dá)模式,識(shí)別并提取微博文本中的位置信息,其錯(cuò)誤結(jié)果主要來自未登錄地名與模式不確定性。劉時(shí)翔[7]研究半結(jié)構(gòu)化金融文本信息抽取,用正則表達(dá)式抽取電話號(hào)碼等簡單項(xiàng)信息,利用行文格式、分隔符號(hào)等特點(diǎn),用隱含馬爾柯夫模型(hidden Markov model,HMM)模型抽取復(fù)雜項(xiàng)信息,造成抽取結(jié)果錯(cuò)誤的因素有文本塊的邊界難以劃分,大量過渡數(shù)據(jù)使文本塊數(shù)據(jù)連續(xù)性較差,合同結(jié)構(gòu)隨意性較大等。Feng等[8]提出基于主題識(shí)別和命名實(shí)體識(shí)別的信息抽取方法,提取新冠疫情通報(bào)文本信息的風(fēng)險(xiǎn)區(qū)域和疫情軌跡信息。Martin[9]研究使用深度學(xué)習(xí)的方法識(shí)別企業(yè)發(fā)票的結(jié)構(gòu)化文本,為企業(yè)節(jié)約人工提取成本。
雖然馬鈴薯育種文獻(xiàn)文本描述形式多樣,但論文作者對(duì)馬鈴薯特征特性的描述有規(guī)律可循,如“株高50 cm左右”“干物質(zhì)含量15.4%”“皮色淡黃”“肉色白色”等,目標(biāo)詞可以歸類為某一具體詞性,并且相對(duì)于實(shí)體間的關(guān)系,任務(wù)更專注于提取實(shí)體的屬性值,所以可使用自然語言處理的方法,將待處理文本進(jìn)行分詞,對(duì)分詞結(jié)果進(jìn)行詞性標(biāo)注,根據(jù)語句中的詞性獲取目標(biāo)詞。因此,現(xiàn)面向馬鈴薯種質(zhì)資源領(lǐng)域,基于文本處理的分詞和詞性標(biāo)注結(jié)果,編寫規(guī)則庫,根據(jù)規(guī)則對(duì)符合詞性的目標(biāo)詞實(shí)現(xiàn)快速匹配,據(jù)此提出基于詞性標(biāo)注和規(guī)則庫的馬鈴薯育種文獻(xiàn)信息抽取模型,以期實(shí)現(xiàn)馬鈴薯育種文獻(xiàn)中的種質(zhì)資源信息結(jié)構(gòu)化。
本實(shí)驗(yàn)編程語言使用Python 3.8。自然語言處理技術(shù)使用HanLP[10],包括中文分詞、詞性標(biāo)注等。具體實(shí)驗(yàn)流程如下文所述。
PDF文檔分為兩類,一類是文字內(nèi)容可以完整讀取的正常文檔;另一類是文字讀取與預(yù)期不符的文檔。文字讀取與預(yù)期不符的情況包括但不限于數(shù)字被符號(hào)代替、段落的行順序錯(cuò)亂等。雖然光學(xué)字符識(shí)別(optical character recognition,OCR)可以實(shí)現(xiàn)該類文檔的文本化,但由于期刊論文正文存在左右排版方式,使用OCR自上而下地識(shí)別會(huì)造成文字順序混亂。因此需要先分割文檔圖像的各個(gè)文本塊,將分割出的圖片按閱讀順序排序,通過OCR獲取圖片內(nèi)的文字并進(jìn)行匯總。
首先將待處理的PDF文檔頁面轉(zhuǎn)化為文字為白色、背景為黑色的反二值圖像,使用游程平滑算法將文字連通,形成連通圖。游程平滑算法[11]可以應(yīng)用于文檔圖像分割處理,該算法對(duì)一行(列)上的兩個(gè)黑色像素點(diǎn)間的距離進(jìn)行判斷,如果兩個(gè)相鄰黑色像素點(diǎn)間空白像素的個(gè)數(shù)小于設(shè)定的閾值時(shí),就將這兩點(diǎn)之間的空白像素點(diǎn)全部填黑。當(dāng)算法的水平閾值Thor=3、垂直閾值Tver=3時(shí),運(yùn)行效果如圖1所示。
圖1 游程平滑算法示意圖
通過開源計(jì)算機(jī)視覺庫(OpenCV)中的相關(guān)方法,檢測經(jīng)過游程平滑算法處理后的圖像中各個(gè)連通圖的矩形邊框,獲得其邊緣坐標(biāo)。根據(jù)得到的坐標(biāo),截取源PDF文檔頁面圖像中的對(duì)應(yīng)位置,按照從左到右、從上到下的順序,依次命名保存文字圖像,作為OCR文字識(shí)別的輸入源。處理流程如圖2所示,最終得到的文本塊分割結(jié)果,用矩形邊框標(biāo)注。
圖2 處理文獻(xiàn)過程圖
由于直接提取PDF文檔或通過OCR文字識(shí)別提取文檔均存在全角字符、語句中存在多余換行符以及文字間存在多余空格等問題,因此需要先將文本內(nèi)容按順序進(jìn)行如下處理:①全角字符轉(zhuǎn)化為半角字符;②去除文字之間多余空格;③刪除文字內(nèi)換行符。
規(guī)則庫使用Json格式保存在文件。每一對(duì)鍵值對(duì)中,鍵表示抽取項(xiàng)的名稱,值表示抽取項(xiàng)的規(guī)則。規(guī)則的設(shè)計(jì)包含下面五類:①關(guān)鍵詞;②按照詞性標(biāo)注的抽取規(guī)則;③目標(biāo)詞中的屏蔽詞;④抽取關(guān)鍵詞所在關(guān)鍵句中不允許出現(xiàn)的詞;⑤提供預(yù)設(shè)詞進(jìn)行匹配(以鍵值對(duì)表示,鍵表示匹配原始文本中的詞,值表示抽取結(jié)果中展示的詞)。
使用關(guān)鍵詞結(jié)合正則表達(dá)式,獲取目標(biāo)抽取項(xiàng)所在語句,在獲取的所有語句列表中,刪除包含不允許出現(xiàn)的詞的語句,隨后對(duì)語句進(jìn)行分詞、詞性標(biāo)注,通過抽取規(guī)則定位關(guān)鍵詞位置和目標(biāo)抽取項(xiàng)位置。對(duì)于一些表述不規(guī)律、不能使用分詞和詞性標(biāo)注方法獲取的,例如,抗病性只有抗、不抗、高抗等幾種表述,但由于其表述時(shí)有多種疾病混在一起,很難通過分詞的方法來獲取,這種情況使用匹配預(yù)設(shè)詞并結(jié)合判斷目標(biāo)項(xiàng)與預(yù)設(shè)詞的距離之間的距離的方法獲取目標(biāo)項(xiàng)。信息抽取流程圖如圖3所示。
圖3 信息抽取流程圖
1.3.1 關(guān)鍵詞規(guī)則設(shè)計(jì)
關(guān)鍵詞用于在待抽取文本中提取目標(biāo)項(xiàng)所在語句,根據(jù)關(guān)鍵詞的位置,在語句中使用基于詞性標(biāo)注規(guī)則和預(yù)設(shè)詞的方法實(shí)現(xiàn)抽取目標(biāo)項(xiàng)。用戶建立關(guān)鍵詞庫,需要根據(jù)提取項(xiàng),在待提取文本中找到相關(guān)表述。用戶在人工校對(duì)提取結(jié)果時(shí)若發(fā)現(xiàn)抽取項(xiàng)的新關(guān)鍵詞,可以將其添加至關(guān)鍵詞庫,從而優(yōu)化提取效果。使用正則表達(dá)式獲取關(guān)鍵詞所在語句,具體方法為從關(guān)鍵詞開始向前(后)直到達(dá)到20個(gè)文字或者遇到標(biāo)點(diǎn)符號(hào)為止。本文使用關(guān)鍵詞定位抽取項(xiàng)所在文本句,對(duì)于關(guān)鍵詞規(guī)則的設(shè)計(jì),考慮如下幾種情況:①關(guān)鍵詞之間是“或”的關(guān)系;②關(guān)鍵詞之間是“與”的關(guān)系;③關(guān)鍵詞之間是互斥的關(guān)系;④關(guān)鍵詞之間是上述幾種關(guān)系結(jié)合的關(guān)系。
關(guān)鍵詞規(guī)則如“A(BC,D,^E)/F/G”,表示提取的文本句需要符合包含A或F或G;在包含A的情況下,需要滿足同時(shí)包含B或C,以及包含D,但不能包含E。目標(biāo)提取項(xiàng)所在句可能涉及多個(gè)不同的關(guān)鍵詞,在上述示例規(guī)則中,A、F、G稱為主關(guān)鍵詞,每一個(gè)主關(guān)鍵詞后面允許加括號(hào),括號(hào)內(nèi)的詞稱為次關(guān)鍵詞,與主關(guān)鍵詞的關(guān)系和“邏輯與”相同,表示提取語句需要同時(shí)包含主關(guān)鍵詞和所有的次關(guān)鍵詞。主關(guān)鍵詞之間以 “/”分割,次關(guān)鍵詞之間以 “”分割,與“邏輯或”相同。用“^”符號(hào)表示不允許提取語句中包含的關(guān)鍵詞。
1.3.2 分詞與詞性標(biāo)注
分詞與詞性標(biāo)注使用HanLP自然語言處理工具包。首先將提取的關(guān)鍵詞語句進(jìn)行分詞。在進(jìn)行詞性標(biāo)注前,對(duì)分詞結(jié)果進(jìn)行預(yù)處理有利于后續(xù)的信息抽取過程。
對(duì)分詞結(jié)果的預(yù)處理主要為合并部分分詞內(nèi)容。例如,中國馬鈴薯品種的命名方式大多為“X薯X號(hào)”,在分詞時(shí)通常會(huì)將品種名中的“X薯”和“X號(hào)”分開,在進(jìn)行信息抽取前將其合并會(huì)提高抽取的準(zhǔn)確率。同理,對(duì)單引號(hào)、雙引號(hào)等內(nèi)部無需分詞的內(nèi)容統(tǒng)一進(jìn)行合并,可以有效改善抽取效果。另外,需要添加關(guān)鍵詞到自定義詞典,防止關(guān)鍵詞被分詞影響后續(xù)抽取過程。
詞性標(biāo)注使用CTB(chinese treebank)標(biāo)注集(表1)[12],結(jié)合自定義詞庫對(duì)分詞結(jié)果進(jìn)行詞性標(biāo)注。
表1 部分CTB詞性標(biāo)注集
1.3.3 基于詞性標(biāo)注的規(guī)則庫設(shè)計(jì)
規(guī)則基于分詞和詞性標(biāo)注結(jié)果制定,在規(guī)則中,每一個(gè)匹配項(xiàng)使用CTB詞性標(biāo)注集中的標(biāo)簽代替。每一條規(guī)則都要包含作為提取依據(jù)的關(guān)鍵詞和需要提取的目標(biāo)詞。關(guān)鍵詞使用“KEYWORD”代替,目標(biāo)詞使用“TARGET”代替,用“ANY”代替兩個(gè)標(biāo)簽間任意數(shù)量、任意詞性的標(biāo)簽。抽取規(guī)則允許在同一位置有多種詞性標(biāo)簽,標(biāo)簽間用“/”分割,因?yàn)槟繕?biāo)詞有可能被分詞,采用的解決方法是在規(guī)則中使用多個(gè)“TARGET”標(biāo)簽,在抽取完成后將抽取的多個(gè)“TARGET”進(jìn)行合并得到抽取結(jié)果?!癟ARGET”標(biāo)簽設(shè)計(jì)為可以指定特定的詞性標(biāo)簽或不允許為某個(gè)特定詞性標(biāo)簽。語法同關(guān)鍵詞的設(shè)計(jì)類似,指定特定的標(biāo)簽間用“/”分割;在標(biāo)簽前加“^”符號(hào)表示不允許抽取某個(gè)特定標(biāo)簽。
抽取過程如下:①定位在規(guī)則中關(guān)鍵詞和目標(biāo)詞的所在位置;②定位關(guān)鍵詞在分詞結(jié)果中的位置;③迭代檢查詞性標(biāo)注結(jié)果是否符合規(guī)則;④合并、返回抽取結(jié)果。
設(shè)關(guān)鍵詞在分詞結(jié)果的位置為Pt,在規(guī)則中的位置為Pr,以規(guī)則中包含的元素個(gè)數(shù)N作為迭代次數(shù),用i表示,即i=0,1,2,…,N-1。
詞性標(biāo)注結(jié)果中迭代索引映射為
Index=Pt-Pr+i
(1)
每次迭代都要判斷詞性標(biāo)注結(jié)果是否符合規(guī)則,具體的判斷依據(jù)有:①索引是否位于有效范圍內(nèi);②詞性標(biāo)注結(jié)果是否在規(guī)則內(nèi);③索引是否為特殊情況(例如:索引為關(guān)鍵詞位置時(shí),不要求②成立)。當(dāng)不滿足上述條件時(shí),跳出迭代并返回空字符串。抽取數(shù)據(jù)文本樣式如圖4所示(關(guān)鍵詞以加粗斜體表示)。
部分抽取語句示例如表2所示,在“原語句”列中,關(guān)鍵詞為加粗字體。
1.3.4 基于預(yù)設(shè)詞的抽取規(guī)則設(shè)計(jì)
在馬鈴薯育種文獻(xiàn)中,對(duì)于如抗病性的表述方法比較多樣,使用詞性標(biāo)注的抽取方法不能滿足需求,但需要提取的目標(biāo)詞的表述較為統(tǒng)一。例如“抗晚疫病、PVX、PVY”,單純使用詞性標(biāo)注的方法雖然可以獲得該品種對(duì)晚疫病的抗性結(jié)果,但對(duì)PVX和PVY的抗性難以制定規(guī)則獲得相關(guān)表述;又如“植株抗晚疫病、感輕花葉和重花葉病毒病”和“晚疫病:高抗”兩種表述中,若只根據(jù)第二種表述制定規(guī)則“關(guān)鍵詞(KEYWORD),標(biāo)點(diǎn)符號(hào)(PU),目標(biāo)詞(TARGET)”,則在第一句明顯會(huì)匹配錯(cuò)誤的結(jié)果,對(duì)于此類使用詞性標(biāo)注規(guī)則方法難以提取,且需要提取的目標(biāo)詞表述較為統(tǒng)一的語句,使用基于預(yù)設(shè)詞的抽取方法。
預(yù)設(shè)詞使用鍵值對(duì)保存,鍵用于保存關(guān)鍵詞語句中的匹配詞,值用于保存給用戶輸出結(jié)果的詞。
抽取過程如下:①獲取關(guān)鍵詞、預(yù)設(shè)詞在句中位置;②在語句中所有的預(yù)設(shè)詞里,尋找距離關(guān)鍵詞最近的一個(gè),添加進(jìn)結(jié)果集。
1.3.5 抽取結(jié)果的匯總與清洗
完成通過基于詞性標(biāo)注和基于預(yù)設(shè)詞的兩種抽取方法后,將兩種抽取結(jié)果添加進(jìn)一個(gè)集合中進(jìn)行匯總。通過詞性標(biāo)注的抽取方法可能將不相關(guān)的詞也統(tǒng)計(jì)入抽取結(jié)果,因此需要將匯總后的抽取結(jié)果匹配規(guī)則庫中的違禁詞進(jìn)行篩選,從而得到更加準(zhǔn)確的抽取結(jié)果。
測試集為馬鈴薯育種文獻(xiàn)115篇,文獻(xiàn)為PDF格式,通過人工標(biāo)注抽取項(xiàng)和正確的抽取結(jié)果,針對(duì)每篇文獻(xiàn)內(nèi)容包含的馬鈴薯品種名稱、親本、株型株高、皮色肉色、抗病性等共20個(gè)數(shù)據(jù)項(xiàng)進(jìn)行信息抽取實(shí)驗(yàn)。由于部分文獻(xiàn)中不包含全部抽取項(xiàng),因此抽取項(xiàng)數(shù)目總計(jì)1 490項(xiàng)。由于文獻(xiàn)來自不同的年代,作者對(duì)馬鈴薯性狀描述的側(cè)重點(diǎn)不同,大部分文獻(xiàn)不包含全部的20個(gè)抽取項(xiàng)。測試集文獻(xiàn)的抽取項(xiàng)數(shù)目分布如圖5所示。
圖5 測試集抽取項(xiàng)數(shù)目分布
文本信息抽取總共分為四種情況:TP表示文本中有數(shù)據(jù),并且成功抽取到數(shù)據(jù);FP表示文本中缺失數(shù)據(jù),但抽取到了數(shù)據(jù);TN表示文本中缺失數(shù)據(jù),也沒有抽取到數(shù)據(jù);FN表示文本中有數(shù)據(jù),但沒有抽取到數(shù)據(jù)。以精確率P、召回率R和F作為性能評(píng)價(jià)標(biāo)準(zhǔn),計(jì)算公式[13]為
(2)
(3)
(4)
為了進(jìn)一步驗(yàn)證本文方法的有效性,使用了傳統(tǒng)信息抽取方法作為對(duì)比。作為對(duì)比的基于普通規(guī)則的傳統(tǒng)信息抽取方法與本文基于詞性標(biāo)注和預(yù)設(shè)詞信息抽取方法的文本預(yù)處理、關(guān)鍵詞與規(guī)則庫的處理方式相同,主要區(qū)別在于信息抽取部分。傳統(tǒng)信息抽取方法使用正則表達(dá)式定位關(guān)鍵詞,以某個(gè)指定字符作為邊界,截取關(guān)鍵詞到指定字符范圍之間的內(nèi)容作為抽取結(jié)果。各方法的抽取結(jié)果統(tǒng)計(jì)見表3。
表3 抽取結(jié)果統(tǒng)計(jì)
在普通規(guī)則方法中,抽取成功的比率達(dá)87.38%,能夠有效抽取信息,但其準(zhǔn)確率僅為53.89%,表明該方法提取有近一半不需要的干擾信息。基于詞性標(biāo)注規(guī)則中,抽取成功的。普通規(guī)則的抽取方法使用正則表達(dá)式提取目標(biāo)信息,該方法的局限性在于注重于語句的字?jǐn)?shù)、結(jié)構(gòu)是否合規(guī),缺少對(duì)文本內(nèi)容的判斷,導(dǎo)致提取到過多的無效信息。本文使用的基于詞性標(biāo)注規(guī)則彌補(bǔ)了普通規(guī)則的缺陷,使用詞性標(biāo)注判斷文本內(nèi)容是否有效,達(dá)到去除無效信息的效果。
本文抽取結(jié)果評(píng)價(jià)如圖6所示,由圖6可知,不論是基于詞性標(biāo)注規(guī)則還是基于預(yù)設(shè)詞的抽取方法,召回率接近甚至達(dá)到100%,但準(zhǔn)確率在基于詞性標(biāo)注規(guī)則中為82%,在基于預(yù)設(shè)詞中為84%,本文所使用的基于詞性標(biāo)注規(guī)則的方法能夠有效提取馬鈴薯育種文獻(xiàn)中所需信息,但提取出不需要的結(jié)果的數(shù)量遠(yuǎn)遠(yuǎn)超過提取失敗結(jié)果的數(shù)量。
圖6 信息抽取結(jié)果評(píng)價(jià)
通過分析提取結(jié)果得知,提取失敗的原因主要有以下幾種。
(1)分詞結(jié)果不準(zhǔn)確;在分詞時(shí),有時(shí)會(huì)存在目標(biāo)詞被分詞和不被分詞兩種情況,在制定規(guī)則時(shí)會(huì)針對(duì)兩種情況分別制定,例如,在處理品種名“晉薯1號(hào)”時(shí),會(huì)將其分詞為“晉”“薯”和“1號(hào)”三個(gè)部分;但在處理“威芋3號(hào)”時(shí),會(huì)將其分為“威芋”和“3號(hào)”兩個(gè)部分,導(dǎo)致在規(guī)則的制定和分詞結(jié)果的預(yù)處理上難以進(jìn)行處理從而無法準(zhǔn)確提取品種名。
(2)文獻(xiàn)中涉及的品種不止一個(gè),還涉及對(duì)其親本的描述;在有些文獻(xiàn)中提到其親本信息,例如在“天薯13號(hào)[14]”的描述文獻(xiàn)中,不僅有對(duì)“天薯13號(hào)”的特征描述,還存在對(duì)其母本和父本的株型、高度、淀粉含量和皮色肉色等特征的描述,模型會(huì)將其特征描述全部提取作為結(jié)果,對(duì)正確的結(jié)果造成干擾,因此造成召回率不變,準(zhǔn)確率降低。
(3)部分文獻(xiàn)所屬的期刊在排版中,存在有其他文章的頁面,導(dǎo)致提取到其他文章中的內(nèi)容。
(4)部分年代較為久遠(yuǎn)的育種文獻(xiàn),文檔信息化程度較差,不論是直接提取PDF文檔文字,還是使用OCR對(duì)其內(nèi)容進(jìn)行文字識(shí)別,文字提取效果均不理想,造成文獻(xiàn)信息提取效果較差。
以馬鈴薯育種文獻(xiàn)為對(duì)象,提出一種基于詞性標(biāo)注和規(guī)則庫的信息抽取模型,結(jié)果表明,總體正確率達(dá)82.97%,召回率達(dá)99.73%,F值為90.58%,因?yàn)槌槿〗Y(jié)果需要人工進(jìn)行校對(duì)再輸入進(jìn)育種數(shù)據(jù)庫,所以希望模型在具有較高的準(zhǔn)確率的同時(shí),擁有更高的召回率,從而能減輕人工錄入的工作量,因此本文使用的抽取模型能夠有效提取文獻(xiàn)內(nèi)信息。該模型的重點(diǎn)在于分析分詞與詞性標(biāo)注結(jié)果,因此該抽取模型具有通用性,只需編寫所需規(guī)則庫,就能應(yīng)用到其他領(lǐng)域的抽取任務(wù)。該模型不僅能完成文本內(nèi)容的信息抽取,而且還實(shí)現(xiàn)了文本圖片的文本塊分割,根據(jù)頁面閱讀順序進(jìn)行排序,使用OCR文本識(shí)別提取文字內(nèi)容完成信息抽取。通過分析抽取結(jié)果,得出造成抽取錯(cuò)誤的原因主要有以下幾種。
(1)分詞結(jié)果不準(zhǔn)確。
(2)論文中涉及的品種不止一個(gè),作者也對(duì)其親本品種有所描述,造成抽取結(jié)果中有其他品種的屬性信息。
(3)期刊將其他文章與待抽取文章排版到同一頁面,抽取到其他文章的信息。
(4)提取PDF文件內(nèi)文字與預(yù)期不符等。
未來將實(shí)現(xiàn)通過識(shí)別抽取屬性與主體間的關(guān)系,抽取論文內(nèi)所有主體的屬性信息,提高抽取準(zhǔn)確率的同時(shí),獲得更多品種的種質(zhì)資源數(shù)據(jù);針對(duì)農(nóng)業(yè)領(lǐng)域訓(xùn)練或微調(diào)分詞和詞性標(biāo)注模型,改善語句分詞效果,進(jìn)而提高信息抽取的準(zhǔn)確性。