呂東東,陳俊華,毛典輝※,張青川,趙 敏,郝治昊,4
(1.北京工商大學農產品質量安全追溯技術及應用國家工程實驗室,北京 100048; 2.北京工商大學食品安全大數(shù)據(jù)技術北京重點實驗室,北京100048; 3.中國標準化研究院標準化理論戰(zhàn)略研究所,北京100088; 4.澳門大學智慧城市物聯(lián)網(wǎng)國家重點實驗室,澳門 999078)
農產品安全關系到人民群眾身體健康和生命安全,中國政府出臺了實施農產品安全戰(zhàn)略的綱領性文件《中共中央國務院關于深化改革加強食品安全工作的意見》,指出要加快建立農產品安全領域現(xiàn)代化治理體系,提高從農田到餐桌全過程的監(jiān)管能力,提升農產品全鏈條質量安全保障水平。農產品標準作為衡量農產品安全的尺度與農產品安全監(jiān)管的重要依據(jù),在農產品全鏈條質量安全保障中發(fā)揮著舉足輕重的作用。當前農產品標準及相關詞條過于分散化,往往以信息孤島的形式存在,沒有得到系統(tǒng)性的關聯(lián)與復用,知識圖譜能夠將農產品標準及其各類信息連接形成一個關系網(wǎng)絡,從而為人們提供從“關系”角度分析問題的能力。因此憑借智能語義分析與知識圖譜技術,將海量農產品領域數(shù)據(jù)與知識圖譜關聯(lián),逐步形成基于農產品標準領域知識圖譜的監(jiān)管輔助分析手段十分必要。
農產品領域知識圖譜相關研究工作主要分為作物與制品兩個主題,作物主題主要圍繞科普、病蟲害防治及預測為目標進行知識構建;制品主題主要圍繞農產品制品安全主題新聞、農產品及其制品中的僅限用物質限量、農產品標準的相互引用關系等展開。其最終目標是實現(xiàn)農產品安全領域知識圖譜的本體構建、實體關系抽取以及基于知識圖譜的下游任務農產品安全領域問答系統(tǒng)、推薦系統(tǒng)、社區(qū)網(wǎng)絡挖掘等。當前農產品標準領域知識圖譜構建研究存在標準文件內容繁雜以及內容格式不統(tǒng)一(如國家標準、行業(yè)標準、地方標準等)等問題,從而對圖譜實體關系抽取造成了極大不便。
在實體關系抽取相關研究工作中,限定域關系抽取研究方法主要分為Pipeline方法與聯(lián)合抽取方法,基礎分析模型主要有循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)、長短期記憶網(wǎng)絡(Long Short-Term Memory, LSTM)、源自轉換器的雙向編碼器表征向量(Bidirectional Encoder Representation from Transformers, BERT)以及上述網(wǎng)絡與條件隨機場(Conditional Random Field, CRF)的組合等。Pipeline方法是將實體關系抽取分解為命名實體識別與關系分類任務;而聯(lián)合抽取方法主要是考慮命名實體識別與關系分類之間的約束,如CASREL模型,其先識別語料中的主語,然后共享主語信息同時識別對應的客體及關系。在開放式關系抽取領域,國外已經(jīng)發(fā)展出了諸如ReVerb、RnnOIE等系列高性能模型,而國內發(fā)展相對緩慢,文獻[30]通過分析語義進而提出ZORE開放關系抽取模型,其通過雙重傳播算法迭代地識別語義關系模式,文獻[31]基于依存句法分析提出了一套通用的關系抽取范式DSNFs。上述的開放域關系抽取模型在公共數(shù)據(jù)上均表現(xiàn)良好,但在領域數(shù)據(jù)上表現(xiàn)差強人意,主要原因是領域數(shù)據(jù)有較強的領域特性,詞法句法均與公共數(shù)據(jù)存在較大差異。若要在領域數(shù)據(jù)上取得好的效果,傳統(tǒng)基于深度模型的限定域關系抽取方案需要重新引入大量領域標注語料進行訓練;而基于依存句法分析的開放關系抽取方案只需標注少量的初始化種子或定義少量抽取模板,并具有較強的遷移能力,對領域數(shù)據(jù)處理更為適用。
因此,本研究針對現(xiàn)有農產品標準文件難以關聯(lián)復用及知識圖譜構建過程面臨的文件格式不統(tǒng)一、信息抽取困難等問題,依據(jù)標準化文件的起草規(guī)范對文件內容進行了本體規(guī)范化,并為半結構化數(shù)據(jù)設計了正則包裝器,為非結構化文本提出了一個基于依存句法分析的農產品領域開放關系抽取模型(Open Relation Extraction Model In Agricultural Products Field, OREM-AF),實現(xiàn)了領域知識自動抽取。依托抽取數(shù)據(jù)構建了農產品標準領域知識圖譜,并在知識圖譜的相互關聯(lián)網(wǎng)絡上進行了社區(qū)挖掘,獲得的標準文件間的關聯(lián)知識能夠為農產品安全監(jiān)管提供輔助分析支撐。
農產品標準領域數(shù)據(jù)主要由農產品標準文件與百科數(shù)據(jù)兩部分構成。其中標準文件來源于食品標準伙伴網(wǎng)(http://down.foodmate.net/standard/)與中國食品安全標準網(wǎng)(http://www.cnspbzw.com/);百科數(shù)據(jù)來源于百度百科相關農產品介紹頁;模型訓練的公共語料源自影評及新聞,公共數(shù)據(jù)用于測試模型的泛化能力。具體數(shù)據(jù)構成見表1所示。
表1 數(shù)據(jù)構成表 Table 1 Table of data components
本體規(guī)則構建是知識圖譜實體關系抽取的核心工作之一。在農產品科普內容中,公眾較為關注的信息有:農產品的科、屬、別稱、分布地區(qū)及相應的功能效果。在農產品標準文件中,大家較為關注的信息有:1)規(guī)范性引用信息:大部分標準文件的描述信息中會引用其他標準文件,以GB/T 29370-2012(檸檬)為例,其衛(wèi)生指標描述為“按GB 2762、GB 2763規(guī)定執(zhí)行”,這些規(guī)范性引用標準是形成標準圖譜網(wǎng)絡結構的基石;2)適用范圍信息:該部分能直觀給出具體的適用品類或相關操作。以國家標準GB 9827-1988(香蕉)為例,其適用范圍描述為“本標準適用于香蕉果品的條蕉、梳蕉的收購質量規(guī)格”,可知該標準文件不僅適用于條蕉的收購質量規(guī)格,也適用于梳蕉的收購質量規(guī)格;3)標準基礎屬性信息:該部分包含標準文件名稱、發(fā)布時間、實施時間、主要起草人、起草單位、歸口單位等信息。
本文結合標準化文件的起草規(guī)范將農產品標準及相關百科詞條關系模式分為16類,具體類別如表2所示(以金桔相關詞條及其相關的推薦性國家標準GB/T 33470-2016部分信息為例)。
表2 農產品標準本體關系規(guī)則 Table 2 Agricultural product standard ontology relation rules
在表2中,實體關系為Standard name、Standard type、Release date、Implementation date、Main drafter、Proposed unit、Drafting unit、Technical unit的屬性關系以及實體關系為Reference standard的相互引用關系內容主要以半結構化數(shù)據(jù)形式存在于標準文件首頁及文件頭部,如圖1所示。
圖1 農產品標準半結構化數(shù)據(jù) Fig.1 Semi-structured data of agricultural products standard
本文依據(jù)標準化文件的起草規(guī)范,通過構建正則包裝器來抽取半結構化數(shù)據(jù)實體關系。以標準GB/T 5835-2009(干制紅棗)為例,其中有“本標準由中華全國供銷合作總社提出。本標準由中華全國供銷合作總社濟南果品研究院歸口”。依據(jù)該表述格式制作正則表達式可從中抽取出兩個三元組:(GB/T 5835-2009,提出部門,中華全國供銷合作總社)、(GB/T 5835-2009,歸口部門,中華全國供銷合作總社濟南果品研究院)。
在表2中,實體關系為Family、Genus、Another name、Distribution area、Efficacy、Relevant standard、Scope of application的內容主要以標準文件及百科信息中的非結構化文本形式呈現(xiàn),這類文本與關系抽取領域常見的語料相比,具有主體單一、客體分布密集以及客體存在多并列關系特征。針對此類特征,本文提出了一個基于依存句法分析(Language Technology Platform,LTP)的農產品領域開放關系抽取模型(OREM-AF)實現(xiàn)非結 構化文本實體關系抽取。依存句法分析的作用是識別出句子中的短語結構以及短語之間的層次句法關系,具體的關系種類見表3所示。其工作流程首先將語料進行分詞,接著對詞匯進行詞性標記,最后將詞匯及詞性送入LTP中得到語料的依存句法結構,以標準GB/T 9827-1988(香蕉)為例,其中有“本標準適用于香蕉果品的條蕉、梳蕉的收購質量規(guī)格”,該語句經(jīng)依存句法分析后如圖2所示。
表3 依存句法關系表 Table 3 Dependency syntactic relation table
圖2 依存句法分析示例 Fig.2 Example of dependent syntactic analysis
進行非結構化文本實體關系抽取時,本文需要結合該領域語料特征、語料依存句法分析結構樹并依據(jù)表2中的本體關系規(guī)則進行三元組標注,具體的標注方式如下:1)由專業(yè)人員依據(jù)本體關系規(guī)則標注出語料中存在的三元組;2)通過LTP工具解析語料的依存句法分析結構樹,根據(jù)步驟1)中標注的三元組及結構樹標注出不含ATT定中關系的偽三元組;3)將三元組與偽三元組以(關系,偽賓語,賓語,偽主語,主語)五元組的形式合并。以圖2為例,根據(jù)上述步驟最終標注的五元組為(適用,規(guī)格,香蕉果品的條蕉的收購質量規(guī)格,標準,本標準)。為保障試驗效果,本文從表1的公共語料中隨機選取1 300條制作公共數(shù)據(jù)集;從標準語料與百科語料中隨機選取1 300條制作農產品數(shù)據(jù)集;并將兩類數(shù)據(jù)集分別以10:3的比例劃分成訓練集與測試集,數(shù)據(jù)集示例如圖3所示。
圖3 農產品非結構化數(shù)據(jù)集 Fig.3 Unstructured data set of agricultural products
OREM-AF農產品領域開放關系抽取模型的基本思想是從領域標注語料中學習實體與關系之間的依存樹結構,判斷兩者根節(jié)點關系的一致性或同級性來生成實體關系抽取依存范式,通過依存分析與實體關系抽取依存范式集匹配,實現(xiàn)農產品相關語料實體關系三元組自動抽取。模型的總體框架如圖4所示,包含數(shù)據(jù)預處理、實體關系依存范式學習、三元組抽取3個階段。
圖4 OREM-AF模型框架 Fig.4 Framework of OREM-AF model
1)數(shù)據(jù)預處理
數(shù)據(jù)預處理階段將文本語料解析為依存句法樹(如圖2所示),為了提高分詞的準確率,本文從食品標準伙伴網(wǎng)、中國植物主題數(shù)據(jù)庫等網(wǎng)站爬取了科、屬、品種及僅限用物質等專有名詞46 157個以提高模型的準確率與召回率。
2)實體關系依存范式學習
實體關系依存范式學習階段是從依存樹結構(Dependency Tree, DT)中學習標注的五元組中偽實體對(偽主語,偽賓語)之間的依存關系結構。學習算法步驟為:首先通過依存樹結構DT,找出該文本中以“HED”為首,并與其保持“COO”關系的所有詞匯,構成該文本的核心詞匯鏈;通過偽主語逆向找出與其相關的依存樹結構DT_1;通過偽賓語逆向找出與其相關的依存樹結構DT_2;判斷DT_1與DT_2的根節(jié)點是否一致或是否為“COO”結構,若是則將二者的關系樹按文本的原生樹結構進行填充合并,并將原核心詞匯替換成“關系”,生成三元組(偽主語,關系,偽賓語)。
以圖2為例,核心詞匯鏈僅有一個成員“適用”,其偽主語與偽賓語分別為“標準”、“規(guī)格”。通過查找“標準”與“適用”之間的依存樹結構DT_1,可以確定“標準”與“適用”之間僅有“SBV”一層主謂結構直接關系;通過查找“規(guī)格”與“適用”之間的依存樹結構DT_2,可以確定“規(guī)格”與“適用”之間有“CMP”動補結構與“POB”介賓結構兩層關系,DT_1與DT_2依存樹根節(jié)點同為“適用”,因此可以依據(jù)原生依存樹結構,生成屬于該核心詞匯的依存范式表達式,見表4中的DSP3關系抽取范式。
將公共數(shù)據(jù)集與農產品數(shù)據(jù)集的訓練集分別輸入模型后,得到兩類數(shù)據(jù)中排名前11的高頻實體關系抽取范式如表4所示。其中編號DSP0用于處理偏正結構,也可與其他依存范式配合使用;DSP2處理主謂賓結構;DSP3~DSP6處理動補結構、狀中結構以及介賓結構等復雜句式;DSP7~DSP10是在以上結構的基礎上處理實體及關系之間的并列結構;DSP1情況特殊,并不能從依存范式學習算法中直接獲取,但其在子依存樹解析階段出現(xiàn)的概率僅次于DSP0,因此我們手工編輯了該模板,主要用于處理賓語缺失情況,用以生成實體關系二元組。
3)三元組抽取
在得到實體關系抽取范式集之后,可進行三元組抽取。具體步驟如下:將測試語料用LTP工具進行依存句法解析;獲取該語料的核心詞匯鏈;獲取以核心詞為根的依存樹并與實體關系抽取范式集匹配得到偽三元組;偽三元組信息可能存在語義放大等情況,因此要對偽主語、偽賓語進行“ATT”定中結構語義補全,并檢查“COO”并列結構進行同級替換。
仍以圖2為例,該語料核心詞匯鏈中僅有“適用”一詞,以“適用”為核心的子依存樹與表4中的DSP3相吻合,可得到粗略的三元組(標準,適用于,規(guī)格),然后進行主語、賓語語義補全得到三元組(本標準,適用于,香蕉果品的條蕉、梳蕉的收購質量規(guī)格),由于該賓語內部存在“條蕉”、“梳蕉”并列結構,因此可以拆分得到兩個三元組:(本標準,適用于,香蕉果品的條蕉的收購質量規(guī)格)、(本標準,適用于,香蕉果品的梳蕉的收購質量規(guī)格)。
表4 高頻實體關系依存范式集 Table 4 High frequency entity relationship dependency paradigm set
模型評測采用準確率(Precision,)、召回率(Recall,)、1值(1-score,1)作為評價指標。
式中CEQ (Correct Extraction Quantity of machine)為機器抽取結果中正確的數(shù)量;MEQ(Machine Extraction Quantity)為機器抽取的總數(shù)量;MLQ(Manual Labeling Quantity)為人工標注的數(shù)量。
半結構化標準數(shù)據(jù)采用依據(jù)本體模式構建的正則包裝器進行抽取。評估方案是從640份標準文件中隨機選取100份對2.1節(jié)中所述的屬性三元組及引用三元組分別進行自動抽取,抽取結果如表5所示。
表5 半結構化數(shù)據(jù)關系抽取結果 Table 5 Relation extraction result of semi-structured standard data
其中用于基礎屬性三元組抽取的100份標準文件,人工標注共有1 736條,通過機器自動抽取得到1 659條,機器抽取的正確率為99.81%,召回率在95%以上;用于相互引用關系三元組抽取的100份標準文件,人工標注共有845條,通過機器自動抽取得到841條,準確率、召回率、1值均在99%以上。通過以上數(shù)據(jù)表明,基于正則表達式的包裝器抽取方案適用于標準文件半結構化數(shù)據(jù)抽取,且擁有較高的準確率。
1)OREM-AF模型抽取結果質量評估
非結構化文本語料采用本文的OREM-AF模型進行抽取,該類語料主要涉及2.2節(jié)中所述的實體關系,將農產品標準文本以及百科農產品詞條輸入模型后,抽取結果見表6所示。
表6 非結構化文本語料關系抽取結果 Table 6 Relationship extraction results of unstructured text
從表6可知,標準語料的抽取結果準確率達到了78.79%,召回率達到了80.10%;百科語料的準確率達到了76.09%,召回率達到了71.95%;總體均在70%以上,能夠保證三元組的抽取質量。
2)OREM-AF模型抽取性能對比
為了驗證OREM-AF模型的有效性與普適性,本文設計了兩組對比試驗,將OREM-AF模型與開放域關系抽取模型ZORE、DSNFs在公共數(shù)據(jù)集與農產品數(shù)據(jù)集上進行了對比試驗,試驗結果如表7所示。
表7 開放關系抽取模型性能對比 Table 7 Performance comparison of open relational extraction models
從表7可以看出在公共數(shù)據(jù)集上,OREM-AF模型的各項數(shù)據(jù)表現(xiàn)略好于DSNFs模型;在農產品數(shù)據(jù)集上,OREM-AF模型的準確率略高于DSNFs模型,但召回率高出較多,主要原因有兩個:公共數(shù)據(jù)集中賓語主體句有大量的同級替換,本文的OREM-AF模型首先能夠學習到該類替換模式,并且針對主語賓語制定了深度的同級替換優(yōu)化策略;DSNFs模型需要先進行命名實體識別,在農產品數(shù)據(jù)集上效果較差,且識別完成后依靠距離構建實體對,有較高的不確定性,因此其召回率表現(xiàn)較差。ZORE模型總體表現(xiàn)較差可能是因為其自動學習模式策略有較大的不確定性,而DSNFs模型是高度濃縮語義范式的總結,本文的OREM-AF模型相比DSNFs模型具有主動學習、深度語義補全、同級替換等優(yōu)點,從而表現(xiàn)更好。
由所有農產品標準文件及相關百科詞條構成的半結構化及非結構化數(shù)據(jù),經(jīng)本文提出的正則包裝器以及OREM-AF模型抽取并加以清洗與屬性矯正共得到19 704條三元組。
三元組知識條目能夠較好的表示農產品相關信息,Neo4j數(shù)據(jù)庫可以將三元組這類結構化數(shù)據(jù)以圖的形式存儲,從而更加直觀的反映農產品標準文件信息之間的關聯(lián)。因此我們將抽取到的三元組中的實體儲存為Neo4j中的節(jié)點,將三元組中的關系儲存為Neo4j中的邊,以形成農產品標準領域知識圖譜。當食品安全監(jiān)管過程需要分析“蘋果”相關標準時,通過該圖譜可以將所有的蘋果相關標準展示出來提供給專家作為參考選擇,如圖5a所示,這樣可以減少大量的人工網(wǎng)絡搜索時間等成本;當監(jiān)管需要獲取“鮮蘋果”標準的相關內容或需要獲取“鮮蘋果”與“蘋果等級規(guī)格”兩份標準之間的聯(lián)系時,農產品標準領域知識圖譜也能以此為條件,快速的獲取相關內容如圖5b、5c所示,從而為農產品全鏈條監(jiān)管提供輔助分析手段。
圖5 農產品標準領域知識圖譜檢索結果示例 Fig.5 Example of search results of agricultural product standard domain knowledge graph
在關系抽取階段,筆者從農產品標準文件中抽取出了部分農產品標準的相互引用關系,這些相互引用關系使得標準文件之間形成了一個相互引用的關聯(lián)網(wǎng)絡,經(jīng)過處理后該網(wǎng)絡有標準節(jié)點1 190個,形成的關系有2 665條。下面本文對該關聯(lián)網(wǎng)絡節(jié)點進行了編碼處理,并使用Leiden算法結合網(wǎng)絡節(jié)點的度試圖找出一些關聯(lián)標準的公共性與一致性。
Leiden算法可以視為Louvain算法的改進版,是專門為解決社區(qū)聯(lián)系不緊密而設計的,也就是能夠保證所有社區(qū)聯(lián)通。其相對于Louvain算法加入了加速節(jié)點局部移動的思想、將節(jié)點移動到隨機鄰居的思想以及分區(qū)細化與基于細化分區(qū)的網(wǎng)絡聚合思想。該算法在初始狀態(tài)時將每個節(jié)點視為單一分區(qū),然后將遵從以下幾個步驟:1)節(jié)點依據(jù)相對增益向與其相連接的社區(qū)移動并確定一個相對合理的分區(qū);2)在分區(qū)內通過查看是否有斷連進行細化分區(qū),基于細化分區(qū)創(chuàng)建聚合網(wǎng)絡,并使用非細化分區(qū)為聚合網(wǎng)絡創(chuàng)建初始分區(qū);3)移動聚合后分區(qū)的節(jié)點并進行細化,直到細化不會改變當前分區(qū)。重復上述步驟,直到?jīng)]有進一步的改進,具體的算法流程如圖6所示。
圖6 Leiden算法流程圖 Fig.6 Flow chart of Leiden’s algorithm
其中,相對增益本文使用的是基于模塊度的相對增益,所用到的質量函數(shù)如下式所示:
式中表示圖中的任意兩個節(jié)點,A代表節(jié)點與節(jié)點之間邊的權重,k代表所有與節(jié)點相連的出度邊的和,k代表所有與節(jié)點相連的入度邊的和,是所有邊的權重之和。(,)代表若節(jié)點與節(jié)點同屬一個分區(qū)那么返回1,否則返回0。
在算法步驟中將單個節(jié)點從一個社區(qū)移動到另一個社區(qū)依托的是基于模塊度的相對增益,表示為
式中(→)表示當前從一個分區(qū)開始,然后將節(jié)點移動到社區(qū)的所獲得的分區(qū),因此相對增益就等于將節(jié)點移動后的分區(qū)質量((→))減去移動之前的分區(qū)質量()。
通過上述算法最終將農產品標準規(guī)范性引用網(wǎng)絡劃分為了41個社區(qū),將不同的社區(qū)用不同的顏色標記,其中社區(qū)節(jié)點數(shù)小于30的統(tǒng)一用灰色表示;結合節(jié)點的出度將節(jié)點的大小以及標簽的大小與出度的大小成比例放大,最終得到的可視化網(wǎng)絡如圖7所示。
從圖7中,可以發(fā)現(xiàn)GB/T 8855-2008(新鮮水果和蔬菜 取樣方法)在該領域的權威性、普適性極高,這也驗證了試驗所用的標準文件均是農產品中果蔬領域的相關標準文件。黃色區(qū)域內較為凸顯的是GB 2762-2017(食品安全國家標準 食品中污染物限量)、GB 2763-2021(食品安全國家標準 食品中農藥最大殘留限量),其同屬一個社區(qū)且同屬于食品國家安全標準,從圖中也能看出這兩份標準在食品安全標準領域的通用性強,表明了農產品領域高度重視農產品中的農藥及污染物殘留量。藍色區(qū)域內較為凸顯的是GB 5009系列食品衛(wèi)生檢驗方法理化標準,引用度較高的前四項分別是GB 5009.17-2014(食品中總汞及有機汞的測定)、GB 5009.12-2017(食品中總鉛的測定)、GB 5009.11-2014(食品中總砷及無機砷的測定)、GB 5009.20-2003(食品中有機磷農藥殘留量的測定)。紅色區(qū)域內較為凸顯的是GB 14881-2013(食品安全國家標準 食品生產通用規(guī)范),且引用該標準的多為地方性標準,也能看出地方標準的編寫更加注重農產品相關制品生產過程中原材料的采購、加工、包裝、儲存等準則。該結果不僅對農產品標準的社區(qū)網(wǎng)絡分布研究有良好的指導意義,而且在實際農產品標準制定過程中,可以依據(jù)相關標準的引用網(wǎng)絡及其所在社區(qū)、被引用標準所在社區(qū)等信息,找出類似標準的共性、差異性進而指導標準文件編寫。
圖7 社區(qū)網(wǎng)絡劃分結果 Fig.7 Results of community network division
1)該研究針對難以共享、復用的農產品標準文件半結構化數(shù)據(jù),依據(jù)本體工程設計了一個可自動化抽取三元組的正則包裝器,該包裝器抽取評估各項指標達95%以上,能夠進行標準文件的大規(guī)模信息抽取工作。
2)針對農產品標準文本及相關詞條非結構化數(shù)據(jù),提出了一種基于依存句法分析的農產品領域開放關系抽取模型(Open Relation Extraction Model In Agricultural Products Field , OREM-AF),該模型能夠依據(jù)少量的領域樣本學習領域內通用的句法結構,進而實現(xiàn)領域非結構化知識的快速自動抽取,試驗結果表明在農產品領域數(shù)據(jù)集上1值達75.12%,該模型同時具有較強的遷移能力,在以影評、新聞為主導的公共數(shù)據(jù)集上1值達75.43%。
3)將抽取的三元組利用neo4j圖數(shù)據(jù)庫形成的農產品標準領域知識圖譜能夠清晰快速的捕捉當前需要檢索的內容聯(lián)系,并在圖譜中的標準相互引用關系關聯(lián)網(wǎng)絡上利用Leiden社區(qū)發(fā)現(xiàn)算法進行了社區(qū)挖掘,從中發(fā)現(xiàn)了一些標準文件公共性、一致性與其實際作用范圍之間的聯(lián)系,對農產品的生產銷售監(jiān)管具有一定的指導作用。
當前工作仍存在很多改進空間,未來將會在國內外相關農產品標準圖譜的跨模態(tài)融合,大規(guī)模數(shù)據(jù)實體關系抽取等方面進行改進。