柴苗嶺,鄒弈星,譚榮志,曾 怡,任運月
(1.中國科學(xué)院成都文獻情報中心,成都 610041;2.中國科學(xué)院大學(xué)經(jīng)濟與管理學(xué)院,北京 100190;3.中國科學(xué)院山地災(zāi)害與地表過程重點實驗室,成都 610041;4.四川省農(nóng)村科技發(fā)展中心,成都 610042;5.香港城市大學(xué)商學(xué)院,香港 999077;6.四川大學(xué)公共管理學(xué)院,成都 610065)
隨著大數(shù)據(jù)相關(guān)理論、技術(shù)和機制的逐步發(fā)展,各行各業(yè)越來越重視在管理決策中引入多源異構(gòu)數(shù)據(jù)進行融合分析,進而提供大數(shù)據(jù)驅(qū)動下的決策咨詢。從科技管理實踐、科技管理與圖書情報學(xué)科交叉角度來看,實現(xiàn)這一目標(biāo)還需要在知識服務(wù)能力上下足功夫。其中產(chǎn)業(yè)服務(wù)是科技管理的重要職能之一,全產(chǎn)業(yè)要素下的數(shù)據(jù)挖掘及利用,有利于制定產(chǎn)業(yè)技術(shù)創(chuàng)新戰(zhàn)略、規(guī)劃。而科學(xué)數(shù)據(jù)和科技文獻關(guān)聯(lián)研究能夠挖掘科學(xué)數(shù)據(jù)之間、科學(xué)數(shù)據(jù)和科技文獻之間的深層次關(guān)系,有助于產(chǎn)業(yè)全域數(shù)據(jù)的整合和挖掘。
農(nóng)業(yè)科技管理部門看到了這些問題,也建立了科學(xué)數(shù)據(jù)平臺支撐管理。以四川省農(nóng)業(yè)科學(xué)數(shù)據(jù)建設(shè)情況為例,作為農(nóng)業(yè)大省和科技資源大省,四川省相關(guān)政府機構(gòu)、科研機構(gòu)支持建設(shè)了大量的數(shù)據(jù)和資源平臺,為農(nóng)業(yè)科技管理提供了良好的基礎(chǔ),如“四川省科技成果轉(zhuǎn)化信息服務(wù)平臺” “四川育種攻關(guān)數(shù)據(jù)共享平臺” “農(nóng)業(yè)病蟲害多媒體數(shù)據(jù)庫” 等。但仍然存在數(shù)據(jù)量不足、數(shù)據(jù)孤島、數(shù)據(jù)挖掘不夠的現(xiàn)象。具體表現(xiàn)在3 個方面:一是知識服務(wù)導(dǎo)向不明確;二是數(shù)據(jù)共享性較差;三是缺少科技文獻。
面向上述問題,本文以現(xiàn)有科技管理中的產(chǎn)業(yè)服務(wù)特征為出發(fā)點,提出了基于農(nóng)業(yè)產(chǎn)業(yè)服務(wù)的知識服務(wù)模型,就 “產(chǎn)業(yè)服務(wù)” 和“數(shù)據(jù)關(guān)聯(lián)” 兩個關(guān)鍵問題構(gòu)建了模型和平臺,并用四川省農(nóng)業(yè)科學(xué)數(shù)據(jù)和科技文獻為核心數(shù)據(jù)集進行了建設(shè)實踐。本研究為農(nóng)業(yè)產(chǎn)業(yè)知識服務(wù)中的科學(xué)數(shù)據(jù)和科技文獻關(guān)聯(lián)提供了案例,為進一步開展全產(chǎn)業(yè)鏈下的農(nóng)業(yè)知識服務(wù)做了基礎(chǔ)性研究。
知識服務(wù)最早由任俊為引入圖書情報行業(yè)[1],張曉林進一步揭示了知識服務(wù)概念的本質(zhì),認為知識服務(wù)要有效支持知識應(yīng)用和知識創(chuàng)新的服務(wù)[2]。隨著研究的深入,李霞等[3]提出將知識服務(wù)的模式分為專職顧問服務(wù)模式、參考咨詢服務(wù)模式和自助服務(wù)模式3 種。此外,柯平[4]將圖書館轉(zhuǎn)型發(fā)展的行業(yè)環(huán)境劃分為信息服務(wù)時代、前知識服務(wù)時代和后知識服務(wù)時代。行業(yè)環(huán)境的變化對數(shù)據(jù)價值挖掘和知識服務(wù)提出更高的要求。農(nóng)業(yè)科學(xué)數(shù)據(jù)的價值在農(nóng)業(yè)科技管理過程中不斷凸顯,涌現(xiàn)出各類農(nóng)業(yè)知識服務(wù)模式。劉健宏等[5]將大數(shù)據(jù)背景下農(nóng)業(yè)分學(xué)科知識服務(wù)模式歸納為“學(xué)科館員+團隊首席+研究團隊” 模式、“微信+信息平臺” 模式和“知識社區(qū)+專題信息” 3 類。王丹陽[6]從農(nóng)業(yè)知識服務(wù)平臺建設(shè)實踐出發(fā),將知識服務(wù)劃分為政策導(dǎo)向、產(chǎn)品導(dǎo)向、技術(shù)導(dǎo)向、市場導(dǎo)向和流量導(dǎo)向。
2.2.1 科學(xué)數(shù)據(jù)研究現(xiàn)狀
科學(xué)數(shù)據(jù)的研究最早可追溯到1960 年美國成立國家大氣研究中心,開展地球科學(xué)數(shù)據(jù)的建模、收藏和保存工作[7]。國外的農(nóng)業(yè)領(lǐng)域,美國建立了較為全面的農(nóng)業(yè)科學(xué)數(shù)據(jù)資源系統(tǒng)和農(nóng)業(yè)計算機網(wǎng)絡(luò)系統(tǒng),歐盟、德國等國家亦致力于科學(xué)數(shù)據(jù)開放共享[8]。研究內(nèi)容上,側(cè)重元數(shù)據(jù)體系結(jié)構(gòu)的建立[9]、基于物聯(lián)網(wǎng)開發(fā)數(shù)據(jù)平臺[10]、利用商業(yè)智能集成農(nóng)業(yè)數(shù)據(jù)[11]、開放信息系統(tǒng)模型框架和農(nóng)業(yè)資源平臺關(guān)鍵的硬件、軟件技術(shù)[12]研究等。此外,數(shù)據(jù)管理層面的數(shù)據(jù)管理人員及合作[13]研究、數(shù)據(jù)互操作[14]、跨學(xué)科數(shù)據(jù)管理[13]及數(shù)據(jù)開放安全性和隱私問題[15]也受到國外學(xué)者關(guān)注。
國內(nèi)的科學(xué)數(shù)據(jù)研究可追溯到2001 年國家科學(xué)數(shù)據(jù)共享工程啟動氣象科學(xué)數(shù)據(jù)試點,它先后帶動了資源環(huán)境、農(nóng)業(yè)、人口與健康、基礎(chǔ)與前沿等領(lǐng)域科學(xué)數(shù)據(jù)建設(shè)與共享[16]。國內(nèi)研究總體而言涵蓋了資源整合[17]、數(shù)據(jù)存儲[18]、數(shù)據(jù)監(jiān)管[19]、數(shù)據(jù)匯交與管理[20]、數(shù)據(jù)開放與出版[21]、數(shù)據(jù)重用[22]等環(huán)節(jié),核心是農(nóng)業(yè)數(shù)據(jù)資源整合和使用。
2.2.2 科學(xué)數(shù)據(jù)與科技文獻關(guān)聯(lián)方法現(xiàn)狀
《科學(xué)數(shù)據(jù)管理辦法》將科學(xué)數(shù)據(jù)劃分為科學(xué)研究活動、基礎(chǔ)研究、應(yīng)用研究和試驗活動的數(shù)據(jù)[23]。研究采用該分類,對科學(xué)數(shù)據(jù)的定義、產(chǎn)出和保存機構(gòu)、數(shù)據(jù)載體進行調(diào)研和分析,認為相關(guān)機構(gòu)主要有科研院所和大學(xué)(包括中心、實驗室、觀測站等),圖書情報機構(gòu)、政府管理部門和企業(yè),科學(xué)數(shù)據(jù)載體主要有數(shù)據(jù)集、數(shù)據(jù)庫、期刊、專著、專利、報告、政策法規(guī)等。需要指出的是,從載體的角度來看,科技文獻也是科學(xué)數(shù)據(jù)的一種。
數(shù)據(jù)關(guān)聯(lián)方面,TONY 等[24]提出了數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn),構(gòu)建了科學(xué)數(shù)據(jù)和科技文獻關(guān)聯(lián)的使用場景,認為科學(xué)數(shù)據(jù)關(guān)聯(lián)能夠提高科學(xué)的“信息速率”,促進科研人員的科學(xué)生產(chǎn)力。本文從關(guān)聯(lián)技術(shù)角度進行分析,將關(guān)聯(lián)方法劃分為以下4 類。
(1) 元數(shù)據(jù)關(guān)聯(lián)。是基于科學(xué)數(shù)據(jù)和科技文獻數(shù)據(jù)的外部和內(nèi)部特征描述,尋找兩類數(shù)據(jù)的關(guān)聯(lián)節(jié)點,形成物理關(guān)聯(lián)。如黃筱瑾[25]從元數(shù)據(jù)描述元素出發(fā),總結(jié)了科學(xué)數(shù)據(jù)和科技文獻的作者關(guān)聯(lián)、學(xué)科分類號關(guān)聯(lián)、關(guān)鍵詞關(guān)聯(lián)模式。
(2) 語義關(guān)聯(lián)。是從語義層面發(fā)現(xiàn)實體、找出關(guān)聯(lián)關(guān)系,增強數(shù)據(jù)共性的方法。如鮮國建[26]從科學(xué)數(shù)據(jù)語義關(guān)聯(lián)的方法和技術(shù)出發(fā)構(gòu)建了農(nóng)業(yè)科技多維語義關(guān)聯(lián)模型和關(guān)聯(lián)數(shù)據(jù)驅(qū)動的領(lǐng)域知識服務(wù)系統(tǒng)。
(3) 算法關(guān)聯(lián)。是通過數(shù)學(xué)公式,判斷數(shù)據(jù)間的相關(guān)關(guān)系及其距離的方法。如李帆[27]選取FP-Growth 算法進行屬性間趨勢關(guān)聯(lián)性挖掘,從列車監(jiān)測數(shù)據(jù)出發(fā)通過部件間的狀態(tài)關(guān)聯(lián)性發(fā)現(xiàn)其他部件可能存在的問題。
(4) 引用關(guān)聯(lián)。引用關(guān)聯(lián)即利用科技文獻和科學(xué)數(shù)據(jù)的引用關(guān)系,構(gòu)建引文網(wǎng)絡(luò)[28]。是一種直接、基本的數(shù)據(jù)關(guān)聯(lián)方式。如丁文姚等[29]結(jié)合國家標(biāo)準(zhǔn)《信息技術(shù)科學(xué)數(shù)據(jù)引用》的引用元素并應(yīng)用統(tǒng)計學(xué)方法描述其科學(xué)數(shù)據(jù)引用特征,揭示了特征間的關(guān)聯(lián)關(guān)系。
農(nóng)業(yè)科學(xué)數(shù)據(jù)作為戰(zhàn)略性、基礎(chǔ)性的科技資源,其有效研究和利用將有助于農(nóng)業(yè)產(chǎn)業(yè)視角下的全數(shù)據(jù)融合[30]。農(nóng)業(yè)產(chǎn)業(yè)知識服務(wù)需求貫穿于全產(chǎn)業(yè)鏈服務(wù),可以判斷出服務(wù)主體對科學(xué)數(shù)據(jù)的需求將涵蓋多源、多類型、非結(jié)構(gòu)化的數(shù)據(jù)。本體作為基于語義的知識組織方法已經(jīng)被廣泛地研究與應(yīng)用,本研究在產(chǎn)業(yè)管理特征上采用本體方法關(guān)聯(lián)語義有一定的研究意義和復(fù)用價值。
數(shù)據(jù)關(guān)聯(lián)關(guān)鍵環(huán)節(jié)之一是對數(shù)據(jù)源的遴選及數(shù)據(jù)分析,尋找關(guān)聯(lián)點。
研究以四川農(nóng)業(yè)科學(xué)數(shù)據(jù)為基礎(chǔ),構(gòu)建核心數(shù)據(jù)集,遴選導(dǎo)向是科學(xué)數(shù)據(jù)和文獻數(shù)據(jù)、數(shù)值數(shù)據(jù)和文本數(shù)據(jù)、中文數(shù)據(jù)和英文數(shù)據(jù)。研究數(shù)據(jù)選擇了農(nóng)業(yè)科研管理機構(gòu)、圖書情報機構(gòu)、科學(xué)研究機構(gòu)/科學(xué)數(shù)據(jù)共享平臺的數(shù)據(jù),遴選了16 類科技管理中常用數(shù)據(jù)和4 類科技文獻數(shù)據(jù),然后對這20 種數(shù)據(jù)的元數(shù)據(jù)進行分析,發(fā)現(xiàn)關(guān)聯(lián)特征(表1、表2)。
從表1 和表2 可見,元數(shù)據(jù)內(nèi)可以概括為描述客觀存在的外部特征和表達內(nèi)容的內(nèi)部特征。由于數(shù)據(jù)類型多、結(jié)構(gòu)不同,通用的外部和內(nèi)部特征較少,數(shù)據(jù)之間的相似性不強,如果要進行數(shù)據(jù)關(guān)聯(lián),需要補充科學(xué)數(shù)據(jù)和科技文獻的共性特征,如數(shù)據(jù)的領(lǐng)域分類、產(chǎn)業(yè)環(huán)節(jié)分布、地理位置描述、語種描述等。
表1 農(nóng)業(yè)科學(xué)數(shù)據(jù)元數(shù)據(jù)結(jié)構(gòu)表Table 1 Metadata schema of agricultural science data
表2 科技文獻元數(shù)據(jù)結(jié)構(gòu)表Table 2 Metadata schema of scientific and technological literature
3.2.1 知識服務(wù)特征
(1) 數(shù)據(jù)使用受國家政策指導(dǎo)。管理部門在數(shù)據(jù)的使用上,側(cè)重統(tǒng)計數(shù)據(jù)、成果轉(zhuǎn)化、人才數(shù)據(jù)的使用,具有產(chǎn)業(yè)化管理特征。這一特征由管理部門的性質(zhì)決定,具體表現(xiàn)是使用宏觀、中觀數(shù)據(jù)的帶有統(tǒng)計意義的數(shù)據(jù),重視成果轉(zhuǎn)化及人才,并且對科學(xué)研究內(nèi)容、細節(jié)等不做追求。相關(guān)數(shù)據(jù)類型有政策法規(guī)數(shù)據(jù)、科技項目數(shù)據(jù)、獲獎成果數(shù)據(jù)、專家數(shù)據(jù)。在近年的數(shù)據(jù)使用上,除了支撐產(chǎn)業(yè)管理,也體現(xiàn)了科技扶貧工作特色,具體表現(xiàn)是對科技專家、三區(qū)人才、科技特派員的數(shù)據(jù)采集。
(2) 數(shù)據(jù)加工關(guān)注產(chǎn)業(yè)鏈環(huán)節(jié)。在農(nóng)業(yè)產(chǎn)業(yè)管理中,為了方便管理部門的管理和支持,從管理角度設(shè)計了產(chǎn)業(yè)鏈流程。以四川農(nóng)村科技發(fā)展中心為例,設(shè)計了適應(yīng)科技管理的5 個產(chǎn)業(yè)鏈環(huán)節(jié),覆蓋了繁育、種養(yǎng)殖、加工、物流及副產(chǎn)物利用(表3)。該設(shè)計與機構(gòu)管理職能緊密相關(guān),目標(biāo)指向性明確。但綜合考慮到農(nóng)業(yè)科技管理的任務(wù)重點及產(chǎn)業(yè)分類管理需求,在該產(chǎn)業(yè)鏈劃分基礎(chǔ)上,本研究對科技管理的產(chǎn)業(yè)鏈環(huán)節(jié)進行了重構(gòu)。設(shè)計了良種繁育、種養(yǎng)殖、初加工、精深加工、副產(chǎn)物綜合利用和儲運物流6 個環(huán)節(jié),將加工環(huán)節(jié)劃分為初加工和精深加工,調(diào)整了物流運輸?shù)沫h(huán)節(jié)排序,并給出定義(表3、表4)。
表3 農(nóng)業(yè)產(chǎn)業(yè)鏈環(huán)節(jié)設(shè)置一覽表Table 3 The list of agricultural industrial chain
表4 產(chǎn)業(yè)鏈環(huán)節(jié)級其定義Table 4 The definition of industrial chain
(3) 產(chǎn)業(yè)化的分類特征??萍脊芾頂?shù)據(jù)的另外一個特色是按照產(chǎn)業(yè)特色分類,基于產(chǎn)業(yè)需求并不要求分類精細化(圖1)。以四川省農(nóng)村科技發(fā)展中心制作的“星火計劃項目元數(shù)據(jù)” 為例,在數(shù)據(jù)的規(guī)范化處理上按照四川省的重點發(fā)展產(chǎn)業(yè)進行劃分,這與科技文獻常用《中國圖書分類法》《中國科學(xué)院圖書分類法》的分類方法精細化有明顯區(qū)別,其分類級別上類似于農(nóng)業(yè)分類下的二級或三級類目,較宏觀。
圖1 星火計劃項目元數(shù)據(jù)截圖Fig.1 The screenshot of spark programs metadata
(4) 科學(xué)數(shù)據(jù)與科技文獻使用特征。管理中常用的數(shù)據(jù)以項目數(shù)據(jù)、成果數(shù)據(jù)、專家人才等數(shù)據(jù)為主,以科學(xué)觀測、實驗等為代表的科學(xué)數(shù)據(jù)使用較少,生產(chǎn)數(shù)據(jù)有其價值但缺乏規(guī)模性使用場景,期刊論文和專利為代表的科技文獻的知識挖掘不多,政策法規(guī)的支撐不足。圖書情報學(xué)的知識組織和知識挖掘方法在農(nóng)業(yè)科技管理還有進一步應(yīng)用空間。
3.2.2 產(chǎn)業(yè)知識服務(wù)需求
根據(jù)農(nóng)業(yè)科技管理的特征來看,管理部門的知識服務(wù)需求側(cè)重產(chǎn)業(yè)宏觀和中觀管理,如決策、預(yù)測、制定和分析指標(biāo)、制定政策、目標(biāo)和戰(zhàn)略規(guī)劃等。和科學(xué)研究的知識服務(wù)需求特征不同,更偏向于宏觀、反應(yīng)整體的數(shù)據(jù)使用。
本研究的知識服務(wù)主體是從事農(nóng)業(yè)科技管理的部門、從事農(nóng)業(yè)產(chǎn)業(yè)研究的科研機構(gòu)和大學(xué)、企業(yè),目標(biāo)用戶是科技管理決策人員,從事產(chǎn)業(yè)研究、產(chǎn)業(yè)轉(zhuǎn)化的科研人員和企業(yè)管理人員。
數(shù)據(jù)生命周期是指科學(xué)數(shù)據(jù)從產(chǎn)生到消亡的全過程。從數(shù)據(jù)管理角度,通常將生命周期劃分?jǐn)?shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)傳輸、數(shù)據(jù)交換、數(shù)據(jù)銷毀6 個階段。在具體的應(yīng)用環(huán)境中,根據(jù)數(shù)據(jù)使用情況增減環(huán)節(jié)。如2018 年國務(wù)院辦公廳印發(fā)的《科學(xué)數(shù)據(jù)管理辦法》中涉及的科學(xué)數(shù)據(jù)管理生命周期是數(shù)據(jù)采集和交匯、數(shù)據(jù)保存、數(shù)據(jù)共享利用、數(shù)據(jù)保密安全4 個方面。本研究按照科學(xué)數(shù)據(jù)管理中參與產(chǎn)業(yè)知識服務(wù)的數(shù)據(jù),按照信息管理的生命周期流程和農(nóng)業(yè)產(chǎn)業(yè)管理特征,初步構(gòu)建農(nóng)業(yè)產(chǎn)業(yè)管理科學(xué)數(shù)據(jù)生命周期(圖2)。
圖2 農(nóng)業(yè)產(chǎn)業(yè)管理科學(xué)數(shù)據(jù)生命周期模型Fig.2 Scientific data life cycle model of agricultural industry management
該生命周期有3 個關(guān)鍵環(huán)節(jié),一是跨部門的數(shù)據(jù)交換,通常有部門之間的協(xié)商交換和開放數(shù)據(jù)獲取兩種方式;二是根據(jù)知識服務(wù)和數(shù)據(jù)的特征構(gòu)建產(chǎn)業(yè)特征的本體,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的語義關(guān)聯(lián);三是基于數(shù)據(jù)平臺的共享交流,和第一個環(huán)節(jié)相比,有知識產(chǎn)權(quán)的制約,此外數(shù)據(jù)完整性也有一定損失或影響。綜上,研究將依據(jù)農(nóng)業(yè)科技管理特征和需求,構(gòu)建產(chǎn)業(yè)本體,進而實現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)。
3.4.1 本體構(gòu)建原則
本體模型是產(chǎn)業(yè)知識服務(wù)模型中的關(guān)鍵環(huán)節(jié)之一。作為產(chǎn)業(yè)知識服務(wù)的技術(shù)支持,本體可以幫助建立科學(xué)數(shù)據(jù)之間、科學(xué)數(shù)據(jù)與科技文獻數(shù)據(jù)之間的關(guān)聯(lián)。本研究中的農(nóng)業(yè)產(chǎn)業(yè)本體(以下簡稱本體),是介于領(lǐng)域本體和科學(xué)本體之間的簡單應(yīng)用本體。按照MC Guinness 對簡單本體的定義,將包括3 個內(nèi)容:一是建立有限詞匯表;二是概念和術(shù)語之間有關(guān)系解釋;三是類之間有嚴(yán)格分層的子類關(guān)系。
3.4.2 本體構(gòu)建流程
本研究采用七步法構(gòu)建本體。在確定專業(yè)領(lǐng)域和數(shù)據(jù)類型后,考查復(fù)用本體,構(gòu)建了概念、屬性、關(guān)系和實例。由于是基于領(lǐng)域的本體研究,研究中邀請了專家介入,輔助控制質(zhì)量。構(gòu)建流程參見圖3。
圖3 農(nóng)業(yè)產(chǎn)業(yè)本體構(gòu)建流程圖Fig.3 Flow chart of agricultural industry ontology construction
3.4.3 本體模型
(1) 本體語言及結(jié)構(gòu)。農(nóng)業(yè)產(chǎn)業(yè)本體包括概念、屬性、和實例。本體主要分為對概念層與實例層的構(gòu)建。概念層構(gòu)建包含對類、類的層級結(jié)構(gòu)、類間關(guān)系與屬性的定義,形成概念級別的語義網(wǎng)絡(luò)。實例層主要是在概念層的基礎(chǔ)上對具體實例進行描述,將實例填充到概念語義網(wǎng)絡(luò)中,實現(xiàn)具體知識的組織與應(yīng)用。
(2) 本體概念構(gòu)建。首先分析了科技產(chǎn)業(yè)管理要素和R&D 活動評價指標(biāo),創(chuàng)建概念結(jié)構(gòu);其次調(diào)研了領(lǐng)域相關(guān)的本體、敘詞表和分類法,吸收其中的產(chǎn)業(yè)特性;然后根據(jù)農(nóng)業(yè)核心數(shù)據(jù)分析概念,搭建類目層級結(jié)構(gòu);最后在專家建議和數(shù)據(jù)實測基礎(chǔ)上完善概念。研究參考了農(nóng)業(yè)多語種敘詞表(AGROVOC)、科技知識組織體系(STKOS)、《中華人民共和國農(nóng)業(yè)技術(shù)推廣法》、國民經(jīng)濟分類法、中國圖書分類法、中國科學(xué)院圖書分類法,最后形成13 個一級類目、65 個二級子類、若干三級子類的農(nóng)業(yè)產(chǎn)業(yè)本體概念層級框架,層級深度最深為三級,概念內(nèi)容覆蓋了產(chǎn)業(yè)環(huán)節(jié)分類、農(nóng)業(yè)領(lǐng)域分類、產(chǎn)業(yè)投入和產(chǎn)出等領(lǐng)域(圖4)。
圖4 概念層級效果示意圖Fig.4 Concept hierarchy of the ontology
(3) 關(guān)系設(shè)計。關(guān)系設(shè)計部分主要厘清并構(gòu)建了概念之間的關(guān)系,包括基本關(guān)系和自定義關(guān)系。基本關(guān)系復(fù)用了RDFS、DC 等描述框架的一些常用關(guān)系,對于無法被覆蓋的其他特殊關(guān)系,采用自定義關(guān)系進行描述。
(4) 本體屬性。屬性分為對象屬性和數(shù)據(jù)屬性。對象屬性主要用于描述兩個概念之間的關(guān)系。在完成關(guān)系設(shè)計并交予領(lǐng)域?qū)<覍徍撕?,這些關(guān)系在本體構(gòu)建中,以對象屬性的形式被構(gòu)建。比如“產(chǎn)業(yè)成果” -“有關(guān)于” ->“產(chǎn)業(yè)環(huán)節(jié)”。數(shù)據(jù)屬性描述了該概念的非關(guān)聯(lián)性屬性,以屬性值的方式表達,不與其他概念產(chǎn)生聯(lián)系。比如產(chǎn)業(yè)主體的機構(gòu)名稱、文獻的標(biāo)題。
3.4.4 數(shù)據(jù)測試與修正
本體設(shè)計的核心工作之一是根據(jù)科學(xué)數(shù)據(jù)和科學(xué)文獻的外部和內(nèi)部共性特征建立5 個概念:產(chǎn)業(yè)環(huán)節(jié)、產(chǎn)業(yè)分類、產(chǎn)業(yè)技術(shù)、產(chǎn)業(yè)地理和政策法規(guī)。這5 個概念能否帶入科學(xué)數(shù)據(jù)和科技文獻將影響數(shù)據(jù)關(guān)聯(lián)準(zhǔn)確性。
測試部分以專家討論和數(shù)據(jù)實踐為主,分4 步完成。首先,在初稿基礎(chǔ)上邀請農(nóng)業(yè)科學(xué)、農(nóng)業(yè)管理和圖書情報領(lǐng)域?qū)<疫M行本體討論,并根據(jù)專家意見修改完善;其次邀請農(nóng)業(yè)科學(xué)和圖書情報領(lǐng)域的研究人員進行數(shù)據(jù)驗證;第三在平臺中進行數(shù)據(jù)關(guān)聯(lián)驗證;最后修正本體。測試人員從描述準(zhǔn)確性、區(qū)域特征和可操作性對26 190 條數(shù)據(jù)進行了語義提取、分析和修正,獲得有效數(shù)據(jù)23 100 條,語義提取率達到88.20%。測試認為本體實測效果較好,總體可以滿足科學(xué)數(shù)據(jù)和科技文獻數(shù)據(jù)的關(guān)聯(lián)需求,兼顧了科學(xué)數(shù)據(jù)的宏觀和微觀描述,符合四川省農(nóng)業(yè)產(chǎn)業(yè)特色,分類操作過程簡單、易用、易標(biāo)引,概念準(zhǔn)確、無歧義。
測試發(fā)現(xiàn)主要有3 個問題:一是語義粒度粗細差異。以產(chǎn)業(yè)環(huán)節(jié)為例,農(nóng)業(yè)政策法規(guī)、農(nóng)業(yè)項目、農(nóng)業(yè)機構(gòu)數(shù)據(jù)的分類較為宏觀,一條數(shù)據(jù)可能覆蓋多個三級類目,或者二級類目。修正后,將宏觀和中觀相關(guān)數(shù)據(jù)進行二次測試,分類以一級或二級類為主,能夠?qū)崿F(xiàn)粗的語義對齊。二是概念覆蓋不全。通過專家研討和測試兩個環(huán)節(jié)補充了內(nèi)容,如經(jīng)專家建議補充了四川省農(nóng)產(chǎn)品、林木、藥材等特色產(chǎn)業(yè)分類。三是分類視角問題。測試人員以農(nóng)業(yè)經(jīng)濟管理專業(yè)的碩、博士研究生、圖書館學(xué)碩士研究生為主,優(yōu)點是測試流程規(guī)范、語義識別專業(yè)度較高,缺點是跨領(lǐng)域工作增加了語義提取難度,后期通過第三方審核和交叉審核,能夠及時發(fā)現(xiàn)和矯正。
本部分主要是使用四川農(nóng)業(yè)產(chǎn)業(yè)管理相關(guān)的科學(xué)數(shù)據(jù)和科技文獻,在該軟件中進行實踐,檢驗本體結(jié)構(gòu)的合理性和可行性。構(gòu)建操作分為3 步。
(1) 搭建類目層級。首先將概念進行分類與組織,明晰概念及基礎(chǔ)關(guān)系,歸納形成明確的類目,搭建類目層級結(jié)構(gòu)。類目層級主要通過rdfs:subClassOf 屬性來實現(xiàn),若類A 與類B 有“A-subClassOf->B” 的類間關(guān)系,則說明A 類與B 類有層級關(guān)系,且A 是B 的子類。類目創(chuàng)建界面如圖5 所示。
圖5 Vocbench3 類目創(chuàng)建示意圖Fig.5 Class construction in Vocbench3
(2) 添加屬性。根據(jù)本體設(shè)計部分的關(guān)系設(shè)計,結(jié)合實例數(shù)據(jù)的元數(shù)據(jù)描述,通過歸納、轉(zhuǎn)化、整合復(fù)用得出本體所需的屬性。之后,劃分對象屬性與數(shù)據(jù)屬性,對屬性的定義域與值域進行進一步明晰,得到清晰完整的屬性清單,并在Vocbench3 中進行構(gòu)建。根據(jù)整理好的屬性清單,創(chuàng)建對象屬性及數(shù)據(jù)屬性,并在屬性設(shè)置窗口中進一步定義屬性的值域與定義域。屬性創(chuàng)建界面如圖6 示。
圖6 Vocbench3 屬性創(chuàng)建示意圖Fig.6 Property construction in Vocbench3
(3) 實例層構(gòu)建。Vocbench3 中創(chuàng)建實例需要先在Class 視窗中選中需要創(chuàng)建實例的類目,再在Instance 視窗中,點擊創(chuàng)建按鈕構(gòu)建實例,在instance編輯窗口中添加實例相應(yīng)的屬性,完成實例構(gòu)建。實例創(chuàng)建界面如圖7 所示。創(chuàng)建完成的實例可以通過可視化方式展示,如圖8 所示。
圖7 Vocbench3 實例創(chuàng)建示意圖Fig.7 Instance construction in Vocbench3
圖8 產(chǎn)業(yè)主體實例可視化圖Fig.8 Visualization of an industrial subject instance
4.2.1 農(nóng)業(yè)產(chǎn)業(yè)知識服務(wù)平臺
知識服務(wù)平臺將提供多類型科學(xué)數(shù)據(jù)檢索服務(wù),檢索結(jié)果可以按照產(chǎn)業(yè)要素關(guān)聯(lián)和聚類,進而提高用戶獲取隱性知識的速率,擴展產(chǎn)業(yè)知識,啟發(fā)新需求。平臺基于Java 語言開發(fā),數(shù)據(jù)庫采用Mysql5.5,服務(wù)器Tomcat8.5。整個系統(tǒng)采用前后端分離開發(fā),系統(tǒng)部署于云環(huán)境,采用Zstack Iaas 平臺創(chuàng)建和管理系統(tǒng)業(yè)務(wù)云主機采用扁平網(wǎng)絡(luò)搭建安全的網(wǎng)絡(luò)結(jié)構(gòu)。從數(shù)據(jù)關(guān)聯(lián)情況來看,可以通過產(chǎn)業(yè)領(lǐng)域、產(chǎn)業(yè)環(huán)節(jié)、資源類型、語種和地點進行分面聚類。平臺選取產(chǎn)業(yè)要素中的產(chǎn)業(yè)投入、產(chǎn)業(yè)成果、產(chǎn)業(yè)技術(shù)進行關(guān)聯(lián)實踐,具體涉及科技項目、政策法規(guī)、外文論文、專利和技術(shù)需求5 類資源。圖9 是“突破性馬鈴薯新品種達薯1號的擴繁與示范” 項目對應(yīng)的政策、論文、專利和技術(shù)需求案例。
圖9 “突破性馬鈴薯新品種達薯1 號的擴繁與示范” 項目數(shù)據(jù)關(guān)聯(lián)示意圖Fig.9 Data association of project"propagation and demonstration of a breakthrough potato variety Dashu No.1"
4.2.2 農(nóng)業(yè)專家子平臺
專家數(shù)據(jù)庫的建設(shè)有利于農(nóng)業(yè)精準(zhǔn)服務(wù)。從現(xiàn)有情況來看四川省對于農(nóng)業(yè)專家信息的遴選、成果展示等作為建設(shè)目標(biāo)的平臺不多,服務(wù)力度不夠。因此,本研究結(jié)合四川省農(nóng)業(yè)發(fā)展特點以及發(fā)展方向,在主平臺下建立四川省農(nóng)業(yè)領(lǐng)域?qū)<倚畔⑴c服務(wù)平臺。目的是搜集和展示相關(guān)領(lǐng)域?qū)<倚畔?,并采集農(nóng)業(yè)專家公開發(fā)表的論文信息、農(nóng)業(yè)領(lǐng)域政府機構(gòu)和專業(yè)研究機構(gòu)的新聞信息。目前平臺內(nèi)國內(nèi)專家的數(shù)量為859條,國外專家的數(shù)量為325 條。主平臺和子平臺數(shù)據(jù)通過產(chǎn)業(yè)本體中的“產(chǎn)業(yè)人才” 進行關(guān)聯(lián)。
研究根據(jù)科學(xué)數(shù)據(jù)特征和知識服務(wù)需求,將本體概念和產(chǎn)業(yè)要素結(jié)合起來,提出農(nóng)業(yè)產(chǎn)業(yè)知識服務(wù)模型。并就產(chǎn)業(yè)知識服務(wù)模型中的兩個關(guān)鍵要素:產(chǎn)業(yè)本體和數(shù)據(jù)平臺建設(shè)進行研究。研究建立了科學(xué)數(shù)據(jù)和科技文獻關(guān)聯(lián)的本體模型并在Vocbench3 中實現(xiàn),構(gòu)建了農(nóng)業(yè)知識服務(wù)平臺和農(nóng)業(yè)專家子平臺,在系統(tǒng)中實現(xiàn)了24 284 條數(shù)據(jù)的產(chǎn)業(yè)知識共現(xiàn),參與數(shù)據(jù)包括16 類農(nóng)業(yè)科學(xué)數(shù)據(jù)和4 類科技文獻。
研究認為來自農(nóng)業(yè)管理機構(gòu)的數(shù)據(jù)和來自情報機構(gòu)的科技文獻,在信息描述粒度和層次上有所不同,呈碎片化分布在產(chǎn)業(yè)鏈各環(huán)節(jié)。通過構(gòu)建農(nóng)業(yè)產(chǎn)業(yè)管理本體,能把多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)融合于產(chǎn)業(yè)管理邏輯下,幫助用戶知識發(fā)現(xiàn)。但是融合后數(shù)據(jù)價值還有待挖掘。
研究基本實現(xiàn)農(nóng)業(yè)科技知識發(fā)現(xiàn)的服務(wù)目標(biāo),探索了農(nóng)業(yè)科學(xué)數(shù)據(jù)在科技管理的應(yīng)用,提出了數(shù)據(jù)關(guān)聯(lián)方法,然而由于數(shù)據(jù)總量較少,還需要進一步充實和展示關(guān)聯(lián),實現(xiàn)實例數(shù)據(jù)的批量轉(zhuǎn)化,以及后端的知識圖譜開發(fā)與應(yīng)用。本體模型覆蓋了13 個概念,概念相對龐雜,將進一步修正,如把產(chǎn)業(yè)地理調(diào)整為屬性值。此外,將在現(xiàn)有基礎(chǔ)上挖掘數(shù)據(jù)鏈的價值,開展全產(chǎn)業(yè)鏈視角下的技術(shù)預(yù)見理論和方法研究。
農(nóng)業(yè)圖書情報學(xué)刊2022年3期