關(guān)鍵詞: 三層數(shù)據(jù)治理; 青年科技人才; 人才畫像; 知識圖譜; 知識服務(wù)
DOI:10.3969 / j.issn.1008-0821.2024.10.009
〔中圖分類號〕G203; TP391.1 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821 (2024) 10-0103-12
科技人才是推動創(chuàng)新發(fā)展的第一資源, 青年科技人才是我國科技事業(yè)發(fā)展的中堅力量。習(xí)近平總書記強調(diào), “把培育國家戰(zhàn)略人才力量的政策重心放在青年科技人才上, 給予青年人才更多的信任、更好的幫助、更有力的支持, 支持青年人才挑大梁、當(dāng)主角”[1] , 培養(yǎng)、使用好青年科技人才成為國家及地方人才高地建設(shè)的重要課題, 研究青年科技人才群體及個體特征, 構(gòu)建青年科技人才的知識圖譜,繪制人才畫像, 對于培養(yǎng)和用好青年科技人才有著重要的意義。本文以多源科技數(shù)據(jù)融合為支撐, 建立具有實體關(guān)聯(lián)的青年科技人才資源池, 探索構(gòu)建知識圖譜和精準(zhǔn)畫像, 實現(xiàn)不同領(lǐng)域高潛質(zhì)科技人才的智能化識別和知識服務(wù), 為青年人才脫穎而出創(chuàng)造良好環(huán)境, 促進社會發(fā)展。
1研究現(xiàn)狀
1.1青年科技人才概念與特征識別
科技人才主要是指實際從事或有潛力從事系統(tǒng)性科學(xué)和技術(shù)知識的產(chǎn)生、促進、傳播和應(yīng)用活動的人[2] , 具有高度創(chuàng)新創(chuàng)業(yè)意識、創(chuàng)新創(chuàng)業(yè)精神、創(chuàng)新能力、能創(chuàng)造性解決問題的能力[3-4] 。青年科技人才是在40 周歲以下(含40 周歲), 接受過良好的教育和學(xué)術(shù)訓(xùn)練, 具有強烈的創(chuàng)新愿望, 具有較為突出的創(chuàng)新能力和科研潛力的科技人才[5] 。國內(nèi)外學(xué)者對青年科技人才成長進行了大量研究, 基于社會學(xué)、心理學(xué)等角度, 對以下特征進行了探討。
從成長經(jīng)歷角度研究。Zuckerman H[6] 針對美國諾貝爾獎得主開展的社會學(xué)研究, 開啟了科技人才成長規(guī)律研究之先河; Simonton D[7] 認(rèn)為, 家庭背景和教育成就是影響科學(xué)家群體科學(xué)創(chuàng)造力的重要環(huán)境因素; 張建衛(wèi)等[8] 發(fā)現(xiàn), 高等教育經(jīng)歷的連續(xù)性、高成就導(dǎo)師引領(lǐng)對青年副教授階段的職業(yè)晉升具有顯著影響。因此, 青年科技人才一般具有良好的家庭教育和連續(xù)教育背景, 具有高成就導(dǎo)師引領(lǐng)和終身學(xué)習(xí)能力。從科研環(huán)境角度研究。Ca?ibano C等[9] 探討了流動性與研究成果之間的聯(lián)系, 發(fā)現(xiàn)大多數(shù)國際流動性強的研究者通常更容易獲得國際項目資助和國際網(wǎng)絡(luò); Stephan P E 等[10] 發(fā)現(xiàn), 大部分諾貝爾獲獎?wù)邚那嗄陼r代就開始從事相關(guān)研究,在化學(xué)、物理領(lǐng)域特別明顯; 陳建俞[5] 發(fā)現(xiàn), 終身學(xué)習(xí)是促進青年人才成長的必要條件, 學(xué)術(shù)環(huán)境對青年科技人才的成長有著重要影響, 青年科技人才流動性也不大; 王佳勻等[11] 發(fā)現(xiàn), 青年學(xué)者一般具有良好的國內(nèi)外聯(lián)合培養(yǎng)經(jīng)歷和科研經(jīng)歷。因此,青年科技人才大多數(shù)在環(huán)境優(yōu)越和相對穩(wěn)定的條件平臺下工作, 如果參與到強有力的科研團隊且具有國際合作經(jīng)歷, 則協(xié)同創(chuàng)新能力更強, 優(yōu)越的科研團隊、文化、制度都將正向激勵人才發(fā)展。從創(chuàng)新能力角度研究。陳韶光等[12] 構(gòu)建了優(yōu)秀中青年科技人才評價體系, 通過專家咨詢認(rèn)為科研工作成績是重要特征, 學(xué)術(shù)造詣、選題能力、承擔(dān)課題和科研成果等指標(biāo)權(quán)重較大;牛斌[13] 開展了青年科技人才指標(biāo)調(diào)研, 問卷回收結(jié)果顯示創(chuàng)新能力最重要,而科研項目、成果專利、論文收錄指標(biāo)提及率達(dá)到90%以上。因此, 青年科技人才具有較強創(chuàng)新能力,能積極參與國內(nèi)外科研課題與成果轉(zhuǎn)化, 項目、論文、專利都從一定程度上予以反應(yīng)。從不同學(xué)科領(lǐng)域研究。陳建俞[5] 對2012—2020 年國家自科基金優(yōu)青人才學(xué)科專業(yè)領(lǐng)域進行分析, 人才學(xué)科專業(yè)領(lǐng)域分布不均, 工程材料、生命科學(xué)、信息、化學(xué)專業(yè)占比最多, 且不同學(xué)科專業(yè)領(lǐng)域的青年科技人才早期成長速度不同。因此, 不同學(xué)科背景在教育經(jīng)歷、境外交流、產(chǎn)出成果的體現(xiàn)上都各不相同, 應(yīng)把握不同學(xué)科特征, 分類培育, 差異化管理。
1.2基于科技大數(shù)據(jù)的知識圖譜
科技大數(shù)據(jù)不同于傳統(tǒng)期刊論文數(shù)據(jù), 也不同于一般意義上的網(wǎng)絡(luò)及行業(yè)大數(shù)據(jù), 數(shù)據(jù)內(nèi)容包括各學(xué)科內(nèi)的記錄數(shù)據(jù)、資料、文獻、報告、網(wǎng)絡(luò)科技報道等科技成果數(shù)據(jù), 科技項目、學(xué)術(shù)會議、科技人才、科研機構(gòu)、科技獎項、科技主題、科技概念、研究設(shè)備、研究模型、研究方法等科技實體及科技活動數(shù)據(jù), 以及科技領(lǐng)域特色數(shù)據(jù)[14] 。各類結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的科技數(shù)據(jù)資源, 為科技大數(shù)據(jù)知識圖譜構(gòu)建提供數(shù)據(jù)支持, 數(shù)據(jù)融合治理過程中涉及實體抽取、實體消歧、關(guān)系抽取、關(guān)系推斷等問題[15-16] 。張勇等[17] 以科技論文為例,構(gòu)建了涵蓋元數(shù)據(jù)獲取、記錄鏈接、關(guān)聯(lián)的元數(shù)據(jù)倉儲體系。黃琪等[18] 將元數(shù)據(jù)標(biāo)準(zhǔn)化加工后, 將元數(shù)據(jù)關(guān)聯(lián)特征項分為外部特征、內(nèi)部特征和共享特征, 進行科技資源關(guān)聯(lián)聚合。李宗俊等[19] 以檢驗檢測、研發(fā)設(shè)計需求為導(dǎo)向, 研究儀器設(shè)備和實驗動物實體屬性關(guān)系, 構(gòu)建科技服務(wù)資源元數(shù)據(jù)和資源池。
2012年, 谷歌提出知識圖譜技術(shù)概念, 將其應(yīng)用于語義檢索、智能推薦、智能問答等方面[20] 。近年來, 隨著大數(shù)據(jù)云計算技術(shù)不斷完善, 國外搜索引擎、數(shù)字出版等龍頭企業(yè)紛紛開始建設(shè)各類知識服務(wù)平臺。Springer Nature[21] 不斷從期刊、文章、臨床試驗、會議系列、事件、引用網(wǎng)絡(luò)等方面擴展數(shù)據(jù), 其目標(biāo)是創(chuàng)建學(xué)術(shù)領(lǐng)域最先進的關(guān)聯(lián)數(shù)據(jù)聚合平臺。Elsevier 基于論文、圖書、引文、作者、機構(gòu)、基金、化學(xué)物質(zhì)、藥物、EHRs 等多源數(shù)據(jù)構(gòu)建面向生命科學(xué)和醫(yī)療健康研究的知識圖譜[9] 。Tahir Mansoori構(gòu)建的Wizdom.ai 通過對相關(guān)數(shù)據(jù)進行分析, 向科研人員提供全球新興的熱點和研究趨勢、最前沿的研究機構(gòu)和人員、引文推薦、個人研究圖等[22-23] 。在我國, 清華大學(xué)開發(fā)了AMiner,上海交通大學(xué)發(fā)布了Acemap, 中科院文獻情報中心開發(fā)了中國科學(xué)院知識服務(wù)平臺, 從專利期刊、期刊報告等多維度組織學(xué)者和機構(gòu)實體畫像[24-26] 。
人物畫像是知識圖譜應(yīng)用比較廣泛的場景之一。許明英等[27] 提出, 從論文數(shù)據(jù)生成科研團隊立體畫像, 包括科研團隊識別、科研團隊研究主題預(yù)測、精準(zhǔn)立體畫像。馮嶺等[28] 應(yīng)用專利數(shù)據(jù),從專利數(shù)據(jù)中抽取發(fā)明人的各個特征, 構(gòu)建多層感知機模型, 發(fā)現(xiàn)技術(shù)創(chuàng)新人才。武帥等[29] 從海量科技文獻數(shù)據(jù)進行信息融合關(guān)聯(lián), 結(jié)合人才評價指標(biāo)體系, 建立人才創(chuàng)新能力自動感知方法模型, 并在機器人領(lǐng)域予以應(yīng)用。
通過對現(xiàn)有科技文獻和平臺系統(tǒng)可以發(fā)現(xiàn), 當(dāng)前研究缺少以青年科技人才為實體對象, 關(guān)聯(lián)論文、期刊、項目、機構(gòu)、平臺等多源科技數(shù)據(jù), 建立分領(lǐng)域分層級的科技人才數(shù)據(jù)資源池; 同時由于各領(lǐng)域創(chuàng)新特點不同, 人才科研成果體現(xiàn)形式也有所不同, 缺少以挖掘發(fā)現(xiàn)高潛青年科技人才為目的, 分領(lǐng)域智能化精準(zhǔn)描繪相關(guān)備選人才的知識服務(wù)系統(tǒng)。因此, 筆者基于國內(nèi)外研究成果, 從成長經(jīng)歷、科研環(huán)境、創(chuàng)新能力、科技領(lǐng)域凝練青年科技人才特征, 構(gòu)建知識圖譜本體模型。
2青年人才知識圖譜本體構(gòu)建
國家標(biāo)準(zhǔn)《科技人才元數(shù)據(jù)元素集》[30] 從科技人才基本信息、工作履歷、社會任職、教育培訓(xùn)、獎勵、榮譽、課題項目、專著、論文、專利、科技報告、科研誠信等維度, 規(guī)定了科技人才元數(shù)據(jù)標(biāo)準(zhǔn)。重慶出臺地方標(biāo)準(zhǔn)[31] , 從專業(yè)資質(zhì)、代表論文、著作、知識產(chǎn)權(quán)、科研項目、科技獎勵來體現(xiàn)科技人才的非核心元數(shù)據(jù)實體。朱焱等[32] 基于用戶畫像, 以學(xué)者為中心,構(gòu)建了涵蓋學(xué)者與論文、項目、任職單位、研究領(lǐng)域、研究方向、合作作者等實體關(guān)系的知識圖譜。趙偉等[33] 從創(chuàng)新知識、創(chuàng)新技能、影響力、創(chuàng)新能力、創(chuàng)新動力、管理能力等方面構(gòu)建基礎(chǔ)研究、工程技術(shù)和創(chuàng)新創(chuàng)業(yè)人才評價體系。本文參考國內(nèi)人才數(shù)據(jù)標(biāo)準(zhǔn)及用戶畫像指標(biāo)體系, 基于青年科技人才的特征, 構(gòu)建相關(guān)知識圖譜本體, 如圖1 所示。
1) 實體類型。青年科技人才是從科技人才庫中獲取的40周歲以下對象, 是知識圖譜本體構(gòu)建的核心, 圍繞成長經(jīng)歷獲取的個人基本履歷信息是實體之一, 其中包括人才的工作經(jīng)歷和學(xué)習(xí)經(jīng)歷; 根據(jù)科研環(huán)境特點屬性, 實體類型包括機構(gòu)、科研平臺、合作團隊3類信息實體; 根據(jù)創(chuàng)新能力特點屬性, 實體類型包括科技項目、獎勵、論文、專利。
2) 實體關(guān)系。本研究定義了對象屬性來描述科技人才知識本體中實體之間的關(guān)系。其中以人才實體出發(fā), 基本信息中的工作經(jīng)歷和學(xué)習(xí)經(jīng)歷是個體人才的履歷; 單位機構(gòu)、科研平臺是人才實體工作的環(huán)境, 企業(yè)/ 機構(gòu)、科研平臺共同構(gòu)成人才經(jīng)歷, 合作團隊體現(xiàn)人才的科研合作網(wǎng)絡(luò), 合作團隊包括企業(yè)/ 機構(gòu)、科技平臺內(nèi)部科研團隊、與外部機構(gòu)的產(chǎn)學(xué)研合作團隊及師生團隊; 獎勵、論文、專利、科研項目是人才產(chǎn)出的科研成果, 都體現(xiàn)了人才的創(chuàng)新能力; 將人才的科研成果按照主題詞進行分類, 可以從產(chǎn)業(yè)、學(xué)科、科技領(lǐng)域多維度體現(xiàn)領(lǐng)域特征。
3青年科技人才畫像系統(tǒng)平臺設(shè)計
3.1基于三層數(shù)據(jù)治理的青年科技人才知識圖譜系統(tǒng)設(shè)計
數(shù)據(jù)治理是指有關(guān)數(shù)據(jù)采集、加工、控制、傳輸、保存等活動,本質(zhì)是實現(xiàn)數(shù)據(jù)組織結(jié)構(gòu)的規(guī)范、數(shù)據(jù)價值的涌現(xiàn), 決定著數(shù)據(jù)建設(shè)的成?。郏常矗常担?。數(shù)字環(huán)境所帶來的元數(shù)據(jù)種類、層級、來源、渠道、形態(tài)和格式不同, 帶來了多源異構(gòu)數(shù)據(jù)融合、元數(shù)據(jù)關(guān)聯(lián)、挖掘應(yīng)用的問題[36] 。一是多源異構(gòu)數(shù)據(jù)融合問題。大數(shù)據(jù)時代的人才信息來源豐富多樣,不僅有期刊論文等傳統(tǒng)文獻元數(shù)據(jù), 也包括科技管理所需的科技計劃項目、獎勵、技術(shù)合同等, 多來源異構(gòu)元數(shù)據(jù)如何融合集成, 形成具有一致性的大數(shù)據(jù)倉儲是基礎(chǔ)。二是元數(shù)據(jù)關(guān)聯(lián)問題。海量人才數(shù)據(jù)的知識元數(shù)據(jù)抽取與集成, 關(guān)聯(lián)關(guān)系的構(gòu)建,乃至后期數(shù)據(jù)服務(wù)都有賴于人才元數(shù)據(jù)知識組織,青年科技人才知識圖譜要對論文、專利的作者與機構(gòu)、項目的參與人通過知識之間的關(guān)聯(lián), 進行挖掘應(yīng)用, 則急需在概念語義體系與自然語言術(shù)語體系之間建立映射關(guān)系, 通過對人才知識單元進行規(guī)范化、關(guān)聯(lián)化表述, 從而基于大數(shù)據(jù)形成結(jié)構(gòu)清晰的人才語義層面知識是關(guān)鍵問題。三是元數(shù)據(jù)分析應(yīng)用問題。在知識關(guān)聯(lián)、數(shù)據(jù)鏈接的進一步發(fā)展中,統(tǒng)計不同區(qū)域、不同學(xué)科的人才數(shù)量, 建立科學(xué)評價體系識別有潛力、可培育的人才隊伍, 進而形成知識服務(wù)、人才發(fā)現(xiàn)等高階功能, 是海量數(shù)據(jù)實現(xiàn)價值提升的核心要義。
基于以上問題,本文設(shè)計了三層數(shù)據(jù)治理體系與系統(tǒng)架構(gòu)來予以解決, 即第一層需通過多源人才數(shù)據(jù)進行采集、標(biāo)準(zhǔn)化處理, 建設(shè)形成資源庫, 解決數(shù)據(jù)融合的問題; 第二層通過實體識別、實體及實體屬性抽取、實體消歧與實體歸一、實體關(guān)聯(lián)、實體分類標(biāo)識等數(shù)據(jù)治理活動, 建設(shè)形成主題庫,解決數(shù)據(jù)關(guān)聯(lián)的問題;第三層通過分類統(tǒng)計、聚類分析、精準(zhǔn)匹配等活動, 形成專題庫, 面向應(yīng)用服務(wù)開發(fā)終端模塊, 解決數(shù)據(jù)應(yīng)用的問題。科技青年人才知識圖譜旨在揭示青年科技人才在成長經(jīng)歷及科研活動中存在的實體及其之間的關(guān)系,即揭示青年科技人才科技實體關(guān)系的語義網(wǎng)絡(luò)。為提煉和抽象化科技人才的多源科技大數(shù)據(jù),構(gòu)建以上實體類型和實體關(guān)系為核心的知識圖譜, 本文設(shè)計了如圖2所示的基于三層數(shù)據(jù)治理的青年科技人才畫像系統(tǒng)架構(gòu)。
1)通過數(shù)據(jù)采集建設(shè)資源庫。制定科技人才數(shù)據(jù)描述標(biāo)準(zhǔn)和存儲規(guī)范, 對科技人才、科研機構(gòu)、科研平臺、科技項目、科技獎勵、科技期刊、專利等科技大數(shù)據(jù)進行資源匯聚和集成。建設(shè)數(shù)據(jù)交換采集平臺, 對接各類科技管理、科技服務(wù)、期刊專利數(shù)據(jù)庫等系統(tǒng)平臺, 匯交各類科技數(shù)據(jù)資源, 應(yīng)用自主安全可控的大數(shù)據(jù)分布式存儲與索引技術(shù),對多源異構(gòu)的科技大數(shù)據(jù)進行采集、集成和標(biāo)準(zhǔn)統(tǒng)一, 建立科技人才數(shù)據(jù)資源庫。
2)通過知識抽取融合建設(shè)主題庫。按照青年科技人才的知識圖譜本體, 對科技大數(shù)據(jù)中的各類信息進行實體類型和實體關(guān)系的抽取, 建設(shè)以科技人才為中心的主題庫。通過運用結(jié)構(gòu)化/ 半結(jié)構(gòu)化文本信息抽取、實體識別、實體屬性抽取, 從多源異構(gòu)的科技大數(shù)據(jù)中抽取青年科技人才結(jié)構(gòu)化信息節(jié)點, 通過實體歸一、實體消岐, 建立實體庫。通過唯一標(biāo)識將實體庫之間進行關(guān)聯(lián), 對實體的科研成果進行分類標(biāo)識, 抽取人才的科研合作關(guān)系, 將分散的信息節(jié)點融合實體關(guān)系庫。
3)通過數(shù)據(jù)分析挖掘建設(shè)專題庫。抽取主題庫中的實體和實體關(guān)系元數(shù)據(jù)屬性, 建立青年人才專題庫, 通過聚類統(tǒng)計建設(shè)科技人才統(tǒng)計專題庫,為群體和個體人才畫像可視化提供支撐。
4)面向應(yīng)用服務(wù)開發(fā)終端模塊。面向科研人員、企業(yè)機構(gòu)與政府管理者的人才搜索、人才對接、統(tǒng)計決策等需求, 建立群體畫像、人才檢索、個體畫像等服務(wù)端口,將其嵌入各類科技管理服務(wù)系統(tǒng),應(yīng)用于青年人才評價、評審專家推薦、技術(shù)咨詢服務(wù)等場景。
3.2多源數(shù)據(jù)采集與資源庫建設(shè)
基于成長經(jīng)歷、科研環(huán)境、創(chuàng)新能力與科技領(lǐng)域特征來設(shè)計青年科技人才數(shù)據(jù)資源規(guī)范, 采集融合多源異構(gòu)數(shù)據(jù), 應(yīng)用數(shù)據(jù)處理與存儲技術(shù)建設(shè)科技數(shù)據(jù)資源庫。
1) 科技數(shù)據(jù)資源規(guī)范。按照青年科技人才特征識別, 人才畫像系統(tǒng)所用的科技數(shù)據(jù)資源主要包括個人基本信息、機構(gòu)平臺、科技項目、獎勵、論文、專利、領(lǐng)域分類信息。參考已有成熟的元數(shù)據(jù)標(biāo)準(zhǔn), 將實體屬性轉(zhuǎn)化為元數(shù)據(jù)進行規(guī)范化管理,本文參考國家標(biāo)準(zhǔn)《科技人才元數(shù)據(jù)元素集》來規(guī)范個人基本信息; 應(yīng)用《科技平臺資源核心元數(shù)據(jù)》[37] 描述科研機構(gòu)、科研平臺等實體機構(gòu); 應(yīng)用DC 元數(shù)據(jù)[38] 方案, 來描述科技項目任務(wù)書、科技獎勵申報書、科技論文、科技期刊等文獻和報告;應(yīng)用國家統(tǒng)計局發(fā)布的高技術(shù)產(chǎn)業(yè)分類、湖南省科技領(lǐng)域分類來描述人才領(lǐng)域分類。
2) 多源數(shù)據(jù)采集與存儲。依據(jù)數(shù)據(jù)資源規(guī)范,筆者對實踐工作中的多個管理系統(tǒng)數(shù)據(jù)分析研究,發(fā)現(xiàn)科技管理信息系統(tǒng)中擁有大量基本信息與科技成果相對完整的青年科技人才數(shù)據(jù)。如青年科技人才的學(xué)歷、畢業(yè)學(xué)校、學(xué)習(xí)經(jīng)歷、工作簡歷等成長經(jīng)歷信息可以通過科技計劃項目負(fù)責(zé)人信息、系統(tǒng)用戶注冊信息、評審專家?guī)鞂<倚畔⒅蝎@取。青年科技人才的科研環(huán)境體現(xiàn)在所工作的機構(gòu)、科研平臺、導(dǎo)師關(guān)系、團隊關(guān)系以及產(chǎn)學(xué)研合作關(guān)系中,故機構(gòu)單位、機構(gòu)性質(zhì)、機構(gòu)負(fù)責(zé)人、平臺成員、平臺科研成果等信息可通過科技管理系統(tǒng)中的科技平臺認(rèn)定與績效評價系統(tǒng)中獲??; 而導(dǎo)師關(guān)系、產(chǎn)學(xué)研合作團隊則來源于學(xué)位論文、專利信息平臺。青年科技人才的創(chuàng)新能力主要體現(xiàn)在參與的科研項目, 獲得的科技獎勵, 產(chǎn)出的科技論文、專利, 這些科技數(shù)據(jù)來源于科技管理信息系統(tǒng)、科技獎勵系統(tǒng)、SCI、CNKI、萬方、維普、國知局專利信息數(shù)據(jù)庫等。
使用RDFS(RDF Schema) 對數(shù)據(jù)規(guī)范進行描述, 它是為RDF 提供一個數(shù)據(jù)模型的詞匯表, 由描述RDF 的基本概念和抽象語法的一些配套文檔組成, 用于描述資源類型和資源之間的關(guān)系。根據(jù)各數(shù)據(jù)源提供的接口和下載地址, 利用OAI 協(xié)議、FTP 接口、JDBC 接口以及Webservice 接口等方式對數(shù)據(jù)進行采集。針對不同格式的數(shù)據(jù)源分別開發(fā)對應(yīng)的采集引擎, 通過配置數(shù)據(jù)源IP、端口、FTP目錄、數(shù)據(jù)庫信息等方式, 調(diào)用采集引擎將數(shù)據(jù)采集到HDFS 集群中。針對不同的數(shù)據(jù)格式, 使用解析引擎對HDFS 集群中的不同來源數(shù)據(jù)進行解析、抽取和結(jié)構(gòu)化處理, 保證從各數(shù)據(jù)源采集的數(shù)據(jù)可以在后續(xù)ETL 環(huán)節(jié)通過ETL 引擎進行統(tǒng)一的清洗、轉(zhuǎn)換和規(guī)范化等處理, 并嚴(yán)格按照統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn)進行存儲、管理和使用。
3.3知識抽取融合與主題庫建設(shè)
主題庫是將采集的多源數(shù)據(jù)經(jīng)統(tǒng)一集成后, 對不同實體進行抽取和屬性填充, 通過實體消岐、分類標(biāo)識、關(guān)聯(lián)分析等知識抽取融合技術(shù), 建設(shè)以人才為主題的實體庫和關(guān)系庫。
1) 實體庫建設(shè)。實體庫是將資源庫中的元數(shù)據(jù)通過實體抽取、屬性填充、實體消岐處理后建成的主題庫, 主要包括人才實體庫、機構(gòu)實體庫、平臺實體庫和成果實體庫。人才實體庫圍繞人才成長特征, 主要包括人才的職稱、履歷、學(xué)習(xí)等信息,機構(gòu)和平臺實體庫圍繞科研環(huán)境特征, 主要包括高校、科研院所、企業(yè)、重點實驗室、工程中心等信息, 成果實體庫圍繞創(chuàng)新能力特征, 主要包括科研項目、論文、專利、獎勵等信息。
實體抽取與屬性填充。將青年科技人才數(shù)據(jù)資源中的實體轉(zhuǎn)化為數(shù)據(jù)規(guī)范中的“類” 進行處理,經(jīng)過采集融合后的科技資源數(shù)據(jù)包括結(jié)構(gòu)化(元數(shù)據(jù))、半結(jié)構(gòu)化(XML)和非結(jié)構(gòu)化(摘要文本)數(shù)據(jù), 依托大數(shù)據(jù)平臺中分布式計算引擎Spark, 對海量科研數(shù)據(jù)進行預(yù)處理。從資源庫元數(shù)據(jù)中提取結(jié)構(gòu)化數(shù)據(jù), 生成人才、機構(gòu)、平臺、成果實體,并進行履屬性填充。以科研項目數(shù)據(jù)為例, 將一份項目申請報告作為一個成果實體, 并提取項目名稱、項目類別、依托單位、項目負(fù)責(zé)人、手機、電子郵箱、申請經(jīng)費、研究期限、中文摘要、關(guān)鍵詞、項目組主要參與者等作為實體屬性。
實體消岐。首先針對不同實體進行去重, 將不同數(shù)據(jù)來源中表示同一對象的實體合并為具有統(tǒng)一標(biāo)識符的實體添加到數(shù)據(jù)庫中, 例如, 使用項目編號唯一標(biāo)識符對科技項目去重, 使用標(biāo)題、作者、出版年份對期刊論文進行去重, 使用標(biāo)題作者、畢業(yè)院校、指導(dǎo)教師對學(xué)位論文去重, 使用姓名、身份證號碼、郵箱、手機判斷重名的青年人才。然后對科技人才進行郵箱拆分、多個從屬機構(gòu)拆分, 設(shè)定強規(guī)則下身份證號碼、E-mail 相同的為同一人,弱規(guī)則下姓名、一級機構(gòu)、二級機構(gòu)、研究領(lǐng)域等相似度計算結(jié)果相近的為同一人, 避免同名同姓、同一機構(gòu)有多個重名的情況出現(xiàn)。再借助已有的規(guī)范庫和詞表, 包括區(qū)域與區(qū)域編號、大學(xué)院校名稱規(guī)范、科研院所名稱規(guī)范、企業(yè)名稱規(guī)范、機構(gòu)縮寫與映射形式規(guī)范, 對機構(gòu)、區(qū)域進行數(shù)據(jù)清洗和規(guī)范。
2) 關(guān)系庫建設(shè)。關(guān)系庫是按照外部特征、內(nèi)容特征、共享特征將實體間關(guān)系和元數(shù)據(jù)元素進行關(guān)聯(lián)聚合, 形成實體與實體之間的關(guān)系數(shù)據(jù)庫。針對科技大數(shù)據(jù)中的不同來源問題, 對不同類型的科技數(shù)據(jù)以人才唯一標(biāo)識(身份證號、手機號、郵箱)進行關(guān)聯(lián), 形成“人才—機構(gòu)” “人才—平臺” “人才—成果” 對應(yīng)關(guān)聯(lián)的實體關(guān)系庫。針對數(shù)據(jù)資源的內(nèi)容特征, 以項目、論文、專利等文本信息關(guān)鍵詞為特征提取, 實現(xiàn)從語義角度建立不同實體之間的關(guān)聯(lián), 對科技領(lǐng)域分類進行自動標(biāo)識, 形成“人才—領(lǐng)域” 對應(yīng)關(guān)系的領(lǐng)域標(biāo)識庫。針對科技數(shù)據(jù)的共享特征, 對科研成果合作人員網(wǎng)絡(luò)進行挖掘, 形成“人才—人才” 之間的合作關(guān)系庫。
領(lǐng)域分類標(biāo)識。利用自然語言處理技術(shù)從報告文摘的非結(jié)構(gòu)化文本中提取關(guān)鍵詞和主題實體, 進行自動分類輔助以人工審核, 達(dá)到將科技人才劃分至相關(guān)科技領(lǐng)域和產(chǎn)業(yè)分類的目的。首先, 以湖南省重點科技領(lǐng)域分類為基準(zhǔn), 將科技領(lǐng)域分類與高新技術(shù)產(chǎn)業(yè)分類建立映射關(guān)系, 形成分類本體。然后, 合并提取項目、獎勵、論文、專利中的文摘信息, 建立底層文本數(shù)據(jù)庫以備分析, 抽取關(guān)鍵詞作為自定義詞典, 導(dǎo)入自定義詞典、停用詞表等, 使用Jieba 對文摘報告進行分詞處理, 基于TF-IDF算法對分詞處理后的文摘關(guān)鍵詞進行抽取統(tǒng)計。最后, 挑選科技項目按照科技領(lǐng)域分類的結(jié)果作為訓(xùn)練集, 將人才項目數(shù)據(jù)作為測試集, 采用貝葉斯分類器基于文摘分詞結(jié)果與詞向量, 對科技人才進行自動化分類, 從而得到青年科技人才的科技領(lǐng)域和高新技術(shù)產(chǎn)業(yè)分類結(jié)果。
科研合作關(guān)系抽取。由青年科技人才本體可得,實體間的關(guān)系主要可以分為從屬、合作、活動、產(chǎn)出4 類關(guān)系。從屬、活動、產(chǎn)出關(guān)系比較簡單, 可以以身份證號碼、組織機構(gòu)代碼、姓名等為唯一標(biāo)識, 關(guān)聯(lián)其關(guān)系。而合作關(guān)系是沒有數(shù)據(jù)可以直接表達(dá)的, 需要從人才的學(xué)位論文、科研項目、專利成果信息中抽取出來。合作關(guān)系主要包括導(dǎo)師合作關(guān)系、科研團隊合作關(guān)系、產(chǎn)學(xué)研合作關(guān)系。以魯某為例, 首先從魯某關(guān)聯(lián)的學(xué)位論文提取導(dǎo)師信息,形成(魯某, 秦某, 師生)關(guān)系; 再從魯某關(guān)聯(lián)的科技項目、獎勵、論文提取科研團隊信息, 形成(魯某, 曾某, 同事)關(guān)系; 最后從魯某關(guān)聯(lián)的專利和論文提取關(guān)聯(lián)企業(yè), 形成(魯某, 山東某某企業(yè), 產(chǎn)學(xué)研合作)關(guān)系等931條關(guān)系數(shù)據(jù)。圖5展示了通過關(guān)系抽取后, 以魯某為核心的科研社會網(wǎng)絡(luò)關(guān)系圖。
3.4數(shù)據(jù)挖掘分析與專題庫建設(shè)
將經(jīng)過數(shù)據(jù)治理和分類標(biāo)識后的主題庫人才數(shù)據(jù)進行聚類匯總, 按照人才類別、區(qū)域、產(chǎn)業(yè)、年齡等特征, 建立青年科技人才統(tǒng)計專題庫; 從成長經(jīng)歷、科研環(huán)境、創(chuàng)新能力、分類領(lǐng)域4 個維度,抽取實體與實體關(guān)系元數(shù)據(jù)屬性建設(shè)個體畫像專題庫, 應(yīng)用社會網(wǎng)絡(luò)分析、共詞分析等數(shù)據(jù)挖掘技術(shù),展示個人的平臺數(shù)量、成果數(shù)量、科研合作網(wǎng)絡(luò)等各項能力指標(biāo)。
3.5人才畫像與知識圖譜服務(wù)
面向統(tǒng)計決策、人才搜索、人才對接等用戶需求, 建立人才群體畫像、檢索、個體畫像知識圖譜服務(wù)端口。群體畫像子模塊可以根據(jù)用戶需求, 對各區(qū)域、各年齡階段、各產(chǎn)業(yè)、各學(xué)科領(lǐng)域的人才進行智能化組合統(tǒng)計; 信息檢索子模塊可根據(jù)人才類別、研究領(lǐng)域、年齡階段等條件進行精準(zhǔn)匹配;個體畫像則圍繞青年人才特征, 全面展示青年人才的履歷、機構(gòu)、科研成果、合作網(wǎng)絡(luò)等詳細(xì)情況。在青年人才培育場景中, 科技部門可制定檢索策略,精準(zhǔn)發(fā)現(xiàn)各高新技術(shù)產(chǎn)業(yè)的后備領(lǐng)軍人才, 也可針對特定人才特征, 個性化制定培育策略; 在項目評審場景中, 管理人員可通過推薦算法的高準(zhǔn)確度,精準(zhǔn)判斷項目承擔(dān)人員團隊的能力, 篩查掉關(guān)聯(lián)關(guān)系人員, 以提高評審公正與客觀性; 在技術(shù)轉(zhuǎn)移場景中, 需求方可以將技術(shù)需求與技術(shù)供給精準(zhǔn)匹配,提高成果轉(zhuǎn)化效率。
4湖南省科技管理系統(tǒng)青年科技人才畫像系統(tǒng)平臺構(gòu)建應(yīng)用實踐
近年來, 湖南省科技信息研究所啟動了湖南科技云平臺研究建設(shè)工作, 對全省科技大數(shù)據(jù)開展治理與應(yīng)用。在科技人才治理與應(yīng)用方面, 首期研究團隊以湖南省科技信息管理系統(tǒng)中科技項目青年負(fù)責(zé)人及湖湘青年英才等青年科技人才為對象, 圍繞青年科技人才特征識別, 開展了基于三層數(shù)據(jù)治理的實踐應(yīng)用, 建設(shè)資源庫、主題庫和專題庫, 開展知識圖譜應(yīng)用服務(wù)。
4.1基于三層數(shù)據(jù)治理的人才資源建設(shè)實踐
多源數(shù)據(jù)采集與資源庫建設(shè)實踐。以湖南省科技管理信息系統(tǒng)公共服務(wù)平臺、高新技術(shù)企業(yè)評審系統(tǒng)、高新區(qū)數(shù)據(jù)填報系統(tǒng)、科技獎勵系統(tǒng)、萬方數(shù)據(jù)庫、維普數(shù)據(jù)庫為來源, 采集匯聚個人基本信息、機構(gòu)平臺、科技項目、獎勵、論文、專利等信息1 100余萬條, 按照數(shù)據(jù)資源標(biāo)準(zhǔn), 構(gòu)建科技數(shù)據(jù)資源庫。
知識抽取融合與主題庫建設(shè)實踐。將人才知識圖譜數(shù)據(jù)分成實體屬性信息、實體關(guān)系兩部分分別存儲。開展實體抽取與消岐, 將實體各個屬性作為存儲字段, 分別為人才、機構(gòu)、平臺、項目、獎勵、論文、專利等創(chuàng)建Elastic Search(ES)索引進行存儲。以40 歲以下青年人才為標(biāo)準(zhǔn), 抽取科技實體288 773項, 涵蓋青年科技人才實體24 850項、企業(yè)機構(gòu)實體55426項、科技平臺實體1 000項、科研成果實體208 397項(項目30 000條、論文50000條、專利110000條、獎勵2000條)?;趯嶓w數(shù)據(jù)開展分類標(biāo)識與關(guān)系抽取, 關(guān)系庫創(chuàng)建包含實體關(guān)系三元組的索引, 存儲實體關(guān)系數(shù)據(jù)409 451條,其中“人才—項目” 關(guān)系數(shù)據(jù)57 783條, “人才—獎勵” 關(guān)系數(shù)據(jù)2 934條,“人才—論文”關(guān)系數(shù)據(jù)77 127條,“人才—專利” 關(guān)系數(shù)據(jù)247 545條,“人才—人才”關(guān)系數(shù)據(jù)24062條。
數(shù)據(jù)挖掘分析與專題庫建設(shè)實踐。青年科技人才專題庫根據(jù)主題庫的分類標(biāo)識與關(guān)聯(lián)抽取結(jié)果,抽取人才姓名、所學(xué)專業(yè)、科技領(lǐng)域分類、人才類別、區(qū)域等元數(shù)據(jù)屬性進行存儲, 以支撐人才畫像和知識圖譜服務(wù)中的按區(qū)域、領(lǐng)域、人才類別等條件組合統(tǒng)計。如圖6所示, 數(shù)據(jù)管控平臺建立了“資源庫—主題庫—專題庫” 三層數(shù)據(jù)治理體系。
4.2青年人才畫像與知識圖譜服務(wù)
應(yīng)用服務(wù)層是基于知識圖譜搭建的知識服務(wù)功能層,在青年科技人才畫像系統(tǒng)平臺的應(yīng)用服務(wù)層,包括人才群體畫像、資源檢索、個體畫像等服務(wù)模塊。
群體畫像模塊。群體畫像主要從區(qū)域分布、產(chǎn)業(yè)集群分布、高新技術(shù)領(lǐng)域分布等維度可視化展現(xiàn)湖南省青年科技人才結(jié)構(gòu)特征; 同時可分年份、區(qū)域、產(chǎn)業(yè)、人才類型等條件智能化組合統(tǒng)計全省青年人才數(shù)量, 并鏈接到人才列表明細(xì), 實現(xiàn)了按照科技領(lǐng)域和學(xué)科發(fā)展特征, 將青年人才分類分層描繪。
資源檢索模塊。以知識圖譜為引擎的人才檢索服務(wù)模塊, 通過科研人才實體搜索、分科技領(lǐng)域搜索、分高新技術(shù)產(chǎn)業(yè)搜索和分區(qū)域搜索等功能, 實現(xiàn)科技人才、科技項目、科技企業(yè)、科研機構(gòu)、科技平臺、論文、專利、科技獎勵等各類科技數(shù)據(jù)檢索發(fā)現(xiàn)。以青年人才姓名為關(guān)鍵詞進行檢索, 可以一鍵發(fā)現(xiàn)與該科研人員相關(guān)的所有科技項目、科技獎勵、專利、論文等關(guān)聯(lián)數(shù)據(jù)。以高新技術(shù)產(chǎn)業(yè)“生物與新醫(yī)藥” 進行分類檢索, 可以一鍵發(fā)現(xiàn)平臺內(nèi)該產(chǎn)業(yè)領(lǐng)域所有青年科技人員資源, 并快速進入人才畫像與相關(guān)聯(lián)的項目、機構(gòu)畫像。
個體畫像模塊。從成長經(jīng)歷、科研環(huán)境、創(chuàng)新能力、所屬領(lǐng)域等特征方面可視化青年科技人才畫像基本信息, 通過關(guān)聯(lián)鏈接青年人才的機構(gòu)、成果、合作團隊關(guān)系, 揭示了該青年學(xué)者的研究方向、研究機構(gòu)、研究成果的發(fā)展趨勢和熱點主題, 輔助用戶全方位了解當(dāng)前個體人才的成長軌跡及科技活動特征。面向科技管理服務(wù), 可以對接基于知識圖譜的青年科技人才知識服務(wù)接口, 分別應(yīng)用于不同系統(tǒng)模塊, 例如青年人才分類培育、項目管理專家評審、技術(shù)轉(zhuǎn)移人才對接等應(yīng)用場景。
5結(jié)束語
本文從青年科技人才的概念和特征出發(fā), 從成長經(jīng)歷、科研環(huán)境、創(chuàng)新能力、科技領(lǐng)域等維度,設(shè)計青年人才的知識圖譜本體及涵蓋的實體和實體屬性, 形成科技人才實體關(guān)系, 提出了從采集多源科技數(shù)據(jù)、抽取實體知識融合、數(shù)據(jù)統(tǒng)計挖掘分析到開發(fā)人才知識圖譜可視化展示與接口服務(wù)的知識圖譜技術(shù)架構(gòu)。并以湖南科技云平臺為應(yīng)用, 構(gòu)建了湖南省青年科技人才知識圖譜系統(tǒng), 實現(xiàn)了科技人才的分類展示、精準(zhǔn)畫像、實體關(guān)聯(lián)、關(guān)系挖掘等功能。與現(xiàn)有人才畫像研究相比, 該知識圖譜關(guān)聯(lián)了科技項目、科技平臺、科技獎勵等科技活動及成果數(shù)據(jù), 較為全面地刻畫青年科技人才在科技創(chuàng)新方面的軌跡與特點, 可廣泛用于科技人才畫像、科技人才評價、科技人才遴選等創(chuàng)新人才工作實踐。
但本文也有不足之處。數(shù)據(jù)主要來源于國內(nèi)數(shù)據(jù)庫, 下一步有待覆蓋關(guān)聯(lián)國外科研成果數(shù)據(jù)。同時, 本研究的科技人才知識圖譜系統(tǒng)架構(gòu), 雖然是圍繞青年科技人才特征構(gòu)建, 但其三層數(shù)據(jù)治理模式, 實體消歧、關(guān)系抽取、數(shù)據(jù)關(guān)聯(lián)、領(lǐng)域分類標(biāo)識等數(shù)據(jù)治理方法及人才畫像與知識圖譜服務(wù)場景等可適用于各區(qū)域科技人才數(shù)據(jù)治理與應(yīng)用服務(wù)。在未來研究中, 考慮將青年科技人才畫像的構(gòu)建方法擴展至其他科研人才畫像中, 并嵌入科技管理、科技決策、科技服務(wù)系統(tǒng), 在人才選拔、項目評審、科技特派員管理、成果轉(zhuǎn)化等場景中予以應(yīng)用。