国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向高??蒲泄芾淼闹R圖譜構(gòu)建研究

2021-01-07 02:58李書欽
科技和產(chǎn)業(yè) 2020年12期
關(guān)鍵詞:三元組科研人員本體

李書欽

(北方工業(yè)大學(xué),北京 100144)

科研管理是高??蒲泄ぷ鞯闹匾h(huán)節(jié),貫穿于高??蒲谢顒?dòng)全過程,對高??蒲泄ぷ髌鹫?、導(dǎo)向、激勵(lì)、服務(wù)及監(jiān)督作用[1]。在“雙一流”建設(shè)背景下,對高校提出了高質(zhì)量特色內(nèi)涵式發(fā)展的新要求,高質(zhì)量特色內(nèi)涵式發(fā)展離不開高水平的科研支撐,而高水平的科研又與科學(xué)的科研管理密不可分,因此提高高??蒲泄芾硇屎蜎Q策的科學(xué)性變得日益重要[2]。

高校承擔(dān)了大量的科研項(xiàng)目,會(huì)產(chǎn)生海量的異構(gòu)化科研數(shù)據(jù)。長期以來,采用傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)分析方法對相關(guān)數(shù)據(jù)進(jìn)行加工整理,不僅費(fèi)時(shí)費(fèi)力,而且無法對數(shù)據(jù)背后隱藏的科研價(jià)值進(jìn)行有效挖掘,造成科研資源的巨大浪費(fèi)[3]。大數(shù)據(jù)、人工智能等信息技術(shù)為高??蒲泄芾淼膭?chuàng)新提供了新機(jī)遇,通過采用新技術(shù)深入挖掘數(shù)據(jù)信息背后潛在的價(jià)值,發(fā)現(xiàn)對科研工作和決策分析有價(jià)值的信息,對提高科研管理水平,促進(jìn)高??蒲袆?chuàng)新具有重要意義[4]。

信息是決策的基礎(chǔ),信息和情報(bào)對科研管理的作用日益重要,借助知識圖譜等技術(shù)手段,可以把科研管理系統(tǒng)中的人員、項(xiàng)目、專著、論文、獲獎(jiǎng)、發(fā)明專利、學(xué)術(shù)影響力等數(shù)據(jù)進(jìn)行綜合分析,通過算法模型對各類科研數(shù)據(jù)進(jìn)行可視化展現(xiàn),指導(dǎo)科研決策和科研政策制定,從而提高科研管理的科學(xué)性和服務(wù)水平[5]。

針對科研管理工作中的上述瓶頸和問題,本文借助Google知識圖譜,以高??蒲泄芾硐到y(tǒng)為數(shù)據(jù)來源,以科研人員、論文、專著、項(xiàng)目、獲獎(jiǎng)、專利和標(biāo)準(zhǔn)等為切入點(diǎn),繪制高??蒲泄芾碇R圖譜,對高??蒲泄芾頂?shù)據(jù)進(jìn)行可視化展示,從而為科學(xué)的科研管理決策提供參考,提高科研管理工作的效率和水平。

1 科研管理知識圖譜構(gòu)建

1.1 知識圖譜定義

2012年5月,Google提出知識圖譜(Knowledge Graph)的概念,不同于傳統(tǒng)圖情領(lǐng)域的科學(xué)知識圖譜,Google知識圖譜是一種描述實(shí)體之間關(guān)系的語義網(wǎng)絡(luò),是知識工程的重要表現(xiàn)形式,在智能搜索、電子商務(wù)、醫(yī)療、情報(bào)分析等領(lǐng)域應(yīng)用廣泛[6]。

知識圖譜可以用G=(E,R)表示,其中E和R分別表示知識圖譜中多類型的實(shí)體和關(guān)系集合,知識圖譜由許多RDF三元組組成,表示形式為T=〈vh,r,vt〉,其中vh代表頭實(shí)體,vt代表尾實(shí)體,r代表頭實(shí)體和尾實(shí)體之間的關(guān)系。實(shí)體是知識圖譜中的最基本元素,比如科研活動(dòng)中的人員、項(xiàng)目、論文、獲獎(jiǎng)、專利等實(shí)體,不同的實(shí)體間存在不同的關(guān)系,比如科研活動(dòng)中的發(fā)表、獲得、出版、承擔(dān)等關(guān)系。

1.2 科研管理知識圖譜構(gòu)建過程

知識圖譜在邏輯上分為數(shù)據(jù)層和概念層,數(shù)據(jù)層指以三元組為表現(xiàn)形式的實(shí)體和關(guān)系集合,用<實(shí)體,關(guān)系,實(shí)體>和<實(shí)體,屬性,屬性值>來表示。概念層構(gòu)建在數(shù)據(jù)層之上,是經(jīng)過積累沉淀的知識集合[7]。知識圖譜的構(gòu)建是一個(gè)不斷更新迭代的過程,科研管理知識圖譜的構(gòu)建過程如圖1所示,包含知識抽取、知識融合、知識加工和知識推理等過程。源數(shù)據(jù)經(jīng)過知識抽取轉(zhuǎn)換為三元組形式,然后經(jīng)過實(shí)體對其和本體對其,加入數(shù)據(jù)模型,形成標(biāo)準(zhǔn)的知識表示,再通過知識推理產(chǎn)生新的關(guān)系組合,所有知識經(jīng)過質(zhì)量評估,形成完整形態(tài)的知識圖譜。

圖1 科研管理知識圖譜構(gòu)建過程

1.2.1 知識抽取

知識抽取是構(gòu)建知識圖譜過程中的重要環(huán)節(jié),面向表格和列表類的半結(jié)構(gòu)化數(shù)據(jù)、文本類的非結(jié)構(gòu)化數(shù)據(jù),通過自動(dòng)化或半自動(dòng)化技術(shù)抽取出可用的知識,包括實(shí)體抽取、關(guān)系抽取、屬性抽取和時(shí)間抽取。實(shí)體抽取即自然語言處理中的命名實(shí)體識別,從非結(jié)構(gòu)化文本數(shù)據(jù)中自動(dòng)識別出命名實(shí)體,形成知識圖譜中的“結(jié)點(diǎn)”。在非結(jié)構(gòu)化文本數(shù)據(jù)中抽取出命名實(shí)體后,再通過關(guān)系抽取獲取實(shí)體之間的關(guān)聯(lián)關(guān)系,形成知識圖譜中的“邊”,從而形成網(wǎng)狀的知識結(jié)構(gòu)。屬性抽取是對信息源中的實(shí)體的特征和性質(zhì)進(jìn)行抽取,例如對于科研人員,可以獲取其姓名、年齡、職稱、研究方向、教育背景等信息。事件抽取是從信息源中抽取出事件信息,包括時(shí)間、地點(diǎn)、人員和相關(guān)動(dòng)作等。通過數(shù)據(jù)整合和知識抽取,將多源異構(gòu)的源數(shù)據(jù)統(tǒng)一為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù),方便知識圖譜使用。

1.2.2 知識融合

知識融合是高層次的知識組織,通過對來自不同數(shù)據(jù)源的知識進(jìn)行異構(gòu)數(shù)據(jù)整合、消歧、加工、推理驗(yàn)證、更新等過程,達(dá)到信息、數(shù)據(jù)、經(jīng)驗(yàn)、方法以及人的智慧的融合,形成高質(zhì)量的知識庫[8]。知識融合包括本體對齊和實(shí)體對齊,本體對齊是概念層的知識融合,是確定概念、關(guān)系、屬性等本體間映射關(guān)系的過程,通常通過機(jī)器學(xué)習(xí)算法計(jì)算本體間的相似度來實(shí)現(xiàn)。實(shí)體對齊是數(shù)據(jù)層的知識融合,實(shí)體對齊對不同源數(shù)據(jù)中的相同實(shí)體進(jìn)行統(tǒng)一和聯(lián)結(jié)。通過知識融合,實(shí)現(xiàn)知識庫的聯(lián)結(jié)合并,形成更加稠密、統(tǒng)一的新型知識圖譜。

1.2.3 知識加工

通過知識抽取和知識融合,可以從源數(shù)據(jù)中識別、抽取出消歧和統(tǒng)一后的實(shí)體和本體,得到客觀事實(shí)的基本表達(dá),然而客觀事實(shí)并不是知識圖譜需要的知識體系,要形成結(jié)構(gòu)化的知識網(wǎng)絡(luò),還需要本體構(gòu)建、知識推理和質(zhì)量評估等知識加工過程[9]。本體構(gòu)建是知識圖譜內(nèi)實(shí)體連通的語義基礎(chǔ),主要以“點(diǎn)線面”組成的網(wǎng)狀結(jié)構(gòu)呈現(xiàn),“點(diǎn)”代表不同實(shí)體,“線”代表實(shí)體間的關(guān)系,“面”代表知識網(wǎng)絡(luò)。本體可通過人工編輯的方式手動(dòng)構(gòu)建,也可以由機(jī)器學(xué)習(xí)驅(qū)動(dòng)自動(dòng)構(gòu)建,然后再經(jīng)質(zhì)量評估方法與人工審核相結(jié)合的方式加以修正與確認(rèn)。質(zhì)量評估是對已產(chǎn)生的知識數(shù)據(jù)進(jìn)行評估,將符合標(biāo)準(zhǔn)的數(shù)據(jù)導(dǎo)入知識圖譜中,質(zhì)量評估是確保知識圖譜內(nèi)容正確可用的關(guān)鍵步驟,是知識加工最后的“質(zhì)檢”環(huán)節(jié),確保經(jīng)本體構(gòu)建和知識推理得到的知識是合理的。

1.2.4 知識推理

知識推理是通過對已有實(shí)體間關(guān)系的計(jì)算和對三元組的語義分析,找到新關(guān)聯(lián),獲取新的知識或結(jié)論,從而拓展和豐富知識圖譜網(wǎng)絡(luò)。知識推理的對象可以是實(shí)體、實(shí)體的屬性值、實(shí)體間的關(guān)系、本體庫中概念的層次結(jié)構(gòu)等。知識推理包括實(shí)體分類、關(guān)系識別、基于圖的推理與基于邏輯的推理等類別。例如已知〈作者A,發(fā)表,論文A〉和〈作者B,發(fā)表,論文A〉,可以推理出〈作者A,共同作者,作者B〉。

2 研究方法

本文以高??蒲泄芾硐到y(tǒng)中的科研人員、項(xiàng)目、學(xué)術(shù)成果、標(biāo)準(zhǔn)、專利、獲獎(jiǎng)等結(jié)構(gòu)化數(shù)據(jù)為基礎(chǔ),通過知識抽取形成相關(guān)的實(shí)體、屬性和關(guān)系,然后經(jīng)過知識融合構(gòu)建相關(guān)實(shí)體間的三元組,經(jīng)過知識加工和質(zhì)量評估,構(gòu)建科研管理知識圖譜,并進(jìn)行相關(guān)實(shí)體間的關(guān)系推理。

2.1 構(gòu)建知識圖譜的實(shí)體、屬性和關(guān)系

根據(jù)科研管理系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù),可以構(gòu)建科研管理知識圖譜,首先,實(shí)體類型集合為X={科研人員、標(biāo)準(zhǔn)、科研獲獎(jiǎng)、科研項(xiàng)目、論文成果、專利},然后構(gòu)建各個(gè)實(shí)體的屬性特征,科研人員={姓名、部門、性別、職位、學(xué)歷、年齡、職稱},科研項(xiàng)目={項(xiàng)目名稱、部門、負(fù)責(zé)人、項(xiàng)目類別、項(xiàng)目性質(zhì)、項(xiàng)目來源、開始時(shí)間、完成時(shí)間、批準(zhǔn)金額},標(biāo)準(zhǔn)={標(biāo)準(zhǔn)名稱、部門、制定人、批準(zhǔn)號、標(biāo)準(zhǔn)類別、申請時(shí)間、批準(zhǔn)時(shí)間、個(gè)人排序、單位排序},專利={專利名稱、部門、所有人、申請?zhí)?、批?zhǔn)號、專利類別、申請時(shí)間、批準(zhǔn)時(shí)間、個(gè)人排序、單位排序),論文={論文名稱、部門、作者、期刊名稱、期刊類別、檢索情況、發(fā)表時(shí)間、資助情況},各實(shí)體間的關(guān)系如圖2所示。

圖2 科研管理知識圖譜實(shí)體間關(guān)系圖

2.2 構(gòu)建科研管理知識圖譜

在已構(gòu)建的科研管理實(shí)體、屬性和關(guān)系基礎(chǔ)上,采用圖數(shù)據(jù)庫交互操作框架 InteractiveGraph構(gòu)建科研管理知識圖譜,InteractiveGraph 是采用JavaScript開發(fā)的開源項(xiàng)目,通過構(gòu)建本地JSON文件,為大規(guī)模圖數(shù)據(jù)三元組提供了一個(gè)基于Web的交互操作框架[10]。InteractiveGraph提供了3個(gè)基本功能,分別是圖瀏覽器(GraphExplorer)、圖導(dǎo)航器(GraphNavigator)以及關(guān)系查找器(RelFinder),借助這些功能,可以便捷地實(shí)現(xiàn)科研管理知識圖譜數(shù)據(jù)的可視化展示和知識推理。

科研管理知識圖譜包含科研人員、標(biāo)準(zhǔn)、科研獲獎(jiǎng)、科研項(xiàng)目、論文成果、專利等實(shí)體,屬性和實(shí)體間的關(guān)系,該圖譜由29 519個(gè)節(jié)點(diǎn)、24 467條邊構(gòu)成,科研管理知識圖譜的可視化效果如圖3所示。通過該知識圖譜,輸入任一科研人員的姓名,可以便捷的查看其名下的所有科研成果信息,實(shí)現(xiàn)了科研成果的圖譜管理和可視化表達(dá),在此基礎(chǔ)上,可以查看科研人員間的合作網(wǎng)絡(luò)和合作成果。

圖3 科研管理知識圖譜可視化效果

3 結(jié)論

在新形勢下, 高??蒲邪l(fā)展的重要任務(wù)是開展前瞻性研究、加強(qiáng)高精尖技術(shù)攻關(guān)、多出創(chuàng)新成果、實(shí)現(xiàn)產(chǎn)學(xué)研用的有效結(jié)合,而高??蒲械拈_展,又離不開科學(xué)高效的科研管理工作,科研管理必須借助新技術(shù)創(chuàng)新管理方法、提升科研管理能力, 推動(dòng)高??蒲谐掷m(xù)、健康、快速發(fā)展[11]。因此, 高校應(yīng)盡快提高對科研管理科學(xué)化的認(rèn)識,提升科研管理水平和服務(wù)能力。

為解決上述問題,本文運(yùn)用Google知識圖譜,以高校科研管理系統(tǒng)為數(shù)據(jù)來源,以科研人員、標(biāo)準(zhǔn)、科研獲獎(jiǎng)、科研項(xiàng)目、論文成果、專利等為切入點(diǎn),繪制高??蒲泄芾碇R圖譜,對高??蒲泄芾頂?shù)據(jù)進(jìn)行可視化展示,有效解決了傳統(tǒng)科研管理系統(tǒng)中數(shù)據(jù)利用不充分、查詢統(tǒng)計(jì)不直觀、信息關(guān)聯(lián)不明確等問題,有效提升了科研管理工作的效率和水平,為科研管理決策的科學(xué)化提供參考,以保證科研工作目標(biāo)的實(shí)現(xiàn)。

猜你喜歡
三元組科研人員本體
科技部等五部門聯(lián)合發(fā)文開展減輕青年科研人員負(fù)擔(dān)專項(xiàng)行動(dòng)
科研人員揭示油桃果實(shí)表皮不長毛的奧秘
時(shí)序知識圖譜的增量構(gòu)建
科研人員破譯黑豬肉特征風(fēng)味物質(zhì)
眼睛是“本體”
關(guān)于余撓三元組的periodic-模
一種基于社會(huì)選擇的本體聚類與合并機(jī)制
一個(gè)時(shí)態(tài)RDF存儲(chǔ)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
企業(yè)科研人員激勵(lì)問題及對策研究
基于Spark的分布式并行推理算法①