李肖俊 邵必林
摘 要:[目的/意義]隨著大數(shù)據(jù)和人工智能技術(shù)的蓬勃發(fā)展,數(shù)據(jù)驅(qū)動(dòng)的智慧學(xué)術(shù)研究以及基于學(xué)術(shù)大數(shù)據(jù)的知識(shí)發(fā)現(xiàn)受到產(chǎn)業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。學(xué)術(shù)知識(shí)圖譜是學(xué)術(shù)信息挖掘和學(xué)術(shù)知識(shí)管理的基礎(chǔ),在智慧學(xué)術(shù)研究中具有重要的學(xué)術(shù)價(jià)值和產(chǎn)業(yè)價(jià)值。[方法/過(guò)程]本文以構(gòu)建智慧學(xué)術(shù)服務(wù)的實(shí)際需求為出發(fā)點(diǎn),從學(xué)術(shù)大數(shù)據(jù)的獲取、學(xué)術(shù)實(shí)體識(shí)別、學(xué)術(shù)實(shí)體鏈接與知識(shí)融合、學(xué)術(shù)知識(shí)圖譜本體模型構(gòu)建、學(xué)術(shù)知識(shí)圖譜表示與存儲(chǔ)等核心問(wèn)題入手,提出智慧學(xué)術(shù)領(lǐng)域的知識(shí)圖譜構(gòu)建的理論模型。[結(jié)論/結(jié)果]多源異構(gòu)數(shù)據(jù)融合的學(xué)術(shù)知識(shí)圖譜是支撐智慧學(xué)術(shù)的數(shù)據(jù)基礎(chǔ),同時(shí)也是人工智能及知識(shí)表示技術(shù)在學(xué)術(shù)大數(shù)據(jù)領(lǐng)域的重要應(yīng)用。
關(guān)鍵詞:學(xué)術(shù)知識(shí)圖譜;多源異構(gòu)數(shù)據(jù);知識(shí)圖譜;知識(shí)表示;智慧學(xué)術(shù)
Abstract:[Purpose/Significance]With the rapid development of big data and artificial intelligence technology,data-driven intelligent academic research and knowledge discovery based on academic big data have received extensive attention from industry and academic.Academic knowledge graph is the foundation of academic information mining and academic knowledge management,and has important academic value and industrial value in intelligent academic research.[Method/Process]This paper started from the actual needs of building intelligent academics service,begining with the core issues of academic big data acquisition,academic entity identification,academic entity link and knowledge fusion,academic knowledge map ontology model construction,academic knowledge graph representation and storage,and proposed the theoretical model for the construction of knowledge graph in the field of smart academics.[Result/Conclusion]The construction of academic knowledge graph for multi-source heterogeneous data fusion was the data foundation supporting intelligent academics,and also an important application of artificial intelligence and knowledge representation technology in the field of academic big data.
Key words:academic knowledge graph;multi-source heterogeneous data;knowledge graph;knowledge representation;smart academic
隨著學(xué)術(shù)信息數(shù)字化的不斷發(fā)展,學(xué)術(shù)機(jī)構(gòu)以及學(xué)術(shù)出版集團(tuán)的互聯(lián)網(wǎng)公開學(xué)術(shù)數(shù)據(jù)庫(kù)的涌現(xiàn)產(chǎn)生了海量的學(xué)術(shù)數(shù)據(jù)。這些數(shù)據(jù)中蘊(yùn)含了大量隱性學(xué)術(shù)知識(shí),如潛在的合作團(tuán)隊(duì)、潛在的合作作者等。如果這些隱性的知識(shí)能夠被加工處理,并以有效的知識(shí)呈現(xiàn),不僅可以為潛在學(xué)術(shù)團(tuán)隊(duì)構(gòu)建、潛在科研興趣預(yù)測(cè)與潛在科研能力量化研究提供輔助決策,還可以為各種學(xué)術(shù)應(yīng)用平臺(tái)的構(gòu)建提供可靠的數(shù)據(jù)源,從而增強(qiáng)學(xué)術(shù)研究者的科研能力,并豐富智慧學(xué)術(shù)的研究?jī)?nèi)涵。因此,如何抽取多源異構(gòu)學(xué)術(shù)數(shù)據(jù)自身的隱性特征,形成有價(jià)值的知識(shí),并使之為學(xué)術(shù)研究者提供行之有效的輔助決策,已成為數(shù)據(jù)挖掘技術(shù)在學(xué)術(shù)大數(shù)據(jù)領(lǐng)域應(yīng)用研究的新趨勢(shì)[1]。
近年來(lái),由于單一數(shù)據(jù)源描述事實(shí)具有很大偏向性,尤其是個(gè)性化智能搜索的需要。多種數(shù)據(jù)源語(yǔ)義統(tǒng)一表示技術(shù)研究受到業(yè)界的廣泛關(guān)注。2012年,Google公司提出了Google知識(shí)圖譜技術(shù),并將其成功用于智能搜索領(lǐng)域[2]。隨后,關(guān)于知識(shí)圖譜的應(yīng)用研究席卷各個(gè)領(lǐng)域。最為常見的應(yīng)用就是借助維基百科構(gòu)建知識(shí)圖譜。因?yàn)榫S基百科是迄今為止依靠群體智慧所創(chuàng)建的最大互聯(lián)網(wǎng)數(shù)據(jù)源,具有豐富的半結(jié)構(gòu)化數(shù)據(jù),且易于提取事實(shí)知識(shí)。比如,國(guó)外有名的知識(shí)圖譜項(xiàng)目DBpedia[3]、YAGO[4]和Freebase[5]等通用知識(shí)圖譜的數(shù)據(jù)來(lái)源都是維基百科。
相對(duì)而言,雖然國(guó)內(nèi)有關(guān)知識(shí)圖譜的研究起步較晚,但是在工業(yè)界和學(xué)術(shù)界也取得了不菲的成就。例如,在商業(yè)應(yīng)用方面成功的案例就有百度公司研發(fā)的知識(shí)圖譜“知心”和搜狗公司自主開發(fā)的知識(shí)圖譜“知立方”。在學(xué)術(shù)領(lǐng)域應(yīng)用研究方面有清華大學(xué)主導(dǎo)研發(fā)的知識(shí)圖譜XLORE以及上海交通大學(xué)自主研發(fā)的知識(shí)圖譜Zhishi.me[6]。他們都是借助互動(dòng)百科和百度百科所研發(fā)的大規(guī)模知識(shí)圖譜項(xiàng)目。其中,XLORE知識(shí)圖譜是以英文維基百科為載體,采用跨語(yǔ)言鏈接技術(shù)構(gòu)建的融合中英文百科的雙語(yǔ)言知識(shí)庫(kù)。但是,這些依托互聯(lián)網(wǎng)百科知識(shí)所構(gòu)建的通用知識(shí)圖譜數(shù)據(jù)來(lái)源多、知識(shí)覆蓋面廣,不能有效聚焦特定領(lǐng)域圖譜構(gòu)建和知識(shí)推理等應(yīng)用研究。這是由于,通用圖譜本身知識(shí)表示的粗粒度和語(yǔ)義表示的泛化性容易造成所構(gòu)建的智能應(yīng)用預(yù)測(cè)的準(zhǔn)確性和客觀性降低。尤其是在對(duì)準(zhǔn)確性要求極高的學(xué)術(shù)領(lǐng)域,比如重大科研攻關(guān)項(xiàng)目研發(fā)團(tuán)隊(duì)的組建或者科研合作團(tuán)隊(duì)預(yù)期科研產(chǎn)出評(píng)估,都需要相當(dāng)精確的領(lǐng)域知識(shí)圖譜做智能應(yīng)用的研究數(shù)據(jù)基礎(chǔ)。因此,構(gòu)建面向?qū)W術(shù)大數(shù)據(jù)的知識(shí)圖譜是一個(gè)亟待解決的新問(wèn)題。
另外,通過(guò)相關(guān)的文獻(xiàn)梳理發(fā)現(xiàn),國(guó)外的通用知識(shí)圖譜的發(fā)展比較成熟,尤其是Google公司,其理論研究和商業(yè)應(yīng)用都處于領(lǐng)先地位。相反,國(guó)內(nèi)有關(guān)知識(shí)圖譜的研究應(yīng)用還尚不成熟,特別是學(xué)術(shù)領(lǐng)域知識(shí)圖譜的構(gòu)建研究。為此,本文聚焦學(xué)術(shù)領(lǐng)域知識(shí)圖譜的構(gòu)建研究,其意義主要體現(xiàn)在以下幾方面:
1)有助于更加精確和合理地評(píng)估科研工作者個(gè)人和團(tuán)隊(duì)的科研貢獻(xiàn)度,為重大課題攻關(guān)團(tuán)隊(duì)的選擇提供可靠的決策指導(dǎo)。眾所周知,科研實(shí)力是國(guó)家科技的生命線,重大攻關(guān)項(xiàng)目團(tuán)隊(duì)的組建是其能否順利實(shí)現(xiàn)的根本保障。團(tuán)隊(duì)成員的篩選需要根據(jù)與項(xiàng)目主題相關(guān)研究者已有科研積累作參考進(jìn)行決策。而決策能否有效實(shí)施,依賴于相關(guān)數(shù)據(jù)源的廣泛性。通常,依托的相關(guān)數(shù)據(jù)源種類越多,其決策的準(zhǔn)確度越高。毫無(wú)疑問(wèn),知識(shí)圖譜是表征多源異構(gòu)數(shù)據(jù)的最佳方式。
2)有助于更加科學(xué)地衡量科研工作者的科研成果,為榮譽(yù)評(píng)定和基金評(píng)估提供有價(jià)值的參考。這是由于知識(shí)圖譜能夠涵蓋學(xué)術(shù)大數(shù)據(jù)中所涉及的各類實(shí)體、屬性和關(guān)系,以三元組的形式將事實(shí)統(tǒng)一表征,并能夠?yàn)榭蒲泄ぷ髡呖?jī)效評(píng)判和基金審核提供更為合理的知識(shí)參考。
3)有助于潛在合作伙伴的發(fā)掘和學(xué)術(shù)熱點(diǎn)的探究,為智慧學(xué)術(shù)的發(fā)展奠定堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。學(xué)術(shù)知識(shí)圖譜是海量學(xué)術(shù)大數(shù)據(jù)的語(yǔ)義抽取,是多源異構(gòu)的學(xué)術(shù)數(shù)據(jù)的融合表示,是對(duì)學(xué)術(shù)大數(shù)據(jù)以三元組表示事實(shí)的精準(zhǔn)刻畫。通過(guò)知識(shí)圖譜,可以借助復(fù)雜網(wǎng)絡(luò)的相關(guān)技術(shù)與方法對(duì)學(xué)術(shù)大數(shù)據(jù)進(jìn)行更為高效的價(jià)值發(fā)掘,尤其是學(xué)術(shù)伙伴的預(yù)測(cè)與研究趨勢(shì)的預(yù)判。
綜上,本文以多源異構(gòu)學(xué)術(shù)大數(shù)據(jù)為數(shù)據(jù)源,從數(shù)據(jù)的獲取、數(shù)據(jù)分類、學(xué)術(shù)實(shí)體識(shí)別、學(xué)術(shù)實(shí)體間關(guān)聯(lián)關(guān)系發(fā)現(xiàn)、學(xué)術(shù)知識(shí)圖譜本體構(gòu)建以及學(xué)術(shù)知識(shí)圖譜表示與存儲(chǔ)等核心問(wèn)題入手,將多源異構(gòu)數(shù)據(jù)融合的理念引入智慧學(xué)術(shù)領(lǐng)域中學(xué)術(shù)圖譜的構(gòu)建,提出學(xué)術(shù)大數(shù)據(jù)領(lǐng)域知識(shí)圖譜構(gòu)建的理論模型。然后,系統(tǒng)闡述多源異構(gòu)數(shù)據(jù)情景中學(xué)術(shù)知識(shí)圖譜的模型構(gòu)建流程,以及圖譜構(gòu)建過(guò)程中關(guān)鍵技術(shù)問(wèn)題(如實(shí)體識(shí)別、關(guān)系抽取、知識(shí)融合等)的解決方法,并建立學(xué)術(shù)知識(shí)圖譜的本體模型,以解決單一數(shù)據(jù)源構(gòu)建學(xué)術(shù)知識(shí)圖譜時(shí)存在的信息表示不全、語(yǔ)義匱乏的問(wèn)題。本研究旨在為學(xué)術(shù)知識(shí)圖譜的理論研究和工程應(yīng)用提供方法借鑒,從而為智慧學(xué)術(shù)決策提供可靠的數(shù)據(jù)保障。以進(jìn)一步提高多源異構(gòu)數(shù)據(jù)條件下,構(gòu)建學(xué)術(shù)領(lǐng)域主題知識(shí)圖譜的科學(xué)性與準(zhǔn)確性。
1 知識(shí)圖譜概述
知識(shí)圖譜[7]是一種圖數(shù)據(jù),它具有大規(guī)模、多語(yǔ)義和高質(zhì)量等特點(diǎn),能夠通過(guò)其獨(dú)有的三元組數(shù)據(jù)表示結(jié)構(gòu)完成現(xiàn)實(shí)世界中事實(shí)的抽取。下面從知識(shí)圖譜的定義和架構(gòu)對(duì)其進(jìn)行簡(jiǎn)要描述。
1.1 知識(shí)圖譜定義
知識(shí)圖譜(Knowledge Graph,KG)從本質(zhì)上講,是一種用圖結(jié)構(gòu)表示數(shù)據(jù)的形式,由萬(wàn)維網(wǎng)發(fā)明人蒂姆·伯納斯-李(Tim Berners-Lee)提出的“語(yǔ)義網(wǎng)”概念(Semantic Web)延伸擴(kuò)展而來(lái),用符號(hào)描述客觀世界中的實(shí)體、概念、事件、屬性和相互關(guān)系[8]。其發(fā)展歷程如圖1所示。用資源描述框架(Resource Description Framework,RDF)來(lái)描述,采用“主語(yǔ)—謂詞—賓語(yǔ)”或“實(shí)體—關(guān)系—實(shí)體”的三元組結(jié)構(gòu)來(lái)表示事實(shí)。例如,三元組(Andy,Write,AAAI18)和三元組(AAAI,Publish,AAAI18)表示學(xué)者撰寫了一篇AAA18的文章,并且會(huì)議AAAI發(fā)表了文章AAAI18,其可視化表示如圖2所示。直到2012年,Google公司正式推出Google知識(shí)圖譜。知識(shí)圖譜這一數(shù)據(jù)表示方式才正式進(jìn)入公眾的視野。目前,知識(shí)圖譜已經(jīng)成為學(xué)術(shù)界和工業(yè)界使用最為廣泛的數(shù)據(jù)表示方式之一。
1.2 知識(shí)圖譜架構(gòu)
一般來(lái)講,知識(shí)圖譜架構(gòu)由自身邏輯結(jié)構(gòu)和構(gòu)建知識(shí)圖譜使用的體系結(jié)構(gòu)組成。
1)自身邏輯結(jié)構(gòu)
自身邏輯結(jié)構(gòu)由數(shù)據(jù)層和模式層兩部分構(gòu)成。其中,數(shù)據(jù)層的知識(shí)包含一系列的事實(shí),以事實(shí)為單位將知識(shí)存儲(chǔ)在圖數(shù)據(jù)庫(kù)。模式層構(gòu)建在數(shù)據(jù)層之上,是知識(shí)圖譜的核心,是數(shù)據(jù)層中知識(shí)的泛化和抽象,是知識(shí)的知識(shí)(元知識(shí))。通常用本體庫(kù)來(lái)表示,其作用相當(dāng)于數(shù)據(jù)層知識(shí)庫(kù)的模具,用于進(jìn)一步規(guī)范知識(shí)庫(kù)。
2)構(gòu)建知識(shí)圖譜體系結(jié)構(gòu)
知識(shí)圖譜構(gòu)建體系結(jié)構(gòu)是指面向特定主題運(yùn)用知識(shí)提取技術(shù)對(duì)各類數(shù)據(jù)源中的事實(shí)三元組進(jìn)行抽取,并進(jìn)行實(shí)體消歧、共指消解、知識(shí)融合、知識(shí)存儲(chǔ)、動(dòng)態(tài)更新的過(guò)程。邏輯結(jié)構(gòu)如圖3所示,虛線框代表知識(shí)圖譜的構(gòu)建過(guò)程和圖譜更新迭代。一次迭代包含信息抽取、知識(shí)融合與知識(shí)處理3個(gè)階段。通常,知識(shí)圖譜的構(gòu)建可分為自頂向下(從百度百科等信息類網(wǎng)站提取高質(zhì)量知識(shí)模板存入知識(shí)庫(kù))和自底向上(借助信息抽取技術(shù)從公開數(shù)據(jù)集中提取事實(shí)模式,采用人工審核的方式將可信度高的事實(shí)納入知識(shí)庫(kù))兩種方式。知識(shí)圖譜發(fā)展初期,由于知識(shí)抽取技術(shù)和信息加工方式的不成熟,知識(shí)圖譜的構(gòu)建多采用自頂向下的方式完成構(gòu)建,比如Freebase知識(shí)圖譜。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,特征自動(dòng)提取技術(shù)日趨成熟,越來(lái)越多的領(lǐng)域知識(shí)圖譜采用自底向上的方式構(gòu)建,如微軟的Satori。本文中,學(xué)術(shù)知識(shí)圖譜的構(gòu)建也是采用自底向上的方式嚴(yán)格按照?qǐng)D譜的體系結(jié)構(gòu)進(jìn)行構(gòu)建。
2 學(xué)術(shù)知識(shí)圖譜數(shù)據(jù)源
學(xué)術(shù)知識(shí)圖譜旨在對(duì)學(xué)術(shù)領(lǐng)域的各類數(shù)據(jù)源中所涉及的事實(shí)進(jìn)行統(tǒng)一的提取和表示。學(xué)術(shù)大數(shù)據(jù)[9]主要包括期刊論文、會(huì)議論文集、學(xué)位論文、專利、學(xué)術(shù)搜索引擎等數(shù)據(jù)源。另外,還包括在這些數(shù)據(jù)源中所隱藏的學(xué)者信息、機(jī)構(gòu)信息、論文信息等潛在數(shù)據(jù)集。
2.1 學(xué)術(shù)數(shù)據(jù)分類
通常,不同的分類原則,數(shù)據(jù)分類有所不同,學(xué)術(shù)數(shù)據(jù)也不例外。對(duì)于學(xué)術(shù)數(shù)據(jù)的分類,可從以下3方面考慮。
1)從數(shù)據(jù)自身固有的原始形態(tài)看,可以將其分為結(jié)構(gòu)化數(shù)據(jù)(如CNKI中文數(shù)據(jù)庫(kù)中記錄的論文信息等)、半結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)頁(yè)形態(tài)呈現(xiàn)的學(xué)者主頁(yè))和非結(jié)構(gòu)化數(shù)據(jù)(如學(xué)者撰寫的論文文本)。
2)從數(shù)據(jù)的表現(xiàn)形式看,可分為顯性數(shù)據(jù)(如學(xué)者論文、專利等)和隱藏?cái)?shù)據(jù)(通常指包含在顯性數(shù)據(jù)中的數(shù)據(jù),如論文中的作者信息、機(jī)構(gòu)信息、參考文獻(xiàn))。
3)從數(shù)據(jù)的組合形態(tài)看,可分為簡(jiǎn)單數(shù)據(jù)(如作者信息)和復(fù)雜數(shù)據(jù)(如學(xué)者論文)。
因而,不難發(fā)現(xiàn),同一種數(shù)據(jù)可能會(huì)呈現(xiàn)不同的分類狀態(tài)。因而,在實(shí)際數(shù)據(jù)類別劃分時(shí),可根據(jù)業(yè)務(wù)需求統(tǒng)一采用一種分類方式,以免造成數(shù)據(jù)的冗余表示。
2.2 數(shù)據(jù)獲取
學(xué)術(shù)數(shù)據(jù)本身的可靠性決定了其對(duì)應(yīng)的事實(shí)的可信度,其直接影響對(duì)應(yīng)知識(shí)圖譜的質(zhì)量。然而,已有的學(xué)術(shù)知識(shí)圖譜都是業(yè)務(wù)需求方根據(jù)自己的需求有偏向性的構(gòu)建的知識(shí)庫(kù)。比如,微軟公司開發(fā)的微軟學(xué)術(shù)圖譜(Microsoft Academic Graph,MAC),只包含作者、科研機(jī)構(gòu)、論文、期刊(會(huì)議文集)及研究領(lǐng)域(主題會(huì)議),其功能主要體現(xiàn)在文獻(xiàn)檢索,其本身是學(xué)術(shù)知識(shí)圖譜構(gòu)建的很好的數(shù)據(jù)源;清華大學(xué)唐杰研究團(tuán)隊(duì)依托自主研發(fā)的AMiner學(xué)術(shù)服務(wù)平臺(tái)構(gòu)建的科學(xué)知識(shí)圖譜(Science Knowledge Graph,SciKG),面向ACM computing Classification System,只提取了研究領(lǐng)域、專家和論文3個(gè)實(shí)體,收錄了計(jì)算機(jī)領(lǐng)域大部分的文獻(xiàn);上海交通大學(xué)的王新兵研究團(tuán)隊(duì)借助自主研發(fā)的Acemap學(xué)術(shù)搜索數(shù)據(jù)庫(kù)構(gòu)建了AceKG學(xué)術(shù)知識(shí)圖譜,聚焦計(jì)算機(jī)領(lǐng)域兼顧醫(yī)學(xué)和通訊等領(lǐng)域的學(xué)術(shù)信息,含有22億三元組數(shù)據(jù)集。
然而,現(xiàn)有學(xué)術(shù)知識(shí)圖譜突出特點(diǎn)就是數(shù)據(jù)源的選擇領(lǐng)域偏向性比較明顯,又或者過(guò)于泛化不能很好地實(shí)現(xiàn)個(gè)性化的定制需求。因此,構(gòu)建面向特定主題的領(lǐng)域垂直學(xué)術(shù)知識(shí)圖譜是進(jìn)行學(xué)術(shù)大數(shù)據(jù)縱深挖掘與知識(shí)發(fā)現(xiàn)及精準(zhǔn)的智能推薦不可或缺的環(huán)節(jié)。另外,結(jié)合垂直領(lǐng)域特定主題學(xué)術(shù)知識(shí)圖譜構(gòu)建的實(shí)際需求,需重點(diǎn)考慮以下數(shù)據(jù)資源:
1)學(xué)者主頁(yè):這類資源囊括了特定主題領(lǐng)域的杰出科研工作者的關(guān)鍵信息,比如,其所撰寫的論文,主持的科研項(xiàng)目等,這類資源的可信度高,是學(xué)術(shù)知識(shí)圖譜作者實(shí)體的重要數(shù)據(jù)來(lái)源。
2)領(lǐng)域會(huì)議論文(代表性論文):這類文章通常奠定了所涉研究主題的基礎(chǔ)框架,文章的文本內(nèi)容尤其是參考文獻(xiàn)所涵信息量大,而且影響力高,同樣也是學(xué)術(shù)知識(shí)圖譜應(yīng)該關(guān)注的重要數(shù)據(jù)源。
3)領(lǐng)域文獻(xiàn)數(shù)據(jù)庫(kù):領(lǐng)域文獻(xiàn)數(shù)據(jù)庫(kù)是對(duì)應(yīng)領(lǐng)域所有研究成果的有機(jī)整合,也是高質(zhì)量的學(xué)術(shù)大數(shù)據(jù)來(lái)源之一,文獻(xiàn)摘要、文獻(xiàn)關(guān)鍵字是文獻(xiàn)內(nèi)容的高度凝練,同樣也是學(xué)術(shù)知識(shí)圖譜的重要數(shù)據(jù)源。
4)學(xué)術(shù)社交網(wǎng):學(xué)術(shù)社交網(wǎng)是學(xué)者們交流思想,相互學(xué)習(xí)的在線交際平臺(tái),積累了大量用戶原生的學(xué)術(shù)內(nèi)容,這類用戶生成數(shù)據(jù)的專業(yè)性強(qiáng),數(shù)據(jù)量大,也是學(xué)術(shù)知識(shí)圖譜需要考慮的數(shù)據(jù)源。
總之,在設(shè)計(jì)領(lǐng)域?qū)W術(shù)知識(shí)圖譜時(shí),需盡可能的容納廣泛的數(shù)據(jù)來(lái)源,并且在抽取事實(shí)前,對(duì)數(shù)據(jù)源進(jìn)行一定的冗余處理。這樣,有助于減輕后續(xù)知識(shí)圖譜構(gòu)建過(guò)程中的實(shí)體消歧、關(guān)系消解的工作量。
3 學(xué)術(shù)知識(shí)圖譜模型構(gòu)建
文中依托知識(shí)圖譜的技術(shù)架構(gòu)構(gòu)建學(xué)術(shù)知識(shí)圖譜模型,并從現(xiàn)有的學(xué)術(shù)知識(shí)圖譜AceKG和SciKG中提取可靠的概念模式,然后再根據(jù)領(lǐng)域主題的需要選擇合適的學(xué)術(shù)數(shù)據(jù)庫(kù)、領(lǐng)域?qū)W者主頁(yè)、學(xué)術(shù)社交網(wǎng)用戶自生成內(nèi)容作為數(shù)據(jù)源進(jìn)行實(shí)體填充。
3.1 學(xué)術(shù)知識(shí)圖譜構(gòu)建流程
根據(jù)圖3知識(shí)圖譜構(gòu)建體系,繪制學(xué)術(shù)知識(shí)圖譜構(gòu)建流程如圖4所示。具體操作如下:
1)確定特定主題學(xué)術(shù)知識(shí)圖譜的數(shù)據(jù)源,其中,包括結(jié)構(gòu)化文獻(xiàn)數(shù)據(jù)源(比如Web of Science,ScienceDirect等);半結(jié)構(gòu)化數(shù)據(jù)源(比如百度學(xué)者主頁(yè),CNKI學(xué)者庫(kù)等);非結(jié)構(gòu)化數(shù)據(jù)(比如,科研之友等)。
2)將半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一轉(zhuǎn)為JSON格式進(jìn)行清洗、分詞和標(biāo)注,并進(jìn)行屬性抽取、關(guān)系抽取和實(shí)體抽取,然后以文章實(shí)體為核心發(fā)掘其與其他實(shí)體的關(guān)系,進(jìn)行實(shí)體消歧和關(guān)系消解構(gòu)建本體庫(kù),并對(duì)其進(jìn)行質(zhì)量評(píng)價(jià),形成初始的領(lǐng)域主題學(xué)術(shù)知識(shí)圖譜。
3)將結(jié)構(gòu)化數(shù)據(jù)直接轉(zhuǎn)換為知識(shí)并與從現(xiàn)有的學(xué)術(shù)知識(shí)圖譜中抽取的知識(shí)進(jìn)行實(shí)體消歧和指代消解操作,然后將其融入已構(gòu)建的領(lǐng)域主題知識(shí)圖譜。
4)對(duì)已構(gòu)建的領(lǐng)域知識(shí)圖譜進(jìn)行知識(shí)推理操作并挖掘潛在的關(guān)系,然后對(duì)新產(chǎn)生的知識(shí)進(jìn)行評(píng)價(jià),并納入知識(shí)庫(kù)。
5)對(duì)所有的知識(shí)使用RDF描述,并用Neo4j圖數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。
綜上,知識(shí)圖譜的構(gòu)建過(guò)程是一個(gè)迭代修正的過(guò)程,特別是知識(shí)的關(guān)系指代消解和實(shí)體的去歧義性操作需要反復(fù)迭代。與此同時(shí),生成的知識(shí)圖譜的知識(shí)發(fā)現(xiàn)工作也不容忽視。
3.2 學(xué)術(shù)實(shí)體識(shí)別
實(shí)體抽取(Named Entity Recognition,NER)是指從文本數(shù)據(jù)集中識(shí)別人名、機(jī)構(gòu)名等命名實(shí)體的過(guò)程[10-12]。實(shí)體抽取的質(zhì)量取決于其所采用的抽取技術(shù)是否能夠準(zhǔn)確將屬于同一概念或事物的實(shí)體的不同表達(dá)進(jìn)行統(tǒng)一的規(guī)約表示。一定程度上,實(shí)體抽取技術(shù)的好壞決定了獲取知識(shí)的價(jià)值。因而,實(shí)體識(shí)別是知識(shí)圖譜構(gòu)建的基礎(chǔ)和關(guān)鍵。通常,實(shí)體抽取的方法可歸納為兩類,主要包括:
1)手工實(shí)體抽取。利用專家編制的啟發(fā)式規(guī)則或字典分析句子的句法特征,并進(jìn)行實(shí)體的識(shí)別。比如,文獻(xiàn)摘要是按照固定的格式來(lái)撰寫的,可通過(guò)構(gòu)造相應(yīng)的學(xué)術(shù)字典進(jìn)行摘要實(shí)體的提取。
2)自動(dòng)實(shí)體抽取。機(jī)器學(xué)習(xí)是目前實(shí)體抽取比較流行的方法,其優(yōu)勢(shì)在圖譜構(gòu)建比較成熟的醫(yī)學(xué)領(lǐng)域得到證明[19-20]。常用的實(shí)體抽取方法有條件隨機(jī)域(Conditional Random Field,CRF)[13]、支持向量機(jī)(Support Vector Machine,SVM)[14]及循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[15]等。例如,在研究文獻(xiàn)主題相似度時(shí),可采用隱馬爾可夫模型提取學(xué)術(shù)數(shù)據(jù)中文章摘要中的研究對(duì)象實(shí)體。學(xué)者Collier N等[16]已將該方法成功用于MEDLINE數(shù)據(jù)庫(kù)文獻(xiàn)的摘要和正文中基因名稱的提取。另外,學(xué)者Liu X等[17]利用K最近鄰算法和條件隨機(jī)域也成功從Twitter文本中抽取相關(guān)實(shí)體。同樣,在對(duì)學(xué)者社交網(wǎng)絡(luò)中實(shí)體的識(shí)別時(shí),可采用類似的方法。與此同時(shí),學(xué)者Lin B Y等[18]通過(guò)實(shí)驗(yàn)證明,利用字符和句法信息采用雙向的LSTM-CRF模型就可高效完成帶噪聲的文本命名實(shí)體識(shí)別。
總之,隨著人工智能技術(shù)的不斷發(fā)展,各類機(jī)器學(xué)習(xí)方法將更好地滿足非結(jié)構(gòu)化文本中實(shí)體的識(shí)別,這一點(diǎn)在醫(yī)學(xué)領(lǐng)域知識(shí)圖譜構(gòu)建的實(shí)體識(shí)別中已得到較好驗(yàn)證[19-20]。
3.3 學(xué)術(shù)實(shí)體關(guān)系抽取
在學(xué)術(shù)知識(shí)圖譜的構(gòu)建過(guò)程中,實(shí)體關(guān)系的抽取與實(shí)體抽取同等重要,它是用于表征實(shí)體間相互關(guān)聯(lián)的操作。與實(shí)體抽取相似,實(shí)體關(guān)系的抽取也可劃分為基于人工構(gòu)造的語(yǔ)義規(guī)則識(shí)別實(shí)體關(guān)系和基于聯(lián)合推理的實(shí)體關(guān)系抽取。其中,針對(duì)人工構(gòu)造語(yǔ)義規(guī)則實(shí)體關(guān)系的識(shí)別,學(xué)者BANKO M等人[21]提出的開放域信息抽取框架(Open Information Extraction,OIE)是人工實(shí)體關(guān)系抽取方式的里程碑。隨后,一些學(xué)者[22-26]在OIE的基礎(chǔ)上,提出了更多的優(yōu)化的二元關(guān)系或多元關(guān)系的抽取技術(shù),如WOE[22](一種Wikipedia的OIE方法)等,該類OIE方法可用在領(lǐng)域文獻(xiàn)數(shù)據(jù)庫(kù)中文獻(xiàn)實(shí)體與作者實(shí)體關(guān)系的識(shí)別、作者實(shí)體與機(jī)構(gòu)名稱關(guān)聯(lián)關(guān)系等實(shí)體關(guān)系的抽取中。而對(duì)于非結(jié)構(gòu)化數(shù)據(jù)中實(shí)體關(guān)系的抽取,可采用基于聯(lián)合推理的實(shí)體關(guān)系的抽取方法。該類方法的典型代表是馬爾科夫邏輯網(wǎng)(Markov Logic Network,MLN),是一種將馬爾科夫網(wǎng)絡(luò)和一階謂詞邏輯融合的關(guān)系抽取技術(shù),同時(shí)也是一種將推理與OIE框架融合的高效實(shí)體關(guān)系提取模型[27]。同樣,基于該模型也衍生出了許多改良的模型。如學(xué)者楊博等[28]提出的簡(jiǎn)易Markov邏輯(Tractable Markov Logic,TML),主要用于抽取實(shí)體或概念之間的層次化關(guān)系。因而,此類方法能夠較好地滿足非結(jié)構(gòu)化數(shù)據(jù)中實(shí)體關(guān)系的提取,如文獻(xiàn)數(shù)據(jù)庫(kù)中文章自身與其所引用的參考文獻(xiàn)的關(guān)系抽取。
3.4 學(xué)術(shù)實(shí)體鏈接與知識(shí)融合
學(xué)術(shù)實(shí)體鏈接是指將多源異構(gòu)數(shù)據(jù)源中經(jīng)過(guò)實(shí)體對(duì)齊操作的實(shí)體通過(guò)已抽取的關(guān)系關(guān)聯(lián)起來(lái),更好地表示不同數(shù)據(jù)源中實(shí)體的語(yǔ)義關(guān)系,進(jìn)而實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)語(yǔ)義的統(tǒng)一表征。然而,不同的期刊文獻(xiàn)的作者姓名、參考文獻(xiàn)格式也不盡相同,尤其是關(guān)鍵字的中英文等價(jià)關(guān)聯(lián),以及文章摘要內(nèi)容中實(shí)體的上下文指代不明給實(shí)體鏈接造成巨大的困難。針對(duì)類似實(shí)體鏈接問(wèn)題,一方面,可抽取實(shí)體自身特征并構(gòu)建特征向量進(jìn)行相似度計(jì)算,并評(píng)估實(shí)體間的相似度。如學(xué)者Pedersen T等[29]利用奇異值分解技術(shù)對(duì)實(shí)體自身的文本向量空間進(jìn)行分解,得到給定維度的淺層語(yǔ)義特征,用以計(jì)算待鏈接實(shí)體與目標(biāo)實(shí)體的關(guān)聯(lián)度;另一方面,可根據(jù)實(shí)體的上下文背景信息進(jìn)行關(guān)聯(lián)度評(píng)估。如,學(xué)者Wang C等[26]依托詞袋模型對(duì)待鏈接實(shí)體所在頁(yè)面的上下文信息和目標(biāo)實(shí)體所在語(yǔ)料的上下文信息構(gòu)造特征向量進(jìn)行相似度評(píng)估,作為實(shí)體鏈接的依據(jù)。
知識(shí)融合是知識(shí)再重構(gòu),是指在統(tǒng)一標(biāo)準(zhǔn)下將不同數(shù)據(jù)源的知識(shí)進(jìn)行整合、消歧、加工、更新等操作的過(guò)程,進(jìn)而優(yōu)化知識(shí)圖譜,并提升圖譜質(zhì)量。其主要包括兩個(gè)關(guān)鍵步驟:實(shí)體對(duì)齊和實(shí)體填充。其中,實(shí)體對(duì)齊是指知識(shí)的動(dòng)態(tài)融合,即識(shí)別出同一對(duì)象在不同數(shù)據(jù)源、不同語(yǔ)言、不同地域以及同一數(shù)據(jù)源中同一實(shí)體的不同表現(xiàn)形式,然后,用一個(gè)全局的唯一的實(shí)體統(tǒng)一表征。比如,論文中作者姓名的表示,不同的期刊有不同的格式要求,那么,如何將同一作者的不同格式的姓名進(jìn)行正確識(shí)別并統(tǒng)一表示,便是實(shí)體對(duì)齊的主要任務(wù);實(shí)體填充是指在特定的語(yǔ)境下為實(shí)體賦予合理的特征,使其能夠正確的被人和機(jī)器理解和區(qū)分。比如,把文獻(xiàn)當(dāng)作一類實(shí)體,在文獻(xiàn)數(shù)據(jù)庫(kù)中檢索時(shí),便會(huì)出現(xiàn)對(duì)文獻(xiàn)應(yīng)的標(biāo)題、作者、摘要、引用量等描述該實(shí)體的特征。這些特征便是對(duì)文獻(xiàn)實(shí)體的合理表示。
3.5 學(xué)術(shù)知識(shí)圖譜本體模型
本體是特定領(lǐng)域不同實(shí)體之間進(jìn)行連通與交流的語(yǔ)義載體,概念上具有嚴(yán)格的“ISA”關(guān)系[30]??刹捎檬謩?dòng)方式構(gòu)建也可采用自動(dòng)的方式生成。在學(xué)術(shù)知識(shí)圖譜構(gòu)建中,本體模型的描述以論文為資源為核心,而且其自身也包含了許多屬性,如論文的作者、論文的分類號(hào)、論文的主題等。它的主要載體有期刊論文集合會(huì)議論文集。其中,將期刊(如情報(bào)雜志)所收錄的指定主題的文章集合稱為期刊論文集;將會(huì)議(如Special Interest Group on Knowledge Discovery and Data Mining,ACM SIGKDD)所收錄的特定領(lǐng)域的文章的集合稱為會(huì)議論文集。另外,論文與論文之間也包含一系列的相關(guān)屬性,如共同作者、共同領(lǐng)域等。并且,論文也有與之相關(guān)聯(lián)的隸屬于特定機(jī)構(gòu)的作者。其相互之間的關(guān)聯(lián)關(guān)系形成了學(xué)術(shù)知識(shí)圖譜的本體模型,如圖5所示。
3.6 學(xué)術(shù)知識(shí)圖譜表示與存儲(chǔ)
知識(shí)圖譜的表示和存儲(chǔ)是指將學(xué)術(shù)實(shí)體以及實(shí)體之間的關(guān)系按照一定的數(shù)據(jù)描述模型(如RDF和圖數(shù)據(jù)庫(kù))進(jìn)行存儲(chǔ)的過(guò)程。其中,RDF數(shù)據(jù)模型的使用較為常見,國(guó)內(nèi)的一些學(xué)者[31-32]已將其成功的用于醫(yī)學(xué)領(lǐng)域知識(shí)圖譜的存儲(chǔ)中。同樣,在構(gòu)建學(xué)術(shù)知識(shí)圖譜時(shí),也可采用RDF描述模型進(jìn)行圖譜的存儲(chǔ)。例如,構(gòu)建以“文章”實(shí)體為中心的學(xué)術(shù)圖譜時(shí),每一個(gè)實(shí)體都有一個(gè)URL與之對(duì)應(yīng),通過(guò)URL就能跳轉(zhuǎn)到對(duì)應(yīng)的實(shí)體,實(shí)現(xiàn)實(shí)體之間的關(guān)聯(lián)。比如,圖2的RDF偽代碼示意圖如圖6所示。另外,知識(shí)圖譜本身也是一種圖結(jié)構(gòu)。因而,也可利用圖數(shù)據(jù)庫(kù)存儲(chǔ)知識(shí)圖譜中的實(shí)體和實(shí)體間的關(guān)系。以Neo4j圖數(shù)據(jù)庫(kù)為例,通過(guò)局部代碼片段如表1,展示學(xué)術(shù)知識(shí)圖譜中實(shí)體的可視化交互效果如圖7所示。
4 結(jié) 語(yǔ)
學(xué)術(shù)知識(shí)圖譜不僅能夠?yàn)闃?gòu)建智慧學(xué)術(shù)的相關(guān)服務(wù)提供知識(shí)支撐,而且也能為學(xué)術(shù)領(lǐng)域多源異構(gòu)數(shù)據(jù)的統(tǒng)一表示提供有效的解決措施。本文針對(duì)智慧學(xué)術(shù)服務(wù)的實(shí)際需求,提出了融合多種不同類型數(shù)據(jù)源的學(xué)術(shù)知識(shí)圖譜的概念模型,該模型主要包括各類學(xué)術(shù)數(shù)據(jù)的獲取、學(xué)術(shù)實(shí)體識(shí)別、學(xué)術(shù)實(shí)體鏈接與知識(shí)融合、學(xué)術(shù)知識(shí)圖譜本體構(gòu)建、學(xué)術(shù)知識(shí)圖譜表示與存儲(chǔ)等關(guān)鍵操作步驟?;诙嘣串悩?gòu)學(xué)術(shù)數(shù)據(jù)融合的理念,提出了學(xué)術(shù)知識(shí)圖譜構(gòu)建的基本框架,詳細(xì)闡述了學(xué)術(shù)知識(shí)圖譜實(shí)現(xiàn)的完整流程以及學(xué)術(shù)知識(shí)圖譜的本體模型。通過(guò)多源異構(gòu)數(shù)據(jù)融合的方式解決了單數(shù)據(jù)源構(gòu)建學(xué)術(shù)知識(shí)圖譜時(shí)存在的信息不全、語(yǔ)義缺失的問(wèn)題。通過(guò)研究知識(shí)圖譜構(gòu)建中涉及的實(shí)體識(shí)別、關(guān)系抽取、實(shí)體鏈接等關(guān)鍵技術(shù),挖掘適合學(xué)術(shù)領(lǐng)域數(shù)據(jù)源特征的相關(guān)技術(shù),以提高學(xué)術(shù)數(shù)據(jù)源實(shí)體識(shí)別、關(guān)系抽取、實(shí)體鏈接的準(zhǔn)確性。通過(guò)分析知識(shí)圖譜構(gòu)建流程和本體模型的實(shí)現(xiàn)方法,提出適用于學(xué)術(shù)領(lǐng)域的圖譜構(gòu)建流程和本體模型,以提升學(xué)術(shù)知識(shí)圖譜構(gòu)建的規(guī)范性和可靠性。從而,為多源異構(gòu)數(shù)據(jù)融合的學(xué)術(shù)知識(shí)圖譜的構(gòu)建提供客觀依據(jù)。
下一步的研究,我們將以“圖書情報(bào)學(xué)領(lǐng)域”的學(xué)術(shù)信息為數(shù)據(jù)源,依托文中提出的知識(shí)圖譜框架模型構(gòu)建圖書情報(bào)領(lǐng)域的學(xué)術(shù)知識(shí)圖譜。從模式定義、數(shù)據(jù)源分析、詞匯挖掘、實(shí)體發(fā)現(xiàn)、關(guān)系發(fā)現(xiàn)、知識(shí)融合、質(zhì)量控制7個(gè)步驟完成圖書情報(bào)學(xué)領(lǐng)域知識(shí)圖譜實(shí)現(xiàn),尤其注重圖譜實(shí)現(xiàn)過(guò)程中的知識(shí)抽取、知識(shí)加工、知識(shí)更新的精準(zhǔn)度研究。同時(shí),我們將利用生成的知識(shí)圖譜對(duì)圖書情報(bào)領(lǐng)域的研究發(fā)展脈絡(luò)進(jìn)行精準(zhǔn)的呈現(xiàn),預(yù)測(cè)圖書情報(bào)領(lǐng)域可能存在的研究熱點(diǎn),分析并挖掘圖書情報(bào)領(lǐng)域文章的引用模式,預(yù)測(cè)圖書情報(bào)領(lǐng)域潛在的學(xué)術(shù)合作關(guān)系等,以進(jìn)一步豐富圖書情報(bào)領(lǐng)域智慧學(xué)術(shù)的研究?jī)?nèi)涵及解決路徑。
參考文獻(xiàn)
[1]Khan S,Liu X,Shakil K A,et al.A Survey on Scholarly Data:From Big Data Perspective[J].Information Processing & Management,2017,53(4):923-944.
[2]Nelson B.Make the Web Work for You[J].Google,2012.
[3]Bizer C,Lehmann J,Kobilarov G,et al.DBpedia-A Crystallization Point for the Web of Data[J].Social Science Electronic Publishing,2009,7(3):154-165.
[4]Suchanek F M,Kasneci G,Weikum A G.Yago-A Large Ontology from Wikipedia and WordNet[J].Web Semantics Science Services & Agents on the World Wide Web,2008,6(3):203-217.
[5]Bollacker K,Cook R,Tufts P.Freebase:A Shared Database of Structured General Human Knowledge[C]//Aaai Conference on Artificial Intelligence.DBLP,2007.
[6]Niu X,Sun X,Wang H,et al.Zhishi.me-Weaving Chinese Linking Open Data[C]//The Semantic Web-ISWC 2011-10th International Semantic Web Conference,Bonn,Germany,October 23-27,2011,Proceedings,Part Ⅱ.Springer-Verlag,2011.
[7]Wang Q,Mao Z,Wang B,et al.Knowledge Graph Embedding:A Survey of Approaches and Applications[J].IEEE Transactions on Knowledge & Data Engineering,2017,29(12):2724-2743.
[8]Rezk E,F(xiàn)oufou S.A Survey of Semantic Web Concepts Applied in Web Services and Big Data[C]//IEEE/ACS International Conference on Computer Systems & Applications.IEEE,2015.
[9]Xia F,Wang W,Bekele T M,et al.Big Scholarly Data:A Survey[J].IEEE Transactions on Big Data,2017,3(1):18-35.
[10]Nadeau D,Sekine S.A Survey of Named Entity Recognition and Classification[J].Lingvisticae Investigationes,2007,30(1):3-26.
[11]Pletscher-Frankild S,Jensen L J.Design,Implementation,and Operation of a Rapid,Robust Named Entity Recognition Web Service[J].Journal of Cheminformatics,2019,11(1).
[12]Zhang H,Guo Y,Li T.Multifeature Named Entity Recognition in Information Security Based on Adversarial Learning[J].Security and Communication Networks,2019,2019(2):1-9.
[13]Zhang L,Li H,Shen P,et al.Improving Semantic Image Segmentation with a Probabilistic Superpixel-based Dense Conditional Random Field[J].IEEE Access,2018:1-1.
[14]de Lima Márcio Dias,Luiza C N,Rommel B.Improvements on Least Squares Twin Multi-Class Classification Support Vector Machine[J].Neurocomputing,2018.