王昊奮,丁 軍,胡芳槐,王 鑫
(1.同濟(jì)大學(xué) 設(shè)計(jì)創(chuàng)意學(xué)院,上海 200092; 2.海乂知信息科技(南京)有限公司,南京 210008;3.天津大學(xué) 智能與計(jì)算學(xué)部,天津 300354)
知識是機(jī)器實(shí)現(xiàn)認(rèn)知智能不可或缺的基礎(chǔ),而知識圖譜則是用于表示、處理與運(yùn)用知識的關(guān)鍵技術(shù),能夠使機(jī)器理解知識并在此基礎(chǔ)上進(jìn)行相應(yīng)的推理計(jì)算。知識圖譜以其強(qiáng)大的語義表達(dá)、存儲和推理能力,為互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)知識化組織和智能應(yīng)用提供了有效的解決方案。知識圖譜的構(gòu)建及其應(yīng)用一方面引起了學(xué)術(shù)界的密切關(guān)注,大量研究者對知識圖譜相關(guān)技術(shù)進(jìn)行了深入的研究,包括知識獲取、知識融合、知識計(jì)算、語義搜索和知識問答等;另一方面,大規(guī)模知識圖譜在解決實(shí)際問題時(shí)效果顯著,也得到了工業(yè)界的青睞,以微軟、谷歌、臉譜、eBay和IBM為代表的國際巨頭與BAT、華為和小米等國內(nèi)大型互聯(lián)網(wǎng)企業(yè)在其產(chǎn)品和產(chǎn)業(yè)應(yīng)用中均使用了知識圖譜及其相關(guān)的關(guān)鍵技術(shù)[1]。
現(xiàn)有的綜述文獻(xiàn)多數(shù)偏向于闡述知識圖譜相關(guān)技術(shù)的研究,包括知識圖譜的總體研究綜述[2-3]以及面向特定子領(lǐng)域的研究,如知識表示學(xué)習(xí)[4-5]、知識融合[6-7]、知識存儲[8-10]、知識推理[11-13]、知識補(bǔ)全[14]等,文獻(xiàn)[3,15-16]也系統(tǒng)地介紹了在特定領(lǐng)域場景中使用相關(guān)技術(shù)進(jìn)行知識圖譜構(gòu)建的研究。但上述工作沒有涉及工程化流程與知識圖譜平臺的建設(shè)。本文對知識圖譜的相關(guān)技術(shù)進(jìn)行綜述,著重研究知識圖譜在企業(yè)級應(yīng)用場景中的工程實(shí)踐,包括典型的工業(yè)級知識圖譜應(yīng)用場景、知識圖譜工程落地的生命周期、企業(yè)級知識圖譜平臺的構(gòu)建以及中臺化演進(jìn)等。
知識圖譜最早于2012年由谷歌公司正式提出[17],其初衷是為了改善搜索性能,提升用戶搜索體驗(yàn)。目前對知識圖譜沒有統(tǒng)一的定義,普遍被接受的一種定義為:知識圖譜本質(zhì)上是一種語義網(wǎng)絡(luò),網(wǎng)絡(luò)中的節(jié)點(diǎn)代表實(shí)體或者概念,邊代表實(shí)體/概念之間的各種語義關(guān)系。一種更為寬泛的定義為:知識圖譜使用圖作為媒介來組織與利用大規(guī)模不同類型的數(shù)據(jù),并表達(dá)明確的通用或領(lǐng)域知識。
從覆蓋的領(lǐng)域來看,知識圖譜可以分為通用知識圖譜和行業(yè)知識圖譜。前者面向開放領(lǐng)域,而后者則面向特定的行業(yè)。通用知識圖譜強(qiáng)調(diào)的是廣度,即更多的實(shí)體,通常難以形成完整的全局性的本體規(guī)范。行業(yè)知識圖譜主要用于輔助各種復(fù)雜的分析應(yīng)用及決策支持場景,它需要考慮領(lǐng)域中的典型業(yè)務(wù)場景及參與人員的背景和交互方式,因而需要完備性和嚴(yán)格且豐富的模式定義,并保證對應(yīng)的實(shí)例知識具有豐富的維度,即一定的深度。行業(yè)知識圖譜當(dāng)前已經(jīng)在金融證券、生物醫(yī)療、圖書情報(bào)、電商、農(nóng)業(yè)、政務(wù)、運(yùn)營商和傳媒等行業(yè)中得到了較多成功的應(yīng)用。企業(yè)級的知識圖譜應(yīng)用通常是基于行業(yè)知識圖譜提供智能服務(wù),可以是面向一個(gè)行業(yè),也可以是多個(gè)行業(yè)的結(jié)合。因此,對于企業(yè)級知識圖譜平臺,將圍繞行業(yè)知識圖譜的管理進(jìn)行建設(shè)。
隨著知識圖譜在各行業(yè)應(yīng)用范圍不斷擴(kuò)大,知識圖譜技術(shù)的相關(guān)研究得到了大量研究者的關(guān)注。文獻(xiàn)[2]從知識表示學(xué)習(xí)、知識獲取與知識補(bǔ)全、時(shí)態(tài)知識圖譜和知識圖譜應(yīng)用等方面進(jìn)行了全面的綜述。在此基礎(chǔ)上,本文分別從知識表示學(xué)習(xí)、知識獲取與補(bǔ)全、知識融合、知識存儲與圖計(jì)算、知識推理、基于知識圖譜的問答6個(gè)方面介紹知識圖譜研究進(jìn)展,并闡述事件圖譜與事理圖譜等圖譜發(fā)展熱點(diǎn)。
1.2.1 知識表示學(xué)習(xí)
知識表示學(xué)習(xí)是面向知識圖譜中實(shí)體(或概念)和關(guān)系的表示學(xué)習(xí)。通過將實(shí)體或關(guān)系投影到低維稠密向量(嵌入表示),實(shí)現(xiàn)對實(shí)體和關(guān)系的語義信息的表示,能夠高效地計(jì)算實(shí)體、關(guān)系及其之間的復(fù)雜語義關(guān)聯(lián)。
知識學(xué)習(xí)方法可以分為基于翻譯距離模型的方法和基于語義匹配模型的方法。前者代表模型有高斯嵌入[18]、TransE及其擴(kuò)展[19-21],后者代表模型有RESCAL[22]及其擴(kuò)展模型DistMult[23]、ComplEx[24]和神經(jīng)網(wǎng)絡(luò)匹配模型[25]。另一個(gè)相關(guān)的研究領(lǐng)域是網(wǎng)絡(luò)嵌入[26-28],其側(cè)重于考慮如何充分利用節(jié)點(diǎn)在網(wǎng)絡(luò)中的復(fù)雜結(jié)構(gòu)信息,包括保留網(wǎng)絡(luò)結(jié)構(gòu)與屬性的方法如SDNE算法[29]、保留邊信息的LANE方法[30]和融合節(jié)點(diǎn)文本屬性的方法[31]。隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的語義匹配模型和圖神經(jīng)網(wǎng)絡(luò)成為知識圖譜表示的研究熱點(diǎn)[32]。
1.2.2 知識獲取與補(bǔ)全
知識獲取與補(bǔ)全是知識圖譜構(gòu)建過程中最重要的基礎(chǔ)環(huán)節(jié)。前者從數(shù)據(jù)中獲取新知識,主要包括實(shí)體識別和關(guān)系發(fā)現(xiàn),而后者是對現(xiàn)有知識圖譜進(jìn)行擴(kuò)充。
早期的知識獲取方法主要為基于語言學(xué)模式的方法,而最近的研究主要聚焦于基于深度學(xué)習(xí)的方法[33-34],其中使用Transformer模型的大規(guī)模預(yù)訓(xùn)練模型(如BERT)在實(shí)體識別等任務(wù)上取得了更佳的性能[35]。同時(shí),遠(yuǎn)程監(jiān)督學(xué)習(xí)[36-38]也被廣泛應(yīng)用于語料難以獲取的場景。
知識圖譜補(bǔ)全[14,39]通過相應(yīng)的推理和補(bǔ)全算法擴(kuò)展現(xiàn)有的知識圖譜,包括基于嵌入的排序補(bǔ)全算法、關(guān)系路徑推理算法、基于深度強(qiáng)化學(xué)習(xí)的算法和基于規(guī)則的推理算法等。
1.2.3 知識融合
知識融合是指在多種來源的碎片化數(shù)據(jù)中獲取結(jié)構(gòu)各異、語義多樣和動態(tài)演化的知識,通過沖突檢測和一致性檢查,對知識進(jìn)行正確性判斷。知識融合按融合階段分類包括知識評估和知識擴(kuò)充[6];而從人機(jī)協(xié)作角度來看,知識融合分為基于知識庫的知識融合[40-42]、基于人工的知識融合以及基于知識庫與人工協(xié)作相結(jié)合的知識融合[43]。
1.2.4 知識存儲與圖分析計(jì)算
大規(guī)模知識圖譜的存儲以三元組存儲為核心,同時(shí)還包括其他類型知識的存儲。三元組知識的存儲主要有資源描述框架(Resource Description Framework,RDF)存儲和圖數(shù)據(jù)庫兩種類型,前者以RDF圖模型為基礎(chǔ),后者多數(shù)采用屬性圖數(shù)據(jù)模型。由于圖數(shù)據(jù)庫已成為當(dāng)前使用的主流,因此本文重點(diǎn)關(guān)注圖數(shù)據(jù)庫相關(guān)的工作以及在存儲上的圖分析計(jì)算。
知識存儲與圖分析計(jì)算相關(guān)研究主要側(cè)重于RDF圖譜數(shù)據(jù)管理[8-9]、圖數(shù)據(jù)查詢[44]、圖譜計(jì)算框架[45-46]等方面。文獻(xiàn)[10]從知識圖譜數(shù)據(jù)模型、知識圖譜查詢語言、知識圖譜存儲管理和知識圖譜查詢4個(gè)方面對知識圖譜數(shù)據(jù)管理相關(guān)研究進(jìn)行了綜述。文獻(xiàn)[45]則從圖計(jì)算框架方面出發(fā)進(jìn)行了綜述。
1.2.5 知識推理
推理是指基于已知的事實(shí)或知識推斷得出未知的隱藏事實(shí)或知識的過程。面向知識圖譜的知識推理[11]通??梢苑譃榛谝?guī)則的推理[47-48]、基于知識表示學(xué)習(xí)的推理[5]、基于神經(jīng)網(wǎng)絡(luò)的推理[49-50]和混合推理[51]?;谝?guī)則的推理方法具有較高的準(zhǔn)確率,但難以擴(kuò)展和平移;基于神經(jīng)網(wǎng)絡(luò)的推理方法具備更好的推理、學(xué)習(xí)和泛化能力,但神經(jīng)網(wǎng)絡(luò)結(jié)果不可預(yù)測和解析。因此,研究者提出混合推理以結(jié)合不同推理方法之間的優(yōu)勢[51]。例如,基于神經(jīng)-符號整合的推理[13]能夠?qū)⒎栂到y(tǒng)的透明性和推理能力與人工神經(jīng)網(wǎng)絡(luò)的健壯性和學(xué)習(xí)能力相結(jié)合。
1.2.6 基于知識圖譜的問答
基于知識圖譜的知識問答(Knowledge graph Based Question Answer,KBQA)給定自然語言問題,通過對問題進(jìn)行語義理解和解析,進(jìn)而利用知識庫進(jìn)行查詢,推理得出答案。
KBQA主要方法有基于語義解析的方法[52]、基于信息抽取的方法[53]和基于向量建模的方法[54]。隨著深度學(xué)習(xí)的發(fā)展,知識表示學(xué)習(xí)和語義解析得益于神經(jīng)網(wǎng)絡(luò)的非線性表達(dá)能力對語義進(jìn)行更好的建模,基于知識表示學(xué)習(xí)的KBQA和語義解析結(jié)合深度學(xué)習(xí)成為KBQA的主流方向。然而,多樣化理解用戶意圖和語義的歧義性仍然是KBQA的主要挑戰(zhàn)[53]。
1.2.7 事件知識圖譜
事件知識圖譜對于事件的建模具有明顯的語義表達(dá)優(yōu)勢,有利于事件鏈知識推理。事件知識圖譜相關(guān)的研究主要聚焦在事件抽取[55]、事件推理和事理圖譜。事件抽取的任務(wù)包括觸發(fā)詞檢測、觸發(fā)詞事件分類、事件元素識別和事件元素角色識別。事件推理的相關(guān)工作主要包括事件因果關(guān)系推理、腳本事件推理、常識級別事件產(chǎn)生的意圖和反映推理以及周期性事件時(shí)間推理等,是一個(gè)事理邏輯知識庫,描述事件之間的演化規(guī)律和模式,結(jié)構(gòu)上是一個(gè)有向有環(huán)圖,其中,節(jié)點(diǎn)代表事件,邊代表事件之間的關(guān)系(順承、因果等)。
知識圖譜的應(yīng)用需要綜合利用多方面的技術(shù),即知識圖譜的構(gòu)建涉及知識建模、實(shí)體識別、關(guān)系抽取、關(guān)系推理、實(shí)體融合等技術(shù),而知識圖譜的應(yīng)用則涉及到語義搜索、智能問答、語言理解、決策分析等多個(gè)領(lǐng)域??傮w而言,構(gòu)建并應(yīng)用知識圖譜需要系統(tǒng)性地利用包括知識表示、數(shù)據(jù)庫、自然語言處理、機(jī)器學(xué)習(xí)等多方面技術(shù)。
規(guī)?;闹R圖譜工程落地需要有完整的工程化流程作為指導(dǎo)。在通常場景下其流程為:首先確定知識表示模型,進(jìn)行知識建模;然后進(jìn)行數(shù)據(jù)收集,根據(jù)數(shù)據(jù)來源選擇不同的知識獲取方法,并對不同來源、不同方法獲取的知識進(jìn)行融合;其次需要綜合利用知識推理、知識挖掘等技術(shù)對所構(gòu)建的知識圖譜進(jìn)行質(zhì)量評估與補(bǔ)全;最后根據(jù)場景需求設(shè)計(jì)不同的知識應(yīng)用場景,如語義搜索、問答交互、圖譜可視化分析等。在經(jīng)過大量知識圖譜研究與產(chǎn)業(yè)化落地實(shí)踐后,逐步形成行業(yè)知識圖譜應(yīng)用落地的全流程,稱為行業(yè)知識圖譜的全生命周期,包括知識建模、知識獲取、知識融合、知識存儲、知識計(jì)算與知識應(yīng)用階段。
知識建模的主要目標(biāo)是為知識圖譜定義本體,其主要挑戰(zhàn)有包括多類型數(shù)據(jù)的知識表示和自動或者半自動地生成模式層知識。知識建模通常采用兩種方式,一是自頂向下(Top-Down)的、專家定義的方法,二是自底向上(Bottom-Up)的、數(shù)據(jù)驅(qū)動的規(guī)約方法,從數(shù)據(jù)中通過自動映射、歸納等方法生成模式知識。
知識獲取是指從不同來源、不同類型的數(shù)據(jù)中進(jìn)行知識提取并存入知識圖譜的過程,其主要挑戰(zhàn)包括從多源異構(gòu)的數(shù)據(jù)中抽取知識、自動或半自動地從非結(jié)構(gòu)化的數(shù)據(jù)中抽取所獲取知識的準(zhǔn)確率以及解決樣本數(shù)據(jù)稀疏問題。
知識融合的目標(biāo)是對從多源異構(gòu)的數(shù)據(jù)中獲取到的知識進(jìn)行融合從而形成統(tǒng)一、一致的知識放入知識圖譜,通常分為模式層的知識融合和實(shí)例層的知識融合。
知識存儲的目標(biāo)是實(shí)現(xiàn)各類知識的存儲,包括基本實(shí)體知識、屬性知識、關(guān)系知識、事件知識、時(shí)序知識和業(yè)務(wù)規(guī)則知識等,其主要挑戰(zhàn)包括實(shí)現(xiàn)對多種類型知識的存儲以及實(shí)現(xiàn)大規(guī)模知識圖譜數(shù)據(jù)查詢、推理、計(jì)算等過程的高速存取。
知識計(jì)算主要包括圖挖掘計(jì)算和知識推理。圖挖掘計(jì)算是指基于圖論的相關(guān)算法實(shí)現(xiàn)對知識圖譜數(shù)據(jù)的探索、挖掘與嵌入,其主要挑戰(zhàn)在于大規(guī)模圖算法的效率。知識推理的關(guān)鍵挑戰(zhàn)包括大數(shù)據(jù)量下的快速推理以及對于增量知識和規(guī)則的快速加載。
隨著知識圖譜的發(fā)展,其應(yīng)用場景不斷增多,最典型的應(yīng)用為語義搜索、智能問答和可視化決策支持。對于語義搜索和智能問答,主要難點(diǎn)在于對用戶的輸入進(jìn)行準(zhǔn)確的意圖理解;而對于可視化決策支持而言,一方面需要提供良好的用戶交互方式實(shí)現(xiàn)與數(shù)據(jù)及算法的接口,另一方面還需要下層服務(wù)的有效性以及快速響應(yīng)。
總體而言,行業(yè)知識圖譜落地是一個(gè)系統(tǒng)性的工程問題,需要有上述生命周期的完整理論支撐,同時(shí)還需要有相應(yīng)的技術(shù)、算法和工具落地。因而在工業(yè)級的應(yīng)用場景中,通常會圍繞生命周期構(gòu)建相應(yīng)的行業(yè)知識圖譜平臺,然后在平臺的基礎(chǔ)上進(jìn)行應(yīng)用的構(gòu)建。
本節(jié)首先描述知識圖譜相關(guān)的工業(yè)級應(yīng)用,然后介紹知識圖譜相關(guān)的系統(tǒng)平臺,以及生命周期各環(huán)節(jié)應(yīng)用的工具。本文所討論的平臺或工具以開源的產(chǎn)品為主,同時(shí)也包含一些在領(lǐng)域中具有較大影響力的商業(yè)產(chǎn)品。
以搜索為主要應(yīng)用場景的案例有谷歌知識圖譜、微軟必應(yīng)知識圖譜、百度知識圖譜和搜狗知識圖譜等。谷歌知識圖譜是于2012年提出的用于改善搜索的知識圖譜,用戶進(jìn)行實(shí)體有關(guān)的查詢時(shí)會發(fā)現(xiàn)結(jié)果中還包括了知識圖譜提供的事實(shí)。目前它涵蓋了廣泛的主題,包括超過10億個(gè)實(shí)體和700億條事實(shí)。微軟必應(yīng)知識圖譜包含物理世界的知識,如人物、地點(diǎn)、事物、組織、位置等類型的實(shí)體,以及用戶可能采取的行為。覆蓋范圍、正確性和時(shí)效性是該圖譜質(zhì)量和實(shí)用性的關(guān)鍵因素。臉書擁有全球最大的社交圖譜,該圖譜以用戶為中心,同時(shí)包括用戶關(guān)心的其他信息如興趣愛好、從事行業(yè)等信息。臉書的圖譜主要用于提升用戶對臉書產(chǎn)品的體驗(yàn),包括內(nèi)容搜索和興趣推薦等。阿里和易趣擁有大規(guī)模的商品知識圖譜服務(wù)于其電商平臺,實(shí)現(xiàn)了基于大規(guī)模知識圖譜的快速搜索與推薦,從而提升了用戶體驗(yàn)并提高了商品銷售量。
在工業(yè)級知識圖譜應(yīng)用快速增長的帶動下,一些工業(yè)級的知識圖譜平臺也相應(yīng)被推出。
2.2.1 Palantir平臺
Palantir是用于知識圖譜創(chuàng)建、管理、搜索、發(fā)現(xiàn)、挖掘和積累的可擴(kuò)展的大數(shù)據(jù)分析平臺。通過結(jié)合動態(tài)本體論思想和自身數(shù)據(jù)整合能力,形成以知識圖譜為基礎(chǔ)的知識管理體系,通過圖挖掘、本體推理等算法引擎賦能知識圖譜,為搜索和知識發(fā)現(xiàn)提供數(shù)據(jù)支撐,同時(shí)支持協(xié)同工作分析,而且整個(gè)分析過程以可視化、交互式的方式進(jìn)行。Palantir目前擁有兩大產(chǎn)品線:Palantir Gotham和Palantir Metropolis,分別應(yīng)用于國防安全與金融領(lǐng)域,形成了包括反欺詐、網(wǎng)絡(luò)安全、國防安全、危機(jī)應(yīng)對、保險(xiǎn)分析、疾病控制、智能化決策等解決方案。Palantir通過整理、分析、利用不同來源的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),構(gòu)成了一種人腦決策和計(jì)算機(jī)智能共生的大數(shù)據(jù)分析環(huán)境及工具系統(tǒng),通過可視化技術(shù)形成“人機(jī)共生”的可視化大數(shù)據(jù)交互探索分析能力,從而促進(jìn)人腦和大數(shù)據(jù)分析互補(bǔ),提升客戶的決策洞察力。
2.2.2 IBM Watson Discovery知識圖譜框架
IBM開發(fā)了Watson Discovery服務(wù)及其相關(guān)產(chǎn)品所使用的知識圖譜框架,在外部許多行業(yè)中也進(jìn)行了部署應(yīng)用。IBM Watson知識圖譜框架有兩種典型的應(yīng)用場景:一是直接使用結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù)來發(fā)現(xiàn)新的知識為下游產(chǎn)品提供服務(wù);二是該框架允許用戶以預(yù)先構(gòu)建的知識圖譜為基礎(chǔ)來構(gòu)建自己的知識圖譜。該知識圖譜框架的特性包括:1)使用了多態(tài)存儲,支持多種索引、數(shù)據(jù)庫結(jié)構(gòu)、內(nèi)存數(shù)據(jù)庫和圖存儲,將數(shù)據(jù)分布到多個(gè)存儲庫中,每個(gè)存儲庫滿足特定的應(yīng)用需求和工作負(fù)載;2)保留原始“證據(jù)”, 這些元數(shù)據(jù)和其他相關(guān)信息通常在后續(xù)的知識應(yīng)用非常重要;3)可推遲實(shí)體消歧,因?yàn)樵趧?chuàng)建過程中消歧通常會損失實(shí)體的原有信息,這和知識發(fā)現(xiàn)的目標(biāo)相沖突。
2.2.3 Oracle知識圖譜平臺
Oracle知識圖譜平臺基于其自身多年的存儲經(jīng)驗(yàn),在具有明顯優(yōu)勢的存儲層上進(jìn)行構(gòu)建,上層通過W3C標(biāo)準(zhǔn)的RDF和OWL組織和表示圖譜,使用SPARQL對數(shù)據(jù)統(tǒng)一查詢服務(wù)。平臺支持兩種圖的表示方式:屬性圖(Property Graph)和RDF三元組。前者適合各種圖計(jì)算如最短路徑、權(quán)重排序和中心性(Betweenness)等,而后者適合進(jìn)行知識的推理。Oracle知識圖譜平臺的主要特性是對數(shù)據(jù)存儲與訪問的支持性比較好,可以實(shí)現(xiàn)基于內(nèi)存的并行圖計(jì)算,提供許多工具完成從各種大數(shù)據(jù)平臺、關(guān)系數(shù)據(jù)庫到知識圖譜的映射與轉(zhuǎn)換。
2.2.4 Metaphactory平臺
Metaphactory提供了一套從知識存儲、知識管理到知識查詢與應(yīng)用開發(fā)的端到端的知識圖譜平臺解決方案。其中:知識圖譜存儲可以兼容使用常見的三元組存儲,如Blazegraph、Stardog、Amazon Neptune、GraphDB和Virtuoso等;數(shù)據(jù)交互使用標(biāo)準(zhǔn)的SPARQL作為交互協(xié)議,從而規(guī)避了存儲使用不同數(shù)據(jù)庫帶來的影響,實(shí)現(xiàn)不同數(shù)據(jù)源、不同格式的知識場景進(jìn)行混合查詢;同時(shí)提供了搜索、可視化和知識編輯管理的UI接口,并為Tabular等BI工具提供了數(shù)據(jù)接口。但Metaphactory主要還是針對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行查詢和管理,并沒有提供對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理的能力。
2.2.5 Stardog平臺
Stardog是一個(gè)企業(yè)級知識圖譜平臺,通過將數(shù)據(jù)轉(zhuǎn)換成知識,使用知識圖譜進(jìn)行組織,對外提供查詢、檢索和分析等服務(wù)。Stardog能夠把關(guān)系數(shù)據(jù)庫映射成虛擬圖,并且支持OWL2的推理和Gremlin,但其僅對結(jié)構(gòu)化數(shù)據(jù)(RDBMS、Excel等)的處理,沒有針對非結(jié)構(gòu)化數(shù)據(jù)的知識抽取,也不具有知識融合功能。
2.2.6 其他知識圖譜平臺
上述平臺都是商業(yè)的平臺,通常提供試用的版本供非商業(yè)用途學(xué)習(xí)和研究,而開源知識圖譜項(xiàng)目的典型代表為LOD2。LOD2的主要目標(biāo)是構(gòu)建結(jié)構(gòu)化鏈接數(shù)據(jù)的企業(yè)級管理工具和方法,提供一個(gè)搜索、瀏覽和生成鏈接數(shù)據(jù)的平臺,其側(cè)重于鏈接數(shù)據(jù)的生命周期管理,而對于其他類型的數(shù)據(jù)需要首先轉(zhuǎn)換成鏈接數(shù)據(jù)。
目前,以百度(百度AI開放平臺)、騰訊(騰訊知識圖譜(Tencent Knowledge Graph,TKG))、阿里巴巴(藏經(jīng)閣)、華為(華為知識圖譜云)等為代表的國內(nèi)互聯(lián)網(wǎng)公司也在積極構(gòu)建知識圖譜,并且針對垂直領(lǐng)域構(gòu)建知識圖譜平臺,促進(jìn)知識圖譜的發(fā)展和工業(yè)落地。
除了上述知識圖譜平臺,還有許多與知識圖譜生命周期中特定環(huán)節(jié)相關(guān)的工具,這些工具通常不像完整的平臺一樣完成一站式的服務(wù),但是它們也為知識圖譜的應(yīng)用構(gòu)建提供了便利,可以在構(gòu)建完整的企業(yè)級知識圖譜平臺時(shí)進(jìn)行集成使用。本節(jié)將介紹生命周期各環(huán)節(jié)的相關(guān)工具,并將知識計(jì)算分為知識推理和圖挖掘分析兩部分進(jìn)行介紹。
2.3.1 知識建模工具
Protégé是一個(gè)本體編輯器,其基于RDF(S)、OWL等語義網(wǎng)規(guī)范提供PC圖形化界面和在線Web版本——WebProtégé,通常適用于原型場景構(gòu)建。NeOn Toolkit是一個(gè)適用于本體工程生命周期的工具,其以Eclipse插件的方式為用戶提供服務(wù)。
這些本體編輯工具存在的不足包括:基本只提供單人編輯,而協(xié)同編輯時(shí)需要通過文件共享來實(shí)現(xiàn);對大數(shù)據(jù)量支持不佳;不支持復(fù)雜事件及時(shí)態(tài)的建模;基本依賴手工編輯,難以實(shí)現(xiàn)與知識圖譜(半)自動化構(gòu)建過程的交互。
2.3.2 知識獲取工具
知識獲取指從結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中獲取知識。
從結(jié)構(gòu)化數(shù)據(jù)中獲取知識的目標(biāo)通常是把關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)換成RDF形式的知識,W3C為此制定了從關(guān)系數(shù)據(jù)庫映射到RDF數(shù)據(jù)集的標(biāo)準(zhǔn)語言R2RML。典型的開源工具有D2R MAP和D2RQ[56]。D2RQ是一個(gè)將關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為虛擬的RDF數(shù)據(jù)庫的平臺,主要包含D2R Server[57]、D2RQ Engine和D2RQ Mapping Language 3個(gè)組件。這些工具把數(shù)據(jù)直接轉(zhuǎn)換成RDF,難以與知識建模結(jié)果結(jié)合與映射,也難以同其他類型的知識進(jìn)行融合,并且對于大規(guī)模海量數(shù)據(jù)映射以及新數(shù)據(jù)的增量映射支持困難。
從半結(jié)構(gòu)化數(shù)據(jù)中獲取知識通常是指使用包裝器的方法從網(wǎng)頁數(shù)據(jù)中獲取知識,如Lixtio[58]提供了一種用戶可視化配置的方式進(jìn)行半自動化生成網(wǎng)頁包裝器的工具,WIE是一個(gè)通過網(wǎng)頁自動分析從而輔助生成包裝器的工具,適用于抽取目標(biāo)數(shù)據(jù)中的表格信息。這些工具基本是針對早期的靜態(tài)HTML頁面開發(fā)的,已經(jīng)難以適用于當(dāng)前的前端動態(tài)頁面技術(shù),因此,需要在它們的基礎(chǔ)上進(jìn)行動態(tài)頁面支持?jǐn)U展。
DeepDive與Snorkel提供了一套面向特定關(guān)系的、基于遠(yuǎn)程監(jiān)督學(xué)習(xí)的抽取框架,使用現(xiàn)有知識庫和規(guī)則定義來自動生成語料,框架自動完成模型的訓(xùn)練過程,并使用機(jī)器學(xué)習(xí)算法來減少各種形式的噪音和不確定性,用戶可以使用簡單的規(guī)則來影響(反饋)學(xué)習(xí)過程以提升結(jié)果的質(zhì)量。DeepKE是浙江大學(xué)開發(fā)的基于深度學(xué)習(xí)方法的開源中文關(guān)系抽取工具,使用了包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制網(wǎng)絡(luò)、圖卷積神經(jīng)網(wǎng)絡(luò)、膠囊神經(jīng)網(wǎng)絡(luò)以及語言預(yù)訓(xùn)練模型等在內(nèi)的多種深度學(xué)習(xí)算法,但該工具同樣僅用于關(guān)系的抽取。上述工具主要針對關(guān)系的抽取,未提供針對概念、實(shí)體、事件等知識的抽取功能。
2.3.3 知識融合工具
知識融合的目標(biāo)是對來源、抽取方法和結(jié)構(gòu)不同的知識進(jìn)行合并,形成統(tǒng)一的知識。DBpedia Mapping Tool是一個(gè)用于把從Wikipedia中抽取的信息通過映射融入到DBpedia中的工具,其以可視化的方式讓用戶進(jìn)行DBpedia中本體(類、實(shí)體、數(shù)據(jù)類型等)和信息模塊的映射。Knowledge Vault[59]是谷歌推出的一個(gè)互聯(lián)網(wǎng)規(guī)模的知識庫,它融合了海量的從互聯(lián)網(wǎng)中基于先驗(yàn)知識庫抽取的信息,并通過監(jiān)督學(xué)習(xí)的方法對這些知識進(jìn)行融合。這些融合工具通常是針對特定場景設(shè)計(jì)的,通用性和可配置程度比較低,難以實(shí)現(xiàn)復(fù)雜多變場景下的知識整合。
2.3.4 知識圖譜存儲工具
知識圖譜中最主要的數(shù)據(jù)結(jié)構(gòu)為基于圖的結(jié)構(gòu),圖結(jié)構(gòu)數(shù)據(jù)的存儲主要有RDF存儲和圖數(shù)據(jù)庫兩種方式。在工業(yè)級的場景下,一般從支持的數(shù)據(jù)規(guī)模、是否支持?jǐn)?shù)據(jù)分布存儲、知識建模管理能力、查詢語言表達(dá)豐富性、是否支持ACID以及是否有開源產(chǎn)品等維度對知識圖儲存儲的性能進(jìn)行衡量。常用圖數(shù)據(jù)庫對比如表1所示。
表1 常用圖數(shù)據(jù)庫對比
Neo4J是第一代圖數(shù)據(jù)庫的代表,它使用了原生圖存儲結(jié)構(gòu),但不使用schema(即schema free),是一種自由的圖數(shù)據(jù)管理方式,同時(shí)它還支持ACID事務(wù)的處理,并提供Cypher查詢語言。Neo4J在企業(yè)級數(shù)據(jù)管理中存在的主要問題,是不使用schema會難以從整體組織理解圖譜數(shù)據(jù)以及并未實(shí)現(xiàn)真正意義上的數(shù)據(jù)分布式存儲,因此,其在大規(guī)模的數(shù)據(jù)場景下應(yīng)用時(shí)會遇到性能瓶頸。
JanusGraph是在Titan的基礎(chǔ)上發(fā)展起來的第二代圖數(shù)據(jù)庫的代表,設(shè)計(jì)原理是在現(xiàn)有的成熟存儲(如NoSQL)上實(shí)現(xiàn)對圖的存儲邏輯,底層存儲的分布式能力使其天然具備分布式能力。但此類數(shù)據(jù)庫最大的問題是會遇到圖連接查詢的性能瓶頸,尤其是在大規(guī)模圖數(shù)據(jù)的多步查詢的場景下;另一方面,這種架構(gòu)也不能有效地支持離線分析,需要使用外部的分析引擎,但這種結(jié)合難以做到數(shù)據(jù)快速加載與更新。
在數(shù)據(jù)量大規(guī)模增長與實(shí)時(shí)查詢分析要求不斷提高的背景下,基于原生、并行圖設(shè)計(jì)的圖數(shù)據(jù)庫逐漸成為新興發(fā)展方向,也被稱為第三代圖數(shù)據(jù)庫。其中的代表產(chǎn)品為商業(yè)數(shù)據(jù)庫TigerGraph與PlantGraph,它們能夠有效地支持OLTP 和 OLAP 等多種應(yīng)用場景,解決大規(guī)模圖數(shù)據(jù)場景下的多步連接問題。目前,第三代圖數(shù)據(jù)庫還只在一些擁有大數(shù)據(jù)量與高性能要求的商業(yè)場景下得到使用,尚未有開源的產(chǎn)品出現(xiàn)。
2.3.5 知識推理工具
知識推理分為基于邏輯的推理與基于統(tǒng)計(jì)的推理,邏輯推理又包括本體推理和規(guī)則推理。
RDFox[60]是一個(gè)本體知識推理工具,其支持共享內(nèi)存并行OWL 2 RL推理。RDFox支持Java、Python多語言APIs訪問,還支持一種簡單的腳本語言與系統(tǒng)的命令行交互,但RDFox完全基于內(nèi)存,對硬件的要求較高,在超大規(guī)模的數(shù)據(jù)場景下難以使用。 Drools是一個(gè)使用Java語言開發(fā)的基于RETE算法(一種前向推理算法)的業(yè)務(wù)規(guī)則推理引擎,其使用“If--Then”形態(tài)的句式和事實(shí)的定義,使引擎的使用非常直觀,同時(shí)還支持將 Java 代碼直接嵌入到規(guī)則文件中。Link Prediction Tool是一個(gè)在大規(guī)模網(wǎng)絡(luò)中自動發(fā)現(xiàn)缺失的鏈接的工具,主要用于社交網(wǎng)絡(luò)中的鏈接預(yù)測。SNAP (Stanford Network Analysis Platform)是斯坦福大學(xué)研發(fā)的一個(gè)通用高性能大規(guī)模網(wǎng)絡(luò)分析與操作平臺,能夠高效地實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)中的鏈接預(yù)測。
2.3.6 圖挖掘分析工具
上文提到的多數(shù)圖數(shù)據(jù)相關(guān)工具只支持OLTP模式的圖查詢功能以及一些簡單的圖算法,對于大規(guī)模的圖挖掘分析支持較少?;趫D數(shù)據(jù)庫實(shí)現(xiàn)圖挖掘分析的模式需要集成第三方的圖挖掘分析工具,如Spark GraphX、GraphLab和Giraph等。最常用的為Spark GraphX,它是在實(shí)時(shí)計(jì)算引擎Spark上為圖計(jì)算設(shè)計(jì)與實(shí)現(xiàn)的一套計(jì)算框架,方便用戶通過統(tǒng)一的模式進(jìn)行圖算法編程,但由于其基于通用的計(jì)算框架來實(shí)現(xiàn)圖計(jì)算,因此性能較圖分析的專用系統(tǒng)要低。Plato是騰訊開源的一個(gè)支持十億級別節(jié)點(diǎn)的超大規(guī)模圖計(jì)算框架,其基于自適應(yīng)圖計(jì)算引擎,能夠根據(jù)不同類型的圖算法,提供自適應(yīng)計(jì)算模式、共享內(nèi)存計(jì)算模式和流水線計(jì)算模式等多種計(jì)算模式。但它是一個(gè)重量級的圖計(jì)算框架,集成成本相對較高,并且開發(fā)者需要基于其獨(dú)特的底層API編程,定制化開發(fā)成本也較高。Euler是阿里開源的大規(guī)模分布式圖表示學(xué)習(xí)框架,內(nèi)置DeepWalk、Node2Vec等業(yè)界常見的圖嵌入算法。
2.3.7 語義搜索與智能問答工具
知識鏈接是支持語義搜索的重要方法,知識實(shí)體鏈接工具有Wikipedia Miner和DBPedia Spotlight等。這些早期的工具通常是以開放的知識圖譜(Wikipedia、DBpedia等)為知識鏈接的目標(biāo)知識庫使用字符串匹配、向量相似度等算法進(jìn)行計(jì)算;當(dāng)前,基于深度學(xué)習(xí)、知識圖譜表示學(xué)習(xí)的方法已經(jīng)成為知識鏈接的最新發(fā)展方向。
智能問答方向知名的開源工具有ActiveQA和gAnswer等。ActiveQA是谷歌開源的一款使用強(qiáng)化學(xué)習(xí)來訓(xùn)練AI智能體進(jìn)行問答的研究項(xiàng)目,在強(qiáng)化學(xué)習(xí)框架的推動下,智能體逐步學(xué)會提出更具針對性的具體問題并理解、問答問題,從而得到所尋求的結(jié)果。gAnswer是一個(gè)基于知識圖譜的自然語言問答系統(tǒng),能夠?qū)⒆匀徽Z言問題轉(zhuǎn)化成包含語義信息的查詢圖,并將查詢圖轉(zhuǎn)化成標(biāo)準(zhǔn)的SPARQL查詢,將這些查詢在圖數(shù)據(jù)庫中執(zhí)行,最終得到用戶的答案。
上述問答工具只適用于特定的場景(如gAnswer用于KBQA),而在復(fù)雜企業(yè)級的場景中通常需要支持所有類型的問答任務(wù)。
本節(jié)介紹企業(yè)級知識圖譜平臺的構(gòu)建需求與挑戰(zhàn),并以金融行業(yè)知識圖譜的構(gòu)建與應(yīng)用為例描述該類知識圖譜平臺完整的構(gòu)建過程。
從確定待采集的原始數(shù)據(jù)到最終的應(yīng)用開發(fā),企業(yè)級的知識圖譜應(yīng)用落地需要對數(shù)據(jù)背后的知識進(jìn)行建模、抽取、融合、校驗(yàn)、補(bǔ)全、分析計(jì)算等一系列加工處理,這些過程的每一步都需要專業(yè)的圖譜知識和技能才能完成。如果沒有平臺或者工具進(jìn)行支撐,圖譜的應(yīng)用構(gòu)建將是一項(xiàng)要求極高甚至無法完成的工作。因此,企業(yè)級圖譜的應(yīng)用普及亟需一個(gè)功能強(qiáng)大的知識圖譜平臺。該平臺需要覆蓋行業(yè)知識圖譜生命周期的所有環(huán)節(jié),同時(shí)須滿足企業(yè)級應(yīng)用的各種功能性與非功能性需求:
1)知識建模:除基本的本體編輯功能外,還必須具備表示多類型知識的能力,尤其是對動態(tài)事件知識、多媒體數(shù)據(jù)和業(yè)務(wù)過程數(shù)據(jù)等的知識表示;同時(shí),企業(yè)知識圖譜的建模通常需要支持多人在線協(xié)同工作以及知識的多版本管理:此外,還需要集成如下文所述的各種知識抽取能力,其旨在從數(shù)據(jù)中自動發(fā)現(xiàn)知識,避免純手工構(gòu)建大規(guī)模圖譜帶來的工作量大、效率低下并易出錯(cuò)等問題。
2)知識獲取:需要提供分別從結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)中獲取知識的工具,以本體數(shù)據(jù)模式為基礎(chǔ)支持大規(guī)模、增量數(shù)據(jù)的D2R映射,實(shí)現(xiàn)動態(tài)網(wǎng)頁的包裝器配置與歸納學(xué)習(xí),提供從文本中抽取實(shí)體、關(guān)系、屬性和事件等多維度知識的方法;同時(shí),需要降低從非結(jié)構(gòu)化數(shù)據(jù)中獲取知識的成本(數(shù)據(jù)標(biāo)注規(guī)模和標(biāo)注代價(jià)),提供弱監(jiān)督或自監(jiān)督學(xué)習(xí)的能力;此外,還需要保障所獲取知識的質(zhì)量,尤其是從非結(jié)構(gòu)化數(shù)據(jù)抽取知識的難度最大。
3)知識融合:提供用戶基于業(yè)務(wù)配置融合規(guī)則與自動算法相結(jié)合的知識融合功能;提供本體映射、實(shí)體對齊和屬性融合等能力;自動進(jìn)行沖突檢測并能夠依據(jù)(預(yù)先設(shè)定的)策略進(jìn)行解決。
4)知識存儲:首先需要實(shí)現(xiàn)多類型知識的存儲;其次需要支持大規(guī)模圖譜存儲及其之上的高效查詢,在企業(yè)級的應(yīng)用場景中,圖譜通常包含百億甚至千億級別的知識(以三元組形式表示);具備復(fù)雜知識模式管理的功能,用于支持知識建模工具的高效交互;提供SPARQL、Cypher、Gremlin和GQL等多種常見圖查詢語言。
5)知識計(jì)算:需要具有大規(guī)模知識圖譜推理與圖挖掘的能力,即能夠高效地加載大規(guī)模圖譜數(shù)據(jù)并進(jìn)行推理計(jì)算;支持多種圖挖掘算法并能實(shí)現(xiàn)并行挖掘分析;考慮圖譜的演化或新知識的持續(xù)加入并實(shí)現(xiàn)高效的增量計(jì)算與推理。
6)知識應(yīng)用:提供多種知識可視化視圖及交互方式并與后臺的存儲、計(jì)算能力相結(jié)合,為用戶提供快速的知識應(yīng)用服務(wù);基于知識圖譜提供語義搜索能力;提供能夠支持諸如問答對檢索、交互式分析和閱讀理解等多種場景的綜合問答能力。
構(gòu)建企業(yè)級知識圖譜平臺面臨的問題主要有:
1)多類型知識的表示、獲取與存儲:首先面臨的問題是如何實(shí)現(xiàn)企業(yè)級應(yīng)用場景中多類型數(shù)據(jù)的統(tǒng)一知識表示,數(shù)據(jù)類型的復(fù)雜性和多樣性使得傳統(tǒng)的三元組表示方法難以勝任;其次如何從這些數(shù)據(jù)中高效獲取知識是另一個(gè)難點(diǎn),需要采用不同的方法甚至是多方法的集成來實(shí)現(xiàn)大規(guī)模知識的獲取;最后如何統(tǒng)一存儲這些知識從而能夠同時(shí)支持上層各種任務(wù)與服務(wù)也非常困難。
2)大規(guī)模知識圖譜的性能:企業(yè)級知識圖譜的規(guī)模通常在百億、千億甚至更高的級別,如何實(shí)現(xiàn)大規(guī)模知識的可擴(kuò)展存儲并支持其上的高效查詢以及并行計(jì)算與推理服務(wù)是一個(gè)巨大的挑戰(zhàn)。
3)圖譜數(shù)據(jù)的統(tǒng)一消費(fèi)利用,如何無縫集成可視化、語義搜索和問答分析等多種交互方式,在不增加用戶額外學(xué)習(xí)成本和使用門檻的情況下提供統(tǒng)一的知識圖譜消費(fèi)體驗(yàn),是一項(xiàng)綜合人工智能和人機(jī)交互等多學(xué)科知識的技術(shù)難題。
此外,知識的演化與時(shí)效性也是一個(gè)難以回避的難題。隨著外部世界的變化和企業(yè)業(yè)務(wù)的變遷與升級,業(yè)務(wù)數(shù)據(jù)及相應(yīng)的知識也不斷擴(kuò)展與變更,支持知識圖譜中知識的時(shí)態(tài)表示,及時(shí)檢測知識的時(shí)效性,并根據(jù)圖譜的演化支持自適應(yīng)知識推理與計(jì)算同樣是挑戰(zhàn)。
構(gòu)建知識圖譜平臺有以下3種可能的方式:1)在現(xiàn)在的開源知識圖譜平臺上進(jìn)行擴(kuò)展;2)把行業(yè)知識圖譜生命周期中每個(gè)環(huán)節(jié)對應(yīng)的工具集成為完整的平臺;3)從零開始構(gòu)建。整體而言,第1種方法通常難以執(zhí)行,因?yàn)檫@些開源的知識圖譜平臺從設(shè)計(jì)、可擴(kuò)展性等方面均難以進(jìn)行深度二次開發(fā),而第3種方法則成本過高,因此,最佳實(shí)踐方法應(yīng)對行業(yè)知識圖譜生命周期對應(yīng)的工具進(jìn)行綜合利用,在此基礎(chǔ)上進(jìn)行滿足上述需求的全流程全局設(shè)計(jì),并且對缺乏工具的環(huán)節(jié)進(jìn)行針對性開發(fā),對需要改進(jìn)的工具進(jìn)行完善,從而整合形成完整實(shí)用的企業(yè)級知識圖譜平臺。
3.3.1 知識建模
企業(yè)級的知識建模工具首先需要有多類型知識表示的能力,實(shí)現(xiàn)概念、實(shí)體、屬性、關(guān)系、事件、業(yè)務(wù)規(guī)則以及多媒體數(shù)據(jù)對應(yīng)的語義內(nèi)容的統(tǒng)一表示。最佳的實(shí)現(xiàn)方法是把W3C推薦的標(biāo)準(zhǔn)知識表示模型(RDF和OWL)與其他的知識表示框架相結(jié)合,這些框架包括產(chǎn)生式規(guī)則和文件對象等。RDF和OWL能夠良好地以三元組的形式表示概念、實(shí)體、屬性和關(guān)系等知識;事件可以視作一個(gè)特殊的概念,例如可以把“投資事件”定義成一個(gè)概念,并給它定義屬性(金額、時(shí)間等)和關(guān)系(投資方、融資方);業(yè)務(wù)規(guī)則的一種有效表示方法為產(chǎn)生式規(guī)則,例如“IF企業(yè).估值>1億美元THEN企業(yè)是準(zhǔn)獨(dú)角獸”;使用文件對象來表示多媒體形態(tài)的數(shù)據(jù)(如視頻、圖片或文檔等),然后使用鏈接標(biāo)引的技術(shù)手段使其與領(lǐng)域圖譜中的相關(guān)知識進(jìn)行關(guān)聯(lián),形成多模態(tài)知識圖譜。
為實(shí)現(xiàn)協(xié)同知識編輯,企業(yè)級建模工具以在線Web的形式實(shí)現(xiàn)多用戶登錄與權(quán)限管理、并發(fā)控制、編輯過程主動提示與自動補(bǔ)全等功能,并依托平臺存儲能力使得面向大規(guī)模知識圖譜的可擴(kuò)展建模成為可能。
平臺通過以下方法實(shí)現(xiàn)半自動化建模能力:1)基于E-R圖模式解析的方法實(shí)現(xiàn)從結(jié)構(gòu)化數(shù)據(jù)中自動發(fā)現(xiàn)模式;2)基于“統(tǒng)計(jì)+規(guī)則”的方法從現(xiàn)有知識中自動規(guī)約概念與屬性的算法,在發(fā)現(xiàn)過程中通常需要進(jìn)行人工干預(yù)、確認(rèn),通過人機(jī)交互的方式得到最終的圖譜模式層知識。
3.3.2 知識獲取
平臺需要包括對不同類型數(shù)據(jù)進(jìn)行知識獲取的工具。具體而言,涵蓋面向結(jié)構(gòu)化數(shù)據(jù)的D2R工具,面向半結(jié)構(gòu)化數(shù)據(jù)的包裝器配置與生成工具,以及面向非結(jié)構(gòu)化數(shù)據(jù)的自動抽取工具,同時(shí)需要額外支持對事件等復(fù)雜類型知識的抽取。
D2R映射工具的一種可行實(shí)現(xiàn)方法是以R2RML映射語言為基礎(chǔ),開發(fā)在線Web形式的所見即所得的交互式配置交互頁面,并把源數(shù)據(jù)與知識圖譜的模式(定義的概念與屬性)進(jìn)行映射,同時(shí)還需要提供設(shè)置融合合并的規(guī)則配置以及增量數(shù)據(jù)的判斷依據(jù)(例如更新時(shí)間)等。
包裝器的配置同樣需要提供所見即所得的配置方式或配置文件的配置方式,提供基于源碼字符串、正則表達(dá)式、XPath等進(jìn)行知識元素位置確定的方式。基本的步驟如下:1)獲取源碼,通過集成selenium等引擎實(shí)現(xiàn)動態(tài)頁面加載成HTML;2)預(yù)處理,去除相關(guān)的噪聲如CSS、JS代碼等;3)字段配置,基于定義的模式層知識配置每個(gè)字段解析數(shù)據(jù),包括前置規(guī)則、后置規(guī)則、正則表達(dá)式等;4)后處理,進(jìn)行結(jié)果的過濾與轉(zhuǎn)換。同時(shí),平臺依據(jù)第一節(jié)中描述的模板學(xué)習(xí)方法實(shí)現(xiàn)相應(yīng)的包裝器自動學(xué)習(xí)算法,用戶可基于學(xué)習(xí)的模板進(jìn)行配置,從而減少人工工作量。
對于非結(jié)構(gòu)化數(shù)據(jù)的抽取,最佳實(shí)踐方法為:首先集成現(xiàn)有開源的工具,如上文所述的Snorkel、DeepKE等;其次提供基于規(guī)則的抽取方法,其實(shí)現(xiàn)的過程與包裝器配置基本相同,基于規(guī)則的方法可以快速獲得準(zhǔn)確率較高的知識,一方面作為抽取結(jié)果,另一方面可作為機(jī)器學(xué)習(xí)模型訓(xùn)練的語料;然后對于需要定制訓(xùn)練抽取模型的數(shù)據(jù),提供第三方模型集成的能力以及在線訓(xùn)練模型的平臺,集成第三方模型通過微服務(wù)的注冊來實(shí)現(xiàn);在線訓(xùn)練平臺的后端通常通過集成現(xiàn)有的深度學(xué)習(xí)框架如TensorFlow、PyTorch等實(shí)現(xiàn),用戶在線標(biāo)注或上傳指定格式的語料后,后端啟動模型的訓(xùn)練。
對于企業(yè)級的復(fù)雜數(shù)據(jù),為在保證抽取知識的質(zhì)量同時(shí)降低對人工標(biāo)注語料的依賴,可以使用如下的多策略最佳實(shí)踐方法:利用不同數(shù)據(jù)源之間的信息冗余,使用較易抽取的知識(結(jié)構(gòu)化數(shù)據(jù)庫中的)來輔助抽取困難的信息(文本信息抽取)。多策略信息抽取方法的整體架構(gòu)如圖1所示,其中圍繞企業(yè)信息的抽取,首先優(yōu)先從工商企業(yè)庫中通過D2R配置的方式抽取得到準(zhǔn)確率高的企業(yè)基本知識,然后從專利網(wǎng)站中通過包裝器配置實(shí)現(xiàn)專利數(shù)據(jù)解析形成企業(yè)的專利信息,最后基于這些已經(jīng)抽取的知識以及通過規(guī)則的方法從文本中得到的知識,自動生成文本信息抽取模型訓(xùn)練所需的語料,實(shí)現(xiàn)遠(yuǎn)程監(jiān)督學(xué)習(xí)。
圖1 多策略信息抽取方法
3.3.3 知識融合
對于模式層的知識融合,通常采用人工融合的方法,因此,平臺需要提供交互配置界面進(jìn)行融合編輯。對于實(shí)例層的融合,首先同樣提供人工融合編輯的功能,用于對(半)自動融合算法結(jié)果進(jìn)行修正;其次需要提供給用戶配置界面實(shí)現(xiàn)基于業(yè)務(wù)規(guī)則的融合,規(guī)則通常包括基于名稱、屬性、置信度等相似程度的方法;最后提供自動的融合算法,算法的依據(jù)通常為待融合知識的相似度,基本計(jì)算方法包括基于字符串匹配、基于向量空間模型、語義距離計(jì)算和圖嵌入向量相似度等。
平臺還需要提供沖突檢測與自動解決功能。沖突檢測可基于知識推理工具來實(shí)現(xiàn),而沖突自動解決通常依據(jù)置信度來實(shí)現(xiàn)(通常選取置信度高的)。
3.3.4 知識存儲
企業(yè)級知識圖譜中的多類型數(shù)據(jù)和應(yīng)用的多樣性決定了知識圖譜的存儲必然是一種混合存儲的模型。一種最佳實(shí)踐的方法是以存儲三元組數(shù)據(jù)的圖數(shù)據(jù)庫為核心,使用關(guān)系數(shù)據(jù)庫、NoSQL、文件存儲等方式存放記錄型、文檔型、文件等數(shù)據(jù),從而實(shí)現(xiàn)對多場景應(yīng)用交互的需求。
在存儲性能方面,傳統(tǒng)的圖數(shù)據(jù)庫(如Neo4J和JanusGraph等)通常難以實(shí)現(xiàn)對大規(guī)模(百億到萬億級別)知識的高效存取和查詢,一個(gè)公開的性能評測報(bào)告如表2所示[61],表中數(shù)據(jù)為時(shí)間,第1列表示從選定節(jié)點(diǎn)出發(fā)進(jìn)行廣度遍歷的步數(shù),數(shù)據(jù)集為公開的14.68億關(guān)系的Twitter數(shù)據(jù)集,N/A代表測試超時(shí)。表2數(shù)據(jù)表明,在十億級別的三元組中,Neo4J與JanusGraph已無法滿足深度查詢的要求。原生并行圖是當(dāng)前實(shí)現(xiàn)大規(guī)模知識圖譜數(shù)據(jù)實(shí)時(shí)存取的最佳解決方案,其基本思想是使用原生的圖存儲結(jié)構(gòu),數(shù)據(jù)存放在文件系統(tǒng)或計(jì)算機(jī)主存中,同時(shí)通過圖分割實(shí)現(xiàn)數(shù)據(jù)的分布式存儲并提供圖分割場景下的相關(guān)圖算法實(shí)現(xiàn)。這種工業(yè)級的圖數(shù)據(jù)庫實(shí)現(xiàn)復(fù)雜度通常非常高,因此,企業(yè)級的應(yīng)用場景中也可以考慮部署商用的圖數(shù)據(jù)庫(如TigerGraph、PlantGraph等)。若自行研發(fā)實(shí)現(xiàn),則需要從底層的原生圖存儲開始設(shè)計(jì),然后實(shí)現(xiàn)數(shù)據(jù)的分割存儲以及分布式并行計(jì)算,這通常需要投入大量的研發(fā)成本。
表2 常用圖數(shù)據(jù)庫性能評測數(shù)據(jù)
3.3.5 知識計(jì)算
企業(yè)級知識圖譜平臺中需要包括圖挖掘計(jì)算、知識推理等功能。
在圖挖掘計(jì)算方面:首先實(shí)現(xiàn)常用的圖算法,包括圖遍歷、路徑發(fā)現(xiàn)、關(guān)聯(lián)分析、社區(qū)發(fā)現(xiàn)、連通子圖等,通常是基于一些開源的工具實(shí)現(xiàn),如python-graph、JGraphT等;其次實(shí)現(xiàn)圖挖掘分析引擎,代價(jià)較低的方法是集成現(xiàn)有的開源分布式圖分析框架(如上文2.3.6節(jié)提到的Spark GraphX、Giraph等),這種方法適用于對實(shí)時(shí)性要求不是特別高的場景,而在實(shí)時(shí)性要求較高的場景中,則需要基于原生并行圖存儲單獨(dú)開發(fā)相應(yīng)的圖分析引擎,需要考慮分布式協(xié)同計(jì)算、圖分割等復(fù)雜技術(shù)實(shí)現(xiàn)。
知識推理的主要實(shí)現(xiàn)方法為集成現(xiàn)有的成熟工具RDFox實(shí)現(xiàn)本體知識推理,以及集成Drools并進(jìn)行一定的擴(kuò)展實(shí)現(xiàn)業(yè)務(wù)規(guī)則推理。當(dāng)數(shù)據(jù)規(guī)模超過這些工具能夠承載的能力時(shí),可以提供相應(yīng)的篩選方法從而只對關(guān)心的知識進(jìn)行推理,另一種方法則是基于這些工具進(jìn)行擴(kuò)展從而實(shí)現(xiàn)分布式推理的能力。
3.3.6 知識應(yīng)用
企業(yè)級知識圖譜平臺中需要提供知識可視化、語義檢索、智能問答等算法和基礎(chǔ)工具的支持。知識可視化通常采用基于現(xiàn)有的開源工具(如D3.js、ECharts等)進(jìn)行擴(kuò)展開發(fā),提供多種可視化視圖如星形圖、樹狀圖、點(diǎn)陣圖等,以及鉆取、放大縮小等交互方式。
語義檢索主要解決傳統(tǒng)的關(guān)鍵詞檢索中遇到的兩個(gè)難題,即自然語言表達(dá)的多樣性和自然語言的歧義性。這兩個(gè)問題可以通過使用基于知識圖譜的實(shí)體鏈接和意圖理解有效地進(jìn)行解決。同時(shí),語義檢索還為用戶展現(xiàn)類似于實(shí)體搜索所提供的豐富的知識切面,使用戶能夠更便捷地獲取和理解結(jié)果。
企業(yè)級的智能問答需要支持基于信息檢索的問答(Information Retrieval Question Answering,IRQA)、KBQA和基于機(jī)器閱讀理解問答(Machine Reading Compre-hension Question Answering,MRCQA)等多種問答模式。不同的問答技術(shù)擅長回答的問題場景不同,單一地采用一種范式具有一定的局限性,需要將3種問答技術(shù)進(jìn)行融合,構(gòu)建多策略問答引擎,最大限度覆蓋用戶問題,更好地滿足企業(yè)應(yīng)用的需求。多策略問答實(shí)現(xiàn)的基本過程如下:首先根據(jù)問題與資源的不同,多策略問答引擎會根據(jù)語義理解的結(jié)果在IRQA、KBQA、MRCQA中選擇一種或多種并行執(zhí)行,對于單一問答技術(shù),也會使用多種實(shí)現(xiàn)策略并行執(zhí)行來完成候選答案的生成,同時(shí)為每一組候選答案收集相應(yīng)的證據(jù)并進(jìn)行置信度打分;把收集到的證據(jù)與置信度作為特征送入到下一階段,在此階段中會根據(jù)上一階段的結(jié)果對候選答案集進(jìn)行重新排序,選擇得分最高的答案生成最終回答。
工業(yè)級的知識圖譜在金融證券、軍工情報(bào)、圖情分析、生物醫(yī)療、電商、農(nóng)業(yè)等行業(yè)均得到有效利用。以金融證券領(lǐng)域?yàn)槔?知識圖譜在金融情報(bào)分析檢索、反欺詐分析、金融智能化等場景已經(jīng)有諸多成功應(yīng)用落地。
以前述的金融創(chuàng)投場景為例,基于知識圖譜平臺的知識圖譜應(yīng)用過程如下:1)進(jìn)行應(yīng)用場景分析,依據(jù)分析結(jié)果進(jìn)行知識圖譜的建模,有公司、人物等概念,以及人物的屬性、投資關(guān)系等;2)選擇數(shù)據(jù)源,包括企業(yè)的基本信息、工商數(shù)據(jù)、專利數(shù)據(jù)、網(wǎng)絡(luò)上的公開新聞數(shù)據(jù)等,對數(shù)據(jù)進(jìn)行接入并預(yù)處理,利用平臺的知識獲取工具進(jìn)行知識的抽取;3)依據(jù)平臺的自動融合功能以及基于業(yè)務(wù)規(guī)則的融合配置,實(shí)現(xiàn)各種知識的融合并存儲到平臺中,例如人物可通過配置身份證號相同進(jìn)行合并;4)應(yīng)用開發(fā),依據(jù)應(yīng)用的場景進(jìn)行算法選擇或定制開發(fā)、模型訓(xùn)練和業(yè)務(wù)系統(tǒng)定制化二次開發(fā)。
基于知識圖譜平臺的應(yīng)用落地范式雖然流程清晰,但是仍然會碰到以下問題:1)從知識圖譜的建設(shè)到應(yīng)用周期過長;2)圖譜構(gòu)建過程難度較高,需要專業(yè)技能;3)跨項(xiàng)目、跨領(lǐng)域遷移成本高;4)數(shù)據(jù)、知識、模型、算法等可復(fù)用程度低;5)應(yīng)用構(gòu)建復(fù)雜,需要技術(shù)人員深度開發(fā)。對于上述問題,當(dāng)前熱門的中臺相關(guān)技術(shù)可以有效地解決。中臺是指在一些系統(tǒng)被共用的中間件的集合,通過使用中臺可以抽象出可復(fù)用的各種能力(數(shù)據(jù)、知識、模型、算法、功能模塊等),以達(dá)到縮短應(yīng)用構(gòu)建周期、快速響應(yīng)業(yè)務(wù)需求的目的,同時(shí)降低跨領(lǐng)域的遷移成本。
企業(yè)級知識圖譜中臺是在知識圖譜平臺的基礎(chǔ)上引入中臺相關(guān)的理念和技術(shù),對平臺進(jìn)行重構(gòu)升級的結(jié)果,形成的知識圖譜中臺整體架構(gòu)如圖2所示,其中包括數(shù)據(jù)接入層、知識圖譜平臺層 (KGBox)、中臺層(自下而上依次為組件微服務(wù)化、預(yù)構(gòu)建與應(yīng)用編排)和應(yīng)用層??傮w而言是在原有知識圖譜平臺(簡化成KGBox)的基礎(chǔ)上進(jìn)行上述3個(gè)過程的升級重構(gòu),從而更加靈活地支撐上層的應(yīng)用場景。
圖2 知識圖譜中臺整體架構(gòu)
組件微服務(wù)化的過程是指對知識圖譜平臺的各個(gè)功能進(jìn)行抽象與細(xì)粒度的拆分,一方面降低單個(gè)組件的開發(fā)難度,更重要的是能夠在不同的應(yīng)用場景中快速地對這些細(xì)粒度進(jìn)行重新組織從而達(dá)到利用的目標(biāo)。進(jìn)行抽象的服務(wù)包括知識圖譜全生命周期的全部服務(wù),涵蓋構(gòu)建相關(guān)的組件及應(yīng)用相關(guān)的組件,如知識圖譜構(gòu)建組件包括知識建模組件、知識獲取組件、知識融合組件與知識存儲組件,覆蓋行業(yè)知識圖譜全生命周期中的知識圖譜構(gòu)建階段;知識應(yīng)用組件則包括統(tǒng)一檢索、智能問答、智能推薦、圖挖掘分析、事件分析、交互式BI、知識服務(wù)等組件,涵蓋了知識圖譜最典型的應(yīng)用場景。
通過使用統(tǒng)一的微服務(wù)架構(gòu)實(shí)現(xiàn)服務(wù)的統(tǒng)一治理、獨(dú)立運(yùn)行,實(shí)現(xiàn)中臺的高可用、可擴(kuò)展,通過使用容器化相關(guān)技術(shù)實(shí)現(xiàn)服務(wù)的快速發(fā)布與擴(kuò)展。
預(yù)構(gòu)建的理念來自于遷移學(xué)習(xí),遷移學(xué)習(xí)和領(lǐng)域適應(yīng)指在一種環(huán)境中學(xué)到的知識被用在另一個(gè)領(lǐng)域中來提高其泛化性能,即反預(yù)訓(xùn)練的模型重新用在另一個(gè)任務(wù)中。典型的應(yīng)用案例包括圖像識別領(lǐng)域和自然語言處理領(lǐng)域,前者代表有VGG模型、Inception模型和ResNet模型;在自然語言處理領(lǐng)域的應(yīng)用從早期的詞向量模型(word2vec)開始,發(fā)展到近兩年熱門的BERT、XLNet等。
在知識圖譜中臺中,預(yù)構(gòu)建的使用分為以下層面:直接把預(yù)訓(xùn)練的語言模型應(yīng)用于知識圖譜構(gòu)建過程的知識抽取環(huán)節(jié),在數(shù)據(jù)量非常多的行業(yè)中也可以訓(xùn)練專用的領(lǐng)域語言模型;同時(shí),預(yù)構(gòu)建的思想還可以用于知識建模的本體、知識庫、模型和算法等;在特定的領(lǐng)域應(yīng)用場景或項(xiàng)目中所定義的本體、獲取的知識庫以及算法與模型(面向知識獲取、融合及應(yīng)用),在后續(xù)的相似場景中都可以復(fù)用而不需要從零開始構(gòu)建。因此,在新的應(yīng)用場景中進(jìn)行遷移時(shí)能夠在此基礎(chǔ)上快速地進(jìn)行知識圖譜的構(gòu)建與應(yīng)用,降低應(yīng)用落地的難度與成本。
業(yè)務(wù)編排是指通過組合基礎(chǔ)服務(wù)來實(shí)現(xiàn)具體業(yè)務(wù)。實(shí)現(xiàn)業(yè)務(wù)編排的前提是組件微服務(wù)化,既包括后臺組件的微服務(wù)化,又包括將前端組件轉(zhuǎn)化為微服務(wù)。前端組件的微服務(wù)化需要使用微前端相關(guān)的技術(shù)實(shí)現(xiàn)前端組件的加載、組件注冊、頁面路由和數(shù)據(jù)共享。在組件微服務(wù)化的基礎(chǔ)上,可設(shè)計(jì)與開發(fā)適用于知識圖譜可視化、推理、問答、統(tǒng)計(jì)等應(yīng)用場景的所見即所得的拖拽式布局編排引擎。
組件微服務(wù)化必須建立在數(shù)據(jù)模型抽象的基礎(chǔ)上,這在靈活多變的業(yè)務(wù)場景中難以實(shí)現(xiàn)。因此,業(yè)務(wù)編排的難點(diǎn)在于業(yè)務(wù)數(shù)據(jù)模型的抽象。而知識圖譜可動態(tài)定義本體的能力使得數(shù)據(jù)模型能夠動態(tài)地進(jìn)行定義與擴(kuò)展,建立在此基礎(chǔ)上的微服務(wù)組件極大程度地增強(qiáng)了系統(tǒng)的可編排能力。
在知識圖譜中臺上的應(yīng)用將演變成“大中臺+輕前臺”的新范式,即重心在于中臺的構(gòu)建,當(dāng)中臺構(gòu)建成型后,即可快速實(shí)現(xiàn)業(yè)務(wù)應(yīng)用場景的構(gòu)建。同樣以金融創(chuàng)投業(yè)務(wù)應(yīng)用為例,面向金融領(lǐng)域的知識圖譜中臺會經(jīng)過不斷積累得到領(lǐng)域相關(guān)的本體、數(shù)據(jù)和知識、面向金融領(lǐng)域的知識抽取模型等,以及一些經(jīng)典的企業(yè)競爭力分析、企業(yè)風(fēng)險(xiǎn)評估算法和模型。在此基礎(chǔ)上構(gòu)建應(yīng)用時(shí),用戶只需要補(bǔ)充特有的內(nèi)部業(yè)務(wù)數(shù)據(jù)(如創(chuàng)業(yè)企業(yè)的經(jīng)營數(shù)據(jù)),這些數(shù)據(jù)通常是結(jié)構(gòu)化的,通過簡單配置即可整合到知識圖譜中。同時(shí),可直接利用上述算法(企業(yè)競爭力分析算法和風(fēng)險(xiǎn)評估模型等),或是在它們基礎(chǔ)上進(jìn)行微調(diào)(如加入特殊數(shù)據(jù),改變權(quán)重參數(shù)等)得到更新的算法和模型,然后利用編排引擎即可實(shí)現(xiàn)業(yè)務(wù)場景的應(yīng)用。
相較于基于知識圖譜平臺的應(yīng)用構(gòu)建范式,基于中臺的應(yīng)用構(gòu)建具有以下優(yōu)勢:1)在預(yù)構(gòu)建的數(shù)據(jù)模式、知識庫、算法模型等基礎(chǔ)上構(gòu)建,從而避免數(shù)據(jù)稀疏和冷啟動;2)遷移快,能夠有效地復(fù)用之前積累的能力;3)業(yè)務(wù)導(dǎo)向,不需要過多地理解構(gòu)建知識圖譜全過程中涉及的復(fù)雜技術(shù);4)基于業(yè)務(wù)編排快速試探應(yīng)用的構(gòu)建,縮減開發(fā)周期,節(jié)約開發(fā)成本。
隨著行業(yè)知識圖譜的應(yīng)用深化,其應(yīng)用場景呈現(xiàn)出如下特征:數(shù)據(jù)向多模態(tài)化、動態(tài)化方向發(fā)展和數(shù)據(jù)類型不斷擴(kuò)展,尤其是深度知識使用需求逐步增加。此外,應(yīng)用所基于的多類型的數(shù)據(jù)的質(zhì)量也參差不齊,這使得知識圖譜的應(yīng)用變得越來越復(fù)雜,也難有一種方法(包括知識的表示、存儲和應(yīng)用)能夠滿足所有的應(yīng)用需求。
在一些專業(yè)的領(lǐng)域如智能運(yùn)維、醫(yī)療輔助診斷等領(lǐng)域,不僅需要概念、實(shí)體和關(guān)系這些基礎(chǔ)的知識作為支撐,對于動態(tài)的事件以及深度的業(yè)務(wù)經(jīng)驗(yàn)知識和決策過程知識等的需求更加明顯(其中的典型代表是密集的業(yè)務(wù)專家知識),這對復(fù)雜的知識表示與獲取提出了更高要求。
業(yè)務(wù)經(jīng)驗(yàn)和決策過程等知識是專家經(jīng)過長期積累形成的,通常隱含在大段的文本中,有些甚至僅存在于專家腦中,對于這些知識的獲取,知識眾包是一種可行的解決方案。同時(shí),圖神經(jīng)網(wǎng)絡(luò)和知識圖譜表示學(xué)習(xí)的發(fā)展也為深度知識的表示與獲取提供了解決問題的方法。
深度學(xué)習(xí)的發(fā)展給知識獲取帶來了機(jī)遇,但它往往需要大規(guī)模高質(zhì)量標(biāo)注數(shù)據(jù),而在企業(yè)應(yīng)用場景中,高質(zhì)量語料獲取通常需要由領(lǐng)域?qū)<沂止?biāo)注,這使得其構(gòu)建成本通常非常高。
針對這種數(shù)據(jù)稀疏場景下的知識獲取,弱監(jiān)督學(xué)習(xí)、小樣本學(xué)習(xí)等最新的研究成果提供了解決思路。首先,“無監(jiān)督的預(yù)訓(xùn)練語言模型加上特定任務(wù)少量語料微調(diào)”的文本處理新范式在信息抽取、語義理解等場景得到了廣泛的應(yīng)用。在公開發(fā)布的語言模型的基礎(chǔ)上,使用少量的行業(yè)語料即可完成高可用模型的訓(xùn)練。更進(jìn)一步,基于知識增強(qiáng)的語言表示模型將知識圖譜的信息加入到模型的訓(xùn)練中,使模型可以從大規(guī)模的文本語料和先驗(yàn)知識豐富的知識圖譜中學(xué)習(xí)到字、詞、句和知識表示等內(nèi)容,從而有助于其解決更復(fù)雜和抽象的自然語言處理問題。
企業(yè)級知識圖譜應(yīng)用通常對知識的質(zhì)量要求非常高。然而,從不同來源的數(shù)據(jù)通過不同方法獲取的知識,很難保證它們的質(zhì)量,尤其是那些通過一些機(jī)器學(xué)習(xí)方法從非結(jié)構(gòu)化數(shù)據(jù)中提取的知識;另一方面,對于知識尤其是高動態(tài)知識的時(shí)效性保證也面臨著巨大的挑戰(zhàn)。
知識評估體系相關(guān)研究的新進(jìn)展為知識質(zhì)量提升提供了評測依據(jù),同時(shí)知識眾包形式的知識編輯與校驗(yàn)也是保障知識質(zhì)量與時(shí)效性的有效手段。
隨著知識圖譜在企業(yè)中的深度應(yīng)用,積累的數(shù)據(jù)日趨龐大,從數(shù)據(jù)中獲取的知識規(guī)模從初始的萬級別迅速增長到十億級別,有些大型的企業(yè)的數(shù)據(jù)規(guī)模甚至達(dá)到了千億和萬億級別。這種超大規(guī)模的數(shù)據(jù)對知識存儲和計(jì)算都帶來了巨大挑戰(zhàn),傳統(tǒng)的圖數(shù)據(jù)庫都難以適應(yīng)這種超大規(guī)模的知識。
計(jì)算機(jī)硬件的快速發(fā)展為超大規(guī)模知識圖譜提供了存儲、算力等方面的支撐。同時(shí),大數(shù)據(jù)時(shí)代積累的分布式計(jì)算、并行處理等技術(shù),也為超大規(guī)模知識圖譜知識計(jì)算提供了豐富的經(jīng)驗(yàn)。
知識圖譜是大數(shù)據(jù)時(shí)代知識工程的代表技術(shù),是符號主義與連接主義相結(jié)合的產(chǎn)物,也是實(shí)現(xiàn)認(rèn)知智能的基石。近年來,知識圖譜在互聯(lián)網(wǎng)以及金融、醫(yī)療、教育等行業(yè)得到廣泛應(yīng)用。本文從工程應(yīng)用角度系統(tǒng)地描述了大規(guī)模企業(yè)級知識圖譜的實(shí)踐細(xì)節(jié),介紹已有的知識圖譜平臺,闡述建設(shè)知識圖譜所需的主要過程和關(guān)鍵難點(diǎn),并針對每個(gè)環(huán)節(jié)分析所需的技術(shù)和相應(yīng)的最佳實(shí)踐。在此基礎(chǔ)上,指出知識圖譜平臺中臺化升級的挑戰(zhàn)、相應(yīng)的技術(shù)路線和未來發(fā)展方向。隨著知識圖譜在企業(yè)級場景中應(yīng)用的不斷深入,多類型知識的統(tǒng)一表示與自動獲取、海量知識的高效推理與計(jì)算、知識的質(zhì)量與時(shí)效性等將成為工程與研究中需要進(jìn)一步解決的問題。