呼和浩特民族學(xué)院 歐艷鵬
知識圖譜概念是Google在2012年提出的,目的是加強(qiáng)智能搜索,自此備受關(guān)注。知識圖譜是一種將不同種類的知識關(guān)聯(lián)在一起而得到的關(guān)系圖譜,其本質(zhì)上是一種語義網(wǎng),具有語義網(wǎng)的許多特性,區(qū)別在于知識圖譜的數(shù)據(jù)來源廣泛、更多關(guān)注的是知識表示、知識融合等技術(shù)。同時知識圖譜與知識庫在理論和方法上也存在很多相似,區(qū)別在于知識庫包含更多的是某機(jī)構(gòu)領(lǐng)域內(nèi)的知識,而知識圖譜包含的知識更加廣泛,是一種更大的包含所有機(jī)構(gòu)知識庫的知識集合。知識圖譜具有邏輯推理、可解釋性、自然關(guān)聯(lián)、高效資源發(fā)現(xiàn)、透明共享及可視化等優(yōu)勢,具有廣闊的應(yīng)用前景。目前典型的知識圖譜主要有開放領(lǐng)域知識圖譜(Freebase、Dbpedia、Wikidata、YAGO、BabelNet、Web Data Commons)、垂直領(lǐng)域知識圖譜(Linked life data、Linked movie dataSet、ConceptNet、Microsoft Concept Graph)、中文知識圖譜(Zhishi.ine、OpenKG、CN-Dbpedia、Xlore、PKU-PIE、Belief Engine)。
按照研究內(nèi)容來劃分,知識圖譜可以分為文本知識圖譜、視覺知識圖譜和多模態(tài)知識圖譜等。
文本知識圖譜主要以文本為研究內(nèi)容,以文本樣本構(gòu)建,對文本知識進(jìn)行知識表示、知識推理等操作,主要應(yīng)用于語義檢索、深入搜索、情報分析等方面。
視覺知識圖譜主要以圖像為研究內(nèi)容,以圖像樣本構(gòu)建,對圖像進(jìn)行知識表示、知識加工、推理更新等操作,存在實體難以獲取、實體間關(guān)系復(fù)雜難以建模等難點,主要應(yīng)用于語義圖像檢索、對文本關(guān)系的真假進(jìn)行判斷等方面。
多模態(tài)知識圖譜在構(gòu)建中需要進(jìn)行知識表示、知識推理更新等操作,它的每一步構(gòu)建過程都需要所有的多模態(tài)樣本,它在生活中有更加廣泛的應(yīng)用,例如實現(xiàn)視覺和文本相結(jié)合的知識問答等方面。
知識圖譜的數(shù)據(jù)來源包括文本、圖像、傳感器、視頻等,總體上可分為從網(wǎng)頁上獲取數(shù)據(jù)和從數(shù)據(jù)庫等數(shù)據(jù)集合抽取得到。數(shù)據(jù)來源廣泛,如何從不同數(shù)據(jù)源的抽取構(gòu)建知識圖譜所需的實體、屬性和關(guān)系等,成為知識圖譜構(gòu)建的關(guān)鍵技術(shù),抽取的知識越完整,所構(gòu)建的知識圖譜越全面,利用價值也越高。目前,常見的實體抽取方法主要包括基于規(guī)則、基于統(tǒng)計機(jī)器學(xué)習(xí)和基于開放域的抽取方法。關(guān)系抽取方法主要包括基于規(guī)則和基于開放式關(guān)系的抽取方法。屬性抽取方法主要包括基于規(guī)則和基于啟發(fā)式算法的方法。然而互聯(lián)網(wǎng)網(wǎng)頁種類的繁多、形式不一、存在大量的廣告,導(dǎo)致其很難通過一種或幾種知識抽取方法對知識進(jìn)行有效的、準(zhǔn)確的抽取。
知識表示研究的是如何實現(xiàn)對現(xiàn)實世界中的事物以及事物相關(guān)關(guān)系的建模,賦予數(shù)據(jù)符合人類表達(dá)的邏輯信息,使人與計算機(jī)之間進(jìn)行無障礙溝通。目前常用的知識表示方法主要包括基于語義網(wǎng)絡(luò)的表示方法、基于產(chǎn)生式規(guī)則的表示方法、基于框架的表示方法、基于邏輯的表示、基于語義本體的表示等,各種表示方法具有不同的知識表達(dá)能力。在這些表達(dá)方法中,目前研究較多的是基于描述邏輯的表示方法。知識表示與知識存儲技術(shù)密切相關(guān),也需要進(jìn)行研究。
在知識圖譜中,由于數(shù)據(jù)來源的不全面和抽取過程的不準(zhǔn)確,需要利用已有的知識圖譜事實和推理技術(shù)進(jìn)一步從語義網(wǎng)和其他相應(yīng)的知識庫挖掘出缺失的和更深層次的實體與關(guān)系的聯(lián)系,實現(xiàn)知識圖譜補(bǔ)全和知識圖譜去噪等問題,進(jìn)而使知識圖譜更加豐富和完善。目前知識推理的方法主要包括(1)基于傳統(tǒng)方法的推理。其又包括基于傳統(tǒng)規(guī)則推理的方法和基于本體推理的方法。(2)單步推理。又包括:①基于分布式表示的推理(基于轉(zhuǎn)移的表示推理、基于張量/矩陣分解的表示推理、基于空間分布的表示推理);②基于神經(jīng)網(wǎng)絡(luò)的推理;③混合推理(混合規(guī)則與分布式表示的推理、混合神經(jīng)網(wǎng)絡(luò)與分布式表示的推理)。(3)多步推理。又包括:①基于規(guī)則的推理(基于全局結(jié)構(gòu)的規(guī)則推理、引入局部結(jié)構(gòu)的規(guī)則推理);②基于分布式表示的推理;③基于神經(jīng)網(wǎng)絡(luò)的推理(神經(jīng)網(wǎng)絡(luò)建模多步路徑的推理、神經(jīng)網(wǎng)絡(luò)模擬計算機(jī)或人腦的推理);④混合推理(混合PRA與分布式表示的推理、混合規(guī)則與分布式表示的推理、混合規(guī)則與神經(jīng)網(wǎng)絡(luò)的推理)。
各種推理方法具有不同的推理能力,大體上,混合多步推理比混合單步推理,獲得更好的推理性能,但目前的混合推理依然局限于兩種方法的混合,未來多種混合推理將值得更深入的研究,進(jìn)一步提高可解釋性和計算效率。為此,知識推理技術(shù)的未來研究方向主要是面向面向多元關(guān)系的知識推理、融合多源信息與多種方法的知識推理、基于小樣本學(xué)習(xí)的知識推理、動態(tài)知識推理等方向,進(jìn)一步提高推理速度和保證推理的時效性,為用戶時刻提供最新的、準(zhǔn)確的知識。
知識圖譜是人工智能、知識工程的重要分支,目的在于模仿人類的思維方式,對大數(shù)據(jù)時代高效的知識管理、知識獲取、知識共享具有深遠(yuǎn)的意義。目前知識圖譜已在應(yīng)用于眾多領(lǐng)域,并且展示出重要作用,例如智能輔助搜索、智能輔助問答、智能輔助決策、輔助AI、垂直領(lǐng)域等方面。雖然取得了很大的進(jìn)步和發(fā)展,但仍然有大量的難題急需解決,尤其數(shù)據(jù)的爆炸式增長,知識圖譜的規(guī)模越來越大,呈現(xiàn)出結(jié)構(gòu)復(fù)雜多樣性、數(shù)據(jù)動態(tài)變化性以及查詢實時響應(yīng)性等多種特性和需求,更增加了知識圖譜的挑戰(zhàn),更需要解決不同階段的各個難題,任重道遠(yuǎn),仍需不斷的努力。