朱木易潔 鮑秉坤 徐常勝
摘要 近年來知識(shí)圖譜技術(shù)引起了廣泛的關(guān)注和研究,本文介紹了近期知識(shí)圖譜的發(fā)展、構(gòu)建方法、詳細(xì)的構(gòu)建過程,并對(duì)知識(shí)圖譜在交叉學(xué)科領(lǐng)域的應(yīng)用和未來的研究方向做了總結(jié).本文詳細(xì)介紹了構(gòu)建文本知識(shí)圖譜、視覺知識(shí)圖譜、多模態(tài)知識(shí)圖譜的關(guān)鍵技術(shù),比如信息提取、知識(shí)融合、知識(shí)表示等.作為知識(shí)工程的重要組成部分,知識(shí)圖譜,尤其是多模態(tài)知識(shí)圖譜的發(fā)展對(duì)大數(shù)據(jù)時(shí)代的高效知識(shí)管理、知識(shí)獲取、知識(shí)共享有著重要的意義.關(guān)鍵詞知識(shí)圖譜;語義網(wǎng);自然語言處理;視覺知識(shí)圖譜;多模態(tài)
中圖分類號(hào) TP182
文獻(xiàn)標(biāo)志碼 A
0 引言
知識(shí)圖譜的起源可以追溯到20世紀(jì)50年代末60年代初語義網(wǎng)(semantic network)的誕生.當(dāng)時(shí)的語義網(wǎng)是一種基于圖的用于存儲(chǔ)知識(shí)的數(shù)據(jù)結(jié)構(gòu),圖的節(jié)點(diǎn)代表實(shí)體或者概念,圖的邊代表實(shí)體或概念間的關(guān)系,主要應(yīng)用于機(jī)器翻譯和自然語言處理中.到20世紀(jì)80年代,知識(shí)工程和基于規(guī)則的專家系統(tǒng)被提出并成為研究的重點(diǎn).20世紀(jì)90年代,機(jī)構(gòu)知識(shí)庫的概念被提出,知識(shí)表示和知識(shí)組織開始被深入研究,并廣泛應(yīng)用到各機(jī)構(gòu)單位的資料整理工作中.
互聯(lián)網(wǎng)在21世紀(jì)蓬勃發(fā)展,隨著信息量的爆炸式發(fā)展和搜索引擎的出現(xiàn),人們開始期望更加快速、準(zhǔn)確地獲得所需的信息.2012年11月,谷歌公司提出知識(shí)圖譜(knowledge graph)項(xiàng)目,該項(xiàng)目的關(guān)鍵技術(shù)包括從互聯(lián)網(wǎng)的網(wǎng)頁中抽取實(shí)體、實(shí)體屬性信息及實(shí)體間的關(guān)系,旨在解決自動(dòng)問答、個(gè)性化推薦和智能信息檢索方面的問題.谷歌公司宣布要以此為基礎(chǔ)構(gòu)建下一代智能搜索引擎,既能分析也能理解用戶真正的需求,而不僅僅只是基于關(guān)鍵詞的搜索.在谷歌知識(shí)圖譜的基礎(chǔ)上,知識(shí)圖譜的概念正式提出,定義為把所有不同種類的信息連接在一起得到的一個(gè)關(guān)系網(wǎng)絡(luò).通過對(duì)知識(shí)進(jìn)行這種更加有序、有規(guī)律的組織,可以給用戶提供更加智能的信息獲取和管理.
知識(shí)圖譜本質(zhì)上可以算作一個(gè)語義網(wǎng),具有語義網(wǎng)的很多特性,但又有所不同.知識(shí)圖譜和語義網(wǎng)的目標(biāo)都是實(shí)現(xiàn)人與計(jì)算機(jī)的無障礙溝通,讓計(jì)算機(jī)能理解語言和概念,能夠理解邏輯并擁有判斷和推理能力,也就是使計(jì)算機(jī)更加智能化、自動(dòng)化和人性化.語義網(wǎng)通過建立能夠被計(jì)算機(jī)所理解的語義“元數(shù)據(jù)(meta data)”,使網(wǎng)絡(luò)上的信息能通過統(tǒng)一的標(biāo)準(zhǔn)成為一個(gè)通用的信息交換媒介,從而大大提高網(wǎng)絡(luò)的搜索效率和推理理解能力,知識(shí)圖譜則是以圖譜的形式達(dá)到相同的目的.但是知識(shí)圖譜的數(shù)據(jù)來源可以是百科類的半結(jié)構(gòu)化數(shù)據(jù)和各種網(wǎng)絡(luò)數(shù)據(jù),關(guān)注的更多是知識(shí)清洗、知識(shí)融合和知識(shí)表示技術(shù).早期語義網(wǎng)則多是靠人工構(gòu)建,關(guān)注重點(diǎn)也不一樣[1].
目前一些比較大的知識(shí)圖譜有谷歌公司的“谷歌知識(shí)圖譜”,用多種語言對(duì)知識(shí)圖譜中的實(shí)體、屬性和關(guān)系進(jìn)行描述,以達(dá)到提高搜索質(zhì)量的目的;百度公司的“知心”,通過篩選、整合搜索結(jié)果,達(dá)到直接搜索到答案的效果;搜狗公司的“知立方”通過“語義理解”網(wǎng)上的碎片信息和優(yōu)化結(jié)果,可以向用戶顯示最符合的信息[2].
本文的第1部分將進(jìn)一步闡述知識(shí)圖譜的一些基本概念和概況,第2部分至第4部分依次詳細(xì)介紹文本知識(shí)圖譜、視覺知識(shí)圖譜、多模態(tài)知識(shí)圖譜的構(gòu)建框架、關(guān)鍵技術(shù)及應(yīng)用,第5部分介紹知識(shí)圖譜目前面臨的挑戰(zhàn)及未來的研究方向并對(duì)全文內(nèi)容進(jìn)行總結(jié).
1 知識(shí)圖譜簡(jiǎn)介
1.1 基本概念
知識(shí)圖譜作為結(jié)構(gòu)化的語義知識(shí)庫,使用“資源描述框架(RDF,Resource Description Framework)”來描述數(shù)據(jù),包括一系列的節(jié)點(diǎn)、邊和屬性,基本模型是三元組,一般為“實(shí)體-關(guān)系-實(shí)體”三元組.其中,節(jié)點(diǎn)表示物理世界中的實(shí)體或概念,邊表示各種關(guān)系.實(shí)體(entity)指的是實(shí)際存在的事物,比如一個(gè)人物——奧巴馬、一個(gè)國(guó)家——中國(guó)、一個(gè)城市——廣州.概念(concept)是比實(shí)體更抽象的表達(dá),比如人、顏色、天氣.關(guān)系(relation)是實(shí)體與實(shí)體、實(shí)體與概念之間的結(jié)構(gòu)或聯(lián)系,包括層級(jí)關(guān)系,比如“屬于”、“一部分”,和非層級(jí)關(guān)系,比如屬性等.本體(ontology)在知識(shí)圖譜的概念中也總是被提及,它屬于知識(shí)表示的概念,來源于哲學(xué)的“本體論”.“知識(shí)本體”最初研究世界上各種事物以及代表這些事物的范疇的形式特性,并對(duì)其進(jìn)行分類、建立規(guī)范,后來在計(jì)算機(jī)科學(xué)中,“知識(shí)本體”有了科學(xué)定義,表示概念體系的明確規(guī)范,使其概念明確、形式簡(jiǎn)單、容易共享,比如生物學(xué)領(lǐng)域知識(shí)本體就是生物學(xué)領(lǐng)域知識(shí)的抽象.同樣地,“本體”是對(duì)領(lǐng)域?qū)嶓w存在本質(zhì)的抽象,強(qiáng)調(diào)實(shí)體間的關(guān)聯(lián),并用多種知識(shí)表示元素表達(dá)出來,構(gòu)造本體的目的就是為了實(shí)現(xiàn)一定程度的知識(shí)共享和重用.本體強(qiáng)調(diào)實(shí)體間或概念間的關(guān)聯(lián)關(guān)系,知識(shí)圖譜在本體的基礎(chǔ)上,增加了更多關(guān)于實(shí)體的信息.也就是說,本體描述了知識(shí)圖譜的數(shù)據(jù)模式(scheme),給知識(shí)圖譜構(gòu)建數(shù)據(jù)模式相當(dāng)于給它建立了本體.
1.2 數(shù)據(jù)存儲(chǔ)
知識(shí)圖譜的數(shù)據(jù)存儲(chǔ)主要有2種方案:RDF存儲(chǔ)和圖數(shù)據(jù)庫存儲(chǔ).
RDF存儲(chǔ)又稱三元組(triple)存儲(chǔ),使用唯一的URI標(biāo)示一個(gè)資源(resource),一個(gè)資源通常又標(biāo)示一個(gè)事物(thing),資源與資源間的關(guān)系用屬性(property)來描述,3種資源可以組成三元組,一般格式為(主語(subject),謂語(predicate),賓語(object)).三元組模式的查詢、歸并和連接都非常高效,但因?yàn)槠渥陨硭饕绞降膯栴},空間開銷比較大,更新維護(hù)的代價(jià)也大,目前更多的RDF數(shù)據(jù)庫使用列式存儲(chǔ),查詢效率也逐漸得到了提高.
相對(duì)來說,圖數(shù)據(jù)庫可以提供完善的圖查詢語言、支持各種圖挖掘算法,但是圖數(shù)據(jù)庫的分布式存儲(chǔ)使得大節(jié)點(diǎn)處的處理開銷高,數(shù)據(jù)更新速度慢,整體的實(shí)現(xiàn)代價(jià)比較高.圖1展示了各種數(shù)據(jù)存儲(chǔ)模式近幾年的發(fā)展情況[3],可以看出基于圖存儲(chǔ)的數(shù)據(jù)庫的數(shù)量一直保持領(lǐng)先,是存儲(chǔ)方式中的主流,其中Neo4j最為流行,而Jena是RDF領(lǐng)域內(nèi)目前最流行的存儲(chǔ)框架.
1.3 構(gòu)建方式和方法
知識(shí)圖譜的構(gòu)建主要包括自底向上(bottom-up)和自頂向下(top-down)2種方式.自底向上就是先獲得知識(shí)圖譜的實(shí)體數(shù)據(jù),然后再構(gòu)建本體,即先得到具體再得到抽象的概念,最典型的是谷歌的Knowledge Vault.自頂向下的方式則是先定義或得到本體的數(shù)據(jù),再逐漸將具體的實(shí)體加入到知識(shí)圖譜中,典型的有Freebase.目前大多數(shù)知識(shí)圖譜都是采用自底向上的方式進(jìn)行構(gòu)建,知識(shí)圖譜大致的構(gòu)建流程如圖2所示.知識(shí)圖譜的構(gòu)建主體包括知識(shí)獲取、知識(shí)融合、知識(shí)加工和知識(shí)更新4個(gè)方面,根據(jù)數(shù)據(jù)來源的不同構(gòu)建流程也會(huì)有些許區(qū)別.
知識(shí)圖譜的構(gòu)建方法有完全的專家手工構(gòu)建、利用眾包構(gòu)建(比如Wikipedia和Freebase)、半自動(dòng)構(gòu)建(比如預(yù)先人工設(shè)定規(guī)則或正則,然后從半結(jié)構(gòu)化的信息中再進(jìn)行自動(dòng)構(gòu)建)和完全從非結(jié)構(gòu)化的信息中自動(dòng)構(gòu)建.
1.4 數(shù)據(jù)來源與知識(shí)庫
知識(shí)圖譜的數(shù)據(jù)來源主要包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化的數(shù)據(jù),結(jié)構(gòu)化的數(shù)據(jù)指已經(jīng)組織好的RDF數(shù)據(jù).目前有很多已經(jīng)構(gòu)建好的知識(shí)庫,它們包含半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù),是知識(shí)圖譜的重要數(shù)據(jù)來源之一,比較有名的有Freebase[4]、Wikidata[5]、DBpedia[6]、YAGO[7]、IMDB[8],前4個(gè)是開放的鏈接知識(shí)庫,IMDB是典型的垂直行業(yè)知識(shí)庫,即只描述特定領(lǐng)域知識(shí)的知識(shí)庫.
Freebase知識(shí)庫現(xiàn)在是谷歌知識(shí)圖譜的重要組成部分,它的數(shù)據(jù)主要依靠人工構(gòu)建,其他數(shù)據(jù)主要來自維基百科、NNDB和MusicBrainz等網(wǎng)站或語料庫,2015年6月宣布整體遷移至Wikidata.Wikidata是維基百科基金會(huì)主持的一個(gè)自由的協(xié)作式多語言輔助知識(shí)庫,作為Wikipedia、Wikivoyage、Wikisource中結(jié)構(gòu)化數(shù)據(jù)的中央存儲(chǔ)器,數(shù)據(jù)主要以文檔的形式存儲(chǔ),每個(gè)文檔都有唯一的數(shù)字標(biāo)識(shí).DBpedia是由萊比錫大學(xué)和曼海姆大學(xué)共同創(chuàng)建的多語言綜合型知識(shí)庫,它從多種語言的維基百科中抽取結(jié)構(gòu)化的信息,并將其以關(guān)聯(lián)數(shù)據(jù)的形式發(fā)布到互聯(lián)網(wǎng)上,提供給在線網(wǎng)絡(luò)應(yīng)用、社交網(wǎng)站或其他在線知識(shí)庫使用.YAGO是德國(guó)馬普研究所(MaxPlanck Institute,MPI)的科研人員構(gòu)建的綜合型知識(shí)庫,它的數(shù)據(jù)來自維基百科、WordNet、GeoNames等網(wǎng)站,通過將維基百科中的分類體系和WordNet的分類體系相融合,YAGO構(gòu)建了一個(gè)復(fù)雜的類別層次結(jié)構(gòu)體系,2012年推出的YAGO2s擁有超過1 000萬個(gè)實(shí)體和超過1.2億個(gè)事實(shí).IMDB是一個(gè)關(guān)于電影演員、電影、電視節(jié)目、電視明星、電子游戲以及電影制作的在線數(shù)據(jù)庫,資料按類型進(jìn)行組織.
1.5 分類
1) 按照研究對(duì)象的規(guī)模分類,知識(shí)圖譜可以分為基于單樣本的知識(shí)圖譜和基于樣本集的知識(shí)圖譜,比如文本上的就可以分為基于單文本的知識(shí)圖譜和基于文本集的知識(shí)圖譜,視覺上可以分為基于單幅圖片的知識(shí)圖譜和基于圖片集的知識(shí)圖譜.
2) 按照研究?jī)?nèi)容的領(lǐng)域來分類,知識(shí)圖譜可以分為一般化知識(shí)圖譜,比如百度公司的知心、搜狗公司的知立方,和領(lǐng)域知識(shí)圖譜,比如影視領(lǐng)域的IMDB、金融領(lǐng)域的文因互聯(lián).
3) 按照研究?jī)?nèi)容來分類,知識(shí)圖譜可以分為文本知識(shí)圖譜、視覺知識(shí)圖譜、多模態(tài)知識(shí)圖譜,后面將逐個(gè)進(jìn)行詳細(xì)介紹.
2 文本知識(shí)圖譜
2.1 文本知識(shí)圖譜的構(gòu)建
文本知識(shí)圖譜指以文本為主要研究?jī)?nèi)容,由文本樣本構(gòu)造,且節(jié)點(diǎn)和邊均有文本表示的知識(shí)圖譜.如圖3所示,文本知識(shí)圖譜在構(gòu)建中分為信息表示、知識(shí)融合、知識(shí)加工、知識(shí)更新4個(gè)部分.
信息表示包括知識(shí)抽取和知識(shí)表示2部分,知識(shí)抽取又包括實(shí)體抽取、關(guān)系抽取和屬性抽取,針對(duì)不同的數(shù)據(jù)有不同的知識(shí)抽取方式,對(duì)于結(jié)構(gòu)化的數(shù)據(jù)一般基于規(guī)則進(jìn)行抽取,對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)則一般基于學(xué)習(xí)抽取,比如使用SVM分類或結(jié)合使用RNN和CRF.知識(shí)表示現(xiàn)在比較多的使用翻譯嵌入(Translating Embedding),即將知識(shí)嵌入到一個(gè)低維空間中,獲得知識(shí)的對(duì)應(yīng)向量后就可以使用各種數(shù)學(xué)工具進(jìn)行分析,比如一個(gè)三元組實(shí)例(中國(guó),首都,北京),將其分別換成特征向量(A,B,C)后,可以研究A+B=C這種或其他翻譯的情況并分析.2013年Bordes等[9]提出了基于實(shí)體和關(guān)系的分布式向量表示的TransE,它將每個(gè)三元組實(shí)例中的關(guān)系看作是從頭實(shí)體到尾實(shí)體的翻譯(Translating),并將實(shí)體和關(guān)系投影到一個(gè)平面中.雖然TransE簡(jiǎn)單又高效,但在自反性上卻有致命缺陷.因此,TransH在2014年被提出,它采用超平面的思路,直接將關(guān)系翻譯向量放在關(guān)系超平面上,使實(shí)體在不同關(guān)系三元組中有不同的角色,也就是有分布式的表示,可以進(jìn)行一對(duì)多、多對(duì)一和多對(duì)多關(guān)系的建模[10].2015年又衍生出了TransD[11]、TransA[12]、TransG[13]、TransR[14]、KG2E[15],2016年Ji等[16]提出了TranSparse,利用稀疏矩陣研究知識(shí)圖譜關(guān)系和實(shí)體的不均勻性,作者對(duì)不同難度的實(shí)體和關(guān)系使用不同稀疏程度的矩陣進(jìn)行表示,從而防止了對(duì)簡(jiǎn)單關(guān)系的過擬合或?qū)?fù)雜關(guān)系的欠擬合.
知識(shí)融合包括實(shí)體鏈接和實(shí)體合并.就文本語義來說,存在諸如“蘋果”既可能指“一種水果”也可能指“蘋果公司”這種歧義,在實(shí)體鏈接部分就要將這種具有歧義的實(shí)體鏈接到給定的確切的知識(shí)上,這一步有時(shí)也被稱作“實(shí)體消歧”.實(shí)體合并則是針對(duì)一些不同的詞匯實(shí)際上是一個(gè)語義的情況,將語義相同的實(shí)體合并到一起,比如“貝克漢姆”、“Beckham”、“碧咸”其實(shí)指的是同一個(gè)人,具體操作是將多異構(gòu)的數(shù)據(jù)源實(shí)體歸并為一個(gè)具有全局唯一標(biāo)識(shí)的實(shí)體對(duì)象.在判斷是否是需要合并的實(shí)體過程中一般使用基于規(guī)則或基于上下文提取詞特征向量的方法.
知識(shí)圖譜并非一開始就是完整的,而是隨著知識(shí)加工步驟,也就是隨著知識(shí)推理和知識(shí)更新步驟來進(jìn)行補(bǔ)全、擴(kuò)充的,這樣既可以豐富知識(shí)圖譜,也可以增強(qiáng)機(jī)器的理解力.知識(shí)推理是利用現(xiàn)有的知識(shí)進(jìn)行推理,可以基于模板推理,也可以利用關(guān)系機(jī)器學(xué)習(xí).關(guān)系機(jī)器學(xué)習(xí)中常用的方法有矩陣分解、因子圖和神經(jīng)網(wǎng)絡(luò)等.知識(shí)更新則是對(duì)新來的知識(shí)進(jìn)行處理,可以分為全面更新和增量更新.全面更新需要根據(jù)新增量重新計(jì)算所有的知識(shí)表示,增量更新則只需要將新數(shù)據(jù)添加到已有的知識(shí)表示當(dāng)中去.Despande等[17]專門寫了一篇論文以Kosmix知識(shí)庫和WalmartLabs為例,從工業(yè)角度展示了一個(gè)真實(shí)的知識(shí)圖譜案例,詳細(xì)系統(tǒng)地介紹了如何在數(shù)據(jù)管理應(yīng)用方面構(gòu)建、維護(hù)和使用一個(gè)知識(shí)庫,其中知識(shí)數(shù)據(jù)的補(bǔ)充使用的就是增量更新.
2.2 文本知識(shí)圖譜的應(yīng)用
1) 文本知識(shí)圖譜的主要應(yīng)用是語義檢索,這在谷歌搜索和百度搜索中有鮮明的體現(xiàn).傳統(tǒng)的基于關(guān)鍵詞的搜索是將用戶給予的輸入進(jìn)行切分得到關(guān)鍵詞,再用關(guān)鍵詞和數(shù)據(jù)進(jìn)行匹配,最終將排序后的匹配結(jié)果返回給用戶以供選擇,這種方法一旦遇到稍微復(fù)雜一些的語句就無法理解用戶的輸入而返回一些不相關(guān)的結(jié)果.基于知識(shí)圖譜的語義檢索則能更好地理解用戶的輸入,并且在輸入復(fù)雜的情況下也能返回準(zhǔn)確的信息,甚至直接返回答案.用戶提供輸入后,語義檢索分為以下步驟:識(shí)別輸入中的概念、實(shí)體、屬性和關(guān)系,結(jié)合知識(shí)圖譜對(duì)識(shí)別的結(jié)果進(jìn)行理解,在數(shù)據(jù)集上搜索理解得到的結(jié)果并返回信息.比如,當(dāng)用戶搜索“姚明的身高”,搜索引擎第1條可以直接返回身高的具體數(shù)值,而不只是提供一些相關(guān)網(wǎng)頁讓用戶自己選擇.
2) 文本知識(shí)圖譜的另一項(xiàng)應(yīng)用是深度搜索,或叫知識(shí)導(dǎo)航.相比于傳統(tǒng)的基于關(guān)鍵詞的搜索方式,使用知識(shí)圖譜的深度搜索可以不只是提供用戶輸入的相關(guān)答案,還能提供用戶輸入的相關(guān)深度信息,也就是提供相關(guān)的知識(shí)導(dǎo)航供用戶了解學(xué)習(xí).比如在搜索“羅志祥”后,搜索引擎會(huì)在右側(cè)欄顯示人物相關(guān)的知識(shí)卡片,提供用戶輸入的“實(shí)體”、“概念”的相關(guān)關(guān)聯(lián)信息,比如“與羅志祥合作過的藝人”、“羅志祥主演的作品”、“臺(tái)灣歌手”等.在搜索電影時(shí),同樣,相關(guān)的影視作品、相關(guān)的主演以及電影的相關(guān)武器都會(huì)被直接顯示出來供用戶選擇.
3) 文本知識(shí)圖譜在情報(bào)分析方面也有廣泛的應(yīng)用.在股票投研中,可以通過建立公司間的知識(shí)圖譜以供券商分析師等進(jìn)行深層次情報(bào)分析并進(jìn)行更好的決策.公安人員可以利用企業(yè)和個(gè)人的資金交易、出行、住宿、稅務(wù)等信息建立“公司-人-資金帳戶”的知識(shí)圖譜,輔助進(jìn)行刑偵、線索偵查、同伙挖掘等.通過檢測(cè)來自不同數(shù)據(jù)源信息構(gòu)建的知識(shí)圖譜的一致性可以識(shí)別潛在的欺詐風(fēng)險(xiǎn),也就是可以進(jìn)行反欺詐情報(bào)分析等.
3 視覺知識(shí)圖譜
視覺知識(shí)圖譜是以圖像為主要研究?jī)?nèi)容,由視覺樣本構(gòu)造,且節(jié)點(diǎn)和邊均有視覺表示的知識(shí)圖譜.如圖4所示,視覺知識(shí)圖譜由于視覺和圖像信息的特點(diǎn),相比于文本知識(shí)圖譜在構(gòu)建中少了知識(shí)融合,只有信息表示、知識(shí)加工、知識(shí)更新3個(gè)部分,這3部分的步驟和文本知識(shí)圖譜的構(gòu)建沒有差別,只是研究對(duì)象和方法有所不同.
視覺知識(shí)圖譜在實(shí)體抽取上存在以下幾個(gè)難點(diǎn):實(shí)體列表難以獲取、實(shí)體對(duì)應(yīng)的視覺圖像難以獲取、一詞多義(也就是需要實(shí)體鏈接)、概念主體在圖片上的位置未知.實(shí)體列表一般采取預(yù)定義或數(shù)據(jù)挖掘的方式獲得,實(shí)體對(duì)應(yīng)的視覺圖片一般利用搜索引擎的返回圖片篩選得到,一詞多義可以使用聚類解決,概念主體在圖片上的位置則需要用到物體檢測(cè).2013年提出的NEIL[18]通過對(duì)所有的圖片進(jìn)行物體檢測(cè),再通過聚類找到每個(gè)實(shí)體的聚類中心點(diǎn),最后用訓(xùn)練分類器對(duì)所有的實(shí)體樣本進(jìn)行分類,這整個(gè)過程中使用的就是預(yù)先定義的的實(shí)體,所以如果要添加新的圖片就需要更新檢測(cè)器.2015年Johnson等[19]提出先對(duì)圖像中的每一個(gè)物體區(qū)域和區(qū)域內(nèi)對(duì)應(yīng)的實(shí)體進(jìn)行標(biāo)注,再利用所有標(biāo)注區(qū)域來訓(xùn)練物體檢測(cè)器的方法,但這種方法的所有數(shù)據(jù)都需要完全的手工標(biāo)注.預(yù)先定義的實(shí)體也可以不很具體,Divvala等[20]就使用了預(yù)先定義的較為籠統(tǒng)的實(shí)體列表,他們利用文本搜索引擎獲得豐富的實(shí)體列表,再利用圖片搜索引擎得到實(shí)體的圖片樣本,隨后對(duì)圖片進(jìn)行聚類、篩選實(shí)體,最后訓(xùn)練分類器.
視覺內(nèi)容的關(guān)系抽取方面的難點(diǎn)包括實(shí)體間的關(guān)系復(fù)雜,難以建模;實(shí)體間關(guān)系的視覺樣本呈現(xiàn)多樣化;概念主體在圖片上的位置未知.針對(duì)復(fù)雜的視覺實(shí)體間關(guān)系,Chen等[18]使用了混淆矩陣(Confuse Matrix)對(duì)關(guān)系進(jìn)行建模,但這種方法只能抽取較為簡(jiǎn)單的關(guān)系.Sadeghi等[21]提出了視覺知識(shí)提取系統(tǒng)(Visual Knowledge Extraction,VisKE),使用了預(yù)定義主謂賓關(guān)系的方法,利用關(guān)系短語中名詞間的動(dòng)詞分析文本和圖像,研究其空間一致性.關(guān)系建模過程中,作者用搜索引擎分別檢索不同的關(guān)系結(jié)構(gòu),對(duì)每一類搜索結(jié)構(gòu)訓(xùn)練一個(gè)分類器,最后構(gòu)建了一個(gè)因子圖來代表主謂賓的視覺關(guān)系.針對(duì)一般化的視覺關(guān)系,Lu等[22]結(jié)合視覺特征和語言模型先驗(yàn)知識(shí)(即可能的視覺關(guān)系)來確定視覺關(guān)系,可以實(shí)現(xiàn)在一張圖中探測(cè)多種視覺關(guān)系,并且在只有幾張訓(xùn)練樣本的前提下也能探測(cè),甚至是用于zero-shot預(yù)測(cè)中.但該方法不僅需要質(zhì)量較高的標(biāo)注數(shù)據(jù),而且只能表示單幅圖像中的2個(gè)物體對(duì)應(yīng)的關(guān)系.
在視覺屬性抽取上,對(duì)于形狀、顏色等物體屬性,Krishna等[23]對(duì)每一類屬性都訓(xùn)練了一組分類器.對(duì)于整幅圖像的屬性,可以使用深度卷積網(wǎng)絡(luò)和評(píng)價(jià)損失函數(shù)相結(jié)合的方法抽取,Souri等[24]在2016年提出了一種預(yù)測(cè)圖像屬性相關(guān)性的方法,結(jié)合使用了ConvNet和ranking layer,作者使用ConvNet來學(xué)習(xí)圖像特征,ranking layer用來給圖像評(píng)分.該方法在各種或粗糙或精細(xì)的數(shù)據(jù)集上,在相關(guān)屬性預(yù)測(cè)的實(shí)驗(yàn)中都取得了很好的效果.
對(duì)于視覺內(nèi)容,因?yàn)樵谛畔⒊槿r(shí)就已經(jīng)將其轉(zhuǎn)化為視覺特征向量,所以不需要顯示特征嵌入,可以直接將視覺特征作為信息表示,也可以將所有的特征組合成因子圖的形式進(jìn)行知識(shí)表示.視覺內(nèi)容的知識(shí)推理可以使用基于視覺特征的標(biāo)簽傳播,也就是根據(jù)相似性矩陣進(jìn)行標(biāo)簽傳播.Lu等[22]在進(jìn)行視覺知識(shí)推理時(shí)則是使用基于檢測(cè)和分類模型的知識(shí)補(bǔ)全,也就是將未知的實(shí)體、關(guān)系、屬性等視覺內(nèi)容提取視覺特征后送到對(duì)應(yīng)的檢測(cè)和分類模型中去預(yù)測(cè)結(jié)果.進(jìn)行視覺方面的知識(shí)更新時(shí),如果新來的數(shù)據(jù)沒有標(biāo)注,就需要重新進(jìn)行實(shí)體抽取、關(guān)系抽取和屬性抽取步驟,如文獻(xiàn)[18];如果新來的數(shù)據(jù)有標(biāo)注,就可以根據(jù)標(biāo)注數(shù)據(jù)更新視覺實(shí)體、關(guān)系、屬性及其影響到的推理.
視覺知識(shí)圖譜的主要應(yīng)用是語義圖像檢索,即根據(jù)用戶的描述檢索圖像.傳統(tǒng)的圖像檢索也是基于關(guān)鍵詞的檢索,相似于文本知識(shí)圖譜,在進(jìn)行基于視覺知識(shí)圖譜的語義圖像檢索時(shí),通過先分析輸入的“實(shí)體”、“屬性”,理解輸入的含義結(jié)果,再利用含義結(jié)果進(jìn)行圖像檢索,可以為用戶返回更加相符和準(zhǔn)確的目標(biāo)圖像.
利用視覺知識(shí)圖譜,還可以進(jìn)行文本關(guān)系真假的判斷.一般來說,對(duì)于絕大部分文本描述的真實(shí)關(guān)系都可以找到相匹配的圖像與之對(duì)應(yīng),在進(jìn)行文本關(guān)系真假判斷時(shí),如果對(duì)應(yīng)的圖像并不存在或與同類圖像的一致性不符,就可以判斷該文本關(guān)系為假,相反則為真.
4 多模態(tài)知識(shí)圖譜
如圖5,和視覺知識(shí)圖譜基本相似,多模態(tài)知識(shí)圖譜在構(gòu)建中分為信息表示、知識(shí)加工、知識(shí)更新3個(gè)部分.
實(shí)體抽取一般是從多模態(tài)樣本中自動(dòng)抽取實(shí)體列表.Sun等[25]提出利用相似文本和視覺集合來自動(dòng)提取視覺概念的方法.在視覺概念挖掘中,提供一組相似的圖像和文本描述后,作者首先挖掘文本數(shù)據(jù)選出候選的概念.因?yàn)橐曈X世界和人類語言的豐富性,候選概念池會(huì)非常大.然后用視覺數(shù)據(jù)過濾那些沒有視覺可辨識(shí)度的措辭,最后整合留下來的措辭到簡(jiǎn)潔的概念聚類中去,并且使用語義相似度、視覺相似度進(jìn)行評(píng)分.作者在文本過濾時(shí)使用視覺上相關(guān)圖像的區(qū)別,組織文本時(shí)使用視覺和文本的相似性.這種方法在圖像和文本的雙向概念獲取任務(wù)、圖像標(biāo)記任務(wù)上的表現(xiàn)都非常好.
Fang等[26]則提出了一個(gè)基于公眾分類圖像來自動(dòng)建立視覺實(shí)體的框架,作者根據(jù)文本和視覺的聚類結(jié)果來確定最終的視覺概念.利用大規(guī)模的用戶生成的圖像自動(dòng)建立視覺實(shí)體有3個(gè)關(guān)鍵方面:概念搜索、概念關(guān)系提取、概念分級(jí)建立.概念搜索時(shí),作者基于維基百科從Flickr的標(biāo)簽中分辨篩選概念集.對(duì)那些已分辨得到的概念,就使用相關(guān)標(biāo)簽的圖學(xué)習(xí)出模型,這樣可以通過擴(kuò)展和識(shí)別新圖來自動(dòng)更新結(jié)構(gòu)化實(shí)體.概念關(guān)系提取時(shí),不能直接獲取的概念關(guān)系先利用視覺模范相似度和標(biāo)簽一致性提取出來.之后,類別關(guān)系就可以直接通過驗(yàn)證頻度差異、概念標(biāo)簽的分布計(jì)算出來.建立概念分級(jí)時(shí),作者通過計(jì)算概念熵來評(píng)估概念的語義闊度.該框架能有效應(yīng)對(duì)用戶生成的噪聲標(biāo)簽,通過利用文本和視覺兩方面的信息實(shí)現(xiàn)了圖片和概念的不停更新.
多模態(tài)樣本中的關(guān)系分為同時(shí)出現(xiàn)關(guān)系和層級(jí)關(guān)系,抽取關(guān)系時(shí)一般利用通用的概念比具體的概念出現(xiàn)頻率要高這一思想,通過計(jì)算實(shí)體的文本和圖片特征的統(tǒng)計(jì)關(guān)系進(jìn)行抽取,F(xiàn)ang等[26]就通過驗(yàn)證頻度差異和概念標(biāo)簽的分布來計(jì)算類別關(guān)系.目前沒有專門研究多模態(tài)屬性抽取的提取方法,一般是將屬性當(dāng)作實(shí)體概念的一種,和實(shí)體抽取采用相同的方法.
多模態(tài)樣本的知識(shí)推理可以使用基于多模態(tài)特征的標(biāo)簽傳播,比如Fang等[26]就根據(jù)相似矩陣和圖片相似矩陣進(jìn)行標(biāo)簽傳播;也可以使用因子圖進(jìn)行推導(dǎo)和學(xué)習(xí),比如Zhu等[27]就采用馬爾科夫隨機(jī)場(chǎng)結(jié)合Gibbs采樣學(xué)習(xí)因子圖的權(quán)重進(jìn)行知識(shí)推導(dǎo)與學(xué)習(xí).
因?yàn)槎嗄B(tài)知識(shí)圖譜的每一步構(gòu)建過程都需要所有的多模態(tài)樣本,因此如果增加新樣本就需要全面更新,目前多模態(tài)知識(shí)圖譜方面還沒有增量更新的相關(guān)論文.
相比于文本知識(shí)圖譜和視覺知識(shí)圖譜,多模態(tài)知識(shí)圖譜在生活中有更加廣泛的應(yīng)用,比如可以實(shí)現(xiàn)基于本體的圖像檢索,也可以做視覺和文本相結(jié)合的視覺知識(shí)問答.傳統(tǒng)的基于分類的視覺問答,由于進(jìn)行的操作是分類和目標(biāo)探測(cè),這樣對(duì)于簡(jiǎn)單問題能夠回答得不錯(cuò),但只要問題稍稍復(fù)雜,回答就不令人滿意.目前針對(duì)大規(guī)模、多樣性視覺問題任務(wù)的研究,都是將視覺識(shí)別任務(wù)扔給能進(jìn)行多樣性推理的模型,這種方法最大的好處就是避免了每次一出現(xiàn)新一類問題就得訓(xùn)練新分類器的困擾.
Zhu等[27]出于類似目的建立了一種新的大規(guī)模多模態(tài)知識(shí)庫結(jié)構(gòu).作者通過將整幅圖像及其具有的所有文字信息當(dāng)作一個(gè)整體,直接將圖片特征及其標(biāo)注的文本內(nèi)容作為實(shí)體,可以將大規(guī)模知識(shí)庫應(yīng)用于視覺問答.其好處是知識(shí)庫一旦建立好就可以處理各種各樣的視覺問答,而不用像以前一樣為了每一個(gè)專門的任務(wù)和目的單獨(dú)訓(xùn)練模型.
5 總結(jié)
近年來知識(shí)圖譜逐漸受到了廣泛的關(guān)注并獲得了眾多的研究進(jìn)展,通過將知識(shí)圖譜應(yīng)用于諸如語義檢索、深度搜索、信息推薦、自動(dòng)問答等領(lǐng)域,很多以前生活中的設(shè)想都已經(jīng)成為可能.但是知識(shí)圖譜依然面臨著很多問題,尤其是多模態(tài)知識(shí)圖譜方面,比如如何進(jìn)行多模態(tài)的屬性表達(dá)、如何進(jìn)行復(fù)雜的多模態(tài)關(guān)系的挖掘和統(tǒng)一表示、如何進(jìn)行多模態(tài)知識(shí)圖譜的增量更新等.
作為知識(shí)工程的重要內(nèi)容,知識(shí)圖譜以語義網(wǎng)為理論基礎(chǔ),結(jié)合數(shù)據(jù)挖掘、自然語言處理、機(jī)器學(xué)習(xí)、知識(shí)表示等方面的內(nèi)容,對(duì)大數(shù)據(jù)時(shí)代的高效知識(shí)管理、知識(shí)獲取、知識(shí)共享有重要的意義.由于文本知識(shí)圖譜和視覺知識(shí)圖譜本身的局限性,未來知識(shí)圖譜的發(fā)展趨勢(shì)主要會(huì)在多模態(tài)知識(shí)圖譜上,這方面的主要研究?jī)?nèi)容包括多模態(tài)的概念挖掘、概念的統(tǒng)一表示、概念的簡(jiǎn)單關(guān)系的構(gòu)建等.
參考文獻(xiàn)
References
[1] 漆桂林,高桓,吳天星.知識(shí)圖譜研究進(jìn)展[J].情報(bào)工程,2017,3(1):4-25
QI Guilin,GAO Huan,WU Tianxing.The research advances of knowledge graph[J].Technology Intelligence Engineering,2017,3(1):4-25
[2] 李濤,王次臣,李華康.知識(shí)圖譜的發(fā)展與構(gòu)建[J].南京理工大學(xué)學(xué)報(bào),2017,41(1):22-34
LI Tao,WANG Cichen,Li Huakang.Development and construction of knowledge graph[J].Journal of Nanjing University of Science and Technology,2017,41(1):22-34
[3] DB-Engines.DBMS popularity broken down by database model[EB/OL].[2017-06-28].https:∥db-engines.com/en/ranking-categories
[4] Bollacker K,Cook R,Tufts P.Freebase:A shared database of structured general human knowledge[C]∥Proceedings of the 22nd National Conference on Artificial Intelligence,2007,2:1962-1963
[5] Wikidata.Main page of wikidata[EB/OL].[2017-06-28].https:∥www.wikidata.org/wiki/Wikidata:Main-Page
[6] Bizer C,Lehmann J,Kobilarov G,et al.DBpedia-A crystallization point for the web of data[J].Web Semantics:Science,Services and Agents on the World Wide Web,2009,7(3):154-165
[7] Suchanek F M,Kasneci G,Weikum G.Yago:A large ontology from wikipedia and wordnet[J].Web Semantics:Science,Services and Agents on the World Wide Web,2008,6(3):203-217
[8] IMDB.Homepage of IMDB[EB/OL].[2017-06-28].http:∥www.imdb.com
[9] Bordes A,Usunier N,Garcia-Duran A,et al.Translating embeddings for modeling multi-relational data[C]∥International Conference on Neural Information Processing Systems,2013:2787-2795
[10] Wang Z,Zhang J W,F(xiàn)eng J L,et al.Knowledge graph embedding by translating on hyperplanes[C]∥AAAI Conference on Artificial Intelligence,2014:1112-1119
[11] Ji G L,He S Z,Xu L H,et al.Knowledge graph embedding via dynamic mapping matrix[C]∥Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing,2015,1:687-696
[12] Xiao H,Huang M L,Hao Y,et al.TransA:An adaptive approach for knowledge graph embedding[J].arXiv e-print,2015,arXiv:1509.05490
[13] Xiao H,Huang M L,Hao Y,et al.TransG:A generative mixture model for knowledge graph embedding[J].arXiv e-print,2015,arXiv:1509.05488
[14] Lin Y K,Liu Z Y,Sun M S,et al.Learning entity and relation embeddings for knowledge graph completion[C]∥AAAI Conference on Artificial Intelligence,2015:2181-2187
[15] He S Z,Liu K,Ji G L,et al.Learning to represent knowledge graphs with Gaussian embedding[C]∥ACM International on Conference on Information and Knowledge Management,2015:623-632
[16] Ji G L,Liu K,He S Z,et al.Knowledge graph completion with adaptive sparse transfer matrix[C]∥AAAI Conference on Artificial Intelligence,2016:985-991
[17] Deshpande O,Lamba D S,Tourn M,et al.Building,maintaining,and using knowledge bases:A report from the trenches[C]∥ACM SIGMOD International Conference on Management of Data,2013:1209-1220
[18] Chen X L,Shrivastava A,Gupta A.Neil:Extracting visual knowledge from web data[C]∥IEEE International Conference on Computer Vision,2014:1409-1416
[19] Johnson J,Krishna R,Stark M,et al.Image retrieval using scene graphs[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:3668-3678
[20] Divvala S K,F(xiàn)arhadi A,Guestrin C.Learning everything about anything:Webly-supervised visual concept learning[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:3270-3277
[21] Sadeghi F,Divvala S K,F(xiàn)arhadi A.VisKE:Visual knowledge extraction and question answering by visual verification of relation phrases[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:1456-1464
[22] Lu C W,Krishna R,Bernstein M,et al.Visual relationship detection with language priors[C]∥European Conference on Computer Vision,2016:852-869
[23] Krishna R,Zhu Y K,Groth O,et al.Visual genome:Connecting language and vision using crowdsourced dense image annotations[J].International Journal of Computer Vision,2017,123(1):32-73
[24] Souri Y,Noury E,Adeli E.Deep relative attributes[C]∥Asian Conference on Computer Vision,2016:118-133
[25] Sun C,Gan C,Nevatia R.Automatic concept discovery from parallel text and visual corpora[C]∥IEEE International Conference on Computer Vision,2015:2596-2604
[26] Fang Q,Xu C S,Sang J T,et al.Folksonomy-based visual ontology construction and its applications[J].IEEE Transactions on Multimedia,2016,18(4):702-713
[27] Zhu Y K,Zhang C,Ré C,et al.Building a large-scale multimodal knowledge base system for answering visual queries[J].arXiv e-print,2015,arXiv:1507.05670