●邢美鳳
(1.晉中學(xué)院 圖書(shū)館,山西 晉中 030600;2.中國(guó)科學(xué)院 國(guó)家科學(xué)圖書(shū)館,北京 100190)
維基百科是英特網(wǎng)上最大的開(kāi)放式電子百科全書(shū),領(lǐng)域覆蓋廣泛,知識(shí)增長(zhǎng)和更新速度快,為構(gòu)建語(yǔ)義詞典或知識(shí)庫(kù)等應(yīng)用提供了豐富、可靠、低成本的內(nèi)容資源。
DBpedia[1]將維基百科中包含的內(nèi)容轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化的知識(shí),并且在LOD原則指導(dǎo)下互聯(lián),將網(wǎng)上其它數(shù)據(jù)集和維基百科的數(shù)據(jù)結(jié)合起來(lái),使得這些信息以關(guān)聯(lián)數(shù)據(jù)的形式在Web上共享。DBpedia數(shù)據(jù)集包括來(lái)自80多種語(yǔ)言的數(shù)據(jù)、400多萬(wàn)指向其它LOD數(shù)據(jù)集的聯(lián)接和總共已超過(guò)20億的RDF三元組,是世界上十大關(guān)聯(lián)數(shù)據(jù)集核心之一。DBpedia一方面利用關(guān)聯(lián)技術(shù)與語(yǔ)義網(wǎng)中各種關(guān)聯(lián)數(shù)據(jù)進(jìn)行了互聯(lián);另一方面,作為世界上最大的常識(shí)本體知識(shí)庫(kù)之一,為自然語(yǔ)言處理技術(shù)提供了豐富的知識(shí)來(lái)源。
本文通過(guò)分析DBpedia從維基百科中抽取結(jié)構(gòu)化知識(shí)的關(guān)鍵技術(shù),包括DBpedia結(jié)構(gòu)化知識(shí)的抽取方法、內(nèi)容和特點(diǎn),以及應(yīng)用與研究前景,以期在基于自然語(yǔ)言處理的知識(shí)抽取、基于上下文的語(yǔ)義消歧、命名實(shí)體識(shí)別、語(yǔ)義相關(guān)度計(jì)算、跨領(lǐng)域的知識(shí)發(fā)現(xiàn)等方面對(duì)DBpedia應(yīng)用于數(shù)字圖書(shū)館建設(shè)和自然語(yǔ)言處理的前景研究做一展望。
DBpedia根據(jù)維基百科每個(gè)頁(yè)面本身的編輯方式以及編輯特點(diǎn),確定從維基百科中抽取結(jié)構(gòu)化知識(shí)的方法。每個(gè)維基百科頁(yè)面不僅包含一些自由文檔,還包含一些結(jié)構(gòu)化的信息,如標(biāo)題、摘要、infobox模板、相對(duì)應(yīng)的其它語(yǔ)種的頁(yè)面信息、圖片信息及地理位置信息等。
維基百科有固定的句法構(gòu)成,每個(gè)頁(yè)面利用MediaWiki編輯而成。MediaWiki利用特定的句法構(gòu)成將元數(shù)據(jù)的編輯、鏈接和標(biāo)注附加到文本正文中。所以通過(guò)分析MediaWiki,可以解析文本的句法結(jié)構(gòu),以獲得結(jié)構(gòu)化的信息。當(dāng)前有兩種抽取DBpedia結(jié)構(gòu)化知識(shí)的方法:[2]
(1)利用存儲(chǔ)的關(guān)系數(shù)據(jù)表抽取。維基百科每個(gè)月都會(huì)定期轉(zhuǎn)存所發(fā)布的頁(yè)面,并將一些信息放入關(guān)系數(shù)據(jù)表中。數(shù)據(jù)表中的關(guān)系可以直接映射為RDF三元組,同時(shí)會(huì)根據(jù)每個(gè)月維基百科數(shù)據(jù)轉(zhuǎn)存的變化情況定期更新DBpedia知識(shí)庫(kù)。
(2)直接從維基頁(yè)面中抽取其它信息。維基百科提供的OAI-PMH在線更新反饋系統(tǒng),會(huì)及時(shí)向DB-pedia項(xiàng)目報(bào)告維基百科所有頁(yè)面的變化情況。DBpedia在延遲1—2分鐘之后針對(duì)維基百科的實(shí)時(shí)修改信息,對(duì)相應(yīng)DBpedia頁(yè)面進(jìn)行映射更新。
直接從維基頁(yè)面中抽取信息可分為兩種基本的方法。一是一般的inforbox抽取方法,inforbox模板通常以屬性—值的形式位于維基頁(yè)面的右下側(cè),是一個(gè)獨(dú)立的區(qū)域,是最重要的結(jié)構(gòu)化數(shù)據(jù)來(lái)源。MediaWiki針對(duì)這部分信息,利用模式匹配的方法予以識(shí)別,從而轉(zhuǎn)換為DBpedia資源頁(yè)面的信息。二是基于映射的inforbox抽取方法,主要用于克服同名問(wèn)題以及對(duì)同一類(lèi)實(shí)體的多個(gè)模板的問(wèn)題。其實(shí)現(xiàn)過(guò)程是將維基模板映射為一個(gè)手工創(chuàng)建的本體,同時(shí)手工整理350多個(gè)固定使用的模板,然后將2350多個(gè)維基屬性映射到720個(gè)DBpedia本體類(lèi)所對(duì)應(yīng)的屬性中。
DBpedia將維基百科中infobox模板類(lèi)型、圖片、地理等信息指向其它外部Web頁(yè)面的鏈接以及指向不同語(yǔ)言版本的維基鏈接等從維基百科中抽取出來(lái),轉(zhuǎn)變?yōu)镈Bpedia頁(yè)面。DBpedia從維基中抽取出的頁(yè)面內(nèi)容有兩類(lèi):
一類(lèi)是對(duì)維基百科頁(yè)面結(jié)構(gòu)化描述的實(shí)體頁(yè)面,實(shí)體頁(yè)面的 URI形式為 http://DBpedia.org/page/name,其中鏈接最后部分的“name”和相應(yīng)的維基百科中URI文章的“name”相同。
另一類(lèi)是對(duì)所抽取的結(jié)構(gòu)化頁(yè)面進(jìn)一步說(shuō)明的實(shí)體描述頁(yè)面。分為資源描述頁(yè)面和屬性描述頁(yè)面。實(shí)體描述頁(yè)面包含的標(biāo)簽對(duì)應(yīng)維基中的頁(yè)面標(biāo)題,同時(shí)和DBpedia抽取的結(jié)構(gòu)化描述頁(yè)面標(biāo)題一致。實(shí)體描述頁(yè)面中的摘要信息對(duì)應(yīng)維基頁(yè)面的描述信息。資源頁(yè)面的URI形式為http://DBpedia.org/resourse/name。其中鏈接最后部分的“name”和相應(yīng)的維基百科中URI文章的“name”相同。
每一個(gè)DBpedia資源描述頁(yè)面由通用屬性和Inforbox指定的屬性及相應(yīng)的屬性值構(gòu)成。屬性描述頁(yè)面中的屬性來(lái)源于DBpedia中使用到的本體類(lèi)。這些本體類(lèi)包括維基類(lèi)、YAGO類(lèi)、UMBEL類(lèi)和DBpedia自身定義的類(lèi)。有些類(lèi)的命名空間在DBpedia資源中重新定義。維基百科中的Inforbox指定的屬性頁(yè)面URI形式為http://DBpedia.org/property/namespace?;谟成涞膶傩皂?yè)面URI形式為http://DBpedia.org/ontology/namespace.。
DBpedia知識(shí)庫(kù)的構(gòu)建是語(yǔ)義網(wǎng)工程的一部分,它是一個(gè)大型的、跨領(lǐng)域的本體知識(shí)庫(kù)。DBpedia知識(shí)庫(kù)中包含專(zhuān)有的本體類(lèi)和本體實(shí)例。到目前為止,DBpedia知識(shí)庫(kù)包括了40多萬(wàn)有關(guān)人的信息,50多萬(wàn)有關(guān)地理的信息,10萬(wàn)多的唱片集信息,6萬(wàn)多的電影信息,1萬(wàn)多的視頻信息,16萬(wàn)的組織信息,18萬(wàn)物種信息和5000多種疾病的信息等。[1]DBpedia從維基百科中抽取的結(jié)構(gòu)化知識(shí)以三種頁(yè)面的形式存儲(chǔ),分別是對(duì)維基抽取結(jié)構(gòu)化信息的描述頁(yè)面、DBpedia資源頁(yè)面和屬性描述頁(yè)面,總共有300多萬(wàn)的實(shí)體資源。同時(shí),按照LOD的原則,DBpedia知識(shí)庫(kù)數(shù)據(jù)集以RDF的形式發(fā)布,成為互聯(lián)網(wǎng)上關(guān)聯(lián)數(shù)據(jù)的一個(gè)重要節(jié)點(diǎn)。
(1)DBpedia實(shí)體所屬類(lèi)別。DBpedia的實(shí)體為了實(shí)現(xiàn)不同的應(yīng)用要求,包括四類(lèi)模式:①維基類(lèi),DBpedia中包括維基類(lèi)中的SKOS表示,這里有4萬(wàn)多個(gè)種類(lèi);②YAGO類(lèi),其中包含20多萬(wàn)個(gè)類(lèi);③ UMBEL類(lèi),是一個(gè)輕量級(jí)的本體,包含2萬(wàn)多個(gè)類(lèi);④DBpedia本體類(lèi),包含170個(gè)類(lèi),其中包括940個(gè)屬性。
(2)DBpedia實(shí)體資源。如前所述,從維基中抽取的頁(yè)面以結(jié)構(gòu)化形式存儲(chǔ)。DBpedia使用英語(yǔ)名來(lái)創(chuàng)建每個(gè)資源的標(biāo)識(shí)符。每個(gè)資源創(chuàng)建相應(yīng)的URI,這個(gè)URI根據(jù)模板http://DBpedia.org/page/name創(chuàng)建。資源名和維基中相應(yīng)的URL文章的name相同。這樣做的好處是覆蓋主題廣泛、命名統(tǒng)一、便于管理、擴(kuò)展的維基定義便于查找。
(3)DBpedia實(shí)體描述資源。每一個(gè)DBpedia實(shí)體資源由一些屬性及相應(yīng)的屬性值來(lái)描述,這些屬性包括一般屬性和inforbox定義的屬性。這些屬性從維基頁(yè)面中抽取,并且在DBpedia資源中重新定義。DB-pedia的描述資源所使用的屬性幾乎包涵了百科全書(shū)的所有主題,以無(wú)歧義的形式定義。
(4)RDF三元組數(shù)據(jù)集。DBpedia結(jié)構(gòu)化了維基百科中的所有知識(shí),并且在LOD原則指導(dǎo)下,與其它數(shù)據(jù)集的資源建立語(yǔ)義相關(guān)。這些內(nèi)容都以RDF三元組的形式發(fā)布。分為核心的DBpedia數(shù)據(jù)集和與外部資源鏈接的數(shù)據(jù)集。DBpedia的RDF三元組數(shù)據(jù)以文本文檔的形式提供。
(1)跨領(lǐng)域的知識(shí)庫(kù)?,F(xiàn)在許多知識(shí)庫(kù)是面向特定領(lǐng)域的知識(shí)庫(kù),由相關(guān)領(lǐng)域的知識(shí)工程師創(chuàng)建,當(dāng)領(lǐng)域有所改變時(shí),原先的知識(shí)庫(kù)因不適應(yīng)新的環(huán)境而變得不能使用。而DBpedia知識(shí)庫(kù)覆蓋的領(lǐng)域有地理、人、公司、音樂(lè)、基因、藥物、書(shū)籍、科學(xué)出版物等,是一個(gè)跨領(lǐng)域的知識(shí)庫(kù)。
(2)多語(yǔ)種的知識(shí)庫(kù)。DBpedia知識(shí)庫(kù)涉及的語(yǔ)種包括了英語(yǔ),德語(yǔ),法語(yǔ),西班牙語(yǔ),意大利語(yǔ),葡萄牙語(yǔ),日語(yǔ),漢語(yǔ),俄語(yǔ)等30多種語(yǔ)言。
(3)富文檔的知識(shí)庫(kù)。維基上有大量的圖片信息,DBpedia描述了557,000個(gè)指向圖片、35,000個(gè)指向音樂(lè)集和12,000個(gè)電影的鏈接。
(4)網(wǎng)絡(luò)知識(shí)庫(kù)的中心節(jié)點(diǎn)之一。DBpedia定義了全球唯一的標(biāo)識(shí)符,這些標(biāo)識(shí)符可以通過(guò)Linked Data原則解析。利用RDF三元組建立起的從各種數(shù)據(jù)源到DBpedia的聯(lián)系,使得DBpedia成為在互聯(lián)網(wǎng)上可利用數(shù)據(jù)的中心結(jié)點(diǎn)之一。
DBpedia知識(shí)庫(kù)的應(yīng)用要遵循GNU自由文檔協(xié)議,具體的使用方法包括四種存取機(jī)制。[3,4]
Linked Data[5]是一種利用RDF數(shù)據(jù)模式在網(wǎng)上發(fā)布結(jié)構(gòu)化數(shù)據(jù)的一種方法。RDF三元組的每一個(gè)部分都將HTTP URIs作為資源標(biāo)識(shí)符,將來(lái)自不同數(shù)據(jù)源的數(shù)據(jù)互聯(lián)。用戶(hù)利用HTTP協(xié)議可以獲取相應(yīng)資源。 DBpedia知識(shí)庫(kù)以RDF數(shù)據(jù)形式,按照Linked Data原則描述和在網(wǎng)上發(fā)布資源。這樣,DBpedia和各種開(kāi)放數(shù)據(jù)就可以形成互聯(lián),發(fā)布的數(shù)據(jù)也可以利用瀏覽器或網(wǎng)頁(yè)爬行技術(shù)獲得。
SPARQL[6]由W3C開(kāi)發(fā),是針對(duì) RDF數(shù)據(jù)模型定義的標(biāo)準(zhǔn)查詢(xún)語(yǔ)言和數(shù)據(jù)獲取協(xié)議,允許應(yīng)用程序?qū)Ψ植际絉DF數(shù)據(jù)庫(kù)進(jìn)行復(fù)雜的查詢(xún),提供一套標(biāo)準(zhǔn)的查詢(xún)RDF、處理查詢(xún)過(guò)程以及返回查詢(xún)結(jié)果的格式。DBpedia提供了SPARQL查詢(xún)端點(diǎn),可以通過(guò)網(wǎng)上在線查詢(xún)的方式獲取DBpedia知識(shí)庫(kù)的內(nèi)容。當(dāng)DBpedia客戶(hù)端向DBpedia所提供的SPARQL查詢(xún)端點(diǎn)發(fā)送符合SPARQL查詢(xún)標(biāo)準(zhǔn)的查詢(xún)語(yǔ)句后,SPARQL端點(diǎn)接收客戶(hù)端的查詢(xún)請(qǐng)求,檢索相應(yīng)的DBpedia知識(shí)庫(kù),并將結(jié)果返回給用戶(hù)。
除了可以通過(guò)SPARQL端點(diǎn)獲取外,也可以在DBpedia網(wǎng)站中分類(lèi)下載DBpedia知識(shí)庫(kù)內(nèi)容。DBpedia按照語(yǔ)種類(lèi)型、從維基百科中抽取的內(nèi)容類(lèi)型以及外部數(shù)據(jù)的類(lèi)型,將知識(shí)庫(kù)分成多個(gè)數(shù)據(jù)集文件,提供專(zhuān)門(mén)的下載頁(yè)面。下載頁(yè)面均以文本文檔的形式提供。
Lucene[7]是一套用于全文檢索的開(kāi)源項(xiàng)目,由Apache軟件基金會(huì)支持和提供。Lucene提供了一個(gè)簡(jiǎn)單強(qiáng)大的應(yīng)用程序接口,能夠全文索引和搜索。對(duì)于給定的查詢(xún)術(shù)語(yǔ),為了發(fā)現(xiàn)更多的可能匹配,DBpedia基于Lucene索引,提供一種重量級(jí)的查找方法?;趌ucene索引的DBpedia查詢(xún)服務(wù)器的網(wǎng)址為:http://lookup.dbpedi.org/api/search.asmx。利用這種查詢(xún)索引方式,可以更容易地通過(guò)給定的標(biāo)簽找到相應(yīng)的DB-pedia資源。
(1)Web數(shù)據(jù)瀏覽和爬行。DBpedia知識(shí)庫(kù)互聯(lián)了各種其它數(shù)據(jù)源,如OpenCyc、WordNet、Freebase、UMBEL等,生成了本體云,進(jìn)一步擴(kuò)充了DBpedia實(shí)體的信息。這個(gè)機(jī)制也使得DBpedia成為網(wǎng)絡(luò)數(shù)據(jù)融合的中心結(jié)點(diǎn)之一。通過(guò)這些URL,可以從一個(gè)數(shù)據(jù)源鏈接到其它數(shù)據(jù)源,進(jìn)一步查詢(xún)相關(guān)的、更全面的信息。如在數(shù)字圖書(shū)館的應(yīng)用中,一些圖書(shū)館己經(jīng)在聯(lián)合目錄和DBpedia之間創(chuàng)建了規(guī)范記錄的鏈接,如瑞典國(guó)家圖書(shū)館、德國(guó)國(guó)家圖書(shū)館、美國(guó)國(guó)會(huì)圖書(shū)館等,這樣可以為圖書(shū)館用戶(hù)提供更為詳盡的檢索信息,可以通過(guò)DBpedia進(jìn)一步找到更多相關(guān)主題的圖書(shū)或作者信息。
(2)Web數(shù)據(jù)融合。[8]DBpedia可以將不同來(lái)源、異構(gòu)的數(shù)據(jù)通過(guò)LOD原則融合成統(tǒng)一的數(shù)據(jù),將不同來(lái)源的術(shù)語(yǔ)映射成統(tǒng)一的術(shù)語(yǔ)集;按照匹配方式和轉(zhuǎn)換規(guī)則,將多種來(lái)源的詞表和本體中的詞匯對(duì)應(yīng)、融合,生成集中視圖,以統(tǒng)一的形式展示。
(3)DBpedia應(yīng)用于第三方的產(chǎn)品中。DBpedia數(shù)據(jù)可以導(dǎo)入第三方的產(chǎn)品中,利用DBpedia應(yīng)用接口在線訪問(wèn)相關(guān)數(shù)據(jù)。如DBpedia Mobile[9]是一款用在移動(dòng)設(shè)備如iphone中的第三方應(yīng)用,基于移動(dòng)設(shè)備上的GPS定位裝置,通過(guò)Linked Data瀏覽器,提供地圖化的界面;同時(shí)利用DBpedia中相關(guān)聯(lián)的位置信息和其它LOD數(shù)據(jù)集,自動(dòng)發(fā)現(xiàn)與當(dāng)前位置有關(guān)的許多地理信息資源,如從某一圖書(shū)作者的出生地,可能很容易地找到這個(gè)作者的工作地點(diǎn)等。
(1)語(yǔ)料庫(kù)及概念詞典的構(gòu)建。傳統(tǒng)的語(yǔ)料需要人工從報(bào)紙、雜志、互聯(lián)網(wǎng)中獲取,往往與領(lǐng)域相關(guān),是單一語(yǔ)種,并且這個(gè)收集過(guò)程需要耗費(fèi)很大的人力物力。維基百科作為一個(gè)跨領(lǐng)域、多語(yǔ)種的電子百科全書(shū),包含了數(shù)百萬(wàn)的文檔語(yǔ)料。[10]DBpedia從維基百科中抽取的結(jié)構(gòu)化數(shù)據(jù)為抽取語(yǔ)義知識(shí)、構(gòu)建概念詞典和語(yǔ)料庫(kù)提供了豐富的內(nèi)容資源,可以為許多自然語(yǔ)言處理技術(shù)以及多個(gè)語(yǔ)種提供跨領(lǐng)域的語(yǔ)料和概念支持。[11]
(2)命名實(shí)體識(shí)別。維基百科是最大的、可用的、多語(yǔ)種、跨領(lǐng)域的命名實(shí)體資源,包含大量有關(guān)人名、地理、組織機(jī)構(gòu)等信息。DBpedia從維基百科中抽取結(jié)構(gòu)化的信息,能更有效地應(yīng)用于命名實(shí)體的識(shí)別。目前DBpedia研究小組發(fā)布的Spotlight[12]是專(zhuān)用來(lái)進(jìn)行命名實(shí)體識(shí)別的工具,可以將無(wú)結(jié)構(gòu)化的自由文本與互聯(lián)網(wǎng)中的關(guān)聯(lián)數(shù)據(jù)建立聯(lián)系,實(shí)現(xiàn)命名實(shí)體的識(shí)別。
(3)語(yǔ)義相關(guān)度計(jì)算。DBpedia本體知識(shí)庫(kù)提供了豐富的概念間的關(guān)聯(lián)關(guān)系。利用DBpedia提供的關(guān)聯(lián)信息或公共屬性信息來(lái)構(gòu)建相關(guān)應(yīng)用的概念網(wǎng)絡(luò),將兩個(gè)需要進(jìn)行對(duì)比計(jì)算的概念映射到己知的關(guān)系類(lèi)型中,實(shí)現(xiàn)概念之間的語(yǔ)義相關(guān)度計(jì)算。[13]利用DB-pedia對(duì)維基百科結(jié)構(gòu)化的語(yǔ)義標(biāo)注,通過(guò)計(jì)算相關(guān)性,可以發(fā)現(xiàn)不同實(shí)體間的語(yǔ)義相關(guān)性。
(4)實(shí)現(xiàn)語(yǔ)義消歧。利用一個(gè)術(shù)語(yǔ)在DBpedia中的多個(gè)義項(xiàng)的超鏈信息,對(duì)具有多個(gè)義項(xiàng)的術(shù)語(yǔ)進(jìn)行區(qū)分和描述,構(gòu)建用于語(yǔ)義消歧的語(yǔ)料庫(kù),然后利用消歧算法實(shí)現(xiàn)語(yǔ)義消歧。Anastasia[14]利用存在于DBpedia中的語(yǔ)義信息實(shí)現(xiàn)了標(biāo)簽消歧。
[1] DBpedia [EB/OL]. [2011 -05 -01].http://wiki.DBpedia.org/About.
[2] So ··ren Auer,Jens Lehmann. What have Innsbruck andLeipzig in Common? Extracting Semantics from WikiContent [EB/OL]. [2010 -12 -01]. http://www.informatik.uni-leipzig.de/~auer/publication/ExtractingSemantics.pdf.
[3] ChristianBizer,et al.DBpedia—ACrystallizationPointfor theWeb of Data[EB/OL]. [2010-12-01].http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Bizer-etal-DBpedia-CrystallizationPoint-JWS-Preprint.pdf.
[4] Soren Auer,etal.DBpedia:A Nucleus for aWeb of OpenData[EB/OL].[2010-12-01].http://www.informatik.uni-leipzig.de/~auer/publication/dbpedia.pdf.
[5] LinkedData[EB/OL].[2011-05-01].http://www.w3.org/DesignIssues/LinkedData.html.
[6] SPARQL[EB/OL].[2011-05-01].http://www.w3.org/TR/rdf-sparql-query/.
[7] LUCENE[EB/OL].[2011-05-01].http://lucene.apache.org/.
[8] 潘有能,張悅.關(guān)聯(lián)數(shù)據(jù)研究及應(yīng)用進(jìn)展[J].情報(bào)科學(xué),2011(1):124-130.
[9] Becher C,Bizer C.DBpedia Mobile a Location Enabled Linked DataBrowser[C]//ProceedingsofLDOW 2008,BeijingChina2008.
[10] 李赟.基于中文維基百科的語(yǔ)義知識(shí)挖掘相關(guān)研究[D].北京:北京郵電大學(xué),2009.
[11] Gerhard Weikum,Martin Theobald.From Information to Knowledge:Harvesting Entities and Relationships from Web Sources[EB/OL].[2011-11-01].http://www.mpi-inf.mpg.de/~weikum/pods2010-weikum&the obald.pdf.
[12] Spotlight[EB/OL].[2011-11-01].http://dbpedia.org/spotlight.
[13] Wohlgenannt, et al.Integrating Structural Data intoMethods for Labeling Relations in Domain Ontologies[C]//20th InternationalWorkshop on Database and ExpertSystems Application.Linz,Austria,2009:94-98.
[14] Anastasia Stampouli,et al.Tag Disambiguation throughFlickr and Wikipedia [C]//DASFAA'10 Proceedingsof the 15th international conference on Database systemsforadvancedapplications.Berlin:Heidelberg,2010.