国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

領(lǐng)域知識(shí)圖譜的基本概念與構(gòu)建特點(diǎn)

2022-11-25 00:07楊媛媛
關(guān)鍵詞:圖譜語(yǔ)義實(shí)體

楊媛媛

本刊核心層次論文

領(lǐng)域知識(shí)圖譜的基本概念與構(gòu)建特點(diǎn)

楊媛媛

(渤海大學(xué) 文學(xué)院,遼寧 錦州 121013)

知識(shí)圖譜作為人工智能發(fā)展的基礎(chǔ)性?xún)?nèi)核技術(shù),逐漸成為計(jì)算語(yǔ)言學(xué)與自然語(yǔ)言處理研究的熱點(diǎn)問(wèn)題。對(duì)領(lǐng)域知識(shí)圖譜的基本概念和構(gòu)建特點(diǎn)進(jìn)行系統(tǒng)梳理,對(duì)領(lǐng)域知識(shí)圖譜的理論與實(shí)踐研究具有一定價(jià)值。本文對(duì)領(lǐng)域知識(shí)圖譜的基本概念、主要特點(diǎn)、發(fā)展歷程、構(gòu)建流程等內(nèi)容進(jìn)行了描寫(xiě)和分析。在梳理領(lǐng)域知識(shí)圖譜取得的研究成果的基礎(chǔ)上,總結(jié)了目前領(lǐng)域知識(shí)圖譜構(gòu)建的主要特點(diǎn):數(shù)據(jù)來(lái)源和數(shù)據(jù)處理具有較強(qiáng)的領(lǐng)域特性,關(guān)系抽取是領(lǐng)域知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)問(wèn)題,領(lǐng)域知識(shí)圖譜構(gòu)建需要領(lǐng)域知識(shí)與構(gòu)建技術(shù)的深度融合。

領(lǐng)域知識(shí)圖譜;知識(shí)圖譜;構(gòu)建;特點(diǎn)

國(guó)家“十四五”發(fā)展規(guī)劃明確將科技自強(qiáng)作為國(guó)家發(fā)展的重要戰(zhàn)略任務(wù),將人工智能列為最高級(jí)別優(yōu)先發(fā)展的對(duì)象?!秶?guó)務(wù)院辦公廳關(guān)于全面加強(qiáng)新時(shí)代語(yǔ)言文字工作的意見(jiàn)》明確提出“大力推動(dòng)語(yǔ)言文字與人工智能、大數(shù)據(jù)、云計(jì)算等信息技術(shù)的深度融合?!敝R(shí)圖譜作為基礎(chǔ)性?xún)?nèi)核技術(shù),是人工智能得以實(shí)現(xiàn)的重要基礎(chǔ)。2012年,搜索引擎巨頭谷歌公司最早提出了“知識(shí)圖譜”的概念。知識(shí)圖譜的出現(xiàn),為傳統(tǒng)信息檢索帶來(lái)了巨大的變革,讓人們看到了信息檢索所可能達(dá)到的最簡(jiǎn)潔、直接的效果,也讓人們看到了相關(guān)問(wèn)題的無(wú)限延伸,意識(shí)到知識(shí)庫(kù)規(guī)模的重要性。繼谷歌之后,各大互聯(lián)網(wǎng)巨頭紛紛構(gòu)建了自己的知識(shí)圖譜,國(guó)外如Freebase、WikiData等;國(guó)內(nèi)如百度知心、搜狗知立方等。目前,世界各大公司都在不斷擴(kuò)充自己的知識(shí)圖譜規(guī)模,使其包含的實(shí)體規(guī)模數(shù)量更大,關(guān)系更復(fù)雜,體系更完備。與覆蓋各個(gè)領(lǐng)域的通用知識(shí)圖譜相比,專(zhuān)注于某一特定領(lǐng)域的領(lǐng)域知識(shí)圖譜所需實(shí)體數(shù)量規(guī)模和關(guān)系搭建難度相對(duì)降低。各個(gè)領(lǐng)域都在構(gòu)建自己的知識(shí)圖譜,并試圖將其應(yīng)用在專(zhuān)業(yè)領(lǐng)域來(lái)解決實(shí)際問(wèn)題,如醫(yī)療、金融、地理、軍事、政治、語(yǔ)言、旅游等領(lǐng)域。目前各領(lǐng)域知識(shí)圖譜構(gòu)建都有了初步探索,并取得了一定成果。

一、領(lǐng)域知識(shí)圖譜的概念

“知識(shí)圖譜”產(chǎn)生于語(yǔ)義網(wǎng)(Semantic Web)的快速發(fā)展,其本質(zhì)內(nèi)涵是語(yǔ)義網(wǎng)的延伸和擴(kuò)展。20世紀(jì)中后期,計(jì)算機(jī)科學(xué)領(lǐng)域的專(zhuān)家學(xué)者普遍發(fā)現(xiàn),使用圖形來(lái)表示知識(shí)更便于知識(shí)的表達(dá)和理解。隨著學(xué)者們逐漸認(rèn)識(shí)到語(yǔ)義關(guān)系在計(jì)算機(jī)信息處理中的重要性,將圖論與語(yǔ)義關(guān)系構(gòu)建相結(jié)合的語(yǔ)義網(wǎng)絡(luò)便應(yīng)運(yùn)而生。語(yǔ)義網(wǎng)絡(luò),是用網(wǎng)絡(luò)表示不同實(shí)體和概念之間語(yǔ)義關(guān)系的一種形式,通常以圖的形式表現(xiàn)出來(lái)。

“知識(shí)圖譜”正是在語(yǔ)義網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展起來(lái),其本質(zhì)是一種使用圖形表示知識(shí)之間關(guān)系的知識(shí)表示形式。與語(yǔ)義網(wǎng)絡(luò)相比,知識(shí)圖譜所覆蓋的知識(shí)范圍更大,關(guān)系更復(fù)雜?!爸R(shí)圖譜”主要由實(shí)體和關(guān)系構(gòu)成。實(shí)體就是一個(gè)確切的對(duì)象,每個(gè)實(shí)體都會(huì)有很多屬性,比如“梅西”是一個(gè)實(shí)體,屬性包括身高、生日、國(guó)籍、所屬俱樂(lè)部等。實(shí)體是相對(duì)獨(dú)立的,而屬性往往依附于實(shí)體,有時(shí)實(shí)體的某個(gè)或多個(gè)屬性,也可以是一個(gè)或多個(gè)獨(dú)立的實(shí)體,比如“梅西的家人”對(duì)應(yīng)了父親、母親、哥哥、姐姐等,在每個(gè)稱(chēng)謂都對(duì)應(yīng)了一個(gè)實(shí)體的同時(shí),這個(gè)稱(chēng)謂本身就是一種屬性。關(guān)系則包括實(shí)體與屬性、實(shí)體與實(shí)體、屬性與屬性之間各種各樣的聯(lián)系。關(guān)系是形成知識(shí)圖譜的關(guān)鍵,基于知識(shí)圖譜的檢索系統(tǒng)正是通過(guò)遍歷每個(gè)節(jié)點(diǎn)尋找它們之間的語(yǔ)義關(guān)系,從而鎖定檢索目標(biāo)。

知識(shí)圖譜分為通用知識(shí)圖譜和領(lǐng)域知識(shí)圖譜。通用知識(shí)圖譜中的實(shí)體與關(guān)系覆蓋范圍廣,能夠滿足人們?nèi)粘?duì)各個(gè)行業(yè)、各種知識(shí)的檢索。領(lǐng)域知識(shí)圖譜只服務(wù)于特定的研究領(lǐng)域。

通用知識(shí)圖譜與領(lǐng)域知識(shí)圖譜的主要區(qū)別就是實(shí)體的范圍。領(lǐng)域知識(shí)圖譜在構(gòu)建過(guò)程中,只構(gòu)建特定領(lǐng)域內(nèi)的實(shí)體,實(shí)體之間的關(guān)系描述與抽取則需要熟練的專(zhuān)業(yè)知識(shí)作為支撐。同時(shí),領(lǐng)域知識(shí)圖譜通常為解決特定領(lǐng)域內(nèi)專(zhuān)業(yè)人員的檢索需求而構(gòu)建,具有很強(qiáng)的針對(duì)性,服務(wù)特定領(lǐng)域和特定人群,如雙語(yǔ)旅游知識(shí)圖譜、區(qū)域地理知識(shí)圖譜、政治領(lǐng)域知識(shí)圖譜等。領(lǐng)域知識(shí)圖譜的上位概念是行業(yè)知識(shí)圖譜,多個(gè)精專(zhuān)的研究領(lǐng)域構(gòu)成了特定行業(yè)。行業(yè)知識(shí)圖譜的規(guī)模通常比領(lǐng)域知識(shí)圖譜更大,知識(shí)覆蓋的廣度更大。

二、領(lǐng)域知識(shí)圖譜的特點(diǎn)

“知識(shí)圖譜”從誕生之初的通用知識(shí)圖譜(General-purpose Knowledge Graph),到行業(yè)知識(shí)圖譜,再到領(lǐng)域知識(shí)圖譜(Domain-specific Knowledge Graph),這一系列知識(shí)圖譜的產(chǎn)生和構(gòu)建,體現(xiàn)了人工智能為了滿足人們對(duì)知識(shí)和知識(shí)表示形式不同層面的需求而取得的一系列成果。與通用知識(shí)圖譜相比,領(lǐng)域知識(shí)圖譜具有以下特點(diǎn):

(一)知識(shí)表示深度延長(zhǎng)

領(lǐng)域知識(shí)圖譜與通用和行業(yè)知識(shí)圖譜相比,最突出的特點(diǎn)是具有領(lǐng)域?qū)I(yè)性,這種專(zhuān)業(yè)性主要體現(xiàn)在知識(shí)表示的深度與粒度上。領(lǐng)域知識(shí)圖譜根據(jù)具體需求可以達(dá)到更深的知識(shí)層面,比如我們最熟悉的電商領(lǐng)域,相對(duì)“裙子”這個(gè)通用概念,“日系夏季新款百搭氣質(zhì)優(yōu)雅收腰顯瘦小個(gè)子中長(zhǎng)款修身連衣裙”在通用概念的基礎(chǔ)上,進(jìn)行了精細(xì)化分類(lèi),從各個(gè)分類(lèi)角度對(duì)實(shí)體進(jìn)行描述與定位,從而為搜索引擎提供了更多的檢索鏈條。有時(shí)人們對(duì)于深度的認(rèn)識(shí)不能達(dá)成一致,即使在相同的學(xué)科背景之下,對(duì)于一些概念或知識(shí)點(diǎn)的分層,學(xué)者們存在一定的分歧,這種主觀認(rèn)知上的差別是領(lǐng)域知識(shí)圖譜構(gòu)建所面臨的主要困難之一。

(二)知識(shí)表示粒度細(xì)化

領(lǐng)域知識(shí)圖譜所覆蓋的知識(shí)粒度也更細(xì),知識(shí)圖譜內(nèi)部的知識(shí)單位,可以是一個(gè)幾十頁(yè)的文件,幾百字的段落,或只有一個(gè)漢字的關(guān)鍵詞。領(lǐng)域知識(shí)圖譜為了滿足專(zhuān)業(yè)的檢索需求,其粒度往往要覆蓋到具體知識(shí)點(diǎn),甚至一個(gè)知識(shí)點(diǎn)的下位概念、相關(guān)概念、相關(guān)概念的下位概念等。如,醫(yī)學(xué)領(lǐng)域知識(shí)圖譜,關(guān)于一種疾病的知識(shí)表示,包括它發(fā)生的部位、產(chǎn)生癥狀、對(duì)應(yīng)檢查、并發(fā)疾病、治療方式、治療藥物、相關(guān)流行病、社會(huì)學(xué)調(diào)查等一系列知識(shí)單位。每個(gè)知識(shí)單位繼續(xù)層層展開(kāi)分類(lèi),直到具體的關(guān)鍵詞為止。正是因?yàn)轭I(lǐng)域知識(shí)圖譜所覆蓋的粒度更細(xì),粒度之間的聯(lián)系更加復(fù)雜、多維,才能滿足專(zhuān)業(yè)領(lǐng)域的深度檢索需求,解決更專(zhuān)業(yè)的問(wèn)題。

三、領(lǐng)域知識(shí)圖譜的發(fā)展歷程

(一)符號(hào)與推理模型階段

“知識(shí)圖譜”的誕生要追溯整個(gè)人工智能的發(fā)展歷程。作為人工智能龐大體系中的一個(gè)組成部分,知識(shí)圖譜是人工智能在大數(shù)據(jù)時(shí)代發(fā)展的重要突破。人工智能研究的終極目標(biāo)是使計(jì)算機(jī)像人腦一樣,不僅僅能夠處理簡(jiǎn)單的計(jì)算和推理,并且能夠完成類(lèi)似人類(lèi)大腦通過(guò)思考來(lái)處理問(wèn)題的一系列復(fù)雜任務(wù)。

人工智能興起之初,學(xué)者們并沒(méi)有像現(xiàn)在這樣認(rèn)識(shí)到知識(shí)的重要性,而是側(cè)重于使用符號(hào)構(gòu)建各種各樣的推理模型。面對(duì)某一特定問(wèn)題,通過(guò)構(gòu)建模型和數(shù)據(jù)的推導(dǎo)來(lái)得到一個(gè)結(jié)果,這就是答案。這種推理方式可以說(shuō)是冷酷無(wú)情的,將互聯(lián)網(wǎng)中所有的信息轉(zhuǎn)化為格式化數(shù)據(jù),所有信息的關(guān)系依靠運(yùn)算符號(hào)進(jìn)行推導(dǎo)和歸納,這種數(shù)據(jù)化的結(jié)構(gòu)方式忽略了信息本身的特性,突出的是結(jié)構(gòu)化的共性。

(二)知識(shí)工程階段

隨著人工智能的發(fā)展,當(dāng)信息處理發(fā)展到一定程度,僅依靠單一化、絕對(duì)化的符號(hào)處理不能體現(xiàn)龐大、多元、復(fù)雜的結(jié)構(gòu)關(guān)系,也無(wú)法充分體現(xiàn)數(shù)據(jù)的本質(zhì)特性之后,學(xué)者們逐漸認(rèn)識(shí)到“知識(shí)”的重要性?!爸R(shí)”體現(xiàn)在兩個(gè)方面:

第一是結(jié)構(gòu)化數(shù)據(jù)背后所隱藏的信息的特有屬性和知識(shí)價(jià)值;

第二是模擬人腦所具有的,使用已經(jīng)獲得的知識(shí)進(jìn)行相關(guān)推理的能力。讓計(jì)算機(jī)能夠像人腦一樣具有相關(guān)知識(shí)的識(shí)別和推理能力,而不是單純通過(guò)構(gòu)建模型進(jìn)行數(shù)據(jù)推導(dǎo),使人工智能發(fā)展到了一個(gè)新的階段。

這種讓計(jì)算機(jī)具有領(lǐng)域?qū)<乙粯拥闹R(shí)推導(dǎo)能力的思想叫作“知識(shí)工程”?!爸R(shí)工程”的核心思想是讓計(jì)算機(jī)具有專(zhuān)家級(jí)別的知識(shí)體系,構(gòu)建“專(zhuān)家系統(tǒng)”。在專(zhuān)家系統(tǒng)的構(gòu)建工程中,這些門(mén)類(lèi)復(fù)雜的知識(shí)如何有效地表達(dá)出來(lái),是一個(gè)關(guān)鍵問(wèn)題。海量知識(shí)的存儲(chǔ)和表示,是構(gòu)建知識(shí)之間推理關(guān)系的重要前提。

因此,尋找一種能夠準(zhǔn)確、高效地完成知識(shí)表示的方法是推動(dòng)知識(shí)工程構(gòu)建的關(guān)鍵步驟。知識(shí)表示是將來(lái)源于現(xiàn)實(shí)世界的具體信息轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),以便實(shí)現(xiàn)后期知識(shí)推理。而現(xiàn)實(shí)世界中的海量信息語(yǔ)義關(guān)系復(fù)雜,邏輯關(guān)系層次混亂,常常需要專(zhuān)業(yè)的分析和思考。為了解決知識(shí)表示所面臨的困難,學(xué)者們嘗試了多種知識(shí)表示的方法,語(yǔ)義網(wǎng)絡(luò)就是其中一種,此外還包括謂詞邏輯、決策樹(shù)、貝葉斯網(wǎng)絡(luò)、馬爾科夫邏輯網(wǎng)等[1]。

(三)知識(shí)表示階段

知識(shí)圖譜就是在這些方法的基礎(chǔ)上誕生的知識(shí)表示方法之一。但知識(shí)圖譜誕生之初,就有著與傳統(tǒng)知識(shí)工程的知識(shí)表示方法本質(zhì)的區(qū)別。知識(shí)圖譜興起于大數(shù)據(jù)時(shí)代,互聯(lián)網(wǎng)的高速發(fā)展催生了用戶(hù)對(duì)數(shù)據(jù)規(guī)模的需求,這就要求新的知識(shí)表示方法,能夠適用于具有龐大數(shù)據(jù)規(guī)模并且處于不斷更新之中的大數(shù)據(jù)網(wǎng)絡(luò)。

2012年谷歌公司推出了知識(shí)圖譜,這種全新的知識(shí)表示形式更新了傳統(tǒng)的知識(shí)表示,擴(kuò)大了知識(shí)工程的規(guī)模,打破了傳統(tǒng)知識(shí)工程中既定專(zhuān)家系統(tǒng)的邊界,滿足了大數(shù)據(jù)時(shí)代的互聯(lián)網(wǎng)信息檢索需求。知識(shí)圖譜誕生于大數(shù)據(jù)時(shí)代,根植于互聯(lián)網(wǎng)系統(tǒng),以大規(guī)模的知識(shí)表示為主要任務(wù)。作為大數(shù)據(jù)時(shí)代知識(shí)工程的代表性方法,其突出特點(diǎn)是融合了互聯(lián)網(wǎng)所生成的內(nèi)容,包括網(wǎng)站、網(wǎng)頁(yè)、論壇、百科以及各種信息來(lái)源和各種形式的信息。這些來(lái)自用戶(hù)的海量信息以極大的開(kāi)放性、復(fù)雜性和超乎想象的速度日益增長(zhǎng),面對(duì)如此巨大的信息規(guī)模,基于互聯(lián)網(wǎng)的知識(shí)圖譜的構(gòu)建面臨著巨大的挑戰(zhàn),同時(shí)也具有極大的應(yīng)用價(jià)值。

四、領(lǐng)域知識(shí)圖譜的構(gòu)建流程

領(lǐng)域知識(shí)圖譜的核心要件是海量的實(shí)體和多維復(fù)雜的實(shí)體之間的關(guān)系,因此構(gòu)建知識(shí)圖譜的工作主要分為實(shí)體識(shí)別和抽取實(shí)體之間的兩大關(guān)系。

(一)實(shí)體識(shí)別

實(shí)體識(shí)別是構(gòu)建知識(shí)圖譜的基礎(chǔ)性工作。實(shí)體是構(gòu)成知識(shí)圖譜關(guān)系網(wǎng)絡(luò)的個(gè)體,擁有足夠數(shù)量的實(shí)體才能構(gòu)成規(guī)模性知識(shí)圖譜。實(shí)體識(shí)別是在來(lái)源各異、形式多樣的海量信息中將具體的時(shí)間、地點(diǎn)、任務(wù)、學(xué)科等實(shí)體信息識(shí)別出來(lái)。根據(jù)構(gòu)建需求,實(shí)體的識(shí)別可以達(dá)到不同的粒度,如機(jī)構(gòu)的識(shí)別,就有“中央民族大學(xué)”和“中央民族大學(xué)中國(guó)少數(shù)民族語(yǔ)言學(xué)院蒙古語(yǔ)言文學(xué)系”兩種不同的粒度,識(shí)別的層次分別是學(xué)校名稱(chēng)和具體院系名稱(chēng)。實(shí)體識(shí)別的方法主要有兩種:

一種是制定好規(guī)則或者固定的模板,并配合一定的人工參與,比如“大學(xué)”這個(gè)字段前面的內(nèi)容就是一個(gè)特定機(jī)構(gòu)的名稱(chēng),“大學(xué)”就是模板之一。而規(guī)則的制定是需要豐富的語(yǔ)言學(xué)知識(shí)的,需要一定的人工參與。這種方法的特點(diǎn)就是高度依賴(lài)模板和規(guī)則,前期模板描寫(xiě)和規(guī)則制定需要大量的準(zhǔn)備工作。

另一種方法就是依靠機(jī)器學(xué)習(xí),通過(guò)訓(xùn)練模型對(duì)目標(biāo)文本進(jìn)行自動(dòng)標(biāo)注和識(shí)別。根據(jù)具體的需求,構(gòu)建標(biāo)簽體系,對(duì)目標(biāo)文本中的每個(gè)詞語(yǔ)進(jìn)行標(biāo)簽標(biāo)注,使用各種特征進(jìn)行模型訓(xùn)練,從而完成標(biāo)注,實(shí)現(xiàn)實(shí)體識(shí)別。比較經(jīng)典的訓(xùn)練模型包括隱馬爾科夫模型(HMM)、條件隨機(jī)場(chǎng)模型(CRF)和深度學(xué)習(xí)模型。

(二)關(guān)系抽取

實(shí)體之間關(guān)系的抽取是構(gòu)建知識(shí)圖譜的核心內(nèi)容。通過(guò)實(shí)體之間關(guān)系抽取和搭建才能形成規(guī)模性網(wǎng)絡(luò),從而實(shí)現(xiàn)智能推薦和立體檢索。實(shí)體之間關(guān)系的抽取方法,與實(shí)體識(shí)別類(lèi)似,主要有兩種:

一種是依靠觸發(fā)詞或依存句法匹配的方法,這種方法類(lèi)似于使用固定模板,即出現(xiàn)特定的觸發(fā)詞,就進(jìn)行關(guān)系抽取;或者對(duì)目標(biāo)語(yǔ)句進(jìn)行分析,將分析結(jié)果與依存語(yǔ)法規(guī)則匹配,匹配成功就生成一組實(shí)體與關(guān)系。這種方法的實(shí)質(zhì)是依靠前期豐富的觸發(fā)詞和大量的依存語(yǔ)法規(guī)則的制定,后期只需要進(jìn)行簡(jiǎn)單的匹配就能得到結(jié)果。其優(yōu)點(diǎn)是操作簡(jiǎn)單,結(jié)果準(zhǔn)確;其缺點(diǎn)是前期模板的構(gòu)建工作量大,規(guī)則庫(kù)一旦構(gòu)建,可調(diào)整性差。

另一種方法是依靠機(jī)器學(xué)習(xí),訓(xùn)練模型實(shí)現(xiàn)自動(dòng)抽取的方法。為了達(dá)到自動(dòng)抽取,盡量減少人工標(biāo)注和人工設(shè)計(jì)特征的目標(biāo),實(shí)體關(guān)系抽取的機(jī)器學(xué)習(xí)模型從傳統(tǒng)的有監(jiān)督學(xué)習(xí)使用特征標(biāo)注的最大熵模型、核函數(shù)方法中的句法樹(shù)、SPT最短依賴(lài)路徑樹(shù)、上下文相關(guān)的最短依賴(lài)樹(shù)等思想,到遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、圖神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)關(guān)系抽取模型,以及不斷提出的不滿足于深度學(xué)習(xí)大量標(biāo)注而提出的半監(jiān)督抽取方法。實(shí)體關(guān)系自動(dòng)抽取的方法經(jīng)歷了一系列的演變和發(fā)展[2]。

五、領(lǐng)域知識(shí)圖譜構(gòu)建主要特點(diǎn)

(一)數(shù)據(jù)來(lái)源和數(shù)據(jù)處理具有較強(qiáng)領(lǐng)域特性

與通用知識(shí)圖譜相比,領(lǐng)域知識(shí)圖譜的數(shù)據(jù)來(lái)源具有較強(qiáng)的領(lǐng)域特性。這種特性主要體現(xiàn)為數(shù)據(jù)的專(zhuān)深性,是由領(lǐng)域知識(shí)圖譜的性質(zhì)決定的。在目前的領(lǐng)域知識(shí)圖譜構(gòu)建研究中,大多數(shù)研究集中在某一特定領(lǐng)域的具體方向上。因此,與通用知識(shí)圖譜相比,數(shù)據(jù)來(lái)源的范圍相對(duì)狹窄,只針對(duì)特定研究方向的特定問(wèn)題;同時(shí)數(shù)據(jù)來(lái)源的深度相對(duì)延長(zhǎng),往往需要具有專(zhuān)業(yè)背景的專(zhuān)業(yè)人士進(jìn)行前期的數(shù)據(jù)選取和加工處理。如,醫(yī)學(xué)領(lǐng)域的疾病名稱(chēng)、藥物名稱(chēng)、病理體系[3-5],語(yǔ)言學(xué)領(lǐng)域甲骨文的字際關(guān)系[6-7]、漢語(yǔ)與外語(yǔ)或少數(shù)民族語(yǔ)言之間跨語(yǔ)言的同源詞對(duì)應(yīng)[8],軍事安全領(lǐng)域的情報(bào)獲取與反恐感知,政治領(lǐng)域的事件劃分與事理推斷[9],地理領(lǐng)域的位置數(shù)據(jù)和時(shí)空轉(zhuǎn)換[10],司法領(lǐng)域的罪名判斷,電商領(lǐng)域的商品信息對(duì)應(yīng)[11],海關(guān)領(lǐng)域的商品甄別,農(nóng)業(yè)領(lǐng)域的蟲(chóng)害信息等。領(lǐng)域內(nèi)部專(zhuān)業(yè)知識(shí)的獲取,除了使用網(wǎng)絡(luò)爬蟲(chóng)對(duì)相對(duì)應(yīng)的網(wǎng)絡(luò)頁(yè)面進(jìn)行爬取之外,還要對(duì)獲得的文本信息進(jìn)行人工地分析和篩選,去除研究主題無(wú)關(guān)的干擾項(xiàng)。

領(lǐng)域知識(shí)圖譜的數(shù)據(jù)來(lái)源具有較強(qiáng)的領(lǐng)域特性也體現(xiàn)在實(shí)體抽取中。對(duì)來(lái)源數(shù)據(jù)進(jìn)行數(shù)據(jù)清理以后,領(lǐng)域知識(shí)圖譜構(gòu)建的基礎(chǔ)工作是對(duì)數(shù)據(jù)庫(kù)中的實(shí)體進(jìn)行識(shí)別和抽取,哪些命名實(shí)體是構(gòu)建領(lǐng)域知識(shí)圖譜的主體,是實(shí)體抽取的主要對(duì)象,實(shí)體和它的各個(gè)屬性信息之間是怎樣的對(duì)應(yīng)關(guān)系,實(shí)體與實(shí)體之間的關(guān)聯(lián)關(guān)系,都需要在抽取工作開(kāi)始之前,進(jìn)行系統(tǒng)地整理和規(guī)范。而這些實(shí)體、屬性、關(guān)系之間的規(guī)則建立則需要由具有專(zhuān)業(yè)背景和領(lǐng)域知識(shí)才能完成,與通用知識(shí)圖譜中的通用知識(shí)有著本質(zhì)區(qū)別。

所以,在領(lǐng)域知識(shí)圖譜構(gòu)建的前期,在構(gòu)建領(lǐng)域知識(shí)庫(kù)的過(guò)程中所有涉及到數(shù)據(jù)文本的處理問(wèn)題都體現(xiàn)出較強(qiáng)的領(lǐng)域特性,是領(lǐng)域知識(shí)圖譜構(gòu)建的主要特點(diǎn)之一。

(二)關(guān)系抽取是領(lǐng)域知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)問(wèn)題

不論是通用知識(shí)圖譜還是領(lǐng)域知識(shí)圖譜的構(gòu)建,都圍繞著實(shí)體、實(shí)體的屬性、實(shí)體之間的關(guān)系這三個(gè)核心元素展開(kāi)。在知識(shí)圖譜的構(gòu)建過(guò)程中,人們通常將這三者從海量信息中抽取出來(lái),構(gòu)成一個(gè)實(shí)體的三元組。同一個(gè)實(shí)體的屬性通常是多元的,具有很強(qiáng)的擴(kuò)展性,是否將實(shí)體的所有屬性信息在海量的信息中全部抽取出來(lái),或者只是有選擇地進(jìn)行抽取和組合,是構(gòu)建知識(shí)圖譜的另一項(xiàng)至關(guān)重要的決定。因?yàn)橥粋€(gè)實(shí)體所選定的屬性數(shù)量的多少,將同時(shí)決定實(shí)體與實(shí)體之間關(guān)系的數(shù)量、關(guān)系的種類(lèi)、關(guān)系的層次等等。而知識(shí)圖譜構(gòu)建工作的關(guān)鍵技術(shù)問(wèn)題就是在海量的實(shí)體與屬性信息中,抽取那些顯性的或隱性的語(yǔ)義關(guān)系。

領(lǐng)域知識(shí)圖譜構(gòu)建的主要技術(shù)問(wèn)題包括知識(shí)抽取、知識(shí)表示、知識(shí)融合與知識(shí)推理。這四個(gè)主要技術(shù)問(wèn)題實(shí)際上是領(lǐng)域知識(shí)圖譜構(gòu)建的四個(gè)主要步驟,它們都是圍繞著知識(shí)圖譜的核心——實(shí)體關(guān)系展開(kāi)的。不論是知識(shí)抽取、知識(shí)表示還是知識(shí)推理,這幾項(xiàng)工作的處理對(duì)象都是實(shí)體和屬性信息之間的語(yǔ)義關(guān)系。而在這三項(xiàng)對(duì)實(shí)體和屬性信息關(guān)系的處理工作中,實(shí)體和屬性信息的關(guān)系抽取是核心基礎(chǔ)工作,不論是知識(shí)表示還是知識(shí)推理都是在前期的關(guān)系抽取的基礎(chǔ)上完成的。因此,關(guān)系抽取工作的結(jié)果,將直接影響后期知識(shí)表示和知識(shí)推理的質(zhì)量和層級(jí)。關(guān)系抽取是領(lǐng)域知識(shí)圖譜構(gòu)建的關(guān)鍵技術(shù)問(wèn)題。

在面向各領(lǐng)域的知識(shí)圖譜構(gòu)建中,針對(duì)各領(lǐng)域的具體的實(shí)體關(guān)系,提出了不同的關(guān)系抽取框架和模型。傳統(tǒng)的關(guān)系抽取方法主要是人工制定語(yǔ)義規(guī)則或模板,隨著自然語(yǔ)言處理技術(shù)的發(fā)展,關(guān)系模型逐漸取代了人工定義的規(guī)則。目前,在領(lǐng)域知識(shí)圖譜構(gòu)建中常用的關(guān)系抽取方法主要包括馬爾科夫邏輯網(wǎng)和本體推理等。馬爾科夫邏輯網(wǎng)MLN(Markov logic network)[12]是一種基于關(guān)系學(xué)習(xí)框架的實(shí)體關(guān)系抽取模型,該模型融合了馬爾科夫網(wǎng)絡(luò)與一階邏輯。在馬爾科夫邏輯網(wǎng)的基礎(chǔ)上,提出了各種各樣針對(duì)實(shí)體關(guān)系抽取的改進(jìn)模型,包括可自動(dòng)生成抽取器的StatSnowball模型[13]、將關(guān)系抽取與實(shí)體識(shí)別結(jié)合的EntSum模型[14]、簡(jiǎn)易馬爾科夫邏輯模型[15]等。

這些關(guān)系抽取的框架和模型,隨著大數(shù)據(jù)時(shí)代計(jì)算機(jī)技術(shù)和人工智能的快速發(fā)展而不斷改進(jìn),沒(méi)有一種框架和模型是一成不變的。針對(duì)不同具體領(lǐng)域的數(shù)據(jù)特征,調(diào)整模型和參數(shù),從而促進(jìn)了領(lǐng)域知識(shí)圖譜關(guān)系抽取技術(shù)的全面發(fā)展。

(三)領(lǐng)域知識(shí)圖譜構(gòu)建需要領(lǐng)域知識(shí)與構(gòu)建技術(shù)的深度融合

領(lǐng)域知識(shí)圖譜的構(gòu)建是在知識(shí)圖譜構(gòu)建技術(shù)與領(lǐng)域知識(shí)進(jìn)行深度融合的基礎(chǔ)上完成的,與通用知識(shí)圖譜相比難度更大。與領(lǐng)域知識(shí)深度融合的知識(shí)圖譜構(gòu)建,從數(shù)據(jù)獲取、數(shù)據(jù)清洗、規(guī)則建立等基礎(chǔ)性工作,到信息抽取、知識(shí)表示、圖譜可視化等一系列工作中都要對(duì)領(lǐng)域知識(shí)進(jìn)行有針對(duì)性地處理。例如,地理領(lǐng)域知識(shí)圖譜的構(gòu)建,必須充分考慮地理領(lǐng)域知識(shí)的特性。地理空間數(shù)據(jù)是地理領(lǐng)域知識(shí)圖譜數(shù)據(jù)區(qū)別于其他領(lǐng)域知識(shí)圖譜的主要特征。除了一般領(lǐng)域知識(shí)圖譜構(gòu)建需要的實(shí)體屬性、語(yǔ)義關(guān)聯(lián)之外,還要抽取地物的空間方位等地理語(yǔ)義特征。

來(lái)自通用知識(shí)庫(kù)的屬性信息只能提供地物的一般語(yǔ)義特征,如名稱(chēng)、長(zhǎng)度、寬度、坐標(biāo),以及與其他地物之間的關(guān)系等;而地理空間信息則包括地物的空間方位信息,如東南西北、穿過(guò)、鄰接、覆蓋、遠(yuǎn)近等。此外,地物的空間特征具有幾何形狀與空間關(guān)系兩重特征。幾何形狀如點(diǎn)(車(chē)站)、線(道路)、面(行政區(qū)域);空間關(guān)系包括方位(東、南、西、北)、拓?fù)洌ㄏ嗟取⑾嚯x、鄰接、相交、穿過(guò)、在之內(nèi)、覆蓋)、距離關(guān)系(遠(yuǎn)、近、非常近、非常遠(yuǎn)、中等)[16]。因此,地理領(lǐng)域知識(shí)圖譜的構(gòu)建,在實(shí)體抽取和關(guān)系抽取中,除了屬性和語(yǔ)義關(guān)系的抽取,還要進(jìn)行空間關(guān)系的抽取,并將地理空間知識(shí)與通用知識(shí)進(jìn)行知識(shí)融合,實(shí)體對(duì)齊,屬性融合,從而構(gòu)建領(lǐng)域知識(shí)圖譜。除此之外,地理領(lǐng)域知識(shí)圖譜在關(guān)系抽取過(guò)程中,在處理語(yǔ)義信息的基礎(chǔ)上,還要處理位置信息[17]。這使得地理領(lǐng)域知識(shí)圖譜的實(shí)體構(gòu)建和關(guān)系抽取工作量更加繁重復(fù)雜。構(gòu)建一個(gè)地理領(lǐng)域知識(shí)圖譜的工程要大大超出其他領(lǐng)域知識(shí)圖譜,融合了位置信息和語(yǔ)義信息的實(shí)體關(guān)系變得更加復(fù)雜,很多時(shí)候要將各種關(guān)系進(jìn)行分層處理。這使得實(shí)體之間的關(guān)系鏈條大大增加,在顯性關(guān)系的基礎(chǔ)上補(bǔ)全隱性的、需要進(jìn)一步推理的實(shí)體關(guān)系,對(duì)實(shí)體之間的鏈接進(jìn)行預(yù)測(cè)和補(bǔ)全是地理領(lǐng)域知識(shí)圖譜構(gòu)建技術(shù)關(guān)注較多的問(wèn)題[18]。

此外,政治領(lǐng)域、醫(yī)學(xué)領(lǐng)域、電商領(lǐng)域、法律領(lǐng)域等各領(lǐng)域知識(shí)圖譜的構(gòu)建都要對(duì)領(lǐng)域知識(shí)與構(gòu)建技術(shù)進(jìn)行深度融合,充分考慮到具體領(lǐng)域知識(shí)在語(yǔ)義表達(dá)上的突出特征,并將這些特征進(jìn)行充分和完整地表達(dá),從而構(gòu)建具有領(lǐng)域特色的知識(shí)圖譜。但深度融合了領(lǐng)域知識(shí)的知識(shí)圖譜構(gòu)建,在技術(shù)上和工程上所面臨的難度和挑戰(zhàn)也更大。因此,很多領(lǐng)域知識(shí)圖譜構(gòu)建的研究并不聚焦于整個(gè)領(lǐng)域知識(shí)圖譜的構(gòu)建工作,而專(zhuān)注于領(lǐng)域知識(shí)圖譜構(gòu)建微觀技術(shù)的實(shí)現(xiàn),如基于實(shí)體關(guān)系的知識(shí)補(bǔ)全、鏈接預(yù)測(cè)、知識(shí)推理模型、算法改進(jìn)等。這些專(zhuān)注于關(guān)系抽取或知識(shí)表示的細(xì)微技術(shù)的改進(jìn)對(duì)領(lǐng)域知識(shí)圖譜的構(gòu)建有著重要意義。正是在每一次技術(shù)和方法改進(jìn)的技術(shù)上,這種領(lǐng)域知識(shí)與構(gòu)建技術(shù)的深度融合才得以實(shí)現(xiàn)。

[1] 肖仰華. 知識(shí)圖譜概念與技術(shù)[M]. 北京: 電子工業(yè)出版社, 2020: 10.

[2] 陳華均. 知識(shí)圖譜導(dǎo)論[M]. 北京: 電子工業(yè)出版社, 2021: 64-83.

[3] 劉道文. 基于多源知識(shí)圖譜融合的智能導(dǎo)診算法[J]. 中文信息學(xué)報(bào), 2021, 35(1): 125-134.

[4] 龔樂(lè)君, 楊璐, 高志宏, 等. LncRNA與疾病關(guān)系的知識(shí) 圖譜構(gòu)建[J]. 山東大學(xué)學(xué)報(bào), 2021, 51(2): 26-33.

[5] 譚玲. 醫(yī)學(xué)知識(shí)圖譜構(gòu)建關(guān)鍵技術(shù)及研究進(jìn)展[EB/OL]. (2021-03-08)[2022-02-23].https://kns.cnki.net/kcms/ detail/10.1321.g2.20210428.0849.002.html

[6] 熊晶, 鐘珞, 王愛(ài)民. 甲骨文知識(shí)圖譜構(gòu)建中的實(shí)體關(guān)系發(fā)現(xiàn)研究[J]. 計(jì)算機(jī)工程與科學(xué), 2015, 37(11): 2189- 2194.

[7] 蔡鴻博. 基于上位詞的中文實(shí)體關(guān)系圖譜構(gòu)建[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2014.

[8] 馮小蘭, 趙小兵. 漢藏雙語(yǔ)旅游領(lǐng)域知識(shí)圖譜系統(tǒng)構(gòu)建[J].中文信息學(xué)報(bào), 2019, 33(11): 65-72.

[9] 賀博驛. 思政領(lǐng)域知識(shí)圖譜構(gòu)建與系統(tǒng)實(shí)現(xiàn)[D]. 武漢: 華中師范大學(xué), 2020.

[10] 劉俊楠, 劉海硯, 陳曉慧, 等. 面向多源地理空間數(shù)據(jù)的知識(shí)圖譜構(gòu)建[J]. 地球信息科學(xué)報(bào), 2020, 22(7): 1476-1486.

[11] 王思宇. 基于知識(shí)圖譜的在線商品問(wèn)答研究[J]. 中文信息學(xué)報(bào), 2020, 34(11): 104-112.

[12] DOMINGOS P, LOWD D. Markov logic: an interface layer for artificial intelligence[M]. San Rafael, CA: Morgan & Claypool, 2009: 24-30.

[13] ZHU Jun, NIE Zai-qing, LIU Xiao-jiang, et al. Stat-Snowball: a statistical approach to extracting entityrela-tionships[C]//Proceedings of the 18th International Con-ference on WorldWideWeb. Switzerland: WWW 2009: 101-110.

[14] LIU Xiao-jiang, YU Neng-hai. People summarization by combining named entity recognition and relation extraction[J]. Journal of Convergence Information Te-chnology, 2010, 5(10): 233-241.

[15] DOMINGOS P, WEBB A. A tractable first-order probabilistic logic[C]//Proceedings of the 26th AAAI Conference on Artificial Intelligence. San Francisco, CA: AAAI, 2012:1902-1909.

[16] 段鵬飛. 基于空間投影和關(guān)系路徑的地理知識(shí)圖譜表示學(xué)習(xí)[J]. 中文信息學(xué)報(bào), 2018, 32(3): 26-33.

[17] 李恒. 地理社會(huì)網(wǎng)絡(luò)數(shù)據(jù)可視化分析研究綜述[J]. 中文信息學(xué)報(bào), 2018, 32(10): 11-18.

[18] 張寧豫. 基于位置的知識(shí)圖譜鏈接預(yù)測(cè)[J]. 中文信息學(xué)報(bào), 2018, 32(4): 80-86.

H17

A

1674-327X (2022)03-0057-05

10.15916/j.issn1674-327x.2022.03.014

2022-01-14

國(guó)家社科基金青年項(xiàng)目(17CYY044); 遼寧省哲學(xué)社會(huì)科學(xué)青年人才委托項(xiàng)目(2022LSLWTKT-059)

楊媛媛(1986-),女(滿族),遼寧錦州人,講師,博士。

(責(zé)任編輯:付春玲)

猜你喜歡
圖譜語(yǔ)義實(shí)體
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
基于圖對(duì)比注意力網(wǎng)絡(luò)的知識(shí)圖譜補(bǔ)全
“植物界大熊貓”完整基因組圖譜首次發(fā)布
知識(shí)圖譜的候選實(shí)體搜索與排序①
實(shí)體書(shū)店步入復(fù)興期?
圖表
2017實(shí)體經(jīng)濟(jì)領(lǐng)軍者
漢語(yǔ)依憑介詞的語(yǔ)義范疇
關(guān)于推動(dòng)實(shí)體書(shū)店經(jīng)營(yíng)發(fā)展的幾點(diǎn)思考
中國(guó)知名官方智庫(kù)圖譜