国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

專家知識(shí)圖譜構(gòu)建研究

2016-05-19 13:54周湘超詹磊吳慶陳義明
電腦知識(shí)與技術(shù) 2016年7期
關(guān)鍵詞:知識(shí)圖譜專家

周湘超++詹磊++吳慶++陳義明

摘要:該文在深入分析專家信息的基礎(chǔ)上,抽象出專家實(shí)體、屬性以及它們之間的相互關(guān)系,構(gòu)建出專家知識(shí)圖譜。運(yùn)用RDF(Resource Description Framework)2三元組實(shí)現(xiàn)對(duì)專家知識(shí)圖譜描述和構(gòu)建,并實(shí)現(xiàn)通過(guò)SPARQL(Simple Protocol and RDF Query Language)3語(yǔ)言進(jìn)行查詢。專家知識(shí)圖譜的構(gòu)建,對(duì)專家知識(shí)、智慧的延伸和專家影響力的擴(kuò)展具有重大的意義。

關(guān)鍵詞:專家;知識(shí)圖譜;RDF;SPARQL

中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)07-0195-03

目前,隨著“微軟小冰”與“小度機(jī)器人”等人機(jī)對(duì)話系統(tǒng)的崛起,基于大數(shù)據(jù)構(gòu)建知識(shí)圖譜,成為當(dāng)前研究的熱點(diǎn)。在信息化技術(shù)高速發(fā)展的時(shí)代,各個(gè)領(lǐng)域?qū)<业难芯砍晒W(xué)術(shù)觀點(diǎn)、言論、工作動(dòng)態(tài)等信息都一定會(huì)體現(xiàn)在學(xué)術(shù)論文、期刊文獻(xiàn)、專利數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)媒體、社交平臺(tái)(微信、微博、博客、論壇)等載體上。通過(guò)對(duì)這些信息的采集、過(guò)濾、挖掘,分析出各個(gè)專家實(shí)體、屬性之間的關(guān)系,構(gòu)建出含有專家信息的知識(shí)模型庫(kù),可以使得專家們?cè)诨ヂ?lián)網(wǎng)上虛擬存在,實(shí)現(xiàn)對(duì)專家知識(shí)、智慧和影響力的延伸。基于知識(shí)圖譜構(gòu)建專家機(jī)器人,能夠方便人們更好的查找到某一主題或領(lǐng)域中的各類(lèi)專家;通過(guò)機(jī)器人理解、分析并查找相關(guān)問(wèn)題,便可以實(shí)現(xiàn)對(duì)專家的推薦,擴(kuò)大專家的影響力。

1 知識(shí)圖譜簡(jiǎn)介

知識(shí)圖譜是描述現(xiàn)實(shí)世界實(shí)體之間的關(guān)系的圖4,是“圖”和“譜”雙重特性的體現(xiàn)5,其概念最先由谷歌提出6。如果將知識(shí)圖譜比作有一張巨大點(diǎn)線關(guān)系圖,那么圖中的點(diǎn)就代表這每個(gè)實(shí)體,而實(shí)體之間若存在連線,則表示兩個(gè)實(shí)體存在著相應(yīng)的關(guān)系?,F(xiàn)在,各大互聯(lián)網(wǎng)公司均建立了自己知識(shí)圖譜,其目的主要是為了提高搜索質(zhì)量2。截至2012年,谷歌為了保障強(qiáng)大的搜索,Google語(yǔ)義網(wǎng)絡(luò)已超過(guò)570億個(gè)對(duì)象、18億個(gè)介紹6;但在這些實(shí)體和事實(shí)中,英語(yǔ)占絕對(duì)主導(dǎo)地位。與此同時(shí),百度和搜狗也建立了中文知識(shí)圖譜,其規(guī)模比谷歌略小。

2 專家知識(shí)圖譜建模

本系統(tǒng)通過(guò)對(duì)專家知識(shí)圖譜的構(gòu)建,以圖的形式更簡(jiǎn)潔、直觀地表達(dá)專家關(guān)聯(lián)信息,提升用戶對(duì)專家信息的搜索效率。本系統(tǒng)的研究?jī)?nèi)容有知識(shí)的獲取、知識(shí)圖譜的構(gòu)建、系統(tǒng)模型的建立、專家信息關(guān)聯(lián)與檢索、專家智能推薦、專家機(jī)器人的動(dòng)態(tài)維護(hù)等;

知識(shí)獲?。褐R(shí)圖譜構(gòu)建的前提;主要包含各類(lèi)專家的基本信息,主要包含專家基本信息,專利信息,文獻(xiàn)信息,項(xiàng)目信息,報(bào)道信息。目前知識(shí)的主要來(lái)源于各類(lèi)百科類(lèi)數(shù)據(jù),如百度百科,維基百科等;

知識(shí)圖譜構(gòu)建:這是本系統(tǒng)核心部分,專家知識(shí)圖譜的構(gòu)建,首先從專家、專利等實(shí)體以

及屬性之間關(guān)系的抽象開(kāi)始。根據(jù)專家的屬性分析和專家與專家之間的關(guān)系分析,基本確定本系統(tǒng)的模式圖形如圖1所示,專家是文獻(xiàn),專利,情報(bào),項(xiàng)目的主體部分,而專家又屬于文獻(xiàn),專利,情報(bào),項(xiàng)目的一部分,各個(gè)專家之間存在著同事,合作等等關(guān)系,建立每個(gè)專家之間的關(guān)系就能構(gòu)建一個(gè)專家圖譜網(wǎng)絡(luò)。例如關(guān)系模型圖,專家作為一個(gè)實(shí)體,專利也是一個(gè)實(shí)體,專家擁有這項(xiàng)專利,專利的擁有者是這個(gè)專家,專利這個(gè)實(shí)體也擁有自己的屬性,例如專利擁有作者,內(nèi)容,機(jī)構(gòu),時(shí)間等等屬性值。專家與專家之間也存在多種關(guān)系,其關(guān)系圖如圖2所示。例如一篇文獻(xiàn)上面的作者屬性是專家1,專家2,那么他屬于合作關(guān)系;如果專家1和專家2的基本信息中的機(jī)構(gòu)名稱是一樣的,那他們就是同事關(guān)系;如果兩篇專利的課題一樣的那么他們的著作人即專家1和專家2就是研究方向一樣的關(guān)系,等等。在存儲(chǔ)方式上,專家知識(shí)圖譜的主要存儲(chǔ)的方式摒棄了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的存儲(chǔ)方式,而是直接采用RDF (Resource Description Framework) 2 三元組的形式對(duì)專家信息進(jìn)行描述和保存(如圖1所示)。

系統(tǒng)模型的建立:通過(guò)對(duì)海量專家信息資源庫(kù)的挖掘與搜索,自動(dòng)生成或呈現(xiàn)專家的基本信息,專利信息,文獻(xiàn)信息,項(xiàng)目信息,報(bào)道信息。并且以關(guān)系圖形的形式展現(xiàn)。

專家信息檢索:其前端主要有兩種檢索方式,一是直接通過(guò)SPARQL語(yǔ)言,直接對(duì)RDF構(gòu)建的知識(shí)庫(kù)進(jìn)行查詢;而是通過(guò)關(guān)鍵字檢索,如姓名,行業(yè),文獻(xiàn),研究主題等,間接使用SPARQL語(yǔ)言對(duì)知識(shí)庫(kù)進(jìn)行查詢。

專家關(guān)聯(lián):能通過(guò)某一研究方向,某一個(gè)領(lǐng)域找出核心專家(如圖2所示)。

專家智能推薦:通過(guò)某一關(guān)鍵詞,推薦出相關(guān)聯(lián)的專家信息或者其他實(shí)體、屬性信息。

專家機(jī)器人的動(dòng)態(tài)維護(hù):主要是指通過(guò)不斷機(jī)器學(xué)習(xí),不斷地發(fā)掘已有的專家信息或者搜索信息分析出更為復(fù)雜的專家之間的關(guān)系;并構(gòu)建出新的關(guān)聯(lián)關(guān)系。

3 專家知識(shí)圖譜實(shí)現(xiàn)

3.1 RDF構(gòu)建

RDF主要是一種描述語(yǔ)義WEB的標(biāo)記語(yǔ)言7,通過(guò)RDF/XML的形式存儲(chǔ),實(shí)現(xiàn)了對(duì)專家知識(shí)圖譜模型的構(gòu)建。通過(guò)對(duì)專家、文獻(xiàn)、專利、報(bào)道等實(shí)體關(guān)系分析,我們可以構(gòu)建如下類(lèi)型的三元組。

文字描述:第1571號(hào)專家,姓名為張三,工作單位為熱帶農(nóng)業(yè)科學(xué)院;擁有兩篇論文,兩篇報(bào)道;同時(shí),他與6579號(hào)、3766號(hào)專家屬于同事關(guān)系;

RDF/XML格式描述:

xmlns:info="http://www.w3.org/2001/info-rdf/3.0#"

xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"

xmlns:exper="http://www.w3.org/2001/Exper-rdf/3.0#"

xmlns:doc="http://www.w3.org/2001/document-rdf/3.0#"

xmlns:patent="http://www.w3.org/2001/patent-rdf/3.0#">

張三

熱帶農(nóng)業(yè)科學(xué)院

RDF圖形表示:張三專家RDF圖如圖3所示。

3.2 SPARQL查詢

為了提升搜索質(zhì)量,本系統(tǒng)采用SPARQL對(duì)RDF進(jìn)行查詢;SPARQL對(duì)于RDF或者語(yǔ)義查詢來(lái)說(shuō),其重要性就類(lèi)似于數(shù)據(jù)庫(kù)中的SQL(Structured Query Language);本系統(tǒng)不僅可

以直接通過(guò)SPARQL對(duì)專家信息進(jìn)行檢索,而且還可以通過(guò)專家信息;專業(yè)領(lǐng)域;專利名稱等信息對(duì)專家進(jìn)行檢索;如欲搜索的專家姓名為“張三”,工作單位為中國(guó)科學(xué)院,期刊信息為期刊A;其SPARQL搜索語(yǔ)句如下所示:

PREFIX exper:

PREFIX doc:http://www.w3.org/2001/document-rdf/3.0#

SELECT ?s ?name ?o ?doc ?cn WHERE {

?s exper:exper_org ?o .

?s exper:exper_name ?name .

?s exper:exper_doc ?doc .

?doc doc:journal_cn ?cn .

FILTER regex(?o, "中國(guó)科學(xué)院", "i")

FILTER regex(?name, "張三", "i")

FILTER regex(?cn,"期刊A", "i")

}

以上檢索均是模糊查詢;

4 結(jié)束語(yǔ)

專家知識(shí)圖譜不僅可以方便用戶在海量專家數(shù)據(jù)中快速準(zhǔn)確地找到對(duì)應(yīng)主題或者領(lǐng)域?qū)<遥覍<姨摂M存在于互聯(lián)網(wǎng)中,使各專家的知識(shí)和智慧得到延伸。同時(shí)通過(guò)系統(tǒng)對(duì)專家數(shù)據(jù)的發(fā)掘、關(guān)聯(lián)和整理,實(shí)現(xiàn)了專家推薦的功能,使得專家的影響力得到擴(kuò)展。

參考文獻(xiàn):

[1] 深度. 知識(shí)圖譜:谷歌打造未來(lái)搜索[J]. 電腦愛(ài)好者, 2013(5):28-29.

[2] 王海榮, 馬宗民. 一種擴(kuò)展關(guān)鍵詞的RDF模糊查詢方法[J]. 中國(guó)科技論文, 2013, 8(10):989-993.

[3] 王昊奮. 面向大規(guī)模RDF數(shù)據(jù)的語(yǔ)義搜索[D]. 上海: 上海交通大學(xué), 2013.

[4] 杜亞軍, 吳越. 微博知識(shí)圖譜構(gòu)建方法研究[J]. 西華大學(xué)學(xué)報(bào):自然科學(xué)版, 2015(1):27-35.

[5] 楊思洛, 韓瑞珍. 國(guó)外知識(shí)圖譜的應(yīng)用研究現(xiàn)狀分析[J]. 情報(bào)資料工作, 2013(6):15-20.

[6] 胡芳槐. 基于多種數(shù)據(jù)源的中文知識(shí)圖譜構(gòu)建方法研究[D]. 上海: 華東理工大學(xué), 2015.

[7] 師波, 王鳳利, 安建成. 從關(guān)系數(shù)據(jù)庫(kù)到RDF的轉(zhuǎn)換[J]. 電腦開(kāi)發(fā)與應(yīng)用, 2015(1):5-7.

猜你喜歡
知識(shí)圖譜專家
專家介紹
致謝審稿專家
·專家介紹·
從《ET&S》與《電化教育研究》對(duì)比分析中管窺教育技術(shù)發(fā)展
請(qǐng)叫我專家