国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

西藏特產(chǎn)知識圖譜的構(gòu)建

2023-10-07 03:17:24郭鳳鄭慧敏劉菲洋
西藏科技 2023年8期
關(guān)鍵詞:特產(chǎn)本體圖譜

郭鳳 鄭慧敏 劉菲洋

西藏民族大學(xué)信息工程學(xué)院,陜西 咸陽 712000

非物質(zhì)文化遺產(chǎn)是中國優(yōu)秀傳統(tǒng)文化的重要組成部分,是中華文明五千年來綿延傳承的生動見證。觀研報告網(wǎng)發(fā)布的報告顯示,截至2021年末我國共有國家級非遺項目3610 項,國家級非遺代表性傳承人3068人??梢钥闯觯覈谏贁?shù)民族非遺保護工作方面取得了比較顯著的成就[1]。西藏人民在西藏這片土地上創(chuàng)造出了許多獨特的民族文化,并形成了他們自己獨有的飲食習(xí)慣和風(fēng)俗。非遺文化往往因為不被人們熟識和缺乏傳承人而難以被保護,為了讓非遺文化被更多人所熟知,同時也為了讓西藏特產(chǎn)被更多人所了解,本論文利用知識圖譜技術(shù)將西藏特產(chǎn)可視化展現(xiàn)出來,通過知識圖譜技術(shù)來向人們介紹西藏特產(chǎn),讓人們更好的了解西藏特產(chǎn),了解西藏,能更好的傳播西藏的非物質(zhì)文化遺產(chǎn),達到對西藏非物質(zhì)文化遺產(chǎn)進行保護和傳承的目的。

1 研究背景

經(jīng)過多年的發(fā)展,知識圖譜在人工智能的許多行業(yè)如語義搜索、地圖解析、信息處理等獲得了廣泛的應(yīng)用,成為了現(xiàn)代自然語言處理技術(shù)發(fā)展的技術(shù)中心和有力工具[2]。例如本論文所涉及的西藏特產(chǎn)相關(guān)知識整體利用知識圖譜聯(lián)系起來,簡潔快速地回答復(fù)雜的業(yè)務(wù)問題,甚至知識圖譜技術(shù)可以讓AI更加高效。

傳統(tǒng)的非遺文化與新時代之間總存在摩擦,如何讓非遺文化在融入當代社會的基礎(chǔ)上更好地保留其自身的獨特性,是非遺文化繼承和保護的重點[1]。當前國內(nèi)對于西藏特產(chǎn)知識圖譜的整理、建模、數(shù)據(jù)分析和挖掘研究比較少。本論文研究通過建立西藏特產(chǎn)知識圖譜,對西藏特產(chǎn)知識及其關(guān)系進行關(guān)系梳理、分類、整合和建模,為西藏特產(chǎn)的研究提供全方位、整體性、關(guān)系鏈的參考,同時為西藏特產(chǎn)文化傳承保護及其研究提供數(shù)據(jù)來源和依據(jù)。

2 技術(shù)路線

2.1 技術(shù)簡介

知識圖譜是一種用圖模型來描述知識和建模世界萬物之間關(guān)聯(lián)關(guān)系的技術(shù)方法,能夠用概念、實體以及它們之間豐富的關(guān)聯(lián)關(guān)系將知識進行結(jié)構(gòu)化組織。知識圖譜是包括實體(Entity)、概念(Concept)及其之間的各種語義關(guān)系的一種大規(guī)模語義網(wǎng)絡(luò),通常表示為典型的圖結(jié)構(gòu),即三元組?;谶@種圖結(jié)構(gòu),能夠?qū)F(xiàn)實世界中所有的實體及實體間的關(guān)系,以一種統(tǒng)一的描述框架進行表示,如“實體-關(guān)系-實體”以及“實體-屬性-屬性值”的三元組組成[3]。這使得知識圖譜相對于純文本形式的知識而言對機器更友好。

Protégé 軟件是Stanford 大學(xué)基于Java 語言開發(fā)的本體編輯和知識獲取軟件,屬于開放源代碼軟件,主要用于語義網(wǎng)(Semantic Web)中本體的創(chuàng)建[4]。Protégé 提供了本體概念類、關(guān)系、屬性以及實例的創(chuàng)建,并且屏蔽了具體的本體描述語言,用戶只需在概念層次上進行領(lǐng)域本體模型的構(gòu)建[4]。

Neo4j 圖數(shù)據(jù)庫是一種利用圖形結(jié)構(gòu)存儲和查詢數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng),其基本組成結(jié)構(gòu)是:節(jié)點、關(guān)系和屬性[5]。Neo4j 圖數(shù)據(jù)庫是一種利用圖形結(jié)構(gòu)存儲和查詢數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng),它具有圖形結(jié)構(gòu)數(shù)據(jù)存儲和便利的功能,解決了關(guān)系型數(shù)據(jù)庫存儲圖結(jié)構(gòu)數(shù)據(jù)時出現(xiàn)的空間浪費等問題。

2.2 知識圖譜的構(gòu)建

互聯(lián)網(wǎng)上的數(shù)據(jù)大多都是結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化的。非結(jié)構(gòu)化數(shù)據(jù)是數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。比如對特產(chǎn)的描述,可能是一段文本或是一張圖片,這就是非結(jié)構(gòu)化數(shù)據(jù),但這些數(shù)據(jù)里面已經(jīng)存儲了一些信息,反映出知識圖譜里西藏特產(chǎn)的一些屬性,所以需要對數(shù)據(jù)里面的信息進行抽取。本論文中的數(shù)據(jù)幾乎為非結(jié)構(gòu)化數(shù)據(jù),故對其它兩種數(shù)據(jù)類型不再進行過多的贅述。

從數(shù)據(jù)里需要抽取的信息是實體、屬性、關(guān)系。例如,在一段信息里面,提取出牛瓊以及易貢藏刀這兩個實體,然后再進行一個關(guān)系提取。經(jīng)過分析,會產(chǎn)生一個對應(yīng)關(guān)系,牛瓊是易貢藏刀的傳承人。另外還有屬性提取,比如易貢藏刀的產(chǎn)地是西藏自治區(qū)林芝市。在這些提取完成之后獲取的數(shù)據(jù)信息都是比較零散的,我們需要對獲得的信息做一個整合。

整個構(gòu)建過程中需要運用知識抽取、實體對齊和實體消歧[6]。關(guān)于實體對齊,舉例來說,珞巴柳葉刀藏刀是中文名稱,Lhoba Lancet 是它的英文名稱,但其實這兩個指的是同一個實體。由于文本的不一樣,開始的時候?qū)е逻@是兩個實體,這就需要我們對它進行實體對齊,把它統(tǒng)一化。在本項目中,針對這兩個實體,我們將英文名稱設(shè)置為實體的一個屬性。同理,實體消歧也是如此。

信息抽取結(jié)束后,進行本體抽取。如之前提到的易貢藏刀和珞巴柳葉刀,它們的本體是藏刀。從文本里面可能無法直接提取出來,需要一些方法對他們進行抽取。然后搭建出本體庫,比如藏刀是特產(chǎn)中的一個類別,它是有上下流關(guān)系的。對于同一級別的實體也需要計算他們的相識度,比如易貢藏刀和珞巴柳葉刀在實體層面,它們是比較相似的,它們都屬于藏刀這個本體。

一個知識圖譜可以視作三元組的集合。構(gòu)建知識圖譜是一個迭代更新的過程。本論文“西藏特產(chǎn)關(guān)系知識圖譜”采用自頂向下的構(gòu)建方式,并使用Protégé 建模工具構(gòu)建模型,其主要關(guān)鍵技術(shù)構(gòu)架如圖1所示。

圖1 知識圖譜的關(guān)鍵技術(shù)構(gòu)架圖

3 構(gòu)建基于Neo4j的西藏特產(chǎn)知識圖譜

3.1 數(shù)據(jù)獲取

利用網(wǎng)絡(luò)爬蟲技術(shù)在百度百科、谷歌瀏覽器、知網(wǎng)等多處網(wǎng)站搜集需要的西藏特產(chǎn)的數(shù)據(jù)資料,將需要的數(shù)據(jù)保存成.csv 文件。本研究的數(shù)據(jù)內(nèi)容包括每個特產(chǎn)的名稱、類別、用途、藏文表示等,這些數(shù)據(jù)都為文本內(nèi)容信息。

表1 西藏特產(chǎn)搜集的數(shù)據(jù)(部分)

3.2 信息抽取

3.2.1 實體抽取。實體抽取是一項非常常見的NLP任務(wù),實體抽取也就是命名實體識別,包括實體的檢測和分類[7]。本研究依據(jù)特產(chǎn)的特定特征,采用人工預(yù)定義實體分類體系的方式,輸出該領(lǐng)域的高質(zhì)量詞語。本論文將實體分為三類,分別是特產(chǎn)、人物、地區(qū)。通過人工清洗的方法,依據(jù)百度詞條的詞條分類,將特產(chǎn)分為哺乳類、藏刀、藏毯、藏香、藏鞋、藏族服飾、藏族藥膳、茶類、豆類、蜂蜜類、服飾材料、干果類、糕點、哈達、葷菜類、酒類、面具、奶制品、鳥類、其它、食材、飾品、水果、素菜、唐卡、小吃、魚類、中藥材類、主食共29 大類,每一類的特產(chǎn)具體到了產(chǎn)地、特征/特色、英文名、藏文表示等,并將“地區(qū)”類細分為“省/區(qū)級地區(qū)”和“市縣地區(qū)”兩大類。

3.2.2 關(guān)系抽取。關(guān)系抽取主要用于從非結(jié)構(gòu)化文本數(shù)據(jù)中識別實體對象及實體間語義關(guān)系,將非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的知識。本項目采用基于規(guī)則的方法依賴人工編寫關(guān)系規(guī)則,在文本中匹配符合關(guān)系規(guī)則的信息,從而實現(xiàn)實體關(guān)系的抽取。本論文創(chuàng)建兩個不同類之間的關(guān)系為“產(chǎn)自”“傳承人”,即一種特產(chǎn)產(chǎn)自哪一地區(qū),特產(chǎn)的傳承人是誰,論文中沒有設(shè)置人物和地區(qū)之間的關(guān)系。例如:拉孜藏刀產(chǎn)自日喀則市,它的傳承人是次旦旺加、瓊巴拉、普達瓦、普布。

3.2.3 屬性抽取。屬性抽取是給定一個實體以及該實體的描述文本,從文本中抽取出與該實體相關(guān)的屬性及其屬性值[8]。結(jié)合所構(gòu)建的西藏特產(chǎn)關(guān)系知識模型,抽取特產(chǎn)名稱,藏文表示,類別,英文名,特色等關(guān)鍵屬性數(shù)據(jù)。

3.3 構(gòu)建模型

本項目模型的構(gòu)建使用的是Protégé。依據(jù)確定的特產(chǎn)本體核心類,利用Protégé 工具對特產(chǎn)本體類與關(guān)系屬性進行創(chuàng)建,創(chuàng)建“特產(chǎn)”“傳承人”“地區(qū)”三個大類,再在“特產(chǎn)”類下將其細分為“藏刀類”“藏毯類”“藏鞋類”等29大類,將“地區(qū)”類細分為“省/區(qū)級地區(qū)”和“市縣地區(qū)”兩大類。創(chuàng)建類之間的關(guān)系“產(chǎn)自”“傳承人”,創(chuàng)建特產(chǎn)類的屬性“外文名”“特色/特性”和“別稱”。將獲取到的屬性導(dǎo)入,形成西藏特產(chǎn)關(guān)系應(yīng)用本體,其構(gòu)建本體的部分截圖2~5。

圖2 構(gòu)建實體屬性

圖3 地區(qū)實體

圖4 人物實體

圖5 構(gòu)建本體展示(部分)

3.4 知識存儲

Neo4j有多種數(shù)據(jù)導(dǎo)入的方法,本論文使用將.csv數(shù)據(jù)導(dǎo)入Neo4j中進行存儲。將所獲取的實體、關(guān)系存放到.csv 文件中,通過對數(shù)據(jù)的分析,創(chuàng)建了三個.csv文件,分別為s.csv、tt.csv、kk.csv。其中s.csv和tt.csv為實體文件,kk.csv 為關(guān)系文件,將搜集的.csv 文件存入Neo4j/import文件夾下后啟動Neo4j,把數(shù)據(jù)導(dǎo)入Neo4j中,形成項目所需的數(shù)據(jù)庫。如下表2~4,圖6~7。

表2 實體文件s.csv

表3 實體文件tt.csv

表4 關(guān)系文件kk.csv文件

圖6 數(shù)據(jù)本體

圖7 特產(chǎn)屬性(部分)

4 可視化研究

網(wǎng)頁布局是網(wǎng)頁設(shè)計開發(fā)工作的重要組成部分,通過合理的網(wǎng)頁布局能夠?qū)崿F(xiàn)網(wǎng)頁功能的精準定位,增強網(wǎng)頁展示效果,使用戶能夠在較短的時間內(nèi)找到目標元素[9]。本項目主要通過使用HTML5 和D3.js 來實現(xiàn)知識圖譜在網(wǎng)頁中的可視化。D3.js 是一個開源Java Script 庫,用于瀏覽器中創(chuàng)建交互式可視化[10]。D3.js 可視化庫將力導(dǎo)向圖的繪制功能封裝在庫包之中,有效地調(diào)用相關(guān)工具可以將相應(yīng)的實體和關(guān)系導(dǎo)入即可實現(xiàn)網(wǎng)絡(luò)關(guān)系的可視化。

本文將.csv 文件中的西藏特產(chǎn)數(shù)據(jù)導(dǎo)為后綴名為.json 的文件,并對.json 文件進行一定的修改,便于網(wǎng)頁前端的使用。利用HBuilder 建立了名為Tibetan Specialties 的項目,在此文件夾下放置多個目錄文件,再將.json 文件放入data 目錄下,在項目文件下創(chuàng)建.html文件,并創(chuàng)建后綴名為.css 的文件設(shè)置網(wǎng)站格式。前端和后端的數(shù)據(jù)利用.json 文件進行傳輸交互,將Neo4j中的數(shù)據(jù)引入在.html文件中,在.html文件中編寫搭建網(wǎng)頁的前端代碼,讓前后端進行聯(lián)系。而后運行代碼,使.json文件中連接的數(shù)據(jù)庫里面的數(shù)據(jù)直觀的在網(wǎng)頁里顯示出來,實現(xiàn)知識圖譜的可視化。用戶可以通過網(wǎng)頁右端的粉紅色搜索框中根據(jù)左端的類別進行相關(guān)搜索,同時也可以點擊左端圖例查看不同類別下的特產(chǎn),找到用戶所需的信息,從而更加深入地了解西藏特產(chǎn)。展示效果如下圖8~9所示。

圖8 西藏特產(chǎn)類別展示

圖9 西藏特產(chǎn)中藥材類網(wǎng)頁展示

5 結(jié)論

本論文首先介紹知識圖譜項目構(gòu)建背景,然后介紹知識圖譜、Protégé、圖數(shù)據(jù)庫Neo4j 的定義,根據(jù)西藏特產(chǎn)知識圖譜的構(gòu)建流程,對獲取到的數(shù)據(jù)進行篩選清洗預(yù)處理,完成數(shù)據(jù)的存儲。利用Protégé本體建模工具進行語義網(wǎng)絡(luò)的模型構(gòu)建,利用Neo4j圖形數(shù)據(jù)庫存儲西藏特產(chǎn)知識圖譜。在制作好的知識圖譜中包含了有關(guān)西藏特產(chǎn)的藏文名、產(chǎn)地、特色等等,形成較為完善的知識圖譜。構(gòu)建的知識圖譜具備一定的搜索功能,讓西藏特產(chǎn)分類一目了然,從圖譜中我們可以清楚的了解到西藏地區(qū)的特產(chǎn),幫助人們快速尋找信息從而了解有關(guān)西藏特產(chǎn)的信息資料。同時該圖譜可以給需要西藏特產(chǎn)的買家提供便利,用知識圖譜的方式呈現(xiàn)出較為方便完善的西藏特產(chǎn)信息資料,便于買家查找了解,從而購買適合的西藏特產(chǎn)。我們通過創(chuàng)新的方式利用知識圖譜將西藏特產(chǎn)推廣給大眾,讓人們進一步了解西藏特產(chǎn),了解西藏。

6 不足

當前知識圖譜技術(shù)已經(jīng)被廣泛用于處理結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù),但本項目在構(gòu)建和實施過程中對人工的依賴程度還較高,導(dǎo)致構(gòu)建成本高、效率低,在相對通用的知識圖譜中自動化、大規(guī)模、高質(zhì)量的構(gòu)建技術(shù)扔有待探索。

本項目研究還存在一些不足,項目數(shù)據(jù)大多來自互聯(lián)網(wǎng)搜索,并沒有去西藏實地考察,特產(chǎn)種類沒有足夠齊全。搜集并發(fā)現(xiàn)更多的西藏特產(chǎn),完善和拓展知識圖譜,找到更多詳細的特產(chǎn)特征,增加其它多種節(jié)點和關(guān)系的屬性展示是進一步要完成的工作。在有一定條件的基礎(chǔ)上去西藏地區(qū)實地考察,這一方法對本項目研究西藏特產(chǎn)知識圖譜有重要意義和一定的促進作用。

猜你喜歡
特產(chǎn)本體圖譜
歡迎訂閱2024年《特產(chǎn)研究》
Abstracts and Key Words
繪一張成長圖譜
對姜夔自度曲音樂本體的現(xiàn)代解讀
歡迎訂閱《中國林副特產(chǎn)》
補腎強身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
2016年農(nóng)特產(chǎn)微商的發(fā)展趨勢
主動對接你思維的知識圖譜
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
杭州特產(chǎn)
海外英語(2013年9期)2013-12-11 09:03:36
敦煌市| 靖州| 永济市| 甘南县| 西城区| 祁阳县| 柳河县| 赫章县| 东至县| 威信县| 天台县| 海南省| 民乐县| 二连浩特市| 尼勒克县| 吉安县| 琼海市| 通渭县| 思茅市| 龙州县| 淮滨县| 池州市| 新竹县| 蓝山县| 永吉县| 阿图什市| 岑溪市| 婺源县| 湟源县| 监利县| 井陉县| 巨野县| 濉溪县| 崇信县| 唐海县| 宜春市| 湖北省| 潮安县| 邵东县| 庐江县| 杭州市|