国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識(shí)圖譜的文學(xué)作品智能服務(wù)研究

2024-10-09 00:00:00謝政霖錢清陳清容
數(shù)字通信世界 2024年9期

摘要:構(gòu)建當(dāng)代文學(xué)知識(shí)圖譜旨在深化對(duì)文學(xué)作品的理解和分析,同時(shí)為文學(xué)研究者提供一個(gè)高效的工具,幫助其從多維度和多層面解讀和研究當(dāng)代文學(xué)作品。該文以小說《人世間》為對(duì)象,采用自頂向下的方式構(gòu)建了《人世間》小說的知識(shí)圖譜,構(gòu)建了包括關(guān)系檢索系統(tǒng)和智能問答系統(tǒng)的《人世間》小說智能服務(wù)系統(tǒng)。本系統(tǒng)通過前端頁面直觀地展示《人世間》小說人物的各類關(guān)系,通過智能問答搜索小說的相關(guān)內(nèi)容,提升了面向用戶的交互知識(shí)服務(wù)效果,為推動(dòng)當(dāng)代文學(xué)作品傳播提供有效的信息服務(wù)。

關(guān)鍵詞:中國(guó)當(dāng)代文學(xué);知識(shí)圖譜;Neo4j;智能服務(wù)

doi:10.3969/J.ISSN.1672-7274.2024.09.083

中圖分類號(hào):G 353.1;TP 3 文獻(xiàn)標(biāo)志碼:A 文章編碼:1672-7274(2024)09-0-05

Research on Intelligent Services for Literary Works Based on Knowledge Graph

--Taking the Novel "The World" as an Example

XIE Zhenglin, QIAN Qing,CHEN Qingrong

(School of Information, Guizhou University of Finance and Economics, Guiyang 550000, Guizhou,China)

Abstract: The construction of a knowledge graph of contemporary literature aims to deepen the understanding and analysis of literary works; At the same time, it provides an efficient tool for literary researchers to interpret and study contemporary literary works from multiple dimensions and levels. This article takes the novel "The World" as the object and constructs a knowledge graph of the novel from top to bottom. It also constructs an intelligent service system for the novel, including a relationship retrieval system and an intelligent question answering system. This system intuitively displays various relationships between characters in the novel "The World" through front-end pages, and can search for relevant content of the novel through intelligent Q&A, improving the effectiveness of user oriented interactive knowledge services and providing effective information services to promote the dissemination of contemporary literary works.

Keywords: contemporary chinese literature; knowledge graph; Neo4j; intelligent services

文學(xué)作品是精神文化產(chǎn)品的重要組成部分,其中蘊(yùn)含著世界各地不同歷史時(shí)期人類的經(jīng)驗(yàn)、情感和智慧。近年來,隨著自然語言處理(NLP)和知識(shí)圖譜技術(shù)的發(fā)展,學(xué)者們已開始利用這些工具挖掘和分析文學(xué)作品,以期從新的角度解讀和傳播這些作品[1]。

然而,首先文學(xué)作品中的語言表達(dá)具有豐富的修辭手法和意象,這需要深入的語義理解和分析[2]。這種多樣性給實(shí)體識(shí)別和關(guān)系抽取帶來了挑戰(zhàn)。其次,文學(xué)作品中的實(shí)體和關(guān)系是動(dòng)態(tài)和多層次的,這需要復(fù)雜的模型來捕捉和表示[3]。最后,由于文學(xué)作品的數(shù)量龐大和類型多樣,構(gòu)建大規(guī)模的文學(xué)作品知識(shí)圖譜需要高效的方法和技術(shù)[4]。盡管存在以上挑戰(zhàn),構(gòu)建文學(xué)作品知識(shí)圖譜仍具有重要的理論和實(shí)踐價(jià)值。知識(shí)圖譜可以幫助讀者從新的角度解讀文學(xué)作品,揭示作品中的人物、事件、主題和動(dòng)態(tài)變化等關(guān)鍵要素,為文學(xué)研究提供新的視角和方法[5]。同時(shí),可以為文學(xué)作品推薦系統(tǒng)、在線學(xué)習(xí)平臺(tái)、虛擬故事生成等應(yīng)用提供基礎(chǔ)數(shù)據(jù)和工具[6]。

本文以當(dāng)代中國(guó)文學(xué)作品《人世間》為研究對(duì)象,探索構(gòu)建文學(xué)知識(shí)圖譜的技術(shù)與方法,分析其在文學(xué)研究和應(yīng)用上的重要價(jià)值。希望通過對(duì)文學(xué)作品知識(shí)圖譜的構(gòu)建,推動(dòng)文學(xué)作品知識(shí)圖譜研究的進(jìn)展,為文學(xué)研究和應(yīng)用提供新的工具和資源。

1 相關(guān)研究

近年來,針對(duì)中文語料的知識(shí)圖譜創(chuàng)建的研究逐漸受到關(guān)注。徐彤陽等[7]使用骨架法與七步法相結(jié)合的方式構(gòu)建了晚明戲曲家的本體模型,實(shí)現(xiàn)了晚明戲曲家知識(shí)圖譜的創(chuàng)建。張強(qiáng)等[8]以皖籍開國(guó)將軍為研究對(duì)象,運(yùn)用了自頂向下的方法構(gòu)建知識(shí)圖譜,利用GIS技術(shù)描繪了人物活動(dòng)的軌跡,并創(chuàng)建了一個(gè)以智能問答為核心的紅色歷史人物智能服務(wù)系統(tǒng)。張?jiān)浦械萚9]采用CBDB、上圖人名規(guī)范庫、上圖古籍資源、上海地方志、古詩文網(wǎng)、歷史人物年譜等作為數(shù)據(jù)來源,在CBDB數(shù)據(jù)庫框架的基礎(chǔ)上提煉和完善了歷史文化名人游學(xué)足跡關(guān)系數(shù)據(jù)模型。歐陽劍等[10]通過知識(shí)圖譜技術(shù)對(duì)中國(guó)歷代典籍進(jìn)行了知識(shí)組織,構(gòu)建了一個(gè)涵蓋需求層、模型層、應(yīng)用層三個(gè)部分的典籍知識(shí)圖譜框架模型。

在文學(xué)作品研究領(lǐng)域,知識(shí)圖譜技術(shù)的應(yīng)用正在悄然興起,但目前的研究對(duì)象主要集中于古代文學(xué)作品和歷史人物,對(duì)當(dāng)代文學(xué)作品的知識(shí)圖譜構(gòu)建研究較少,同時(shí)在知識(shí)服務(wù)方面的研究成果也相對(duì)匱乏。針對(duì)這一問題,本文采用自頂向下的方法構(gòu)建《人世間》的知識(shí)圖譜,并基于知識(shí)圖譜和圖數(shù)據(jù)庫設(shè)計(jì)文學(xué)作品知識(shí)服務(wù)系統(tǒng)。這既為未來傳統(tǒng)小說的知識(shí)圖譜構(gòu)建研究提供了參考,也滿足了對(duì)數(shù)字人文研究中小說資源的再利用需求,具有重要的實(shí)踐意義。

2 實(shí)證研究

2.1 數(shù)據(jù)來源

本文以梁曉生先生所著的《人世間》作為主要研究素材。《人世間》分為上、中、下三部曲,通過講述周氏家族等十幾位平民子弟跌宕起伏的人生展示了改革開放給中國(guó)社會(huì)帶來的巨變。該作品于2019年8月16日榮獲第十屆茅盾文學(xué)獎(jiǎng)。筆者通過熊貓搜書平臺(tái)下載《人世間》三部曲電子書資源,作為相關(guān)研究的原始數(shù)據(jù)。

2.2 本體構(gòu)建

結(jié)合《人世間》小說原始數(shù)據(jù)的特點(diǎn)以及人物關(guān)系的描述,本研究以七步法為基礎(chǔ),借鑒已有的文學(xué)類本體構(gòu)建框架并進(jìn)行調(diào)整,構(gòu)建《人世間》小說本體模型(如圖1所示)。

(1)明確本體的應(yīng)用范圍。小說本體應(yīng)準(zhǔn)確描述小說人物的基本信息、具體時(shí)間、機(jī)構(gòu)名稱、發(fā)生事件,才能厘清小說故事發(fā)展的脈絡(luò),以確保小說要素分類符合《人世間》原著中的敘事與描述。

(2)本體構(gòu)建。本文采用FOFA本體模型、Clinga本體模型,以實(shí)現(xiàn)《人世間》小說本體的初步構(gòu)建。

(3)重要術(shù)語提取。本研究從《人世間》小說中提取出相應(yīng)的重要術(shù)語,包括人物、地點(diǎn)、時(shí)間、機(jī)構(gòu)、時(shí)間、上下級(jí)、下屬單位、兄弟姐妹、出生地、出生時(shí)間、創(chuàng)建時(shí)間、單位改編、性別、地名、政府部門等。

(4)定義類及其等級(jí)體系。本文將提取的《人世間》術(shù)語歸納為五大核心類別,分別為人物、地點(diǎn)、時(shí)間、機(jī)構(gòu)、時(shí)間,將其他術(shù)語歸納為核心類別的子類別。

(5)定義類的屬性及約束。本文進(jìn)一步對(duì)文中其他類別進(jìn)行歸納整理,將其作為屬性劃分給對(duì)應(yīng)的類,并確立類別之間的關(guān)聯(lián)。類的屬性包括對(duì)象屬性與數(shù)據(jù)屬性。其中對(duì)象屬性包括上下級(jí)、下屬單位、兄弟姐妹、出生地、出生時(shí)間、去世時(shí)間等22個(gè),數(shù)據(jù)屬性包括別稱、事件內(nèi)容、性別、地名、機(jī)構(gòu)名、姓名等12個(gè)。

(6)本體表示。為了對(duì)本體進(jìn)行表示,本文對(duì)小說本體進(jìn)行了表示,部分OWL文件內(nèi)容表示如下。

①類的定義。

<owl:Class rdf:about="http://www.semanticweb.org/administrator/ontologies/2023/4/untitled-ontology-10#人物"/>

②對(duì)象屬性的定義。

<owl:ObjectProperty rdf:about="http://www.semanticweb.org/administrator/ontologies/2023/4/untitled-ontology-10#參與事件">

<rdfs:subPropertyOf rdf:resource="http://www.w3.org/2002/07/owl#topObjectProperty"/>

<rdfs:domain rdf:resource="http://www.semanticweb.org/administrator/ontologies/2023/4/untitled-ontology-10#人物"/>

<rdfs:range rdf:resource="http://www.semanticweb.org/administrator/ontologies/2023/4/untitled-ontology-10#事件"/>

</owl:ObjectProperty>

③數(shù)據(jù)屬性的定義。

<owl:DatatypeProperty rdf:about="http://www.semanticweb.org/administrator/ontologies/2023/4/untitled-ontology-10#事件內(nèi)容">

</owl:DatatypeProperty>

(7)實(shí)例創(chuàng)建。本文在Protégé中填充實(shí)例以便判斷類與類之間的關(guān)系是否明確,本體結(jié)構(gòu)是否符合應(yīng)用需求。圖2是《人世間》本體模型周秉義實(shí)例化的成功運(yùn)用,從圖中可以看出,本體模型的可用性較強(qiáng),且能夠準(zhǔn)確表達(dá)小說中主要術(shù)語、對(duì)象屬性和數(shù)據(jù)屬性之間的組織關(guān)系。

2.3 知識(shí)抽取

實(shí)體識(shí)別是知識(shí)抽取的第一步,目標(biāo)是識(shí)別文本中的實(shí)體,通常使用命名實(shí)體識(shí)別(Named Entity Recognition,NER)技術(shù)實(shí)現(xiàn)。本研究選用結(jié)合雙向神經(jīng)網(wǎng)絡(luò)和softmax函數(shù)的模型對(duì)《人世間》三部曲原始數(shù)據(jù)數(shù)據(jù)進(jìn)行知識(shí)抽取,使用深度學(xué)習(xí)方法從非結(jié)構(gòu)化數(shù)據(jù)中提取結(jié)構(gòu)化數(shù)據(jù),以構(gòu)建高質(zhì)量的知識(shí)三元組。例如,“周秉昆在醬油廠工作”這句話經(jīng)過三元組抽取得到三元組“周秉昆-工作-醬油廠”。

2.4 知識(shí)融合

經(jīng)過知識(shí)抽取之后的部分實(shí)體和關(guān)系可能存在歧義現(xiàn)象,如人物姓名這一數(shù)據(jù)屬性可能存在多種稱呼,以“周秉昆”為例,其母親對(duì)其的稱呼為“老疙瘩”,親朋好友稱呼其為“秉昆”,這些稱呼都指代同一人物實(shí)體“周秉昆”。對(duì)于存在上述問題的實(shí)體和關(guān)系,本研究采用計(jì)算余弦相似度的方法進(jìn)行同義實(shí)體的合并,同時(shí)結(jié)合人工方法消除部分有歧義的實(shí)體。余弦相似度的計(jì)算公式如式(1)所示。在研究應(yīng)用領(lǐng)域,0.8的相似度已經(jīng)足夠高,可以認(rèn)為兩個(gè)對(duì)象是相似的。

(1)

2.5 知識(shí)存儲(chǔ)

Neo4j圖數(shù)據(jù)庫由標(biāo)簽、節(jié)點(diǎn)、關(guān)系及節(jié)點(diǎn)屬性4類要素組成,本研究將類與標(biāo)簽、實(shí)例與節(jié)點(diǎn)、對(duì)象屬性與關(guān)系、數(shù)據(jù)屬性與節(jié)點(diǎn)屬性一一對(duì)應(yīng),從而實(shí)現(xiàn)小說本體模式層到圖譜數(shù)據(jù)層的匹配映射。如人物類與地點(diǎn)類組成的對(duì)象屬性“周秉昆,出生地,光字片”。標(biāo)簽分別為人物類與地點(diǎn)類,實(shí)例分別為“周秉昆”與“光字片”,關(guān)系為“出生地”。

本研究采用了Neo4j4.0.7圖數(shù)據(jù)庫4.0.7版本,JDK的依賴版本為11.0.18。將protege中的三元組數(shù)據(jù)導(dǎo)出為RDF/XML文件,再通過Neosemantics插件和Cypher語言將RDF/XML格式的三元組數(shù)據(jù)導(dǎo)入圖數(shù)據(jù)庫Neo4j圖數(shù)據(jù)庫中。最終,本研究構(gòu)建了由1 194個(gè)節(jié)點(diǎn)和2 706條邊組成的知識(shí)圖譜,圖3為部分內(nèi)容構(gòu)成的知識(shí)圖譜。其中,本體模型中五大類的實(shí)例映射在圖數(shù)據(jù)庫中為不同顏色的節(jié)點(diǎn)。數(shù)據(jù)屬性映射為每個(gè)節(jié)點(diǎn)的屬性。對(duì)象屬性映射為節(jié)點(diǎn)之間的連線。通過該圖,可以較好地展示小說中人物、時(shí)間、事件、地點(diǎn)等屬性之間的關(guān)系,由此為開發(fā)智能服務(wù)系統(tǒng)奠定基礎(chǔ)。

2.6 知識(shí)服務(wù)

2.6.1 關(guān)系檢索系統(tǒng)

關(guān)系檢索是指在前端頁面直接輸入某個(gè)歷史人物,實(shí)現(xiàn)對(duì)該人物相關(guān)信息和事件的檢索?!扒岸送ㄟ^POST方法發(fā)送query和category數(shù)據(jù)。后端接收這些數(shù)據(jù),構(gòu)建Cypher查詢語句,查詢Neo4j數(shù)據(jù)庫,并返回相關(guān)的圖譜數(shù)據(jù)(節(jié)點(diǎn)、邊和描述)。

在前端展示中,該系統(tǒng)采用HTML5標(biāo)準(zhǔn)進(jìn)行構(gòu)建,引入了Bootstrap和vis.js兩個(gè)主要的前端庫。Bootstrap為系統(tǒng)提供了響應(yīng)式的用戶界面設(shè)計(jì),使得該系統(tǒng)能夠在不同的設(shè)備和屏幕尺寸上均保持良好的用戶體驗(yàn)。vis.js則為系統(tǒng)提供了圖形可視化功能,使得用戶可以直觀地查看和理解檢索到的關(guān)系數(shù)據(jù)。系統(tǒng)的主界面包含一個(gè)下拉選擇框,在查詢關(guān)系全貌的同時(shí),還允許用戶選擇查詢不同的類別,如“人物”“事件”等關(guān)系,以及一個(gè)輸入框,用于輸入查詢的實(shí)例名稱。用戶在輸入查詢后,可以點(diǎn)擊“搜索”按鈕,觸發(fā)search函數(shù)。該函數(shù)通過jQuery發(fā)送POST請(qǐng)求至后端,并將返回的數(shù)據(jù)用于更新圖形和描述部分。此外,系統(tǒng)還引入了其他的JavaScript庫,如jQuery和Popper.js,以支持前端的交互功能和Bootstrap的組件功能。

圖4為檢索系統(tǒng),展示《人世間》小說中周秉義的人物與事件關(guān)系檢索結(jié)果,從圖中可以看到,通過檢索可以有效地展示其人物相關(guān)的知識(shí)圖譜和人物簡(jiǎn)介,讓使用者能夠快速了解小說中人物的信息。

2.6.2 問答系統(tǒng)

本文還構(gòu)建了一個(gè)智能問答系統(tǒng),后端服務(wù)通過結(jié)合Flask和Neo4j技術(shù),為前端提供了一個(gè)高效、準(zhǔn)確的關(guān)系檢索功能。當(dāng)處理搜索請(qǐng)求時(shí),系統(tǒng)首先從前端接收到的數(shù)據(jù)中提取查詢文本。接著,采用字符串操作方法解析實(shí)體和關(guān)系。例如,問題“周秉昆的妻子是誰”,系統(tǒng)將其解析為實(shí)體“周秉昆”和關(guān)系“配偶”。隨后,構(gòu)建了一個(gè)Cypher查詢語句,用于在Neo4j數(shù)據(jù)庫中檢索與該實(shí)體和關(guān)系相關(guān)的節(jié)點(diǎn)和邊。查詢結(jié)果被處理并轉(zhuǎn)換為前端可以使用的格式,包括節(jié)點(diǎn)、邊和目標(biāo)實(shí)體的簡(jiǎn)介。最后,這些數(shù)據(jù)以JSON格式返回給前端并進(jìn)行信息顯示。

在系統(tǒng)的主界面,用戶通過輸入框輸入問題。輸入完成后,點(diǎn)擊“搜索”按鈕,觸發(fā)search函數(shù)。此函數(shù)利用jQuery發(fā)送POST請(qǐng)求至后端,并將返回的數(shù)據(jù)用于更新圖形和簡(jiǎn)介部分。整體布局采用了Bootstrap柵格系統(tǒng),將頁面分為兩個(gè)主要部分:左側(cè)展示關(guān)系圖譜,而右側(cè)則顯示目標(biāo)實(shí)體的簡(jiǎn)介。

圖5為智能問答系統(tǒng),以問題“周秉昆的妻子是誰”為例,結(jié)果展示區(qū)顯示出周秉昆和鄭娟的配偶關(guān)系,并在右側(cè)提供關(guān)于鄭娟的簡(jiǎn)介,達(dá)到信息提取的目的。

3 結(jié)束語

隨著數(shù)字人文技術(shù)的發(fā)展,傳統(tǒng)人文知識(shí)的組織和服務(wù)方式得到了革新。本文構(gòu)建了小說《人世間》的智能服務(wù)原型系統(tǒng),為當(dāng)代小說信息服務(wù)帶來了新的方法和視角。通過知識(shí)圖譜的應(yīng)用,文中實(shí)現(xiàn)了《人世間》小說的深度知識(shí)組織、關(guān)聯(lián)的直觀展示。此外,該系統(tǒng)不僅可為圖書館、博物館等機(jī)構(gòu)提供了參考,助力文學(xué)研究和教育活動(dòng)的推進(jìn),還通過直接檢索和智能問答的方式,極大地提高了用戶的人機(jī)交互體驗(yàn)。值得一提的是,本研究所采用的方法不僅具有高度的通用性,還可以根據(jù)不同的文學(xué)資源特征進(jìn)行靈活調(diào)整和復(fù)用。未來將進(jìn)一步拓展當(dāng)代文學(xué)作品的樣本集和數(shù)據(jù)集,同時(shí)探索和實(shí)施更多元化的智能服務(wù)方式,如微信小程序和智能服務(wù)App,以期將研究成果更好地應(yīng)用于實(shí)踐中。

參考文獻(xiàn)

[1] Manolis Koubarakis, G. Stoilos, Ian Horrocks, Phokion G. Kolaitis. An Introduction to Ontology-Based Query Answering widcadc46512632ace26083b13e276c9f8bfc600d963b3f138c07a74955492b6d2th Existential Rules [J]. Reasoning Web, 2014(8):245-278.

[2] Paulheim H. Knowledge graph refinement: A survey of approaches and evaluation methods[J]. Semantic web, 2018(3):489-508.

[3]Harispe S, Ranwez S, Janaqi S,Montmain J. Semantic similarity from natural language and ontology analysis[J].Synthesis Lectures on Human Language Technologies, 20188(1):1-254.

[4] 奧德瑪,楊云飛,穗志方.中文醫(yī)學(xué)知識(shí)圖譜CMe KG構(gòu)建初探[J].中文信息學(xué)報(bào),2019,33(10):1-7.

[5] 林峰,趙廣平,林娜,等.《紅樓夢(mèng)》文本的社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)分析[J].石家莊鐵道大學(xué)學(xué)報(bào),2018,12(1):58-63.

[6] Gangemi A, Presutti V, Reforgiato Recupero D, Nuzzolese, A. G., Draicchio F, Mongiovì M.Semantic web machine reading with FRED. [J].Semantic Web,2017(8): 873-893.

[7] 徐彤陽,黃映思.名人年譜資源的知識(shí)圖譜構(gòu)建——以徐朔方《晚明曲家年譜》為例[J].?dāng)?shù)字圖書館論壇,2022(12):36-45.

[8] 張強(qiáng),高穎,劉飛,等.基于知識(shí)重組的紅色歷史人物智能服務(wù)研究[J].現(xiàn)代情報(bào),2023(7):96-108.

[9] 張?jiān)浦?、孫平.歷史文化名人游學(xué)足跡知識(shí)圖譜的構(gòu)建與可視化[J].圖書館雜志.2021,40(9):81-87.

[10] 歐陽劍,梁珠芳,任樹懷.大規(guī)模中國(guó)歷代存世典籍知識(shí)圖譜構(gòu)建研究[J].圖書情報(bào)工作.2021,65(5):162-173.

江川县| 栾川县| 新绛县| 晋中市| 云阳县| 莱西市| 新河县| 奉新县| 班戈县| 靖江市| 孟津县| 小金县| 留坝县| 文水县| 缙云县| 珲春市| 佳木斯市| 桃源县| 襄樊市| 永春县| 丰台区| 于田县| 清镇市| 韶关市| 临江市| 民乐县| 体育| 马尔康县| 武乡县| 巴南区| 武平县| 伊通| 滕州市| 旬邑县| 岳普湖县| 德惠市| 肇东市| 宿松县| 磐石市| 木里| 布拖县|