国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合GPT技術(shù)和用戶需求的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布研究

2024-10-08 00:00范顏鑠周曉英王克平等
現(xiàn)代情報 2024年10期

關(guān)鍵詞: 文學(xué)類古籍; 數(shù)字人文; 知識組織; 關(guān)聯(lián)數(shù)據(jù);Drupal;ChatGPT; 用戶需求

DOI:10.3969 / j.issn.1008-0821.2024.10.013

〔中圖分類號〕G255 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821 (2024) 10-0154-14

文學(xué)類古籍作為古籍資源的一個重要門類, 兼具藝術(shù)性與文化性, 同時具有“存史” 的功能, 可突出展現(xiàn)某一特定時期的文化重心情況, 其題材、數(shù)量的豐富程度也在一定程度上反映了社會的安定程度與文化繁榮程度。此外, 文學(xué)類古籍包容性強(qiáng)、內(nèi)容豐富, 極具地域?qū)傩陨剩?與一般古籍相比,其蘊(yùn)含的知識更為豐富, 知識群體之間存在的語義關(guān)系更為復(fù)雜, 挖掘潛力較大。

在文化與科技融合的數(shù)字化背景下, 數(shù)據(jù)可視化、虛擬現(xiàn)實(shí)、GPT(Generative Pre-trained Trans?former)等技術(shù)為古籍的數(shù)字化提供了新思路, 促使古籍知識組織向語義化方向發(fā)展, 也為文學(xué)類古籍的關(guān)聯(lián)組織提供全新的方法借鑒。然而, 現(xiàn)有的古籍?dāng)?shù)字化研究多集中于歷史、哲學(xué)、地方志、中醫(yī)藥等門類, 或關(guān)注書目等外部屬性特征, 文學(xué)類古籍?dāng)?shù)字化研究特別是應(yīng)用實(shí)踐研究偏少, 相較于其他門類古籍關(guān)注度偏低。同時, 由于文學(xué)類古籍資源具有多重藝術(shù)形式, 涵蓋了題材、體裁等特征要素, 使用現(xiàn)有關(guān)聯(lián)數(shù)據(jù)發(fā)布思路時存在屬性揭示不足、領(lǐng)域描述不適配等問題。因此, 本文選取文學(xué)類古籍資源作為研究對象, 在現(xiàn)有的“本體模型+關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)平臺” 發(fā)布思路基礎(chǔ)上, 探究如何將GPT 技術(shù)、用戶需求分析與關(guān)聯(lián)數(shù)據(jù)技術(shù)相結(jié)合以提升文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布的效果。

1文獻(xiàn)綜述本節(jié)梳理分析

國內(nèi)外關(guān)聯(lián)數(shù)據(jù)在古籍中的應(yīng)用、發(fā)布方式、實(shí)體識別抽取方法與用戶需求分析的研究成果, 為后續(xù)模型的構(gòu)建提供理論基礎(chǔ)。

1.1關(guān)聯(lián)數(shù)據(jù)在古籍研究中的應(yīng)用

關(guān)聯(lián)數(shù)據(jù)是語義網(wǎng)的一個簡單應(yīng)用, 利用RDF、URI 等技術(shù)可將Web 中的各類數(shù)據(jù)、信息和知識進(jìn)行分布、共享和鏈接, 讓人們可以通過HTTP 協(xié)議來揭示和獲取這些數(shù)據(jù), 因其自身具有自描述等優(yōu)良特性, 現(xiàn)已成為語義Web 的一種輕量級解決方案[1] 。2006 年7 月, “萬維網(wǎng)之父” Tim Berners-Lee提出關(guān)聯(lián)數(shù)據(jù)的概念并指出了關(guān)聯(lián)數(shù)據(jù)的4 項基本準(zhǔn)則[2] : ①用URI 來標(biāo)記任何事物; ②使用HTTPURI 使任何人都可以查找和引用這些事物; ③當(dāng)某個資源被訪問時, 應(yīng)以開放標(biāo)準(zhǔn)的形式(如RDF、SPARQL等)提供有用的信息; ④盡可能給出相關(guān)的URI, 以便實(shí)現(xiàn)資源或者數(shù)據(jù)集的豐富化。

我國對古籍?dāng)?shù)字化的研究正處于不斷“升溫”的階段, 不少學(xué)者借助關(guān)聯(lián)數(shù)據(jù)技術(shù)對其展開研究。在古籍文本研究方面, 有學(xué)者總結(jié)了古文知識組織及關(guān)聯(lián)數(shù)據(jù)技術(shù)在古籍知識組織應(yīng)用的現(xiàn)狀, 提出了基于關(guān)聯(lián)數(shù)據(jù)的古文知識組織模式并對核心問題及技術(shù)進(jìn)行探討[3] ; 有學(xué)者通過分析關(guān)聯(lián)數(shù)據(jù)等信息技術(shù)在挖掘數(shù)字化古籍知識中的運(yùn)用, 提出了數(shù)字化古籍知識管理模型[4] 。在古籍?dāng)?shù)據(jù)庫建設(shè)方面,數(shù)字媒介的不斷發(fā)展使關(guān)聯(lián)數(shù)據(jù)技術(shù)在古籍?dāng)?shù)據(jù)庫建設(shè)、古籍資源的組織與存儲等方面發(fā)揮著重要作用[5],歐盟數(shù)字圖書館(Europeana)借助關(guān)聯(lián)數(shù)據(jù)將散落在世界各地的文獻(xiàn)等資源進(jìn)行整合, 構(gòu)建了統(tǒng)一的網(wǎng)絡(luò)平臺[6] ; 有學(xué)者基于關(guān)聯(lián)數(shù)據(jù), 在分析現(xiàn)有語義技術(shù)應(yīng)用基礎(chǔ)上提出了語義技術(shù)驅(qū)動下的古籍互聯(lián)互通框架[7] 。在古籍外部特征研究方面,有學(xué)者借助語義網(wǎng)和關(guān)聯(lián)數(shù)據(jù)技術(shù)對古籍書目進(jìn)行知識組織, 構(gòu)建叢書古籍書目知識組織模型[8] ; 有學(xué)者對我國特有的, 以CNMARC 格式編目的古籍書目進(jìn)行了關(guān)聯(lián)數(shù)據(jù)化與關(guān)聯(lián)化發(fā)布研究[9] 。也有不少學(xué)者對不同門類古籍展開研究, 如借助關(guān)聯(lián)數(shù)據(jù)技術(shù)研究史書類古籍《漢書·藝文志》中的人物知識關(guān)聯(lián)[10] 、構(gòu)建地方志類古籍《方志物產(chǎn)》知識庫[11] 、設(shè)計地方詩詞資源關(guān)聯(lián)聚合模式并構(gòu)建實(shí)例化應(yīng)用平臺[12] 。作為較為成熟的技術(shù), 關(guān)聯(lián)數(shù)據(jù)在古籍領(lǐng)域中的應(yīng)用已涉及多個門類與多個方面,但知識組織及關(guān)聯(lián)數(shù)據(jù)技術(shù)在文學(xué)類古籍?dāng)?shù)字化探索中的應(yīng)用研究十分有限, 僅涉及詩詞文字形式,整體研究程度與關(guān)注程度依舊偏低, 因此本文嘗試將關(guān)聯(lián)數(shù)據(jù)技術(shù)應(yīng)用于文學(xué)類古籍資源領(lǐng)域, 提出文學(xué)類古籍資源關(guān)聯(lián)發(fā)布模型, 從多維度對文學(xué)類古籍資源知識進(jìn)行全面、具體的呈現(xiàn)。

1.2關(guān)聯(lián)數(shù)據(jù)發(fā)布

現(xiàn)階段,我國學(xué)者主要借助D2RQ、Drupal 發(fā)布關(guān)聯(lián)數(shù)據(jù)集, D2RQ 是目前較為常用的RDF 映射平臺, 有學(xué)者借助該平臺實(shí)現(xiàn)了可移動文物的關(guān)聯(lián)數(shù)據(jù)存儲[13] ; 也有學(xué)者基于層級結(jié)構(gòu), 用D2R 模型實(shí)現(xiàn)家譜文化資源的語義關(guān)聯(lián)及可視化展示[14] 。Drupal 則具有更好的輕量級數(shù)據(jù)發(fā)布能力, 具有良好的可擴(kuò)展性和靈活性, 其內(nèi)容結(jié)構(gòu)定義對關(guān)聯(lián)數(shù)據(jù)的支持適用性也較大[12] 。已有多位學(xué)者借助該平臺實(shí)現(xiàn)關(guān)聯(lián)數(shù)據(jù)集的發(fā)布, 如基于層級結(jié)構(gòu)方式,從數(shù)據(jù)層、模式層以及應(yīng)用層3 個層級結(jié)構(gòu)對山水志史料資源進(jìn)行語義化知識關(guān)聯(lián)與知識發(fā)布[15] ; 通過構(gòu)建內(nèi)容節(jié)點(diǎn)類型和屬性、節(jié)點(diǎn)與本體庫的關(guān)聯(lián)映射等步驟, 實(shí)現(xiàn)民國建筑知識庫關(guān)聯(lián)數(shù)據(jù)的組織與發(fā)布[16] ; 基于模塊匹配的方式, 以資源發(fā)布模塊、問題答疑模塊、實(shí)驗管理模塊、在線考試模塊搭建師生間的信息交流網(wǎng)絡(luò)平臺等[17] 。盡管目前圍繞關(guān)聯(lián)數(shù)據(jù)發(fā)布的相關(guān)成果顯著, 但由于文學(xué)類古籍資源的結(jié)構(gòu)元素、內(nèi)容具有一定特殊性, 仍有必要進(jìn)一步結(jié)合文學(xué)類古籍資源的內(nèi)容結(jié)構(gòu)特征, 設(shè)計探討關(guān)聯(lián)數(shù)據(jù)發(fā)布新思路, 促進(jìn)關(guān)聯(lián)數(shù)據(jù)技術(shù)在該領(lǐng)域的應(yīng)用落地。

1.3實(shí)體識別抽取

基于自然語言處理技術(shù)、深度學(xué)習(xí)算法的挖掘、識別抽取方案雖可以取得良好的效果, 但操作門檻高、步驟復(fù)雜, 設(shè)計抽取模型需耗費(fèi)大量時間與人力成本, 且傳統(tǒng)抽取方式多以“看到一類, 定義一類, 構(gòu)建一類” 的模式構(gòu)建知識庫, 手段效率低, 當(dāng)包含多個中間子任務(wù)時, 抽取準(zhǔn)確率急劇下降, ChatGPT 等大語言模型的發(fā)布對傳統(tǒng)自然語言核心任務(wù)產(chǎn)生了巨大的沖擊和影響, 不僅可以高質(zhì)量完成任務(wù)且貼合用戶的實(shí)際需求[18] 。GPT 技術(shù)在語義理解、知識抽取、知識生成與推薦方面的出色表現(xiàn)使知識組織環(huán)境發(fā)生巨大變化[19] , 在數(shù)字任務(wù)研究過程中, 可提供研究過程中所需要的文本生成、跨語言處理、情感分析、語料庫建設(shè)等技術(shù)支持[20] , 在閱讀理解、情感分析等自然語言處理任務(wù)中獲得較優(yōu)的性能[21] 。南京理工大學(xué)已有實(shí)驗結(jié)果表明, ChatGPT 在命名實(shí)體識別具有較好的表現(xiàn), 但在關(guān)系抽取中的效果需進(jìn)一步提高[22] 。

現(xiàn)階段,ChatGPT在知識抽取方面的研究主要集中于實(shí)驗分析階段, 大多數(shù)研究以直接向其輸入文本、分析其輸出結(jié)果的方式測試其識別抽取準(zhǔn)確度, 也有學(xué)者通過給定關(guān)系的方式抽取關(guān)系[22] 。在ChatGPT 生成內(nèi)容分析上, 有學(xué)者通過輸入樣例的方式, 讓其模仿樣例的語言風(fēng)格進(jìn)行寫作并分析實(shí)驗結(jié)果[23] ?;谝陨蠈?shí)驗思維, 結(jié)合其強(qiáng)大的學(xué)習(xí)能力、操作的便捷性與良好的抽取效果等特性,本文將以輸入樣例、給定關(guān)系與識別抽取目標(biāo)的形式識別抽取本文所需數(shù)據(jù), 可在一定程度上提高知識組織與研究效率。

1.4用戶需求分析

目前,用戶需求分析常用方法有Kano模型、AHP層次分析法、AD理論等, 也有不少學(xué)者通過內(nèi)容分析、訪談、問卷等方法收集用戶需求, 在知識服務(wù)支撐、服務(wù)水平提升、服務(wù)效果提升方面做了很多嘗試[24],如從用戶對資源的需求出發(fā), 借助層次分析法、TF-IDF算法構(gòu)建用戶畫像模型,為精準(zhǔn)圖書推薦服務(wù)提供支撐[25] ; 或借助訪談、內(nèi)容分析等方法, 完善數(shù)據(jù)可視化研究素養(yǎng)體系, 提高高校圖書館服務(wù)水平[26] 。也有學(xué)者從用戶需求角度優(yōu)化醫(yī)療健康類APP[27] 、針對實(shí)際需求對家用火災(zāi)類逃生作品進(jìn)行創(chuàng)新設(shè)計等[28],進(jìn)而提高現(xiàn)有產(chǎn)品的機(jī)能與服務(wù)效果。文學(xué)類古籍知識受眾群體較為廣泛, 本文通過訪談法收集不同年齡、身份的用戶知識需求并進(jìn)行歸納分析, 據(jù)此設(shè)計、構(gòu)建文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型, 提升其可用性與實(shí)用性。

綜上所述, 目前關(guān)聯(lián)數(shù)據(jù)技術(shù)在古籍領(lǐng)域的應(yīng)用已有較為豐碩的成果, 但聚焦到文學(xué)類古籍資源尚存在一些不足: 一是數(shù)字化實(shí)踐研究偏少, 雖對文學(xué)作品文本等進(jìn)行挖掘分析, 但仍缺少對其應(yīng)用實(shí)踐方面的探索。二是已有的關(guān)聯(lián)數(shù)據(jù)發(fā)布模式與文學(xué)類古籍資源無法做到完全適配, 無法全面呈現(xiàn)其語義知識結(jié)構(gòu)網(wǎng)絡(luò)。三是現(xiàn)階段將用戶需求多維度分析結(jié)果結(jié)合到關(guān)聯(lián)數(shù)據(jù)發(fā)布模型中的成果尚不多見。因此, 本文將從文學(xué)類古籍資源的特征和數(shù)字化實(shí)踐需求出發(fā), 結(jié)合關(guān)聯(lián)數(shù)據(jù)集發(fā)布的典型流程, 將GPT 技術(shù)、用戶需求分析與關(guān)聯(lián)數(shù)據(jù)技術(shù)相結(jié)合, 創(chuàng)新性提出文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型。與傳統(tǒng)關(guān)聯(lián)發(fā)布模型相比, 該模型基于大語言模型時代背景改進(jìn)現(xiàn)有數(shù)據(jù)層, 融合GPT 技術(shù)完成數(shù)據(jù)采集工作, 提高知識組織效率, 同時增設(shè)針對不同用戶群體分析其需求的應(yīng)用層, 并通過文學(xué)類古籍關(guān)聯(lián)組織模型來實(shí)現(xiàn)其構(gòu)建, 完善文學(xué)類古籍資源關(guān)聯(lián)化發(fā)布思路的同時增強(qiáng)本文提出模型的實(shí)用性。在實(shí)證方面, 選取《聊齋志異·司文郎》驗證模型的有效性及可用性。

2文學(xué)類古籍資源的結(jié)構(gòu)要素與關(guān)聯(lián)發(fā)布需求分析

本節(jié)首先從時間、地點(diǎn)、人物、文章4 個角度出發(fā)梳理文學(xué)類古籍資源的結(jié)構(gòu)要素, 其次歸納數(shù)字化時代背景下用戶對文學(xué)類古籍知識的需求, 為后續(xù)文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型的建立奠定基礎(chǔ)。

2.1文學(xué)類古籍資源結(jié)構(gòu)要素分析

文學(xué)類作品通過詩歌、散文、小說等藝術(shù)形式來表達(dá)作者對生活的觀察和理想[29] , 通過語言塑造形象以反映人類社會生活[30] 。與其他類別作品相比, 除卻多個門類書籍包含的人物、地點(diǎn)、時間基本元素, 篇章題目是該類書籍的核心要素, 故事情節(jié)基本通過文章章節(jié)串聯(lián), 體裁、題材等要素更是該類書籍重要的形式特征與要素。與現(xiàn)代文學(xué)作品相比, 文學(xué)類古籍不僅包含人物、時間、地點(diǎn)等基本結(jié)構(gòu)要素, 還增加了文言文要素, 其晦澀性在考驗專業(yè)研究人員文學(xué)素養(yǎng)的同時, 也給大眾閱讀群體造成了一定的閱讀障礙。本文結(jié)合文學(xué)類古籍資源的結(jié)構(gòu)與特征, 將結(jié)構(gòu)要素劃分為時間、地點(diǎn)、人物、文章4 個基本組成部分, 將其具有代表性特征的體裁、題材與文言文要素放置文章類目下, 形成文學(xué)類古籍資源通用結(jié)構(gòu)要素, 涵蓋了更深層次、更全面的實(shí)體和關(guān)系, 從而使所構(gòu)建的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型具有更高的兼容性與實(shí)用性,如圖1所示。

2.2文學(xué)類古籍資源cBkt/79jolSd7yfSSlU+dxG//qrcy72YE3ac2/goBjg=關(guān)聯(lián)組織和關(guān)聯(lián)發(fā)布需求

文學(xué)類古籍在教育實(shí)踐、價值觀指引等社會環(huán)節(jié)中具有固本培元的作用, 有助于在全民心中建立起真正的文化自信, 形成強(qiáng)大的社會凝聚力[31],對其展開數(shù)字化實(shí)踐研究具有重要的現(xiàn)實(shí)意義。信息技術(shù)的不斷發(fā)展使用戶對文學(xué)古籍知識化的需求不再停留于單純的知識獲取, 而轉(zhuǎn)為更為直觀、更富有語義內(nèi)涵的知識展示與查詢, 主要表現(xiàn)為用戶的知識需求多元化、知識獲取便捷化、需求內(nèi)容多樣化、需求連續(xù)化與動態(tài)化。

為了解用戶真實(shí)需求, 本文先后訪談了10名蒲松齡研究院相關(guān)專家、90名社會群眾與50 名高校學(xué)生, 訪談主要圍繞以下內(nèi)容展開: 職業(yè)、對文學(xué)類古籍關(guān)注與熱愛程度等背景性問題、文學(xué)類古籍查閱與研究過程中遇到的問題、數(shù)字化背景下文學(xué)類古籍知識獲取途徑傾向與內(nèi)容需求等, 根據(jù)對150名用戶的訪談結(jié)果, 按照用戶需求特征的不同將用戶分為專業(yè)用戶與普通用戶。前者為文學(xué)愛好者、研究人員或熱衷于文學(xué)研究的學(xué)者, 這類群體知識需求比較集中, 對知識的需求更為深入和專業(yè)化; 后者主要為學(xué)生、對文學(xué)感興趣的社會群眾,此類用戶的知識需求更加廣泛和多樣化?;诖耍疚尼槍Σ煌脩粜枨髮﹃P(guān)聯(lián)數(shù)據(jù)發(fā)布平臺進(jìn)行設(shè)計, 以便使用戶能更好地在平臺上根據(jù)自身需要獲取所需知識。

3融合GPT技術(shù)和用戶需求的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型設(shè)計

為促進(jìn)文學(xué)類古籍資源的有效傳播、利用與知識共享, 需對文學(xué)類古籍資源中的知識進(jìn)行全面、充分的揭示, 借助關(guān)聯(lián)數(shù)據(jù)技術(shù)實(shí)現(xiàn)文學(xué)類古籍文本知識的鏈接與智能應(yīng)用, 以可視化形式呈現(xiàn)此類古籍的知識語義網(wǎng)絡(luò), 使關(guān)聯(lián)發(fā)布平臺能夠以更清晰、便捷的方式呈現(xiàn)文學(xué)類古籍資源的整體概貌。

本文沿用了以層級結(jié)構(gòu)實(shí)現(xiàn)關(guān)聯(lián)化發(fā)布的思路,同時結(jié)合前文分析的文學(xué)類古籍結(jié)構(gòu)要素特征改進(jìn)現(xiàn)有關(guān)聯(lián)發(fā)布框架, 添加文學(xué)類古籍資源關(guān)聯(lián)組織模型使關(guān)聯(lián)數(shù)據(jù)發(fā)布更貼合該領(lǐng)域特征, 設(shè)計文學(xué)類古籍關(guān)聯(lián)數(shù)據(jù)發(fā)布模型以實(shí)現(xiàn)知識語義化關(guān)聯(lián),該模型主要包含數(shù)據(jù)層、數(shù)據(jù)網(wǎng)絡(luò)層、數(shù)據(jù)融合層、應(yīng)用層及表現(xiàn)層5 個層面, 如圖2 所示。其中, 數(shù)據(jù)層嘗試借助GPT 技術(shù)完成數(shù)據(jù)采集工作, 基于前人抽取思維, 在數(shù)據(jù)層以輸入樣例、給定關(guān)系與識別抽取目標(biāo)的形式識別抽取本文所需數(shù)據(jù), 增設(shè)分析用戶需求的應(yīng)用層, 并以用戶需求為導(dǎo)向完成表現(xiàn)層的構(gòu)建, 提高本模型的實(shí)用性。

1) 數(shù)據(jù)層。數(shù)據(jù)層主要借助GPT類技術(shù)解決數(shù)據(jù)離散無序、屬性缺失等問題, 構(gòu)建本地數(shù)據(jù)集為其他4 個層面提供數(shù)據(jù)支撐。根據(jù)不同數(shù)據(jù)選取相應(yīng)數(shù)據(jù)源完成數(shù)據(jù)的獲取, 從地方、高校圖書館及檔案館收集紙質(zhì)版古籍, 超星數(shù)字圖書館等數(shù)字圖書館、中國知網(wǎng)等期刊數(shù)據(jù)庫分別作為電子版古籍與期刊的主要數(shù)據(jù)源, 以網(wǎng)絡(luò)數(shù)字資源為補(bǔ)充,并對數(shù)據(jù)進(jìn)行初步分類。在數(shù)據(jù)采集方面, 借助OCR、GPT 技術(shù)獲取文本數(shù)據(jù), 根據(jù)ChatGPT 可通過語言模型任務(wù)“閱讀” 大量自然語言文本進(jìn)而習(xí)得大量知識[20] 的優(yōu)點(diǎn), 以分批、多次輸入識別抽取實(shí)例的方式訓(xùn)練ChatGPT, 依托其強(qiáng)大的學(xué)習(xí)能力使其不斷明確本文所需的抽取任務(wù)與抽取目標(biāo), 提高ChatGPT 對三元組的敏感程度, 借助ChatGPT實(shí)現(xiàn)文本數(shù)據(jù)的識別與抽取。相關(guān)論文數(shù)據(jù)則在中國知網(wǎng)等期刊數(shù)據(jù)庫利用“主題” “關(guān)鍵詞” 搜索相關(guān)研究論文, 以自定義的方式選擇“題目” “摘要” “關(guān)鍵詞” 等內(nèi)容導(dǎo)出到Excel, 并以人工篩選的方式收集關(guān)聯(lián)數(shù)據(jù)庫的URI 鏈接。將從以上3 個方面采集到的數(shù)據(jù)進(jìn)行人工校對與初步融合, 剔除掉重復(fù)數(shù)據(jù), 結(jié)合網(wǎng)絡(luò)資源對數(shù)據(jù)進(jìn)行補(bǔ)充, 最終形成文學(xué)類古籍資源數(shù)據(jù)集, 存儲到本地數(shù)據(jù)集中供后續(xù)訪問。

2)數(shù)據(jù)網(wǎng)絡(luò)層。數(shù)據(jù)網(wǎng)絡(luò)層的主要任務(wù)是將采集到的本地數(shù)據(jù)集轉(zhuǎn)化為機(jī)器可識別的RDF(Re?source Description Framework)格式并構(gòu)建文學(xué)類關(guān)聯(lián)組織模型, 以實(shí)現(xiàn)對文學(xué)類古籍資源知識的語義揭示, 并為數(shù)據(jù)融合層提供指導(dǎo)。目前, 針對不同數(shù)據(jù)有多種RDF 轉(zhuǎn)換方式, 文學(xué)類古籍資源數(shù)據(jù)的主要組成部分為文本數(shù)據(jù), 本體則具有較好的知識表示能力且有統(tǒng)一的描述標(biāo)準(zhǔn), 因此在此層面可用本體技術(shù)對數(shù)據(jù)層中的本地數(shù)據(jù)集進(jìn)行規(guī)范化描述,同時結(jié)合文學(xué)類古籍資源內(nèi)容結(jié)構(gòu)特征, 充分考慮現(xiàn)有本體復(fù)用的可能性, 通過owl 語言描述文學(xué)類古籍資源的對象及屬性, 實(shí)現(xiàn)實(shí)體的關(guān)聯(lián)、消歧、融合, 進(jìn)而生成本文所需的RDF 數(shù)據(jù), 為每個實(shí)體生成具有唯一標(biāo)識的URI,以實(shí)現(xiàn)HTTP 訪問,避免實(shí)體ID 屬性沖突的問題。對知識單元進(jìn)行有效組織形成知識網(wǎng)絡(luò), 完成對文學(xué)類古籍資源知識的規(guī)范化組織, 實(shí)現(xiàn)文學(xué)類古籍資源關(guān)聯(lián)組織模型的g8usNwXcwIDoYFoZ38oPgQ==構(gòu)建。

3) 數(shù)據(jù)融合層。鑒于Drupal 的兼容性與文學(xué)類古籍資源數(shù)據(jù)量大小, 本文選?。模颍酰穑幔?平臺實(shí)現(xiàn)文學(xué)類古籍資源的關(guān)聯(lián)數(shù)據(jù)發(fā)布, 因此數(shù)據(jù)融合層的主要任務(wù)是依托Drupal 的模塊化發(fā)布思維, 通過實(shí)體命名化、實(shí)體關(guān)聯(lián)化完成RDF 數(shù)據(jù)到Drupal 站點(diǎn)內(nèi)容的存儲與映射, 將本地數(shù)據(jù)集轉(zhuǎn)化為機(jī)器可理解的關(guān)聯(lián)數(shù)據(jù)集, 具體使用模塊如圖3 所示。Drupal 的核心要素為內(nèi)容類型、字段、節(jié)點(diǎn)3 種要素, 將3 種要素與文學(xué)類古籍本體模型中的類、屬性、實(shí)例一一對齊即可實(shí)現(xiàn)RDF 數(shù)據(jù)到Drupal 站點(diǎn)內(nèi)容的存儲與映射[32] 。因此, 首先需要構(gòu)建數(shù)據(jù)庫與關(guān)聯(lián)數(shù)據(jù)間的映射規(guī)則及關(guān)系,確保關(guān)聯(lián)組織模型在Drupal 平臺中內(nèi)容類型、字段和節(jié)點(diǎn)等元素與本體中的實(shí)體、關(guān)系、實(shí)體與實(shí)體、屬性、屬性值之間建立一一對應(yīng)關(guān)系, 提高文學(xué)類古籍資源的數(shù)據(jù)質(zhì)量和可用性。同時, 在該層面需以TimBerners-Lee 提出的關(guān)聯(lián)數(shù)據(jù)4 項基本原則為理論基礎(chǔ), 將數(shù)據(jù)網(wǎng)絡(luò)層中的知識元提取出來, 篩選出具有相似或相關(guān)關(guān)系的知識元后進(jìn)行分類, 存儲在一個知識單元中, 封裝為一個知識元庫, 將站點(diǎn)內(nèi)容轉(zhuǎn)為語義化數(shù)據(jù), 整合文學(xué)類古籍資源的知識元素并使其相互關(guān)聯(lián), 為用戶提供更豐富、更準(zhǔn)確的信息, 此關(guān)聯(lián)化發(fā)布方式也有助于提升文學(xué)類古籍資源的數(shù)據(jù)可訪問性和互操作性。

4) 應(yīng)用層。為向用戶提供更為清晰的知識語義脈絡(luò), 應(yīng)用層根據(jù)用戶對文學(xué)類古籍資源的知識需求, 提供以用戶需求為導(dǎo)向的知識服務(wù), 進(jìn)而提高文學(xué)類古籍資源知識服務(wù)平臺的利用效率, 拓展共享范圍。根據(jù)前文分析, 平臺應(yīng)為專業(yè)用戶提供更為細(xì)致和全面的文學(xué)類古籍資源知識服務(wù), 為普通用戶提供便捷和易于理解的文學(xué)類古籍資源知識服務(wù), 以直觀的方式呈現(xiàn)文學(xué)類古籍資源的內(nèi)容,使普通用戶能夠輕松獲得、理解并享受文學(xué)類古籍資源的知識。因此, 平臺在知識檢索方面需提供強(qiáng)大的搜索功能, 用戶可以使用多種關(guān)鍵詞進(jìn)行查詢;在知識獲取方面需從多維度對文學(xué)類古籍資源知識進(jìn)行呈現(xiàn), 輔助以圖片形式促進(jìn)理解, 并提供分類導(dǎo)航功能; 在知識推理方面需提供個性化的推薦功能, 幫助用戶發(fā)現(xiàn)新的知識; 在知識利用方面需支持用戶的互動和參與, 呈現(xiàn)文學(xué)類古籍知識的關(guān)聯(lián)關(guān)系和語義脈絡(luò), 幫助用戶更好地理解和利用知識。

5)表現(xiàn)層。表現(xiàn)層在關(guān)聯(lián)技術(shù)基礎(chǔ)上實(shí)現(xiàn)了文學(xué)類古籍資源的關(guān)聯(lián)發(fā)布, 滿足用戶的人機(jī)交互需求, 作為整個模型中極為重要的一環(huán), 表現(xiàn)層從知識檢索、知識獲取、知識推理和知識利用4 個方面實(shí)現(xiàn)了用戶對文學(xué)類古籍資源知識的檢索、概覽和利用。知識檢索方面, 通過語義關(guān)聯(lián), 平臺能夠提供更準(zhǔn)確、更相關(guān)的搜索結(jié)果, 幫助用戶快速找到所需的信息, 用戶可以通過關(guān)鍵詞、主題或其他查詢條件搜索相關(guān)的文學(xué)類古籍資源知識。在知識獲取方面, 表現(xiàn)層根據(jù)文學(xué)類古籍資源的內(nèi)容結(jié)構(gòu)設(shè)置相應(yīng)的大類, 以滿足用戶在海量信息中的分類導(dǎo)航需求。通過將文學(xué)類古籍資源按照人物、時間、地點(diǎn)、文章基本組成進(jìn)行分類, 用戶可以便捷地瀏覽并導(dǎo)航到感興趣的領(lǐng)域, 提供更好的信息發(fā)現(xiàn)和瀏覽體驗。在知識推理方面, 表現(xiàn)層根據(jù)用戶在文學(xué)類古籍資源知識服務(wù)平臺中的歷史記錄, 提供個性化的文章推送功能, 幫助用戶發(fā)現(xiàn)新的知識, 深入了解感興趣的古籍。在知識利用方面, 表現(xiàn)層利用數(shù)據(jù)網(wǎng)絡(luò)層和數(shù)據(jù)融合層形成的文學(xué)類古籍資源知識語義網(wǎng), 為用戶提供信息查詢服務(wù), 在一定程度對文學(xué)類古籍資源的內(nèi)容進(jìn)行全面、具體的呈現(xiàn)。通過信息查詢、個性化推送、分類導(dǎo)航和概念匹配等功能, 用戶可以更好地利用該平臺獲取文學(xué)類古籍資源的知識, 滿足用戶的需求, 促進(jìn)文學(xué)類古籍資源的雙向、高效利用。

該模型中,數(shù)據(jù)層從不同數(shù)據(jù)源借助OCR、GPT等技術(shù),獲取數(shù)據(jù)為關(guān)聯(lián)數(shù)據(jù)的發(fā)布提供支撐, 數(shù)據(jù)網(wǎng)絡(luò)層構(gòu)建關(guān)聯(lián)組織模型實(shí)現(xiàn)知識的語義化鏈接,數(shù)據(jù)融合層將本地數(shù)據(jù)集轉(zhuǎn)化為機(jī)器可理解的關(guān)聯(lián)數(shù)據(jù)集, 應(yīng)用層以用戶需求為導(dǎo)向設(shè)計關(guān)聯(lián)數(shù)據(jù)發(fā)布頁面,表現(xiàn)層則呈現(xiàn)最終的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺, 前一層面為后一層面的基礎(chǔ), 依次構(gòu)建完5 個層面后可將分散在文學(xué)類古籍資源中的知識進(jìn)行收集、抽取與有效組織, 以簡單有效且系統(tǒng)化、關(guān)聯(lián)化的方式呈現(xiàn)給用戶。

4融合GPT 技術(shù)和用戶需求的文學(xué)類古籍資源關(guān)聯(lián)發(fā)布的實(shí)現(xiàn)

《聊齋志異》作為中國文言短篇小說的巔峰之作, 是博采歷代文言小說之精義與史傳文學(xué)之菁華的曠世佳作[33],其本體類及屬性涵蓋范圍廣,包含科舉、愛情、復(fù)仇、民俗、迷信、鬼神等眾多題材,同時也涉及多個人物及語言, 選取該古籍作為實(shí)例構(gòu)建的本體模型涉及類目眾多, 具有普適性特點(diǎn),其知識發(fā)布及可視化呈現(xiàn)也可凸顯文學(xué)類古籍包含的地域與文化屬性。《聊齋志異》中的科舉類文章具有較高的代表意義, 它們是蒲松齡生活經(jīng)歷的折射, 也是他情感輸出的重要媒介[28] ?!读凝S志異·司文郎》在以科舉為題材的作品中具有典型的意義和價值[34] , 主人公王平子的青年才俊形象是作者原型在故事中的投射, 其科考經(jīng)歷更是“蒲松齡的化身”[35] 。在文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布過程中, 《聊齋志異·司文郎》不僅涉面廣, 內(nèi)涵也十分豐富[36] , 涵蓋本文所構(gòu)建本體模型的基本類目,實(shí)體屬性較多, 可通過關(guān)聯(lián)數(shù)據(jù)的可視化呈現(xiàn)讓用戶對該篇目有大致的了解, 其作為文學(xué)類古籍的代表性較好, 因此選取《聊齋志異·司文郎》對本文提出的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型進(jìn)行實(shí)證研究。

4.1發(fā)布模型數(shù)據(jù)層構(gòu)建——文學(xué)類古籍資源數(shù)據(jù)的采集和保存

目前《聊齋志異》文言文版與白話文版的版本較多, 為保證數(shù)據(jù)來源的質(zhì)量, 本文結(jié)合蒲松齡研究院相關(guān)研究專家的意見, 研究商討后最終確定本文數(shù)據(jù)主要來源于北京華夏出版社2012 年版蒲松齡(清)所寫的《聊齋志異》、上海古籍出版社2012 年版丁如明等翻譯的《聊齋志異全譯》、上海古籍出版社2011 年版(清) 蒲松齡、張友鶴校的《聊齋志異會校會注會評本》等權(quán)威書籍。經(jīng)采集后, 在文本識別抽取任務(wù)中ChatGPT 輸出69 條數(shù)據(jù), 經(jīng)人工核對后保留53 條數(shù)據(jù), 準(zhǔn)確度為768%,ChatGPT 在人物、地點(diǎn)、時間識別抽取任務(wù)中表現(xiàn)出色, 幾乎可精準(zhǔn)識別輸入文字中的人物、地點(diǎn)、時間實(shí)體并進(jìn)行相關(guān)三元組抽取, 但典故的識別與抽取效果不佳, 僅識別抽取到9 條數(shù)據(jù), 與通過深度學(xué)習(xí)算法進(jìn)行抽取操作相比耗費(fèi)時間大大減少,抽取效率大幅提升。與相關(guān)文獻(xiàn)數(shù)據(jù)合并、校對后,實(shí)例《聊齋志異·司文郎》最終獲得149 條數(shù)據(jù),包括題目數(shù)據(jù)1 條、文言版數(shù)據(jù)1 條、白話版數(shù)據(jù)1 條、體裁數(shù)據(jù)1 條、題材數(shù)據(jù)3 條、地點(diǎn)數(shù)據(jù)9條、人物數(shù)據(jù)19 條、職業(yè)數(shù)據(jù)1 條、任職事件數(shù)據(jù)3 條、書籍?dāng)?shù)據(jù)2 條、典故數(shù)據(jù)29 條(文學(xué)典故22 條、歷史典故4 條、神話典故3 條)、相關(guān)文獻(xiàn)數(shù)據(jù)77 條。將采集到的數(shù)據(jù)信息錄為CSV 格式,與采集到的關(guān)聯(lián)數(shù)據(jù)庫URI 同時保存到本地數(shù)據(jù)集, 完成數(shù)據(jù)層的構(gòu)建, 為后續(xù)關(guān)聯(lián)數(shù)據(jù)發(fā)布提供數(shù)據(jù)支撐。

4.2發(fā)布模型的數(shù)據(jù)網(wǎng)絡(luò)層構(gòu)建——文學(xué)類古籍資源關(guān)聯(lián)組織模型設(shè)計

數(shù)據(jù)網(wǎng)絡(luò)層的核心為文學(xué)類古籍關(guān)聯(lián)組織模型的設(shè)計與構(gòu)建, 從而使數(shù)據(jù)層中的數(shù)據(jù)轉(zhuǎn)為機(jī)器可識別的RDF 形式。目前本體構(gòu)建常用方法有骨架法、七步法、TOVE 法等, 本文主要參照七步法構(gòu)建文學(xué)類古籍資源本體模型, 以本體復(fù)用與自建詞表相結(jié)合的方式設(shè)計本體模型框架, 提高其描述能力和精確度, 進(jìn)而描述文學(xué)類古籍資源概念、概念間的關(guān)系[37] 。本文復(fù)用的本體有都柏林核心元素集(Dublin Core Element Set, DC)[38] 、人物社交網(wǎng)絡(luò)本體詞表FOAF[39] 、GeoNames[40] 、上海圖書館開放數(shù)據(jù)平臺等。其中, 上海圖書館開放數(shù)據(jù)平臺中的中國歷史紀(jì)年表對我國歷史紀(jì)年的相關(guān)屬性進(jìn)行較為詳細(xì)的描述與規(guī)范, 平臺中有成熟的古籍本體表, 因此本文主要在此本體表基礎(chǔ)上進(jìn)行拓展, 參照前人處理方式, 將中國歷史紀(jì)年中的朝代與公元紀(jì)年中的具體時間節(jié)點(diǎn)視為包含與被包含關(guān)系[41] ,如“清” 包含“1687”。根據(jù)文學(xué)類古籍資源實(shí)體及屬性, 構(gòu)建LBR(Literature Books Resource)詞表對實(shí)體屬性描述進(jìn)行補(bǔ)充, 結(jié)合相關(guān)專家意見進(jìn)行調(diào)整后, 最終確定4 個類與40 個屬性, 數(shù)據(jù)屬性與對象屬性如表1、表2 所示。

對文學(xué)類古籍資源中的實(shí)體設(shè)定符合自身特點(diǎn)的屬性后, 借助Protégé 軟件進(jìn)行工程化建模, 形成標(biāo)識為http:/ / www.w3.org/2002/07/ owl#的LBR關(guān)聯(lián)數(shù)據(jù)庫URI, 完成對文學(xué)類古籍資源知識的細(xì)粒度組織, 也是本文對于文學(xué)古籍資源數(shù)字化研究的創(chuàng)新點(diǎn)與特色。同時, 梳理文學(xué)類古籍知識間的邏輯結(jié)構(gòu), 進(jìn)一步細(xì)化各知識單元的內(nèi)在關(guān)聯(lián), 最終構(gòu)建了文學(xué)類古籍資源關(guān)聯(lián)組織模型, 該模型涵蓋了大部分文學(xué)類古籍資源中的實(shí)體及屬性要素,基本可以描述文學(xué)類古籍資源的共同屬性, 具有一定的通用性與普適性, 如圖5所示。

4.3發(fā)布模型的數(shù)據(jù)融合層構(gòu)建——文學(xué)類古籍關(guān)聯(lián)數(shù)據(jù)的發(fā)布

為實(shí)現(xiàn)文學(xué)類古籍知識的可查找、可訪問、可交互與可再用(FAIR 原則)的目標(biāo)[15] , 本文主要使用CCK 模塊、evoc 模塊與RDFUI 模塊完成數(shù)據(jù)融合層的構(gòu)建。首先借助CCK 模塊新建“人物” “時間” “地點(diǎn)” “文章” 4 個內(nèi)容類型并設(shè)置相應(yīng)的字段。以時間內(nèi)容類型為例, 添加“field_hasbegin?ning” “field_hasend” 等字段方便后續(xù)完成中國歷史紀(jì)年與中國公元紀(jì)年的映射。其次, 根據(jù)文學(xué)類古籍資源關(guān)聯(lián)組織模型中的數(shù)據(jù)屬性與對象屬性,借助Node Reference 模塊設(shè)置節(jié)點(diǎn)關(guān)聯(lián)字段, 其余字段類型根據(jù)其特點(diǎn)進(jìn)行一一設(shè)置。Drupal 站點(diǎn)中已內(nèi)化了content、dc、foaf 等元數(shù)據(jù)詞匯集, 因此在RDF 數(shù)據(jù)映射過程中只需通過evoc 模塊導(dǎo)入SHL、GeoNames、LBR 等本體URI,根據(jù)文學(xué)類古籍資源關(guān)聯(lián)組織模型, 通過RDFUI 模塊建立平臺內(nèi)部屬性與外部詞表的映射關(guān)系, 將RDF 數(shù)據(jù)全部映射到Druapl 站點(diǎn)并存儲。

將《聊齋志異·司文郎》本地數(shù)據(jù)集導(dǎo)入平臺后, 形成如圖6 所示文學(xué)類古籍資源關(guān)聯(lián)化實(shí)例圖。從圖6 可以看出, 人物、時間、地點(diǎn)、文章部分實(shí)現(xiàn)了一定程度上的互聯(lián)互通, 其內(nèi)部實(shí)體也存在相互間的關(guān)聯(lián)性, 通過對這4 個部分的數(shù)據(jù)信息整合,基本可以展現(xiàn)出一篇故事中的資源信息, 可對文學(xué)類古籍資源知識進(jìn)行全面、具體的呈現(xiàn)。

4.4發(fā)布模型的應(yīng)用層與表現(xiàn)層構(gòu)建——文學(xué)類古籍關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺的呈現(xiàn)

根據(jù)圖6所示的關(guān)聯(lián)化實(shí)例, 結(jié)合應(yīng)用層對專業(yè)用戶與普通用戶的文學(xué)類古籍資源知識需求分析結(jié)果, 在關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺頁面中添加搜索框、分類目錄等模塊完成表現(xiàn)層的構(gòu)建, 實(shí)現(xiàn)實(shí)例化關(guān)聯(lián)數(shù)據(jù)發(fā)布平臺的呈現(xiàn)。

1) 在知識數(shù)據(jù)展示方面,平臺頁面中可直觀瀏覽此篇文章中的題目、版本等屬性信息, 將文言文與白話文數(shù)據(jù)同一頁面展現(xiàn), 輔助以相關(guān)文章、相關(guān)人物等知識節(jié)點(diǎn)鏈接, 減少普通用戶閱讀障礙,快速概覽此篇文章包含知識。

2) 在知識關(guān)聯(lián)化呈現(xiàn)方面, 用戶可以通過點(diǎn)擊某一頁面節(jié)點(diǎn)跳轉(zhuǎn)至相關(guān)頁面, 瀏覽此節(jié)點(diǎn)信息的相關(guān)知識, 如在文章內(nèi)容類型“司文郎” 的可視化展示頁面點(diǎn)擊地點(diǎn)“南京” 可跳轉(zhuǎn)至地點(diǎn)內(nèi)容類型“南京” 的可視化展示頁面, 在該頁面中展示南京的現(xiàn)名、古名等屬性信息, 同時也可直觀看到與“南京” 相關(guān)的人物與文章, 滿足專業(yè)用戶系統(tǒng)化獲取知識需要的同時方便普通用戶利用較短時間了解、獲取某一特定知識節(jié)點(diǎn)的知識網(wǎng)絡(luò)。

3) 在知識檢索方面, 平臺右側(cè)設(shè)置檢索欄與“人物”“地點(diǎn)”“文章”“時間”4個基本類目模塊, 專業(yè)用戶與普通用戶均可根據(jù)自身需求, 從某一特定屬性信息出發(fā)了解與該屬性信息相關(guān)的所有文學(xué)類古籍知識信息, 通過點(diǎn)擊任意基本類目模塊訪問該類目下的所有實(shí)體目錄, 可迅速掌握某一基本類目概貌, 滿足用戶的知識查詢需求。因網(wǎng)頁在電腦端呈現(xiàn)大小有限, 本文截取部分知識服務(wù)平臺內(nèi)容, 可視化展示效果如圖7、圖8 所示。

通過此實(shí)例, 平臺在一定程度上實(shí)現(xiàn)了對文學(xué)類古籍資源知識的全面、直觀呈現(xiàn), 揭示文學(xué)類古籍資源知識內(nèi)涵的同時, 實(shí)現(xiàn)了各實(shí)體屬性信息之間的關(guān)聯(lián)互訪性, 驗證了本文提出的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型的可行性, 完成了基于關(guān)聯(lián)數(shù)據(jù)技術(shù)對文學(xué)類古籍資源關(guān)聯(lián)組織與數(shù)字化實(shí)踐研究的實(shí)驗性探索, 為文學(xué)類古籍資源知識發(fā)現(xiàn)提供了潛在關(guān)聯(lián)關(guān)系發(fā)現(xiàn)、知識網(wǎng)絡(luò)化表達(dá)研究的新視角。

5研究結(jié)論

本文研究結(jié)果表明,以文學(xué)類古籍關(guān)聯(lián)組織模型為基礎(chǔ), 以GPT 技術(shù)、用戶需求分析與關(guān)聯(lián)數(shù)據(jù)技術(shù)為支撐進(jìn)行關(guān)聯(lián)數(shù)據(jù)發(fā)布的思路, 能夠滿足文學(xué)類古籍資源知識服務(wù)平臺的構(gòu)建需求, 能夠在一定程度上支撐和引導(dǎo)文學(xué)類古籍資源向語義化、實(shí)用化方向進(jìn)行組織。

本文主要有3個創(chuàng)新點(diǎn): 一是選取文學(xué)類古籍資源作為研究對象, 運(yùn)用大語言模型結(jié)合其結(jié)構(gòu)要素特征對其數(shù)字化實(shí)踐研究做出探索, 通過實(shí)例進(jìn)行驗證, 實(shí)現(xiàn)文學(xué)類古籍資源的關(guān)聯(lián)組織與關(guān)聯(lián)發(fā)布。二是改進(jìn)、完善了現(xiàn)有的關(guān)聯(lián)發(fā)布框架, 提出包含數(shù)據(jù)層、數(shù)據(jù)網(wǎng)絡(luò)層、數(shù)據(jù)融合層、應(yīng)用層以及表現(xiàn)層5個層面的文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型, 設(shè)計包含4 個基本類目的文學(xué)類古籍關(guān)聯(lián)組織模型, 增大文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布模型的適配性。三是提出將GPT 技術(shù)、用戶需求分析與關(guān)聯(lián)數(shù)據(jù)技術(shù)相結(jié)合以提高文學(xué)類古籍資源關(guān)聯(lián)數(shù)據(jù)發(fā)布效果, 使發(fā)布的實(shí)例平臺更貼合實(shí)際需求,促進(jìn)應(yīng)用落地。與已有的關(guān)聯(lián)數(shù)據(jù)發(fā)布成果相比,本模型在數(shù)據(jù)整合上更全面, 在跨文本關(guān)聯(lián)、多維關(guān)聯(lián)上更完整, 實(shí)用性更強(qiáng)。此外, 從多維度劃分文學(xué)類古籍資源知識對其他古籍知識聚合與數(shù)字化實(shí)踐有一定啟發(fā)意義, 能夠促進(jìn)古籍的數(shù)字化服務(wù)模式, 滿足大眾對古籍文化的知識需求。

本文研究局限性和不足在于: 第一,Drupal平臺數(shù)據(jù)量較大時需借助其他軟件和工具實(shí)現(xiàn)自動連接, 且選擇的存儲模塊ARC2適用于小型的數(shù)據(jù)庫,若數(shù)據(jù)量偏大且數(shù)據(jù)類型復(fù)雜時, 需選用更為有效的轉(zhuǎn)換工具。第二, 本文的數(shù)據(jù)量偏小,以個案《聊齋志異·司文郎》進(jìn)行實(shí)證研究, 數(shù)據(jù)采集范圍有待進(jìn)一步擴(kuò)大,以實(shí)現(xiàn)從個案向全案拓展。后續(xù)研究將對文學(xué)類古籍資源內(nèi)部特征進(jìn)行深入挖掘,引入技術(shù)驅(qū)動、人機(jī)結(jié)合的數(shù)據(jù)處理機(jī)制,多維度、細(xì)粒度地挖掘文學(xué)古籍人文性知識, 探索文學(xué)類古籍資源的數(shù)字化應(yīng)用模式。

钟祥市| 特克斯县| 莱阳市| 扬中市| 河东区| 玉溪市| 沛县| 白水县| 永定县| 柞水县| 磴口县| 新泰市| 师宗县| 贺兰县| 成安县| 宝坻区| 同江市| 田阳县| 济源市| 云阳县| 衡山县| 尤溪县| 广饶县| 泽州县| 安平县| 德格县| 聂拉木县| 普安县| 阳东县| 家居| 浦城县| 巴林右旗| 开江县| 馆陶县| 叙永县| 大荔县| 台南县| 阿拉善左旗| 咸阳市| 乌拉特中旗| 苍南县|