王梓懿 陳晨 王湘華
摘要:[目的/意義]從地方名人文獻(xiàn)資源建設(shè)現(xiàn)狀出發(fā),通過數(shù)字人文視角探究地方名人多源異構(gòu)資源知識(shí)組織與關(guān)聯(lián)方案,為GLAM機(jī)構(gòu)開展地方人物知識(shí)管理與服務(wù)提供借鑒。[方法/過程]參照國內(nèi)外相關(guān)名人資源開發(fā)思路,提出一套包含異構(gòu)文獻(xiàn)資源內(nèi)容整理、地方名人資源本體構(gòu)建、實(shí)體與實(shí)體關(guān)系融合和地方名人資源知識(shí)應(yīng)用等四步驟的地方名人資源知識(shí)組織方案,并結(jié)合地方名人文獻(xiàn)資源特征與人物資源描述框架自建了地方名人文獻(xiàn)本體模型CLO。[結(jié)果/結(jié)論]以湘西詩人田名瑜及其手稿《苦學(xué)齋日記》為依托,按照組織步驟并運(yùn)用Protégé工具實(shí)現(xiàn)地方名人及其日記作品的知識(shí)組織與關(guān)聯(lián)揭示,驗(yàn)證此套組織方案的可行性與可操作性,在拓寬地方文獻(xiàn)開發(fā)視角的同時(shí)也為民族地區(qū)名人知識(shí)庫的搭建與特色人文服務(wù)的開展提供借鑒。
關(guān)鍵詞:數(shù)字人文? ? 名人文獻(xiàn)? ? 知識(shí)組織? ? 本體構(gòu)建? ? Protégé
分類號(hào):G254
引用格式:王梓懿, 陳晨, 王湘華. 數(shù)字人文視角下地方名人文獻(xiàn)資源的知識(shí)組織與關(guān)聯(lián)研究[J/OL]. 知識(shí)管理論壇, 2022, 7(5): 521-538[引用日期]. http://www.kmf.ac.cn/p/312/.
1? 引言
如今,數(shù)字人文作為智能技術(shù)與人文學(xué)科的關(guān)鍵樞紐,其涉及的自然語言處理、時(shí)空信息揭示、多維知識(shí)共現(xiàn)等知識(shí)組織與發(fā)現(xiàn)手段能夠有效推動(dòng)新文科建設(shè)進(jìn)程,其前沿應(yīng)用實(shí)例也一直是各領(lǐng)域資源開發(fā)機(jī)構(gòu)與相關(guān)學(xué)者關(guān)注的要點(diǎn)[1]。而地方名人文獻(xiàn)資源作為特定時(shí)期與地域文化、藝術(shù)、經(jīng)濟(jì)與政治演化的文字載體,既是解讀地域文人思潮、探究地方歷史變革與塑造地方文化形象的重要資料,也是揭示地方社會(huì)生活演變、特色民俗技藝、名人交際網(wǎng)絡(luò)、經(jīng)濟(jì)發(fā)展脈絡(luò)、政治交替軌跡和地緣變動(dòng)局勢(shì)的記憶寶庫[2]。當(dāng)前,在數(shù)字人文技術(shù)的加持下許多隱藏的珍貴資源得以重組,隨著“家譜知識(shí)服務(wù)平臺(tái)”“盛宣懷檔案知識(shí)庫”“李政道數(shù)字資源中心”“老科學(xué)家學(xué)術(shù)成長資料庫”等開放平臺(tái)逐漸增多,許多被忽視的名人資源將逐漸被重視。但是,反觀湘西土家族苗族自治州等民族地區(qū)名人文獻(xiàn)資源的開發(fā)現(xiàn)狀,因受限于人力、物力、財(cái)力與影響力等多方因素,其文獻(xiàn)資料開發(fā)依舊停留在局部整理階段,所取得的成果數(shù)量較少且形式單一,需要借鑒數(shù)字人文研究范式來推動(dòng)其成果產(chǎn)出與領(lǐng)域發(fā)展。基于此,本文參照國內(nèi)外相關(guān)名人資源開發(fā)思路,結(jié)合地方名人文獻(xiàn)資源特征,參考中國歷代人物傳記資料庫(China Biographical Database,CBDB)和歐洲共享科研信息協(xié)議(Common-European Research Information Format,CERIF)等知識(shí)框架提出一套可處理多源異構(gòu)資源及各粒度知識(shí)的組織方案,并以湘西詩人田名瑜檔案及其作品為依托,結(jié)合ROST、Protégé等工具來完成田名瑜及其未刊手稿《苦學(xué)齋日記》的知識(shí)組織,并建立“人物+文獻(xiàn)”的知識(shí)組織與關(guān)聯(lián)框架,為民族地區(qū)GLAM(Galleries, Libraries, Archives and Museums)機(jī)構(gòu)名人知識(shí)庫構(gòu)建與特色人文服務(wù)的開展提供依據(jù)。
2? 數(shù)字人文視域下人物文獻(xiàn)資源相關(guān)研究概述
通過Web of Science和CNKI數(shù)據(jù)庫可整理與歸納國內(nèi)外數(shù)字人文領(lǐng)域以人物及其作品資源為研究對(duì)象而取得的成果,按照研究特征可劃分為下述4個(gè)方面:
2.1? 人物資源再整理
謝嫚按照古代、當(dāng)代和近代劃分及自建元數(shù)據(jù)方案將女性人物在各時(shí)代教育、文化、藝術(shù)、經(jīng)濟(jì)與科技各領(lǐng)域文獻(xiàn)資料收納入專題數(shù)據(jù)庫,為女性人物個(gè)性化知識(shí)服務(wù)提供了基礎(chǔ)[3];劉超林等探索了語言模型和條件隨機(jī)場(chǎng)條件下歷史事件研究的命名實(shí)體識(shí)別精度,結(jié)合220多卷《地方志》資源結(jié)構(gòu)挖掘了文獻(xiàn)資料中的核心知識(shí),以挖掘的各朝代地方政府任職的官員信息為基礎(chǔ)進(jìn)行了算法準(zhǔn)確度評(píng)估[4];趙宇飛以國內(nèi)外常用知識(shí)庫人物實(shí)體描述規(guī)范為基礎(chǔ),提出了符合中文名稱信息規(guī)范的人物知識(shí)聚合框架,為細(xì)化人物特征揭示與標(biāo)注和異源知識(shí)鏈接與共享提供基礎(chǔ)[5];韓國學(xué)者J. W. Kim 等重新整理了本國新教傳教士1880年至1942年通訊信件并實(shí)現(xiàn)了文本人格與文本個(gè)性的揭示[6];阿根廷學(xué)者N. Zorrilla等以早期女性哲學(xué)家所留作品與手稿資源為切入點(diǎn),通過文本內(nèi)容分析剖析了早期女性哲學(xué)家被排除在經(jīng)典之外的各類因素,并反思了該現(xiàn)象出現(xiàn)的歷史緣由與政治背景[7]。
2.2? 特藏資源分享與鏈接
俄羅斯學(xué)者Y. M. Lupanova等結(jié)合羅蒙諾索夫現(xiàn)有“記憶之地”及“回憶人物”特色資源庫建設(shè)現(xiàn)狀,引入個(gè)人日記、手稿與檔案等史料資源來添補(bǔ)人物完整形象,并探明了異源數(shù)據(jù)參與人物形象建設(shè)能夠有效提升學(xué)生群體關(guān)注名人生活與經(jīng)歷的興趣值,在拓展教育視角的同時(shí)也能達(dá)到“英雄去偶像化”的目的[8];美國學(xué)者H. Kun等通過異構(gòu)數(shù)據(jù)源、字符抽取技術(shù)、WEB應(yīng)用程序與智能操作門戶重塑了“精煉羅馬硬幣中的羅馬歷史人物”主題資源庫,并以此構(gòu)建了一套較為完整的數(shù)字文化遺產(chǎn)服務(wù)系統(tǒng)[9];俄羅斯學(xué)者A. Bonch-Osmolovskaya等以托爾斯泰90卷重要印刷版文獻(xiàn)為基礎(chǔ),分別對(duì)作品、信件和日記3類文本進(jìn)行了元數(shù)據(jù)標(biāo)記、字母標(biāo)記與日記標(biāo)記,從而實(shí)現(xiàn)了數(shù)字門戶與語義圖索引,并參照DBpedia等開放鏈接數(shù)據(jù)庫搭建了人物知識(shí)庫[10];陳志明等提出了一個(gè)支持中國歷史研究的中國古籍?dāng)?shù)字人文研究平臺(tái)(CABDHRP),支持自動(dòng)文本注釋(ATAS)和探索角色社交網(wǎng)絡(luò)關(guān)系(CSNRMT)。平臺(tái)采用開源機(jī)構(gòu)知識(shí)庫DSpace作為數(shù)字檔案系統(tǒng)可實(shí)現(xiàn)資源歸檔和圖像與全文掃描,通過JavaScript框架可實(shí)現(xiàn)對(duì)不同數(shù)據(jù)庫(如CBDB、TGAZ)以及古代文本解釋數(shù)據(jù)源的鏈接,再結(jié)合Neo4j等非關(guān)系數(shù)據(jù)庫可實(shí)現(xiàn)人物交互知識(shí)檢索與圖譜呈現(xiàn)[11]。
2.3? 人物社會(huì)網(wǎng)絡(luò)與空間分布
黃俊杰等提出了由符號(hào)圖模型和分組算法組成的人物研究框架,并結(jié)合中國歷史人物傳記資料庫(CBDB)所形成的人物社會(huì)網(wǎng)絡(luò)架構(gòu)驗(yàn)證了其框架的有效性與實(shí)用性[12];韓國學(xué)者H. H. Ji等圍繞朝鮮學(xué)者徐巨正的親屬關(guān)系和政治活動(dòng)開展人物研究,通過Bubbles等網(wǎng)絡(luò)可視化軟件揭示了影響歷史人物關(guān)系形成的影響因素,包括國家事務(wù)、王室關(guān)系、外交局勢(shì)、政治背景和地域習(xí)俗等[13];韓國學(xué)者S. Bae應(yīng)用CBDB資料庫、QGIS、Pajek、MARKUS和DocuSky等數(shù)字工具生成的時(shí)空?qǐng)D與系譜樹調(diào)研了南宋時(shí)期科舉狀況與演變,并結(jié)合陸九淵、朱熹、呂祖謙3人經(jīng)歷與交際面梳理了南宋史學(xué)核心人物的社會(huì)網(wǎng)絡(luò)關(guān)系[14];徐永明以明代戲曲家、文學(xué)家湯顯祖為例,參照文獻(xiàn)資料與QGIS、CHGIS、ARCGIS等地理信息系統(tǒng)可視化了其游歷軌跡,再結(jié)合CBDB資料庫與Gephi軟件揭示了湯顯祖、屠隆和汪道昆3人的社會(huì)關(guān)系[15]。此外,還有學(xué)者通過運(yùn)用CBDB資料庫與CCTS(中華文明時(shí)空基礎(chǔ)框架)發(fā)掘宋代官僚家族時(shí)空演化的研究[16];整理了宋代學(xué)者師承關(guān)系并完成人物網(wǎng)系的動(dòng)態(tài)揭示[17];結(jié)合家譜梳理了明清進(jìn)士家族人際交互譜系[18];以《長春縣志·長春職官考釋表》為基礎(chǔ)構(gòu)建職官領(lǐng)域本體來揭示清代仕人間的細(xì)粒度知識(shí)關(guān)聯(lián)[19];結(jié)合《全唐詩》數(shù)字文本探究貶謫詩人社會(huì)關(guān)系網(wǎng)絡(luò)與時(shí)空演變規(guī)律[20]。同時(shí),宋雪雁等也通過Gephi、QGIS、NLPIR和LTP等數(shù)字人文工具開展了人名、地名、情感詞等實(shí)體要素的抽取、鏈接與可視化,并完成了王世杰日記所載人物網(wǎng)絡(luò)關(guān)系揭示、熱點(diǎn)事件空間呈現(xiàn)與情感正負(fù)傾向辨析等研究[21]。
2.4? 人物資源組織與關(guān)聯(lián)
劉寧靜等參照FOAF框架、CBDB架構(gòu)、上海圖書館名人手稿模型與CERIF資源提出了學(xué)術(shù)名人知識(shí)組織框架,并結(jié)合紙質(zhì)文獻(xiàn)、實(shí)物與聲像資料實(shí)現(xiàn)了李政道數(shù)字資源中心的初期搭建[22];李賀等通過觸發(fā)詞識(shí)別與典型事件篩選,結(jié)合歷史事件構(gòu)成元素及參考現(xiàn)有本體復(fù)用概念與屬性設(shè)計(jì)了一套基于民國歷史事件的本體模型,并依據(jù)民國歷史數(shù)據(jù)開展事件抽取、再組織和展示微觀社會(huì)以驗(yàn)證此套模型的實(shí)效[23];姚天泓等以張學(xué)良史料資源本體框架為基礎(chǔ),引入CIDOC-CRM概念模型來篩選可復(fù)用的基礎(chǔ)類與核心屬性,通過對(duì)信件資源進(jìn)行語義標(biāo)注與關(guān)系揭示實(shí)現(xiàn)了“事件—人物—時(shí)空”知識(shí)共現(xiàn),借此提出了一套基于語義技術(shù)的知識(shí)組織方案[24];韋景竹等以孔子、老子、墨子這3位百家爭(zhēng)鳴的核心人物的知識(shí)圖譜創(chuàng)建為例,探討了知識(shí)圖譜在數(shù)字人文學(xué)科知識(shí)組織中的應(yīng)用價(jià)值和實(shí)現(xiàn)途徑[25],而英國學(xué)者A. D. Cheok等通過探索人與計(jì)算機(jī)之間的自然對(duì)話,將自然語言處理技術(shù)與機(jī)器算法應(yīng)用于孔子禮教知識(shí)和教學(xué)建模,并以此開發(fā)了一種允許以虛擬和現(xiàn)實(shí)交互方式體驗(yàn)孔子教導(dǎo)的知識(shí)組織系統(tǒng)。該系統(tǒng)能夠讓用戶直觀認(rèn)識(shí)各種非物質(zhì)遺產(chǎn)全貌,也可通過交互對(duì)話測(cè)量人物的哲學(xué)意圖,并生成視角較為新穎的內(nèi)容與答案[26];牛力等依據(jù)名人檔案資源記憶單元設(shè)計(jì)了一套多粒度知識(shí)組織方案,并通過重構(gòu)實(shí)體揭示了檔案所記錄的人物信息與事例背后的人物思想、社會(huì)經(jīng)歷與家庭生活等,印證了領(lǐng)域本體模型在全局發(fā)現(xiàn)與知識(shí)挖掘等方面的價(jià)值[27];張?jiān)浦械纫訡BDB人物資料庫架構(gòu)和上海圖書館人名資料、古籍資源與地方志文獻(xiàn)為基礎(chǔ),參照詩詞網(wǎng)站與人物年譜完善了歷史文化名人游學(xué)足跡知識(shí)組織框架,再集合關(guān)系數(shù)據(jù)庫系統(tǒng)、Navicat管理系統(tǒng)、D2R轉(zhuǎn)換工具、LODLIVE可視化軟件分別進(jìn)行數(shù)據(jù)存儲(chǔ)、轉(zhuǎn)化發(fā)布、瀏覽查詢與圖譜構(gòu)建實(shí)現(xiàn)歷史名人游學(xué)足跡的知識(shí)發(fā)現(xiàn)[28]。
可以看出,國內(nèi)外針對(duì)名人文獻(xiàn)資源相關(guān)研究較為集中于上述4個(gè)方面,而開展名人文獻(xiàn)資源知識(shí)組織方案研究的成果較少,圍繞地方名人與其作品資源的知識(shí)組織研究還未出現(xiàn),更缺乏相應(yīng)的知識(shí)組織方案與可復(fù)用的領(lǐng)域本體模型?;诖?,本文通過地方資源開發(fā)現(xiàn)狀、名人文獻(xiàn)資源特征與人物知識(shí)框架等設(shè)計(jì)了一套能揭示地方名人多源異構(gòu)資源各粒度知識(shí)的組織方案,以期在實(shí)現(xiàn)文獻(xiàn)知識(shí)“顯隱”印證的同時(shí)為地方GLAM機(jī)構(gòu)開展人物知識(shí)管理與服務(wù)提供借鑒。
3? 地方名人文獻(xiàn)資源知識(shí)組織與關(guān)聯(lián)方案設(shè)計(jì)與分析
自然語言處理和本體模型構(gòu)建能將非結(jié)構(gòu)化文本加工為結(jié)構(gòu)化知識(shí),從而實(shí)現(xiàn)知識(shí)關(guān)聯(lián)和資源共享。由于地方名人文獻(xiàn)資源所涉及的手寫與印刷資源需要人工???,所以,地方名人文獻(xiàn)資源組織方案應(yīng)是一種人機(jī)互助形式,需囊括下述幾項(xiàng)功能:①可以參照凡例設(shè)置(字體、排列、現(xiàn)代標(biāo)點(diǎn)等)完成語料主題甄別和內(nèi)容修正; ②可以運(yùn)用自然語言技術(shù)實(shí)現(xiàn)名人文獻(xiàn)知識(shí)(人物、地點(diǎn)、事件、行為、情感等)的實(shí)體識(shí)別和關(guān)系抽?。虎劭梢酝ㄟ^自建本體模型(人物本體、文獻(xiàn)本體等)規(guī)范領(lǐng)域基礎(chǔ)類和屬性間關(guān)系;④可以結(jié)合人文圖譜軟件(Gephi、QGIS、Cytoscape等)揭示不同粒度知識(shí)網(wǎng)絡(luò);⑤可以利用圖數(shù)據(jù)庫(Neo4j等)存儲(chǔ)和查詢互聯(lián)知識(shí);⑥可以應(yīng)用圖譜呈現(xiàn)的知識(shí)粒度值辨別組織結(jié)果優(yōu)劣并進(jìn)行結(jié)構(gòu)調(diào)整,以此為地方GLAM機(jī)構(gòu)開展人物導(dǎo)航、語義檢索、關(guān)聯(lián)推理和人文發(fā)現(xiàn)等知識(shí)服務(wù)奠定基礎(chǔ)。具體設(shè)計(jì)思路可見圖1,下面將對(duì)關(guān)鍵步驟進(jìn)行概況分析。
圖1? 地方名人文獻(xiàn)資源知識(shí)組織與關(guān)聯(lián)方案
3.1? 異構(gòu)文獻(xiàn)資源內(nèi)容整理
依據(jù)相近體裁出版物凡例設(shè)置的規(guī)則對(duì)名人檔案與手稿作品等資料進(jìn)行整理。在文本數(shù)字化前,由于地方名人文獻(xiàn)中存在大量的手稿且部分已出現(xiàn)破損,在資源整理前需對(duì)破損手稿進(jìn)行原生性保護(hù)以確保后續(xù)文本掃描工作的順利進(jìn)行。在文本數(shù)字化過程中,由于手稿字體、圖畫和表格等部分存在明顯的個(gè)人特征,需通過“OCR+人?!蹦J捷o助辨別文本主題和修正文檔內(nèi)容,以此形成較規(guī)范、可識(shí)別和可增添的電子文檔。在文本數(shù)字化后,按照“NLP+人?!蹦J竭\(yùn)用LTP平臺(tái)、NLPIR與ROST等自然語言處理工具輔助研究者完成對(duì)文獻(xiàn)實(shí)體識(shí)別與關(guān)系抽取的任務(wù),根據(jù)文本內(nèi)容驗(yàn)證抽取要素的準(zhǔn)確度、匹配度及完整度,根據(jù)背景史料對(duì)文本內(nèi)容進(jìn)行修正,為后續(xù)的知識(shí)整理與本體賦值做好準(zhǔn)備。
3.2? 地方名人資源本體構(gòu)建
依據(jù)整理后資源結(jié)構(gòu)化程度重點(diǎn)篩選與加工半結(jié)構(gòu)化和非機(jī)構(gòu)化文本資源,以CNMARC、DC等元數(shù)據(jù)標(biāo)準(zhǔn)體系為基礎(chǔ),運(yùn)用自然語言處理技術(shù)(實(shí)體識(shí)別、關(guān)系抽取),從分散無序的名人文獻(xiàn)資源中提取主題、人名、地名、事件名、情緒詞與風(fēng)格等不同粒度知識(shí)。結(jié)合抽取知識(shí)的相關(guān)性、通用性與識(shí)別度以及中國歷代人物傳記資料庫(CBDB)等知識(shí)庫框架,共同繪制人物術(shù)語詞表和文獻(xiàn)術(shù)語詞表。根據(jù)領(lǐng)域核心概念劃分基礎(chǔ)類等級(jí)、定義與屬性并自建本體模型,再通過驗(yàn)證交流補(bǔ)充遺漏類與拓展屬性,從而搭建適合地方名人資源組織與開發(fā)的本體模型。
3.3? ?實(shí)體與實(shí)體關(guān)系融合
在完成信息抽取后,不能忽略地方名人非正式出版文獻(xiàn)(日記、演講稿、采訪稿等)中遺留的大量非規(guī)范性表述內(nèi)容(綽號(hào)、簡(jiǎn)稱、方言等),此類表述所產(chǎn)生的冗余或錯(cuò)誤信息既影響人物關(guān)系與偏向行為的準(zhǔn)確界定,也會(huì)降低實(shí)例本體清晰度與人文圖譜構(gòu)建質(zhì)量?;诖?,需采用融合手段將多源知識(shí)進(jìn)行消解與消歧。對(duì)同義異稱的實(shí)體與關(guān)系可選用相似函數(shù)或者推理模型等手段消解共指沖突,對(duì)同稱異義的實(shí)體與關(guān)系可結(jié)合特指列表和鏈接系統(tǒng)等方式消除指代歧義,將多源異構(gòu)知識(shí)合并以解決知識(shí)匹配與關(guān)聯(lián)困局,為地方名人動(dòng)態(tài)資源管理、“顯隱”知識(shí)發(fā)現(xiàn)以及共享交互平臺(tái)設(shè)計(jì)提供依據(jù)。
3.4? 地方名人資源知識(shí)應(yīng)用
合并后的地方名人文獻(xiàn)資源以知識(shí)單元的形式按層存儲(chǔ)于知識(shí)庫中,用戶可依據(jù)需求或目的開展人物導(dǎo)航、語義檢索與人文知識(shí)發(fā)現(xiàn)等工作。如通過資源描述框架(RDF)鏈接地方人物及相關(guān)文獻(xiàn)知識(shí)庫實(shí)現(xiàn)人物導(dǎo)航,通過SPARQL、Cypher(Neo4j)等查詢語言完成目標(biāo)知識(shí)網(wǎng)絡(luò)檢索,借助邏輯運(yùn)算與推理機(jī)制發(fā)掘地方名人資源實(shí)例間關(guān)聯(lián),并結(jié)合人文圖譜軟件從篇章內(nèi)容、文段情緒、時(shí)空網(wǎng)絡(luò)和交互行為等方面實(shí)現(xiàn)特色資源知識(shí)發(fā)現(xiàn)等。
4? 地方名人文獻(xiàn)資源解析與本體模型構(gòu)建
地方名人文獻(xiàn)資源開發(fā)因受限于人力與物力等因素,多以未整理的手稿形式及待處理的非結(jié)構(gòu)化文本為主。而隨著資源開發(fā)的演進(jìn)與文本資源的補(bǔ)充,所構(gòu)建本體的基礎(chǔ)類與屬性將逐漸被補(bǔ)充與調(diào)整,以文獻(xiàn)資源特征與人物知識(shí)框架為基礎(chǔ),結(jié)合七步法進(jìn)行本體模型構(gòu)建則更容易滿足名人資源全周期開發(fā)與完善等需求。
4.1? 地方名人文獻(xiàn)資源特征
地方名人文獻(xiàn)資源是GLAM等保藏機(jī)構(gòu)特色資源中相對(duì)特殊的門類,由手稿日記、詩歌、講稿和專著等直接關(guān)聯(lián)文獻(xiàn)以及人物傳記、小說、家譜和地方志等間接關(guān)聯(lián)文獻(xiàn)組成。想運(yùn)用本體模型將不同體裁、載體和主題的文獻(xiàn)以及人物資料組織在一起,既需要辨析名人文獻(xiàn)資源特征,也需要參考人物知識(shí)框架。地方名人資源特征可概括如下:
(1)資源種類豐富。地方名人資源是記錄地域演變、歷史變遷、民俗文化與宗教信仰的重要集合,名人日記、詩歌、講稿等資源也是揭示民族變遷、語言特色、地方風(fēng)俗與神話的重要依據(jù),名人照片、視頻和名人瓷器、石板與木刻等資源也是開展地方文化記憶工程的重要素材。所以,在整理和劃分名人資源種類過程中,除了處理以紙質(zhì)載體為主的文本文獻(xiàn)外,還需要關(guān)注留聲錄像(照片、磁帶和視頻等)和實(shí)物(手工品、石刻和雕版等)等其他形式資料。
(2)文本結(jié)構(gòu)復(fù)雜。由于名人文獻(xiàn)資源大多以手稿形式保藏,不同人物作品在文化背景、行文規(guī)范、語言偏好、文段構(gòu)思與字體字形等方面存在較大差異,受限于機(jī)器整理的文本質(zhì)量,運(yùn)用算法、機(jī)器學(xué)習(xí)等手段對(duì)名人文獻(xiàn)資源核心知識(shí)進(jìn)行識(shí)別與抽取的準(zhǔn)確度并不理想,且容易出現(xiàn)詞匯冗余與詞義不搭等現(xiàn)象。所以,需要按照設(shè)置凡例將待處理文本所涉角色、句法與語序進(jìn)行人工處理,確保不同時(shí)期的文言、白話(口語、書面語)能夠轉(zhuǎn)譯為統(tǒng)一形式文本來提高語言處理質(zhì)量。
(3)資源視角廣闊。直接關(guān)聯(lián)文獻(xiàn)(如名人自撰作品與親筆記錄)可為文獻(xiàn)資源組織提供實(shí)例資料,而間接關(guān)聯(lián)文獻(xiàn)(如名人生平游歷與仕途變遷)則為人物知識(shí)梳理提供佐證材料。此外,還需要引入?yún)⒖假Y料和引證文獻(xiàn)來提高人物資源組織方案的適用性,即通過資源中提及的人物、作品等內(nèi)容來擴(kuò)充文本體量,通過可參考資源中的詩句、事件等內(nèi)容來提升文本廣度。
(4)主題關(guān)系隱蔽。由于名人資源內(nèi)容繁雜且形式多樣,僅依靠自然語言處理技術(shù)難以達(dá)到高準(zhǔn)度異文同題的關(guān)系抽取和發(fā)掘。所以,針對(duì)較為隱蔽的關(guān)聯(lián)主題應(yīng)以“人物”為基點(diǎn),深入調(diào)研名人背景與解讀作品內(nèi)容,并結(jié)合其仕途經(jīng)歷、歷史地位、關(guān)鍵事件和個(gè)人意趣等情況進(jìn)行人工判斷和篩選,以保障異文同題關(guān)系的合理與準(zhǔn)確。
(5)資源跨域明顯。GLAM雖同屬于資源保藏機(jī)構(gòu),但是對(duì)資源研究的側(cè)重點(diǎn)與方向均有不同,涉及圖書館學(xué)、檔案學(xué)、歷史學(xué)、考古學(xué)和計(jì)算機(jī)學(xué)等多個(gè)學(xué)科領(lǐng)域。因此,在搭建名人資源組織方案過程中應(yīng)采納多方意見,組建專業(yè)人才小組并運(yùn)用分工合作的方式來細(xì)化各領(lǐng)域資源的知識(shí)粒度和關(guān)聯(lián)關(guān)系。
4.2? 人物資源描述框架
當(dāng)前,地方名人資源研究領(lǐng)域還未出現(xiàn)可直接復(fù)用的人物知識(shí)框架與文獻(xiàn)知識(shí)框架,而了解通用或常用的特色框架能夠?yàn)橄嫖鞯胤饺宋镔Y源知識(shí)框架搭建提供線索。參考人物資源描述框架包括:
(1)CBDB資料庫。中國歷代人物傳記資料庫以歷史人物傳記為核心資源,信息描述可劃分為入仕途徑、社會(huì)身份、親屬關(guān)聯(lián)、地區(qū)遷移等方面,傳記信息結(jié)合時(shí)代背景及人物社會(huì)關(guān)系構(gòu)建了一套較為完整的人物知識(shí)組織方案,可為地方人物及相關(guān)歷史人物的知識(shí)分類和屬性篩選提供支撐。
(2)FOAF模型。作為線上社區(qū)及社會(huì)網(wǎng)絡(luò)用戶信息組織與描述的本體模型,其術(shù)語詞表中常用的13個(gè)基礎(chǔ)類和55個(gè)屬性可對(duì)用戶個(gè)體、社會(huì)群體、所在組織、個(gè)體關(guān)系和相關(guān)事件等信息進(jìn)行更全面描述與更深入關(guān)聯(lián),且可通過RDFSchema與OWL等通用模型進(jìn)行類與屬性的補(bǔ)充與調(diào)整。
(3)CERIF管理標(biāo)準(zhǔn)。學(xué)術(shù)科研信息管理系統(tǒng)中涉及的基礎(chǔ)實(shí)體、成果實(shí)體、設(shè)施實(shí)體和附注實(shí)體能夠直觀地描述人物參與科研的全周期狀況以及揭示其在教育、工作、研究和榮譽(yù)等方面信息。
(4)上海圖書館開放數(shù)據(jù)平臺(tái)。平臺(tái)提供了古籍(37個(gè)類,160個(gè)屬性)、家譜(38個(gè)類,109個(gè)屬性)、手稿及檔案(44個(gè)類,195個(gè)屬性)、歷代人物傳記(9個(gè)類,35個(gè)屬性)和人名規(guī)范庫(22個(gè)類,68個(gè)屬性)等本體詞表,可以為地方名人資源中涉及的家譜、手稿、檔案和地方志等文獻(xiàn)資源的知識(shí)元抽取提供指導(dǎo)。
4.4? 地方名人文獻(xiàn)資源本體模型初建
地方名人資源知識(shí)組織的核心步驟在于構(gòu)建本體模型。而本體模型的構(gòu)建工作也應(yīng)圍繞名人文獻(xiàn)整合與資源結(jié)構(gòu)規(guī)范等目的和遵循組織合理、關(guān)聯(lián)有序、標(biāo)準(zhǔn)適應(yīng)、開放共享、內(nèi)容詳實(shí)且富有特色等原則來開展?;诖?,本文參照常用本體詞表與知識(shí)框架,結(jié)合湘西地方人物與資源特征并運(yùn)用七步法來自建地方名人文獻(xiàn)資源本體CLO(Celebrity & Literature Ontology),CLO由人物知識(shí)框架和文獻(xiàn)知識(shí)框架兩部分組成。關(guān)鍵步驟概括如下:
4.4.1? 知識(shí)元抽取
對(duì)異構(gòu)資源的內(nèi)容進(jìn)行整理后需參考多種本體詞表,依據(jù)體系標(biāo)準(zhǔn)和ROST軟件從電子文本中抽取可概括與規(guī)范文獻(xiàn)內(nèi)容的知識(shí)元,為后續(xù)非結(jié)構(gòu)化文本處理與知識(shí)本體初建提供支持。以《鳳凰縣志》《湘西文史資料》和《鳳凰:那些人,那些事》等館藏地方文獻(xiàn)中記載的湘西人物為基礎(chǔ)抽取名人知識(shí)本體構(gòu)建所需的人物、教育、工作和成果等概括元素。以《苦學(xué)齋日記》和《苦學(xué)齋詩稿》等已初步整理的名人文獻(xiàn)為基礎(chǔ)抽取文獻(xiàn)知識(shí)本體構(gòu)建所需的目錄、事件、風(fēng)格、情感和角色等內(nèi)容元素。在具體人物及文獻(xiàn)本體構(gòu)建時(shí),需按照人物資料完整度與辨析度、文獻(xiàn)體裁及內(nèi)容特征等對(duì)核心概念與描述屬性進(jìn)行反復(fù)調(diào)整。
4.4.2? 基礎(chǔ)類詞表構(gòu)建
對(duì)抽取的知識(shí)元進(jìn)行比較、整理與辨析處理,從中篩選具備通用性、識(shí)別性和增添性的知識(shí)元并將其納入術(shù)語詞表,對(duì)界定不完整或者不清晰的基礎(chǔ)類(Class)進(jìn)行補(bǔ)充和調(diào)整。分別定義人物知識(shí)本體的基礎(chǔ)概況(姓名、籍貫、民族等)、教育(就讀院校、專業(yè)、入學(xué)時(shí)間等)、成果(文獻(xiàn)、日記、詩歌)和工作(機(jī)構(gòu)、職位等)以及文獻(xiàn)知識(shí)本體的目錄(篇數(shù)、頁數(shù)、字體等)、事件(發(fā)生地、涉及對(duì)象等)、角色(創(chuàng)作者、保藏者、開發(fā)者等)、流派(領(lǐng)域、起源等)、風(fēng)格(對(duì)字體、對(duì)文獻(xiàn)、對(duì)人物等)和情感(事件、角色、文獻(xiàn)等)等描述類,補(bǔ)充時(shí)間(開始時(shí)間、結(jié)束時(shí)間等)和地點(diǎn)(涉及地區(qū)、地形等)等通用類。
4.4.3? 屬性詞表構(gòu)建
運(yùn)用混合法(自頂向下法和自底向上法)以明確地方名人資源基礎(chǔ)類層次與類內(nèi)部屬性。針對(duì)基礎(chǔ)類等級(jí)劃分,可依據(jù)層次分布和詞表概念來構(gòu)建領(lǐng)域上下位類框架,再通過實(shí)例所跨領(lǐng)域和所含知識(shí)向上泛化通用類和向下細(xì)化描述類,從而保障湘西名人文獻(xiàn)資源本體模型整體結(jié)構(gòu)的適用性及揭示要素的全面性。針對(duì)屬性歸類,需根據(jù)其描述類的事實(shí)進(jìn)行判斷,個(gè)體關(guān)聯(lián)到個(gè)體為對(duì)象屬性(op,object properties),對(duì)象屬性具有說明取值類型的屬性且能夠揭示類與類間或類與實(shí)例間的共同特征;而個(gè)體關(guān)聯(lián)數(shù)據(jù)為數(shù)據(jù)屬性(dp,data properties),數(shù)據(jù)屬性可根據(jù)其定類與定序以及離散與連續(xù)等特性來優(yōu)化實(shí)例知識(shí)組織方案與豐富知識(shí)揭示視角。
4.5? 本體模型修正
4.5.1? 修正規(guī)則及概況
本體修正是以初建模型為基礎(chǔ),參照核心概念外延與揭示實(shí)例內(nèi)容進(jìn)行本體模型基礎(chǔ)類調(diào)整與屬性增減來提升模型匹配度的重要步驟。在本體修正過程中,核心概念外延界定、實(shí)例知識(shí)粒度細(xì)化、本體模型與領(lǐng)域?qū)嵗ヅ涠染韪鶕?jù)地方文獻(xiàn)領(lǐng)域?qū)<易稍兣c反饋結(jié)果進(jìn)行判定。以湘西地方名人與日記體裁作品整理現(xiàn)狀為基礎(chǔ),從相關(guān)性、重要性、調(diào)整性和操作性4個(gè)維度設(shè)計(jì)函詢問卷,遵循個(gè)人經(jīng)驗(yàn)和獨(dú)立認(rèn)知等判別依據(jù)(通過=1;不通過=0),讓專家分別對(duì)各基礎(chǔ)類及屬性的4個(gè)維度進(jìn)行評(píng)價(jià)并給予建議。此次本體修正函詢專家共15位,收回問卷13份(積極系數(shù)為86.7%)。參與專家分別來自圖書館、高校與軟件公司。其中,男性7位(53.85%),女性6名(46.15%);本科及以上學(xué)歷11位(84.62%),其余學(xué)歷2位(15.38%);高級(jí)職稱5位(38.46%),中級(jí)職稱8位(61.54%)。平均從事信息組織、知識(shí)管理與數(shù)據(jù)庫構(gòu)建等工作年限為4年及以上。將專家評(píng)價(jià)、所提問題及建議進(jìn)行匯總獲得表4,參照建議對(duì)CLO進(jìn)行修正后獲得全票通過。
4.5.1? 基礎(chǔ)類修正
對(duì)人物描述明確概況、教育、成果與工作4項(xiàng)大類,以拓寬湘西地方人物知識(shí)組織與知識(shí)揭示視角。由于人物現(xiàn)有保藏作品多為日記、詩歌與批注等紙質(zhì)文獻(xiàn),即人物成果部分任務(wù)為歸納現(xiàn)有文獻(xiàn)成果并進(jìn)行知識(shí)組織與內(nèi)容揭示。以日記文獻(xiàn)為例,將日記從文獻(xiàn)類中提出并分別設(shè)立日記類與其他文獻(xiàn)類,對(duì)日記類描述納入目錄、事件、情感、風(fēng)格與角色5項(xiàng)基礎(chǔ)類以全面、細(xì)化、深入地揭示文獻(xiàn)知識(shí)結(jié)構(gòu);按照日記格式在目錄中添加卷數(shù)與記錄時(shí)間,由于日記中存在較多書信交流形式,需在角色類中增加交流角色以標(biāo)注書信對(duì)象。此外,將工作經(jīng)歷中與機(jī)構(gòu)調(diào)動(dòng)相關(guān)內(nèi)容單獨(dú)歸納為機(jī)構(gòu)(機(jī)構(gòu)名、調(diào)動(dòng)地)和職位(職位名)兩項(xiàng)基礎(chǔ)類,以細(xì)化對(duì)人物工作調(diào)動(dòng)與變化內(nèi)容的組織與描述。在通用類中,根據(jù)文獻(xiàn)內(nèi)容擴(kuò)寬地點(diǎn)相關(guān)類描述種類,增設(shè)國家(共197個(gè)國家)子類以備國際事件涉及對(duì)象的標(biāo)注與描述。
4.5.2? 描述屬性調(diào)整
在篩選人物及文獻(xiàn)本體基礎(chǔ)類后需要對(duì)相關(guān)屬性進(jìn)行調(diào)整。由于數(shù)據(jù)屬性輸入數(shù)值主要依賴于文本內(nèi)容,所以類間調(diào)動(dòng)主要影響的是類的對(duì)象屬性。在人物描述方面,依據(jù)歷史背景與個(gè)人資料空白內(nèi)容移除謚號(hào)、黨派、專長、語言、專業(yè)、地形與頁數(shù)等數(shù)據(jù)屬性,根據(jù)拓展資料增加身份、親屬與老師等對(duì)象屬性。在文獻(xiàn)描述方面,根據(jù)日記體裁特點(diǎn)移除作品所屬流派類中關(guān)于領(lǐng)域與起源等數(shù)據(jù)屬性,增加事件類中發(fā)生地坐標(biāo)、涉及國家與涉及地點(diǎn)等對(duì)象屬性,增加情感類中事件情感屬性,在角色類中暫時(shí)移除保藏者與開發(fā)者等外部屬性,增加交往人物、政治人物與歷史人物等對(duì)象屬性。此外,對(duì)應(yīng)篩選與調(diào)整的新類增加記錄時(shí)間、卷數(shù)等數(shù)據(jù)屬性。
綜上所述,調(diào)整后地方名人知識(shí)框架包括基礎(chǔ)類10個(gè)(6大類,4子類)和屬性26個(gè)(12對(duì)象屬性,14數(shù)據(jù)屬性),調(diào)整后文獻(xiàn)資源知識(shí)框架包括基礎(chǔ)類6個(gè)(1大類,5子類)和屬性21個(gè)(15對(duì)象屬性,6數(shù)據(jù)屬性)。在表5中省略基礎(chǔ)類前綴CLO,其中上標(biāo)C代表基礎(chǔ)類,上標(biāo)op代表對(duì)象屬性,上標(biāo)dp代表數(shù)據(jù)屬性,序號(hào)簡(jiǎn)示實(shí)例關(guān)系,***代表概況、教育、工作與成果任意類。
4.6? 基于Protégé的本體模型編輯與呈現(xiàn)
通過本體模型對(duì)地方名人文獻(xiàn)資源進(jìn)行知識(shí)抽取、融合與重組,可加速推動(dòng)特定領(lǐng)域知識(shí)由結(jié)構(gòu)化向形式化轉(zhuǎn)換進(jìn)程。由于構(gòu)建與修正本體需耗費(fèi)大量時(shí)間且反復(fù)迭代完善,應(yīng)選用常用本體語言及自動(dòng)化搭建工具來保障與提高本體編輯效率。在本體語言方面,XML、OWL、RDF(S)等語言都是被認(rèn)定為可共享語義網(wǎng)內(nèi)容的標(biāo)準(zhǔn)語言;在自動(dòng)化軟件上,Ontolingua、OntoSaurus、WebOnto、Protégé等軟件都能夠接納多種描述語言以完成本體模型的開發(fā)。其中,Protégé是由斯坦福大學(xué)生物醫(yī)學(xué)信息研究中心開發(fā)的本體自動(dòng)化編輯與開發(fā)工具,擁有二次開發(fā)、擴(kuò)展模型、插件豐富和支持多語種輸入輸出等功能,可以為研究者提供一個(gè)自定義的開源環(huán)境[29]?;诖耍舜螄@地方名人文獻(xiàn)知識(shí)的本體編輯任務(wù)以語言O(shè)WL和工具Protégé為支撐展開。CLO基礎(chǔ)類與屬性輸入如圖2所示:
進(jìn)入Protégé工具頁面,在本體“由虛入實(shí)”的過程應(yīng)首先按照基礎(chǔ)類描述術(shù)語表在Protégé的“classes”模塊中創(chuàng)建人物(CLO_Person)和日記(CLO_Riji)類,再通過“hierarchy”模塊按照層級(jí)結(jié)構(gòu)逐級(jí)添加人物概況(CLO_Person_Bas)和日記目錄(CLO_Riji_Lis)等子類,并在“prefix”中增加GLO前綴,完成編輯后可獲得圖3右側(cè)本體基礎(chǔ)類層次結(jié)構(gòu)視圖。此外,還可以基礎(chǔ)類關(guān)系與屬性描述術(shù)語為基礎(chǔ),依據(jù)OWL/XML格式編碼對(duì)各基礎(chǔ)類、對(duì)象屬性與數(shù)據(jù)屬性進(jìn)行定義。例如圖3中左側(cè)RDF/XML揭示框中就列出了對(duì)人物成果(CLO_Person_Ach)、人物教育(CLO_Person_Edu)和人物概況(CLO_Person_Bas)的編碼定義。
同時(shí),參照?qǐng)D2將CLO各對(duì)象屬性與數(shù)據(jù)屬性輸入對(duì)應(yīng)的自動(dòng)化操作欄中,并分別編輯定義域和值域。在“Object properties”模塊中輸入關(guān)于(is_about)、生年(date_of_birth)、生地(place_of_birth)與卒年(date_of_death)等32項(xiàng)對(duì)象屬性。在“Data properties”模塊中添加字(Person_courtesyname)、性別(Person_sex)、民族(Person_ethnicgroup)與就讀院校(Person_adschool)等16項(xiàng)數(shù)據(jù)屬性。在定義類和子類以及對(duì)象和數(shù)據(jù)屬性后可通過HermiT推理機(jī)糾正錯(cuò)誤定義與不當(dāng)關(guān)聯(lián)以完善本體層次結(jié)構(gòu),也可為準(zhǔn)確提取名人知識(shí)及其日記元數(shù)據(jù)和語義內(nèi)容提供依據(jù)。最后在Protégé的“OntoGraf”模塊中以“Radial”形式展示地方名人文獻(xiàn)資源本體基礎(chǔ)類與屬性的關(guān)系,如圖4所示:
5? 實(shí)例呈現(xiàn)——以湘西詩人田名瑜及《苦學(xué)齋日記》為例
實(shí)例添加與研究既是本體修正的關(guān)鍵步驟,也是檢驗(yàn)知識(shí)組織方案適用性以及開展地方文獻(xiàn)資源開發(fā)的重要方式。而構(gòu)建以本體為驅(qū)動(dòng)的名人資源知識(shí)組織方案也能夠充分將異源文獻(xiàn)進(jìn)行結(jié)構(gòu)化整合,并利用屬性界定、邏輯推理、語義查詢和人文圖譜來獲取領(lǐng)域細(xì)粒度知識(shí)與繪制人物關(guān)聯(lián)線索,為塑造地方文化形象以及深入挖掘人物資源內(nèi)涵提供抓手。
5.1? 田名瑜及《苦學(xué)齋日記》知識(shí)組織
湘西土家族苗族自治州地處湘鄂渝黔四省市交界處,是擁有悠久歷史文化與特色民俗、服飾、舞蹈和飲食的少數(shù)民族聚居地,誕生了沈從文、熊希齡、田名瑜、黃永玉、彭司勛等一批文化與科學(xué)名人[30]。當(dāng)前,圍繞沈從文、熊希齡、田名瑜與黃永玉的研究多聚焦于文獻(xiàn)學(xué)與藝術(shù)學(xué)領(lǐng)域,在資源整理與利用方面也更偏重對(duì)文本內(nèi)容的剖析與考證,尚未有學(xué)者通過數(shù)字人文視角與技術(shù)來整合與開發(fā)相關(guān)名人文獻(xiàn)資源。同時(shí),日記作為一種可以直接反映人物所見、所思、所想的文體,其豐富的題材種類與隨性的表現(xiàn)方式吸引了古往今來諸多文人墨客、仁人志士駐足賞讀。而相較其他體裁文獻(xiàn),日記更容易表現(xiàn)作者自身個(gè)性與作者真實(shí)境遇,記錄的人物經(jīng)歷與事件也具有更自然的生活氣息,更具備文獻(xiàn)考證、藝術(shù)欣賞和思想教育等突出價(jià)值。
基于此,本文實(shí)例呈現(xiàn)以湘西詩人田名瑜資料及其手稿作品《苦學(xué)齋日記》(1961年至1962年)為依托,通過“OCR+人?!蹦J綌?shù)字化了相關(guān)書本及手稿,結(jié)合數(shù)據(jù)庫人物資料及預(yù)設(shè)凡例完成了異構(gòu)文獻(xiàn)資源內(nèi)容的整理,運(yùn)用LTP語義分析平臺(tái)和NLPIR語言處理系統(tǒng)抽取人物與文獻(xiàn)要素,并根據(jù)人物概況、教育、工作、成果、機(jī)構(gòu)、身份分類與文獻(xiàn)目錄、事件、情感、風(fēng)格、角色、地點(diǎn)分類進(jìn)行實(shí)體要素的劃分。在完成要素抽取與分類后,將非規(guī)范性表述內(nèi)容(綽號(hào)、簡(jiǎn)稱、方言、錯(cuò)字等)進(jìn)行了消解與消歧,對(duì)文檔同義異稱的實(shí)體如陶淵明(陶潛)等古代人物名與字所遺沖突進(jìn)行人工消解,對(duì)文檔同稱異義的實(shí)體如《詩經(jīng)》(實(shí)指《詩經(jīng)說略》)消除了指代歧義。將抽取與整理后的489項(xiàng)實(shí)例根據(jù)預(yù)設(shè)知識(shí)框架導(dǎo)入CLO地方名人文獻(xiàn)資源本體模型,并根據(jù)人物基礎(chǔ)類與日記接觸類分別對(duì)實(shí)例進(jìn)行對(duì)象屬性和數(shù)據(jù)屬性賦值,再使用Protégé軟件中的“OntoGraf”模塊實(shí)現(xiàn)地方名人文獻(xiàn)資源實(shí)體要素分布視圖,如圖5所示:
5.2? 田名瑜人物知識(shí)關(guān)聯(lián)分析
由于“OntoGraf”模塊顯示內(nèi)容與顯示字體頁面受限,通過SPARQL查詢語言檢索“田名瑜”并依據(jù)“Grid-Alphabetical”模塊形成關(guān)聯(lián)可見圖6。圖中不同來源的人物知識(shí)可以通過自建本體CLO中相同的基礎(chǔ)類及相近的屬性特征實(shí)現(xiàn)知識(shí)聚合以及結(jié)構(gòu)化分布,CLO模型也能夠較為清晰直觀地梳理人物在各個(gè)維度的概況與經(jīng)歷并進(jìn)行知識(shí)關(guān)聯(lián)。
在人物概況方面,田名瑜的字(個(gè)石)、生年(1890年)、生地(鳳凰縣)、卒年(1981年)以及身份(南社詩人、土家族詩人、湘西作家與同盟會(huì)成員)等知識(shí)實(shí)現(xiàn)共現(xiàn)。在人物成果方面,田名瑜所著作品(《苦學(xué)齋日記》《苦學(xué)齋詩稿》《早紅詞》《湘西四十年大事記》《湘西苗族記》、《詩經(jīng)說略》《楚游屑錄》《殘雜詩稿》與《湘西獻(xiàn)征》)實(shí)現(xiàn)了整合,能夠?yàn)楹罄m(xù)文獻(xiàn)內(nèi)容的組織與關(guān)聯(lián)提供框架。在工作經(jīng)歷方面,田名瑜的任職地及職務(wù)(鳳凰演講所所長、文昌閣執(zhí)教、《沅湘日?qǐng)?bào)》編輯與總經(jīng)理、湘西護(hù)國軍秘書、大庸縣縣長、沅陵縣縣長、黔陽縣縣長、第十集團(tuán)軍秘書、湖南省政府秘書、鳳凰縣縣長、湖南省文物保管委員會(huì)委員與國務(wù)院文史研究館館員)也實(shí)現(xiàn)了組織關(guān)聯(lián),能夠?yàn)槿宋锸送井嬒竦睦L制提供依據(jù)。此外,通過親屬與師從屬性的關(guān)聯(lián)還能夠揭示田名瑜與叔父田星六的多重關(guān)系,結(jié)合任職地、人物與時(shí)間的關(guān)聯(lián)有助于辨析田名瑜在文昌閣執(zhí)教期間是否教導(dǎo)過著名作家沈從文等。
5.3? 《苦學(xué)齋日記》知識(shí)關(guān)聯(lián)分析
通過SPARQL查詢語言檢索“《苦學(xué)齋日記》”并依據(jù)“Grid-Alphabetical”模塊形成關(guān)聯(lián)可見圖7。圖中《苦學(xué)齋日記》記載內(nèi)容根據(jù)CLO本體模型可拆分為目錄、事件、角色、情感、風(fēng)格與地點(diǎn)6個(gè)類別,各維度知識(shí)在基礎(chǔ)類及屬性特征引導(dǎo)下實(shí)現(xiàn)了知識(shí)共現(xiàn)與知識(shí)關(guān)聯(lián),能夠更為直觀地呈現(xiàn)日記核心事件、人物關(guān)聯(lián)與熱點(diǎn)地區(qū),也能為進(jìn)一步演繹人物行為細(xì)節(jié)、揭示風(fēng)格評(píng)價(jià)與推理情感傾向等提供樣本。
在本體模型中可以通過設(shè)置Inverse functional(互逆)、Transitive(傳遞)、Symmetric(對(duì)稱)、Asymmetric(非對(duì)稱)、Reflexive(自反)等關(guān)系推理準(zhǔn)則進(jìn)行知識(shí)推理與評(píng)估。將本體中已有基礎(chǔ)類與屬性設(shè)置為對(duì)應(yīng)關(guān)系,根據(jù)基礎(chǔ)類與屬性已有賦值可推理出新的關(guān)聯(lián)并修改錯(cuò)誤關(guān)聯(lián),以此提升知識(shí)關(guān)聯(lián)的精準(zhǔn)度。在完成知識(shí)推理后,可進(jìn)一步實(shí)現(xiàn)角色、事件、作品與情感的關(guān)聯(lián)。在實(shí)現(xiàn)文本知識(shí)關(guān)聯(lián)后可看出,田名瑜談及親屬(純兒、孚孫、貞孫、宅孫)時(shí),所涉及的高頻事件(住院、下鄉(xiāng)、送信)多包含關(guān)懷情感(關(guān)懷備至、牽腸掛肚、噓寒問暖)。田名瑜談及交往人物(沈從文與張兆和)時(shí),所涉及的高頻事件(題詞、寄圖、上門)體現(xiàn)了真摯情感(桃李春風(fēng)與諄諄教誨),進(jìn)一步印證了田名瑜與沈從文的師生關(guān)系。田名瑜談及歷史人物(陶淵明、歐陽修、李白)時(shí),常用詩人作品(《歸園田居》《李太白集》)所載詩句與意境來表達(dá)對(duì)秀麗風(fēng)光與景秀河山的感慨,也時(shí)常用以印證自己所作詩句并抒發(fā)情感(悲秋懷人、寄情山水等)。此外,日記所載政治人物(尼赫魯、肯尼迪、赫魯曉夫等)與國際事件(中印邊境自衛(wèi)反擊戰(zhàn)、阿波羅計(jì)劃等)也形成了情感(無所畏懼、身經(jīng)百戰(zhàn)、不屈不撓)關(guān)聯(lián)??梢钥闯?,通過“角色—事件(作品)—情感”等規(guī)則架構(gòu)進(jìn)行知識(shí)推理能夠有效梳理日記各類要素并將其關(guān)聯(lián)聚合,輔助人文學(xué)者開展各維度細(xì)粒度知識(shí)梳理與發(fā)現(xiàn),也可通過頻詞轉(zhuǎn)換等手段實(shí)現(xiàn)人物、事件情感傾向等方面研究。
綜上操作,研究以田名瑜及其作品《苦學(xué)齋日記》為例,通過異構(gòu)文獻(xiàn)資源內(nèi)容整理、地方名人資源本體構(gòu)建、實(shí)體與實(shí)體關(guān)系融合和地方名人資源知識(shí)應(yīng)用4項(xiàng)步驟完成了地方名人資源的知識(shí)組織與關(guān)聯(lián)研究,流程簡(jiǎn)圖見圖8。后續(xù)可根據(jù)本體抽取各類要素,應(yīng)用Gephi、QGIS、Cytoscape等可視化工具開展地點(diǎn)時(shí)空網(wǎng)絡(luò)揭示、文段情緒歸類與交互行為分析,還可以將日記內(nèi)容整合入Neo4j等圖數(shù)據(jù)庫,為地名名人文獻(xiàn)資源知識(shí)庫的構(gòu)建與開放獲取服務(wù)的開展提供便利。
6? 研究總結(jié)
開展地方名人文獻(xiàn)資源知識(shí)組織與關(guān)聯(lián)的目的在于整合異構(gòu)文獻(xiàn)資源、揭示人物及文獻(xiàn)知識(shí)特征并進(jìn)一步精化名人文獻(xiàn)資源描述準(zhǔn)度與粒度。本文以異構(gòu)文獻(xiàn)資源內(nèi)容整理、地方名人資源本體構(gòu)建、實(shí)體與實(shí)體關(guān)系融合和地方名人資源知識(shí)應(yīng)用4個(gè)步驟為基礎(chǔ),提出了一套開發(fā)與利用地方名人資源的知識(shí)組織與關(guān)聯(lián)方案,結(jié)合地方名人文獻(xiàn)資源特征、人物資源描述框架分別將人物知識(shí)框架和文獻(xiàn)知識(shí)框架組合成地方名人文獻(xiàn)本體模型CLO。在實(shí)例部分,以湘西詩人田名瑜資料及其作品為依托,實(shí)現(xiàn)了田名瑜及其未刊手稿《苦學(xué)齋日記》細(xì)粒度知識(shí)檢索與特性揭示,驗(yàn)證了CLO本體模型在地方名人文獻(xiàn)資源整理與開發(fā)領(lǐng)域的可操性與實(shí)用性。同時(shí),本研究也探究了數(shù)字人文視角下地方文獻(xiàn)資源研究與開發(fā)的優(yōu)勢(shì),總結(jié)如下:①思維互利,優(yōu)勢(shì)互補(bǔ)。相較于傳統(tǒng)文獻(xiàn)學(xué)研究思維與方法,數(shù)字人文所涉及工具、技術(shù)與算法能夠?qū)⒌胤轿墨I(xiàn)的“文字”研究拓展為“文字+數(shù)據(jù)”研究,突破文理壁壘的同時(shí)能夠?qū)⒄Z言描述優(yōu)勢(shì)同數(shù)理運(yùn)算優(yōu)勢(shì)相結(jié)合,實(shí)現(xiàn)定性與定量思維的接軌,豐富地方文獻(xiàn)研究成果產(chǎn)出形式和產(chǎn)出領(lǐng)域。②視角寬廣,結(jié)構(gòu)趨同。數(shù)字人文為地方名人文獻(xiàn)資源的開發(fā)與利用提供了跨學(xué)科的應(yīng)用視角,推動(dòng)了地方名人多源異構(gòu)資源的結(jié)構(gòu)趨同與外部異構(gòu)資源知識(shí)互聯(lián),在提高資源開放性、利用率與分享價(jià)值的同時(shí),為地方文獻(xiàn)保藏機(jī)構(gòu)進(jìn)一步開展知識(shí)聚類研究、人文知識(shí)圖譜繪制以及特色資源知識(shí)發(fā)現(xiàn)等業(yè)務(wù)探明了方向。
本研究存在以下不足:地方名人文獻(xiàn)資源知識(shí)組織與關(guān)聯(lián)方案更偏重于工程化操作,視角較為寬泛;研究對(duì)象僅為日記類文獻(xiàn),還需針對(duì)其他著作開展實(shí)證研究。后續(xù)將參照此套方案開展地方名人知識(shí)庫構(gòu)建,期盼在實(shí)際應(yīng)用中能夠不斷調(diào)整方案結(jié)構(gòu)、類與屬性,為地方名人文獻(xiàn)資源的開發(fā)與利用提供借鑒和依據(jù)。
參考文獻(xiàn):
[1] 劉石, 孫茂松, 顧青. 數(shù)字人文[M]. 北京:中華書局, 2019.
[2] 馮晴君. 現(xiàn)代圖書館地方文獻(xiàn)工作理論與實(shí)踐[M]. 北京:中央文獻(xiàn)出版社, 2008.
[3] 謝嫚.人物專題數(shù)據(jù)庫的構(gòu)建及其數(shù)據(jù)挖掘探索——以中國女性人物專題數(shù)據(jù)庫構(gòu)建為例[J].現(xiàn)代情報(bào), 2010, 30(6): 49-53.
[4] LIU C, HUANG C, WANG H, et al. Mining local gazetteers of literary Chinese with CRF and pattern based methods for biographical information in Chinese history[C]// Proceedings of 2015 IEEE international conference on big data. New York: IEEE, 2015: 1629-1638.
[5] 趙宇飛. 基于中文名稱規(guī)范檔的人物信息聚合研究[D].太原:山西大學(xué), 2020.
[6] KIM J W. The Role of philosophy of religion in the research of digital humanities: through the experience of building a digital archive of protestant missionary Letters from Korea(1880-1942)[J]. The Journal of the Humanities, 2021, 123(1): 79-105.
[7] ZORRILLA N. The exclusion of early modern women philosophers from the canon: causes and counteractive strategies from the digital humanities[J]. Hypatia-a journal of feminist philosophy, 2022, 37(2): 177-186.
[8] LUPANOVA Y M. M.V. Lomonosovs image in the historic memory of modern youths[J]. Sotsiologicheskii zhurnal, 2017, 23(3): 163-182.
[9] KUN H, JIANFENG Z. A progressive Web application on ancient Roman Empire coins and relevant historical figures with graph database[C]// Lecture notes in computer science (LNCS 11197). Digital heritage. progress in cultural heritage: documentation, preservation, and protection, 7th international conference. Berlin: Springer International Publishing, 2018: 235-241.
[10] BONCH-OSMOLOVSKAYA A, SKORINKIN D, PAVLOVA I, et al. Tolstoy semanticized: constructing a digital edition for knowledge discovery[J]. Journal of Web Semantics, 2019, 59(100483): 1-9.
[11] CHEN C, CHANG C. A Chinese ancient book digital humanities research platform to support digital humanities research[J]. Electronic library, 2019, 37(2): 314-336.
[12] HUANG J, LUO T. Computing Len for exploring the historical peoples social network[C]//Proceedings of 2018 IEEE 6Th international conference on future internet of things and cloud workshops (W-FICLOUD 2018). New York: IEEE, 2018: 95-101.
[13] JI H H, MIN M S, CHEOL C G, et al. Visual analysis on the political orientation of historical characters in the Joseon Dynasty: focusing on Seo, Geojeong[J]. Archives of design research, 2019, 32(1): 147-161.
[14] BAE S. Digital humanities and Song Dynasty research focus on 1163s civil service examination and the social network of LouYue [J]. Journal of Asian historical studies, 2019, 146(1): 157-191.
[15] 徐永明.中國古典文學(xué)研究的幾種可視化途徑——以湯顯祖研究為例[J].浙江大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版), 2018, 48(2): 164-174.
[16] 錢超峰, 杜德斌.北宋官僚家族網(wǎng)絡(luò)的空間結(jié)構(gòu)及其演化: 基于CBDB和CHGIS的考察[J].歷史地理研究, 2019, 39(2): 83-94, 161-162.
[17] 楊海慈, 王軍.宋代學(xué)術(shù)師承知識(shí)圖譜的構(gòu)建與可視化[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2019, 3(6): 109-116.
[18] 劉京臣.大數(shù)據(jù)視閾中的明清進(jìn)士家族研究——以CBDB、中華尋根網(wǎng)為例[J].北京大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2019, 56(4): 96-108.
[19] 鄧君, 鐘楚依, 王阮, 等.清代職官知識(shí)組織與關(guān)聯(lián)分析——以《長春縣志·長春職官考釋表》為例[J].圖書情報(bào)工作, 2020, 64(17): 18-26.
[20] 霍曉楠. 數(shù)字人文視角下《全唐詩》貶謫詩人時(shí)空結(jié)構(gòu)及社會(huì)關(guān)系網(wǎng)絡(luò)研究[D].長春:吉林大學(xué), 2021.
[21] 宋雪雁, 崔浩男, 梁穎, 等.數(shù)字人文視角下名人日記資源知識(shí)發(fā)現(xiàn)研究——以王世杰日記為例[J].情報(bào)理論與實(shí)踐, 2021, 44(6): 105-111.
[22] 劉寧靜, 劉音, 王莫言, 等.數(shù)字人文視角下學(xué)術(shù)名人知識(shí)模型構(gòu)建研究——以李政道數(shù)字資源中心為例[J].圖書情報(bào)工作, 2019, 63(23): 113-121.
[23] LI H, ZHU L, SHEN W, et al. Research on knowledge organization and visualization of historical events in the Republic of China Era[J]. Library trends, 2020, 69(1): 138-163.
[24] 姚天泓, 陳艷梅, 劉革, 等.基于CIDOC-CRM的數(shù)字人文史料資源語義化知識(shí)組織研究——以張學(xué)良史料資源為例[J].圖書館學(xué)刊, 2019, 41(7): 35-43.
[25] WEI J, LIU R. An approach of constructing knowledge graph of the hundred schools of thought in ancient China[C]//Proceedings of 2019 ACM/IEEE joint conference on digital libraries (JCDL 2019), New York: IEEE, 2019: 335-336.
[26] CHEOK A D, EDIRISINGHE C, KARUNANAYAKA K. Confucius computer: a philosophical digital agent for intergenerational philosophical play[J]. Personal and ubiquitious computing, 2017, 21(2): 327-343.
[27] 牛力, 高晨翔, 劉力超, 等.層次與空間:數(shù)字記憶視角下名人檔案的價(jià)值挖掘研究[J].檔案學(xué)研究, 2021, 187(5): 138-144.
[28] 張?jiān)浦校?孫平.歷史文化名人游學(xué)足跡知識(shí)圖譜的構(gòu)建與可視化[J].圖書館雜志, 2021, 40(9): 81-87, 96.
[29] 王昊奮, 漆桂林, 陳華鈞. 知識(shí)圖譜 方法、實(shí)踐與應(yīng)用[M]. 北京:電子工業(yè)出版社, 2019.
[30] 中國人民政治協(xié)商會(huì)議湘西土家族苗族自治州委員會(huì)文史資料研究委員會(huì).湘西名人[M]//湘西文史資料 第三十四-三十五輯.湘西:湘西州文史資料委員會(huì), 1994.
作者貢獻(xiàn)說明:
王梓懿:提出研究選題,撰寫與修改論文;
陳? 晨:收集綜述文獻(xiàn)與整理手稿資料;
王湘華:提供手稿資料,指導(dǎo)研究方案,核查論文內(nèi)容并提出修改意見。
Research on Knowledge Organization and Correlation of Local Celebrity Literature Resources from the Perspective of Digital Humanities
Wang Ziyi1? Chen Chen1? Wang Xianghua2
1School of tourism and management engineering, Jishou University, Zhangjiajie 427000
2School of literature and journalism, Jishou University, Jishou 416000
Abstract: [Purpose/Significance] Starting from the current situation of the construction of local celebrity literature resources, this paper explored the knowledge organization and association scheme of local celebrities multi-source heterogeneous resources from the perspective of Digital Humanities, so as to provide reference for GLAM institutions to carry out local celebrity knowledge management and services. [Method/Process] Referring to the relevant development ideas of celebrity resources at home and abroad, this paper put forward a set of local celebrity resource knowledge organization scheme, which includes four steps: content sorting of heterogeneous document resources, ontology construction of local celebrity resources, relationship fusion between entities and entities, and knowledge application of local celebrity resources. Combined with the characteristics of local celebrity resource and the character resource description framework, the local celebrity resource ontology model CLO is built. [Result/Conclusion] Relying on Tian Mingyu, a poet in Western Hunan, and his manuscript “Diary of study hard”, the knowledge organization and correlation disclosure of local celebrity and his diary works are realized according to the organization steps and protégé tools, which verified the feasibility and operability of this set of organization scheme. While broadening the perspective of local literature development, this paper also provided reference for the construction of celebrity knowledge base and the development of characteristic humanistic services in ethnic areas.
Keywords: digital humanities? ? celebrity literature? ? knowledge organization? ? ontology construction? ? Protégé