邱杰峰 展超凡 李喆
摘要:知識組織相關(guān)技術(shù)的出現(xiàn),為企業(yè)文檔內(nèi)容的深度聚合帶來了新的契機。通過對比三種企業(yè)文檔聚合模式,本文得出目前利用知識組織技術(shù)進行文檔深度聚合的必要性與合理性。此外,本文還提出了企業(yè)文檔深度聚合模式,從高效化知識抽取,到概念化本體構(gòu)建,再到關(guān)聯(lián)化知識聚合及最終實現(xiàn)的智能化知識服務(wù),對企業(yè)文檔資源的內(nèi)容聚合展開探究,進而為企業(yè)文檔深度聚合及知識管理研究提供一定的理論基礎(chǔ)與實踐導(dǎo)向。
關(guān)鍵詞:知識聚合 本體構(gòu)建 知識組織 企業(yè)文檔管理
知識經(jīng)濟時代,如何融合新興數(shù)字技術(shù)和企業(yè)內(nèi)部知識資源已成為企業(yè)成功與否的重要因素。企業(yè)大多數(shù)顯性知識資源都以文件、檔案的形式存在,被統(tǒng)稱為企業(yè)文檔,是企業(yè)生產(chǎn)經(jīng)營活動的真實記錄。[1]文件是檔案的前身,檔案是文件的歸宿,所謂“文件”和“檔案”,只是文件運動過程不同階段的表現(xiàn)形式[2],文檔一體化逐漸成為企業(yè)檔案管理發(fā)展的必然趨勢[3]?,F(xiàn)階段,企業(yè)文檔資源已基本實現(xiàn)數(shù)字化管理,但現(xiàn)有的企業(yè)文檔組織利用方式較為單一,知識聚合程度較低,大多數(shù)企業(yè)文檔只支持普通查詢,開展文檔知識的深度聚合已成為未來研究與實踐的必然趨勢。[4]因此,本文以企業(yè)文檔資源作為主要研究對象,對文檔內(nèi)容組織層面的三種聚合模式進行分析與比較,從總體方法論角度設(shè)計企業(yè)文檔深度聚合模式,對如何實現(xiàn)企業(yè)文檔資源的內(nèi)容深度聚合展開探究。
企業(yè)文檔聚合最初是對企業(yè)內(nèi)部實體文檔進行整理與集成,也就是對文檔進行初步整理與排列,達到用戶查找和獲取文獻的目的。[5]其研究對象為文檔原件(一般為實體文檔),聚合粒度較粗,屬于傳統(tǒng)文檔聚合模式,最具代表性的是企業(yè)檔案館內(nèi)基于文獻編目的企業(yè)文檔聚合模式?;谠獢?shù)據(jù)的企業(yè)文檔聚合模式將研究對象從文檔本身深入到文檔內(nèi)容層級,關(guān)注信息片段的整合。但以上兩種聚合模式仍是在文檔形式特征層面對其進行整理與排序,并不能實現(xiàn)對文檔內(nèi)容知識的組織與檢索。文檔資源深度聚合主要體現(xiàn)在運用一系列知識組織技術(shù)對資源內(nèi)容進行語義聚合,關(guān)注文檔中知識元的聚合,以真正實現(xiàn)細顆粒度的文檔知識聚合。文檔聚合模式演化過程如圖1所示。
(一)基于文獻編目的企業(yè)文檔聚合模式
文獻編目大多以傳統(tǒng)印本的實體文檔作為研究對象,依據(jù)特定的著錄格式和規(guī)則,對文獻信息的形式與內(nèi)容特征進行描述、標(biāo)引并使其有序化。[6]比較常見的如企業(yè)文檔中的目錄編制與排序,因此,這種聚合模式又被稱為文檔整序工作。其外部特征的描述及內(nèi)容實質(zhì)的揭示都相對比較淺層,適用場景也基本是傳統(tǒng)紙質(zhì)文檔的歸檔工作。在企業(yè)的現(xiàn)階段應(yīng)用中,該模式主要用于部分紙質(zhì)文檔庫的編碼與存儲,然而其聚合維度的單一與聚合粒度的粗泛漸漸不能滿足企業(yè)日益增長的文檔知識挖掘需求。
(二)基于元數(shù)據(jù)的企業(yè)文檔聚合模式
面對結(jié)構(gòu)形態(tài)各異的企業(yè)數(shù)字文檔資源,傳統(tǒng)編目方式顯得力不從心。而元數(shù)據(jù)用來描述、標(biāo)引數(shù)字資源相對靈活,企業(yè)通過參照各類相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn),描述文檔資源的主題、內(nèi)容特征,并通過對描述性元數(shù)據(jù)、結(jié)構(gòu)性元數(shù)據(jù)和非結(jié)構(gòu)性元數(shù)據(jù)進行加工與集成使其格式化后存儲,將其作為文檔聚合的基礎(chǔ)?;谠獢?shù)據(jù)的企業(yè)文檔聚合模式通過細分描述對象的揭示程度,為數(shù)字資源的深度聚合奠定基礎(chǔ)。
(三)基于知識組織的企業(yè)文檔聚合模式
基于知識組織的企業(yè)文檔聚合是一個相對比較寬泛的概念,包含多種具體的聚合模式,如基于本體[7]、基于關(guān)聯(lián)數(shù)據(jù)[8]、基于主題模型[9]和基于知識圖譜[10]及復(fù)合模式[11]來實現(xiàn)文檔資源的深度聚合。該模式通過揭示文檔資源語義內(nèi)容目標(biāo)實現(xiàn)細粒度聚合,以客觀方式呈現(xiàn)文獻資源的網(wǎng)絡(luò)結(jié)構(gòu),并以可視化方法展示聚合結(jié)果,最終實現(xiàn)面向用戶需求的知識服務(wù)。具體來講,該模式通過構(gòu)建各種類型的企業(yè)文檔知識庫,在語義和知識層面上細粒度地描述文獻知識內(nèi)容,以實現(xiàn)資源深度聚合。
綜上所述,三種文檔聚合模式在對象、目的、方法、描述維度、描述顆粒度和應(yīng)用層面均有不同。從表1可以看出,三種文檔聚合模式呈現(xiàn)出與時代發(fā)展相契合的演進態(tài)勢?;谥R組織的企業(yè)文檔聚合模式已成為企業(yè)文檔未來發(fā)展的必然趨勢,理由如下:其一,該模式適應(yīng)當(dāng)前數(shù)字化時代對于數(shù)字文檔的大量應(yīng)用需求,可以實現(xiàn)由實體文檔向數(shù)字文檔模態(tài)演變;其二,為滿足日益增長的文檔利用需求和適應(yīng)文檔數(shù)量的急劇增長,該模式從單一描述維度逐漸向多維度乃至立體化的維度演變,對文檔內(nèi)容的描述粒度也在不斷變細;其三,在應(yīng)用層面,該模式更加趨向于文檔知識的服務(wù)與利用,由消耗成本轉(zhuǎn)為創(chuàng)造價值。
企業(yè)文檔管理具有比較嚴(yán)格的規(guī)范與管理制度,其文檔格式、元數(shù)據(jù)信息、存儲方式等大多實現(xiàn)了統(tǒng)一化。另外,以企業(yè)文檔資源作為深度聚合的數(shù)據(jù)基礎(chǔ),具有非常好的實踐效果。在梳理現(xiàn)有企業(yè)文檔聚合模式并進行對比分析之后,本文根據(jù)企業(yè)文檔資源特點和實際業(yè)務(wù)場景需要設(shè)計基于知識組織的企業(yè)文檔深度聚合模式來組織和關(guān)聯(lián)知識節(jié)點,進而推動企業(yè)內(nèi)部知識的整合與知識網(wǎng)絡(luò)的形成。對于具體聚合模式,我們采用自底向上的整體設(shè)計思路,從文檔資源的“抽取”“表達”“聚合”“利用”四方面闡述文檔數(shù)據(jù)如何經(jīng)過高效化知識抽取、概念化本體構(gòu)建、關(guān)聯(lián)化知識聚合以及智能化知識服務(wù)轉(zhuǎn)變?yōu)槲臋n知識,從而實現(xiàn)文檔的表示結(jié)構(gòu)化、組織知識化、利用智能化,如圖2所示。
(一)高效化知識抽取
知識抽取作為企業(yè)文檔深度聚合的第一步,是指從原始數(shù)據(jù)集中發(fā)現(xiàn)和識別出命名實體,形成結(jié)構(gòu)化數(shù)據(jù)。這是知識聚合中最為重要和基礎(chǔ)的部分,其抽取的質(zhì)量對后續(xù)的關(guān)聯(lián)聚合和知識服務(wù)步驟影響重大。企業(yè)在生產(chǎn)運行過程中形成了大量的文檔相關(guān)數(shù)據(jù),其存在形式包括數(shù)據(jù)庫、掃描PDF、Word文檔等。針對企業(yè)內(nèi)部的結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)、半結(jié)構(gòu)化版式文檔及非結(jié)構(gòu)化文本數(shù)據(jù),該模式具體采用實體識別與排歧、關(guān)系事實抽取、圖像分割識別等技術(shù),針對不同類型的文檔,從篇章目錄、段落結(jié)構(gòu)、表格數(shù)據(jù)、語句語義等不同層次對文檔內(nèi)容中所包含的知識實體與關(guān)系進行解析和抽取,利用語義解析深度挖掘其中的知識關(guān)系,實現(xiàn)文本內(nèi)容的識別、轉(zhuǎn)換及抽取,形成規(guī)范化的數(shù)據(jù)三元組。
(二)概念化本體構(gòu)建
本體構(gòu)建作為企業(yè)文檔的整體概念框架,是關(guān)聯(lián)化知識聚合的基礎(chǔ)。某一領(lǐng)域的企業(yè)文檔其本體模型相對固定,因此有針對性地選取某一領(lǐng)域內(nèi)的文檔作為本體構(gòu)建的研究對象,具有典型性。本階段作為模式設(shè)計的重點模塊,在對所選企業(yè)相關(guān)領(lǐng)域知識充分調(diào)研理解的基礎(chǔ)上,根據(jù)企業(yè)實際業(yè)務(wù)流程的工作需求,同時考慮相關(guān)本體復(fù)用,對海量的企業(yè)文檔進行細粒度的文檔內(nèi)容解析,從而提煉出文檔中的核心概念表達,抽象形成普適性的領(lǐng)域本體,實現(xiàn)企業(yè)文檔的分類與組織。具體而言,我們可以采用“自頂向下”的本體構(gòu)建方式,通過術(shù)語提取、本體概念學(xué)習(xí)、本體關(guān)系學(xué)習(xí)及規(guī)則制定等步驟,依照專家領(lǐng)域知識在本體編輯器中進行領(lǐng)域知識本體的預(yù)先編輯,最終形成企業(yè)文檔的知識模型。
(三)關(guān)聯(lián)化知識聚合
知識聚合的實質(zhì)就是本體模型實例化的過程,即參照所構(gòu)建的本體模型,將本體概念對應(yīng)文檔實例內(nèi)容進行填充與關(guān)聯(lián),從而實現(xiàn)細粒度、關(guān)聯(lián)化的知識聚合。具體而言,此階段根據(jù)本體構(gòu)建階段所構(gòu)建的文檔知識模型與知識抽取階段所抽取的數(shù)據(jù)三元組進行鏈接與對應(yīng),使文檔知識模型概念都有相應(yīng)的實例數(shù)據(jù)映射匹配。與此同時,本階段會將形式非結(jié)構(gòu)化的、知識內(nèi)容雜糅的文檔數(shù)據(jù)轉(zhuǎn)變?yōu)椤皩嶓w-屬性-關(guān)系”的知識三元組數(shù)據(jù),使文檔數(shù)據(jù)按照特定的本體概念進行重新組織,達到多維度知識聚合效果。此外,本階段還會將文檔資源數(shù)據(jù)和知識三元組數(shù)據(jù)分別存儲至非結(jié)構(gòu)化數(shù)據(jù)庫與圖數(shù)據(jù)庫中,使企業(yè)內(nèi)知識實現(xiàn)由離散的文本化存儲到連續(xù)集中的數(shù)據(jù)庫存儲轉(zhuǎn)變。
(四)智能化知識服務(wù)
本階段會根據(jù)企業(yè)的實際生產(chǎn)運行業(yè)務(wù)場景整理出相應(yīng)業(yè)務(wù)需求,并對如何實現(xiàn)相應(yīng)業(yè)務(wù)需求的技術(shù)要求與知識要求進行分類整理,通過業(yè)務(wù)場景構(gòu)建來實現(xiàn)用戶群需求分析,進而有針對性地提供知識服務(wù)。例如,在生產(chǎn)業(yè)務(wù)中多需要具體參數(shù)查詢,企業(yè)則可以根據(jù)需求設(shè)計文檔自動問答服務(wù)應(yīng)用,將用戶自然語言問句轉(zhuǎn)換為圖數(shù)據(jù)庫可理解的查詢問句,有效提高參數(shù)查詢效率;在運行業(yè)務(wù)中,多需要相關(guān)文檔的推薦服務(wù),企業(yè)則可以在用戶搜索中使用查詢推薦技術(shù),根據(jù)歷史查詢記錄構(gòu)造有效查詢,以實現(xiàn)個性化查詢推薦;而在維修業(yè)務(wù)中多需要數(shù)據(jù)可視化呈現(xiàn),企業(yè)設(shè)計知識地圖應(yīng)用可以使用戶對文檔知識內(nèi)容形成整體總覽效果,進而提高文檔知識檢索和知識管理的效率。
本研究在對比傳統(tǒng)基于文獻編目的企業(yè)文檔聚合模式、基于元數(shù)據(jù)的企業(yè)文檔聚合模式及基于知識組織的企業(yè)文檔聚合模式之后,設(shè)計了企業(yè)文檔深度聚合模式,并以企業(yè)文檔資源為研究對象,經(jīng)過高效化知識抽取、概念化本體構(gòu)建、關(guān)聯(lián)化知識聚合到最后的智能化知識服務(wù),對如何實現(xiàn)企業(yè)文檔資源的內(nèi)容深度聚合展開探究。但由于時間、精力及數(shù)據(jù)獲取問題,筆者對于本文所提出的企業(yè)文檔深度知識聚合模式并未在企業(yè)中廣泛開展實證研究,但相信未來隨著研究的深入,該聚合模式將在各行業(yè)領(lǐng)域文檔實際管理中進行改進與嘗試,其普適性與智能性將得到大大提升。
*本文系國家檔案局科技項目“核電文檔AI中臺建設(shè)研究”(項目編號:2020-X-044)的研究成果之一。
參考文獻:
[1]劉慧琳,劉敬儀,黃健.基于知識庫的企業(yè)文檔智能服務(wù)模式探究[J].北京檔案,2021(9):22-26.
[2]劉漢青,張偉.企業(yè)文檔一體化的實踐分析及思考[J].辦公室業(yè)務(wù),2011(12):4-5.
[3]馮靜.知識管理環(huán)境下企業(yè)文檔一體化研究[J].中國管理信息化,2018,21(17):160-161.
[4]魏扣,李子林,郝琦.檔案知識聚合的實踐模型構(gòu)建研究[J].北京檔案,2018(8):7-10.
[5]趙蓉英,王嵩,董克.國內(nèi)館藏資源聚合模式研究綜述[J].圖書情報工作,2014,58(18):138-143.
[6]趙悅,富平.數(shù)字資源與傳統(tǒng)文獻元數(shù)據(jù)整合[J].國家圖書館學(xué)刊,2007(2):63-65.
[7]何超,張玉峰.基于本體的館藏數(shù)字資源語義聚合與可視化研究[J].情報理論與實踐,2013,36(10):73-76.
[8]王濤.基于關(guān)聯(lián)數(shù)據(jù)的館藏信息資源聚合研究[J].圖書館學(xué)刊,2012,34(8):44-46.
[9]王萍.基于概率主題模型的文獻知識挖掘[J].情報學(xué)報,2011,30(6):583-590.
[10]盧恒,張向先,尚麗維,郭勇.基于知識圖譜的網(wǎng)絡(luò)社區(qū)學(xué)術(shù)資源深度聚合框架研究[J].情報理論與實踐,2021,44(1):180-187.
[11]邱均平,王菲菲.基于共現(xiàn)與耦合的館藏文獻資源深度聚合研究探析[J].中國圖書館學(xué)報,2013(3):25-33.
作者單位:1.福建福清核電有限公司信息文檔處2.中國人民大學(xué)信息資源管理學(xué)院3.人民日報社圖書館