黃 健 劉敬儀 李 喆/福建福清核電有限公司
在當前的企業(yè)中,針對文檔的知識化建設(shè)和智能化建設(shè)已逐步開展,但其建設(shè)方向往往只針對知識化或智能化某一個單一方向,或者其中一方建設(shè)完成后才開始建設(shè)另一方,這樣的建設(shè)方式缺乏融合共建的思想,無法發(fā)揮出“數(shù)據(jù)+技術(shù)”的最大價值。而本文即在此背景下進行研究,將AI能力進行集中管理和利用,進行企業(yè)文檔知識庫與AI資源池融合建設(shè),深度挖掘和利用文檔中的知識碎片,為企業(yè)決策提供有力支撐,從而提升企業(yè)核心競爭力。
目前國內(nèi)在企業(yè)知識庫建設(shè)的理論方面和應用實踐方面的研究已有較多成果。董軍等對企業(yè)文檔知識庫進行構(gòu)建,實現(xiàn)了知識分類、檢索、發(fā)布、獲取與處理能力,進而實現(xiàn)了顯性知識的搜集利用、隱性知識的提取轉(zhuǎn)化、企業(yè)知識的查詢檢索以及知識在企業(yè)內(nèi)部的共享[1];譚政等提出在SaaS平臺環(huán)境下進行知識庫建設(shè)研究,實現(xiàn)文檔多人協(xié)同編輯與多版本管理,提升了企業(yè)內(nèi)部在文檔編輯方面的效率和進行知識共享的積極性[2];張斌等對海量數(shù)字檔案資源進行知識的提取、整合、管理,構(gòu)建面向決策的檔案知識庫,充分發(fā)揮檔案的內(nèi)在價值,實現(xiàn)檔案數(shù)據(jù)深層次開發(fā)利用,從而為檔案用戶提供個性化的決策服務[3]。
近年來,文檔領(lǐng)域的信息化建設(shè)越來越注重人工智能新興技術(shù)對電子文檔管理的智能化提升與優(yōu)化,取得了很多研究成果。邢高生利用命名實體識別、實體關(guān)系抽取、知識表示方法等AI技術(shù)對HKBZ領(lǐng)域的文檔數(shù)據(jù)進行處理,提升文檔數(shù)據(jù)檢索的效率和質(zhì)量;構(gòu)建完整的領(lǐng)域知識體系,提升文檔數(shù)據(jù)利用率;完成專屬領(lǐng)域知識庫建設(shè),實現(xiàn)知識關(guān)聯(lián)和共享[4]。楊強等基于圖像識別技術(shù)實現(xiàn)對電子文檔的清晰度檢測和文字識別,從而輔助文檔管理人員的日常工作,通過圖像識別技術(shù)拆分文檔中的原始信息,與文檔錄入信息進行自動對比,保障文檔數(shù)據(jù)的準確性,同時提高員工的工作效率[5]。
當前研究多集中在某些具體的應用點上,技術(shù)力量分散,AI能力沒有得到有效整合,無法真正發(fā)揮出文檔的價值;且可復用性較差,容易造成能力重復建設(shè)。所以需要開展統(tǒng)一的AI資源池建設(shè)研究,實現(xiàn)AI能力集中管理與利用。
隨著知識庫建設(shè)和人工智能的不斷發(fā)展,人們開始在知識庫與人工智能的融合建設(shè)方面開展探索與研究。吳慶海提到人工智能時代下的知識管理將進入新階段,在包括知識標引、知識搜索、知識創(chuàng)造、知識推送、智能決策支持等應用場景中,知識庫建設(shè)與AI建設(shè)將不斷融合,產(chǎn)生極大應用價值,同時提出AI賦能知識管理技術(shù)架構(gòu)[6];董小英等提出在數(shù)字經(jīng)濟時代,知識管理對數(shù)據(jù)的提取和梳理、數(shù)據(jù)轉(zhuǎn)變?yōu)橹R的準確性和實時性有了更高要求,這樣使得數(shù)據(jù)的深度挖掘和異構(gòu)整合成為知識管理建設(shè)的重要內(nèi)容,而在這其中人工智能技術(shù)將發(fā)揮重要作用[7]。
知識庫與人工智能的融合建設(shè)已經(jīng)越來越受到重視。本文將結(jié)合最新的知識庫與AI技術(shù),對兩者的融合共建模式進行探討,通過對文檔知識庫的AI賦能研究,進一步提高企業(yè)文檔管理智能化水平,發(fā)揮企業(yè)文檔潛在價值。
企業(yè)文檔知識庫的目標是將用戶所輸入的文檔數(shù)據(jù)信息,經(jīng)過分析判斷后輸出給用戶更高層次、更高質(zhì)量的知識。因此,文檔知識庫最關(guān)鍵的功能是實現(xiàn)知識表示、知識獲取和知識利用,這與人工智能的研究范疇具有一致性。由此可見,人工智能的相關(guān)技術(shù)可應用于文檔知識庫中[8]。
AI資源池各個算法之間成模塊化構(gòu)成,松耦合,可拓展,系統(tǒng)內(nèi)集成算法可根據(jù)文檔治理場景下的需要進行可持續(xù)性開發(fā)和集成,在兼顧經(jīng)濟性、安全性、實用性的前提下,能夠進一步提升知識庫對文檔數(shù)據(jù)解析、知識挖掘的能力與效率。
AI技術(shù)的發(fā)展,需要學習大量知識和經(jīng)驗,這些知識和經(jīng)驗需要海量的數(shù)據(jù)作為支持,海量的數(shù)據(jù)能夠作為AI發(fā)展的數(shù)據(jù)積累和訓練資源。
企業(yè)文檔知識庫除了包含大量原始文檔資源(目錄數(shù)據(jù)庫、全文數(shù)據(jù)庫、多媒體數(shù)據(jù)庫、元數(shù)據(jù)數(shù)據(jù)庫等)之外,還通過分類、提煉、存儲、呈現(xiàn)等流程[9]對文檔資源進行異構(gòu)資源整合,抽取知識并進行知識組織,并通過關(guān)聯(lián)規(guī)則等發(fā)現(xiàn)文檔之間的多維網(wǎng)狀知識關(guān)聯(lián),從而通過智能化手段發(fā)現(xiàn)其中的隱性知識。企業(yè)文檔知識庫作為具備多種描述維度的知識模型體系,相比普通文檔庫,具備大量的規(guī)則與分類信息,能更加清晰地闡明數(shù)據(jù)間的關(guān)系,為AI資源池的各項技術(shù)提供了關(guān)聯(lián)化、智能化的數(shù)據(jù)基礎(chǔ)。
簡單來說,企業(yè)文檔知識庫的建設(shè)需要AI資源池的技術(shù)支持,以文檔知識庫為數(shù)據(jù)基礎(chǔ)的智能文檔應用也依賴AI技術(shù)來實現(xiàn),在文檔知識庫不斷建設(shè)完善的過程中,其知識內(nèi)容可作為AI資源池的訓練數(shù)據(jù)來源,從而促進AI資源池技術(shù)能力不斷升級。
隨著知識庫建設(shè)領(lǐng)域的不斷發(fā)展,主流文檔知識庫的實現(xiàn)大部分依賴于人工智能提供的先進方法和技術(shù)支撐,企業(yè)建設(shè)AI資源庫的同時,諸如規(guī)則、框架、語義網(wǎng)絡(luò)或本體等一系列形式化知識表示(知識描述)方法和技術(shù)都可直接運用到文檔知識庫的構(gòu)建中,為其構(gòu)建提供方法和技術(shù)上的支撐[10]。因此,AI資源池和文檔知識庫建設(shè)運用的技術(shù)是可以相互借鑒和融合的。在此基礎(chǔ)上,雙方借鑒融合過程中需要執(zhí)行相應的國際和國家標準規(guī)范,從而增強后續(xù)以AI和文檔知識庫融合共建所衍生應用的兼容性和魯棒性。
由企業(yè)文檔知識庫與AI資源池融合共建的關(guān)系說明內(nèi)容可知,企業(yè)文檔知識庫與AI資源池的融合共建模式構(gòu)建,主要圍繞數(shù)據(jù)、技術(shù)、標準三個角度進行,具體工作從技術(shù)實現(xiàn)層面主要可以分為數(shù)據(jù)融合、標準融合、技術(shù)融合,從管理機制層面主要是解決主體共建、數(shù)據(jù)共建、技術(shù)共建等問題,下面將以核電行業(yè)為例進行闡述。
3.1.1 數(shù)據(jù)融合
企業(yè)文檔知識庫和AI資源池都是以文檔部門所藏的豐富文檔資源為處理對象,其本質(zhì)為文檔中的多源異構(gòu)數(shù)據(jù)??山柚鶤I資源池的算法技術(shù)提取文檔數(shù)據(jù),并處理、匯總、整理為滿足文檔知識庫管理使用要求的結(jié)構(gòu)化知識數(shù)據(jù),該數(shù)據(jù)既可保存在文檔知識庫形成基礎(chǔ)設(shè)施,也可以作為訓練數(shù)據(jù)集,再次輸入AI資源池,促進AI資源池算法不斷升級。
以核電企業(yè)為例,由文檔管理部門提供的合同、圖紙、生產(chǎn)記錄文件/音像等數(shù)據(jù),可由核電AI資源池通過語義分析、關(guān)系抽取等,建立知識圖譜,圖譜中的三元組數(shù)據(jù)既可輸入到AI資源池中作為數(shù)據(jù)集參與訓練,也可以保存在核電文檔知識庫中作為基礎(chǔ)設(shè)施,為核電知識查詢、知識推薦等其他智能應用的開發(fā)奠定基礎(chǔ)。
3.1.2 標準融合
在企業(yè)建設(shè)文檔智能化應用的時候,分別作為數(shù)據(jù)來源和技術(shù)來源的文檔知識庫和AI資源池應確保技術(shù)標準、傳輸標準、存儲、數(shù)據(jù)結(jié)構(gòu)等的標準保持一致、相互支撐,避免出現(xiàn)多源異構(gòu)數(shù)據(jù),以及傳輸標準不一致導致人力物力浪費等。這需要文檔人員和信息技術(shù)人員在針對項目具體需要多少標準的支撐才最為合適、這些標準分別是什么、現(xiàn)有的標準可以直接使用還是再改進、可以直接借鑒或間接借鑒的標準有哪些、有哪些標準急需開發(fā)、哪些標準可以稍緩等一系列問題中,確認AI資源池與文檔知識庫融合過程中標準的數(shù)量、質(zhì)量、內(nèi)容、適用性等有待繼續(xù)深化的合并要求[11]。
以核電維修領(lǐng)域為例,維修規(guī)程作為核電文檔一部分,在建立知識庫過程中,需要根據(jù)維修規(guī)程的電子格式、頁面格式建立信息系統(tǒng)文件存儲標準以及文檔解析標準,從而正確實現(xiàn)數(shù)據(jù)的結(jié)構(gòu)化提取。與此同時,AI資源池需根據(jù)同樣的標準建立知識模型,從而正確將知識庫的文檔數(shù)據(jù)輸入AI資源池進行關(guān)系提取、知識圖譜建立等相關(guān)操作。
3.1.3 技術(shù)融合
企業(yè)檔案管理者與信息工作者在建設(shè)文檔知識庫和AI資源池時,應關(guān)注知識庫業(yè)務層技術(shù)與AI資源池基礎(chǔ)技術(shù)上的協(xié)同點,實現(xiàn)兩者技術(shù)相輔相成。文檔知識庫建設(shè)中運用到的大數(shù)據(jù)存儲傳輸技術(shù)、私有云技術(shù),可快速為AI資源池提供基礎(chǔ)性的圖紙、設(shè)備參數(shù)、合同文本、實體數(shù)據(jù)供給,AI資源池可為文檔知識庫提供知識抽取、自然語言處理、知識圖譜構(gòu)建、文檔智能批分等數(shù)據(jù)加工必備的智能算法,通過兩者技術(shù)融合,企業(yè)可實現(xiàn)基于文檔數(shù)據(jù)建立知識圖譜、自動問答等智能化應用。
3.2.1 主體共建
企業(yè)知識庫與AI資源池的主體共建過程,作為跨學科合作項目,需要參考系統(tǒng)工程的相關(guān)標準,建立項目全生命周期模型及相關(guān)工作流程[12],建立遵循文檔生命周期的全部業(yè)務主體共建體系。通常企業(yè)的檔案管理部門與AI建設(shè)部門是相互獨立的,一般來說,文檔部門管理公司內(nèi)部每個階段不同業(yè)務類別的文檔,并牽頭負責文檔知識庫的建設(shè)、管理、運作;信息部門負責公司信息化項目開發(fā)、管理、推進,負責企業(yè)AI資源池的開發(fā)、建設(shè)、運維,并配合業(yè)務部門提供AI技術(shù)服務。文檔部門牽頭推進文檔知識庫建設(shè)的時候,需協(xié)調(diào)信息部門提供技術(shù)支持,在AI資源池中提供知識抽取、自然語言處理、知識圖譜構(gòu)建、文檔智能批分等文檔業(yè)務所需的技術(shù)服務接口,接口設(shè)計需由文檔部門參與并提供業(yè)務指導。融合進AI技術(shù)的文檔知識庫及其衍生的文檔智能化應用在運作過程中,由檔案人員對AI處理結(jié)果進行業(yè)務正確性審核,并將修正意見閉環(huán)反饋至AI資源池后臺,起到循環(huán)加強作用。
3.2.2 數(shù)據(jù)共建
在文檔管理業(yè)務領(lǐng)域,文檔部門在開展文檔知識庫及衍生文檔智能化應用建設(shè)規(guī)劃時,可通過設(shè)計周密的問卷對關(guān)鍵用戶進行調(diào)研,通過問卷獲得第一手資料,掌握關(guān)鍵用戶的檔案利用需求特點、所需的檔案知識類型、對檔案知識庫的功能和性能方面的要求,以此作為參考,細化或完善現(xiàn)有檔案知識庫的建設(shè)需求分析。以核電行業(yè)為例,核電企業(yè)的生產(chǎn)數(shù)據(jù)以SSC結(jié)構(gòu)(Structure System Component)為數(shù)據(jù)標準架構(gòu),SSC為核電廠的構(gòu)筑物、系統(tǒng)和設(shè)備的總稱,主要用于描述在電廠的設(shè)計、采購、安裝、調(diào)試和運營等階段中涉及的物理實體。
在核電文檔知識庫建設(shè)過程中,文檔部門根據(jù)建設(shè)需求與信息部門人員開展有效溝通,明確合作協(xié)議前提及相關(guān)管理規(guī)范,實現(xiàn)建成的文檔知識庫中各子公司、各部門間依據(jù)限定規(guī)程進行數(shù)據(jù)共享、交互、下載、上傳。為了實現(xiàn)這一目標,企業(yè)管理層根據(jù)SSC數(shù)據(jù)結(jié)構(gòu)、各部門職能、文檔編制情況牽頭制定文件查閱、上傳、下載權(quán)限范圍,并通過公司管理程序固化,由文檔管理部門牽頭、公司信息部門支持,在智能文檔知識庫中設(shè)置用戶權(quán)限標準。
除了文檔領(lǐng)域自身的控制以外,文檔部門可進一步參與企業(yè)業(yè)務流程中數(shù)據(jù)流的模式構(gòu)建與規(guī)劃,提高前端控制的能力,確保公司業(yè)務數(shù)據(jù)與文檔部門的管理策略相兼容。
3.2.3 技術(shù)共建
文檔知識庫建設(shè)需要文檔部門掌握成熟的業(yè)務管理技術(shù),同時還需要信息部門提供高效的信息技術(shù),滿足大數(shù)據(jù)時代對提高數(shù)據(jù)挖掘、信息組織等現(xiàn)有業(yè)務能力的要求。這就要求文檔部門與信息部門在文檔知識庫及文檔智能化應用建設(shè)規(guī)劃過程中充分溝通、明確需求。具體體現(xiàn)在文檔部門建設(shè)文檔知識庫前期需提供必要的技術(shù)需求,信息部門則提供有效的技術(shù)保障。
對于企業(yè)來說,企業(yè)文檔知識庫與AI資源池融合共建可以為企業(yè)帶來新型企業(yè)知識管理形態(tài),為企業(yè)轉(zhuǎn)型、提高應變能力和創(chuàng)新能力奠定基礎(chǔ),具體實現(xiàn)上可以從AI賦能知識、智能知識服務、數(shù)智轉(zhuǎn)型升級三個角度來進行闡述。
目前已有的企業(yè)文檔知識庫在建設(shè)過程中著重對已有知識進行關(guān)系梳理,然后基于文檔數(shù)據(jù)形成知識圖譜,知識圖譜只是一種知識表達的方式,僅僅從關(guān)系的角度展示知識。而將企業(yè)文檔知識庫與AI資源池融合共建,在服務建設(shè)上用AI賦能知識,可以更好地運用企業(yè)已有的文檔數(shù)據(jù)建設(shè)新型文檔知識庫,這樣的文檔知識庫不僅滿足基于文檔數(shù)據(jù)形成知識圖譜,而是基于形成的知識圖譜進行預測與推理,即通過AI技術(shù)賦能知識,使之從知識成為智慧,從而更好地提高企業(yè)決策水平,促進企業(yè)決策科學高效。
企業(yè)文檔知識庫與AI資源池融合共建,拓寬了知識庫與智能技術(shù)的服務形式,企業(yè)文檔知識庫從此前的靜態(tài)、被動的知識服務轉(zhuǎn)向動態(tài)、主動的知識服務,以決策需求為中心,從需求倒推,通過決策偏好分析和用戶建模等方式主動挖掘和預測決策需求。從內(nèi)容角度而言,要求按照特定的決策領(lǐng)域來組織和實施服務,如在核電主業(yè)務、行政人事、外部事物等多維場景下,都能保證知識服務的內(nèi)容滿足決策需要,避免“南轅北轍”的問題出現(xiàn);從用戶角度而言,可針對用戶的角色、職能的不同提供特定的知識服務及決策方向,在企業(yè)整個動態(tài)組織架構(gòu)下維持動態(tài)的、個性化的決策體系,從而滿足不同層級人員的工作需要;從過程角度而言,則需要針對特定的企業(yè)決策過程提供知識服務,保障在整個決策流程中不斷發(fā)掘需求,提供全程可靠的全流程知識服務。
企業(yè)數(shù)智化轉(zhuǎn)型是近年來熱門話題,企業(yè)成功的數(shù)智化轉(zhuǎn)型將引導企業(yè)走向更高層次的智慧化賦能,為企業(yè)帶來巨大收益,而企業(yè)文檔知識庫與AI資源池的融合共建能夠更好地推動企業(yè)數(shù)智轉(zhuǎn)型升級。對企業(yè)來說,數(shù)智化轉(zhuǎn)型即企業(yè)數(shù)字化、智慧化,傳統(tǒng)知識庫的建立,將企業(yè)的紙質(zhì)文檔或電子文檔中的內(nèi)容數(shù)據(jù)由整體轉(zhuǎn)化為零散信息,并經(jīng)過加工形成信息知識庫,這實現(xiàn)的是企業(yè)數(shù)智化轉(zhuǎn)型的第一步即數(shù)字化轉(zhuǎn)型,而要實現(xiàn)接下來的智慧化,必須要引導企業(yè)在長時間中處于一個認知、學習、適應、接受的過程,而這個過程恰恰需要企業(yè)通過AI技術(shù)建立高效能的文檔知識庫,運用知識庫的信息結(jié)合AI技術(shù)進行學習、抽象、提取,通過各業(yè)務場景決策的推導、預測,不斷將傳統(tǒng)業(yè)務智能化,實現(xiàn)戰(zhàn)略轉(zhuǎn)型和業(yè)績增長。