文/劉靖昌、李楊,廣州地鐵集團(tuán)有限公司
隨著城市軌道交通行業(yè)快速發(fā)展,檔案館藏量急速增加,在人工智能技術(shù)廣泛應(yīng)用和數(shù)字化轉(zhuǎn)型的大背景下,如何有效挖掘和利用城軌企業(yè)檔案的價(jià)值,推動(dòng)城軌企業(yè)科技創(chuàng)新與發(fā)展逐漸成為檔案學(xué)界以及城軌行業(yè)關(guān)注的焦點(diǎn)。通過構(gòu)建知識(shí)圖譜模型,借助于NLP自然語言處理、實(shí)體抽取與實(shí)體融合等人工智能技術(shù),細(xì)化檔案數(shù)據(jù)解析顆粒度,提高檔案知識(shí)的語義關(guān)聯(lián),以此解決檔案利用中存在的現(xiàn)實(shí)問題,提高檔案利用的深度,通過有效挖掘檔案知識(shí),實(shí)現(xiàn)檔案知識(shí)智能搜索和個(gè)性化知識(shí)推送,提升城軌企業(yè)檔案利用的服務(wù)水平。
城軌企業(yè)檔案是城軌企業(yè)的財(cái)富,是城軌企業(yè)歷史數(shù)據(jù)的重要載體,在城軌企業(yè)的生產(chǎn)活動(dòng)、人才培養(yǎng)、科研創(chuàng)新等方面發(fā)揮著重要作用。檔案多以非結(jié)構(gòu)化數(shù)據(jù)為主,是企業(yè)的“暗數(shù)據(jù)”,也是企業(yè)亟待挖掘的一大“數(shù)據(jù)礦產(chǎn)”。隨著城軌線路規(guī)模的飛速擴(kuò)張,城軌企業(yè)檔案將達(dá)到前所未有的體量,對傳統(tǒng)的檔案管理模式提出了新的挑戰(zhàn)。目前,部分國內(nèi)城軌企業(yè)檔案管理具有一定的信息化基礎(chǔ),依托檔案管理系統(tǒng)開展檔案歸檔和檔案利用等工作。在當(dāng)前在人工智能技術(shù)廣泛應(yīng)用和數(shù)字化轉(zhuǎn)型的大背景下,如何有效地開展檔案知識(shí)開發(fā),充分挖掘檔案的價(jià)值,提升檔案利用服務(wù)功能,更好地滿足城軌企業(yè)發(fā)展的需求,已經(jīng)成為城軌企業(yè)普遍關(guān)注的新課題。
隨著數(shù)字化時(shí)代的到來,以及新檔案法的頒布實(shí)施,傳統(tǒng)的檔案管理及檔案利用模式已經(jīng)無法滿足城軌企業(yè)檔案管理的要求,更不能滿足用戶對檔案利用越來越高的訴求,簡要來說,主要存在以下問題:
1.檔案全文檢索能力差。經(jīng)過多年的積累,檔案的數(shù)據(jù)量不斷增長,但是,目前檔案管理系統(tǒng)中存儲(chǔ)的大部分歸檔文件以紙質(zhì)掃描件為主,且檔案的元數(shù)據(jù)標(biāo)注太少,導(dǎo)致無法實(shí)現(xiàn)檔案全文檢索功能,甚至有的檔案系統(tǒng)題名檢索功能都不全,檢索命中率低,體驗(yàn)差,嚴(yán)重影響檔案的利用效率和效果。
2.檔案知識(shí)語義關(guān)聯(lián)不足。目前檔案系統(tǒng)主要以檔案分類進(jìn)行存儲(chǔ)和管理,沒有對檔案文件中的內(nèi)容根據(jù)實(shí)際利用的需要進(jìn)行打標(biāo)簽和分類,由于是掃描的文件,知識(shí)單元的提取和加工較為困難,無法跨分類與其他檔案知識(shí)進(jìn)行關(guān)聯(lián),利用難度大。
3.檔案利用流程復(fù)雜。目前檔案利用服務(wù)多以檔案系統(tǒng)與檔案室借閱結(jié)合開展為主,在用戶利用的過程中需要先查詢到相關(guān)的檔案題名,再通過借閱流程進(jìn)行申請,審批通過后才能到檔案室現(xiàn)場進(jìn)行借閱,管理和服務(wù)的效率低。
知識(shí)圖譜的概念最早由Google公司于2012年提出,并將其應(yīng)用于提高搜索的準(zhǔn)確率和提升用戶的搜索體驗(yàn)。在2012年以后,知識(shí)圖譜快速發(fā)展,現(xiàn)在全球知識(shí)圖譜的構(gòu)建案例除了有通用類的知識(shí)圖譜如Wikidata、Freebase等,還有專業(yè)類的知識(shí)圖譜如生物醫(yī)學(xué)領(lǐng)域Linked Life Data、社交領(lǐng)域Facebook等。在國內(nèi),以百度、阿里、騰訊以及一些大數(shù)據(jù)公司均開始探索知識(shí)圖譜在搜索引擎、電子商務(wù)、教育、醫(yī)療、安防、金融等行業(yè)和領(lǐng)域的應(yīng)用,例如百度百科知識(shí)圖譜、阿里巴巴商品知識(shí)圖譜、XLORE多語言百科知識(shí)圖譜等。
知識(shí)圖譜的構(gòu)建一般來說分為兩部分,第一部分為概念層構(gòu)建,即對知識(shí)圖譜中的實(shí)體、屬性及關(guān)系進(jìn)行明確的界定,構(gòu)建知識(shí)圖譜本體模型;第二部分為數(shù)據(jù)層填充,即開展實(shí)體、屬性及關(guān)系數(shù)據(jù)的填充工作。在知識(shí)圖譜的構(gòu)建中,數(shù)據(jù)可能包含大量的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)等數(shù)據(jù)源,需要通過數(shù)據(jù)整合與知識(shí)抽取技術(shù)進(jìn)行處理,通過知識(shí)融合技術(shù)完成實(shí)體對齊和本體對齊,并通過質(zhì)量評估、知識(shí)更新、知識(shí)推理等過程,不斷修正和補(bǔ)充,最終構(gòu)造完整的知識(shí)圖譜。
目前,知識(shí)圖譜已廣泛應(yīng)用于智能搜索、知識(shí)推薦、知識(shí)問答等應(yīng)用領(lǐng)域。以搜索引擎為例,知識(shí)圖譜在搜索引擎中的應(yīng)用如下圖所示。
隨著大數(shù)據(jù)和人工智能技術(shù)的不斷創(chuàng)新和突破,知識(shí)圖譜的應(yīng)用實(shí)踐越來越廣泛,也為城軌企業(yè)檔案知識(shí)的利用提供了新的解決思路。通過構(gòu)建檔案知識(shí)圖譜本體模型,結(jié)合知識(shí)抽取與知識(shí)融合技術(shù),實(shí)現(xiàn)檔案知識(shí)的細(xì)粒度加工、語義關(guān)聯(lián)分析,以此提升檔案知識(shí)利用效率,深化檔案知識(shí)利用層次,充分發(fā)揮城軌企業(yè)檔案的價(jià)值。
知識(shí)圖譜的構(gòu)建,首先要進(jìn)行本體構(gòu)建,即概念層構(gòu)建,目前比較具有代表性的構(gòu)建方法主要有METHONTOLOGY法、TOVE法、骨架法、斯坦福七步法、KACTUS工程法等。我們通過開展城軌企業(yè)檔案業(yè)務(wù)調(diào)研和數(shù)據(jù)調(diào)研,對城軌企業(yè)檔案知識(shí)體系進(jìn)行了整理,結(jié)合檔案知識(shí)的特點(diǎn),確定核心概念、屬性、關(guān)系,完成檔案知識(shí)圖譜本體模型構(gòu)建。構(gòu)建過程主要分為以下幾步:
第一步,確定本體的構(gòu)建范圍。本體構(gòu)建是為了增強(qiáng)檔案知識(shí)關(guān)聯(lián),提高檔案利用的效率和價(jià)值,而城軌企業(yè)檔案中,以工程建設(shè)檔案的利用需求更多,利用價(jià)值最高,因此,可以以工程建設(shè)檔案為切入點(diǎn),待達(dá)到預(yù)期的效果后再逐步擴(kuò)展到其他類別檔案。第二步,確定核心概念和術(shù)語。采用自頂向下的方法,與業(yè)務(wù)專家一起,進(jìn)行數(shù)據(jù)收集和分析,初步定義工程建設(shè)檔案頂層最抽象的概念,然后再逐層細(xì)化。第三步,定義關(guān)系。明確概念間的關(guān)系,包括關(guān)聯(lián)關(guān)系、包含關(guān)系等。第四步,定義概念的對象屬性,描述概念的內(nèi)部結(jié)構(gòu)。第五步,本體形式化,即本體實(shí)例的構(gòu)建和展示,可以使用專業(yè)的本體構(gòu)建工具Protégé,也可以使用其他制圖工具,能清晰表示本體之間的關(guān)系即可。
在初步構(gòu)建了本體模型之后,接下來就是數(shù)據(jù)層的工作了,通過知識(shí)抽取,需要完成實(shí)體、屬性及關(guān)系數(shù)據(jù)的填充。由于檔案數(shù)據(jù)量大、時(shí)間跨度長,數(shù)據(jù)來源包含以數(shù)據(jù)庫類型為主的結(jié)構(gòu)化數(shù)據(jù)和以文檔、圖紙、照片為主的非結(jié)構(gòu)化數(shù)據(jù)。
對于結(jié)構(gòu)化數(shù)據(jù),可以采用D2R(注釋:D2R是一個(gè)能夠?qū)㈥P(guān)系數(shù)據(jù)庫中的內(nèi)容轉(zhuǎn)換成RDF三元組的工具,由于知識(shí)圖譜中儲(chǔ)存的數(shù)據(jù)要求為三元組格式,而我們的結(jié)構(gòu)化數(shù)據(jù)儲(chǔ)存在關(guān)系數(shù)據(jù)庫中,所以需要進(jìn)行轉(zhuǎn)換)將檔案系統(tǒng)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)映射到RDF中,實(shí)現(xiàn)數(shù)據(jù)的解析,抽取題名、案卷、人員、單位、合同、日期等實(shí)體,并獲取相關(guān)實(shí)體的屬性值及實(shí)體間的關(guān)系。
工程建設(shè)檔案知識(shí)圖譜本體模型實(shí)例
對于非結(jié)構(gòu)化數(shù)據(jù),其文檔為了保留原始記錄,大部分是以掃描的圖片形式存入系統(tǒng)中,另外還存在部分尚未電子化的紙質(zhì)檔案。因此,在數(shù)據(jù)處理過程中,ORC文字識(shí)別顯得非常重要。非結(jié)構(gòu)化數(shù)據(jù)的處理過程中,首先要通過引入OCR文字識(shí)別算法,提取非結(jié)構(gòu)化數(shù)據(jù)中的文字,再通過自然語言處理技術(shù),對文字識(shí)別的檔案內(nèi)容完成元數(shù)據(jù)標(biāo)注和知識(shí)標(biāo)簽提取,并通過實(shí)體抽取、關(guān)系抽取、屬性抽取過程,將檔案內(nèi)容進(jìn)行語義關(guān)聯(lián),從知識(shí)層面串聯(lián)人員、單位、工程、項(xiàng)目、成果以及合同、圖紙、報(bào)告等。
實(shí)體抽取主要是從檔案內(nèi)容中辨別和提取已定義實(shí)體的實(shí)例數(shù)據(jù),如機(jī)構(gòu)、線路、工程、標(biāo)段、人員、知識(shí)標(biāo)簽、方案、指標(biāo)等。實(shí)體抽取的完整性、準(zhǔn)確率、召回率等直接影響知識(shí)圖譜構(gòu)建的質(zhì)量和效率,為了提高實(shí)體抽取的效果,可以使用規(guī)則和監(jiān)督學(xué)習(xí)相結(jié)合的方法提取檔案中的實(shí)體,規(guī)則和監(jiān)督學(xué)習(xí)相結(jié)合的方法既解決了單純使用監(jiān)督學(xué)習(xí)算法在準(zhǔn)確率和召回率上的不足,又可以解決基于規(guī)則和詞典抽取需要大量的專家參與的難題,且可以較好的適應(yīng)數(shù)據(jù)變化的新需求。
關(guān)系抽取從文本中發(fā)現(xiàn)實(shí)體之間的語義關(guān)系,并將其映射到實(shí)體關(guān)系三元組上,關(guān)系抽取具體過程比實(shí)體抽取更為復(fù)雜。由于檔案數(shù)據(jù)量巨大,通過使用特征標(biāo)注的有監(jiān)督機(jī)器學(xué)習(xí)方法完成關(guān)系的抽取,并通過基于規(guī)則的方法完成自動(dòng)標(biāo)注,同時(shí)人工介入進(jìn)行校對,確定檔案實(shí)體的語義關(guān)系類型,這樣可以大大提高關(guān)系抽取的效率和質(zhì)量。屬性抽取主要實(shí)現(xiàn)對實(shí)體的完整描述,可以把實(shí)體的屬性也看作是一種關(guān)系,即實(shí)體與屬性值之間的一種名詞性關(guān)系,所以屬性抽取任務(wù)就可以轉(zhuǎn)化為關(guān)系抽取任務(wù)。
在完成檔案知識(shí)圖譜模型構(gòu)建,并抽取實(shí)體、屬性、關(guān)系等數(shù)據(jù)進(jìn)行填充之后,一個(gè)初步的檔案知識(shí)圖譜就完成了。然而,通過知識(shí)抽取獲得的數(shù)據(jù)往往都存在歧義性問題,需要引入知識(shí)融合的相關(guān)技術(shù)。知識(shí)融合包括概念層和數(shù)據(jù)層兩方面,概念層主要是本體對齊,即確定概念、關(guān)系、屬性等本體間關(guān)系的過程,通過機(jī)器學(xué)習(xí)算法對本體間的相似度進(jìn)行計(jì)算來完成。知識(shí)融合在數(shù)據(jù)層的工作包括共指消解和實(shí)體對齊,共指消解是將同一信息源中同一個(gè)實(shí)體的不同表述實(shí)現(xiàn)消歧;實(shí)體對齊是將不同信息源中同一實(shí)體進(jìn)行統(tǒng)一,使信息源之間產(chǎn)生聯(lián)結(jié)。我們可以通過Dedupe工具(注釋:Dedupe是一個(gè)python庫,使用該工具只需用戶標(biāo)注計(jì)算過程選擇的少量數(shù)據(jù),即可有效地對結(jié)構(gòu)化數(shù)據(jù)快速執(zhí)行模糊匹配,相似計(jì)算等操作)開展知識(shí)融合的工作,將來自于不同來源和不同文件的數(shù)據(jù)中對同一實(shí)體的不同表達(dá)融合起來,解決冗余數(shù)據(jù)的問題,提高知識(shí)圖譜的質(zhì)量。
傳統(tǒng)的搜索引擎是基于關(guān)鍵詞或字符串的,并沒有對查詢的目標(biāo)和用戶的查詢輸入進(jìn)行理解,因此搜索的準(zhǔn)確度較低,體驗(yàn)差。而智能搜索引擎,除了需要自然語言處理技術(shù)之外,更少不了知識(shí)圖譜技術(shù),Google和百度等互聯(lián)網(wǎng)搜索引擎就是最早的實(shí)踐者。在檔案搜索中加入知識(shí)圖譜技術(shù),使得搜索引擎可理解用戶的檢索需求,并向用戶展示檔案知識(shí)圖譜的全貌,揭示檔案實(shí)體間的關(guān)系,甚至將檢索結(jié)果顯示為結(jié)構(gòu)化的檔案知識(shí)。在查詢具體的項(xiàng)目檔案時(shí),可以結(jié)構(gòu)化匯聚展示該項(xiàng)目過程的各種數(shù)據(jù),如項(xiàng)目可行性分析報(bào)告、立項(xiàng)報(bào)告、招投標(biāo)資料、合同文件、項(xiàng)目計(jì)劃、項(xiàng)目人員、成果文檔、會(huì)議紀(jì)要等,也可以通過圖譜獲取與該知識(shí)點(diǎn)相關(guān)的其他知識(shí)或相似的項(xiàng)目,通過這種方式實(shí)現(xiàn)整個(gè)檔案知識(shí)圖譜的關(guān)聯(lián)查詢。
知識(shí)推薦可以基于用戶屬性、用戶行為、業(yè)務(wù)場景進(jìn)行分析,為用戶主動(dòng)推薦其感興趣或與當(dāng)前工作相關(guān)的知識(shí)內(nèi)容。檔案知識(shí)推薦轉(zhuǎn)變傳統(tǒng)的被動(dòng)式檔案利用服務(wù)模式,通過收集和調(diào)查檔案使用部門、用戶的需求,結(jié)合系統(tǒng)內(nèi)用戶動(dòng)態(tài)行為,如其訪問頻率、頁面停留時(shí)間以及檢索行為等數(shù)據(jù),實(shí)時(shí)洞察用戶行為意圖,主動(dòng)為其推送潛在感興趣和當(dāng)前需要的檔案知識(shí),進(jìn)一步精準(zhǔn)和高效的開放與共享檔案知識(shí)成果。
智能問答嵌入擬人化的語義理解能力,用戶可用自然語言提問,其背后就是通過知識(shí)圖譜作為問答系統(tǒng)的知識(shí)來源,實(shí)現(xiàn)問答智能化,提高問答效率。
通過探索,期望對軌道交通企業(yè)的檔案利用提供一種可行的思路,利用知識(shí)圖譜提升檔案服務(wù)和利用水平,實(shí)現(xiàn)檔案管理數(shù)字化、檔案利用智能化。
1.提升檔案管理數(shù)字化水平。在數(shù)字化的大環(huán)境下,檔案數(shù)據(jù)量不斷增加,由于檔案的內(nèi)容和結(jié)構(gòu)相對于互聯(lián)網(wǎng)數(shù)據(jù)規(guī)范性更高,因此具有更高價(jià)值?;谥R(shí)圖譜的檔案管理,更重視檔案使用人員的需求,通過檔案數(shù)據(jù)的知識(shí)化提取和關(guān)聯(lián)分析,細(xì)化檔案管理粒度,主動(dòng)挖掘檔案深層次的價(jià)值和知識(shí)。
2.提高檔案利用效率和效果。通過計(jì)算機(jī)可識(shí)別、具有較強(qiáng)操作性以及富含語義關(guān)系的檔案知識(shí)圖譜模型,可以揭示和關(guān)聯(lián)檔案知識(shí)。通過檔案知識(shí)圖譜數(shù)據(jù)層實(shí)例的填充和聚合,采用知識(shí)抽取與知識(shí)融合等技術(shù),實(shí)現(xiàn)檔案的精細(xì)化加工,實(shí)現(xiàn)檔案資源知識(shí)語義關(guān)聯(lián),提高檔案利用效率和效果。
雖然知識(shí)圖譜技術(shù)的試點(diǎn)應(yīng)用看到了一定的效果,但其應(yīng)用還需要不斷深化和完善,由于檔案知識(shí)一個(gè)動(dòng)態(tài)更新的,在完成知識(shí)圖譜建設(shè)后,為持續(xù)完善檔案的語義關(guān)聯(lián),需要對檔案知識(shí)之間深層次關(guān)系開展推理和挖掘,通過知識(shí)推理和知識(shí)更新,不斷更新和完善檔案語義關(guān)聯(lián)。本文目前沒有進(jìn)行檔案知識(shí)推理的應(yīng)用探索,因此如何實(shí)現(xiàn)檔案知識(shí)圖譜的知識(shí)推理,進(jìn)一步完善和填充檔案知識(shí)圖譜是非常具有挑戰(zhàn)性的。