王志剛,吳士泓,李孟全,李 向
(1.遠(yuǎn)光軟件股份有限公司,珠海 519085;2.華中科技大學(xué)管理學(xué)院,武漢 430074)
在互聯(lián)網(wǎng)與計(jì)算機(jī)科學(xué)技術(shù)快速發(fā)展的形勢(shì)下,信息化是企業(yè)發(fā)展的必由之路,對(duì)企業(yè)文檔進(jìn)行網(wǎng)絡(luò)化、自動(dòng)化和電子化管理,實(shí)現(xiàn)全面信息共享是大勢(shì)所趨[1]。因?yàn)槠髽I(yè)大部分有價(jià)值的信息都是以文件形式存在且很多重要的業(yè)務(wù)流程是以文件流驅(qū)動(dòng)的,所以文檔管理在企業(yè)管理中非常重要[2]。國(guó)內(nèi)外的項(xiàng)目文檔管理研究更多的集中在項(xiàng)目文檔管理流程自動(dòng)化方面[3-4],對(duì)于文檔內(nèi)容自身的價(jià)值并沒(méi)有重點(diǎn)關(guān)注導(dǎo)致文檔難以發(fā)揮應(yīng)有價(jià)值[5-6]。
現(xiàn)有文檔管理系統(tǒng)造成項(xiàng)目文檔價(jià)值不能充分利用的主要原因包括以下3點(diǎn):①現(xiàn)有的文檔管理系統(tǒng)對(duì)于文檔的管理比較粗糙,大多是以整個(gè)文檔作為最小粒度,更多考慮的是項(xiàng)目文檔的流程自動(dòng)化,提升項(xiàng)目文檔的編寫、存儲(chǔ)與使用。并沒(méi)有從單個(gè)文檔本身內(nèi)容處理出發(fā),對(duì)于文檔中更小粒度的重要的和有用的信息進(jìn)行捕獲和提取,導(dǎo)致文檔價(jià)值難以充分體現(xiàn)和發(fā)揮。②現(xiàn)有文檔管理系統(tǒng)涉及文檔內(nèi)容處理的過(guò)程主要使用人工進(jìn)行,存在大量重復(fù)性高、內(nèi)容枯燥的工作,這將會(huì)導(dǎo)致難以避免的人為失誤。③現(xiàn)有文檔管理系統(tǒng)對(duì)于文檔的分析與應(yīng)用技術(shù)手段落后,文檔處理質(zhì)量和效率低下,難以實(shí)現(xiàn)多維度文檔智能分析與應(yīng)用??傮w來(lái)說(shuō),現(xiàn)有文檔管理系統(tǒng)對(duì)于企業(yè)各種類型的項(xiàng)目文檔管理與價(jià)值深度挖掘能力不足,自動(dòng)化和智能化程度有待提高。隨著信息化技術(shù)的發(fā)展,如何使用新技術(shù)提高項(xiàng)目文檔處理質(zhì)量和效率,深度挖掘文檔數(shù)據(jù)價(jià)值變得尤為重要。
招投標(biāo)文檔管理系統(tǒng)作為文檔管理系統(tǒng)的一種,也存在文檔價(jià)值利用率低的問(wèn)題。為解決這個(gè)問(wèn)題,本文提供一種基于知識(shí)圖譜的招投標(biāo)文檔管理與應(yīng)用系統(tǒng)。該系統(tǒng)以企業(yè)商務(wù)招投標(biāo)項(xiàng)目管理(項(xiàng)目管理的文檔包括招標(biāo)文檔、投標(biāo)文檔和合同文檔)為例,基于機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、知識(shí)圖譜和光學(xué)字符識(shí)別等人工智能技術(shù)支持智能文檔處理與應(yīng)用,充分挖掘文檔價(jià)值,保證文檔處理質(zhì)量,減少人力成本,提升工作效率。具體而言,針對(duì)非結(jié)構(gòu)化文檔數(shù)據(jù)價(jià)值挖掘不足的問(wèn)題,分別構(gòu)建預(yù)訓(xùn)練模型與規(guī)則相融合的提取模型、圖片分類與光學(xué)字符識(shí)別融合模型進(jìn)行文檔關(guān)鍵文字內(nèi)容和圖片內(nèi)容提取。使用知識(shí)圖譜技術(shù)將抽取的知識(shí)、項(xiàng)目、文檔、外部支撐和佐證等數(shù)據(jù)一起構(gòu)建文檔知識(shí)圖譜,著重構(gòu)建文檔與文檔內(nèi)容之間的深度關(guān)聯(lián),實(shí)現(xiàn)招投標(biāo)文檔數(shù)據(jù)的統(tǒng)一組織與存儲(chǔ),支撐深度知識(shí)挖掘和智能應(yīng)用開(kāi)發(fā)。針對(duì)文檔處理智能化程度低下和人力成本高等問(wèn)題,提供基于機(jī)器學(xué)習(xí)和自然語(yǔ)言處理的文檔智能查重和比對(duì)、基于文檔信息的企業(yè)資質(zhì)審查等模型,將機(jī)械重復(fù)的、內(nèi)容枯燥的文檔處理工作交由機(jī)器自動(dòng)完成。系統(tǒng)提供文檔的智能多維分析、語(yǔ)義檢索、智能問(wèn)答與推薦等應(yīng)用,能夠?qū)崿F(xiàn)文檔管理的多維度智能分析與可視化展示,方便用戶快速獲取文檔知識(shí),實(shí)現(xiàn)挖掘的文檔數(shù)據(jù)輔助決策支持。
人工智能技術(shù)是引領(lǐng)未來(lái)的一種戰(zhàn)略性技術(shù),世界上的主要發(fā)達(dá)國(guó)家都把發(fā)展人工智能作為提高生產(chǎn)力,提升工作效率的有效途徑。2016 年10 月,美國(guó)白宮發(fā)布《為人工智能的未來(lái)做好準(zhǔn)備》和《人工智能研究與發(fā)展戰(zhàn)略規(guī)劃》兩份報(bào)告,將人工智能技術(shù)放到很重要的地位。2017 年7 月,中國(guó)國(guó)務(wù)院印發(fā)《新一代人工智能發(fā)展規(guī)劃》,提出將人工智能放在國(guó)家戰(zhàn)略層面進(jìn)行系統(tǒng)布局[7]。2018年4月,歐盟委員會(huì)通過(guò)《人工智能通訊》,旨在建立《歐洲人工智能聯(lián)盟》,提升歐盟在人工智能相關(guān)領(lǐng)域的生產(chǎn)力和影響力。
當(dāng)前,人工智能已經(jīng)產(chǎn)生了許多細(xì)分領(lǐng)域,比如自然語(yǔ)言處理、知識(shí)圖譜、語(yǔ)音識(shí)別和圖像識(shí)別等,這些領(lǐng)域正在逐步改變著人類的生活。無(wú)論在學(xué)術(shù)界還是工業(yè)界,研究人員都在緊鑼密鼓地研究著人工智能技術(shù),全力搶占人工智能制高點(diǎn)[8]。本文設(shè)計(jì)的文檔管理與應(yīng)用系統(tǒng)充分吸收自然語(yǔ)言處理、知識(shí)圖譜和OCR等多種人工智能技術(shù)的優(yōu)勢(shì),輔助解決文檔管理的各種難題,提升文檔的處理質(zhì)量和效率,提升項(xiàng)目文檔管理的智能化和自動(dòng)化程度,降低人力成本。以下將對(duì)項(xiàng)目文檔管理過(guò)程中使用的幾種關(guān)鍵智能技術(shù)進(jìn)行簡(jiǎn)單介紹。
自然語(yǔ)言處理技術(shù)(natural language processing,NLP)可以讓計(jì)算機(jī)能夠理解人類語(yǔ)言,實(shí)現(xiàn)人與計(jì)算機(jī)之間的信息交互[9-10]。依據(jù)對(duì)語(yǔ)言處理的粒度粗細(xì)不同,自然語(yǔ)言處理可以分為字詞級(jí)、句法級(jí)和篇章級(jí)等三大類技術(shù)。當(dāng)前環(huán)境下,自然語(yǔ)言處理技術(shù)被廣泛應(yīng)用在文本處理[11-12]、問(wèn)答系統(tǒng)[13]等領(lǐng)域。
本文所設(shè)計(jì)的系統(tǒng)主要處理對(duì)象是各種類型的項(xiàng)目文檔,從項(xiàng)目文檔中進(jìn)行知識(shí)提取和對(duì)文檔進(jìn)行查重比對(duì)及校驗(yàn)是一個(gè)重點(diǎn)工作。本文通過(guò)使用自然語(yǔ)言處理字詞級(jí)技術(shù)擬解決項(xiàng)目文檔知識(shí)抽取難度大、文檔比對(duì)和校驗(yàn)困難等問(wèn)題,提升項(xiàng)目文檔知識(shí)挖掘與文檔處理的自動(dòng)化和智能化程度。
知識(shí)圖譜(knowledge graph,KG)以其強(qiáng)大的語(yǔ)義表達(dá)、存儲(chǔ)和推理能力,為互聯(lián)網(wǎng)時(shí)代的數(shù)據(jù)知識(shí)化組織和智能應(yīng)用提供了有效解決方案[14]。谷歌公司的阿米特·辛格博士曾說(shuō):“The world is not made of strings,but is made of things”,這句話表達(dá)的深層含義是知識(shí)圖譜描述真實(shí)世界中存在的各種實(shí)體和概念,以及這些實(shí)體、概念之間的關(guān)聯(lián)關(guān)系[15]。通常來(lái)說(shuō),知識(shí)圖譜包括本體層和實(shí)例層,本體層是以概念/實(shí)體、關(guān)系、屬性等要素組成的語(yǔ)義網(wǎng)絡(luò),實(shí)例層是本體為模式具體存儲(chǔ)的實(shí)例數(shù)據(jù)記錄。
知識(shí)圖譜能夠克服企業(yè)各種結(jié)構(gòu)類型的數(shù)據(jù)不能進(jìn)行有效整合和關(guān)聯(lián)、數(shù)據(jù)價(jià)值挖掘難度大等數(shù)據(jù)管理難題,其強(qiáng)大的語(yǔ)義處理和數(shù)據(jù)結(jié)構(gòu)化組織能力,為企業(yè)充分挖掘數(shù)據(jù)價(jià)值支撐決策提供重要支撐,為企業(yè)的智能化信息應(yīng)用提供基礎(chǔ)。知識(shí)圖譜的常見(jiàn)應(yīng)用包括語(yǔ)義搜索[16-18]、智能問(wèn)答[19-21]和個(gè)性化推薦[22]等。
本文使用知識(shí)圖譜技術(shù)對(duì)企業(yè)項(xiàng)目文檔及其上下游業(yè)務(wù)數(shù)據(jù)構(gòu)建文檔知識(shí)圖譜,解決項(xiàng)目文檔知識(shí)結(jié)構(gòu)化存儲(chǔ)與管理難、知識(shí)檢索不便捷等問(wèn)題。并且,以文檔知識(shí)圖譜為基礎(chǔ),支撐企業(yè)實(shí)現(xiàn)知識(shí)快速檢索、多維統(tǒng)計(jì)分析、智能問(wèn)答與推薦等各種智能應(yīng)用,充分發(fā)揮企業(yè)文檔知識(shí)的價(jià)值,提高知識(shí)服務(wù)的便捷性和準(zhǔn)確性。
光學(xué)字符識(shí)別(optical character recognition,OCR)是利用計(jì)算機(jī)技術(shù)對(duì)圖片上的信息內(nèi)容進(jìn)行提取并轉(zhuǎn)換成一種計(jì)算機(jī)可以處理的字符?;贠CR的識(shí)別系統(tǒng)將圖片文字自動(dòng)轉(zhuǎn)換為字符文本,不僅可以有效縮減存儲(chǔ)空間,還可以減少人工處理信息的成本,提供查詢便捷性以及提升檢索速度。OCR的常見(jiàn)應(yīng)用主要體現(xiàn)在圖片信息檢測(cè)與提?。?3-24]、票據(jù)識(shí)別[25]等。
企業(yè)項(xiàng)目文檔中包含大量的非結(jié)構(gòu)化圖片數(shù)據(jù),這些數(shù)據(jù)在實(shí)際應(yīng)用中具有價(jià)值量大、難以挖掘等特征。本文擬使用OCR 技術(shù)對(duì)文檔中的圖片進(jìn)行檢測(cè)與信息提取,解決圖片數(shù)據(jù)難以被機(jī)器自動(dòng)挖掘價(jià)值信息的問(wèn)題。并且,以使用OCR 對(duì)圖片數(shù)據(jù)進(jìn)行提取的結(jié)構(gòu)化信息作為文檔知識(shí)圖譜的數(shù)據(jù)來(lái)源之一,實(shí)現(xiàn)非結(jié)構(gòu)化圖片數(shù)據(jù)的結(jié)構(gòu)化過(guò)程,達(dá)到充分利用圖片數(shù)據(jù)信息的目標(biāo)。
本文所設(shè)計(jì)系統(tǒng)是基于知識(shí)圖譜、自然語(yǔ)言處理、OCR 和機(jī)器學(xué)習(xí)等人工智能技術(shù)設(shè)計(jì)的項(xiàng)目文檔智能管理與應(yīng)用系統(tǒng),系統(tǒng)核心功能模塊包括項(xiàng)目管理、模板管理、知識(shí)圖譜和統(tǒng)計(jì)查詢。項(xiàng)目管理模塊提供項(xiàng)目管理與數(shù)據(jù)收集、文檔關(guān)鍵信息提取、文檔查重比對(duì)和企業(yè)資格審查。模板管理提供文件模板、知識(shí)抽取模板和企業(yè)資質(zhì)審查資格證書模板。知識(shí)圖譜模板將抽取的知識(shí)與元數(shù)據(jù)構(gòu)建知識(shí)圖譜,實(shí)現(xiàn)文檔的語(yǔ)義互聯(lián)。統(tǒng)計(jì)查詢模塊基于構(gòu)建的文檔知識(shí)圖譜實(shí)現(xiàn)多維統(tǒng)計(jì)分析、語(yǔ)義檢索與智能問(wèn)答等應(yīng)用。依據(jù)文檔處理流程,系統(tǒng)的功能視圖如圖1所示。
圖1 系統(tǒng)功能視圖
本文設(shè)計(jì)的文檔管理系統(tǒng),首先需要對(duì)各種類型的非結(jié)構(gòu)化的電子文檔數(shù)據(jù)(doc/docx、pdf和excel等文檔)進(jìn)行收集與分類存儲(chǔ),同時(shí)需要從外部數(shù)據(jù)庫(kù)獲取業(yè)務(wù)上下游的結(jié)構(gòu)化數(shù)據(jù)。
項(xiàng)目管理功能正是以企業(yè)招投標(biāo)項(xiàng)目為單位,創(chuàng)建招投標(biāo)項(xiàng)目基本信息,上傳與存儲(chǔ)招投標(biāo)過(guò)程中產(chǎn)生的各類非結(jié)構(gòu)化文檔數(shù)據(jù)。項(xiàng)目管理還包含模板功能,模板管理用于管理與配置各類招標(biāo)項(xiàng)目的招標(biāo)文件模板和招標(biāo)項(xiàng)目類型對(duì)應(yīng)的企業(yè)資質(zhì)審核要求模板以及文檔知識(shí)抽取模板。
文檔處理與存儲(chǔ)功能模塊是對(duì)項(xiàng)目管理模塊收集的各種項(xiàng)目文檔進(jìn)行處理與統(tǒng)一結(jié)構(gòu)化存儲(chǔ),其主要包括三個(gè)核心功能:文檔查重比對(duì)、企業(yè)資質(zhì)審查與文檔知識(shí)圖譜構(gòu)建。
2.3.1 文檔查重比對(duì)
文檔查重比對(duì)是文檔處理的一個(gè)重要功能。文檔查重比對(duì)是使用自然語(yǔ)言處理和機(jī)器學(xué)習(xí)算法模型實(shí)現(xiàn)文檔重復(fù)率檢查和文檔版本差異比對(duì)等應(yīng)用,其目標(biāo)是將機(jī)械重復(fù)的文檔處理工作交由機(jī)器自主實(shí)現(xiàn),提高文檔處理效率和降低人力成本。具體而言,本系統(tǒng)提供包括招標(biāo)文檔與招標(biāo)文檔模板、投標(biāo)文檔與招標(biāo)文檔、合同與合同模板等之間的比對(duì),以及投標(biāo)文檔與投標(biāo)文檔之間重復(fù)率查詢等查重比對(duì)功能。文檔查重比對(duì)包括文檔預(yù)處理、文檔數(shù)據(jù)抽取和查重比對(duì)算法等幾個(gè)關(guān)鍵部分。其中,查重比對(duì)算法包括采用simHash 和winnowing 等兩種機(jī)器學(xué)習(xí)算法模型實(shí)現(xiàn)文檔查重,采用diff算法模型實(shí)現(xiàn)文檔比對(duì)。文檔查重比對(duì)的技術(shù)方案如圖2所示。
圖2 文檔查重比對(duì)技術(shù)方案
2.3.2 資格審查
資格審查是文檔處理的另外一個(gè)重要功能。資格審查是對(duì)投標(biāo)企業(yè)的相關(guān)資質(zhì)是否滿足招標(biāo)方的要求以及對(duì)資質(zhì)證明文件的真?zhèn)芜M(jìn)行校驗(yàn)。企業(yè)資質(zhì)證明文件通常是依據(jù)招標(biāo)要求由投標(biāo)方寫在投標(biāo)文件之中。該功能目標(biāo)是將企業(yè)資質(zhì)審核的問(wèn)題交由機(jī)器自動(dòng)實(shí)現(xiàn),進(jìn)而能夠節(jié)省大量時(shí)間成本和人力成本。資格審查的實(shí)現(xiàn)首先需要從招標(biāo)文件中識(shí)別出相應(yīng)的資質(zhì)圖片并分類,使用OCR技術(shù)從資質(zhì)圖片中提取到關(guān)鍵信息以備到發(fā)證機(jī)關(guān)提供的接口進(jìn)行查驗(yàn)。具體而言,本系統(tǒng)進(jìn)行資格審查的過(guò)程包括從投標(biāo)文件中進(jìn)行資質(zhì)圖片數(shù)據(jù)抽取、圖片分類和OCR關(guān)鍵信息識(shí)別等,其中進(jìn)行關(guān)鍵信息提取的技術(shù)路徑是使用DBnet進(jìn)行文本檢測(cè),使用CTC進(jìn)行文本識(shí)別以及使用Inception V3 進(jìn)行文本分類。企業(yè)資格審查的技術(shù)方案如圖3所示。
圖3 企業(yè)資格審查的技術(shù)方案
2.3.3 文檔知識(shí)圖譜構(gòu)建
知識(shí)圖譜是文檔智能管理與應(yīng)用的一個(gè)核心功能之一,它實(shí)現(xiàn)文檔處理結(jié)果結(jié)構(gòu)化存儲(chǔ)與支持文檔上層應(yīng)用。構(gòu)建文檔知識(shí)圖譜是將項(xiàng)目、項(xiàng)目文檔、文檔關(guān)鍵要素、招投標(biāo)公司等項(xiàng)目招標(biāo)過(guò)程中產(chǎn)生的結(jié)構(gòu)化、半結(jié)構(gòu)化和和非結(jié)構(gòu)化等數(shù)據(jù)進(jìn)行統(tǒng)一的結(jié)構(gòu)化組織和存儲(chǔ)。文檔知識(shí)圖譜是以文檔價(jià)值利用為出發(fā)點(diǎn),解決項(xiàng)目文檔知識(shí)結(jié)構(gòu)化存儲(chǔ)與管理難、知識(shí)檢索不便捷等問(wèn)題,支撐企業(yè)的文檔知識(shí)快速檢索、多維統(tǒng)計(jì)分析、智能問(wèn)答與智能推薦等智能應(yīng)用。構(gòu)建文檔知識(shí)圖譜的一個(gè)重要前提是從文檔中提取關(guān)鍵信息。
文檔關(guān)鍵信息提取是文檔處理中構(gòu)建知識(shí)圖譜的一個(gè)子功能,其主要目標(biāo)是從招投標(biāo)文檔、合同文檔中提取有價(jià)值的要素,如從合同文件中抽取合同金額、簽訂日期、簽訂地址、支付方式、權(quán)利與義務(wù)、違約責(zé)任、爭(zhēng)議解決和合同變更等關(guān)鍵要素。文檔關(guān)鍵信息提取的目標(biāo)是采用人工智能技術(shù)手段將文檔這種非結(jié)構(gòu)化類型的數(shù)據(jù)轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)文檔信息的快速利用和價(jià)值挖掘。具體而言,本系統(tǒng)設(shè)計(jì)的信息抽取包括從招投標(biāo)文件中進(jìn)行實(shí)體抽取和文本段落抽?。ㄎ谋径温淇梢砸暈橐粋€(gè)要素)。為達(dá)到信息提取目標(biāo),使用預(yù)訓(xùn)練模型和規(guī)則配置相結(jié)合的模型進(jìn)行實(shí)現(xiàn)。本系統(tǒng)所使用的預(yù)訓(xùn)練模型是百度中文NLP 預(yù)訓(xùn)練模型飛槳ERNIE[26]。以合同要素(實(shí)體和文本段落)抽取為例,使用該預(yù)訓(xùn)練模型和規(guī)則配置相結(jié)合的方法流程圖如圖4所示。
合同要素抽取主要包括以下幾個(gè)步驟:
(1)將合同以段落為單位進(jìn)行劃分(合同中獨(dú)占一行的章節(jié)標(biāo)題也作為一個(gè)段落)。
(2)讀取一個(gè)段落,判斷段落是否為空,如果為空則說(shuō)明達(dá)到合同結(jié)尾,結(jié)束流程并返回結(jié)果;如果不為空,則進(jìn)入步驟(3)。
(3)依據(jù)配置的規(guī)則判斷段落是章節(jié)標(biāo)題還是一段長(zhǎng)文本,如果是長(zhǎng)文本則使用NRNIE 模型抽取滿足要求的實(shí)體并返回步驟(2);如果是章節(jié)標(biāo)題則進(jìn)入步驟(4)。
(4)判斷章節(jié)標(biāo)題是否滿足需求,如果不滿足則返回步驟(2);如果滿足則開(kāi)始記錄該段落讀取相鄰下一段落直至出現(xiàn)新的段落標(biāo)題,記錄兩個(gè)段落標(biāo)題之間的內(nèi)容作為長(zhǎng)文本要素,返回步驟(2)。
在實(shí)現(xiàn)文檔關(guān)鍵信息提取后,可以進(jìn)行文檔知識(shí)圖譜構(gòu)建。實(shí)現(xiàn)知識(shí)圖譜構(gòu)建的過(guò)程包括圖譜Schema 設(shè)計(jì)、數(shù)據(jù)導(dǎo)入(文檔關(guān)鍵信息提取的數(shù)據(jù)以及源數(shù)據(jù))和圖譜構(gòu)建等。其中圖譜Schema 設(shè)計(jì)是定義知識(shí)圖譜中的“實(shí)體”和“關(guān)系”; 文檔關(guān)鍵信息提取是從文檔中提取結(jié)構(gòu)化關(guān)鍵信息作為知識(shí)圖譜的數(shù)據(jù)來(lái)源之一;圖譜構(gòu)建是基于圖譜Schema 設(shè)計(jì)與數(shù)據(jù)源進(jìn)行具體的構(gòu)建過(guò)程。
文檔智能應(yīng)用以滿足企業(yè)智能化建設(shè)為需求,以體現(xiàn)文檔價(jià)值為主要目標(biāo),實(shí)現(xiàn)文檔的智能化處理,提升文檔信息獲取效率和精度,從而實(shí)現(xiàn)輔助企業(yè)進(jìn)行決策。本系統(tǒng)設(shè)計(jì)的文檔智能應(yīng)用的核心能力包括多維文檔信息可視化統(tǒng)計(jì)與分析、文檔檢測(cè)、企業(yè)資格審查、文檔信息精準(zhǔn)檢索、智能問(wèn)答與智能推薦等。多維文檔信息可視化統(tǒng)計(jì)與分析提供自定義維度的文檔信息可視化統(tǒng)計(jì)與展示。文檔檢測(cè)提供文檔查重和比對(duì)功能。企業(yè)資格審查實(shí)現(xiàn)從文檔中獲取企業(yè)資質(zhì)信息并進(jìn)行校驗(yàn)。文檔信息精準(zhǔn)檢索實(shí)現(xiàn)實(shí)體和多條實(shí)體關(guān)系的精準(zhǔn)查詢,可視化顯示實(shí)體關(guān)系關(guān)聯(lián)路徑。智能問(wèn)答提供基于自然語(yǔ)言處理技術(shù)的問(wèn)句意圖解析和答案精準(zhǔn)匹配,實(shí)現(xiàn)智能交互。智能推薦實(shí)現(xiàn)相似內(nèi)容推薦,輔助文檔編寫。
本文設(shè)計(jì)的項(xiàng)目文檔智能管理與應(yīng)用系統(tǒng)的系統(tǒng)架構(gòu)與流程實(shí)現(xiàn)如下文所示。
本系統(tǒng)的整體架構(gòu)設(shè)計(jì)如圖5所示,其包括數(shù)據(jù)層、預(yù)處理層、算法層、存儲(chǔ)層、能力層和應(yīng)用層,架構(gòu)中各層的主要功能如下。
圖5 系統(tǒng)整體架構(gòu)
(1)數(shù)據(jù)層:作為系統(tǒng)建設(shè)的第一個(gè)環(huán)節(jié),數(shù)據(jù)層收集項(xiàng)目管理上下游的不同來(lái)源的數(shù)據(jù),包括doc/docx、pdf、excel 等非結(jié)構(gòu)化格式以及外部數(shù)據(jù)庫(kù)的結(jié)構(gòu)化數(shù)據(jù),為系統(tǒng)建設(shè)提供數(shù)據(jù)支撐。
(2)預(yù)處理層:對(duì)數(shù)據(jù)層獲取的非結(jié)構(gòu)化的文檔數(shù)據(jù)進(jìn)行預(yù)處理,主要包括文檔數(shù)據(jù)清洗、格式轉(zhuǎn)換、文字內(nèi)容提取、資質(zhì)證書提取和文檔表格提取等,將文檔預(yù)處理成算法層可以讀取的輸入數(shù)據(jù)模式,以便進(jìn)行信息抽取。
(3)算法層:對(duì)文檔數(shù)據(jù)進(jìn)行處理和信息抽取,支撐文檔查重比對(duì)和文檔數(shù)據(jù)結(jié)構(gòu)化過(guò)程。具體而言,使用diff、simHash 和winnowing 等機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)文檔查重比對(duì);基于百度公司的飛槳深度學(xué)習(xí)平臺(tái)實(shí)現(xiàn)文檔命名實(shí)體識(shí)別、OCR 和圖片分類等相關(guān)的算法服務(wù);基于Facebook 公司的PyTorch 深度學(xué)習(xí)框架實(shí)現(xiàn)文檔數(shù)據(jù)的實(shí)體關(guān)系抽取。
(4)存儲(chǔ)層:實(shí)現(xiàn)對(duì)原始的非結(jié)構(gòu)化文檔數(shù)據(jù)、結(jié)構(gòu)化的相關(guān)文檔管理上下游數(shù)據(jù)以及從文檔中抽取的數(shù)據(jù)進(jìn)行存儲(chǔ)。其中,Neo4j 圖數(shù)據(jù)庫(kù)用于存儲(chǔ)所有的結(jié)構(gòu)化數(shù)據(jù),為知識(shí)圖譜構(gòu)建與應(yīng)用提供支撐。
(5)服務(wù)層:基于算法層和存儲(chǔ)層的能力為系統(tǒng)提供基礎(chǔ)數(shù)據(jù)統(tǒng)計(jì)、文檔查重比對(duì)、文檔關(guān)鍵信息提取、文檔中的圖片識(shí)別與OCR 以及知識(shí)圖譜構(gòu)建等服務(wù)能力。
(6)應(yīng)用層:實(shí)現(xiàn)文檔智能管理與應(yīng)用,主要包括項(xiàng)目管理、招標(biāo)與投標(biāo)文檔管理、招標(biāo)與投標(biāo)及合同的查重比對(duì)、企業(yè)資格審查、文檔多維分析、智能推薦與智能問(wèn)答、精準(zhǔn)檢索和關(guān)聯(lián)關(guān)系可視化展示等功能。
基于系統(tǒng)的主要功能與系統(tǒng)架構(gòu),系統(tǒng)實(shí)施流程設(shè)計(jì)如圖6所示。
圖6 系統(tǒng)實(shí)施流程
(1)用戶通過(guò)“創(chuàng)建項(xiàng)目”功能新建項(xiàng)目并填寫項(xiàng)目信息。每個(gè)項(xiàng)目是以招標(biāo)項(xiàng)目為基本單位進(jìn)行組織。
(2)項(xiàng)目創(chuàng)建完成后,通過(guò)“上傳文檔”功能分類上傳項(xiàng)目相關(guān)的招投標(biāo)文檔,包括招標(biāo)模板文檔、招標(biāo)文檔、各個(gè)投標(biāo)公司的投標(biāo)文檔、各個(gè)版本的合同文檔等。
(3)判斷用戶是否需要使用文檔“查重比對(duì)”功能。如果需要進(jìn)行文檔查重比對(duì),則可細(xì)分選擇招標(biāo)文檔與招標(biāo)文檔模板、合同與合同模板以及各個(gè)版本合同之間的比對(duì),還可以進(jìn)行投標(biāo)文檔與投標(biāo)文檔之間的重復(fù)率檢測(cè),返回結(jié)果并進(jìn)入“數(shù)據(jù)抽取”功能;如果不需要進(jìn)行文檔查重比對(duì),則直接進(jìn)入“數(shù)據(jù)抽取”功能模塊。
(4)無(wú)論用戶是否使用文檔查重比對(duì)功能都會(huì)流轉(zhuǎn)到“數(shù)據(jù)抽取”功能模塊,該功能模塊既可以從招投標(biāo)文檔及合同文檔中抽取關(guān)鍵信息,也可以根據(jù)需求對(duì)投標(biāo)文檔中的企業(yè)資質(zhì)文件和投標(biāo)標(biāo)價(jià)進(jìn)行提取。對(duì)投標(biāo)文件中的報(bào)價(jià)信息進(jìn)行抽取用于“報(bào)價(jià)對(duì)比”功能,實(shí)現(xiàn)比對(duì)各個(gè)投標(biāo)企業(yè)的報(bào)價(jià)及報(bào)價(jià)明細(xì)。
(5)完成根據(jù)資質(zhì)審核模板中配置的資質(zhì)證明文件類型從投標(biāo)文件中抽取出企業(yè)資質(zhì)證明文件圖片之后可以使用“資質(zhì)審核”功能。該功能使用OCR 技術(shù)對(duì)資質(zhì)文件圖片中的關(guān)鍵信息進(jìn)行提取并依據(jù)這些信息到相應(yīng)的發(fā)證機(jī)關(guān)網(wǎng)站查驗(yàn)真?zhèn)巍?/p>
(6)利用“圖譜設(shè)計(jì)”“基礎(chǔ)數(shù)據(jù)”和“數(shù)據(jù)抽取”三個(gè)模塊的功能實(shí)現(xiàn)構(gòu)建文檔知識(shí)圖譜?!皥D譜設(shè)計(jì)”模塊是以可視化方式設(shè)計(jì)文檔知識(shí)圖譜Schema,是構(gòu)造知識(shí)圖譜的必要前提?!盎A(chǔ)數(shù)據(jù)”模塊管理招標(biāo)過(guò)程中的上下游結(jié)構(gòu)化數(shù)據(jù)信息,可以實(shí)現(xiàn)關(guān)系型數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)到知識(shí)圖譜的映射?!皵?shù)據(jù)抽取”模塊實(shí)現(xiàn)非結(jié)構(gòu)化文檔中提取結(jié)構(gòu)化信息并融合到知識(shí)圖譜?!盎A(chǔ)數(shù)據(jù)”和“數(shù)據(jù)抽取”都是為知識(shí)圖譜的構(gòu)建提供數(shù)據(jù)支撐。
(7)在知識(shí)圖譜Schema 設(shè)計(jì)和支撐數(shù)據(jù)準(zhǔn)備完成之后進(jìn)入“文檔知識(shí)圖譜構(gòu)建”功能模塊進(jìn)行文檔知識(shí)圖譜的構(gòu)建過(guò)程。文檔知識(shí)圖譜構(gòu)建完成后可以通過(guò)“數(shù)據(jù)清洗”和“歸一消歧”等操作實(shí)現(xiàn)手動(dòng)調(diào)優(yōu)和知識(shí)圖譜重構(gòu)。
(8)在文檔知識(shí)圖譜構(gòu)建完成之后,進(jìn)入“文檔知識(shí)圖譜應(yīng)用”功能模塊。該模塊的“多維分析”“精準(zhǔn)檢索”“智能問(wèn)答”和“智能推薦”等四個(gè)主要功能支撐企業(yè)文檔的智能應(yīng)用。
本小節(jié)將對(duì)系統(tǒng)的部分功能進(jìn)行效果展示。圖7 和圖8 是項(xiàng)目信息創(chuàng)建和項(xiàng)目相關(guān)文檔上傳界面。
圖7 項(xiàng)目信息創(chuàng)建功能
圖8 項(xiàng)目文檔上傳功能
圖9 與圖10 分別展示項(xiàng)目文檔的查重與比對(duì)功能。圖9中左邊文檔中的紅色帶下劃線部分在右邊文檔中可以找到相同的描述(紅色部分)。圖10 展示兩個(gè)文檔之間的比對(duì)功能,綠色帶下劃線和紅色帶下劃線字體表示右邊文檔相對(duì)于左邊文檔增加和刪除的內(nèi)容。
圖9 文檔查重功能
圖10 文檔比對(duì)功能
圖11是從文檔中提取出企業(yè)資格證書并進(jìn)行識(shí)別的過(guò)程及結(jié)果,根據(jù)設(shè)計(jì)要求的字段均能正確提取。在提取字段內(nèi)容后根據(jù)字段“名稱”和“統(tǒng)一社會(huì)信用代碼”以及證書類型可以到相應(yīng)的發(fā)證機(jī)關(guān)驗(yàn)證,從而判斷該資質(zhì)的真?zhèn)巍?/p>
圖11 企業(yè)資質(zhì)證書識(shí)別功能
圖12是文檔知識(shí)圖譜Schema 設(shè)計(jì)樣例,其包含7個(gè)實(shí)體(“事物”看作所有實(shí)體的根節(jié)點(diǎn))和14 個(gè)關(guān)系。圖13 是項(xiàng)目及項(xiàng)目文檔多維統(tǒng)計(jì)功能,圖中展示的統(tǒng)計(jì)維度包括年份、項(xiàng)目總個(gè)數(shù)、投標(biāo)次數(shù)、投標(biāo)單位個(gè)數(shù)、項(xiàng)目所在地區(qū)、項(xiàng)目類型及個(gè)數(shù)、項(xiàng)目標(biāo)的類型及個(gè)數(shù)等。
圖12 文檔知識(shí)圖譜Schema設(shè)計(jì)功能
圖13 文檔多維統(tǒng)計(jì)分析功能
現(xiàn)有的文檔管理系統(tǒng)主要存在兩方面的問(wèn)題:(1)以整個(gè)文檔為管理對(duì)象,因不能提取文檔中的更細(xì)粒度的價(jià)值信息而導(dǎo)致文檔的價(jià)值不能被充分挖掘,且因忽略了文檔與文檔及文檔知識(shí)之間的關(guān)聯(lián)關(guān)系構(gòu)建,導(dǎo)致整個(gè)文檔與文檔信息的組織較為松散;(2)文檔處理大多是使用人工進(jìn)行的,效率低下且容易發(fā)生人為失誤。本文采用自然語(yǔ)言處理、知識(shí)圖譜和OCR等人工智能技術(shù)實(shí)現(xiàn)的基于知識(shí)圖譜的文檔智能管理系統(tǒng)能夠有效解決以上問(wèn)題。體現(xiàn)在本文所設(shè)計(jì)系統(tǒng)的四大核心創(chuàng)新點(diǎn)::①智能抽取文檔關(guān)鍵信息?;谧匀徽Z(yǔ)言處理、OCR 和機(jī)器學(xué)習(xí)等相關(guān)技術(shù),對(duì)于根據(jù)業(yè)務(wù)需求制定的數(shù)據(jù)模型(以知識(shí)圖譜Schema 設(shè)計(jì)進(jìn)行表達(dá))中的無(wú)法從已有結(jié)構(gòu)化的數(shù)據(jù)源中獲取的數(shù)據(jù)創(chuàng)建機(jī)器學(xué)習(xí)模型自動(dòng)從文檔中進(jìn)行抽取。②智能企業(yè)資質(zhì)審查。基于知識(shí)圖譜和OCR 技術(shù)對(duì)企業(yè)進(jìn)行資質(zhì)審核。③智能文檔查重比對(duì)?;谧匀徽Z(yǔ)言處理和機(jī)器學(xué)習(xí)算法模型實(shí)現(xiàn)文檔查重和比對(duì)等功能。④智能文檔多維分析。基于知識(shí)圖譜、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)等相關(guān)技術(shù)進(jìn)行文檔預(yù)處理、知識(shí)抽取和知識(shí)存儲(chǔ),實(shí)現(xiàn)非結(jié)構(gòu)化文檔知識(shí)的結(jié)構(gòu)化組織與管理,并在此基礎(chǔ)上展開(kāi)文檔信息多維統(tǒng)計(jì)與分析,支持文檔信息智能查詢與精準(zhǔn)檢索,支持文檔信息智能問(wèn)答與智能推薦。該系統(tǒng)能夠?qū)崿F(xiàn)文檔價(jià)值深度挖掘,大幅提高文檔處理質(zhì)量和效率,降低人力成本和提升工作效率。值得注意的是本文設(shè)計(jì)的項(xiàng)目文檔智能管理與應(yīng)用系統(tǒng)在應(yīng)用中可能存在功能設(shè)計(jì)不足、通用性較差等問(wèn)題,在未來(lái)需要結(jié)合企業(yè)實(shí)際應(yīng)用逐步完善系統(tǒng)的功能設(shè)計(jì),提升系統(tǒng)的易用性和通用性。