◎北京空間機電研究所 劉麗玲 范慧莉 趙青青 閆順琪 孫麒 劉啟賢
隨著網(wǎng)絡(luò)化、智能化技術(shù)的飛速發(fā)展,航天企業(yè)的信息化、辦公自動化水平顯著提升,與此同時,也給國家涉密信息的安全防護工作帶來了新的挑戰(zhàn)。在保密管理工作中敏感內(nèi)容輸出檢查是一個重要的環(huán)節(jié)。目前,大部分航天企業(yè)對專網(wǎng)用戶日常處理的信息進行監(jiān)督和檢查時,還只是通過對保密安全系統(tǒng)的入口進行監(jiān)督和審計。近些年,為適應(yīng)運營業(yè)務(wù)需要,航天企業(yè)建立了多種保密安全系統(tǒng),由于系統(tǒng)入口數(shù)量多,各系統(tǒng)審計的顆粒度、審計標準不統(tǒng)一,給涉密信息內(nèi)容的檢查帶來了諸多問題,因此構(gòu)建面向航天專網(wǎng)的敏感內(nèi)容審查系統(tǒng),改進檢查方法手段,加強對日常工作中傳播文件敏感信息的識別與控制,在航天企業(yè)保密安全管理工作中顯得尤為重要。
面向航天專網(wǎng)的敏感內(nèi)容審查系統(tǒng)需要實現(xiàn)以下三方面的目標功能:
1、根據(jù)統(tǒng)一的敏感信息篩查規(guī)則,對所有客戶端的打印內(nèi)容進行自動檢查,審計高密級文檔按低密級打印等違規(guī)行為。
2、根據(jù)統(tǒng)一的敏感信息篩查規(guī)則,對所有客戶端的刻錄內(nèi)容進行自動審查,審計高密級文檔按低密級刻錄等違規(guī)行為。
3、對定制化的敏感信息防護要求,能夠?qū)Υ龣z查的文件內(nèi)容進行全文檢索審查。
設(shè)計面向所有應(yīng)用系統(tǒng)的統(tǒng)一的接口協(xié)議,敏感內(nèi)容審查系統(tǒng)通過調(diào)用統(tǒng)一的接口可以收集郵件系統(tǒng)、導(dǎo)入導(dǎo)出系統(tǒng)、打印系統(tǒng)等第三方系統(tǒng)的數(shù)據(jù),基于數(shù)據(jù)解析技術(shù)、OCR識別技術(shù),進行文本內(nèi)容提取。利用全文檢索技術(shù),根據(jù)預(yù)先定義的敏感內(nèi)容審查規(guī)則對數(shù)據(jù)進行深度的內(nèi)容審查,通過上述的主要功能,構(gòu)建一套集安全、可控、高效于一體的保密審查管理體系。
圖1 內(nèi)容審查管理系統(tǒng)架構(gòu)圖
敏感內(nèi)容審查系統(tǒng)架構(gòu)圖如圖1所示。
借助統(tǒng)一的接口協(xié)議,利用OCR內(nèi)容識別提取技術(shù)、數(shù)據(jù)傳輸技術(shù)來自動同步郵件、導(dǎo)入導(dǎo)出、打印等辦公應(yīng)用系統(tǒng)的任務(wù)日志和任務(wù)內(nèi)容文件,將同步的數(shù)據(jù)通過數(shù)據(jù)解析技術(shù)進行文字解析提取后保存在數(shù)據(jù)庫中,用于后續(xù)的內(nèi)容審查。
系統(tǒng)管理員可根據(jù)實際管理要求,配置企業(yè)級保密審查員和多個部門級保密審查員,并配置審查員的相應(yīng)權(quán)限和審查范圍。通常審查范圍要求如下:
所級審查員:具有定期對全企業(yè)各涉密系統(tǒng)、所有客戶端文件檢索審查的權(quán)限。
部門級審查員:具有對部門內(nèi)所有客戶端文件檢索審查的權(quán)限,可以自定義審查規(guī)則。
保密審查員可以按照涉密等級、業(yè)務(wù)內(nèi)容設(shè)定敏感內(nèi)容、風(fēng)險篩查點規(guī)則,其規(guī)則通常為關(guān)鍵主題詞的集合,如密級、型號代號、型號名稱等不同類型關(guān)鍵字或者具體的型號名稱和型號代號值。
根據(jù)審查員設(shè)定的敏感內(nèi)容篩查規(guī)則,自動對系統(tǒng)中存儲的文本內(nèi)容或圖片進行全文檢索,并生成風(fēng)險報告。根據(jù)風(fēng)險報告按照審查員預(yù)先設(shè)定的審查周期自動生成審查報告。生成周期分為日報、周報、月報、季報、年報。也可以根據(jù)實際業(yè)務(wù)需要,指定特定的時間范圍進行手動生成審查報告。
保密審查員可以自定義關(guān)鍵敏感詞進行全文檢索,系統(tǒng)將含有關(guān)鍵字的所有文本內(nèi)容顯示在列表中,審查員可以根據(jù)需要顯示檢索內(nèi)容的上下文,也可以查看任務(wù)的預(yù)覽文件和下載原文。關(guān)鍵字在上下文及預(yù)覽文件中全部以高亮顯示,便于用戶迅速查看定位,根據(jù)敏感詞所處語境判斷是否涉密。
敏感內(nèi)容審查系統(tǒng)的OCR(Optical Character Recognition)內(nèi)容提取采用的是光學(xué)字符識別技術(shù),對圖片中的圖像數(shù)據(jù)進行轉(zhuǎn)碼、數(shù)據(jù)處理、字符識別、位置識別等。OCR的概念最早由德國科學(xué)家TauSheck在1929年首次提出,我國在“863”計劃以后開始OCR技術(shù)的研究,經(jīng)過近百年的發(fā)展,軟件硬件的不斷更新?lián)Q代,目前對漢字的識別率已經(jīng)超過98%[1-2]。在信息識別領(lǐng)域比較常用的有開源的Tesseract、OCRopus、Cuneiform等,商用的有漢王、ABBYY、ExperVision TypeReader等。
面向航天專網(wǎng)的敏感內(nèi)容審查系統(tǒng)在選擇OCR引擎時,應(yīng)主要考慮以下幾個方面:
(1)完全斷網(wǎng)使用。航天企業(yè)根據(jù)不同工作環(huán)境的限制,存在離線工作情況,所以O(shè)CR系統(tǒng)從圖片識別,到授權(quán)方式必須支持在離線的環(huán)境中進行,且不能引入其他的硬件設(shè)備。
(2)詞語識別準確率。經(jīng)過調(diào)研發(fā)現(xiàn),市場上存在的部分產(chǎn)品對拉丁語系的轉(zhuǎn)換識別效果不錯,對中文的識別準確率不高。對于排版不規(guī)整的圖片,識別準確率相對較低。
(3)操作系統(tǒng)的適配。對軍工企業(yè),操作系統(tǒng)正在逐步國產(chǎn)化,OCR引擎開發(fā)需要兼容國產(chǎn)化的操作系統(tǒng),可以適配Windows平臺及國產(chǎn)化操作系統(tǒng)。
1、Tesseract技術(shù)原理
Tesseract OCR引擎功能強大,由于識別準確率高,多用于駕駛證識別、車牌識別、醫(yī)學(xué)化驗單識別、快遞單號識別等領(lǐng)域,其主要功能概括地可以分為兩部分:
(1)圖像輪廓分析是字符識別的準備階段?;谥票砦粰z測的方法對頁面布局進行分析提取,將圖像的表格、文本、圖片等元素內(nèi)容進行區(qū)分。
(2)文本塊分割和識別是整個Tesseract的核心,工作內(nèi)容最為復(fù)雜。首先是文本塊切割,包括粗略切分和精細切分兩個過程:
粗略切分,就是利用字符間的間隔進行切分,得到大部分的字符文本塊,也有粘連文本塊或者錯誤切分的文本塊。然后通過字符區(qū)域類型來判定識別字符,通過與字符庫中的文本進行比對,完成第一次字符的識別。
精細切分,就是根據(jù)粗略切分識別出來的字符,對粘連的文本塊進行二次切割,同時合并錯誤分割的字符,完成文本塊的精細切分。
Tesseract OCR引擎識別步驟[3]:
如歷代江西文學(xué)就是江西人民創(chuàng)造的優(yōu)秀的文化遺產(chǎn),發(fā)掘其深厚意蘊可以讓青年學(xué)生了解江西文學(xué)、文化、歷史的發(fā)展軌跡,江西對全國的貢獻、江西在全國的地位,樹立江西青年的自豪感、自信心、責(zé)任感,激發(fā)他們對江西的熱愛之情,培養(yǎng)他們的鄉(xiāng)土情懷,促進精神文明建設(shè)。
(1)字符輪廓區(qū)域分析,檢測出圖片字符區(qū)域,以及子輪廓,進一步將眾多輪廓線集合為塊區(qū)域。
(2)由字符輪廓和塊區(qū)域得出文本行,并且通過字符間的空格識別出詞語。對于固定間距的文本塊利用字符單元分割出單個字符,而對百分號的文本通過模糊間隔來分割。
(3)使用具有學(xué)習(xí)能力的自適應(yīng)分類器,逐次對每個單詞進行分析。分析過程中將滿足條件的字符記錄到分類器中,這樣越到后面識別的字符越準確。識別到頁尾后,再對頁首識別不準確的字符進行二次識別,識別精度越來越高。
(4)最后,借助其他方法,識別含糊不清的空格,如通過筆畫高度識別小寫字母、大寫字母的文本。
2、Tesseract OCR 引擎的應(yīng)用
文字識別引擎可應(yīng)用于許多領(lǐng)域,包括輸入文本、自動處理郵件以及自動獲取文本的其他領(lǐng)域。這些領(lǐng)域涵蓋零售商品價簽信息提取、快遞單號信息識別、銀行支票的處理、身份證件識別、醫(yī)療化驗單信息識別等很多場景,方便用戶快速錄入信息、提取信息、識別信息,提高各行各業(yè)的工作效率[4]。
面向航天專網(wǎng)的敏感內(nèi)容審查系統(tǒng)其核心是對文本內(nèi)容進行快速遍歷檢查,根據(jù)檢查規(guī)則找出并定位到具體的關(guān)鍵詞語。
內(nèi)容審查分兩個階段:
1、在各類安全系統(tǒng)任務(wù)執(zhí)行過程中,對單個任務(wù)的文本內(nèi)容進行篩查,判斷是否符合保密要求,給審查者提供意見。
2、在任務(wù)結(jié)束后,對大量任務(wù)的文本數(shù)據(jù)進行檢索遍歷。
在任務(wù)執(zhí)行過程中進行簡單的文字搜索,實現(xiàn)較為簡單,可以滿足第1個階段的需求,但在第2個階段,對大量的數(shù)據(jù)進行批量檢索,耗時會比較長,無法滿足日常保密審查應(yīng)用要求。所以研究所在系統(tǒng)建設(shè)中引入全文檢索引擎。全文檢索引擎產(chǎn)品類型較多,包括基于Java的Lucene、ElasticSearch、Solr,C++的Xapian、 Sphinx,Python的Whoosh,Go的wokong等[5-6]。
航天企業(yè)選型時需要從以下幾個方面綜合考慮:
(1)性能、穩(wěn)定性、成熟度。全文檢索引擎需要保存所有入口的文本內(nèi)容,并創(chuàng)建一對一的索引,以便快速檢索、定位,屬于核心中間件。
(2)中文分詞。拉丁語系是以空格作為語句單元分割,但對于中文就較為復(fù)雜,尤其是在應(yīng)對新詞的情況下,必要時在性能和準確性方面應(yīng)有所取舍,建議優(yōu)先考慮檢索內(nèi)容的可靠性。
(3)部署和可擴展性。支持多平臺,在單服務(wù)器無法支持的情況下可以方便的橫向擴展。
(4)選型時還要綜合考慮成本、易用性等。
作者所在研究所選擇使用ElasticSearch作為全文檢索引擎。
對ElasticSearch進行簡單的性能測試。測試樣本為1.95GB的純文本,共2001個文件,其中最大文件為31.1MB,對應(yīng)Word文檔約為12038頁,1000萬字。一次性對所有文本創(chuàng)建索引,三次平均耗時為29分43秒,期間CPU使用率在2%~18%間浮動。索引完成后,索引數(shù)據(jù)共3.21GB。索引創(chuàng)建完成后,按短語搜索的方式進行查詢,同一字符,第一次搜索較慢,消耗在0.7s到2s間浮動,第二次及之后的耗時在0.2s以下。內(nèi)存大小對檢索速度影響較大。 (注:以上時間包含測試程序運行時間,HTTP RESTFul通信時間,ElasticSearch檢索時間。測試機CPU:Intel(R)Core(TM) i7-3720QM CPU @ 2.60GHz,RAM 12GB。)
1、Elastic Search原理
圖2 Elastic Search全文檢索原理圖
Elastic Search(ES)是一個基于Apache Lucene構(gòu)建的開源、分布式的全文搜索引擎,同時也是一個分布式文檔庫,庫中的每個字段均是被索引的數(shù)據(jù)且可被搜索,能夠擴展至數(shù)以百計的服務(wù)器,存貯與處理PB級的數(shù)據(jù),可以短時間存儲、搜索和分析大量的數(shù)據(jù),具有高效搜索的能力,Elastic Search全文檢索原理圖如圖2所示。
Elastic Search具有以下4個主要特點[6]:
(1)高度的可擴展性:增加一臺機器,只需要添加集群配置,啟動Elastic Search進行即可;
(2)分片機制:一個索引可以分成多個Sharding,提高處理效率;
(3)高可用性:每個分片可以設(shè)置多個備份,少量機器宕機不影響正常使用;
(4)不僅具有全文搜索能力,還可以按照字段進行結(jié)構(gòu)化搜索、聚合分析。
2、Elastic Search的應(yīng)用
Elastic Search多應(yīng)用于熱點圖、交通情況信息圖等需要實時數(shù)據(jù)搜索和顯示的場景以及數(shù)據(jù)更新頻繁的場景等。
(1)2 013 年初,GitHub放棄Solr,使用Elastic Search來做P B級的搜索。GitHub使用ElasticSearch搜索20TB的數(shù)據(jù),包括13億文件和1300億行代碼。
(2)維基百科啟動以elasticsearch為基礎(chǔ)的核心搜索架構(gòu)。
(3)SoundCloud使用ElasticSearch為將近1.8億用戶提供即時且精準的音樂搜索服務(wù)。
(4)百度目前廣泛采用ElasticSearch作為文本數(shù)據(jù)分析,收集百度所有服務(wù)器上的各類指標數(shù)據(jù)及用戶定義數(shù)據(jù),通過對數(shù)據(jù)進行多維分析展示,用來輔助定位分析實例異?;驑I(yè)務(wù)層面異常。目前已覆蓋百度20多個業(yè)務(wù)線,包括casio、云分析、網(wǎng)盟、預(yù)測、文庫、風(fēng)控等,單集群最大100臺機器,200個ES節(jié)點,每天導(dǎo)入30TB以上的數(shù)據(jù)。
(5)此外,新浪,阿里,有贊等著名公司也開始了ES方面的相關(guān)技術(shù)研發(fā)和實踐。
本文針對航天專網(wǎng)涉密信息審計存在多入口、人工審計成本高、效率低、審計結(jié)果不精準等問題,提出了通過信息化手段實現(xiàn)自動風(fēng)險篩查的解決方案,輔助管理員審查敏感內(nèi)容,提高審查效率。通過在本單位實際應(yīng)用表明,敏感內(nèi)容審查系統(tǒng)可以對保密安全管理提供有效的支撐。