羅江筑
摘 要:隨著大數(shù)據(jù)時代的來臨,審計作為一個綜合的經(jīng)濟監(jiān)督部門也必將面臨其帶來的巨大挑戰(zhàn),在企業(yè)系統(tǒng)中產(chǎn)生了海量的非結(jié)構(gòu)化數(shù)據(jù),僅靠人工進行審計,成效杯水車薪,針對非結(jié)構(gòu)化數(shù)據(jù)的審計已經(jīng)成為審計業(yè)務(wù)的盲區(qū),利用高科技手段與工具實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的分析與挖掘為審計業(yè)務(wù)提供數(shù)據(jù)支撐的需求已迫在眉睫。本文基于文本挖掘技術(shù),采用信息抽取方法從非結(jié)構(gòu)化文檔中提取關(guān)鍵信息,進行結(jié)構(gòu)化存儲,然后進行自動稽核,既大大減少因人工操作耗費的大量人力、財力成本,又避免了因人為疏忽造成審計問題遺漏的情況,更加全面的審計各種問題。
關(guān)鍵詞:審計稽核;文本挖掘;信息抽取
隨著大數(shù)據(jù)時代的來臨,審計作為一個綜合的經(jīng)濟監(jiān)督部門也必將面臨其帶來的巨大挑戰(zhàn),在企業(yè)系統(tǒng)中產(chǎn)生了海量的非結(jié)構(gòu)化數(shù)據(jù),如何對這些非結(jié)構(gòu)化數(shù)據(jù)進行分析是推動大數(shù)據(jù)審計開展的重要內(nèi)容。隨著大數(shù)據(jù)在審計領(lǐng)域的廣泛推廣和運用,文本挖掘技術(shù)對審計數(shù)據(jù)分析的重要性已逐步凸顯,它不再僅僅以結(jié)構(gòu)化的審計數(shù)據(jù)為分析對象,可以深入地對大量非結(jié)構(gòu)化數(shù)據(jù)進行挖掘分析和利用。以企業(yè)合同數(shù)據(jù)的審計為例,結(jié)合文本挖掘技術(shù)特點,本文探討了基于文本挖掘分析技術(shù)的審計稽核方法,為文本挖掘分析技術(shù)在審計稽核的應(yīng)用做出了探索。
本文內(nèi)容安排如下:首先企業(yè)合同審計問題進行了介紹,之后根據(jù)數(shù)據(jù)特點采用信息自動抽取技術(shù)從企業(yè)合同數(shù)據(jù)中抽取關(guān)鍵數(shù)據(jù),將非結(jié)構(gòu)化數(shù)據(jù)進行結(jié)構(gòu)化存儲,最后對提取的企業(yè)合同關(guān)鍵數(shù)據(jù)進行稽核,發(fā)現(xiàn)審計問題。
一、數(shù)據(jù)及問題
在企業(yè)合同管理系統(tǒng)中存在有大量的合同數(shù)據(jù),企業(yè)合同審計主要是針對合同的執(zhí)行情況,特別是合同付款情況的審計,包括合同總價,第一次付款時間、金額,第二次付款時間、金額等。企業(yè)合同數(shù)據(jù)屬于非結(jié)構(gòu)化文檔數(shù)據(jù),對這類數(shù)據(jù)的審計,目前需要人為提取合同的關(guān)鍵數(shù)據(jù)(合同金額、付款時間等),需要耗費大量的人力成本。如何快速的從這些非結(jié)構(gòu)化數(shù)據(jù)中提取我們需要的信息,是解決企業(yè)合同快速審計的關(guān)鍵所在。
二、信息抽取
信息抽取的宗旨在于抽取指定的信息,信息抽取有多種不同的技術(shù),根據(jù)采用的模型不同可以分為三類:基于詞典的抽取、基于規(guī)則的抽取和基于隱馬爾可夫模型(HMM)的抽取。
基于詞典的信息抽取需要構(gòu)造抽取模式詞典,然后使用模式詞典從未標記文本中抽取所需信息。基于詞典的信息抽取需要對概念節(jié)點進行定義,建立和維護相關(guān)的模式,知識工作量比較大,最佳詞典的產(chǎn)生也比較麻煩,領(lǐng)域相關(guān)性太強,應(yīng)用不是很廣泛?;谝?guī)則的信息抽取需要先構(gòu)造抽取規(guī)則集,然后利用這些通用的規(guī)則從文本中抽取信息。基于規(guī)則的信息抽取比較常用,在很多情況下精度也非常令人滿意。缺點是規(guī)則構(gòu)造比較復(fù)雜,適應(yīng)性較差。
利用隱馬爾可夫模型(HMM)進行文本信息抽取是一種基于統(tǒng)計學習的抽取方法。企業(yè)合同數(shù)據(jù)需要提取的信息主要包括以下幾類:
(一)合同編號、合同名稱
在企業(yè)合同中,合同編號、合同名稱數(shù)據(jù)都有明確的關(guān)鍵字標記,根據(jù)關(guān)鍵字確定信息位置,提取對應(yīng)的信息即可。
(二)合同總價
在企業(yè)合同中,合同總價會有明確關(guān)鍵字進行標識,如服務(wù)費總額,根據(jù)關(guān)鍵字定位到所屬的段落之后,采用貨幣正則表達式提取金額數(shù)據(jù)。貨幣數(shù)據(jù)識別的正則表達式為
(三)付款時間
在合同中,如果付款時間有明確的說明,直接按時間的正則表達式提取數(shù)據(jù)即可,不同格式展示的時間其提取表達式不同,最簡單的日期格式如YYYY/MM/DD,正則表達式為更為復(fù)雜的是,在合同中并沒有明確的說明付款時間,而是“合同簽訂后幾個工作日內(nèi)”,此時就需要先提取合同簽訂日期,然后采用時間推理方法,推算確定的合同付款日期。
(四)付款金額
付款金額與付款時間會出現(xiàn)在同一段落中,在提取付款時間之后,采用與提取合同總價相同的方式提取付款金額。
(五)付款方和收款方信息
付款方信息主要是付款單位名稱,收款方信息包括開戶銀行、賬號和開戶名,這類信息在合同里一般有明確的說明,根據(jù)信息關(guān)鍵字定位到具體的段落提取信息即可。提取的付款方和收款方信息用于從銀行返回的資金流數(shù)據(jù)中獲取與合同對應(yīng)的數(shù)據(jù),以便對合同付款情況進行稽查。
將從企業(yè)合同中提取的關(guān)鍵信息存儲于數(shù)據(jù)庫提前建好的數(shù)據(jù)表中,實現(xiàn)結(jié)構(gòu)化存儲,方便對合同進行審計。
三、、自動稽核
對企業(yè)合同的審計稽核策略是從企業(yè)合同中提取關(guān)鍵信息與資金流數(shù)據(jù)(此數(shù)據(jù)來源與財務(wù)系統(tǒng)中銀行返回的數(shù)據(jù))對比,進行自動稽核,發(fā)現(xiàn)審計問題。具體的實現(xiàn)方法如下:
(一)根據(jù)關(guān)注的審計問題,制定審計規(guī)則
根據(jù)審計問題表象(如未按合同條款執(zhí)行付款A(yù)1,提前付款A(yù)2,付款金額不一致A3)定義審計問題規(guī)則,形式為B*:A*…A*,如B1:A1、B2:A2、B3:A3、B4:A2A3,其中B*為規(guī)則編號,A*…A*為規(guī)則所滿足的條件。
(二)對合同信息按照規(guī)則進行稽核根據(jù)收款賬戶信息,找到需要審計的合同對應(yīng)的資金流數(shù)據(jù),對比關(guān)注的信息項,主要是付款時間、金額,多次付款金額之和即為付款總額。如果沒有找到對應(yīng)的資金流數(shù)據(jù),則為未按合同條款執(zhí)行付款B1;如果付款時間提前,則為提前付款B2;如果金額不一致,則為付款金額不一致B3;如果付款時間提前且金額不一致,則為B4。滿足制定的審計規(guī)則的合同認為存在審計問題,根據(jù)滿足的條件不同,標記不同的規(guī)則編號。
(三)對審計問題進行進一步分析
按規(guī)則編號對存在的審計問題進行分組,對每類問題進行集中處理。
針對企業(yè)合同數(shù)據(jù),采用信息抽取方法抽取需要審計的信息之后,與銀行返回的資金流數(shù)據(jù)進行比對,發(fā)現(xiàn)存在的審計問題,將審計結(jié)果存入數(shù)據(jù)庫,方便進行查詢。因?qū)徲嫿Y(jié)果涉及到保密問題,這里只給出審計結(jié)果表的表結(jié)構(gòu),如下表所示:
針對審計結(jié)果表,既可以按照規(guī)則編號,對審計問題進行分組集中處理,也可以按照合同編號查詢指定合同的審計結(jié)果。將合同數(shù)據(jù)以及銀行返回結(jié)果關(guān)聯(lián)到一張表中,可以更方便的驗證審計結(jié)果。
四、結(jié)論
本文利用信息自動抽取技術(shù),基于企業(yè)合同數(shù)據(jù),從中自動抽取合同關(guān)鍵數(shù)據(jù),將合同中的非結(jié)構(gòu)化數(shù)據(jù)進行結(jié)構(gòu)化,然后與銀行返回的資金流數(shù)據(jù)進行自動比對,發(fā)現(xiàn)審計問題。
本文只是文本挖掘技術(shù)在審計稽核應(yīng)用的一個探索性嘗試。在審計工作中引進文本挖掘技術(shù),不僅可以大大降低純粹人工審計耗費的人力、財力成本,而且可以降低因人為疏忽造成審計問題遺漏的情況發(fā)生。雖然目前文本挖掘技術(shù)在審計稽核工作中的應(yīng)用尚處于起步階段,但隨著信息技術(shù)的迅猛發(fā)展和人們對文本挖掘技術(shù)的深入研究,文本挖掘在審計稽核工作中的應(yīng)用將會不斷發(fā)展和完善。
參考文獻:
[1]張志恒,成雪嬌.大數(shù)據(jù)環(huán)境下基于文本挖掘的審計數(shù)據(jù)分析框架[J].會計之友,2017,16:117-120.
[2]吳芬芬.信息抽取算法研究.吉林大學碩士論文,2006:1-10.
[3]郭喜躍,何婷婷.信息抽取研究綜述[J].計算機科學報,2015,02:14-17.
[4]李保利,陳玉忠,俞士汶.信息抽取研究綜述[J].計算機工程與應(yīng)用,2003,10:1-5.
[5]張素香.信息抽取中關(guān)鍵技術(shù)的研究[D].北京:北京郵電大學,2007.
[6]張曉艷,王挺,陳火旺.命名實體識別研究[J].計算機科學,2005,04:44-48.
[7]俞鴻魁,張華平,等.基于層疊隱馬爾科夫模型的中文命名實體識別[J].通信學報,2006,02:87-93.
[8]趙妍妍,秦兵,車萬翔,等.中文事件抽取技術(shù)研究[J].中文信息學報,2008,22(1):3-8.
[9]徐凡,朱巧明,周國棟.篇章分析技術(shù)綜述[J].中文信息學報,2013,3:20-32.