国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能+技術(shù)背景下基于聚類算法的自動化審計研究①

2023-11-05 11:51:34
關(guān)鍵詞:字段數(shù)據(jù)源合理性

李 巍

(安徽中醫(yī)藥大學(xué),安徽 合肥 230012)

0 引 言

進(jìn)入人工智能時代之后,數(shù)據(jù)和算法成為創(chuàng)新工作模式的重要內(nèi)生動力,企事業(yè)單位的各類審計工作中應(yīng)積極引入此類新技術(shù)和新工具。聚類算法依靠特定的評價維度進(jìn)行數(shù)據(jù)分類,能夠從海量數(shù)據(jù)中挖掘出隱藏規(guī)律,該算法與審計工作的深度融合能夠?qū)崿F(xiàn)審計自動化和智能化,其應(yīng)用價值較為突出,在研究中需重點解決算法模型構(gòu)建問題。

1 自動化審計的技術(shù)框架

(1)基礎(chǔ)設(shè)施層

基于聚類算法的自動化審計以程序代碼調(diào)用審計數(shù)據(jù),完成分析和計算。其基礎(chǔ)設(shè)施層由服務(wù)器、網(wǎng)絡(luò)、數(shù)據(jù)庫以及其他必要的軟硬件設(shè)施組成,主要功能為部署算法程序、采集和存儲審計基礎(chǔ)數(shù)據(jù)、執(zhí)行審計過程、輸出和展示審計結(jié)果[1]。由于自動化審計的運算量較大,在服務(wù)器硬件方面應(yīng)適當(dāng)提高CPU主頻以及內(nèi)存空間。存儲系統(tǒng)設(shè)計應(yīng)考慮基礎(chǔ)審計數(shù)據(jù)的規(guī)模以及數(shù)據(jù)安全性問題。

(2)數(shù)據(jù)中心層

審計數(shù)據(jù)存儲分為兩步,第一步是存儲日常工作產(chǎn)生的業(yè)務(wù)大數(shù)據(jù),其目的是復(fù)制業(yè)務(wù)原始數(shù)據(jù),無需做轉(zhuǎn)換和處理。第二步是根據(jù)聚類算法的數(shù)據(jù)需求進(jìn)行預(yù)處理(采用ETL模式),降低運算量和運算難度。因此,數(shù)據(jù)中心層的數(shù)據(jù)庫按照原始數(shù)據(jù)和預(yù)處理數(shù)據(jù)分兩類進(jìn)行設(shè)計。

(3)審計指標(biāo)層

在自動化審計中需明確審計指標(biāo),依托審計相關(guān)的法律法規(guī)、內(nèi)部審計的制度要求、財務(wù)規(guī)范等,結(jié)合階段性經(jīng)營目標(biāo)以及年度總目標(biāo),制定出詳實、合理的審計指標(biāo)層。

(4)數(shù)據(jù)服務(wù)層

數(shù)據(jù)服務(wù)層的功能包括數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)查詢和利用,聚類算法主要在數(shù)據(jù)服務(wù)層發(fā)揮作用。按照數(shù)據(jù)處理和應(yīng)用的先后順序,該層的工作流程如圖1所示。

圖1 自動化審計數(shù)據(jù)服務(wù)層工程流程簡圖

2 基于聚類算法的自動化審計構(gòu)建及應(yīng)用策略

(一)確定審計數(shù)據(jù)源

(1)數(shù)據(jù)源

自動化審計的目標(biāo)、方向、用途等決定了具體的數(shù)據(jù)源。在企業(yè)中,審計活動涵蓋設(shè)備物資采購、稅務(wù)、各部門運營成本、人員工資發(fā)放等。以企業(yè)的物資采購審計為例,其數(shù)據(jù)源可分為三類。

1)內(nèi)部審計數(shù)據(jù)

內(nèi)部數(shù)據(jù)主要來自企業(yè)的物資采購計劃、采購預(yù)算、審批結(jié)果、采購合同信息、實付資金。采購計劃中詳細(xì)地統(tǒng)計了物資類型、規(guī)格、數(shù)量以及所屬部門,采購預(yù)算中根據(jù)市場情況設(shè)置了各類物資的預(yù)估單價,分類計算出采購成本以,匯總后形成總預(yù)算??梢?內(nèi)部數(shù)據(jù)是自動化審計的核心原始數(shù)據(jù)。

2)外部審計數(shù)據(jù)

企業(yè)的外部合作方、采購物資的市場價格信息、投資金額、融資金額等構(gòu)成了外部數(shù)據(jù)源。外部合作方主要涵蓋投資方、融資方、供應(yīng)商、租賃服務(wù)機(jī)構(gòu)。物資價格信息統(tǒng)計了實際采購單價,而價格決定于市場以及合作對象。

3)中間審計數(shù)據(jù)

在數(shù)據(jù)源和審計結(jié)果之間還存在一定量的中間數(shù)據(jù),通常是針對原始數(shù)據(jù)的簡單分類或分析,呈現(xiàn)為特定的業(yè)務(wù)指標(biāo)。另外,賬戶交易數(shù)據(jù)、財務(wù)檢查數(shù)據(jù)亦可作為中間數(shù)據(jù),并發(fā)揮特定的審計功能。

(二)構(gòu)建數(shù)據(jù)倉庫

數(shù)據(jù)倉庫應(yīng)符合審計數(shù)據(jù)的存儲特點,突出主題性和集成性,在工程實踐中主要采用分層設(shè)計,具體如下。

(1)ODS層

ODS層用于復(fù)制和存儲業(yè)務(wù)數(shù)據(jù),其表名稱、字段名稱、字段類型基本與業(yè)務(wù)數(shù)據(jù)庫保持一致。業(yè)務(wù)數(shù)據(jù)依據(jù)相關(guān)主體的實體模型進(jìn)行建模,因而ODS層的庫表結(jié)構(gòu)也具有顯著的ER實體模型特點。根據(jù)物資采購的數(shù)據(jù)結(jié)構(gòu)及類型,其存儲內(nèi)容具有明確的指標(biāo)名稱,以數(shù)值、文字信息為存儲值。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫適用于此類場景,可選用SQLServer或Mysql進(jìn)行數(shù)據(jù)存儲。

(2)DW層

DW層的主要任務(wù)是存儲預(yù)處理后的數(shù)據(jù),具體又可細(xì)分為DWD層和DWS層。當(dāng)ODS層的審計原始數(shù)據(jù)經(jīng)過規(guī)范的預(yù)處理之后,將轉(zhuǎn)變?yōu)楦叨纫恢碌母蓛魯?shù)據(jù),其數(shù)據(jù)粒度較小,基本不進(jìn)行匯總,存儲于DWD層。DWS層對部分同類審計數(shù)據(jù)進(jìn)行輕度匯總或者合并,其數(shù)據(jù)粒度比DWD層略粗,匯總存儲的優(yōu)點在于降低數(shù)據(jù)調(diào)用和分析時的運算量和系統(tǒng)開銷,DWS數(shù)據(jù)通??筛采w80%的應(yīng)用[2]。

(3)DM層

DM層用于存儲針對特定主題的數(shù)據(jù),具有較高程度的匯總性。在審計管理中,DM層可存儲審計報表或綜合性的審計指標(biāo),不體現(xiàn)明細(xì)數(shù)據(jù),其數(shù)據(jù)粒度大于DW層。

(三)審計數(shù)據(jù)預(yù)處理方法及數(shù)據(jù)標(biāo)準(zhǔn)

數(shù)據(jù)源是對業(yè)務(wù)數(shù)據(jù)的復(fù)制,其數(shù)據(jù)品質(zhì)、數(shù)據(jù)格式、數(shù)據(jù)規(guī)范性不一定能滿足聚類算法的應(yīng)用要求。因此,在自動化審計中需設(shè)計數(shù)據(jù)預(yù)處理環(huán)節(jié),根據(jù)數(shù)據(jù)倉庫的庫表結(jié)構(gòu)和字段信息,采用ELT模式對數(shù)據(jù)進(jìn)行預(yù)處理。

(1)數(shù)據(jù)預(yù)處理方法

1)業(yè)務(wù)數(shù)據(jù)抽取(Extract)

數(shù)據(jù)抽取是根據(jù)審計目標(biāo),從業(yè)務(wù)數(shù)據(jù)庫中抽取符合審計需求的業(yè)務(wù)數(shù)據(jù)。如果ODS層建立的庫表結(jié)構(gòu)與業(yè)務(wù)層完全相同,可使用SQL語句直接進(jìn)行Select和Insert操作,完成數(shù)據(jù)復(fù)制。如果業(yè)務(wù)數(shù)據(jù)庫和ODS層的數(shù)據(jù)庫存在差異,無法直接查詢和插入數(shù)據(jù),此時應(yīng)開發(fā)程序腳本或者程序接口,利用代碼對業(yè)務(wù)數(shù)據(jù)進(jìn)行適當(dāng)?shù)奶幚?然后按照一定時間間隔定期采集新生成的業(yè)務(wù)數(shù)據(jù),可借助Linux操作系統(tǒng)的Crontab定時任務(wù)實現(xiàn)數(shù)據(jù)定期抽取。利用數(shù)據(jù)庫管理軟件進(jìn)行導(dǎo)入也是抽取特定業(yè)務(wù)數(shù)據(jù)的有效方式。

2)業(yè)務(wù)數(shù)據(jù)清洗(Cleaning)

①處理不完整的審計數(shù)據(jù)

如果原始業(yè)務(wù)數(shù)據(jù)中部分字段的存儲內(nèi)容缺失或者不完整,此時應(yīng)對其進(jìn)行過濾或者補(bǔ)全處理。對于較為重要的字段,如供應(yīng)商名稱、供應(yīng)商分類標(biāo)識、物資采購單價,一旦缺失,可實施過濾操作。當(dāng)字段信息對審計的影響較小時,可根據(jù)現(xiàn)有信息進(jìn)行補(bǔ)全操作。

②處理錯誤的審計數(shù)據(jù)

錯誤數(shù)據(jù)指存儲內(nèi)容的格式、數(shù)值范圍、主題等明顯違背表字段要求。此類情況大多產(chǎn)生自原始業(yè)務(wù)數(shù)據(jù)錄入環(huán)節(jié)。在數(shù)據(jù)入庫時應(yīng)進(jìn)行必要的校驗,防止存儲錯誤。數(shù)據(jù)清洗環(huán)節(jié)需重新校驗抽取的數(shù)據(jù)。同樣的,重要字段錯誤時應(yīng)直接過濾。

3)數(shù)據(jù)轉(zhuǎn)換(Transform)

數(shù)據(jù)轉(zhuǎn)換是從算法處理的角度出發(fā),對數(shù)據(jù)的存儲格式、量綱等進(jìn)行統(tǒng)一,從而降低算法的運算開銷,常見的轉(zhuǎn)換方式如下。

①不一致轉(zhuǎn)換

在審計管理中,同類數(shù)據(jù)的存儲方式可能存在差異。例如,系統(tǒng)中的時間可存儲為時間戳或者DATETIME格式。再如,含有金額的字段往往帶有小數(shù)點,但小數(shù)點后保留的位數(shù)可能不同。不一致轉(zhuǎn)換是對同類數(shù)據(jù)進(jìn)行統(tǒng)一處理,使其在格式、單位、結(jié)構(gòu)或長度方面保持一致。

②歸一化處理

數(shù)據(jù)歸一化是將量綱不同的數(shù)值映射到區(qū)間[0,1]之間,去除單位對數(shù)據(jù)的制約,以便進(jìn)行數(shù)值比較和運算。常用的歸一化方法為Z-score標(biāo)準(zhǔn)化法和min-max標(biāo)準(zhǔn)化法。以前者為例,其計算方法如式(1)。

(1)

式(1)中:σ表示所有樣本的標(biāo)準(zhǔn)差,μ為所有樣本的標(biāo)準(zhǔn)差,x為樣本中任意一個元素,x*是按照Z-score法處理之后的結(jié)果。

(2)確定數(shù)據(jù)存儲標(biāo)準(zhǔn)

數(shù)據(jù)庫對表字段進(jìn)行了嚴(yán)格的規(guī)定,以關(guān)系型數(shù)據(jù)庫SQLServer為例,其常用字段及存儲特點如表1。在設(shè)計各類表的字段類型時,應(yīng)綜合對比使用便捷性和運算速度,合理進(jìn)行設(shè)置。以money字段為例,這種類型可存儲審計中涉及的金額,其精度為小數(shù)點后保留四位,實際應(yīng)用中也能使用decimal存儲金額類數(shù)據(jù),設(shè)計表時應(yīng)對比其各自的優(yōu)劣性。

表1 SQLServer常用字段類型及特點

(四)聚類算法在自動化審計中的應(yīng)用示例

聚類算法在機(jī)器學(xué)習(xí)中應(yīng)用廣泛,其作用是對數(shù)據(jù)進(jìn)行自動分組。根據(jù)研究現(xiàn)狀,聚類算法包括K-means,Mean-shift,HAC等多種技術(shù)路徑,其適用范圍也存在差異[3]。從性能角度看,K-means算法運行速度非常快,故選用該算法進(jìn)行自動化審計。由于算法總是與具體的應(yīng)用場景密切相關(guān),以下利用K-means聚類算法審計物資采購審批過程的合理性,從而說明其在自動化審計中的應(yīng)用方法。

(1)選取審計評價指標(biāo)

物資采購審批過程中需評價審批效率以及審批質(zhì)量等因素。審批質(zhì)量用于描述采購物資的用途合理性、數(shù)量合理性以及價格合理性,審批效率以時間為評價維度。研究過程中建立以下多級評價指標(biāo)。

圖2 物資采購審批合理性審計評價指標(biāo)

(2)確定聚類準(zhǔn)則

聚類準(zhǔn)則是完成聚類任務(wù)時必須遵守的規(guī)則,可用于計算特征相似度,如通過距離、密度或連通性評價指標(biāo)相似度[4]。根據(jù)物資采購審批合理性審計的指標(biāo)特征,宜采用距離相似度量準(zhǔn)則,以歐式距離為例,其計算公式如式(2)。

(2)

式(2)中,兩個參數(shù)分別代表待評價指標(biāo)及其各簇中心,差值表示二者之間的距離。顯然,距離越小時,表明指標(biāo)相似度越高。

(3)數(shù)據(jù)歸一化處理

可采用min-max方法對評價指標(biāo)進(jìn)行歸一化處理,提高其可比性,計算方法如式(3)。

(3)

(4)基于聚類算法的自動化審計建模

①數(shù)據(jù)集

數(shù)據(jù)集用于表示所有的合理性審計評價指標(biāo),將數(shù)據(jù)總量記為n。將單條數(shù)據(jù)記為Xi,則Xi對應(yīng)的屬性可表示為Xij。按照該規(guī)則,數(shù)據(jù)記錄Xi可表示為式(4)。

Xi={Xi|Xi=(Xi1,Xi2,…,Xim),

i∈(1,2,3,…,n)}

(4)

②聚類個數(shù)

聚類個數(shù)對K-means聚類算法的影響較為突出,當(dāng)聚類個數(shù)較小時,算法可達(dá)到較高的運行速度,但聚類效果卻相對較差[5]。反之,如果聚類個數(shù)設(shè)置較大,算法的聚類效果較好,但卻可能出現(xiàn)過度擬合或者運行時間過長的問題。因此,在工程實踐中需利用訓(xùn)練數(shù)據(jù)檢測不同聚類個數(shù)下的聚類效果和運行時間,通常將其設(shè)置在3到6個之間。

③初始化聚類中心

在K-means算法中,假設(shè)將數(shù)據(jù)聚類為n個組,此時需選擇n個隨機(jī)點,將其作為聚類中心?;蛘呃米铋L距離法,先隨機(jī)指定一個聚類中心,然后對比其他樣本與該聚類中心的最大距離,將距離最遠(yuǎn)的一個選定為第二個聚類中心,按照這一規(guī)則,直至產(chǎn)生n個[6]。將初始化所形成的聚類中心記為集合E,其表達(dá)式如下。

Ei={Ei|Ei=(Ei1,Ei2,…,Eim),

i∈(1,2,3,…,n)}

(5)

④歐式距離計算

這一步驟采用公式(2)進(jìn)行計算,其作用是求得各個審計指標(biāo)和聚類中心的歐式距離。

⑤檢驗收斂性及輸出結(jié)果

聚類中心在數(shù)據(jù)迭代過程中會發(fā)生多次變化,只有當(dāng)?shù)_(dá)到收斂狀態(tài)后,聚類中心才完全確定下來,不再發(fā)生變化[7]。將迭代次數(shù)的上限設(shè)置為m次,觀察算法能否在m次內(nèi)達(dá)到收斂,然后利用可收斂的模型開展合理性審計,輸出結(jié)果。以上為針對企業(yè)物資采購審批合理性的聚類自動化審計算法模型,可通過該算法評價采購審批人員和審批活動是否合理。

(5)基于聚類算法的自動化審計模型效果檢驗

①企業(yè)采購審批相關(guān)數(shù)據(jù)采集

根據(jù)采購審批合理性的自動化審計評價指標(biāo),收集某企業(yè)的相關(guān)數(shù)據(jù),建立數(shù)據(jù)存儲表,其字段包括訂單編號、采購物資種類、采購規(guī)格、物資單價、總支持、數(shù)量、審批總時長、各節(jié)點審批時長、審批人員工作年限、審批人員歷史審批結(jié)果的風(fēng)險性等。

②數(shù)據(jù)標(biāo)準(zhǔn)化處理結(jié)果

通過ELT操作,并進(jìn)行數(shù)據(jù)min-max歸一化處理,得到標(biāo)準(zhǔn)化數(shù)據(jù),表2為數(shù)據(jù)示例。

表2 某企業(yè)采購審批合理性審計的標(biāo)準(zhǔn)化數(shù)據(jù)示例

③算法自動化審計結(jié)果分析

按照以上方式收集400條標(biāo)準(zhǔn)化數(shù)據(jù),并將其導(dǎo)入模擬軟件中,事先在軟件中建立自動化審計的算法模型。軟件模擬結(jié)果主要包括以下幾點。1)各審計指標(biāo)的重要性排序。按照重要性由高到低的順序,排序為計劃采購數(shù)量、審批部門覆蓋率、采購支出、最長節(jié)點審批時間、審批人員工作年限、審批總時長等;2)通過自動化審計算法輸出不同聚類的物資采購審批合理性總得分,聚類1到聚類4的結(jié)果分別為49.1%,25.6%,16.9%,10.3%。

3 結(jié) 語

自動化審計的構(gòu)建方法為收集原始業(yè)務(wù)數(shù)據(jù)、抽取并存儲待審計的業(yè)務(wù)數(shù)據(jù)、清洗缺失數(shù)據(jù)和錯誤數(shù)據(jù)、進(jìn)行歸一化或標(biāo)準(zhǔn)化處理。同時,利用聚類算法構(gòu)建符合業(yè)務(wù)特點的審計模型,包括設(shè)置審計指標(biāo)、生成聚類中心、訓(xùn)練算法模型、觀察收斂效果、檢測審計效果等。標(biāo)準(zhǔn)化數(shù)據(jù)用于訓(xùn)練和檢驗審計模型,經(jīng)實測,相關(guān)審計模型確實提升了審計效率。

猜你喜歡
字段數(shù)據(jù)源合理性
圖書館中文圖書編目外包數(shù)據(jù)質(zhì)量控制分析
新形勢下新聞采訪行為的合理性探討
新聞傳播(2018年4期)2018-12-07 01:09:34
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
域外證據(jù)領(lǐng)事認(rèn)證的合理性質(zhì)疑
至善主義、合理性與尊重
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
代考入刑的合理性探討
CNMARC304字段和314字段責(zé)任附注方式解析
無正題名文獻(xiàn)著錄方法評述
西和县| 五河县| 象州县| 梁平县| 芜湖县| 龙陵县| 连城县| 洛浦县| 松阳县| 兴义市| 丰县| 顺昌县| 涟源市| 梓潼县| 福泉市| 惠州市| 宜阳县| 淮北市| 东辽县| 饶阳县| 延边| 荥经县| 宝山区| 隆子县| 南靖县| 花莲县| 安远县| 永吉县| 从江县| 兰溪市| 呼伦贝尔市| 建昌县| 甘肃省| 云霄县| 永城市| 丹巴县| 视频| 克拉玛依市| 长海县| 锡林郭勒盟| 溧阳市|