劉以堂 張述成
摘 要:本文介紹了數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘以及知識(shí)發(fā)現(xiàn)的概念,詳細(xì)分析了關(guān)聯(lián)規(guī)則算法,對(duì)納稅人特定屬性與納稅人異常行為之間的關(guān)聯(lián)關(guān)系進(jìn)行了分析研究。
關(guān)鍵詞:知識(shí)發(fā)現(xiàn)數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則算法稅收征管
中圖分類(lèi)號(hào):F 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2012)06(b)-0027-02
近年來(lái),稅務(wù)系統(tǒng)信息化水平迅速提升,核心征管系統(tǒng)的數(shù)據(jù)實(shí)現(xiàn)了省級(jí)大集中,經(jīng)過(guò)多年的應(yīng)用積淀,信息系統(tǒng)中積累了海量的涉稅數(shù)據(jù)。如何從這些海量的數(shù)據(jù)中尋找有用的信息,并將信息轉(zhuǎn)化為情報(bào),用于識(shí)別、分析納稅人的涉稅風(fēng)險(xiǎn)點(diǎn),促進(jìn)稅收征管質(zhì)量和效率的提高已成為當(dāng)前稅務(wù)部門(mén)急需破解的難題,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)的出現(xiàn),可較好地滿(mǎn)足這一應(yīng)用需求。
1 數(shù)據(jù)倉(cāng)庫(kù)
數(shù)據(jù)倉(cāng)庫(kù)概念創(chuàng)始人W.H.Inmon在《建立數(shù)據(jù)倉(cāng)庫(kù)》一書(shū)中對(duì)數(shù)據(jù)倉(cāng)庫(kù)的定義是:數(shù)據(jù)倉(cāng)庫(kù)就是面向主題的、集成的、相對(duì)穩(wěn)定的、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營(yíng)管理中的決策制定過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)面向主題,與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用相對(duì)應(yīng)。主題是一個(gè)在較高層次上將數(shù)據(jù)歸類(lèi)的標(biāo)準(zhǔn),每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域;數(shù)據(jù)倉(cāng)庫(kù)的集成特性是指在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)之前,必須經(jīng)過(guò)數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵步驟,首先要統(tǒng)一原始數(shù)據(jù)中的矛盾之處,還要將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用向面向主題的轉(zhuǎn)變;數(shù)據(jù)倉(cāng)庫(kù)的穩(wěn)定性是指數(shù)據(jù)倉(cāng)庫(kù)反映的是歷史數(shù)據(jù),而不是日常事務(wù)處理產(chǎn)生的數(shù)據(jù),數(shù)據(jù)經(jīng)加工和集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后是極少或根本不修改的;數(shù)據(jù)倉(cāng)庫(kù)是不同時(shí)間的數(shù)據(jù)集合,它要求數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)保存時(shí)限能滿(mǎn)足進(jìn)行決策分析的需要,而且數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)都要標(biāo)明該數(shù)據(jù)的歷史時(shí)期。
數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)計(jì)算機(jī)存儲(chǔ)系統(tǒng),但更是一種管理技術(shù),是一個(gè)動(dòng)態(tài)的、工程的概念[1],它通過(guò)各種方法從聯(lián)機(jī)事務(wù)處理(OLTP)的數(shù)據(jù)庫(kù)中抽取細(xì)節(jié)數(shù)據(jù),并進(jìn)行綜合、集成和再加工,以適當(dāng)?shù)臄?shù)據(jù)結(jié)構(gòu)組織存儲(chǔ),從海量數(shù)據(jù)中提取出有用的信息,服務(wù)于企業(yè)和組織的決策支持和數(shù)據(jù)分析。
數(shù)據(jù)倉(cāng)庫(kù)支持多維數(shù)據(jù)分析,通過(guò)對(duì)實(shí)體多個(gè)維度(屬性)的分析,從不同的角度進(jìn)行比較和理解,是數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)。
1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘DM(Data Mining)是整個(gè)知識(shí)發(fā)現(xiàn)過(guò)程的一個(gè)步驟,是知識(shí)發(fā)現(xiàn)的深層次過(guò)程,它在可接受的計(jì)算效率的限制條件下,從大量數(shù)據(jù)中發(fā)現(xiàn)潛在的數(shù)據(jù)模式,生成關(guān)于模式的表達(dá)[2]。
數(shù)據(jù)挖掘通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示3個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來(lái);規(guī)律表示是盡可能以用戶(hù)可理解的方式(如可視化)將找出的規(guī)律表示出來(lái)。
1.2 知識(shí)發(fā)現(xiàn)
基于數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)KDD(Knowledge Discovery in Databases)表示將低層數(shù)據(jù)轉(zhuǎn)換為高層知識(shí)的整個(gè)過(guò)程[3]??梢詫DD簡(jiǎn)單定義為:KDD是確定數(shù)據(jù)中有效的、新穎的、潛在有用的、基本可理解的模式的特定過(guò)程。知識(shí)發(fā)現(xiàn)過(guò)程包括以下步驟:問(wèn)題的理解和定義、相關(guān)數(shù)據(jù)收集和提取、數(shù)據(jù)探索和清理、數(shù)據(jù)工程、算法選擇、運(yùn)行數(shù)據(jù)挖掘算法、結(jié)果的評(píng)價(jià)。
2 關(guān)聯(lián)規(guī)則
數(shù)據(jù)挖掘采用的主要分析方法有7種: 分類(lèi)(Classification)、估值(Estimation)、預(yù)言(Prediction)、相關(guān)性分組或關(guān)聯(lián)規(guī)則(Affinity grouping or association rules)、聚集(Clustering)、描述和可視化(Description and Visualization)、復(fù)雜數(shù)據(jù)類(lèi)型挖掘(Text,Web,圖形圖像,視頻,音頻等)。
下面重點(diǎn)介紹關(guān)聯(lián)分析算法。
在描述有關(guān)關(guān)聯(lián)規(guī)則的一些細(xì)節(jié)之前,我們先來(lái)看一個(gè)有趣的故事:“尿布與啤酒”的故事。美國(guó)沃爾瑪超市擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),它集中了其各門(mén)店的詳細(xì)原始交易數(shù)據(jù)。為了能夠準(zhǔn)確了解顧客在其門(mén)店的購(gòu)買(mǎi)習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析,想知道顧客經(jīng)常一起購(gòu)買(mǎi)的商品有哪些。利用數(shù)據(jù)挖掘方法對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘,意外的發(fā)現(xiàn):“跟尿布一起購(gòu)買(mǎi)最多的商品竟是啤酒!”再經(jīng)過(guò)大量實(shí)際調(diào)查和分析,揭示了一個(gè)隱藏在“尿布與啤酒”背后的美國(guó)人的一種行為模式:在美國(guó),一些年輕的父親下班后經(jīng)常要到超市去買(mǎi)嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買(mǎi)一些啤酒。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買(mǎi)尿布,而丈夫們?cè)谫I(mǎi)尿布后又隨手帶回了他們喜歡的啤酒。
按常規(guī)思維,尿布與啤酒風(fēng)馬牛不相及,若不是借助數(shù)據(jù)挖掘技術(shù)對(duì)大量交易數(shù)據(jù)進(jìn)行挖掘分析,沃爾瑪是不可能發(fā)現(xiàn)數(shù)據(jù)內(nèi)在這一有價(jià)值的規(guī)律的。關(guān)聯(lián)規(guī)則可以挖掘發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系。
數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱(chēng)為關(guān)聯(lián)。關(guān)聯(lián)分析是為了挖掘出隱藏在數(shù)據(jù)之間的相互關(guān)系,找出所有能把一組事件或數(shù)據(jù)項(xiàng)與另一組事件或數(shù)據(jù)項(xiàng)聯(lián)系起來(lái)的規(guī)則。
一般用三個(gè)參數(shù)來(lái)描述一個(gè)關(guān)聯(lián)規(guī)則的屬性:支持度、可信度、作用度。
設(shè)是一組物品集,W是一組事務(wù)集。W中的每個(gè)事務(wù)T是一組物品,TR。假設(shè)有一個(gè)物品集A,一個(gè)事務(wù)T,如果AT,則稱(chēng)事務(wù)T支持物品集A。關(guān)聯(lián)規(guī)則是如下形式的一種蘊(yùn)含:A→B,其中A、B是兩組物品,AI,BI,且A∩B=。
用P(A)表示事務(wù)中出現(xiàn)物品集A的概率,P(B|A)表示在出現(xiàn)物品集A的事務(wù)中,出現(xiàn)物品集B的概率,則以上三個(gè)參數(shù)可用公式表示,如表1。
可信度是對(duì)關(guān)聯(lián)規(guī)則的準(zhǔn)確度的衡量,支持度是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量。
支持度說(shuō)明這條規(guī)則在所有事務(wù)中有多大的代表性,顯然支持度越大,關(guān)聯(lián)規(guī)則越重要。有些關(guān)聯(lián)規(guī)則可信度雖然很高,但支持度卻很低,說(shuō)明該關(guān)聯(lián)規(guī)則實(shí)用的機(jī)會(huì)很小,因此也不重要。
作用度描述了物品集A對(duì)物品集B的影響力的大小。作用度越大,說(shuō)明物品集B受物品集A的影響越大。一般情況,有用的關(guān)聯(lián)規(guī)則的作用度都應(yīng)該大于1,只有關(guān)聯(lián)規(guī)則的可信度大于期望可信度,才說(shuō)明A的出現(xiàn)對(duì)B的出現(xiàn)有促進(jìn)作用,也說(shuō)明了它們之間某種程度的相關(guān)性,如果作用度不大于1,則此關(guān)聯(lián)規(guī)則也就沒(méi)有意義了。
就沃爾馬案例而言,使用關(guān)聯(lián)規(guī)則挖掘技術(shù),對(duì)交易資料庫(kù)中的紀(jì)錄進(jìn)行資料挖掘,首先必須要設(shè)定最小支持度與最小可信度兩個(gè)門(mén)檻值,在此假設(shè)最小支持度min_support=5%且最小可信度min_confidence=70%。因此符合此該超市需求的關(guān)聯(lián)規(guī)則將必須同時(shí)滿(mǎn)足以上兩個(gè)條件。若經(jīng)過(guò)挖掘過(guò)程所找到的關(guān)聯(lián)規(guī)則「尿布,啤酒」,滿(mǎn)足下列條件,將可接受「尿布,啤酒」的關(guān)聯(lián)規(guī)則。用公式可以描述Support(尿布,啤酒)>=5%且Confidence(尿布,啤酒)>=70%。其中,Support(尿布,啤酒)>=5%于此應(yīng)用范例中的意義為:在所有的交易紀(jì)錄資料中,至少有5%的交易呈現(xiàn)尿布與啤酒這兩項(xiàng)商品被同時(shí)購(gòu)買(mǎi)的交易行為。Confidence(尿布,啤酒)>=70%于此應(yīng)用范例中的意義為:在所有包含尿布的交易紀(jì)錄資料中,至少有70%的交易會(huì)同時(shí)購(gòu)買(mǎi)啤酒。因此,今后若有某消費(fèi)者出現(xiàn)購(gòu)買(mǎi)尿布的行為,超市將可推薦該消費(fèi)者同時(shí)購(gòu)買(mǎi)啤酒。這個(gè)商品推薦的行為則是根據(jù)“尿布,啤酒”關(guān)聯(lián)規(guī)則,因?yàn)榫驮摮羞^(guò)去的交易紀(jì)錄而言,支持了“大部份購(gòu)買(mǎi)尿布的交易,會(huì)同時(shí)購(gòu)買(mǎi)啤酒”的消費(fèi)行為。
3 數(shù)據(jù)挖掘在納稅異常行為分析中的應(yīng)用
在日常的稅收管理中,納稅人可以根據(jù)不同的標(biāo)準(zhǔn)被分類(lèi)成若干靜態(tài)的屬性,同時(shí)也會(huì)發(fā)生很多種動(dòng)態(tài)的異常納稅行為,我們想尋求的是:哪些具有靜態(tài)屬性的納稅人更易于發(fā)生動(dòng)態(tài)的異常納稅行為,受到沃爾瑪超市“尿布與啤酒”故事的啟發(fā),我們將納稅人視為“顧客”,將納稅人的靜態(tài)屬性和動(dòng)態(tài)行為視為“購(gòu)物事務(wù)”,從龐雜的稅務(wù)信息系統(tǒng)的數(shù)據(jù)中去發(fā)現(xiàn)這些屬性和行為之間的關(guān)聯(lián)規(guī)則。
首先,我們把納稅人按照行業(yè)、地區(qū)、企業(yè)類(lèi)型、規(guī)模、注冊(cè)資本等標(biāo)準(zhǔn)將納稅人分成不同的類(lèi)別,其次,將納稅人曾被查補(bǔ)、自查、加收滯納金、被移送稽查、發(fā)生發(fā)票違章處理、連續(xù)三個(gè)月零負(fù)申報(bào)等六種行為歸并成納稅異常行為。把一個(gè)納稅人在一個(gè)納稅期限內(nèi)的納稅行為作為一個(gè)事務(wù),相當(dāng)于一個(gè)超市購(gòu)物者的購(gòu)物行為。我們對(duì)近兩年的納稅數(shù)據(jù)進(jìn)行遷移、清洗,建立數(shù)據(jù)倉(cāng)庫(kù)。分析當(dāng)某個(gè)納稅人屬于某個(gè)分類(lèi)時(shí),具有納稅異常行為之間的關(guān)聯(lián)規(guī)則,即對(duì)每一個(gè)類(lèi)別,計(jì)算出可信度、支持度和作用度,以期發(fā)現(xiàn)兩者之間的關(guān)聯(lián)度。
以按照企業(yè)類(lèi)型分類(lèi)為例,納稅人是國(guó)有企業(yè)的,有納稅異常行為的作為事務(wù),根據(jù)關(guān)聯(lián)規(guī)則相關(guān)屬性的定義可得出以下的等式:
可信度=國(guó)有企業(yè)納稅人納稅異常行為數(shù)/國(guó)有企業(yè)全部的納稅行為數(shù)
支持度=國(guó)有企業(yè)納稅人納稅異常行為數(shù)/全部企業(yè)的納稅行為數(shù)
作用度=(國(guó)有企業(yè)納稅人納稅異常行為數(shù)/國(guó)有企業(yè)全部的納稅行為數(shù))/(全部納稅人納稅異常行為數(shù)/全部企業(yè)的納稅行為數(shù))
其中納稅異常行為數(shù)就是在兩年的納稅期間發(fā)生上述六種異常行為的數(shù)量,納稅行為數(shù)就是在兩年共24個(gè)納稅期間內(nèi)納稅人的納稅行為總和,即∑24*6*(納稅人數(shù)量)。
通過(guò)對(duì)數(shù)據(jù)的清洗、加工和計(jì)算,得出如下結(jié)果。
同樣,可以計(jì)算分地區(qū)、規(guī)模、注冊(cè)資本等不同口徑下的納稅人與異常行為的關(guān)聯(lián)指標(biāo),得出他們之間的關(guān)聯(lián)模式。以上兩表為例,從表2可以看出,國(guó)有與集體聯(lián)營(yíng)企業(yè)在近兩年的納稅行為中發(fā)生異常的概率是總體納稅人的納稅異常行為發(fā)生概率的3.8倍;從表3可以看出,行業(yè)為煙草制品業(yè)的企業(yè)發(fā)生稅務(wù)異常行為的概率是全部納稅人發(fā)生納稅異常行為概率的27.44倍。有了這些“挖掘”的信息,業(yè)務(wù)部門(mén)可以通過(guò)進(jìn)一步分析這些指標(biāo),從中發(fā)現(xiàn)某些規(guī)律性,并指導(dǎo)稅源管理部門(mén)對(duì)這些“高風(fēng)險(xiǎn)”的企業(yè)有針對(duì)性的加強(qiáng)管理。
4 結(jié)語(yǔ)
隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和商務(wù)智能技術(shù)的發(fā)展,關(guān)聯(lián)規(guī)則等數(shù)據(jù)挖掘分析方法在稅務(wù)信息化建設(shè)中將得到更為廣泛的應(yīng)用,對(duì)稅收管理的決策支持作用將更加凸顯。
參考文獻(xiàn)
[1] 胡彥.基于數(shù)據(jù)倉(cāng)庫(kù)的決策支持工具的比較研究.計(jì)算機(jī)應(yīng)用[J],2000.
[2] 宋興彬、徐力、王剛.數(shù)據(jù)挖掘技術(shù)在稅務(wù)系統(tǒng)中的應(yīng)用.網(wǎng)絡(luò)與計(jì)算機(jī)技術(shù)應(yīng)用[J],2001.
[3] MBA智庫(kù).百科.