国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

ETL技術(shù)在地稅數(shù)據(jù)集中項(xiàng)目中的應(yīng)用探討

2012-04-29 23:23:00唐亮
電腦知識(shí)與技術(shù) 2012年21期

唐亮

摘要:隨著國家稅務(wù)部門對(duì)涉稅數(shù)據(jù)精確化管理的需要,迫切要求將各級(jí)稅務(wù)機(jī)關(guān)的征管數(shù)據(jù)匯總,并進(jìn)行分析和預(yù)測(cè)。鑒于我省核心征管系統(tǒng)省、市兩級(jí)部署,分散應(yīng)用,所以在數(shù)據(jù)集成的過程中對(duì)數(shù)據(jù)的準(zhǔn)確性和及時(shí)性要求比較嚴(yán)格,就必須使用ETL技術(shù)來實(shí)現(xiàn)三級(jí)數(shù)據(jù)的集成。

關(guān)鍵詞:ETL技術(shù);稅務(wù)部門;數(shù)據(jù)集成應(yīng)用

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)21-5255-03

ETL Technology in Land Tax Data Centralized Project

TANG Liang

(Local Taxation Bureau of Anhui Province,Electronic Tax Information Management Center,Hefei 230061,China)

Abstract:Along with the national tax authorities on tax data accurate management needs, requires the tax authorities at all levels of adminis tration and data collection, analysis and prediction. In view of our province core collection system of provincial and municipal levels, de ployment, distributed application, so the data integration in the process of data accuracy and timeliness requirements more stringent, you must use ETL technology to achieve level three data integration.

Key words:ETL technology;tax department;data integration application

為了加大地稅系統(tǒng)數(shù)據(jù)向國家稅務(wù)總局集中的力度,進(jìn)一步提高稅務(wù)系統(tǒng)稅源監(jiān)控和分析的能力,不斷深化“信息管稅”工作,國家稅務(wù)總局于2010年5月底下發(fā)了《國家稅務(wù)總局關(guān)于做好抽取全國地方稅務(wù)系統(tǒng)稅收征管有關(guān)數(shù)據(jù)準(zhǔn)備工作的通知》(國稅函〔2010〕235號(hào)),要求各省地方稅務(wù)部門做好數(shù)據(jù)抽取相關(guān)準(zhǔn)備工作,為了推進(jìn)這一項(xiàng)目的實(shí)施,我省于2012年1月~3月啟動(dòng)了這項(xiàng)工作,經(jīng)過近半年時(shí)間的施工和試運(yùn)行,實(shí)現(xiàn)了全省17個(gè)市局核心征管數(shù)據(jù)的集中工作,系統(tǒng)目前運(yùn)行情況比較穩(wěn)定。

1系統(tǒng)功能

本項(xiàng)目為了完成從17個(gè)市局征管系統(tǒng)抽取數(shù)據(jù)的功能,將系統(tǒng)分別從功能、數(shù)據(jù)、技術(shù)三個(gè)角度描述系統(tǒng)的設(shè)計(jì)內(nèi)容。功能實(shí)現(xiàn)方面,系統(tǒng)提供配置管理、數(shù)據(jù)抽取、質(zhì)量管控、系統(tǒng)管理四個(gè)功能域。數(shù)據(jù)存儲(chǔ)方面,將源系統(tǒng)表、目標(biāo)系統(tǒng)表、系統(tǒng)配置表歸屬到抽取數(shù)據(jù)層、目標(biāo)數(shù)據(jù)層、控制數(shù)據(jù)層三個(gè)層面中。技術(shù)實(shí)現(xiàn)方面,系統(tǒng)按照分層的思想將系統(tǒng)劃分為了數(shù)據(jù)層、控制層、展現(xiàn)層三個(gè)層面。數(shù)據(jù)層采用Oracle、Sybase等主流數(shù)據(jù)庫以及ETL平臺(tái)進(jìn)行數(shù)據(jù)的實(shí)際存儲(chǔ)和抽?。豢刂茖硬捎孟冗M(jìn)的工作流技術(shù),完成抽取流程的定制和控制;展現(xiàn)層主要使用Ext/Flex等富客服端技術(shù)實(shí)現(xiàn)友好的客戶界面。

2 ETL過程

數(shù)據(jù)抽取過程是首先檢查17個(gè)市局系統(tǒng)數(shù)據(jù)庫中的數(shù)據(jù)合理性,檢查正確后將數(shù)據(jù)抽取到抽取數(shù)據(jù)層。系統(tǒng)進(jìn)一步根據(jù)控制數(shù)據(jù)層的內(nèi)容對(duì)抽取數(shù)據(jù)層的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,將轉(zhuǎn)換后的結(jié)果加載到目標(biāo)數(shù)據(jù)層,目標(biāo)數(shù)據(jù)層的數(shù)據(jù)供總局進(jìn)行數(shù)據(jù)抽取。上述過程構(gòu)成一個(gè)數(shù)據(jù)抽取的流程作業(yè),每個(gè)作業(yè)都可以配置自動(dòng)后臺(tái)執(zhí)行或頁面上手工抽取,在執(zhí)行過程中的某個(gè)環(huán)節(jié)一旦出現(xiàn)異常時(shí),將通過異常管理模塊進(jìn)行通知和干預(yù)。

2.1數(shù)據(jù)檢查環(huán)節(jié)

在數(shù)據(jù)檢查環(huán)節(jié),主要從接口數(shù)據(jù)的正確性、及時(shí)性和完整性等三個(gè)方面進(jìn)行檢查,同時(shí)根據(jù)入庫是否異常、接收文件的時(shí)間等角度進(jìn)行分析;對(duì)于業(yè)務(wù)應(yīng)用系統(tǒng)的數(shù)據(jù)庫接口,則主要從接口的及時(shí)性和一致性方面進(jìn)行檢查,通過比較源系統(tǒng)的相關(guān)指標(biāo),分析數(shù)據(jù)的可信度。

2.2數(shù)據(jù)抽取環(huán)節(jié)

數(shù)據(jù)抽取是指從數(shù)據(jù)源系統(tǒng)中獲取數(shù)據(jù),抽取策略包括抽取方式(增量、全量)、抽取周期等。

系統(tǒng)支持多種不同系統(tǒng)平臺(tái)和數(shù)據(jù)類型的數(shù)據(jù)抽取。包括各種關(guān)系型數(shù)據(jù)庫系統(tǒng)和各種文件格式的源數(shù)據(jù)等。

本次的數(shù)據(jù)抽取是從17個(gè)市局征管系統(tǒng)中把征管相關(guān)數(shù)據(jù)抽取到本系統(tǒng)的抽取數(shù)據(jù)層。每月初,系統(tǒng)17個(gè)市局征管系統(tǒng)將數(shù)據(jù)以數(shù)據(jù)文件的形式,完成全量復(fù)制;每天通過數(shù)據(jù)庫接口通過數(shù)據(jù)抽取工具以增量復(fù)制方式完成數(shù)據(jù)同步。

2.3數(shù)據(jù)轉(zhuǎn)換環(huán)節(jié)

數(shù)據(jù)轉(zhuǎn)換包括格式和類型數(shù)據(jù)的轉(zhuǎn)換、數(shù)據(jù)翻譯、數(shù)據(jù)匹配、數(shù)據(jù)聚合以及其它復(fù)雜的計(jì)算等。多數(shù)情況下,數(shù)據(jù)源到本系統(tǒng)之間主要的轉(zhuǎn)換是格式轉(zhuǎn)換、數(shù)據(jù)翻譯、數(shù)據(jù)匹配。

本次系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換主要是將各個(gè)數(shù)據(jù)源的數(shù)據(jù)按照國家稅務(wù)總局的代碼表進(jìn)行轉(zhuǎn)換,將轉(zhuǎn)換的結(jié)果放到目的數(shù)據(jù)層。

2.4數(shù)據(jù)加載環(huán)節(jié)

數(shù)據(jù)加載是指將抽取轉(zhuǎn)換后的數(shù)據(jù)加載到本系統(tǒng)中,包括數(shù)據(jù)行加載和數(shù)據(jù)塊加載。在綜合考慮效率和業(yè)務(wù)實(shí)現(xiàn)等因素基礎(chǔ)上確定數(shù)據(jù)加載周期和數(shù)據(jù)追加策略。

2.5異常管理

主要通過計(jì)數(shù)/統(tǒng)計(jì)數(shù)平衡、拒絕數(shù)據(jù)量等方便評(píng)估數(shù)據(jù)復(fù)制、ETL的具體運(yùn)行情況,以發(fā)現(xiàn)數(shù)據(jù)整合過程中有關(guān)數(shù)據(jù)的問題,并進(jìn)行必要的處理。

支持檢驗(yàn)點(diǎn)。當(dāng)外部數(shù)據(jù)記錄特別龐大時(shí),如果因?yàn)槟撤N原因發(fā)生故障中斷后,可以從最近的校驗(yàn)點(diǎn)開始處恢復(fù)處理。支持外部數(shù)據(jù)記錄的錯(cuò)誤限制定義,同時(shí)將發(fā)生錯(cuò)誤的數(shù)據(jù)記錄輸出。

2.6作業(yè)管理

作業(yè)管理主要包括初始化作業(yè)、日常ETL作業(yè)、日常復(fù)制作業(yè)、異常處理作業(yè)等,同時(shí)支持自動(dòng)作業(yè)和人工作業(yè)。支持任務(wù)屬性配置,可以對(duì)各項(xiàng)任務(wù)的屬性進(jìn)行配置,并保存在后臺(tái)配置文件中,以備任務(wù)調(diào)度按序執(zhí)行。

3 ETL部署

考慮到數(shù)據(jù)整合性能的關(guān)系,采用應(yīng)用模塊和ETL腳本執(zhí)行模塊分開部署的方式,通過統(tǒng)一的調(diào)度任務(wù)在ETL服務(wù)器上完成執(zhí)行。

圖2ETL部署

腳本、日志存儲(chǔ)規(guī)劃:腳本按目錄存儲(chǔ),對(duì)應(yīng)腳本管理表中的部署路徑、文件名稱等。原始日志統(tǒng)一存儲(chǔ)在ETL服務(wù)上。為了后續(xù)能查看流程環(huán)節(jié)中腳本的原始日志,因此在原始日志命名上考慮采用“腳該文件名+環(huán)節(jié)實(shí)例ID”進(jìn)行命名。由于ETL原始日志是在腳本執(zhí)行時(shí)系統(tǒng)自動(dòng)生成的,因此在調(diào)用接口服務(wù)時(shí),同時(shí)需要傳遞環(huán)節(jié)實(shí)例ID參數(shù)。

數(shù)據(jù)整合的時(shí)序圖如圖3:

圖3時(shí)序圖

數(shù)據(jù)整合過程由任務(wù)調(diào)度模塊或者人工進(jìn)行啟動(dòng),任務(wù)啟動(dòng)后調(diào)用相應(yīng)的流程(異步),流程啟動(dòng)后生成任務(wù)日志。

流程引擎根據(jù)流程配置,執(zhí)行流程環(huán)節(jié),對(duì)于E、T、L環(huán)節(jié)生成腳本執(zhí)行任務(wù),腳本調(diào)度服務(wù)調(diào)度任務(wù),當(dāng)腳本執(zhí)行完畢時(shí)寫入執(zhí)行結(jié)果,流程引擎定時(shí)讀取執(zhí)行結(jié)果;對(duì)于抽取前校驗(yàn)環(huán)節(jié)(主要是FTP數(shù)據(jù)整合前檢驗(yàn)),根據(jù)配置的規(guī)則進(jìn)行執(zhí)行,對(duì)于FTP的訪問調(diào)用中數(shù)據(jù)源統(tǒng)一服務(wù)設(shè)計(jì)中相關(guān)服務(wù),對(duì)于人工環(huán)節(jié),則生成環(huán)節(jié)及相應(yīng)的參與人。

對(duì)于E、T、L環(huán)節(jié),流程引擎除生成執(zhí)行任務(wù)外,在任務(wù)完成后還需要根據(jù)配置的規(guī)則進(jìn)行校驗(yàn)(先執(zhí)行條件規(guī)則,然后執(zhí)行動(dòng)作規(guī)則),同時(shí)寫規(guī)則日志。

流程引擎在執(zhí)行環(huán)節(jié)過程中出現(xiàn)異常,或者在執(zhí)行規(guī)則校驗(yàn)不通過時(shí)(包括單獨(dú)的校驗(yàn)環(huán)節(jié)以及E、T、L環(huán)節(jié)中的規(guī)則),除更新流程自身狀態(tài)外,均需要更新任務(wù)表中的狀態(tài)。此外,在流程監(jiān)控過程中,人工可以查看ETL執(zhí)行的原始日志。

4實(shí)施效果

自今年以來,全國稅務(wù)系統(tǒng)開展并完成了征管數(shù)據(jù)向國家稅務(wù)總局集中的工作,這些數(shù)據(jù)為稅務(wù)總局和各級(jí)國稅機(jī)關(guān)實(shí)施稅收科學(xué)化、專業(yè)化、精細(xì)化管理提供了有效支持,在稅源管理、納稅評(píng)估、政策調(diào)整基礎(chǔ)數(shù)據(jù)測(cè)算、政策效應(yīng)分析、稅務(wù)稽查等方面發(fā)揮了重要作用,同時(shí)也進(jìn)一步提升了地稅系統(tǒng)稅收管理能力,強(qiáng)化稅源監(jiān)控工作。

參考文獻(xiàn):

[1]王時(shí)繪,伍江磊.ETL中數(shù)據(jù)清洗技術(shù)在稅務(wù)系統(tǒng)中的應(yīng)用[J].科技廣場(chǎng),2011(11).

[2]盧新生,金波.廣東地稅基于ETL元數(shù)據(jù)管理征管系統(tǒng)的研究與實(shí)現(xiàn)[J].順德職業(yè)技術(shù)學(xué)院學(xué)報(bào),2009(1):33-35.

云和县| 临朐县| 江山市| 赣榆县| 镇康县| 桃江县| 朝阳市| 屏山县| 奎屯市| 获嘉县| 溆浦县| 盐亭县| 华坪县| 克山县| 敦化市| 龙口市| 盘锦市| 东阳市| 东阿县| 内黄县| 岳西县| 左云县| 星座| 久治县| 射洪县| 哈尔滨市| 崇礼县| 宣汉县| 烟台市| 陇西县| 安义县| 察雅县| 东丰县| 喀什市| 郑州市| 屏东市| 大安市| 鸡东县| 虹口区| 阿拉善右旗| 吴桥县|