顏廷熙
摘 要 TD (Teradata Data Warehouse Appliance) 廣泛適用于新采用數(shù)據(jù)倉庫或想要補(bǔ)充現(xiàn)有企業(yè)級(jí)數(shù)據(jù)倉庫的公司。該平臺(tái)可用作整合數(shù)據(jù)倉庫、周期性數(shù)據(jù)集市、災(zāi)難恢復(fù)或應(yīng)用程序?qū)嵤┯?EDW 中前的測(cè)試分析沙箱。是數(shù)據(jù)倉庫一體機(jī) ,能對(duì)數(shù)據(jù)倉庫的海量和長期存儲(chǔ),并增加您的數(shù)據(jù)和分析功能。
關(guān)鍵詞 數(shù)據(jù)倉庫 海量存儲(chǔ) 數(shù)據(jù)恢復(fù)
TD數(shù)據(jù)倉庫是集成、細(xì)致和豐富的數(shù)據(jù)的一個(gè)集中的和歷史的存儲(chǔ)庫,為多個(gè)集團(tuán)的多決策應(yīng)用程序提供支持并且是企業(yè)數(shù)據(jù)分析的單一來源。
TD(Teradata)數(shù)據(jù)結(jié)構(gòu)-邏輯結(jié)構(gòu):
1 TD優(yōu)勢(shì)說明
以城市軌道交通6條線路為例;提供軌道交通數(shù)據(jù)源的多元異構(gòu)數(shù)據(jù)及衍生數(shù)據(jù)的海量存儲(chǔ)和長期存儲(chǔ)。
數(shù)據(jù)采集平臺(tái)系統(tǒng)(DAP):按每年300G;清分系統(tǒng)(ACC):每天15M,按后期增加票種票價(jià)計(jì)算,每天約30M,合計(jì)每年20G;線網(wǎng)運(yùn)維管理系統(tǒng)(OMC):按每年20G;應(yīng)急指揮中心系統(tǒng)(ETC):按每年20G, 則上述數(shù)據(jù)總計(jì):DAP+ACC+OMC+ETC=300*6+20+20*6+20*6=2060G,約3T。按100T容量計(jì)量,預(yù)留TD數(shù)據(jù)空間預(yù)留20T,則可以存儲(chǔ)約25年。
在實(shí)際建設(shè)使用過程中,還可以采用數(shù)據(jù)壓縮手段進(jìn)一步提高數(shù)據(jù)容量。數(shù)據(jù)壓縮的將采用MVC(多值壓縮)、ALC(算法壓縮)、BLC(塊壓縮)三種不同手段,根據(jù)不同數(shù)據(jù)情況采用適用的方式進(jìn)行壓縮處理。
ALC(算法壓縮):允許用戶自MVC(多值壓縮):對(duì)于大表中經(jīng)常出現(xiàn)重復(fù)值的字段,通過在table header存儲(chǔ)字段值,在記錄行中僅存儲(chǔ)標(biāo)識(shí)符的方式進(jìn)行數(shù)據(jù)壓縮;
定義壓縮和解壓縮算法,或使用Teradata標(biāo)準(zhǔn)函數(shù)來支持?jǐn)?shù)據(jù)壓縮;算法壓縮必須以UDF的方式預(yù)先定義,并且在建表語句中詳細(xì)說明;
BLC(塊壓縮):BLC塊壓縮是指對(duì)于此表的整個(gè)磁盤數(shù)據(jù)塊進(jìn)行壓縮,以減少數(shù)據(jù)存儲(chǔ)空間。
2效率高
采用 MPP(Massively Parallel Processing,大規(guī)模并行數(shù)據(jù)處理系統(tǒng))架構(gòu)設(shè)計(jì),構(gòu)建類似“動(dòng)車組”的一體機(jī)數(shù)據(jù)處理系統(tǒng),中心包括12個(gè)一體機(jī)單元,各一體機(jī)單元并行處理,集中調(diào)度管理。
每個(gè)一體機(jī)單元能夠支持120個(gè)會(huì)話并行處理。每個(gè)會(huì)話能夠并行處理80個(gè)線程。
實(shí)例:使用刀片70萬數(shù)據(jù)匹配出行數(shù)據(jù)、約120分鐘;TD約10分鐘。
Teradata數(shù)據(jù)庫可實(shí)現(xiàn)負(fù)載均衡和負(fù)載優(yōu)先級(jí)的管理。通過系統(tǒng)信息能夠偵測(cè)報(bào)表和查詢?cè)谙到y(tǒng)響應(yīng)時(shí)間上是否有提升,這些提升可以通過Teradata負(fù)載管理以及負(fù)載限制來實(shí)現(xiàn)。負(fù)載管理的原則是為需求資源較少的負(fù)載分配較多的資源,使其能迅速結(jié)束,從而很快釋放出資源。
同時(shí)根據(jù)TEADATA虛擬存儲(chǔ)技術(shù)從數(shù)據(jù)“溫度”這一視角來自動(dòng)、智能地進(jìn)行數(shù)據(jù)放置管理的數(shù)據(jù)庫管理軟件。這一內(nèi)置的智能可以在不干擾用戶或管理員的前提下自動(dòng)將使用最頻繁的數(shù)據(jù)或者叫“熱”數(shù)據(jù)放到速度最快的存儲(chǔ)單元并將使用頻率最低的數(shù)據(jù)或者叫“冷”數(shù)據(jù) 放到速度最慢的存儲(chǔ)單元。數(shù)據(jù)的合理放置可支持熱數(shù)據(jù)的高性能訪問從而助力實(shí)時(shí)決策,同時(shí)在數(shù)據(jù)漸漸成為歷史或日益變“冷”并遷移到成本較低的磁盤時(shí)提供自動(dòng)化的生命周期管理流程。這樣客戶就能以較低的成本實(shí)現(xiàn)存儲(chǔ)容量最大化,并獲得更高的性能。
3可靠性高
(1)能夠提供存儲(chǔ)數(shù)據(jù)的安全保護(hù)功能:Teradata用到的有RAID1和RAID5技術(shù)。
(2)Disk Arrays -磁盤陣列,Teradata用到的有RAID1和RAID5技術(shù)。
RAID1的特點(diǎn):數(shù)據(jù)鏡像,提供最好的數(shù)據(jù)可用性和性能,但是空間損失很高;
優(yōu)點(diǎn):數(shù)據(jù)可用性最高,更高的讀能力,寫操作沒有性能損失,快速恢復(fù)能力;
缺點(diǎn):50%的空間損失。
(1)Clique - node 級(jí)的容錯(cuò)機(jī)制,通過Vproc Migration技術(shù),當(dāng)一個(gè)TPA節(jié)點(diǎn)失敗時(shí),Teradata自動(dòng)重啟然后原來運(yùn)行在失敗節(jié)點(diǎn)上的Vproc漂移到clique內(nèi)的其它節(jié)點(diǎn)上運(yùn)行。
(2)Locks -保證數(shù)據(jù)一致性,防止多個(gè)用戶同時(shí)修改相同的數(shù)據(jù)。
(3)Fallback - AMP級(jí)的容錯(cuò)機(jī)制,可以在數(shù)據(jù)庫級(jí)和表級(jí)定義。當(dāng)一個(gè)AMP因?yàn)橛布蜍浖脑虻艟€的時(shí)候,使用Fallback機(jī)制的表對(duì)用戶都是可用的,當(dāng)此AMP被修正并重新上線時(shí),關(guān)聯(lián)的Vdisk上的數(shù)據(jù)根據(jù)Down-AMP Recovery Journal自動(dòng)恢復(fù)。
參考文獻(xiàn)
[1] 李偉章,徐幼銘,林瑜筠等.城市軌道交通通信[M].北京:中國鐵道出版社,2008.
[2] 曾小旭,劉慶磊.地鐵網(wǎng)絡(luò)化運(yùn)營集中式控制中心架構(gòu)方案研究[J].城市軌道交通研究,2016(04).