国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

提高氣象數(shù)據(jù)查詢速度的存儲分析

2014-09-10 15:37傅雅玉源艷芬梁慎青葉秋英
電腦知識與技術(shù) 2014年6期
關(guān)鍵詞:數(shù)據(jù)庫

傅雅玉 源艷芬 梁慎青 葉秋英

摘要:在氣象現(xiàn)代化的發(fā)展進程中,將來各種各樣的實時觀測數(shù)據(jù)會越來越多,除了數(shù)據(jù)的準(zhǔn)確性以外,對數(shù)據(jù)的時效性要求也越來越高。數(shù)據(jù)的時效包括采集傳輸時效和查詢應(yīng)用時效。采集傳輸時效有嚴(yán)格氣象報文觀測傳輸規(guī)范和制度,該文重點研究分析如何提高實時觀測數(shù)據(jù)的查詢應(yīng)用時效。

關(guān)鍵詞:結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)庫;數(shù)據(jù)庫索引;列式存儲;行式存儲

中圖分類號:TP311 文獻標(biāo)識碼:A 文章編號:1009-3044(2014)06-1170-03

Analysis of Meteorological Data Storage to Improve Query Speed

FU Ya-yu,YUAN Yan-fen,LIANG Shen-qing,YE Qiu-ying

(Guangdong Meteorological Information Centre, Guangzhou 510080, China)

Abstract: In the process of the development of modern meteorology, a variety of real-time observation data in the future will be more and more, in addition to data accuracy, timeliness of data requirements are also increasing. Timeliness of data collection and transmission, including timeliness and query applications aging. There are strict time collection and transmission of meteorological observations packet transmission specifications and system, this paper focuses on the analysis of how to improve the query application timeliness real-time observation data.

Key words: structured data; database; database indexes; columns; storage; storage line

為建設(shè)幸福廣東,提高預(yù)報準(zhǔn)確率,廣東省要在2015年基本實現(xiàn)氣象現(xiàn)代化。信息中心要完成“三個一”工作。即一分鐘資料到桌面、一套一體化的數(shù)據(jù)庫、一個實時分析數(shù)據(jù)集,滿足“資料好用、用好資料”的要求。

這“三個一”的工作,其實要求信息中心將及時收到的實時觀測資料進行處理、入庫,然后提供給預(yù)報員和其他應(yīng)用人員使用,而不是將原始資料直接送到預(yù)報員桌面。這就要求我們需要對成千上萬的原始數(shù)據(jù)進行快速的處理入庫和提供高效的快速查詢、統(tǒng)計、分析機制。

信息中心每天收到各種各樣的氣象資料,其中有結(jié)構(gòu)化數(shù)據(jù)(如國家自動站和區(qū)域站等)和非結(jié)構(gòu)化數(shù)據(jù)(如雷達產(chǎn)品,云圖等)。在自動站資料的應(yīng)用中,預(yù)報員希望從自動站觀測數(shù)據(jù)中快速提取如溫度、雨量、風(fēng)向和風(fēng)速等要素進行平均或累計等運算。

眾所周知,數(shù)據(jù)查詢的速度和數(shù)據(jù)的存儲方式都以索引密切相關(guān)。信息中心保證大量的實時數(shù)據(jù)入庫的同時,還需要想辦法改善數(shù)據(jù)的存儲方式來滿足快速查詢的要求。在現(xiàn)有的存儲技術(shù)架構(gòu)中,是否還有更好的辦法來提升數(shù)據(jù)查詢速度呢?我們先來了解計算機的數(shù)據(jù)存儲方式。

1 數(shù)據(jù)的存儲方式

目前,在計算機的數(shù)據(jù)處理過程中,計算機會將數(shù)據(jù)存儲到存儲介質(zhì)(通常指硬盤)里,存儲的方式通常有行式存儲和列式存儲。

行式存儲是將每條記錄數(shù)據(jù)以行的形式依次存儲到存儲介質(zhì)中的過程。

例如下面的表:

這個簡單表的每條記錄包括觀測站點的Name(名稱),IIIII(站號),Temp(溫度)和Rain(雨量)。

這個表要存儲在計算機的內(nèi)存(RAM)和存儲(硬盤)中。數(shù)據(jù)庫必須把這個簡單的二維表轉(zhuǎn)換成一個個“字節(jié)”中,由操作系統(tǒng)按順序?qū)懙絻?nèi)存或硬盤中。

行式數(shù)據(jù)庫把一行中的數(shù)據(jù)值串在一起存儲起來,然后再存儲下一行的數(shù)據(jù),以此類推。

列式存儲是將每條記錄數(shù)據(jù)以列的形式依次存儲到存儲介質(zhì)中的過程。

列式數(shù)據(jù)庫把一列中的數(shù)據(jù)值串在一起存儲起來,然后再存儲下一列的數(shù)據(jù),以此類推。

2 兩種存儲方式的優(yōu)缺點

行式存儲數(shù)據(jù)庫因為同一條記錄的行存儲在一起,所以記錄寫入速度快,讀取一條記錄和同一條記錄的多個列快,更改和刪除記錄快,但聚合統(tǒng)計、查詢慢,數(shù)據(jù)壓縮比低,索引開銷大。

列式存儲數(shù)據(jù)庫因為同一類型的列按順序依次存儲在一塊,索引和數(shù)據(jù)列是統(tǒng)一,同一列的數(shù)據(jù)相同或相似較多,所以列式存儲查詢速度快、數(shù)據(jù)壓縮比高、裝載快,但是插入更新慢,不太適合數(shù)據(jù)頻繁更新變化。

行式存儲的數(shù)據(jù)庫擅長隨機讀操作,多用于聯(lián)機事務(wù)處理 (OLTP);列式存儲的數(shù)據(jù)庫則更擅長大批量數(shù)據(jù)量查詢,多用于聯(lián)機分析處理(OLAP)。

3 氣象數(shù)據(jù)存儲使用特點

氣象自動站觀測的實時資料主要特點是時間點高度集中,時間間隔短,站點較多。也就是說同一個時間點并發(fā)數(shù)較大。由于這些特點,對收集、處理、存儲和管理要求很高,收集耗費的時間也多。根據(jù)行式存儲數(shù)據(jù)庫寫入快的特點,比較適合使用行式數(shù)據(jù)庫。如商業(yè)數(shù)據(jù)庫Oracle等。要實現(xiàn)“三個一”的第一個目標(biāo),即一分鐘資料到桌面,信息中心還需要完善數(shù)據(jù)流程。

資料一經(jīng)入庫之后,一般很少更改數(shù)據(jù)項內(nèi)容。在資料的使用上,預(yù)報員更多的是關(guān)心某個特殊時間區(qū)間(暴雨、臺風(fēng)、冰凍雨雪等天氣過程)某個站點或某個區(qū)域站點的溫度、雨量、風(fēng)速和風(fēng)向等要素值或平均值或累加值。從這點來看,氣象資料的存儲又非常適合列式存儲數(shù)據(jù)庫的要求?,F(xiàn)經(jīng)常使用商用列式數(shù)據(jù)庫有Sybase IQ、ParAccel、Sand/DNA Analytics和Vertica等。

4 改進建議

如果氣象應(yīng)用根據(jù)某幾列來聚合數(shù)據(jù),就應(yīng)該按列的方式組織數(shù)據(jù)更有效?;蛘咧恍枰薷哪骋涣兄?,按列的方式組織數(shù)據(jù)更有效。因為可以直接找到某列數(shù)據(jù)并修改,而與行中的其他列無關(guān)。如果采用行式數(shù)據(jù)庫,如現(xiàn)在的Oracle數(shù)據(jù)庫,為滿足業(yè)務(wù)需要,需要建立大量的索引和混合索引,而大量的索引所帶來的存儲空間的浪費以及維護這些索引花費的不少的時間。列式數(shù)據(jù)庫就不會出現(xiàn)這種情形,因為列式數(shù)據(jù)庫的所有字段都是索引的,甚至可以認為索引和數(shù)據(jù)是統(tǒng)一的。

如果頻繁增加行數(shù)據(jù),頻繁的修改和刪除數(shù)據(jù),每次要求讀出整行數(shù)據(jù),那么按行的方式組織數(shù)據(jù)會更有效,因為只需要一次尋址就可以順序?qū)懭牖蜃x出整行的全部數(shù)據(jù)。

鑒于氣象實時數(shù)據(jù)收集和查詢的特點,收集大量并發(fā)的實時數(shù)據(jù)入庫應(yīng)該采用行式數(shù)據(jù)庫,而氣象歷史數(shù)據(jù),無論是查詢還是存儲壓縮,非常適合采用列式數(shù)據(jù)庫。因為查詢聚合通常提取數(shù)據(jù)庫中的氣象要素列,如溫度、雨量等,而相同區(qū)域的要素列的值在天氣穩(wěn)定的情形下相同的可能性很大,這非常有利于數(shù)據(jù)壓縮存儲。如Oracle和MySQL等穩(wěn)定可靠的數(shù)據(jù)庫產(chǎn)品。在數(shù)據(jù)庫使用時增加列式索引來加快查詢速度,提高預(yù)報產(chǎn)品生成時間。

在數(shù)據(jù)庫存儲可采用如Oracle 12C的列混合壓縮方式壓縮數(shù)據(jù)或者歷史庫采用高性能列數(shù)據(jù)庫,如SyBase IQ 等,如此來提高壓縮率和存儲效率。

在實際應(yīng)用中,列式存儲的數(shù)據(jù)庫更適合于氣象海量數(shù)據(jù)的分析和統(tǒng)計。

5 小結(jié)

廣東省要在2015年基本實現(xiàn)氣象現(xiàn)代化,要讓社會百姓感覺到氣象真的像現(xiàn)代化,除了提高氣象預(yù)報和氣候預(yù)測的準(zhǔn)確性外,預(yù)報時效也非常重要?,F(xiàn)在社會科技發(fā)展很快,移動互聯(lián)網(wǎng)和智能手機出現(xiàn),改變?nèi)藗円酝纳盍?xí)慣,人們可以通過手持智能設(shè)備使用氣象應(yīng)用客戶端快速查詢天氣情況。這就要求我們對數(shù)據(jù)查詢、統(tǒng)計分析提出很高的要求,根據(jù)用戶使用習(xí)慣,查詢反應(yīng)時間最好在3秒之內(nèi),越快越好。鑒于此,數(shù)據(jù)的底層組織存儲架構(gòu)非常重要,設(shè)計好壞直接影響到用戶體驗,關(guān)系到氣象現(xiàn)代化的進程。

參考文獻:

[1] Xuedong Chen,Stephen Revilak.The Star Schema Benchmark and Augmented Fact Table Indexing[C].Pat & Betty ONeil, TPC Technology Conference ,2009.

[2] 尹東方.列式存儲在知識發(fā)現(xiàn)系統(tǒng)中的應(yīng)用與實現(xiàn)[D].長春:吉林大學(xué),2010.

[3] 孫慧生.淺談列式數(shù)據(jù)庫[J].企業(yè)技術(shù)開發(fā),2011,29(21):46-47.

猜你喜歡
數(shù)據(jù)庫
超星數(shù)據(jù)庫錄入證
本刊加入數(shù)據(jù)庫的聲明
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
兩種新的非確定數(shù)據(jù)庫上的Top-K查詢
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
平泉县| 昌都县| 夏河县| 富蕴县| 武定县| 太湖县| 新河县| 会同县| 印江| 富阳市| 皮山县| 阿城市| 博白县| 阿拉尔市| 乌海市| 瓦房店市| 鄱阳县| 宁都县| 永吉县| 遂宁市| 望都县| 民权县| 洛南县| 翁源县| 十堰市| 建阳市| 襄垣县| 剑川县| 霞浦县| 碌曲县| 柳江县| 尚志市| 子洲县| 永川市| 巴彦淖尔市| 江都市| 安龙县| 绿春县| 广元市| 金乡县| 甘孜县|