国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MUSER的負(fù)數(shù)據(jù)庫接口設(shè)計(jì)與實(shí)現(xiàn)*

2018-04-12 07:47石聰明張曉麗楊秋萍
天文研究與技術(shù) 2018年2期
關(guān)鍵詞:數(shù)據(jù)文件射電底層

石聰明,張曉麗,王 鋒,3,戴 偉,3,楊秋萍,3

(1. 昆明理工大學(xué)管理與經(jīng)濟(jì)學(xué)院,云南 昆明 650093;2. 昆明理工大學(xué)云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室, 云南 昆明 650500;3. 中國科學(xué)院云南天文臺,云南 昆明 650011)

明安圖射電頻譜日像儀(MingantU SpEctral Radioheliograph, MUSER)是中國自行研制的新一代具有高時(shí)間、高空間、高頻率分辨率的對太陽進(jìn)行射電頻譜成像的專用射電望遠(yuǎn)鏡,觀測頻率范圍為0.4 GHz~15 GHz[1]。明安圖射電頻譜日像儀由低頻陣(MUSER-I)和高頻陣(MUSER-II)兩個(gè)子陣構(gòu)成。低頻陣由40面4.5 m口徑的拋物面天線及接收設(shè)備組成,在64個(gè)頻點(diǎn)上成像,工作頻率為0.4 GHz~2 GHz;高頻陣由60面2 m口徑的拋物面天線及接收設(shè)備組成,在528個(gè)頻點(diǎn)上成像,工作頻率為2 GHz~15 GHz。低頻陣和高頻陣的數(shù)字接收機(jī)每3.125 ms產(chǎn)生一個(gè)數(shù)據(jù)幀,并通過1.25 Gb的光纖傳送到數(shù)據(jù)獲取服務(wù)器。低頻陣和高頻陣數(shù)據(jù)幀的大小分別為100 000 B、204 800 B。

隨著明安圖射電頻譜日像儀進(jìn)入常規(guī)觀測,將產(chǎn)生海量的觀測數(shù)據(jù)。如果每個(gè)觀測日有10小時(shí),理論上,每個(gè)觀測日產(chǎn)生23 040 000個(gè)觀測數(shù)據(jù)幀,總共3.511 2 TB的觀測數(shù)據(jù),每年有365個(gè)觀測日的情況下將產(chǎn)生84.1億個(gè)觀測數(shù)據(jù)幀和將近1.3 PB的觀測數(shù)據(jù)。文[2]基于補(bǔ)集理論和明安圖射電頻譜日像儀的數(shù)據(jù)特征設(shè)計(jì)了一個(gè)高性能的海量數(shù)據(jù)管理系統(tǒng)(負(fù)數(shù)據(jù)庫),不僅可以用較少的存儲量來存儲海量數(shù)據(jù)幀中的元數(shù)據(jù),而且可以提高檢索性能。然而,文[2]沒有詳細(xì)介紹負(fù)數(shù)據(jù)庫中的接口設(shè)計(jì)與實(shí)現(xiàn)。

考慮到除了明安圖射電頻譜日像儀以外,其他望遠(yuǎn)鏡也有類似的海量歷史數(shù)據(jù)管理需求,有必要介紹負(fù)數(shù)據(jù)庫中的接口設(shè)計(jì)與實(shí)現(xiàn)。本文主要介紹明安圖射電頻譜日像儀負(fù)數(shù)據(jù)庫接口的設(shè)計(jì)和實(shí)現(xiàn),進(jìn)而為天文領(lǐng)域其他開源系統(tǒng)的海量數(shù)據(jù)管理提供一個(gè)有價(jià)值的參考。

1 負(fù)數(shù)據(jù)庫簡介

文[3]在2004年首次將存儲所有原始記錄信息的數(shù)據(jù)庫稱為正數(shù)據(jù)庫(the Positive Database),存儲通過補(bǔ)集理論從所有原始記錄信息中推導(dǎo)的補(bǔ)集信息的壓縮形式的數(shù)據(jù)庫稱為負(fù)數(shù)據(jù)庫(the Negative Database),且證明了從一個(gè)給定的正數(shù)據(jù)庫生成負(fù)數(shù)據(jù)庫是可行的,反之是一個(gè)多項(xiàng)式復(fù)雜程度的非確定性問題。文[4]在2005年提出信息的負(fù)表示(the Negative Representation)是一種受人工免疫系統(tǒng)啟發(fā)而來的新的數(shù)據(jù)表示方法,該方法與傳統(tǒng)表示方法最大的區(qū)別在于負(fù)表示總是存儲原始數(shù)據(jù)信息的補(bǔ)集信息的壓縮形式來代替原始數(shù)據(jù)信息,同時(shí)指出負(fù)數(shù)據(jù)庫是信息負(fù)表示的一種存儲形式。在隨后的2006年,信息負(fù)表示的思想被應(yīng)用到調(diào)查方面并提出了負(fù)調(diào)查的方法,該方法能夠達(dá)到保護(hù)被調(diào)查者隱私信息的目的*https://arxiv.org/pdf/math/0608176.pdf。文[5]利用負(fù)數(shù)據(jù)庫的思想提出一種安全保護(hù)算法,使用該算法能夠?yàn)橥ㄓ玫恼龜?shù)據(jù)庫提供一個(gè)額外的安全保護(hù)層。文[6]將負(fù)數(shù)據(jù)庫應(yīng)用于構(gòu)建生物特征數(shù)據(jù)庫,基于負(fù)數(shù)據(jù)庫的生物特征數(shù)據(jù)庫能夠保護(hù)數(shù)據(jù)隱私。文[7]利用負(fù)數(shù)據(jù)庫實(shí)現(xiàn)了一個(gè)基于網(wǎng)絡(luò)環(huán)境的數(shù)據(jù)管理系統(tǒng),該系統(tǒng)能夠提供更高級別的數(shù)據(jù)安全。

上述文獻(xiàn)涉及的負(fù)數(shù)據(jù)庫主要應(yīng)用在隱私保護(hù)和數(shù)據(jù)安全領(lǐng)域,且從負(fù)數(shù)據(jù)庫推導(dǎo)出正數(shù)據(jù)庫是一個(gè)多項(xiàng)式復(fù)雜程度的非確定性問題。然而,為明安圖射電頻譜日像儀設(shè)計(jì)的負(fù)數(shù)據(jù)庫不僅能夠降低存儲海量數(shù)據(jù)幀的元數(shù)據(jù)所需的存儲容量,而且能夠從檢索的補(bǔ)集信息中快速推導(dǎo)數(shù)據(jù)幀對應(yīng)的元數(shù)據(jù)信息。

2 接口設(shè)計(jì)與實(shí)現(xiàn)

進(jìn)一步完善了負(fù)數(shù)據(jù)庫原型系統(tǒng)的功能,并在此基礎(chǔ)上抽象了負(fù)數(shù)據(jù)庫的接口。進(jìn)而方便通過修改少量的代碼就可以將明安圖射電頻譜日像儀的負(fù)數(shù)據(jù)庫系統(tǒng)移植或集成到其它望遠(yuǎn)鏡的數(shù)據(jù)管理系統(tǒng)中。以下在簡要介紹明安圖射電頻譜日像儀的數(shù)據(jù)特征、補(bǔ)集理論和記錄格式的基礎(chǔ)上,著重介紹負(fù)數(shù)據(jù)庫的一些重要接口的設(shè)計(jì)與實(shí)現(xiàn)。

2.1 明安圖射電頻譜日像儀的數(shù)據(jù)特征

當(dāng)前的數(shù)據(jù)存儲系統(tǒng)是按照目錄、文件以及數(shù)據(jù)幀的形式組織數(shù)據(jù)。所有的觀測數(shù)據(jù)以文件的形式存儲在系統(tǒng)中,即低頻陣和高頻陣的文件分別存放在不同的目錄中。每分鐘觀測產(chǎn)生的19 200個(gè)連續(xù)的數(shù)據(jù)幀封裝到一個(gè)文件中,觀測日期、觀測時(shí)間、波段、極化方式、可見度數(shù)據(jù)、自相關(guān)數(shù)據(jù)等信息封裝到數(shù)據(jù)幀中。文件名是根據(jù)文件中第1個(gè)數(shù)據(jù)幀的觀測日期時(shí)間以 “YYYYMMDDhhmm” (YYYY: 年, MM: 月, DD: 日, hh: 時(shí), mm: 分)的格式命名。

由于受當(dāng)前存儲系統(tǒng)性能的限制,將觀測數(shù)據(jù)幀寫入磁盤時(shí)會隨機(jī)丟失數(shù)據(jù)幀,這無法保證封裝到同一個(gè)文件中的19 200個(gè)數(shù)據(jù)幀在同一分鐘內(nèi)。并且,開始觀測按鈕是由人工啟動的,無法保證在整分整秒恰好啟動觀測按鈕。上述兩種情況導(dǎo)致同一分鐘觀測產(chǎn)生的數(shù)據(jù)幀被存儲到兩個(gè)數(shù)據(jù)文件中。

2.2 補(bǔ)集理論

假定已知全集U,數(shù)據(jù)集A,且數(shù)據(jù)集C是數(shù)據(jù)集A的補(bǔ)集。負(fù)數(shù)據(jù)庫管理系統(tǒng)基于如下假設(shè):(1)全集U已知,且可以被精確定義;(2)所有的記錄可以通過給定的初始化條件推導(dǎo);(3)數(shù)據(jù)集A可以從它的補(bǔ)集C中推導(dǎo)。依據(jù)補(bǔ)集理論設(shè)計(jì)的明安圖射電頻譜日像儀的負(fù)數(shù)據(jù)庫管理系統(tǒng)可以通過存儲少量的丟幀信息并利用大量的邏輯推導(dǎo)運(yùn)算保證不會丟失任何已保存在文件中的數(shù)據(jù)幀元數(shù)據(jù)信息。

2.3 記錄格式

設(shè)計(jì)一種記錄格式表示數(shù)據(jù)文件、觀測日期時(shí)間以及數(shù)據(jù)幀之間的邏輯關(guān)系。為了方便敘述,用Record表示該記錄格式,Record的具體格式如圖1。

Record由datetime,file1和file2構(gòu)成。datetime由年(yyyy)、月(MM)、日(dd)、時(shí)(hh)、分(mm)構(gòu)成。file1由文件名(filename)、文件中第1幀的時(shí)間(timeF)、文件中最后一幀的時(shí)間(timeL)、文件內(nèi)幀的邏輯關(guān)系(FrameR)構(gòu)成。timeF和timeL的格式一樣,由年(yyyy)、月(MM)、日(dd)、時(shí)(hh)、分(mm)、秒(ss)、毫秒(ffffff)構(gòu)成。文件內(nèi)幀的邏輯關(guān)系通過開始偏移量(S)、開始偏移量對應(yīng)數(shù)據(jù)幀的波段(B)、開始偏移量對應(yīng)數(shù)據(jù)幀的極化(P)、結(jié)束偏移量(E)以及累計(jì)丟幀數(shù)(CA)描述。

圖1記錄格式
Fig.1The record format

2.4 接口設(shè)計(jì)與實(shí)現(xiàn)

基于上述的明安圖射電頻譜日像儀數(shù)據(jù)特征、補(bǔ)集理論以及為數(shù)據(jù)特征設(shè)計(jì)的特定記錄格式,本文為明安圖射電頻譜日像儀的負(fù)數(shù)據(jù)庫設(shè)計(jì)了相應(yīng)的接口函數(shù)和類,如圖2。這些接口函數(shù)和類主要用于從觀測數(shù)據(jù)文件構(gòu)造特定格式的記錄、從數(shù)據(jù)記錄推導(dǎo)相應(yīng)的數(shù)據(jù)幀信息以及連接底層數(shù)據(jù)庫等。負(fù)數(shù)據(jù)庫主要包括底層數(shù)據(jù)庫可用性校驗(yàn)接口、望遠(yuǎn)鏡數(shù)據(jù)文件操作有關(guān)的接口、數(shù)據(jù)庫同步(初始化)接口、數(shù)據(jù)檢索接口、元數(shù)據(jù)重構(gòu)接口等。同時(shí),負(fù)數(shù)據(jù)庫接口設(shè)計(jì)與實(shí)現(xiàn)在一定程度上遵守Python DB-API規(guī)范*http://delivery.acm.org/10.1145/330000/327384/a8-kuchling.html,可以降低系統(tǒng)各部分的相互依賴,提高組成單元的內(nèi)聚性,降低組成單元間的耦合程度,進(jìn)而提高系統(tǒng)的可維護(hù)性和可擴(kuò)展性。

2.4.1底層數(shù)據(jù)庫可用性校驗(yàn)接口

底層數(shù)據(jù)庫可用性校驗(yàn)接口(validate_underlying_database_availability)只提供了對MySQL、Redis這兩個(gè)數(shù)據(jù)庫的支持,在以后的工作中逐漸增加對其他數(shù)據(jù)庫的支持。底層數(shù)據(jù)庫可用性校驗(yàn)接口主要用于驗(yàn)證底層數(shù)據(jù)庫配置文件(db_config.xml)中的底層數(shù)據(jù)庫是否支持、底層數(shù)據(jù)庫對應(yīng)的模塊是否安裝以及其它與數(shù)據(jù)庫連接相關(guān)的配置信息是否有效等。底層數(shù)據(jù)庫可用性校驗(yàn)接口的偽代碼如圖3。

2.4.2望遠(yuǎn)鏡數(shù)據(jù)文件操作有關(guān)的接口

望遠(yuǎn)鏡數(shù)據(jù)文件操作有關(guān)的接口主要基于明安圖射電頻譜日像儀數(shù)據(jù)處理系統(tǒng)(MUSEROS*https://github.com/astroitlab/museros/)中的muserdata.py實(shí)現(xiàn),主要提供對日像儀特有的裸數(shù)據(jù)文件(RawData[8])進(jìn)行操作。望遠(yuǎn)鏡數(shù)據(jù)文件操作有關(guān)的接口(圖4)主要包括定位特定幀位置的子接口、獲取數(shù)據(jù)幀中觀測日期時(shí)間等元數(shù)據(jù)的子接口、打開觀測數(shù)據(jù)文件的子接口、關(guān)閉觀測數(shù)據(jù)文件的子接口以及跳躍特定數(shù)目幀的子接口等。數(shù)據(jù)庫同步接口以及數(shù)據(jù)檢索接口等核心接口的功能都嚴(yán)重依賴望遠(yuǎn)鏡數(shù)據(jù)文件操作有關(guān)的接口。

2.4.3數(shù)據(jù)庫同步(初始化)接口

數(shù)據(jù)庫同步(初始化)接口主要提供首次將初始化數(shù)據(jù)庫以及后來定期從新增的觀測數(shù)據(jù)文件中提取的構(gòu)造記錄所需的相關(guān)元數(shù)據(jù)、利用相關(guān)元數(shù)據(jù)構(gòu)造記錄以及將記錄存儲到底層數(shù)據(jù)庫等功能。數(shù)據(jù)庫同步(初始化)接口的實(shí)現(xiàn)偽代碼如圖5,該接口是明安圖射電頻譜日像儀負(fù)數(shù)據(jù)庫的一個(gè)核心接口。

2.4.4數(shù)據(jù)檢索接口

目前的數(shù)據(jù)檢索接口只提供了依據(jù)給定的開始查詢?nèi)掌跁r(shí)間(Tstart)、結(jié)束查詢?nèi)掌跁r(shí)間(Tend)、波段信息以及極化方式下的數(shù)據(jù)檢索功能,其他更加復(fù)雜條件的數(shù)據(jù)檢索功能還有待進(jìn)一步完善。數(shù)據(jù)檢索接口的實(shí)現(xiàn)偽代碼如圖6,該接口也是負(fù)數(shù)據(jù)庫中的一個(gè)核心接口。同時(shí),數(shù)據(jù)檢索接口還調(diào)用了元數(shù)據(jù)重構(gòu)函數(shù)(refactor_frame_metadata)、將Tstart及Tend轉(zhuǎn)換成起止查詢幀范圍(IndexS, IndexE)的轉(zhuǎn)換函數(shù)(convert_filter_start_end_index)等接口函數(shù)。

3 接口有效性驗(yàn)證

本文測試設(shè)計(jì)的明安圖射電頻譜日像儀負(fù)數(shù)據(jù)庫接口的性能使用的硬件環(huán)境為:Intel 24核 Xeon(R)E5-2620 v2 @2.10 GHz處理器、64 GB DDR3內(nèi)存、6 TB硬盤;軟件環(huán)境為:CentOS7.4、Python2.7;數(shù)據(jù)庫為:Redis 4.0、MySQL 5.7;測試數(shù)據(jù)為:高頻陣常規(guī)觀測產(chǎn)生的400個(gè)觀測數(shù)據(jù)文件(1 572 GB)、低頻陣常規(guī)觀測產(chǎn)生的400個(gè)觀測數(shù)據(jù)文件(768 GB)。

本文主要在目前支持的Redis以及MySQL底層數(shù)據(jù)庫的基礎(chǔ)上測試設(shè)計(jì)的數(shù)據(jù)初始化接口以及數(shù)據(jù)檢索接口的性能。

3.1 數(shù)據(jù)庫同步(初始化)接口性能測試

為了保證數(shù)據(jù)庫初始化接口性能測試的有效性,對數(shù)據(jù)庫初始化的實(shí)驗(yàn)重復(fù)進(jìn)行了1 000次,并取平均值作為測試結(jié)果。測試得到的數(shù)據(jù)庫初始化的平均時(shí)間對比見圖7。對于相同的觀測數(shù)據(jù)文件,基于內(nèi)存的Redis數(shù)據(jù)庫初始化速度比MySQL略快;對于不同的觀測數(shù)據(jù)文件,數(shù)據(jù)量大的高頻陣的速度比數(shù)據(jù)量小的低頻陣的略慢。

圖7數(shù)據(jù)庫初始化性能
Fig.7Database initialization performance

3.2 數(shù)據(jù)檢索接口性能測試

測試了從數(shù)據(jù)庫中分別檢索1、8、80、160、320、640個(gè)連續(xù)數(shù)據(jù)幀的響應(yīng)時(shí)間。同時(shí)為了保證數(shù)據(jù)檢索響應(yīng)時(shí)間的有效性和精確性,對每種數(shù)據(jù)檢索操作重復(fù)進(jìn)行100 000次并取平均響應(yīng)時(shí)間作為測試結(jié)果。測試后得到的數(shù)據(jù)檢索的平均響應(yīng)時(shí)間對比見圖8。對于相同的數(shù)據(jù),基于內(nèi)存Redis的負(fù)數(shù)據(jù)庫檢索性能比基于MySQL的負(fù)數(shù)據(jù)庫快2到6倍。對于低頻陣和高頻陣,使用相同底層數(shù)據(jù)庫的負(fù)數(shù)據(jù)庫的檢索性能基本上相同。隨著檢索數(shù)據(jù)幀的增加,基于MySQL的負(fù)數(shù)據(jù)庫的檢索性能比基于Redis的負(fù)數(shù)據(jù)庫檢索性能惡化得更快。

圖8數(shù)據(jù)檢索性能
Fig.8Data retrieval performance

4 結(jié)束語

本文簡要介紹了明安圖射電頻譜日像儀負(fù)數(shù)據(jù)庫管理系統(tǒng)中涉及的理論基礎(chǔ)以及記錄格式,并詳細(xì)討論了負(fù)數(shù)據(jù)庫管理系統(tǒng)的接口設(shè)計(jì)與實(shí)現(xiàn),通過實(shí)驗(yàn)驗(yàn)證了所設(shè)計(jì)和實(shí)現(xiàn)的接口具有較好的魯棒性、通用性以及有效性。但是,由于負(fù)數(shù)據(jù)庫設(shè)計(jì)的初衷是解決明安圖射電頻譜日像儀面臨的海量數(shù)據(jù)管理問題,且數(shù)據(jù)存儲使用其特有的裸數(shù)據(jù)文件格式,而不是UVFITS、FITS-IDI等通用的文件格式,所以負(fù)數(shù)據(jù)庫接口的通用性和可移植性還有待進(jìn)一步驗(yàn)證。同時(shí),明安圖射電頻譜日像儀負(fù)數(shù)據(jù)庫中的接口還需要進(jìn)一步完善。本文的研究成果可以為其它新一代望遠(yuǎn)鏡系統(tǒng)的數(shù)據(jù)管理提供有價(jià)值的參考。

參考文獻(xiàn):

[1]Yan Y, Zhang J, Wang W, et al. The Chinese spectral radioheliograph—CSRH[J]. Earth, Moon, and Planets, 2009, 104(1-4): 97-100.

[2]Shi Congming, Wang Feng, Deng Hui, et al. High-performance negative database for massive data management system of the mingantu spectral radioheliograph[J]. Publications of the Astronomical Society of the Pacific, 2017, 129(978): 1-10.

[3]Esponda F, Forrest S, Helman P. Enhancing privacy through negative representations of data[R]. New Mexico: University of New Mexico, 2004.

[4]Esponda F, Forrest S, Helman P. Negative representations of information[J]. International Journal of Information Security, 2009, 8(5): 331-345.

[5]Dubey G, Khurana V, Sachdeva S. Implementing security technique on generic database[C]// Eighth International Conference on Contemporary Computing. 2015: 370-376.

[6]Bringer J, Chabanne H. Negative databases for biometric data[C]// Proceedings of the 12th ACM Workshop on Multimedia and Security. 2010: 55-62.

[7]Patel A, Sharma N, Eirinaki M. Negative database for data security[C]// International Conference on Computing, Engineering and Information. 2009: 67-70.

[8]Wang F, Mei Y, Deng H, et al. Distributed data-processing pipeline for Mingantu ultrawide spectral radioheliograph[J]. Publications of the Astronomical Society of the Pacific, 2015, 127(950): 383-396.

猜你喜歡
數(shù)據(jù)文件射電底層
誰能抓住“神秘天神”——快速射電暴?
射電星系
航天企業(yè)提升采購能力的底層邏輯
美國的綠岸射電望遠(yuǎn)鏡
基于表空間和數(shù)據(jù)文件探討MIS中數(shù)據(jù)庫架構(gòu)設(shè)計(jì)
世界著名射電望遠(yuǎn)鏡
基于網(wǎng)絡(luò)環(huán)境的社區(qū)協(xié)同辦公問題探討(二)
回到現(xiàn)實(shí)底層與悲憫情懷
中國底層電影研究探略
略論“底層”
汕尾市| 阿拉善右旗| 温泉县| 石城县| 金坛市| 吉木萨尔县| 朝阳区| 晴隆县| 曲周县| 新蔡县| 盈江县| 合阳县| 武川县| 静安区| 衡阳县| 耒阳市| 新乡市| 六安市| 闸北区| 涿州市| 会理县| 修水县| 观塘区| 横峰县| 乌审旗| 团风县| 报价| 镇康县| 永泰县| 黔东| 海林市| 内乡县| 寻甸| 兴业县| 库车县| 东山县| 雷山县| 青河县| 理塘县| 获嘉县| 松江区|