熊金國,王衛(wèi)京,程立君,戴海倫
(北京吉威時代軟件股份有限公司,北京 10043)
地理國情普查是一項常態(tài)化的工作,具有持續(xù)性、規(guī)律性和有效性的特點,高分遙感影像具備豐富的光譜、紋理、形狀等信息,可對國情要素實行不間斷、宏觀觀測。隨著我國遙感衛(wèi)星技術(shù)的發(fā)展和國家高分專項的實施,已經(jīng)形成了氣象、海洋、資源、環(huán)境減災(zāi)等系列衛(wèi)星資源,衛(wèi)星影像呈現(xiàn)出高空間分辨率、高時間分辨率、高光譜分辨率、高輻射分辨率特點[1]。遙感監(jiān)測手段可提高地理國情普查的速度,減少工作量,提高工作效率,是國情普查的重要支撐手段。地理國情普查成果最終通過統(tǒng)一的空間數(shù)據(jù)庫進(jìn)行管理,國情普查成果影像數(shù)據(jù)庫具有數(shù)據(jù)量巨大、空間分辨率多樣、傳感器載荷類型較多、數(shù)據(jù)更新頻繁的特點,還應(yīng)具備數(shù)據(jù)查詢下載、數(shù)據(jù)瀏覽展現(xiàn)、數(shù)據(jù)統(tǒng)計、元數(shù)據(jù)管理、實體數(shù)據(jù)管理與更新等功能。采用傳統(tǒng)的柵格數(shù)據(jù)管理方式,存在以下幾個問題:①在對大范圍的鑲嵌圖進(jìn)行瀏覽時,瀏覽速度慢,用戶使用體驗差;②不同載荷和分辨率不一致的影像進(jìn)行拼接時,存在大量的中間處理過程,浪費存儲空間且耗費處理時間;③當(dāng)后期影像發(fā)生更新時,面對已經(jīng)鑲嵌的大范圍圖像,更新速度慢,導(dǎo)致后期維護極為不便。
遙感影像產(chǎn)品的存儲管理經(jīng)歷了從利用文件存儲到地理數(shù)據(jù)庫存儲,以及地理數(shù)據(jù)庫和文件聯(lián)合存儲的發(fā)展階段[2-4]。ESRI對柵格影像數(shù)據(jù)的管理,經(jīng)歷了3種不同的數(shù)據(jù)模型,分別是柵格數(shù)據(jù)集、柵格目錄和鑲嵌數(shù)據(jù)集[5]。柵格數(shù)據(jù)集可將大量柵格數(shù)據(jù)存儲在地理數(shù)據(jù)庫中,或?qū)⑺袞鸥駭?shù)據(jù)鑲嵌在單個柵格數(shù)據(jù)集中。柵格目錄是管理柵格數(shù)據(jù)集的簡單容器,可將柵格數(shù)據(jù)存儲在柵格目錄中(托管),也可以存儲一個鏈接,該鏈接指向存儲到其他位置(非托管)的柵格數(shù)據(jù)。鑲嵌數(shù)據(jù)集可為每個柵格數(shù)據(jù)集或整個鑲嵌數(shù)據(jù)集構(gòu)建金字塔并定義處理函數(shù);在將柵格數(shù)據(jù)添加到鑲嵌數(shù)據(jù)集時,柵格數(shù)據(jù)本身不會被存儲在鑲嵌數(shù)據(jù)集中,僅會存儲一個指向源柵格數(shù)據(jù)的鏈接,從而會大幅降低存儲空間?;谶@些柵格數(shù)據(jù)存儲管理方法思想,國內(nèi)很多學(xué)者均進(jìn)行了海量影像數(shù)據(jù)管理的嘗試,如王發(fā)良等[6]利用文件存儲并通過在數(shù)據(jù)庫中建立索引的方式對影像數(shù)據(jù)集成建庫,以滿足數(shù)據(jù)集成與無縫瀏覽的需要;方利等[7]采用空間數(shù)據(jù)庫技術(shù),將影像以縣為單位進(jìn)行拼接、然后壓縮存儲到空間數(shù)據(jù)庫中,并結(jié)合數(shù)據(jù)編碼索引實現(xiàn)對海量影像數(shù)據(jù)的管理。
本文從地理國情普查成果影像庫的實際需求出發(fā),采用ESRI公司的鑲嵌數(shù)據(jù)集數(shù)據(jù)模型,論述了基于鑲嵌數(shù)據(jù)集模型進(jìn)行成果影像庫建設(shè)的基本流程,分析了提升影像入庫速度和加快數(shù)據(jù)瀏覽效率的方法。通過動態(tài)鑲嵌技術(shù)對地理國情分幅DOM、DEM建立概視圖,以及通過對海量影像數(shù)據(jù)分級、分層、分塊存儲,實現(xiàn)了海量柵格數(shù)據(jù)的高效管理及調(diào)度,達(dá)到高效瀏覽和快速更新的效果。
鑲嵌數(shù)據(jù)集是用于存儲和管理多源影像的數(shù)據(jù)模型。鑲嵌數(shù)據(jù)集不僅可以管理和顯示數(shù)據(jù),它還是一種分發(fā)影像的工具,其數(shù)據(jù)模型如下圖1所示,其使用文件+數(shù)據(jù)庫的方式進(jìn)行影像管理,充分發(fā)揮了文件系統(tǒng)快速讀寫的優(yōu)勢和數(shù)據(jù)庫系統(tǒng)多用戶并發(fā)訪問的優(yōu)勢[8]。
圖1 鑲嵌數(shù)據(jù)集數(shù)據(jù)模型Fig.1 Mosaic dataset model
該模型采用動態(tài)鑲嵌技術(shù),既能編目管理影像,又能像鑲嵌影像一樣進(jìn)行顯示和分析,簡化了影像管理流程,省去影像入庫之前的鑲嵌處理時間,從而減少了數(shù)據(jù)冗余,通過采用概視圖技術(shù),使編目管理的影像根據(jù)鑲嵌參數(shù)自動無縫顯示,并能使各層級圖像能夠進(jìn)行平滑過渡,提升用戶瀏覽效果。通過概視圖技術(shù)實現(xiàn)多分辨率影像快速無縫瀏覽的原理示意圖如圖2所示。
圖2 概視圖技術(shù)實現(xiàn)多分辨率圖像快速無縫瀏覽示意圖[9]Fig.2 Sketch map of multi-resolution image seamless browsing by overview technique
鑲嵌數(shù)據(jù)集存儲模型是通過關(guān)系數(shù)據(jù)庫中的一組二維表來實現(xiàn),如圖3所示,其中,ART、BND、CAT和LOG這四個表在創(chuàng)建鑲嵌數(shù)據(jù)集時即創(chuàng)建;其他表則在首次執(zhí)行相關(guān)操作時動態(tài)生成。其中AMD__<NAME>__ART表存儲柵格的歷史信息;AMD__<NAME>__BND表存儲柵格的邊界信息;AMD__<NAME>__CAT表存儲所有柵格的數(shù)據(jù)信息;AMD__<NAME>__CSL表存儲柵格單元信息;AMD__<NAME>__LOG表存儲所有操作的日志信息。表名中的NAME為鑲嵌數(shù)據(jù)集的名稱,鑲嵌數(shù)據(jù)集的名稱不超過22個字符。
圖3 鑲嵌數(shù)據(jù)集模型各存儲表之間關(guān)系Fig.3 Entity storage relationship of mosaic dataset model
采用鑲嵌數(shù)據(jù)集模型進(jìn)行海量遙感影像入庫的主要流程如圖4所示,主要包括數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)質(zhì)量檢查、估算存儲空間、入庫環(huán)境參數(shù)設(shè)置、構(gòu)建影像金字塔和柵格統(tǒng)計文件、建立空間數(shù)據(jù)庫、建立SDE用戶、建立鑲嵌數(shù)據(jù)集、添加數(shù)據(jù)到鑲嵌數(shù)據(jù)集、定義概視圖并構(gòu)建概視圖、勻色和重疊區(qū)處理設(shè)置、設(shè)置鑲嵌數(shù)據(jù)集屬性、鑲嵌數(shù)據(jù)集瀏覽測試等步驟。
圖4 鑲嵌數(shù)據(jù)集建立流程Fig.4 Workflow of creating mosaic dataset
1)數(shù)據(jù)質(zhì)量檢查:地理國情普查成果已有專門的質(zhì)檢過程來確保數(shù)據(jù)質(zhì)量,入庫人員在入庫前應(yīng)檢查數(shù)據(jù)的完整性,檢查待入庫數(shù)據(jù)的數(shù)據(jù)質(zhì)量,檢查入庫到同一個鑲嵌數(shù)據(jù)集的數(shù)據(jù)是否具備同樣的空間參考,波段格式,像素深度等信息,對不滿足質(zhì)量要求的數(shù)據(jù)應(yīng)進(jìn)行歸一化處理后再進(jìn)行入庫。
2)估算存儲空間:由于金字塔是基于原始影像進(jìn)行抽取的,如金字塔采用無損壓縮格式,生成的金字塔一般占用原始數(shù)據(jù)量30%的空間,而概視圖是在金字塔的基礎(chǔ)上生成的,如采用jpeg 75%壓縮,信息量損失小,同時影像逼真度也能滿足要求,概視圖大小一般為金字塔大小的8%左右。
3)構(gòu)建金字塔和柵格統(tǒng)計文件:對待鑲嵌的影像數(shù)據(jù)按照統(tǒng)一的參數(shù)和格式建立金字塔。由于金字塔是針對磁盤中的文件進(jìn)行的,為加快處理速度可將原始數(shù)據(jù)按照一定的規(guī)則進(jìn)行切分,分配到多臺計算機上進(jìn)行構(gòu)建,構(gòu)建完畢后再合并在一起以加快處理速度。金字塔文件的擴展名為ovr;統(tǒng)計文件信息生成的擴展名為.aux,是后期進(jìn)行勻色的必要信息。
4)新建鑲嵌數(shù)據(jù)集:由于鑲嵌數(shù)據(jù)集內(nèi)的地理范圍很大,需根據(jù)實際情況,選擇適合大范圍圖像的投影參數(shù),保證所有待鑲嵌圖像在同一參考系統(tǒng)下,否則生產(chǎn)概視圖時易出現(xiàn)錯誤。
5)添加數(shù)據(jù)到鑲嵌數(shù)據(jù)集:在數(shù)據(jù)入庫時柵格數(shù)據(jù)本身是不會入庫的,而是以非托管的形式在鑲嵌數(shù)據(jù)集中進(jìn)行管理,入庫后鑲嵌數(shù)據(jù)集中存儲了指向柵格數(shù)據(jù)位置的指針。
6)定義概視圖:概視圖是對鑲嵌數(shù)據(jù)集顯示上的“抽稀”,通過重采樣生成多層低分辨率的柵格,用于在瀏覽的時候滿足不同比例尺下鑲嵌數(shù)據(jù)集快速顯示的需要,從而提升用戶瀏覽體驗。
7)構(gòu)建概視圖:建立概視圖的時候,可選擇概視圖存儲位置,如果概視圖存儲在磁盤文件中,存儲格式為tiff;如果概視圖存儲在Oracle數(shù)據(jù)庫中,可對數(shù)據(jù)塊設(shè)置壓縮格式,目前支持jpeg格式和lz77格式。
8)勻色和重疊區(qū)處理:鑲嵌數(shù)據(jù)集一般由不同時相的多張影像組成,各幅影像由于成像時的天氣、光線等原因可能存在色彩差異,為了讓整個鑲嵌數(shù)據(jù)集看起來是無縫的整張影像,可利用勻色工具進(jìn)行色彩校正。
9)設(shè)置鑲嵌數(shù)據(jù)集屬性:主要是設(shè)置鑲嵌方法和重疊區(qū)顯示策略,通過該方法可確定重疊區(qū)圖像排列的先后順序以及重疊區(qū)像元值處理方式。
2.1.1 多進(jìn)程創(chuàng)建概視圖對入庫速度的影響
ArcGIS 10.2版本之后,當(dāng)概視圖存儲在數(shù)據(jù)庫中時,ArcGIS提供了多進(jìn)程機制創(chuàng)建概視圖。多進(jìn)程創(chuàng)建概視圖的效率與CPU核數(shù),CPU利用率有關(guān),由于多進(jìn)程搶占資源執(zhí)行任務(wù),進(jìn)程數(shù)越多,并不是效率越高。經(jīng)過大量實驗發(fā)現(xiàn),當(dāng)CPU利用率為60%時,資源利用率最高。如對于四核CPU,啟動3個進(jìn)程進(jìn)行概視圖創(chuàng)建效率較高。
2.1.2 金字塔和概視圖壓縮比例對瀏覽效果的影響
根據(jù)大量實驗,文件金字塔采用lz77無損壓縮存儲,概視圖采用75%的jpeg壓縮存儲,最后生成的鑲嵌數(shù)據(jù)集瀏覽速度較快,視覺效果較好,沒有明顯失真。
2.1.3 概視圖存于文件與存于數(shù)據(jù)庫中性能分析
數(shù)據(jù)庫系統(tǒng)對高并w量數(shù)據(jù)訪問和數(shù)據(jù)檢索具有較大優(yōu)勢,但由于概視圖是經(jīng)過分塊壓縮后存儲于數(shù)據(jù)庫中的Blob字段中,數(shù)據(jù)寫出時需將tif轉(zhuǎn)化為Blob,讀取時需將Blob解析為影像,此過程會消耗大量服務(wù)器資源。在并發(fā)訪問量不是很大的時候,使用文件存儲概視圖可以提高瀏覽效率,但如果并發(fā)量很大,利用關(guān)系型數(shù)據(jù)庫的多用戶并發(fā)訪問特性,將概視圖存儲在數(shù)據(jù)庫中將有更好的瀏覽效率,但此時建立概視圖將耗時較長。
2.1.4 數(shù)據(jù)塊大小對性能的影響
默認(rèn)情況下,ArcGIS圖像塊的大小為128×128大小,根據(jù)數(shù)據(jù)庫的性能和計算機硬件性能配置,在導(dǎo)入柵格時如選擇無壓縮或者LZ77壓縮,128×128大小的一個柵格切片包含16 K個像素,若一個像素深度為8位占1個字節(jié),那么一個切片在數(shù)據(jù)庫中占據(jù)16 KB存儲空間。如果用Oracle進(jìn)行存儲,創(chuàng)建數(shù)據(jù)庫時默認(rèn)數(shù)據(jù)塊大小為8 K,那么上面的切片占據(jù)了兩個數(shù)據(jù)塊,要讀取這個切片就需要做2個I/O操作,為避免頻繁的數(shù)據(jù)庫I/O,在實際工作中通過數(shù)據(jù)庫的全局參數(shù)設(shè)置,將ArcGIS圖像塊和Oracle數(shù)據(jù)塊大小對應(yīng)起來,能明顯提高瀏覽效率。
為驗證鑲嵌數(shù)據(jù)集模型管理地理國情影像數(shù)據(jù)能力,測試入庫流程各個步驟的參數(shù)對鑲嵌數(shù)據(jù)集性能的影響,驗證鑲嵌數(shù)據(jù)集在管理大范圍非連續(xù)區(qū)域遙感影像的性能,開展入庫實驗,軟件環(huán)境為:ArcGIS 10.1,Win7 64位操作系統(tǒng),Oracle 11g空間數(shù)據(jù)庫;硬件環(huán)境采用戴爾 Precision Tower 7810工作站,CPU為12核 Intel(R)Xeon(R) CPU E5-2609 v3 @1.9GHZ,內(nèi)存32 G,硬盤2 T緩存64 MB、數(shù)據(jù)傳輸率600 MB/秒。
實驗數(shù)據(jù)為覆蓋山東省非連續(xù)的、空間上較分散的13個區(qū)縣的航拍0.5m辨率正射影像數(shù)據(jù)(含有3個波段),見表1。
表1 入庫數(shù)據(jù)統(tǒng)計Tab.1 Data statistics of importing images
從表1看出,當(dāng)金字塔采用無損壓縮lz77格式的時候,金字塔體積為原來的30%左右,概視圖采用jpg 壓縮使其所占空間約占金字塔空間的1%。由于測試時概視圖級別采用系統(tǒng)默認(rèn)的,一般最多6級,但實際從生成的概視圖效果來看,都為3級左右。因此,在進(jìn)行鑲嵌的時候,金字塔和概視圖占用磁盤空間為原始數(shù)據(jù)量的30%即足以滿足要求。
通過選取山東省不同區(qū)域的遙感影像,分別進(jìn)行入庫,從圖5鑲嵌結(jié)果可以看出對空間上不連續(xù)、分辨率不同的影像,實現(xiàn)了高效的鑲嵌融合效果和入庫管理。對鑲嵌數(shù)據(jù)集的瀏覽速度測試可知,在不同的比例尺無縫平滑瀏覽時的速度均在1 s左右,沒有明顯延遲,用戶體驗良好見表2。
圖5 鑲嵌數(shù)據(jù)集瀏覽效果Fig.5 Browsing eあect of mosaic dataset
表2 鑲嵌數(shù)據(jù)集瀏覽速度測試Tab.2 Browsing speed test of the mosaic dataset
采用本文介紹的入庫流程和入庫參數(shù),用同樣的方法對全國1:50000 23 686幅DEM數(shù)據(jù)和DOM數(shù)據(jù)進(jìn)行了鑲嵌,也取得了較好的效果。
鑲嵌數(shù)據(jù)集作為新一代柵格數(shù)據(jù)管理模型,有動態(tài)鑲嵌、實時處理、可直接讀取各種衛(wèi)星數(shù)據(jù)原始格式并可經(jīng)鑲嵌后發(fā)布為服務(wù)的技術(shù)特點,在處理多分辨率數(shù)據(jù)鑲嵌、不同時相數(shù)據(jù)鑲嵌、不相關(guān)數(shù)據(jù)鑲嵌、動態(tài)更新以及元數(shù)據(jù)管理等方面具有顯著的優(yōu)勢。但由于需要處理的數(shù)據(jù)具備多類型、多分辨率、多時相等特點,處理過程復(fù)雜,涉及環(huán)節(jié)多,如果不按照規(guī)定的步驟流程進(jìn)行操作,可能在鑲嵌過程中會出現(xiàn)各種各樣的問題。本文對鑲嵌數(shù)據(jù)集管理海量柵格數(shù)據(jù)的技術(shù)特點、使用方法及相關(guān)資料進(jìn)行整理和分析,結(jié)合在實際項目中遇到的各種問題,結(jié)合鑲嵌數(shù)據(jù)集模型進(jìn)行國情成果影像庫建庫的一般流程,指出了影響鑲嵌數(shù)據(jù)集入庫速度和瀏覽性能的幾個主要因素,針對這些主要參數(shù)的調(diào)優(yōu)方法進(jìn)行了討論。在國家?guī)旌褪〖墡旖◣熘械木唧w實踐,對鑲嵌數(shù)據(jù)集的使用中有如下體會:
影像數(shù)據(jù)質(zhì)量是鑲嵌數(shù)據(jù)集建庫能否成功的關(guān)鍵因素。由于概視圖時在金字塔基礎(chǔ)上建立起來的,金字塔是在原始文件的基礎(chǔ)上建立起來的,如原文件質(zhì)量有問題,會導(dǎo)致金字塔和概視圖都出現(xiàn)問題,從而會導(dǎo)致鑲嵌數(shù)據(jù)集的錯誤。因此需要在入庫前對源文件的數(shù)據(jù)質(zhì)量進(jìn)行檢查,確保數(shù)據(jù)質(zhì)量合格后再入庫。
構(gòu)建原始數(shù)據(jù)金字塔是影響性能的主要因素,如果原始數(shù)據(jù)沒有金字塔,則ArcGIS會直接在原始數(shù)據(jù)的基礎(chǔ)上,默認(rèn)按照3倍的比例因子生成概視圖存入到數(shù)據(jù)庫,且該過程會導(dǎo)致金字塔和概視圖都存入到關(guān)系數(shù)據(jù)庫中。當(dāng)把概視圖存儲于文件系統(tǒng)中,可避免概視圖存儲數(shù)據(jù)庫時Oracle解壓Blob字段并拼接成圖像的時間。建立金字塔和概視圖是入庫過程中較耗費時間的環(huán)節(jié),兩者時間有數(shù)量級上的差異,因此在入庫前應(yīng)將所有數(shù)據(jù)預(yù)先建立金字塔和柵格統(tǒng)計。此外實驗還發(fā)現(xiàn)數(shù)據(jù)量對鑲嵌數(shù)據(jù)集的性能影響不是很大。
投影選擇也是關(guān)系鑲嵌數(shù)據(jù)集建庫能否成功的因素,當(dāng)比例尺很大時,每景數(shù)據(jù)的投影參數(shù)都不一樣,當(dāng)拼接成全國范圍的圖像時,需要選擇一個適合的全國范圍投影參考系統(tǒng),并正確設(shè)置各種參數(shù)。