趙理君,鄭柯,史路路,2,白洋,2,唐吉文,2,張偉,2,饒夢(mèng)彬,2,鄒松,2,李艷艷,2
1.中國(guó)科學(xué)院遙感與數(shù)字地球研究所,北京 100101
2.中國(guó)科學(xué)院大學(xué),北京 100049
數(shù)據(jù)庫(kù)(集)基本信息簡(jiǎn)介
數(shù)據(jù)庫(kù)(集)名稱(chēng) 全國(guó)地表類(lèi)型遙感影像樣本數(shù)據(jù)集數(shù)據(jù)作者 趙理君、鄭柯、史路路、白洋、唐吉文、張偉、饒夢(mèng)彬、鄒松、李艷艷數(shù)據(jù)通信作者 趙理君(zhaolj01@radi.ac.cn)數(shù)據(jù)時(shí)間范圍 2013-2017年地理區(qū)域 全國(guó)(除港澳臺(tái)地區(qū)外)31個(gè)省、自治區(qū)、直轄市等區(qū)域空間分辨率 2.4-30 m數(shù)據(jù)量 647 MB (解壓縮后)數(shù)據(jù)格式 *.tif, *.jpg, *.txt, *.xml數(shù)據(jù)服務(wù)系統(tǒng)網(wǎng)址 http://www.sciencedb.cn/dataSet/handle/663基金項(xiàng)目 科技基礎(chǔ)性工作專(zhuān)項(xiàng)(2014FY210800)數(shù)據(jù)庫(kù)(集)組成本數(shù)據(jù)集由2個(gè)分卷壓縮文件構(gòu)成,解壓后包含了米級(jí)空間分辨率樣本點(diǎn)的GF1和QuickBird這兩個(gè)文件夾,以及十米級(jí)空間分辨率樣本點(diǎn)的Landsat文件夾,各個(gè)文件夾下又由以不同采樣地區(qū)命名的子文件夾組成。每個(gè)子文件夾下,存儲(chǔ)了覆蓋土壤、水體、巖礦、植被、冰雪凍土、人工目標(biāo)6大類(lèi)地表類(lèi)型的樣本點(diǎn)壓縮文件,每個(gè)壓縮文件中僅壓縮存儲(chǔ)同一景影像中同一種地表類(lèi)型的多個(gè)樣本點(diǎn)數(shù)據(jù)。解壓縮后,每個(gè)樣本點(diǎn)數(shù)據(jù)又由4個(gè)數(shù)據(jù)文件組成,分別為:樣本點(diǎn)原始影像數(shù)據(jù)文件(*.tif),樣本點(diǎn)預(yù)覽圖文件(*.jpg),樣本點(diǎn)的影像波段DN值文件(*.txt),樣本點(diǎn)的元數(shù)據(jù)文件(*.xml)。
地表覆蓋是地球表面各種物質(zhì)類(lèi)型及其自然屬性與特征的綜合體,其空間分布直接影響著地球表面的物質(zhì)和能量的循環(huán)過(guò)程[1]。利用遙感影像開(kāi)展地表覆蓋監(jiān)測(cè)是生態(tài)環(huán)境變化研究、土地資源管理和可持續(xù)發(fā)展的重要基礎(chǔ),在全球資源監(jiān)測(cè)、全球變化檢測(cè)中發(fā)揮著重要作用[2]。目前,遙感影像的計(jì)算機(jī)分類(lèi)成為主要的發(fā)展方向,涌現(xiàn)出多種分類(lèi)方法,如統(tǒng)計(jì)模式識(shí)別方法、人工智能分類(lèi)法、遙感與GIS結(jié)合法、面向?qū)ο蟮姆诸?lèi)法、多源信息復(fù)合分類(lèi)法等[3]。遙感影像分類(lèi)就是把圖像中的每一個(gè)像元或區(qū)域劃分為若干類(lèi)別中的一種,即通過(guò)對(duì)各類(lèi)地物的光譜特征分析來(lái)選擇特征參數(shù),將特征空間劃分為互不重疊的子空間,然后將影像內(nèi)各個(gè)像元?jiǎng)澐值礁髯涌臻g中去,從而實(shí)現(xiàn)分類(lèi)[4]。在遙感影像地表覆蓋分類(lèi)的過(guò)程中,影像樣本的采集可支持監(jiān)督分類(lèi)模型的構(gòu)建,為地表類(lèi)型的遙感影像分類(lèi)提供類(lèi)別先驗(yàn)知識(shí)。目前,國(guó)家基礎(chǔ)地理信息中心發(fā)布了2010年GlobalLand 30全球30米地表覆蓋分類(lèi)產(chǎn)品(http://www.webmap.cn/commres.do?method=globeIndex),可免費(fèi)下載使用;中國(guó)科學(xué)院遙感與數(shù)字地球研究所發(fā)布了連續(xù)多年的中國(guó)土地覆蓋遙感監(jiān)測(cè)產(chǎn)品;清華大學(xué)發(fā)布了FROM-GLC2010地表覆蓋分類(lèi)產(chǎn)品(http://data.ess.tsinghua.edu.cn/landsat_ pathList_fromglc_0_1.ht ml)以及全球范圍的驗(yàn)證樣本點(diǎn)數(shù)據(jù)(http://data.ess.tsinghua.edu.cn/ data/temp/GlobalLandCoverVali dationSampleSet_v1.xlsx),但訓(xùn)練樣本并未完全公開(kāi)。
本文構(gòu)建的數(shù)據(jù)集是依托科技基礎(chǔ)性工作專(zhuān)項(xiàng)“測(cè)繪地物波譜本底數(shù)據(jù)庫(kù)建設(shè)”(2014FY210800)完成,與項(xiàng)目中的典型水體反射率數(shù)據(jù)集、典型地物反射率數(shù)據(jù)集、典型地表類(lèi)型全波段波譜數(shù)據(jù)集、作物生長(zhǎng)季時(shí)間序列反射率數(shù)據(jù)集、森林和作物多尺度反射率波譜數(shù)據(jù)集、多頻率多角度森林微波輻射亮溫?cái)?shù)據(jù)集、全國(guó)巖礦標(biāo)本反射率數(shù)據(jù)集等其他數(shù)據(jù)集共同構(gòu)成了項(xiàng)目最終的測(cè)繪地物波譜本底數(shù)據(jù)庫(kù),所有數(shù)據(jù)將通過(guò)平臺(tái)網(wǎng)站(http://210.72.27.78/spectrum/)向公眾發(fā)布。需要指出的是,項(xiàng)目中其他數(shù)據(jù)集數(shù)據(jù)均來(lái)自地面實(shí)測(cè)波譜,而本數(shù)據(jù)集樣本數(shù)據(jù)則是從遙感影像的角度采集影像樣本,以期為研究影像與地面波譜之間的關(guān)聯(lián)關(guān)系提供支撐,同時(shí)也期望能夠?yàn)檫b感影像的分類(lèi)提供補(bǔ)充樣本。本數(shù)據(jù)集利用了全國(guó)范圍內(nèi)與項(xiàng)目其他數(shù)據(jù)集試驗(yàn)區(qū)域相近的遙感影像,通過(guò)人工判讀與比對(duì)得到最終的影像樣本。相比已有的影像樣本數(shù)據(jù)集(如GlobeLand 30,F(xiàn)ROM-GLC數(shù)據(jù)集[5-6]),本數(shù)據(jù)集特色在于:(1)時(shí)相更新(2013-2017年);(2)包含影像樣本空間分辨率更高(最高2.4-8 m);(3)樣本類(lèi)型更精細(xì)(面向測(cè)繪地物類(lèi)型);(4)服務(wù)方式完全免費(fèi)(所有樣本數(shù)據(jù)在平臺(tái)完全公開(kāi))。
本數(shù)據(jù)集包括十米級(jí)和米級(jí)兩種影像的樣本數(shù)據(jù),其中十米級(jí)影像以L(fǎng)andsat 8衛(wèi)星的30 m空間分辨率數(shù)據(jù)為主,米級(jí)影像以國(guó)產(chǎn)GF-1衛(wèi)星的8 m空間分辨率數(shù)據(jù)為主,補(bǔ)充了部分QuickBird衛(wèi)星的2.4 m空間分辨率數(shù)據(jù)。所有的影像數(shù)據(jù)通過(guò)地理空間數(shù)據(jù)云平臺(tái)(http://www.gscloud.cn/)、購(gòu)買(mǎi)等渠道獲取下載。其中,Landsat 8數(shù)據(jù)使用L1T產(chǎn)品,據(jù)USGS提供的信息,該產(chǎn)品已使用地面控制點(diǎn)和數(shù)字高程模型數(shù)據(jù)進(jìn)行精確校正,幾何校正精度為12 m,小于0.5個(gè)像元;GF-1數(shù)據(jù)使用L1級(jí)產(chǎn)品,無(wú)幾何信息,利用RPC參數(shù)文件進(jìn)行了RPC幾何精校正;QuickBird數(shù)據(jù)使用L2A級(jí)產(chǎn)品,已經(jīng)過(guò)了幾何精校正處理。上述所有數(shù)據(jù)源影像均經(jīng)過(guò)了幾何精校正處理,不做輻射和大氣校正處理,保留原始像元值(Digital Number,DN)數(shù)據(jù),但需要注意的是樣本點(diǎn)的DN值一般不能直接應(yīng)用于分類(lèi)模型的構(gòu)建。這里更多地考慮幾何信息主要源于在實(shí)際應(yīng)用中,不同傳感器會(huì)因波段設(shè)置上的差異造成像元波譜信息無(wú)法保持一致性,在遙感影像分類(lèi)過(guò)程中,可以很容易地根據(jù)地理點(diǎn)位和類(lèi)別信息構(gòu)建訓(xùn)練樣本。通過(guò)對(duì)待分類(lèi)影像進(jìn)行輻射和大氣校正便可以得到訓(xùn)練樣本點(diǎn)的光譜反射率特征。在影像空間范圍選擇上,十米級(jí)影像覆蓋全國(guó)(除港澳臺(tái)地區(qū)外)31個(gè)省/自治區(qū)/直轄市的區(qū)域,每個(gè)行政區(qū)劃單元隨機(jī)選擇至少2景影像;米級(jí)影像覆蓋全國(guó)的7大分區(qū),即東北、華北、華東、華中、華南、西南、西北地區(qū),每個(gè)地區(qū)隨機(jī)選擇至少2景影像。在影像時(shí)相選擇上,主要考慮夏季和冬季兩個(gè)差異度最大的時(shí)相,其中冬季時(shí)相的時(shí)間跨度設(shè)定為12-3月,夏季時(shí)相的時(shí)間跨度設(shè)定為7-9月。在影像的獲取年份上,設(shè)定為最近5年時(shí)間內(nèi)的影像,以保證樣本數(shù)據(jù)的時(shí)效性。最終,獲得待采樣的影像數(shù)據(jù)情況如表1所示。
表1 不同衛(wèi)星影像數(shù)據(jù)獲取情況表
基于上述預(yù)處理后的遙感影像,通過(guò)人工解譯開(kāi)展地表類(lèi)型影像樣本采集工作。類(lèi)別體系嚴(yán)格遵從項(xiàng)目?jī)?nèi)部制定的標(biāo)準(zhǔn)規(guī)范《測(cè)繪地物波譜庫(kù)地物分類(lèi)編碼規(guī)范(草案)》,該草案主要參考了已有的國(guó)家相關(guān)標(biāo)準(zhǔn)和公認(rèn)度較高的分類(lèi)原則、標(biāo)準(zhǔn),根據(jù)測(cè)繪部門(mén)和遙感數(shù)據(jù)分類(lèi)研究的實(shí)際需要制定,覆蓋地表類(lèi)型種類(lèi)包含植被、土壤、巖礦、冰雪凍土、水體、人工目標(biāo)6大類(lèi)一級(jí)類(lèi),植被向下劃分至6級(jí)分類(lèi)體系,冰雪凍土向下劃分至5級(jí)分類(lèi)體系,土壤、巖礦、水體、人工目標(biāo)向下劃分至4級(jí)分類(lèi)體系。根據(jù)遙感影像對(duì)地表區(qū)分的能力,對(duì)上述分類(lèi)體系進(jìn)行了精簡(jiǎn),表2給出本數(shù)據(jù)集構(gòu)建中使用的類(lèi)別體系劃分情況。
表2 類(lèi)別體系簡(jiǎn)表
1級(jí)類(lèi) 2級(jí)類(lèi) 3級(jí)類(lèi) 4級(jí)類(lèi)編號(hào) 類(lèi)別 編號(hào) 類(lèi)別 編號(hào) 類(lèi)別 編號(hào) 類(lèi)別43 凍土51 河流511 常年河513 干枯河(干河床)52 溝渠 522 干渠5 水體53 湖泊 531 常年湖、塘 53101 湖泊53102 池塘533 干枯湖54 水庫(kù)551 海域55 海洋要素552 海岸線(xiàn)557 海島61 水系 6101 溝渠6 人工目標(biāo)62 居民地及設(shè)施6201 居民地6202 工礦及其設(shè)施63 交通 6302 城際公路6303 城市道路
在人工解譯采樣過(guò)程中參考了已有的專(zhuān)題產(chǎn)品和歷史資料以確保樣本類(lèi)別標(biāo)注的準(zhǔn)確性。這里的專(zhuān)題產(chǎn)品和歷史資料包括植被、水體等單一類(lèi)別的分類(lèi)專(zhuān)題產(chǎn)品,Google Earth高分辨率歷史影像,項(xiàng)目組其他課題采集的地面樣本實(shí)測(cè)數(shù)據(jù)等。針對(duì)不同分辨率的影像樣本數(shù)據(jù)(十米級(jí)和米級(jí)),每景影像中的每一個(gè)子類(lèi)別,采樣數(shù)量控制在50-700個(gè),采樣大小為7像元×7像元的區(qū)域,并在采樣過(guò)程中避免邊緣像元的選擇。按照項(xiàng)目?jī)?nèi)部數(shù)據(jù)入庫(kù)規(guī)范與要求,每一個(gè)樣本數(shù)據(jù)采用標(biāo)準(zhǔn)統(tǒng)一的數(shù)據(jù)組織和存儲(chǔ)格式進(jìn)行記錄,每一個(gè)樣本數(shù)據(jù)對(duì)應(yīng)4個(gè)文件,如表3所示。
表3 樣本記錄文件
在表3中,
全國(guó)地表類(lèi)型遙感影像樣本數(shù)據(jù)集包含十米級(jí)和米級(jí)兩個(gè)空間分辨率等級(jí),其中十米級(jí)影像樣本采集了118 324個(gè)樣本(以省/自治區(qū)/直轄市為單元采樣,每個(gè)地區(qū)至少兩個(gè)時(shí)相),其中夏季58 317個(gè),冬季60 007個(gè);米級(jí)影像樣本采集了29 551個(gè)(以全國(guó)大的區(qū)劃為單元采樣,每個(gè)區(qū)劃至少兩個(gè)時(shí)相),其中夏季15 792個(gè),冬季13 759個(gè)。采樣點(diǎn)的空間分布如圖1所示。圖2和圖3分別給出了數(shù)據(jù)集中十米級(jí)影像樣本和米級(jí)影像樣本的組成情況。
圖1 全國(guó)地表類(lèi)型遙感影像樣本數(shù)據(jù)集空間分布圖
本數(shù)據(jù)集以“圖像+描述文檔”的方式組織存儲(chǔ),包含了影像數(shù)據(jù)和文本數(shù)據(jù),如表3所示。圖4以農(nóng)林用地這一類(lèi)別的一個(gè)樣本點(diǎn)數(shù)據(jù)為例,展示了其對(duì)應(yīng)的存儲(chǔ)文件列表。
圖2 十米級(jí)影像樣本數(shù)量統(tǒng)計(jì)
圖3 米級(jí)影像樣本數(shù)量統(tǒng)計(jì)
圖4 影像樣本數(shù)據(jù)組織存儲(chǔ)文件示例
其中,tif文件為7像元×7像元大小的原始影像文件;jpg文件為7像元×7像元大小的預(yù)覽圖像,與原始影像對(duì)應(yīng);txt文件為樣本點(diǎn)中心像元的DN值文件,內(nèi)容的格式為兩列數(shù)值,以Tab鍵分隔,第一列數(shù)據(jù)為波長(zhǎng),第二列數(shù)據(jù)為DN值;xml文件為元數(shù)據(jù)描述文件,采用格式化存儲(chǔ)方式,內(nèi)容如圖5所示:
圖5 影像樣本元數(shù)據(jù)描述文件內(nèi)容示例
針對(duì)遙感影像樣本數(shù)據(jù),數(shù)據(jù)質(zhì)量控制過(guò)程包括對(duì)待采樣影像數(shù)據(jù)的檢查整理,單個(gè)樣本數(shù)據(jù)點(diǎn)的檢查,樣本點(diǎn)配套文件的生成和入庫(kù),以及元數(shù)據(jù)的編寫(xiě)、檢查和入庫(kù)。對(duì)待采樣影像數(shù)據(jù)的檢查包括影像投影信息、波段數(shù)、存儲(chǔ)損壞等明顯的數(shù)據(jù)問(wèn)題以及文件格式等。單個(gè)樣本數(shù)據(jù)點(diǎn)的檢查,主要針對(duì)類(lèi)別標(biāo)注錯(cuò)誤的樣本點(diǎn)數(shù)據(jù)進(jìn)行修正、剔除。樣本點(diǎn)配套文件以及元數(shù)據(jù)文件的檢查包括文件命名、文件格式、文件內(nèi)容中字段標(biāo)準(zhǔn)化命名以及文件內(nèi)容的完整性等。
針對(duì)遙感影像樣本數(shù)據(jù)集的構(gòu)建,在數(shù)據(jù)入庫(kù)階段建立了完善的質(zhì)量控制過(guò)程(圖6),保證已入庫(kù)數(shù)據(jù)的正確性、完整性和一致性。在數(shù)據(jù)采集整理和入庫(kù)過(guò)程的質(zhì)量控制方面,進(jìn)行了原始遙感影像數(shù)據(jù)和影像樣本點(diǎn)數(shù)據(jù)的整理和格式統(tǒng)一,同時(shí)通過(guò)一系列質(zhì)量控制方法,如正確性檢查、數(shù)據(jù)一致性檢查等,以保障數(shù)據(jù)的質(zhì)量。影像樣本點(diǎn)配套文件和元數(shù)據(jù)文件由影像樣本數(shù)據(jù)采集人員根據(jù)項(xiàng)目制定的數(shù)據(jù)標(biāo)準(zhǔn)格式(包含圖像文件名、經(jīng)緯度、傳感器型號(hào)、觀(guān)測(cè)時(shí)間、空間分辨率、光譜類(lèi)型人員信息等)進(jìn)行填寫(xiě),為減少人工填寫(xiě)引起的錯(cuò)誤,所有元數(shù)據(jù)信息均通過(guò)程序編寫(xiě)自動(dòng)從原始影像數(shù)據(jù)和采樣點(diǎn)數(shù)據(jù)中讀取填寫(xiě)得到。
圖6 數(shù)據(jù)質(zhì)量控制
為了對(duì)數(shù)據(jù)集的質(zhì)量進(jìn)行定量的精度評(píng)估,我們以樣本采集過(guò)程中使用到的那景遙感影像的分類(lèi)結(jié)果作為評(píng)價(jià)對(duì)象,將該影像中采集到的樣本點(diǎn)隨機(jī)劃分為兩部分,即訓(xùn)練樣本和測(cè)試樣本,使用訓(xùn)練樣本訓(xùn)練支持向量機(jī)(Support Vector Machine,SVM)分類(lèi)器,使用測(cè)試樣本計(jì)算分類(lèi)精度,統(tǒng)計(jì)總體分類(lèi)精度和Kappa系數(shù)。我們隨機(jī)選取了不同地區(qū)不同時(shí)相的樣本進(jìn)行評(píng)測(cè)(見(jiàn)表4)。最終得到平均分類(lèi)精度為81.17%,平均Kappa系數(shù)為0.78。從抽檢結(jié)果可以看到,數(shù)據(jù)質(zhì)量總體良好。
表4 數(shù)據(jù)集質(zhì)量精度評(píng)價(jià)
樣點(diǎn)區(qū)域 季相 總體分類(lèi)精度(%) Kappa系數(shù)天津地區(qū) 冬 82.25 0.80黑龍江地區(qū) 冬 75.80 0.71湖南地區(qū) 夏 84.75 0.82廣西地區(qū) 夏 85.25 0.81平均值 81.17 0.78
本數(shù)據(jù)集是測(cè)繪地物波譜本底數(shù)據(jù)庫(kù)平臺(tái)的原始入庫(kù)文件,可通過(guò)門(mén)戶(hù)網(wǎng)站(http://210.72.27.78/spectrum/)檢索查詢(xún)獲得檢索區(qū)域內(nèi)樣本點(diǎn)的相關(guān)信息,也可以通過(guò)編程的方式批量解析讀取本數(shù)據(jù)集 XML文件中的樣本點(diǎn)空間信息。數(shù)據(jù)集可以為遙感影像分類(lèi)算法研究提供訓(xùn)練和測(cè)試樣本數(shù)據(jù),通過(guò)地理坐標(biāo)與待分類(lèi)影像像元坐標(biāo)的轉(zhuǎn)換,得到待分類(lèi)影像中的樣本點(diǎn)分布,使用最大似然(Maximum Likelihood Classification,MLC)、支持向量機(jī)(Support Vector Machine,SVM)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等分類(lèi)算法完成分類(lèi),使用流程如圖7所示。由于本數(shù)據(jù)集并沒(méi)有完全覆蓋全國(guó)的每一個(gè)地區(qū),如待分類(lèi)影像的空間范圍沒(méi)有包含到任何影像樣本點(diǎn),建議相關(guān)研究者查詢(xún)周邊相鄰地區(qū)的影像樣本點(diǎn),以篩選出的樣本點(diǎn)為參考樣本集,指導(dǎo)待分類(lèi)影像中同類(lèi)樣本點(diǎn)的采集,進(jìn)而利用所得到的樣本點(diǎn)完成影像分類(lèi)任務(wù)。
圖7 數(shù)據(jù)集用于影像分類(lèi)的應(yīng)用流程
另一方面,本數(shù)據(jù)集可以與地面實(shí)測(cè)波譜數(shù)據(jù)配合使用,通過(guò)與測(cè)繪地物波譜本底數(shù)據(jù)庫(kù)平臺(tái)提供的其他地面實(shí)測(cè)波譜數(shù)據(jù)集進(jìn)行空間位置配對(duì)(相同和相近位置),研究和分析地面實(shí)測(cè)波譜與影像波譜的關(guān)聯(lián)關(guān)系,為相關(guān)算法的研究提供數(shù)據(jù)基礎(chǔ),為直接利用地面實(shí)測(cè)波譜數(shù)據(jù)指導(dǎo)影像樣本自動(dòng)采集提供可能。
中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2019年2期