吳開順,鄭道遠,陳妍伶,曾林蕓,張嘉輝,柴生華,徐文杰,楊永亮,李圣文,,劉袁緣,,方芳,*
1.中國地質(zhì)大學(武漢)國家地理信息系統(tǒng)工程技術研究中心,武漢 430074
2.中國地質(zhì)大學(武漢)地理與信息工程學院,武漢 430074
建筑物輪廓信息是最重要的基礎地理信息之一,在日常生活、經(jīng)濟建設和國防建設中發(fā)揮著重要的作用。遙感影像建筑物檢測和提取在城市規(guī)劃、人口估計、地形圖制作和更新等應用中都具有極為重要的意義[1]。相比人工遙感解譯與矢量化,自動化的遙感影像建筑物輪廓提取方法,不僅節(jié)省人力物力,而且效率高、信息提取周期短。
近年來,隨著深度學習技術的不斷發(fā)展,出現(xiàn)了基于深度學習的高精度建筑物輪廓信息自動提取方法,識別精度獲得顯著提升。大量的數(shù)據(jù)樣本是訓練深度學習模型、提升建筑物自動提取性能的關鍵。在計算機視覺領域,ImageNet[2]、MS COCO[3]等開放數(shù)據(jù)集極大地促進了深度學習方法的發(fā)展。然而,可供開放使用的建筑物提取數(shù)據(jù)集相對缺乏[1]。目前常用的建筑物提取數(shù)據(jù)集主要有AIRS 數(shù)據(jù)集[4]、WHU 建筑物數(shù)據(jù)集[1]和Inria 遙感影像數(shù)據(jù)集[5]。此外,馬薩諸塞數(shù)據(jù)集[6]由于影像質(zhì)量和分辨率較低,較少應用于建筑物提取的相關研究;ISPRS[7]及競賽數(shù)據(jù)集[8]覆蓋區(qū)域過小,很難反映出建筑物的多樣性。需要指出的是,遙感影像中的建筑物影像在時空分布、形態(tài)、背景環(huán)境上存在較大差異,模型精度和泛化能力與訓練時采用的數(shù)據(jù)集密切相關。但是目前尚未見發(fā)表中國地區(qū)的建筑物提取公開數(shù)據(jù)集,這在一定程度上制約著適應中國地區(qū)建筑物自動提取方法及應用的研究。
筆者基于高分辨率遙感影像構建了中國地區(qū)面向城市建筑物檢測和提取的建筑物實例分割數(shù)據(jù)集。本數(shù)據(jù)集覆蓋了國內(nèi)4 個具有代表性的城市,反映國內(nèi)城市建筑物自身和背景環(huán)境的特點,為中國基礎數(shù)據(jù)的構建提供數(shù)據(jù)支撐,以期推進相關學術的深入研究。
本數(shù)據(jù)集選取北京、上海、深圳、武漢等4 個具有代表性的城市中心城區(qū)作為數(shù)據(jù)采集目標區(qū)域,具體位置如表1 所示。原始數(shù)據(jù)源自由谷歌提供的19 級衛(wèi)星影像,地面分辨率為0.29 m。為了提高數(shù)據(jù)集的通用性,數(shù)據(jù)區(qū)域的選取包括正射影像和非正射影像區(qū)域、建筑物稀疏分布和密集分布區(qū)域,同時考慮建筑物輪廓形狀多樣性等因素。數(shù)據(jù)集樣本覆蓋區(qū)域共計約120 平方公里。
表1 數(shù)據(jù)采集目標區(qū)域信息
數(shù)據(jù)處理及標注的流程如圖1 所示,處理流程主要包含數(shù)據(jù)預處理階段、人工標注階段和人機交互標注階段。
首先,在數(shù)據(jù)預處理階段,針對4 個城市的原始衛(wèi)星影像,人工篩選并截取無重疊的82 塊5000×5000 像素大小的影像區(qū)域。同時,參考現(xiàn)有標準實例分割數(shù)據(jù)集格式,將每幅影像統(tǒng)一切割為100幅500×500 像素大小的瓦片。本數(shù)據(jù)集從以上瓦片數(shù)據(jù)中隨機選取7260 個區(qū)域作為樣本進行標注,其中北京2237 個,深圳2344 個,上海1231 個,武漢1448 個。
在人工標注階段,首先采用數(shù)據(jù)標注軟件(labelme[9])對20%的遙感影像數(shù)據(jù)建筑物輪廓進行標注,形成初始樣本集;隨后,基于初始樣本集訓練神經(jīng)網(wǎng)絡模型,使模型具有初步處理的能力。
在交互式標注階段,借鑒反向傳播修正機制(Backpropagating Refinement Scheme,BRS)[10]對其余80%的數(shù)據(jù)進行交互式數(shù)據(jù)標注。最終獲得全部數(shù)據(jù)的建筑物實例標簽,完成數(shù)據(jù)集的制作。
本數(shù)據(jù)集以“遙感影像+數(shù)據(jù)標注文件”的形式組織存儲,分別存儲原始遙感影像和所對應的建筑物輪廓標注信息。數(shù)據(jù)集樣本包括訓練集和測試集兩個文件夾,每個文件夾包含一個遙感影像數(shù)據(jù)文件夾和一個json 格式標注文件。數(shù)據(jù)集的文件組織形式如表2 所示。
圖1 數(shù)據(jù)處理流程圖
表2 數(shù)據(jù)集文件組織形式
其中,tif 格式文件為500×500 像素的包含位置信息的原始遙感影像;json 格式文件則描述了該遙感影像所對應的建筑物輪廓標注信息,主要包括4 個方面的信息:info、images、categories 和annotations。其中,info 記錄的是數(shù)據(jù)集的制作年份、版本、描述等基本信息;images 記錄了數(shù)據(jù)集中影像的大小等信息;categories 將類別從名稱映射到類別編號;annotations 則記錄了標注編號、標注對應的影像編號、建筑物輪廓點坐標等標注信息。數(shù)據(jù)標注文件的組織形式如圖2 所示。
圖2 數(shù)據(jù)標注文件的組織形式
圖3 展示了在4 個城市中選取的具有代表性的遙感影像及相應的建筑物輪廓。
為保證數(shù)據(jù)集質(zhì)量,我們在影像整理和檢查、人工標注和交互式標注階段均采用了完整的質(zhì)量控制過程(如圖4 所示),通過多重檢查保證標注數(shù)據(jù)的可靠性、完整性和統(tǒng)一性。
在影像整理和檢查階段,人工剔除了失真、畸變、模糊等影像,以減少原始影像引入的噪聲。在人工標注階段采用人工交叉檢驗方法檢查標注結果并修正發(fā)現(xiàn)的問題,檢查內(nèi)容包括標注輪廓不完整、建筑物標注遺漏以及非建筑物誤標注為建筑物等。交互式標注階段則重點檢查標簽文件的準確性、一致性,確保標注質(zhì)量。為避免影像標簽缺失、標簽與影像匹配錯誤等問題,我們采用循環(huán)遍歷算法進行檢驗,并對錯誤數(shù)據(jù)逐一確認和修改。
圖3 數(shù)據(jù)集樣例展示
此外,在制作最終的標注文件之前,為了確保數(shù)據(jù)組織按照既定的規(guī)則進行,所有的遙感影像及其所對應的標注信息均通過程序自動從原始數(shù)據(jù)中讀取得到,并按照規(guī)則批量化自動命名,最后采取人工方式進行復核。通過以上步驟,本數(shù)據(jù)集的質(zhì)量能夠得到良好的保證。
本數(shù)據(jù)集是首個公開的取材于國內(nèi)城市的高分辨率遙感影像城市建筑物輪廓的實例分割數(shù)據(jù)集,從一定程度上反映了國內(nèi)的建筑物特征和遙感影像的關系,豐富了遙感領域建筑物數(shù)據(jù)集,有望更好地支撐國內(nèi)遙感影像建筑物提取的研究和生產(chǎn)。本數(shù)據(jù)集的組織和標注方式與常用實例分割數(shù)據(jù)集一致,可以很方便地服務于影像分割任務。
本數(shù)據(jù)集可用于實例分割任務和基于像素級別的語義分割任務。數(shù)據(jù)集的使用方法與常用于上述兩種分割任務的標準數(shù)據(jù)集使用方法一致,總體步驟如圖5 所示。
對于實例分割任務,本數(shù)據(jù)集采用的標注格式與實例分割數(shù)據(jù)集MS COCO 相同,使用方式相同。實例分割任務可通過解析json 文件,從annotations 字段中批量讀取建筑物輪廓標注;從images字段中獲取影像存儲路徑,進而獲取實例標注所對應的建筑物影像。實例分割模型可將獲取的標注和影像兩類信息作為輸入,進行模型的訓練和預測。
語義分割的類別標簽是像素級的,其中建筑物區(qū)域?qū)南袼刂禐?,非建筑物區(qū)域?qū)南袼刂禐?。每個樣本的標簽存儲在一個png 文件中,其原始影像文件存儲在與標簽相同文件名的tif 文件中。語義分割任務依次讀取每個樣本的標注和影像文件,輸入到語義分割模型中進行訓練和預測。
圖5 數(shù)據(jù)使用流程
后續(xù)過程需根據(jù)實際任務進行設計,主要包括模型訓練、預測和精度驗證等。兩種任務使用中的模型也在不斷發(fā)展,現(xiàn)有經(jīng)典模型如Mask R-CNN[11],DeepLabv3[12]等,此文不再贅述。
數(shù)據(jù)作者分工職責
吳開順(1995—),男,四川省彭州市人,在讀碩士研究生,研究方向為圖像智能處理及遙感應用。主要承擔工作:數(shù)據(jù)集整體結構設計,交互式標注算法研究與實現(xiàn)。
鄭道遠(1999—),男,湖北省荊州市人,在讀碩士研究生,研究方向為目標檢測、圖像分割及遙感應用。主要承擔工作:數(shù)據(jù)集人工及交互式標注,論文初稿撰寫。
陳妍伶(1997—),女,四川省射洪市人,在讀碩士研究生,研究方向為大數(shù)據(jù)城市意向分析。主要承擔工作:數(shù)據(jù)集人工及交互式標注。
曾林蕓(1996—),女,四川省成都市人,在讀碩士研究生,研究方向為圖卷積神經(jīng)網(wǎng)絡及應用。主要承擔工作:數(shù)據(jù)集人工及交互式標注。
張嘉輝(1998—),女,山東省濰坊市人,在讀碩士研究生,研究方向為多模態(tài)圖像數(shù)據(jù)融合及應用。主要承擔工作:數(shù)據(jù)集人工及交互式標注。
柴生華(2000—),男,河北省承德市人,在讀本科生。主要承擔工作:數(shù)據(jù)集人工標注。
徐文杰(2000—),男,湖北省武漢市人,在讀本科生。主要承擔工作:數(shù)據(jù)集人工標注。
楊永亮(1999—),男,甘肅省武威市人,在讀本科生。主要承擔工作:數(shù)據(jù)集人工標注。
李圣文(1978—),男,山東省濟寧市人,博士,副教授,研究方向為時空大數(shù)據(jù)挖掘與機器學習。主要承擔工作:論文方向指導與質(zhì)量把關。
劉袁緣(1984—),女,江西省景德鎮(zhèn)人,博士,副教授,研究方向為計算機視覺。主要承擔工作:算法指導。
方芳(1976—)女,湖北省黃岡市人,博士,副教授,研究方向為智能信息處理。主要承擔工作:項目規(guī)劃與論文質(zhì)量把關。