国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中國典型城市建筑物實例數(shù)據(jù)集

2021-04-15 10:34吳開順鄭道遠陳妍伶曾林蕓張嘉輝柴生華徐文杰楊永亮李圣文劉袁緣方芳
關鍵詞:輪廓實例建筑物

吳開順,鄭道遠,陳妍伶,曾林蕓,張嘉輝,柴生華,徐文杰,楊永亮,李圣文,,劉袁緣,,方芳,*

1.中國地質(zhì)大學(武漢)國家地理信息系統(tǒng)工程技術研究中心,武漢 430074

2.中國地質(zhì)大學(武漢)地理與信息工程學院,武漢 430074

引 言

建筑物輪廓信息是最重要的基礎地理信息之一,在日常生活、經(jīng)濟建設和國防建設中發(fā)揮著重要的作用。遙感影像建筑物檢測和提取在城市規(guī)劃、人口估計、地形圖制作和更新等應用中都具有極為重要的意義[1]。相比人工遙感解譯與矢量化,自動化的遙感影像建筑物輪廓提取方法,不僅節(jié)省人力物力,而且效率高、信息提取周期短。

近年來,隨著深度學習技術的不斷發(fā)展,出現(xiàn)了基于深度學習的高精度建筑物輪廓信息自動提取方法,識別精度獲得顯著提升。大量的數(shù)據(jù)樣本是訓練深度學習模型、提升建筑物自動提取性能的關鍵。在計算機視覺領域,ImageNet[2]、MS COCO[3]等開放數(shù)據(jù)集極大地促進了深度學習方法的發(fā)展。然而,可供開放使用的建筑物提取數(shù)據(jù)集相對缺乏[1]。目前常用的建筑物提取數(shù)據(jù)集主要有AIRS 數(shù)據(jù)集[4]、WHU 建筑物數(shù)據(jù)集[1]和Inria 遙感影像數(shù)據(jù)集[5]。此外,馬薩諸塞數(shù)據(jù)集[6]由于影像質(zhì)量和分辨率較低,較少應用于建筑物提取的相關研究;ISPRS[7]及競賽數(shù)據(jù)集[8]覆蓋區(qū)域過小,很難反映出建筑物的多樣性。需要指出的是,遙感影像中的建筑物影像在時空分布、形態(tài)、背景環(huán)境上存在較大差異,模型精度和泛化能力與訓練時采用的數(shù)據(jù)集密切相關。但是目前尚未見發(fā)表中國地區(qū)的建筑物提取公開數(shù)據(jù)集,這在一定程度上制約著適應中國地區(qū)建筑物自動提取方法及應用的研究。

筆者基于高分辨率遙感影像構建了中國地區(qū)面向城市建筑物檢測和提取的建筑物實例分割數(shù)據(jù)集。本數(shù)據(jù)集覆蓋了國內(nèi)4 個具有代表性的城市,反映國內(nèi)城市建筑物自身和背景環(huán)境的特點,為中國基礎數(shù)據(jù)的構建提供數(shù)據(jù)支撐,以期推進相關學術的深入研究。

1 數(shù)據(jù)采集和處理方法

本數(shù)據(jù)集選取北京、上海、深圳、武漢等4 個具有代表性的城市中心城區(qū)作為數(shù)據(jù)采集目標區(qū)域,具體位置如表1 所示。原始數(shù)據(jù)源自由谷歌提供的19 級衛(wèi)星影像,地面分辨率為0.29 m。為了提高數(shù)據(jù)集的通用性,數(shù)據(jù)區(qū)域的選取包括正射影像和非正射影像區(qū)域、建筑物稀疏分布和密集分布區(qū)域,同時考慮建筑物輪廓形狀多樣性等因素。數(shù)據(jù)集樣本覆蓋區(qū)域共計約120 平方公里。

表1 數(shù)據(jù)采集目標區(qū)域信息

數(shù)據(jù)處理及標注的流程如圖1 所示,處理流程主要包含數(shù)據(jù)預處理階段、人工標注階段和人機交互標注階段。

首先,在數(shù)據(jù)預處理階段,針對4 個城市的原始衛(wèi)星影像,人工篩選并截取無重疊的82 塊5000×5000 像素大小的影像區(qū)域。同時,參考現(xiàn)有標準實例分割數(shù)據(jù)集格式,將每幅影像統(tǒng)一切割為100幅500×500 像素大小的瓦片。本數(shù)據(jù)集從以上瓦片數(shù)據(jù)中隨機選取7260 個區(qū)域作為樣本進行標注,其中北京2237 個,深圳2344 個,上海1231 個,武漢1448 個。

在人工標注階段,首先采用數(shù)據(jù)標注軟件(labelme[9])對20%的遙感影像數(shù)據(jù)建筑物輪廓進行標注,形成初始樣本集;隨后,基于初始樣本集訓練神經(jīng)網(wǎng)絡模型,使模型具有初步處理的能力。

在交互式標注階段,借鑒反向傳播修正機制(Backpropagating Refinement Scheme,BRS)[10]對其余80%的數(shù)據(jù)進行交互式數(shù)據(jù)標注。最終獲得全部數(shù)據(jù)的建筑物實例標簽,完成數(shù)據(jù)集的制作。

2 數(shù)據(jù)樣本描述

本數(shù)據(jù)集以“遙感影像+數(shù)據(jù)標注文件”的形式組織存儲,分別存儲原始遙感影像和所對應的建筑物輪廓標注信息。數(shù)據(jù)集樣本包括訓練集和測試集兩個文件夾,每個文件夾包含一個遙感影像數(shù)據(jù)文件夾和一個json 格式標注文件。數(shù)據(jù)集的文件組織形式如表2 所示。

圖1 數(shù)據(jù)處理流程圖

表2 數(shù)據(jù)集文件組織形式

其中,tif 格式文件為500×500 像素的包含位置信息的原始遙感影像;json 格式文件則描述了該遙感影像所對應的建筑物輪廓標注信息,主要包括4 個方面的信息:info、images、categories 和annotations。其中,info 記錄的是數(shù)據(jù)集的制作年份、版本、描述等基本信息;images 記錄了數(shù)據(jù)集中影像的大小等信息;categories 將類別從名稱映射到類別編號;annotations 則記錄了標注編號、標注對應的影像編號、建筑物輪廓點坐標等標注信息。數(shù)據(jù)標注文件的組織形式如圖2 所示。

圖2 數(shù)據(jù)標注文件的組織形式

圖3 展示了在4 個城市中選取的具有代表性的遙感影像及相應的建筑物輪廓。

3 數(shù)據(jù)質(zhì)量控制和評估

為保證數(shù)據(jù)集質(zhì)量,我們在影像整理和檢查、人工標注和交互式標注階段均采用了完整的質(zhì)量控制過程(如圖4 所示),通過多重檢查保證標注數(shù)據(jù)的可靠性、完整性和統(tǒng)一性。

在影像整理和檢查階段,人工剔除了失真、畸變、模糊等影像,以減少原始影像引入的噪聲。在人工標注階段采用人工交叉檢驗方法檢查標注結果并修正發(fā)現(xiàn)的問題,檢查內(nèi)容包括標注輪廓不完整、建筑物標注遺漏以及非建筑物誤標注為建筑物等。交互式標注階段則重點檢查標簽文件的準確性、一致性,確保標注質(zhì)量。為避免影像標簽缺失、標簽與影像匹配錯誤等問題,我們采用循環(huán)遍歷算法進行檢驗,并對錯誤數(shù)據(jù)逐一確認和修改。

圖3 數(shù)據(jù)集樣例展示

此外,在制作最終的標注文件之前,為了確保數(shù)據(jù)組織按照既定的規(guī)則進行,所有的遙感影像及其所對應的標注信息均通過程序自動從原始數(shù)據(jù)中讀取得到,并按照規(guī)則批量化自動命名,最后采取人工方式進行復核。通過以上步驟,本數(shù)據(jù)集的質(zhì)量能夠得到良好的保證。

4 數(shù)據(jù)價值

本數(shù)據(jù)集是首個公開的取材于國內(nèi)城市的高分辨率遙感影像城市建筑物輪廓的實例分割數(shù)據(jù)集,從一定程度上反映了國內(nèi)的建筑物特征和遙感影像的關系,豐富了遙感領域建筑物數(shù)據(jù)集,有望更好地支撐國內(nèi)遙感影像建筑物提取的研究和生產(chǎn)。本數(shù)據(jù)集的組織和標注方式與常用實例分割數(shù)據(jù)集一致,可以很方便地服務于影像分割任務。

5 數(shù)據(jù)使用方法和建議

本數(shù)據(jù)集可用于實例分割任務和基于像素級別的語義分割任務。數(shù)據(jù)集的使用方法與常用于上述兩種分割任務的標準數(shù)據(jù)集使用方法一致,總體步驟如圖5 所示。

對于實例分割任務,本數(shù)據(jù)集采用的標注格式與實例分割數(shù)據(jù)集MS COCO 相同,使用方式相同。實例分割任務可通過解析json 文件,從annotations 字段中批量讀取建筑物輪廓標注;從images字段中獲取影像存儲路徑,進而獲取實例標注所對應的建筑物影像。實例分割模型可將獲取的標注和影像兩類信息作為輸入,進行模型的訓練和預測。

語義分割的類別標簽是像素級的,其中建筑物區(qū)域?qū)南袼刂禐?,非建筑物區(qū)域?qū)南袼刂禐?。每個樣本的標簽存儲在一個png 文件中,其原始影像文件存儲在與標簽相同文件名的tif 文件中。語義分割任務依次讀取每個樣本的標注和影像文件,輸入到語義分割模型中進行訓練和預測。

圖5 數(shù)據(jù)使用流程

后續(xù)過程需根據(jù)實際任務進行設計,主要包括模型訓練、預測和精度驗證等。兩種任務使用中的模型也在不斷發(fā)展,現(xiàn)有經(jīng)典模型如Mask R-CNN[11],DeepLabv3[12]等,此文不再贅述。

數(shù)據(jù)作者分工職責

吳開順(1995—),男,四川省彭州市人,在讀碩士研究生,研究方向為圖像智能處理及遙感應用。主要承擔工作:數(shù)據(jù)集整體結構設計,交互式標注算法研究與實現(xiàn)。

鄭道遠(1999—),男,湖北省荊州市人,在讀碩士研究生,研究方向為目標檢測、圖像分割及遙感應用。主要承擔工作:數(shù)據(jù)集人工及交互式標注,論文初稿撰寫。

陳妍伶(1997—),女,四川省射洪市人,在讀碩士研究生,研究方向為大數(shù)據(jù)城市意向分析。主要承擔工作:數(shù)據(jù)集人工及交互式標注。

曾林蕓(1996—),女,四川省成都市人,在讀碩士研究生,研究方向為圖卷積神經(jīng)網(wǎng)絡及應用。主要承擔工作:數(shù)據(jù)集人工及交互式標注。

張嘉輝(1998—),女,山東省濰坊市人,在讀碩士研究生,研究方向為多模態(tài)圖像數(shù)據(jù)融合及應用。主要承擔工作:數(shù)據(jù)集人工及交互式標注。

柴生華(2000—),男,河北省承德市人,在讀本科生。主要承擔工作:數(shù)據(jù)集人工標注。

徐文杰(2000—),男,湖北省武漢市人,在讀本科生。主要承擔工作:數(shù)據(jù)集人工標注。

楊永亮(1999—),男,甘肅省武威市人,在讀本科生。主要承擔工作:數(shù)據(jù)集人工標注。

李圣文(1978—),男,山東省濟寧市人,博士,副教授,研究方向為時空大數(shù)據(jù)挖掘與機器學習。主要承擔工作:論文方向指導與質(zhì)量把關。

劉袁緣(1984—),女,江西省景德鎮(zhèn)人,博士,副教授,研究方向為計算機視覺。主要承擔工作:算法指導。

方芳(1976—)女,湖北省黃岡市人,博士,副教授,研究方向為智能信息處理。主要承擔工作:項目規(guī)劃與論文質(zhì)量把關。

猜你喜歡
輪廓實例建筑物
鄰近既有建筑物全套管回轉(zhuǎn)鉆機拔樁技術
描寫建筑物的詞語
跟蹤導練(三)
Relationship between mode of sport training and general cognitive performance
火柴游戲
完形填空Ⅱ
完形填空Ⅰ
兒童筒筆畫
創(chuàng)造早秋新輪廓