周儉 Zhou Jian
葉振 Ye Zhen
俞文彬 Yu Wenbin
宋俊鋒 Song Junfeng
李燕寧 Li Yanning
縱觀國(guó)內(nèi)外的相關(guān)研究和實(shí)踐,甄別歷史建筑、歷史街區(qū)和歷史村鎮(zhèn),均是由專家發(fā)現(xiàn)并采用專家現(xiàn)場(chǎng)踏勘的方法[1]。這種甄別方法首先是需要“人工發(fā)現(xiàn)”,其次是“人工識(shí)別”,現(xiàn)場(chǎng)踏勘工作量大,內(nèi)外業(yè)工作耗時(shí)長(zhǎng),也難免存在遺漏。近年來隨著信息技術(shù)、傾斜攝影,以及數(shù)字圖像識(shí)別技術(shù)的快速發(fā)展,人們采集、存儲(chǔ)、分析空間數(shù)據(jù)的能力大大提高,將這些新技術(shù)應(yīng)用于城鄉(xiāng)文化遺產(chǎn)(物質(zhì))的研究和保護(hù)是一個(gè)可期待的新領(lǐng)域,內(nèi)容包括物質(zhì)遺產(chǎn)的普查、評(píng)估和監(jiān)測(cè)管理[2]。
本研究以無人機(jī)采集的空間正射影像數(shù)據(jù)為基準(zhǔn),借助形態(tài)學(xué)、類型學(xué)的原理,運(yùn)用圖像識(shí)別技術(shù)建立智能識(shí)別模型,通過模型運(yùn)算對(duì)正射影像進(jìn)行歷史建筑智能化識(shí)別和空間定位,在正射影像上標(biāo)注可能的潛在歷史建筑點(diǎn)位。
作為一個(gè)法定概念,歷史建筑是傳統(tǒng)建筑中具有一定歷史、科學(xué)和地方文化價(jià)值,并對(duì)歷史文化空間和場(chǎng)所的保存具有核心作用的建筑物。本研究的目的是為人工現(xiàn)場(chǎng)核定歷史建筑提供框定的范圍和可能的對(duì)象。雖然傳統(tǒng)建筑和歷史建筑在外觀影像上具有相似性,計(jì)算機(jī)通過外觀影像的智能識(shí)別往往會(huì)將不具備歷史建筑標(biāo)準(zhǔn)和價(jià)值的傳統(tǒng)建筑誤判為歷史建筑,但這一結(jié)果恰恰可以為人工現(xiàn)場(chǎng)核定提供有價(jià)值的線索。
建構(gòu)歷史建筑智能識(shí)別模型的基本方法包括三個(gè)步驟:①選取一個(gè)已具有研究基礎(chǔ)的案例地作為測(cè)試地,通過無人機(jī)攝影,采集測(cè)試地的空間正射影像數(shù)據(jù);②根據(jù)類型學(xué)和形態(tài)學(xué),確定該測(cè)試地典型歷史建筑的特征要素,并選取部分已知的歷史建筑(群)作為學(xué)習(xí)樣本,運(yùn)用數(shù)字圖像識(shí)別工具對(duì)其影像特征進(jìn)行學(xué)習(xí);③用經(jīng)過學(xué)習(xí)訓(xùn)練建構(gòu)的歷史建筑智能識(shí)別模型(以下簡(jiǎn)稱“識(shí)別模型”),對(duì)測(cè)試地全域進(jìn)行歷史建筑的智能識(shí)別,對(duì)潛在的歷史建筑在全域正射影像圖上進(jìn)行自動(dòng)空間定位。其中第二和第三個(gè)步驟需要反復(fù)校驗(yàn),根據(jù)每次識(shí)別結(jié)果與現(xiàn)場(chǎng)歷史建筑實(shí)際分布狀況進(jìn)行人工比對(duì),對(duì)識(shí)別模型進(jìn)行不斷調(diào)整和優(yōu)化,直至達(dá)到預(yù)期的精確度和召回率。
評(píng)價(jià)識(shí)別模型的性能指標(biāo)主要包括正確性(correctness)和識(shí)別速度(speed),在某些場(chǎng)景下需要同時(shí)兼顧二者的平衡。本研究的目標(biāo)是判斷歷史建筑(群)存在可能性的大小,因此對(duì)識(shí)別速度要求相對(duì)較低,而更為關(guān)注識(shí)別結(jié)果的正確性。正確性同時(shí)包含兩方面:精確度(precision)和召回率(recall)。精確度指模型預(yù)測(cè)的所有歷史建筑中確實(shí)是歷史建筑的比例,召回率指所有在現(xiàn)實(shí)中確實(shí)存在的歷史建筑被模型準(zhǔn)確識(shí)別出來的比例。精確度和召回率是檢驗(yàn)識(shí)別模型有效性的關(guān)鍵指標(biāo),一般規(guī)律是精確度越高召回率越低,反之亦然。為了更直觀地闡明精確度和召回率的概念,我們定義了真陽性(TP, true positive),假陽性(FP, false positive),假陰性(FN, fasle negative)等概念。真陽性指模型預(yù)測(cè)的歷史建筑確實(shí)是歷史建筑,假陽性指模型錯(cuò)將非歷史建筑識(shí)別為歷史建筑,假陰性指模型未能將真實(shí)歷史建筑識(shí)別出來。公式(1)(2)分別定義了精確度、召回率和上述概念之間的關(guān)系:
由此可以看到,精確度指明了模型錯(cuò)檢的程度,而召回率指明了模型漏檢的程度。基于本研究的目標(biāo),需要同時(shí)兼顧精確度和召回率的平衡,實(shí)現(xiàn)借助智能識(shí)別(模型)的技術(shù)手段,達(dá)到為專家現(xiàn)場(chǎng)確認(rèn)提供先期依據(jù)的目的。
歷史建筑的特征要素是維系歷史建筑特征、承載歷史建筑價(jià)值的關(guān)鍵性要素。如材料、色彩、樣式、空間形制、地點(diǎn)、群體組合、與環(huán)境的空間關(guān)系、功能和文化象征與意義等。正射影像的全要素、所見即所得的特點(diǎn),使得歷史建筑的外部?jī)删S平面上的特征能夠在正射影像上客觀真實(shí)地表達(dá)出來,比如屋頂?shù)男问?、材料和色彩,建筑的空間形制和群體組合,建筑的尺度和密度等。
江南水鄉(xiāng)古鎮(zhèn)歷史建筑(群)以下三個(gè)方面的特征,在正射影像上呈現(xiàn)出與非歷史建筑較為顯著的影像差異(圖1),具有區(qū)分兩者的影像學(xué)條件:
(1)屋頂?shù)牟牧?、色彩和形式。江南水鄉(xiāng)傳統(tǒng)建筑的屋頂材料多以小青瓦鋪設(shè),其瓦片鋪設(shè)方式、尺寸、顏色、反光率等均與現(xiàn)代坡頂和平頂屋面材料有區(qū)別,除少數(shù)公共建筑采用廡殿頂、歇山頂?shù)忍厥獾奈蓓斝问酵?,歷史建筑屋頂多為雙坡頂形式,在影像特征上易于識(shí)別。
(2)平面布局形制。江南水鄉(xiāng)歷史建筑的開間及進(jìn)深規(guī)則有序,開間數(shù)多少于三開間,因此其單體規(guī)模較新的多層建筑要小,而比新建的一、二層民居建筑布局更加規(guī)整有序,在影像特征上也可被辨識(shí)。
(3)建筑群及歷史地段的空間肌理。江南水鄉(xiāng)歷史建筑的平面布局基本是由圍合院落和條狀沿街兩種類型組合而成,呈現(xiàn)出建筑與院落的相互嵌套及沿河沿街的連續(xù)綿延。這種嵌套和連續(xù)特征較非歷史建筑群和非歷史地段在正射影像上呈現(xiàn)出更為有序的特征。
圖1 震澤古鎮(zhèn)歷史建筑的正射影像特征(圖片來源:作者提供)
對(duì)智能識(shí)別而言,數(shù)字圖像物體檢測(cè)分析的任務(wù),是從視頻或者圖像中,根據(jù)物體的外觀特征,通過模型計(jì)算將該物體進(jìn)行識(shí)別分類,并定位各類物體所在的空間位置。傳統(tǒng)圖像物體檢測(cè)識(shí)別算法采用人工設(shè)計(jì)特征的方式進(jìn)行,針對(duì)目標(biāo)類型的特點(diǎn)設(shè)計(jì)不同的抽取特征,如行人檢測(cè)多采用HoG 特征①HoG 特征是指通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖來構(gòu)成的特征。[3],人臉檢測(cè)常采用LBP或Haar 特征②LBP 特征是一種用來描述圖像局部紋理的特征;Haar 特征是采用積分圖方法來反映圖像的灰度變化情況的特征。[4-5]。此類人工設(shè)計(jì)特征策略對(duì)設(shè)計(jì)者的經(jīng)驗(yàn)要求很高,但所提取的特征泛化能力有限,常存在欠擬合的情況。
隨著計(jì)算機(jī)深度學(xué)習(xí)技術(shù)的發(fā)展,當(dāng)前數(shù)字圖像物體檢測(cè)識(shí)別,已經(jīng)從傳統(tǒng)手動(dòng)特征抽取策略,迅速轉(zhuǎn)向了基于深度神經(jīng)網(wǎng)絡(luò)的自動(dòng)特征抽取識(shí)別類算法[6]?;谏疃葘W(xué)習(xí)的物體檢測(cè)算法能利用當(dāng)前計(jì)算機(jī)強(qiáng)大的GPU 運(yùn)算能力,通過大量包含目標(biāo)類別的樣本圖像訓(xùn)練,自動(dòng)抽取出合適且具有較強(qiáng)表達(dá)能力和區(qū)分度的特征用于后續(xù)的物體識(shí)別。該類算法的特點(diǎn):①無需手動(dòng)設(shè)計(jì)抽取特征,對(duì)于不同類別的物體,深度神經(jīng)網(wǎng)絡(luò)能通過大量訓(xùn)練自動(dòng)學(xué)習(xí)到該類物體的特征;②泛化能力強(qiáng),在提供的訓(xùn)練樣本數(shù)量大且具有廣泛代表性的情況下,訓(xùn)練后的模型具有很高的識(shí)別準(zhǔn)確率和環(huán)境適應(yīng)性。
當(dāng)前的物體檢測(cè)算法主要分為兩大類[7]:兩階段物體檢測(cè)算法和單階段物體檢測(cè)算法。相對(duì)來說,兩階段物體檢測(cè)算法檢測(cè)精確度更高,但檢測(cè)需時(shí)更久;單階段物體檢測(cè)算法的優(yōu)點(diǎn)是可以進(jìn)行實(shí)時(shí)檢測(cè),但精確度相對(duì)較低??紤]到在歷史建筑智能識(shí)別的應(yīng)用領(lǐng)域中,對(duì)識(shí)別精確度的要求相較實(shí)時(shí)性要求更高,本研究確定采用兩階段物體檢測(cè)算法。
兩階段物體檢測(cè)算法在進(jìn)行物體檢測(cè)分類時(shí)需要經(jīng)歷兩個(gè)大的步驟:①通過深度神經(jīng)網(wǎng)絡(luò)模型生成多個(gè)可能包含某類物體的候選框;②在步驟1 的基礎(chǔ)上,深度神經(jīng)網(wǎng)絡(luò)生成回歸和分類兩個(gè)分支的結(jié)果。通過在深度神經(jīng)網(wǎng)絡(luò)模型中增加回歸分支修正候選框的位置,使其與實(shí)際物體位置更加接近。通過分類分支可以預(yù)測(cè)每個(gè)候選框是否包含物體、物體的類別,以及屬于該類別的概率。兩階段物體檢測(cè)算法類型多樣,根據(jù)神經(jīng)網(wǎng)絡(luò)的架構(gòu)模型不同、生成候選框的策略不同、采用的損失函數(shù)不同、底層的基礎(chǔ)特征抽取神經(jīng)網(wǎng)絡(luò)不同,本研究選取了當(dāng)前較具代表性的Faster R-cnn[8]兩階段物體檢測(cè)識(shí)別算法進(jìn)行歷史建筑的智能檢測(cè)識(shí)別。
基于Faster R-cnn 的歷史建筑智能識(shí)別模型結(jié)構(gòu),由模型訓(xùn)練模塊和實(shí)時(shí)檢測(cè)模塊兩個(gè)相對(duì)獨(dú)立的工作模塊組成。模型訓(xùn)練模塊利用大量包含歷史建筑的樣本圖片對(duì)Faster R-cnn 模型進(jìn)行訓(xùn)練,通過反向傳播算法不斷調(diào)優(yōu)并自動(dòng)抽取出歷史建筑相關(guān)特征的參數(shù)值。該模塊主要工作步驟包括:
(1)數(shù)據(jù)采集。如3.1 節(jié)所示,利用無人機(jī)傾斜攝影技術(shù)采集包含各類歷史建筑的正射圖作為訓(xùn)練和評(píng)估樣本。
(2)數(shù)據(jù)標(biāo)注。使用LabelImg[9]等工具手動(dòng)將訓(xùn)練集圖片中所有歷史建筑的位置用方框框選出來。
(3)數(shù)據(jù)增廣。如果用于訓(xùn)練的歷史建筑數(shù)量較少,可以采用一系列的數(shù)據(jù)增廣技術(shù),通過對(duì)已有歷史建筑圖片樣本進(jìn)行各種變化以產(chǎn)生新的圖片樣本來增加訓(xùn)練樣本數(shù)量。
(4)模型訓(xùn)練。將標(biāo)注好的數(shù)據(jù)導(dǎo)入FasterR-cnn 模型進(jìn)行訓(xùn)練,通過不斷地迭代訓(xùn)練該模型中的多層神經(jīng)網(wǎng)絡(luò),可以自動(dòng)學(xué)習(xí)到歷史建筑的相關(guān)特征,并通過反向傳播機(jī)制相應(yīng)調(diào)整網(wǎng)絡(luò)模型中涉及到的眾多參數(shù)。
模型訓(xùn)練后進(jìn)入實(shí)時(shí)檢測(cè)模塊,即利用訓(xùn)練后的模型進(jìn)行歷史建筑的定位識(shí)別試驗(yàn)。將包含歷史建筑的整個(gè)正射影像數(shù)據(jù)輸入Faster R-cnn 模型后,模型首先會(huì)利用區(qū)域推選網(wǎng)絡(luò)(RPN)[10],推舉出該影像中若干可能存在歷史建筑的區(qū)域作為候選區(qū)域,接著對(duì)這些候選區(qū)域的位置和大小進(jìn)行回歸修正,以使其更接近該物體的實(shí)際位置和大小;同時(shí)對(duì)候選區(qū)域中的物體進(jìn)行分類判斷,并將類別判斷結(jié)果為歷史建筑的方框選取后輸出,最終得到在整個(gè)正射影像圖中歷史建筑的識(shí)別結(jié)果(圖2,圖3)。
基于Faster R-cnn 的歷史建筑智能識(shí)別模型涉及到深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的眾多模塊,不同的模塊在實(shí)現(xiàn)時(shí)可以選擇不同的結(jié)構(gòu),其中涉及到數(shù)量眾多的超參數(shù)值的設(shè)置。在本模型中,一些重要結(jié)構(gòu)的選擇及相關(guān)超參數(shù)的設(shè)置如下:
實(shí)現(xiàn)平臺(tái):模型使用Python 語言,基于Tensorflow①Tensorflow 是Google 公司開發(fā)的一款端到端的開源機(jī)器學(xué)習(xí)平臺(tái),包含各種機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相關(guān)的工具、類庫(kù)和社區(qū)資源。[11]框架實(shí)現(xiàn)。
數(shù)據(jù)增廣策略:可用于訓(xùn)練的歷史建筑的數(shù)量通常較少,為了提高訓(xùn)練樣本的代表性,模型可采用水平/垂直翻轉(zhuǎn)、旋轉(zhuǎn)、平移、裁剪、顏色/對(duì)比度變化等方式增加歷史建筑的樣本數(shù)量。
特征抽取的骨干神經(jīng)網(wǎng)絡(luò):物體檢測(cè)算法依賴底層的深度神經(jīng)網(wǎng)絡(luò)提取相應(yīng)的物體特征,不同的神經(jīng)網(wǎng)絡(luò)提取物體特征的能力不同,本模型采用深度殘差網(wǎng)絡(luò)Resnet101②殘差網(wǎng)絡(luò)是微軟研究院提出的一款深度卷積神經(jīng)網(wǎng)絡(luò)模型,該模型采用殘差結(jié)構(gòu)在網(wǎng)絡(luò)的不同層級(jí)實(shí)現(xiàn)跳躍連接,緩解隨著網(wǎng)絡(luò)深度增加造成的梯度消失問題,提高了神經(jīng)網(wǎng)絡(luò)識(shí)別的準(zhǔn)確率。Resnet101 指的是一種共有101 層的深度殘差網(wǎng)絡(luò)實(shí)現(xiàn)。[12]進(jìn)行歷史建筑的特征提取。
學(xué)習(xí)率:模型采用分階段的動(dòng)態(tài)學(xué)習(xí)率設(shè)置,初始階段學(xué)習(xí)率相對(duì)較大(0.0003),目的是使模型參數(shù)迅速收斂,提高訓(xùn)練效率。當(dāng)已訓(xùn)練步數(shù)大于100 000時(shí),采用更小的學(xué)習(xí)率(0.00003)進(jìn)行更精準(zhǔn)化的參數(shù)調(diào)整,以期獲得更優(yōu)解。
訓(xùn)練步數(shù):模型中的樣本訓(xùn)練次數(shù)為300 000 次,有較強(qiáng)GPU 配置的主機(jī)完成模型訓(xùn)練通常需要20 ~30 小時(shí)。
根據(jù)研究的目標(biāo)和對(duì)象,建構(gòu)識(shí)別模型的測(cè)試地選擇需要滿足以下條件:①歷史建筑存量豐富、類型較齊全;②歷史建筑集中成片;③保留著傳統(tǒng)格局和歷史風(fēng)貌;④已經(jīng)掌握現(xiàn)狀歷史建筑保存情況與保護(hù)規(guī)劃相關(guān)內(nèi)容;⑤經(jīng)歷多階段建設(shè)疊加,在圖像識(shí)別上有一定的干擾因素,以適應(yīng)模型今后的應(yīng)用環(huán)境?;谝陨虾Y選條件,本研究選擇了江南水鄉(xiāng)古鎮(zhèn)震澤作為識(shí)別模型測(cè)試的實(shí)驗(yàn)地(圖4)。
數(shù)據(jù)采集依據(jù)《數(shù)字航空攝影測(cè)量空中三角測(cè)量規(guī)范》《低空數(shù)字航空攝影規(guī)范》和《無人機(jī)航攝系統(tǒng)技術(shù)要求》等技術(shù)規(guī)范,采用多旋翼和固定翼無人飛機(jī),通過規(guī)范的航線規(guī)劃(圖5)與多鏡頭組合的方式采集數(shù)據(jù)精度為3 cm(即每個(gè)像元所對(duì)應(yīng)的實(shí)物為3 cm×3 cm)的正射像實(shí)景數(shù)據(jù)集,在相鄰正射影像中相同地物影像灰度均值與方差一致,灰度均值之差小于15。數(shù)據(jù)預(yù)處理完畢之后,采用正射軟件進(jìn)行拼接,得到帶地理信息的數(shù)字正射影像。由于震澤古鎮(zhèn)的面積較大,拍攝的正射影像整圖的像素量非常大,無法一次性在模型中進(jìn)行訓(xùn)練識(shí)別,因此將整張測(cè)試地的正射影像圖分割成大小相等的10 × 14 張正方形圖片,每張方圖(對(duì)應(yīng)實(shí)際120 m × 120 m)的像素值為2 048 × 2 048,整圖面積覆蓋1.5 km2。
將實(shí)地踏勘確定的所有歷史建筑位置,在分割好的震澤古鎮(zhèn)全域正射影像圖上進(jìn)行手動(dòng)標(biāo)注(黃點(diǎn)),并根據(jù)震澤古鎮(zhèn)歷史建筑的類型特點(diǎn),將部分典型歷史建筑作為學(xué)習(xí)樣本,由計(jì)算機(jī)專業(yè)人員使用LabelImg 數(shù)據(jù)框選工具框在正射影像圖上對(duì)其進(jìn)行框選(紅底框)。將在不同位置、用不同范圍框挑選的典型歷史建筑學(xué)習(xí)樣本輸入Faster R-cnn 模型進(jìn)行反復(fù)測(cè)試的結(jié)果表明(綠框),同樣數(shù)量和同樣類型的學(xué)習(xí)樣本學(xué)習(xí)效果并不相同(圖6)。首先,學(xué)習(xí)樣本的選取在空間上越分散,模型的召回率越低;越集聚,召回率越高,且精確度損失很?。ū?)。其次,在框選典型學(xué)習(xí)樣本時(shí)應(yīng)盡可能將歷史建筑的特征要素,包括全部屋頂、完整的平面格局和周邊的城市歷史肌理,完整包含在框選范圍(紅底框)內(nèi),盡量少地包含其他無關(guān)要素。
表1 兩種選擇方法下震澤古鎮(zhèn)66 個(gè)學(xué)習(xí)樣本訓(xùn)練的識(shí)別結(jié)果
圖2 基于Faster R-cnn 的歷史建筑智能識(shí)別模型結(jié)構(gòu)圖(圖片來源:作者提供)
圖3 基于Faster R-cnn 的歷史建筑智能識(shí)別試驗(yàn)(圖片來源:同圖2 )圖中紅框?yàn)閷?shí)際歷史建筑的學(xué)習(xí)樣本,綠框?yàn)槟P妥R(shí)別生成的歷史建筑選框
圖4 震澤古鎮(zhèn)歷史建筑分布實(shí)地調(diào)研圖(圖片來源:同圖2 )
圖5 震澤古鎮(zhèn)正射影像采集無人機(jī)航線規(guī)劃圖(圖片來源:同圖2 )航線規(guī)劃軟件:altizure;圓點(diǎn):手動(dòng)調(diào)整航線覆蓋范圍;十字圓點(diǎn):新增加的航點(diǎn)
圖6 兩種選擇方法下震澤古鎮(zhèn)66 個(gè)學(xué)習(xí)樣本訓(xùn)練的識(shí)別情況(圖片來源:同圖2 )6a. 66 個(gè)集聚學(xué)習(xí)樣本的識(shí)別情況6b. 66 個(gè)分散學(xué)習(xí)樣本的識(shí)別情況圖中黃色點(diǎn)為實(shí)際歷史建筑的位置,紅底框?yàn)闅v史建筑的學(xué)習(xí)樣本,綠框?yàn)槟P妥R(shí)別生成的歷史建筑選框,綠底框?yàn)槟P驼_識(shí)別選框
本研究模型識(shí)別的精確度和召回率的比較對(duì)象,是真實(shí)歷史建筑的正射投影總面積和模型預(yù)測(cè)的歷史建筑總面積。我們定義TotalSize_GroundTruth 為輸入圖片中手動(dòng)標(biāo)注的震澤古鎮(zhèn)測(cè)試區(qū)所有歷史建筑的正射投影總面積(重疊部分只算一次),TotalSize_Detected 為模型預(yù)測(cè)的歷史建筑的正射投影總面積(重疊部分只算一次),TotalSize_IOU(預(yù)測(cè)正確的部分)為兩者相交的總面積。即:
TotalSize_IOU(預(yù)測(cè)正確的歷史建筑)=TotalSize_GroundTruth ∩TotalSize_Detected (3)
Precision_Size(精確度)=TotalSize_IOU/TotalSize_Detected (4)
Recall_Size(召回率)= TotalSize_IOU/TotalSize_GroundTruth (5)
表2 66 個(gè)學(xué)習(xí)樣本(占現(xiàn)實(shí)總量的15%)訓(xùn)練下的震澤古鎮(zhèn)歷史建筑識(shí)別結(jié)果
在識(shí)別模型中,精確度和召回率是一組相互關(guān)聯(lián)的指標(biāo),其中調(diào)整參數(shù)在模型中稱作“置信度閾值”(confidence interval)。置信度指模型認(rèn)為預(yù)測(cè)框中包含歷史建筑的概率,模型可以設(shè)置一個(gè)置信度閾值,只有模型預(yù)測(cè)的概率值超過該置信度閾值時(shí),模型才將其作為歷史建筑納入統(tǒng)計(jì)。
置信度閾值的選取會(huì)直接影響識(shí)別結(jié)果的精確度和召回率。一般來說,置信度閾值選取較低時(shí),模型更傾向于將更多的非歷史建筑誤識(shí)別為歷史建筑,從而降低模型的精確度;而當(dāng)置信度閾值選取較高時(shí),模型會(huì)更多地遺漏歷史建筑,影響模型的召回率。
學(xué)習(xí)樣本數(shù)量的多少同時(shí)關(guān)聯(lián)識(shí)別的正確性和時(shí)間效率。為了確定最有效的學(xué)習(xí)樣本量,測(cè)試模型選取了66、125 和215個(gè)三組學(xué)習(xí)樣本進(jìn)行訓(xùn)練,分別覆蓋了震澤古鎮(zhèn)測(cè)試區(qū)現(xiàn)狀歷史建筑的15%、30%和50%。將上述三組學(xué)習(xí)樣本分別放入Faster R-cnn 模型中進(jìn)行訓(xùn)練,獲得三組不同參數(shù)的識(shí)別模型。當(dāng)模型獲得歷史建筑識(shí)別結(jié)果后,再根據(jù)公式(4)和公式(5),分別統(tǒng)計(jì)計(jì)算三組數(shù)據(jù)在置信度閾值為0.1、0.25、0.5、0.75 及0.9 時(shí),模型在精確度和召回率上的表現(xiàn),如表2- 表4 所示:
表3 125 個(gè)樣本(占現(xiàn)實(shí)總量的30%)訓(xùn)練下的震澤古鎮(zhèn)歷史建筑識(shí)別結(jié)果
過少的學(xué)習(xí)量會(huì)造成模型失效,但過多的樣本學(xué)習(xí)則會(huì)帶來工作量和工作時(shí)間的成倍增加。據(jù)表3,當(dāng)選取的學(xué)習(xí)樣本數(shù)占實(shí)際歷史建筑總量的30%時(shí),其最高召回率近60%,最大精確度超過70%。以增加學(xué)習(xí)樣本的絕對(duì)數(shù)量與提高的召回率和精確度來看,該組在三組學(xué)習(xí)樣本中識(shí)別效率最高。而三組不同數(shù)量學(xué)習(xí)樣本的識(shí)別效果顯示,根據(jù)不同的目的(對(duì)精確度和召回率的要求)確定適當(dāng)?shù)哪P蛯W(xué)習(xí)樣本量,可以提高模型在實(shí)際應(yīng)用時(shí)的工作效果。
表4 215 個(gè)樣本(占現(xiàn)實(shí)總量的50%)訓(xùn)練下震澤古鎮(zhèn)歷史建筑的識(shí)別結(jié)果
圖7 125個(gè)樣本量、不同置信度閾值選擇下的震澤古鎮(zhèn)歷史建筑識(shí)別情況(圖片來源:作者提供)圖中黃色點(diǎn)為實(shí)際歷史建筑的位置,紅框?yàn)闅v史建筑的學(xué)習(xí)樣本,綠框?yàn)槟P妥R(shí)別生成的歷史建筑選框,綠底框?yàn)槟P驼_識(shí)別選框7a. 0.1 置信度閾值時(shí)的識(shí)別結(jié)果7b. 0.9 置信度閾值時(shí)的識(shí)別結(jié)果
置信度閾值在識(shí)別模型中是一個(gè)連續(xù)值,在識(shí)別模型完成識(shí)別計(jì)算后,可以根據(jù)需要提取其中任何一個(gè)置信度閾值的識(shí)別數(shù)據(jù)和識(shí)別圖像。圖7 顯示的是同一樣本量在選取不同置信度閾值時(shí)的識(shí)別結(jié)果,據(jù)此可以直觀地看到:黃點(diǎn)(現(xiàn)狀歷史建筑)在綠框(模型識(shí)別的歷史建筑)范圍內(nèi)的即為識(shí)別正確的歷史建筑(TP),無黃點(diǎn)的綠框是誤識(shí)別區(qū)域(FP),黃點(diǎn)未在綠框范圍內(nèi)的為漏識(shí)別的歷史建筑(FN)。在實(shí)際應(yīng)用中,識(shí)別模型的置信度閾值可以隨時(shí)輸出不同精確度和不同召回率情況下的識(shí)別結(jié)果,為進(jìn)行比較判斷提供條件。
智能識(shí)別模型設(shè)計(jì)的主要目的之一,是為了用于對(duì)那些尚未進(jìn)行實(shí)地調(diào)研區(qū)域的歷史建筑存在狀況進(jìn)行整體“預(yù)判”,或?qū)τ谝呀?jīng)完成實(shí)地調(diào)研區(qū)域的歷史建筑確認(rèn)情況進(jìn)行全面“補(bǔ)漏”。
為了分析在震澤古鎮(zhèn)建構(gòu)的測(cè)試模型在其他區(qū)域識(shí)別歷史建筑的適用條件,以及下一步的改進(jìn)優(yōu)化方案,本研究選擇了同為江南水鄉(xiāng)古鎮(zhèn)的同里古鎮(zhèn),以與識(shí)別模型建構(gòu)地相同的正射影像數(shù)據(jù)采集方法和技術(shù)標(biāo)準(zhǔn),對(duì)同里古鎮(zhèn)1.2 km2范圍進(jìn)行實(shí)例應(yīng)用分析(圖8)。
檢測(cè)識(shí)別結(jié)果顯示(圖9),其識(shí)別的最高精確度近66%,最大召回率近30%,召回率偏低(表5)。造成漏檢和誤檢的原因包括客觀因素和模型因素兩大方面。
圖8 同里古鎮(zhèn)歷史建筑分布實(shí)地調(diào)研圖(圖片來源:同圖7 )
(1)影像數(shù)據(jù)采集的外部環(huán)境條件
影像數(shù)據(jù)采集環(huán)境條件的差異將導(dǎo)致模型出現(xiàn)漏檢情況。模型訓(xùn)練時(shí)所用的震澤古鎮(zhèn)正射影像在采集時(shí)的外部環(huán)境,與在同里古鎮(zhèn)采集時(shí)有較大差異。一方面,由于在同里古鎮(zhèn)拍攝時(shí)的光照強(qiáng)度較強(qiáng),正射影像上部分屋頂區(qū)域出現(xiàn)了明顯陰影,使原有屋頂?shù)募y理、色彩和形狀等圖像特征失效。同樣的原因也使同類特征的歷史建筑正射影像,在顏色、對(duì)比度等圖像識(shí)別要素上出現(xiàn)較大的變化,導(dǎo)致在正射影像特征上形成了各不相同的差異。另一方面,同里古鎮(zhèn)的樹木較為茂密,部分歷史建筑被樹冠遮擋。這些影像采集環(huán)境的差異,導(dǎo)致了約30 %左右的歷史建筑被漏檢(圖10)。因此,盡量選擇相同或相似的數(shù)據(jù)采集外部環(huán)境,將大大提高模型識(shí)別的正確性。
表5 不同閾值選擇下的同里古鎮(zhèn)歷史建筑識(shí)別結(jié)果
圖10 模型驗(yàn)證地與建構(gòu)地采集的影像對(duì)比(圖片來源:作者提供)10a. 在模型驗(yàn)證地同里古鎮(zhèn)采集的影像10b. 在模型構(gòu)建地震澤古鎮(zhèn)采集的影像由于兩地在數(shù)據(jù)采集時(shí)環(huán)境條件的差異,導(dǎo)致同里古鎮(zhèn)現(xiàn)狀歷史建筑(綠框外的黃圈)因?yàn)殛幱昂蜆淠镜挠绊懕荒P吐z;而有些新建筑則因?yàn)椴捎昧藗鹘y(tǒng)平面形制和屋頂形式與材料,被模型誤檢為歷史建筑(無黃圈的綠框)。在震澤古鎮(zhèn)學(xué)習(xí)過的歷史建筑樣本(黃圈)類型,在同里古鎮(zhèn)的模型驗(yàn)證中獲得了較好響應(yīng)(綠框中的黃圈)
圖11 同里古鎮(zhèn)部分誤檢的非歷史建筑(圖片來源:同圖10 )無黃圈的綠框?yàn)楸徽`檢的部分非歷史建筑
(2)歷史建筑外部特征的人為改變
同里古鎮(zhèn)旅游起步較震澤古鎮(zhèn)早,規(guī)模較震澤古鎮(zhèn)大,有許多歷史建筑被加建改造成民宿或旅游接待設(shè)施,導(dǎo)致歷史建筑平面格局的變化和建筑密度加大,改變了歷史建筑布局的平面形制。歷史建筑本身屋頂被破壞、材料被更換,以及歷史建筑被加建改造所帶來的不可預(yù)見的、無規(guī)律的客觀因素,造成約有15%的歷史建筑在同里古鎮(zhèn)驗(yàn)證中漏檢。
(3)傳統(tǒng)形式和材料的新建筑與非歷史建筑的傳統(tǒng)建筑
造成誤檢的原因主要是有些不屬于歷史建筑的建筑物,僅從屋頂視角來看,和某些歷史建筑較為相似,包括屋頂材料、平面形制和尺度,這類新建筑在保護(hù)和管控較好的同里古鎮(zhèn)十分普遍(圖11)。
另外,在同里古鎮(zhèn)進(jìn)行的模型識(shí)別結(jié)果中,將傳統(tǒng)建筑誤檢為歷史建筑的比例也有10%左右。但就本研究的目的而言,將傳統(tǒng)建筑誤檢為歷史建筑是可以接受的,識(shí)別模型優(yōu)化的方向是降低漏檢率。
除了避免客觀因素的影響外,要提高識(shí)別的正確性,技術(shù)的優(yōu)化是重要的工作。包括以下三個(gè)方面:
(1)模型算法升級(jí)
相較車輛、行人等大類間的粗粒度物體識(shí)別,將歷史建筑和非歷史建筑進(jìn)行區(qū)分識(shí)別屬于難度更高的細(xì)粒度精細(xì)化物體識(shí)別,目前采用的Faster R-cnn 技術(shù)并未針對(duì)這類細(xì)粒度的物體識(shí)別[13]場(chǎng)景做特殊優(yōu)化,后續(xù)可以考慮使用區(qū)分度更強(qiáng)的模型進(jìn)行歷史建筑的精細(xì)化檢測(cè)識(shí)別。同時(shí),考慮模型要在少樣本場(chǎng)景下適用,可采用生成式對(duì)抗網(wǎng)絡(luò)GAN①GAN 是一種深度學(xué)習(xí)模型。[14]等技術(shù),人工合成更多的歷史建筑作為訓(xùn)練樣本,使模型學(xué)習(xí)的外觀特征更具有廣泛性和代表性。
(2)運(yùn)用更強(qiáng)大的計(jì)算機(jī)
此次識(shí)別模型分析的完整數(shù)據(jù)圖像達(dá)到了數(shù)十億像素,文件量大小為幾十G。受制于當(dāng)前常用計(jì)算機(jī)的性能,完整的數(shù)據(jù)圖像不能一次性加載到計(jì)算機(jī)內(nèi)存中,需要將其分割為數(shù)百?gòu)垐D片方能進(jìn)行檢測(cè)計(jì)算,這可能把某個(gè)歷史建筑分割到不同圖片中導(dǎo)致其完整性被破壞,造成漏檢。
(3)采用三維影像數(shù)據(jù)
采用三維影像數(shù)據(jù),增加歷史建筑特征的辨識(shí)條件。當(dāng)前技術(shù)只采用了從上到下視角的正射影像信息對(duì)歷史建筑進(jìn)行識(shí)別,但歷史建筑和非歷史建筑在其他視角下外觀也存在較多區(qū)別。歷史建筑的外觀特征除了在正射影像圖上表現(xiàn)出來的以外,還在建筑各個(gè)立面上,如山墻形式、立面形式、門窗、材料、色彩,甚至構(gòu)件等,表現(xiàn)出特征要素。在理論上,借助全景化的三維傾斜攝影數(shù)據(jù),歷史建筑立面上的特征要素也同樣可以實(shí)現(xiàn)被模型識(shí)別,從而對(duì)歷史建筑形成多要素疊合的校驗(yàn)判斷,這樣可以大大提高檢測(cè)識(shí)別的正確性。
采用全數(shù)據(jù)的正射影像圖能夠?qū)赡艿臍v史建筑進(jìn)行智能識(shí)別的空間定位,從而獲得某一區(qū)域潛在的歷史建筑分布圖和數(shù)量統(tǒng)計(jì)數(shù)據(jù);對(duì)已知?dú)v史建筑保存狀況的區(qū)域,則可以檢測(cè)其當(dāng)前與過去狀況的吻合度。這一方法對(duì)于歷史建筑普查的前期摸底,以及歷史建筑保護(hù)狀況的持續(xù)監(jiān)測(cè),都有實(shí)際的應(yīng)用價(jià)值。該方法可為減少普查遺漏,以及適應(yīng)在較短時(shí)間內(nèi)完成大區(qū)域歷史建筑識(shí)別預(yù)判和監(jiān)測(cè)評(píng)估的需求,提供一種技術(shù)解決方案,并可在大量減少戶外工作時(shí)間的同時(shí),整體提高工作效率。
模型的算法決定了訓(xùn)練模型的學(xué)習(xí)樣本與識(shí)別對(duì)象的特征越相似,識(shí)別的效果越好。借助這一技術(shù)方法框架,用一地的歷史建筑正射影像數(shù)據(jù)進(jìn)行模型訓(xùn)練后,可以實(shí)現(xiàn)將識(shí)別模型遷移到其他地方去識(shí)別特征相似的歷史建筑的應(yīng)用目標(biāo)。
在震澤古鎮(zhèn)的模型識(shí)別測(cè)試中,不論采用哪組學(xué)習(xí)樣本量,該組學(xué)習(xí)樣本都可以實(shí)現(xiàn)100%的正確識(shí)別。同里古鎮(zhèn)與測(cè)試模型建構(gòu)地震澤古鎮(zhèn),在歷史建筑和城鎮(zhèn)肌理的特征上雖然具有相似性,但并不是完全相同。在同里古鎮(zhèn)進(jìn)行的應(yīng)用檢驗(yàn)中,部分歷史建筑未被識(shí)別出來的主要原因,是其影像特征(包括被人為改變的、被樹木遮擋和被日照陰影改變的)未曾在測(cè)試模型的學(xué)習(xí)樣本中訓(xùn)練過。
根據(jù)模型的圖像識(shí)別原理,以及識(shí)別模型檢測(cè)結(jié)果分析,可以得到以下推論:模型學(xué)習(xí)的歷史建筑樣本類型越多,模型能夠識(shí)別的歷史建筑(包括類型)也就越多,模型越智能;在模型的技術(shù)架構(gòu)上,每次的識(shí)別應(yīng)用都是模型再次學(xué)習(xí)的過程,模型識(shí)別應(yīng)用的次數(shù)越多,模型學(xué)習(xí)積累的樣本信息就越豐富,識(shí)別的結(jié)果就會(huì)越精確。
如果智能識(shí)別模型不斷地對(duì)各種特征類型的歷史建筑及其多維度的空間特征進(jìn)行學(xué)習(xí),并不斷升級(jí)識(shí)別模型的算法,它將有望成為一個(gè)可以廣泛應(yīng)用于不同地點(diǎn)、不同特征歷史建筑識(shí)別的技術(shù)工具,并成為進(jìn)一步構(gòu)建一個(gè)基于空間實(shí)景大數(shù)據(jù)的城鄉(xiāng)(物質(zhì))文化遺產(chǎn)智能識(shí)別模型的技術(shù)框架。