Andrew Bevan 李秀珍,2 Marcos Martinón-Torres Susan Green
夏寅2 趙昆2 趙振2 馬生濤2 曹瑋2 Thilo Rehren1,3 [著]王文化4[譯]
(1.英國倫敦大學考古學院;2.秦始皇帝陵博物院;3.倫敦大學卡塔爾分校;4.西安石油大學外國語學院)
運動信息中恢復三維結(jié)構(gòu)和多視角圖像(SfM-MVS)是計算機視覺技術(shù)方法的主要構(gòu)成元素,即通過一系列重疊的數(shù)碼照片創(chuàng)建色彩逼真3D模型[1]??脊艑W中,這一技術(shù)(SfM-MVS)正在徹底改變考古文物、遺址和景觀的記錄和分析[2~5],同時也同樣影響著古生物學、藝術(shù)史和博物館等相關(guān)學科的研究。然而,迄今為止,大多數(shù)研究主要集中在如何保證記錄文件的高保真、考慮模型的準確性,或首選計算機處理軟件以及一些“公眾參與科學研究”等應(yīng)用上[6]。我們將著重談一個至關(guān)重要的應(yīng)用,就是對文物分類的研究。這是考古研究的核心問題,但迄今為止,此應(yīng)用幾乎沒有受到過考古學的特別關(guān)注。本文以秦始皇兵馬俑研究為例,這是中國最著名的也是最具代表性的考古遺址,是中國第一位皇帝—秦始皇(259-210 BC)陵墓的陪葬坑[7~9]。下面所述的初步研究,是從眾所周知的秦始皇帝陵兵馬俑1號坑中選出一些陶俑(這里經(jīng)過大面積發(fā)掘,有大量的兵馬俑出土)此研究也是中國秦始皇帝陵博物院與英國倫敦大學考古學院合作的一部分,我們的研究主要是從材料科學、形狀分析和空間統(tǒng)計學等角度來研究秦陵兵馬俑建造方法和后勤組織[10~13]。
兵馬俑3D模型的構(gòu)建反映SfMeMVS應(yīng)用的最佳結(jié)果。其過程中使用了一系列的參數(shù),采用了SfM-MVS的網(wǎng)上的開放的資源和專有軟件(其中包括VisualSFM、Photoscan、Meshlab,CloudCompare以及軟件R所進行的進一步處理或分析)。SfMeMVS軟件可以在普通的筆記本電腦或普通臺式電腦上使用,但它的計算需求空間很大。例如,在具有64 GB RAM~1 GB GPU和6核3.20 GHz CPU的64位計算機上,處理由大約25張照片構(gòu)成的兵馬俑頭部和肩部的模型需要幾分鐘就可以完成,但如要處理大約100張照片構(gòu)成的整個陶俑的模型可能需要幾個小時,這還不包括模型清理和簡化過程。
圖一
典型的SfM-MVS處量過程包括幾個步驟:照片的拍攝或采集,發(fā)現(xiàn)特征點并進行匹配,粗略地散點束重建,接下來可以進行密集點的云重建、網(wǎng)格構(gòu)建和圖像的質(zhì)感化。有關(guān)這些步驟,以前已有考古學家介紹過,我們在這里進行簡單地總結(jié)一下。普通的多張照片為SfMMVS建模提供了基礎(chǔ)的輸入數(shù)據(jù),這些數(shù)據(jù)可以從現(xiàn)有的檔案中獲取或現(xiàn)場拍攝。對于兵馬俑和兵馬俑耳朵進行建模,我們采用的照片是在兵馬俑1號坑拍攝的,在正常自然光下,采用現(xiàn)代數(shù)碼單反相機(SLR,無三腳架)拍攝的一組新照片。圖像之間的大面積重疊是成功的關(guān)鍵和先決條件(圖一,a),在拍攝過程中,圍繞兵馬俑或兵馬俑的耳朵建立照片采集條帶,大約每15度拍一張照片(即一周360度,24張照片),這樣每張照片與其它照片有很大的重疊區(qū)域。在圖像采集之后,將圖片上傳,SfMMVS軟件處理過程將開始評估每張照片(全自動),識別構(gòu)成不同圖像中可能被識別的特征的不同組的像素[14]。當圖像中的特征被識別和描述之后,軟件將自動在多個圖像之間進行匹配以產(chǎn)生空間關(guān)系網(wǎng)絡(luò),并可以對每個照片的相機拍攝位置在空間中進行重建,結(jié)果可以將匹配的特征點構(gòu)成稀疏的3D點云(圖一,b)。接下來,再構(gòu)建密集的3D點集合,聚集圖像序列,建立子序列,覆蓋其表面的相似部分,在粗略的網(wǎng)格點上,尋找更詳細的匹配特征,這樣點云將更密集[15]。當然,某些參數(shù)會影響重建點的結(jié)果數(shù)量和質(zhì)量以及整體計算要求,諸如所必需的匹配特征點的數(shù)量或網(wǎng)格的密集度。通過上述步驟生成的3D點云中會包含原始圖像的顏色,也同時會有一定程度的干擾,如周邊的雜物、偶爾的空氣質(zhì)量或雜色背景等。這些干擾特征可以在匹配之前刪除或遮蓋,或在之后手動刪除。SfM方法并沒有自帶空間范圍內(nèi)的標尺,或地理坐標(否則可以地理坐標定準),所以標尺需要進一步添加,或者在建模之前照片拍攝時加標尺,或在地理信息系統(tǒng)下重新標明尺度。如果需要,也可以采用幾種其它方法[16]創(chuàng)建三角形網(wǎng)格版本,在每個面上采用詳細的圖片紋理,而不是使用平均顏色。
傳統(tǒng)上,考古學家常常通過結(jié)合普通靜物照片、2D線圖和橫截面來記錄考古遺址和出土物,鑒于這些局限,3D模型的優(yōu)勢已經(jīng)顯而易見。近距離數(shù)據(jù)采集中,兩種眾所周知的方法是數(shù)字攝影測量和激光掃描[17、18]。高配的激光掃描儀仍然具有比SfM-MVS更高的精準度和更真實色彩飽和度[19],但后者能創(chuàng)建相對高質(zhì)量的3D模型,并具有許多獨特的賣點。對比傳統(tǒng)的數(shù)碼攝影測量,SfM-MVS方法無需對攝像機位置進行控制;對比激光掃描儀,它不涉及投入成本購買設(shè)備并進行裝配。而SfM-MVS的主要吸引力在于:任何人只要有數(shù)碼相機,稍加培訓,了解所需拍攝照片的數(shù)量和適度的重疊,都可以進行操作。因而,在考古記錄過程中,一系列傳統(tǒng)的瓶頸被消除,現(xiàn)在對大量的考古景觀、遺址或文物都可以迅速地在實地、實驗室或博物館中進行記錄或3D建模。
除了高質(zhì)量的可視效果之外,我們還認為,SfM-MVS最具吸引力的是其分析對比功用,3D建模不僅僅只對一件或兩件文物,而是可以對大量的文物進行數(shù)據(jù)采集和3D建模,然后對比其表面的形態(tài)的相同或不同。
在過去,由于激光掃描儀購買成本昂貴,缺乏專業(yè)操作人員,設(shè)備裝配難度大,3D模型及相關(guān)形態(tài)學分析是不可能實現(xiàn)的,但如今SfM-MVS卻給我們提供了一個現(xiàn)成的解決方案。例如:此種方法可用來評估個體兵馬俑的微觀風格和制作技術(shù)的變化,進而研究陶俑的一系列個性特征,如臉、手或耳朵在制作上的不同。在一定程度上,人類的耳朵在形態(tài)學上存在著很大的不同,以至于過去一個多世紀里,它曾被用于辨別個體和司法取證[20~22]。人類遺傳學家也對人耳的遺傳有著極大的興趣[23]。另一方面,人耳在藝術(shù)作品中則有著更為復雜的一面。在藝術(shù)歷史上,著名的早期使用科學方法是意大利藝術(shù)評論家Giovanni Morelli’s(1892-3)[24]提出的,他認為一個藝術(shù)家描繪耳朵和手細節(jié)有各自的特點,可能以此鑒別未署名的繪畫或雕塑(‘Morellian’method)[25、26]。兵馬俑的耳朵,與其身體其它部分一樣,是由富含黃土的粘土制成,在生產(chǎn)過程中后期,可能是工匠們手工進行細部雕刻完成的。(圖二)表明了不同的陶俑的耳朵呈現(xiàn)出了明顯的差異。這種差異要么與某個工匠的標志性制作習慣有關(guān);要么與制造者個人想象與設(shè)計有關(guān),是有意想呈現(xiàn)出現(xiàn)實生活中每個人的個性特征,或者這些陶俑確實是以真人為模特雕塑的(后面會有相關(guān)討論)[27]。
一般來說,用統(tǒng)計學方法分析復雜形狀的物體,如我們提到的這些生物有機體,需要識別物體上“標界”(或者是固定在物體上的半標界),然后就象希臘神話中的普洛克路斯忒斯(Procrustes是希臘神話中的強盜,他將劫來的路人置于床上,較床長者斷其足,較床短者強行將其骨骼抻長)那樣,將這些稀疏的二維或三維點進行重疊,進而進行比較[28、29]。但是,對于象耳朵這樣的生物體外觀,并不能總是在其上面很明顯選擇到可靠的標界。另一種受歡迎的方法,就是在二維輪廓線上[30],或是三維的表面[31],將半標界的線固定在一些真正的標界上。然而,盡管對固定的點有足夠的了解,有時也會出現(xiàn)問題;所以,越來越多的人呼吁采用無標界的方法,而是使用密集的三維點云來處理象耳朵這樣復雜的物體[32、33]。
作為考古學研究的初步嘗試,同時也考慮到具體的考古材料,我們采用距離矩陣的方法,該方法首先用于對比兩個物體的不同,然后擴展到一個組合中的其它物體。距離矩陣是普通搭積木原理,支撐的是眾所周知的統(tǒng)計學聚類和分類排序方法;此方法也用于系統(tǒng)進化分析,來研究某物種可能的分支進化關(guān)系。接下來,我們將通過計算云中每個點和相鄰點之間的中間距離或平均距離來建立一個矩陣,進而對比三維模型之間的形狀差異。
下面的研究兵馬俑耳朵的例子,我們拍攝了30個兵馬俑的面部側(cè)面,盡管我們最終目的是想記錄全部1000多已經(jīng)發(fā)掘出的陶俑,但此次不希望將他們從密集地排列在一號坑中移出來,所以并沒有拍攝太多數(shù)量的耳朵。由此構(gòu)建的陶俑耳朵的點云是很詳細的,但并不特別詳細,而且采用任何分析技術(shù)來對比耳朵的外觀,都需要處理個別的空白點,在那里SfMMVS無法找到足夠的特征進行匹配;或者有殘留的土壤遮蔽了耳朵的一些解剖學特征(有時是在耳窩部分)。我們從一個大陶俑頭上只選擇將耳朵來建立點云,然后對模型的大小、位置、方向和點密度(圖三,a、b)進行標準化。更確切地說,我們通過最小二乘回歸法將耳朵的點云重新調(diào)整到XY平面(地質(zhì)學上的n點條紋和傾角方法)上[34]。左耳可以變成右耳,經(jīng)過旋轉(zhuǎn),重新調(diào)整,確定每個模型的原點和通高的中心位置。這樣可以更直接地對比兩個耳朵之間的不同,因為它們的高度和朝向是一致的(非常類似于處理前的2D和輪廓形態(tài)學對比).為了進一步確保模型之間對比的準確性,我們還將每個點云降為一致的點密度。
當每只耳朵都由一個標準化的點云表示(見補充數(shù)據(jù)),便可采用迭代近鄰點(ICP)算法[35],更精準地與每一點依次進行關(guān)聯(lián)(如圖三,c)。首先,一個模型(X)被指定為“數(shù)據(jù)”,另一個(Y)被指定為“目標”,X將會精確地對應(yīng)這一目標。ICP算法就是要首先在Y中找到一組點,代表在X中每個點的最接近的相鄰點,然后在此基礎(chǔ)上計算出X到Y(jié)的最小二乘變換,同時要測量均值平方誤差。之后Y中新的一組最近點便可以計算出來,這樣循環(huán)計算一直延續(xù)到一個一致的臨界值(直到觀察到的錯誤停止變化)。
圖二
圖三
在聚合的過程中,這一均方統(tǒng)計或類似的方法可以用來表示兩個模型之間的吻合度,并作為兩兩相異的總體測量方法應(yīng)用于完整距離矩陣中。所有成對的耳朵之間點的距離可以通過分類排序方法變成可視化,比如多維縮放(圖四),此方法也可用于分層聚類或系統(tǒng)遺傳模式的研究。但此方法并不一定會產(chǎn)生對稱的結(jié)果,所以需要對兩個模型的方向進行計算(比如,將X和Y對換)。原則上,同樣的方法就可以用于其它類型的3D模型(例如三角形網(wǎng)格或“確切”的邊界),如果這些模型可以被分解成點云或近似于點云。該技術(shù)的一個擴展是允許對點進行局部加重,這樣物體的局部可以單獨分析,并可以分析出局部對于整體的吻合度。
秦始皇兵馬俑耳朵的初步研究結(jié)果強有力的表明:雖然基本的形狀是相同的(e.g.Fig.3 (2,17, 29), Fig.4a (28)),但兵馬俑的個體耳朵有著相當大的差異,沒有兩只耳朵是完全相同的,而這與高度標準化的青銅兵器相比[36、37]完全不同。同樣,目前還沒有證據(jù)表明不同的耳朵在微形態(tài)上有緊密的關(guān)聯(lián),個別陶俑上刻有或印有負責制作兵馬俑的工匠或工頭的名字,也有個別的地名(也許是不同的作坊或工匠的家鄉(xiāng)),如秦都“咸陽”或“宮”字。這在一定程度上支持一種假設(shè),即兵馬俑的建造是打算模擬一支真正的軍隊,他們的兵器是標準化生產(chǎn)的(而且是有殺傷力的),但士兵俑的制作則不是標準化生產(chǎn)的。我們還需要觀察兵馬俑的耳朵是否體現(xiàn)了極強的個性化,就象我們在現(xiàn)實中看到的,每個成年男性都有不同的耳朵(正如對陶俑高度的研究)[38],或者不同形態(tài)的耳朵會不會是不同作坊或工匠的制作指征,如果有較多陶俑耳朵的3D樣本,不同類型的耳朵在俑坑中會不會有聚類。無論如何,應(yīng)該清楚的是,除了低成本高質(zhì)量的文物記錄和新型的公眾參于科學研究,SfM-MVS還能提供更靈活的3D形狀分析,在未來幾年,這將會對考古類型學和科學分類產(chǎn)生革命性的影響。
圖四
注釋
[1]Szeliski R (2011) Computer Vision.Algorithms and Applications.New York: Springer.
[2]Ducke B, Score D, and Reeves J (2011) Multiview 3D reconstruction of the archaeological site at Weymouth from image series, Computers and Graphics 35: 375-382.
[3]Remondino et al.2012.Low-cost and open-source solutions for automated image orientation - a critical overview.In Progress in Cultural Heritage Preservation.Proceedings of the 4th International Conference, EuroMed 2012, 40-54.Euromed2012, Lemessos, Cyprus.October 29-November 3,2012.Berlin, Heidelberg: Springer.
[4]Verhoeven G, Doneus M, Briesec C, Vermeulen F (2012)Mapping by matching: a computer vision-based approach to fast and accurate georeferencing of archaeological aerial photographs, Journal of Archaeological Science 39: 2060-2070.
[5]Olson, B.R.Placchetti, R.A., Quartermaine, J.and A.E.Killebrew 2013.The Tel Akko Total Archaeology Project(Akko, Israel): Assessing the suitability of multi-scale 3D field recording in archaeology, Journal of Field Archaeology 38.3:244-262.
[6]Snavely N, Seitz SM, Szeliski R (2008) Modeling the world from Internet photo collections, International Journal of Computer Vision 80: 189-210.
[7]陜西省考古研究所,始皇陵秦俑坑考古發(fā)掘隊.秦始皇陵兵馬俑一號坑發(fā)掘報告1974-1984[M].北京:文物出版社,1988.
[8]袁仲一.秦始皇陵兵馬俑研究》[M].北京:文物出版社,1990.
[9]Portal J Ed.(2007) The First Emperor: China's Terracotta Army, London: British Museum.
[10]Li XJ, Martinón-Torres M, Meeks ND, Xia Y and Zhao K(2011) Inscriptions, filing, grinding and polishing marks on the bronze weapons from the Qin Terracotta Army in China.Journal of Archaeological Science 38: 492-501.
[11]Martinón-Torres M, Li XJ, Bevan A, Xia Y, Zhao K, Rehren T 2013.Forty thousand arms for a single emperor: from chemical data to the labour organization behind the bronze arrows of the Terracotta Army, Journal of Archaeological Method and Theory (online).
[12]Bevan A, Crema E, Li XJ, Palmisano A (2013) Intensities,interactions and uncertainties: some new approaches to archaeological distributions, in Bevan A and Lake M (eds.),Computational Approaches to Archaeological Spaces, Walnut Creek: Left Coast Press, pp.27-51.
[13]Li XJ, Bevan A, Martinón-Torres M, Rehren T, Cao W, Xia Y, Zhao K 2014 Crossbows and imperial craft organisation: the bronze triggers of China's Terracotta Army, Antiquity,vol.88,p126-140.
[14]Lowe DG (2004), Distinctive image features from scaleinvariant keypoints, International Journal of Computer Vision 60: 91-110.
[15]Furukawa Y and Ponce J (2010) Accurate, dense, and robust multi-view stereopsis, IEEE Transactions on Pattern Analysis and Machine Intelligence 32: 1362-1376.
[16]Kazhdan M and Hoppe H (2013) Screened Poisson surface reconstruction, ACM Transactions on Graphics 32: e29.
[17]Bates KT, Falkingham PL, Rarity F, Hodgetts D, Purslow A, Manning PL (2010) Application of high-resolution laser scanning and photogrammetric techniques to data acquisition,analysis and interpretation in palaeontology.International Archives of the Photogrammetry, Remote Sensing, and Spatial Information Sciences 38: 68-73.
[18]Hess M and Robson S (2010) 3D colour imaging for cultural heritage artefacts, International Archives of Photogrammetry,Remote Sensing and Spatial Information Sciences 38.5: 288-292.
[19]James MR and Robson S (2012) Straightforward reconstruction of 3D surfaces and topography with a camera: Accuracy and geoscience application, Journal of Geophysical Research 117:F03017.
[20]Bertillon A (1893) Instructions Signalétiques, Melun:Imprimerie Administrative.
[21]Pflug A and Busch C (2012) Ear biometrics: a survey of detection, feature extraction and recognition methods, IET Biometrics 1: 114-129.
[22]Abaza A, Ross A, Hebert C, Harrison MAF, Nixon MS (2013)A survey on ear biometrics, ACM Computing Surveys 45: 22.
[23]Hunter, A, Frias, JL, Gillessen-Kaesbach G, Hughes H.,Lyons Jones K and Wilson L (2009) Elements of morphology:standard terminology for the ear, American Journal of Medical Genetics A 149A: 40-60.
[24]Morelli G (1892-3) Italian Painters: Critical Studies of their Works, London: John Murray.
[25]Wollheim R (1973) Giovanni Morelli and the origins of scientific connoisseurship, in Wollheim R (ed.) On Art and the Mind: Essays and Lectures, London: Allen Lane, pp.177-201.
[26]Ginzburg C (1980) Morelli, Freud and Sherlock Holmes:clues and scientific method, History Workshop 9: 5-36.
[27]Kesner L (1995) Likeness of No One: (re)presenting the First Emperor's army, The Art Bulletin 77: 115-132.
[28]Dryden IL and Mardia KV (1998) Statistical Shape Analysis,New York: Wiley.
[29]Mitteroecker P and Gunz P (2009) Advances in geometric morphometrics, Evolutionary Biology 36: 235-247.
[30]Monna, F., Jebrane, A., Gabillot, M.Laffont, R.Specht, M.Bohard, B.Camizuli, E..Petit C, Chateau, C.Alibert P., 2013.Morphometry of Middle Bronze Age palstaves.Part II- spatial distribution of shapes in two typological groups, implications for production and exportation.Journal of Archaeological Science 40: 507-516.
[31]MacLeod, N.2010.Alternative 2D and 3D form characterization approaches to the automated identification of biological species, in Nimis, P.L.and Vignes Lebbe, R.(eds.)Tools for Identifying Biodiversity: Progress and Problems:225-229.Trieste.University of Trieste.
[32]Yan P and Bowyer KW (2007) Biometric recognition using 3D ear shape, Pattern Analysis and Machine Intelligence 29:1297-1308.
[33]Wuhrer S, Shu C and Xi P (2011) Landmark-free posture invariant human shape correspondence, The Visual Computer 27: 843-852.
[34]Fienen, M.N.2005.The three-point problem, vector analysis and extension to the n-point problem, Journal of Geoscience Education 53.3: 257-262.
[35]Besl PJ and McKay ND (1992) A method for registration of 3D shapes, IEEE Transactions on Pattern Analysis and Machine Intelligence 14: 239-256.
[36]同[11].
[37]同[13].
[38]Komlos J (2003) The size of the Chinese terracotta warriors-3rd century B.C., Antiquity 77.Available:
http://antiquity.ac.uk/projgall/komlos/komlos.html.Accessed: 2 October 2013.