金夢然,袁航,黃大莊
(1 河北農(nóng)業(yè)大學(xué) 園林與旅游學(xué)院,河北 保定 071000;2 河北農(nóng)業(yè)大學(xué) 林學(xué)院,河北 保定 071000)
傳統(tǒng)的植物分類都是通過人工完成的,工作量巨大并且容易受主觀因素影響[1]。隨著科學(xué)技術(shù)的發(fā)展,細(xì)胞分類學(xué)、數(shù)量分類學(xué)、計算機自動識別技術(shù)、分子生物學(xué)等為植物分類提供了新的研究方法,其中計算機自動識別技術(shù)因為具有高效、便捷的特點,在植物分類領(lǐng)域起到越來越大的作用。
目前,以植物的葉片圖像作為計算機分析處理的材料對植物進行分類識別的方法已經(jīng)得到了廣泛的應(yīng)用。陳寅利用從葉片圖像中提取的形狀特征和不變矩特征以及通過灰度共生矩陣得到的葉片的紋理參數(shù),通過支持矢量機的方法對207種葉片進行分類,平均識別率達(dá)到了91.2%[2]。翟傳敏等將葉緣和葉脈分?jǐn)?shù)維相結(jié)合作為植物分類識別的依據(jù),利用K近鄰分類器對植物進行分類,結(jié)果分類效果良好[3]。Charles等建立了一個由100種植物的葉片組成的數(shù)據(jù)庫,通過提取訓(xùn)練樣本葉片的形狀、紋理和邊緣特征,采用K臨近值分類器進行訓(xùn)練識別,當(dāng)提取的3個特征同時滿足時,識別率達(dá)到96%[4]。本研究以植物葉片圖像為基礎(chǔ),選取的植物為園林中應(yīng)用廣泛、容易混淆的10種薔薇科植物,使用的工具是由美國科學(xué)院院士F. James Rohlf開發(fā)的tpsDig2軟件。tpsDig2是一款專門用來從圖像中獲取X、Y坐標(biāo)的軟件。目前,這款軟件已經(jīng)成功應(yīng)用于各種昆蟲、哺乳動物等的分類鑒定,但是在植物葉片自動分類上還無人嘗試[5-7]。因此,本研究不再以特征提取和分類器訓(xùn)練[8]為研究方向,而是在葉片圖像的輪廓和主葉脈上利用tpsDig2軟件提取標(biāo)記點,所選標(biāo)記點的坐標(biāo)值包含著植物葉片的拓?fù)浣Y(jié)構(gòu)的信息,這為自動分類判別提供了特征參數(shù)。此方法摒棄了通過復(fù)雜的數(shù)學(xué)算法提取特征量的方式,為植物自動分類提供了一個簡單有效的方法。
本研究主要在2016年9月于河北省保定市河北農(nóng)業(yè)大學(xué)西校區(qū)采集葉片,去掉葉柄后用標(biāo)本夾壓制保存。試驗涉及到薔薇科7屬10種植物,以葉片的輪廓和葉脈為研究對象,每種植物取30個樣本。具體植物名稱如下表1所示。
表1 試驗所用10種植物名錄
因為試驗所用葉片的葉脈都較為清晰,所以直接使用具有透掃功能的型號為CanoScan9000F MarkⅡ的掃描儀作為葉片圖像的獲取工具。為了使圖像便于分析處理,在分辨率為600DPI的情況下對葉片標(biāo)本進行掃描,縮放比例100%,保存為灰度圖像。
利用tpsDig2軟件在葉片圖像上提取標(biāo)記點。由于葉片是豎直放置的,本研究以主葉脈的頂點為起點,從上到下依次為:主葉脈頂點、輪廓上能代表葉尖程度的2個點、葉片最寬部位所連直線之上的第1個主葉脈上的點、輪廓上能代表葉片最寬部位的2個點、能在一定程度上反映一級脈疏密程度的順序排列的到主葉脈端點的4個點,共計10個點。選取的標(biāo)記點分布圖(以美人梅為例)如圖1所示。
圖1 美人梅標(biāo)記點分布圖
采用SPSS17.0軟件對提取的特征值進行單因素方差分析,篩選具有顯著差異的特征值,再利用逐步判別分析法將組質(zhì)心處(均值處)評估的非標(biāo)準(zhǔn)化的典型判別式函數(shù)標(biāo)準(zhǔn)化,得到能夠?qū)颖具M行判別的標(biāo)準(zhǔn)化典型判別式函數(shù)。
利用SPSS17.0軟件對每個葉片10個標(biāo)記點的坐標(biāo)值即20個變量進行方差分析,得到F值和P值,如表2所示。
表2 方差分析結(jié)果
續(xù)表2
方差分析結(jié)果顯示,不同植物種類各個特征參數(shù)間均具有極顯著差異(P<0.01)。因此,20項特征參數(shù)均可用于判別分析。
利用逐步判別分析對10種植物的20項特征參數(shù)進行分析,結(jié)果表明,20項特征參數(shù)中的11項可以作為分類指標(biāo),分別是Y1、X2、Y2、X3、Y4、X5、X6、Y6、Y7、Y9、Y10。利用得到的11個分類指標(biāo)建立了9個標(biāo)準(zhǔn)典型判別函數(shù),具體函數(shù)系數(shù)見表3。
表3 標(biāo)準(zhǔn)化的典型判別式函數(shù)系數(shù)
由表3可知,函數(shù)1和函數(shù)2累計貢獻率達(dá)到48.700%、81.700%,正則相關(guān)性分別為0.975和0.963,因此由函數(shù)1和函數(shù)2可以得到10種植物分類的散點圖,如圖2所示??梢钥闯?0種植物的組質(zhì)心之間有明顯的距離,說明篩選出的11項特征參數(shù)建立的標(biāo)準(zhǔn)典型判別函數(shù)可以有效的將10種植物區(qū)別開來。
圖2 10種植物的散點圖
Figure 2 Scatter plots of ten species of plants
通過判別分析得到10種植物300個樣本的初始判別和交叉判別結(jié)果如表4所示。
表4 10種植物分類結(jié)果
注:1.觀賞蘋果;2.垂絲海棠;3.日本櫻花;4.紫葉李;5.美人梅;6.碧桃;7.陜梅杏;8.遼梅杏;9.稠李;10.貼梗海棠。
結(jié)果顯示,初始判別正確率為98.3%,即有2個觀賞蘋果樣本被誤判為貼梗海棠,1個垂絲海棠樣本被誤判為貼梗海棠,2個稠李樣本被誤判為紫葉李,其他全部實現(xiàn)了正確分類;而交叉判別正確率為96.7%,即有2個觀賞蘋果樣本被誤判為貼梗海棠,4個垂絲海棠樣本其中2個被誤判為稠李,另外2個被誤判為貼梗海棠,1個紫葉李樣本被誤判為稠李,2個稠李樣本被誤判為紫葉李,1個貼梗海棠樣本被誤判為觀賞蘋果。總體來說,利用選取的11項特征參數(shù)達(dá)到了很好的分類效果。
tpsDig2軟件可以將待測樣本的幾何形態(tài)特征快速、準(zhǔn)確、可視化的表現(xiàn)在圖像上,相比于花伴侶、形色、微軟識花等植物識別類APP,tpsDig2軟件沒有強大的植物圖像數(shù)據(jù)庫作為支撐,但是它可以快速地獲取樣本生物形態(tài)的拓?fù)浣Y(jié)構(gòu)信息,且不受樣本大小和形狀因素的影響,為植物數(shù)字化分類提供可靠數(shù)據(jù)。
采用葉片作為本研究的試驗材料是因為葉片在植物生長周期中存在的時間較長,采集方便,并且葉片大多是二維結(jié)構(gòu),較之花、果實、種子等三維結(jié)構(gòu)能夠形成便于計算機處理的二維圖像。而且葉片圖像包括形狀、顏色、葉脈等豐富的信息[9]。劉春爽等通過葉脈分叉點和葉脈端點組成的新的葉脈特征,結(jié)合矩形度、離心率等形狀特征,對白玉蘭、連香樹、黃連木等10種植物進行分類識別,正確率達(dá)到了100%[10]。本研究所選取的10個標(biāo)記點,4個在葉片輪廓上,6個在主葉脈上,綜合了葉片的形狀特征和葉脈的紋理特征,對植物葉片分類識別提供了比較全面的特征參數(shù)。但是標(biāo)記點的選取帶有一定的人為因素,在今后的研究中可以使用普氏疊加對原始坐標(biāo)數(shù)據(jù)進行處理,消除非形狀因素的影響[11-12]。
另外,本試驗用到的葉片均為人工采集,采集后選用該種植物成熟并且完整的葉片,即同種植物的葉片形狀基本相同。因此,對于殘缺破損或者形狀因為外界因素影響發(fā)生變化的葉片,很可能發(fā)生誤判。試驗用到的植物種類均為單葉植物,并且葉脈都很清晰,分類的種類相對較少。這就需要在以后的研究中考慮到試驗樣本的多樣性并加以解決。
初始判別分析的分類結(jié)果顯示,有2個觀賞蘋果樣本和1個垂絲海棠樣本都被誤判為貼梗海棠,2個稠李樣本被誤判為紫葉李,這說明對于形狀相近的植物葉片,此方法并不能達(dá)到100%的正確判別率。劉媛等利用幾何形態(tài)測量學(xué)方法也沒能將近源種槲樹和槲櫟全部區(qū)分[13]。余孝源等利用Hough變換、區(qū)域增長和Harris角點檢測等算法獲得了主葉脈節(jié)點分布信息,為外觀輪廓相似葉片的分類識別提供了可靠依據(jù),但是采用的是復(fù)雜的計算機算法[14]。因此,當(dāng)植物種類增多或者形狀相近時,可以增加標(biāo)記點的數(shù)量,比如增加二級脈的分叉點作為標(biāo)記點,或者加大樣本容量來提高判別結(jié)果的準(zhǔn)確性。
方差分析結(jié)果顯示,10種植物所選標(biāo)記點的坐標(biāo)值參數(shù)組間差異顯著,都可以作為判別分析的特征參數(shù)。通過逐步判別分析從20項特征參數(shù)中篩選了11項作為分類指標(biāo),建立了9個標(biāo)準(zhǔn)典型判別函數(shù),對10種植物進行分類判別,初始判別和交叉判別的正確率分別為98.3%和96.7%,這表明利用tpsDig2軟件在植物葉片的輪廓和主葉脈上選取標(biāo)記點進行數(shù)據(jù)分析的方法可以實現(xiàn)對植物葉片的數(shù)字化分類。