晏藝真, 周堅華
(1. 華東師范大學(xué) 地理系, 上海 200241; 2. 華東師范大學(xué) 地理信息科學(xué)教育部重點實驗室,上海 200241)
基于葉緣特征的植物圖像分類檢索
晏藝真1, 周堅華2
(1. 華東師范大學(xué) 地理系, 上海 200241; 2. 華東師范大學(xué) 地理信息科學(xué)教育部重點實驗室,上海 200241)
葉緣是植物屬種識別分類可以參照的主要特征之一.與葉片形狀特征相比,葉緣描述了尺度更細微的特征,對于彌補葉形識別特征的不足、以及從多尺度識別植物屬種都有重要意義.在借鑒已有研究成果的基礎(chǔ)上,設(shè)計了7個新的葉緣特征描述符、提出了以語義字典組織植物屬種多層分類中的層間繼承關(guān)系、以及通過葉節(jié)點成員相似性評估確定植物屬種的技術(shù)框架和方法.通過分支結(jié)點描述符組合分類實驗,證明了葉緣凸殘差與葉局部面積比、右邊長與左邊長比對劃分不同的非裂葉植物、以及劃分不同的非全緣葉植物有效;葉緣凸殘差均值等描述符對于劃分不同的非全緣葉植物有效.通過多描述符組合的多層分類將30種非裂葉植物劃分到多個葉節(jié)點,平均全局精度優(yōu)于81.21%.而葉節(jié)點成員屬種概率評估實驗,進一步論證了這種多層分類和相似性檢索框架的合理和有效性.
葉緣特征; 描述符; 凸殘差; 語義字典; 圖像檢索
植物屬種識別分類是植物學(xué)研究和農(nóng)林業(yè)生產(chǎn)經(jīng)營中的重要基礎(chǔ)工作,傳統(tǒng)的方法是由植物分類專家親臨野外辨識,或由更多的野外工作者采集實物樣本和/或拍攝圖片,帶回實驗室由這些專家做分析.但植物種類的豐富性和形態(tài)多樣性所帶來的巨量信息,是人類專家的經(jīng)驗、記憶力和分析能力遠遠不能承受的,這種傳統(tǒng)方法面臨嚴峻挑戰(zhàn).
數(shù)碼攝影技術(shù)的普及使數(shù)字圖像更易獲得,它的主要特點是可以實時處理和傳輸. 依靠一些植入智能手機或個人數(shù)字助理(PDA)的系統(tǒng),使人們有可能借助圖像自動識別技術(shù)在野外對植物做實時分類.同時,計算機網(wǎng)絡(luò)和手持式導(dǎo)航儀技術(shù)的發(fā)展,又使這種識別的準確率可能通過采樣地點定位和網(wǎng)絡(luò)圖像檢索的支持而改善.這些技術(shù)的集成框架稱為“基于內(nèi)容的圖像檢索”(Content-Based Image Retrieval,CBIR)[1].該框架擴展了人類感知世界的能力,使我們快速進入“自動識別各類物種的時代”[2].已經(jīng)出現(xiàn)了少量基于CBIR的手機版植物辨識軟件,但由于正確辨識的植物種類有限,目前主要用于科普目的,距離為植物學(xué)野外工作服務(wù)還有一定差距[3].也就是說,由于專家知識植入圖像識別軟件和網(wǎng)絡(luò)檢索系統(tǒng)方面的一些困難,使得CBIR系統(tǒng)在植物屬種識別分類領(lǐng)域的應(yīng)用深度和廣度還有待進一步拓展.
葉緣是植物屬種識別分類可以參照的主要特征之一,無論對人類專家依靠經(jīng)驗的識別和計算機圖像自動識別都非常重要.與葉片形狀特征相比,葉緣描述了尺度更細微的特征,對于彌補葉形識別特征的不足、以及從多尺度識別植物屬種都有重要意義.已經(jīng)有一些研究者報導(dǎo)了他們在這方面的工作.比如判斷植物葉是否存在鋸齒[4]、區(qū)分鋸齒和分裂[5]、檢測葉緣鋸齒[6]、提取鋸齒特征[7,8]、對植物葉鋸齒和葉裂定位[9]、在識別中結(jié)合使用葉緣與葉形特征[10-13]等.但沒有檢出側(cè)重于研究鋸齒深淺和整齊程度等葉緣特征的文獻.已有的研究中,主要有跟蹤葉緣輪廓曲線構(gòu)造函數(shù)以提取鋸齒位置和數(shù)量的方法[5,6],以及通過檢測角點提取鋸齒特征的方法[7,8].前者易受圖像噪聲影響,使輪廓曲線連續(xù)性變差并影響函數(shù)計算;使用的葉緣特征簡單,存在對圖像和葉片尺寸變化的適應(yīng)性欠好等問題.而后者在自適應(yīng)確定算子尺寸和分割閾值、分辨鋸齒類型、部位等方面顯得不足.
上述成果已經(jīng)提出了較多葉形特征描述符和少量葉緣特征描述符,而植物屬種劃分通常采用單層分類方法,因此劃分類別數(shù)比較有限.為了適應(yīng)更多植物屬種分類,本文綜合應(yīng)用圖像分類和圖像檢索的一些概念模型和方法,對植物屬種常規(guī)圖像分類方法做了一些改進.比如,根據(jù)圖像檢索概念,構(gòu)建了葉緣分類語義字典,并為各分支結(jié)點設(shè)計了描述符組合;根據(jù)多層圖像分類原理,以字典層結(jié)點組織和描述植物屬種分層繼承關(guān)系;根據(jù)相似概率索引方法,推求字典葉節(jié)點成員屬于特定植物種的概率,進而實現(xiàn)對植物屬種做圖像分類索引的功能.在描述符設(shè)計方面,主要側(cè)重于鋸齒深淺和整齊程度等重要葉緣特征的描述,形成的7個新葉緣特征描述符補充和豐富了已有葉緣描述符庫.對30種非裂葉植物的332幅葉圖像的分類檢索實驗表明,在“分類語義字典組織的分層分類+葉節(jié)點成員相似性檢索”的技術(shù)框架下,將這些新描述符與某些常用葉形描述符結(jié)合使用,可以有效改善植物葉圖像屬種劃分的精度.
1.1 方法概述
為了提取葉緣特征和區(qū)分不同屬種植物的葉緣差異,提出了魯棒性較高的圖像預(yù)處理和葉緣特征元素提取方法,并由這些特征元素的集合和統(tǒng)計表達式形成新的葉緣特征描述符;為了增加分類數(shù)和減小分類難度,采用了多(層)分類方法;提出了葉緣分類語義字典的概念,并以該字典描述多分類中的層間繼承關(guān)系.為了解決字典葉節(jié)點植物屬種不唯一問題,提出并實踐了以相似性檢索確定葉節(jié)點成員歸屬概率的方法.另外,使用本文設(shè)計的描述符和分類規(guī)則,分割閾值比較穩(wěn)定、對圖像和葉片尺寸變化較不敏感、描述符中的參數(shù)可以自適應(yīng)確定.圖1顯示該方法的技術(shù)流程.下面簡要介紹其中的關(guān)鍵技術(shù).
圖1 技術(shù)流程Fig.1 Flowchart of the proposed methods
1.2 數(shù)據(jù)采樣
近日,應(yīng)急管理部、國家減災(zāi)委辦公室會同自然資源部、農(nóng)業(yè)農(nóng)村部、氣象局等部門對2018年11月份全國自然災(zāi)害情況進行了會商分析。經(jīng)核定,11月份中我國自然災(zāi)害以滑坡災(zāi)害為主,洪澇、風(fēng)雹、地震、山體崩塌等災(zāi)害也有不同程度發(fā)生。各類自然災(zāi)害共造成全國12萬人次受災(zāi),8.6萬人次緊急轉(zhuǎn)移安置;3400余間房屋嚴重損壞,2.2萬間一般損壞;農(nóng)作物受災(zāi)面積8.2千公頃,其中絕收2千公頃;直接經(jīng)濟損失75.4億元。
植物葉片樣本數(shù)字圖像均來自野外自采集.采集區(qū)域為上海市區(qū)的華東師范大學(xué)閔行校區(qū)、上海植物園和虹橋路虹梅公共綠地,以及浙江省臨安市西天目山地區(qū).共對30余種闊葉類植物采樣量測和攝影,拍攝圖像包括單葉的正反面,共獲取有效樣本圖像300余幅.采樣設(shè)備為普通單反變焦數(shù)碼相機,拍攝時注意了避免陽光直射,拍攝背景為自制小黑板.
1.3 圖像預(yù)處理
圖像預(yù)處理主要用于減少噪點對葉形狀特征提取的干擾.本研究使用去除葉柄后的攝影圖像作為預(yù)處理的原圖像,圖2以寬葉十大功勞為例介紹圖像預(yù)處理的一般流程.
注:(a)原圖像.(b)對灰度圖做中值濾波后圖像,濾波窗口尺寸據(jù)圖像尺寸自適應(yīng)確定.(c)二值化并經(jīng)過數(shù)學(xué)形態(tài)學(xué)處理后的圖像,分割閾值按大津算法[14]確定,數(shù)學(xué)形態(tài)學(xué)處理為先用兩次開啟運算去除毛刺,再進行兩次閉合運算封閉較小裂隙;最后進行兩次膨脹運算,并與葉片二值圖做與運算,以恢復(fù)葉緣信息,填充凹陷,并濾除較小的凸點.圖2 圖像預(yù)處理過程Fig.2 Image preprocessing
1.4 描述符設(shè)計和參變量提取
為體現(xiàn)不同植物類在葉緣細微特征上的差異和減少運算開銷,在葉緣特征元素/參變量獲取時,統(tǒng)一只取右半葉中段三分之一的子圖像(葉外接矩形平均劃分為兩列三行,(2,2)處部分)參與運算,記為PT(見圖3),圖4顯示部分葉緣參變量的含義.圖5以樸樹和花葉青木為例,顯示了葉緣參變量提取過程中,對于凸殘差的處理.凸包是將最外層的點連接起來構(gòu)成的凸多邊型,凸殘差是凸包和原圖像相減的結(jié)果.凸包以MATLAB的convhull函數(shù)提取,該函數(shù)出自著名算法 “Qhull”(參見http://www.qhull.org).
圖3 取子圖PT示意圖Fig.3 Getting sub-graph PT
圖4 葉緣特征參變量示意Fig.4 Explanation of parameter
注:(a)和(c)是兩葉的part圖像,其獲取方式為對二值圖圖斑排序得到最大圖斑,將part區(qū)域保留原值,其他區(qū)域數(shù)值歸為0;(b)和(d)分別是(a)、(c)的凸殘差圖斑,一些粘連的凸殘差經(jīng)形態(tài)學(xué)處理后分離,非常小的凸殘差消失.圖5 樸樹和花葉青木凸殘差處理后結(jié)果Fig.5 Extracting residual error of convex
可以根據(jù)提取的葉緣特征參變量設(shè)計葉緣描述符,設(shè)計參照如下原則:
(1)能夠有效表征葉鋸齒的數(shù)量、整齊程度、深淺和尖銳程度等葉緣特征;
(2)描述符的特征參量在圖像上可提取、可量化;
(3)具有區(qū)分植物屬種作用.
根據(jù)這些原則,設(shè)計了7個新的葉緣描述符(見表1前7個).為便于后續(xù)內(nèi)容理解,表1還列出了后面將引用的部分常用葉形描述符.
1.5 分層分類和檢索
屬種分類在語義字典的每個分支結(jié)點上進行,包括:為每個分支結(jié)點選擇描述符組合,通過訓(xùn)練定制各分支結(jié)點的分類器,以及以定制的分類器做分類測試.
各分支結(jié)點使用的描述符在表1中挑選,一個結(jié)點的劃分通常需要多個描述符組合,而一個描述符也可能被多個結(jié)點的劃分規(guī)則采用.對于某個結(jié)點最適合的描述符組合可以通過分類實驗測試.測試時,將樣本集隨機分為訓(xùn)練和測試兩個子集,用選定分類器模型做分類精度評估.本文以決策樹(DT)作為分類器模型,以方便查看分類規(guī)則和分析組合中各描述符的有效性.通過訓(xùn)練DT,可以定制某結(jié)點的分類器,它以分類規(guī)則樹的形式顯示,圖6給出一個實例.規(guī)則樹所用的描述符由DT在訓(xùn)練過程中自主決定.并非所有在組合中的描述符都能入選,一般可以將入選者視為對當前分類問題較有效的描述符.用該規(guī)則樹對剩余的測試樣本做分類,其結(jié)果可用于評估定制分類器的精度和描述符組合的優(yōu)劣.表2是對非裂葉類232幅測試樣本圖像做全緣和非全緣葉分類的混淆矩陣.其余各分支結(jié)點的分類精度評估情況參見2.2.
表1 葉緣特征和本文引用的部分形狀特征描述符Tab.1 New leaf margin descriptors and some existing leaf shape ones
注:[a]Ca為子圖PT凸殘差的總面積;Pa為子圖PT面積;L為PT左邊長,其值為葉片外接矩形高的三分之一;R為PT右邊長,其值等于Pm-H/3-Up-Dw(Pm為PT外接矩形周長,H為葉片外接矩形的高,Up為PT上邊界的長度,Dw為PT下邊界的長度).[b] 名稱后帶*的為在分類有效性測試中未能入選DT分類規(guī)則的描述符.[c] 描述符適用范圍可能不只限于表中所列.
注:利用100幅植物葉圖像為訓(xùn)練樣本,以Rcp-Dep-Num組合作為屬性向量時給出的分類規(guī)則;葉節(jié)點1和2分別代表全緣和非全緣葉;最終被DT選用的描述符有Rcp(凸殘差與PT面積比)和Dep(右邊長與左邊長比).圖6 將非裂葉層劃分為全緣葉和非全緣葉的規(guī)則Fig.6 The rules for dividing non-lobed leaf into integrifolious leaf and non-integrifolious leaf
表2 一個分支結(jié)點分類的混淆矩陣Tab.2 A case confusion matrix
注:全局精度為84.91%.
通過分層分類到達語義字典某個葉節(jié)點的成員通常屬于多個植物類,或說葉節(jié)點成員尚未分到具體的植物屬種.本文參考目前圖像檢索領(lǐng)域的主流方法,提出了評估葉節(jié)點成員歸屬概率的方法,并測試了其有效性,具體請見2.4.
借鑒現(xiàn)有研究成果的基礎(chǔ)上,本文取得了如下進展:設(shè)計并測試了7個新的葉緣描述符、以多層分類取代單層分類、以語義字典組織多層分類的繼承關(guān)系、通過葉結(jié)點成員與樣本的相似性評估,給出該成員歸屬某些植物類的概率.下面討論其中的幾個重要內(nèi)容,包括葉緣分類語義字典、分支結(jié)點描述符組合和分類精度、葉緣和葉形特征分類精度比較、葉節(jié)點相似性評估.
2.1 葉緣分類語義字典
為了擴大可分類別數(shù),采用了分層分類的方法.分類語義字典主要用于管理層間繼承關(guān)系.字典的構(gòu)建同時兼顧了經(jīng)典植物分類學(xué)方法和計算機圖像辨識能力兩個方面(見圖7).因?qū)嶒灢杉臉颖痉N類有限,劃分到第三層時,結(jié)點中的植物類別即在10種以內(nèi),所以本文以3層的語義字典為例,介紹植物葉特征提取和分類檢索的方法.
注:為了方便計算機圖像辨識,非裂葉按照是否有葉緣齒分為有齒的非全緣葉和無齒的全緣葉;非全緣葉根據(jù)齒的整齊、疏密、尖銳和深淺程度,分別分為等齒和非等齒葉、齒密和齒疏葉、齒尖銳和齒圓葉、齒淺和齒深葉;這4種劃分情況可能同時或先后出現(xiàn)在第3及以后層,可用類似圖a的4個3層二分樹表達,也可以用類似圖b的單個多層二分樹表達.圖7 葉緣分類語義字典(以非裂葉植物為例)Fig.7 A case semantic dictionary for distinguishing between different non-lobed -leaf species
2.2 分支結(jié)點描述符組合和分類精度
下面討論以不同描述符組合分類的精度,表3列出圖7中5個分支結(jié)點的分類實驗數(shù)據(jù).非裂葉結(jié)點以Rcp-Dep-Num3個描述符組合做分類實驗,其他結(jié)點均以新設(shè)計的7個葉緣描述符組合做分類實驗,表中列出的描述符(組合)由DT自主確定.由于不同特征提取和量化的難易程度不同,不同劃分內(nèi)容在區(qū)分植物屬種能力方面存在差異等原因,使得不同結(jié)點分類精度差別較大.其中,將非全緣葉劃分為等齒和非等齒及齒圓和齒尖銳葉時精度稍差,提示需要繼續(xù)研究對齒整齊程度和尖銳程度敏感的描述符.此外,DT自主確定的描述符中,Rcp、Dep和Mv出現(xiàn)的頻率較高,可見基于葉緣凸殘差的描述符和它們的某些組合對于劃分植物屬種有效.
以新設(shè)計的7個描述符組合分類時,入選DT決策規(guī)則的描述符可能會與以更少數(shù)量描述符組合分類時的不同.如對非裂葉結(jié)點上的分類,用7個描述符組合分類時,入選的描述符有Rcp、Src和Sta,精度只有70.26%,低于用Rcp-Dep-Num組合分類時的精度,提示描述符個數(shù)會對分類精度產(chǎn)生較難預(yù)期的影響,并非總是描述符個數(shù)越多越好(或特征空間越復(fù)雜越好).此外,以和葉節(jié)點劃分特征相關(guān)的單個描述符對非全緣葉層分類時,其精度普遍比使用多個描述符分類時低,說明描述符組合在分層分類中更有效.
表3 各層結(jié)點分類精度評估Tab.3 Assessment of classification accuracy in every layer nodes
2.3 葉緣和葉形特征分類精度比較
具有相似葉形的植物種較多,單獨使用葉形描述符分類難以提高某些層的分類精度.如劃分非裂葉結(jié)點時,貓乳、櫻花、欒樹和紫薇葉形相近,僅用葉形描述符將難以區(qū)分.實驗發(fā)現(xiàn),僅使用葉形描述符對非裂葉層進行分類時,精度較使用葉緣描述符時低,說明對于葉形相似的植物種類,使用葉緣描述符分類更有效.在多植物屬種分類時,可以將葉形和葉緣描述符聯(lián)合使用,以豐富特征空間,提高分類精度.表4提供了僅僅使用葉形描述符分類和聯(lián)合使用葉形、葉緣描述符分類的例子.與表3同一結(jié)點對照可知,對于葉形相似、葉緣特征不同的植物屬種,使用葉緣描述符或聯(lián)合使用葉形、葉緣描述符分類精度將得到較大改善.
表4 使用葉形描述符分類精度評估Tab.4 Assessment of classification accuracy in the case of using leaf shape descriptors only
2.4 相似性概率評估
與需要劃分的植物屬種相比,分類特征空間總是顯得過于簡單.因為對劃分問題有效、且彼此相互獨立的描述符的數(shù)量非常有限;采用分層分類也只能有限改善這種情況.所以通過分類到達語義字典某個葉節(jié)點的成員尚未分到具體的植物屬種.這一部分將通過評估葉節(jié)點成員與已知樣本的相似程度,給出該成員分別屬于某些植物屬種的概率.這種相似程度可以采用如式1所示的均方差公式定量計算.
(1)
其中,i=1,2,…,n為樣本序號(0表示新成員);j=1,2,…,m為描述符序號;G為描述符值,如Gi1為第i個樣本第1個描述符的值;Si是為第i個樣本的均方差.
通常,Si可以反映某葉節(jié)點新成員與同一節(jié)點已知樣本的相似度,Si值越小,相似度越高.在下面的兩個例子中,葉節(jié)點的新成員分別為花葉青木和紅葉石楠葉圖像,表5和6顯示這兩種新成員相對于已知樣本的Si值,并列出Si排序較前的樣本植物種類.由表可見,Si可以用于確定葉節(jié)點成員的植物種歸屬.可以根據(jù)某類植物出現(xiàn)頻次和平均Si值等綜合確定新成員的歸屬概率,式2給出一個評估表達式的例子.
Pi=a·Ni+b·(1-MEANSi).
(2)
其中,Pi為新成員屬于第i類的概率;a和b為權(quán)系數(shù);Ni為在Si較低的10個樣本中第i類植物出現(xiàn)的次數(shù);MEANSi為這10個樣本中,第i類的平均Si.可以通過調(diào)節(jié)a和b,給予Ni和MEANSi不同的信任度.
以表5為例,先將Ni和Si歸一化到值域[0,1],并設(shè)a=b=0.5(等權(quán)),則P1=49.11%(花葉青木),P2=14.29%(寬葉十大功勞) ,P3=40.04%(石楠) ,P4=23.36%(窄葉十大功勞);將概率歸一化,即得到新成員屬于花葉青木、寬葉十大功勞、石楠、窄葉十大功勞的概率分別為100%、29.10%、81.53%、47.58%.以同樣的方法處理表6的數(shù)據(jù),可得新成員屬于榔榆、櫻花、貓乳、桃樹的概率分別為100%、87.30%、30.34%、63.48%.該例提示相似概率可以正確表征新成員屬種.
表5 相似度概率評估(花葉青木)Tab.5 A case assessment of similarity for j. var. variegata
表6 相似度概率評估(榔榆)Tab.6 A case assessment of similarity for Ulmus parvifolia
本文主要研究基于葉緣特征的植物屬種自動圖像分類檢索技術(shù),并在設(shè)計新的葉緣描述符、構(gòu)建語義字典和多層分類、葉結(jié)點成員歸屬概率評估等方面取得突出進展, 所提交的成果支持如下結(jié)論.
(1) 葉緣特征是植物葉圖像識別的有效指標,對于某些葉形相似的植物類,甚至是唯一有效指標.描述符設(shè)計的合理性是改善可分性的關(guān)鍵,凸殘差與PT面積比、右邊長與左邊長比對非裂葉層和非全緣葉層分類有效;凸殘差均值、凸殘差均方差等描述符對于非全緣葉層的區(qū)分有效.
(2) 使用分類語義字典組織分層分類,并在各分支結(jié)點使用適當?shù)拿枋龇M合分類,可以有效增加可分類別數(shù)和提高分類精度.
(3) 在植物屬種較多的情況下,(分層)分類通常不能最后決定屬種.對于分到葉節(jié)點的成員可以通過與索引庫樣本的相似性評估,獲得它們屬于不同科、屬、種的概率,而基本實現(xiàn)對植物屬種做圖像自動分類檢索的功能.
(4) 由于植物屬種測試樣本的數(shù)量和代表性等對分類精度會有較大影響,相對于數(shù)目龐大的植物屬種,本文的實驗屬種數(shù)和實驗圖像數(shù)依然很有限,所提交的分析結(jié)論還有待進一步驗證.
[1] NAM Y, HWANG E, KIM D. A similarity-based leaf image retrieval scheme: Joining shape and venation features[J]. Computer Vision And Image Understanding, 2008, 110: 245-259.
[2] MACLEOD N, BENFILELD M, CULVERHOUSE P. Time to automate identification[J]. Nature, 2010, 467: 154-155.
[3] JAMES S C, DAVID C, JONATHAN Y C, et al. Plant species identification using digital morphometrics: A review[J]. Expert Systems with Applications, 2012, 39: 7562-7573.
[4] 祁亨年,壽韜,金水虎,等.基于葉片特征的計算機輔助植物識別模型[J].浙江林學(xué)院學(xué)報,2003,20(3):281-284.
[5] 朱靜,田興軍,陳彬,等.植物葉形的計算機識別系統(tǒng)[J].植物學(xué)通報,2005,22(5):599-604.
[6] 趙國慶,劉循,王勇,等.導(dǎo)數(shù)在提取植物葉片鋸齒特征上的應(yīng)用[J].四川大學(xué)學(xué)報:自然科學(xué)版,2009,46(4):941-946.
[7] 徐輝,王忠芝,黃心淵,等.基于角點檢測的葉緣鋸齒快速識別[J].北京林業(yè)大學(xué)學(xué)報,2010,32(6):85-89.
[8] 鄭小東,王曉潔,高潔,等.SUSAN算法在植物葉緣特征提取中的應(yīng)用[J].中國農(nóng)學(xué)通報,2011,27(27):174-178.
[9] 王曉潔,于浩杰,鄭小東,等.凸包在植物葉鋸齒與葉裂位置識別中的應(yīng)用[J].農(nóng)機化研究,2013(3):214-217.
[10] CLARK J Y. Identification of botanical specimens using artificial neural networks[C]//Computational Intelligence in Bioinformatics and Computational Biology, 2004. Proceedings of the 2004 IEEE Symposium on, 2004: 87-94.
[11] CLARK J Y. Plant identification from characters and measurements using artificial neural networks[M]//MACLEODN.Automated Taxon Identification in Systematics: Theory, Approaches and Applications. FL:CRC Press, 2007.
[12] CLARK J Y. Neural networks and cluster analysis for unsupervised classification of cultivated species of Tilia (Malvaceae)[J]. Botanical Journal of the Linnean Society, 2009, 159: 300-314.
[13] RUMPUNEN K, BARTISH I V. Comparison of differentiation estimates based on morphometric and molecular data, exemplified by various leaf shape descriptors and RAPDs in the genus Chaenomeles[J]. Taxon, 2002, 51: 69-82.
[14] OTSU N. A threshold selection method from gray-level histogram[J]. Automatica, 1975, 11(285-296): 23-27.
[15] 賀鵬,黃林.植物葉片特征提取及識別[J].農(nóng)機化研究,2008(6):168-170.
[16] 周堅華.遙感圖像分析與空間數(shù)據(jù)挖掘[M].上海:上海科技教育出版社,2010:109.
[17] 王曉峰,黃德雙,杜吉祥,等.葉片圖像特征提取與識別技術(shù)的研究[J]. 計算機工程與應(yīng)用,2006(3):190-193.
(責(zé)任編輯 李萬會)
Plant image classification and retrieval based on leaf margin features
YAN Yi-zhen1, ZHOU Jian-hua2
(1.DepartmentofGeography,EastChinaNormalUniversity,Shanghai200241,China;2.KeyLabofGeographicalInformationScience,MinistryofEducation,EastChinaNormalUniversity,Shanghai200241,China)
Leaf margin is one of the main characteristics to identify plant species. Compared to leaf shape features, leaf margin features are much more subtle, so they are often indispensable in multi-scale recognition of plant species as either dependent features or supplements for others. The progresses include designing 7 new margin feature descriptors, taking hierarchical classification organized by some semantic dictionaries to reach a better classification accuracy, and finally deciding plant species of a leaf node member by similarity evaluation and retrieval. Our experiments have revealed that the descriptors, named as the ratio of residual convex to leaf area and the ratio of right edge to left edge, are efficient to distinguish between different non-lobed-leaf species and different non-integrifolious-leaf species; the mean value of residual convex etc., is of other examples of useful descriptors to the identification between different non-integrifolious-leaf species. By using the hierarchical classification in the feature space of multi leaf margin descriptors, 30 non-lobed-leaf species have been divided into several leaf nodes, and the mean overall accuracy is better than 81.21%. The test of assessing the similarity between the new assigned leaf node member and the known samples has further demonstrated that the framework of jointly using the hierarchical classification and the image retrieval is effective for the identification of plant species.
leaf margin features; descriptors; residual error of convex; semantic dictionary; image retrieval
1000-5641(2015)04-0154-10
2014-06
國家自然科學(xué)基金(J1310028,41071275)
晏藝真,女,本科生, E-mail: ylxbyy@126.com.
周堅華,女,副教授,碩士生導(dǎo)師,研究方向為圖像智能識別和生態(tài)遙感. Email: jhzhou@geo.ecnu.edu.cn.
TP391.6
A
10.3969/j.issn.1000-5641.2015.04.016