邰偉鵬, 李 浩, 張炳良, 王 春
(1. 安徽工業(yè)大學(xué)計算機科學(xué)與技術(shù)學(xué)院,安徽 馬鞍山 243000; 2. 安徽工業(yè)大學(xué)信息技術(shù)研究院, 安徽 馬鞍山 243000; 3. 天邦食品股份有限公司, 浙江 余姚 315400; 4. 上海海洋大學(xué)農(nóng)業(yè)農(nóng)村部淡水水產(chǎn)種質(zhì)資源重點實驗室,水產(chǎn)科學(xué)國家級實驗教學(xué)示范中心,上海水產(chǎn)養(yǎng)殖工程技術(shù)研究中心, 上海 201306)
中華絨螯蟹(Eriocheirsinensis)又稱河蟹、大閘蟹,是中國淡水養(yǎng)殖業(yè)中的珍品,至2017年底,產(chǎn)業(yè)規(guī)模已超過75萬t[1]。由于各地氣候、水質(zhì)、土壤等特征和使用的河蟹養(yǎng)殖方法的不同,造成各地養(yǎng)殖的河蟹在品質(zhì)上存在較大的差別,也導(dǎo)致商品蟹的銷售和利潤受到了直接的影響。隨著消費者對食品安全日益重視和產(chǎn)業(yè)的深度發(fā)展,各產(chǎn)區(qū)陸續(xù)建設(shè)自己的商業(yè)品牌或以地理位置作為銷售標(biāo)志,如遠近聞名的“固城湖大閘蟹”和“陽澄湖大閘蟹”等,以提高其河蟹的銷售優(yōu)勢。出于防止產(chǎn)品被假冒以及對消費者權(quán)益和自身品牌保護的目的,找出一種可以區(qū)分河蟹產(chǎn)地的方法是地方企業(yè)和政府一直想做的事情[2]。目前,用于商品蟹溯源和防偽的方法是在河蟹的螯足上綁縛防偽標(biāo)識,如條形碼、二維碼等,通過驗證標(biāo)識來實現(xiàn)防偽[3,4]。周曉慶等曾開發(fā)了一套基于QR碼防偽技術(shù)和加密技術(shù)的防偽系統(tǒng),以“一物一碼”的形式部分解決了商品防偽和產(chǎn)品溯源等問題[5]。鄧洋等就當(dāng)前防偽技術(shù)的原理,在數(shù)字防偽原理和典型數(shù)字防偽技術(shù)的基礎(chǔ)上,提出一種二維碼和RFID防偽技術(shù)的組合應(yīng)用[6]。李清揚等對防偽原理以及防偽技術(shù)的發(fā)展趨勢進行了總結(jié),其中認(rèn)為信息網(wǎng)絡(luò)防偽技術(shù)適用于河蟹的防偽,即在河蟹身體上綁縛防偽標(biāo)識,消費者購得商品后使用終端,將防偽標(biāo)識信息傳至驗證端進行驗證[7]。然而以上方法驗證的是防偽標(biāo)識,并非河蟹本體,制假者仍可以設(shè)法將假品冒充真品查詢后賣出,造成真假產(chǎn)品混淆。張炳良等提出一種二維碼和河蟹甲殼圖像相結(jié)合的雙重防偽體系,但是僅提出了思路,并未給出結(jié)果和驗證[8]。研究表明,蟹殼表面分布著豐富的凸起、溝、脊、紋理等性狀,形成了河蟹的種質(zhì)圖案[9]。雖然不同品種的河蟹背殼圖案具有異質(zhì)性且相對穩(wěn)定[10],但是按照適應(yīng)生物學(xué)的觀點:棲息環(huán)境的異質(zhì)性會造成同一基因型的個體在表型特征方面存在明顯的變化,物種性狀的表達或改變常常受到其棲息環(huán)境的影響[11-14],因此,理論上,生活或養(yǎng)殖在不同環(huán)境下的河蟹,其背殼上或多或少會留下其生活的痕跡,這為識別不同地區(qū)的河蟹提供了新的線索。本文通過數(shù)字圖像處理技術(shù),利用河蟹背殼所呈現(xiàn)的特征,提出一種基于SURF(Speeded up robust features, SURF)和FLANN (Fast library for approximate nearest neighbors, FLANN) 算法的方案,力求證明河蟹單體背殼圖案具有唯一性,為河蟹個體識別技術(shù)的研制提供新的思路和方法,為真正實現(xiàn)河蟹品質(zhì)溯源、防偽和品牌價值提升貢獻參考資料。
實驗材料于2017年12月3日購自安徽省馬鞍山市當(dāng)涂縣塘南水產(chǎn)批發(fā)市場,為養(yǎng)殖的中華絨螯蟹商品蟹。雌蟹65只,殼寬80.0~110.0 mm,殼長75.0~100.0 mm,體質(zhì)量140.0~160.0 g;雄蟹65只,殼寬98.0~130.0 mm,殼長95.0~125.0 mm,體質(zhì)量190.0~205.0 g。每只河蟹以流水號001~130進行編號,然后統(tǒng)一將編號牌綁定在河蟹右側(cè)的步足上。
從上述130只實驗河蟹中隨機選擇100只,使用專用數(shù)據(jù)采集器[8]采集圖像。每只河蟹采集20幅圖像,采用河蟹編號和采集次序的組合作為圖像文件的命名方式,總共采集2 000幅圖像,構(gòu)成樣本圖像庫(簡稱“樣本庫”)。采集時使用白色塑膠板作為背景板,并要求背殼沒有污物和水漬,圖像分辨率為1 920×2 560。
用多種像素和多種型號的手機對130只實驗蟹進行拍攝,拍攝時要求避免強光直射,蟹背部干燥且干凈,同時拍攝的圖像不可模糊。分別對每只河蟹拍攝5張圖像,采用與樣本庫圖像文件同樣的命名方式對圖像文件命名,共計650張圖像,構(gòu)成測試圖像庫(簡稱“測試庫”)。
河蟹背殼圖像分割的流程圖如圖1所示。首先將采集到的圖像轉(zhuǎn)為灰度圖,使用高斯濾波進行降噪處理,利用sobel算子獲取圖像的邊緣信息[15]。通過閾值分割,過濾一些細節(jié)信息,使蟹背部邊緣輪廓更清晰。然后做灰度反轉(zhuǎn)獲得掩膜mask1,同時做膨脹、空洞填充和腐蝕運算獲得掩膜mask2。兩個掩膜做交運算,分割開前景與背景。腐蝕分割出來的前景圖像,使蟹背殼與步足分離,然后空洞填充。根據(jù)連通域的大小篩選出背部區(qū)域,獲得掩膜mask3,對掩膜mask3做膨脹運算,讓其恢復(fù)到原來的尺寸。最后與原灰度圖相交,即可獲得河蟹背部的灰度圖(見圖2)。
圖1 中華絨螯蟹甲殼圖像分割流程圖
圖2 中華絨螯蟹甲殼圖像分割
分布在河蟹背殼上的凸起、溝、脊和紋理等圖案的灰度值與周圍區(qū)域有著明顯的差異,因此形成大量的角點和斑點等局部特征點(見圖3)??紤]到采集圖像時光照、角度等因素的變化,本研究利用對圖像旋轉(zhuǎn)、平移、縮放和噪聲等具有較好魯棒性的SURF算法[16],
圖3 中華絨螯蟹甲殼圖像特征點Fig.3 Feature points on the carapace of Eriocheir sinensis
來提取河蟹背殼圖像的特征。SURF算法采用Hessian矩陣檢測特征點[17]。在不同尺度上檢測特征點來實現(xiàn)尺度不變性,同時給每個特征點分配主方向以確保特征具有旋轉(zhuǎn)不變性。
由于使用的分割背殼圖像的算法會丟失一部分邊緣信息,而邊緣中有豐富的特征點。為了減少不必要的誤匹配對,需要對SURF算法提取到的特征點做一些預(yù)處理,刪除掉離背部邊緣較近的一些特征點,如圖4所示。
圖4 中華絨螯蟹甲殼刪除邊緣特征點對比圖
1.5.1 雙向FLANN算法 利用雙向FLANN算法獲取準(zhǔn)確可靠的匹配點對[16]。假設(shè)兩幅圖像分別用I1和I2表示,雙向FLANN算法具體流程如下:
(1)通過FLANN算法找到圖像I1中的特征點m1在圖像I2中的匹配點m2,記作匹配對(m1,m2)。然后用同樣的方法找到圖像I2中的特征點m2在圖像I1中的匹配點m3,記作匹配對(m2,m3)。
(2)判斷特征點m2在不同方向的匹配過程中找到的對應(yīng)特征點m1、m3是否相同。若特征點m1、m3是圖像I1中的同一特征點,則判定匹配結(jié)果正確。反之則認(rèn)為是誤匹配。
1.5.2 匹配點對正誤檢測及相似度計算 由于圖像之間是剛性變換,對于所有正確的匹配點對,任意兩個匹配點對的距離比應(yīng)該是相等的或者近似相等,而且距離比值也應(yīng)該與兩幅圖像的真實尺度比近似相等[18]。因此,本文采用一種以最近歐式距離點和次近歐式距離點構(gòu)建矢量坐標(biāo)系,判斷匹配對在該坐標(biāo)系上的位置關(guān)系是否相似的檢測方法來檢測正確匹配對。對匹配成功的匹配對按照歐式距離從小到大排序,取出最近歐式距離和次近歐式距離匹配對。計算所有特征點到最近歐式距離點的距離與最近歐式距離到次近歐式距離點的距離的比例。計算每個特征點在以最近歐式距離點和次近歐式距離點構(gòu)建的矢量坐標(biāo)系上的角度。判斷距離比例和角度差值,如果分別小于一定的差值,則判定匹配點對為正確匹配對。以正確匹配對在全部匹配對中的占比衡量兩幅圖像的相似度。
從前述樣本庫中選取20只蟹的圖像,采用不同相似度閾值進行匹配試驗,統(tǒng)計正確匹配對和漏匹配對個數(shù),擬合其相關(guān)關(guān)系。其中,“正確匹配”是指匹配結(jié)果中正確匹配數(shù)目占總匹配數(shù)目的平均比例,“漏匹配”是指本屬于同一只蟹的圖像卻沒有歸于匹配結(jié)果的數(shù)目占屬于該蟹的圖像數(shù)目的平均比例。
從上述樣本庫中以隨機抽樣的方式選出一些圖像,其中有屬于同一只蟹的和不屬于同一只蟹的圖像。計算選取圖像間的相似度并統(tǒng)計。“相似度”或“相似度閾值”是“正確匹配對數(shù)”與“篩選后匹配對數(shù)”的比率(值),“篩選后匹配數(shù)”是采用雙向FLANN算法得到匹配對數(shù),按照歐式距離從小到大排序,篩選排名前80%的匹配對數(shù)后的數(shù)目。本研究通過尋找合適的相似度閾值來確定兩幅圖像的相似度。若匹配對數(shù)較少,則認(rèn)定兩幅圖像相似度為0;若相似度大于某一閾值,則判定兩幅圖像屬于同一只蟹。
圖5為采用不同的差值分別使用距離比例和角度兩種約束濾除錯誤匹配點正確率的對比分析。由圖5可以發(fā)現(xiàn),當(dāng)差值取值在0~0.2內(nèi),使用距離比例和角度兩種約束,濾除錯誤匹配點的正確率是1,表明兩種約束的差值取值在此范圍內(nèi)可有效進行錯誤匹配對的濾除。當(dāng)差值在0.2~1范圍內(nèi)時,使用距離比例和角度兩種約束濾除錯誤匹配對的效果較差。由圖5可知,當(dāng)距離比例和角度的差值為0.3時,濾除錯誤匹配點的正確率才能到0.9及以上。但是如果拍攝角度差異較大,兩幅屬于同一只蟹的圖像使用該范圍內(nèi)的差值濾除錯誤匹配對,會存在正確匹配對被誤判為錯誤匹配對的情況。
圖5 濾除錯誤匹配點正確率曲線Fig.5 Correct rate curves of filtering wrong matching points
圖6是在不同約束條件、不同差值下濾除正確匹配點數(shù)目的情況。當(dāng)距離比例的差值取值范圍為0~0.5和角度的差值取值在0~0.2之間時,有部分正確匹配對被誤判為錯誤匹配對;然而距離比例差值在0.5~1范圍內(nèi)和角度差值在0.2~1范圍內(nèi)時,濾除正確匹配點的數(shù)目為0,即說明沒有誤判的情況。顯然,本文算法中距離比例的差值的判定界限選為0.5,角度差值選為0.2。
圖6 濾除正確匹配點曲線
圖7所呈現(xiàn)的是從樣本庫中選取20只蟹,采用不同的相似度閾值進行匹配的試驗結(jié)果。由圖7可知,當(dāng)相似度閾值在0~0.5范圍內(nèi),正確匹配占比較小,表明誤判的情況較為嚴(yán)重。閾值在0.7~1范圍內(nèi)時,正確匹配占比高于90%。但與漏匹配比例曲線(虛線)結(jié)合分析,當(dāng)閾值在0.8~1范圍內(nèi),漏匹配的情況較為嚴(yán)重,即本算法并沒有將本屬于同一只蟹的圖像歸于到匹配結(jié)果中。 漏匹配比例在相似度閾值取值在0~0.7內(nèi)時低于10%,在0.8~1范圍內(nèi)時卻能達到60%以上。因此,經(jīng)過綜合分析,本研究相似度閾值選為0.7。
圖7 不同相似度條件下正確匹配與漏匹配試驗結(jié)果曲線
以隨機抽樣的方式從樣本庫中選取部分圖像(其中有屬于同一只蟹的和不屬于同一只蟹的圖像),并計算其相似度,統(tǒng)計實驗結(jié)果見表1。根據(jù)表1中單向FLANN匹配數(shù),會發(fā)現(xiàn)單向FLANN算法是在匹配圖像中的所有特征點中找到與待匹配圖像中特征點相似的特征點。因此會存在一對多的匹配情況。如序號2的實驗,蟹1為待匹配圖像而蟹2為匹配圖像時,匹配對數(shù)等于蟹1圖像的特征點數(shù),相反方向匹配時匹配對數(shù)則等于蟹2圖像的特征點數(shù)。而匹配對數(shù)在采用雙向FLANN算法后卻只有49。所以可以通過雙向FLANN算法剔除錯誤匹配對。屬于同一只蟹的背殼圖像計算的相似度(正確匹配數(shù)占篩選后匹配數(shù)的比例)較大。如序號3為0.913,序號6為0.778。而不同蟹的背殼圖像計算的相似度較小。如序號1為0.164,序號5為0.143。由實驗結(jié)果可以發(fā)現(xiàn),本文算法中的相似度可以作為判斷兩幅圖像是否屬于同只蟹的依據(jù)。
表1 部分圖像相似度結(jié)果
從樣本庫中隨機挑選12只蟹,采用本文算法從樣本庫中篩選出與每只蟹對應(yīng)的20幅圖像的相似度在0.7以上的圖像(不包括該圖像)進行一致性檢驗,匯總結(jié)果見表2。由表2發(fā)現(xiàn),大部分河蟹圖像可以從挑選的圖像庫中正確找到屬于該蟹的其他19幅圖像。但是對于一小部分蟹,如蟹22之第4、5幅,有漏匹配的情況。由表2中計算的一致性均能達到96.0%以上,即表明樣本庫里同一只蟹的圖像基本都能找到屬于該蟹的其他圖像。
表2 樣本庫圖像一致性檢驗
表3所示為樣本庫與測試庫中圖像的匹配試驗結(jié)果。從表3中可以發(fā)現(xiàn),對于樣本庫有存儲圖像的河蟹的測試庫圖像,其匹配正確率能達到80%以上,即說明采用本文算法可以較準(zhǔn)確的從樣本庫里找到屬于該蟹的圖像。然而對于沒有在樣本庫中存儲圖像的河蟹,如編號26、85以及111的河蟹的匹配結(jié)果數(shù)為0,即在樣本庫中沒有匹配到圖像。根據(jù)匹配結(jié)果數(shù)與正確匹配數(shù),可以發(fā)現(xiàn)使用本文算法得到的匹配結(jié)果正確率為100%。由于部分情況下存在漏匹配,因此會導(dǎo)致匹配結(jié)果數(shù)占樣本庫數(shù)目的比例偏低。針對漏匹配問題,通過觀察發(fā)生漏匹配現(xiàn)象的圖像,發(fā)現(xiàn)其主要原因是拍攝的角度存在著較大差異,導(dǎo)致同一只蟹的兩幅圖像形變差異較大,因此可以通過矯正拍攝角度等手段減少漏匹配。針對一只河蟹的溯源問題,可以對其采集多幅圖像建立樣本庫,在匹配過程中如果樣本庫中的一幅或者多幅圖像匹配成功,即可認(rèn)定該蟹屬于正品蟹。
表3 部分測試庫圖像匹配結(jié)果
生物識別是依據(jù)個體之間具有較高穩(wěn)定性且具有唯一性的生物特征對其進行識別與身份的認(rèn)證,是生物識別技術(shù)應(yīng)用于個體身份鑒定的前提[19]。因此,要識別出某區(qū)域或某產(chǎn)地的河蟹,必須找到其穩(wěn)定性兼具唯一性的個體特征。
一方面,像河蟹背甲上的額齒和側(cè)齒、隆起的嵴等可數(shù)或可量性狀屬于物種(種質(zhì))性狀,并不會因為生活場景的影響而明顯減少數(shù)量,表現(xiàn)出較高的穩(wěn)定性;另一方面,河蟹無論是在自然條件下還是在養(yǎng)殖環(huán)境中,喜歡攀爬、掘洞、潛伏于沙或泥中[9],但因為個體生活軌跡的不同而出現(xiàn)不同程度的磨損是真實存在的。Idaszkin Y L等采用幾何形態(tài)測量法,研究了在不同棲息環(huán)境下角突弓蟹(Cyrtograpsusangulatus)背殼形態(tài)的變化。研究結(jié)果表明,雖然采樣點只相隔3 km,但由于角突弓蟹棲息地的差異,其背殼特征出現(xiàn)了變化[20]。因此,理論上講,蟹個體背甲特征應(yīng)該都是不一樣的,即個體的特征具有唯一性。另外,螃蟹背部圖案因其復(fù)雜性,無法仿造。在市場流通期間,也不會發(fā)生改變。所以,作者也有意識地選擇了這些容易反映河蟹生活狀況的性狀來加以研究,提取相應(yīng)的識別特征。
如何提取河蟹個體背殼的差異性特征,是圖像匹配的關(guān)鍵步驟,也是提高不同河蟹個體識別度的前提。研究表明,圖像特征劃分為點、線和面三種。點特征提取是其中經(jīng)常使用的一種圖像特征提取算法[17]。作者注意到,分布在河蟹背殼上的凸起、溝、脊和紋理等圖案的灰度值與周圍區(qū)域有著明顯的差異,因此形成了大量的角點和斑點等局部特征點,從而構(gòu)成河蟹背殼的眾多幾何特征(見圖3)。
常用的特征提取主要有Harris[21]、ORB[22]、SIFT[23]、SURF[24]等算法,但都存在特征信息少和誤匹配率高的問題[18]。在特征點的匹配過程中如果采用基于最近鄰的匹配算法,會由于SURF算法提取出來的特征向量是高維向量而導(dǎo)致計算量過大,從而影響算法的整體速度[24],但是考慮到該算法對圖像旋轉(zhuǎn)、平移、縮放和噪聲等具有較好魯棒性[24],本研究還是選擇此算法來提取河蟹背殼圖像的特征。
圖像特征提取與匹配一直是計算機視覺中的關(guān)鍵問題,在靶標(biāo)檢測、物體或生物個體識別、圖像配準(zhǔn)等實際應(yīng)用中發(fā)揮著重要作用[18]。 Muja和Lowe提出一種快速近似最近鄰查找(Fast library for approximate nearest neighbors,F(xiàn)LANN)搜索的圖像匹配算法,此算法使用多重隨機KD-TREE和分層K-means樹,能夠根據(jù)用戶采用的數(shù)據(jù)集和欲達到的精確度確定參數(shù)值和最佳算法,使搜索速率獲得顯著的提高[25]。馮亦東等研究表明,基于SURF特征提取和FLANN搜索的圖像匹配算法,能解決目前其它圖像特征匹配算法中存在的圖像提取特征量少、特征誤匹配率高和匹配速度慢的問題[16,26]。本研究依據(jù)SURF特征提取和FLANN搜索的圖像匹配算法,通過對河蟹背殼某些特征點的刪減,實現(xiàn)了兩幅圖像之間的良好匹配,即使圖像間出現(xiàn)噪聲、平移、尺度縮放、亮度變化、遮擋、旋轉(zhuǎn)等情況。
“相似度”或“相似度閾值”是“正確匹配對數(shù)”與“篩選后匹配對數(shù)”的比率(值)。圖5、6分別是濾除錯誤匹配點正確率曲線以及濾除正確匹配點曲線,與圖7中使用不同相似度時正確匹配和漏匹配的實驗曲線結(jié)合分析,發(fā)現(xiàn)在相似度采用不同閾值時出現(xiàn)了所謂的“漏匹配”現(xiàn)象。作者分析,可能由于采集河蟹背殼圖像時拍攝的角度過于傾斜、有強光照射等環(huán)境因素的影響,導(dǎo)致屬于同一只蟹的圖像呈現(xiàn)較大的差異,從而出現(xiàn)“漏匹配”。因此,相似度取值越大,判斷兩幅圖像屬于同一只蟹的標(biāo)準(zhǔn)就越高,極端情況是相似度為1時,兩幅完全一樣的圖像才能匹配成功。由圖7可以發(fā)現(xiàn),相似度取值在0~0.5范圍內(nèi),正確匹配所占的比例偏小,即存在誤判不同蟹圖像屬于同一只蟹的情況。經(jīng)過大量的對比研究,本實驗結(jié)果得出相似度閾值為0.7,即兩幅蟹殼圖像相似度大于等于此閾值,即判斷其為同一只蟹。反之則為不同蟹。作者相信,隨著實驗的深入及樣本數(shù)量的不斷提高,相似度閾值將更為精確。另外,對于使用不同型號和不同像素的手機拍攝的河蟹圖像,由表3的匹配結(jié)果可以發(fā)現(xiàn),無法在已建立的樣本庫中匹配到結(jié)果。因此,對于市場中沒有錄入數(shù)據(jù)庫的假冒河蟹,通過使用本文算法在數(shù)據(jù)庫中匹配,可以有效的識別出該蟹是否為正宗的品牌蟹。
本文采用SURF算法進行中華絨螯蟹甲殼圖像特征點的提取,然后使用雙向FLANN算法完成特征點的匹配,最后以每個匹配成功的特征點基于最近歐式距離和次近歐式距離匹配點的位置關(guān)系作為檢測匹配對正誤的依據(jù),以正確匹配對數(shù)占總匹配對數(shù)的比例來判斷兩幅圖像是否屬于同一只蟹。以100只中華絨螯蟹的圖像建立樣本庫,并用不同手機對這100只蟹以及另外的30只蟹進行拍攝,建立測試庫。對樣本庫和測試庫使用本文算法進行實驗,實驗結(jié)果表明屬于同一只蟹的圖像使用本文算法計算得到的相似度均在70%以上,而不同蟹圖像的相似度普遍偏低,因此選定相似度閾值為0.7。本文算法對市場上商品蟹拍攝的圖像和該蟹生產(chǎn)地存儲的源圖像進行匹配,對于在生產(chǎn)地建立過圖像庫的河蟹,可以準(zhǔn)確的從圖像庫中找到屬于同一只蟹的圖像,而沒有建立圖像庫的商品蟹,則無法匹配到結(jié)果,以此可以有效的避免目前使用的河蟹防偽方法的缺陷,實現(xiàn)河蟹的識別和溯源,達到防偽的目的。