周麗媛 ,趙啟軍 ,2**,高定國
(1.西藏大學信息科學技術學院 拉薩 850000;2.四川大學計算機學院 成都 610065)
我國作為多個民族組成的國家,民族文化源遠流長。藏族文化作為我國民族文化中的一顆瑰寶,其最具特點的藏醫(yī)藥更是人類醫(yī)藥的遺產(chǎn)。藏醫(yī)藥是在廣泛吸收、融合了中醫(yī)藥學等理論的基礎上,通過長期實踐形成的獨特醫(yī)藥體系,迄今已有上千年歷史,是我國較為完整、較有影響的民族藥之一[1]。藏藥材切片作為藏醫(yī)藥的關鍵組成部分,對其進行正確的識別以及應用是發(fā)揮藏藥材藥用價值的重要前提。早期的藏藥材切片識別大多依靠人工,專業(yè)技術人員通過觀察、觸摸、品嘗、鼻聞等方式對藏藥材進行識別與鑒定[2],人工識別結果的準確性深度依賴于技術人員的累積經(jīng)驗很容易出錯。然而,對專業(yè)技術人員的培養(yǎng)需要較長的時間,具有豐富的藏藥材識別經(jīng)驗的人才缺乏是制約現(xiàn)階段藏藥材發(fā)展的重要因素。
隨著計算機技術的發(fā)展,計算機視覺[3]逐漸成為熱點。計算機視覺是利用計算機模擬人類的視覺功能,對給定的圖片、視頻等進行信息的特征提取并對其進行判斷和推理。隨著高質量的標注數(shù)據(jù)集的大量出現(xiàn),深度學習在計算機視覺中占據(jù)日益重要的地位,推動了計算機視覺應用在諸多領域百花齊放。特別地,在藥材識別領域,計算機視覺技術使得中藥飲片自動識別在過去幾年間得到了快速發(fā)展。
圖1 本文數(shù)據(jù)集示例圖像
表1 本文收集的復雜背景藏藥材切片圖像數(shù)據(jù)集信息
伍紅年等[4]使用指紋圖譜結合機器學習方法進行白三七及近源種藥材識別。賈偉等[5]使用Tamura方法描述中藥飲片紋理,能夠較為精確的表示中藥飲片的紋理特征。謝樹瑩等[6]使用OpenCV、支持向量機(SVM)算法對5種中藥飲片進行辨色處理,實驗表明在理想環(huán)境下可以實現(xiàn)對5種飲片100%的識別正確率。徐飛等[7]使用GoogLeNet卷積神經(jīng)網(wǎng)絡對人參與西洋參飲片圖像進行識別,并取得90%的識別準確率。胡繼禮等[8]使用Incepltion-V3模型對理想環(huán)境下的137種中藥飲片進行識別,并取得88.3%的識別準確率。陶歐等[9-12]使用灰度共生矩陣和灰度梯度共生矩陣提取中藥飲片紋理的數(shù)字特征,使用BP神經(jīng)網(wǎng)絡建立18 種中藥辨識模型,并取得90%的辨識正確率。李震[13]結合紋理特征和顏色形狀特征對檳榔、蒼術、地榆等5種飲片的識別準確率達到98%。孫鑫等[14]使用卷積神經(jīng)網(wǎng)絡對自然場景下的50種中藥飲片圖像實現(xiàn)70%的平均識別準確率。
盡管這些中藥飲片圖像識別方法為藏藥材圖像識別提供了重要參考,但是它們大部分都是針對理想環(huán)境下拍攝的單個切片的圖像,導致在復雜背景下拍攝的圖像上的識別效果會顯著下降(識別準確率從90%以上[6-7,12-13]下降到約70%[14])。本文針對復雜背景下拍攝的藏藥切片圖像(見圖1),提出結合傳統(tǒng)紋理特征與深度學習特征的識別模型,并通過引入注意力機制提高模型對復雜背景干擾因素的魯棒性。本文收集了18種藏藥材切片的1620幅圖像,實驗結果表明本文方法在該數(shù)據(jù)集上可以達到81%以上的識別準確率。
在藏藥材切片圖像識別領域,目前尚未存在公開的標準數(shù)據(jù)集,因此難以在相同標準下評估不同方法。之前的研究大多是在理想環(huán)境下拍攝的單個藥材切片圖像數(shù)據(jù)集上進行的,而實際生活中的藥材切片多處于背景復雜或互相堆積嚴重的環(huán)境中,因此它們的研究成果很難應用于自然場景。為進一步拓展藏藥材切片圖像識別的應用范圍,本文收集并建立了一個復雜背景藏藥材切片圖像數(shù)據(jù)集。本文提供的數(shù)據(jù)集來自于西藏自治區(qū)自然博物館和拉薩市特產(chǎn)店拍攝的藏藥材切片圖像以及使用爬蟲[15]通過搜索引擎在互聯(lián)網(wǎng)上爬取的藏藥材切片圖像。爬取的圖片經(jīng)人工篩選,去除了模糊不清或者信息有誤的圖片,再利用圖像處理軟件將圖像大小統(tǒng)一調整為512×512像素。如表1所示,本文收集了18種藏藥材切片的圖像,共計1620張,每一類藏藥材的有效切片圖像為70-100張。數(shù)據(jù)集示例圖像如圖1所示。本文所提供的數(shù)據(jù)集圖像具有不同藥材之間的顏色和形狀高度相似、切片形狀由于藥材采集的時間跨度而不同、部分圖像質量較低等特點。
為了驗證本文提出的注意力引導的深度紋理特征學習(AGDTFL)模型的識別準確率,本文從1620張復雜背景藏藥材切片圖像中單獨挑選了270張建立了復雜測試集。復雜測試集圖像與簡單測試集圖像相比,具有背景顏色與藏藥材切片顏色基本一致、堆疊更加嚴重等特點。復雜測試集與簡單測試集示例圖像如圖2所示。對于藏藥材切片的識別任務,訓練集和測試集分離,按照4∶1的比例將剩余1350張圖像隨機劃分為訓練集和測試集(簡單測試集)。訓練集包含18種藏藥材切片的1080張圖像,測試集(簡單測試集)包含18種藏藥材切片的270張圖像,復雜測試集包含18種藏藥材切片的270張圖像。
圖2 簡單測試集與復雜測試集示例圖像
圖3 AGDTFL模型
復雜背景下藏藥材切片圖像往往存在一些器具、人手等無效信息,如何讓模型摒棄這些無效信息并關注藏藥材切片的紋理信息,是提高模型識別準確率的關鍵。為此,本文提出首先使用分塊局部二值模式(LBP)提取藏藥材切片圖像紋理特征,然后將其作為深度神經(jīng)網(wǎng)絡的輸入,進一步學習深度紋理特征表示。本文采用AlexNet作為骨干網(wǎng)絡(Backbone),為了提高AlexNet網(wǎng)絡對切片圖像的識別準確率,進一步引入注意力機制,形成注意力引導的深度紋理特征學習模型。本文在AlexNet網(wǎng)絡的第一層和卷積層的最后一層加入注意力機制,其結構如圖3所示。將輸入圖像通過多個卷積層和池化層,得到大小為C×H×W的特征圖。C、H、W分別是特征圖的通道數(shù)、高度和寬度。為了實現(xiàn)注意力引導,使用1×1×C卷積濾波器對特征圖進行卷積得到注意力熱力圖,再對注意力熱力圖進行全局最大池化,在注意力熱力圖上選取最大的響應值,就可以得到具有判別特征的區(qū)域。
LBP(Local binary patterns)紋理分析算子由Ojala等[16]首先提出,該算法在對紋理對象的特征提取過程中應用廣泛,其理論及計算相對簡單,且對尺度旋轉和灰度變化不敏感。在藏藥材切片圖像受到光照、角度、互相堆疊遮擋的情況下,LBP算法能夠比較理想的提取出藏藥材切片圖像的紋理特征,提高成藏藥材切片圖像識別的魯棒性和準確率。本文首先將藏藥材切片圖像調整為統(tǒng)一大小,然后將圖像進行LBP分塊提取,有利于充分體現(xiàn)出復雜背景下藏藥材切片圖像的局部特征。本文應用的LBP定義[16]如下:
其中,gc表示像素c在局部鄰域中心點的灰度值gp(p=0,1,…,p-1)表示距中心點距離為R的領域內(nèi)P個采樣像素的灰度值;s(x) 為符號函數(shù);s(gp-gc)為鄰域中的每個周圍像素分配二項式權重2p,將局部鄰域的對比度信息轉換為LBP特征值。本文設定P=8、R=1計算像素周圍8個鄰域的紋理對比度信息,構建一個256維的直方圖,然后將每個直方圖組合成一個特征向量作為最終的LBP特征。
注意力機制(Attention mechanism)源于對人類視覺的大腦信號處理機制的研究。人類大腦在接收外界信息時,并不會將收到的所有信息進行處理,而是只關注較為重要的信息,這有利于過濾干擾信息,從而提高信息處理效率[17]。認知科學中,由于信息處理的瓶頸,當人在面對一個大型復雜場景時,人類會選擇性地關注所有信息的一部分,如顏色突?;蝻L格突變的區(qū)域,同時忽略其他可見的信息即其它相對平凡的地方。計算機視覺中的注意力機制正是借鑒于此,讓網(wǎng)絡從眾多的信息中聚焦重要信息,忽略不重要信息。其最早應用在自然語言處理上,之后延伸到圖像處理領域。由于復雜背景下的藏藥材切片圖像一般包含許多無關信息,對切片圖像進行識別的依據(jù)往往來自于僅占圖像部分的切片紋理特征。本文將注意力機制引入AlexNet網(wǎng)絡中,對復雜背景下的藏藥材切片圖像在紋理特征的關鍵區(qū)域進行聚焦,最終提取出較為精準的關鍵紋理特征信息,進而提高復雜背景下藏藥材切片圖像的識別準確率。本文的注意力機制的單元結構如圖4所示。Squeeze操作將C×H×W的輸入轉變?yōu)?×1×C的輸出,Excitation操作生成通道權重,最后對特征圖進行Scale,獲得通道權重調整后的特征圖。
注意力機制的核心部分由一組1×1×C的卷積濾波器和一個全局最大池化層組成,卷積特征的每個通道對應一個視覺模式,由于缺乏一致性和魯棒性,這些特征不能作為注意力映射[17]。本文采用一組1×1×C卷積濾波器,根據(jù)特征通道的空間關系將特征圖轉化為局部注意力圖[18]。注意力機制的關鍵是加權以及求和,注意力機制中不同的權重比例反映了模型關注度不同的圖像區(qū)域。為了提高計算速度、減少計算參數(shù),采用softmax方法作為輸出特征權重值。
AlexNet在2012年由Hinton和他的學生Alex Krizhevsky提出。AlexNet首次在卷積神經(jīng)網(wǎng)絡(CNN)中成功應用了ReLU、Dropout和LRN等Trick,并使用GPU進行運算加速[19]。AlexNet作為經(jīng)典的CNN,與ResNet、GoogLeNet等模型相比,其網(wǎng)絡結構更簡單,網(wǎng)絡參數(shù)更少[20]。因此,本文用AlexNet網(wǎng)絡進行藏藥材切片圖像的識別。AlexNet網(wǎng)絡輸入圖像的尺寸為(224×224×3),網(wǎng)絡結構分為8層,前5層是卷積層,后3層是全連接層。第一、二層都使用了卷積、ReLU、池化、歸一化操作。第三層和第四層都使用了卷積和ReLU操作。與三、四層相比,第五層多了池化操作,分別為卷積、ReLU和池化。然后將前五層操作后的結果傳遞到神經(jīng)網(wǎng)絡中,在最后三層均使用全連接網(wǎng)絡結構。AlexNet 的提出對卷積神經(jīng)網(wǎng)絡有著重大意義,具有許多優(yōu)點[21]。它成功使用ReLU函數(shù)代替Sigmoid和tanh函數(shù)作為CNN的激活函數(shù)并在全連接層中增加Dropout層,訓練時使用Dropout隨機忽略一部分神經(jīng)元避免模型過擬合,提高了模型的泛化能力;全部使用最大池化,避免平均池化的模糊化效果;使池化核比步長的尺寸大,讓池化層的輸出之間有重疊和覆蓋,提高了特征的豐富性;使用局部響應歸一化層,用競爭機制使神經(jīng)元中響應較大的值變得更大,并抑制反饋較小的神經(jīng)元,增強了模型的泛化能力。
圖4 注意力機制單元
圖5 簡單測試集識別準確率
表2 復雜測試集實驗結果
為驗證本文方法的有效性,本文在收集的復雜背景藏藥材切片圖像數(shù)據(jù)集上進行實驗。首先,將圖像大小調整為256×256像素輸入AlexNet網(wǎng)絡進行訓練,卷積神經(jīng)網(wǎng)絡的結果受多個超參數(shù)影響[22],學習率(Learning rate)代表每次收斂的步長,它決定了收斂的快慢;批尺寸(Batch size)代表每次選取的訓練樣本數(shù)量,它決定了收斂的方向。本文實驗中參數(shù)設定如下:將網(wǎng)絡學習率設置為0.001,權重衰減系數(shù)λ設置為0.0005,批尺寸設置為10。實驗采用隨機梯度下降法進行網(wǎng)絡訓練,設置網(wǎng)絡迭代次數(shù)(Epoch)為500,損失函數(shù)使用CrossEntropyLoss。之后將大小為256×256像素的圖像輸入融入注意力機制的AlexNet網(wǎng)絡,網(wǎng)絡中關于注意力機制的權值都由網(wǎng)絡通過自身學習確定,并通過反向傳播不斷調整權值大小,直到學習到合適的權值以使網(wǎng)絡達到最優(yōu)性能并在相同的實驗參數(shù)下獲得識別準確率。然后將圖像輸入AGDTFL網(wǎng)絡,在相同的實驗參數(shù)下獲得識別準確率。最后在復雜測試集上分別用AlexNet網(wǎng)絡、融入注意力機制的AlexNet網(wǎng)絡、AGDTFL網(wǎng)絡進行識別,測試網(wǎng)絡識別的準確性。
從實驗結果圖5可以看出,在訓練過程中,隨著迭代次數(shù)的增加,網(wǎng)絡模型的識別準確率均逐漸提高并最終趨于穩(wěn)定。但增加了注意力機制的AlexNet網(wǎng)絡模型的識別準確率更高??傮w看來,Attention+AlexNet網(wǎng)絡性能優(yōu)于單一的AlexNet網(wǎng)絡模型。AlexNet網(wǎng)絡模型的識別準確率為73%,而Attention+AlexNet網(wǎng)絡的識別準確率為79%,準確率提升較高。對圖像抽取LBP特征后使用增加了注意力機制的AlexNet網(wǎng)絡模型(AGDTFL,即注意力引導的深度紋理特征學習)的識別準確率為82%,準確率優(yōu)于使用Attention+AlexNet網(wǎng)絡進行識別。在復雜測試集上的實驗結果見表2,與在簡單測試集上獲得的識別準確率相比,AGDTFL網(wǎng)絡模型對復雜背景藏藥材切片圖像的識別更加穩(wěn)定,準確率僅下降1%,而單一的AlexNet與Attention + AlexNet網(wǎng)絡準確率分別下降4%和2%,結果證明LBP算法可以很好的提取復雜背景中藏藥材切片的紋理信息。
特征信息是模型對不同藏藥材切片圖像進行分類的依據(jù),對藏藥材切片圖像中關鍵紋理特征信息的準確提取有助于提高模型的可解釋性。從實驗的分類準確率結果來看,本文提出的AGDTFL網(wǎng)絡模型由于加入了注意力層對復雜背景下藏藥材切片圖像進行識別,獲得了比只使用AlexNet網(wǎng)絡和Attention+AlexNet網(wǎng)絡更高的準確率。本文在測試集上選取了3種復雜背景下藏藥材切片圖像,分別將AlexNet、Attention+AlexNet和AGDTFL網(wǎng)絡模型最后一個卷積層提取到的圖像特征信息進行可視化操作即繪制特征信息的熱力圖[23],結果如圖6所示。模型具體是依據(jù)圖像中的哪些紋理特征信息把復雜背景下藏藥材切片圖像準確識別為正確的藏藥材名稱以及模型分類所依據(jù)的特征信息是否真正來自于圖像中的切片紋理區(qū)域,圖6給予了明確的表示。為便于對比,對于每個特征信息熱力圖,均給出了相應的原始藏藥材切片圖像。其中,熱力圖顏色從藍色過渡到紅色表示特征信息即判圖分類識別依據(jù)越來越重要。
圖6 藏藥材切片圖像特征信息熱力圖
表3 簡單測試集對比實驗結果
圖7 不同模型在復雜測試集上的部分圖像識別結果
從熱力圖中可以明顯看到,AlexNet網(wǎng)絡、融入注意力機制的AlexNet網(wǎng)絡對圖像進行分類識別所依據(jù)的關鍵切片紋理特征有很大的差別。只使用AlexNet網(wǎng)絡時提取的特征信息在大部分集中在復雜背景上,對關鍵的切片紋理特征的聚焦度較低,沒有給關鍵切片紋理特征部位賦予很高的權重,這說明AlexNet網(wǎng)絡雖然能夠對藏藥材切片圖像進行了正確的分類識別但是卻沒有對圖像上關鍵的切片紋理部位進行有效的它特征提取導致圖像識別準確率較低。與AlexNet網(wǎng)絡相比,Attention+AlexNet網(wǎng)絡提取的特征信息的分布比較集中,關鍵的切片紋理特征部位被紅色覆蓋,這說明注意力機制能夠有效地對關鍵的切片紋理特征部位進行聚焦,從而使得Attention+AlexNet網(wǎng)絡對復雜背景下藏藥材切片圖像的識別比AlexNet網(wǎng)絡更加精準。與單純使用Attention+AlexNet網(wǎng)絡相比,AGDTFL網(wǎng)絡提取的特征信息的分布更加集中,關鍵的切片紋理特征部位均被紅色覆蓋,這說明使用LBP特征抽取后,不同藏藥材切片之間的紋理差異更加明顯,從而使得Attention+AlexNet網(wǎng)絡對復雜背景下藏藥材切片圖像的分類識別的準確率比直接將圖像輸入Attention+AlexNet網(wǎng)絡進行識別更加精準。
本部分實驗將所提模型與現(xiàn)有的藥材切片識別方法進行對比分析。結果如表3所示,與其他算法相比,本文提出的算法效果更優(yōu)。RGB+SVM[24]模型在6種對比模型中的準確率最低,由于該模型是對圖像的RGB特征進行提取后再分類,但復雜背景圖像的RGB特征容易隨背景的變化而變化,不能作為可靠的識別特征,因此在復雜背景藏藥材切片圖像數(shù)據(jù)集上,RGB+SVM模型表現(xiàn)一般?,F(xiàn)有的使用VGG16[14]、Inception-V3[8]、LeNet-5[25]、GoogleNet[26]網(wǎng)絡的研究方法在理想環(huán)境下對中藥切片的識別已取得較高的準確率,但通過實驗發(fā)現(xiàn),這些網(wǎng)絡對復雜背景下的藏藥材切片圖像識別準確率均不高。本文所提模型,在對比實驗中的準確率最高。圖7顯示了不同模型在復雜測試集上的識別結果,可以看出AGDTFL網(wǎng)絡與其他模型相比,在背景顏色與藏藥材切片顏色基本一致、堆疊更加嚴重等情況下具有更好的識別準確率。實驗結果表明,本文提出的結合傳統(tǒng)紋理特征(LBP)和深度學習(AlexNet),以及引入注意力機制的方法能有效提升模型在復雜背景藏藥材切片圖像上的識別準確率。
本文利用18種復雜背景下藏藥材切片的1620張圖像,建立了包含標注的數(shù)據(jù)集。本文為了驗證網(wǎng)絡模型的魯棒性,在建立數(shù)據(jù)集時,充分考慮了藥材的顏色和形狀高度相似,拍攝環(huán)境的強光差異,圖像質量高與低,不同形狀和藥材采集的時間跨度等多變化的數(shù)據(jù)。該數(shù)據(jù)集有望為復雜背景下藏藥材切片識別任務提供數(shù)據(jù)基礎,促進基于深度學習的藏藥材識別技術的發(fā)展。本文提出AGDTFL網(wǎng)絡模型去識別復雜背景下的藏藥材切片,在簡單測試數(shù)據(jù)集上的準確率達到82%。這種方法的實驗為藏藥材切片識別研究提供了良好的基準。但是,本實驗的數(shù)據(jù)集中藏藥材圖片的數(shù)量比起標準公開數(shù)據(jù)集CIFAR-10來說較少,提出的模型雖在準確率上取得了提升,但與理想情況下的藥材切片識別相比仍有較大提升空間。在下一步工作中,將進一步擴充本文構建的成品藏藥材數(shù)據(jù)集,并采用無監(jiān)督或半監(jiān)督的方法來解決高成本、大規(guī)模藏藥材切片數(shù)據(jù)集的標注問題。