王一海
(南京信息職業(yè)技術(shù)學(xué)院數(shù)字商務(wù)學(xué)院,江蘇 南京 210023)
近年來(lái),隨著人工智能、大數(shù)據(jù)等新興技術(shù)的迅速發(fā)展,促進(jìn)了電子商務(wù)產(chǎn)業(yè)鏈的發(fā)展,零售業(yè)的諸多環(huán)節(jié)發(fā)生了顯著變化。零售業(yè)已經(jīng)成為人工智能等新興技術(shù)的典型應(yīng)用場(chǎng)景,以深度學(xué)習(xí)為基礎(chǔ)的人臉識(shí)別、語(yǔ)音對(duì)話、商品識(shí)別等人工智能技術(shù)正在探索如何應(yīng)用于刷臉支付、以圖搜圖、智能購(gòu)物等場(chǎng)合[1-3]。
商標(biāo)作為一個(gè)公司、組織、品牌、產(chǎn)品獨(dú)一無(wú)二的符號(hào),商家可以通過(guò)搜索、識(shí)別相關(guān)的商標(biāo),來(lái)分析其品牌在整個(gè)市場(chǎng)中的發(fā)展情況以及未來(lái)的發(fā)展趨勢(shì),同時(shí)可以幫助廣告商來(lái)檢查廣告的有效性,以及是否存在版權(quán)侵權(quán)方面的問(wèn)題。然而,由于互聯(lián)網(wǎng)圖片、視頻數(shù)據(jù)的規(guī)模急劇增長(zhǎng),圖片和視頻中的產(chǎn)品商標(biāo)的有效智能鑒別,已經(jīng)成為一個(gè)不可回避的問(wèn)題。
商標(biāo)中包含文本、符號(hào)和圖形等元素,目前商標(biāo)檢測(cè)中存在的主要難點(diǎn)包括:商標(biāo)在圖片中的位置、角度是不確定的,由于自然場(chǎng)景中各種印刷、照明、遮擋、旋轉(zhuǎn)、裁剪、大小等因素,商標(biāo)存在著很大變化,并且商標(biāo)的類(lèi)內(nèi)差異比較大,類(lèi)間差異有的會(huì)比較小,容易帶來(lái)誤檢。文獻(xiàn)[4]在商標(biāo)識(shí)別中采用了一種基于Hu 修正矩的特征提取算法,該方法針對(duì)商標(biāo)的多種狀態(tài),比如旋轉(zhuǎn)、縮放或平移時(shí),所得到的修正矩值基本保持不變,具有一定的穩(wěn)定性。針對(duì)商標(biāo)識(shí)別過(guò)程中資源要求過(guò)高的問(wèn)題,文獻(xiàn)[5]研究了一種基于計(jì)算遷移的商標(biāo)識(shí)別方法,該方法用于智能終端對(duì)商標(biāo)的識(shí)別,將任務(wù)節(jié)點(diǎn)的執(zhí)行位置由應(yīng)用成本圖輔導(dǎo)決策,實(shí)現(xiàn)了商標(biāo)識(shí)別應(yīng)用過(guò)程的計(jì)算遷移,降低了終端能耗。文獻(xiàn)[6]針對(duì)鐳射煙標(biāo)的識(shí)別問(wèn)題,通過(guò)光譜反射率判斷主體顏色信息,并計(jì)算色差平均值。
本文基于BP 構(gòu)建全連接前向反饋神經(jīng)網(wǎng)絡(luò)的商標(biāo)鑒別系統(tǒng),對(duì)一定規(guī)模的測(cè)試集商標(biāo)進(jìn)行鑒別測(cè)試,構(gòu)建預(yù)測(cè)模型,加載進(jìn)網(wǎng)絡(luò)進(jìn)行迭代訓(xùn)練,從而對(duì)網(wǎng)絡(luò)的預(yù)測(cè)能力進(jìn)行評(píng)估,進(jìn)行對(duì)商標(biāo)更準(zhǔn)確的鑒別。
如圖1 所示,DNN 基本結(jié)構(gòu)由三部分組成:輸入層、隱含層和輸出層。這些層均采用全連接神經(jīng)網(wǎng)絡(luò)(FNN)[7],其中各層的每個(gè)神經(jīng)元都與前一層的所有神經(jīng)元相連。因此,前一層神經(jīng)元的輸出就是下一層神經(jīng)元的輸入,每個(gè)連接都有一個(gè)加權(quán)值w。每次迭代的目標(biāo)是更新這些權(quán)重,以便預(yù)測(cè)結(jié)果更接近模擬數(shù)據(jù)。同一層的神經(jīng)元之間沒(méi)有連接。在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程中,學(xué)習(xí)損失是向后傳播的,可以用均方誤差或線性誤差來(lái)測(cè)量。
圖1 神經(jīng)網(wǎng)絡(luò)基本架構(gòu)
本文的研究中,神經(jīng)網(wǎng)絡(luò)框架構(gòu)造為多維輸入和一維輸出。當(dāng)我們?cè)黾訉拥臄?shù)量和大小時(shí),網(wǎng)絡(luò)的體量就會(huì)增加,這意味著神經(jīng)元可以協(xié)作來(lái)表達(dá)更復(fù)雜的功能。然而,較大的網(wǎng)絡(luò)雖然帶來(lái)較強(qiáng)的擬合能力,但也帶來(lái)了負(fù)面影響,即過(guò)擬合[8]。過(guò)擬合是指網(wǎng)絡(luò)對(duì)數(shù)據(jù)中的噪聲有較強(qiáng)的擬合能力,而沒(méi)有充分考慮數(shù)據(jù)集之間的本征關(guān)系[9]。我們采用的策略是使用正則化技術(shù)來(lái)控制過(guò)度學(xué)習(xí)同時(shí)確保大型網(wǎng)絡(luò)的擬合能力[10-11]。
根據(jù)第1 節(jié)提出的基本神經(jīng)網(wǎng)絡(luò)架構(gòu),我們搭建了一個(gè)專(zhuān)用于識(shí)別判斷商標(biāo)真?zhèn)涡畔⒌娜B接前向反饋神經(jīng)網(wǎng)絡(luò),輸入為根據(jù)圖片信息提取出的128 pixel×128 pixel 灰度數(shù)據(jù)值,輸出為包含商標(biāo)真?zhèn)涡畔⒌膯沃禂?shù)據(jù)。圖2 展示了我們的商標(biāo)鑒別模型的設(shè)計(jì)流程圖。
圖2 商標(biāo)鑒別系統(tǒng)設(shè)計(jì)流程圖
本文采用的原始數(shù)據(jù)為20 個(gè)品牌的正版商標(biāo)及其對(duì)應(yīng)的20 個(gè)盜版商標(biāo),圖片數(shù)據(jù)格式為JPG,分辨率為400 pixel×400 pixel。我們將神經(jīng)網(wǎng)絡(luò)的層數(shù)設(shè)為8,每一層神經(jīng)元的個(gè)數(shù)配比分別為2 048,1 024,512,128,64,32,16,8,每層隱藏層的激活函數(shù)為tanh 函數(shù),而輸出層的激活函數(shù)為softmax函數(shù),輸出獨(dú)立編碼判斷真?zhèn)蔚膯沃怠?/p>
圖3 商標(biāo)鑒別網(wǎng)絡(luò)系統(tǒng)流程圖
目前,神經(jīng)網(wǎng)絡(luò)最常用的激活函數(shù)有Sigmoid、雙曲正切(tanh)和整流線性單元(ReLu)[12-13]。如圖4所示,我們采用8 層隱含層,每一層神經(jīng)元的個(gè)數(shù)配比分別為2 048,1 024,512,128,64,32,16,8 的全連接神經(jīng)網(wǎng)絡(luò),研究在10 000 次的前100 次迭代中,各激活函數(shù)對(duì)網(wǎng)絡(luò)學(xué)習(xí)效率的影響。經(jīng)過(guò)近10 000 次迭代后,各激活函數(shù)的訓(xùn)練損失明顯降低,而tanh 的損失值最低。這些結(jié)果表明,tanh 更適合我們的非線性數(shù)據(jù)模型,在本文中選擇tanh 作為激活函數(shù)。
圖4 激活函數(shù)對(duì)網(wǎng)絡(luò)學(xué)習(xí)效率影響對(duì)比圖
訓(xùn)練中使用的優(yōu)化算法為梯度下降算法[14-15]。梯度下降算法中的學(xué)習(xí)速率和步長(zhǎng),可以用來(lái)控制權(quán)值更新的速度。我們使用變學(xué)習(xí)率的訓(xùn)練方法[16-17]:在每次訓(xùn)練中,學(xué)習(xí)率從0.001 開(kāi)始減小,步長(zhǎng)為0.000 5。如圖5 所示,與傳統(tǒng)的訓(xùn)練方法相比,這種訓(xùn)練模式可以幫助網(wǎng)絡(luò)更快地收斂到目標(biāo)函數(shù)的最小值。
圖5 訓(xùn)練方法對(duì)比圖
在系統(tǒng)測(cè)試中我們使用均方誤差(mean square erro,MSE)來(lái)衡量網(wǎng)絡(luò)的擬合能力,最終訓(xùn)練結(jié)束后訓(xùn)練損失的MSE 值下降到了1×10-8,證明我們的網(wǎng)絡(luò)能夠準(zhǔn)確擬合出商標(biāo)圖像數(shù)據(jù)和商標(biāo)真?zhèn)沃抵g的關(guān)系式。為了驗(yàn)證網(wǎng)絡(luò)的預(yù)測(cè)能力,我們準(zhǔn)備了一組測(cè)試商標(biāo)數(shù)據(jù)輸入網(wǎng)絡(luò),如圖6 所示,網(wǎng)絡(luò)精確地判斷出了商標(biāo)的真?zhèn)涡畔ⅰ?/p>
圖6 網(wǎng)絡(luò)預(yù)測(cè)結(jié)果測(cè)試示意圖
新技術(shù)在零售終端、物流環(huán)節(jié)的應(yīng)用,可以產(chǎn)生有價(jià)值的數(shù)據(jù)。將這些海量的數(shù)據(jù)進(jìn)行收集、監(jiān)測(cè)以及分析,可以幫助企業(yè)更加有針對(duì)性地進(jìn)行店鋪運(yùn)營(yíng)和消費(fèi)者管理。本文系統(tǒng)地構(gòu)建了基于BP 全連接前向反饋神經(jīng)網(wǎng)絡(luò)的商標(biāo)鑒別系統(tǒng)。從對(duì)測(cè)試數(shù)據(jù)集的實(shí)證結(jié)果看,本系統(tǒng)具有較強(qiáng)的學(xué)習(xí)擬合能力和自適應(yīng)能力,具有較高的合理性和適用性。此方法不僅可以擬合真?zhèn)紊虡?biāo)和其像素?cái)?shù)據(jù)值之間的關(guān)系,而且還能夠很好地避免人為鑒別過(guò)程中的不確定性,在最大程度上縮小了人為因素及模糊性的影響,提高了鑒別的可靠性,鑒別結(jié)果也更迅速準(zhǔn)確。
當(dāng)然,本文所提出的基于BP 全連接前向反饋神經(jīng)網(wǎng)絡(luò)的商標(biāo)鑒別系統(tǒng)在實(shí)際中也存在著一些不足,主要表現(xiàn)在BP 神經(jīng)網(wǎng)絡(luò)模型要求有較多數(shù)量的學(xué)習(xí)樣本,學(xué)習(xí)樣本的數(shù)量和質(zhì)量也在很大程度上影響著神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)效率和最終鑒別結(jié)果;其次,指標(biāo)的合理性還需要進(jìn)一步證明,本文的實(shí)證部分主要針對(duì)一組測(cè)試集商標(biāo),測(cè)試集規(guī)模較小,而當(dāng)運(yùn)用到不同尺寸、不同分辨率的商標(biāo)鑒別時(shí),鑒別結(jié)果的合理性需要做深入探討。因此,針對(duì)上述的問(wèn)題與不足還應(yīng)當(dāng)進(jìn)一步深入研究。