張忠良,湯建國,喬丹娜,雒興剛*,趙 亮,唐加福
(1.東北大學信息科學與工程學院,沈陽 110819;2.云南中煙工業(yè)有限責任公司技術中心,昆明 650231)
基于代價敏感學習的卷煙感官質量評估方法
張忠良1,湯建國2,喬丹娜2,雒興剛1*,趙亮1,唐加福1
(1.東北大學信息科學與工程學院,沈陽 110819;2.云南中煙工業(yè)有限責任公司技術中心,昆明 650231)
針對卷煙感官評估中存在的代價敏感問題,將基于代價敏感的反饋神經網絡應用于卷煙感官評估中。為了驗證方法的有效性,結合煙草企業(yè)生產實際設置代價矩陣,并利用煙草公司提供的數(shù)據進行了對比試驗。結果表明,與代價不敏感方法相比,本方法在錯分總代價,高代價類別識別率以及平均分類準確率3個方面均有顯著改善。
分類算法;代價敏感;感官評估;神經網絡;卷煙
感官質量評估被廣泛地應用于食品生產和設計中,例如紅酒[1]、卷煙[2]、咖啡[3]和啤酒[4]等。Stone等[5]將感官評估定義為:“感官評估是一門通過視覺、嗅覺、味覺、觸覺和聽覺來喚起、測量、分析以及解釋產品或材料特性的科學學科”。顯然,感官評估依賴于專家的經驗和知識。
目前,煙草及其制品主要通過品煙專家的感官評吸對卷煙產品感官質量進行評價。然而,這種完全依賴人工方式的感官評估存在諸多不足。評估結果容易受到專家知識結構、情感以及周圍環(huán)境等因素的影響,往往帶有模糊性和不精確性,并需要花費大量的時間和財力。而且卷煙感官評估對品煙專家的身體健康會產生一定負面影響。
近年來隨著信息化水平的提高,卷煙企業(yè)積累了大量的數(shù)據。為了克服上述所提到的關于專家評估的不足,相關研究人員開始采用數(shù)據挖掘的手段輔助專家感官評估[6-9]。然而,所有的這些研究都是基于錯分代價一致的前提下展開的。
事實上,在卷煙感官評估中,錯分代價也是不一致的。例如,在新產品的開發(fā)中,錯分可行方案的代價遠遠大于錯分不可行方案,因為錯分符合要求的葉組配方將導致可行方案的流失。另外,將高品質的煙葉錯分為低品質的煙葉的代價也遠遠大于相反情況,因為高品質的煙葉一般為稀缺資源。因此,有必要研究代價敏感的卷煙感官評估方法。本文考慮采用基于代價敏感的神經網絡應用于卷煙感官質量評估中。試驗結果表明,基于代價敏感的神經網絡在錯分總代價、高代價類別識別率以及平均分類準確率3個方面均有顯著改善。利用該方法可以輔助感官評吸工作,減少感官評吸專家的工作量,從而提高煙草企業(yè)在新產品開發(fā)和產品維護中的效率。
1.1材料
試驗數(shù)據來源于國內某煙草集團2010—2012年的成品煙化學成分檢測和感官質量評估結果,共684組數(shù)據。其中化學成分包括總糖量、還原糖、煙堿量、總揮發(fā)堿、總氮量、煙堿氮、蛋白質、施木克值、氮堿比、含氯量、含鉀量、糖堿比、氨態(tài)堿13項指標,作為模型的輸入屬性;感官質量評估指標包括光澤、香氣、諧調、雜氣、刺激性、余味6項,作為模型的輸出屬性。數(shù)據均為多名卷煙感官評估專家評吸后給出的平均結果。每一項指標分別作為決策屬性,因此本文考慮6組數(shù)據集。專家打分依據的感官質量評判標準如表1所示。各感官指標分值原始數(shù)據分布情況如圖1所示。
1.2方法
表1 卷煙感官質量評判標準Table1 Evaluation criteria of cigarette sensory quality
圖1 各感官指標結果分布情況Fig. 1 The distribution of the values of sensory evaluation indices
1.2.2基于代價敏感的神經網絡 本文采用文獻[10]提出的基于代價敏感的神經網絡運用于卷煙感官評估中。在這里作簡單闡述。
過抽樣(Over-sampling):基于代價敏感的過抽樣方法試圖通過改變訓練樣本分布從而使得每個樣本的錯分代價一致。具體地,該技術根據樣本的錯分代價按一定比例復制代價較低的樣本。首先,識別具有最小單位代價的類別。根據文獻[10],使用公式4識別基準類別。
欠抽樣(Under-sampling):和過抽樣策略類似,基于代價敏感欠抽樣技術也是通過改變樣本分布從而使得每個樣本的錯分代價一致。不同的是,這種方法通過刪除代價相對較低的樣本達到這種效果。具體地,同樣根據公式5計算第個類別對應的樣本數(shù)量。在基于代價敏感的欠抽樣方案中,根據公式6識別具有最大單位代價的類別。
在訓練階段,基于閾值偏移的代價敏感神經網絡和傳統(tǒng)的神經網絡沒有區(qū)別,但是在預測階段,前者采用閾值偏移的方式使得輸出結果更偏向于錯分代價較高的類別。
2.1數(shù)據預處理
由于卷煙感官評估結果是由多名專家評分后取平均值得到的,因此我們得到的數(shù)據表中感官指標的數(shù)值不是離散值。另一方面,每個專家基于表1以0.5為分段進行打分,評估結果實際為離散量,因此我們需要對感官結果進行離散化處理。感官評估指標的離散化方法如表2所示。以光澤為例,將得分在[0, 2.75]區(qū)間內的樣本歸為一類,屬于該類的樣本光澤暗淡,然后將(2.75, 3.25]分為一類,以此類推,每隔0.5為一個間隔,最終得到整個區(qū)間的劃分。
表2 卷煙感官指標離散化情況Table2 Description of discretization of cigarette sensory index
由表2方法離散化后的6組數(shù)據集的基本信息如表3所示,由于在表2中某些區(qū)間內不存在樣本,所以表2和表3相應數(shù)據集中的類別數(shù)不一定一致。此外,在進行試驗之前,需要對每一個條件屬性進行歸一化處理,計算如下:
根據文獻[12],本文采用5次5折交叉驗證的方法進行實驗,即試驗時將全部數(shù)據樣本隨機分為5份,每次取其中的4份進行訓練,其余樣本作為測試集,計算錯分代價。重復進行5次這樣的試驗,5次的平均結果作為最終分類器的錯分代價。
表3 感官指標各數(shù)據集信息Table3 Information of sensory evaluation datasets
2.2 代價矩陣設置
我們通過在煙草企業(yè)對卷煙設計和生產過程的調研發(fā)現(xiàn):一方面,卷煙配方感官品質的優(yōu)劣決定該配方用于何種檔次的卷煙生產,卷煙配方的感官品質越好,則對應生產的卷煙價格越高;另一方面,高感官品質的卷煙配方是稀缺的,卷煙配方實際是多個單料煙的混合物,不同單料煙的組合得到的卷煙配方的感官品質是不同的,而高感官品質的卷煙配方往往較難獲得。因此,通過與煙草企業(yè)研究人員進行討論,我們確定了如下的代價矩陣設置原則:當高感官品質的卷煙配方錯分為低品質的卷煙配方時,賦予較高的錯分代價;反之,則賦予單位代價。以香氣為例,假如我們現(xiàn)在有兩個卷煙配方樣本a和b,其對應的香氣指標的分值分別為26和32,如果將樣本b的香氣指標錯誤地預測為26,則我們會錯失一個高香氣品質的卷煙配方,因此賦予較大的錯分代價;反過來,如果將樣本a的香氣指標錯誤地預測為32,只需人工進一步驗證確認即可,不會造成損失,因此賦予較小的錯分代價(單位代價)?;谏鲜鍪聦崳覀儾捎萌缦路绞疆a生代價矩陣:
2.3參數(shù)設置
在本文中,BP神經網絡作為基本分類器訓練基于代價敏感的分類器,神經網絡具有三層結構,在隱含層和輸出層我們均采用‘logsig’作為傳遞函數(shù),隱含層節(jié)點數(shù)設置為10,訓練次數(shù)設置為200。需要說明的是,本文的目的是為了說明基于代價敏感的神經網絡在卷煙感官質量評估中的有效性,為卷煙生產企業(yè)設計開發(fā)智能感官評估系統(tǒng)提供借鑒,因此并沒有進行參數(shù)設置的優(yōu)化,事實上,由于各個企業(yè)歷史數(shù)據和產品的不同,需要根據企業(yè)自身實際情況進行參數(shù)的選擇。
2.4試驗結果
本文采用分類器錯分總代價、高代價類別分類準確率以及平均分類準確率作為衡量不同方法性能的三個指標,其中錯分總代價是指所有錯分樣本所產生的錯分代價,高代價類別分類準確率是指錯分代價最大的類別的預測準確率,平均分類準確率是指各個類別的分類準確率的平均值,因此,錯分總代價越低,高代價類別分類準確率和平均分類準確率越高,說明相應方法的性能越好。所有的結果如表4-表6所示,每行對應數(shù)據集,每列表示相應的分類方法,最后一行代表每個方法的平均值。表中每個數(shù)字表示評價指標值±方差。
表4反映了采用不同代價矩陣情況下,錯分總代價的試驗結果。從試驗結果可以看出,光澤和諧調的錯分總代價相對較小,而其他感官指標的錯分總代價相對較大。對照圖1,原始數(shù)據集中,光澤和諧調的分布規(guī)律明顯,而其他感官指標的分值分布較為模糊,這說明在卷煙感官評估中,光澤和諧調這兩個指標較為容易識別,而其他指標則難度較大。產生這一問題的原因有兩方面:一方面香氣等較難識別的感官指標導致分類器產生的錯分總代價較高;另一方面由于香氣等指標的評估結果分布規(guī)律模糊,在類別屬性離散化過程中可能導致引入了更多的類別屬性噪聲,進一步加劇了識別的難度。因此,在建立基于代價敏感的卷煙感官評估系統(tǒng)時,一方面要不斷提高分類器的性能,另一方面要從數(shù)據源頭抓起,提高歷史數(shù)據的質量,比如香氣等感官指標的評定結果不以多個卷煙評估專家給出的評估結果的平均值出現(xiàn),而是直接給出這些指標的類別檔次信息,從而避免離散化等操作帶來的噪聲問題。
另外,從表4中α的取值可以看出不同的感官指標的錯分代價矩陣是各有特點的。例如諧調、余味和刺激性3個指標的α較小,而其他3個指標的α值較大。較小的α值說明針對這些感官指標,應盡量保持原有樣本的分布;反之,則說明需要突出高代價樣本的識別效果。
表5反映了采用不同代價矩陣情況下,高代價類別分類準確率的試驗結果。結果說明采用基于代價敏感的學習方法,可以有效地提高目標類別的識別率,這對于卷煙產品維護和新產品開發(fā),具有重要的實踐意義。例如需要開發(fā)或者維護的卷煙新產品的香氣目標值為28±0.25,則卷煙設計人員只需將28±0.25設置為錯分代價較高的類別,這樣利用本方法就可以識別出符合要求的卷煙配方,從而大大縮小配方設計人員的搜索范圍,提高工作效率。
表6反映了采用不同代價矩陣情況下,平均分類準確率的實驗結果。平均分類準確率反映了分類器在各個類別上的分類效果??梢钥吹?,當采用Over-sampling和Under-sampling時,光澤,諧調,刺激性以及雜氣這4個感官指標的平均準確率明顯高于香氣和余味兩個感官指標,這說明基于代價敏感的神經網絡在預測高代價類別樣本的同時,也可以更好地預測其他類別的樣本,但是當感官指標達到一定復雜程度時,基于代價敏感的神經網絡的決策更偏向于高代價樣本,從而導致平均預測準確率有所下降。另外,Threshold-moving的平均預測準確率較低,說明該方法在預測卷煙感官指標時更偏向于高代價類別。因此,Over-sampling和Undersampling技術在卷煙感官評估中的效果更好。
表4 錯分總代價試驗結果Table4 Results of misclassification cost
表5 高代價類別分類準確率Table5 Classification accuracy on classes with the highest cost
表6 平均分類準確率Table6 Results of average classification accuracy
本文利用基于代價敏感的神經網絡預測卷煙感官質量,結果表明該方法在錯分總代價、高代價類別的識別率以及平均分類準確率3個指標上均獲得了顯著的效果,尤其在預測高代價類別和平均準確率這兩個指標上,本文方法具有絕對的優(yōu)勢。因此,基于代價敏感學習方法可以有效的識別卷煙感官評估中的高代價樣本。據此,在卷煙新產品開發(fā)和產品維護過程中可以將目標類別設置為較大的錯分代價,從而獲得符合要求的產品配方,對卷煙生產具有實踐意義。
[1] King E S, Dunn R L, Heymann H. The influence of alcohol on the sensory perception of red wines [J]. Food Quality and Preference, 2013, 28(1)∶ 235-243.
[2] Feng T J, Ma L T, Ding X Q, et al. Intelligent techniques for cigarette formula design[J]. Mathematics and Computers in Simulation, 2008, 77(5-6)∶ 476-486.
[3] Borém F M, Ribeiro F C, Figueiredo L P, et al. Fortunato V A, Isquierdo E P, Evaluation of the sensory and color quality of coffee beans stored in hermetic packaging[J]. Journal of Stored Products Research, 2013, 52∶ 1-6.
[4] Ghasemi-Varnamkhasti M, Mohtasebi S S, Rodriguez-Mendez M L, et al. Classification of non-alcoholic beer based on aftertaste sensory evaluation by chemometric tools[J]. Expert Systems with Applications, 2012, 39(4)∶4315-4327.
[5] Zeng X Y, Ruan D, Koehl L. Intelligent sensory evaluation∶Concepts, implementations, and applications [J]. Mathematics and Computers in Simulation, 2008, 77(5-6)∶443-452.
[6] 高大啟,吳守一. 并聯(lián)神經網絡在烤煙內在品質評定中的應用[J]. 農業(yè)機械學報,1999,30(1):58-62.
[7] 邵惠芳,許自成,李東亮,等. 基于BP神經網絡建立烤煙感官質量的預測模型[J]. 中國煙草學報,2011,17(1):19-25.
[8] 王強,陳英武,李孟軍. 基于支持向量機的卷煙質量評估方法[J]. 系統(tǒng)管理學報,2006,15(5):475-478.
[9] 王濤. SVM在配方感官評估中的應用[J]. 微計算機信息,2010(10):236-238.
[10] Zhou Z H, Liu X Y. Training cost-sensitive neural networks with methods addressing the class imbalance problem[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(1)∶ 63-77.
[11] Tomek I. Two modifications of CNN[J]. IEEE Transactions on Systems, Man and Cybernetics, 1976, 6∶769-772.
[12] J G Moreno-Torres, J A Sáez, F Herrera. Study on the Impact of Partition-Induced Dataset Shift on-Fold Cross-Validation, IEEE[J]. Transactions on Neural Networks and Learning Systems, 23 (2012) 1304-1312.
A Method for Cigarette Sensory Quality Evaluation Based on Cost-sensitive Learning
ZHANG Zhongliang1, TANG Jianguo2, QIAO Danna2, LUO Xinggang1*, ZHAO Liang1, TANG Jiafu1
(1. College of Information Science and Engineering, Northeastern University, Shenyang 110819, China; 2. Technology Center, China Tobacco Yunnan Industrial Co., Ltd., Kunming 650231, China)
Arming at the cost-sensitive problems in cigarette sensory evaluation, Cost-Sensitive Back-Propagation Neural Networks(CSBPNN) was employed in this paper to deal with the problems derived from cigarette sensory evaluation. In order to verify the effectiveness of our methodology, the cost matrix was obtained based on production practice and the comparative experimental study was carried out by using dataset from a tobacco company. The experimental results indicated that our methods have a significant advantage on total misclassification cost, high cost label recognition rate and average classification accuracy when compared with the cost-insensitive methods.
classification algorithm; cost-sensitive; sensory evaluation; neural network; cigarette
TS41+1
1007-5119(2016)05-0075-07
10.13496/j.issn.1007-5119.2016.05.014
國家自然科學基金面上項目“基于QFD和數(shù)據挖掘的卷煙產品葉組配方優(yōu)化關鍵技術研究”(61273204)
張忠良(1986-),在讀博士研究生,研究方向:數(shù)據挖掘。E-mail:zzl19860210@126.com。*通信作者,E-mail:xgluo@mail.neu.edu.cn
2015-12-30
2016-08-09