史波林,趙 鐳,*,汪厚銀,支瑞聰,奐 暢,云戰(zhàn)友,蘇玉芳
感官分析評價(jià)小組及成員表現(xiàn)評估技術(shù)動態(tài)分析
史波林1,趙 鐳1,*,汪厚銀1,支瑞聰1,奐 暢2,云戰(zhàn)友3,蘇玉芳3
(1.中國標(biāo)準(zhǔn)化研究院食品與農(nóng)業(yè)標(biāo)準(zhǔn)化研究所,北京 100191;2.上海大學(xué)計(jì)算機(jī)工程與科學(xué)學(xué)院,上海 200444;3.內(nèi)蒙古伊利實(shí)業(yè)集團(tuán)股份有限公司技術(shù)中心,內(nèi)蒙古 呼和浩特 010110)
作為感官評價(jià)儀器的“評價(jià)員/評價(jià)小組”是獲得可靠感官分析數(shù)據(jù)的關(guān)鍵,其性能表現(xiàn)評估技術(shù)是有效管理該儀器的重要手段。本文將信度與效度作為該“儀器”的評估指標(biāo),發(fā)現(xiàn)21世紀(jì)以后該類研究進(jìn)入高峰期,其超過85%的研究成果發(fā)表于Food Quality and Preference與Journal of Sensory Studies這兩個感官研究類權(quán)威雜志中,其中歐美國家在此技術(shù)中占主導(dǎo)地位。透過技術(shù)內(nèi)容發(fā)現(xiàn),基于定量描述能力的評價(jià)小組及成員性能表現(xiàn)評估技術(shù)研究頻繁并趨于成熟,技術(shù)手段重點(diǎn)采用單參數(shù)或多參數(shù)方差分析、多元統(tǒng)計(jì)方法(主成分分析、廣義普羅克分析等),涌現(xiàn)了以PanelCheck、Compusense Five等為代表的評估軟件,同時(shí)國際標(biāo)準(zhǔn)化組織和美國材料與試驗(yàn)協(xié)會機(jī)構(gòu)也進(jìn)入相關(guān)標(biāo)準(zhǔn)研制階段。而有關(guān)差別與排序的評估技術(shù)研究相對缺乏。本文提出性能評估所用樣品性質(zhì)及數(shù)量、性能評估所用數(shù)據(jù)表現(xiàn)形式、性能評估感官實(shí)驗(yàn)設(shè)計(jì)要求、性能評估期望值及置信區(qū)間、性能評估所用感官分析方法選擇、性能評估的數(shù)學(xué)統(tǒng)計(jì)方法選擇等關(guān)鍵要素將成為該領(lǐng)域未來努力的方向,并有助于形成統(tǒng)一的、系統(tǒng)的感官分析評價(jià)小組及成員表現(xiàn)評估技術(shù)規(guī)范。
感官分析;評價(jià)小組;評價(jià)員;性能評估
感官分析是用于喚起、測量、分析和解釋產(chǎn)品通過視覺、嗅覺、觸覺、味覺和聽覺所引起反應(yīng)的一種科學(xué)方法[1]。其原始測量數(shù)據(jù)直接來源于感官分析儀器“評價(jià)小組及其評價(jià)員”的評價(jià)結(jié)果。經(jīng)過篩選和培訓(xùn)的“儀器”具有更好的靈敏度、更穩(wěn)定的評價(jià),表現(xiàn)出更好的重復(fù)性和再現(xiàn)性,體現(xiàn)出更小的變異性[2]。然而,人不是模式化的、相對封閉的物理性機(jī)器,而是主動的、開放的、發(fā)展的、變化的生物體系[3],易受生理因素(如感官適應(yīng)、感覺增強(qiáng)、協(xié)同或抑制等)、心理因素(如期望誤差、刺激誤差、時(shí)序誤差、光環(huán)效應(yīng)等)和環(huán)境因素(如評價(jià)間的溫度、濕度、噪聲、光線等)等影響[4],使得對食品感官性狀鑒別有爭議時(shí)往往難以下結(jié)論,從而影響感官評價(jià)結(jié)果的準(zhǔn)確性、客觀性和一致性。
同樣作為一門測量技術(shù)的感官分析,也像其他分析檢測一樣要求其測量結(jié)果的信度與效度[5]。其中信度為同一被測樣在相同的實(shí)驗(yàn)條件下應(yīng)該得到相近的結(jié)果,體現(xiàn)結(jié)果精密性,反應(yīng)結(jié)果的可信度或可靠性或穩(wěn)定性。在感官評價(jià)中,信度包含重復(fù)性與再現(xiàn)性。重復(fù)性為同一評價(jià)員或評價(jià)小組在相同時(shí)間(包括同天、同月等)、相同環(huán)境下對同一樣品重復(fù)感官評價(jià)結(jié)果的離散情況;再現(xiàn)性為評價(jià)小組內(nèi)部不同評價(jià)員之間或不同評價(jià)小組之間對同一樣品感官評價(jià)結(jié)果的離散情況。而效度是指測量工具或手段能夠準(zhǔn)確測出所需測量事物的正確程度,即測量結(jié)果與要考察內(nèi)容內(nèi)在特征的一致程度,體現(xiàn)結(jié)果的準(zhǔn)確性或正確性,反應(yīng)結(jié)果的有效性。感官評價(jià)檢測中的效度為評價(jià)員或評價(jià)小組單次測量與被測內(nèi)容本質(zhì)的一致性,即為評價(jià)員測試結(jié)果與理論值或評價(jià)小組得出的最優(yōu)估計(jì)值的離散情況,以及評價(jià)小組測試結(jié)果與理論值的離散情況。
為了保證感官檢驗(yàn)結(jié)果的可靠性、重復(fù)性和準(zhǔn)確性,需要對人的感官能力提出嚴(yán)格的要求,進(jìn)而才能在可控的條件下規(guī)范化地開展感官檢驗(yàn)活動[6]。感官評價(jià)員及評價(jià)小組的表現(xiàn)評估技術(shù)是體現(xiàn)“儀器”可用性特點(diǎn)的技術(shù)保障,它能指導(dǎo)評價(jià)小組與評價(jià)員在投入使用前進(jìn)行校準(zhǔn)并達(dá)到要求的精確度,也能幫助評價(jià)小組與評價(jià)員在使用一定周期后進(jìn)行定期檢定以符合檢測的規(guī)范要求,保證檢測結(jié)果的有效性或正確性。該技術(shù)是實(shí)現(xiàn)感官評價(jià)數(shù)據(jù)價(jià)值的關(guān)鍵保障,是反映感官分析實(shí)驗(yàn)室檢測能力水平的重要手段,是構(gòu)成感官分析實(shí)驗(yàn)室能力建設(shè)與認(rèn)可的主要內(nèi)容。因此,感官分析實(shí)驗(yàn)室的評價(jià)小組及成員表現(xiàn)評估技術(shù)能有效管理“感官分析儀器”以保持良好的狀態(tài),達(dá)到通過該儀器檢測所獲得數(shù)據(jù)的可靠性,保證感官分析科研、實(shí)驗(yàn)和生產(chǎn)的需要,也有力助推感官分析技術(shù)的廣泛應(yīng)用。
針對理化檢測儀器設(shè)備性能評估及其實(shí)驗(yàn)室間能力比對技術(shù)已相當(dāng)成熟,并形成了系列規(guī)范技術(shù)體系,如《檢測和校準(zhǔn)實(shí)驗(yàn)室能力認(rèn)可準(zhǔn)則》[7]、《檢測和校準(zhǔn)實(shí)驗(yàn)室能力認(rèn)可準(zhǔn)則在化學(xué)檢測領(lǐng)域的應(yīng)用說明》[8]、《能力驗(yàn)證規(guī)則》[9]、《檢測和校準(zhǔn)實(shí)驗(yàn)室能力的通用要求》[10]等,就儀器設(shè)備校準(zhǔn)與檢定、儀器設(shè)備期間核查、實(shí)驗(yàn)室能力比對與驗(yàn)證、設(shè)備維護(hù)、設(shè)備量值溯源、測量不確定度等均有詳細(xì)說明與規(guī)定。
然而這些文件中的規(guī)定與方法不適用于感官評價(jià)小組及成員的表現(xiàn)評估及能力比對,圖1對比了基于理化的儀器測量與基于心理的感官測量的特征區(qū)別。感官評價(jià)是基于感覺差別的一種心理測量,屬于實(shí)驗(yàn)心理學(xué)的范疇,是一種基于樣品間相對差別的比較檢驗(yàn)和測量,而不是理化檢驗(yàn)中的絕對物理量的測量[11]。因此,感官評價(jià)活動可分成有無差別、差別程度與差別方向這3 個層次測量。具體包括不同樣品之間整體品質(zhì)和特定感官屬性的差別檢驗(yàn)、樣品感官特性強(qiáng)度與消費(fèi)者喜好的標(biāo)度檢驗(yàn)、產(chǎn)品評分和分等分級的類別檢驗(yàn)、以及感官質(zhì)量特征確定的描述性分析檢驗(yàn)等[12]。這些檢測結(jié)果的數(shù)據(jù)特征分別為:名義數(shù)據(jù)(如:有無差異或分類)、順序數(shù)據(jù)(如:從弱到強(qiáng)的排序)、數(shù)值數(shù)據(jù)(如:評分或定量描述)。由此,儀器測量與感官測量在信度與效度的評估技術(shù)方面有很大的不同。
圖1 儀器測量與感官測量的特征比較Fig.1 Comparison of features between instrumental and sensory testing
通過Elsevier、Springer Link、Wiley-Blackwell、EBSCOhost、ACS、CUP等數(shù)據(jù)庫檢索到86 篇(1979—2014年)有關(guān)評價(jià)員及評價(jià)小組表現(xiàn)評估技術(shù)的SCI收錄論文。從發(fā)表論文的總量上講,是研究很窄的一個方向。為了進(jìn)一步把握在此方向上研究的風(fēng)向標(biāo),按照研究時(shí)間分析熱門年度,從論文來源上分析成果出處以及根據(jù)研究的區(qū)域性分析核心團(tuán)隊(duì)等。
早在1979年美國的Hovenden等[13]采用8點(diǎn)標(biāo)度感官分析牛柳品質(zhì)時(shí)涉及到評價(jià)小組的重復(fù)性與差異性問題,并認(rèn)為評價(jià)小組的穩(wěn)定性好于評價(jià)員個體。但在20世紀(jì)90年代對評價(jià)員及評價(jià)小組表現(xiàn)評估研究才真正進(jìn)入萌芽階段并逐漸展開,在此期間累計(jì)發(fā)表論文20 篇(圖2),并于1998年單年發(fā)表7 篇相關(guān)論文而達(dá)到高峰。進(jìn)入21世紀(jì)相關(guān)研究全面發(fā)展、不斷深入,并且在2006年后發(fā)展更為活躍,特別是2008年單年發(fā)表論文8 篇。雖然2006—2010年屬于研究高峰期(發(fā)表論文24 篇),但2010年后還是有研究者繼續(xù)相關(guān)技術(shù)研究,并越來越系統(tǒng)與成熟,同時(shí)陸續(xù)研制國際標(biāo)準(zhǔn)化組織(International Organization for Standardization,ISO)與美國材料與試驗(yàn)協(xié)會(American Society for Testing and Materials,ASTM)相關(guān)標(biāo)準(zhǔn)。
圖2 發(fā)表論文年度分布圖Fig.2 Annual distribution diagram of the published papers
圖3 發(fā)表論文雜志出處分布圖Fig.3 The journals in which the papers were published
在所檢索到的87 篇文章中,85%以上發(fā)表于目前展示感官科學(xué)相關(guān)研究成果最為權(quán)威的Food Quality and Preference(43 篇)與Journal of Sensory Studies(31 篇)這兩個雜志中(圖3),由此說明這兩個雜志 中所發(fā)表的文章代表了評價(jià)員及小組表現(xiàn)評估技術(shù)的發(fā)展歷史、現(xiàn)有研究水平及未來的發(fā)展趨勢,同時(shí)每個時(shí)間段前者幾乎都比后者的發(fā)表文獻(xiàn)多(除了2001—2005年)(圖4)。不過其他文章也發(fā)表在如Journal of Chemometrics、Food Control、European Food Research Technology、LWT-food Science and Technology、Journal of the Science of Food and Agriculture、Journal of Food Science等知名的食品與化學(xué)計(jì)量學(xué)領(lǐng)域相關(guān)雜志中。
圖4 在Food Quality and Preference與Journal of Sensory Studies發(fā)表論文年度分布表Fig.4 Annual distribution diagram of papers published in Food Quality and Preference and Journal of Sensory Studies
圖5 發(fā)表論文第一作者所屬國家分布表Fig.5 The first author’s countries of the published papers
對發(fā)表文章第一作者所在國的歸類,發(fā)現(xiàn)歐美在該技術(shù)研究中占主導(dǎo)地位,因?yàn)樗麄兪歉泄倏茖W(xué)研究的發(fā)源地,也是感官分析技術(shù)應(yīng)用頻繁的葡萄酒、化妝品、其他食品等工業(yè)非常發(fā)達(dá)的國家。特別是挪威(14 篇)、法國(13 篇)、美國(12 篇)、西班牙(9 篇)、荷蘭(8 篇)、丹麥(6 篇)、英國(5 篇)等國家(圖5)。在國際上一直致力于這方面研究的科研團(tuán)隊(duì)主要為來自挪威的N?s(10篇)[14-23]與Lea(3篇)[15,24-25]、英國的McEwan(5篇)[24-28]、丹麥的Martens(5篇)[19,29-32]與Brockhoff(4篇)[33-36]、美國的Bi(4篇)[37-40]、匈牙利的Kókai(3篇)[41-43]等7個團(tuán)隊(duì)(按照發(fā)表論文參與作者統(tǒng)計(jì))。當(dāng)然這些研究團(tuán)隊(duì)也研究其他感官分析技術(shù)內(nèi)容。同時(shí)發(fā)現(xiàn)作為研究非?;钴S的法國,居然沒有一個相對固定的團(tuán)隊(duì)長期致力于這方面的研究,因?yàn)闆]有一位法國學(xué)者在這方面的發(fā)表論文數(shù)大于等于2 篇。
而國內(nèi)在這方面的研究比較落后,這跟我國感官分析技術(shù)發(fā)展水平息息相關(guān)。目前只有3 篇相關(guān)文獻(xiàn)報(bào)道。其中李華等[44]在葡萄酒感官評價(jià)結(jié)果的統(tǒng)計(jì)分析方法研究中發(fā)現(xiàn),品酒員間存在評價(jià)尺度、評價(jià)位置和評價(jià)方向等方面的差異,而標(biāo)準(zhǔn)化法不僅沒有消除品酒員間的異質(zhì)性,反而加大了品酒員間的差異;而置信區(qū)間法能有效地降低品酒員間的差異,真實(shí)地反映酒樣間的客觀差異。蘇玉華等[45]利用灰色關(guān)聯(lián)性分析兩組評酒員的葡萄酒感官評價(jià)結(jié)果的顯著性差異,通過克朗巴哈α系數(shù)(Cronbach’s alpha coefficient)分析每組評酒員評價(jià)結(jié)果的可信度。常玉梅等[46]在豆腐干質(zhì)構(gòu)感官分析及評價(jià)小組能力評估研究中,通過計(jì)算信噪比變化趨勢分析了培訓(xùn)過程中評價(jià)小組的表現(xiàn);采用Panel Check軟件[21],評估了培訓(xùn)后的評價(jià)小組一致性、評價(jià)員區(qū)分能力和重復(fù)性。
儀器測量的評估方法有很多可借鑒的技術(shù)。目前有關(guān)評價(jià)員及評價(jià)小組表現(xiàn)評估技術(shù)的研究,基本上都圍繞具有量值特征的描述性分析方面。因?yàn)樵摳泄俜治鲈u價(jià)方法所獲得檢測數(shù)據(jù)是定量的,能最大程度參考理化儀器的性能評估方法,其技術(shù)方法特征主要包括定性與定量分析方法、單變量與多變量方法、參數(shù)與非參數(shù)方法、分析型與圖表型方法、傳統(tǒng)計(jì)算與計(jì)算機(jī)軟件評估法[40]。在研究的應(yīng)用方面各有側(cè)重,包括實(shí)驗(yàn)室間多個評價(jià)小組結(jié)果的比對[27,47-48]、評價(jià)小組內(nèi)異常評價(jià)員分析技術(shù)[22,35]、評價(jià)小組結(jié)果可靠性(重復(fù)性、一致性等單一評價(jià)內(nèi)容或綜合評價(jià))[2,23,49]和基于性能的評價(jià)隊(duì)伍長期監(jiān)測[50-52]等。但其技術(shù)核心大多是基于方差分析的統(tǒng)計(jì)方法與基于多元統(tǒng)計(jì)方法兩個方面。
3.1 基于方差分析的性能評估技術(shù)動態(tài)
在方差分析方法使用方面,具有代表性的首先是長期致力于混合評價(jià)員模型(mixed assessor model,MAM)研究的Brockhoff等[33-36],針對定量性描述分析檢驗(yàn),在多因素方差分析方法的基礎(chǔ)上增加了評價(jià)員標(biāo)度使用影響因素,提出了MAM評估評價(jià)小組及成員區(qū)分能力、一致能力、重復(fù)能力和標(biāo)度能力的方法。Pineau等[53]采用了均方根誤差(RMSE)、相對預(yù)測誤差(REP)等性能評估參數(shù),建立同時(shí)監(jiān)測評價(jià)小組及成員表現(xiàn)的混合模型,由監(jiān)測圖直觀展現(xiàn)評價(jià)員性能的動態(tài)表現(xiàn)與異常評價(jià)值。Etaio等[51]在紅酒感官質(zhì)量控制中,考察了評價(jià)員對參比樣和樣品特征的識別力,樣品間特征的區(qū)別力、重復(fù)性、再現(xiàn)性;對于評價(jià)小組重點(diǎn)評估產(chǎn)品品質(zhì)評分與辨別、感官特性識別與區(qū)分方面的重復(fù)性和再現(xiàn)性指標(biāo);但其主要統(tǒng)計(jì)方法都為方差分析。
3.2 基于多元統(tǒng)計(jì)方法的性能評估技術(shù)動態(tài)
其實(shí)在多元統(tǒng)計(jì)方法使用方面,早在20世紀(jì)初King等[54]就比較了聚類分析(CA)、一致性分析、主成分分析(PCA)、GRAPES法4 種方法對評價(jià)小組的性能評價(jià),研究得出互相組合使用最為理想,但研究中并未提到評價(jià)小組結(jié)果與產(chǎn)品特征最優(yōu)估計(jì)值或期望值的一致性問題。Castura等[50]提出采用4 種與產(chǎn)品感官特征期望值的距離檢測分析描述性評價(jià)小組能力監(jiān)控。N?s等[14,19-21]也長期研究評價(jià)小組及成員評估技術(shù),并開發(fā)了針對感官剖面數(shù)據(jù)的評價(jià)小組性能分析軟件(PanelCheck),主要采用經(jīng)典方差分析(ANOVA)、PCA、多因素分析(MFA)、廣義普羅克分析(GPA)等方法用于實(shí)驗(yàn)室內(nèi)外部的感官分析能力驗(yàn)證,并通過Profile、Tucker-1、Manhattan、MSE、F值等多種可視化圖來展現(xiàn)評價(jià)性能。
3.3 針對描述性分析的性能評估軟件動態(tài)分析
目前市面上有多款評價(jià)小組及評價(jià)員性能表現(xiàn)評估方面的軟件。其中前面提到的PanelCheck軟件最具有代表性、針對性和實(shí)用性。荷蘭OP&P公司的Senstools軟件主要采用方差分析與多元統(tǒng)計(jì)分析(PCA、GPA、MDPref、聚類分割法等)。而法國Biosystemes公司FIZZ不如前面兩款軟件全面和專業(yè),它主要應(yīng)用在質(zhì)地描述分析中,通過對樣品屬性的統(tǒng)計(jì),順帶對評價(jià)員的區(qū)別能力進(jìn)行檢測。加拿大Compusense公司的Compusense Five軟件是在感官評價(jià)實(shí)驗(yàn)設(shè)計(jì)計(jì)算機(jī)管理軟件的基礎(chǔ)上升級的,其含有2-way ANOVA、Friedman分析、Tukey’s HSD、Fisher’s LSD、Duncan’s Multiple Range檢驗(yàn)與Crosstabulations等各種數(shù)學(xué)統(tǒng)計(jì)方法,專門應(yīng)用于排序能力與定向描述分析能力的 評價(jià)員及小組性能評估[50]。相關(guān)的軟件還有挪威Camo公司的Unscrambler[55]、荷蘭Logic8 BV公司的EyeQuestion與美國Tragon公司的Tragon QDA[56]。同時(shí)一些數(shù)據(jù)統(tǒng)計(jì)軟件也可以應(yīng)用于此領(lǐng)域,比如Senpaq、SAS、SPSS、Excel(特別是帶有XLStat輔助工具的)等。
3.4 針對描述性分析的性能評估標(biāo)準(zhǔn)動態(tài)分析
相關(guān)性能評估標(biāo)準(zhǔn)的研制工作主要針對描述性分析方法。國際標(biāo)準(zhǔn)化組織食品技術(shù)委員會感官分析分技術(shù)委員會(ISO/TC34/SC12)正在研制基于方差分析的定量感官評價(jià)小組及其成員表現(xiàn)評估的一般導(dǎo)則,并于2010年形成國際標(biāo)準(zhǔn)草案(Draft International Standard,DIS)[57],但截止到今年還未形成終稿出版。DIS稿主要是針對某一感官屬性在多個樣品的多次重復(fù)測試中的性能評估方法,包括:1)通過單因素方差分析評價(jià)員各自的重復(fù)性;2)通過評價(jià)員多次重復(fù)后均值與評價(jià)小組均值的標(biāo)準(zhǔn)偏差體現(xiàn)兩者之間的接近程度;3)通過評價(jià)員標(biāo)度值與評價(jià)小組平均標(biāo)度值的回歸模型性能來體現(xiàn)評價(jià)員的描述量值能力;4)通過評價(jià)員與樣品雙因素方差分析評價(jià)小組的重復(fù)性;5)小組正確性;6)通過三因素(樣品、評價(jià)員與輪次)方差分析評價(jià)小組多輪次實(shí)驗(yàn)的再現(xiàn)性;7)通過三因素(樣品、評價(jià)小組、輪次)方差分析不同評價(jià)小組間的再現(xiàn)性。ISO/DIS稿主要是對于各屬性單獨(dú)分析評價(jià)小組及成員性能評估,而對于樣品多屬性整體評價(jià)時(shí)的評價(jià)員與評價(jià)小組的性能分析,標(biāo)準(zhǔn)中只提到了幾種多元統(tǒng)計(jì)方法(PCA、DA、GP A),但未具體展開說明。
美國材料與試驗(yàn)協(xié)會感官分析技術(shù)委員會(ASTM/ E18)也通過工作項(xiàng)目正在研制相關(guān)標(biāo)準(zhǔn)[58],此標(biāo)準(zhǔn)也是針對描述性分析方法,其技術(shù)內(nèi)容與ISO標(biāo)準(zhǔn)相同之處也提到了評價(jià)員及小組個體的重復(fù)性、不同評價(jià)員或不同評價(jià)小組之間的再現(xiàn)性、特性標(biāo)度值的正確性、以及不同樣品在特定屬性上的區(qū)分能力(敏感性)。不同之處,ASTM標(biāo)準(zhǔn)中提到了不同評價(jià)小組或不同評價(jià)員之間對特性描述理解的一致性與對不同樣品在某特 性上的強(qiáng)度排序一致性問題,其實(shí)這兩項(xiàng)指標(biāo)同樣也可以通過重復(fù)性、再現(xiàn)性與正確性來體現(xiàn)。與ISO標(biāo)準(zhǔn)最大的不同在于詳細(xì)介紹了每種多元統(tǒng)計(jì)方法(同向縮放因子、PCA、CA、GP A)的使用范圍與基本概念。
感官分析方法除了描述性分析外,還有差別檢驗(yàn)與排序法等。而目前有關(guān)這兩個能力的評價(jià)小組及成員性能評估技術(shù)研究非常少。McEwan等[24,28]于1998—2001年期間在歐洲范圍開展了感官分析實(shí)驗(yàn)室間比對研究,并首次正式提出感官分析能力驗(yàn)證相關(guān)技術(shù)問題,雖然重點(diǎn)研究不同實(shí)驗(yàn)室間不同評價(jià)小組的能力比對,而未全面涉及評價(jià)員個體的性能評價(jià),但對于該方向研究具有里程碑意義。在感官剖面能力驗(yàn)證中,提到如何獲得最優(yōu)期望值,如何獲得用于評價(jià)小組判斷的性能標(biāo)準(zhǔn)與置信區(qū)間。同時(shí)還采用Friedman檢驗(yàn)、單邊t檢驗(yàn)分別分析了排序法與9點(diǎn)標(biāo)度的能力驗(yàn)證。在2003年,McEwan等[25]專門研究了感官排序檢測的實(shí)驗(yàn)室比對,是目前唯一系統(tǒng)的介紹評價(jià)小組排序性能比對的研究。該研究重點(diǎn)形成了這類能力比對的技術(shù)流程與每個環(huán)節(jié)的判別標(biāo)準(zhǔn)。包括由Pearson相關(guān)系數(shù)法確定校準(zhǔn)評價(jià)小組所建立的期望樣品排序及每個樣品的秩次平均值,由Friedman檢驗(yàn)各評價(jià)小組的樣品 區(qū)分能力,由Conover多重比較法檢驗(yàn)各評價(jià)小組區(qū)分樣品對個數(shù),由Kendall系數(shù)評估評價(jià)小組內(nèi)部評價(jià)員之間的一致性,以及評價(jià)小組排序能力的整體性能。文章最后展望了樣品選擇的重要性,各性能判別標(biāo)準(zhǔn)閾值的隨意性,以及設(shè)置期望排序能力置信區(qū)間的價(jià)值等問題。
2012年Sauvageot等[48]在對9個實(shí)驗(yàn)室3類級別評價(jià)小組(消費(fèi)者級、初選級、優(yōu)選級)的三點(diǎn)檢驗(yàn)結(jié)果進(jìn)行比對研究中,雖然也提到了評價(jià)小組的樣品間區(qū)分力、小組內(nèi)部的重復(fù)性以及不同小組間的一致性等問題,但整個研究重點(diǎn)分析了不同性能評價(jià)小組所帶來的小組評價(jià)結(jié)果對比,對于評價(jià)小組及成員差別能力評估技術(shù)研究的指導(dǎo)意義不是很強(qiáng)。Bi等[40]首次系統(tǒng)比較所有目前提到的有關(guān)評價(jià)員及小組性能評估的指標(biāo),并提出采用社會行為學(xué)測量方法中的信度與效度最為貼切;同時(shí)首次統(tǒng)一采用組內(nèi)相關(guān)系數(shù)(ICC)建立應(yīng)用于感官分析中出現(xiàn)的所有7 類數(shù)據(jù)(評分法的連續(xù)數(shù)據(jù)、多元連續(xù)數(shù)據(jù)、分級數(shù)據(jù)、排序數(shù)據(jù)、二項(xiàng)式分布數(shù)據(jù)、多項(xiàng)選擇數(shù)據(jù)、強(qiáng)迫選擇數(shù)據(jù))下的評價(jià)小組及成員性能評價(jià)方法,并由此確立了針對不同性質(zhì)數(shù)據(jù)的評價(jià)員及小組評估統(tǒng)一導(dǎo)則,特別對差別與排序的評估技術(shù)具有重要指導(dǎo)意義。
雖然在2000年以后,感官評價(jià)小組及成員表現(xiàn)評估技術(shù)研究頻繁,但基本集中在具有數(shù)值化特征的描述性分析方法中,并且所采用數(shù)學(xué)技術(shù)方法繁多、不具統(tǒng)一性,也未形成固定的、系統(tǒng)的技術(shù)規(guī)范。針對差別區(qū)分能力或排序能力的評價(jià)小組及成員表現(xiàn)評估技術(shù)研究匱乏,與該兩類感官分析方法的廣泛應(yīng)用現(xiàn)狀極其不匹配。
由于感官分析方法中的差別檢驗(yàn)、排序檢驗(yàn)與量值性描述分析等分別獲得不同性質(zhì)檢測數(shù)據(jù)(二項(xiàng)式分布數(shù)據(jù)、秩次數(shù)據(jù)和量值數(shù)據(jù)),因此需要分別對差別能力、排序能力、定量描述能力開展感官評價(jià)小組與成員性能表現(xiàn)評估技術(shù)研究,并建立對應(yīng)的技術(shù)方法規(guī)范與準(zhǔn)則。由此需要重點(diǎn)在性能評估所用樣品性質(zhì)及數(shù)量、性能評估所用數(shù)據(jù)表現(xiàn)形式、性能評估實(shí)驗(yàn)設(shè)計(jì)要求、性能評估期望值及置信區(qū)間、性能評估所用感官分析方法選擇、性能評估的數(shù)學(xué)統(tǒng)計(jì)方法選擇等方面加以深入,并作為未來的研究方向。
5.1 性能評估所用樣品性質(zhì)及數(shù)量
選擇怎樣的樣品用于評價(jià)小組及成員性能表現(xiàn)的測試需要深入思考。通用型感官分析實(shí)驗(yàn)室應(yīng)該傾向于基本味、通用香氣與質(zhì)地等樣品;而對于具體產(chǎn)品生產(chǎn)公司,建議選擇公司熱銷產(chǎn)品或類似的模擬體系物質(zhì)。
感官分析是被檢樣品差異難度與評價(jià)成員靈敏度之間的博弈,因此在評價(jià)小組及成員性能表現(xiàn)評估中,樣品難度的選擇非常重要。若樣品難度過低,所有評價(jià)小組及成員的每次評價(jià)結(jié)果一致并正確,而未真正達(dá)到性能考察的作用;若樣品難度過大,幾乎所有評價(jià)小組及成員的每次評價(jià)結(jié)果都不正確,性能都非常差,有時(shí)差到分辨不出哪些結(jié)果優(yōu)于其他結(jié)果,這樣也失去性能評估的意義。而在排序能力的評價(jià)小組及成員性能表現(xiàn)分析中,需要考慮幾個特定性質(zhì)強(qiáng)度不同的樣品參與排序?qū)嶒?yàn)評估中更加合適,更能便捷的監(jiān)測感官分析“儀器”性能。
5.2 性能評估所用數(shù)據(jù)表現(xiàn)形式
特別對于差別檢驗(yàn),其評價(jià)小組或評價(jià)員測試結(jié)果為對立結(jié)果的其中一個(A或非A、正確或錯誤、有差異或無差異等),而這不能作為表現(xiàn)性能評估的基礎(chǔ)數(shù)據(jù),需要通過一定方法進(jìn)行轉(zhuǎn)化而起到科學(xué)、方便的評估目的。
在排序檢驗(yàn)中,能否簡單的根據(jù)所有評價(jià)員秩次和排序代表評價(jià)小組得出的樣品順序,或以怎樣的形式代表評價(jià)小組每次的排序結(jié)果更具有科學(xué)性(總秩次已受評價(jià)員人數(shù)影響)。
5.3 性能評估感官實(shí)驗(yàn)設(shè)計(jì)要求
在重復(fù)性、再現(xiàn)性、一致性評估中,多少次的重復(fù)或再現(xiàn)能在保證實(shí)驗(yàn)成本的前提下達(dá)到統(tǒng)計(jì)意義,以及多長時(shí)間開展一次重復(fù)能最高效率的監(jiān)測評價(jià)小組及成員的表現(xiàn)性能。在描述性分析中,需要設(shè)置幾種不同樣品用于實(shí)驗(yàn)。每次實(shí)驗(yàn)需要安排幾輪,每輪安排幾次重復(fù),同時(shí)重復(fù)實(shí)驗(yàn)之間的樣品如何制備以避免評價(jià)員在非檢測感官特性方面對樣品的記憶,以及感覺疲勞帶來的實(shí)驗(yàn)誤差。
5.4 性能評估期望值及置信區(qū)間
為了更有效的決策單次測量與被測內(nèi)容本質(zhì)的一致性,以及評價(jià)小組測試結(jié)果與理論值的離散情況,如何獲得評判依據(jù)、期望值或真值,以及所能接受的相應(yīng)置信區(qū)間。比如在無理論結(jié)果的排序檢驗(yàn)中,如何通過評價(jià)小組獲得最優(yōu)估計(jì)順序,同時(shí)在此期間如何判斷評價(jià)員異常判斷結(jié)果并加以剔除。在描述性分析的實(shí)驗(yàn)室比對中,如何選擇可靠的評價(jià)小組用于期望值獲取的校準(zhǔn)小組。差別檢驗(yàn)中,任何樣品都不是完全一致的,但這種絕對的不一致能否讓評價(jià)員團(tuán)隊(duì)都能感知到,并又以哪個評價(jià)小組團(tuán)隊(duì)的檢測結(jié)果代表不同樣品間的差異程度。
5.5 性能評估所用感官分析方法選擇
感官分析方法既是評價(jià)樣品的方法,也是評估評價(jià)小組及成員的途徑,關(guān)鍵是在已知樣品性能的前提下,考察評價(jià)小組及成員的檢測能力。然而針對差別能力的性能評估,由于差別檢驗(yàn)包括成對比較、二三點(diǎn)、三點(diǎn)、A-非A、五中取二等方法,究竟哪種差別檢驗(yàn)方法更加適合差別能力下的評價(jià)小組及成員的性能表現(xiàn)評估值得探究。
5.6 性能評估的數(shù)學(xué)統(tǒng)計(jì)方法選擇
針對相對差別測量特征的感官評價(jià),包含有無差別、差別程度與差別方向這3 個層次,其不同層次感官分析方法所獲得的數(shù)據(jù)特征各不相同,含有名義數(shù)據(jù)、順序數(shù)據(jù)、數(shù)值數(shù)據(jù),也就是分別為二項(xiàng)式分布數(shù)據(jù)、秩次數(shù)據(jù)、量值數(shù)據(jù),因此針對這些不同數(shù)據(jù)特征所要進(jìn)行評價(jià)小組及成員性能評估的數(shù)學(xué)統(tǒng)計(jì)方法也各不相同。
[1] STONE H, SIDEL J L. 感官評定實(shí)踐[M]. 陳中, 陳志敏, 唐傳核, 等,譯. 北京: 化學(xué)工業(yè)出版社, 2007: 84-90.
[2] PINTO F S T, FOGLIATTO F S, QANNARI E M. A method for panelists’ consistency assessment in sensory evaluations based on the Cronbach’s alpha coefficient[J]. Food Quality and Preference, 2014, 32: 41-47.
[3] 李宏, 劉銳萍, 張克義. 食品感官檢測實(shí)驗(yàn)室評審方法的研究[J]. 現(xiàn)代檢測與實(shí)驗(yàn)室管理, 2013(1): 39-41.
[4] 趙鐳, 劉文. 感官分析技術(shù)應(yīng)用指南[M]. 北京: 中國輕工業(yè)出版社, 2011: 3.
[5] 鄭日昌, 孫大強(qiáng). 心理測量與測驗(yàn)[M]. 北京: 中國人民大學(xué)出版社, 2008: 63; 102.
[6] 趙鐳, 劉文, 牛麗影, 等. 食品感官科學(xué)技術(shù): 發(fā)展的機(jī)遇和挑戰(zhàn)[J].中國食品學(xué)報(bào), 2009, 9(6): 138-143.
[7] 中國合格評定國家認(rèn)可委員會. CNAS-CL10:2006 檢測和校準(zhǔn)實(shí)驗(yàn)室能力認(rèn)可準(zhǔn)則[S]. 北京: 中國合格評定國家認(rèn)可委員會, 2006.
[8] 中國合格評定國家認(rèn)可委員會. CNAS-CL10:2012 檢測和校準(zhǔn)實(shí)驗(yàn)室能力認(rèn)可準(zhǔn)則在化學(xué)檢測領(lǐng)域的應(yīng)用說明[S]. 北京: 中國合格評定國家認(rèn)可委員會, 2012.
[9] 中國合格評定國家認(rèn)可委員會. CNAS-RL02:2007 能力驗(yàn)證規(guī)則[S]. 北京: 中國合格評定國家認(rèn)可委員會, 2007.
[10] 中國合格評定國家認(rèn)可中心, 國家認(rèn)證認(rèn)可監(jiān)督管理委員會, 中國計(jì)量科學(xué)研究院, 等. GB/T 27025—2008 檢測和校準(zhǔn)實(shí)驗(yàn)室能力的通用要求[S]. 北京: 中國標(biāo)準(zhǔn)出版社, 2008.
[11] 董小雷, 周廣田, 崔云前. 啤酒感官品評[M]. 北京: 化學(xué)工業(yè)出版社, 2007: 4.
[12] 徐樹來, 王永華. 食品感官分析與實(shí)驗(yàn)[M]. 北京: 化學(xué)工業(yè)出版社, 2010: 15.
[13] HOVENDEN J E, DUTSON T R, HOSTETLER R L, et al. Variation and repeatability of an untrained beef sensory panel[J]. Journal of Food Science, 1979, 44: 1598-1601.
[14] N?S T, SOLHEIM R. Detection and interpretation of variation within and between assessors in sensory profiling[J]. Journal of Sensory Studies, 1991, 6(3): 159-177.
[15] LEA P, RODBOTTEN M, N?S T. Measuring validity in sensory analysis[J]. Food Quality and Preference, 1995, 6(4): 321-326.
[16] N? S T. Detecting individual differences among assessors and difference among replicates in sensory profiling[J]. Food Quality and Preference, 1998, 9(3):107-110.
[17] N? S T, LANGSRUD O. Fixed or random assessors in sensory profiling[J]. Food Quality and Preference, 1998, 9(3): 145-152.
[18] DAHL T, N?S T. Outlier and group detection in sensory panels using hierarchical cluster analysis with the Procrustes distance[J]. Food Quality and Preference, 2004, 15: 195-208.
[19] TOMIC O, NILSEN A, MARTENS M, et al. Visualization of sensory profiling data for performance monitoring[J]. LWT-Food Science and Technology, 2007, 40(2): 262-269.
[20] DAHL T, TOMIC O, WOLD J P, et al. Some new tools for visualizing multi-way sensory data[J]. Food Quality and Preference, 2008, 19(1): 103-113.
[21] TOMIC O, LUCIANO G, NILSEN A, et al. Analysing sensory panel performance in a proficiency test using the PanelCheck software[J]. European Food Research and Technology, 2009, 230(3): 497-511
[22] DAHL T, N?S T. Identifying outlying assessors in sensory profiling using fuzzy clustering and multi-block methodology[J]. Food Quality and Preference, 2009, 20: 287-294.
[23] TOMIC O, FORDE C, DELAHUNTY C, et al. Performance indices in descriptive sensory analysis: a complimentary screening tool for assessor and panel performance[J]. Food Quality and Preference, 2013, 28: 122-133.
[24] McEWAN J A, HUNTER E A, GEMERT L J, et al. Proficiencytesting for sensory profile panels: measuring panel performance[J]. Food Quality and Preference, 2002, 13(3): 181-190.
[25] McEWAN J A, HEINIO R L, HUNTER E A, et al. Proficiency testing for sensory ranking panels: measuring panel performance[J]. Food Quality and Preference, 2003, 14(3): 247-256.
[26] RISVIKUAFORSK H, COLWILL J S, McEWAN J A, et al. Multivariate analysis of conventional profiling data: a comparison of a British and a Norwegian trained panel[J]. Journal of Sensory Studies, 1992, 7: 97-118.
[27] HUNTER E A, McEWAN J A. Evaluation of an international ring trial for sensory profiling of hard cheese[J]. Food Quality and Preference, 1998, 9(5): 343-354.
[28] McEWAN J A. Comparison of sensory panels: a ring trial[J]. Food Quality and Preference, 1999, 10(3): 161-171.
[29] THYBO A K, MARTENS M. Analysis of sensory assessors in texture profiling of potatoes by multivariate modeling[J]. Food Quality and Preference, 2000, 11: 283-288.
[30] BYRNE D V, O’SULLIVAN M G, DIJKSTERHUIS G B, et al. Sensory panel consistency during development of a vocabulary for warmed-over fl avor[J]. Food Quality and Preference, 2001, 12: 171-187.
[31] BITNES J, UELAND ±, M±LLER P, et al. Reliability of sensory assessors: issues of retention and learning[J]. Journal of Sensory Studies, 2008, 23(6): 852-870.
[32] BITNES J, UELAND ±, M±LLER P, et al. Reliability of sensory assessors: issues of complexity[J]. Journal of Sensory Studies, 2009, 24(1): 25-40.
[33] BROCKHOFF P B. Statistical testing of individual differences in sensory profiling[J]. Food Quality and Preference, 2003, 14(5): 425-434.
[34] DEHLHOLM C, BROCKHOFF P B, BREDIE W L P. Confidence ellipses: a variation based on parametric bootstrapping applicable on multiple factor analysis results for rapid graphical evaluation[J]. Food Quality and Preference, 2012, 26: 278-280.
[35] BAVAY C, BROCKHOFF P B, KUZNETSOVA A, et al. Consideration of sample heterogeneity and in-depth analysis of individual differences in sensory analysis[J]. Food Quality and Preference, 2014, 32: 126-131.
[36] PELTIER C, BROCKHOFFD P B, VISALLI M, et al. The MAMCAP table: a new tool for monitoring panel performances[J]. Food Quality and Preference, 2014, 32: 24-27.
[37] ENNIS D M, BI J. The beta-binomial model: accounting for inter-trial variation in replicated difference and preference tests[J]. Journal of Sensory Studies, 1998, 13(4): 389-412.
[38] BI J, ENNIS D M. The power of the “A”-“not A” method[J]. Journal of Sensory Studies, 2001, 16(4): 343-359.
[39] BI J. Agreement and reliability assessments for performance of sensory descriptive panel[J]. Journal of Sensory Studies, 2003, 18: 61-76.
[40] BI J, KUESTEN C. Intraclass Correlation Coefficient (ICC): A framework for monitoring and assessing performance of trained sensory panels and panelists[J]. Journal of Sensory Studies, 2012, 27(5): 352-364.
[41] HUNEK K K, HESZBERGER J, KóKAI Z, et al. Testing panel consistency with GCAP method in food profile analysis[J]. Journal of Chemometrics, 2008, 22(3/4): 218-226.
[42] SIPOS L, KóVACS Z, SZOLLOSI D, et al. Comparison of novel sensory panel performance evaluation techniques with e-nose analysis integration[J]. Journal of Chemometrics, 2011, 25(5): 275-286.
[43] LOSó V, GERE A, GY?REY A, et al. Comparison of the performance of a trained and an untrained sensory panel on sweet corn varieties with the PanelCheck software[J]. Applied Studies in Agribusiness and Commerce, 2012, 6: 77-83.
[44] 李華, 劉曙東, 王華, 等. 葡萄酒感官評價(jià)結(jié)果的統(tǒng)計(jì)分析方法研究[J]. 中國食品學(xué)報(bào), 2006, 6(2): 126-131.
[45] 蘇玉華, 韋師. 葡萄酒感官評價(jià)的差異性及可信度研究[J]. 河南科技, 2013(1): 254-259.
[46] 常玉梅, 鐘芳. 豆腐干質(zhì)構(gòu)感官分析及評價(jià)小組能力評估[J]. 食品與生物技術(shù)學(xué)報(bào), 2013, 32(1): 37-42.
[47] LE S, PAGES J, HUSSON F. Comparison of the performance of a trained and an untrained sensory panel on sweet corn varieties with the PanelCheck software[J]. Food Quality and Preference, 2008(19): 179-184.
[48] SAUVAGEOT F, HERBRETEAU V, BERGER M, et al. A comparison between nine laboratories performing triangle tests[J]. Food Quality and Preference, 2012, 24(1): 1-7.
[49] MEYNERS M. Panel and panelist agreement for product comparisons in studies of temporal dominance of sensations[J]. Food Quality and Preference, 2011, 22: 365-370.
[50] CASTURA J C, FINDLAY C J, LESSCHAEVE I. Monitoring calibration of descriptive sensory panels using distance from target measurements[J]. Food Quality and Preference, 2006, 17(3/4): 282–289.
[51] ETAIO I, ALBISU M, OJEDA M, et al. Sensory quality control for food certification: a case study on wine. Panel training and qualification, method validation and monitoring[J]. Food Control, 2010, 21(4): 542-548.
[52] ROMANO R, VESTERGAARD J S, ZAREH M K, et al. Monitoring panel performance within and between sensory experiments by multiway analysis: classification and multivariate analysis for complex data structures[J]. Springer Berlin Heidelberg, 2011: 335-342.
[53] PINEAU N, CHABANET C, SCHLICH P. Modeling the evolution of the performance of a sensory panel: a mixed-model and control chart approach[J]. Journal of Sensory Studies, 2007, 22(2): 212-241.
[54] KING M C, HALL J, CLIFF M A. A comparison of methods for evaluating the performance of a trained sensory panel[J]. Journal of Sensory Studies, 2001, 16(6): 567-581.
[55] KERMIT M, LENGARD V. Assessing the performance of a sensory panel-panelist monitoring and tracking[J]. Journal of Chemometrics, 2005, 19: 154-161.
[56] 張愛霞, 張衛(wèi)斌, 勵建榮, 等. 現(xiàn)代食品感官科學(xué)的國際動態(tài)與發(fā)展趨勢[J]. 中國食品學(xué)報(bào), 2008, 8(6): 177-180.
[57] International Organization for Standardization. ISO/DIS 11132—2010 Sensory analysis-Methodology-General guidance for monitoring the performance of quantitative sensory panel[S]. United States: Information Handling Services, 2010.
[58] American Society for Testing and Materials. ASTM/WK 8435—2010 Standard guide for measuring and tracking sensory descriptive panel and assessor performance[S]. United States: Information Handling Services, 2010.
Overview of Assessment Techniques for Sensory Panel and Panelist Performance
SHI Bo-lin1, ZHAO Lei1,*, WANG Hou-yin1, ZHI Rui-cong1, HUAN Chang2, YUN Zhan-you3, SU Yu-fang3
(1. Food and Agriculture Standardization Institute, China National Institute of Standardization, Beijing 100191, China; 2. Department of Computer Engineering and Science, Shanghai University, Shanghai 200444, China; 3. Technology Center, Inner Mongolia Yili Industrial Group Co. Ltd., Hohhot 010110, China)
In sensory evaluation, panels and panelists are used as instruments that are the key tool to obtain reliable sensory data. Assessment techniques for their pe rformance can provide an important approach for managing them effectively. In this paper, the validity and reliability are used as the main indexes for performance assessment, which have reached a plateau of research since the beginning of the 21stcentury. More than 85% of the research papers have been reported in the top journals in sensory science, such as Food Quality and Preference and Journal of Sensory Studies. Especially, the majority of the research reports come from the USA and Europe and have tended to be frequent and mature in assessing the performance of descriptive sensory panels-panelists. The various methods include univariate or multivariate variance analysis, and multivariate statistical methods such as principal component analysis (PCA), generalized procrustes analysis (GP A), etc. At the same time, softwares such as PanelCheck, Compusense Five, and so on have been developed, while the International Organization for Standardization and the American Society for Testing and Materials are also formulating the relevant standards on quantitative descriptive analysis. By contrast, relatively insuff i cient research has been done on performance assessment in ranking and discrimination sensory panels-panelists. Six key research contents are proposed for future study. They include the number and property of sample, the form of data presentation, the design of sensory experiment, expected value and confidence interval, and the selection of sensory analysis methods and statistical methods. This paper will be helpful to establish the unif i ed and systemic framework for assessing performance in panels and panelists.
sensory evaluation; panel; panelist; performance assessment
TS207.3
A
1002-6630(2014)08-0029-07
10.7506/spkx1002-6630-201408006
2014-03-24
中國標(biāo)準(zhǔn)化研究院院長基金項(xiàng)目(562013Y-3079)
史波林(1981—),男,副研究員,博士,研究方向?yàn)槭称犯泄僭u價(jià)與智能感官分析。E-mail:shibl@cnis.gov.cn*
趙鐳(1968—),女,副研究員,博士,研究方向?yàn)槭称犯泄俜治鰳?biāo)準(zhǔn)化。E-mail:zhaolei@cnis.gov.cn