許曉青,蘇慶宇,王 冬,宋 昊,朱保慶,
(1.中國人民大學統(tǒng)計學院,北京 100872;2.北京林業(yè)大學生物科學與技術學院食品科學系,林業(yè)食品加工與安全北京市重點實驗室,北京 100083;3.北京一輕食品集團有限公司,北京 102600;4.北京一輕研究院,北京 101111)
多重因子分析是一種能夠用于描述和總結具有復雜結構和多方來源的多元數(shù)據(jù)的統(tǒng)計方法[1?2]。該統(tǒng)計手段在食品飲料和化妝品的感官分析以及消費者調研中廣泛應用。本文將從多重因子分析方法的原理和步驟、該方法在感官分析上的應用(包括自由選擇剖面、Napping等)、探索消費者感官驅動因素分析等方面進行綜述,以期為感官分析從業(yè)者和相關領域科學研究人員提供參考。
多重因子分析(Multiple Factor Analysis,MFA)是一種多元統(tǒng)計方法,同主成分分析(Principle Component Analysis,PCA)有緊密的關系,可以看作是一種能夠運用于多組多維數(shù)據(jù)上的主成分分析。主成分分析是指通過正交變換將多個變量轉換成少數(shù)幾個線性不相關的變量(稱為主成分),從而達到降維的目的。多重因子分析是主成分分析的擴展,在主成分分析基礎上考慮了各組不同類型變量的貢獻[1?2]。在多重因子分析的基礎上,也有學者衍生出了層次聚類的多重因子分析(Hierarchical Multiple Factor Analysis,HMFA)[3?5]。本文將以多重因子分析為核心來進行介紹。
能夠用于多重因子分析的數(shù)據(jù)通常包含多個樣本,每個樣本有多組不同類型的變量[1?2,6],每組變量可以具有不同的數(shù)量甚至是不同的數(shù)據(jù)類型例如定性變量和定量變量。例如:a.食品飲料分析:每個食品/飲料是一個樣本,感官分析的相關指標是一組變量,化學性質相關的指標為一組變量,物理性質相關指標是另一組變量[7?9],通過多重因子分析能夠找到樣品的特征[10];b.生態(tài)學:每個觀測地點為一個樣本,土壤相關的指標為一組變量,而植被相關的指標為另一組變量[11?12];c.調查分析:每個個體即為一個樣本,每個問題就是一個變量,調查問題又可能會根據(jù)主題分為不同的組[13]。
多重因子分析可以分為五步(見圖1):a.將樣本的變量分為多組;b.對樣本的每組變量分別進行主成分分析,并獲得每組變量各個主成分的特征值;c.利用各組變量第一主成分的特征值對各個組的變量進行標準化,將每個元素除以其第一組成分的奇異值;d.將標準化后的多個表格合并;e.對所有標準化過的數(shù)據(jù)進行全局主成分分析,并獲得主成分的得分和因子載荷。多重因子分析還可以得到每組變量的局部因子得分,這樣能夠從各組變量的角度來觀察樣本[2]。
圖1 多重因子分析步驟的可視化Fig.1 Visualized steps in Multiple factor analysis
多重因子分析主要應用于以下幾種感官分析方法的數(shù)據(jù)分析中:多個樣品的感官分析比較[14]、感官分析多維度數(shù)據(jù)的比較[15]、Napping和投影地圖[16]、多組感官數(shù)據(jù)的分析[17?20]、自由選擇剖面或快速剖面[9]、消費者喜好的感官驅動因素的分析[21?23]等。后續(xù)將著重介紹該方法在自由選擇剖面、投影地圖和消費者喜好驅動因素分析中的應用。
投影地圖(Projective mapping)是一種快速測量產品的相似性并把產品投影到一張地圖上的方法[24?26]。該方法引導經過或未經培訓的評價員根據(jù)自身對樣品感官特性的理解將樣品在一張二維的長方形紙上排布[27];樣品的位置和距離能夠代表樣品感官特性之間的異同,即樣品在長方形紙上的位置越近就越相似[24]。由于評價員擺放樣品的依據(jù)完全來自自己的理解,因此能夠通過這種方法了解對于評價員而言真正重要的感官屬性。這一方法是由Risvik和同事在1990 年代介紹的,直到Pages及同事在2000 后使用了Napping一詞重新介紹了該方法(Napping在法語中表示桌布)[14],才得以廣泛應用。目前該方法(Project mapping或Napping)已經被用于很多個食品飲料的若干品類上[26],例如奶酪[28?29]、葡萄酒[9,14,30]、橘子汁[31]、巧克力[32]、冷萃咖啡[8]和蘋果[29]。Projective mapping或Napping近年來也發(fā)展出衍生的方法,例如結合了消費者喜好的Projective mapping方法[33]和排序的Napping(Sorted Napping)方法[34?35]。
從Projective mapping或者Napping中可以獲得每位品評員各自對測試樣品在長方形紙張上的位置信息,即樣品坐標;此外Napping還允許品評人員對測試樣品進行開放的文字描述,這對于了解品評員所繪制的樣品圖的維度是至關重要的。該方法所獲得數(shù)據(jù)就是一組多元坐標定量數(shù)據(jù)集(見圖2)。目前能夠被用來分析Napping數(shù)據(jù)的多種方法已被報道,例如多元因子分析、廣義適應分析(Generalized Procrustes Analysis,GPA)、INDSCAL[36]、STATIS[37]和Tucker法[38]。Nestrud等曾報道在他們的研究中,13 個柑橘汁被一組有經驗豐富的廚師和未經訓練的消費者品嘗,并使用GPA和MFA分析同樣的數(shù)據(jù)獲得了非常相似的結果[39]。Tomic等[40]于2015 年曾對MFA和GPA兩種方法應用在多個napping數(shù)據(jù)集上進行了比較分析,通過研究RV系數(shù)、個體差異指數(shù)(index of individual difference)以及布局散點圖來考量兩個方法的異同,該研究主要集中在二維分析結果的比較上;研究結果表明,兩種方法在不同數(shù)據(jù)集上能夠獲得較為相似的結果,均能找出數(shù)據(jù)背后的共有結構,且兩種方法的結果具有較高的RV系數(shù),但兩種方法在個體差異的分析和解讀上存在區(qū)別;GPA揭示出的個體差異要小于MFA,而MFA因其能夠提取大于2個以上的主成分使得該方法可能優(yōu)于GPA。隨后Tormod等[16]又用模擬數(shù)據(jù)和真實的Napping數(shù)據(jù)對INDSCAL和MFA方法進行了比較,結果發(fā)現(xiàn)兩種方法在前兩個維度的分析上表現(xiàn)出了非常相似的結果,SMI指數(shù)——一種基于奇異向量的用于比較一致布局(consensus configuration)的新的指標被用于方法比較,結果表明MFA要略優(yōu)于INDSCAL。
已有大量文獻報道使用MFA于Projective mapping或者Napping的數(shù)據(jù)分析上。Page`s在其研究中對來自法國盧瓦爾河谷的兩個葡萄品種的10 款白葡萄酒被用于Napping品嘗,文中對幾個品嘗員的桌布的使用進行了預查,發(fā)現(xiàn)品評員基本能夠較好地使用整個桌布,但也發(fā)現(xiàn)通過肉眼很難直觀地找到品評員對樣品的排布規(guī)律。隨后作者使用了MFA對數(shù)據(jù)進行分析,獲得了10 款白葡萄酒的綜合布局圖,發(fā)現(xiàn)相對而言2 個品種的白葡萄酒各自聚集在一起。文章還結合專家組給出的感官輪廓分析結果對MFA綜合布局圖進行了解釋,對品評員的Napping之間的差異等進行了討論,并提出,當產品多于12 個將不適合使用本方法進行分析[14]。Nestrud等[39]曾報道在他們的研究中,一組有經驗豐富的廚師和一組未經訓練的消費者分別品嘗13 個柑橘汁,使用napping的方法獲得每個品嘗員對產品的感官數(shù)據(jù),并使用GPA和MFA對數(shù)據(jù)分析。Dwiranti等[8]對冷萃咖啡的工藝對感官的影響進行了研究,在他們的實驗中,對采用了不同靜置時間的6 款冷萃咖啡進行投影地圖感官評價,75 名未經任何訓練的品評員被要求在一張60×60 cm的紙上對冷萃咖啡樣品根據(jù)其異同進行排布,并對每個樣品給出簡要的感官描述詞,包括氣味、風味、酸度、余味、顏色和醇厚度。文章中使用MFA對投影地圖結果進行分析。結果表明品評員能夠將多款冷萃咖啡區(qū)分開來,且氣味和風味是重要的貢獻因素。實驗還表明,靜置1 和3 d的樣品最接近無靜置處理的對照樣品。在Napping方法的基礎之上,衍生出了Sorted Napping的方法,同Napping數(shù)據(jù)的差異在于除了品評員對產品要給出坐標之外,品評員還需要給產品進行排序,因此通過Sorted Napping還能夠獲得產品的排序數(shù)據(jù),因此應運而生的Hierarchical Multiple Factor Analysis(HMFA)就可以被用來分析這樣的數(shù)據(jù)。HMFA是MFA的衍生方法,適合應用于存在嵌套的分組數(shù)據(jù)上,通過Sorted Napping不僅獲得了品評員給出的產品坐標數(shù)據(jù)、語言描述詞,還獲得了每個品評員對產品的分組結果。Pages等[34]的文章中選取了來自2 個品評的各4 種口味的一共8 個奶昔產品,24 個品評員被要求品嘗這些奶昔,并按照Sorted Napping的方法將產品放置于桌布上,即當品評員認為產品較為接近時,這些產品將離得比較近,反之,產品則在桌布上的位置距離較遠。同時,品評員也被要求將他們認為可以放到一組的產品畫一個圈標識起來并給出感官描述詞。品嘗結束后,工作人員收回結果并作整理,將得到如Napping的數(shù)據(jù),在Sorted Napping中,還可以獲得每個品評員對每個樣品的分組情況。對于這樣的數(shù)據(jù),文章建議使用HMFA的方法來進行分析,原因是HMFA能夠一方面平衡各個品評員的結果,另一方面又能夠平衡考慮每個品評給樣品的二維平面的排布和對樣品的分組結果,這使得這一方法能夠綜合利用Sorted Napping中獲得的全面數(shù)據(jù)而獲得一個具有綜合考量效果的樣品布局結果[34]。
MFA還經常被應用在同一組樣本的不同來源的感官數(shù)據(jù)的比較上,這里的不同來源的感官數(shù)據(jù)可以是感官方法的不同,也可以是不同的品評小組對同一組樣品的感官描述的異同,也可以是不同的感官評價方法對同一組樣品的分析,也可以是不同的品評員,例如MFA在自由選擇剖面方法中的應用。
Gutiérrez-Salomón等[18]比較了兩種不同的樣品準備和呈送給品嘗員的流程對品嘗員使用CATA(Check-All-That-Apply)方法的品嘗結果的差異,使用了MFA對這兩組不同來源的感官數(shù)據(jù)進行了分析,MFA結果表明樣品準備和呈送的方法對消費者感官測試的結果沒有顯著影響。Reinbach等[41]使用MFA對三種基于消費者的感官分析方法CATA、帶有強度的CATA和Napping進行了比較,文中使用了MFA生成了一個綜合了三種感官方法的樣品感官圖并同每種方法給自生成的樣品地圖進行比較,除了可視化的樣品地圖,MFA中獲得的RV系數(shù)的比較也指示了三種方法在樣品的差異性上表現(xiàn)出的一致。
除了多個來源的感官數(shù)據(jù),某些描述性的感官分析方法例如自由選擇剖面分析法,由于其方法的特點在一個實驗中就類似于獲得了不同來源的感官數(shù)據(jù)。自由選擇剖面分析法(Free Choice Profiling,F(xiàn)CP)是一種描述性的感官分析方法,感官評價員可以自由選擇自己用于描述的詞匯,并對樣品的該特征打分。感官品評員不受限于固定的感官詞匯[9,42]。通過FCP獲得數(shù)據(jù)結構如圖3 所示。目前已報道有多種統(tǒng)計方法可以用于對FCP數(shù)據(jù)的分析,如廣義適應分析[43?44]、INDSCAL法[16]和MFA[1?2,16]。多重因子分析在FCP數(shù)據(jù)上的優(yōu)點主要在于,能夠平衡各組數(shù)據(jù)來獲得一個全局的分析結果,這里各組就指的是每個品評員,由于品評員給出的描述詞匯不盡相同,保證沒有任何一個或某幾個品評員給產品的描述詞以及打分主導最終產品差異的評價結果就非常重要了[45]??焖倨拭媸荈CP方法的變種。同F(xiàn)CP類似的是,在FP中品評員能夠自由使用自己的語言來評價產品,但不同的是,他們要根據(jù)樣品的在這些指標上的差異對樣品進行排序,更加強調產品的相對差異。因此FP同樣產生了來自多個品評員通過不同維度評價樣品的數(shù)據(jù)集,因此MFA也可以應用在快速剖面數(shù)據(jù)集的分析。
圖3 自由選擇剖面數(shù)據(jù)結構Fig.3 Data structure in free choice profiling
當研究中不僅僅有感官數(shù)據(jù),還有其他來源或者類型的數(shù)據(jù)時,例如樣品的物理分析或者化學分析的數(shù)據(jù),MFA還非常適用于聯(lián)合分析這些不同類別的數(shù)據(jù)。He等[46]的報道中對腐乳進行了多個維度的分析,其中包括來自兩種感官分析方法獲得的感官數(shù)據(jù)(QDA和FP)、GC-MS靶標揮發(fā)性化合物分析以及物理性質分析,MFA在該文中被用于解釋這三類指標之間的關系以及物理化學指標對感官的貢獻。
當分別獲得了產品的專家定量感官描述分析數(shù)據(jù)(如QDA數(shù)據(jù)),以及消費者的產品喜好得分,如何能夠充分利用這兩種數(shù)據(jù)來解釋和理解消費者對測試產品的感官喜好呢?目前已經有幾種可行的方法,例如投影地圖、相關性分析、回歸分析、偏最小二乘法以及多重因子分析等[20,47-48]。其中,產品偏好地圖又分為內部產品偏好地圖(Internal Preference Mapping)和外部產品偏好地圖(External Preference Mapping)[48]。內部產品偏好地圖是建立在消費者喜好地圖上的偏好地圖,將產品的專家感官描述映射到的消費者喜好地圖上;外部喜好地圖則是在外部指標(例如感官描述或者物理化學分析指標等)的基礎上構建二維地圖,并將產品喜好得分通過PCR做回歸反映在地圖上。這兩種方法各有利弊,例如內部偏好地圖法的局限在于,消費者可能對感官上來看完全不同的多個產品表現(xiàn)出相同的喜好,從而無法客觀挖掘喜好驅動因素;而外部產品喜好則通過兩個的維度的外部數(shù)據(jù)(例如感官)來代替了全部的產品特征數(shù)據(jù),而這兩個維度盡管涵蓋了產品差異的主要信息,但導致消費者喜好的因素可能不能被這兩個維度所涵蓋。因此隨后就產生了能夠兼顧感官數(shù)據(jù)和喜好數(shù)據(jù)的以偏最小二乘(PLS)為基礎的分析方法,而PLS的局限性在于PLS通常會將喜好得分平均化,即丟失了個體差異[49]。因此需要一個能夠保留個體的喜好差異并能夠結合兩種不同類型的數(shù)據(jù)一起分析的方法,MFA能夠更好的滿足這種需求。目前這種方法已經在多個產品品類中應用于尋找驅動消費者喜好的感官因素,進而幫助產品開發(fā)人員和市場人員為開發(fā)新產品或者改進產品口味提供數(shù)據(jù)依據(jù)[47,50]。
以下以R的包SensoMineR自帶數(shù)據(jù)集雞尾酒數(shù)據(jù)cocktail為例進行分析(數(shù)據(jù)來源:http://sensominer.free.fr/cocktail.htm)[51]。該數(shù)據(jù)集包含兩個表:雞尾酒的感官數(shù)據(jù)和消費者對雞尾酒的喜好數(shù)據(jù)。數(shù)據(jù)中對16 款雞尾酒樣品進行了分析,感官分析包含13 個感官變量,喜好數(shù)據(jù)中包含了100 名消費者對這些樣品的打分。
通過對這兩部分數(shù)據(jù)使用MFA進行分析,結果見表1,第一個特征值為1.71(接近2 組數(shù)據(jù)下的特征值最大值2),這說明感官數(shù)據(jù)維度的差異與喜好數(shù)據(jù)維度的差異具有較大程度的吻合性。進一步考察能夠用來衡量兩組變量的相關性的RV系數(shù),計算得到RV系數(shù)為0.59,這說明樣品的喜好數(shù)據(jù)和感官數(shù)據(jù)具有一定相關性,但該系數(shù)并沒有非常高,仍說明這兩組數(shù)據(jù)中的一組并不能完美的被另一組數(shù)據(jù)解釋。此外,還可以通過Ng或者Lg系數(shù)來評估兩組變量的關聯(lián)程度,其中Ng系數(shù)能夠表明某組變量內部的維度性(dimensionality);Lg系數(shù)表明這組變量共同特征的豐富程度[48,52]。在本例的數(shù)據(jù)中,喜好數(shù)據(jù)比感官數(shù)據(jù)相比具有略更高的維度性(Ng(hedonic)=1.31,Ng(Sensory)=1.25),Lg(Sensory*Hedonic)=0.75,同喜好數(shù)據(jù)自身的維度性相比,能夠一定程度地解釋喜好數(shù)據(jù),但仍有一部分未能被解釋(見表1)。
表1 雞尾酒數(shù)據(jù)的感官數(shù)據(jù)和喜好數(shù)據(jù)的Ng和Lg結果Table 1 Ng and LG results of sensory data and preference data of cocktail data
進而,將局部維度的代表性(partial axes representation)進行可視化,獲得圖4A,從圖上可以看到,MFA的第一和第二維度同感官數(shù)據(jù)和喜好數(shù)據(jù)高度相關,這進一步證實感官數(shù)據(jù)和喜好數(shù)據(jù)的關聯(lián)性,為利用前兩個維度來解釋喜好數(shù)據(jù)提供支持。然后,繪制樣品個體因子地圖(Individual factor map)(圖4B),從圖中可以得知,樣品3 在感官維度和喜好維度表現(xiàn)出最大的不一致,而樣品9 則表現(xiàn)出最強的一致性。最后,用前兩個維度的MFA結果中的感官數(shù)據(jù)對喜好數(shù)據(jù)作回歸,這里使用了二次模型,并以消費者的平均喜好程度作為可接受程度的參考,就獲得了如圖4C的響應面地圖;基于此,發(fā)現(xiàn)在樣品11、樣品2 和樣品3 位置附近的產品能夠贏得高于80%的消費者喜愛。
圖4 雞尾酒數(shù)據(jù)多重因子分析結果Fig.4 Multiple Factor Analysis on cocktail data
目前已有多篇研究報道了類似的方法在食品飲料行業(yè)各種品類上的應用。Ares等[47]的研究中有80 名消費者對8 種香草牛奶甜品進行了品嘗,對每個樣品給與9 分制的喜好得分,并使用4 個詞描述每個樣品,這些樣品也被受過訓練的品嘗員進行描述分析。MFA被用于結合消費者的描述詞、消費者給出的喜好得分和專業(yè)品評員的感官描述數(shù)據(jù)繪制了綜合的產品圖,這一方法提供了另一種分析同消費者喜好最相關的感官特征的途徑,同時還能夠了解感官數(shù)據(jù)和消費者喜好之間的關系。Partida-Sedas等[50]研究了Garnica咖啡豆采后處理技術對咖啡飲料的感官特點以及消費者喜好的影響,MFA被用于分析專家品評員的感官數(shù)據(jù)和消費者給出喜好數(shù)據(jù)的關系以及綜合的產品地圖的繪制,同時還能夠看到三種不同采后處理技術對結果的影響,隨后PrefMFA被用于獲得消費者理想喜好地圖,對采用合適的技術以獲得消費者喜歡的咖啡具有重要數(shù)據(jù)指導意義。
多重因子分析是一種可以適用于多種感官分析技術的多元統(tǒng)計分析技術,其核心是主成分分析,但能夠兼顧多個不同數(shù)據(jù)類型、多種數(shù)據(jù)來源的數(shù)據(jù)進行分析并對結果進行描述和展示。多重因子分析在食品飲料感官分析中具有很大的作用,例如在自由選擇剖面分析、Napping或者投影地圖以及消費者喜好感官驅動因素分析中都能夠被應用,且通過對結果的展示可以對產品的特征進行描述、通過產品特征的不同對產品進行分類以及找到潛在消費者喜好驅動因子。在使用MFA的案例中,對數(shù)據(jù)結果的正確解讀尤為重要。此外,在MFA基礎上延展而來的方法有:層次多重因子分析(Hierarchical Multiple Factor Analysis,HMFA)、雙多重因子分析(DUAL-MFA)、普式多重因子分析(Procrustes MFA)等,因篇幅和內容重點的考慮本文暫未納入上述內容,這些技術在感官技術和消費者研究數(shù)據(jù)分析中的應用同樣值得探討。