蘇 凱,付 博,楊永鋒,彭桂新,金一驍,武云杰,于建軍*,于建春*
1. 河南農(nóng)業(yè)大學(xué)煙草學(xué)院,鄭州市金水區(qū)文化路95 號(hào) 450002
2. 河南中煙工業(yè)有限責(zé)任公司技術(shù)中心,鄭州經(jīng)濟(jì)技術(shù)開發(fā)區(qū)第三大街8 號(hào) 450000
隨著互聯(lián)網(wǎng)的發(fā)展以及數(shù)據(jù)量的爆發(fā)式增長,大數(shù)據(jù)時(shí)代已經(jīng)到來[1]。大數(shù)據(jù)中包含來自互聯(lián)網(wǎng)活動(dòng)等不斷產(chǎn)生的無限量級(jí)別的數(shù)據(jù)資源以及市場調(diào)研數(shù)據(jù)資源[2],這些資源中所蘊(yùn)含的巨量信息在產(chǎn)品設(shè)計(jì)中起到不可估量的作用[3-5]。大數(shù)據(jù)規(guī)模性、多樣性、高速性、價(jià)值性和真實(shí)性的特征決定了產(chǎn)品設(shè)計(jì)可基于大數(shù)據(jù)對(duì)顧客需求進(jìn)行挖掘開發(fā)[6-8]。蔡波等[9]通過網(wǎng)絡(luò)評(píng)論爬蟲和在線問卷調(diào)查兩種方式獲取卷煙消費(fèi)者的評(píng)價(jià)數(shù)據(jù)并進(jìn)行分析,驗(yàn)證了我國卷煙消費(fèi)體驗(yàn)感官評(píng)價(jià)指標(biāo)的實(shí)用性和適用性。大數(shù)據(jù)蘊(yùn)含的信息需要使用數(shù)據(jù)挖掘技術(shù)進(jìn)行提取[10],如使用關(guān)聯(lián)規(guī)則算法挖掘卷煙配方單料煙的替換規(guī)則[11]等。關(guān)聯(lián)規(guī)則分析的目的是找出數(shù)據(jù)中各變量之間的關(guān)聯(lián)關(guān)系,在各種關(guān)聯(lián)規(guī)則算法中,Apriori 是最經(jīng)典也是最常用的算法[12-14]。
近年來,隨著消費(fèi)水平的提升及觀念的轉(zhuǎn)變,一部分消費(fèi)者開始吸食斗煙。相關(guān)數(shù)據(jù)表明,國際煙草市場的斗煙銷量持續(xù)增長。在2000—2015年期間,美國斗煙總銷量增加了556.4%[15]。另據(jù)國家煙草專賣局經(jīng)濟(jì)研究所公布的2017 年世界煙草發(fā)展報(bào)告[16]顯示,近5 年國際市場非卷煙類傳統(tǒng)煙草制品銷售額不斷增長、所占比例不斷提高,其中斗煙市場增長率居第三名。在國內(nèi)煙草市場上,斗煙尚處于市場培育階段,近幾年各卷煙工業(yè)企業(yè)及中國煙草總公司鄭州煙草研究院均在進(jìn)行相關(guān)技術(shù)研究[17-21],其中四川中煙工業(yè)有限責(zé)任公司已于2017 年推出“長城芭絲”斗煙產(chǎn)品。產(chǎn)品的設(shè)計(jì)要以消費(fèi)者需求為導(dǎo)向[22]。目前,通過消費(fèi)者評(píng)論數(shù)據(jù)分析商品質(zhì)量及滿意度的研究越來越多[23-25]。但國內(nèi)尚無基于互聯(lián)網(wǎng)數(shù)據(jù)或消費(fèi)者評(píng)價(jià)數(shù)據(jù)對(duì)斗煙產(chǎn)品進(jìn)行分析的相關(guān)研究。因此在本研究中使用Python 編程語言編寫網(wǎng)絡(luò)爬蟲程序,獲取國外主要斗煙產(chǎn)品信息及消費(fèi)者評(píng)價(jià)數(shù)據(jù)并進(jìn)行市場偏好性分析,以期為國內(nèi)的斗煙產(chǎn)品開發(fā)提供參考。
斗煙產(chǎn)品信息及評(píng)價(jià)數(shù)據(jù)來源于TobaccoReviews.com(www.tobaccoreviews.com)。該網(wǎng)站包含554 個(gè)品牌的7 071款斗煙產(chǎn)品的信息及消費(fèi)者評(píng)價(jià)數(shù)據(jù)。數(shù)據(jù)獲取時(shí)間為2018 年6 月29 日。
使用Python 編程語言編寫爬蟲代碼對(duì)Tobacco Reviews.com 網(wǎng)站的斗煙產(chǎn)品信息和評(píng)價(jià)數(shù)據(jù)進(jìn)行提取,獲取斗煙產(chǎn)品基本信息及評(píng)價(jià)數(shù)據(jù),包括:品牌、產(chǎn)品名稱、配方類型、配方組成、香味類型、評(píng)價(jià)數(shù)量及評(píng)分等。其中,評(píng)分區(qū)間為[1,4],分別對(duì)應(yīng)“不推薦(Not recommended)”、“稍微推薦(Somewhat recommended)”、“推薦(Recommended)”、“強(qiáng)烈推薦(Highly recommended)”。
爬蟲程序使用Requests 庫請(qǐng)求網(wǎng)頁,獲得網(wǎng)頁源代碼;使用Beautiful Soup 庫對(duì)網(wǎng)頁源代碼進(jìn)行解析,獲得解析內(nèi)容,并通過Beautiful Soup 庫的節(jié)點(diǎn)選擇器及正則表達(dá)式庫進(jìn)行數(shù)據(jù)提取,將提取后的數(shù)據(jù)保存至CSV 文件中。主要爬蟲過程如下:
(1)請(qǐng)求http://www.tobaccoreviews.com/browse鏈接,提取所有品牌信息,并獲取品牌詳情頁面鏈接;
(2)請(qǐng)求品牌詳情鏈接,獲取該品牌所有斗煙產(chǎn)品信息,并獲取各產(chǎn)品詳情頁面鏈接;
(3)請(qǐng)求各產(chǎn)品詳情頁面鏈接,獲取斗煙產(chǎn)品基本信息及消費(fèi)者評(píng)價(jià)數(shù)據(jù),并保存至CSV 文件中。
通過網(wǎng)絡(luò)爬蟲共得到81 014 條斗煙產(chǎn)品評(píng)價(jià)數(shù)據(jù),涵蓋554 個(gè)品牌的7 071 款產(chǎn)品。刪除評(píng)價(jià)數(shù)量小于等于3 條的產(chǎn)品數(shù)據(jù),得到269 個(gè)品牌的2 845 款產(chǎn)品共76 555 條有效評(píng)價(jià)數(shù)據(jù)。評(píng)分離散變異系數(shù)低于0.4 的評(píng)價(jià)數(shù)據(jù)共68 291 條,占有效評(píng)價(jià)數(shù)據(jù)的89.21%。其中,平均得分≥3.0 分即消費(fèi)者認(rèn)為值得推薦的產(chǎn)品共有1 527 款。因此,在保證數(shù)據(jù)量的基礎(chǔ)上,選取評(píng)分離散變異系數(shù)<0.4 的數(shù)據(jù)進(jìn)行品牌偏好性分析及關(guān)聯(lián)規(guī)則挖掘,選取產(chǎn)品平均得分≥3.0 分的產(chǎn)品進(jìn)行香味類型、配方類型及配方組成市場偏好性分析。
本研究中使用Python 編程語言編寫網(wǎng)絡(luò)爬蟲及數(shù)據(jù)分析代碼,軟件環(huán)境為Python 3.6.4,IDE 為PyCharm,主 要 使 用 的 庫 有Beautiful Soup、Re、Requests、Numpy、Pandas、Matplotlib 及Seaborn。
3.1.1 斗煙品牌
評(píng)價(jià)數(shù)量一定程度上反應(yīng)產(chǎn)品的市場占有率,分析評(píng)價(jià)數(shù)量排名前20 的斗煙產(chǎn)品(表1)可知,斗煙產(chǎn)品的市場占有率與生產(chǎn)廠商的知名度存在較大關(guān)系,登喜路(Dunhill)、斯堪的納維亞煙草公司(STG)等知名廠商的斗煙產(chǎn)品較受歡迎,但是個(gè)別產(chǎn)品的平均得分卻不高,平均得分<3.0的有8 款產(chǎn)品,分別是Prince Albert,Captain Black Regular (white),1792 Flake,University Flake,Royal Yacht,Erinmore Flake,Mixture:Scottish Blend 和1-Q。說明品牌效應(yīng)在一定程度上影響市場的偏好性,但產(chǎn)品質(zhì)量仍是市場偏好性最重要的影響因素。
表1 評(píng)價(jià)數(shù)量最多的前20 款斗煙產(chǎn)品的信息Tab.1 Information on the top 20 pipe tobacco brands with the largest number of comments
對(duì)各品牌所有斗煙產(chǎn)品的評(píng)論數(shù)量統(tǒng)計(jì)求和(表2),大型斗煙生產(chǎn)企業(yè)(如McClelland、Mac Baren、Cornell &Diehl 等)的產(chǎn)品數(shù)量及產(chǎn)品市場占有率均較高,并且斗煙產(chǎn)品的市場評(píng)價(jià)也較好。G. L. Pease品牌斗煙產(chǎn)品的平均得分最高,為3.23 分;Gawith,Hoggarth & Co.品牌的得分僅次于G. L. Pease,為3.16分;Samuel Gawith和Dunhill 品牌的得分相同,為3.14 分。
表2 評(píng)價(jià)數(shù)量排行前十的品牌信息Tab.2 Information on the top 10 brands with the largest number of comments
上述結(jié)果表明大型斗煙生產(chǎn)企業(yè)所生產(chǎn)的斗煙產(chǎn)品具有較強(qiáng)的市場競爭力。一方面大型企業(yè)能夠保證生產(chǎn)原料、加工工藝的穩(wěn)定性,同時(shí)大型企業(yè)擁有更多、更優(yōu)秀的配方設(shè)計(jì)師及產(chǎn)品調(diào)香師,能夠保證產(chǎn)品質(zhì)量及其穩(wěn)定性;另一方面,品牌效應(yīng)對(duì)斗煙產(chǎn)品的銷售具有一定的影響。
3.1.2 斗煙香味類型
圖1 消費(fèi)者推薦的斗煙產(chǎn)品中原味和調(diào)味型的比例Fig.1 Proportions of original flavor and flavored pipe tobacco products recommended by consumers
對(duì)消費(fèi)者推薦的斗煙產(chǎn)品中原味及調(diào)味型進(jìn)行統(tǒng)計(jì)(圖1)可知,原味(None)型斗煙產(chǎn)品所占比例較高,為63.13%。通過考察調(diào)味型斗煙產(chǎn)品香味類型發(fā)現(xiàn),各品牌斗煙產(chǎn)品的香味各不相同,因此采用詞頻分析法,對(duì)調(diào)味型斗煙產(chǎn)品的香味類型進(jìn)行分詞處理,匯總后統(tǒng)計(jì)各種香味出現(xiàn)的詞頻(表3)。由表3 可知,在調(diào)味型斗煙產(chǎn)品中,香 草(Vanilla)、朗 姆 酒(Rum)、可 可/巧 克 力(Cocoa/Chocolate)及柑橘(Citrus)香味型斗煙產(chǎn)品較多,均大于10%。
表3 消費(fèi)者推薦的調(diào)味型斗煙產(chǎn)品中不同類型香味的使用情況(前十)Tab.3 Usage of different types of flavor in flavored pipe tobacco products recommended by consumers (top 10)
上述結(jié)果表明斗煙產(chǎn)品香味類型偏好性主要表現(xiàn)為原味型斗煙產(chǎn)品最受消費(fèi)者歡迎;而調(diào)味型斗煙產(chǎn)品中,香草、朗姆酒、可可/巧克力及柑橘香味易被消費(fèi)者接受。
3.1.3 斗煙配方類型
對(duì)消費(fèi)者推薦的斗煙產(chǎn)品的配方類型進(jìn)行分析(圖2)可知,芳香調(diào)味式(Aromatic)斗煙產(chǎn)品數(shù)量最多,占總數(shù)量的23.90%;英式(English)斗煙產(chǎn)品數(shù)量其次,占總數(shù)量的18.01%;第三為純烤煙式(Straight Virginia)斗煙產(chǎn)品,占總數(shù)量的11.26%。同時(shí),烤煙+百里科煙草(Virginia+Perique)、白肋煙類型(Burley Based)及巴爾干式(Balkan)的斗煙產(chǎn)品數(shù)量也較多,所占比例均大于5%。
上述結(jié)果表明消費(fèi)者最喜愛的斗煙產(chǎn)品配方類型為芳香調(diào)味式,而英式和純烤煙式斗煙產(chǎn)品的所占比例也較高。說明芳香調(diào)味式、英式和純烤煙類型的斗煙產(chǎn)品具有較高的市場認(rèn)可度。
3.1.4 斗煙配方組成
在消費(fèi)者推薦的1 527 款斗煙產(chǎn)品中,配方僅由一種類型原料組成的斗煙產(chǎn)品共有326 款,其中僅使用烤煙(Virginia)、黑板煙(Black Cavendish)、白肋煙(Burley)、板煙(Cavendish)的斗煙產(chǎn)品分別有225、38、30、10 款,配方中僅使用東方煙草/土耳其煙草(Oriental/Turkish)、拉塔基亞煙草(Latakia)、肯塔基煙草(Kentucky)、百里科煙草(Perique)、馬里蘭煙(Maryland)及雪茄煙(Cigar Leaf)的斗煙產(chǎn)品數(shù)量均少于10 款。使用詞頻分析法對(duì)斗煙產(chǎn)品配方組成進(jìn)行分析,結(jié)果(表4)顯示,在產(chǎn)品配方中使用烤煙的斗煙最多,占85.27%,在配方中使用拉塔基亞煙草的斗煙數(shù)量僅低于烤煙,占36.87%。使用白肋煙及東方煙草/土耳其煙草的斗煙產(chǎn)品數(shù)量也較多,均超過30%。
圖2 消費(fèi)者推薦的斗煙產(chǎn)品中不同類型配方產(chǎn)品比例Fig.2 Proportions of different types of formula products of pipe tobacco recommended by consumers
表4 消費(fèi)者推薦的斗煙產(chǎn)品中不同類型煙葉原料的使用情況Tab.4 Usage of different types of tobacco leaves in pipe tobacco products recommended by consumers
上述結(jié)果表明,在產(chǎn)品配方中使用烤煙、拉塔基亞煙草、白肋煙及東方煙草/土耳其煙草等煙葉的斗煙數(shù)量較多,同時(shí),配方中僅使用單一類型煙草的斗煙產(chǎn)品也有一定的市場份額??緹煙熑~含糖量較高,是斗煙原料中口感最為醇和的煙葉,因此在配方中最常使用。但受到煙葉特性的影響,烤煙煙葉燃燒時(shí)溫度較高,使用煙斗進(jìn)行抽吸時(shí)會(huì)在口腔中產(chǎn)生灼燒感,一般在斗煙配方中不宜過多使用[26]。對(duì)于吸食斗煙的消費(fèi)者來說,斗煙產(chǎn)品只是一種“原料”,消費(fèi)者會(huì)根據(jù)自己的喜好調(diào)配出適合自己的斗煙絲,即可能會(huì)存在“二次配方”的現(xiàn)象。所以只使用一種類型煙草作為配方的斗煙產(chǎn)品,一方面可以滿足消費(fèi)者對(duì)特定煙草吸食的需求,另一方面可以滿足消費(fèi)者吸食斗煙時(shí)“二次配方”的需求。
通過分析可知,斗煙產(chǎn)品品牌、香味類型、配方類型及配方組成均對(duì)斗煙產(chǎn)品的市場偏好性產(chǎn)生影響,因此為進(jìn)一步研究斗煙產(chǎn)品配方組成、香味類型與產(chǎn)品平均得分之間的關(guān)聯(lián)關(guān)系,使用Python 編程語言編寫Apriori 算法,對(duì)斗煙產(chǎn)品數(shù)據(jù)進(jìn)行分析。
3.2.1 基于Apriori 的配方原料及香味類型關(guān)聯(lián)規(guī)則挖掘算法
將斗煙產(chǎn)品原料組成及香味類型拆分,使用英文字母(A~M)替代產(chǎn)品原料組成,使用阿拉伯?dāng)?shù)字(11~67)替代香味類型,并使用羅馬數(shù)字(Ⅰ、Ⅱ、Ⅲ)替代評(píng)分?jǐn)?shù)據(jù),其中Ⅰ代表分?jǐn)?shù)<2.0 分,Ⅱ代表分?jǐn)?shù)≥2.0 且<3.0 分,Ⅲ代表分?jǐn)?shù)≥3.0 分且≤4.0 分,表5 為替換后的產(chǎn)品信息。
使用Apriori 算法對(duì)斗煙產(chǎn)品的配方原料及香味類型關(guān)聯(lián)規(guī)則進(jìn)行挖掘,主要步驟[13]如下:
第一步:找出所有的頻繁項(xiàng)集。
首先獲取1 項(xiàng)候選集C1,剔除小于最低支持度閾值的項(xiàng)集得到1 項(xiàng)頻繁集L1;通過L1自身連接產(chǎn)生2 項(xiàng)候選集C2,保留C2中滿足約束條件的項(xiàng)集得到2 項(xiàng)頻繁集……;依次循環(huán),直至得到最大頻繁項(xiàng)集Lk。
第二步:由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。
對(duì)于每個(gè)頻繁項(xiàng)集的所有非空子集(這些非空子集一定是頻繁項(xiàng)集),若滿足其置信度≥最小置信度閾值,則該規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則。
表5 使用英文字母、阿拉伯?dāng)?shù)字及羅馬數(shù)字替換后的產(chǎn)品信息Tab.5 Product information after replaced by English letters, Arabic numerals and Roman numerals
在關(guān)聯(lián)規(guī)則中,支持度為項(xiàng)集A、B 同時(shí)發(fā)生的概率,即:
置信度為項(xiàng)集A 發(fā)生時(shí)項(xiàng)集B 發(fā)生的概率,即:
其中,Support_count(A∪B)為包含項(xiàng)集(A∪B)的事務(wù)數(shù),Total_count 為所有事務(wù)總個(gè)數(shù),Support_count(A)為包含項(xiàng)集A 的事務(wù)數(shù)。
為了使挖掘的規(guī)則更好地體現(xiàn)配方組成及香味類型與評(píng)分之間的關(guān)系,在研究中以支持度閾值0.1、置信度閾值0.7 分析挖掘結(jié)果中為“Ⅲ”的規(guī)則。
3.2.2 關(guān)聯(lián)規(guī)則挖掘結(jié)果
關(guān)聯(lián)規(guī)則挖掘結(jié)果(表6)表明,滿足最低支持度及置信度的強(qiáng)關(guān)聯(lián)規(guī)則共有20 條。從支持度來說,配方中使用烤煙的斗煙、原味型斗煙及配方中使用烤煙的原味型斗煙得分為“Ⅲ”的支持度最高,分別為59.29%、43.90%、39.71%;從置信度來說,配方中使用百里科煙草和烤煙的原味型斗煙、配方中使用拉塔基亞煙草和東方煙草/土耳其煙草的原味型斗煙以及配方中使用拉塔基亞煙草、烤煙和東方煙草/土耳其煙草的原味型斗煙得分為“Ⅲ”的置信度最高,分別為81.56%、81.31%、81.30%。
表6 關(guān)聯(lián)規(guī)則算法對(duì)斗煙產(chǎn)品信息的挖掘結(jié)果統(tǒng)計(jì)①Tab.6 Statistics of mining results of pipe tobacco product information by association rule algorithm(%)
綜上所述,得分為“Ⅲ”即得分≥3.0 分且≤4.0分的斗煙產(chǎn)品,其配方中主要使用了百里科煙草、烤煙、拉塔基亞煙草、東方煙草/土耳其煙草、白肋煙等煙葉原料,其香味類型主要為原味。且在配方中使用百里科煙草和烤煙煙葉的原味型斗煙產(chǎn)品,其得分“Ⅲ”的置信度最大,為81.56%,即該組合得分大于等于3 分的概率最高,為81.56%。
因此,上述結(jié)果表明在配方中使用百里科煙草、烤煙、拉塔基亞煙草、東方煙草/土耳其煙草、白肋煙等原料的原味型斗煙產(chǎn)品受市場歡迎程度較高,其中最受消費(fèi)者喜愛的組合為配方中使用烤煙和百里科煙草的原味型斗煙產(chǎn)品。主要原因可能是原味型斗煙產(chǎn)品中不添加香精香料,百里科煙草、拉塔基亞煙草、東方煙草/土耳其煙草等煙葉獨(dú)特的香氣可以使產(chǎn)品香氣更加豐富,提升產(chǎn)品吸食品質(zhì)[26]。
基于斗煙產(chǎn)品信息及網(wǎng)絡(luò)評(píng)價(jià)數(shù)據(jù)分析消費(fèi)者對(duì)斗煙產(chǎn)品品牌、香味類型、配方類型及配方組成等方面偏好性,結(jié)果表明斗煙產(chǎn)品市場偏好性主要體現(xiàn)在:大型斗煙企業(yè)所生產(chǎn)的斗煙產(chǎn)品;原味型斗煙產(chǎn)品;配方類型為芳香調(diào)味式、英式、純烤煙式的斗煙產(chǎn)品;產(chǎn)品配方中使用烤煙、白肋煙、拉塔基亞煙草、百里科煙草和東方煙草/土耳其煙草等原料的斗煙產(chǎn)品,且配方中使用上述原料的原味型斗煙產(chǎn)品更受市場歡迎?;诨ヂ?lián)網(wǎng)數(shù)據(jù)的斗煙市場偏好性分析可為中國斗煙產(chǎn)品研發(fā)提供借鑒。