国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于在線評(píng)論文本挖掘技術(shù)的電子煙市場(chǎng)消費(fèi)熱點(diǎn)分析

2019-12-28 03:30:44金吉瓊鄭賽晶
煙草科技 2019年12期
關(guān)鍵詞:詞項(xiàng)文檔特性

金吉瓊,劉 鴻,鄭賽晶

1. 上海牡丹香精香料有限公司技術(shù)中心,上海市浦東新區(qū)孫橋路1067 號(hào) 201210

2. 上海煙草集團(tuán)有限責(zé)任公司技術(shù)中心,上海市楊浦區(qū)長(zhǎng)陽(yáng)路717 號(hào) 200082

3. 上海新型煙草制品研究院,上海市虹口區(qū)大連路789 號(hào) 200082

隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,人類社會(huì)已進(jìn)入信息傳播率高速迭代的大數(shù)據(jù)時(shí)代[1],網(wǎng)絡(luò)購(gòu)物已逐漸成為人們生活消費(fèi)的主導(dǎo)方式之一[2-3]。消費(fèi)者在網(wǎng)購(gòu)商品時(shí),往往通過(guò)在線評(píng)論功能發(fā)表產(chǎn)品使用體驗(yàn)和產(chǎn)品價(jià)格等多維度產(chǎn)品感知類文本、圖片及視頻信息,累積的海量信息可為后續(xù)消費(fèi)者購(gòu)買(mǎi)決策提供有價(jià)值的參考意見(jiàn)?;ヂ?lián)網(wǎng)產(chǎn)生的90%信息由非結(jié)構(gòu)化數(shù)據(jù)構(gòu)成,其中文本數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù)的主要來(lái)源。近年來(lái),通過(guò)文本挖掘技術(shù)將難以量化的大規(guī)模文本數(shù)據(jù)整合轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),并抽取有價(jià)值的情報(bào)信息已廣泛應(yīng)用于商業(yè)、醫(yī)療和金融等領(lǐng)域[4-9]。Liang等[5]使用機(jī)器學(xué)習(xí)的自然語(yǔ)言處理和深度學(xué)習(xí)技術(shù)從大規(guī)模電子健康記錄(EHR)數(shù)據(jù)中提取臨床相關(guān)信息,并形成基于AI 的診斷評(píng)估系統(tǒng)以提供臨床決策支持。Preis 等[6]利用海量財(cái)經(jīng)搜索文本內(nèi)容和搜索頻率建立股票市場(chǎng)波動(dòng)性預(yù)警信號(hào)的判別模式。Jun 等[7-9]根據(jù)Google Trends 中提供的海量搜索信息研究分析客戶對(duì)科技類產(chǎn)品的接受度和購(gòu)買(mǎi)偏好,為企業(yè)推出迎合消費(fèi)市場(chǎng)的新產(chǎn)品提供設(shè)計(jì)研發(fā)思路。但由于煙草行業(yè)經(jīng)營(yíng)模式和卷煙產(chǎn)品的特殊性,利用互聯(lián)網(wǎng)大數(shù)據(jù)洞察消費(fèi)者對(duì)于卷煙產(chǎn)品的潛在需求,分析卷煙市場(chǎng)消費(fèi)趨勢(shì)和消費(fèi)行為的研究則鮮有報(bào)道。特別是電子煙制造企業(yè)大多以消費(fèi)者調(diào)研或邀請(qǐng)行業(yè)內(nèi)專家品鑒抽吸的方式,獲取電子煙新產(chǎn)品的感官體驗(yàn)和消費(fèi)需求信息,具有專業(yè)性強(qiáng)、信息反饋及時(shí)等特點(diǎn),但也存在采集樣本數(shù)量小、成本高、調(diào)研結(jié)果代表性差和主觀性強(qiáng)等缺陷,而基于互聯(lián)網(wǎng)海量數(shù)據(jù)挖掘電子煙市場(chǎng)消費(fèi)趨勢(shì)可有效彌補(bǔ)傳統(tǒng)方式的不足。

電子煙(Electronic cigarette,E-cig)作為一種新型煙草制品,因顯著降低有害物質(zhì)釋放、產(chǎn)品設(shè)計(jì)時(shí)尚以及口味選擇多樣等特點(diǎn),已快速成為全球卷煙市場(chǎng)中替代傳統(tǒng)卷煙的主流產(chǎn)品之一[10-12]。統(tǒng)計(jì)顯示,2018 年全球電子煙市場(chǎng)產(chǎn)值達(dá)160 億美元,相比2010 年增長(zhǎng)近20 倍。近年來(lái),天貓、京東等大型電商平臺(tái)上都累積了大量消費(fèi)者對(duì)電子煙產(chǎn)品的使用評(píng)論,知乎、微博等社交網(wǎng)絡(luò)中也蘊(yùn)含著大量消費(fèi)群體抽吸體驗(yàn)各類產(chǎn)品的話題內(nèi)容。為此,通過(guò)爬蟲(chóng)軟件采集京東電商平臺(tái)、新浪微博和知乎社交網(wǎng)絡(luò)中消費(fèi)者對(duì)電子煙產(chǎn)品的評(píng)論文本數(shù)據(jù),利用文本挖掘技術(shù)探索消費(fèi)者對(duì)電子煙產(chǎn)品特性的關(guān)注熱度和評(píng)論熱點(diǎn)內(nèi)容,并識(shí)別消費(fèi)者評(píng)論中潛在的隱含主題,以期剖析國(guó)內(nèi)電子煙產(chǎn)品市場(chǎng)熱點(diǎn)和消費(fèi)者購(gòu)買(mǎi)電子煙產(chǎn)品的消費(fèi)行為,捕捉消費(fèi)者對(duì)電子煙產(chǎn)品的潛在購(gòu)買(mǎi)需求,為煙草企業(yè)研發(fā)設(shè)計(jì)和優(yōu)化電子煙產(chǎn)品提供參考依據(jù)。

1 研究方法

1.1 數(shù)據(jù)樣本獲取

選取國(guó)內(nèi)銷量較高、口碑較好的6 個(gè)電子煙品牌(A~F)共14 種電子煙產(chǎn)品為研究對(duì)象。根據(jù)電池功率、電池容量、氣溶膠霧化量和產(chǎn)品結(jié)構(gòu)不同,電子煙產(chǎn)品可劃分為小煙和大煙兩種類型,煙液添加以更換預(yù)配煙彈和手動(dòng)注液兩種方式為主。本研究中考察的14種電子煙的產(chǎn)品特性基本涵蓋了目前市售電子煙的主要產(chǎn)品類型和煙彈類型。

使用爬蟲(chóng)軟件采集2018 年1 月至2019 年3 月期間,京東電商網(wǎng)站、新浪微博和知乎社交平臺(tái)中關(guān)于上述產(chǎn)品的在線評(píng)論和話題內(nèi)容為文本數(shù)據(jù)樣本。表1 為爬取的各品牌電子煙產(chǎn)品信息和經(jīng)去重處理后的各種產(chǎn)品有效評(píng)論數(shù)量,適用于后續(xù)文本挖掘的產(chǎn)品在線評(píng)論數(shù)量共13 981 條。

表1 新型煙草產(chǎn)品信息及網(wǎng)絡(luò)評(píng)論數(shù)量Tab.1 Information and online comment amount of new tobacco products

1.2 文本數(shù)據(jù)預(yù)處理

未經(jīng)處理的文本中通常包含大量重復(fù)性評(píng)論、無(wú)語(yǔ)義評(píng)論,例如數(shù)字、字母和網(wǎng)絡(luò)語(yǔ)義的特殊字符,以及“該用戶未填寫(xiě)評(píng)論”或“默認(rèn)好評(píng)”等類似網(wǎng)站自動(dòng)生成的評(píng)論文本以及字符長(zhǎng)度小于2 的極短評(píng)論,這類評(píng)論內(nèi)容傳遞的信息量少,且增加文本分析的復(fù)雜度,容易造成高稀疏性文本模型,在預(yù)處理過(guò)程中需將其清洗過(guò)濾去除。

初步預(yù)處理的評(píng)論文本根據(jù)《哈工大停用詞詞庫(kù)》和自建煙草類專有名詞詞典,使用jiebaR 分詞工具去除評(píng)論文本中停用詞、識(shí)別煙草類專有詞項(xiàng),并逐條分詞解析評(píng)論文本,形成由多個(gè)詞項(xiàng)構(gòu)成的字符串集合。分詞處理后的部分評(píng)論見(jiàn)表2。

表2 評(píng)論文本的分詞處理結(jié)果Tab.2 Results of comment texts segmented by words

1.3 文本數(shù)據(jù)特征抽取

在線評(píng)論是由自然語(yǔ)言構(gòu)成的文檔數(shù)據(jù)集合,每個(gè)文檔由若干詞項(xiàng)以一定語(yǔ)義邏輯組合而成。根據(jù)詞項(xiàng)在文中出現(xiàn)的頻率及其表達(dá)的特定主題,采用向量空間模型(Vector Space Model,VSM)對(duì)海量文本建立文本特征模型,使文本轉(zhuǎn)化為可量化表征的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行特征挖掘。

VSM 基本原理是評(píng)論文檔Di能夠表示為Di=D(t1,wi1;t2,wi2;...;tm,wim)的文檔集合,其中(t1,t2,...,tm)為一個(gè)m 維互異詞項(xiàng)集合,(wi1,wi2,...,wim)為對(duì)應(yīng)m 維詞項(xiàng)在文檔中的權(quán)重,即在文檔Di中的重要程度,wij一般定義為在文檔Di(i=1,2,3,…,n)中詞項(xiàng)tj(j=1,2,3,…,m)出現(xiàn)頻率(Term Frequency, TF)的函數(shù)tf(dij),本文中構(gòu)建的文本特征模型見(jiàn)表3。

表3 文本向量空間模型Tab.3 Text vector space model

VSM 以詞項(xiàng)在文檔中權(quán)重系數(shù)wij構(gòu)建的m×n維文檔-詞項(xiàng)矩陣(Document Term Matrix,DTM)集合了評(píng)論文本中的所有詞項(xiàng),導(dǎo)致DTM 通常具有高稀疏性和數(shù)據(jù)冗余性。因此,需采用詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法對(duì)DTM 提取文本特征。

TF-IDF 是Salton 等[13]提出的單詞權(quán)重統(tǒng)計(jì)方法。其中,TF 為詞頻,指某一給定詞項(xiàng)在該文件中出現(xiàn)的次數(shù);IDF 為逆文檔頻率,指含有該詞項(xiàng)的文檔數(shù)在總文檔中所占比例取逆后的對(duì)數(shù)值,表征該詞項(xiàng)區(qū)分文檔的能力。當(dāng)詞項(xiàng)在一篇文檔中出現(xiàn)頻率越高,同時(shí)在其他文檔中出現(xiàn)次數(shù)越少,表明該詞項(xiàng)對(duì)該篇文檔的區(qū)分能力越強(qiáng),其權(quán)重TF-IDF 值則越大。TF-IDF 計(jì)算公式為:

式中:tfi為詞項(xiàng)i 在文檔中出現(xiàn)頻率;dfi為出現(xiàn)詞項(xiàng)i 的文檔數(shù);N 為總文檔數(shù)。

1.4 文檔主題模型

文檔主題模型(Topic Model)是挖掘大規(guī)模文檔集或語(yǔ)料庫(kù)中隱藏的潛在主題的一種無(wú)監(jiān)督機(jī)器學(xué)習(xí)統(tǒng)計(jì)模型,在電商推薦系統(tǒng)、社交網(wǎng)絡(luò)話題識(shí)別和新聞信息主題聚類等自然語(yǔ)言處理領(lǐng)域中應(yīng)用廣泛[14]。隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)主題模型是近年來(lái)主流的概率主題模型[15],其原理是基于詞袋模型,認(rèn)為文檔d與文檔中詞語(yǔ)W 之間存在中間層主題Z,且文檔是主題的概率分布,主題又是詞的概率分布,由此可將高維度的文檔-詞項(xiàng)向量空間模型映射為低維度的文檔-主題和主題-詞項(xiàng)空間,進(jìn)而挖掘文檔中潛在蘊(yùn)含的若干主題。文檔的層級(jí)關(guān)系見(jiàn)圖1。

圖1 主題模型的文檔結(jié)構(gòu)Fig.1 Document structure of topic model

文檔的矩陣轉(zhuǎn)換關(guān)系見(jiàn)圖2。其中,矩陣C 表示文檔中的詞語(yǔ)概率分布,矩陣Φ表示主題下的詞語(yǔ)概率分布,矩陣θ表示文檔下的主題概率分布,而分析主題模型的目的在于通過(guò)解析文檔C得到矩陣Φ和矩陣θ。

圖2 主題模型的矩陣轉(zhuǎn)換關(guān)系Fig.2 Matrix transformation of topic models

綜上所述,本文中基于電子煙在線評(píng)論對(duì)國(guó)內(nèi)電子煙市場(chǎng)熱點(diǎn)的研究主要分為評(píng)論文本爬取、文本預(yù)處理、文本特征抽取和特征挖掘建模4個(gè)步驟,具體分析流程框架見(jiàn)圖3。所有文本處理和挖掘分析均以R 代碼實(shí)現(xiàn)。

圖3 消費(fèi)者評(píng)論文本挖掘分析流程Fig.3 Flowchart of text mining and analysis of consumers’comments

2 結(jié)果與討論

2.1 電子煙產(chǎn)品特性熱度分析

電子煙主要由電池桿、霧化芯和煙彈3 個(gè)部件組成。電池桿中電池性能和功率大小決定了電子煙抽吸口數(shù)和氣溶膠霧化量水平,霧化芯對(duì)電子煙氣溶膠霧化效率具有重要影響,消費(fèi)者通過(guò)抽吸電子煙煙彈中煙液獲得感官愉悅性。電子煙的3 個(gè)部件相互作用構(gòu)成產(chǎn)品特性,直接或間接地影響著消費(fèi)者的抽吸體驗(yàn)。但消費(fèi)者對(duì)不同產(chǎn)品特性的關(guān)注程度并非完全一致,即每類產(chǎn)品特性對(duì)消費(fèi)者購(gòu)買(mǎi)決策的貢獻(xiàn)度等級(jí)存在差異。因此,基于產(chǎn)品特性的熱度分析可有效挖掘消費(fèi)者購(gòu)買(mǎi)電子煙產(chǎn)品時(shí)的關(guān)注熱點(diǎn),為產(chǎn)品設(shè)計(jì)和研發(fā)優(yōu)化提供思路。

本研究文中對(duì)6 個(gè)品牌共14 種電子煙產(chǎn)品的所有評(píng)論文本進(jìn)行分詞解析并標(biāo)注詞性,提取出與電子煙產(chǎn)品特性相關(guān)的名詞詞項(xiàng),結(jié)果見(jiàn)表4??梢?jiàn),消費(fèi)者評(píng)論文本中共涉及8 類產(chǎn)品特性相關(guān)詞項(xiàng),分別為煙液、煙彈、霧化芯、電池、外觀設(shè)計(jì)、口感、價(jià)格和整體質(zhì)量。

表4 電子煙產(chǎn)品特性相關(guān)詞項(xiàng)Tab.4 Features and related terms of e-cigs

產(chǎn)品特性在評(píng)論文本中的出現(xiàn)頻率能集中反映消費(fèi)者對(duì)該類特性的關(guān)注程度,兩者間呈顯著正相關(guān)關(guān)系,即產(chǎn)品特性的相關(guān)詞項(xiàng)出現(xiàn)頻率越高,表明消費(fèi)者在購(gòu)買(mǎi)電子煙時(shí)越注重該類產(chǎn)品特性的性能表現(xiàn),也是決定消費(fèi)者是否購(gòu)買(mǎi)產(chǎn)品的首要參考因素?;? 個(gè)品牌電子煙產(chǎn)品評(píng)論數(shù)據(jù)繪制的產(chǎn)品特性熱力圖見(jiàn)圖4,圖中產(chǎn)品特性-品牌對(duì)應(yīng)區(qū)塊顏色深淺用于表征產(chǎn)品特性在評(píng)論中出現(xiàn)的頻率百分比高低,當(dāng)產(chǎn)品特性的關(guān)注度越高,則該特性熱度越高,顏色顯著加深。

圖4 各品牌產(chǎn)品特性關(guān)注度熱力圖Fig.4 Heatmap of concerned features for all brands

由圖4 可知,消費(fèi)者對(duì)A~F 這6 個(gè)品牌電子煙產(chǎn)品特性的關(guān)注規(guī)律基本一致,8 個(gè)產(chǎn)品特性關(guān)注度由高至低依次為:抽吸口感>整體質(zhì)量>煙液>外觀設(shè)計(jì)>煙彈>霧化芯>價(jià)格>電池性能。由此表明,電子煙抽吸口感、整體質(zhì)量和煙液是消費(fèi)者反饋熱度最高的3 類產(chǎn)品特性,是影響消費(fèi)者購(gòu)買(mǎi)決策的主要因素,而對(duì)于電子煙產(chǎn)品價(jià)格和電池性能,消費(fèi)者的敏感度則相對(duì)較弱。

2.2 消費(fèi)者評(píng)論關(guān)鍵詞分析

消費(fèi)者評(píng)論關(guān)鍵詞導(dǎo)向與產(chǎn)品品牌和產(chǎn)品類型兩個(gè)維度密切相關(guān)。基于產(chǎn)品品牌的消費(fèi)者評(píng)論關(guān)鍵詞分析,能夠清晰地了解消費(fèi)者對(duì)不同品牌產(chǎn)品的關(guān)注點(diǎn),有利于捕捉消費(fèi)者對(duì)電子煙主要產(chǎn)品特性的共性需求;基于電子煙產(chǎn)品類型分析,例如以電池功率大小和煙液添加方式分類的消費(fèi)者評(píng)論關(guān)鍵詞等,可以深入挖掘消費(fèi)者對(duì)不同類型產(chǎn)品的差異性需求。

本文中基于產(chǎn)品品牌和產(chǎn)品類型兩個(gè)視角維度分析消費(fèi)者評(píng)論的關(guān)鍵詞項(xiàng)。通過(guò)TF-IDF 算法提取出大規(guī)模評(píng)論文本中關(guān)鍵詞,并以詞云可視化方式展現(xiàn)評(píng)論中TF-IDF 值最高的前50 項(xiàng)特征關(guān)鍵詞,A~F 品牌電子煙產(chǎn)品的消費(fèi)者評(píng)論文本詞云圖由R 語(yǔ)言wordcloud2 包繪制,見(jiàn)圖5??梢?jiàn),消費(fèi)者評(píng)論中“感覺(jué)”“口味”“口感”和“味道”等表示抽吸口感的關(guān)鍵詞詞項(xiàng)權(quán)重較高。其中,“舒服”“真煙”“薄荷”“綠豆”“水果”和“藍(lán)莓”等關(guān)鍵詞,表明電子煙抽吸口感的舒適性以及與傳統(tǒng)卷煙口味的相似程度是消費(fèi)者對(duì)抽吸口感的主要評(píng)價(jià)內(nèi)容。在眾多電子煙煙液選擇中,消費(fèi)者對(duì)煙草本香、薄荷和水果香型的煙液具有明顯購(gòu)買(mǎi)偏好。特征詞“質(zhì)量”出現(xiàn)在6 個(gè)品牌電子煙詞云圖中,說(shuō)明消費(fèi)者對(duì)電子煙產(chǎn)品整體質(zhì)量的關(guān)注度也較高,其主要基于電子煙在抽吸過(guò)程中各零部件運(yùn)行的穩(wěn)定性和安全性,以及產(chǎn)品外觀、包裝、設(shè)計(jì)和價(jià)格等方面的綜合評(píng)價(jià)。與產(chǎn)品特性熱度分析結(jié)果一致,“煙彈”和“煙液”是兩項(xiàng)較受關(guān)注的產(chǎn)品特性,與之相關(guān)的特征詞如“漏油”和“煙霧”表明煙彈抽吸時(shí)產(chǎn)生的煙霧量大小,以及電子煙是否存在煙液漏油和炸油等安全隱患是消費(fèi)者的關(guān)注重點(diǎn),可能對(duì)購(gòu)買(mǎi)決策產(chǎn)生影響。此外,各品牌電子煙產(chǎn)品評(píng)論中,反映消費(fèi)者情感傾向的特征詞也具有較高TF-IDF 值,例如“喜歡”“滿意”“好評(píng)”和“很好”等正面情感特征詞,其數(shù)量及權(quán)重顯著高于負(fù)面情感詞項(xiàng),表明消費(fèi)者對(duì)電子煙產(chǎn)品的接受度較高,體驗(yàn)感受總體呈正面性。

圖5 不同電子煙品牌消費(fèi)者評(píng)論詞云圖Fig.5 Wordcloud graphs of consumers’comments on e-cigs of different brands

市場(chǎng)中主流電子煙產(chǎn)品根據(jù)電池功率大小可分為小煙型和大煙型產(chǎn)品,小煙型產(chǎn)品電池功率一般低于30 W,多以更換預(yù)配煙彈方式添加煙液或?yàn)橐淮涡詿熤?,而大煙型產(chǎn)品電池功率范圍為30~220 W,多以手動(dòng)注油方式添加煙液。根據(jù)大小煙型將A~F 品牌電子煙產(chǎn)品分類,進(jìn)一步挖掘消費(fèi)者對(duì)不同類型電子煙產(chǎn)品的關(guān)注熱點(diǎn),詞云圖見(jiàn)圖6??梢?jiàn),兩類產(chǎn)品評(píng)論中TF-IDF 值較高的詞項(xiàng)基本一致,以產(chǎn)品口味、消費(fèi)者情感傾向和產(chǎn)品質(zhì)量詞項(xiàng)為主。但大煙型產(chǎn)品評(píng)論中表征電子煙霧化效果的詞項(xiàng),例如“煙霧量”“煙霧大”“煙量”“功率”和“很大”等關(guān)鍵詞的出現(xiàn)頻率和詞項(xiàng)權(quán)重顯著高于小煙型產(chǎn)品,表明大煙型產(chǎn)品消費(fèi)群體對(duì)產(chǎn)品儲(chǔ)油量、電池容量以及霧化芯功率等配件參數(shù)較為關(guān)注。而小煙型產(chǎn)品評(píng)論中,“口感”“口味”和“味道”等關(guān)鍵詞出現(xiàn)密度較高,表明小煙型產(chǎn)品消費(fèi)者更強(qiáng)調(diào)抽吸口感的滿意度。此外,煙液“漏油”在兩類產(chǎn)品評(píng)論中均有提及,但基于評(píng)論內(nèi)容的統(tǒng)計(jì)結(jié)果,大煙型產(chǎn)品出現(xiàn)漏油現(xiàn)象的概率高于小煙型產(chǎn)品,表明大煙型產(chǎn)品的安全性和體驗(yàn)舒適性可能低于小煙型產(chǎn)品。

圖6 不同類型產(chǎn)品消費(fèi)者評(píng)論詞云圖Fig.6 Wordcloud graphs of consumers’comments on e-cigs of different sizes

2.3 電子煙產(chǎn)品評(píng)論主題識(shí)別

基于信息論的觀點(diǎn),消費(fèi)者購(gòu)買(mǎi)決策的形成是一個(gè)多層次的信息處理過(guò)程[16]。產(chǎn)品特征的關(guān)注熱點(diǎn)是基于產(chǎn)品層面的單一維度信息,而獲得消費(fèi)者購(gòu)買(mǎi)產(chǎn)品過(guò)程中與消費(fèi)行為相關(guān)的多維度信息,例如潛在消費(fèi)需求、消費(fèi)心理、消費(fèi)偏好以及影響產(chǎn)品滿意度因素等,對(duì)刻畫(huà)電子煙產(chǎn)品消費(fèi)者用戶畫(huà)像具有實(shí)際意義。在海量評(píng)論文本中,消費(fèi)者表達(dá)的語(yǔ)義內(nèi)容通常復(fù)雜多樣,每條評(píng)論中呈現(xiàn)的主題內(nèi)容也并非十分明確,通過(guò)人為瀏覽逐條評(píng)論難以實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的集成處理。為此,通過(guò)文本挖掘技術(shù)采用LDA 主題建模提煉海量文本中潛在的主題內(nèi)容,可有效剖析消費(fèi)者購(gòu)買(mǎi)電子煙產(chǎn)品的消費(fèi)行為信息?;?4 種電子煙產(chǎn)品的評(píng)論文本數(shù)據(jù)建立LDA 主題模型,當(dāng)最大似然系數(shù)值確定主題數(shù)k 為6 時(shí),解析產(chǎn)生詞項(xiàng)-主題矩陣φ中前10 個(gè)詞項(xiàng)分布及對(duì)應(yīng)概率,結(jié)果見(jiàn)圖7。

圖7 6 類主題中前10 個(gè)詞項(xiàng)及概率分布Fig.7 Probability distribution plot of top 10 terms in each topic

由圖7 可知,消費(fèi)者評(píng)論文本的6 個(gè)分類主題中,主題1 中概率分布前3 的特征詞項(xiàng)為“物流”“京東”和“很快”,表明該主題以消費(fèi)者對(duì)電商物流和服務(wù)評(píng)價(jià)為主;主題2 中出現(xiàn)“口味”“味道”和“感覺(jué)”等主題特征詞與電子煙煙彈口味相關(guān),且“薄荷”“水果”和“煙草”3 種口味的概率分布顯著高于其他口味,說(shuō)明消費(fèi)者對(duì)這3 種口味煙液具有一定購(gòu)買(mǎi)偏好;主題3 和主題4 均出現(xiàn)與消費(fèi)者情緒相關(guān)的特征詞項(xiàng),主題3 中“漏油”“充電”“客服”和“不好”等詞項(xiàng)與消費(fèi)者負(fù)面情緒相關(guān),說(shuō)明電子煙煙液漏油、電池充電及耗電異常是電子煙生產(chǎn)中亟待解決的問(wèn)題,直接影響消費(fèi)者對(duì)產(chǎn)品滿意度評(píng)價(jià);主題4 中“滿意”“不錯(cuò)”和“精致”等詞項(xiàng)體現(xiàn)了消費(fèi)者正面積極情緒,表明大部分消費(fèi)者對(duì)電子煙的“口感”“包裝”“煙霧量”和“做工”等方面感到滿意;主題5 中“戒煙”“真煙”“抽煙”和“戒掉”等詞項(xiàng)概率分布較高,揭示了消費(fèi)者購(gòu)買(mǎi)電子煙更強(qiáng)調(diào)抽吸口感以及感官滿足度是否與傳統(tǒng)卷煙一致,且多以尋求替代傳統(tǒng)卷煙達(dá)到戒煙效果為目的的潛在消費(fèi)需求;主題6 中獲取的特征詞體現(xiàn)了電子煙產(chǎn)品的主要消費(fèi)人群,除傳統(tǒng)卷煙吸煙人群外,可能有部分女性或吸煙者家人基于戒煙或健康因素為家人購(gòu)買(mǎi)電子煙,且多數(shù)消費(fèi)者會(huì)以朋友或產(chǎn)品口碑推薦選擇購(gòu)買(mǎi)電子煙產(chǎn)品。

LDA 主題模型中不同主題特征詞項(xiàng)與消費(fèi)行為關(guān)聯(lián)網(wǎng)絡(luò)圖及各類主題在評(píng)論文本中所占比例,見(jiàn)圖8 和圖9??梢?jiàn),LDA 主題建模分類識(shí)別的6 個(gè)主題分別涵蓋了消費(fèi)者對(duì)電子煙產(chǎn)品的購(gòu)買(mǎi)偏好(主題2)、消費(fèi)者潛在消費(fèi)需求(主題4)、電子煙產(chǎn)品主要消費(fèi)群體(主題6)和影響電子煙產(chǎn)品滿意度主要因素(主題1、主題3 和主題5)的相關(guān)信息。在所有評(píng)論文本中,近50%的評(píng)論內(nèi)容與產(chǎn)品滿意度有關(guān),其他3 類消費(fèi)行為相關(guān)評(píng)論數(shù)量比例基本一致,為15.15%~16.67%。

圖8 LDA 主題模型中消費(fèi)行為剖析網(wǎng)絡(luò)圖Fig.8 Network graph of consumers’behaviors profiled from LDA topic models

圖9 各類主題在評(píng)論文本中的比例Fig.9 Proportion of each topic in comment texts

3 結(jié)論

基于電商平臺(tái)和社交網(wǎng)絡(luò)中采集的6 個(gè)品牌共14 種電子煙產(chǎn)品消費(fèi)者在線評(píng)論文本數(shù)據(jù),采用文本挖掘技術(shù)研究消費(fèi)者對(duì)電子煙不同產(chǎn)品特性的關(guān)注熱度以及主要產(chǎn)品特性的重點(diǎn)關(guān)注內(nèi)容,并使用LDA 主題模型挖掘潛在評(píng)論主題以剖析消費(fèi)者的消費(fèi)行為。結(jié)果表明:①消費(fèi)者對(duì)8類產(chǎn)品特性的關(guān)注熱度依次為:抽吸口感>整體質(zhì)量>煙液>外觀設(shè)計(jì)>煙彈>霧化芯>價(jià)格>電池性能,電子煙抽吸口感、整體質(zhì)量和煙液是消費(fèi)者反饋熱度最高的3 項(xiàng)產(chǎn)品特性。②消費(fèi)者評(píng)論關(guān)鍵詞挖掘結(jié)果表明,以產(chǎn)品品牌維度分析,電子煙口感舒適性、與傳統(tǒng)卷煙口味相似性、產(chǎn)品使用穩(wěn)定性和安全性、電子煙煙液漏油及霧化芯霧化量是消費(fèi)者對(duì)關(guān)鍵產(chǎn)品特性的普遍評(píng)論內(nèi)容;以產(chǎn)品類型維度分析,大煙型產(chǎn)品消費(fèi)者的關(guān)注重點(diǎn)是產(chǎn)品霧化性能,例如儲(chǔ)油量、電池功率及電容量等參數(shù),而小煙型產(chǎn)品消費(fèi)者更強(qiáng)調(diào)電子煙抽吸口感的優(yōu)劣,表明不同類型電子煙產(chǎn)品的消費(fèi)群體關(guān)注點(diǎn)具有一定差異。③LDA 主題模型能夠有效識(shí)別消費(fèi)者評(píng)論中6 類潛在主題,揭示了消費(fèi)者對(duì)電子煙產(chǎn)品口味的購(gòu)買(mǎi)偏好(煙草、薄荷和水果香型)、潛在購(gòu)買(mǎi)需求(以戒煙為目的)、電子煙產(chǎn)品消費(fèi)群體(部分女性消費(fèi)者、傳統(tǒng)卷煙消費(fèi)者及其家人)和影響產(chǎn)品滿意度因素(電商服務(wù)、煙液漏油、電池質(zhì)量、外觀設(shè)計(jì)等)的多維度消費(fèi)行為信息。

猜你喜歡
詞項(xiàng)文檔特性
有人一聲不吭向你扔了個(gè)文檔
谷稗的生物學(xué)特性和栽培技術(shù)
色彩特性
流行色(2020年9期)2020-07-16 08:08:54
進(jìn)一步凸顯定制安裝特性的優(yōu)勢(shì) Integra DRX-5.2
自然種類詞項(xiàng)二難、卡茨解決與二維框架
Quick Charge 4:什么是新的?
CHIP新電腦(2017年6期)2017-06-19 09:41:44
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
不讓他人隨意下載Google文檔
電腦迷(2012年4期)2012-04-29 06:12:13
英語(yǔ)詞項(xiàng)搭配范圍及可預(yù)見(jiàn)度
秭归县| 咸宁市| 库伦旗| 精河县| 泸定县| 新乡市| 抚顺县| 图木舒克市| 涿州市| 隆安县| 淳化县| 铜陵市| 读书| 营口市| 大冶市| 定日县| 中阳县| 铜陵市| 方正县| 滨海县| 莱阳市| 南丰县| 安溪县| 法库县| 清徐县| 斗六市| 万州区| 徐汇区| 凤城市| 景洪市| 黄山市| 融水| 信阳市| 通辽市| 宝兴县| 承德县| 曲阜市| 马关县| 囊谦县| 民丰县| 马山县|