姜鳳珍,張嫣軒
(青島理工大學(xué) 管理工程學(xué)院,山東 青島 266520)
隨著大數(shù)據(jù)、社交媒體等信息技術(shù)水平的提高,制造企業(yè)的外部環(huán)境變化迅速,市場競合關(guān)系復(fù)雜,產(chǎn)品更新迭代周期逐漸縮短[1]。企業(yè)進(jìn)行產(chǎn)品迭代是以較低成本、較短周期進(jìn)行產(chǎn)品再開發(fā)的策略,也是快速提高市場占有率、延續(xù)產(chǎn)品生命力的方法之一。李全升等[2]也指出在前瞻型市場中,基于持續(xù)改進(jìn)的迭代式創(chuàng)新更容易創(chuàng)造新的價(jià)值機(jī)會。在實(shí)體企業(yè)的經(jīng)營生產(chǎn)上應(yīng)引入迭代思維,迭代式需求獲取可為傳統(tǒng)實(shí)體產(chǎn)品的設(shè)計(jì)與生產(chǎn)提供新的思考方式[3]。目前實(shí)體企業(yè)中的迭代創(chuàng)新尚處于實(shí)踐階段,需要進(jìn)一步進(jìn)行理論和方法的抽象與歸納[4]。
迭代式創(chuàng)新應(yīng)以需求為導(dǎo)向,傳統(tǒng)的需求分析,如層次分析法[5]、TOPSIS和專家群決策[6]等,由于時(shí)間空間的限制,會使得用戶參與度低,調(diào)研范圍小、主觀性較強(qiáng)等。目前,數(shù)據(jù)驅(qū)動的研究可有效彌補(bǔ)傳統(tǒng)研究方法在客觀性和效率方面的缺陷[7]。麥肯錫的經(jīng)典報(bào)告也指出,挖掘和分析顧客需求大數(shù)據(jù)對于支持產(chǎn)品需求分析與設(shè)計(jì)活動極其有益[8]。利用結(jié)構(gòu)化文本數(shù)據(jù)可以快速、有效地挖掘有價(jià)值的顧客需求[9]。楊程等[10]基于手機(jī)產(chǎn)品的大量評論,計(jì)算各屬性評價(jià)指標(biāo)得分,制定下一步的迭代方案;黃晟青等[11]為將在線評論中用戶體驗(yàn)信息準(zhǔn)確應(yīng)用于產(chǎn)品迭代設(shè)計(jì)中,從分離視角綜合運(yùn)用數(shù)據(jù)挖掘技術(shù)構(gòu)建了一個用戶需求挖掘模型;胡珊等[12]通過從評論信息中獲得的實(shí)時(shí)需求與模糊Kano模型相結(jié)合,確定用戶需求重要度排序,用重構(gòu)的方法得到數(shù)據(jù)驅(qū)動的產(chǎn)品迭代創(chuàng)新的設(shè)計(jì)方法;張公讓等[13]為更好地緊跟客戶需求,通過語義網(wǎng)絡(luò)特征關(guān)聯(lián)分析、tf-idf詞頻分析、情感詞典分析等多方面深入剖析評論文本。張國方等[14]以用戶需求為導(dǎo)向,通過質(zhì)量屋(QFD)的構(gòu)建,將采集到的有價(jià)值網(wǎng)絡(luò)數(shù)據(jù)轉(zhuǎn)化為工程設(shè)計(jì)指標(biāo),確定產(chǎn)品設(shè)計(jì)方向。
文獻(xiàn)描述,為更好地獲取需求實(shí)現(xiàn)產(chǎn)品的快速迭代改進(jìn),多數(shù)研究本質(zhì)上是通過評論數(shù)據(jù)挖掘用戶對產(chǎn)品特征的觀點(diǎn),缺少時(shí)間角度的考慮,缺乏前瞻性[15]。文本評論的影響具有一定的時(shí)效性和動態(tài)性[16],可構(gòu)建模型預(yù)測用戶需求隨時(shí)間的變化。關(guān)于傳統(tǒng)統(tǒng)計(jì)計(jì)量預(yù)測模型,其精確性在預(yù)測宏觀經(jīng)濟(jì)指標(biāo)GDP數(shù)值上得到了很好的驗(yàn)證[17];也有學(xué)者運(yùn)用改進(jìn)后的LDA模型對輿情主題演化進(jìn)行更細(xì)粒度、更合理的劃分,結(jié)合ARMR模型對事件的情感觀點(diǎn)進(jìn)行精細(xì)分析預(yù)測[18];Yuan等[19]精確提取消費(fèi)者對產(chǎn)品的情感,從而結(jié)合時(shí)間序列提高銷售預(yù)測性能。以上研究更多聚焦于導(dǎo)致情感發(fā)生變化的因素,并未將客戶關(guān)注度和情感值聯(lián)合考量。
為使設(shè)計(jì)人員在設(shè)計(jì)過程中能夠更加準(zhǔn)確地識別顧客的需求并能夠更高效地進(jìn)行迭代產(chǎn)品的改進(jìn),本文主要從大量用戶文本評論中獲取消費(fèi)者的需求變化趨勢,挖掘其中的有效信息,從而加強(qiáng)與用戶之間的溝通交流;應(yīng)用改進(jìn)后的時(shí)間序列變化模型,探索用戶關(guān)注度和情感傾向的動態(tài)變化以及二者之間的相互影響,對其波動進(jìn)行合理預(yù)測,形成基于用戶評論數(shù)據(jù)的建議、推斷和決策,以此為產(chǎn)品設(shè)計(jì)提供理論依據(jù)和改進(jìn)方向。以藍(lán)牙耳機(jī)為研究對象,對用戶在互聯(lián)網(wǎng)上發(fā)布的在線評論,采用文本挖掘技術(shù)開展相關(guān)研究,深入市場分析,多維度為快速迭代產(chǎn)品的改進(jìn)提出輔助建議。
本文將文本挖掘技術(shù)和時(shí)間序列分析模型結(jié)合起來,通過對文本評論中相關(guān)屬性特征詞的提取,計(jì)算用戶對產(chǎn)品屬性的關(guān)注度和情感值,預(yù)測下一時(shí)刻或周期的關(guān)注度和情感值。其中,關(guān)注度可以體現(xiàn)用戶對產(chǎn)品屬性的重視程度,情感值可以說明用戶對產(chǎn)品屬性是否滿足,將兩者同時(shí)加入預(yù)測模型中,探究評論情感值是否對產(chǎn)品關(guān)注度預(yù)測產(chǎn)生影響,對產(chǎn)品迭代設(shè)計(jì)改進(jìn)提出建議。研究流程如圖1所示,可總結(jié)為以下四個步驟:
圖1 研究流程圖Fig.1 Research flow chart
1)數(shù)據(jù)收集與結(jié)構(gòu)化:對爬取到的評論數(shù)據(jù)進(jìn)行預(yù)處理,應(yīng)用LDA主題模型從中提取產(chǎn)品屬性特征詞[20],進(jìn)行主題特征歸納,去除無用詞,擴(kuò)充詞義相近的詞,并形成詞典。
2)有用評論篩選:根據(jù)產(chǎn)品屬性詞典對文本數(shù)據(jù)進(jìn)行有用篩選和分類,找出特征-時(shí)間的對應(yīng)文本,為分析提高精度、內(nèi)存利用率,提供可靠的基礎(chǔ)數(shù)據(jù)。
3)情感值量化:利用SnowNLP類庫對商品評論的情感分?jǐn)?shù)進(jìn)行量化計(jì)算,求出聯(lián)合產(chǎn)品屬性關(guān)注度的情感優(yōu)化值。
4)時(shí)間序列分析與預(yù)測:統(tǒng)計(jì)不同時(shí)間段的產(chǎn)品屬性特征的關(guān)注度和正、負(fù)面情感值形成時(shí)間序列數(shù)據(jù),動態(tài)分析其變化趨勢,采用自回歸時(shí)間序列方法對情感值的變化進(jìn)行可視化演示。
目前,藍(lán)牙無線耳機(jī)作為熱門電子產(chǎn)品,客戶需求量大、種類眾多、更新?lián)Q代速度較快,所以選取無線藍(lán)牙耳機(jī)作為分析對象。通過Python 爬蟲框架編寫程序,以銷量排序爬取天貓無線藍(lán)牙耳機(jī)近10個月的在線文本評論,共計(jì)9 000余條,起止時(shí)間為2020年7月到2021年4月,節(jié)選了部分評論語料見表1。為降低內(nèi)存存儲量和提高后續(xù)數(shù)據(jù)分析的精確度,對獲取的數(shù)據(jù)進(jìn)行預(yù)處理,規(guī)則如下:刪除長度過短的評論,不包含對本研究有用的信息;刪除重復(fù)出現(xiàn)的廣告類評論;刪除包含過多表情亂碼類的評論。
表1 部分評論語料Tab.1 Part of comment corpus
識別評論中聚焦的產(chǎn)品屬性,可以幫助制造企業(yè)了解消費(fèi)者關(guān)注的產(chǎn)品特征。大部分的產(chǎn)品屬性都是名詞[21],所以首先采用詞性標(biāo)注法,將分詞后的名詞和名詞短語進(jìn)行整合,運(yùn)用LDA主題模型(LDIA)進(jìn)行產(chǎn)品屬性抽取。通過計(jì)算主題之間的平均相似度確定使主題結(jié)構(gòu)穩(wěn)定的數(shù)值K[22],經(jīng)半監(jiān)督學(xué)習(xí)總結(jié)得到了9個屬性詞集合。手動檢查語義相關(guān)詞表達(dá)的9個隱含主題,確定其所代表的產(chǎn)品屬性。
其中每個屬性主題集合包含主題向量中權(quán)重較高的屬性詞,可以從一定程度上解釋和描述產(chǎn)品的屬性特征, 同時(shí)使用tf-idf算法提取關(guān)鍵詞, 生成圖2詞云圖,人工監(jiān)督是否有遺漏的屬性詞,根據(jù)產(chǎn)品特殊性對詞典進(jìn)行補(bǔ)充,從而完善屬性詞典,見表2。
圖2 高頻詞云圖Fig.2 High frequency word cloud
表2 產(chǎn)品屬性詞典Tab.2 Product attribute dictionary
為了解如今市場上藍(lán)牙耳機(jī)的總體情況,將文本信息量化表示用戶對產(chǎn)品的關(guān)注度和滿意度。本文使用基于貝葉斯模型的SnowNLP作為情感計(jì)算器,是一種基于電商評論為訓(xùn)練文本的語義解析庫。為提高分類準(zhǔn)確度,在原本訓(xùn)練模型的基礎(chǔ)上擴(kuò)充所采集到的正面與負(fù)面樣本。通過人工標(biāo)記的驗(yàn)證方法,根據(jù)9∶1比例將數(shù)據(jù)分為訓(xùn)練集和測試集,經(jīng)實(shí)驗(yàn)該分析庫的分類準(zhǔn)確率達(dá)到81%。所以使用新的數(shù)據(jù)訓(xùn)練情感分析模型判斷用戶評論的情感傾向,得出兩類情感的傾向概率。概率值的取值范圍在0~1之間,越接近1代表評論文本情感越積極,越接近0則表示情感越消極。通過計(jì)算第n個產(chǎn)品屬性所有評論情感的均值Qn,確定用戶對這個產(chǎn)品屬性的情感值。定義Pn為產(chǎn)品第n個屬性特征的情感傾向概率,計(jì)算公式為
(1)
評論中出現(xiàn)了對產(chǎn)品屬性的評價(jià),即代表了用戶對這個產(chǎn)品屬性的觀點(diǎn)看法或喜愛偏好,通過與情感值相結(jié)合,優(yōu)化得出顧客對該產(chǎn)品屬性的滿意程度。對SnowNLP情感傾向的判斷結(jié)果進(jìn)行分類,將每條文本評價(jià)的情感值Qni(i=1,2,3,…,tn)與臨界值0.6比較,統(tǒng)計(jì)Qni>0.6的評論數(shù)量,記為num,tn表示第n個屬性的總評論數(shù),計(jì)算該產(chǎn)品屬性的情感滿意度Vn:
(2)
全時(shí)間周期產(chǎn)品屬性關(guān)注度及情感值見表3。
表3 屬性關(guān)注度及情感值Tab.3 Attribute attention and emotion value
關(guān)注量tn表示第n個產(chǎn)品屬性的評論個數(shù)(n=1,2,…,9),即評論中出現(xiàn)了對該產(chǎn)品屬性的評價(jià),代表了用戶對這個產(chǎn)品屬性的關(guān)注。
為了進(jìn)一步分析用戶對產(chǎn)品屬性關(guān)注的演化趨勢,引入時(shí)間維度的特征分析。將分類得到的9個產(chǎn)品屬性對應(yīng)的關(guān)注量,按時(shí)間排序分片段處理,以16 d單位時(shí)間劃分為18個片段,再對每個時(shí)間段下的關(guān)注量運(yùn)用式(3)進(jìn)行數(shù)理統(tǒng)計(jì),節(jié)選部分?jǐn)?shù)據(jù)見表4。
表4 節(jié)選時(shí)間段下的屬性關(guān)注量Tab.4 Attribute attention in each time period
(3)
在特征-時(shí)間多維度下,對每個產(chǎn)品屬性特征的關(guān)注量形成可視化展示,如圖3所示。由圖3可以看出,藍(lán)牙耳機(jī)的9個屬性特征關(guān)注量波動幅度較大,且產(chǎn)生波動時(shí)間大致相同??梢酝茢嘣撟儎邮怯善脚_或者廠家的促銷活動引起的銷量增長,從而使關(guān)注量同幅度的變動。為了消除銷量這一因素的影響,將關(guān)注量轉(zhuǎn)化為第j個時(shí)間間隔內(nèi)的關(guān)注度Cij,tij為在第j時(shí)間區(qū)間內(nèi)第i個產(chǎn)品屬性的關(guān)注量,tj為該時(shí)間區(qū)間內(nèi)9個屬性關(guān)注量的總和,
圖3 屬性關(guān)注量趨勢Fig.3 Attribute focus trend
(4)
根據(jù)結(jié)果繪制可視化圖形如圖4所示,可以明顯看出各個屬性關(guān)注度時(shí)間序列的變化波動趨勢較圖3平緩,兩兩之間比較波動時(shí)間點(diǎn)有明顯差別,說明消費(fèi)者會對不同產(chǎn)品屬性產(chǎn)生不同的需求偏向。
圖4 屬性關(guān)注度趨勢Fig.4 Attribute attention trend
由表3可知,用戶滿意度最高和最低的產(chǎn)品屬性分別是外觀和通話,為了更好地探究購買用戶對這兩種屬性滿意度隨時(shí)間變化的趨勢,對特征-觀點(diǎn)文本語句加入時(shí)間維度進(jìn)行結(jié)果分析。將這兩屬性對應(yīng)的消費(fèi)者情感滿意度按照評論時(shí)間的先后次序排列起來,則得到對應(yīng)的用戶情感所構(gòu)成的一條情感時(shí)序序列:Sent={sent1,sent2,sent3,…,senttn},同樣以16 d為單位時(shí)間進(jìn)行分組得到新的情感序列senttime={(e1,s1),(e2,s2),…,(ej,sj)}(j=18),用式(1)、式(2)計(jì)算每個時(shí)間片段內(nèi)的用戶情感平均值和滿意度,可視化表示如圖5所示。
圖5 消費(fèi)者滿意度趨勢Fig.5 Consumer satisfaction trend
圖5以兩個具有代表性的產(chǎn)品屬性為例,消費(fèi)者對藍(lán)牙耳機(jī)的外觀屬性滿意度始終較高,且波動幅度不大。說明在這一階段內(nèi)市場上對產(chǎn)品外觀的設(shè)計(jì)已經(jīng)趨于成熟,極大程度地迎合消費(fèi)者審美需求。而從通過屬性的情感滿意度來看,隨時(shí)間變化先回落后又小幅增強(qiáng),但從整體上看其滿意度都處于一個相對較低的水平。這只能說明消費(fèi)者對藍(lán)牙耳機(jī)的通話的態(tài)度隨時(shí)間變化滿意度始終不高。企業(yè)制造商應(yīng)結(jié)合用戶需求進(jìn)行市場調(diào)研,重新確定通話這一產(chǎn)品屬性的生產(chǎn)設(shè)計(jì)。
為進(jìn)一步掌握用戶對于產(chǎn)品情感關(guān)注度的發(fā)展動態(tài)以及轉(zhuǎn)移規(guī)律,使生產(chǎn)制造商設(shè)計(jì)產(chǎn)品功能特征時(shí)能夠迎合市場需求,將上文產(chǎn)品屬性關(guān)注度的分析統(tǒng)計(jì)結(jié)果代入ARMR模型進(jìn)行訓(xùn)練預(yù)測。設(shè)時(shí)間序列X={X1,X2,…,Xt},ARMR模型時(shí)間序列中某一時(shí)刻的數(shù)值與前p個時(shí)間序列的數(shù)值和前q個進(jìn)入系統(tǒng)的隨機(jī)擾動有關(guān),并由此來預(yù)測下一時(shí)刻的數(shù)值。設(shè)Xt受到前p個時(shí)間序列數(shù)值影響的自回歸過程為
Xt=η1Xt-1+η2Xt-2+…+ηpXt-p+et,
(5)
式中:η1,η2,…,ηp為自回歸系數(shù);et為誤差項(xiàng)。誤差項(xiàng)et在不同時(shí)期具有依存關(guān)系,其移動平均過程表達(dá)式為
et=μ1εt-1+μ2εt-2+…+μqεt-q+εt,
(6)
其線性方程為
(7)
基于ARMR模型的預(yù)測算法流程如圖6所示。
圖6 ARMR模型算法流程Fig.6 ARMR algorithm flow chart
ARMR模型針對平穩(wěn)時(shí)間序列建模,所以選取產(chǎn)品屬性關(guān)注度時(shí)間序列進(jìn)行初步處理分析,經(jīng)ADF單位根檢驗(yàn),結(jié)果顯示拒絕存在單位根的假設(shè),說明序列平穩(wěn),可以進(jìn)行建模;對未通過檢驗(yàn)的非平穩(wěn)序列進(jìn)行差分操作,直至通過檢驗(yàn)為止。節(jié)選部分序列ADF單位根檢驗(yàn)見表5。
表5 部分序列ADF單位根檢驗(yàn)Tab.5 ADF unit root test for part of sequence
計(jì)算自相關(guān)函數(shù)(ACF)和偏相關(guān)函數(shù)(PACF)獲取ARMR模型的階數(shù)p和q,通過Statemodels包對ARMR(p,q)進(jìn)行擬合,結(jié)合最小信息準(zhǔn)則(AIC)對不同(p,q)組合下的AIC值進(jìn)行計(jì)算,取AIC(p,q)的最小階數(shù)作為ARMR(1,1)建模參數(shù)。
將產(chǎn)品屬性關(guān)注度的計(jì)算結(jié)果分為訓(xùn)練集和測試集兩部分,訓(xùn)練集時(shí)間序列數(shù)據(jù)代入模型進(jìn)行訓(xùn)練擬合,擬合效果如圖7所示。根據(jù)圖7的預(yù)測數(shù)據(jù),以藍(lán)牙耳機(jī)續(xù)航度和音質(zhì)為例具體分析,可以看出續(xù)航度的關(guān)注度比較低且隨著時(shí)間變化在一定范圍內(nèi)波動;而音質(zhì)的關(guān)注度在前三個月較高,但在雙十一大促銷活動期間呈現(xiàn)小幅度下降后持續(xù)保持平穩(wěn)。用戶對音質(zhì)屬性的關(guān)注度在時(shí)間序列內(nèi)始終高于續(xù)航度的,說明用戶對這兩種功能實(shí)現(xiàn)的需求較為固定,對藍(lán)牙耳機(jī)的音質(zhì)、音量性能相對重視;并且在短期時(shí)間內(nèi),用戶對藍(lán)牙耳機(jī)功能屬性的關(guān)注點(diǎn)并沒有出現(xiàn)較為明顯的轉(zhuǎn)移。針對這種情況,相關(guān)企業(yè)在藍(lán)牙耳機(jī)產(chǎn)品的開發(fā)設(shè)計(jì)過程中,應(yīng)對續(xù)航度和音質(zhì)這兩個屬性功能都加以重視,并且在音質(zhì)的研發(fā)上投入更高的比重。用戶對降噪、靈敏度、通話等其他產(chǎn)品特征關(guān)注度較低,且趨勢平穩(wěn),所以在這些功能需求上得不到滿足時(shí),不會立刻降低客戶對該產(chǎn)品的總體滿意度。
(a)續(xù)航度真實(shí)值vs預(yù)測值
為了進(jìn)一步驗(yàn)證預(yù)測結(jié)果,本文通過計(jì)算平均絕對百分比誤差MAPE和平均絕對誤差MAE,得到音質(zhì)屬性關(guān)注度的MAPE值為11.83%,MAE值為0.032 3,續(xù)航度屬性關(guān)注度的MAPE值為8.93%,MAE值為0.020 5等。由此可知,盡管實(shí)驗(yàn)數(shù)據(jù)規(guī)模龐大且數(shù)值較小,經(jīng)測試平均誤差率不超過10.38%。證明ARMR模型能夠有效模擬在線評論情感影響下的用戶關(guān)注度演化規(guī)律并預(yù)測其發(fā)展和轉(zhuǎn)移趨勢。從本文對藍(lán)牙耳機(jī)的分析來看,該類型產(chǎn)品在市場上仍然處于需求量較大階段,消費(fèi)者對不同產(chǎn)品屬性的需求關(guān)注度在小范圍內(nèi)波動且趨于平穩(wěn)。
本文根據(jù)購物平臺大量在線評論內(nèi)容,對互聯(lián)網(wǎng)高頻更新迭代產(chǎn)品的設(shè)計(jì)及改進(jìn)提出了混合分析預(yù)測模型,得出結(jié)論如下:
1)將機(jī)器學(xué)習(xí)算法與監(jiān)督學(xué)習(xí)方法相結(jié)合,提取出用戶關(guān)注度較高的9個主題特征,如續(xù)航度、音質(zhì)、降噪、舒適度等。其中文本情感分類的準(zhǔn)確率提升到81%,有效獲取了屬性特征、情感傾向的演化趨勢。
2)經(jīng)過數(shù)據(jù)分析得到,企業(yè)制定的相關(guān)營銷策略可引起購物平臺的用戶評論總數(shù)量較為劇烈的波動,但對于藍(lán)牙耳機(jī)各個獨(dú)立的產(chǎn)品特征關(guān)注度影響不大,僅在活動促銷季后存在小幅度波動,說明消費(fèi)者對產(chǎn)品的需求出現(xiàn)了轉(zhuǎn)移,制造企業(yè)需對此變化更加重視。
3)通過指標(biāo)優(yōu)化計(jì)算產(chǎn)品屬性滿意度,在降噪、通話等屬性設(shè)計(jì)方面用戶滿意度較低,且隨時(shí)間推移小幅增強(qiáng)后回落,說明這是設(shè)計(jì)改進(jìn)的重點(diǎn)。
4)該方法有一定的普適性,可應(yīng)用于其他電子產(chǎn)品的設(shè)計(jì)應(yīng)用。
研究結(jié)果表明,本文所結(jié)合的時(shí)間序列模型可以準(zhǔn)確地分析消費(fèi)者對產(chǎn)品的關(guān)注和情感,進(jìn)一步分析動態(tài)變化趨勢背后所隱含的價(jià)值信息。
(1)觀察產(chǎn)品屬性關(guān)注度的變化,結(jié)合企業(yè)生產(chǎn)的實(shí)際情況,分析引起此類波動的深層原因,及時(shí)調(diào)整產(chǎn)品設(shè)計(jì)方案;
(2)企業(yè)可以對比新一代產(chǎn)品發(fā)布時(shí)間前后消費(fèi)者對產(chǎn)品屬性滿意度的變化情況,衡量此次迭代升級是否達(dá)到預(yù)期目標(biāo);
(3)通過聯(lián)合整體分析多個產(chǎn)品屬性特征滿意度的實(shí)時(shí)變化趨勢,挖掘內(nèi)部特征間的關(guān)聯(lián),系統(tǒng)解決迭代過程中的問題。
本文方法可以幫助企業(yè)了解該產(chǎn)品目前的市場需求和產(chǎn)品所處的研發(fā)周期,對企業(yè)的生產(chǎn)計(jì)劃和管理決策的實(shí)現(xiàn)具有較重要的現(xiàn)實(shí)意義。