国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于餐飲業(yè)網(wǎng)絡(luò)評(píng)論的消費(fèi)者情感極性分析①

2018-08-17 12:06楊博文
關(guān)鍵詞:極性變量預(yù)測(cè)

楊博文

(南京財(cái)經(jīng)大學(xué) 經(jīng)濟(jì)學(xué)院 統(tǒng)計(jì)系,南京 210023)

1 引言

1.1 研究背景

在電子商務(wù)蓬勃發(fā)展的信息化時(shí)代,越來越多的互聯(lián)網(wǎng)用戶在線評(píng)價(jià)自己的消費(fèi),這些文本的評(píng)論信息作為消費(fèi)者親身體驗(yàn)的反饋,涵蓋了大量的有用信息.一方面以往消費(fèi)者對(duì)產(chǎn)品的評(píng)價(jià)可以幫助潛在消費(fèi)者事前對(duì)產(chǎn)品有所了解,便于消費(fèi)者根據(jù)自身需要做出消費(fèi)決策;另一方面也可以作為反饋信息幫助商家了解消費(fèi)者的購(gòu)買意愿、跟蹤商品的售后服務(wù)等,進(jìn)而不斷改進(jìn)、提高自身競(jìng)爭(zhēng)力.

消費(fèi)者情感極性分析[1–3](Sentiment Polarity Analysis)是文本分析的一大分支,一般可以分為積極(Positive)和消極(Negative)兩類,只有準(zhǔn)確地把握了消費(fèi)者的情感極性才能做好客戶的維護(hù)、挖掘潛在客戶、彌補(bǔ)欠缺進(jìn)而提升自身的市場(chǎng)競(jìng)爭(zhēng)能力.本文旨在運(yùn)用高維數(shù)據(jù)變量選擇方法[4]關(guān)注兩方面的核心內(nèi)容,一方面尋求較好的消費(fèi)者情感極性預(yù)測(cè)模型;另一方面,以往的研究重在分類預(yù)測(cè),而對(duì)評(píng)論背后隱含的商業(yè)價(jià)值很少深入探究,本文希望借助Lasso算法的變量選擇優(yōu)勢(shì)挖掘出影響消費(fèi)者情感極性的關(guān)鍵因素.

1.2 研究現(xiàn)狀

從國(guó)內(nèi)外研究現(xiàn)狀來看,目前對(duì)文本數(shù)據(jù)的分析主要涉及提取文本特征、文本特征關(guān)聯(lián)分析、文本內(nèi)容識(shí)別,以及文本情感極性分析等方面.其中提取文本特征是對(duì)文本信息進(jìn)一步分析的基礎(chǔ),所謂特征提取就是根據(jù)評(píng)論文本的分詞結(jié)果,選擇對(duì)文本具有代表性的關(guān)鍵詞.特征選取主要有兩種不同的思路,一種是構(gòu)造評(píng)估函數(shù)法[5,6],另一種是在事先挑選的初始種子集為起點(diǎn),對(duì)候選特征集合采用不斷迭代的方法確定最終的特征集合[7].

以往對(duì)特征提取和文本情感極性的分析,大都以詞頻和語義分析為主.Hu用形容詞作為觀點(diǎn)詞分析英文評(píng)論的情感極性,借助WordNet將要判斷情感傾向的詞條與給定情感傾向的同義詞或反義詞詞網(wǎng)相匹配,詞條的情感傾向與同義詞具有相同的情感傾向,與反義詞具有相反的情感傾向[8].Turney以形容詞和副詞為分析對(duì)象,運(yùn)用PMI方法分別計(jì)算給定詞與“excellent”、“poor”的點(diǎn)互信息(PMI),兩者相減,若為正值則情感極性為正,反之為負(fù).近年來,部分學(xué)者在對(duì)詞的分析上做了進(jìn)一步延伸,如根據(jù)詞條在不同文本類別間分布不均的情況,提出了對(duì)特征項(xiàng)加權(quán)的方法判斷情感極性[9].隨著大數(shù)據(jù)時(shí)代的到來,相關(guān)的機(jī)器學(xué)習(xí)方法在情感極性分析中也越來越受歡迎[10–12].Pang等根據(jù)事先既定的有關(guān)形容詞的積極詞料集和消極詞料集,分別運(yùn)用樸素貝葉斯(Naive Bayes)、最大熵(Maximun Entropy)和支持向量機(jī)(Support Vector Machines)三種方法進(jìn)行文本的情感極性分析并在不同的情況下進(jìn)行了對(duì)比[13].王健等基于主題概率模型(LDA)實(shí)現(xiàn)了文本分類,并取得較好的分類效果[14].

1.3 研究思路

以上研究對(duì)文本情感極性的預(yù)測(cè),主要有兩種思路,第一種是由特征詞或特征項(xiàng)的情感極性加權(quán)進(jìn)行預(yù)測(cè);第二種是運(yùn)用機(jī)器學(xué)習(xí)方法對(duì)文本的情感極性進(jìn)行預(yù)測(cè),主要包括支持向量機(jī)、樸素貝葉斯、最大熵等方法等.除此之外,鑒于L1-正則項(xiàng)對(duì)高維數(shù)據(jù)良好的懲罰特性,Lasso稀疏模型已經(jīng)被成功的應(yīng)用于文本分類領(lǐng)域[15–19].鑒于此,本文運(yùn)用Lasso-Logistic和Lasso-PCA模型[20–22]對(duì)餐飲業(yè)文本評(píng)論的情感極性進(jìn)行分析.一方面,作為對(duì)比找到更好的分類模型;另一方面,筆者借助Lasso-Logistic較好的模型解釋能力對(duì)影響消費(fèi)者情感極性的關(guān)鍵因素深入分析.相比于Lasso-Logistic模型,目前鮮有對(duì)Lasso-PCA模型的應(yīng)用文獻(xiàn),基于稀疏數(shù)據(jù)的主成分模型在解決數(shù)據(jù)稀疏性的同時(shí),保留了較多的變量信息,但該方法對(duì)文本的情感極性預(yù)測(cè)效果有待于探討.

根據(jù)以上文獻(xiàn)綜述,本文提出以下研究思路:(1)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括提取評(píng)論樣本、分詞等.(2)運(yùn)用TF-IDF算法初步提取關(guān)鍵詞.(3)分類預(yù)測(cè).以消費(fèi)者情感極性為被解釋變量,以高維稀疏關(guān)鍵詞詞頻矩陣為解釋變量,結(jié)合Lasso算法,運(yùn)用帶懲罰的Logistic和PCA兩種方法對(duì)消費(fèi)者情感極性進(jìn)行預(yù)測(cè).(4)借助Lasso的變量選擇結(jié)果,運(yùn)用Logistic模型對(duì)顯著影響消費(fèi)者情感的因素做進(jìn)一步的分析.

2 數(shù)據(jù)來源與處理

2.1 數(shù)據(jù)來源

本文數(shù)據(jù)來源為大眾點(diǎn)評(píng)網(wǎng)上某餐廳的消費(fèi)者評(píng)論的文本內(nèi)容和評(píng)分等級(jí),共2293條評(píng)論記錄.因變量是評(píng)論者對(duì)消費(fèi)情況的總體評(píng)價(jià)的星級(jí)數(shù)據(jù),分為5個(gè)等級(jí),1顆星代表最低評(píng)價(jià),5顆星代表最高評(píng)價(jià).考慮到實(shí)際情況,消費(fèi)者一般傾向于給出較高的星級(jí)指數(shù),在評(píng)分為3的樣本中大都帶有消極的情緒,如表1所示.因此,在分析過程中將1顆至3顆星的樣本視為情感極性為負(fù);將4顆星和5顆星的樣本視為情感極性為正.這里隨機(jī)抽取了400條積極樣本和400條消極樣本,作為對(duì)消費(fèi)者情感極性分析的總樣本.

表1 部分樣本信息

首先提取1000個(gè)關(guān)鍵詞作為初始特征集,然后遍歷每一條評(píng)論的分詞結(jié)果,分別統(tǒng)計(jì)特征詞在每條評(píng)論中出現(xiàn)的頻數(shù),以由此得到的稀疏矩陣作為解釋變量.不失一般性,在分析過程中選用樣本的80%作為訓(xùn)練集,20%作為測(cè)試集進(jìn)行樣本外預(yù)測(cè).

2.2 數(shù)據(jù)處理

數(shù)據(jù)處理的第一階段是利用R軟件的加載包jiebaR對(duì)網(wǎng)絡(luò)評(píng)論文本進(jìn)行分詞,首先在分詞的過程中去除常用停用詞(stop words,如介詞、冠詞、限定詞等);同時(shí)考慮到分詞結(jié)果會(huì)產(chǎn)生數(shù)值型的分詞結(jié)果,所以在數(shù)據(jù)的預(yù)處理過程中刪除了數(shù)值型的分詞結(jié)果;最后運(yùn)用該軟件包提供的詞頻-逆向文本頻率算法(TF-IDF)提取關(guān)鍵詞,作為備選特征詞集合.

TF-IDF算法是提取文本關(guān)鍵詞常用的統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)一個(gè)文本的重要程度.其基本思想是如果一個(gè)詞比較少見,但是它在這個(gè)文檔中出現(xiàn)多次,那么它很可能就反映了這個(gè)文檔的某方面特性,可以作為該文檔的關(guān)鍵詞.該算法分為詞頻(Term Frequency,TF)和逆向文本頻率(Inverse Document Frequency,IDF)兩部分.TF即一個(gè)詞在目標(biāo)文本中出現(xiàn)的頻率,見式(1).IDF是對(duì)該詞代表的信息量的衡量,IDF值的計(jì)算需要一個(gè)詞料庫(kù),由詞料庫(kù)中總文件數(shù)除以包含該詞的文檔數(shù),再將商取對(duì)數(shù)得到,見式(2).TF - IDF值即TF與IDF的乘積,見式(3).這里選用的是R軟件jiebaR包自帶的詞料庫(kù).

其中,nt,d是詞t在文檔d中出現(xiàn)的頻率;N代表詞料庫(kù)中的文件數(shù),N= |D|;|{d∈D:t∈d}|代表詞料庫(kù)中包含詞t的文檔數(shù),為避免該詞不在詞料庫(kù)中的情況,將|{d∈D:t∈d}|+1作為分母.

運(yùn)用TF-IDF算法可以得到對(duì)文本內(nèi)容具有代表性的關(guān)鍵詞,根據(jù)文本的分詞結(jié)果統(tǒng)計(jì)出1000個(gè)關(guān)鍵詞的詞頻矩陣,如表2所示.從表中可以看出,TFIDF值較大有“水煮魚”、“川菜”、“味道”和“毛血旺”、“宮保雞丁”等名詞性詞匯,以及“不錯(cuò)”、“好吃”和“喜歡”等帶有情感極性的形容詞、副詞和動(dòng)詞.

表2 部分關(guān)鍵詞詞頻矩陣

此外,從詞頻的角度來看,“味道”、“不錯(cuò)”的頻率明顯高于“水煮魚”和“川菜”;但是從IF-IDF值來看,“水煮魚”和“川菜”的值則高于“味道”、“不錯(cuò)”.這是因?yàn)?“味道”和“不錯(cuò)”出現(xiàn)的頻率雖然高,但是對(duì)文本內(nèi)容的代表性不夠,“水煮魚”和“川菜”則直接反映出了文本的主題,具有更好的代表性.同時(shí)可以看出,“水煮魚”和“毛血旺”、“宮保雞”具有較高的頻數(shù)和TFIDF值,且“水煮魚”高于“毛血旺”和“宮保雞”,說明這三個(gè)菜品在該家餐廳中比較具有特色,尤其是“水煮魚”,建議作為餐廳的特色菜來打造.同時(shí)也說明了以表2的關(guān)鍵詞詞頻矩陣作為解釋變量對(duì)文本的情感極性進(jìn)行預(yù)測(cè)和分析,既很好的將文本型數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù)又不失對(duì)文本內(nèi)容的代表性.

3 消費(fèi)者情感極性的預(yù)測(cè)模型

3.1 Lasso-Logistic預(yù)測(cè)模型

從表2的關(guān)鍵詞詞頻矩陣可以知道,解釋變量具有明顯的高維性和稀疏性的特點(diǎn).由于關(guān)鍵詞數(shù)目過多,且大部分?jǐn)?shù)據(jù)為0,為解決自變量矩陣中存在的奇異問題,必須首先對(duì)數(shù)據(jù)進(jìn)行降維,這也是將Lasso算法運(yùn)用到Logistic回歸和主成分回歸的根本出發(fā)點(diǎn).

Lasso算法加入的懲罰項(xiàng)為L(zhǎng)1范數(shù),即參數(shù)向量中各個(gè)元素絕對(duì)值之和,由兩部分構(gòu)成,一部分為L(zhǎng)ogistic回歸的負(fù)對(duì)數(shù)似然函數(shù),另一部分為L(zhǎng)1-正則項(xiàng),Lasso的目的是求得使f(β)最小的解,即式(4)所示.

關(guān)于λ的選擇,這里運(yùn)用的是10折交叉驗(yàn)證的方法[23–25].本文借用R軟件中軟件包glmnet來實(shí)現(xiàn)Lasso算法,如需程序代碼,可向作者索取.

由于Lasso算法中λ的取值具有一定程度的隨機(jī)性,因此每次提取出的關(guān)鍵詞的個(gè)數(shù)并不相同,為了不影響預(yù)測(cè)結(jié)果,經(jīng)過幾次實(shí)驗(yàn)發(fā)現(xiàn),在提取大于1000個(gè)關(guān)鍵詞時(shí)Lasso的稀疏解的個(gè)數(shù)沒有明顯增加,所以最終提取了TF-IDF值較大的前1000個(gè)關(guān)鍵詞詞頻作為初始解釋變量.由Lasso算法運(yùn)用(4)式得到稀疏解,然后將得到的系數(shù)不為0的關(guān)鍵詞提取出來,作為最終Logistic回歸的解釋變量對(duì)消費(fèi)者的情感極性進(jìn)行預(yù)測(cè).模型預(yù)測(cè)效果見表3和圖1.

表3 Lasso-Logistic預(yù)測(cè)效果混淆矩陣

圖1 Lasso-Logistic預(yù)測(cè)結(jié)果的ROC曲線

表3列出了在分類閾值設(shè)為0.5時(shí)由Lasso-Logistic模型得到的測(cè)試集預(yù)測(cè)結(jié)果的混淆矩陣,根據(jù)混淆矩陣可以得到,模型對(duì)測(cè)試集預(yù)測(cè)精度為65%;同時(shí)由表3縱向比較結(jié)果可以得出,預(yù)測(cè)結(jié)果的敏感性(True Positive Rate,TPR)和特異性(False Positive Rate,FPR)分別為0.66和0.36,分別刻畫的是正確預(yù)測(cè)為正類占真實(shí)值中正類的比例、分類器錯(cuò)認(rèn)為正類的負(fù)實(shí)例占所有負(fù)實(shí)例的比例,如式(5),(6)所示.

為了更好的體現(xiàn)出模型的預(yù)測(cè)效果,這里采用ROC曲線下面積(AUC)來評(píng)價(jià)模型的預(yù)測(cè)效果.從圖1中可以看出,模型預(yù)測(cè)得到的AUC值為0.703,Lasso-Logistic預(yù)測(cè)方法在基于文本評(píng)論的消費(fèi)者情感極性的分析上是有效的.

3.2 Lasso-PCA預(yù)測(cè)模型

主成分分析(Principle Components Analysis,PCA)可以直接通過矩陣的奇異值分解(PMD)得到,如式(7)所示.具體來說,是通過對(duì)原始變量進(jìn)行一個(gè)基的變換,實(shí)現(xiàn)變量的重新組合,組合后得到的p個(gè)新的變量稱為主成分,前r(r<p)個(gè)主成分?jǐn)y帶了原始變量X的主要信息.主成分分析的優(yōu)良特性使其在數(shù)據(jù)降維方面得到的廣泛的應(yīng)用,然而在高維數(shù)據(jù),尤其是稀疏的高維數(shù)據(jù)的情況下,傳統(tǒng)的主成分分析的求解受到挑戰(zhàn).因此,本文借鑒文獻(xiàn)[22]提出的SPC方法,通過對(duì)V施加懲罰,L1-正則項(xiàng),運(yùn)用PMD(·,L1)來實(shí)現(xiàn)高維稀疏矩陣的主成分分析[22].

R軟件提供的PMA軟件包提供了很好的分析工具.為了使模型具有可比性,這里的主成分分析沿用上文中Lasso-Logistic預(yù)測(cè)模型抽取的測(cè)試集和訓(xùn)練集,選取與Lasso-Logistic預(yù)測(cè)模型的變量相同數(shù)目的主成分,將Lasso-PCA得到的稀疏主成分作為解釋變量,運(yùn)用Logistic回歸對(duì)消費(fèi)者的情感極性進(jìn)行預(yù)測(cè),模型預(yù)測(cè)效果如表4和圖2所示.

表4 Lasso-PCA預(yù)測(cè)效果混淆矩陣

同樣地,根據(jù)模型的預(yù)測(cè)結(jié)果可以得到Lasso-PCA對(duì)測(cè)試集預(yù)測(cè)混淆矩陣,如表4所示.根據(jù)表4可以得到,模型對(duì)測(cè)試集樣本預(yù)測(cè)的正確率為67.5%,靈敏性和特異性分別為0.71和0.36.因此,和Lasso-Logistic模型相比,Lasso-PCA模型具有更高的預(yù)測(cè)精度和靈敏性.仍然采用ROC曲線來進(jìn)一步評(píng)價(jià)模型的預(yù)測(cè)結(jié)果,如圖2所示.本次抽樣得到的Lasso-PCA模型的AUC值為0.742,略高于Lasso-Logistic模型的AUC值0.703.綜合以上分析來看,Lasso-PCA模型對(duì)基于文本評(píng)論的消費(fèi)者情感極性的預(yù)測(cè)是有效的,并且初步判斷Lasso-PCA模型比Lasso-Logistic模型具有更好的預(yù)測(cè)效果.

圖2 Lasso-PCA預(yù)測(cè)結(jié)果的ROC曲線

3.3 兩種預(yù)測(cè)模型的比較

以上關(guān)于Lasso-Logistic模型和Lasso-PCA模型的比較建立在一次抽樣的基礎(chǔ)上,由于每次抽樣都是隨機(jī)的,因此以上關(guān)于模型的比較也具有一定的隨機(jī)性,為了更好的比較兩個(gè)模型的預(yù)測(cè)效果,本文對(duì)以上研究過程重復(fù)100次,分別得到Lasso-Logistic模型和Lasso-PCA模型的100個(gè)AUC值,比較結(jié)果如圖3所示.

圖3 兩種預(yù)測(cè)模型預(yù)測(cè)效果比較

圖3 呈現(xiàn)出了100次實(shí)驗(yàn)得到的預(yù)測(cè)結(jié)果的AUC值.由圖3(a)的箱線圖可以看到,Lasso-PCA模型的預(yù)測(cè)精度的平均值略高于Lasso-Logistic模型預(yù)測(cè)精度的平均值,其中Lasso-PCA模型得到的AUC的均值0.667,Lasso-Logistic模型得到的AUC的均值為0.635.對(duì)每次抽樣的預(yù)測(cè)精度求差,由Lasso-PCA模型的預(yù)測(cè)精度減去Lasso-Logistic模型的預(yù)測(cè)精度,兩者差值如圖3(b)所示.二者差值雖然在0的兩側(cè)都有分布,但上側(cè)明顯高于下側(cè)且上側(cè)的值的分布更密集,說明Lasso-PCA模型的預(yù)測(cè)精度相對(duì)高于Lasso-Logistic模型的預(yù)測(cè)精度.

4 消費(fèi)者情感極性的影響因素分析

文本評(píng)論呈現(xiàn)了消費(fèi)者對(duì)消費(fèi)行為較為細(xì)致的評(píng)價(jià),也是評(píng)分的根本依據(jù),主要由評(píng)價(jià)對(duì)象和對(duì)評(píng)價(jià)對(duì)象的情感傾向兩部分組成.從餐飲業(yè)的角度來看,影響消費(fèi)者情感極性的因素有很多,包括味道、服務(wù)、環(huán)境、地理位置、心理預(yù)期等等.探索這些因素是如何影響消費(fèi)者評(píng)價(jià)的,對(duì)商家提高服務(wù)質(zhì)量、改善營(yíng)銷策略具有非常重要的意義.

Lasso-PCA模型雖有較好的預(yù)測(cè)效果,但模型的解釋能力欠佳,因此,考慮到Lasso-Logistic模型較強(qiáng)的解釋性,本文借助Lasso-Logistic預(yù)測(cè)模型變量選擇的結(jié)果進(jìn)一步對(duì)影響消費(fèi)者情感極性的影響因素進(jìn)行分析.由于Lasso-Logistic模型中由Lasso算法得到的稀疏解具有一定的隨機(jī)性,本文進(jìn)行了兩次回歸以減小隨機(jī)性對(duì)結(jié)果的影響.這里主要關(guān)注回歸結(jié)果中顯著的變量,結(jié)果如表5所示.

表5 兩個(gè)Lasso-Logistic回歸的結(jié)果

表5呈現(xiàn)出了回歸結(jié)果中顯著變量的相關(guān)信息,從表中可以看出,兩次回歸得到的顯著性變量存在很大的相似性.兩次回歸都得到了25個(gè)顯著變量,其中有23個(gè)變量在兩個(gè)回歸結(jié)果中同時(shí)顯著.此外,從回歸系數(shù)可以看出,所有在兩次回歸中同時(shí)顯著的變量具有相同的正負(fù)號(hào),且系數(shù)大小相差不大,說明模型具有很好的穩(wěn)健性.這些顯著的特征詞或特征項(xiàng)隱含了影響消費(fèi)者情感極性的重要因素,按照屬性不同可以將其分成6類,如表6所示.

表6 顯著的回歸變量分類

三類帶有情感傾向的詞匯和三類表示特征屬性的詞匯分別從不同角度體現(xiàn)了消費(fèi)者情感極性.從總體上來說,帶有情感色彩的詞匯最能直觀地表達(dá)消費(fèi)者的情緒;雖然影響餐飲業(yè)消費(fèi)者情感極性的因素眾多,但是餐廳“特色”、“服務(wù)和環(huán)境”卻是消費(fèi)者最為關(guān)注的;通過關(guān)注含有“下次”、“值得”和“每次”的評(píng)論,可以有效識(shí)別潛在消費(fèi)能力.具體地,從以下5個(gè)方面進(jìn)行分析.

(1)從兩次回歸結(jié)果中可以看出,“不錯(cuò)”、“喜歡”、“好吃”以及程度副詞“非常”和“最好”的系數(shù)在兩個(gè)回歸中的系數(shù)都顯著為正.相比之下,“沒有”、“不會(huì)”和“一次”這類含有負(fù)面情緒的詞匯,回歸系數(shù)顯著為負(fù).這一結(jié)果也是符合常理的,好的評(píng)價(jià)對(duì)應(yīng)高的評(píng)分;而對(duì)于沒有達(dá)到滿意的消費(fèi)行為,消費(fèi)者往往對(duì)不滿意之處吐槽,評(píng)分自然也低.

(2)“中規(guī)中矩”、“還算”和第一個(gè)回歸中“還行”的系數(shù)顯著為負(fù),說明評(píng)論中出現(xiàn)“中規(guī)中矩”、“還算”這兩個(gè)詞匯的消費(fèi)者對(duì)消費(fèi)行為更加傾向于持負(fù)面的態(tài)度,服務(wù)中的美中不足之處很容易引起消費(fèi)者的消極情緒.同時(shí),這一結(jié)論對(duì)商家也具有一定的警醒作用,商家應(yīng)該對(duì)此類評(píng)論加以重視,根據(jù)評(píng)論內(nèi)容分析對(duì)應(yīng)消費(fèi)者的消費(fèi)心理,撲捉到自身服務(wù)的欠缺之處,如果能夠彌補(bǔ)美中不足之處可能就會(huì)帶來意想不到的利潤(rùn).

(3)“必點(diǎn)”的系數(shù)在兩個(gè)回歸中的結(jié)果都顯著為正,體現(xiàn)出了消費(fèi)者對(duì)某個(gè)菜品的青睞;“地道”和“川菜館”在兩個(gè)回歸結(jié)果中顯著為正,“辣味”也在回歸一中顯著為正,體現(xiàn)出了餐廳的獨(dú)特之處.這些都是最能體現(xiàn)出一個(gè)餐廳特色的詞匯,系數(shù)顯著為正的回歸結(jié)果說明餐廳特色菜是影響消費(fèi)者評(píng)價(jià)的一個(gè)關(guān)鍵因素,說明餐飲業(yè)的商家在經(jīng)營(yíng)過程中要有能力打造出自己的特色,并且注重招牌菜的推廣,這在很大程度上有利于餐廳的經(jīng)營(yíng),從而提升自身的市場(chǎng)競(jìng)爭(zhēng)力.

(4)“態(tài)度”、“半天”、“電梯”以及第二個(gè)回歸中“昏暗”的系數(shù)顯著為負(fù),說明服務(wù)態(tài)度和環(huán)境的好壞直接影響了消費(fèi)者的心理,強(qiáng)調(diào)了餐廳服務(wù)態(tài)度和外部環(huán)境特征的重要性.現(xiàn)代人的消費(fèi)觀念不斷轉(zhuǎn)換,對(duì)服務(wù)的要求也隨之提高,更是體現(xiàn)在方方面面.好的服務(wù)態(tài)度和就餐環(huán)境給消費(fèi)者更加舒適、放松的感覺,直接影響消費(fèi)者的情緒,對(duì)消費(fèi)者的評(píng)分起到重要作用.

(5)“下次”、“值得”和“每次”的回歸系數(shù)顯著為正,體現(xiàn)出了顧客再次消費(fèi)的潛質(zhì),說明這類消費(fèi)者對(duì)消費(fèi)行為的整體評(píng)價(jià)較高,再次消費(fèi)的可能性很大.商家為提高顧客忠誠(chéng)度、改善經(jīng)營(yíng)狀況,要時(shí)常關(guān)注這類消費(fèi)者的消費(fèi)動(dòng)向,注意維護(hù)此類消費(fèi)者的顧客忠誠(chéng)度.

5 結(jié)論及啟示

本文將Lasso算法運(yùn)用到網(wǎng)絡(luò)評(píng)論的文本分析中,首先建立了Lasso-Logistic和Lasso-PCA兩個(gè)模型對(duì)消費(fèi)者情感極性進(jìn)行預(yù)測(cè).由分析結(jié)果可知,兩種預(yù)測(cè)模型都取得了一定的預(yù)測(cè)效果.根據(jù)100次隨機(jī)抽樣結(jié)果,Lasso-PCA預(yù)測(cè)模型的AUC平均值達(dá)到0.67,而Lasso-Logistic預(yù)測(cè)模型的AUC平均值為0.64.相比之下,Lasso-PCA模型整合了更多的變量信息,對(duì)文本的情感極性具有更好的預(yù)測(cè)效果;但是Lasso-PCA模型對(duì)變量的解釋能力較弱,尤其在解釋變量維度較高的情況下,Lasso-PCA模型很難分析出解釋變量對(duì)被解釋變量的影響.因此,文中第4節(jié)借助Lasso-Logistic模型分析了影響消費(fèi)者情感極性的顯著性因素作為補(bǔ)充分析.結(jié)果表明,餐廳特色、餐廳的服務(wù)態(tài)度和外部環(huán)境等是影響消費(fèi)者情感極性的主要因素.另外,“中規(guī)中矩”和“還算”兩個(gè)特征項(xiàng)的系數(shù)顯著為負(fù)也反映了消費(fèi)者對(duì)消費(fèi)行為的高標(biāo)準(zhǔn)、高期望,即使在市場(chǎng)逐漸細(xì)分的大環(huán)境下,商家要想維護(hù)顧客忠誠(chéng)度以長(zhǎng)期生存下去,也必須根據(jù)市場(chǎng)要求不斷完善自己.

猜你喜歡
極性變量預(yù)測(cè)
無可預(yù)測(cè)
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
選修2—2期中考試預(yù)測(cè)卷(A卷)
有機(jī)反應(yīng)極性機(jī)理試劑分類的探索
抓住不變量解題
跟蹤導(dǎo)練(四)
分離變量法:常見的通性通法
不可忽視變量的離散與連續(xù)
鍵的極性與分子極性判斷的探究
册亨县| 泗阳县| 逊克县| 蓬莱市| 滨海县| 新竹县| 临海市| 镇远县| 灵石县| 淮滨县| 旺苍县| 台北市| 敖汉旗| 繁昌县| 芜湖县| 满城县| 图木舒克市| 昆山市| 阿拉善盟| 繁昌县| 芜湖县| 临朐县| 德州市| 即墨市| 建湖县| 六盘水市| 巨野县| 手游| 湘潭市| 石楼县| 古蔺县| 张家口市| 灵川县| 临夏县| 方正县| 团风县| 株洲县| 金乡县| 苍南县| 兴安盟| 吉木乃县|