吳聯(lián)仁+李瑾頡+齊佳音
摘要:[目的/意義]大數(shù)據(jù)環(huán)境下,文本挖掘和情感分析技術在產(chǎn)品、服務等網(wǎng)絡點評分析中得到越來越廣泛的應用。通過對大規(guī)模文本數(shù)據(jù)情感挖掘,研究影響企業(yè)輿情的關鍵要素。[方法/過程]基于中國大陸292個城市103 878家酒店的2 500多萬條網(wǎng)絡點評數(shù)據(jù),挖掘企業(yè)在線輿情,識別影響顧客服務體驗的關鍵內(nèi)容要素。采用探索性因子分析方法對關鍵要素進行歸類,并通過多元回歸分析得出評論內(nèi)容要素與顧客總體滿意度之間的關系。[結(jié)果/結(jié)論]酒店客房要素和電器要素對酒店業(yè)顧客總體滿意度影響最大。本研究方法和結(jié)論為服務企業(yè)營銷和管理的大數(shù)據(jù)商業(yè)分析研究提供參考。
關鍵詞:網(wǎng)絡點評 文本挖掘 情感分析 企業(yè)輿情 商業(yè)分析
分類號:C93
引用格式:吳聯(lián)仁, 李瑾頡, 齊佳音. 基于大規(guī)模文本數(shù)據(jù)情感挖掘的企業(yè)輿情研究[J/OL]. 知識管理論壇, 2016, 1(6): 457-463[引用日期]. http://www.kmf.ac.cn/p/1/79/.
1 引言
在過去的數(shù)年中,信息技術在社會、經(jīng)濟、生活等各個領域不斷滲透和推陳出新。在移動計算、物聯(lián)網(wǎng)、云計算等一系列新興技術的支持下,社交媒體、協(xié)同創(chuàng)造、虛擬服務等新型應用模式持續(xù)拓展著人類創(chuàng)造和利用信息的范圍和形式?;谛畔⒑途W(wǎng)絡的生產(chǎn)模式創(chuàng)新正在將人類社會帶入“第三次工業(yè)革命”時代。新興信息技術與應用模式的涌現(xiàn),使得全球數(shù)據(jù)量呈現(xiàn)出前所未有的爆發(fā)式增長態(tài)勢。預計到2020年,全球被創(chuàng)建和被復制的數(shù)據(jù)總量將達到35ZB。與此同時,數(shù)據(jù)的多樣性、低價值密度、實時性等復雜特征日益顯著。馮芷艷等[1]指出大數(shù)據(jù)背景下,商務管理研究也面臨著前所未有的挑戰(zhàn)。
大數(shù)據(jù)時代,隨著電子商務網(wǎng)站、社區(qū)型網(wǎng)站和第三方評論網(wǎng)站的發(fā)展以及在旅游、酒店行業(yè)的普及應用,網(wǎng)絡上出現(xiàn)了大量的顧客對酒店的點評內(nèi)容。截至2014年底,從全國各大中文網(wǎng)站能夠采集到的酒店顧客點評數(shù)量已達到千萬級。這些點評內(nèi)容實際上是顧客在網(wǎng)絡環(huán)境下對酒店所提供產(chǎn)品與服務的自發(fā)的“問卷調(diào)查”結(jié)果,是顧客在享受酒店產(chǎn)品和服務后對酒店滿意度的詳細描述。對這些點評進行有效的采集和分析,將能夠代替?zhèn)鹘y(tǒng)的問卷調(diào)查評價,并且能夠彌補傳統(tǒng)問卷樣品有限性和問題局限性的不足。
伴隨著大數(shù)據(jù)時代的到來和自然語言處理技術的快速發(fā)展,文本挖掘(text mining)方法——對具有豐富語義的文本進行分析從而理解其所包含的內(nèi)容和意義的過程——逐漸被認為是更可靠和經(jīng)常使用的研究方法。在管理科學研究中,文本挖掘方法經(jīng)常被用來處理網(wǎng)絡點評等非結(jié)構化數(shù)據(jù)。如黃敏學等[2]和李杰等[3]采用文本挖掘方法研究了網(wǎng)絡環(huán)境下的網(wǎng)絡口碑或點評。在旅游和酒店業(yè),文本挖掘方法也漸漸開始被應用[4]。目前,大部分的酒店網(wǎng)絡點評內(nèi)容研究主要是對內(nèi)容特征屬性、評論內(nèi)容分詞的統(tǒng)計分析和聚類分析。例如,L. Zhou等[5]對評論提及酒店各要素的數(shù)量進行了統(tǒng)計,給出了各要素的占比。Z. Xiang等[6]采用文本分析方法研究顧客體驗與顧客滿意度間的關系。熊偉[7]對點評中提及酒店各要素的數(shù)量進行了統(tǒng)計,并計算了評論在各要素上的評價得分,做了各項服務體驗要素與總體評價的相關分析。
隨著大數(shù)據(jù)文本挖掘研究的深入,情感分析(sentiment analysis),又稱意見挖掘(opining mining)開始應用到網(wǎng)絡點評這種非結(jié)構化的自然語言處理中[8]。張紫瓊等[9]指出文本情感分析是指通過語義分析技術對文本的主客觀性、觀點、情緒、極性的挖掘和分析,對文本的情感傾向做出分類判斷。E.Cambria[10]表示基礎的文本情感分析是對文本情感極性分析和文本情感極性強度分析。楊立公等[11]將情感極性分為兩極,即正面(positive)的贊賞和肯定、負面(negative)的批評與否定。也有學者在正面和負面之間加入了中性(neural),如H. Li等[12]首先通過詞頻分析方法,對評論中各因子出現(xiàn)的頻數(shù)進行統(tǒng)計,其次采用聚類分析對出現(xiàn)的因子進行聚類,最后是統(tǒng)計了各因子的正面、中性和負面點評的占比。另外一些學者采用情感極性強度分析網(wǎng)絡點評,如丁于思等[13]將顧客滿意度分為很不滿意、不滿意、一般、滿意和很滿意5個等級。情感分析在大數(shù)據(jù)環(huán)境下對企業(yè)顧客洞察、市場營銷策略和商業(yè)模式創(chuàng)新起到了重要作用。如李實等[14]挖掘中文網(wǎng)絡客戶評論的產(chǎn)品特征及情感傾向。劉羽等[15]在李實等基礎上,進行觀點挖掘的產(chǎn)品特征提取。
2 數(shù)據(jù)采集與處理
本研究使用的數(shù)據(jù)集由北京眾薈信息技術有限公司(http://www.jointwisdom.cn/)數(shù)據(jù)應用事業(yè)部提供。眾薈信息是目前國內(nèi)旅游、酒店行業(yè)主要的大數(shù)據(jù)挖掘與應用服務提供商。數(shù)據(jù)集包括了2 500多萬條網(wǎng)絡點評,涉及國內(nèi)292個城市的103 878家酒店。數(shù)據(jù)來源于國內(nèi)8個主流中文點評網(wǎng)站,分別為到到網(wǎng)、大眾點評網(wǎng)、藝龍、美團、陽光旅行、住哪兒、去哪兒和攜程。數(shù)據(jù)收集時間窗口為2014年1月1日-2014年12月31日。
借助眾薈信息的自然語言處理和語義分析技術,對酒店網(wǎng)絡點評進行酒店特征詞的抽取和情感分析。作者基于眾薈信息的酒店網(wǎng)絡點評數(shù)據(jù)處理結(jié)果,提煉出80多個影響酒店顧客服務體驗的特征詞,構成了本研究的特征詞集合。分別統(tǒng)計特征詞關注度(attention),即特征詞在顧客網(wǎng)絡點評中被顧客提及的頻次,特征詞的參與度(engagement),即特征詞的關注度與酒店數(shù)的比率,特征詞的滿意度(satisfaction),即特征詞正面提及的頻次占總頻次的比例(具體計算方法見第3部分情感分析模型)。表1給出特征詞關注度排名前30的特征詞。
從表1可以看出,最受顧客關注的是位置,這與丁于思等的研究結(jié)果一致。另外關于位置的參與度也是最高的,為32.99,即每家酒店顧客網(wǎng)絡點評中平均提及位置的頻次為32.99。在滿意度方面,滿意度最高的是娛樂,其次是酒吧和交通,都超過了90%。而滿意度排在倒數(shù)三位的是隔音、異味和電梯,分別為14.06%、17.49%和18.11%,均未超過20%。這三個酒店顧客體驗要素是酒店經(jīng)營管理者應該重點關注的。
3 情感分析模型
每條網(wǎng)絡點評都是顧客對酒店設施及服務的真實反饋,但是這種非結(jié)構的文字并不利于科學的數(shù)據(jù)分析。筆者基于情感分析技術,將用自然語言描述的用戶點評,轉(zhuǎn)化為結(jié)構化的用戶情感數(shù)據(jù)庫,點評文本挖掘與情感分析流程見圖1。其中,顧客在點評中所表達的對酒店軟硬件某一方面的看法及情感態(tài)度,可以理解為該顧客在點評中對酒店該要素進行了一次滿意程度的“投票”,并可以被轉(zhuǎn)化為顧客對酒店該方面的情感表達。顧客的情感分為正向和負向。具體的點評分析樣例見表2。
首先對酒店特征詞在評價集{正向,負向}上的頻次進行統(tǒng)計。得到酒店特征詞的情感頻次向量F(Wi)={F(Wi)+, F(Wi)-},其中(i=1,2,3,…, 30),F(xiàn)(Wi)+為特征詞的正面觀點頻次,F(xiàn)(Wi)-為特征詞的負面觀點頻次。因此,酒店特征Wi的滿意度為:
本研究以城市為單位,城市酒店顧客總體滿意度CitySi(i=1,2,3,…,292),即為城市酒店顧客點評中正向情感頻次占城市總情感頻次的比例。
4 統(tǒng)計分析
4.1 探索性因子分析
對酒店顧客點評中抽取的排名前30的特征詞,利用SPSS進行探索性因子分析。Bartlett檢驗結(jié)果(P=.000)說明各變量間具有相關性。KMO統(tǒng)計量為0.772,在0.7以上,可以進行探索性因子分析。圖2為因子分析的碎石圖。本研究提取了6個公因子,累計方差貢獻率為58.53%。
表3是進行方差最大旋轉(zhuǎn)后的因子載荷矩陣。表3中給出了載荷大于0.5的因子,并將載入的20個特征詞分為6類。第1類是電器,包括電視、網(wǎng)絡、空調(diào)和電器;第2類是客房,包括衛(wèi)生間、裝飾、床和房間;第3類是位置,包括位置、環(huán)境和交通;第4類是娛樂,包括娛樂、游泳池和酒吧;第5類是服務,包括禮賓、服務和前臺;第6類是衛(wèi)生,包括衛(wèi)生和異味。
式中:S(Wij)為公因子Ui下第j個特征詞的滿意度;βij為公因子Ui下第j個特征詞在公因子Ui中的權重。
公因子位置的滿意度為
基于上述方法,以城市為單位,分別計算每個公因子的滿意度。
4.2 多元回歸分析
將292個城市酒店總體滿意度值作為因變量,城市酒店6個公因子滿意度作為自變量進行多元線性回歸,回歸結(jié)果如表4所示:
表4的結(jié)果顯示,在顯著性水平p=0.01下,6個因子的系數(shù)都是顯著的。并且客房和電器兩個因子的標準化系數(shù)最大,分別為0.448和0.312。這說明,客房和電器對酒店顧客滿意度的影響很大??头恳蜃又饕ㄐl(wèi)生間、裝飾、床和客房4個二級因子,電器因子主要包括電視、網(wǎng)絡、空調(diào)、熱水和電器5個二級因子。這9個因子可以被認為是酒店提供的核心產(chǎn)品。目前酒店作為一個提供住宿功能的場所,如果滿足了顧客的基本需求,即提高顧客在客房因子和電器因子的滿意度,將會提升酒店顧客的總體滿意度。
其次是衛(wèi)生因子,標準化系數(shù)為0.181,也對酒店顧客總體滿意度產(chǎn)生較為重要的影響。衛(wèi)生因子包括衛(wèi)生和異味2個二級因子。在酒店提供核心產(chǎn)品保障了顧客的基本需求的基礎上,如酒店需要進一步提高顧客的總體滿意度,應著重在衛(wèi)生因子上提高顧客的滿意度。
系數(shù)最低的是娛樂因子,為0.134。娛樂因子包括娛樂、游泳池和酒吧3個二級因子。在6個因子中,娛樂對酒店顧客總體滿意度的影響最低。這可能是因為娛樂作為一項增值服務,對顧客來說,不是顧客的必需產(chǎn)品。因此,顧客娛樂因子滿意度的提高對顧客總體滿意度的提升影響不大。
5 總結(jié)與討論
隨著電子商務網(wǎng)站、社區(qū)型網(wǎng)站和第三方評論網(wǎng)站的發(fā)展,中國酒店業(yè)也迎來了大數(shù)據(jù)時代。雖然,在許多學科中大數(shù)據(jù)分析已經(jīng)被描述為一個新的研究范式。然而作者發(fā)現(xiàn),在旅游和酒店服務業(yè)領域充分和深入發(fā)掘數(shù)據(jù)分析功能的研究還較少。本研究采用文本挖掘和情感分析的方法,歸類大量的酒店顧客網(wǎng)絡點評,評估這些數(shù)據(jù)的質(zhì)量,分析酒店顧客體驗要素與顧客總體滿意度之間的影響關系。這項研究的創(chuàng)新之處在于其數(shù)據(jù)規(guī)模,有別于傳統(tǒng)調(diào)查研究在數(shù)據(jù)量上的局限。本研究只是在酒店大數(shù)據(jù)分析中的初步探索,但已經(jīng)取得了一些實質(zhì)性的結(jié)論,希望為酒店等服務企業(yè)開展營銷和管理的商務分析研究提供一些借鑒。
參考文獻:
[1] 馮芷艷, 郭迅華, 曾大軍, 等. 大數(shù)據(jù)背景下商務管理研究若干前沿課題 [J]. 管理科學學報, 2013, 16(1): 1-9.
[2] 黃敏學, 王峰, 謝亭亭. 口碑傳播研究綜述及其在網(wǎng)絡環(huán)境下的研究初探[J]. 管理學報, 2010, 7(1): 138-146.
[3] 李杰, 張向前, 陳維軍, 等. C2C 電子商務服裝產(chǎn)品客戶評論要素及其對滿意度的影響[J]. 管理學報, 2014, 11(2): 261-266.
[4] 丁于思, 肖軼楠. 基于網(wǎng)絡點評的五星級酒店顧客滿意度測評研究[J]. 經(jīng)濟地理, 2014(5): 182-186.
[5] Zhou L, Ye S, Pearce P L, et al. Refreshing hotel satisfaction studies by reconfiguring customer review data [J]. International journal of hospitality management, 2014, 38: 1-10.
[6] Xiang Z, Schwartz Z, Gerdes J H, et al. What can big data and text analytics tell us about hotel guest experience and satisfaction?[J]. International journal of hospitality management, 2015, 44: 120-130.
[7] 熊偉, 高陽, 吳必虎. 中外國際高星級連鎖酒店服務質(zhì)量對比研究——基于網(wǎng)絡評價的內(nèi)容分析[J]. 經(jīng)濟地理, 2012, 32(2): 160-165.
[8] 周立柱, 賀宇凱, 王建勇. 情感分析研究綜述[J]. 計算機應用, 2008, 28(11): 2725-2728.
[9] 張紫瓊, 葉強, 李一軍. 互聯(lián)網(wǎng)商品評論情感分析研究綜述[J]. 管理科學學報, 2010, 13(6): 84-96.
[10] Cambria E, Schuller B, Xia Y, et al. New avenues in opinion mining and sentiment analysis[J]. IEEE intelligent systems, 2013 (2): 15-21.
[11] 楊立公,朱儉,湯世平. 文本情感分析綜述[J]. 計算機應用, 2013, 33(6): 1574-1607.
[12] Li H, Ye Q, Law R. Determinants of customer satisfaction in the hotel industry: an application of online review analysis[J]. Asia Pacific journal of tourism research, 2013, 18(7): 784-802.
[13] 丁于思, 肖軼楠. 五星級酒店服務質(zhì)量評價指標體系研究——基于網(wǎng)絡點評內(nèi)容分析[J]. 消費經(jīng)濟, 2014, 30(3): 64-69.
[14] 李實, 葉強, 李一軍, 等. 挖掘中文網(wǎng)絡客戶評論的產(chǎn)品特征及情感傾向[J]. 計算機應用研究, 2010, 27(8): 3016-3019.
[15] 劉羽, 曹瑞娟. 基于觀點挖掘的產(chǎn)品特征提取[J]. 計算機應用與軟件, 2014, 31(1): 81-84.
Research on Enterprise Public Opinions Based on Large-scale Text Data Sentiment Mining
Wu Lianren1 Li Jinjie2 Qi Jiayin1
1School of Management, Shanghai University of International Business and Economics, Shanghai 201620
2 School of Economics and Management, Beijing University of Posts and Telecommunications, Beijing 100876
Abstract: [Purpose/significance] In the era of big data, text mining and sentiment analysis technologies have been widely used in the analysis of online reviews (ORs). Through the large-scale text data mining, the key factors influencing the public opinion of enterprises are studied. [Method/process] We collected more than twenty-five million hotel online reviews from 103 878 hotels, identifying key content elements that affected the customer service experience. [Result/conclusion] Through the exploratory factor analysis and the multiple regression analysis, the authors explore the relationships between the hotel customer experience and satisfaction. It is hoped that this study sets an example for the development of business analytics in enterprises marketing and management.
Keywords: online review text mining sentiment analysis enterprise public opinion business analysis