国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于信息采納視角的在線評論有用性排序研究

2019-05-27 01:18王建文
現(xiàn)代計算機 2019年11期
關鍵詞:評論者馬蜂窩星級

王建文

(福州大學經濟與管理學院,福州 350108)

0 引言

截至2018年6月,在線旅行預訂用戶規(guī)模達到3.93億,較2017年末增長1707萬人,增長率為4.5%,其中,預訂旅游度假產品的用戶規(guī)模增速最快,半年度增長率為9.7%[1]。目前,旅游度假產品預訂已經成為旅游發(fā)展的一個重要組成部分且發(fā)展?jié)摿薮蟆S捎诼糜味燃佼a品具有綜合性、無形性、生產與消費的同一性等特點[2],在線預訂網(wǎng)站除了呈現(xiàn)旅游產品的相關信息,通常還提供評論、評分等功能,為潛在的游客提供參考。以往研究表明,相比于在線旅游預訂網(wǎng)站呈現(xiàn)的信息,其他游客的在線評論對旅游消費者的購買決策影響更大。因此,旅游消費者在出發(fā)之前通常會事先瀏覽多個在線旅游預訂網(wǎng)站用戶的在線評論,了解旅游景區(qū)位置、路線、服務等相關信息,并決定是否購買相關旅游產品。

然而,隨著在線旅游預訂網(wǎng)站的快速發(fā)展,旅游景區(qū)的在線評論數(shù)量急劇增加,部分熱門景區(qū)評論數(shù)量達到成千上萬條。在當前信息過載的情況下,過短的、低質量的評論都會影響消費者對在線評論信息的判斷。為了解決這一問題,在線旅游預訂網(wǎng)站通常將在線評論“按時間”或“按有用性”進行排序,但是單一的排序結果往往夾雜著有用性低或時間很早的評論,無法滿足用戶的信息需求。因此,如何識別低質量評論、獲取有價值、感知有用性較高的評論,對提升用戶檢索體驗,改進景區(qū)管理者服務質量具有重要意義。

在線評論(Online Reviews)是網(wǎng)絡平臺中由消費者發(fā)布的針對產品或服務體驗正面的或負面的評價,其內容主要由兩部分組成,一是可量化的星級評分;二是文本陳述。在線評論有用性影響因素方面,已有的研究主要借鑒以往的理論視角,從在線評論的構成要素分析影響因素,并采用具體網(wǎng)站數(shù)據(jù)進行理論模型的實證分析,探討各個構成要素對在線評論有用性正面或是負面的影響。例如:吳江等人以信息采納理論和和負面偏差理論為基礎,采集亞馬遜中國網(wǎng)站不同品牌手機的評論數(shù)據(jù),認為評論者有用性、評論信息量、評論極性會對評論有用性產生正面影響[3]。Yang Liu等人采用非線性回歸模型,以IMDB影評數(shù)據(jù)集進行實證研究,探究評論者的專業(yè)程度、評論的可讀性對評論有用性的影響[4]。郝媛媛等人從文本特征出發(fā)探索影響在線評論有用性的因素,認為在線影評中正向的情感、較長的評論長度對評論有用性具有正向影響[5]。

在線評論有用性排序方面,已有的研究主要從在線評論有用性的影響因素出發(fā),選取相應的量化指標,實現(xiàn)在線評論的效用排序。在線評論有用性指標的選取主要有兩種:一是在線旅游預訂網(wǎng)站評論系統(tǒng)直接顯示的評論文本內容、評分星級、評論時間、評論有用性投票票數(shù)、回復數(shù)、評論者等級等指標;二是評論文本內容基礎上研究的評論可讀性、評論情感極性等指標。例如:王倩倩將文本型評論與數(shù)值型評論的一致性進行量化,結合評論時間、評論長度、評論者身份披露等影響因素,專家打分求均值作為指標權重設定,實現(xiàn)在線商品評論信息可信度的排序[6]。畢建武等人通過多粒度情感強度分析算法確定每條評論針對商品屬性的情感強度值,然后對情感強度值進行統(tǒng)計分析,得到備選商品針對商品屬性的多粒度情感強度分布形式的屬性值,最后采用隨機逼近理想點排序法確定備選商品的排序[7]。

總體來說,目前國內外相關研究大多關注各個信息要素與在線評論有用性之間的關系。評論有用性排序研究相對較少,選取的關鍵指標通常涉及產品屬性詞提取以及屬性情感提取,需要構建產品屬性特征詞詞庫,經由人工篩選判斷,過程相對繁瑣?;诖耍疚耐ㄟ^文獻調研,借鑒信息采納理論的原理,結合在線預訂網(wǎng)站的評論數(shù)據(jù)結構、內容,首先選取影響在線旅游預訂網(wǎng)站在線評論有用性的5項關鍵指標,然后進行關鍵指標的量化,最后利用熵值法設定權重構建在線預訂網(wǎng)站在線評論的有用性排序模型。

1 信息采納理論模型及關鍵指標

1. 1 信息采納理論模型

Sussman等人在精細化加工可能性模型(EML)的基礎上提出了信息采納模型(見圖1),并應用于組織內在線交流的情境[8]。該模型認為信息接收者是否采納某條信息,一是考慮信息的質量,二是考慮信息源的可信度。其中信息質量對應EML模型的中心路徑,信息源可信度對應EML模型的邊緣路徑。

圖1 信息采納模型

通過對馬蜂窩網(wǎng)站在線評論結構(如圖2)的分析,可以發(fā)現(xiàn)一條完整的評論數(shù)據(jù)包括用戶昵稱、用戶等級、評論星級、評論文本、評論發(fā)表的時間、評論投票數(shù)(點贊數(shù)),評論來源,評論回復。結合信息采納模型的基本框架并參考以往文獻[6,9-11],本文將評論質量作為信息質量,評論者可信度作為信息源可信度。其中評論質量可分為“評論長度、評論時間、評論星級、評論有用性投票票數(shù)”四個指標;評論者可信度可分為“評論者信等級”一個指標。

圖2 馬蜂窩在線評論

1. 2 影響在線評論有用性的關鍵指標

(1)評論長度

評論長度是指評論中含有字符的數(shù)量。更長的評論通常包括更多的產品細節(jié)以及產品在特定環(huán)境中的使用方式,能夠消除產品的不確定性,增加消費者的決策信心[12]?,F(xiàn)有的研究大都認為評論長度對評論有用性有正向影響。故此假設:評論長度越長,評論有用性越高。

(2)評論時間

評論時間是指發(fā)布該條評論的日期時間。產品通常會隨著時間更新迭代,景區(qū)作為體驗性產品同樣也會隨著時間產生變化。隨著時間的推移,產品評論的可信度會逐漸改變,即評論發(fā)布的時間越早,評論的價值越低。故此假設:評論時間越接近當前閱讀日期,評論有用性越高。

(3)評論星級

評論的星級評分是評論者在提交評論時,以星級形式給予商品或服務的一個總體評價,它是評論極性的一種表現(xiàn)[13]。關于評論的星級評分對評論有用性的影響,Mudambi和Schuff發(fā)現(xiàn)對于經驗型產品,中間評分比極端評分更有用[12]。吳江的實證結果也顯示評論評分與評論有用性呈現(xiàn)的倒U型曲線關系[14]。故此假設:評論星級越接近平均星級,評論有用性越高。

(4)有用性投票數(shù)

有用性投票是指在線評論有用與否的投票功能。有用性投票的票數(shù)既反映了之前的用戶對該評論的認同,還影響了之后的用戶對評論有用性的判斷。以往研究結果表明評論者有用性投票及評論回復數(shù)這些指標對用戶感知評論有用性具有正向影響[5]。故此假設:有用性投票票數(shù)越多,評論有用性越高。

(5)評論者等級

評論等級是評論者在其網(wǎng)站的累計經驗級別。評論者等級越高,表明評論者在旅游產品方面的相關知識和體驗越豐富,給出的評價通常更為客觀、專業(yè)。以往的大部分關于評論者等級與在線評論有用性的研究結果較為一致,即評論者的經驗等級對在線評論的可信度具有顯著的正向影響。故此假設:評論者等級越高,評論有用性越高。

2 指標量化及指標權重設定

2. 1 關鍵指標的量化

(1)評論長度

由于評論者寫作風格的影響,某些評論字數(shù)雖然多,但是其中含有無關的信息以及多余的標點符號,例如“真的是紅色的門額,,。。,,。。?!?。因此,僅以字符數(shù)(包含字母、標點符號)度量評論長度存在一定的偏差。本文研究主要利用刪除停用詞并計算詞語總數(shù)的方式進行量化,具體步驟處理如下:①分詞。利用NLPIR分詞工具對在線評論文本進行切分。②停用詞刪除。使用哈工大中文停用詞表刪除出現(xiàn)頻率高但又沒有實際意義的詞以及標點符號。③計算詞語總數(shù)。計算新的詞串集合的詞語總數(shù)。量化后并規(guī)定20個詞語及以下為0.1分,21-30個詞語為0.2分,依次類推,大于100個詞語為1分。

(2)評論時間

本文使用用戶瀏覽網(wǎng)站日期與評論發(fā)表日期之間的天數(shù)差值進行評論時間的量化。規(guī)定距離現(xiàn)在時間差在10天以內記為1分,10-20天為0.9分,依次類推,大于90天均為0.1分。

(3)評論星級

本文評論星級量化以每條評論的星級評分和景區(qū)平均星級的距離來衡量,即兩者之間的絕對值來度量。假設景區(qū)平均星級為4,那么某條評論數(shù)據(jù)星級為5的量化值為1。并且規(guī)定絕對值在0.1之內為1分,0.1-0.2為0.9分,以此類推。

(4)有用性投票數(shù)

馬蜂窩網(wǎng)站在線評論的有用性投票含有具體的數(shù)值。由于有用性投票的實際數(shù)值大都為0,且存在極端值,故令有用性投票大于等于9個為1分,8個為0.9分,以此類推,0個為0.1分。

(5)評論者等級

評論者等級,即用戶等級,是馬蜂窩根據(jù)用戶在網(wǎng)站的行為及經驗設計的分級制度。用戶可通過每日任務、發(fā)表游記、回答問題、發(fā)表點評等方式來獲得經驗值,達到一定經驗值后,用戶等級將會提升。目前,馬蜂窩用戶等級共分為1-45級,量化處理的數(shù)值對應為1-45。并且規(guī)定1-5級為0.1分,6-10級為0.2分,以此類推。

2. 2 評論指標權重設定

為了計算各個指標所占的權重,本文采用熵值法。熵值法根據(jù)各項指標觀測值所提供的信息的大小來確定指標權重,是一種客觀賦權法。指標熵值越小,離散程度越大,該指標對綜合評價的影響(即權重)也越大。具體步驟如下:

(1)標準化處理。由于各個指標間存在不同的量綱和數(shù)量級,不能直接比較,為了保證結果的可靠性,需要對原始指標數(shù)據(jù)進行標準化處理。計算公式如下:

(3)計算第j項指標的熵值:

(4)計算信息熵冗余度:

(5)計算各項指標的權值:

(6)加權求和方式計算各樣本的綜合得分:

3 應用研究

馬蜂窩旅游網(wǎng)是中國領先的自由行服務平臺,以“自由行”為核心,提供全球60,000個旅游目的地的交通、酒店、景點、餐飲、購物、用車、當?shù)赝鏄返刃畔⒑彤a品預訂服務。馬蜂窩作為自由行交易與服務平臺旅游

3. 1 實驗結果

得到原始數(shù)據(jù)后,按照上述步驟對各個指標進行量化并標準化處理,利用熵值法求出各個指標的權重(見表1),最后根據(jù)最終得分對在線評論進行降序顯示。本文選取馬蜂窩網(wǎng)站原有排序的前3條評論和本文有用性排序模型的前3條評論進行對比分析,分別如表2和表3所示。服務提供商的代表,擁有全球多個國家和地區(qū)熱門景區(qū)的評論數(shù)據(jù),具有很強的典型性。

表1 關鍵指標權重

因此,本文以馬蜂窩熱門景區(qū)的評論數(shù)據(jù)作為研究對象,利用爬蟲抓取了泰山風景區(qū)共計2151條評論數(shù)據(jù)。每一條評論數(shù)據(jù)包括:①評論文本;②評論有用性投票數(shù);③評論時間;④評論星級;⑤評論者的等級。

3. 2 結果分析與討論

從表2可以發(fā)現(xiàn),馬蜂窩的原始排序時效性權重不大,一些評論長度長、有用性投票數(shù)多的評論但時效性差的會排在前面。結合表3的排序結果對比分析可以得出,本文研究的評論有用性模型更注重評論的時效性,評論發(fā)表時間越接近當前日期,排序也會更靠前。而且對于評論長度、評論等級指標,采用模型排序靠前的在線評論與馬蜂窩網(wǎng)站原有排序靠前的在線評論要更好或與之相當。

4 結語

本文以馬蜂窩泰山風景區(qū)評論數(shù)據(jù)為對象,借鑒以往研究視角,結合馬蜂窩網(wǎng)站評論系統(tǒng)的結構和內容,選取評論長度、評論時間、評論星級、評論有用性投票數(shù)和評論者等級5個在線評論有用性的關鍵指標,并利用熵值法設定指標權重,構建了旅游在線評論有用性排序的模型。研究應用結果表明,與馬蜂窩原有在線評論排序結果相比,模型排序靠前的在線評論所展現(xiàn)的評論時間、評論長度評論等級都要好于馬蜂窩原有在線評論或者與之相當。本文排序模型能夠識別出在線評論的有用性程度,使得旅游消費者無需瀏覽全部頁面的評論,就能獲取評論質量較高的信息,在減少用戶的搜索成本時間的情況下,較好地滿足用戶的信息需求。但本文未將影響在線評論有用性的因素納入考慮,例如:圖片數(shù)量、評論回復數(shù)量等,可供未來進一步研究。

表2 馬蜂窩原有在線評論排序

表3 采用熵值法設定權重的在線評論排序

猜你喜歡
評論者馬蜂窩星級
馬蜂窩捅不得
網(wǎng)絡新聞評論者的倫理責任問題及應對路徑探析
唐DM 智聯(lián)創(chuàng)享型
大指揮官 2.0T四驅臻享版
風行T5 1.5T CVT 230T智享型
新聞評論的寫作方法討論和研究
“強項令”董宣
光明《留學》誠信星級評選前30名好評機構上榜
仲夏夜·輕時光生如夏花
新聞評論少不了科學精神
许昌县| 延津县| 红桥区| 阳高县| 顺义区| 北流市| 湘乡市| 泊头市| 南召县| 汽车| 勐海县| 蛟河市| 璧山县| 大埔区| 五河县| 普兰县| 阳城县| 岱山县| 济源市| 西林县| 太康县| 蓬安县| 丹凤县| 丹棱县| 湄潭县| 香格里拉县| 定襄县| 天祝| 曲水县| 莎车县| 察雅县| 正阳县| 右玉县| 贵定县| 郎溪县| 蓬溪县| 房产| 瓦房店市| 衡南县| 乐昌市| 越西县|