国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于位置的社交網(wǎng)絡(luò)商戶數(shù)據(jù)語義分析

2017-06-29 12:00何新磊
關(guān)鍵詞:爬蟲分值商家

黃 岳 何新磊 陳 陽 趙 進(jìn)

(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203) (網(wǎng)絡(luò)信息安全審計(jì)與監(jiān)控教育部工程研究中心 上海 201203)

基于位置的社交網(wǎng)絡(luò)商戶數(shù)據(jù)語義分析

黃 岳 何新磊 陳 陽 趙 進(jìn)

(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203) (網(wǎng)絡(luò)信息安全審計(jì)與監(jiān)控教育部工程研究中心 上海 201203)

近年來,“移動(dòng)”和“社交”成為了推動(dòng)互聯(lián)網(wǎng)發(fā)展的兩項(xiàng)關(guān)鍵技術(shù)。在這兩項(xiàng)技術(shù)的共同推動(dòng)下,基于位置的社交網(wǎng)絡(luò)LBSN得到了快速發(fā)展,在全球范圍內(nèi)吸引了海量的用戶,不論是學(xué)術(shù)界還是工業(yè)界都在大力投入對LBSN的研究。LBSN網(wǎng)站都是以位置為中心的,也就是說任何用戶原創(chuàng)內(nèi)容,例如簽到或評論,都必須與一個(gè)具體位置相關(guān)聯(lián)。盡管位置信息在LBSN中扮演著重要的角色,但是目前國內(nèi)外針對LBSN的研究基本上都是從用戶角度出發(fā)的,缺少從位置角度的研究。同時(shí),目前對LBSN中用戶原創(chuàng)內(nèi)容的分析缺少對文本信息的分析,在對目前中國最大的在線點(diǎn)評類社交網(wǎng)絡(luò)——大眾點(diǎn)評上的商家評論內(nèi)容進(jìn)行了大規(guī)模的數(shù)據(jù)采集,并針對獲取的大量用戶評論文本開展了語義分析。

基于位置的社交網(wǎng)絡(luò) 位置角度 用戶原創(chuàng)內(nèi)容 語義分析

0 引 言

近年來,“移動(dòng)”和“社交”成為了推動(dòng)互聯(lián)網(wǎng)發(fā)展的兩項(xiàng)關(guān)鍵技術(shù)。一方面,隨著移動(dòng)端設(shè)備的普及,移動(dòng)端的流量在整個(gè)網(wǎng)絡(luò)流量中所占據(jù)的比例越來越大。根據(jù)互聯(lián)網(wǎng)統(tǒng)計(jì)公司comScore 2015年11月所發(fā)布的數(shù)據(jù),移動(dòng)端設(shè)備所產(chǎn)生的流量已經(jīng)占據(jù)了互聯(lián)網(wǎng)流量的60%以上,并且這個(gè)比例還在不斷提升[1]。實(shí)時(shí)定位功能是移動(dòng)設(shè)備的重要特性之一,因此移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展也帶動(dòng)了基于位置的服務(wù)的高度普及。另一方面,社交網(wǎng)絡(luò)及其相關(guān)應(yīng)用,成為了人們?nèi)粘;ヂ?lián)網(wǎng)使用中非常重要的一部分,國外的Facebook、Twitter、LinkedIn、Pinterest以及國內(nèi)的微博、微信、人人網(wǎng)等社交平臺已經(jīng)吸引了超過10億的互聯(lián)網(wǎng)用戶。在這兩個(gè)關(guān)鍵技術(shù)的共同作用下,基于位置的社交網(wǎng)絡(luò)(LBSN)成為了一個(gè)快速發(fā)展的新興互聯(lián)網(wǎng)應(yīng)用。位置信息給社交網(wǎng)絡(luò)在用戶社交關(guān)系之外增加了一個(gè)新的維度,通過對用戶移動(dòng)軌跡的記錄和共享,LBSN可以將虛擬世界的用戶互動(dòng)更加現(xiàn)實(shí)化,大大提升了用戶體驗(yàn)。國外的Yelp、Foursquare、Gowalla、Swarm,國內(nèi)的大眾點(diǎn)評、街旁、陌陌等,都是LBSN的代表性平臺。這些平臺都吸引了至少千萬量級的注冊用戶,其中Yelp和陌陌已經(jīng)分別在紐約證券交易所和納斯達(dá)克上市。根據(jù)comScore公司2015年11月的統(tǒng)計(jì),LBSN類App在移動(dòng)端的使用時(shí)間占據(jù)了所有App使用時(shí)間的29%[1]。無論是工業(yè)界還是學(xué)術(shù)界,近年來都對LBSN的相關(guān)問題給予了高度的關(guān)注。

首先,對LBSN平臺來說,位置和用戶是其兩個(gè)關(guān)鍵元素。圍繞著位置,用戶個(gè)體可以記錄和分享一些內(nèi)容,而用戶彼此之間又能夠通過共同去過的一個(gè)位置而相互關(guān)聯(lián),產(chǎn)生互動(dòng)。對于位置來說,大量的用戶簽到和評論可以提升位置本身的熱門程度,而熱門的位置往往能夠吸引更多的用戶。然而,目前國內(nèi)外針對LBSN平臺的研究分析主要集中在對用戶數(shù)據(jù)的挖掘,圍繞著位置的研究目前還很少。

其次,用戶原創(chuàng)內(nèi)容UGC(User Generated Content)作為一種用戶使用互聯(lián)網(wǎng)的新方式,使得網(wǎng)絡(luò)和用戶之間的互動(dòng)更加友好和便捷。在LBSN中,UGC主要體現(xiàn)為用戶的簽到和評論,簽到指的是用戶實(shí)時(shí)記錄自己的位置,而評論可以幫助用戶記錄下自己對位置的主觀感受。對于LBSN來說,UGC具有及其重要的作用,一方面,它能夠幫助網(wǎng)站吸引用戶,提升用戶的忠誠度;另一方面,UGC業(yè)務(wù)的飛速發(fā)展,形成了一種很好的商業(yè)模式,早在2006年,美國UGC的廣告收入就達(dá)到了4.5億美元[2]。然而在對UGC的研究方面,目前的研究卻主要著重于對簽到的位置和評論的時(shí)間戳的分析建模,缺少對評論的文本內(nèi)容的具體分析。尤其是在中文語義分析這方面,這方面的研究工作相對較少。

鑒于位置信息和UGC中文本信息的重要性,本文希望從位置的角度出發(fā),對大眾點(diǎn)評的商戶數(shù)據(jù)中的用戶評論內(nèi)容進(jìn)行語義分析,揭示出其中蘊(yùn)含的規(guī)律。

本文的主要研究內(nèi)容分為兩方面,通過網(wǎng)絡(luò)測量來獲取海量的數(shù)據(jù)是我們研究工作的第一步。我們通過編寫爬蟲程序,向大眾點(diǎn)評網(wǎng)站發(fā)送請求,批量地獲取大眾點(diǎn)評中所公開的商家評論內(nèi)容。這一方式的優(yōu)點(diǎn)在于無需與社交網(wǎng)站本身進(jìn)行合作,也無需耗費(fèi)資金來激勵(lì)志愿者,因此可以被研究人員方便的采用,也成為了目前絕大多數(shù)研究人員所選用的方式,相關(guān)工作包括[3-5]。

第二,用戶的評論內(nèi)容反映了其對特定位置的主觀態(tài)度,包括各種情感色彩和情感傾向。語義分析在對社交網(wǎng)絡(luò)的研究中具有重要的作用,通過對用戶情感態(tài)度的提取,我們可以知道用戶對該位置的整體態(tài)度。通過觀察特定用戶在不同位置的情感態(tài)度變化,我們可以了解該用戶的具體喜好,甚至可以尋找出一些惡意用戶。

總結(jié)來說,本文以網(wǎng)絡(luò)測量的方式,通過對國內(nèi)著名的LBSN平臺——大眾點(diǎn)評進(jìn)行大規(guī)模的數(shù)據(jù)采集,獲取海量的真實(shí)數(shù)據(jù)集。通過對數(shù)據(jù)中用戶評論內(nèi)容的建模分析,揭示出基于位置的用戶情感態(tài)度變化,提出改善用戶社交體驗(yàn)的解決方案。

1 研究背景和相關(guān)工作介紹

1.1 研究背景

本文所選取的LBSN研究平臺是大眾點(diǎn)評,作為一家消費(fèi)點(diǎn)評類的在線社交網(wǎng)站,大眾點(diǎn)評在國內(nèi)已經(jīng)處于領(lǐng)先的地位。大眾點(diǎn)評創(chuàng)建于2003年4月,如今已經(jīng)有了超過13年的歷史,這一時(shí)間甚至比美國的主流消費(fèi)點(diǎn)評網(wǎng)站Yelp還要久。2005年起,大眾點(diǎn)評就開始涉足互聯(lián)網(wǎng),并且在2009年移動(dòng)互聯(lián)網(wǎng)隨著智能手機(jī)興起后,迅速推出了其在移動(dòng)端的應(yīng)用,拓展了一些團(tuán)購和簽到的業(yè)務(wù)。作為國內(nèi)最大的消費(fèi)點(diǎn)評類的網(wǎng)站,大眾點(diǎn)評吸引了大量的用戶,平均每月有兩億的訪問量,并且其中超過85%的用戶是來自于移動(dòng)端[6]。Alexa Internet是一家專門統(tǒng)計(jì)各種網(wǎng)站的相關(guān)信息和網(wǎng)頁訪問量的公司,根據(jù)其最新的統(tǒng)計(jì),大眾點(diǎn)評的流量排名在全世界為846,在中國為98,是國內(nèi)同類型的網(wǎng)站中訪問量最高的[7]。

作為一家消費(fèi)點(diǎn)評類的網(wǎng)站,用戶在大眾點(diǎn)評上的一切行為都必須圍繞著位置,即大眾點(diǎn)評中的商家來展開。舉例來說,一個(gè)用戶在大眾點(diǎn)評上的簽到信息是通過某個(gè)商家的位置信息來呈現(xiàn)的,并不是任意的地址。而在現(xiàn)實(shí)生活中,用戶在大眾點(diǎn)評上的消費(fèi)也是必須與特定的商家相聯(lián)系的。

1.2 相關(guān)工作介紹

目前,國內(nèi)外的多個(gè)課題組在對LBSN的研究上已經(jīng)進(jìn)行了一系列的工作,并取得了相應(yīng)的研究成果。這些研究成果主要圍繞著以下四個(gè)重點(diǎn)問題展開:

1) 移動(dòng)社交網(wǎng)絡(luò)用戶原創(chuàng)內(nèi)容分析,代表性的包括用戶簽到(check-in)和點(diǎn)評(tip或者review)信息。在移動(dòng)社交網(wǎng)絡(luò)中,用戶可以利用LBSN的簽到和點(diǎn)評等功能,發(fā)布大量與位置相關(guān)的原創(chuàng)內(nèi)容。其中,英國劍橋大學(xué)的Anastasios Noulas等學(xué)者利用時(shí)空分析的方法,對Foursquare中的大量用戶簽到數(shù)據(jù)進(jìn)行研究。他們的工作揭示出了用戶總體的簽到數(shù)量在工作日和非工作日不同時(shí)段的變化規(guī)律,以及同一個(gè)用戶連續(xù)兩次簽到之間的時(shí)間間隔和地理位置間隔的規(guī)律[8]。其他的相關(guān)工作包含在文獻(xiàn)[9]。

2) 移動(dòng)社交網(wǎng)絡(luò)的安全和隱私保護(hù)問題。在LBSN中,存在著各種各樣的惡意攻擊,攻擊者通常的做法是通過注冊大量的垃圾賬號,再統(tǒng)一控制這些賬號來發(fā)布不真實(shí)甚至是騷擾性的信息,從而對正常用戶的信息獲取造成影響。然而經(jīng)過一系列前期工作發(fā)現(xiàn),現(xiàn)有的移動(dòng)社交平臺并沒有很好的針對垃圾賬號的辦法,相關(guān)的工作見文獻(xiàn)[10-11]。

3) 移動(dòng)社交網(wǎng)絡(luò)中位置信息與社交圖譜的關(guān)系。移動(dòng)社交網(wǎng)絡(luò)除了協(xié)助其用戶維護(hù)和其他用戶的社交連接之外,其一大特色就是用戶原創(chuàng)內(nèi)容中有很多會和位置信息相關(guān)。LBSN會記錄每個(gè)用戶的實(shí)時(shí)位置,以及歷史位置信息的匯總。這些信息的引入,將會對用戶的交互、乃至整個(gè)社交圖譜的結(jié)構(gòu),產(chǎn)生實(shí)質(zhì)性的影響。相關(guān)的工作參見文獻(xiàn)[12-13]。

4) 移動(dòng)社交網(wǎng)絡(luò)的位置推薦。移動(dòng)社交網(wǎng)絡(luò)不僅能夠記錄用戶之間的互聯(lián)情況,更保存了大量用戶的歷史性位置信息,因此可以用于對用戶的出行做個(gè)性化的位置推薦,相關(guān)的工作參見文獻(xiàn)[14-15]。

以上的這些工作涉及到了LBSN研究的多個(gè)方面,一般來說,利用互聯(lián)網(wǎng)測量來獲取用戶真實(shí)數(shù)據(jù),并進(jìn)行建模分析的方式是目前對移動(dòng)社交網(wǎng)絡(luò)進(jìn)行深入了解的通用方法。

2 位置社交網(wǎng)絡(luò)的數(shù)據(jù)采集

2.1 引 言

本節(jié)首先介紹與位置有關(guān)的用戶評論內(nèi)容是如何在大眾點(diǎn)評上呈現(xiàn)的,基于這些數(shù)據(jù)的分布,我們采取相應(yīng)的爬蟲策略來獲取相關(guān)數(shù)據(jù),并對數(shù)據(jù)進(jìn)行有效的存儲。

2.2 數(shù)據(jù)介紹

在大眾點(diǎn)評網(wǎng)上,位置信息是以“商家”的形式呈現(xiàn)的,所有的用戶評論內(nèi)容都是與一個(gè)具體的商家相關(guān)的。為了便于介紹,我們隨機(jī)選擇一家商家,展示下圍繞著商家的用戶評論內(nèi)容的分布。

圖1展示了大眾點(diǎn)評中部分用戶原創(chuàng)內(nèi)容的截圖,從圖中我們可以看到,用戶的評論內(nèi)容包含了商家名、用戶名、評論類型、用戶打分、用戶評論內(nèi)容和具體評論日期等信息。

圖1 大眾點(diǎn)評用戶評論內(nèi)容截圖

2.3 數(shù)據(jù)采集

根據(jù)前面對數(shù)據(jù)集的介紹,我們大致了解了大眾點(diǎn)評上用戶評論的特點(diǎn)。在本節(jié)中,我們將介紹如何通過爬蟲來實(shí)現(xiàn)大規(guī)模的用戶評論數(shù)據(jù)采集。大眾點(diǎn)評有超過兩千萬的商家,由于時(shí)間的限制,我們需要以一種無偏抽樣的方式采集到具有較大規(guī)模并且有代表性的商家數(shù)據(jù),使得我們獲得的數(shù)據(jù)子集能夠反映整個(gè)點(diǎn)評數(shù)據(jù)集的特征規(guī)律。在我們的前期工作[16]中,我們已經(jīng)記錄下了506 004個(gè)在2015年8月12日之前注冊的商家ID,并保證這些ID是均勻分布的。該文基于這些ID,對商戶信息從多角度進(jìn)行了分析,但沒有關(guān)注評論的具體內(nèi)容和所體現(xiàn)的相應(yīng)的用戶的情感。在本文工作中,我們將基于這些ID,對用戶發(fā)布的所有評論的內(nèi)容進(jìn)行分布式采集。

如何高效地爬取大眾點(diǎn)評上的數(shù)據(jù),我們面臨著以下兩個(gè)個(gè)挑戰(zhàn):

1) 大眾點(diǎn)評有一套非常嚴(yán)格的IP地址限速機(jī)制,傳統(tǒng)的爬蟲庫,例如httplib2,urllib等由于是直接爬取網(wǎng)頁的源代碼,其行為特征和正常用戶有較大區(qū)別,往往會很容易被社交網(wǎng)絡(luò)服務(wù)器所發(fā)現(xiàn),并導(dǎo)致IP地址被封禁。我們面臨的挑戰(zhàn)是如何在保證爬蟲速度的同時(shí),能夠獲取海量的數(shù)據(jù)集。

2) 大眾點(diǎn)評本身并沒有提供相應(yīng)的API來供研究人員對數(shù)據(jù)進(jìn)行獲取。為了獲取大規(guī)模的數(shù)據(jù)集,我們設(shè)計(jì)的網(wǎng)頁爬蟲必須能夠模擬真實(shí)用戶訪問這些頁面的情況。

為了保證在IP不被屏蔽的情況下盡可能地提升爬蟲的效率,我們從兩方面入手。首先,我們采用了分布式的爬蟲框架。在微軟云平臺上部署了45臺虛擬機(jī),每臺虛擬機(jī)都有一個(gè)外網(wǎng)IP地址,這樣的爬蟲策略使得數(shù)據(jù)采集效率遠(yuǎn)高于只在一臺機(jī)器上進(jìn)行數(shù)據(jù)采集。然后,為了保證爬蟲代碼在經(jīng)過長時(shí)間運(yùn)行后仍能正常工作,采用了Python的Selenium庫來實(shí)現(xiàn)數(shù)據(jù)采集過程。通過自動(dòng)化測試工具Selenium和瀏覽器Firefox的配合,可以把爬蟲的過程模擬成用戶瀏覽網(wǎng)頁的過程,這在很大程度上避免了服務(wù)器端的速率限制。

基于文獻(xiàn)[16]獲取到的無偏抽樣的商家ID,我們采用Python編寫新的爬蟲代碼,利用45臺云服務(wù)器組成分布式數(shù)據(jù)獲取平臺,進(jìn)行商家評論內(nèi)容的采集,整個(gè)爬蟲的框架如圖2所示。

圖2 云爬蟲框架示意圖

在每臺云服務(wù)器內(nèi)部,具體的爬蟲流程如圖3所示。圖3左邊是云端服務(wù)器的整體工作流程,首先,我們需要對機(jī)器的工作環(huán)境進(jìn)行相應(yīng)的配置,包括安裝相應(yīng)的Python庫、Firefox和XServer。在環(huán)境搭建完成后,我們周期性地運(yùn)行相應(yīng)的爬蟲程序,來采集商家的用戶評論數(shù)據(jù)集,對于每個(gè)周期內(nèi)產(chǎn)生的數(shù)據(jù)集,進(jìn)行打包整理,并清理不再需要的文件,便于下一周期的爬蟲。圖3右邊是周期內(nèi)具體的爬蟲過程,首先指定該周期內(nèi)需要采集的商家數(shù)量N,在一次采集過程中,先獲取到商家ID,那么該商家的用戶評論數(shù)據(jù)URL地址為:http://www.dianping.com/shop/{ID}/review_more?pageno={x},其中x是評論的頁數(shù)。通過該URL地址,我們可以采集到該商家的所有用戶評論內(nèi)容。

圖3 爬蟲流程圖

2.4 數(shù)據(jù)存儲

在完成了對商家數(shù)據(jù)的采集工作后,我們需要對獲得的數(shù)據(jù)進(jìn)行進(jìn)一步的處理,以便開展后續(xù)的分析工作。接下來,將介紹如何對本地存放的幾十萬個(gè)文本文件進(jìn)行處理,提取其中的信息進(jìn)行有效地存儲。

首先在爬蟲時(shí),考慮到后續(xù)需要對數(shù)據(jù)進(jìn)行處理,設(shè)置每個(gè)文本文件內(nèi)存放的商家數(shù)據(jù)都是按照J(rèn)SON格式存放的。選取JSON作為數(shù)據(jù)的編碼方式,主要是因?yàn)镴SON是一種輕量級的數(shù)據(jù)交換格式,易于機(jī)器的解析和生成[17]。以ID為21 865 211的商家為例,我們抓取的該商家的用戶評論內(nèi)容如下所示。

{

"shopid": "21865211",

"allreviews": {

"default_numbers": 4905,

"default_info": [

{

"type": "tuan",

"date": "2015-03-25",

"user_id": "7604638",

"content": "食材新鮮地道服務(wù)員很nice"

},

]

}

}

以商家ID為標(biāo)示,獲取了每個(gè)商家的用戶評論內(nèi)容,具體的字段含義如表1所示。

表1 商家數(shù)據(jù)集的字段說明

表1中解釋了采集到的數(shù)據(jù)內(nèi)容,為了更好地對數(shù)據(jù)進(jìn)行管理,按照字段說明,將txt中的數(shù)據(jù)導(dǎo)入到MySQL中進(jìn)行存儲。之所以選擇MySQL來存儲商家數(shù)據(jù)集,是因?yàn)镸ySQL是一種輕量級的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),通過MySQL,我們能夠更快捷、更靈活地讀取數(shù)據(jù)[18]。本文的本地工作環(huán)境是Mac OS X v10.11,數(shù)據(jù)庫版本是MySQL 5.1.63社區(qū)版,編程語言是Python。為了更好地管理數(shù)據(jù)庫,我們使用了Sequel Pro,Sequel Pro是一款在Mac OSX平臺上的數(shù)據(jù)庫管理應(yīng)用程序,經(jīng)過一定的配置,就可以通過Sequel Pro以圖形化的界面來管理MySQL中的數(shù)據(jù)庫[19]。在用Python導(dǎo)入數(shù)據(jù)時(shí),使用了Python中的MySQLdb模塊,這是Python用來連接MySQL的接口。

利用前面描述的云爬蟲框架和無偏抽樣的商家ID,從2016年3月2日到2016年3月10日,我們采集了506 004個(gè)商家的用戶評論內(nèi)容。根據(jù)我們的測量結(jié)果,大部分的商家是沒有用戶評論內(nèi)容的,只有16.26%的商家擁有至少一個(gè)用戶評論。最終,我們采集到了3 510 122條用戶評論,分布在82 279個(gè)商家中。

3 位置社交網(wǎng)絡(luò)的語義分析

3.1 引 言

在線社交網(wǎng)絡(luò)一個(gè)重要的功能就是用戶能夠在線表達(dá)自己的主觀性信息,我們認(rèn)為,與一般的打分機(jī)制相比,用戶評論的文本內(nèi)容往往能夠更加準(zhǔn)確地反映出用戶的態(tài)度。因此,在本節(jié)中,將具體分析每個(gè)商家的用戶評論內(nèi)容。與評價(jià)打分不同的是,評論能夠更加具體地反映出用戶對商家的各種情感色彩和感情傾向。本節(jié)希望通過對商家中用戶評論信息的挖掘,對用戶的主觀性信息進(jìn)行提取、分析和歸納,從而發(fā)現(xiàn)影響用戶的情感態(tài)度產(chǎn)生變化的因素。

一般來說,可以將用戶的情感傾向分為“支持”、“中立”和“反對”三種。當(dāng)然,如果需要考察用戶的情感傾向程度,比如說用戶對某一商家喜歡到了什么程度,這就需要通過更加細(xì)致的打分機(jī)制來描述用戶的情感態(tài)度。用1代表用戶對商家是完全支持,0表示用戶對商家完全否定,那么0~1這個(gè)區(qū)間內(nèi)的各個(gè)數(shù)值就表示了用戶的情感態(tài)度分值,0.5分表示了用戶對商家持中立態(tài)度。在本文中,我們使用了SnowNLP來對大眾點(diǎn)評中的用戶評論內(nèi)容進(jìn)行簡單的情感分析。SnowNLP是一個(gè)基于Python的開源的自然語言處理工具箱,可以方便地處理中文文本內(nèi)容[20]。

3.2 情感分值的分布規(guī)律

圖4 評論數(shù)量隨情感分值變化的CDF圖

首先探討下用戶評論數(shù)量隨情感分值的變化情況。圖4是評論數(shù)量隨著情感分值變化的累積分布函數(shù)CDF(Cumulative Distribution Function)圖,其中,x軸是情感分值,y軸是情感分值小于當(dāng)前值的用戶評論數(shù)量在所有評論數(shù)量中所占的比例。從圖4中我們可以看到,對于商家來說,大部分的用戶評論是正面的,有69.91% 的用戶發(fā)表了正面的評論。另外,從整體上來看,超過50%的用戶發(fā)表的評論情感分值大于0.9。以上的兩點(diǎn)發(fā)現(xiàn)從整體上說明了,商家收到的大部分評論都是正面的。進(jìn)一步分析,如果考慮到評論的類型,發(fā)現(xiàn)用戶在商家的評論一般分為默認(rèn)點(diǎn)評和團(tuán)購點(diǎn)評,所謂的默認(rèn)點(diǎn)評就是用戶前去商家正常消費(fèi),然后發(fā)表相應(yīng)的評論,而與之相對的團(tuán)購點(diǎn)評是用戶通過購買團(tuán)購券前去商家消費(fèi),然后留下的評論。兩者的區(qū)別主要就是用戶消費(fèi)方式的不同,一般來說,團(tuán)購消費(fèi)對于用戶而言往往意味著更加實(shí)惠,通常能夠吸引大量的用戶。為了探討團(tuán)購消費(fèi)后的用戶情感態(tài)度與正常消費(fèi)后的區(qū)別,計(jì)算了兩種消費(fèi)模式下“支持”和“反對”的比例,以及各自的平均情感分值,如表2所示。從表2中可以看到,不論是對于默認(rèn)點(diǎn)評還是團(tuán)購點(diǎn)評,其正面評價(jià)的比例都占據(jù)了大多數(shù),其中,相比較而言,用戶在使用了團(tuán)購之后,更傾向于給予商家正面的評價(jià)。另外,就平均情感分值而言,使用團(tuán)購消費(fèi)的用戶,其情感態(tài)度更加積極正面。

表2 評論類型與情感態(tài)度

3.3 評論長度與情感分值的關(guān)系

接下來,探討用戶的情感態(tài)度變化與其對商家的評論內(nèi)容長度之間的關(guān)系。在上文中我們發(fā)現(xiàn),商家的大部分評論都是正面的,但存在的問題是并不是所有的用戶評論都是真實(shí)有效的,我們希望從最簡單的用戶評論長度來辨別用戶評論的真實(shí)性。在圖5中,我們可以發(fā)現(xiàn),從整體上來看,評論內(nèi)容越長,用戶對商家的評價(jià)分值越低。直觀上來說,這是由于用戶寫的東西越多,他想借此表達(dá)的情感也越豐富,所以當(dāng)評論內(nèi)容到達(dá)幾百字時(shí),往往評論的分值不會太高。從另一方面來講,可以觀察到當(dāng)評論內(nèi)容的長度在起始點(diǎn),即15~17字左右時(shí),用戶對商家的態(tài)度是最積極的。這是由于大眾點(diǎn)評的規(guī)定是用戶對商家的評論內(nèi)容長度至少為15字,而許多商家在用戶去店里消費(fèi)時(shí),會讓用戶選擇發(fā)表積極正面的評論來獲取一定的優(yōu)惠,大部分用戶會快速地發(fā)完15字的好評來獲取獎(jiǎng)勵(lì)。從全體用戶的整體利益上來講,雖然單用戶此次消費(fèi)獲得了優(yōu)惠,但會誤導(dǎo)其他的用戶對商家的判斷。通過對用戶評論內(nèi)容的進(jìn)一步挖掘,我們發(fā)現(xiàn)在大眾點(diǎn)評中,平均用戶評論長度為63,這恰巧是圖5中評論分值對應(yīng)的一個(gè)峰值。

圖5 用戶情感態(tài)度隨評論內(nèi)容長度的變化

同樣的,當(dāng)考慮到評論類型時(shí),發(fā)現(xiàn)不同消費(fèi)類型的用戶的情感態(tài)度隨評論內(nèi)容長度的變化規(guī)律與圖5中所描述的規(guī)律類似,兩者都是隨著評論內(nèi)容長度的增加,情感態(tài)度值在整體上下降,如圖6、圖7所示。不同的是,當(dāng)評論內(nèi)容的長度增加時(shí),團(tuán)購點(diǎn)評的情感態(tài)度分值變得更加混亂,起伏比較大,而默認(rèn)點(diǎn)評的情感分值起伏較小。

圖6 用戶情感態(tài)度隨默認(rèn)評論內(nèi)容長度的變化情況

圖7 用戶情感態(tài)度隨團(tuán)購評論內(nèi)容長度的變化情況

3.4 評論關(guān)鍵詞與情感分值的關(guān)系

接下來我們希望通過分析評論的具體內(nèi)容來理解用戶的情感態(tài)度。通過前面對用戶情感態(tài)度分值的介紹,知道當(dāng)分值為0時(shí),用戶的情感態(tài)度最消極,而當(dāng)分值為1時(shí),用戶的情感態(tài)度是最積極的。為了對比兩者的不同,從商家評論數(shù)據(jù)集中選取情感值分別為0和1的評論,通過SnowNLP來提取每條評論的關(guān)鍵詞。

圖8和圖9用詞云的形式形象表達(dá)了用戶在對商家的態(tài)度不同時(shí)關(guān)鍵詞的不同分布,其中,關(guān)鍵詞出現(xiàn)的次數(shù)越多,其字號越大。圖8展示的是53 953條用戶正面評論的關(guān)鍵詞分布,我們可以看到,當(dāng)用戶對商家滿意時(shí),出現(xiàn)最多的詞包括“不錯(cuò)”、“喜歡”和“好”等等,這些都是一些積極的詞匯。圖9展示的是用戶對商家極度不滿意時(shí)的評論關(guān)鍵詞,我們從53 265條負(fù)面評論中提取出這些關(guān)鍵詞。從圖9中我們可以看到,“服務(wù)員”、“態(tài)度”、“服務(wù)”和“味道”等成為了用戶最不滿意的地方。對比兩者,我們可以發(fā)現(xiàn),當(dāng)用戶對商家滿意時(shí),發(fā)表的評論內(nèi)容更加傾向于描述自己的正面情感,表達(dá)對商家的滿意程度,關(guān)鍵詞多為形容詞;而當(dāng)用戶對商家不滿意時(shí),發(fā)表的評論內(nèi)容更加傾向于強(qiáng)調(diào)自己不滿意的細(xì)節(jié),關(guān)鍵詞多為名詞。

圖8 用戶正面情感關(guān)鍵詞分布

圖9 用戶負(fù)面情感關(guān)鍵詞分布

4 結(jié) 語

本文選取了目前中國最熱門的消費(fèi)點(diǎn)評類的LBSN網(wǎng)站——大眾點(diǎn)評,以位置為中心,對商家的評論內(nèi)容進(jìn)行研究分析。首先,為了獲取大量的數(shù)據(jù)集,通過對大眾點(diǎn)評網(wǎng)站的調(diào)研、分析來編寫爬蟲代碼,通過網(wǎng)絡(luò)測量的方式來獲取大眾點(diǎn)評網(wǎng)的商家評論數(shù)據(jù)。為了提升獲取數(shù)據(jù)的速度和數(shù)量,在微軟云上的45臺云服務(wù)器中部署了我們的爬蟲代碼,實(shí)現(xiàn)了分布式的爬蟲框架。

為了數(shù)據(jù)存儲的高效性,采用了MySQL來存儲獲取到的商家數(shù)據(jù)集。設(shè)計(jì)了數(shù)據(jù)表來涵蓋商家的評論內(nèi)容數(shù)據(jù)集,最終,整理后的數(shù)據(jù)集占據(jù)了大概745 MB的空間,包含了82 279個(gè)商家,3 510 122條用戶評論。

基于獲取的大量數(shù)據(jù),通過對評論內(nèi)容的分析,挖掘影響用戶情感態(tài)度變化的因素。首先,發(fā)現(xiàn)對于大部分的商家而言,用戶的評論都是正面的,只有不到三分之一的用戶評論是負(fù)面的。 另外,團(tuán)購消費(fèi)的用戶情感態(tài)度分值一般高于正常消費(fèi)的用戶。然后,研究了用戶的情感分值隨評論內(nèi)容長度的變化規(guī)律,從整體上來看,用戶的評論內(nèi)容長度越長,其情感分值越低。最后,提取了用戶評論的關(guān)鍵詞,這在某種程度上也代表了用戶的情感態(tài)度,不同態(tài)度的用戶評論,其關(guān)鍵詞的分布也有很大的不同。

[1] The 2015 U.S.Mobile App Report[EB/OL].https://www.comscore.com/Insights/Presentations-and-Whitepapers/2015

/The-2015-US-Mobile-App-Report.

[2] 預(yù)計(jì)2011年美國UGC廣告收入將達(dá)43億美元[EB/OL].http://www.cnad.com/html/Article/2007/0725/20070725105901704.html.

[3] Ye M, Janowicz K, Mülligann C, et al. What you are is when you are: the temporal dimension of feature types in location-based social networks[C]//Proceedings of the 19th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. ACM, 2011:102-111.

[4] Ballesteros J, Carbunar B, Rahman M, et al. Yelp Events: Making Bricks Without Clay? [C]//Distributed Computing Systems Workshops (ICDCSW), 2013 IEEE 33rd International Conference on. IEEE,2013:156-161.

[5] Allamanis M, Scellato S, Mascolo C. Evolution of a location-based online social network: analysis and models[C]//Proceedings of the 2012 ACM conference on Internet measurement conference. ACM, 2012:145-158.

[6] DIANPING: THE EVOLUTIONS OF CHINA’S LOCATION-BASED REVIEWS GIANT[EB/OL].http://www.digitalintheround.com/china-location-based-marketing-dianping/.

[7] Alexa Traffic Ranks of dianping.com[EB/OL].http://www.alexa.com/siteinfo/dianping.com.

[8] Noulas A, Scellato S, Mascolo C, et al. An Empirical Study of Geographic User Activity Patterns in Foursquare [C]// Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM), 2011:570-573.

[9] 李敏, 王曉聰, 張軍,等. 基于位置的社交網(wǎng)絡(luò)用戶簽到及相關(guān)行為研究[J]. 計(jì)算機(jī)科學(xué), 2013,40(10):72-76.

[10] He W, Liu X, Ren M. Location cheating: A security challenge to location-based social network services[C]//Distributed computing systems (ICDCS), 2011 31st international conference on. IEEE, 2011:740-749.

[11] 談嶸, 顧君忠, 楊靜, 等. 移動(dòng)社交網(wǎng)絡(luò)中的隱私設(shè)計(jì)[J]. Journal of Software, 2010,21(S):298-309.

[12] Scellato S, Noulas A, Lambiotte R, et al. Socio-Spatial Properties of Online Location-Based Social Networks[C]//Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM),2011:329-336.

[13] 劉艷, 潘善亮. 基于LBSN好友關(guān)系的個(gè)性化景點(diǎn)推薦方法[J].計(jì)算機(jī)工程與應(yīng)用, 2015, 51(8):117-122.

[14] 屈弘揚(yáng), 於志文, 田苗,等. 基于LBSN的商業(yè)選址推薦系統(tǒng)的研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)科學(xué), 2015,42(9):33-36.

[15] Yang D, Zhang D, Yu Z, et al. A sentiment-enhanced personalized location recommendation system[C]//Proceedings of the 24th ACM Conference on Hypertext and Social Media. ACM,2013:119-128.

[16] Huang Y, Chen Y, Zhou Q, et al. Where Are We Visiting? Measurement and Analysis of Venues in Dianping[C]//2016 IEEE International Conference on Communications (ICC),2016.

[17] Introducing JSON[EB/OL]. http://www.json.org/.

[18] MySQL [EB/OL]. http://www.mysql.com.

[19] Sequel Pro [EB/OL]. http://www.sequelpro.com.

[20] Guan X, Yang Y, Yang X, et al. Dirichlet Process Mixture Model for Summarizing the Social Web[M].Social Media Processing. Springer Singapore,2015.

SEMANTIC ANALYSIS OF BUSINESS DATA IN LOCATION-BASED SOCIAL NETWORK

Huang Yue He Xinlei Chen Yang Zhao Jin

(SchoolofComputerScience,FudanUniversity,Shanghai201203,China) (EngineeringResearchCenterofCyberSecurityAuditingandMonitoring,MinistryofEducation,Shanghai201203,China)

In recent years, “mobile” and “social” to promote the development of the Internet has become the two key technologies. Under these two technologies, location-based social network (LBSN) have developed rapidly, attracting a large number of users on a global scale, both academia and industry are investing heavily in LBSN research. LBSN sites are location-centric, meaning that any user-generated content, such as sign-in or comment, must be associated with a specific location. Although location information plays an important role in LBSN, the research on LBSN at home and abroad is mainly from the user point of view, the lack of research from the perspective of location. At the same time, the analysis of original user content in LBSN is lack of analysis of text information. The author makes a large-scale data collection on the content of the business comment on the popular online commentary social network-Dianping, and carries out semantic analysis on the large amount of user comment text.

Location-based social network Position angle User-generated content Sentiment analysis

2016-04-23。上海市自然科學(xué)基金項(xiàng)目(16ZR1402200)。黃岳,碩士生,主研領(lǐng)域:社交網(wǎng)絡(luò)。何新磊,本科生。陳陽,副研究員。趙進(jìn),副教授。

TP3

A

10.3969/j.issn.1000-386x.2017.05.014

猜你喜歡
爬蟲分值商家
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
中國人不騙中國人
芍梅化陰湯對干燥綜合征患者生活質(zhì)量的影響
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
No.4 快手電商:已幫助至少50萬線下商家恢復(fù)生意
目前互聯(lián)網(wǎng)中的網(wǎng)絡(luò)爬蟲的原理和影響
悄悄告訴你:統(tǒng)計(jì)這樣考
誰是科創(chuàng)板創(chuàng)值全能冠軍
大數(shù)據(jù)背景下校園輿情的爬蟲應(yīng)用研究
春節(jié)黃金周陜西省商家攬金二百一十億元
横山县| 和田市| 绥江县| 孝义市| 吉林市| 蓝田县| 和田县| 塔河县| 名山县| 新晃| 桃园市| 马鞍山市| 武宣县| 六盘水市| 北辰区| 泰来县| 鸡西市| 衢州市| 卓资县| 鄂伦春自治旗| 阜康市| 福海县| 广南县| 南乐县| 桦川县| 东乌| 桃江县| 穆棱市| 仁寿县| 连城县| 保亭| 萍乡市| 耒阳市| 娄烦县| 金湖县| 高安市| 揭西县| 蓝山县| 天长市| 辽中县| 石河子市|