楊旸+劉法建
科學(xué)研究的發(fā)展往往始于技術(shù)的進(jìn)步。近年來(lái),在信息科學(xué)、網(wǎng)絡(luò)技術(shù)的進(jìn)步和融合的推動(dòng)下,獲取便捷、類(lèi)型多樣的大數(shù)據(jù)開(kāi)始為眾多研究領(lǐng)域所關(guān)注。大數(shù)據(jù)也成為國(guó)內(nèi)外旅游學(xué)界和業(yè)界的熱門(mén)話題,尤其在旅游流、旅游體驗(yàn)等對(duì)數(shù)據(jù)精度、規(guī)模、結(jié)構(gòu)要求日益嚴(yán)苛的領(lǐng)域,大數(shù)據(jù)使得一些原本數(shù)據(jù)搜集復(fù)雜或者可操作性低的研究課題可以得到實(shí)施。然而,隨著研究領(lǐng)域、數(shù)據(jù)來(lái)源的不斷拓展,一些大數(shù)據(jù)應(yīng)用的問(wèn)題也隨之而來(lái)。
一、 虛假評(píng)論數(shù)據(jù)
作為最具代表性的旅游大數(shù)據(jù)來(lái)源,在線顧 客評(píng)論在已有的旅游大數(shù)據(jù)研究中占有重要的 地位。此類(lèi)研究,往往基于在線評(píng)論能客觀反映 旅游服務(wù)設(shè)施接待水平和游客體驗(yàn)的前提下展開(kāi)分析。但事實(shí)上,一些點(diǎn)評(píng)網(wǎng)站并不能識(shí)別評(píng)論 者是否購(gòu)買(mǎi)過(guò)該項(xiàng)服務(wù)(如TripAdvisor),這導(dǎo)致了大量虛假評(píng)論的滋生,勢(shì)必會(huì)影響到分析結(jié)果的 有效性和科學(xué)性。目前,在國(guó)際頂級(jí)的商學(xué)期刊上,已有使用機(jī)器學(xué)習(xí)和人工智能方法來(lái)篩選和 過(guò)濾虛假在線評(píng)論的研究成果發(fā)表。因此,相關(guān)旅游研究在使用在線評(píng)論數(shù)據(jù)時(shí),也要特別注意可能存在的虛假評(píng)論,并且基于研究情境考慮使用合適的方法篩選出可能的虛假評(píng)論,提高數(shù)據(jù)本身的可信度。
二、 不同大數(shù)據(jù)源之間的交互驗(yàn)證
對(duì)于同一個(gè)研究目的/研究問(wèn)題,不同的數(shù)據(jù)源可能提供來(lái)自不同側(cè)面的重要信息。這些數(shù)據(jù)本身或多或少會(huì)存在系統(tǒng)性及非系統(tǒng)性誤差,使用時(shí)就需要對(duì)數(shù)據(jù)源進(jìn)行交互驗(yàn)證(triangulation),以確定這些誤差可能的來(lái)源,并為后續(xù)數(shù)據(jù)匯總過(guò)程中的誤差控制提供思路。例如,在使用酒店在線評(píng)論數(shù)據(jù)時(shí),很多研究者會(huì)從不同的酒店評(píng)論平臺(tái)采集數(shù)據(jù)。但由于不同的平臺(tái)可能是面向不同層次、不同類(lèi)型的住客群體,這些評(píng)論數(shù)據(jù)存在系統(tǒng)差異。研究過(guò)程中首先就需要對(duì)這些平臺(tái)數(shù)據(jù)進(jìn)行交互驗(yàn)證,這不僅有助于降低誤差,提高評(píng)論數(shù)據(jù)綜合后的結(jié)果可信度,而且可以了解不同樣本群體的特性差異,增強(qiáng)對(duì)結(jié)果的理解和解釋。
三、 數(shù)據(jù)樣本的代表性
在傳統(tǒng)的數(shù)據(jù)采集中,樣本的代表性(representativeness)是統(tǒng)計(jì)推斷是否穩(wěn)健和有效的重要前提。在社會(huì)統(tǒng)計(jì)和商業(yè)調(diào)查中,面對(duì)不具代表性的數(shù)據(jù)樣本,再?gòu)?qiáng)大的統(tǒng)計(jì)模型也很難得出準(zhǔn)確的、可以推廣的分析結(jié)論。因此,科學(xué)、有效的抽樣調(diào)查方法在傳統(tǒng)數(shù)據(jù)獲取中被普遍重視。在大數(shù)據(jù)時(shí)代,尤其是在大數(shù)據(jù)的旅游業(yè)應(yīng)用中,如何確保樣本和數(shù)據(jù)的有效性、代表性也是業(yè)界和學(xué)界重點(diǎn)關(guān)心的問(wèn)題。實(shí)際上,很多大數(shù)據(jù)源產(chǎn)生的數(shù)據(jù),并不能有效的代表完整的研究目標(biāo)群體。最明顯的例子就是從互聯(lián)網(wǎng)獲得的大數(shù)據(jù)中,中老年群體的樣本比例嚴(yán)重不足。傳統(tǒng)統(tǒng)計(jì)學(xué)中可使用的權(quán)重調(diào)整方法這時(shí)也較難使用,因?yàn)榇祟?lèi)大數(shù)據(jù)樣本中個(gè)體屬性,尤其是社會(huì)人口屬性特征往往缺失,使得權(quán)重的估計(jì)也變得難以操作。此外,計(jì)量經(jīng)濟(jì)學(xué)中常見(jiàn)的樣本選擇偏差(sample selection bias)也會(huì)導(dǎo)致樣本的代表性問(wèn)題。一個(gè)常見(jiàn)的例子就是不滿意的酒店住客可能傾向于在評(píng)論網(wǎng)站上留下詳細(xì)的評(píng)論。如果這種樣本選擇偏差不得以修正,就容易過(guò)度放大負(fù)面信息,得出與事實(shí)出入很大的結(jié)果。
四、 游客樣本的甄別
除一些旅游業(yè)專(zhuān)用大數(shù)據(jù)源外,旅游研究中還會(huì)使用到一些綜合性的、非定制的大數(shù)據(jù)源,比如微博數(shù)據(jù)、汽車(chē)GPS軌跡數(shù)據(jù)和手機(jī)信令數(shù)據(jù)。這時(shí),首先需要解決如何甄別有效游客樣本的問(wèn)題。一般常用的方法是建立統(tǒng)計(jì)模型對(duì)數(shù)據(jù)中的時(shí)空信息進(jìn)行數(shù)據(jù)挖掘,識(shí)別出游客群體。由于建立統(tǒng)計(jì)模型需要識(shí)別諸多參數(shù),這可以通過(guò)小規(guī)模的實(shí)地調(diào)查來(lái)獲得,從而有效提升游客樣本的甄別準(zhǔn)確率。當(dāng)然,由于不同地方的景點(diǎn)規(guī)模、目的地空間尺度、空間結(jié)構(gòu)、交通設(shè)施水平的差異,不同地區(qū)的實(shí)地調(diào)查結(jié)果不能盲目推廣。
五、 研究方法“舊瓶裝新酒”
許多標(biāo)稱(chēng)“大數(shù)據(jù)應(yīng)用”的旅游研究文章,使用的仍是傳統(tǒng)和基礎(chǔ)的統(tǒng)計(jì)和數(shù)據(jù)發(fā)掘方法。嚴(yán)格意義上說(shuō),難以納入“大數(shù)據(jù)”研究的范疇。因?yàn)樗鼈儾](méi)有涉及到“大數(shù)據(jù)革命”的核心之一:對(duì)于海量實(shí)時(shí)數(shù)據(jù)處理方法的革新。很多情況下,這些大數(shù)據(jù)旅游實(shí)證文章,僅僅是從大數(shù)據(jù)源中獲得常規(guī)數(shù)據(jù),增加的只是數(shù)據(jù)量,并沒(méi)有帶來(lái)創(chuàng)新性的,突破性的研究方法,未能實(shí)現(xiàn)研究思路和研究框架上的質(zhì)變。
綜上所述,在旅游的大數(shù)據(jù)研究和應(yīng)用中,不應(yīng)該盲目迷信和崇拜大數(shù)據(jù)源獲得的數(shù)據(jù)。大數(shù)據(jù)與生俱來(lái)的諸多弊端,需要使用者在數(shù)據(jù)的獲取、處理和分析過(guò)程中時(shí)刻注意和警惕。首先,研究人員和從業(yè)人士不能簡(jiǎn)單地把大數(shù)據(jù)分析看成一個(gè)“黑箱”,不假思索、教條式地使用統(tǒng)計(jì)或者人工智能的方法分析數(shù)據(jù)。而應(yīng)把一部分注意力放在保證數(shù)據(jù)的質(zhì)量上,增加針對(duì)性的數(shù)據(jù)清理和調(diào)試,以確保數(shù)據(jù)的有效性和科學(xué)性。其次,在大數(shù)據(jù)的應(yīng)用領(lǐng)域,不同大數(shù)據(jù)源信息的融合越來(lái)越被重視。這種信息的匯總、融合可以提高數(shù)據(jù)的精度,提升結(jié)果的可靠性。最后,對(duì)于學(xué)界而言,大數(shù)據(jù)的興起與流行并未給傳統(tǒng)的旅游研究范式帶來(lái)根本性的改變。作為社會(huì)科學(xué)的分支,旅游研究的 “問(wèn)題導(dǎo)向”(research question)和“理論建構(gòu)”并重的屬性依然關(guān)鍵,其學(xué)術(shù)研究的價(jià)值在很大程度上仍取決于研究問(wèn)題的水平和質(zhì)量。endprint