国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

虛擬與現(xiàn)實(shí):電子蹤跡大數(shù)據(jù)質(zhì)量與知識(shí)發(fā)現(xiàn)*

2019-05-25 03:08:22
圖書(shū)館 2019年5期
關(guān)鍵詞:蹤跡社會(huì)科學(xué)百度

陳 崢

(武漢大學(xué)社會(huì)學(xué)系 武漢 430072)

1 三大網(wǎng)絡(luò)的發(fā)展與人類行為互動(dòng)數(shù)據(jù)的積累

新一輪的信息技術(shù)革命深刻改變著人類社會(huì)的方方面面,我們正在步入數(shù)字化生產(chǎn)和數(shù)字化生活的時(shí)代。隨著互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)三大網(wǎng)絡(luò)在全球范圍的普及,以及其對(duì)各個(gè)領(lǐng)域的深度滲透,大量的、多種類的人類行為互動(dòng)數(shù)據(jù)被記錄下來(lái),成為社會(huì)科學(xué)研究的新資源。

互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)主要通過(guò)人機(jī)互動(dòng)生成數(shù)據(jù)。我國(guó)用戶對(duì)互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)的使用行為,主要有以下幾種:①網(wǎng)絡(luò)通信(即時(shí)通信、電子郵件);②網(wǎng)絡(luò)信息獲?。ňW(wǎng)絡(luò)搜索、新聞瀏覽、地圖查詢、路況導(dǎo)航);③網(wǎng)絡(luò)社交(微博、微信、論壇/BBS);④網(wǎng)絡(luò)商務(wù)(購(gòu)物、預(yù)訂、支付)、網(wǎng)絡(luò)金融(網(wǎng)上銀行、證券交易、理財(cái));⑤網(wǎng)絡(luò)學(xué)習(xí)(學(xué)習(xí)型閱讀、在線教育);⑥網(wǎng)絡(luò)娛樂(lè)(文學(xué)、視頻、音樂(lè)、游戲、直播、娛樂(lè)型閱讀);⑦O2O服務(wù)(網(wǎng)上訂外賣、網(wǎng)約車);⑧其他。這些使用行為都會(huì)在互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)上生成數(shù)據(jù)。

第41次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2017 年12 月,中國(guó)網(wǎng)民規(guī)模達(dá)7.72 億,全年共計(jì)新增網(wǎng)民4 074萬(wàn)人,互聯(lián)網(wǎng)普及率為55.8%,較2016 年底提升了2.6 個(gè)百分點(diǎn),中國(guó)手機(jī)網(wǎng)民規(guī)模達(dá)7.53億,較2016年底增加5 734萬(wàn)人,提升了2.4個(gè)百分點(diǎn);就個(gè)人互聯(lián)網(wǎng)應(yīng)用發(fā)展?fàn)顩r而言,2017 年,我國(guó)個(gè)人互聯(lián)網(wǎng)應(yīng)用保持快速發(fā)展,各類應(yīng)用用戶規(guī)模均呈上升趨勢(shì),其中網(wǎng)上外賣用戶規(guī)模增長(zhǎng)顯著,年增長(zhǎng)率達(dá)到64.6%;手機(jī)應(yīng)用方面,外賣、旅行預(yù)訂用戶規(guī)模增長(zhǎng)明顯,年增長(zhǎng)率分別達(dá)到66.2%和29.7%[1]。

圖1 2016年12月—2017年12月中國(guó)網(wǎng)民互聯(lián)網(wǎng)應(yīng)用使用規(guī)模(萬(wàn)人)

除了互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)之外,借助先進(jìn)傳感技術(shù)實(shí)現(xiàn)萬(wàn)物相連的物聯(lián)網(wǎng),也能夠采集大量的人類行為數(shù)據(jù)。例如,車聯(lián)網(wǎng)在通過(guò)攝像頭獲取交通流量等數(shù)據(jù)的同時(shí),也獲取了車輛使用者的時(shí)空軌跡;可穿戴設(shè)備借助物聯(lián)網(wǎng)技術(shù)獲取人的動(dòng)態(tài)信息?;ヂ?lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)的數(shù)據(jù)生成一般需要人機(jī)互動(dòng),而物聯(lián)網(wǎng)則一般是由射頻識(shí)別(RFID)、紅外感應(yīng)器、激光掃描器、GPS等傳感設(shè)備自動(dòng)采集信息,在數(shù)據(jù)生成過(guò)程中排除或大大減少了人為因素。

圖2 2016年12月—2017年12月中國(guó)網(wǎng)民各類手機(jī)互聯(lián)網(wǎng)應(yīng)用的使用規(guī)模(萬(wàn)人)

由上可見(jiàn),互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)已經(jīng)相當(dāng)普及,各類應(yīng)用的用戶規(guī)模穩(wěn)步增長(zhǎng),而物聯(lián)網(wǎng)則是方興未艾,其發(fā)展前景極為廣闊。據(jù)相關(guān)研究預(yù)測(cè),到2020年,將有340億臺(tái)物聯(lián)網(wǎng)設(shè)備接入互聯(lián)網(wǎng),這意味著全球?qū)⑷司鶕碛?臺(tái)以上的物聯(lián)網(wǎng)設(shè)備[2]。

三大網(wǎng)絡(luò)已經(jīng)生成、采集了海量的人類行為互動(dòng)數(shù)據(jù),并且數(shù)據(jù)量還會(huì)持續(xù)高速增長(zhǎng)。近十年來(lái),社會(huì)科學(xué)界越來(lái)越關(guān)注這些數(shù)據(jù)的科學(xué)價(jià)值。在前互聯(lián)網(wǎng)時(shí)代,大規(guī)模的普通人群行為互動(dòng)數(shù)據(jù)難以獲取,社會(huì)科學(xué)實(shí)證研究常常面臨“巧婦難為無(wú)米之炊”的窘境。計(jì)算社會(huì)科學(xué)提出者大衛(wèi)·拉澤爾等學(xué)者敏銳察覺(jué)到,在網(wǎng)絡(luò)中積累的大量長(zhǎng)時(shí)間、連續(xù)性、大規(guī)模的人類行為與互動(dòng)數(shù)據(jù),具有前所未有的廣度、深度和尺度,認(rèn)為對(duì)這些數(shù)據(jù)的收集與分析,將為拓展、深化甚至革新對(duì)個(gè)體行為、群體交往、組織結(jié)構(gòu)乃至整個(gè)社會(huì)運(yùn)行規(guī)律的認(rèn)識(shí)開(kāi)辟一條新路徑[3]。

數(shù)據(jù)驅(qū)動(dòng)型知識(shí)發(fā)現(xiàn)是大數(shù)據(jù)時(shí)代計(jì)算社會(huì)科學(xué)的核心內(nèi)容之一,它把三大網(wǎng)絡(luò)中的人類行為互動(dòng)數(shù)據(jù)作為感知個(gè)人與社會(huì)的資源,致力于通過(guò)對(duì)數(shù)據(jù)洪流的分析與挖掘,發(fā)現(xiàn)隱藏在紛繁復(fù)雜的社會(huì)現(xiàn)象背后的人類行為特征與模式,進(jìn)而揭示人類行為與社會(huì)發(fā)展的某些規(guī)律。例如,邁克爾·尼爾森特別強(qiáng)調(diào)利用計(jì)算機(jī)從數(shù)據(jù)中挖掘出事物之間不曾被發(fā)現(xiàn)的聯(lián)系[4]。致力于計(jì)算社會(huì)科學(xué)與大數(shù)據(jù)研究的德國(guó)學(xué)者尤爾根·普費(fèi)弗則指出:“強(qiáng)大的計(jì)算資源加之海量的社交媒體數(shù)據(jù)集,讓結(jié)合機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、網(wǎng)絡(luò)分析及對(duì)于人口結(jié)構(gòu)與人類行為統(tǒng)計(jì)測(cè)量的研究數(shù)量以前所未有的規(guī)模增長(zhǎng)[5]?!?/p>

2 內(nèi)容與蹤跡:對(duì)數(shù)據(jù)處理技術(shù)的不同要求

三大網(wǎng)絡(luò)中生成、采集的人類行為互動(dòng)數(shù)據(jù)是典型的大數(shù)據(jù)。雖然目前大數(shù)據(jù)尚無(wú)嚴(yán)格統(tǒng)一的定義,但我們普遍認(rèn)為其具有“4V”特征——Volume(大量)、Velocity(高速)、Variety(多態(tài))、Value(有價(jià)值且價(jià)值密度低)。人類行為互動(dòng)數(shù)據(jù)不僅體量龐大、持續(xù)高速增漲,并且其種類、模態(tài)多種多樣(如文本、圖片、音頻、視頻、空間位置等等);此外,它對(duì)包括社會(huì)科學(xué)研究在內(nèi)的眾多領(lǐng)域具有很高的價(jià)值,同時(shí)相對(duì)于具體的研究和實(shí)踐任務(wù)而言,又顯著地呈現(xiàn)出價(jià)值密度低的特點(diǎn)。

大數(shù)據(jù)是規(guī)模巨大的數(shù)據(jù)集合,在存儲(chǔ)、管理、分析等方面大大超出了傳統(tǒng)計(jì)算機(jī)軟硬件工具能力范圍。我們必須借助新一代的數(shù)據(jù)處理技術(shù),如云計(jì)算、人工智能等,才能在社會(huì)科學(xué)研究中將大數(shù)據(jù)的價(jià)值發(fā)揮出來(lái)。

人類行為互動(dòng)數(shù)據(jù)可分為兩種主要類型:一是用戶生成內(nèi)容(簡(jiǎn)稱UGC),指由用戶原創(chuàng)的內(nèi)容(不包括轉(zhuǎn)發(fā)、復(fù)制的他人原創(chuàng)內(nèi)容);二是電子蹤跡,指三大網(wǎng)絡(luò)所記錄的包含時(shí)空變量的人類行為的動(dòng)態(tài)軌跡。例如,搜索日志記錄匯集了用戶的網(wǎng)絡(luò)搜索行為,對(duì)其進(jìn)行加工可形成搜索指數(shù);社交媒體用戶發(fā)布的信息內(nèi)容屬于UGC,而該微博的瀏覽量、點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)則是關(guān)注該內(nèi)容的用戶群體所留下的電子蹤跡數(shù)據(jù)。這些數(shù)據(jù)不僅記錄了用戶行為的時(shí)間,而且大多可以通過(guò)IP地址、ID、通訊基站、GPS等獲得其空間分布狀態(tài)信息。兩種數(shù)據(jù)的不同特點(diǎn)決定了其對(duì)數(shù)據(jù)處理技術(shù)的要求也有所不同。

UGC一般是文本、圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù),其分析處理需要借助人工智能技術(shù)。目前在社會(huì)科學(xué)研究中最常見(jiàn)的是基于自然語(yǔ)言理解技術(shù)的文本內(nèi)容分析,包括語(yǔ)義識(shí)別、主題提取、觀點(diǎn)聚類、情緒識(shí)別等。目前的自然語(yǔ)言理解技術(shù)對(duì)于文本數(shù)據(jù)的分析處理尚存在一定程度的模糊性,對(duì)圖片、音頻、視頻的分析處理更是差強(qiáng)人意。目前UGC數(shù)據(jù)的加工精度在很多時(shí)候還達(dá)不到對(duì)精確性要求較高的社會(huì)科學(xué)研究的要求,數(shù)據(jù)處理技術(shù)有待進(jìn)一步提升。

與UGC數(shù)據(jù)不同,電子蹤跡數(shù)據(jù)一般是結(jié)構(gòu)化/可結(jié)構(gòu)化、量化/可量化的數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)(包括支持分布式計(jì)算)相對(duì)成熟,數(shù)據(jù)的加工精度一般較高。例如,網(wǎng)絡(luò)搜索數(shù)據(jù)以用戶搜索日志為基礎(chǔ),通過(guò)對(duì)關(guān)鍵詞的統(tǒng)計(jì)分析,可以得出搜索規(guī)模、搜索時(shí)間、變化趨勢(shì)、地域分布等特征變量的值。這些都是可以結(jié)構(gòu)化表達(dá)的數(shù)據(jù),能夠方便地用于社會(huì)科學(xué)定量研究。例如政府利用搜索指數(shù)來(lái)分析公眾對(duì)政策、社會(huì)事件等的關(guān)注程度,旅游景區(qū)利用搜索指數(shù)來(lái)預(yù)測(cè)高峰期的游客數(shù)量等等。電子蹤跡數(shù)據(jù)的分析要比內(nèi)容分析容易得多,數(shù)據(jù)處理的精確性也高得多。

需要指出的是,很多人類行為互動(dòng)數(shù)據(jù)同時(shí)包含用戶生成內(nèi)容(UGC)和電子蹤跡兩種數(shù)據(jù),例如微博、微信、論壇等社交媒體數(shù)據(jù),其中既有原創(chuàng)者發(fā)布的內(nèi)容和參與者評(píng)論的內(nèi)容,也有用戶瀏覽、點(diǎn)贊、轉(zhuǎn)發(fā)等行為留下的電子蹤跡。對(duì)這類數(shù)據(jù),在條件許可的情況下,計(jì)算社會(huì)科學(xué)研究經(jīng)常會(huì)將對(duì)內(nèi)容與電子蹤跡兩種數(shù)據(jù)的分析融合在一起。目前計(jì)算社會(huì)科學(xué)研究者一般未將內(nèi)容(非結(jié)構(gòu)化數(shù)據(jù))和電子蹤跡(結(jié)構(gòu)化/可結(jié)構(gòu)化數(shù)據(jù))進(jìn)行明確區(qū)分。這種區(qū)分實(shí)際上是十分必要的,有助于研究者對(duì)數(shù)據(jù)處理的誤差作出正確判斷。

電子蹤跡大數(shù)據(jù)受倫理和法律限制較小。在人類行為互動(dòng)數(shù)據(jù)中,有一些內(nèi)容不能合法獲得并用于研究,而其中的電子蹤跡則在經(jīng)過(guò)技術(shù)處理之后可以成為社會(huì)科學(xué)研究的資料。例如智能手機(jī)的即時(shí)通信和網(wǎng)絡(luò)電子郵件,其通信內(nèi)容一般涉及用戶隱私,未經(jīng)授權(quán)不得使用,而獲得大規(guī)模用戶群體的授權(quán)幾乎是不可能的;不過(guò)其中的通信時(shí)間、通信雙方的空間位置、通信頻度等電子蹤跡數(shù)據(jù)經(jīng)過(guò)匿名、脫敏等處理,可以用于研究。這使得電子蹤跡數(shù)據(jù)在現(xiàn)階段受到數(shù)據(jù)驅(qū)動(dòng)型知識(shí)發(fā)現(xiàn)的高度重視。

3 價(jià)值與質(zhì)量:基于電子蹤跡大數(shù)據(jù)的知識(shí)發(fā)現(xiàn)

電子蹤跡數(shù)據(jù)記錄了規(guī)模龐大的普通人群的行為狀態(tài),成為認(rèn)識(shí)人和社會(huì)的全新知識(shí)來(lái)源。有學(xué)者認(rèn)為,電子蹤跡,互聯(lián)網(wǎng)搜索、標(biāo)上時(shí)間的文本、聲音、圖像,海量數(shù)據(jù)集,記錄了人們的決定和活動(dòng)。也許分析這些電子蹤跡,就會(huì)破解人類行為的秘密[6]。當(dāng)前,基于電子蹤跡大數(shù)據(jù)的知識(shí)發(fā)現(xiàn)已經(jīng)運(yùn)用于社會(huì)科學(xué)研究的諸多學(xué)科,如政治學(xué)、經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、傳播學(xué)等。

在政治學(xué)領(lǐng)域,鑒于社交媒體已經(jīng)成為各種政治勢(shì)力的角力場(chǎng),國(guó)外有學(xué)者試圖探究運(yùn)用推特電子蹤跡數(shù)據(jù)推知民意乃至預(yù)測(cè)大選結(jié)果的可行性[7]。

在社會(huì)學(xué)領(lǐng)域,電子蹤跡數(shù)據(jù)的社會(huì)內(nèi)涵是焦點(diǎn)問(wèn)題之一。例如,有學(xué)者探究了推特用戶賬戶擁有的粉絲數(shù)量與該賬戶關(guān)注的賬戶數(shù)對(duì)結(jié)合型與橋接型在線社會(huì)資本的影響。他們發(fā)現(xiàn)結(jié)合型社會(huì)資本與用戶帳戶的粉絲數(shù)量相關(guān),而橋接型社會(huì)資本則受其所關(guān)注賬戶數(shù)量的影響,但這種相關(guān)與影響并非絕對(duì),僅在某種程度上呈現(xiàn)相關(guān)性[8]。

在經(jīng)濟(jì)學(xué)領(lǐng)域,電子蹤跡數(shù)據(jù)所蘊(yùn)含的經(jīng)濟(jì)價(jià)值問(wèn)題頗受關(guān)注。有學(xué)者力圖探尋個(gè)人在社交媒體上的受歡迎程度可否轉(zhuǎn)化為現(xiàn)實(shí)的經(jīng)濟(jì)收益,如名人社交媒體賬戶粉絲數(shù)量的增減與其收入水平的浮動(dòng)是否存在相關(guān)性[9]。

在傳播學(xué)領(lǐng)域,國(guó)內(nèi)學(xué)者利用微博電子蹤跡數(shù)據(jù)來(lái)分析輿情傳播的空間分布、傳播速度、熱度;國(guó)外學(xué)者從信息流轉(zhuǎn)的角度闡釋推特電子蹤跡數(shù)據(jù),例如,有學(xué)者將推特轉(zhuǎn)發(fā)區(qū)分為信息型轉(zhuǎn)發(fā)與對(duì)話型轉(zhuǎn)發(fā),前者指僅轉(zhuǎn)發(fā)原信息,后者指在轉(zhuǎn)發(fā)的同時(shí)添加評(píng)論,并析出兩者出現(xiàn)的頻率[10]。

這些具有創(chuàng)新意義的探索還僅僅是開(kāi)始,電子蹤跡數(shù)據(jù)將逐漸凸顯巨大的社會(huì)科學(xué)價(jià)值。同時(shí),數(shù)據(jù)質(zhì)量也成為必須認(rèn)真審視的問(wèn)題。

社會(huì)科學(xué)研究對(duì)數(shù)據(jù)質(zhì)量最基本的要求是(定性意義上的)真實(shí)性和(定量意義上的)準(zhǔn)確性。大數(shù)據(jù)時(shí)代到來(lái)之時(shí),很多人忽視了對(duì)數(shù)據(jù)質(zhì)量的審慎考察,憑借簡(jiǎn)單的經(jīng)驗(yàn)甚至直覺(jué)就斷言大數(shù)據(jù)的真實(shí)性。2012年,IBM提出大數(shù)據(jù)的真實(shí)性(Veracity)特征,雖然在2013年又解釋為“追求大數(shù)據(jù)的真實(shí)性”,但已經(jīng)造成了廣泛的誤解,許多學(xué)者迄今還認(rèn)為這家著名的互聯(lián)網(wǎng)企業(yè)所表達(dá)的意思是大數(shù)據(jù)是真實(shí)的。維克托·邁爾-舍恩伯格認(rèn)為大數(shù)據(jù)記錄下來(lái)的是人們的平常狀態(tài),因此可以有效避免問(wèn)卷調(diào)查等傳統(tǒng)研究方法可能存在的偏見(jiàn)[11]。范·戴克甚至認(rèn)為,大規(guī)模數(shù)據(jù)集具有真實(shí)、客觀、準(zhǔn)確的特征,可提供能夠產(chǎn)生先前人們無(wú)法想象的深刻洞見(jiàn)的更高級(jí)形式的智能與知識(shí)[12]。依據(jù)上述觀點(diǎn),電子蹤跡數(shù)據(jù)作為大數(shù)據(jù)的一種,它當(dāng)然應(yīng)該是真實(shí)、自然、客觀、準(zhǔn)確的數(shù)據(jù)。

這類觀點(diǎn)有一個(gè)共同點(diǎn)——并未經(jīng)過(guò)深思明辨,就草率給出結(jié)論。大數(shù)據(jù)種類繁多,不同的數(shù)據(jù)有不同的本質(zhì)和特征,數(shù)據(jù)質(zhì)量也有很大差別,大數(shù)據(jù)是否真實(shí)、自然、客觀、準(zhǔn)確,決不可一概而論。認(rèn)真細(xì)致地考察各類人類行為互動(dòng)數(shù)據(jù)的質(zhì)量,對(duì)于將其正確運(yùn)用于社會(huì)科學(xué)研究是極為必要的。文章將以社會(huì)科學(xué)研究最常使用的電子蹤跡數(shù)據(jù)——網(wǎng)絡(luò)搜索數(shù)據(jù)為例進(jìn)行分析說(shuō)明。

4 大數(shù)據(jù)也會(huì)說(shuō)謊:信度存疑的網(wǎng)絡(luò)搜索數(shù)據(jù)

提供搜索引擎服務(wù)的各大互聯(lián)網(wǎng)公司積累了海量用戶搜索行為數(shù)據(jù),推出了基于搜索日志分析的應(yīng)用產(chǎn)品,如全球搜索市場(chǎng)份額第一的谷歌公司的谷歌趨勢(shì),中國(guó)搜索市場(chǎng)份額第一的百度公司的百度指數(shù)等。這些應(yīng)用產(chǎn)品通過(guò)對(duì)一段時(shí)間內(nèi)的關(guān)鍵詞搜尋量進(jìn)行統(tǒng)計(jì),了解用戶關(guān)心的事物、話題,并展現(xiàn)用戶行為的整體趨勢(shì)、地域分布、時(shí)間特征等電子蹤跡。

在很多人看來(lái),搜索數(shù)據(jù)理應(yīng)是最“不會(huì)說(shuō)謊的大數(shù)據(jù)”,因此不論是谷歌趨勢(shì)還是百度指數(shù),其可靠性必定是相當(dāng)高的。然而事實(shí)卻不能如人所愿,盛極一時(shí)的“谷歌流感趨勢(shì)”(Google Flu Trends, GFT),即是憑借用戶搜索行為的電子蹤跡來(lái)預(yù)測(cè)流感疫情,它以“大數(shù)據(jù)洞見(jiàn)的典范”步入舞臺(tái)中心,最終以“大數(shù)據(jù)缺陷的典范”黯然退場(chǎng)。計(jì)算社會(huì)科學(xué)的提出者大衛(wèi)·拉澤爾對(duì)谷歌流感趨勢(shì)的失敗原因進(jìn)行了分析,發(fā)現(xiàn)導(dǎo)致預(yù)測(cè)出現(xiàn)嚴(yán)重偏差的原因之一是谷歌出于商業(yè)目的,不斷地改變其搜索推薦算法,而很多用戶會(huì)參考谷歌的推薦來(lái)進(jìn)行搜索[13]。搜索推薦算法的變化影響了用戶的搜索行為,在某種程度上引導(dǎo)了數(shù)據(jù)的生成,進(jìn)而影響數(shù)據(jù)分析結(jié)果。谷歌目前無(wú)法克服這種引導(dǎo)性,因?yàn)樗阉魍扑]算法是依據(jù)廣告商的付費(fèi)和訴求來(lái)變化的,谷歌離不開(kāi)廣告收入,作為一家企業(yè),不能不把盈利放在首位。谷歌最終選擇了將GFT下線。2017年6月,歐盟委員會(huì)向谷歌開(kāi)出金額為24.2億歐元的天價(jià)罰單,同時(shí)給出的一份聲明稱,谷歌進(jìn)入購(gòu)物比價(jià)市場(chǎng)后,利用其在網(wǎng)上搜索領(lǐng)域的主導(dǎo)地位,操縱搜索結(jié)果,不公平地把客戶引向自己的購(gòu)物服務(wù),令規(guī)模較小的購(gòu)物搜索服務(wù)供應(yīng)商處于不利地位[14]。這一事件揭示了“大數(shù)據(jù)不會(huì)說(shuō)謊”本身就是在說(shuō)謊,因?yàn)樗阉鹘Y(jié)果是可以操縱的,谷歌能夠憑借技術(shù)手段按其偏好顯示搜索結(jié)果。

百度也存在對(duì)用戶搜索行為進(jìn)行引導(dǎo),對(duì)搜索結(jié)果進(jìn)行操縱的情況。2016年的“魏則西事件”,充分暴露出百度通過(guò)競(jìng)價(jià)排名對(duì)搜索結(jié)果進(jìn)行排序。百度指數(shù)的產(chǎn)品說(shuō)明中關(guān)于常見(jiàn)問(wèn)題有這樣兩則內(nèi)容:①您可以通過(guò)更有效地使用百度營(yíng)銷產(chǎn)品,及其他營(yíng)銷活動(dòng),提高您的品牌、產(chǎn)品在網(wǎng)民中的知名度和購(gòu)買需求,從而提高網(wǎng)民對(duì)您的品牌、產(chǎn)品的搜索指數(shù);②百度指數(shù)在防作弊(反作弊)方面做了大量工作,研究并建立了一整套相應(yīng)的防作弊(反作弊)技術(shù)體系,力求將作弊現(xiàn)象減少到最低限度。……為最大限度保證百度指數(shù)整體信息公平、公正,對(duì)于已經(jīng)有明確證據(jù)證明使用作弊手段來(lái)提高排名的關(guān)鍵詞,百度指數(shù)會(huì)對(duì)其數(shù)據(jù)進(jìn)行很大幅度的降權(quán)處理[15]。

以上內(nèi)容足以說(shuō)明,百度指數(shù)是可以通過(guò)“百度營(yíng)銷產(chǎn)品”來(lái)提升的。此外,用戶可能采用某些技術(shù)手段(如編寫(xiě)程序讓計(jì)算機(jī)自動(dòng)搜索,以生成電子蹤跡數(shù)據(jù))在前臺(tái)作弊,百度也能夠在后臺(tái)對(duì)數(shù)據(jù)進(jìn)行調(diào)控?;蛟S正因?yàn)榇耍俣戎笖?shù)在免責(zé)聲明中稱:“百度指數(shù)僅能作為您的參考資料,我們不對(duì)數(shù)據(jù)的準(zhǔn)確性、正確性、最新性及完整性做任何承諾和保證。因此,您在基于百度指數(shù)中的任何內(nèi)容作出任何決策之前,您應(yīng)該自行確認(rèn)所有相關(guān)信息的準(zhǔn)確性和完整性?!盵16]

綜上所述,網(wǎng)絡(luò)搜索數(shù)據(jù)并不一定是真實(shí)、自然、客觀、準(zhǔn)確的電子蹤跡,在數(shù)據(jù)生成過(guò)程中可能被引導(dǎo)、被操縱、被造假、被調(diào)控。此外,不同搜索引擎提供商的數(shù)據(jù)一般來(lái)說(shuō)存在差異。圖3和圖4是以“云計(jì)算”和“人工智能”為關(guān)鍵詞的百度指數(shù)和搜狗指數(shù)趨勢(shì),兩者存在數(shù)量上的差異是正常的(百度的用戶更多),但在整體趨勢(shì)上也存在明顯差異,就無(wú)法判斷誰(shuí)更準(zhǔn)確可靠了。在計(jì)算社會(huì)科學(xué)研究中,基于網(wǎng)絡(luò)搜索數(shù)據(jù)得出的結(jié)果具有重要參考價(jià)值,但要真正作出嚴(yán)謹(jǐn)可靠的科學(xué)結(jié)論,還必須借助其他研究方法進(jìn)行交叉論證。

圖3 2018年1月—2018年6月以“云計(jì)算”與“人工智能”為關(guān)鍵詞的百度搜索指數(shù)趨勢(shì)

圖4 2018年1月—2018年6月以“云計(jì)算”與“人工智能”為關(guān)鍵詞的搜狗搜索指數(shù)趨勢(shì)

5 虛擬與現(xiàn)實(shí):電子蹤跡大數(shù)據(jù)的兩重性

與網(wǎng)絡(luò)搜索數(shù)據(jù)一樣,其它種類的電子蹤跡數(shù)據(jù)也存在數(shù)據(jù)質(zhì)量問(wèn)題。例如電子商務(wù)、社交媒體、網(wǎng)絡(luò)約車平臺(tái)上生成的電子蹤跡數(shù)據(jù)等。

電子商務(wù)數(shù)據(jù)一直受到經(jīng)濟(jì)學(xué)、管理學(xué)研究的高度重視,在微觀和宏觀兩個(gè)層面都具有研究?jī)r(jià)值。在微觀層面,企業(yè)可以借助電子商務(wù)數(shù)據(jù)了解行業(yè)發(fā)展趨勢(shì)、競(jìng)爭(zhēng)品牌狀況、市場(chǎng)對(duì)產(chǎn)品的態(tài)度、用戶的消費(fèi)偏好與消費(fèi)習(xí)慣等等,從而將傳統(tǒng)的專家決策轉(zhuǎn)變?yōu)榛跀?shù)據(jù)分析的“慧眼決策”。在宏觀層面,電子商務(wù)數(shù)據(jù)可以用于分析經(jīng)濟(jì)運(yùn)行狀況,例如電子商務(wù)數(shù)據(jù)已經(jīng)成為CPI(消費(fèi)價(jià)格指數(shù))調(diào)查與預(yù)測(cè)的一種新數(shù)據(jù)源。它最突出的優(yōu)勢(shì)是時(shí)效性強(qiáng),在CPI預(yù)測(cè)中格外受青睞。

電子商務(wù)數(shù)據(jù)也是造假情況最為嚴(yán)重的數(shù)據(jù)。例如,淘寶作為中國(guó)最大電商交易平臺(tái),一直高度重視其數(shù)據(jù)的價(jià)值,但屢禁不止的造假行為大大損害了數(shù)據(jù)的信度。由于網(wǎng)店的瀏覽量、銷量和好評(píng)率等電子蹤跡數(shù)據(jù)是客戶作出購(gòu)買決策的重要參考,提高這些數(shù)據(jù)就可能提高銷量,所以不少商家采用刷單的方法造假。據(jù)報(bào)道,電商領(lǐng)域的現(xiàn)狀是“凡是你能想到有交易評(píng)價(jià)的線上平臺(tái)都存在刷單”。刷單已經(jīng)成為一個(gè)灰色行業(yè),為了讓刷出來(lái)的單看起來(lái)像真的,刷單公司還采取“空包快遞”等方法,生成完整的物流信息。阿里巴巴是一個(gè)以大數(shù)據(jù)為基底的公司,搜索、廣告等都是基于大數(shù)據(jù)的深度分析。大數(shù)據(jù)的基礎(chǔ)是豐富可靠的數(shù)據(jù),而刷單讓數(shù)據(jù)變得不可靠,阿里巴巴的大數(shù)據(jù)和分析基底也不同程度地被污染。馬云曾在內(nèi)部會(huì)議中將炒信定義為三大“毒瘤”之一,要求零容忍。為此,阿里巴巴成立了“炒信特戰(zhàn)隊(duì)”,專門清查平臺(tái)上的刷單、炒信行為:2015年,查處關(guān)停了2.9萬(wàn)家有嚴(yán)重造假行為的店鋪;2016年,一個(gè)月內(nèi)有22萬(wàn)多個(gè)賣家因?yàn)樯嫦铀问艿教幜P,其中有嚴(yán)重刷單行為的6 000多個(gè)賣家被封店。阿里在對(duì)虛假交易的防控、識(shí)別和處置上,花費(fèi)了大量人力、財(cái)力,投入數(shù)億元資金鞏固、升級(jí)整個(gè)防控體系。這種監(jiān)控、打擊力度不可謂不強(qiáng),但在利益的驅(qū)使下,刷單者“前赴后繼”,直至今日,“炒信特戰(zhàn)隊(duì)”與刷單商家的戰(zhàn)爭(zhēng)仍在繼續(xù)[17]。

互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)有“第四媒體”之稱,突破時(shí)空限制的強(qiáng)大傳播能力,使其公眾影響力日漸增強(qiáng)。在這種情況下,被認(rèn)為最有助于人們自由表達(dá)的社交媒體,也在一定程度上成為了出于某種目的的工具,數(shù)據(jù)的“自然發(fā)生性”也被大大削弱。這一狀況在政治領(lǐng)域表現(xiàn)得最為突出,隨著互聯(lián)網(wǎng)對(duì)政治活動(dòng)影響力的日益增強(qiáng),傳統(tǒng)的參與行為逐步為鼠標(biāo)點(diǎn)擊行為所替代,支持、反對(duì)的程度被認(rèn)為可由點(diǎn)擊、閱讀與轉(zhuǎn)發(fā)數(shù)來(lái)衡量[18]。由此,這些電子蹤跡數(shù)據(jù)日漸成為重要的政治資產(chǎn),這就無(wú)法避免出于政治目的的數(shù)據(jù)操縱。《衛(wèi)報(bào)》曾曝光美國(guó)軍方授權(quán)一家公司開(kāi)發(fā)一款能讓其悄無(wú)聲息地操控社交媒體的軟件,該款軟件可讓一名軍方人員操控10個(gè)偽裝成各國(guó)人士的社交媒體賬號(hào)[19]。韓國(guó)國(guó)家情報(bào)院也承認(rèn)曾組建“網(wǎng)絡(luò)水軍”,幫助樸槿惠贏得選舉。這些在專業(yè)機(jī)構(gòu)的精心策劃下生成的社交媒體電子蹤跡,顯然不會(huì)是“自然發(fā)生性”數(shù)據(jù)。

除了政治價(jià)值之外,有些社交媒體上生成的電子蹤跡還具有商業(yè)價(jià)值,企業(yè)也可能雇傭“商業(yè)水軍”來(lái)達(dá)到營(yíng)銷目的。已有學(xué)者指出,大數(shù)據(jù)將政府與企業(yè)決策過(guò)程中的公眾角色不斷弱化,取而代之的則是數(shù)據(jù)化的“幻影公眾”[20]。因此,社交媒體數(shù)據(jù)中既有真實(shí)、自然的行為蹤跡,也暗藏著權(quán)力斗爭(zhēng)、商業(yè)利益等方面的較量。其他種類的電子蹤跡數(shù)據(jù)也大多存在類似問(wèn)題,如網(wǎng)約車平臺(tái)一度宣稱可以提供真實(shí)可靠的城市出行數(shù)據(jù),但很快就出現(xiàn)了大量為騙取平臺(tái)補(bǔ)貼的刷單現(xiàn)象。

6 結(jié)語(yǔ)

電子蹤跡數(shù)據(jù)的質(zhì)量取決于網(wǎng)絡(luò)信息空間是否真實(shí)準(zhǔn)確地反映了現(xiàn)實(shí)社會(huì)空間的狀況。與現(xiàn)實(shí)世界對(duì)應(yīng),互聯(lián)網(wǎng)被稱為“虛擬世界”。有觀點(diǎn)認(rèn)為,“虛擬世界”既獨(dú)立于現(xiàn)實(shí)世界,又與現(xiàn)實(shí)世界有聯(lián)系,其實(shí)這還沒(méi)有闡明其本質(zhì)。網(wǎng)絡(luò)空間是沒(méi)有實(shí)物的信息空間,它一方面記錄了現(xiàn)實(shí)社會(huì)空間的某些(而不是全部)狀態(tài),另一方面作為一種新型經(jīng)濟(jì)模式和新型社會(huì)文化生活的平臺(tái),它也是現(xiàn)實(shí)社會(huì)空間的組成部分。前者可以稱為記錄空間,后者則是新型的行動(dòng)空間。例如,個(gè)人行為的時(shí)空軌跡被物聯(lián)網(wǎng)設(shè)備記錄,屬于現(xiàn)實(shí)社會(huì)空間的狀態(tài)被記錄于網(wǎng)絡(luò)信息空間;而個(gè)人在社交媒體上與他人討論問(wèn)題,則是利用新的平臺(tái)交流信息、知識(shí)、思想和情感,本質(zhì)上仍然屬于一種現(xiàn)實(shí)社會(huì)活動(dòng)。

作為現(xiàn)實(shí)社會(huì)空間的組成部分,網(wǎng)絡(luò)信息空間具有工具性特征,亦即它可以被用作達(dá)到某種現(xiàn)實(shí)目的的工具。三大網(wǎng)絡(luò)的日益普及,以及人們對(duì)網(wǎng)絡(luò)數(shù)據(jù)價(jià)值的日益重視,使利用數(shù)據(jù)來(lái)達(dá)到政治、經(jīng)濟(jì)、社會(huì)、心理等方面的目的成為可能。因此,“虛擬世界”的工具性特征越來(lái)越強(qiáng),越來(lái)越多地與現(xiàn)實(shí)世界的利益產(chǎn)生關(guān)聯(lián)。

在社會(huì)科學(xué)研究所采用的眾多電子蹤跡數(shù)據(jù)中,有些原始數(shù)據(jù)質(zhì)量很高,如物聯(lián)網(wǎng)中用攝像頭采集的道路交通流量數(shù)據(jù);有些數(shù)據(jù)則充滿虛假錯(cuò)誤信息,尤其是互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)中通過(guò)人機(jī)互動(dòng)產(chǎn)生的數(shù)據(jù)。因此,社會(huì)科學(xué)研究者在使用這些數(shù)據(jù)時(shí),一定要對(duì)數(shù)據(jù)生成、采集、存儲(chǔ)、分析、挖掘的方式與過(guò)程有全面的了解,并在此基礎(chǔ)上準(zhǔn)確辨識(shí)各種數(shù)據(jù)的本質(zhì)與特征;了解復(fù)雜的計(jì)算機(jī)算法,審慎考量數(shù)據(jù)處理的精度。只有這樣,才能在研究過(guò)程中避開(kāi)陷阱,更好地把新數(shù)據(jù)、大數(shù)據(jù)的價(jià)值發(fā)揮出來(lái)[21]。從某種意義上說(shuō),對(duì)數(shù)據(jù)質(zhì)量的把控將決定計(jì)算社會(huì)科學(xué)的未來(lái)。

猜你喜歡
蹤跡社會(huì)科學(xué)百度
母獅子的蹤跡
《云南社會(huì)科學(xué)》征稿征訂啟事
《河北農(nóng)業(yè)大學(xué)(社會(huì)科學(xué)版)》2021年喜報(bào)
為什么獨(dú)角仙總是愛(ài)打架
森林里的“彩色蹤跡”
Robust adaptive UKF based on SVR for inertial based integrated navigation
百度年度熱搜榜
老廣州:“水城”的蹤跡及風(fēng)情
數(shù)學(xué)在社會(huì)科學(xué)中的應(yīng)用
百度遭投行下調(diào)評(píng)級(jí)
昌都县| 桂平市| 女性| 三江| 武义县| 五原县| 穆棱市| 永平县| 江西省| 出国| 余姚市| 光山县| 平塘县| 视频| 建昌县| 利辛县| 淅川县| 滨州市| 华蓥市| 剑阁县| 大竹县| 桐梓县| 曲水县| 永顺县| 宜阳县| 乐清市| 宣武区| 扎兰屯市| 额敏县| 剑川县| 射洪县| 靖安县| 桃园市| 南漳县| 甘肃省| 白山市| 汕尾市| 九龙坡区| 双峰县| 博客| 景谷|