陳 崢
(1.湖北開放大學 武漢 430074; 2.武漢大學社會學院 武漢 430072)
隨著互聯(lián)網(wǎng)時代的到來,人類的生產(chǎn)、生活等行為活動越來越網(wǎng)絡化,互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)上每時每刻都在生成相關的數(shù)據(jù)(指存在于計算機系統(tǒng)中的信息資料),社會科學家很快就認識到了這些數(shù)據(jù)的價值。2009年,大衛(wèi)·拉澤爾等15位學者撰文指出,當前被廣泛使用的電子郵件、移動通信、信用卡、電子購物清單、網(wǎng)絡診療記錄、社交軟件等已經(jīng)為我們積累了大量長時間、連續(xù)性、大規(guī)模的人類行為與互動數(shù)據(jù)?;谶@種前所未有的廣度、深度和尺度的數(shù)據(jù)收集與分析,將為拓展、深化甚至革新對個體行為、群體交往、組織結構乃至整個社會運行規(guī)律的認識開辟一條新路徑[1]。
互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)中的信息內容可分為專業(yè)生產(chǎn)內容(PGC,Professional Generated Content)和用戶生成內容(UGC,User Generated Content)。Web2.0時代的信息交互技術,使互聯(lián)網(wǎng)用戶既是信息的受眾,也能方便地成為信息的生產(chǎn)者、發(fā)布者與傳播者。每一個用戶不僅可以在博客、微博、微信、論壇/BBS、分享網(wǎng)絡、好友社交網(wǎng)絡等平臺上生成自己的內容,也可以對其他用戶發(fā)布的內容進行點贊、評論、轉發(fā)。由此,互聯(lián)網(wǎng)上幾乎時刻都在產(chǎn)生新的用戶生成內容,形成來源復雜、形態(tài)多樣、規(guī)模龐大且持續(xù)高速增長的UGC大數(shù)據(jù)。早在2010年,UGC即已占據(jù)整個在線內容的50.7%[2]。
UGC大數(shù)據(jù)的產(chǎn)生和積累令社會科學家極為振奮,因為這種大規(guī)模的個人行為互動數(shù)據(jù)是前互聯(lián)網(wǎng)時代難以獲取甚至無法獲取的研究資料。以往,專業(yè)生產(chǎn)內容相對容易獲得,但社會科學研究最重要的對象是蕓蕓眾生,研究者必須了解普通人的思想觀念、行為傾向、情感心理等方面的狀態(tài)。為了達到這一目的,社會科學研究者一直在探索和完善社會調查、社會測量的方法。然而長期以來,社會科學研究仍只能以觀察、訪談、問卷調查等方法作為獲取普通人信息的主要手段。這些方法存在諸多不足,例如實施較為困難、成本往往較高,因而導致獲取的數(shù)據(jù)一般規(guī)模較小,并且時效性差。正因如此,來源于廣大群眾的UGC大數(shù)據(jù)成為計算社會科學關注的新型資料,社會科學各領域學者紛紛嘗試運用UGC大數(shù)據(jù)發(fā)現(xiàn)知識、探索規(guī)律。
將任何數(shù)據(jù)運用于研究都必須先考察其質量。在社會科學研究意義上,衡量數(shù)據(jù)質量的首要標準,就是看它們是否真實、準確地反映了社會事實(與計算機科學意義上的數(shù)據(jù)質量有所不同)。截至目前,基于UGC大數(shù)據(jù)的社會科學研究已有不少,但其數(shù)據(jù)質量問題似乎并未得到足夠的重視,至今少有人進行細致深入的研究。但是,UGC大數(shù)據(jù)是用戶的行為、心理、觀念在網(wǎng)絡上的完美映射嗎?顯然,這個問題對能否得到正確的研究結論具有決定性的影響。下文將就這一重要問題展開探討。
傳統(tǒng)的數(shù)據(jù)資料獲取方法存在固有缺陷,對社會科學實證研究能力形成嚴重制約。長期以來,社會科學家都在尋找克服缺陷的辦法。正因如此,當包括UGC在內的網(wǎng)絡大數(shù)據(jù)出現(xiàn)后,很多學者首先是將其與傳統(tǒng)數(shù)據(jù)進行比較,進而發(fā)現(xiàn)它避免了傳統(tǒng)數(shù)據(jù)的一些缺陷,這種優(yōu)勢主要表現(xiàn)在樣本量大、時效性強、無研究者介入干擾、對象的無反應性。UGC大數(shù)據(jù)的這四個特點,正是計算社會科學對其極感興趣的最重要原因。但是,由此認為UGC大數(shù)據(jù)一定能夠真實、客觀、準確地反映社會事實與人們的行為、思想觀念和心理狀態(tài),能夠完美地適應各種社會科學研究的需要,卻是過于輕率了。這是因為,克服了傳統(tǒng)數(shù)據(jù)的局限并不意味著不會有新的局限。排除了主試方干擾、受試方干擾,并不足以保證生成的就一定是真實的、自然狀態(tài)的數(shù)據(jù)。
互聯(lián)網(wǎng)的信息生態(tài)是極為復雜的,UGC記錄了海量的人類行為與互動,但其中有大量既非真實亦非自然的內容。事實上,大量虛假、錯誤、片面、未經(jīng)證實、相互矛盾的信息每時每刻都在生成,UGC的實際狀態(tài)是過載、無序、優(yōu)劣混雜、追溯困難,在數(shù)據(jù)質量上呈現(xiàn)極度的不均衡性。對于對精確性要求較高的社會科學研究來說,UGC大數(shù)據(jù)的總體數(shù)據(jù)質量,遠未達到可以放心使用的程度。以下從主體多元化、媒介市場化與政治化及其他因素對此展開分析。
UGC大數(shù)據(jù)源自人類行為的網(wǎng)絡化,互聯(lián)網(wǎng)規(guī)模龐大的用戶群體在人格特質、文化素養(yǎng)、知識結構、心理狀態(tài)等諸多方面的異質性,決定了其內容生產(chǎn)動機的千差萬別和內容生產(chǎn)能力的巨大差距。同時,UGC數(shù)據(jù)生產(chǎn)者與PGC數(shù)據(jù)生產(chǎn)者不同,一般既無須對質量負任何責任,也無須承擔因質量低劣而引起的后果,這決定了很多用戶內容生成的隨意性很強。用戶的異質性與無責任性一方面使UGC的內容包羅萬象,另一方面也必然導致其質量良莠不齊。即便是以知識分享為旗幟,以創(chuàng)建人類歷史上規(guī)模最大的百科全書為口號的維基百科以及百度百科等網(wǎng)絡平臺,其很多詞條內容的質量也令人不敢恭維。例如,安德卡分析了2010年1月6日的2 958 303篇維基百科的快照,發(fā)現(xiàn)至少有8.52%的文章存在標記錯誤,其中以引用標注出現(xiàn)的錯誤為最多,很多文章被注明了引用卻實際上沒有任何引用來源或參考[3]。這還只是主要通過機器算法檢測出來的錯誤,如果請具有領域知識的專家來檢驗詞條,會發(fā)現(xiàn)錯誤更多。互聯(lián)網(wǎng)上每時每刻都有錯誤、虛假、片面的信息生成為數(shù)據(jù),并且由于互聯(lián)網(wǎng)具有突破時空限制的強大傳播能力,這些信息可能會有極廣的傳播范圍和極快的傳播速度。例如,從百科獲取知識信息的用戶,有可能繼續(xù)在互聯(lián)網(wǎng)分享一些錯誤信息,或依據(jù)其生成新的內容,這意味著錯誤信息量還可能持續(xù)增加。換言之,錯誤的信息內容一經(jīng)生成,就會不斷擴散,很可能呈覆水難收之勢。
除了錯誤、虛假、片面的信息之外,UGC還是謠言的淵藪?;ヂ?lián)網(wǎng)的虛擬性與隱匿性,固然有助于用戶的自然表達,且可為用戶的傳播活動提供安全保障,但也被造謠者當作保護傘。一直以來,社交媒介平臺上的各種謠言泛濫成災。例如,新浪微博曾被冠以“史上最佳謠言機器”的“美名”[4]。據(jù)中山大學發(fā)布的《2016微信年度謠言分析報告》,2016年微信中傳播最為廣泛的五大熱門謠言,閱讀量均超過2 000萬次,并被多個公眾號轉發(fā)[5]。一些謠言被缺乏甄別能力的用戶轉發(fā)擴散,在龐大的網(wǎng)絡空間中難以被及時堵截和消除。并且,一些已經(jīng)由權威機構辟謠過的謠言,經(jīng)過一段時期后又死灰復燃,其內容在互聯(lián)網(wǎng)上反復生成。所謂“造謠動動嘴,辟謠跑斷腿”“辟謠的腳步追不上造謠的翅膀”,即是對這種亂象的生動描述[6]。
社交媒介的興起催生了“后真相時代”?!昂笳嫦唷敝浮霸V諸情感及個人信念,較客觀事實更能影響民意”,該詞入選2016年牛津詞典年度詞匯[7]。羅什·沃索吉等人的研究展示了“后真相時代”的表征,他們力圖探究推特平臺中虛假與真實新聞傳播趨勢的異同,為此收集、分析了從2006年推特創(chuàng)立之初至2017年,由300萬用戶發(fā)布且被瀏覽、轉發(fā)450萬次的12.6萬條新聞。結果顯示,虛假新聞無論是在傳播廣度、深度還是速度上均顯著優(yōu)于真實新聞。為保證結論的可靠性,他們先運用社交媒介機器人偵測算法將自動化的社交媒介賬戶進行識別并移除,而后再將這些機器賬戶產(chǎn)生的流量加入分析進程,發(fā)現(xiàn)機器賬戶散布虛假與真實新聞的速率一致,表明該結論依然成立。由此,他們強調,民眾的確更喜歡傳播虛假新聞[8]。此外,本杰明·多爾、默罕默德·法茲與托比亞斯·弗雷德里希的研究亦佐證了虛假信息傳播能力之強大。他們通過在代表社交網(wǎng)絡的拓撲結構與若干傳統(tǒng)的網(wǎng)絡拓撲結構的曲線圖上,分別模擬一個自然的謠言傳播過程,發(fā)現(xiàn)謠言在前者中的傳播速度遠快于后者。例如在推特中,一條始于一個隨機節(jié)點的謠言僅經(jīng)8個回合的傳播便波及4 500萬名用戶,“速度是驚人的”[9]。
由上可見,信息生產(chǎn)與傳播主體的極端多元化及其異質性與無責任性,導致UGC內容真?zhèn)位祀s,整體質量難以保證。
UGC創(chuàng)造了有利可圖的媒介市場,其商業(yè)價值已被充分認識和利用。特里·多爾蒂等指出,互動型媒介環(huán)境為將現(xiàn)今多元化的媒介市場變現(xiàn)提供可能性,這種可能性是通過提供能夠讓普通受眾的聲音在信息與廣告的漩渦中凸顯的方式來實現(xiàn)的。在互聯(lián)網(wǎng)世界中,這種有利可圖的媒介市場愈發(fā)由UGC而非發(fā)行商所驅動。早在2007年,這種新興市場即吸引了6 900萬用戶,并且產(chǎn)生了4.5億美元的廣告收入[10]。伴隨UGC大數(shù)據(jù)的商業(yè)價值而來的,是網(wǎng)絡媒介的市場化現(xiàn)象。各種互動式平臺上廣泛存在受經(jīng)濟利益驅使的故意造假行為,大量的商業(yè)水軍在網(wǎng)絡上興風作浪。例如,近年來,影視劇口碑和點擊量倒掛的情況屢見不鮮。有些劇作觀眾評價較高,業(yè)內人士也予以肯定,但收視率和網(wǎng)絡平臺點擊量慘淡;相反,有些劇集格調較低,內容拖沓冗長,觀眾普遍給予差評,但點擊量卻節(jié)節(jié)攀升[11]。這種現(xiàn)象的背后隱藏著一條完整的流量造假產(chǎn)業(yè)鏈。影視劇播放量的攀升會讓其所屬制片公司名利雙收;視頻網(wǎng)站也會因為劇作播放量大、關注度高,贏得更多與其他制片公司合作的機會,并吸引更多的廣告贊助商。故此,競相刷流量成為影視劇圈內慣例,流量公司亦大行其道[11]。這些專門刷流量的公司會提供諸如“騰訊5元1萬點擊量”之類的服務[12]。低廉的價格造就了驚人的假流量,如《楚喬傳》2017年內的播放量竟被刷到457.9億,被調侃“全球人口不足一部劇點擊量”[12]。這種通過購買而得的點擊量實際上是對用戶觀看行為的偽造。再如,中國最大的電商平臺淘寶活躍著一批“職業(yè)差評師”,他們通過購買商品、收貨之后故意給賣家差評的方式,敲詐勒索賣家。某“差評師”的群里甚至喊出“十條差評擼垮一個店”[13]的口號。將用戶評價用作牟利工具,這種行為不僅誤導了消費者,而且污染了數(shù)據(jù)。這些數(shù)據(jù)不是互聯(lián)網(wǎng)用戶真實行為的記錄,而是出于利益驅動進行造假的產(chǎn)物,對研究者來說也無疑是陷阱。但發(fā)現(xiàn)這些假數(shù)據(jù),并在研究中予以徹底剔除,往往是相當困難的。
作為一種傳播能力強大的新媒介,互聯(lián)網(wǎng)與傳統(tǒng)媒介一樣存在媒介政治化現(xiàn)象?;ヂ?lián)網(wǎng)的發(fā)展讓公民參與社會政治生活的模式產(chǎn)生了變化,相較于以往在社會政治生活中較為被動的地位,當今“任何人可以隨時在公開的站點上發(fā)表自己對有關事務的意見和建議”,公民政治參與的渠道愈發(fā)暢通[14]69。然而,政治參與渠道的暢通也為偽造與誘導民意提供了機會,樸槿惠組建網(wǎng)絡水軍、俄羅斯被疑干預美國大選兩起事件,都堪稱典型案例。
據(jù)報道,韓國國家情報院在一份報告中承認,曾在選舉前組建了30組“網(wǎng)絡水軍”,成員包括國家情報院官員和來自民間的網(wǎng)絡高手,專門負責發(fā)帖實施“心理戰(zhàn)”,以幫助樸槿惠贏得選舉。2012年1月1日至12月19日,“網(wǎng)絡水軍”利用716個推特賬戶,通過發(fā)帖、回帖、分享等方式生成帖子數(shù)量達到27萬多條。這些人在網(wǎng)絡上發(fā)帖,專門負責抹黑樸槿惠的競選對手。文在寅就是受害者之一,他最終以48.02%比51.55%的微弱劣勢敗北[15]。
至今仍處在爭議漩渦之中的俄羅斯干預美國大選事件更為錯綜復雜。2016年6月始,多家美國媒體相繼爆料稱,俄羅斯在網(wǎng)絡上運用多種手段支持特朗普。2016年7月,在對一家名為“互聯(lián)網(wǎng)研究機構”的神秘的俄羅斯在線宣傳組織進行長期追蹤之后,《紐約客》作者阿德里安·陳撰文指出:“為造成草根運動方興未艾之假象,該機構在各社交媒介平臺中運營大量馬甲賬號……從去年夏天到年末,我發(fā)現(xiàn)該機構名下的一些推特賬號已然開始置頂右翼新聞媒介,并將自己描述成愈發(fā)喜愛特朗普的保守派選民……有理由相信,如此支持特朗普的行為,是該機構力圖通過協(xié)助特朗普問鼎白宮,達成攪亂美國社會之目的的嘗試。”[16]除涉嫌利用虛假社交媒介賬號為特朗普造勢之外,俄羅斯還被指責散布虛假的、經(jīng)宣傳手法修飾的新聞?!度A盛頓郵報》2017年1月5日的報道顯示,時任美國國家情報總監(jiān)的詹姆斯·克拉珀當日在向國會作證時強調“俄羅斯炮制假新聞并將之發(fā)布于社交媒介,對此我們不應該忽視”。同時,希拉里·克林頓的競選伙伴參議員蒂姆·凱恩表示他是一些假新聞的對象,盡管主流媒介均未采信這些新聞,但“其中一條新聞被分享了80萬次”[17]。雖然上述事件至今仍未被坐實,并且這些手段在多大程度上影響了選民的投票意向,其與特朗普問鼎白宮是否具有相關性也尚未有定論,但具有諷刺意味的是,新聞聚合網(wǎng)站Buzzfeed強調“借助媒介進行宣傳攻勢絕非全新的策略,也非局限于俄羅斯,包括美國在內的若干國家,早已運用這一策略企圖操控他國民意”[18]。
以上案例表明,某些人會出于政治目的而借用普通用戶的身份偽造大量的UGC數(shù)據(jù);借助于互聯(lián)網(wǎng),這種偽造還可能是跨國界的。某些國家已經(jīng)將互聯(lián)網(wǎng)作為插手他國政局的重要工具,當前,在出于政治目的的暗地操縱下,互聯(lián)網(wǎng)上虛假民意的聲音越來越大,與網(wǎng)民的自然表達混在一起,真?zhèn)坞y辨[19]。
除了用戶因素、媒介市場化因素、媒介政治化因素外,還有一些因素也會影響UGC的數(shù)據(jù)質量,例如用戶線上與線下的不一致性、垃圾數(shù)據(jù)問題等。
用戶是以獨立的“隱形人”身份在虛擬空間中生產(chǎn)內容,這既可能讓其不受現(xiàn)實世界的道德與法律規(guī)范的制約,從而放縱自己的行為[14]70,也能較容易地將自身形象“完美化”。很多人在虛擬世界里的言論、行為與其在現(xiàn)實世界中的言論、行為存在不同程度的差異,有些人的差異還很大。一個靦腆的宅男可能在網(wǎng)上是兇悍的“暴民”,文體明星則一般是雇用專人打理其社交媒介賬號,在網(wǎng)絡上展現(xiàn)的往往是他們或其公關策劃公司認為“應該展現(xiàn)的形象”,互聯(lián)網(wǎng)記錄的顯然不是他們的平常狀態(tài)。UGC中還包含著大量的垃圾數(shù)據(jù),如惡意灌水等行為產(chǎn)生的數(shù)據(jù)。這些垃圾數(shù)據(jù)一般體量較大,對話題提取、意見提取等研究無疑會構成不同程度的干擾,有些情況下甚至會導致研究失敗。正如奈斯比特所言:“失去控制和無組織的信息在信息社會并不構成資源,相反,它會成為信息工作者的敵人。”[20]
鑒于UGC數(shù)據(jù)質量的良莠不齊,憑借檢測識別技術提高數(shù)據(jù)質量就顯得尤為重要。UGC大數(shù)據(jù)包括文本、圖片、音頻、視頻等多種類型,目前用于社會科學研究的主要是文本型數(shù)據(jù)。當前的內容檢測識別方式主要有人工檢測、自動測量兩類,前者即人工抽樣檢測,后者包括基于統(tǒng)計的自動檢測與基于機器學習的自動檢測。然而,各種檢測識別技術都是針對文本型數(shù)據(jù)且皆有其短板,尚無力應對互聯(lián)網(wǎng)信息生態(tài)的復雜性,亦難以適應UGC大數(shù)據(jù)的多態(tài)性、動態(tài)性特點;對圖片、音頻、視頻等數(shù)據(jù)進行檢測識別的技術難度更大,這些數(shù)據(jù)在社會科學研究中的價值發(fā)揮還很有限。下文將就基于人工研判的識別、基于統(tǒng)計的自動測量、基于機器學習的自動檢測技術等三個方面的應用與局限性展開分析。
3.1.1 標志列表匹配
虛假錯誤信息自有其信息源,一些域名即以散布假消息為人熟知。由此,為提醒互聯(lián)網(wǎng)用戶信息源的可靠性,相關研究人員開發(fā)了若干標志列表,將慣常發(fā)布錯誤或片面信息的域名做出標記[21]。比如,數(shù)據(jù)服務平臺卡哥(Kaggle)中名為“關于假新聞的真相”的數(shù)據(jù)集。該數(shù)據(jù)集包括通過webhose.io的應用程序接口爬取的244個網(wǎng)站的元數(shù)據(jù),并且還在持續(xù)擴大之中。同時,Kaggle專門開發(fā)了名為“BS Detector”的網(wǎng)絡瀏覽器插件,安裝此插件的用戶點擊進入上述列表中的網(wǎng)站時,即會得到“可疑信息來源”的提示[22]。此外,名為“開源”(open sources)的數(shù)據(jù)服務平臺中包含一個由相關領域專家精挑細選的1 001個域名的數(shù)據(jù)集[23]。這種通過標志列表匹配的方法有很明顯的局限性,此種方式并不能甄別某篇文章內容的真?zhèn)?,而是基于一個假設,即所有來自可疑信息源的信息皆是可疑的,但事實上社交媒體用戶發(fā)布信息的真實性并不必然與特定網(wǎng)站相關聯(lián)。
3.1.2 事實核查網(wǎng)站
事實核查網(wǎng)站是致力于識別在網(wǎng)絡上傳播的虛假信息及騙局的網(wǎng)站。這些網(wǎng)站會雇用職業(yè)記者、志愿者去核查用戶在網(wǎng)頁與社交媒體中分享的文章內容的真實性,尤其會關注那些熱點文章[24]。一旦文章內容的真?zhèn)蔚玫酱_認,網(wǎng)站會公布其發(fā)現(xiàn)以及與之相關聯(lián)的信息,比如文章的網(wǎng)址等。根據(jù)杜克記者實驗室的統(tǒng)計,截至2019年10月,其收錄的活躍的事實核查網(wǎng)站已達210家[25]。較有代表性的事實核查網(wǎng)站如PolitiFact.com、HoaxSlayer.com等。前者主要關注美國政治新聞,該網(wǎng)站的員工會檢視國會議員、白宮職員、游說團體與利益集團的言論,并在“真假度量儀”(Truth-O-Meter)分級為真實、大部分真實、一半真實、大部分錯誤、謊言。后者旨在協(xié)助用戶識破各種網(wǎng)絡騙局,并為他們提供網(wǎng)絡安全知識[26]。此外,法國新聞社于2018年組建了面向外部的國際化的事實核查團隊,與其他國家、地區(qū)的核查者、編輯展開合作,并將發(fā)現(xiàn)公之于眾,目前此合作項目已遍及20余個國家和地區(qū)[27]。
雖然事實核查網(wǎng)站的準確度很高,但面對互聯(lián)網(wǎng)高速增長的海量信息,靠人工調查與研判,只能是面向一些特定類別的、相對重要的信息,無法對海量的優(yōu)劣混雜的UGC大數(shù)據(jù)進行較為全面的清查。
基于統(tǒng)計的自動測量是對文本進行統(tǒng)計特征抽取,通過回歸分析、機器學習等技術手段對數(shù)據(jù)質量進行評測。在通過特定的算法進行識別后,可以過濾掉劣質數(shù)據(jù),但統(tǒng)計算法能夠達到的識別精度往往不盡如人意。常見的算法有信息源評估、聲譽評估、用戶反饋評價等。信息源評估是根據(jù)生產(chǎn)者的社會身份來判斷其所提供內容的質量,如“.gov”表示政府組織,“.edu”表示學校,“.com”表示企業(yè)等,它假定社會身份越有權威性的用戶提供的內容質量越高。聲譽評估是根據(jù)個人在網(wǎng)絡的知名度、美譽度來判斷其所提供內容的質量,它假定越有聲望的用戶生產(chǎn)的內容越具有真實性。用戶反饋評價是基于互聯(lián)網(wǎng)眾籌模式的測評,它假定用戶評價越高的內容質量越高。顯然,這些假定都只有概率意義上的正確性,基于這些假定設計的算法雖然有助于數(shù)據(jù)質量的評測和提高,但顯然都存在缺陷,無法起到根本性的作用。例如用戶反饋評價在有些時候是失效的,因為測評者的主觀性及隨意性會影響測評效果,并且用戶好評也可能是水軍刷出來的。
在社會科學研究中,研究者必然會面對從不同數(shù)據(jù)源獲取的不一致甚至矛盾對立的數(shù)據(jù),絕大多數(shù)情況下都是通過設計一定的算法對數(shù)據(jù)進行診斷,去偽存真。這種基于統(tǒng)計方法的檢測識別技術在某些時候是有效的。但必須看到,它形成正確判斷的前提是真實信息的量大于錯誤信息的量;對于運用加權算法的統(tǒng)計分析而言,權威性高的數(shù)據(jù)源一般不能出錯。然而在很多情況下,這兩點其實是難以保證的。
3.3.1 基于在線社會網(wǎng)絡分析的識別方式
隨著社交媒體平臺成為虛假信息的溫床,有學者開始運用社交媒體數(shù)據(jù)以在線社會網(wǎng)絡分析的方式識別可疑用戶。有研究團隊使用推特數(shù)據(jù)進行了相應嘗試。他們基于一個標志列表,該表包含常發(fā)布虛假信息的域名,并通過推特應用程序接口獲取兩類數(shù)據(jù):一是包含標志列表中網(wǎng)址的推文,二是不包含相應網(wǎng)址的推文。對于后者,他們按照時間順序以“一小時會話”為單位,將這些推文分組并使用基于會話的模型對其依次進行處理。之后,每一段會話會被“銳推”(即推文轉發(fā))可視化工具Retweet Graph Generator分析,每一個“銳推”圖形G=(V, E)包括節(jié)點u,v(u,v∈V),描述了用戶之間的聯(lián)結與網(wǎng)絡邊緣((u, v)∈E),且表明了用戶u與用戶v之間由推文轉發(fā)產(chǎn)生的互動。然后研究團隊使用基于德格魯特模型的用戶概率模型計算用戶的虛假指數(shù),即某用戶發(fā)布虛假信息的可能性。德格魯特模型為確定某特定團體能否就某一問題達成共識提供了簡單的方案。在此模型中,假設每個個體通過將自己與朋友的見解進行中和的方式形成自己的最終意見[28]?;诖?,每位用戶ui會被指派一個虛假指數(shù)的初始值Pi(0)=0。然后,假定A為“銳推”圖形G的鄰接矩陣,若用戶u轉發(fā)了用戶v的推文,則A(u,v)=1;研究團隊通過調轉A的邊緣創(chuàng)造一個躍遷矩陣T,并使A值為1,意即每位用戶轉發(fā)若干用戶的推文,后者中每位用戶對前者的影響程度相同。矩陣T包括了每一節(jié)點根據(jù)假新聞的分享行為給予另一節(jié)點的權重。如此,發(fā)布可疑推文的用戶Pi(0)=1,未發(fā)布者Pi(0)=0。最后,他們運用更新規(guī)則提取新指數(shù)的公式,即p(t)=T.p(t-1)??傊?,如果某特定用戶發(fā)布或者轉發(fā)了包含標志列表中網(wǎng)址的推文,其虛假指數(shù)值即會上升。
由上可見,這種方式首先是基于一個假設,即在某在線社會網(wǎng)絡的子網(wǎng)絡中,有一些用戶發(fā)布過包含了標志列表中網(wǎng)址的推文,與之距離愈近的用戶,其發(fā)布虛假信息的可能性愈大;其次,此方式仍然是基于專業(yè)知識的標志列表;最后,此方式也無法對推文內容進行分析。該方式最大的缺陷在于,如果含有標志列表中網(wǎng)址的推文是辟謠的內容,則此方法極易形成誤判。
3.3.2 語言學模型與深度神經(jīng)網(wǎng)絡算法識別
為實現(xiàn)對新聞內容真?zhèn)蔚淖詣颖O(jiān)測,有研究團隊開發(fā)了語言學模型。其要義是提取新聞標題與正文的語言學特征,并將其導入一個被訓練用以識別文章內容真實性的深度神經(jīng)網(wǎng)絡。該模型可分解為三個步驟:
第一步是數(shù)據(jù)獲取。研究團隊選擇名為假新聞語料庫的數(shù)據(jù)集。此數(shù)據(jù)集包括從開源數(shù)據(jù)服務平臺提供的1 001個域名中爬取得到的超過900萬篇新聞,它是為以識別假新聞為目的的深度學習算法的訓練而設的。每篇新聞都被貼上某種標簽,被分為12類,包括“假新聞”“極端偏激”“陰謀論”“仇恨新聞”“可靠的”等[23]。根據(jù)研究目的,他們選用“假新聞”與“可靠的”兩類,前者的定義為捏造信息、散布欺騙性內容或嚴重歪曲真實新聞報道的來源,后者的定義為以符合新聞業(yè)傳統(tǒng)和道德慣例的方式傳播新聞和信息的來源。兩者的數(shù)據(jù)集分別包括100萬、200萬篇文章。
第二步是語言學特征遴選。研究團隊將語言學特征歸為三類:第一,文體特征,即每篇文章正文與標題的句法及文本類型;第二,復雜性特征,即每篇文章正文與標題的可讀性與詞匯量等;第三,心理特征,即比照描述某種心理特質的專業(yè)詞典,判定每篇文章正文與標題的情感傾向。按此標準,從數(shù)據(jù)集中文章的正文與標題提取的、可用數(shù)值表示的特征共計534個。為消弭特征過多對模型訓練的負面影響,研究者先將缺失值比例較高、僅具有單一值以及高度相關的特征刪除,再運用梯度決策提升樹計算特征的重要性指數(shù)以排除零與低重要性的特征,由此剔除了134個特征;對于剩余的特征亦僅保留重要性指數(shù)排名前20者,比如正文行數(shù)、正文中平均每句話有多少個停止詞、標題中大寫字母的比例等。這些語言學特征將通過Javascript特征提取庫被導入深度神經(jīng)網(wǎng)絡模型。
第三步運用深度神經(jīng)網(wǎng)絡模型進行分析。首先進行的是數(shù)據(jù)預處理,根據(jù)輸入規(guī)格,通過離散化或者獨熱編碼,將定類數(shù)據(jù)轉化為數(shù)值。其結果是每個數(shù)據(jù)條目即代表數(shù)值特征的一個矢量。接著,將數(shù)據(jù)通過輸入層導入模型,輸入層之后是批歸一化層。批歸一化層的功能在于保證輸入數(shù)據(jù)具備零均值與單位方差,以使神經(jīng)網(wǎng)絡處于更佳的運轉狀態(tài)。然后,經(jīng)歸一化的數(shù)據(jù)將進入稠密層,或稱全連接層。這是一個共計5層的瓶頸結構,相應包含512、256、128、64、32個神經(jīng)元。該層的作用在于分類,即決定數(shù)據(jù)屬于何種類型。最后,在模型的分類層中,將每類一個神經(jīng)元與歸一化指數(shù)函數(shù)一起用來生成概率對Preal與Pfake,即表示文章內容是真實或虛假的相應可能性[29]。
這種基于深度神經(jīng)網(wǎng)絡算法的識別技術可能在精確度上有所提高,但并非像人工一樣是基于對內容的理解,而是只有概率意義上的準確性。此外,深度神經(jīng)網(wǎng)絡是一個黑箱系統(tǒng),其判斷機理是“不可知的”,這也決定了在某些時候其可靠性值得懷疑。
由于檢測識別技術存在明顯的局限性,UGC大數(shù)據(jù)中信息內容失實(信息內容與社會事實不符)、用戶行為失實(數(shù)據(jù)并非用戶行為的真實記錄)、用戶心理失實(數(shù)據(jù)未能反映用戶的真實心理)等問題難以消除,下文以幾個最為典型的案例進行說明。
網(wǎng)傳美國未來學家阿爾文·托夫勒在《第三次浪潮》中寫道:“如果說IBM的主機拉開了信息化革命的大幕,那么‘大數(shù)據(jù)’才是第三次浪潮的華彩樂章?!睂嶋H上《第三次浪潮》中并無此語,阿爾文·托夫勒與此相近的言論為“計算機能夠記憶、聯(lián)系、篩選‘廣大數(shù)據(jù)’(vast masses of data),它將幫助我們以更為深刻的水平去認識很多問題?!盵30]
運用慧科新聞搜索研究數(shù)據(jù)庫,以“大數(shù)據(jù)+第三次浪潮+華彩樂章”為組合關鍵詞進行搜索,可以發(fā)現(xiàn)從2014年10月至2019年10月,在1 000多種平面媒體和3 000余種網(wǎng)絡媒體中,共有2 247篇文章引用了這句話,分布于報紙、網(wǎng)站、論壇、博客之中,文章數(shù)分別為38、2050、135、23,其中不乏知名門戶網(wǎng)站乃至權威媒體;此外,還可見于學術論文(引用時均未標明頁碼)。
這句憑空杜撰之語在互聯(lián)網(wǎng)上廣為流傳,而阿爾文·托夫勒的原話卻在網(wǎng)絡信息空間中難覓蹤影。在慧科新聞搜索研究數(shù)據(jù)庫中用多種關鍵詞組合進行搜索,結果均為0;甚至直接采用百度進行網(wǎng)頁搜索,也難覓其蹤。對于這種虛假錯誤信息,基于統(tǒng)計方法與基于機器學習方法的檢測識別技術完全無能為力,必須由具有領域知識的人來判別,而靠專家來保證海量UGC大數(shù)據(jù)的質量顯然是不切實際的。值得注意的是,2018年已有學者在學術論文中給出了正確的引文[31],但影響甚微。
用戶行為失實最典型的例子是“刷單”?!八巍敝干碳彝ㄟ^偽造資金往來或物流記錄,制造虛假銷量,從而實現(xiàn)促銷目的的行為[32]。這種對用戶購買行為的偽造源于經(jīng)濟利益的驅使。2018年,阿里巴巴就監(jiān)控到2 800多個炒信平臺,包括刷單QQ群2 384個,空包交易平臺290個,刷單交易平臺237個[33]。各電商平臺、相關政府部門對“刷單”行為的打擊力度持續(xù)加強,如阿里巴巴建立覆蓋全鏈路的大數(shù)據(jù)實時風控與稽查系統(tǒng)[34];2019年6—11月,市場監(jiān)管總局、發(fā)展改革委、工業(yè)和信息化部等8部門聯(lián)合開展2019網(wǎng)絡市場監(jiān)管專項行動[35]。在這種情況下,“刷單”現(xiàn)象仍然普遍存在。不僅網(wǎng)店商家刷,也有電商平臺授意供應商和員工“自刷”[35],只是手段因時而異且更為隱秘。例如,阿里巴巴的生態(tài)產(chǎn)業(yè)鏈條上滋生了大量的“刷單螞蟻”,他們組織嚴密,培訓嚴格,了解阿里打擊刷單技術體系的漏洞,這讓他們能夠“上有政策、下有對策”,刷出的銷量和評價能夠以假亂真[35]??梢?,這是平臺與刷單者的技術博弈,至少在當前還難以清除“刷單”對數(shù)據(jù)造成的污染。
前述特朗普“通俄門”事件是UGC大數(shù)據(jù)中用戶心理失實的典型例證。利用社交媒介平臺偽造民意,進而影響用戶思想、改變用戶初衷的問題,在美國引發(fā)廣泛關注。為此,美國參議院情報委員會多次舉行聽證會。在2018年9月5日進行的聽證會上,臉書首席運營官雪莉·桑德伯格承認對于問題的發(fā)現(xiàn)與應對過于遲緩,但堅持認為臉書已經(jīng)在甄別、封殺可疑用戶方面取得相當進展,稱臉書“每天阻止成百上千萬次注冊虛假賬號的嘗試”;推特CEO杰克·多西亦直言對問題的棘手程度準備不足、相關技術亦不完善,但已經(jīng)做到“每天阻止超過50萬個可疑賬戶登錄推特”[36]。除此之外,兩者并未就如何改進現(xiàn)狀透露更多細節(jié)。而本應參會的谷歌卻未如期前往,有媒介分析稱谷歌此舉意在回避那些可能讓其緊張尷尬的問題[37]。這表明擁有強大資源的互聯(lián)網(wǎng)巨頭雖然付出了努力,但其現(xiàn)有技術手段尚不足以對UGC數(shù)據(jù)偽造、操控民意的內容進行有效鑒別與剔除。
此外,用戶在社交媒體上著力構建完美“人設”,從而導致在網(wǎng)絡中的“言”與現(xiàn)實生活中的“行”不一致,即“前臺后臺效應”。近年來,經(jīng)營“人設”成為明星自我推銷、攫取流量的手段。然而,不少明星的后臺行為一旦被曝光,其在前臺經(jīng)營的“人設”便瞬間崩塌。同時,“人設”經(jīng)營愈發(fā)大眾化。一些用戶在社交媒體平臺上謹慎經(jīng)營自己的“人設”,比如,為秀文化底蘊,還沒有真正讀完一本書就先曬出三五句評論,或精心挑選“適合發(fā)朋友圈的句子”[38]?!叭嗽O”與真實生活有時存在巨大落差,只是刻意表演出來的“精神顏值”[38]。
可見,無論是對民意的偽造或操控,還是用戶刻意打造的網(wǎng)絡形象,都是虛假心理狀態(tài)的體現(xiàn),這些對社會科學研究而言無疑是干擾項。對此,互聯(lián)網(wǎng)巨頭尚不具備令人滿意的去偽存真的技術手段。
由上述分析可見,將UGC大數(shù)據(jù)運用于社會科學研究,在很多時候都會面對各種真實性值得懷疑的數(shù)據(jù),因此不能拿來即用,必須以合適的方式檢驗數(shù)據(jù)的質量,判斷可能存在的誤差,并采用適當?shù)牟呗?,將研究結論的誤差控制在可以接受的范圍內。根據(jù)當前的數(shù)據(jù)狀態(tài)與技術水平,在研究中可采用的策略如下。
UGC大數(shù)據(jù)種類很多,基于UGC大數(shù)據(jù)的社會科學研究也有不同的指向和特點。當研究者決定采用某些UGC數(shù)據(jù)時,就需要憑借自己的知識和經(jīng)驗,對數(shù)據(jù)的真實性、準確性做出初步判斷。有些數(shù)據(jù)所受污染較小,或雖有一定程度的污染但對研究結論的影響不大,例如,通過對用戶在網(wǎng)上言論的情緒分析,來研究人類情緒是否和季節(jié)、天氣有較強的相關性,以驗證心理學的相關假設。而有些數(shù)據(jù)則可能存在很嚴重的質量問題,例如在2016年美國大選期間,假新聞和民意偽造泛濫成災,此時用UGC數(shù)據(jù)來分析民眾投票傾向,其研究結論就會大受質疑。例如,2016年包括微軟必應在內的基于大數(shù)據(jù)對美國大選投票結果的預測幾乎“全軍覆沒”。對數(shù)據(jù)質量進行預判的主要思路是分析所選擇的UGC數(shù)據(jù)是否存在媒介市場化、媒介政治化、生產(chǎn)者動機等因素的影響,影響程度如何。
UGC大數(shù)據(jù)體量龐大,不可能進行總體的質量檢驗,但可采用隨機抽樣的方法,從中抽取一定數(shù)量的樣本,由具備豐富領域知識經(jīng)驗的研究人員對樣本進行人工檢驗,并依據(jù)檢驗結果推斷其總體質量,進而判斷研究結論大致的誤差范圍(置信區(qū)間)。需要特別指出的是,這種檢測與計算機技術意義下的數(shù)據(jù)質量檢驗,兩種數(shù)據(jù)質量的含義是完全不一樣的。前者針對信息內容的真實性、準確性;后者指在大數(shù)據(jù)預處理環(huán)節(jié)進行的數(shù)據(jù)清洗、去重等技術性操作,其目的是保證獲取的數(shù)據(jù)集與源數(shù)據(jù)的一致性。當前基于UGC的研究,大多缺失抽樣檢驗環(huán)節(jié)。計算社會科學研究者必須正視現(xiàn)實,不能將受到嚴重污染的數(shù)據(jù)用于研究,除非能夠消除這些污染。
大數(shù)據(jù)分析最顯著的優(yōu)勢在于研究的精細化以及對事物相關性的發(fā)現(xiàn)能力。UGC大數(shù)據(jù)尤其在對普通人群的心理、觀念、行為的研究中具有重要價值,但缺陷是數(shù)據(jù)質量往往難以保證。因此我們可以將大數(shù)據(jù)分析與傳統(tǒng)研究相結合,實現(xiàn)優(yōu)勢互補。研究者基于UGC大數(shù)據(jù)進行探索性研究,以發(fā)現(xiàn)事物的多樣性及事物之間的相關性,但并不輕易將其作為可靠結論,而是在此基礎上提出研究假設,然后設計嚴謹?shù)难芯靠蚣?,用傳統(tǒng)方法對假設進行進一步驗證。
對同一問題的研究,在條件允許的情況下,可采用多種數(shù)據(jù)源,如搜索數(shù)據(jù)可采用百度、搜狐、360等,社交媒體數(shù)據(jù)可采用微博、微信等;然后比較基于不同數(shù)據(jù)源的研究結論的一致性程度,看一項研究是否能夠得出跨平臺的結論。
以上只是對UGC數(shù)據(jù)質量問題的初步思考與嘗試,其應對策略還需要計算社會科學學者不斷探索與改進。
隨著數(shù)字化生活時代的到來,互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)上產(chǎn)生了海量的用戶生成內容。這種大規(guī)模的個人行為互動數(shù)據(jù)是以往難以甚至無法獲取的研究資料,它蘊藏著廣大網(wǎng)絡用戶的思想觀念、行為傾向、情感心理等社會事實信息,具有重大的社會科學價值。但要將UGC大數(shù)據(jù)運用于社會科學研究,必須首先考察其質量。從UGC大數(shù)據(jù)生產(chǎn)者的異質性、生產(chǎn)動機的差異性、內容檢測識別技術等影響因素進行分析,可以發(fā)現(xiàn)網(wǎng)絡信息與社會現(xiàn)實是兩個不平行的空間,數(shù)據(jù)質量呈現(xiàn)極度的不均衡性。認為UGC大數(shù)據(jù)能夠真實、客觀、準確地反映社會事實與人們的行為、思想觀念和心理狀態(tài),能夠完美地適應各種社會科學研究的需要,籠統(tǒng)地給大數(shù)據(jù)冠以真實性、準確性特征是輕率的。UGC的發(fā)布和傳播基本處于無控制或極弱控制狀態(tài),這既是UGC的最大優(yōu)勢,也導致了UGC數(shù)據(jù)的缺陷。各網(wǎng)絡平臺對缺乏信息審核評價機制的弊端早有所知,也采取了很多措施對數(shù)據(jù)質量進行控制,但效果有限。同時,當前基于人工研判的識別、基于統(tǒng)計的自動測量、基于機器學習的自動檢測技術主要是針對文本型數(shù)據(jù)且皆有其局限性,尚無力應對互聯(lián)網(wǎng)信息生態(tài)的復雜性,亦難以適應UGC大數(shù)據(jù)的多態(tài)性、動態(tài)性特點,因此從原始數(shù)據(jù)中提取出高質量數(shù)據(jù)往往是很困難的。
對計算社會科學而言,數(shù)據(jù)質量是研究質量的基礎,也是UGC大數(shù)據(jù)價值發(fā)揮的關鍵。致力于計算社會科學的學者一定要清醒認識到,包括UGC在內的大數(shù)據(jù)并不是萬能的。UGC大數(shù)據(jù)存在的一些缺陷,憑借當前的數(shù)據(jù)處理技術尚無法解決,這也是高水平的研究和高質量的成果并不多見的重要原因之一。在當前條件下,計算社會科學以UGC為研究資料,必然會面對各種真實性、準確性值得懷疑的數(shù)據(jù)。將UGC大數(shù)據(jù)運用于社會科學研究,必須根據(jù)具體情況對數(shù)據(jù)質量進行審慎的分析和判斷。但分析UGC大數(shù)據(jù)的質量缺陷,絕不是為了將其“棄之如敝屣”,而是為了探索提高數(shù)據(jù)質量的方法和途徑,使之更好地發(fā)揮價值。在技術方面,通過發(fā)展人工智能技術來提高數(shù)據(jù)的檢測識別精度應該是主要方向;在具體研究方面,需要通過數(shù)據(jù)質量預判與抽樣檢驗,采用與傳統(tǒng)研究相結合、多種UGC數(shù)據(jù)交叉驗證等策略予以應對,并不斷探索與改進適合UGC大數(shù)據(jù)運用的研究方法。
(來稿時間:2020年8月)