文/曹 剛
受眾研究在傳播學(xué)領(lǐng)域占有突出位置。一方面,它連接著媒介功能和效果研究,幾乎每一項重要的效果研究都離不開受眾研究;另一方面,它是媒介產(chǎn)業(yè)運營中不可或缺的一個環(huán)節(jié),是連接傳媒產(chǎn)業(yè)和廣告產(chǎn)業(yè)的紐帶。進入新世紀(jì)以來,面對加速演變的媒介技術(shù),受眾研究從未止步。與此同時,一個源自計算機界的技術(shù)概念——“大數(shù)據(jù)”,近年來旋風(fēng)般“橫掃”政治經(jīng)濟社會諸多領(lǐng)域,其能量不容小覷。大數(shù)據(jù)能給受眾研究帶來什么?大數(shù)據(jù)時代受眾研究將面臨哪些挑戰(zhàn)?本文將對這些問題進行深入研究,并探討應(yīng)對之策。
傳統(tǒng)的受眾研究在捕捉受眾媒介接觸、使用行為時主要針對隨機樣本或固定樣本(定期更新)進行,調(diào)查方式以入戶面訪、電話訪問、日記卡回收等人工測量為主。即使是20世紀(jì)80年代興起的各種主動、被動測量儀,也是以少數(shù)樣本為測量對象。進入21世紀(jì),隨著互聯(lián)網(wǎng)、尤其是移動互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,各類智能化手持電子設(shè)備逐漸推廣普及,報紙、雜志、廣播、電視等傳統(tǒng)媒介紛紛通過互聯(lián)網(wǎng)平臺拓展原有傳播渠道,受眾媒介接觸和使用行為日趨多元化、復(fù)合化。新興電子媒體在測量受眾媒介使用行為時具有突出優(yōu)勢。作為交互媒體,互聯(lián)網(wǎng)對于用戶的訪問都會通過log日志的形式進行記錄,而且是以一種旁觀者的身份、不必驚動受眾的方式進行觀察記錄。針對智能設(shè)備的電子訪問記錄成為受眾研究不斷增長的測量數(shù)據(jù)的主要來源。這些數(shù)據(jù)符合大數(shù)據(jù)的主要特征:第一,海量數(shù)據(jù)。傳統(tǒng)受眾調(diào)查1000個樣本就算較大規(guī)模,而現(xiàn)在電子設(shè)備的訪問記錄幾乎是以普查的方式在進行,伴隨移動互聯(lián)設(shè)備和軟件的飛速發(fā)展,某些熱門端點用戶訪問數(shù)量動輒百萬、千萬,甚至過億,而且數(shù)據(jù)量隨時間不斷增長。第二,高維數(shù)據(jù)。數(shù)據(jù)集的維度是數(shù)據(jù)集合中的對象具有的屬性數(shù)目,簡言之,就是記錄單個受眾時可能涉及的屬性有多少。傳統(tǒng)受眾調(diào)查由于訪問成本所限,面向受測樣本的問題數(shù)量往往精簡到最小程度,特別是電話訪問時。而現(xiàn)在電子設(shè)備對于受眾的媒介使用行為可以近乎全方位、無遺漏地詳細記錄下來;不僅如此,由于蘋果、亞馬遜等大型公司構(gòu)建的網(wǎng)上商店系統(tǒng),受眾往往實名注冊,大量個人信息與受眾媒介使用行為可以進行關(guān)聯(lián)分析,這在過去是難以想象的。第三,數(shù)據(jù)記錄的非目的性。傳統(tǒng)受眾研究在調(diào)查之前有明確的理論框架或商業(yè)用途,根據(jù)這些既定目標(biāo)設(shè)計相應(yīng)的需要調(diào)查的受眾屬性。而電子設(shè)備訪問記錄事無巨細地記錄受眾各種信息和媒介使用行為,并非出于事先規(guī)劃好的調(diào)查目標(biāo)。
1.受眾媒介使用行為的海量數(shù)據(jù),給數(shù)據(jù)分析帶來困難。由于電子設(shè)備在記錄受眾媒介使用行為時并不進行抽樣,而是全部納入測量范圍,加之日積月累,因此記錄的數(shù)據(jù)量不再是傳統(tǒng)受眾研究的兆字節(jié),而是以指數(shù)級增長,達到了驚人的吉字節(jié)、太字節(jié)。這樣龐大的數(shù)據(jù)甚至不能放進計算機內(nèi)存中運算,而用非內(nèi)存算法可能相當(dāng)耗時。而數(shù)據(jù)更新越來越快,時效性也越來越強,等計算機對海量數(shù)據(jù)分析出結(jié)果,有可能已失去應(yīng)用價值,難以幫助媒介經(jīng)營者及時決策。
2.受眾媒介使用行為的高維數(shù)據(jù),傳統(tǒng)統(tǒng)計方法難以應(yīng)對。傳統(tǒng)受眾調(diào)查常見的是由少量受眾屬性集合而成的數(shù)據(jù),為這些低維數(shù)據(jù)開發(fā)傳統(tǒng)的數(shù)據(jù)分析技術(shù)和軟件通常不能很好地處理高維數(shù)據(jù)?,F(xiàn)在,研究者往往要面對成百上千的受眾屬性,中、高維度數(shù)據(jù)與低維度數(shù)據(jù)有質(zhì)的不同,傳統(tǒng)統(tǒng)計方法和軟件失去用武之地,這就使計算機在分析高維數(shù)據(jù)時會陷入所謂的維災(zāi)難。
3.受眾測量數(shù)據(jù)量非常大,而其中有價值的信息卻很少。傳統(tǒng)受眾調(diào)查與統(tǒng)計分析是在有明確研究假設(shè)條件或媒介運營指標(biāo)指導(dǎo)下,精心設(shè)計問題收集相應(yīng)數(shù)據(jù),以達到檢驗假設(shè)真假或判斷媒介運營成敗的目的。因此,數(shù)據(jù)分析的方法基本上在數(shù)據(jù)收集之前已確定?,F(xiàn)在,研究者事先并不知道在海量多維數(shù)據(jù)中隱含著哪些有用的信息,就像從礦石中淘金一樣,需要應(yīng)用各種算法探索和揭示隱藏的、未知的規(guī)律性,這無疑加大了數(shù)據(jù)挖掘的難度。
1.利用抽樣技術(shù)有效壓縮受眾測量數(shù)據(jù)量。抽樣是一種選擇數(shù)據(jù)對象子集進行分析的常用方法。在調(diào)查研究中,抽樣常常用于縮小調(diào)查對象或不宜做普查的情形。傳統(tǒng)受眾研究正是建立在對受眾進行抽樣調(diào)查的基礎(chǔ)上。在大數(shù)據(jù)時代的數(shù)據(jù)挖掘中,抽樣也非常有用。與傳統(tǒng)受眾調(diào)查不同的是,大數(shù)據(jù)背景下數(shù)據(jù)挖掘的抽樣對象不是受眾,而是海量數(shù)據(jù)集。當(dāng)直接處理所有海量數(shù)據(jù)的費用太高、太費時間時,只好退而求其次對龐大數(shù)據(jù)集合進行抽樣。在合理選擇抽樣方案的基礎(chǔ)上,使用抽樣的算法可以有效壓縮數(shù)據(jù)量。除了傳統(tǒng)的抽樣方法,面對大數(shù)據(jù),研究者還可以采用漸進式抽樣。這種抽樣方法的優(yōu)點是可以不用事先確定樣本規(guī)模(事先往往不知道合適的樣本規(guī)模),先從一個小樣本開始,然后逐漸增加樣本容量,當(dāng)預(yù)測模型準(zhǔn)確率的增加趨于穩(wěn)定時,就可以停止增加樣本容量。
2.利用維歸約技術(shù)降低受眾的數(shù)據(jù)維度。電子設(shè)備自動記錄的受眾數(shù)據(jù)集可能包含大量屬性。數(shù)據(jù)預(yù)處理的一個重要方面就是減少維度,稱為維歸約。相比高維數(shù)據(jù),經(jīng)過維歸約處理后的低維數(shù)據(jù)在后續(xù)分析中具有明顯優(yōu)勢:第一,目前開發(fā)的數(shù)據(jù)挖掘算法通常對低維數(shù)據(jù)的計算結(jié)果更具實際意義;第二,基于低維數(shù)據(jù)建立的數(shù)據(jù)模型可視化效果更好,更易于非專業(yè)人士理解。
維歸約技術(shù)常常通過創(chuàng)建新屬性,將一些舊屬性合并在一起來降低數(shù)集的維度。
3.充分利用受眾研究的背景知識增加數(shù)據(jù)挖掘的預(yù)判性。傳統(tǒng)受眾研究方法較為成熟,研究者在計算機輔助下,可以完成調(diào)查設(shè)計、數(shù)據(jù)分析、結(jié)果詮釋等一系列受眾研究環(huán)節(jié)。但是,在大數(shù)據(jù)時代,面對復(fù)雜的海量數(shù)據(jù),需要有不同專長的人員密切配合來完成數(shù)據(jù)挖掘任務(wù)。首先,由對傳播理論感興趣或有深厚媒介運營背景的專門人才,盡可能清晰地定義出數(shù)據(jù)挖掘的問題。盡管沒有人能事先預(yù)測數(shù)據(jù)挖掘的最后結(jié)構(gòu),但是從概率論角度看,經(jīng)過傳媒專業(yè)人士界定數(shù)據(jù)挖掘的問題之后,在實踐中挖掘出有價值信息的幾率更高,而盲目地運用各種數(shù)據(jù)挖掘算法去處理數(shù)據(jù),得到的數(shù)據(jù)結(jié)構(gòu)往往沒有很大現(xiàn)實意義。接著,由精通數(shù)據(jù)庫技術(shù)和統(tǒng)計分析技術(shù)的數(shù)據(jù)分析人才,將受眾研究目標(biāo)轉(zhuǎn)換成數(shù)據(jù)挖掘的具體任務(wù),并為每步操作選擇合適的技術(shù)。由此可見,在大數(shù)據(jù)預(yù)處理和數(shù)據(jù)挖掘算法尚存“門檻”之際,受眾研究將是一個多學(xué)科專家交互協(xié)作的知識探索過程。
面對“大數(shù)據(jù)”熱,受眾研究有可能陷入過分?jǐn)M合的數(shù)據(jù)“陷阱”之中,這并非危言聳聽。這是因為大數(shù)據(jù)條件下,受眾數(shù)據(jù)的記錄項目并非在事先規(guī)劃嚴(yán)密的框架下設(shè)定,從而導(dǎo)致海量數(shù)據(jù)中存在一些不相關(guān)的變量,如果這時完全遵循計算機對數(shù)據(jù)建立的模型,很可能該模型本身對于所有數(shù)據(jù)的擬合度非常好,但是這一模型的實際含義與現(xiàn)實不符合,這就要求研究者對計算機自動生成的數(shù)據(jù)模型保持謹(jǐn)慎態(tài)度。
[1]丹尼斯·麥奎爾著.劉燕南,李穎,楊振榮譯.受眾分析[M].北京:中國人民大學(xué)出版社,2006.
[2]謝邦昌等.從數(shù)據(jù)采集到數(shù)據(jù)挖掘[M].北京:中國統(tǒng)計出版社,2009.
[3]張余.裂變與交互——數(shù)字電視時代的受眾研究[M].北京:中國傳媒大學(xué)出版社,2011.