■ 范紅霞 孫金波
德國(guó)學(xué)者保羅·布拉德肖(Paul Bradshaw)認(rèn)為,數(shù)據(jù)新聞“簡(jiǎn)言之就是一切通過數(shù)據(jù)處理的新聞”。它將傳統(tǒng)的新聞敏感、講述動(dòng)人故事的能力與龐大的數(shù)據(jù)信息結(jié)合在一起,使新聞報(bào)道呈現(xiàn)出許多新的可能。①?gòu)男侣勆a(chǎn)方式上來說,“數(shù)據(jù)新聞是關(guān)于數(shù)據(jù)的采集、分析和可視化呈現(xiàn)的新聞工作理念與方法”。②作為大數(shù)據(jù)時(shí)代的新聞變革,在內(nèi)容上,數(shù)據(jù)取代了文字,成為重要的信息載體;在敘事上,數(shù)據(jù)可視化呈現(xiàn)取代了文本描述。在內(nèi)容與形式的雙重變革背后,操作并實(shí)現(xiàn)這一轉(zhuǎn)變的工具,來自新型的信息加工方式——算法。
算法是什么?簡(jiǎn)單地來說,它是利用一定的計(jì)算公式進(jìn)行數(shù)據(jù)處理,在計(jì)算機(jī)程序設(shè)計(jì)中使用廣泛。近年來,隨著網(wǎng)絡(luò)和大數(shù)據(jù)技術(shù)的快速發(fā)展,我們正在進(jìn)入“算法經(jīng)濟(jì)時(shí)代”。
本文將重點(diǎn)分析數(shù)據(jù)新聞中所使用到的算法,以及算法革命給新聞業(yè)態(tài)帶來的變化趨勢(shì)。在數(shù)據(jù)新聞生產(chǎn)的不同環(huán)節(jié),如數(shù)據(jù)查找與采集、數(shù)據(jù)聚合與集成、數(shù)據(jù)挖掘與分析、數(shù)據(jù)推薦等方面,不同的算法各有用武之地。
1.數(shù)據(jù)查找與采集——字符串查找算法
查找是指在大量的數(shù)據(jù)中找到特定元素,它是數(shù)值計(jì)算中常用的運(yùn)算邏輯。④就數(shù)據(jù)新聞而言,因?yàn)槌3I婕暗轿谋咎幚?往往會(huì)通過在某個(gè)文本信息中查找某個(gè)詞在文中出現(xiàn)的位置,依次比較這個(gè)詞在文本中的信息。通過匹配值分析,達(dá)到優(yōu)化的目的。常見的字符串查找算法有三種:一種是KMP算法,它的匹配性能優(yōu)越于傳統(tǒng)的字符串查找算法,在信息檢索過程匯總,需要快速提取關(guān)鍵詞在文件中的位置,往往會(huì)使用此種算法。還有一種算法叫做BM算法,相對(duì)于KMP算法效果更高,且實(shí)現(xiàn)過程更容易理解和實(shí)現(xiàn)。很多文本編輯器中的查找方式都是基于BM算法實(shí)現(xiàn)的,雖然二者在字符移動(dòng)和匹配過程中都需要花費(fèi)一定的查找時(shí)間,“但是BM算法的匹配速度比KMP算法快3~5倍”。⑤此外,還有一種Sunday算法則適用于較長(zhǎng)的文本。
當(dāng)然,如果涉及到海量數(shù)據(jù)的查找,比如搜索引擎所使用的查找算法,就包括基于布隆過濾器的方式,設(shè)置能夠搜索和過濾重復(fù)網(wǎng)頁(yè)的爬蟲程序;以及基于倒排索引的數(shù)據(jù)結(jié)構(gòu),它們?cè)谛畔z索的精度和準(zhǔn)確度方面更高。
2.數(shù)據(jù)聚合與集成——基于K-Means算法的新聞聚類分析
機(jī)器學(xué)習(xí)中,聚類分析是一種非常重要的算法?!跋到y(tǒng)聚類的方法是通過計(jì)算將距離較近的樣本先聚成一類,距離較遠(yuǎn)的樣本后聚成了類,通過計(jì)算樣本之間的距離,最終使每個(gè)樣本都能找到合適的聚簇?!雹轐即中心點(diǎn)、關(guān)鍵詞,Means即意義內(nèi)容,也是圍繞中心點(diǎn)進(jìn)行信息分類的依據(jù),通過計(jì)算中的多次迭代,最終實(shí)現(xiàn)分別聚類,且類別與類別之間區(qū)分明顯,有助于實(shí)現(xiàn)聚類結(jié)果的個(gè)性化。以新聞聚類而言,類似于今日頭條、一點(diǎn)資訊、騰訊新聞等新聞聚合應(yīng)用,它們沒有原創(chuàng)新聞,而是通過對(duì)網(wǎng)絡(luò)上的新聞進(jìn)行抓取,然后進(jìn)行相似新聞聚類。如今日頭條,它提出的口號(hào)就是:“你關(guān)心的,才是頭條?!睆?qiáng)調(diào)了新聞推送的個(gè)性化和定制化。而實(shí)現(xiàn)這一特征的主要途徑,就是通過新聞聚類分析,抓取網(wǎng)民最感興趣的內(nèi)容,將其聚合成類,便于瀏覽。K-Means作為文本聚類最直接的算法,也是最為經(jīng)典的數(shù)據(jù)挖掘算法,它所秉持的核心思想是:人以類聚,物以群分。通過用戶的屬性特征和興趣偏好,找到他感興趣的內(nèi)容,有針對(duì)性地推送相關(guān)新聞。網(wǎng)易云音樂在個(gè)性化推薦方面也是采用這種模式。
但是,它的弊端也很明顯。就是初始中心點(diǎn)的選擇對(duì)迭代次數(shù)影響較大,如果是隨機(jī)選擇,計(jì)算周期會(huì)比較長(zhǎng);如果隨機(jī)選取的初始中心點(diǎn)均屬于同一個(gè)聚類,計(jì)算量比較大,而且一定周期內(nèi)反復(fù)收到同類信息,也會(huì)造成信息疲勞。因此,在使用此類使用聚類算法的APP(新聞或音樂),不斷更新關(guān)鍵詞和信息偏好,有助于打破信息過度匹配和過分集中的困擾。
3.數(shù)據(jù)挖掘算法——購(gòu)物車?yán)碚摵虵P樹關(guān)聯(lián)分析
數(shù)據(jù)的關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘算法的目的之一,用于從海量的歷史數(shù)據(jù)中,挖掘出可能具有價(jià)值的信息,以及數(shù)據(jù)之間的相關(guān)關(guān)系,在商業(yè)營(yíng)銷中可以利用數(shù)據(jù)之間的關(guān)系產(chǎn)生較大的商業(yè)價(jià)值。⑦如,當(dāng)一個(gè)消費(fèi)者在超市購(gòu)買了A產(chǎn)品,那么算法就會(huì)分析與A產(chǎn)品相關(guān)的哪些產(chǎn)品是消費(fèi)者可能下次購(gòu)買的。最經(jīng)典的超市案例就是“啤酒”和“尿布”的故事(在超市里為嬰兒購(gòu)買了紙尿褲的男性顧客會(huì)順手為自己買些啤酒),通過商品之間的內(nèi)在關(guān)聯(lián),提升了銷售率。因此,這一算法規(guī)則(Apriori算法)也被稱作“購(gòu)物車?yán)碚摗?。該理論就是運(yùn)用了關(guān)聯(lián)規(guī)則,尋找兩個(gè)或多個(gè)事物之間的依存性和關(guān)聯(lián)性。如果兩個(gè)或者多個(gè)事物之間相互存在一定的因果關(guān)系,則他們之間存在一種關(guān)聯(lián)規(guī)則使得它們之間可以進(jìn)行搭配。如啤酒+尿布的組合,以及收銀臺(tái)附近陳列的口香糖、巧克力和安全套等小物件,還有,買了手機(jī)的顧客多半會(huì)購(gòu)買手機(jī)屏幕保護(hù)膜、耳機(jī)等,這是一種最簡(jiǎn)單和直接的關(guān)聯(lián)關(guān)系。因而這種關(guān)聯(lián)規(guī)則也被稱為“購(gòu)物車?yán)碚摗??;谫?gòu)物車?yán)碚摰腁priori算法應(yīng)用非常廣泛,如超市商品擺放和貨架陳列的關(guān)聯(lián)分析、顧客消費(fèi)習(xí)慣分析等,當(dāng)然,還包括電商平臺(tái)最為熱衷的購(gòu)物推薦等。
FP樹(Frequent Pattern Tree)模式,通過對(duì)原始數(shù)據(jù)進(jìn)行壓縮,從而提升數(shù)據(jù)分析性能。因?yàn)榻灰讛?shù)據(jù)海量龐大,如果反復(fù)掃描,容易造成數(shù)據(jù)損耗,如前一種算法那樣。而構(gòu)建FP樹,只需要掃描兩次,第一次分析數(shù)據(jù)中的每個(gè)頻繁項(xiàng)和每個(gè)頻繁項(xiàng)的支持度,并根據(jù)支持度進(jìn)行降序排列。據(jù)此創(chuàng)建FP樹的根節(jié)點(diǎn),即出現(xiàn)最為頻繁的詞語(yǔ),然后進(jìn)行迭代列加后綴頻繁項(xiàng)集,最終得到所有與某個(gè)頻繁詞相關(guān)的頻繁項(xiàng)集。上述“啤酒”與“尿布”的組合就是這么來的。
4.數(shù)據(jù)推薦算法和預(yù)測(cè)模型——協(xié)同過濾推薦和潛在因子推薦
推薦算法的應(yīng)用日益普遍。推薦算法是用戶和商品之間的橋梁和道路,它為用戶提供他們可能感興趣或者有價(jià)值的商品信息。當(dāng)我們購(gòu)物時(shí),辨別用戶身份的cookies數(shù)據(jù)被存儲(chǔ)到電腦上,使我們很容易被個(gè)性化的商品廣告與商品信息更高效地“鎖定”。推薦算法主要圍繞以下目標(biāo)展開:“幫助用戶找到自己喜歡的商品;加強(qiáng)對(duì)用戶的了解,提供個(gè)性化定制服務(wù);降低信息過載問題;提供網(wǎng)站或移動(dòng)客戶端的展示與點(diǎn)擊的轉(zhuǎn)化率,實(shí)現(xiàn)流量變現(xiàn);增加用戶黏性,使用戶對(duì)網(wǎng)站或移動(dòng)客戶端產(chǎn)生信息依賴?!雹喑S盟惴ㄊ腔谛袨閿?shù)據(jù)分析的協(xié)同過濾。
協(xié)同過濾常常用于電子商務(wù)、互聯(lián)網(wǎng)廣告的個(gè)性化推薦,它通過對(duì)用戶的歷史行為記錄,以及用戶群體的行為信息,給用戶之間、商品之間建立關(guān)聯(lián)性規(guī)則,給用戶推薦個(gè)性化商品,提高銷售額。如在亞馬遜、京東、淘寶等電商平臺(tái),推薦算法創(chuàng)造了“雙十一”的消費(fèi)狂潮。根據(jù)阿里巴巴集團(tuán)披露的數(shù)據(jù),截至2017年11月12日零時(shí),2017年天貓雙十一交易額定格在1682.69億元人民幣。再次刷新單日全球零售的歷史記錄。⑨協(xié)同過濾算法主要有兩種模型:基于商品特征(item-based)的算法和基于用戶行為(user-based)的算法,針對(duì)不同的活動(dòng)場(chǎng)景都各有用處,效果顯著。
另外,潛在因子算法也是廣泛應(yīng)用的推薦算法,不同于item-based通過商品之間的關(guān)聯(lián)推薦,也不同于 user-based的群體性行為分析,它是通過用戶的歷史行為挖掘用戶本身的特征,以及分析現(xiàn)有商品的本質(zhì)特征進(jìn)行的推薦。以前我們津津樂道過一個(gè)例子:超市會(huì)給最近購(gòu)買過無香化妝品的女士推薦孕嬰產(chǎn)品,而且神準(zhǔn)。再如新聞推薦,特征標(biāo)簽是新聞主要表達(dá)內(nèi)容的體現(xiàn),通過將新聞的特征標(biāo)簽轉(zhuǎn)換為用戶的特征標(biāo)簽,從而感知用戶對(duì)于某方面內(nèi)容的興趣程度比較高。另外還有基于流行度的推薦,利用群體模仿心理,將當(dāng)前最熱門的產(chǎn)品推薦給用戶?!稓g樂頌》熱播后,打開淘寶,首頁(yè)可能會(huì)給你推薦劇中人物的同款裙子、帽子或飾品等等。一部電視劇帶動(dòng)了服裝、化妝品、洗發(fā)水、發(fā)型妝容、度假勝地、書籍唱片等周邊產(chǎn)品的熱銷,由此使熱門影視劇的周邊產(chǎn)業(yè)成為一個(gè)巨大的金礦。
預(yù)測(cè)模型所使用到的算法主要是借助概率統(tǒng)計(jì),通過線性回歸方程的計(jì)算或者是最大期望值算法分析,找到隱藏在現(xiàn)象外表下,然而與其狀態(tài)相關(guān)的某些變量,以獲得解決問題的方案,如天氣預(yù)報(bào)、用戶行為預(yù)測(cè)等等。如美國(guó)2016年大選時(shí),美國(guó)CNN等主流媒體憑借傳統(tǒng)的民調(diào)數(shù)據(jù)預(yù)測(cè)希拉里能勝選,而大數(shù)據(jù)分析的結(jié)果則預(yù)測(cè)彼時(shí)贏面甚小的特朗普將會(huì)勝利,最終結(jié)果出來后,令這些傳統(tǒng)媒體與主流人群大跌眼鏡。
預(yù)測(cè)模型甚至被用到企業(yè)的人事招聘和人員晉升中。在收集擬錄用人員資料時(shí),基于一個(gè)人的地理位置、學(xué)習(xí)成績(jī)、他經(jīng)常訪問的網(wǎng)站、搜索時(shí)使用的關(guān)鍵詞,他在推特、臉譜或者微博上發(fā)布的信息,人們就可以對(duì)他的性別、種族、社會(huì)階層、興趣愛好、人格特質(zhì)、生活態(tài)度、職業(yè)潛力等作出判斷、推理和評(píng)估。美國(guó)有一家Hunch公司,開發(fā)了一個(gè)聲稱“個(gè)人喜好反映一切”的算法,通過分析用戶在臉譜網(wǎng)上的個(gè)人喜好與社會(huì)維度數(shù)據(jù)集之間的關(guān)系,為用戶建立詳細(xì)的檔案,并預(yù)測(cè)他的人格特點(diǎn)、性格和政治傾向等?!耙豁?xiàng)叫作‘推特心理’的業(yè)務(wù)宣稱可以依據(jù)人們?cè)谕铺厣险務(wù)摰脑掝},包括學(xué)習(xí)、金錢、情感與焦慮等,通過算法測(cè)算他們的情商和智商水平。”在這里,全數(shù)字化(可量化)的行為數(shù)據(jù)分析成了一種身份識(shí)別技術(shù)。
大數(shù)據(jù)傳播為新聞業(yè)帶來了全新的變革。具體而言,表現(xiàn)在以下方面:
1.傳播語(yǔ)境的轉(zhuǎn)換:從信息傳播變?yōu)橹R(shí)傳播
現(xiàn)代新聞業(yè)的興起,源自我們對(duì)于信息的渴求。長(zhǎng)期以來,大眾媒介就承擔(dān)著傳播信息、監(jiān)測(cè)環(huán)境、對(duì)周遭世界的變化做出解釋的職能,每天專注著報(bào)道海量的信息,但是“浮光掠影”式的報(bào)道,并未觸及最終解決問題的關(guān)鍵。而知識(shí)是什么?代表被系統(tǒng)化、被整理和提煉過的經(jīng)驗(yàn)、認(rèn)知和方法,可以用于指導(dǎo)我們的實(shí)踐和生活。在強(qiáng)調(diào)信息傳遞的傳統(tǒng)媒介時(shí)代,“我們被信息淹沒,但卻缺乏知識(shí)”。因?yàn)殡S時(shí)更新而又浮光掠影、蜻蜓點(diǎn)水式的報(bào)道方式,讓我們的信息接收變成了盲目而無效地瀏覽,認(rèn)知呈現(xiàn)“碎片化”狀態(tài)。 而數(shù)據(jù)新聞則通過挖掘海量數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,尋找連接的意義和信息價(jià)值,將碎片化的內(nèi)容加以整合,形成我們關(guān)于某個(gè)人物、新聞事件、現(xiàn)象或者社會(huì)問題的全局性的認(rèn)知。比如財(cái)新網(wǎng)所做的《三公消費(fèi)龍虎榜》《周永康的人與財(cái)》,《衛(wèi)報(bào)》所做的《美國(guó)各州的同性戀權(quán)利》等報(bào)道。這些新的信息加工和新聞生產(chǎn)模式,擴(kuò)大了我們的認(rèn)知視角和信息版圖。“數(shù)據(jù)新聞”正是全球媒體應(yīng)對(duì)大數(shù)據(jù)時(shí)代變遷所做出的關(guān)鍵革新,它意味著新時(shí)代的媒體必須要經(jīng)歷從“信息傳播”向“知識(shí)傳播”的轉(zhuǎn)型。
英國(guó)獨(dú)立多媒體記者亞當(dāng)·韋斯特布魯克預(yù)言道:數(shù)據(jù)新聞是未來新聞業(yè)最具發(fā)展?jié)摿Φ念I(lǐng)域之一?!皵?shù)據(jù)新聞使新聞回歸本質(zhì):挖掘公眾無暇處理的信息,核實(shí)信息,理清信息的內(nèi)涵后將之發(fā)布給公眾?!?如此一來,“公眾將更加文明和富有見識(shí)”。從“信息傳播”向“知識(shí)傳播”轉(zhuǎn)型,要求媒體不能僅僅滿足于做片段式和碎片化的報(bào)道,更要挖掘數(shù)據(jù)背后的價(jià)值,賦予其正確的解釋,使受眾可以更有主見和有效地思考,從而讓“信息”升華為“知識(shí)”,幫助受眾加深理解、做出準(zhǔn)確的判斷。
2.算法改變公共輿論
傳統(tǒng)媒介時(shí)代,輿論的形成仰仗媒體的議程設(shè)置。通過凸顯某些話題和事件,形成重要性的排序,它們不能決定受眾“怎么想”,但是卻能有效地決定讓他們“想什么”,為公眾輿論提供話題和素材。但是現(xiàn)在我們經(jīng)常用的說法是“個(gè)性化新聞”或者“新聞定制”,在一些新聞APP上,也許每個(gè)人看到的新聞界面都不一樣。大眾視線所關(guān)注的焦點(diǎn),不是由媒體當(dāng)天的頭版決定,而是被一種所謂的“頭條”和“熱搜”所控制。娛樂明星的花邊新聞取代了國(guó)計(jì)民生的大事,成為網(wǎng)民津津樂道的話題。
此外,正如議程設(shè)置帶有濃厚的政治意味和意識(shí)形態(tài)色彩一樣,新聞挖掘和分析算法在回答特定問題時(shí),也會(huì)帶有某種偏見。當(dāng)我們搜索某個(gè)人的信息時(shí),如果算法提供不友善的搜索項(xiàng)后,本來對(duì)他不了解的用戶在搜索他的信息時(shí)可能會(huì)被引到某個(gè)特定方向。因此,算法不僅僅是在預(yù)測(cè),還有助于控制用戶的行為。算法的建議,一是算法可以猜到用戶接下來希望搜索的內(nèi)容,二是算法將特定選項(xiàng)置于用戶眼前,讓用戶只能從中做出選擇。社會(huì)學(xué)家威廉·托馬斯與多蘿西·托馬斯說過:“如果人們把某種情境定義為真實(shí)的,這種情境就會(huì)造成真實(shí)的影響?!彼惴ㄖ杏玫降臄?shù)學(xué)知識(shí)最初是“提煉自這個(gè)世界,來源于這個(gè)世界”,而現(xiàn)在則“開始塑造這個(gè)世界”(凱文·斯拉文)。如凱文·斯拉文所言,與其說是一種隱喻,毋寧說是一個(gè)預(yù)言。他所列舉出來的各種與算法相關(guān)的現(xiàn)象,間諜策略、股票價(jià)格、電影劇本和建筑等,都有可能受到算法的影響和操縱。限高、限速、限重、限量、限牌等等,這些數(shù)據(jù)的設(shè)計(jì),不僅僅出于公共管理的需要,更有可能帶有社會(huì)偏見和身份排斥的考慮。而被冠以“個(gè)性化”美名的服務(wù)背后可能隱含階層和區(qū)隔的意味。
3.過濾氣泡與信息繭房
連客觀的數(shù)據(jù)也無法擺脫人類的偏見,收集的數(shù)據(jù)種類、算法運(yùn)行之前的各種準(zhǔn)備工作等,都會(huì)受到人類偏見的影響。比如說,每個(gè)人都有身份證,各自對(duì)應(yīng)不同的姓名和社會(huì)編碼,這些符號(hào)和數(shù)字可以用來說明我們的身份、民族成分、出生地、出生日期、性別等等。用于機(jī)場(chǎng)/車站安檢、酒店住宿、消費(fèi)查驗(yàn)等,雖然我們將其視作例行公事,但是身份識(shí)別系統(tǒng)會(huì)把其中一些來自特定地區(qū)、民族和身份的人單獨(dú)挑出來,重點(diǎn)檢查。因?yàn)樵谒鼈兊乃惴ㄏ到y(tǒng)里可能被標(biāo)注為“敏感人群”。這樣的人無論走到哪里都會(huì)被迅速識(shí)別、定位和監(jiān)控。算法因之成為一種社會(huì)控制技術(shù)。
現(xiàn)在還有一種大數(shù)據(jù)控制的手段,將人員、地點(diǎn)、對(duì)象和想法等分門別類,建立登記的計(jì)算過程,因之也具有了豐富的政治內(nèi)涵。“頭條”“熱搜”結(jié)果可以買賣,也可以人為干預(yù),成為心照不宣的公關(guān)手段;用算法來干擾和轉(zhuǎn)移公眾的注意力,可能比“政治作秀”更有效果,結(jié)果更加可控。算法還可以有意識(shí)地屏蔽消極評(píng)論或者敏感詞等。正是因?yàn)橛辛诉@種具有識(shí)別和過濾功能的算法,這種形式上的客觀性可能有礙社會(huì)公平正義,并導(dǎo)致偏見的盛行。所謂的中立性,根本就是一種假象。這也就是所謂的“過濾氣泡”效應(yīng)。利用Nara算法,代表用戶不斷地判斷信息是否有用,通過剔除線上的“雜亂信息”,幫助用戶精準(zhǔn)定位,節(jié)約時(shí)間。這就是“過濾氣泡”或者叫作“404”(網(wǎng)頁(yè)無法打開)。
另外,因?yàn)閭€(gè)性化推薦的廣泛運(yùn)用,它有可能形成“信息繭房”的負(fù)面效果。這個(gè)概念是凱斯·R.桑斯坦所提出的。所謂信息繭房,是指人們?cè)谛畔鞑ヮI(lǐng)域會(huì)習(xí)慣性地被自己的興趣所引導(dǎo),將自己的生活置于像蠶繭一樣的“繭房”,從而可能成為“作繭自縛”的與世隔絕的孤立者。我們只能得到自己選擇的和令我們認(rèn)同或愉悅的東西,把自己封閉在熟悉的領(lǐng)域和信息中,造成個(gè)人思想和認(rèn)知的封閉、僵化。如果任由“過濾氣泡”和“信息繭房”泛濫,將不利于社會(huì)信息的流動(dòng)和交換,也會(huì)禁錮思想、觀念的創(chuàng)新、突破和交流。如學(xué)者所預(yù)言的那樣:“數(shù)字化‘繭房’的缺失和數(shù)字化記憶的完全開放都是可怕的,它所產(chǎn)生的‘寒蟬效應(yīng)’甚至?xí)屛覀兪?jiān)定地活在當(dāng)下的能力和勇氣。”
4.社會(huì)隱喻的轉(zhuǎn)換
1980年,托夫勒寫作《第三次浪潮》。指出人類社會(huì)經(jīng)歷了由技術(shù)沖擊社會(huì)與文化而形成的三次浪潮。第一次浪潮是農(nóng)業(yè)的發(fā)展,人類勞作取代了狩獵采集文化。在中國(guó)形成“男耕女織”“男主外女主內(nèi)”的社會(huì)分工體系,以及由家庭延伸到國(guó)家政治領(lǐng)域的父權(quán)制宗法統(tǒng)治以及男尊女卑的性別文化;第二次浪潮是工業(yè)革命興起,蒸汽機(jī)成為先進(jìn)技術(shù)的代表,“火車頭”成為政治、經(jīng)濟(jì)、文化等領(lǐng)導(dǎo)權(quán)的象征性隱喻,以及伴隨而來各種“規(guī)?;毙?yīng)的蔓延,批量生產(chǎn)、批量分銷、大眾消費(fèi)、大眾教育、大眾媒體、大眾娛樂和大規(guī)模殺傷性武器等。關(guān)于文化霸權(quán)的闡釋與爭(zhēng)奪,成為不同社會(huì)力量角力的根源。第三次社會(huì)浪潮,是信息化時(shí)代的到來,為我們帶來了分眾化、個(gè)人化的趨勢(shì)。從辦公自動(dòng)化、門戶網(wǎng)站、博客到推特、facebook、微博,從開心網(wǎng)、人人網(wǎng)到社交媒體、電商平臺(tái)的興起,社會(huì)正在經(jīng)歷個(gè)人化、去中心化和網(wǎng)絡(luò)社區(qū)自治的全新變革。今天,我們對(duì)個(gè)性化和所謂“私人定制”的推崇,都是來自于“自我的重現(xiàn)”這種隱喻,商業(yè)文化、教育產(chǎn)業(yè)和文化工業(yè)都非常重視發(fā)掘個(gè)體的價(jià)值。極度細(xì)分的市場(chǎng)和個(gè)性化需求,讓數(shù)字化不可避免地包羅萬象。每個(gè)碎片化的組群,都可以建立自己的網(wǎng)站、論壇、社區(qū),生產(chǎn)內(nèi)容和評(píng)論,看起來是民主程度大大提高,再小的聲音都能被聽到。但是過度分割、內(nèi)聚和個(gè)性化的數(shù)字化信息建構(gòu),導(dǎo)致碎片化的蔓延擴(kuò)張,有時(shí)它被描述為“信息繭房”,有時(shí)它被描述為思想觀念的巴爾干化,結(jié)果使我們當(dāng)前的政治、經(jīng)濟(jì)和思想形勢(shì)共識(shí)破裂、暗流涌動(dòng)、險(xiǎn)象環(huán)生。
1.數(shù)字驅(qū)動(dòng)新聞,多元/自閉成為悖論的存在
2012年,美國(guó)《新聞周刊》停止發(fā)行,只發(fā)行電子版。 2013年,《華盛頓郵報(bào)》虧損嚴(yán)重,被迫出售?!都~約時(shí)報(bào)》也停止了出紙質(zhì)報(bào)紙,改為網(wǎng)絡(luò)出版。2015年,《紐約時(shí)報(bào)》賣掉了所有與新聞收集無關(guān)的資產(chǎn),而專注于內(nèi)容付費(fèi)產(chǎn)品。國(guó)內(nèi)從2013年以來,不斷有報(bào)紙停刊、傳統(tǒng)新聞人出走其他行業(yè)的新聞,發(fā)行量和廣告收入呈現(xiàn)斷崖式下滑,而且還在不斷下跌;微博、微信、各種新聞APP正在成為我們獲取新聞的主要來源。種種跡象表明:傳統(tǒng)新聞業(yè)正在經(jīng)歷由盛而衰的過程。數(shù)字化技術(shù)改變了新聞業(yè),數(shù)據(jù)新聞的勃興,也僅僅表明新式新聞更多地借用程序員、設(shè)計(jì)師、計(jì)算機(jī)和算法的力量完成,這就破壞了新聞專業(yè)主義的行業(yè)傳統(tǒng)和價(jià)值基礎(chǔ)。更重要的是,數(shù)字化技術(shù)改變了新聞?dòng)∷I(yè)的合法性。人人都是記者編輯,無門檻的信息發(fā)布,消解了新聞的客觀性、真實(shí)性和專業(yè)性。
新聞的傳播者在變化,接受者也同樣發(fā)生著變化。新聞的“私人定制”,意味著個(gè)人獲得的信息內(nèi)容是建立在用戶過去搜索內(nèi)容的基礎(chǔ)上,建立在他們?yōu)g覽網(wǎng)站的歷史上,最后依據(jù)用戶在社交網(wǎng)站和自媒體上所寫下的內(nèi)容。這樣,個(gè)人就陷入了一個(gè)包裹自己的信息氣泡里,被算法貼上某種標(biāo)簽,歸入某個(gè)類別,“所見即所得”的結(jié)果在某種程度上都是根據(jù)以往的數(shù)據(jù)行為,這些行為已經(jīng)記入了個(gè)人的搜索檔案,并且根據(jù)后臺(tái)的分析一日日地加深了這種標(biāo)簽和印象。在算法專制主義的統(tǒng)治下,信息自主權(quán)和隱私權(quán)不過是一句空洞的口號(hào)。
2.算法控制和數(shù)字專制
算法的威力如此巨大,但我們卻越來越依賴于算法來告訴我們什么重要、什么不重要。2016年魏則西事件,后來雖然歸結(jié)為百度搜索的競(jìng)價(jià)排名規(guī)則的惡果,但是這也從另外一方面說明算法對(duì)我們的判斷所施加的影響。搜索引擎成為新的社會(huì)規(guī)范。我們依靠它提供事實(shí)——卻從不懷疑為什么是這些事實(shí)而不是那些事實(shí)。
社交媒體和熱搜取代了傳統(tǒng)的議程設(shè)置。加州大學(xué)歐文分校教授保羅·多爾希近年來專注于推特和社會(huì)熱點(diǎn)的研究。他指出,推特的熱門話題已經(jīng)被解讀為各種社會(huì)行為重要程度的標(biāo)志。這是一種新的議程設(shè)置,但不是由媒體做出的,而是通過網(wǎng)民參與和眾包分析得出的議程順序,算法能夠被賦予輿論引導(dǎo)的作用。新聞不再是隨機(jī)的、偶然的,而是有潛在的運(yùn)作規(guī)律和計(jì)算公式。新聞?lì)A(yù)測(cè)模型的出現(xiàn),相當(dāng)于人類成為了先知,取代了上帝的位置。
媒體的象征性權(quán)力由大眾媒介時(shí)代藉由知識(shí)/話語(yǔ)操控的權(quán)力游戲,轉(zhuǎn)變?yōu)椤叭巳硕际莻鞑フ摺睍r(shí)代的自主、自決和自治,這個(gè)轉(zhuǎn)移發(fā)生得如此迅速,猛烈和炫目?;ヂ?lián)網(wǎng)政治學(xué)中有一種樂觀的說法,叫做“數(shù)字烏托邦”,但是當(dāng)我們洞察算法的邏輯漏洞和數(shù)字專制后,不無悲哀地發(fā)現(xiàn),我們依然無法擺脫算法設(shè)定中的各種偏見。更何況,機(jī)器人寫作技術(shù)的運(yùn)用,正在把人類放逐到世界中心之外。它們被描述為“來自地球的入侵者”,機(jī)器人正在消滅包括新聞業(yè)在內(nèi)的許多傳統(tǒng)職業(yè),如記者編輯、攝影師、醫(yī)生、教師、作家和警察。
3.目標(biāo)篩選和匹配模型
在社會(huì)管理層面,算法可能會(huì)降低犯罪率。對(duì)于某些個(gè)體或人群,算法能夠有效預(yù)測(cè)其犯罪概率,如果這個(gè)概率足夠大,那么可能在他還沒有實(shí)施犯罪行為時(shí),他就已經(jīng)受到了監(jiān)視和懲處,此舉可以有效預(yù)防犯罪或降低罪行后果。算法能夠識(shí)別和篩選潛在的目標(biāo)對(duì)象,并針對(duì)性地采取措施。從預(yù)防大于懲處的角度來說,這種管理方式可能比亡羊補(bǔ)牢要優(yōu)越。今天,很多企業(yè)、政府和社會(huì)組織里都在建立自己的預(yù)測(cè)模型。阿里公司的人力資源管理(HR)系統(tǒng)過去叫做EHR(Electronic Human Resource),現(xiàn)在叫人工智能人力資源系統(tǒng)IHR (Intellectual Human Resource)。阿里內(nèi)部有個(gè)360評(píng)估系統(tǒng),就是對(duì)某個(gè)人進(jìn)行“360度的評(píng)價(jià)”加晉升面試,來決定這個(gè)人是否升職。但是這個(gè)360系統(tǒng)只看當(dāng)年的leadership數(shù)據(jù),比如主管、同儕、下屬、HR對(duì)你的評(píng)價(jià),以及你的任期內(nèi)員工的離職率、升職率等等。如果一個(gè)人在公司工作超過10年,就會(huì)積累大量的數(shù)據(jù)。而且,阿里內(nèi)部的組織結(jié)構(gòu)3個(gè)月一小調(diào),6個(gè)月一大調(diào),變化特別快,數(shù)據(jù)積累特別迅速。怎么科學(xué)地匹配和分析這些數(shù)據(jù),提高管理效率,是一個(gè)非常現(xiàn)實(shí)而迫切的需求。其次,阿里內(nèi)部有5萬員工,外加不停地收購(gòu)公司,人員內(nèi)部的流動(dòng)也十分頻繁,數(shù)據(jù)積累龐大。但現(xiàn)在還沒有適合的模型對(duì)這些數(shù)據(jù)進(jìn)行分析。還有就是,現(xiàn)有模型還不能做到盡量全方位評(píng)價(jià)一個(gè)人。人工智能HR系統(tǒng)急需升級(jí)。每個(gè)大公司和政府組織都會(huì)面臨這樣的問題,未來的傳播學(xué)研究,完全可以從計(jì)算傳播學(xué)和社會(huì)傳播學(xué)的交叉領(lǐng)域去做,有可能發(fā)現(xiàn)更加廣闊的研究空間。
數(shù)據(jù)、算法和新聞的結(jié)合,改變了新聞的采集、制作和傳播方式,也為個(gè)人參與社會(huì)生活提供了有力的武器。過去,從社會(huì)建構(gòu)的觀點(diǎn)來看,新聞傳播能夠?qū)崿F(xiàn)意義的建構(gòu)、話語(yǔ)的生產(chǎn)和認(rèn)同的重塑,無論是意義、話語(yǔ)還是認(rèn)同,我們都能看到主觀力量的影子。而在今天,算法控制著我們的生活、身體和思想,你以為的“自我”可能并非來自自己的真實(shí)內(nèi)心,而是在信息擬態(tài)環(huán)境、算法個(gè)性化推送的共同作用下,被“植入”相關(guān)程序,按指令行動(dòng)和思考的人體機(jī)器。算法問題反映的是時(shí)代的問題。在原子時(shí)代,決定人類命運(yùn)的是生產(chǎn)方式,而在比特時(shí)代,對(duì)人類命運(yùn)起作用的則變成了思維方式。算法是思維方式的技術(shù)基礎(chǔ),有什么樣的技術(shù)基礎(chǔ),就有什么樣的思維方式。這是算法討論的現(xiàn)實(shí)價(jià)值。算法能夠?yàn)槲覀児?jié)省信息查找的時(shí)間,在處理海量數(shù)據(jù),整合、對(duì)比、篩選信息和得出結(jié)論方面的效率無以匹敵,但是卻減少了因無法未卜先知而使人生充滿探險(xiǎn)樂趣和不確定性的迷人魅力。同時(shí)因?yàn)闅馀菪?yīng)和“信息繭房”的存在,它可能會(huì)強(qiáng)化個(gè)人偏見和刻板印象,使自我突破、超越與頓悟成為永無可能實(shí)現(xiàn)的泡影。我們依賴算法,相信算法,但須使用有度。無論如何,數(shù)據(jù)新聞中凸顯的人性都彌足珍貴,更值得我們保有和珍惜。
注釋:
① Paul Bradshaw.WhatIsDateJournalism?.http://datajournalismhandbook.org/1.0/en/introduction_0.html#sthash.4loxXvT 9.dpuf.
④⑤⑥⑦⑧ 劉凡平:《大數(shù)據(jù)時(shí)代的算法:機(jī)器學(xué)習(xí)、人工智能機(jī)器典型實(shí)例》,電子工業(yè)出版社2017年版,第25、37、115-116、174、188頁(yè)。
⑨ 數(shù)據(jù)來源:http://sohu.com/a/203910678_475950。