杜志剛
媒體在大數(shù)據(jù)來源上具有優(yōu)勢,隨著數(shù)據(jù)規(guī)模的持續(xù)增大,如何將數(shù)據(jù)資源轉(zhuǎn)化為顯性價(jià)值是媒體經(jīng)營發(fā)展的重要課題。
目前國內(nèi)為數(shù)不多的關(guān)于大數(shù)據(jù)理論研究和分析文章中,對(duì)大數(shù)據(jù)對(duì)媒體尤其是中國媒體的沖擊形成了一致觀點(diǎn),大多數(shù)認(rèn)為媒體應(yīng)當(dāng)面對(duì)挑戰(zhàn),進(jìn)行戰(zhàn)略性轉(zhuǎn)型或變革。如上海交通大學(xué)新媒體與社會(huì)研究中心主任謝耘耕教授認(rèn)為,大數(shù)據(jù)時(shí)代帶來了挑戰(zhàn),媒體不僅需要考慮如何處理海量數(shù)據(jù),從中獲取有價(jià)值的信息,必須同時(shí)考慮加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā),以搶占時(shí)代發(fā)展前沿。也有學(xué)者認(rèn)為,“大數(shù)據(jù)”對(duì)傳統(tǒng)媒體的經(jīng)營管理方式構(gòu)成巨大沖擊。媒體經(jīng)營管理需要在新聞生產(chǎn)、受眾調(diào)查、效果研究等方面進(jìn)行創(chuàng)新,以應(yīng)對(duì)“大數(shù)據(jù)”的挑戰(zhàn)[1]。但也有學(xué)者認(rèn)為新聞媒體在大數(shù)據(jù)中應(yīng)當(dāng)緩行。如新華社新聞研究所新媒體研究中心王武彬就認(rèn)為,大數(shù)據(jù)并不一定適合媒體,在“大數(shù)據(jù)”浪潮中,屬于媒體業(yè)的想象空間并不多,“大數(shù)據(jù)”對(duì)媒體的價(jià)值非常有限,大多數(shù)媒體機(jī)構(gòu)在大數(shù)據(jù)領(lǐng)域并不具備顛覆創(chuàng)新和業(yè)務(wù)轉(zhuǎn)型的條件[2]。
那么,大數(shù)據(jù)時(shí)代媒體何去何從?首先要明確大數(shù)據(jù)的內(nèi)涵和特點(diǎn),并在此基礎(chǔ)上對(duì)大數(shù)據(jù)支持和反對(duì)中的疑問進(jìn)行分析,才可能理解媒體在大數(shù)據(jù)沖擊中該如何應(yīng)對(duì)。
一、大數(shù)據(jù)的內(nèi)涵及特點(diǎn)
根據(jù)維基百科和MBA智庫的界定,所謂大數(shù)據(jù)(Big data),是指無法在一定時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。通常,大數(shù)據(jù)本質(zhì)上是指大數(shù)據(jù)(處理)技術(shù),是指從各種各樣類型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力。大數(shù)據(jù)或者大數(shù)據(jù)時(shí)代的特征通??梢杂?個(gè)V(即Volume、Variety、Value、Velocity)來概括:
第一個(gè)特征是數(shù)據(jù)體量巨大(Volume)。21世紀(jì)前,人類全部印刷材料的數(shù)據(jù)量經(jīng)過折算,約是200PB(1PB=1024TB),而當(dāng)前個(gè)人計(jì)算機(jī)硬盤的標(biāo)配容量就為TB(1TB=1024GB)量級(jí);同時(shí)人類歷史上全部語言話語的數(shù)據(jù)量折算約為5EB(1EB=1024PB),而像谷歌、寶潔等大型公司僅公司內(nèi)部數(shù)據(jù)量就基本達(dá)到EB量級(jí)。數(shù)據(jù)總量的增長速率遠(yuǎn)超過去。
第二個(gè)特征是數(shù)據(jù)類型多樣(Variety)。大數(shù)據(jù)技術(shù)使得巨量的多種類型的非結(jié)構(gòu)化數(shù)據(jù),如網(wǎng)絡(luò)bbs、音視頻、多媒體以及物聯(lián)網(wǎng)等來源的數(shù)據(jù),成為可分析、可利用的數(shù)據(jù),這使得可處理數(shù)據(jù)無論是總量上還是類型上,遠(yuǎn)遠(yuǎn)超出普通技術(shù)可處理的以文本為主的傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)。
第三個(gè)特征是價(jià)值開發(fā)性大(Value)。雖然大數(shù)據(jù)因其體量巨大,單位數(shù)據(jù)價(jià)值密度低,如一部一小時(shí)的視頻內(nèi)容里有價(jià)值的數(shù)據(jù)可能只有一二秒,但通過合適的機(jī)器算法進(jìn)行“提純”后的價(jià)值總量仍然頗為可觀。
第四個(gè)特征是處理速度快(Velocity)。大數(shù)據(jù)通常是實(shí)時(shí)數(shù)據(jù),大多數(shù)還需要快速處理,因此, “快數(shù)據(jù)”是大數(shù)據(jù)區(qū)分傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。
二、反對(duì)媒體應(yīng)用大數(shù)據(jù)的疑慮分析
疑慮之一:大數(shù)據(jù)還只是炒作
目前媒體行業(yè)對(duì)“大數(shù)據(jù)”的理解存在誤讀和迷思,很多時(shí)候偷換了概念,談的是 “數(shù)據(jù)”或“大數(shù)據(jù)時(shí)代”,而非“大數(shù)據(jù)”。同時(shí),很多報(bào)道和討論中所引用的大數(shù)據(jù)案例,其實(shí)也并非真正的大數(shù)據(jù)案例。
事實(shí)上,從政府到大型企業(yè),如美國政府的大數(shù)據(jù)發(fā)展與研究的國家戰(zhàn)略計(jì)劃,Google、Facebook、YouTube、HP等公司,早已開始研發(fā)和全球布局,并已開始對(duì)外提供大數(shù)據(jù)分析業(yè)務(wù),而前兩年的云技術(shù)和數(shù)據(jù)挖掘技術(shù)等早已為大數(shù)據(jù)應(yīng)用提供技術(shù)基礎(chǔ)。雖然目前大數(shù)據(jù)僅僅處于早期階段,有概念炒作的成分,新概念層出不窮,但是我們非常確定不抓新概念肯定不會(huì)成功。
疑慮之二:大數(shù)據(jù)成本高
首先,大數(shù)據(jù)技術(shù)確實(shí)需要較高的成本,不僅對(duì)人力成本有極高要求,需要高薪聘請(qǐng)懂得如何使用Hadoop等工具的相關(guān)人才,而且實(shí)施流程上還要投入昂貴的設(shè)備購買費(fèi)用。但正如OBrien指出,“我并不是說新興企業(yè)就一定不該使用Hadoop,但就我所經(jīng)歷的眾多項(xiàng)目來看,小規(guī)模公司最好先從MySQL開始——畢竟大部分用戶的有價(jià)值數(shù)據(jù)也就在GB級(jí)別”。
其次,在大數(shù)據(jù)領(lǐng)域,Hadoop的低成本和高擴(kuò)展性是其關(guān)鍵因素。如一個(gè)處理PB級(jí)規(guī)模數(shù)據(jù)的Hadoop集群(125到250節(jié)點(diǎn))的費(fèi)用大約為100萬美元,而每個(gè)節(jié)點(diǎn)每年的費(fèi)用為4000美元。這對(duì)于企業(yè)級(jí)數(shù)據(jù)倉庫的花費(fèi)(1000萬~1億美元)來說只是一小部分。目前全球最大的科技公司都需要和PB級(jí)規(guī)模的數(shù)據(jù)打交道。然而,SAP的研究表明,95%的企業(yè)通常只需要使用0.5TB~40TB的數(shù)據(jù)。如果大家只有10TB甚至更少的數(shù)據(jù)需要加以分析,那么Postgres或其他一些典型處理系統(tǒng)就完全能夠搞定[3]。
最后,大部分?jǐn)?shù)據(jù)可能并不花錢或者花錢很少,絕大部分?jǐn)?shù)據(jù)是企業(yè)自身運(yùn)營過程中產(chǎn)生的數(shù)據(jù),還有相當(dāng)一部分?jǐn)?shù)據(jù)將通過政府開放數(shù)據(jù)庫共享得到。而數(shù)據(jù)的儲(chǔ)存則可以很容易地放在云空間里。
疑慮之三:媒體業(yè)掌握的數(shù)據(jù)資源有限
第一,媒體自身就生產(chǎn)大量的信息,同時(shí)也是各類信息傳播的主要媒介。媒體在長期運(yùn)營過程中,無論是記者的大量采訪文本、訪談錄音或是視頻影像資料,還是編輯處理來自記者和一般公眾的印刷或數(shù)字資料,其中大多數(shù)都是非結(jié)構(gòu)化數(shù)據(jù),在應(yīng)用大數(shù)據(jù)處理技術(shù)之前,這些只能封存在資料室作為備案而已。而在大數(shù)據(jù)時(shí)代,我們可隨時(shí)對(duì)此進(jìn)行數(shù)據(jù)挖掘,從而體現(xiàn)價(jià)值。如媒體通過對(duì)財(cái)經(jīng)類新聞的文本和視頻數(shù)據(jù)進(jìn)行處理,挖掘出具有規(guī)律性的信息出售給相關(guān)企業(yè),從而實(shí)現(xiàn)新聞信息價(jià)值的增值。
第二,媒體的數(shù)據(jù)更為客觀,可信賴性和價(jià)值開發(fā)程度高。大數(shù)據(jù)時(shí)代數(shù)據(jù)體量巨大,同時(shí)由于網(wǎng)絡(luò)、手機(jī)等的媒介賦權(quán),人人都可成為公共媒體,人人都可生產(chǎn)和發(fā)布內(nèi)容,媒介主體泛化明顯,信息源無限大量化,各類謠言、謊言、虛言、偏見的信息滿布社會(huì)化網(wǎng)絡(luò),依據(jù)此類不準(zhǔn)確信息所作的大數(shù)據(jù)分析顯然沒有什么可信度。在這種環(huán)境中,專業(yè)媒體,尤其是具有廣泛公眾基礎(chǔ)、長期經(jīng)營的傳統(tǒng)媒體,由于恪守新聞職業(yè)道德和媒體從業(yè)規(guī)范,其所產(chǎn)生的信息和數(shù)據(jù)在準(zhǔn)確性、可信度上自然較高,相應(yīng)的開發(fā)價(jià)值也就越大。
第三,大數(shù)據(jù)的意思并不是要搜集窮盡所有數(shù)據(jù),仍然只是要搜集那些重要的、相關(guān)的數(shù)據(jù)。對(duì)于獨(dú)特或獨(dú)占的數(shù)據(jù)才有單獨(dú)掌握和儲(chǔ)存的必要,對(duì)于大多數(shù)一般的、共享性數(shù)據(jù),完全可以放在公共云服務(wù)器中。毫無疑問,傳統(tǒng)大眾媒體掌握著大量的一手?jǐn)?shù)據(jù)和信息,尤其是其中的深度調(diào)查和專題采訪等,往往蘊(yùn)含著重要、獨(dú)占性信息,這成為媒體的一項(xiàng)重要核心優(yōu)勢。
疑慮之四:媒體業(yè)缺乏處理“大數(shù)據(jù)”的能力,缺乏軟件開發(fā)和運(yùn)營維護(hù)人才
一方面,面對(duì)任何新的技術(shù),人才和能力總是缺乏的。根據(jù)麥肯錫報(bào)告,僅美國市場上,近兩年數(shù)據(jù)挖掘的人才需求缺口就達(dá)到14萬~16萬,這正需要提前做好準(zhǔn)備。另一方面,目前已有大型專業(yè)公司提供大數(shù)據(jù)處理業(yè)務(wù),只要媒體提供數(shù)據(jù),分析業(yè)務(wù)就可外包出去。當(dāng)然長遠(yuǎn)來看,媒體需要培養(yǎng)熟悉媒介新聞信息傳播的專門數(shù)據(jù)分析人才。通過市場的倒逼,近兩年才興起的云技術(shù)和數(shù)據(jù)挖掘技術(shù)的火熱將會(huì)導(dǎo)致人才市場上培養(yǎng)出適合的人才。
三、支持媒體應(yīng)用大數(shù)據(jù)的要素分析
1. 大數(shù)據(jù)的數(shù)據(jù)質(zhì)量問題
在大數(shù)據(jù)時(shí)代,信息的搜集和數(shù)字化處理日益集中化,傳統(tǒng)的隨機(jī)抽樣方法被“全部數(shù)據(jù)的集合——大數(shù)據(jù)”所取代。以往隨機(jī)抽樣中的一些重要屬性,如抽樣的有效性、合理性和推理判斷能力變得不那么重要,而集合全部數(shù)據(jù),依據(jù)大數(shù)據(jù)技術(shù)進(jìn)行分析和研究才是關(guān)鍵所在。概而言之,傳統(tǒng)抽樣方法進(jìn)行的數(shù)據(jù)分析要搞清楚“為什么”才能進(jìn)行決策判斷,而在大數(shù)據(jù)時(shí)代,則可以直接根據(jù)“是什么”來下結(jié)論。這樣的結(jié)論是根據(jù)全體數(shù)據(jù)分析而得出,因此不受抽樣準(zhǔn)確性、個(gè)體特征等干擾因素的影響,精確性和預(yù)見性將更好。如媒體在作形勢趨勢報(bào)道和媒介評(píng)論時(shí),顯然大數(shù)據(jù)分析頗有價(jià)值。然而,大數(shù)據(jù)的準(zhǔn)確性完全依賴于數(shù)據(jù)的匯集,因此,一旦數(shù)據(jù)來源有缺陷,在“只問會(huì)怎么樣,不問為什么”的模式下,就很可能造成重大問題。
在社會(huì)化媒體時(shí)代,公民新聞和UGC的數(shù)量已遠(yuǎn)遠(yuǎn)超過傳統(tǒng)媒體所提供的新聞信息量,而前者中又往往充斥著各種虛假的、臆造的或甚至是故意誤導(dǎo)的信息。這些龐大蕪雜的信息一方面加大了數(shù)據(jù)處理工作量,另一方面又極大影響數(shù)據(jù)分析得出的結(jié)論,用錯(cuò)誤數(shù)據(jù)得出的決策建議必然導(dǎo)致可怕的后果。此外,大數(shù)據(jù)的運(yùn)用可以使得媒體能夠通過機(jī)器自動(dòng)生產(chǎn)新聞,如當(dāng)大量個(gè)體對(duì)某種文化產(chǎn)品迅速產(chǎn)生興趣時(shí),數(shù)據(jù)分析可以敏銳地監(jiān)測到這種趨勢。
2. 數(shù)據(jù)所有權(quán)和隱私權(quán)
首先,數(shù)據(jù)所有權(quán)競爭將嚴(yán)重影響國際傳播新秩序和媒體自身利益。基于國家競爭層面,數(shù)據(jù)所有權(quán)對(duì)國家信息安全至關(guān)重要?!八谷舻抢忡R門”事件表明,雅虎、蘋果、美國在線、微軟等國外互聯(lián)網(wǎng)公司或網(wǎng)絡(luò)媒體早已搜集和擁有全球用戶的相關(guān)數(shù)據(jù),而美國政府只不過是其中較為高端和特殊的數(shù)據(jù)用戶而已。從媒體全球競爭角度來看,國外媒體組織在利用這些數(shù)據(jù)上無疑比中國媒體具有更高優(yōu)勢,而中國最大的一些網(wǎng)絡(luò)媒體公司,所擁有的數(shù)據(jù)絕大多數(shù)只是中國國內(nèi)數(shù)據(jù),這必然影響中國各類媒體組織的國際傳播實(shí)力。由于大數(shù)據(jù)分析技術(shù)并非特別核心和關(guān)鍵的技術(shù),因此,未來的競爭可能主要集中在數(shù)據(jù)源的爭奪上。
其次,隱私權(quán)和新聞道德也為大數(shù)據(jù)時(shí)代媒體經(jīng)營提出了更大挑戰(zhàn)。2013年6月爆發(fā)的彭博社“窺探門”丑聞事件,從新聞業(yè)務(wù)運(yùn)營模式說來,具有重要的教訓(xùn)和借鑒意義。作為國際金融信息服務(wù)業(yè)的明星組織,彭博社媒體公司近年來日益發(fā)展壯大,其主要運(yùn)作模式在于融合商用數(shù)據(jù)與新聞業(yè)務(wù)。然而,很多時(shí)候,彭博社記者與編輯常常在保持新聞業(yè)務(wù)職業(yè)道德和與自己關(guān)聯(lián)的大客戶相關(guān)新聞報(bào)道時(shí)難以秉持客觀立場,使得媒體人突破新聞道德的束縛。丑聞中所凸顯的個(gè)人隱私保護(hù)、數(shù)據(jù)信息安全(尤其是國家金融信息安全)問題,也是日益引發(fā)民眾擔(dān)憂、各級(jí)媒體需要警醒和應(yīng)對(duì)的重要課題。真實(shí)是新聞的生命線,大眾知情權(quán)和個(gè)體隱私權(quán)也是新聞報(bào)道一個(gè)難以平衡的矛盾,但用誠信手段獲取新聞同樣是新聞的生命線。因此,新聞媒體應(yīng)當(dāng)準(zhǔn)確掌握新聞道德和新聞創(chuàng)造之間的度量。
四、媒體應(yīng)對(duì)與發(fā)展前瞻
以上分析表明,媒體在大數(shù)據(jù)來源上具有優(yōu)勢,隨著數(shù)據(jù)規(guī)模的持續(xù)增大,如何將數(shù)據(jù)資源轉(zhuǎn)化為顯性價(jià)值是媒體經(jīng)營發(fā)展的重要課題。這主要包含兩個(gè)重要環(huán)節(jié),一是如何將原始數(shù)據(jù)分析加工形成對(duì)媒體生態(tài)產(chǎn)業(yè)發(fā)展有意義的產(chǎn)品,二是如何將數(shù)據(jù)產(chǎn)品與媒體生態(tài)產(chǎn)業(yè)鏈內(nèi)各個(gè)環(huán)節(jié)與組織相匹配。實(shí)現(xiàn)了這兩個(gè)環(huán)節(jié),媒體組織的大數(shù)據(jù)戰(zhàn)略才能體現(xiàn)意義。
部分媒體組織(主要是網(wǎng)絡(luò)媒體以及部分正在數(shù)字化轉(zhuǎn)型的傳統(tǒng)媒體)正在利用新興技術(shù)來開發(fā)和利用新的數(shù)據(jù)源,媒體組織需要積極提升自己的數(shù)據(jù)管理能力,并且靈活地根據(jù)自身所涉及的數(shù)據(jù)活動(dòng)生命周期制定流程和開發(fā)功能軟件。在此之前,媒體組織應(yīng)當(dāng)明確如何開展數(shù)據(jù)戰(zhàn)略,具體來說,要搞清楚媒體組織對(duì)于期望利用這些數(shù)據(jù)來執(zhí)行什么任務(wù),以及數(shù)據(jù)質(zhì)量和精度處于何種級(jí)別。隨著組織大數(shù)據(jù)戰(zhàn)略項(xiàng)目的日趨成熟,考慮建立一套按照數(shù)據(jù)質(zhì)量或精確度分類的方法,這對(duì)進(jìn)行客戶的商業(yè)化數(shù)據(jù)開發(fā)很有必要。媒體組織應(yīng)當(dāng)開始逐漸采用大數(shù)據(jù)技術(shù)來處理非結(jié)構(gòu)化數(shù)據(jù),并在基于合法、道德的規(guī)范下進(jìn)行恰當(dāng)?shù)拿枋龊凸芾?,以便盡可能最有效地利用這些數(shù)據(jù)。
大數(shù)據(jù)對(duì)數(shù)字化生存的企業(yè)造成的沖擊是非常巨大的,新聞傳媒作為信息傳播的前沿行業(yè),其所面臨的沖擊和挑戰(zhàn)也必然存在。對(duì)于正面臨數(shù)字化轉(zhuǎn)型的媒體來說,如何應(yīng)對(duì)這次沖擊,需要均衡正反多方面的意見,進(jìn)行理性決策。面對(duì)大數(shù)據(jù)時(shí)代的沖擊,中國媒體需要結(jié)合自身特色,積極進(jìn)行轉(zhuǎn)型和創(chuàng)新發(fā)展思路,走出一條符合中國國情、符合傳播規(guī)律、符合社會(huì)所需的發(fā)展道路,這個(gè)過程中存在諸多機(jī)會(huì),也面臨許多挑戰(zhàn)。然而,不同于印刷革命,中國媒體沒有幾個(gè)世紀(jì)的時(shí)間去適應(yīng),能夠有的時(shí)間或許只有幾年。
(作者單位:天津商業(yè)大學(xué)公共管理學(xué)院,本文系天津哲學(xué)社會(huì)科學(xué)規(guī)劃項(xiàng)目“新媒介事件與轉(zhuǎn)型期政府公信力提升研究”的階段性成果,項(xiàng)目編號(hào):TJXC12-005)
參考文獻(xiàn)
[1]曾凡斌.大數(shù)據(jù)對(duì)媒體經(jīng)營管理的影響及應(yīng)對(duì)分析[J],出版發(fā)行研究,2013(2).
[2]王武彬.關(guān)于大數(shù)據(jù)的誤區(qū)與迷思[N]. 傳媒,2013-06-09.
[3]Forbes,福布斯:大數(shù)據(jù)帶來高成本 Hadoop需繼續(xù)完善[EB/OL]. http://www.csdn.net/article/2012-04-23/2804943, 2012-04-23.