成竹雅 樓旭東
摘 要 數(shù)據(jù)是數(shù)據(jù)新聞的生命之源,數(shù)據(jù)的采集和挖掘直接影響數(shù)據(jù)新聞的內(nèi)容價值體現(xiàn),而新聞媒體在數(shù)據(jù)挖掘方面尚處于嘗試探索階段。文章從“數(shù)據(jù)源”著手,探尋制約數(shù)據(jù)新聞發(fā)展的因素,從數(shù)據(jù)外包、數(shù)據(jù)庫、數(shù)據(jù)眾籌三個方面探索數(shù)據(jù)新聞發(fā)展的解困之道。
關鍵詞 數(shù)據(jù)新聞;數(shù)據(jù)源;外包;數(shù)據(jù)庫;眾籌
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2018)03-0046-02
數(shù)據(jù)新聞基于大數(shù)據(jù)而發(fā)展,目前尚未成熟。數(shù)據(jù)新聞以數(shù)據(jù)為核心,以數(shù)據(jù)挖掘、處理和可視化表現(xiàn)為手段,以將受眾關注和需要的新聞信息用恰當?shù)墓适滦问匠尸F(xiàn)為落腳點,滿足受眾“窮盡數(shù)據(jù)”和“一目了然”的閱讀需求,進而引發(fā)受眾的自主理解和思考。
“數(shù)據(jù)源”即數(shù)據(jù)新聞的信息來源,是數(shù)據(jù)挖掘的基礎,更是數(shù)據(jù)新聞生產(chǎn)過程的源頭?!?017中國媒體人數(shù)據(jù)使用報告》顯示,95%以上的媒體人/自媒體人認為數(shù)據(jù)對于新聞創(chuàng)作重要,他們認為數(shù)據(jù)能夠使媒體通過掌握讀者信息實現(xiàn)精準選題和傳播,能夠豐富新聞內(nèi)容并有效提升新聞內(nèi)容
質(zhì)量。
由此可見,數(shù)據(jù)信息是數(shù)據(jù)新聞的生命之源,制約數(shù)據(jù)新聞發(fā)展的源頭因素便是數(shù)據(jù)信息缺乏。目前數(shù)據(jù)新聞的“數(shù)據(jù)源”主要有政府相關部門、企業(yè)/公司發(fā)布信息,專業(yè)信息資訊平臺、網(wǎng)絡公開信息、學術科研機構提供的研究報告所占比例相對較少,對數(shù)據(jù)的收集也更多沿襲傳統(tǒng)方式。然而,有限的數(shù)據(jù)資源和傳統(tǒng)的數(shù)據(jù)挖掘并不足以滿足數(shù)據(jù)內(nèi)容至上的數(shù)據(jù)新聞創(chuàng)作。
1 把握“數(shù)據(jù)源”存在的四大問題
第一,“數(shù)據(jù)源”較為單一,覆蓋范圍有限。英國的數(shù)據(jù)開放程度在全世界屈指可數(shù),從公共交通信息到國家人文地理,從立法信息到政府預算、環(huán)境污染,各類信息只要能夠公開的盡量毫無保留的向公眾開放,甚至制定相關法規(guī)對信息開放加以保護,設立開放數(shù)據(jù)研究院(ODI),為更多有需要的人提供開發(fā)數(shù)據(jù)的基礎和便利。除此之外,英國的媒體內(nèi)部會形成一個系統(tǒng)的數(shù)據(jù)庫,并與相關的科研機構、金融機構建立信息合作關系,確保新聞數(shù)據(jù)的完整和可靠,這也促進了媒體對數(shù)據(jù)的進一步深挖和報道。
我國信息公開和信息保密之間長期存在難以調(diào)和的矛盾,信息的開放性和完整度相比于發(fā)達國家都比較低,尤其是與政府相關的信息更為缺失。隨著互聯(lián)網(wǎng)信息產(chǎn)業(yè)的發(fā)展,近兩年我國國家統(tǒng)計局正在嘗試開放政府數(shù)據(jù),各地政府網(wǎng)站也開設相關政務信息公開頁面,但公開的數(shù)據(jù)是經(jīng)過篩選和整理發(fā)布,數(shù)據(jù)開放的深度和廣度有待拓展,層層限制制約著新聞報道的深度和廣度,影響政經(jīng)類數(shù)據(jù)新聞的生產(chǎn)和傳播效果。國內(nèi)數(shù)據(jù)新聞來源多來自媒體間素材引用、第三方信息服務商、公司企業(yè)所提供的數(shù)據(jù),這類數(shù)據(jù)均為收集簡單方便、不需要深入發(fā)掘、成本較低的二手數(shù)據(jù),但時效性差,數(shù)據(jù)的準確性和客觀性無法保證。
由此來看,國內(nèi)的數(shù)據(jù)新聞發(fā)展仍受限于數(shù)據(jù)信息制度上的缺失和對原始數(shù)據(jù)的自我開發(fā),數(shù)據(jù)新聞的數(shù)據(jù)也絕不能稱之為海量,所呈現(xiàn)處的數(shù)據(jù)新聞的廣度和深度也有待提升。
第二,數(shù)據(jù)收集自主能力不足。Excel是目前媒體人最普遍使用的數(shù)據(jù)工具,對于SQL、SPSS/SAS、Python和R語言等專業(yè)數(shù)據(jù)工具的使用普遍較少。即使面對大規(guī)模、大體量的數(shù)據(jù)信息,傳統(tǒng)的數(shù)據(jù)技能也不足以實現(xiàn)充分挖掘和分析處理。
目前中央電視臺、新華網(wǎng)、財新等不少媒體都在嘗試數(shù)據(jù)新聞,但是建立專門的數(shù)據(jù)新聞團隊從事數(shù)據(jù)新聞生產(chǎn)的媒體卻寥寥無幾。事實上在數(shù)據(jù)新聞團隊中,相比于傳統(tǒng)的記者、編輯,程序員的作用更加不容忽視。當前我國數(shù)據(jù)新聞從業(yè)者多為設計專業(yè)出身,對于數(shù)據(jù)的敏感度、數(shù)據(jù)中新聞的挖掘及運用數(shù)據(jù)驅(qū)動講故事的能力相對較弱,直接制約數(shù)據(jù)新聞的發(fā)展。
第三,與專業(yè)數(shù)據(jù)挖掘團隊的合作較弱。專業(yè)的數(shù)據(jù)挖掘公司與媒體間的合作較少,大多數(shù)的媒體基于內(nèi)部的數(shù)據(jù)收集中心獲取相關信息和數(shù)據(jù)的收集,多以團隊分工形式完成,發(fā)展較大的媒體會設置專門信息搜集部門,但總體來說數(shù)據(jù)量少、數(shù)據(jù)來源有限,對數(shù)據(jù)的挖掘和分析深度欠缺,對國外相關數(shù)據(jù)獲取能力低。目前國內(nèi)大數(shù)據(jù)公司層出不窮,在數(shù)據(jù)挖掘和人工智能方面也有了長足發(fā)展,針對不同行業(yè)、不同用戶可以提供定制化的數(shù)據(jù)解決方案,其主要客戶集中于企業(yè)、政府、金融投資等全球行業(yè)用戶。而與新聞媒體的合作尚處于嘗試階段,由于沒有成熟可行的合作模式,再加媒體對于信息數(shù)據(jù)需求不明確、不精準,導致企業(yè)面對龐大的數(shù)據(jù)庫無法有效篩選和提供服務。
第四,缺乏與社會化媒體的融合。在當前的傳播格局中,社會化媒體異軍突起,相對于電視、報紙等傳統(tǒng)媒體,社會化媒體的受歡迎程度屢創(chuàng)新高,受眾作為新生力量借社會化媒體平臺涌入傳播大潮,在很大程度上監(jiān)督、制約媒體的新聞活動。財新網(wǎng)和FT中文網(wǎng)利用新浪微博等社交媒體發(fā)起數(shù)據(jù)新聞話題討論,以話題的形式擴大數(shù)據(jù)新聞的傳播影響范圍,但是這樣的融合僅僅停留在低層次的“合作、流動”的層面上,沒有充分利用受眾的信息資源,未形成社會化媒體融合時代的新型商業(yè)模式,仍以原有的新聞模式生產(chǎn)新形態(tài)新聞報道。
事實上數(shù)據(jù)新聞本身兼具經(jīng)濟價值和社會價值,從數(shù)據(jù)的收集整理、加工到可視化呈現(xiàn)、故事闡述等一系列的復雜、有深度的生產(chǎn)活動都可借鑒國外有償新聞的高水平的新聞制作和數(shù)據(jù)處理服務模式,結合我國現(xiàn)有的經(jīng)濟體制和媒體環(huán)境,創(chuàng)新數(shù)據(jù)新聞發(fā)展商業(yè)模式,推動數(shù)據(jù)新聞在社會化媒體時代的精準營銷和推廣,為受眾提供更多的信息服務,實現(xiàn)媒體與受眾的信息雙贏。
2 從“源”探索解困之道
開放、系統(tǒng)、完整的數(shù)據(jù)平臺對數(shù)據(jù)新聞的發(fā)展至關重要,但完整的數(shù)據(jù)庫建設并非一朝一夕就能實現(xiàn),因此可以通過以下3個方面逐步形成。
第一,嘗試“數(shù)據(jù)”眾籌。互聯(lián)網(wǎng)和移動終端技術的繁榮為社交網(wǎng)絡媒體的發(fā)展提供了物質(zhì)基礎,微博、微信、微視頻、論壇等憑借愈發(fā)強大的影響力和傳播力聚集受眾,社會化網(wǎng)絡信息傳播的自發(fā)性和互動性優(yōu)勢凸顯,在滿足網(wǎng)民信息需求的同時賦予網(wǎng)民更大的自主權,進而網(wǎng)羅大量一手數(shù)據(jù)信息,也可以說社交網(wǎng)絡媒體產(chǎn)生的數(shù)據(jù)信息完成了“從群眾中來”這一環(huán)節(jié),對這些數(shù)據(jù)加以應用即是“到群眾中去”。國內(nèi)數(shù)據(jù)新聞媒體在這一方面的認識和實踐明顯滯后。
西蒙·羅杰斯曾言,Twitter已然成為新聞工作者的“理想工具”。目前數(shù)據(jù)挖掘技術的發(fā)展已經(jīng)使社交網(wǎng)絡產(chǎn)生的海量無序數(shù)據(jù)信息為媒體所用成為可能,并通過對分析數(shù)據(jù)發(fā)現(xiàn)新聞價值。2016年美國大選期間,《衛(wèi)報》《金融時報》等多家媒體通過抓取和分析Twiiter上的信息預測大選結果,通過分析特朗普個人Twitter研究其政治傾向和態(tài)度,觀察其與中國外交的觀點和立場。榮獲首屆數(shù)據(jù)新聞獎的“騷亂中的謠言”基于對260萬條Twitter信息的分析,以熱力圖的形式清晰展示謠言的傳播路徑,并揭示經(jīng)濟因素是引發(fā)社會騷動的真正原因。由此可見,社交網(wǎng)絡所產(chǎn)生的龐大數(shù)據(jù)是目前可為新聞媒體利用的最直接可行的信息寶藏,充分挖掘和利用將有助于推動我國數(shù)據(jù)新聞的發(fā)展。
第二,創(chuàng)新數(shù)據(jù)新聞外包鏈模式。從國內(nèi)媒體數(shù)據(jù)新聞來源來看,盡管數(shù)據(jù)來源渠道多、范圍廣,實際數(shù)據(jù)來源類型相對集中,多為他方提供的現(xiàn)有數(shù)據(jù),網(wǎng)絡用戶數(shù)據(jù)占比較低,數(shù)據(jù)信息有限。事實上,中譯語通、Palantir等國內(nèi)外專業(yè)的數(shù)據(jù)挖掘公司擁有相對完整的數(shù)據(jù)生態(tài)系統(tǒng),其掌握的數(shù)據(jù)體量龐大,可針對不同用戶定制信息服務,若嘗試將數(shù)據(jù)信息搜集、處理等工作外包給專業(yè)團隊,形成合理的合作模式,將會推動數(shù)據(jù)新聞的發(fā)展。
第三,逐步建成數(shù)據(jù)庫網(wǎng)絡。大數(shù)據(jù)產(chǎn)業(yè)的快速發(fā)展將全球開放的數(shù)據(jù)聚合形成豐富的數(shù)據(jù)信息資源,這對于數(shù)據(jù)新聞的發(fā)展是一個重要的契機。從目前國內(nèi)數(shù)據(jù)新聞報道所涉及的數(shù)據(jù)規(guī)模和體量來看,絕大多數(shù)都是低量級的結構化數(shù)據(jù),將第三方結構化數(shù)據(jù)以可視化的形式呈現(xiàn)[1]。也就是說目前國內(nèi)數(shù)據(jù)新聞并沒有實現(xiàn)基于海量數(shù)據(jù)挖掘之上的信息處理,可視化呈現(xiàn)方面僅僅是將結構化數(shù)據(jù)進行簡單的信息圖式的處理,尚處于數(shù)據(jù)新聞生產(chǎn)的起步階段。由此可見數(shù)據(jù)新聞的基礎在于獲取數(shù)據(jù),因此數(shù)據(jù)庫的建立尤為重要。從數(shù)據(jù)新聞在國內(nèi)興起到現(xiàn)在已有5年左右,各家媒體的新聞報道所呈現(xiàn)的數(shù)據(jù)都是有價值的資源,因此對現(xiàn)有新聞數(shù)據(jù)進行系統(tǒng)的整理和編制將會形成媒體內(nèi)部的小型數(shù)據(jù)庫,鏈接常用的數(shù)據(jù)來源,形成流動的數(shù)據(jù)信息平臺,再以通過建立媒體之間的數(shù)據(jù)共享和流動,初步建立數(shù)據(jù)庫網(wǎng)絡,實現(xiàn)數(shù)據(jù)信息的共享,有利于媒體間的共贏發(fā)展。
3 結束語
隨著數(shù)據(jù)技術的迅猛發(fā)展,數(shù)據(jù)新聞生產(chǎn)也需要在新的發(fā)展環(huán)境下尋求技術的支撐,尤其是從“新聞源”來拓寬數(shù)據(jù)新聞的信息覆蓋范圍,提升數(shù)據(jù)信息挖掘和處理的水平,有利于豐富數(shù)據(jù)新聞內(nèi)容,拓寬數(shù)據(jù)新聞發(fā)展的道路。
參考文獻
[1]沈甜.“數(shù)據(jù)新聞”在我國新媒體平臺的實踐與發(fā)展現(xiàn)狀探究[D].蘭州:蘭州大學,2016.