文/陳 珺 陳辛夷 蘇 宇
基于大數(shù)據(jù)的媒體傳播分析及影響力評(píng)估應(yīng)用創(chuàng)新
文/陳 珺 陳辛夷 蘇 宇
如何追溯新聞報(bào)道在融媒體、大數(shù)據(jù)環(huán)境下的全球?qū)崟r(shí)落地采用及傳播情況,有效評(píng)估新聞報(bào)道的綜合影響力、輔助采編決策,是媒體融合發(fā)展面臨的新課題。通過對(duì)跨媒體大數(shù)據(jù)融合技術(shù)、內(nèi)容智能比對(duì)技術(shù)、跨平臺(tái)傳播鏈路分析技術(shù)、媒體傳播影響力評(píng)估技術(shù)等技術(shù)上的創(chuàng)新,實(shí)現(xiàn)融合媒體報(bào)道在全球的實(shí)時(shí)落地采用、傳播分析和綜合影響力評(píng)估,構(gòu)建一套媒體傳播分析及影響力評(píng)估應(yīng)用體系,將有助于指導(dǎo)新聞媒體行業(yè)的采編決策,增強(qiáng)融合報(bào)道、對(duì)外報(bào)道傳播能力,提升媒體影響力。
大數(shù)據(jù);采用分析;媒體傳播分析;影響力評(píng)估
近年來,新媒體平臺(tái)的飛速發(fā)展,使得新聞報(bào)道發(fā)布和傳播渠道呈現(xiàn)多元化,從單一的平面媒體向多元化的新媒體及全媒體轉(zhuǎn)變,一條新聞報(bào)道往往會(huì)在報(bào)紙報(bào)刊、新聞網(wǎng)站、兩微一端和海外社交媒體等多種平臺(tái)和媒體形態(tài)上發(fā)布傳播,如何通過大數(shù)據(jù)技術(shù)和智能分析算法全面實(shí)時(shí)掌握新聞報(bào)道在跨平臺(tái)、多種媒體形態(tài)的落地采用和傳播影響力情況,輔助于采編決策,是媒體融合發(fā)展面臨的新課題和現(xiàn)實(shí)需求。
通過利用新興的大數(shù)據(jù)智能分析技術(shù),及時(shí)搜集處理互聯(lián)網(wǎng)海量信息,精確定位新聞報(bào)道在媒體上的落地采用信息,跨渠道多維度分析新聞傳播效果,評(píng)估稿件、專題、產(chǎn)品的綜合影響力,快速編制分析報(bào)告,是新聞信息生產(chǎn)全流程不可或缺的重要環(huán)節(jié),是構(gòu)建大數(shù)據(jù)驅(qū)動(dòng)采編和傳播決策的重要組成部分,對(duì)于新聞媒體的傳播能力建設(shè)具有重要的意義。
要實(shí)現(xiàn)基于大數(shù)據(jù)的實(shí)時(shí)、自動(dòng)和全面的新聞報(bào)道信息傳播分析和影響力評(píng)估,面臨著諸多的技術(shù)難題與挑戰(zhàn)。
挑戰(zhàn)一:如何利用分布式云計(jì)算技術(shù),及時(shí)準(zhǔn)確地獲取互聯(lián)網(wǎng)多來源、海量、異構(gòu)且動(dòng)態(tài)更新的媒體數(shù)據(jù)信息。融媒體傳播分析需要全媒體數(shù)據(jù),既需要獲取電子報(bào)刊類傳統(tǒng)媒體數(shù)據(jù),也需要獲取新聞網(wǎng)站、“兩微一端”和海外社交媒體平臺(tái)的數(shù)據(jù)。要實(shí)現(xiàn)自動(dòng)、實(shí)時(shí)監(jiān)測(cè)和采集各類平臺(tái),各種媒體形態(tài)的海量互聯(lián)網(wǎng)信息,每天需要解析、清洗、處理數(shù)百萬條到數(shù)千萬條異構(gòu)原始數(shù)據(jù),構(gòu)建多來源、海量和動(dòng)態(tài)的融合媒體大數(shù)據(jù)平臺(tái)存在很大的技術(shù)挑戰(zhàn)。
挑戰(zhàn)二:如何利用大數(shù)據(jù)分析與處理技術(shù),實(shí)現(xiàn)自動(dòng)、智能、及時(shí)、準(zhǔn)確的新聞報(bào)道落地采用分析計(jì)算?,F(xiàn)在的新聞報(bào)道種類豐富,包括文字、圖片圖表、視頻、多媒體等多種類型以及多種語(yǔ)種,想要從千差萬別的海量異構(gòu)媒體信息中及時(shí)識(shí)別和準(zhǔn)確定位采用,需要設(shè)計(jì)和不斷調(diào)整優(yōu)化不同類型報(bào)道的采用判定算法,能夠更加智能處理各類復(fù)雜情況,這個(gè)對(duì)分析技術(shù)是一個(gè)很大的挑戰(zhàn)。
挑戰(zhàn)三:如何利用報(bào)道內(nèi)容智能化關(guān)聯(lián)分析技術(shù),鏈接傳統(tǒng)媒體與新媒體的平臺(tái)傳播鴻溝,實(shí)現(xiàn)跨媒體平臺(tái)的內(nèi)容傳播分析。全媒體時(shí)代,報(bào)道信息跨媒體平臺(tái)進(jìn)行傳播,需要通過報(bào)道內(nèi)容智能化分析技術(shù)實(shí)現(xiàn)信息關(guān)聯(lián)和分析,全面掌握?qǐng)?bào)道信息的全媒體平臺(tái)傳播情況。
挑戰(zhàn)四:如何設(shè)計(jì)科學(xué)的傳播影響力評(píng)估指標(biāo)和評(píng)價(jià)體系,量化評(píng)價(jià)傳播貢獻(xiàn)。如何使媒體傳播影響力的測(cè)定更加科學(xué)、理性、全面、規(guī)范,如何建立一套科學(xué)合理的量化指標(biāo),實(shí)現(xiàn)新聞報(bào)道的傳播影響力定量分析和評(píng)價(jià),達(dá)到生產(chǎn)“苦勞”和影響“功勞”的綜合評(píng)價(jià)目的。
一套基于大數(shù)據(jù)的媒體傳播分析及影響力評(píng)估應(yīng)用體系由“一個(gè)平臺(tái)、一套知識(shí)庫(kù)、七個(gè)技術(shù)層級(jí)、六大應(yīng)用功能”組成,如圖1所示。
媒體大數(shù)據(jù)平臺(tái)采用先進(jìn)的大數(shù)據(jù)框架體系構(gòu)建,融合了傳統(tǒng)媒體(即新聞網(wǎng)站和電子報(bào)紙)、“兩微一端”(即微博、公眾微信號(hào)和移動(dòng)新聞客戶端)、海外社交媒體平臺(tái)(包括臉譜、推特和優(yōu)兔)等多種類型的媒體數(shù)據(jù),并積累了大量的媒體基礎(chǔ)信息,建立描述全球媒體屬性的媒體資料信息庫(kù)。
包括:數(shù)據(jù)總線層、數(shù)據(jù)采集層,數(shù)據(jù)接入層,數(shù)據(jù)整合層,數(shù)據(jù)資源層,業(yè)務(wù)分析層和應(yīng)用服務(wù)層。
數(shù)據(jù)總線層:實(shí)現(xiàn)整個(gè)平臺(tái)的底層硬件、數(shù)據(jù)資源、技術(shù)組件和功能應(yīng)用的通信鏈路?;诜?wù)總線技術(shù),解決多數(shù)據(jù)、多模塊、多應(yīng)用間的協(xié)同、共享、通信和管理,實(shí)現(xiàn)數(shù)據(jù)、模塊、應(yīng)用的服務(wù)化注冊(cè)、管理和調(diào)用以及數(shù)據(jù)、組件和應(yīng)用的服務(wù)化。
數(shù)據(jù)采集層:實(shí)現(xiàn)各渠道采集數(shù)據(jù)的統(tǒng)一采集管理,利用分布式云采集技術(shù),確保數(shù)據(jù)采集的及時(shí)性,構(gòu)建基礎(chǔ)網(wǎng)絡(luò)設(shè)施,確保網(wǎng)絡(luò)的高可用性以及代理資源的高可靠性。
數(shù)據(jù)接入層:實(shí)現(xiàn)新聞報(bào)道數(shù)據(jù)、互聯(lián)網(wǎng)新聞數(shù)據(jù)、“兩微一端”數(shù)據(jù)、社交媒體數(shù)據(jù)等的接入。
數(shù)據(jù)整合層:實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的抽取、轉(zhuǎn)化和融合。搭建分布式數(shù)據(jù)處理任務(wù)隊(duì)列,實(shí)現(xiàn)海量任務(wù)的ETL過程,對(duì)數(shù)據(jù)進(jìn)行初步的結(jié)構(gòu)化處理;針對(duì)異構(gòu)數(shù)據(jù),進(jìn)行精確字段抽取及格式化;對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行合法性校驗(yàn),過濾垃圾無用信息,對(duì)于不合法信息進(jìn)行日志記錄,有效數(shù)據(jù)則提交存儲(chǔ);根據(jù)源數(shù)據(jù)結(jié)構(gòu)將內(nèi)容解析出來,并進(jìn)行特殊字段的轉(zhuǎn)換。
圖1 系統(tǒng)總體架構(gòu)圖
數(shù)據(jù)資源層:實(shí)現(xiàn)異構(gòu)數(shù)據(jù)資源的融合存儲(chǔ)管理。處理后的結(jié)構(gòu)化數(shù)據(jù)將根據(jù)不同的數(shù)據(jù)類型加載到數(shù)據(jù)資源層的關(guān)系型數(shù)據(jù)庫(kù)、全文檢索數(shù)據(jù)庫(kù)、分布式文件系統(tǒng)上。
業(yè)務(wù)分析層:實(shí)現(xiàn)內(nèi)容智能分析、采用分析、傳播分析、影響力評(píng)估算法、數(shù)據(jù)統(tǒng)計(jì)等具體的數(shù)據(jù)分析處理。面對(duì)海量互聯(lián)網(wǎng)媒體數(shù)據(jù),為了高效、實(shí)時(shí)進(jìn)行數(shù)據(jù)處理,需要構(gòu)建一套高性能分布式實(shí)時(shí)計(jì)算環(huán)境,采用Hadoop+Spark的分布式計(jì)算框架可以最大限度地發(fā)揮軟硬件資源的計(jì)算能力。在此基礎(chǔ)上,構(gòu)建“兩套分析引擎”,其中:文本智能分析算法引擎負(fù)責(zé)自然語(yǔ)言處理領(lǐng)域的核心算法支持,包括:大規(guī)模文本聚類、實(shí)體信息抽取、句法分析、文本分類、自動(dòng)摘要、垃圾信息過濾和文本情感分析等。傳播分析及影響力分析引擎負(fù)責(zé)業(yè)務(wù)層面的模型算法實(shí)現(xiàn),包括:原創(chuàng)分析、稿件來源識(shí)別、首發(fā)識(shí)別、轉(zhuǎn)載轉(zhuǎn)引識(shí)別、傳播分析、影響力指標(biāo)體系構(gòu)建模型等。
應(yīng)用服務(wù)層:實(shí)現(xiàn)各類具體的功能模塊和集成應(yīng)用服務(wù),并提供對(duì)外數(shù)據(jù)服務(wù)。采用基于數(shù)據(jù)總線的分布式微服務(wù)集群架構(gòu),可以應(yīng)對(duì)當(dāng)業(yè)務(wù)壓力上升,服務(wù)器容量難以評(píng)估,小服務(wù)資源浪費(fèi)的問題,提高集群利用率。同時(shí),能夠提高IT架構(gòu)的靈活性,快速響應(yīng)業(yè)務(wù)環(huán)境變化及內(nèi)部需求對(duì)業(yè)務(wù)流程優(yōu)化提出的要求,最大限度復(fù)用現(xiàn)有IT資源,避免重復(fù)構(gòu)建。
傳統(tǒng)媒體報(bào)道分析應(yīng)用:實(shí)現(xiàn)新聞報(bào)道在紙媒、網(wǎng)媒、微信、客戶端上的全球跨平臺(tái)實(shí)時(shí)采用數(shù)據(jù)及互動(dòng)數(shù)據(jù)監(jiān)測(cè)分析。
新媒體報(bào)道分析應(yīng)用:實(shí)現(xiàn)微博微信賬號(hào)的實(shí)時(shí)監(jiān)測(cè)分析,包括對(duì)賬號(hào)粉絲量、發(fā)稿量、稿件內(nèi)容及互動(dòng)量的監(jiān)測(cè)分析。
海外社交媒體報(bào)道分析應(yīng)用:實(shí)現(xiàn)海外主流社交平臺(tái)上的帳號(hào)分析,貼文的內(nèi)容分析和傳播分析,與其他主流媒體賬號(hào)的對(duì)比分析,被海外媒體上引用的數(shù)據(jù)監(jiān)測(cè)分析等。
影響力評(píng)估指標(biāo)體系:實(shí)現(xiàn)新聞報(bào)道的跨渠道媒體傳播效果評(píng)估指標(biāo)體系,由全網(wǎng)影響力指數(shù)和不同渠道影響力指數(shù)構(gòu)成。針對(duì)每個(gè)傳播渠道,各指標(biāo)體系涵蓋閱讀、互動(dòng)、采用三個(gè)評(píng)估粒度。
專題分析應(yīng)用:實(shí)現(xiàn)針對(duì)重大專題報(bào)道的事件分析、報(bào)道分析和影響力分析。深度分析重大專題事件報(bào)道在全球媒體的傳播效果以及和同業(yè)媒體報(bào)道的傳播對(duì)比分析,分析該事件的發(fā)展趨勢(shì)、焦點(diǎn)脈絡(luò)、主要觀點(diǎn)、媒體和網(wǎng)民關(guān)注情況、輿論情感發(fā)展趨勢(shì),實(shí)現(xiàn)專題報(bào)道的影響力評(píng)估。
分析報(bào)告和數(shù)據(jù)可視化:實(shí)現(xiàn)新聞報(bào)道的多維度分析報(bào)告的自動(dòng)生成,能夠提供豐富的數(shù)據(jù)可視化展現(xiàn)。
利用分布式云采集技術(shù)、多源媒體數(shù)據(jù)融合技術(shù)和媒體數(shù)據(jù)云服務(wù)技術(shù),構(gòu)建媒體大數(shù)據(jù)平臺(tái),自動(dòng)采集引進(jìn)全球媒體網(wǎng)站、電子報(bào)紙、新媒體數(shù)據(jù)、海外社交媒體數(shù)據(jù)等,提升了站點(diǎn)覆蓋面、數(shù)據(jù)規(guī)模和更新速度。
部署了可采集全球中英文網(wǎng)站的分布式云采集端,通過本地采集和境外部署回傳數(shù)據(jù)。
實(shí)現(xiàn)自采數(shù)據(jù)和多個(gè)第三方數(shù)據(jù)的同步整合,融合和利用多方數(shù)據(jù)資源,形成多個(gè)數(shù)據(jù)云之上的“集合云”。
覆蓋廣泛的媒體數(shù)據(jù)類型,實(shí)現(xiàn)新聞、電子報(bào)紙、兩微一端和海外社交媒體等多種數(shù)據(jù)類型的實(shí)時(shí)動(dòng)態(tài)采集。
通過數(shù)據(jù)融合處理,面向各類應(yīng)用系統(tǒng)提供基礎(chǔ)數(shù)據(jù)云服務(wù)。
采用領(lǐng)先的文本語(yǔ)義分析技術(shù),結(jié)合業(yè)務(wù)規(guī)則,研發(fā)了具有自主知識(shí)產(chǎn)權(quán)的稿件采用智能比對(duì)技術(shù),能夠準(zhǔn)確定位新聞報(bào)道稿件在中英文媒體中的落地采用情況。
通過總結(jié)業(yè)務(wù)經(jīng)驗(yàn)和業(yè)務(wù)規(guī)則,并結(jié)合機(jī)器學(xué)習(xí)模型,不斷優(yōu)化和修正稿件準(zhǔn)確度判定參數(shù),形成了業(yè)務(wù)認(rèn)可的稿件采用判定規(guī)則和閾值設(shè)置。
利用算法實(shí)現(xiàn)了文字和圖片報(bào)道的自動(dòng)采用計(jì)算,不僅可以識(shí)別稿件顯性采用(標(biāo)注顯性關(guān)鍵詞的采用),還可以識(shí)別稿件隱形采用(未標(biāo)注顯性關(guān)鍵詞的采用)。
通過引入新興的Spark大數(shù)據(jù)流式處理框架,實(shí)現(xiàn)分鐘級(jí)的采用結(jié)果更新速度,可提供近實(shí)時(shí)的采用分析數(shù)據(jù)。
實(shí)現(xiàn)了英文稿件的自動(dòng)采用比對(duì)和傳播分析。
融媒體傳播時(shí)代,稿件的傳播往往跨越多個(gè)媒體平臺(tái)進(jìn)行傳播,而稿件在不同平臺(tái)之間的傳播關(guān)系往往難以關(guān)聯(lián)和發(fā)現(xiàn)。通過研發(fā)內(nèi)容智能化關(guān)聯(lián)分析技術(shù),解決傳統(tǒng)媒體與新媒體傳播鏈路識(shí)別問題,實(shí)現(xiàn)了單篇稿件的跨媒體采用落地。
積累主流媒體知識(shí)庫(kù),自動(dòng)關(guān)聯(lián)同一稿件的多個(gè)發(fā)布渠道,識(shí)別多媒體平臺(tái)發(fā)布產(chǎn)生的跨平臺(tái)傳播。
通過文本內(nèi)容相似特征比對(duì)技術(shù),識(shí)別不同媒體平臺(tái)中的同一稿件落地采用。
基于時(shí)間特征和內(nèi)容相似特征,自動(dòng)識(shí)別和關(guān)聯(lián)單篇稿件跨媒體平臺(tái)的傳播鏈路,追溯稿件傳播過程。
基于媒體大數(shù)據(jù)信息,基于內(nèi)容傳播指標(biāo)和受眾互動(dòng)指標(biāo),形成稿件綜合影響力評(píng)價(jià)模型,提供單篇稿件、線路和部門等多維度的影響力評(píng)價(jià)結(jié)果。
不同于已有的單純依靠粉絲數(shù)、關(guān)注數(shù)等影響力評(píng)價(jià)單一指標(biāo)體系,形成了數(shù)量評(píng)價(jià)指標(biāo)、內(nèi)容傳播指標(biāo)和受眾互動(dòng)指標(biāo)的綜合影響力評(píng)價(jià)指標(biāo)體系。
基于模糊綜合評(píng)價(jià)方法,提供影響力量化評(píng)價(jià)和計(jì)算模型,數(shù)量化稿件、線路和部門的影響力評(píng)價(jià)。
結(jié)合跨媒體傳播鏈路分析結(jié)果,融合多個(gè)媒體平臺(tái)維度的傳播影響指數(shù),提供融媒體和跨媒體影響力量化評(píng)價(jià)。
通過技術(shù)創(chuàng)新和應(yīng)用創(chuàng)新,構(gòu)建基于大數(shù)據(jù)的媒體傳播分析及影響力評(píng)估應(yīng)用體系,有助于指導(dǎo)新聞媒體行業(yè)的采編決策,增強(qiáng)融合報(bào)道對(duì)外報(bào)道傳播能力,提升媒體影響力:
實(shí)現(xiàn)了全網(wǎng)跨平臺(tái)的媒體監(jiān)測(cè),實(shí)現(xiàn)融合媒體報(bào)道在全球的實(shí)時(shí)落地采用、傳播分析和綜合影響力評(píng)估,形成了一套科學(xué)合理的新聞報(bào)道評(píng)價(jià)指標(biāo)。
解決了對(duì)外英文報(bào)道全球?qū)崟r(shí)監(jiān)測(cè)和落地采用統(tǒng)計(jì)的難題,通過量化分析,挖掘?qū)ν庥⑽母寮膫鞑ヌ卣?,有目?biāo)、有側(cè)重的進(jìn)行采編選題,實(shí)現(xiàn)英文稿件更加精準(zhǔn)有效傳播。
加強(qiáng)了對(duì)新媒體報(bào)道的監(jiān)測(cè),實(shí)現(xiàn)傳播效果的全面有效掌握,及時(shí)了解網(wǎng)民聚焦和互動(dòng)特征,進(jìn)行更有針對(duì)性的分析,有效指導(dǎo)采編決策。
實(shí)現(xiàn)對(duì)海外社交媒體運(yùn)營(yíng)、分析與決策輔助功能,通過對(duì)海媒賬號(hào)信息、貼文信息和互動(dòng)信息的監(jiān)測(cè)分析,實(shí)時(shí)掌握海媒運(yùn)營(yíng)情況,跟蹤國(guó)際主流媒體傳播熱點(diǎn),做到知己知彼,快速響應(yīng)。
實(shí)現(xiàn)新聞傳播影響力評(píng)估指標(biāo)體系,通過跨渠道、多維度的新聞傳播效果分析,評(píng)估新聞報(bào)道、專題、產(chǎn)品在落地傳播階段的綜合影響力,對(duì)比分析同業(yè)媒體的報(bào)道情況、互聯(lián)網(wǎng)傳播情況,便于報(bào)道指揮人員、采編人員、內(nèi)容運(yùn)營(yíng)人員調(diào)整產(chǎn)品結(jié)構(gòu)、報(bào)道資源分配、運(yùn)營(yíng)策略等。
為重大專題報(bào)道提供多維度的深入的數(shù)據(jù)分析、可視化展示及專題分析報(bào)告,全面掌握專題報(bào)道情況,充分體現(xiàn)專題報(bào)道成效,服務(wù)于采編決策。
[1]楊偉杰,戴汝為,崔霞. 一種基于信息檢索技術(shù)的網(wǎng)絡(luò)新聞?dòng)绊懥Ψ治龇椒╗J]. 軟件學(xué)報(bào),2009,20(9):2397-2406.
[2]王友忠,曾大軍,鄭曉龍等. 基于復(fù)雜網(wǎng)絡(luò)理論的互聯(lián)網(wǎng)新聞媒體分析[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2009,6(3):11-20.
[3]王君澤,曾潤(rùn)喜,杜洪濤. 基于網(wǎng)頁(yè)轉(zhuǎn)載關(guān)系判別的網(wǎng)絡(luò)輿情傳播態(tài)勢(shì)分析[J]. 情報(bào)雜志,2015,34(1):144-149.
(作者單位:新華通訊社通信技術(shù)局)
G206
A
1671-0134(2017)10-122-03
10.19483/j.cnki.11-4653/n.2017.10.051