■文/陳辛夷 康 潔
淺析基于商業(yè)智能的新聞采編業(yè)務(wù)流程數(shù)據(jù)分析挖掘
■文/陳辛夷 康 潔
隨著大數(shù)據(jù)時(shí)代的到來(lái),越來(lái)越多的企業(yè)采用商業(yè)智能的相關(guān)技術(shù),從生產(chǎn)、銷售等環(huán)節(jié)的數(shù)據(jù)中“淘金”,為企業(yè)決策層提供輔助決策。本文將商業(yè)智能關(guān)鍵技術(shù)應(yīng)用于新聞采編業(yè)務(wù),針對(duì)新聞生產(chǎn)業(yè)務(wù)的全流程,通過(guò)對(duì)全流程狀態(tài)分析、新聞生產(chǎn)力、傳播影響力等主題的數(shù)據(jù)分析挖掘,展示新聞采編發(fā)的流轉(zhuǎn)過(guò)程,展示采編部門和人員的生產(chǎn)效率,展示稿件的傳播影響力。文中介紹了商業(yè)智能的工作原理,對(duì)新聞采編業(yè)務(wù)流程數(shù)據(jù)分析挖掘方法進(jìn)行了深入研究。
商業(yè)智能;數(shù)據(jù)分析;數(shù)據(jù)挖掘
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的價(jià)值越來(lái)越受到各行業(yè)的重視。企業(yè)內(nèi)積累的大量業(yè)務(wù)流程數(shù)據(jù)迫切需要人們從中“淘金”。商業(yè)智能是能滿足企業(yè)這一迫切需求的有力工具,能將海量數(shù)據(jù)轉(zhuǎn)化為知識(shí),有助于從以往數(shù)據(jù)中發(fā)現(xiàn)業(yè)務(wù)趨勢(shì),為企業(yè)決策層提供輔助決策。Gartner調(diào)查顯示,2012年和2013年,BI已上升到全球CIO優(yōu)先考慮的十大技術(shù)的首位。
當(dāng)今傳統(tǒng)媒體轉(zhuǎn)型面臨嚴(yán)峻形勢(shì),而大數(shù)據(jù)將是媒體轉(zhuǎn)型的有力武器。在新媒體時(shí)代,用戶需要及時(shí)、準(zhǔn)確、個(gè)性化的新聞服務(wù)。數(shù)據(jù)挖掘可以幫助傳統(tǒng)媒體充分發(fā)揮人才資源優(yōu)勢(shì),提升品牌競(jìng)爭(zhēng)力和用戶黏性。在新聞采編業(yè)務(wù)中,存在大量流程數(shù)據(jù),在以往的采編系統(tǒng)中這些數(shù)據(jù)并未受到重視,而借助商業(yè)智能的相關(guān)技術(shù)對(duì)這些業(yè)務(wù)流程數(shù)據(jù)進(jìn)行分析挖掘,有助于提高采編全流程業(yè)務(wù)管理信息化水平,掌握?qǐng)?bào)道進(jìn)展情況、人員工作效率、稿件落地情況和傳播效果等。
商業(yè)智能又名商務(wù)智能(Business Intelligence,BI)。商業(yè)智能對(duì)數(shù)據(jù)進(jìn)行收集、管理,提供一系列技術(shù)和方法對(duì)企業(yè)的各類數(shù)據(jù)進(jìn)行分析。商業(yè)智能可以幫助企業(yè)的領(lǐng)導(dǎo)層從宏觀上掌握企業(yè)的運(yùn)轉(zhuǎn)情況,洞察潛在行業(yè)的機(jī)會(huì),輔助他們進(jìn)行決策。
商業(yè)智能幫助企業(yè)迅速發(fā)現(xiàn)問(wèn)題,提示企業(yè)管理者加以解決。具體到新聞采編行業(yè)來(lái)說(shuō),商業(yè)智能貼近媒體管理者的迫切訴求。通過(guò)對(duì)新聞傳播影響力的分析挖掘,使管理者可以清楚掌握新聞的傳播效果和影響力。
商業(yè)智能為新聞創(chuàng)造價(jià)值,幫助傳統(tǒng)媒體實(shí)現(xiàn)以“終端用戶為中心”的轉(zhuǎn)型升級(jí),通過(guò)對(duì)用戶行為的分析挖掘,可以對(duì)用戶群體按照性別、年齡、職業(yè)、地域等因素進(jìn)行分類或聚類,把用戶進(jìn)行群體細(xì)分,針對(duì)不同用戶推薦感興趣的新聞內(nèi)容,使媒體更懂用戶。
幫助在新聞生產(chǎn)的每個(gè)環(huán)節(jié)控制成本,通過(guò)新聞生產(chǎn)力的分析挖掘,展示各采編部門和人員的生產(chǎn)效率,為采編人員和部門考核提供依據(jù)。運(yùn)用商業(yè)智能的方法,可以提高決策的水平,對(duì)業(yè)務(wù)流程進(jìn)行改進(jìn),最終提高管理的效率。
及時(shí)性是新聞的基礎(chǔ),通過(guò)對(duì)互聯(lián)網(wǎng)海量數(shù)據(jù)的挖掘可以發(fā)現(xiàn)潛在的新聞熱點(diǎn)。比如:網(wǎng)絡(luò)媒體和新媒體中大量用戶的閱讀和評(píng)論數(shù)據(jù)可以輔助采編人員發(fā)現(xiàn)新聞熱點(diǎn)。
3.1 OLAP
即聯(lián)機(jī)分析,提供多維數(shù)據(jù)管理環(huán)境,使企業(yè)的數(shù)據(jù)分析人員能從多個(gè)維度對(duì)商業(yè)問(wèn)題進(jìn)行建模和分析。
3.2 數(shù)據(jù)分析
使用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)數(shù)據(jù)進(jìn)行分析,提取出有價(jià)值的信息。
3.3 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中挖掘出隱含的、未知的、有價(jià)值的關(guān)聯(lián)和模式,建立可用于決策的模型,提供分析風(fēng)險(xiǎn)、進(jìn)行預(yù)測(cè)的功能。
首先將分散在企業(yè)各系統(tǒng)中的數(shù)據(jù),包括關(guān)系型數(shù)據(jù)也包括非關(guān)系型數(shù)據(jù)進(jìn)行匯總,通過(guò)數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、清洗(Cleaning)、裝載(Load),最終按照預(yù)先定義好的數(shù)據(jù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中,這一過(guò)程簡(jiǎn)稱ETL。
通過(guò)對(duì)企業(yè)數(shù)據(jù)需求的分析,建立企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的邏輯模型和物理模型,將企業(yè)各類數(shù)據(jù)按照分析主題進(jìn)行組織和歸類。
在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上提供多種軟件工具供終端用戶查詢和生成報(bào)告,包括OLAP工具、數(shù)據(jù)挖掘軟件、報(bào)表工具等。
5.1 數(shù)據(jù)源
數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的采集需要從各種業(yè)務(wù)應(yīng)用系統(tǒng)和管理信息系統(tǒng)中獲取,如稿件建采系統(tǒng)、編輯系統(tǒng)、供稿系統(tǒng)、OA系統(tǒng)等,按照統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)存放在數(shù)據(jù)倉(cāng)庫(kù)中。
本文將采編業(yè)務(wù)系統(tǒng)數(shù)據(jù)劃分為靜態(tài)信息數(shù)據(jù)、動(dòng)態(tài)信息數(shù)據(jù)兩大類。
靜態(tài)信息數(shù)據(jù)是指相對(duì)穩(wěn)定的信息,主要指采編部門、采編人員、發(fā)稿線路等靜態(tài)屬性信息數(shù)據(jù)。
動(dòng)態(tài)信息數(shù)據(jù)收集在采編業(yè)務(wù)系統(tǒng)中不斷變化的流程數(shù)據(jù),包括采、編、簽、改、發(fā)、供、饋等環(huán)節(jié)。如何對(duì)新聞業(yè)務(wù)數(shù)據(jù),特別是用戶行為數(shù)據(jù)構(gòu)建數(shù)據(jù)模型,分析稿件流轉(zhuǎn)過(guò)程,將是本文著重介紹的內(nèi)容。
5.2 分析目標(biāo)
通過(guò)采集稿件、流程、人員和質(zhì)量數(shù)據(jù),進(jìn)行采編業(yè)務(wù)全流程的管理,掌握?qǐng)?bào)道進(jìn)展情況、人員工作效率、稿件落地情況、傳播影響效果等。從全流程狀態(tài)、傳播影響力、新聞生產(chǎn)力等主題進(jìn)行數(shù)據(jù)分析挖掘,呈現(xiàn)新聞生產(chǎn)業(yè)務(wù)運(yùn)行狀況。
新聞生產(chǎn)力分析:分析呈現(xiàn)采編部門、采編人員等在一段時(shí)間內(nèi)的工作效率。傳播影響力:分析呈現(xiàn)稿件的落地情況和傳播影響效果。全流程狀態(tài)分析:分析稿件在各采編環(huán)節(jié)的流轉(zhuǎn)情況。
5.3 數(shù)據(jù)建模
數(shù)據(jù)建模主要用到的是維度模型。一個(gè)度量往往和多個(gè)維度相關(guān),維度模型表達(dá)了數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。比如:想要了解2016年1月份在新媒體線路的中文稿件發(fā)稿情況,這個(gè)發(fā)稿量數(shù)據(jù)與線路、時(shí)間、語(yǔ)種三個(gè)維度相關(guān)。維度建模是從多個(gè)角度和層次反映數(shù)據(jù)之間的聯(lián)系,從多個(gè)維度對(duì)數(shù)據(jù)進(jìn)行重組,為決策提供數(shù)據(jù)的多維視圖。
維度模型有兩種不同性質(zhì)的表:事實(shí)表和維度表。
通常采用星型或雪花模型把事實(shí)表和維度表融合在一起,中間是事實(shí)表,周圍是維度表。
圖1 新聞發(fā)稿情況雪花模型示意
事實(shí)表存放的是業(yè)務(wù)性能的度量值。 一個(gè)事實(shí)代表一個(gè)業(yè)務(wù)度量值,如:發(fā)稿量。
維度表提供觀察度量值即事實(shí)的角度,如:線路、時(shí)間。
維度表的屬性列(如:語(yǔ)種包含中、英、法、意、日、阿、俄)是用戶使用數(shù)據(jù)的約束條件,同時(shí)也是數(shù)據(jù)分析時(shí)的切割工具,因此維度表的質(zhì)量與深度直接影響整個(gè)數(shù)據(jù)倉(cāng)庫(kù)的性能。
對(duì)于稿件的業(yè)務(wù)處理流程,本文采用處理維度進(jìn)行描述,屬性列對(duì)應(yīng)采編業(yè)務(wù)流程中的采稿、入庫(kù)、建稿、建新稿、編輯、簽發(fā)等環(huán)節(jié)。
在數(shù)據(jù)倉(cāng)庫(kù)中可以根據(jù)需要,建立多個(gè)應(yīng)用主題,本文建立了新聞生產(chǎn)力分析主題、傳播影響力分析主題和全流程狀態(tài)分析主題。
5.4 關(guān)鍵指標(biāo)體系
5.4.1 新聞生產(chǎn)力
在新聞生產(chǎn)力評(píng)估中可以采用生產(chǎn)率、人均生產(chǎn)稿件數(shù)量、投入人員占比等作為考核部門新聞生產(chǎn)力的指標(biāo),指標(biāo)值可根據(jù)時(shí)間匯總到年、季、月、雙周、周、日,可通過(guò)以下維度查看稿件數(shù)量的詳細(xì)情況:媒體類型、新聞分類、供稿類別、稿件處理流程。
表1 新聞生產(chǎn)力指標(biāo)
5.4.2 傳播影響力
在傳播影響力評(píng)估中,在本文中采用傳統(tǒng)媒體影響力指數(shù)、網(wǎng)絡(luò)媒體影響力指數(shù)、國(guó)內(nèi)媒體影響力指數(shù)、海外媒體影響力指數(shù)、海外社交媒體影響力指數(shù)、全網(wǎng)影響力指數(shù)為主要的指標(biāo)。其中全網(wǎng)影響力指數(shù)為其余五個(gè)指數(shù)的加權(quán)計(jì)算結(jié)果。
網(wǎng)絡(luò)媒體傳播影響力指數(shù)如下表,指標(biāo)值可根據(jù)時(shí)間匯總到年、季、月、雙周、周,可查看指標(biāo)在不同媒體上的詳細(xì)情況。
表2 網(wǎng)絡(luò)媒體傳播影響力指標(biāo)
5.4.3 全流程狀態(tài)分析
全流程狀態(tài)分析可實(shí)時(shí)監(jiān)測(cè)各指標(biāo)的變化情況,可通過(guò)以下維度查看指標(biāo)的詳細(xì)情況:稿件處理(采稿、入庫(kù)、建稿、建新稿、編輯、簽發(fā)等)、稿件媒體類型、稿件供稿類別。
表3 稿件組全流程狀態(tài)分析指標(biāo)
5.5 業(yè)務(wù)流程數(shù)據(jù)挖掘算法
在“以用戶為中心”的思想指導(dǎo)下,充分利用關(guān)聯(lián)規(guī)則、分類、聚類等數(shù)據(jù)挖掘技術(shù),對(duì)日常新聞業(yè)務(wù)數(shù)據(jù)進(jìn)行挖掘。本文采用以下方法對(duì)新聞業(yè)務(wù)用戶行為數(shù)據(jù)、全流程狀態(tài)數(shù)據(jù)等進(jìn)行分析。
5.5.1 關(guān)聯(lián)規(guī)則和序列模式
關(guān)聯(lián)規(guī)則用于分析用戶數(shù)據(jù),發(fā)現(xiàn)用戶行為模式。關(guān)聯(lián)規(guī)則描述數(shù)據(jù)項(xiàng)之間存在的關(guān)聯(lián)關(guān)系,即根據(jù)一個(gè)事務(wù)中某些項(xiàng)的出現(xiàn)推導(dǎo)出另一些項(xiàng)在同一事務(wù)中也出現(xiàn)。Apriori算法是關(guān)聯(lián)規(guī)則的經(jīng)典算法。關(guān)聯(lián)規(guī)則最初針對(duì)購(gòu)物籃分析問(wèn)題提出,即分析消費(fèi)者經(jīng)常同時(shí)購(gòu)買哪幾種商品。在新聞業(yè)務(wù)中,關(guān)聯(lián)規(guī)則挖掘可以找出新聞采編業(yè)務(wù)人員個(gè)人特征與稿件之間的關(guān)聯(lián)性;根據(jù)業(yè)務(wù)人員的關(guān)注點(diǎn)推薦相關(guān)稿件,將相同性質(zhì)的報(bào)道任務(wù)分配給適當(dāng)?shù)挠浾呋蚓庉嫛?/p>
5.5.2 時(shí)間序列分析
時(shí)間序列分析根據(jù)固定時(shí)間間隔來(lái)記錄事件結(jié)果。新聞業(yè)務(wù)系統(tǒng)每天固定時(shí)段處理稿件數(shù)變化,每月處理稿件數(shù),每季度總的發(fā)稿量等就是時(shí)間序列的案例。
分析時(shí)間序列數(shù)據(jù),可以借助一些可視化的手段,如:柱狀圖、折線圖,從而觀察出某些現(xiàn)象特征及行為,通常時(shí)間序列有四種主要的變化:
長(zhǎng)期或趨勢(shì)變化。用于反映長(zhǎng)期變化的總體方向,體現(xiàn)為趨勢(shì)線。
循環(huán)運(yùn)動(dòng)。體現(xiàn)為沿著趨勢(shì)線或者趨勢(shì)曲線長(zhǎng)時(shí)間的擺動(dòng),包括周期性和非周期性的擺動(dòng)。
季節(jié)性移動(dòng)或季節(jié)性變化。反映每年都重復(fù)出現(xiàn)的事件,體現(xiàn)為在連續(xù)幾年的同期重復(fù)出現(xiàn)相同或相似的模式。
非規(guī)律或隨機(jī)變化。由于偶然或隨機(jī)事件引起的變化。
數(shù)據(jù)挖掘技術(shù)應(yīng)用于新聞業(yè)務(wù)流程管理對(duì)數(shù)據(jù)的歸納、分析和處理精細(xì)化有重要幫助。通過(guò)獲取與分析用戶行為模式,分析以往采編流程數(shù)據(jù),全面掌握采編業(yè)務(wù)的運(yùn)作狀態(tài),了解采編人員的特點(diǎn),實(shí)現(xiàn)服務(wù)個(gè)性化、智能化。
在傳統(tǒng)媒體戰(zhàn)略轉(zhuǎn)型的迫切形勢(shì)下,需要依靠技術(shù)創(chuàng)新提升核心競(jìng)爭(zhēng)力和傳播影響力。大數(shù)據(jù)是內(nèi)容、渠道、服務(wù)的核心支點(diǎn),是傳統(tǒng)媒體轉(zhuǎn)型的有力推手。本文探討了在商業(yè)智能的通用框架下,數(shù)據(jù)分析挖掘技術(shù)在新聞采編業(yè)務(wù)流程數(shù)據(jù)上的應(yīng)用。通過(guò)對(duì)新聞生產(chǎn)力、傳播影響力、全流程狀態(tài)的分析挖掘,使用先進(jìn)的方法和工具,梳理采編業(yè)務(wù)流程,識(shí)別行為數(shù)據(jù)產(chǎn)生點(diǎn)和管理控制點(diǎn)并進(jìn)行指標(biāo)體系設(shè)計(jì),幫助決策者把握業(yè)務(wù)發(fā)展方向。隨著大數(shù)據(jù)時(shí)代的發(fā)展,商業(yè)智能相關(guān)技術(shù)的應(yīng)用將助力媒體融合,為傳統(tǒng)媒體戰(zhàn)略轉(zhuǎn)型提供有力支持。
[1]張良均,陳俊德等.數(shù)據(jù)挖掘?qū)嵱冒咐治鯷M].北京:機(jī)械工業(yè)出版社,2013(7): 18-30.
[2]陳哲.數(shù)據(jù)分析企業(yè)的賢內(nèi)助[M].北京:機(jī)械工業(yè)出版社,2015(5):1-27.
[3] Ralph Kimball,Margy Ross.數(shù)據(jù)倉(cāng)庫(kù)工具箱(第三版)[M].北京:清華大學(xué)出版社, 2015(1):5-11.
(作者單位:新華社技術(shù)局)
G210.7
A
1671-0134(2017)12-118-03
10.19483/j.cnki.11-4653/n.2017.03.030