劉元生
(安徽新聞出版職業(yè)技術(shù)學(xué)院新聞傳播系,合肥 230601)
信息技術(shù)的發(fā)展催生了海量數(shù)據(jù),數(shù)據(jù)來源的渠道不僅包括網(wǎng)絡(luò)內(nèi)容,還包括社交媒體。而將海量數(shù)據(jù)快速加以歸納、計算和分析,得出商業(yè)價值高的信息,這就是大數(shù)據(jù)。大數(shù)據(jù)技術(shù)將會是出版業(yè)下一個前沿技術(shù)競爭力的主要應(yīng)用。
科技的發(fā)展從來不以人的意志為轉(zhuǎn)移。網(wǎng)絡(luò)傳播和數(shù)字技術(shù)給全球出版業(yè)帶來了新業(yè)態(tài)與新格局,告別“鉛與火”、迎來“光與電”的傳統(tǒng)出版業(yè)已經(jīng)邁入了數(shù)字全媒體出版時代。數(shù)字出版是將傳統(tǒng)出版內(nèi)容通過計算機(jī)、網(wǎng)絡(luò)與多媒體、存儲與顯示以及傳播技術(shù),使其出版過程及產(chǎn)品形態(tài)數(shù)字化,融合并超越了傳統(tǒng)出版。伴隨移動互聯(lián)網(wǎng)的興起,移動出版實現(xiàn)了傳統(tǒng)出版在數(shù)字生產(chǎn)和移動傳播方面的突破,將數(shù)字出版的內(nèi)容通過智能移動設(shè)備和移動網(wǎng)絡(luò)進(jìn)行傳播,成為數(shù)字出版的一種潮流。而在社會自媒體的強(qiáng)力推動下,電子自出版平臺的蓬勃興起,使自出版挑戰(zhàn)傳統(tǒng)出版規(guī)則,開始獨(dú)領(lǐng)風(fēng)騷,甚至可能顛覆傳統(tǒng)出版業(yè)。
總之,通過互聯(lián)網(wǎng)、移動網(wǎng)絡(luò)以及社交媒體、云計算發(fā)展的數(shù)字形式出版,因其產(chǎn)品內(nèi)容的數(shù)字化、產(chǎn)品形態(tài)的數(shù)字化、生產(chǎn)流程的數(shù)字化、產(chǎn)品傳播的數(shù)字化以及閱讀與學(xué)習(xí)形式的數(shù)字化,使其成為出版業(yè)大數(shù)據(jù)采集的重要來源和參考依據(jù)。
傳統(tǒng)出版行業(yè)的數(shù)據(jù)來源于選題數(shù)量、印刷數(shù)量、發(fā)行數(shù)量、重印數(shù)量和銷售數(shù)量等。而數(shù)字出版需要借助計算機(jī)或終端設(shè)備將所有的出版內(nèi)容信息都轉(zhuǎn)換成0和1的代碼,不僅包括數(shù)字化出版內(nèi)容、數(shù)字化編輯過程、數(shù)字化復(fù)制掃描,還包括數(shù)字化發(fā)行銷售以及數(shù)字閱讀消費(fèi)化等,所有這些數(shù)字化的信息均存儲于光、磁介質(zhì)中。比如,以文字為起點(diǎn)的閱讀,在數(shù)字技術(shù)的支撐下,一本純文字小說書的數(shù)據(jù)、帶有圖片的相關(guān)學(xué)習(xí)資料,甚至一段帶有聲音、視頻、動畫等多媒體作品的讀物,所占空間都不算大。因此,傳統(tǒng)數(shù)字出版產(chǎn)品形態(tài)的典型特點(diǎn)是“小數(shù)據(jù)”生產(chǎn)與制作。
知識的碎片化、讀者的興趣點(diǎn)以及豐富多彩的閱讀體驗是數(shù)字出版帶給讀者的直接感受。閱讀內(nèi)容和興趣的深度挖掘、知識的重新發(fā)現(xiàn)與內(nèi)容組織,乃至閱讀信息本身的智能型分析與匹配、數(shù)據(jù)關(guān)系的智能服務(wù)等,正是出版業(yè)所要解決與處理的大數(shù)據(jù)。大數(shù)據(jù)具有“4V”特征,即Volume Big(數(shù)據(jù)容量大)、Variable Type(數(shù)據(jù)類型多)、Velocity Fast(數(shù)據(jù)處理速度快)以及Value High(數(shù)據(jù)價值高)。
互聯(lián)網(wǎng)由Web2.0發(fā)展到Web3.0,互聯(lián)網(wǎng)上的大數(shù)據(jù)主要有基于用戶消費(fèi)的數(shù)據(jù)、基于用戶行為的數(shù)據(jù)、基于地理位置的數(shù)據(jù)和基于社交網(wǎng)絡(luò)的數(shù)據(jù)等。大數(shù)據(jù)生成主要來自PGC(專業(yè)生成內(nèi)容)、UGC(用戶生成內(nèi)容)、OGC(職業(yè)生產(chǎn)內(nèi)容)和DGC(設(shè)備生成內(nèi)容)。出版業(yè)的大數(shù)據(jù)主要來自企業(yè)管理數(shù)據(jù)、作者的寫作過程數(shù)據(jù)、發(fā)表的作品內(nèi)容數(shù)據(jù)、讀者的閱讀行為習(xí)慣數(shù)據(jù)以及其他衍生數(shù)據(jù)。其中,企業(yè)管理數(shù)據(jù)主要包括出版系統(tǒng)、發(fā)行管理系統(tǒng)以及作者管理系統(tǒng)數(shù)據(jù),如生產(chǎn)記錄、財務(wù)記錄、管理記錄、資源統(tǒng)計等;過程數(shù)據(jù)主要包括作者的選題、思維過程以及對作品的修改記錄等;發(fā)表的作品內(nèi)容包括用戶發(fā)表的網(wǎng)絡(luò)文學(xué),博客、微博、QQ、微信等實時交流的內(nèi)容;讀者的行為數(shù)據(jù)指用戶圍繞作品而執(zhí)行瀏覽、點(diǎn)擊、閱讀、搜索、購買行為等;閱讀的衍生數(shù)據(jù)主要是對作品的評價、閱讀交流以及后期分享等。
大數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)上主要分為:結(jié)構(gòu)化數(shù)據(jù)(數(shù)據(jù)結(jié)構(gòu)字段含義確定、清晰)、半結(jié)構(gòu)化數(shù)據(jù)(具有一定結(jié)構(gòu),但語義不夠確定)和非結(jié)構(gòu)化數(shù)據(jù)(雜亂無章、很難按照一個概念去進(jìn)行抽取、無規(guī)律性)。出版領(lǐng)域的結(jié)構(gòu)化數(shù)據(jù)通過關(guān)系數(shù)據(jù)庫來存儲,主要包括出版社的ERP、財務(wù)系統(tǒng)、作者、讀者、書籍等作品的基礎(chǔ)信息。半結(jié)構(gòu)數(shù)據(jù)主要通過關(guān)系數(shù)據(jù)庫或半結(jié)構(gòu)原生數(shù)據(jù)庫來存儲,包括郵件、報表、出版的內(nèi)容、版式的設(shè)計以及相關(guān)的元數(shù)據(jù)等文件。非結(jié)構(gòu)數(shù)據(jù)通常使用關(guān)系數(shù)據(jù)庫中的特定數(shù)據(jù)類型或文件夾進(jìn)行存儲,主要包括音頻、視頻、圖像、動畫等文件。
大數(shù)據(jù)不僅是一種資源,也是一種生產(chǎn)工具。利用大數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,可以判斷出版業(yè)的發(fā)展趨勢,進(jìn)而進(jìn)行商業(yè)業(yè)態(tài)的創(chuàng)新和商業(yè)價值的開發(fā)。
不同來源、不同結(jié)構(gòu)的大數(shù)據(jù)經(jīng)過提取、整合、分析、解釋、理解、挖掘處理等操作,對于出版業(yè)將會產(chǎn)生巨大的影響。處理分析挖掘后的大數(shù)據(jù)應(yīng)用主要體現(xiàn)在以下幾個方面:
智能預(yù)測是大數(shù)據(jù)應(yīng)用的重要功能之一。出版商可以通過對用戶瀏覽記錄、支付記錄、消費(fèi)者評論、評價等海量用戶行為數(shù)據(jù)的挖掘和分析,準(zhǔn)確把握受眾的興趣,并將當(dāng)前熱點(diǎn)話題作為可選擇的內(nèi)容主題,取權(quán)威數(shù)字,以焦點(diǎn)人物和流行人物為作者候選人,準(zhǔn)確定位目標(biāo)受眾群體,細(xì)分個性化市場,估計市場容量,準(zhǔn)確傳遞內(nèi)容,提醒用戶路過的商店是否有相應(yīng)的產(chǎn)品正在促銷,以此擊中暢銷書的“金礦”。例如,經(jīng)典神劇《紙牌屋》在這方面就成功演繹了大數(shù)據(jù)的神話,出品方兼播放平臺Netflix在搜集用戶3000萬條播放記錄、300萬次的主題搜索、400萬條評論的大數(shù)據(jù)中,選擇人氣最高的大衛(wèi)·芬奇和著名影星凱文·斯派西擔(dān)任該劇的導(dǎo)演和主演,一個季度就使得美國市場新增用戶達(dá)到3342萬,收入增長了500%。
美國沃爾瑪“啤酒與尿布”購物籃分析法就是對超市一年多原始交易的數(shù)據(jù)進(jìn)行詳細(xì)分析,總結(jié)得出,美國的年輕媽媽們總會讓爸爸在下班后去購買嬰兒尿布,而爸爸選擇尿布后總是附帶上自己喜愛的啤酒。因此,超市就干脆將啤酒與尿布捆綁在一起銷售,并獲得了很好的銷售業(yè)績,“啤酒與尿布”也因此成為營銷界的一個神話。出版機(jī)構(gòu)的大數(shù)據(jù),不僅可以用于選題策劃,還可以根據(jù)大數(shù)據(jù)分析的結(jié)果進(jìn)行內(nèi)容的個性定制。在數(shù)字閱讀時代,出版業(yè)可以憑借大數(shù)據(jù)技術(shù)精準(zhǔn)捕獲用戶的瀏覽和消費(fèi)行為,包括何時、何地、看了哪些書等信息。讀者的閱讀偏好和瀏覽趨勢是出版業(yè)必須獲取的重要資源,再加上大數(shù)據(jù)分析技術(shù)來有效把握讀者的需求,并以自己的專業(yè)能力影響、引導(dǎo)讀者的興趣,凝聚他們的創(chuàng)意、提煉他們的思想,出版者就可以將個性化的內(nèi)容推送給特定用戶,實現(xiàn)真正的個性定制和按需出版。
未來,大眾化的數(shù)字產(chǎn)品都可以歸結(jié)為一種“游戲”。數(shù)字出版物在全媒體時代是豐富多彩的,包括圖片、音效、音樂和動畫。最典型的例子就是可穿戴電子產(chǎn)品的開發(fā),其可以通過指尖滑動、眼睛旋轉(zhuǎn)或手臂擺動來獲得信息和無與倫比的樂趣。并且一旦經(jīng)歷之后,就會想把這些信息分享給大家。關(guān)注、交流和分享,會引發(fā)人們更多的互動內(nèi)容,引導(dǎo)信息和知識的自我生成和自我組織。出版者通過數(shù)字內(nèi)容智能分析工具對數(shù)字內(nèi)容閱讀平臺進(jìn)行智能分析,可以實時挖掘受眾最為真實的在線消費(fèi)體驗和閱讀需求,從而對數(shù)字出版的效果給予科學(xué)的評估。例如,中國太平洋保險在國內(nèi)首次推出“大數(shù)據(jù)客戶體驗”報告,并在每年的國際消費(fèi)者權(quán)益日深度推行大數(shù)據(jù)客戶體驗報告,旨在反映客戶體驗的痛點(diǎn),接受客戶和公眾的監(jiān)督。
大數(shù)據(jù)不僅改變了人們的閱讀習(xí)慣和閱讀方式,也改變了用戶的預(yù)期。最明顯的特點(diǎn)是,網(wǎng)民與消費(fèi)者之間的界限正在逐漸消失,他們更希望企業(yè)能夠了解他們,了解他們的偏好和需求,并與他們保持個性化的聯(lián)系。作為內(nèi)容提供商的主體,出版者必須完成從內(nèi)容提供商到服務(wù)提供商的定位轉(zhuǎn)換,這就意味著出版者需重新認(rèn)識和定位數(shù)字出版,不再將發(fā)展數(shù)字出版僅僅停留在數(shù)字化內(nèi)容的建設(shè)上,而是開始從消費(fèi)服務(wù)的模式來建構(gòu)內(nèi)容產(chǎn)業(yè),讓個性化、精準(zhǔn)化的智能服務(wù)成為現(xiàn)實。