文/趙聆汐
數(shù)字出版是在傳統(tǒng)出版內(nèi)容上,通過各種數(shù)字化技術(shù)的運用而形成的一種新型出版產(chǎn)業(yè)。在數(shù)字出版中的關(guān)鍵技術(shù)包括以下幾個方面:
數(shù)據(jù)庫是數(shù)字出版的核心技術(shù),所有的電子出版物會以相應的規(guī)則,存儲于數(shù)據(jù)庫當中。數(shù)據(jù)庫出版系統(tǒng)能夠?qū)Τ霭鏄I(yè)中積累的數(shù)字化信息進行高效管理,通過自身技術(shù)優(yōu)勢的全面發(fā)揮,可為出版內(nèi)容的再利用提供途徑,一次制作完成的出版物,能夠?qū)崿F(xiàn)多次輸出,由此為圖書再版、跨媒體出版提供了強有力的技術(shù)支撐。
信息檢索技術(shù)最初被應用于圖書館的文獻檢索中,隨著相關(guān)技術(shù)的快速發(fā)展,如計算機技術(shù)、信息技術(shù)、網(wǎng)絡(luò)技術(shù)、AI 技術(shù)等,從而使得信息檢索技術(shù)隨之完善。檢索對象進一步擴展,從最初的只能檢索文獻,擴展至Web 內(nèi)容,并且檢索速度也得到顯著提升,它不但為數(shù)字出版的發(fā)展提供了技術(shù)支撐,而且還為人們的瀏覽式閱讀提供了便利條件。
該技術(shù)簡稱OCR,具體是指通過電子掃描設(shè)備,對打印出來的字符進行檢查,借助光暗檢測,對字符的形狀進行確定,借助特有的識別方式,將這些形狀轉(zhuǎn)譯成計算機文字。簡而言之,該技術(shù)是針對印刷體字符,運用光學成像原理和識別技術(shù),對文字進行加工處理的技術(shù)。由于該技術(shù)可對印刷質(zhì)量較差的文字進行有效識別,一般可以95%以上的識別率。因此,使其成為數(shù)字出版的重要技術(shù)之一。
該技術(shù)是指對出版內(nèi)容進行一次編輯和排版之后,采用不同的形式進行出版的技術(shù)。這里所指的跨媒體,即橫跨多種媒體平臺,包括圖書、報紙、刊物等平面媒體;網(wǎng)絡(luò)媒體、多媒體等等。對于出版社而言,跨媒體出版技術(shù)的應用,改變了產(chǎn)品的生產(chǎn)方式,形成以內(nèi)容為核心的出版模式,跨媒體的出版流程與傳統(tǒng)出版流程的對比如圖1所示。
場景分類是一種先進的信息處理技術(shù),借助一些特殊的方式,如過濾、特征提取等,可將原始聲音及影像中包含的數(shù)據(jù)信息,與計算機系統(tǒng)中存儲的大數(shù)據(jù)進行快速匹配,利用AI 技術(shù),對這些數(shù)據(jù)所處的場景類別進行識別。很多搜索引擎都是通過該技術(shù),對海量的圖片及視頻等信息進行分類。
2.2.1 自主選擇式
這種方式具體是指由出版機構(gòu)預先設(shè)計好具有場景類別的數(shù)字出版物列表,而用戶可以根據(jù)自己的興趣愛好及實際需要,對場景及數(shù)字出版物進行自主選擇。這是目前數(shù)字出版物市場中,運用場景分類進行相關(guān)內(nèi)容推薦的一種主流方式,其基礎(chǔ)是大數(shù)據(jù)分析,基本上可以滿足絕大多數(shù)用戶對數(shù)字出版物的閱讀需要。
2.2.2 自動式推薦
這種方式是指借助智能終端的運算及分析功能,對用戶當前所處的場景進行明確,并依據(jù)其曾經(jīng)在該場景下使用過的數(shù)據(jù),了解用戶感興趣的內(nèi)容,然后據(jù)此進行自動推薦。從本質(zhì)的角度上講,該方式歸屬于個性化推薦,其對于場景分類識別的要求相對較高。
由于用戶在不同的場景當中具有不同的需求,基于這一前提,大部分用戶希望能夠有一種綜合推薦方式,即興趣+場景。為了實現(xiàn)這一目標,可將兩種場景分類方式進行聯(lián)合運用,從而滿足用戶的需要。除此之外,也可按照不同的場景對數(shù)字出版物進行開發(fā),但在場景分類的應用初期階段,這種做法需要投入大量的人才物力,并且還會耗費很大的精力,所以尚需加大這方面的研究力度。
數(shù)字出版是以數(shù)字化技術(shù)作為核心,且具有網(wǎng)絡(luò)化的特點,由此為場景分類的實現(xiàn)提供了可能。以電子期刊及電子圖書數(shù)據(jù)庫等平臺為例,在這些平臺中,存儲著海量的出版資料,并且還包含諸多的用戶信息,因此可利用大數(shù)據(jù)進行分析。從數(shù)字出版機構(gòu)的角度上看,通過對前端用戶進行場景分類,可以實現(xiàn)數(shù)字出版的智能化升級。場景分類的具體實現(xiàn)策略如下:
2.3.1 加快數(shù)據(jù)共享
圖1:傳統(tǒng)出版與跨媒體出版的流程對比
從目前出版行業(yè)的總體情況上看,每一家數(shù)字出版機構(gòu)都有屬于自己的出版數(shù)據(jù),這些數(shù)據(jù)的共享程度相對較低,不利于場景分類過程中所需的大數(shù)據(jù)分析。因此,為實現(xiàn)數(shù)字出版的場景分類,建議各大數(shù)字出版機構(gòu)應當加快數(shù)據(jù)共享,在這一過程中,可以通過簽訂合同的方式,對利潤的分配比例進行確定,以免差產(chǎn)生不必要的糾紛。隨著數(shù)據(jù)資源的高度共享,能夠為場景分類在數(shù)字出版的應用提供條件在,對于促進我國數(shù)字出版業(yè)的持續(xù)發(fā)展具有重要的現(xiàn)實意義。
2.3.2 加強平臺合作
為滿足用戶的個性化需求,數(shù)字出版機構(gòu)可與相關(guān)的社交平臺進行合作,如微信平臺、微博平臺等等,從這些平臺中獲取場景分類所需的相關(guān)數(shù)據(jù),如用戶的興趣愛好、消費習慣等等,借此來為場景推薦提供詳細可靠的數(shù)據(jù)支撐,由此可使數(shù)字出版機構(gòu)獲取數(shù)據(jù)的成本大幅度降低。同時,數(shù)字出版機構(gòu)擁有豐富且高質(zhì)量的出版物資源,社交平臺則可從數(shù)字出版機構(gòu)中獲得這些內(nèi)容,從而達到雙贏的目標?,F(xiàn)階段,大量的數(shù)字出版機構(gòu)加入了社交平臺當中,為場景分類的實現(xiàn)提供了支撐。
綜上所述,在大數(shù)據(jù)時代到來的今天,推動了數(shù)字出版技術(shù)的發(fā)展,各種數(shù)字出版物隨之大幅度增多,與此同時,受眾群體也日益擴大。為了滿足用戶的閱讀需要,數(shù)字出版機構(gòu)應當加快場景分類的實現(xiàn),據(jù)此為用戶推薦更多符合個性化需求的數(shù)字刊物。