【摘要】隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計算的技術(shù)發(fā)展催生了大數(shù)據(jù)的產(chǎn)生。出版行業(yè)的大數(shù)據(jù)也隨著與電商的合作、互聯(lián)網(wǎng)的銷售推廣以及出版數(shù)據(jù)分析而逐步深入。本文通過對書號、條碼、在版編目(CIP)系統(tǒng)的研究,提出大數(shù)據(jù)時代構(gòu)建出版信息服務(wù)平臺的幾點設(shè)想。
【關(guān)鍵詞】大數(shù)據(jù)時代;構(gòu)建;信息平臺
隨著大數(shù)據(jù)引領(lǐng)的智慧科技時代的來臨,數(shù)據(jù)資源整合、全媒體融合以及通過對數(shù)據(jù)的挖掘?qū)崿F(xiàn)個性化信息定制服務(wù)等,已經(jīng)成為出版業(yè)數(shù)字化轉(zhuǎn)型和產(chǎn)業(yè)重構(gòu)的重要因素。如何為出版業(yè)在大數(shù)據(jù)時代的數(shù)字化轉(zhuǎn)型提供有效的出版信息資源服務(wù),中國版本圖書館(新聞出版總署條碼中心)書號、條碼、在版編目數(shù)據(jù)信息服務(wù)系統(tǒng)的構(gòu)建對于出版行業(yè)的發(fā)展起著重要作用。本文就大數(shù)據(jù)時代如何構(gòu)建好出版信息服務(wù)平臺提出如下幾點思考。
一、目前我國出版信息服務(wù)系統(tǒng)現(xiàn)狀
2010年4月,新聞出版總署黨組將中國條碼中心和新聞出版總署信息中心(中國版本圖書館)進行全面整合,成立了新的“中國版本圖書館(新聞出版總署條碼中心)”。賦予了中國版本圖書館(新聞出版總署條碼中心)對出版物的書號、條碼和在版編目(CIP)信息數(shù)據(jù)技術(shù)編制和管理等新的職能。新組建了出版物標識部,意在將出版物印前信息到樣本信息組合成為一條完整的數(shù)據(jù)鏈。通過整合,理順了出版業(yè)務(wù)管理流程,減少了部分數(shù)據(jù)技術(shù)編制的交叉和重復(fù),但仍未徹底解決書號實名申領(lǐng)、條碼和在版編目(CIP)信息數(shù)據(jù)共享問題。[1]
1.書號實名申領(lǐng)信息系統(tǒng)
書號實名申領(lǐng)信息系統(tǒng)采用SOA架構(gòu),多層C/S結(jié)構(gòu)。系統(tǒng)的展現(xiàn)層、應(yīng)用層和數(shù)據(jù)層分開部署:展現(xiàn)層部署在用戶本地的客戶端,應(yīng)用層部署在后臺的應(yīng)用服務(wù)器上,數(shù)據(jù)層部署數(shù)據(jù)庫服務(wù)器上;展現(xiàn)層的版本升級通過版本服務(wù)器實現(xiàn)自動升級操作??蛻舳说倪\行環(huán)境為Windows操作系統(tǒng),在.net平臺上開發(fā),服務(wù)器端采用Linux操作系統(tǒng),在J2EE環(huán)境下開發(fā)和運行。具體業(yè)務(wù)工作流程詳見下圖:
書號實名申領(lǐng)業(yè)務(wù)流程:
2.在版編目(CIP)系統(tǒng)
在版編目(CIP)系統(tǒng)采用SOA架構(gòu)體系設(shè)計;采用JAVA語言,基于J2EE的分布式計算技術(shù),支持跨平臺部署;采用C/S和B/S混合模式,滿足不同用戶的工作需求。利用XML作為系統(tǒng)接口的數(shù)據(jù)交換標準,進行信息資源整合;出版社端可以進行在版編目(CIP)數(shù)據(jù)上報、接收、修訂、撤銷、加急、標準數(shù)據(jù)打印、數(shù)據(jù)導(dǎo)入導(dǎo)出、數(shù)據(jù)查詢統(tǒng)計、數(shù)據(jù)狀態(tài)顯示、本地數(shù)據(jù)字典維護等操作。我館對出版社上報的在版編目(CIP)數(shù)據(jù)進行編制、審核、修訂、撤銷、退回、標準數(shù)據(jù)發(fā)布和打印及其他系統(tǒng)設(shè)置和維護等工作。在版編目(CIP)系統(tǒng)使用的操作系統(tǒng)是CentOS,數(shù)據(jù)庫采用Oracle,使用Rose HA軟件雙機熱備。應(yīng)用服務(wù)器采用DMZ區(qū)Dell 2950和Dell R710服務(wù)器提供在版編目(CIP)數(shù)據(jù)的申報,內(nèi)網(wǎng)兩臺DELL 2950服務(wù)器用于數(shù)據(jù)制作雙機,IBM 3650 M4服務(wù)器提供全文檢索,操作系統(tǒng)采用Windows Server 2003企業(yè)版。應(yīng)用服務(wù)器中間件軟件采用JBoss和Tomcat,HA軟件采用DataWare。具體業(yè)務(wù)工作流程詳見下圖:
在版編目(CIP)業(yè)務(wù)流程:
3.樣本庫管理系統(tǒng)
樣本管理系統(tǒng)采用以色列Aleph 500?圖書館系統(tǒng)。以O(shè)racle數(shù)據(jù)庫為后臺,支持Unicode字符集、XML以及其它頂層應(yīng)用系統(tǒng)的API。Aleph 500基于微軟的window之上的館員客戶機;公眾Web瀏覽器;供遠程檢索的Z39.50客戶機。采用多層客戶機/服務(wù)器結(jié)構(gòu),可以提供20余種的用戶接口。Web OPAC基于HTML頁面可以完全定制滿足圖書館的特殊需求。編目模塊將編目功能和系統(tǒng)其它各個方面相集成,提供各種書目實用程序接口,數(shù)據(jù)以Unicode編碼存儲。同時支持MARC和非MARC格式數(shù)據(jù),可提供單個數(shù)據(jù)庫訪問以及相應(yīng)的數(shù)據(jù)核查和索引定義。具體業(yè)務(wù)工作流程詳見下圖:
樣本庫管理業(yè)務(wù)流程:
二、對大數(shù)據(jù)時代構(gòu)建出版信息服務(wù)平臺的設(shè)想
1.構(gòu)建出版信息服務(wù)平臺的目標
為適應(yīng)大數(shù)據(jù)時代出版單位轉(zhuǎn)型的需要,筆者試從加大對出版信息化建設(shè)的投入,利用高科技技術(shù)手段,通過云計算等先進技術(shù)建立并集成各類資源一站式出版信息服務(wù)[2],構(gòu)建大數(shù)據(jù)時代出版信息服務(wù)平臺。既:對現(xiàn)有書號實名申領(lǐng)信息系統(tǒng)、在版編目(CIP)系統(tǒng)和樣書信息管理系統(tǒng)進行深度融合,實現(xiàn)內(nèi)部書目信息、數(shù)據(jù)資源信息的匯集與關(guān)聯(lián)。實現(xiàn)出版單位信息采集、數(shù)據(jù)制作和信息共享等覆蓋全國圖書、音像電子等出版物一體化融合目標。為政府管理部門和出版行業(yè)提供全方位的出版信息數(shù)據(jù)支持,為出版行業(yè)發(fā)展研究提供有效的數(shù)據(jù)挖掘分析和研究報告。
2.建設(shè)出版信息服務(wù)平臺的原則
①標準化和規(guī)范化原則;②實用性和可擴展性原則;③靈活性和易操作性原則;④安全性原則。
3.總體技術(shù)架構(gòu)
①用開放的、面向WEB以服務(wù)為中心的企業(yè)級應(yīng)用J2EE標準平臺架構(gòu)。②采用開放、獨立的具有一定靈活性的數(shù)據(jù)交換機制。數(shù)據(jù)交換中心采用SOA架構(gòu),利用基于統(tǒng)一標準、支持異構(gòu)的技術(shù)實現(xiàn)系統(tǒng)的數(shù)據(jù)傳輸服務(wù)。數(shù)據(jù)交換模塊通過Web services與數(shù)據(jù)交換中心交換傳輸數(shù)據(jù)。
4.遵循行業(yè)標準構(gòu)建數(shù)據(jù)共享體系
現(xiàn)有的三個系統(tǒng)原本是相互獨立,且信息標準不一致,因此,有必要制定統(tǒng)一規(guī)范的系統(tǒng)標準和行業(yè)數(shù)據(jù)標準,構(gòu)建數(shù)據(jù)共享體系。擬采用已經(jīng)頒布的中國出版物在線信息交換(CNONIX)標準,來規(guī)范圖書元數(shù)據(jù)描述、圖書元數(shù)據(jù)采集以及圖書產(chǎn)品信息交換,統(tǒng)一規(guī)范數(shù)據(jù)格式,實現(xiàn)出版信息資源共享,使“出版大數(shù)據(jù)”時代早日到來,發(fā)揮其真正力量。[3]
5.開發(fā)出版標準數(shù)據(jù)采集客戶端
現(xiàn)有的書號實名申領(lǐng)系統(tǒng)、CIP系統(tǒng)分別有各自的客戶端軟件。目前用戶需要分別在各自得客戶端進行數(shù)據(jù)操作,并且操作的內(nèi)容具有很大的相關(guān)性。因此需開發(fā)統(tǒng)一的數(shù)據(jù)采集端來保障數(shù)據(jù)的一致性??蛻舳酥С諧/S和B/S結(jié)構(gòu),符合圖書元數(shù)據(jù)描述規(guī)范和采集規(guī)范,支持出版社ERP系統(tǒng)、發(fā)行系統(tǒng)和自有工具軟件,使各出版社的業(yè)務(wù)系統(tǒng)和出版信息數(shù)據(jù)充分共享。
6.實現(xiàn)業(yè)務(wù)流程再造
①用云計算技術(shù)優(yōu)化書號實名申領(lǐng)系統(tǒng)、在版編目(CIP)系統(tǒng)結(jié)構(gòu),解決系統(tǒng)之間的數(shù)據(jù)匹配問題,減少數(shù)據(jù)冗余,達到系統(tǒng)數(shù)據(jù)標準、數(shù)據(jù)格式一致。②實現(xiàn)樣本依圖編目:對樣書前10頁(除圖片)信息進行OCR掃描識別,建立依圖編目數(shù)據(jù)采集、加工系統(tǒng),將掃描圖像按一定規(guī)則分配給編目員,依圖進行編目、審核等。③整合規(guī)范后臺數(shù)據(jù)服務(wù)平臺:整合后將實現(xiàn)對各類圖書信息的查詢、統(tǒng)計、分類、數(shù)據(jù)分析及數(shù)據(jù)深度挖掘等功能。實現(xiàn)為政府部門和行業(yè)提供數(shù)據(jù)服務(wù)的能力。
整合后的業(yè)務(wù)流程圖如下:
三、結(jié)語
大數(shù)據(jù)的應(yīng)用對于出版業(yè)仍在探索之中,筆者意在就出版信息資源共享而優(yōu)化現(xiàn)有出版流程,將現(xiàn)有出版流程整合成一個功能強大的為政府提供出版信息服務(wù)支撐的出版信息服務(wù)平臺,通過新一代網(wǎng)絡(luò)技術(shù)實現(xiàn)技術(shù)更新。通過對海量出版數(shù)據(jù)的挖掘技術(shù)、大數(shù)據(jù)分析技術(shù),快速完成資源的優(yōu)化和共享,實現(xiàn)知識的提純,內(nèi)容的關(guān)聯(lián)。
參考文獻
[1]左曉光.在2011年度全國書號、條碼、圖書在版編目(CIP)管理工作會議上的講話.
[2]郝振省.數(shù)字出版產(chǎn)業(yè)存在的問題與趨勢[N].中華讀書報,2013(7).
[3]肖東發(fā),卞卓舟.在融合中延伸與拓展[N].中國新聞出版報,2013-12-18.
作者簡介:蔡鳳娟,女,中國版本圖書館副館長,研究方向:出版信息技術(shù)。