曹 平 楊文宏 朱 亮
(中航工業(yè)綜合技術研究所,北京 100028)
信息載體與傳播手段的不斷翻新,使各種新的出版形態(tài)相繼涌現(xiàn),而新的出版形態(tài)都會用數(shù)字化技術來實現(xiàn),因此稱其為數(shù)字出版。所謂數(shù)字出版就是指出版內容數(shù)字化、傳播網(wǎng)絡化、經(jīng)營集約化和交易電子化[1]。標準作為一種特殊的出版物,傳統(tǒng)的標準形式、流程和模式也受到了全方位的沖擊和挑戰(zhàn),其數(shù)字出版的需求十分迫切。標準數(shù)字出版的關鍵技術是對標準的數(shù)字化、結構化和規(guī)范化表達,而基于XML(eXtensible Markup Language)的開放式電子文檔標準是解決文檔有效表達的必要前提。目前,國外有關的開放式電子文檔標準有很多,如EPub、SCORM、S1000D和NewsML。本文對這些標準進行了詳細介紹和分析。
EPub(Electronic Publishing)于2007年9月成為國際數(shù)字出版論壇(IDPF)的正式標準,以取代舊的開放電子書標準(OEBPS)。2011年,IDPF發(fā)布了EPub 3.0版本。EPub是一個自由的開放標準,屬于一種可以“自動重新編排”的內容標準,即文字內容可以根據(jù)閱讀設備的特性,以最適于閱讀的方式顯示。EPub文檔內部使用了XHTML(eXtended Hypertext Markup Language)或DTBook(一種由DAISY Consortium提出的XML標準)來展現(xiàn)文字、并以zip壓縮格式來包裹檔案內容[2]。目前,以谷歌、蘋果公司為代表,眾多公司都以Epub作為數(shù)字圖書的格式。如圖1所示,EPub包括3項內容。
1.1.1 開放出版結構(OPS)
開放出版結構(Open Publication Structure,OPS)提供一個標準來制作電子書的內容,使得電子書內容提供商(例如出版者或作者)能依據(jù)該標準來制作電子書,并使得廠商能遵循該標準來發(fā)展電子書閱讀器,進而使得不同廠商的電子書閱讀器都能顯示不同電子書提供商所制作的電子書。
1.1.2 開放包裹格式(OPF)
開放包裹格式(Open Packaging Format,OPF)描述電子書中各單元內容間的關聯(lián)性,如何將數(shù)個滿足OPS規(guī)范的電子書單元內容包裹成一本電子書。
1.1.3 OEBP容器格式(OCF)
OEBP容器格式(OEBP Container Format,OCF)描述如何將電子書內容壓縮成單一的電子檔,以便于電子書的傳播、發(fā)送與檔案管理。
圖1 EPub文檔組織結構
ADL(Advanced Distributed Learning)于1997年底啟動開發(fā)SCORM(Sharable Content Object Reference Model,共享內容對象參考模型)標準,2000年1月發(fā)布SCORM1.0,進行第1次的學習內容對象整合。2001年1月,ADL發(fā)布了SCORM1.1,朝正式應用邁進。2001年10月1日,ADL發(fā)布了SCORM1.2,該版本引入課程內容封裝的概念,并增添了為課程組件編寫元數(shù)據(jù)部分。2004年,ADL組織再次修改了SCORM技術標準,命名為SCORM2004(SCORM1.3)。SCORM2004主要由BOOK1概述(The SCORM Overview)、BOOK2內容聚合模型CAM(The SCORM Content Aggregation Model)、BOOK3運行環(huán)境RTE(The SCORM Run Time Environment)和BOOK4順序和導航SN(Sequencing and Navigation)構成。BOOK1中介紹了ADL組織與SCORM的概述;BOOK2說明了把學習資產(chǎn)組成具有結構性的學習組件的方法,描述了學習內容對象、內容封裝的相關信息;BOOK3提供了把學習組件傳給學習者以及追蹤學習者進度的方法;BOOK4中通過規(guī)范來制定內容的呈現(xiàn)順序以及呈現(xiàn)界面裝置,讓學習者觸發(fā)導航事件,以促進學習者的理解。經(jīng)過10年多的發(fā)展,SCORM2004成為集內容聚合模型、運行環(huán)境、順序和導航于一體的完整標準體系。其中內容聚合模型包括內容模型、內容封裝、元數(shù)據(jù)和排序與呈現(xiàn)4個部分。內容模型包括資產(chǎn)(Asset)、共享內容對象(SCO)和內容組織,如圖2所示[3]。資產(chǎn)是學習元件中最小的元件,它可以是文章、圖片、聲音或網(wǎng)頁等。共享內容對象是由多個資產(chǎn)組成的學習元件,也是唯一能夠與學習管理系統(tǒng)通信的元件。共享內容對象與資產(chǎn)的重要區(qū)別就是能否進行通訊。
圖2 SCORM文檔組織結構
S1000D是由歐洲宇航與防務工業(yè)協(xié)會(ASD)、美國航空航天工業(yè)協(xié)會(AIA)和美國運輸協(xié)會(ATA)共同制定的一個采用公共源數(shù)據(jù)庫(Common Source Data Base,CSDB)創(chuàng)建交互式電子技術出版物(Interactive Eiectronic Technicai Pubhcations,IETP)的國際規(guī)范。從上個世紀80年代發(fā)布第一個版本以來,S1000D規(guī)范先后發(fā)布了多個版本,其最新的版本為2011年發(fā)布的4.1版本,適用的范圍也從最初的軍用飛機產(chǎn)品擴展到現(xiàn)在的海、陸、空等各種軍用和民用裝備。
按照S1000D生成的SGML(Standard for General Markup Language,通用標記語言標準)或XML中間格式文件,具有模塊化形式,這種模塊化文件稱之為“數(shù)據(jù)模塊”,它由兩大部分組成[4],如圖3所示。第一部分為標識和狀態(tài),包含技術文檔資料所有的管理信息。在向用戶提供技術信息時,這部分內容并不顯示。第二部分為文檔內容主體,主要包含文字說明和圖例等。S1000D根據(jù)文檔中所描述的信息內容又將文檔內容主體主要分為8個大類,分別定義了數(shù)據(jù)模式。
圖3 S1000D文檔組織結構
2000年10月,國際新聞電信理事會(International Press Teleconununications Council,IPTC)發(fā)布了NewsML的l.0版本。2002年10月,IPTC公布了NewsML的1.1版本。2008年1月,IPTC經(jīng)過了幾年的修改和完善,正式發(fā)布了新一代的新聞標識語言NewsML G2。NewsML G2包括NewsML G2、EventsML G2及SportsML G2三個部分[5]。作為NewsML體系結構頂層的抽象類任意項<anyItem>有4個派生類,它們是新聞項<newsItem>、包裹項<packageItem>、概念項<conceptItem>和知識項<knowledgeItem>,如圖4所示。NewsML的核心是newsItem概念,newsItem可包含各種媒體(包括文本、圖片、圖形和視頻)。newsItem由新聞元素<newsItem>、項目元數(shù)據(jù)<itemMeta、內容元數(shù)據(jù)
圖4 NewsML文檔組織結構
<contentMeta>和內容集<contentSet>4部分組成。
基于上述對EPub、SCORM、S1000D和NewsML等標準的剖析,不難發(fā)現(xiàn):EPub標準主要是應用于一般書籍制作;SCORM標準主要是應用于培訓課件制作;S1000D標準主要是應用于產(chǎn)品手冊出版;NewsML主要是應用于新聞報紙出版。盡管這4個標準是應用于不同的領域,但它們都具有以下幾個共同理念或特點。
通過總結對象的基本特點,用一組元數(shù)據(jù)來實現(xiàn)對象(如書籍、課件、手冊、報紙等)的標識和狀態(tài)信息描述。如NewsML中,就是通過管理性元數(shù)據(jù)(Administrative Metadata)、描述性元數(shù)據(jù)(Descriptive Meatadata)和版權元數(shù)據(jù)(Copyright Metadata)描述一條新聞的基本情況的。
通過總結文本內容的編寫規(guī)則,將成篇內容分解成有一定主題的內容片段。如S1000D中,就是將數(shù)據(jù)模塊的文檔內容分成了8個大類,并分別定義了內容離散化的數(shù)據(jù)模式。
基于XML制定共同的、智能的、可操作性較強的標記模式。這種標記模式不僅能夠結構化文本內容,同時還能使計算機區(qū)分文本內容含義。比如,同樣是“華盛頓”,可以標記為美國第一總統(tǒng),可以標記為地名,也可以標記書名。
將文檔中重復出現(xiàn)的內容,轉換成獨立的數(shù)據(jù)模塊。通過模塊的重用和組合形成能夠滿足不同需求的數(shù)據(jù)集合。數(shù)據(jù)模塊化為用戶信息定制提供了基礎。如EPub中的“單元內容”、SCORM中的“學習元件”、S1000D中的“數(shù)據(jù)模塊”、NewsML中的“新聞項”都是模塊化的體現(xiàn)。
標記語言從SGML、HTML發(fā)展到XML,其技術上一個最大的進步就是內容和形式的分離。也就是說內容制造商完成文本的標記,出版印刷環(huán)節(jié)中的出版商和閱讀中的作者(在顯示器上)可以控制字形、字體大小、字體顏色、行距和長度、頁邊距和縮進、背景圖像、顏色以及其他元素。這一切的實現(xiàn)主要是通過樣式表來實現(xiàn)的。
所謂開放化包括兩個層面的含義,一方面是指文檔內容結構是公開的,另一方面是指允許用戶在已定義結構的基礎上自定義或擴展相關元素。目前EPub、SCORM、S1000D和NewsML都已成為公認國際通用標準,并且都提供了可擴展機制。
數(shù)字出版和傳統(tǒng)出版的本質區(qū)別在于信息組織方式發(fā)生了革命性的變革。未來以EPub、SCORM、S1000D和NewsML為代表的開放電子文檔標準是實現(xiàn)數(shù)字出版的關鍵所在,我國應加緊對這類標準進行跟蹤、研究和推廣。另外,目前國際上還沒有的關于描述標準自身的標準。作為標準化研究機構不妨考慮在借鑒國際上通用成熟標準的基礎上,結合標準自身特點,制定出基于XML的開放式電子標準格式規(guī)范。
[1] 梁上啟.“泛在計算機時代”數(shù)字出版盈利模式研究[J].編輯之友,2009.
[2] Epub 3.0[S].http://idpf.org/epub/30.
[3] SCROM 2004[S].http://www.adlnet.gov/capabilities/scorm.
[4] S1000D 4.1[S]. http://www.S1000d.org.
[5] NewsML-G2[S].http://www.iptc.org/NewsMLG2/Speci fi cation.