白杰 楊愛臣
XML結(jié)構(gòu)化標(biāo)引是傳統(tǒng)出版的數(shù)字化轉(zhuǎn)型核心,出版社的圖書或期刊資源只有通過XML結(jié)構(gòu)化轉(zhuǎn)換,才是真正意義上的數(shù)字化出版,才能為實(shí)現(xiàn)數(shù)字產(chǎn)業(yè)化、知識(shí)集成化發(fā)展打下堅(jiān)實(shí)基礎(chǔ)。
一、傳統(tǒng)出版機(jī)構(gòu)XML數(shù)字轉(zhuǎn)型的必要性
我國2014年6月發(fā)布的數(shù)字出版統(tǒng)計(jì)數(shù)據(jù)顯示,我國的數(shù)字出版產(chǎn)業(yè)正處于高速增長階段。另據(jù)數(shù)據(jù)統(tǒng)計(jì),全國584家出版社中有256家有數(shù)字出版相關(guān)產(chǎn)品,但其中只有102家設(shè)有數(shù)字出版機(jī)構(gòu),這些出版社的數(shù)字化進(jìn)程,以大學(xué)出版社、科學(xué)技術(shù)出版社、教育出版社為代表走在前列。雖然發(fā)展勢頭良好,但由于類型單一、投資規(guī)模不大,沒有出現(xiàn)像愛思唯爾、施普林格那樣的數(shù)字出版企業(yè)。大多數(shù)傳統(tǒng)出版企業(yè)的數(shù)字出版仍然基于傳統(tǒng)出版模式,即單純的紙質(zhì)內(nèi)容數(shù)字化或電子化,只是載體形式的變化,而不是產(chǎn)品內(nèi)容結(jié)構(gòu)的變化,出版社沒有對(duì)內(nèi)容資源進(jìn)行多媒體呈現(xiàn)與集成化、結(jié)構(gòu)化處理[1]。
結(jié)構(gòu)化是數(shù)字轉(zhuǎn)型的核心,結(jié)構(gòu)化的首要環(huán)節(jié)是建立數(shù)字化標(biāo)準(zhǔn),知識(shí)分類的基本單元不再基于某一篇文章,而是以文章結(jié)構(gòu)以及詞語為基本單元,通過語義標(biāo)簽對(duì)文章進(jìn)行結(jié)構(gòu)化處理。所以,結(jié)構(gòu)化標(biāo)準(zhǔn)是數(shù)字化過程中的重要標(biāo)準(zhǔn)之一,結(jié)構(gòu)化質(zhì)量的好壞直接影響數(shù)字化的水平。
在學(xué)術(shù)出版領(lǐng)域,各大數(shù)字出版廠商和數(shù)字圖書館也開始規(guī)劃構(gòu)建用于文獻(xiàn)存檔的XML規(guī)范,如NLM DTD、AIP(美國物理學(xué)會(huì))、BMC、PlosOne等。
另外,文檔結(jié)構(gòu)化也是出版社實(shí)現(xiàn)數(shù)字化編輯系統(tǒng)的核心,數(shù)字編輯平臺(tái)無論是在工作效率上,還是在工作質(zhì)量上,都遠(yuǎn)遠(yuǎn)超過傳統(tǒng)編輯出版模式[2]。
二、 XML結(jié)構(gòu)化數(shù)字轉(zhuǎn)型的特點(diǎn)與優(yōu)劣性
1.XML結(jié)構(gòu)化的幾個(gè)重要環(huán)節(jié)
首先,采用新技術(shù)。即對(duì)傳統(tǒng)出版資源進(jìn)行結(jié)構(gòu)化整理,按照語義標(biāo)準(zhǔn)進(jìn)行分類、存儲(chǔ)。傳統(tǒng)出版的電子版內(nèi)容資源僅僅是服務(wù)、排版與印制,只包含標(biāo)題、正文等格式控制命令,沒有按照語義標(biāo)準(zhǔn)進(jìn)行結(jié)構(gòu)化整理,也就無法實(shí)現(xiàn)語義檢索與分類,所以要采用新技術(shù),通過XML結(jié)構(gòu)化語言對(duì)原始資源進(jìn)行加工與整理。
其次,改造出版流程。傳統(tǒng)出版機(jī)構(gòu)要大力開展網(wǎng)絡(luò)出版業(yè)務(wù),或設(shè)立完全市場化的數(shù)字出版公司。數(shù)字化出版可以依托傳統(tǒng)的編、印、發(fā)環(huán)節(jié)基礎(chǔ),通過新技術(shù)改造,加之與互聯(lián)網(wǎng)整合形成新的產(chǎn)業(yè)模式。隨著產(chǎn)業(yè)融合的逐漸深入,在數(shù)字化浪潮的推動(dòng)下,原本嚴(yán)格區(qū)分的行業(yè)邊界會(huì)愈發(fā)模糊,內(nèi)容提供商、技術(shù)提供商和渠道運(yùn)營商之間的相互融合會(huì)越來越緊密。
最后,出版資源數(shù)字版權(quán)授權(quán)解決方案。由于數(shù)字出版具有海量存儲(chǔ)、搜索便捷、傳輸快速、互動(dòng)性強(qiáng)、成本低廉等特點(diǎn),已經(jīng)成為戰(zhàn)略性新興產(chǎn)業(yè)和出版業(yè)發(fā)展的主要方向。數(shù)字出版的特點(diǎn)也是數(shù)字版權(quán)面臨的問題,政府與企業(yè)應(yīng)加快技術(shù)創(chuàng)新和標(biāo)準(zhǔn)制定,為版權(quán)保護(hù)提供有效的技術(shù)手段;同時(shí)加大對(duì)數(shù)字版權(quán)侵權(quán)盜版行為的打擊力度,切實(shí)保障著作權(quán)人合法權(quán)益。
2.XML標(biāo)記語言的特點(diǎn)
結(jié)構(gòu)化的本質(zhì)就是為文檔建立一個(gè)描述框架,通過標(biāo)識(shí)符使文檔任一部分(任一個(gè)元素)都和其他部分保持關(guān)聯(lián),關(guān)聯(lián)的級(jí)數(shù)就形成了結(jié)構(gòu)。標(biāo)識(shí)本身的含義與它描述的文檔信息相分離。結(jié)構(gòu)化文檔(Structured Document)是由標(biāo)題、章節(jié)、段落、圖表、公式等框架結(jié)構(gòu)組成。
XML正是具備這一特性的擴(kuò)展性標(biāo)識(shí)語言。XML文檔是由 XML元素組成的,每個(gè)XML元素包括一個(gè)開始標(biāo)記(
3.XML結(jié)構(gòu)化優(yōu)勢與劣勢
XML最初就是為信息標(biāo)準(zhǔn)化所設(shè)計(jì),選擇XML作為稿件存儲(chǔ)格式有下述優(yōu)點(diǎn):
(1)樹狀層次信息結(jié)構(gòu)存儲(chǔ)稿件的內(nèi)容,可以方便地提取索引。即按照父子關(guān)系節(jié)點(diǎn)存儲(chǔ)文檔的內(nèi)容,可以通過統(tǒng)一的XSL模板對(duì)文檔稿件進(jìn)行批處理,經(jīng)過結(jié)構(gòu)化的稿件可以方便信息的提取與索引。
(2)完全以內(nèi)容為中心,從而分離了不必要的格式信息。對(duì)于每一篇稿件,XML可以以樹狀信息結(jié)構(gòu)存儲(chǔ)稿件的內(nèi)容,忽略排版格式信息,從而實(shí)現(xiàn)語義層面上對(duì)文檔的定義。
(3)只要設(shè)計(jì)統(tǒng)一的模板即可格式化為單獨(dú)期刊具體頁面格式。可以依據(jù)各期刊和圖書體例的統(tǒng)一性設(shè)計(jì)轉(zhuǎn)換模板,實(shí)現(xiàn)XML統(tǒng)一轉(zhuǎn)換。
(4)有利于資料的共享和標(biāo)準(zhǔn)化。經(jīng)過轉(zhuǎn)換的所有文檔,可以方便地建立全文數(shù)據(jù)庫,實(shí)現(xiàn)內(nèi)容資源的統(tǒng)一管理,實(shí)現(xiàn)知識(shí)提取、知識(shí)比較、知識(shí)關(guān)聯(lián)。并針對(duì)選題策劃等各種任務(wù)需求實(shí)現(xiàn)資源共享,實(shí)現(xiàn)個(gè)性化、片段化、碎片化出版。
(5)可以方便地轉(zhuǎn)換為任意的格式,如HTML、PDF 、RTF等格式,實(shí)現(xiàn)多渠道出版。
選擇XML作為稿件存儲(chǔ)格式有下述缺點(diǎn):
(1)出版商要把原有的文獻(xiàn)電子版本轉(zhuǎn)換為帶語義標(biāo)記的結(jié)構(gòu)化文檔,要再投入人力物力,增加新的工作量。
(2)中文元素定義不完整。NLM DTD中元素、屬性以及參數(shù)實(shí)體的定義只滿足于描述英文文獻(xiàn),如果對(duì)中文文獻(xiàn)進(jìn)行格式轉(zhuǎn)換還需要擴(kuò)充元素庫,并且保證元素定義符合兼容性以及顆粒度的要求。
(3)中文符號(hào)問題。NLM DTD定義的內(nèi)容中所有符號(hào)均采用UTF—8編碼,因此,所有的中文符號(hào)必須經(jīng)過處理,例如雙字節(jié)的逗號(hào)、分號(hào)、引號(hào)、括號(hào)、羅馬數(shù)字等,都必須轉(zhuǎn)換成單字節(jié)的相應(yīng)符號(hào)。另外,在XSLT進(jìn)行轉(zhuǎn)換時(shí),再把單字節(jié)符號(hào)重新轉(zhuǎn)換成雙字節(jié)符號(hào)。
(4)市場上缺少支持中文的、成熟的XML編輯器。
三、XML結(jié)構(gòu)化數(shù)字出版技術(shù)流程分析
1.查爾斯沃思·中國(The Charlesworth Group )案例
查爾斯沃思的XML排版,是使用集團(tuán)自主研發(fā)的自動(dòng)轉(zhuǎn)換軟件(包括AutoProof)及Arbortext Advanced Print
Publisher (3B2),該軟件能為客戶提供包括全文SGML、XML、HTML、網(wǎng)絡(luò)版PDF文件及圖片在內(nèi)的各種電子文件。
其工作流程為先從客戶端接收文檔文件,然后通過轉(zhuǎn)換軟件轉(zhuǎn)換為XML格式文件,再通過模板控制的平臺(tái)進(jìn)行結(jié)構(gòu)化排版,經(jīng)過一次性加工完成,內(nèi)容可重復(fù)利用,適應(yīng)多種傳播媒介,覆蓋讀者面廣,節(jié)約成本。其 XML工作流程如圖1所示。另外還有短期解決方案,是在原有流程上增加轉(zhuǎn)換步驟,優(yōu)點(diǎn)是不需要改變現(xiàn)有的生產(chǎn)流程,缺點(diǎn)是費(fèi)時(shí)費(fèi)力,要根據(jù)不同平臺(tái)的要求重新制作文件,容易造成新的錯(cuò)誤。優(yōu)點(diǎn)是專業(yè)性強(qiáng),缺點(diǎn)是價(jià)格偏高,大約$15—30 /頁。
2.北大方正、瑪格泰克數(shù)字出版流程分析
北大方正的書暢系統(tǒng)是以多媒體資源庫為中心,面向作者和編輯使用,實(shí)現(xiàn)結(jié)構(gòu)化內(nèi)容的編纂、審校、管理和動(dòng)態(tài)出版的全流程數(shù)字化出版生產(chǎn)系統(tǒng)解決方案,支持出版社、期刊社數(shù)字內(nèi)容加工的出版流程。整個(gè)系統(tǒng)平臺(tái)在文稿的創(chuàng)建、協(xié)同創(chuàng)作、系統(tǒng)配置、控制和發(fā)布5個(gè)環(huán)節(jié)全面支持XML結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn),支持從內(nèi)容源頭開始的基于內(nèi)容對(duì)象的數(shù)字內(nèi)容創(chuàng)作,可生成多形態(tài)數(shù)字終端產(chǎn)品(如PDF、EPUB等),實(shí)現(xiàn)內(nèi)容一次制作多元產(chǎn)品發(fā)布功能。
該系統(tǒng)通過生產(chǎn)管理平臺(tái)、模板設(shè)計(jì)、動(dòng)態(tài)發(fā)布引擎、智能化客戶端、交互式編排軟件等模塊,實(shí)現(xiàn)從出版任務(wù)管理→交互式版式設(shè)計(jì)→基于XML技術(shù)的隱式結(jié)構(gòu)化標(biāo)引→多格式的內(nèi)容發(fā)布等操作環(huán)節(jié)。該系統(tǒng)優(yōu)點(diǎn)是可以處理期刊和圖書等多種出版物,在出版過程中構(gòu)建編輯部、作者以及排版公司之間的協(xié)同與合作,有效完成收稿、編輯加工以及排版等核心業(yè)務(wù);缺點(diǎn)是價(jià)格偏高,大約10萬元/套,多刊購買可以優(yōu)惠。
瑪格泰克稿件處理(論文采編)系統(tǒng)是期刊行業(yè)的主要平臺(tái)之一,為出版社、期刊社推出了整體的解決方案。目前已經(jīng)在遍布全國的1600多家雜志社、十幾家出版社得到應(yīng)用,研發(fā)了元數(shù)據(jù)提取服務(wù),用于網(wǎng)刊發(fā)布系統(tǒng)。完成了從方正書版排版結(jié)果(FBD文件)、word文件和Latex排版文件中,自動(dòng)獲取每篇文章的基本元數(shù)據(jù)和擴(kuò)展元數(shù)據(jù),并可以自動(dòng)發(fā)布到網(wǎng)刊系統(tǒng),并實(shí)現(xiàn)參考文獻(xiàn)的自動(dòng)連接,同時(shí)自動(dòng)生成Pubmed、Linkout、 XML數(shù)據(jù)。對(duì)非Magtech 的網(wǎng)站系統(tǒng),其元數(shù)據(jù)自動(dòng)提取系統(tǒng)可以形成Excel文件和XML文件,用于一鍵式發(fā)布。優(yōu)點(diǎn)是專業(yè)性強(qiáng)、價(jià)格適中,約1500元/期,缺點(diǎn)是處于起步階段,有待上升到產(chǎn)業(yè)規(guī)模。
瑪格泰克制作流程首先是原文轉(zhuǎn)換,目前支持 word(doc/docx)、方正書版小樣文件(fbd),其次是CHTML結(jié)構(gòu)化,用于檢查生成的XML文件的準(zhǔn)確性,主要是參考文獻(xiàn)的準(zhǔn)確識(shí)別、文中引用的識(shí)別和標(biāo)記,圖表的處理等。其結(jié)構(gòu)化流程如圖2所示。
四、XML文檔結(jié)構(gòu)化規(guī)范
1.NLM DTD與中文擴(kuò)展
NLM DTD包含3個(gè)規(guī)范:Archiving Tag Set(文獻(xiàn)存檔標(biāo)簽集),Journal Publishing Tag Set(期刊出版標(biāo)簽集),NCBI Book Tag Set(圖書標(biāo)簽集)。目前,最廣為接受的是Journal Publishing Tag Set[3]。
其他的數(shù)字出版廠商也發(fā)布了各自的文獻(xiàn)XML描述規(guī)范,例如AIP(美國物理學(xué)會(huì))、BMC、PlosOne等,經(jīng)過比較,大家普遍認(rèn)為NLM DTD在標(biāo)簽定義的規(guī)范性、整個(gè)體系的完整性以及普適性等方面具有非常大的優(yōu)勢。因此,雖然最初是為生物醫(yī)學(xué)文獻(xiàn)而設(shè)計(jì)的NLM DTD,也逐漸被其他領(lǐng)域的學(xué)術(shù)文獻(xiàn)出版機(jī)構(gòu)和存檔機(jī)構(gòu)所接受,例如BMJ、PNAS等。
NLM DTD中定義了235個(gè)元素,127個(gè)屬性,557個(gè)參數(shù)實(shí)體,這些內(nèi)容足于描述英文文獻(xiàn)的全部內(nèi)容。但對(duì)中文來說,還不夠,還需要進(jìn)行擴(kuò)充,擴(kuò)充原則是首先盡可能兼容NLM DTD,其次是顆粒度盡可能小。
中文元素標(biāo)簽,統(tǒng)一在對(duì)應(yīng)的標(biāo)簽前加Vernacular。例如
2.元數(shù)據(jù)自動(dòng)提取
是指利用計(jì)算機(jī)軟件,采用模式識(shí)別智能算法,從排版后的最終文件中自動(dòng)、準(zhǔn)確提取期刊所有文章的元數(shù)據(jù),并形成各種可重復(fù)利用的結(jié)構(gòu)化數(shù)據(jù)文件,如Excel、XML文件,并可以一鍵發(fā)布到網(wǎng)刊系統(tǒng),在網(wǎng)刊的基礎(chǔ)上,形成各種個(gè)性化的應(yīng)用文件,如Linkout、 XML文件等。
文字處理文檔包含輸入的文本、圖形和表格。文檔轉(zhuǎn)換為結(jié)構(gòu)后,其中的每個(gè)組件和用于驅(qū)動(dòng)發(fā)布過程或控制格式的特定信息,都可以被識(shí)別。文檔各部分成為 XML 元素,并當(dāng)作數(shù)據(jù)庫中的字段處理(可以被定位、被排序、用于檢索以及進(jìn)行其他操作),還可以根據(jù)上下文嵌套它們的父元素或文檔樹中在它們層次之上的元素(祖先)。
3.文檔的處理方法
分析現(xiàn)有文檔內(nèi)容,并確定文檔暗含的結(jié)構(gòu)。例如,某一篇論文文檔可能包含文本章節(jié)、插圖、表格、程序、參考文獻(xiàn)屬性等。文本可能分為標(biāo)題、作者、單位、內(nèi)容摘要、主體段落、列表和重點(diǎn)短語。
(l)版面分析、規(guī)范處理。先對(duì)刊物進(jìn)行版式特征識(shí)別。如:位置、字體、字號(hào)、顏色、輔助信息、版式風(fēng)格等,輔以語義分析,提取版式數(shù)據(jù)的邏輯結(jié)構(gòu),將無序、無結(jié)構(gòu)的數(shù)據(jù),組織成有序、有結(jié)構(gòu)的數(shù)據(jù)。例如,從期刊版面中提取必要的文字和排版信息,自動(dòng)判定排版方向、合并正文塊,自動(dòng)還原正文閱讀順序,自動(dòng)關(guān)聯(lián)附圖與圖注、附表與表注。
(2)文檔結(jié)構(gòu)分析、字段提取。首先對(duì)刊物進(jìn)行文檔特征提煉。在此基礎(chǔ)上,分析文章或章節(jié)結(jié)構(gòu),生成各期目錄列表,以及文章標(biāo)題層次信息。期刊字段包括標(biāo)題、作者、作者單位、內(nèi)容摘要、關(guān)鍵字、文章編號(hào)、參考文獻(xiàn)、基金項(xiàng)目以及作者簡介等,自動(dòng)完成字段的標(biāo)引。
(3)分類集成、詞語索引。建立刊物的詞典,對(duì)文章以及知識(shí)點(diǎn)進(jìn)行分類匯總,實(shí)現(xiàn)基于內(nèi)容的數(shù)據(jù)挖掘。包括自動(dòng)歸類、語義標(biāo)引、專業(yè)術(shù)語校對(duì)等。
標(biāo)記一個(gè)論文(部分)的例子:
< SubmitDate >投稿日期< /SubmitDate >
< DocTitle >
< DocTitleCn >面向創(chuàng)新人才培養(yǎng)的教學(xué)改革探索