孫述學(xué)
當(dāng)下,數(shù)字出版如火如荼,洶涌澎湃。而辭書則因?yàn)樗囊恍┨匦?,成為?shù)字出版的急先鋒。2012年3月,已走過240多年歷史的《大英百科全書》宣布將停止發(fā)行印刷版,當(dāng)2010版全部售出后,將不再印刷任何紙質(zhì)《大英百科全書》。同年,全世界最權(quán)威的英語詞典——《牛津英語大詞典》編委會(huì)宣布,《牛津英語大詞典》從第四版起將停止推出紙質(zhì)版,全部改為網(wǎng)上付費(fèi)查詢。英語學(xué)習(xí)詞典的五大品牌牛津(Oxford)、朗文(Longman)、麥克米倫(Macmillan)、劍橋(Cambridge)、柯林斯(Collins)也紛紛推出光盤版、網(wǎng)絡(luò)版、APP應(yīng)用程序。一時(shí)間,辭書的數(shù)字出版已形成一股股浩浩蕩蕩的大潮。
作為中國現(xiàn)代出版業(yè)的著名品牌社,商務(wù)印書館以出版高品質(zhì)的辭書和學(xué)術(shù)著作而享有盛名。與過去每一個(gè)歷史變革的關(guān)口一樣,當(dāng)下的商務(wù)印書館選擇了順應(yīng)時(shí)勢,積極創(chuàng)新,將辭書的各種資源盤活,開發(fā)適銷對(duì)路的數(shù)字產(chǎn)品,為用戶提供優(yōu)質(zhì)的知識(shí)服務(wù),成為商務(wù)印書館數(shù)字出版的重要方向。本文結(jié)合商務(wù)印書館近年來開展數(shù)字出版的實(shí)際工作,談?wù)勣o書數(shù)字化的相關(guān)體會(huì)。
一、做好頂層設(shè)計(jì)
頂層設(shè)計(jì)包括五個(gè)層面:資源層面、產(chǎn)品層面、方法層面、營銷層面、人才層面。
資源層面,首先要考慮自己有哪些可把控的資源。細(xì)說來,就是指哪些辭書擁有網(wǎng)絡(luò)信息傳播權(quán),哪些辭書結(jié)構(gòu)化數(shù)據(jù)已完成,哪些辭書資源是市場迫切需要的。其次還要考慮資源的壟斷性和可持續(xù)性。數(shù)字出版時(shí)代,品牌、無形資產(chǎn)的重要性相對(duì)于紙質(zhì)出版時(shí)代有過之而無不及。最后要考慮的是連橫還是合縱:一個(gè)出版社不管有多少資源,總會(huì)存在數(shù)據(jù)方面的不足,如何去“連橫”,與擁有同類資源的出版社合作,就成為一個(gè)不得不考慮的重要問題;深度挖掘既有的存量資源,實(shí)現(xiàn) “合縱”,將本社的資源進(jìn)行充分的整合,是出版社當(dāng)前數(shù)字出版的重要途徑。商務(wù)印書館辭書資源主要是語言習(xí)得類的工具書,種類較多,漢語的、外語的、漢外外漢的都有,字典、詞典、語典都有,古代的、近代的、現(xiàn)代的都有,小學(xué)生、中學(xué)生、大學(xué)生使用的都有,多數(shù)都有自主知識(shí)產(chǎn)權(quán),并且已完成數(shù)百本辭書的結(jié)構(gòu)化。品牌自不必待言,國內(nèi)出版社無人出其右。但“連橫”方面,可考慮的空間還很多,比如上海辭書出版社的《辭海》,比如中國大百科全書出版社的《中國大百科全書》等。
產(chǎn)品層面,要考慮的問題也不少,如:產(chǎn)品是數(shù)據(jù)庫還是APP,APP是Web APP 還是Native APP?產(chǎn)品形態(tài)是提供在線服務(wù)還是鏡像安裝?多媒體內(nèi)容如何置入,置入的比例有多大?檢索的方式如何在紙質(zhì)詞典的基礎(chǔ)上實(shí)現(xiàn)大的突破?辭書資源的使用場景有哪些,是獨(dú)立應(yīng)用還是依附于特定的教育、學(xué)習(xí)類產(chǎn)品應(yīng)用?產(chǎn)品的服務(wù)對(duì)象是什么,是服務(wù)于少數(shù)民族漢語習(xí)得還是外國人學(xué)漢語,面向基礎(chǔ)教育還是語言文字工作者?
方法層面,則要考慮是全新編纂,還是對(duì)已有結(jié)構(gòu)化內(nèi)容動(dòng)態(tài)重組,如何提供增值功能。以《商務(wù)印書館百種精品工具書數(shù)據(jù)庫》為例,它將商務(wù)印書有價(jià)值的100多種辭書結(jié)構(gòu)化、碎片化,在此基礎(chǔ)上,動(dòng)態(tài)重組,資源整合,加入多種數(shù)字產(chǎn)品功能,形成富有增值服務(wù)的新型數(shù)字辭書數(shù)據(jù)庫。
營銷層面,則要考慮營銷的模式是B2B還是B2C?市場范圍是在國內(nèi)還是在海外?辭書內(nèi)容如何黏著用戶?收費(fèi)與還是免費(fèi)?以及定價(jià)的合理性,不同消費(fèi)對(duì)象的不同營銷策略和產(chǎn)品知識(shí)產(chǎn)權(quán)的保護(hù)等。
人才層面,則要考慮如何建立一支既懂?dāng)?shù)字出版,又懂得辭書編輯的隊(duì)伍。這支隊(duì)伍,要負(fù)責(zé)與外包技術(shù)開發(fā)商溝通與把控,處理XML結(jié)構(gòu)化的各種問題,辭書數(shù)字化標(biāo)準(zhǔn)的制定,編輯編纂系統(tǒng)的技術(shù)支持等。
二、以數(shù)據(jù)資源的整理為基礎(chǔ)和出發(fā)點(diǎn)
數(shù)據(jù)資源的整理,對(duì)于數(shù)字出版的重要性是無論怎樣強(qiáng)調(diào)都不為過的,這一點(diǎn)已是共識(shí)。辭書的數(shù)字資源整理,有它自己的特點(diǎn):一是條目化。紙質(zhì)辭書的數(shù)據(jù)資源整理不同于一般圖書,它是完全條目化的,一本辭書要以詞條為單位,少則兩三萬條,多則上百萬條,每條記錄下要分出好多字段,對(duì)這些字段還要進(jìn)行規(guī)范化的標(biāo)引,整理起來相當(dāng)費(fèi)時(shí)費(fèi)力。二是強(qiáng)調(diào)標(biāo)準(zhǔn)化與規(guī)范化。辭書數(shù)據(jù)資源的整理,必須在DTD/Schema(DTD、Schema均為XML的驗(yàn)證機(jī)制)的約束下進(jìn)行,否則,龐大的辭書資源就不可能進(jìn)行有效的整合。由于不同辭書體例的不同,實(shí)踐中標(biāo)準(zhǔn)和規(guī)范的制定相當(dāng)復(fù)雜,如果用一個(gè)統(tǒng)一的DTD去約束所有的辭書,則缺乏靈活性,一些個(gè)性化的屬性很難得以充分描述。而一書一DTD,統(tǒng)一起來則會(huì)有很多沖突,對(duì)數(shù)據(jù)的整合不利。這就需要我們處理時(shí)有相當(dāng)?shù)募记伞?/p>
商務(wù)印書館投入大量人力物力財(cái)力,詳細(xì)分析了近70本辭書的結(jié)構(gòu),提取形成DTD,在確立辭書加工標(biāo)引規(guī)范的基礎(chǔ)上,對(duì)漢語詞典54種、英漢詞典20種、外漢詞典36種,合計(jì)110種,21個(gè)語種,3.5億文字,360萬詞條進(jìn)行了數(shù)據(jù)化??傆?jì)形成3.5億余字,360余萬條目(字、詞、語)的高度結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化后標(biāo)引的數(shù)據(jù)、DTD的制定,為商務(wù)印書館辭書的數(shù)字出版縱橫捭闔提供了現(xiàn)實(shí)的可能。目前,這些結(jié)構(gòu)化的數(shù)據(jù),一方面為開發(fā)多種數(shù)字產(chǎn)品提供了堅(jiān)實(shí)的基礎(chǔ),另一方面也將逐步應(yīng)用到傳統(tǒng)紙質(zhì)辭書的編纂中,為其提供有價(jià)值的幫助。
三、呼喚變革編纂編輯方式
目前的數(shù)字出版都是“倒著走”,都是在已有的紙書基礎(chǔ)上開發(fā),而不是從編輯起始,即數(shù)字出版與紙質(zhì)出版結(jié)伴而行。圖書如此,辭書亦然。
辭書編輯編纂流程的再造,要考慮的因素很多,上面的條目化當(dāng)然是基準(zhǔn)點(diǎn),除此之外,還要考慮內(nèi)容與流程管理,編纂與修訂兼顧,修改痕跡的保留、版本對(duì)比、造字與集外字(中文字符集Unicode編碼以外的字)的處理、協(xié)同編纂、質(zhì)量控制與專項(xiàng)檢查、編輯過程的搜集等。它的關(guān)鍵技術(shù)有DTD、XML、CSS等(DTD——辭書元素結(jié)構(gòu)規(guī)則的匯總,俗稱模板;XML——遵循構(gòu)架規(guī)則、顆?;鸱趾蟮霓o書內(nèi)容,俗稱標(biāo)注內(nèi)容;CSS——XML內(nèi)容在編纂平臺(tái)中交互編輯、在線打印或發(fā)布展示的形式定義,俗稱版式)。
商務(wù)印書館從2002年就開始語料庫方面的基礎(chǔ)建設(shè),近年來,逐漸形成 “三庫兩臺(tái)”的框架思路,即辭書語料庫、辭書資源庫、辭書數(shù)據(jù)庫、編輯編纂系統(tǒng)平臺(tái)和排版平臺(tái)?!叭龓靸膳_(tái)”中,“三庫”是上游,將為辭書的數(shù)字出版提供源源不斷的來源;“兩臺(tái)”是中游,建設(shè)完成后,將是生產(chǎn)方式的變革,會(huì)極大提高辭書的出版效率,同時(shí)為傳統(tǒng)出版和數(shù)字出版提供高效服務(wù)。這些珍貴的資源和先進(jìn)的生產(chǎn)方式,是商務(wù)印書館辭書出版的核心競爭力,是商務(wù)印書館處于領(lǐng)先地位的重要保障。生產(chǎn)方式的數(shù)字化,是商務(wù)辭書數(shù)字出版的重要特色,也是需要繼續(xù)加以高度重視的環(huán)節(jié)。
四、推進(jìn)產(chǎn)品向服務(wù)跨越
辭書數(shù)字出版,大體上要經(jīng)過四個(gè)階段:第一個(gè)階段是紙質(zhì)書的翻版;第二個(gè)階段是在前面階段的基礎(chǔ)上加入多媒體內(nèi)容和強(qiáng)化檢索方式;第三個(gè)階段是動(dòng)態(tài)重組,提供增值服務(wù);第四個(gè)階段是針對(duì)用戶需要,提供個(gè)性化知識(shí)服務(wù)。
商務(wù)印書館辭書的數(shù)字出版,目前正處在第三個(gè)階段,正積極向第四個(gè)階段邁進(jìn)。
以《商務(wù)印書館百種精品工具書》為例,它涵蓋商務(wù)印書館100種精品中外文辭書全部數(shù)據(jù),總字?jǐn)?shù)3億余,條目(字目、詞目、語目)約360萬條,內(nèi)容權(quán)威,品種齊全,規(guī)模巨大;融入音頻、視頻等多媒體技術(shù);具有強(qiáng)大、科學(xué)的專項(xiàng)檢索和高級(jí)檢索功能。在該數(shù)據(jù)庫中查檢一個(gè)字詞,將會(huì)返回與這個(gè)字詞相關(guān)的詞語、成語、俗語、諺語、歇后語、慣用語、名言及??圃~語等,融匯讀音、釋義、用法、文化百科等知識(shí),實(shí)現(xiàn)了知識(shí)的動(dòng)態(tài)重組和資源深度整合,方便的內(nèi)部跳轉(zhuǎn),強(qiáng)大靈活的檢索甚至可以據(jù)意查詞。
另一個(gè)拳頭產(chǎn)品《牛津高階英漢雙解詞典》第7版APP,則著重針對(duì)國內(nèi)用戶學(xué)英語,提供諸多增值功能,如所有詞目均真人發(fā)音,并配有英式、美式兩種讀音;可在英漢雙解、英文詞典、英漢詞典之間自由切換;完整模式與簡潔模式可自定義例證、音標(biāo)、習(xí)語等元素的顯示與隱藏;其中的圖片可以根據(jù)需要放大或縮小;特別按照研究生入學(xué)考試、四六級(jí)英語考試詞匯列表,針對(duì)性地組合形成考試詞語詞典,考試詞語可以靈活分級(jí)和添加相關(guān)詞語;對(duì)查詢?cè)~語可以分類加入書簽,利用iCloud實(shí)現(xiàn)不同設(shè)備間的同步;詞典查詢支持通配符等模糊查詢,支持在短語、例證中查詢,輸入查詢時(shí),提示書寫相似詞目,具有點(diǎn)詞即時(shí)跳轉(zhuǎn)查詢功能。
值得一提的還有《商務(wù)館學(xué)漢語字典》(The Commercial Press Dictionary of Contemporary Chinese)APP,它是供外國人習(xí)得漢語的,除提供漢字真人語音(包括字頭和詞條)和漢字筆順動(dòng)畫外,它的精彩之處還在于檢索方式的全面革新上:攝像頭掃描識(shí)別法查詢漢字;麥克風(fēng)語音識(shí)別法查詢漢字;文本直接輸入法查詢漢字;利用設(shè)備本身手寫輸入功能,輸入漢字;輸入簡單的英文,亦可查到漢字或詞語。另外,還可以HSK分級(jí)索引、英漢索引、拼音索引查詢字詞;示例中的字、詞,可以點(diǎn)擊跳轉(zhuǎn)查詢字或詞;字頭末尾提供相關(guān)詞列表,可以點(diǎn)擊查詢相關(guān)詞。此外,還提供生詞本與學(xué)習(xí)計(jì)劃。這些都為外國人學(xué)漢語提供了極大的方便,以數(shù)字技術(shù)解決了外國人學(xué)漢語時(shí)輸入查檢詞的困難。從理論上講,就是提供了諸多貼心的增值服務(wù)。
五、變革思維
在辭書的數(shù)字出版中,思維的變革的確很實(shí)在、很重要,很多時(shí)候還是決定性的。
比如拿什么辭書資源做數(shù)字出版,決策時(shí)需要魄力。辭書的數(shù)字出版需要勇氣和決心,要敢于投入。有時(shí)候,囿于傳統(tǒng)思維,出版企業(yè)不敢或者不愿意把核心產(chǎn)品拿出來做數(shù)字化,而總是以一些邊角碎料做嘗試。這帶來的結(jié)果就是產(chǎn)品沒特色、缺乏競爭力,耗費(fèi)人力、資金,最終卻沒有市場。很難想象一本平時(shí)滯銷的辭書,經(jīng)過數(shù)字化改造就能“立馬咸魚翻身”。商務(wù)印書館在Kindle內(nèi)置時(shí)就選擇了《現(xiàn)代漢語詞典》和《新華詞典》,在做百種精品工具書數(shù)據(jù)庫時(shí),就包括《新華字典》《現(xiàn)代漢語學(xué)習(xí)詞典》等,在做APP時(shí),拿出了《牛津高階英漢雙解詞典》。這些工具書都是商務(wù)印書館的頂級(jí)品牌,都是壓箱底的資源,商務(wù)印書館把它們拿出來做數(shù)字出版,才能取得不俗的業(yè)績。
辭書的數(shù)字出版,要高度重視技術(shù)?!皟?nèi)容為王”沒有錯(cuò),但在辭書的數(shù)字出版方面,我們實(shí)在不能忽視技術(shù)的巨大作用。有觀點(diǎn)認(rèn)為技術(shù)不是數(shù)字出版的問題,反正市面上都有,只要有思路和想法,數(shù)字辭書就能很好地實(shí)現(xiàn)。雖然言之有理,但從另一個(gè)角度來考慮,如果技術(shù)獲取的時(shí)間成本和經(jīng)濟(jì)成本都比較高的話,出版社就不能算擁有技術(shù),一些好的想法就只能漂浮著,不能落地和實(shí)現(xiàn)。還有,就是技術(shù)可能反過來,深度影響內(nèi)容。辭書數(shù)字出版必須對(duì)此有清醒認(rèn)識(shí),比如語料庫的建設(shè)會(huì)讓選詞立目更科學(xué),釋義更精確,例證更優(yōu)秀。上面討論過的一些技術(shù),對(duì)辭書的查檢方式,可以說是顛覆性的。技術(shù)對(duì)內(nèi)容的影響既深且廣,它推動(dòng)著數(shù)字辭書以一種新穎的面目驚艷示人,也昭示數(shù)字辭書的美好未來。
(作者單位:商務(wù)印書館數(shù)字出版中心)