国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于碎片重組的動(dòng)態(tài)數(shù)字出版模型研究*

2014-07-12 17:09:41溫有奎
數(shù)字圖書館論壇 2014年4期
關(guān)鍵詞:動(dòng)態(tài)文獻(xiàn)數(shù)字

溫有奎

(北京萬方軟件股份有限公司,北京 100038)

基于碎片重組的動(dòng)態(tài)數(shù)字出版模型研究*

溫有奎

(北京萬方軟件股份有限公司,北京 100038)

大數(shù)據(jù)具有數(shù)量大而密度低的特點(diǎn),正在加劇人們對知識(shí)獲取的困境。傳統(tǒng)的知識(shí)出版業(yè)以本或以篇為單位的出版方式成為制約人們有效檢索和利用知識(shí)的瓶頸。針對這一問題,文章提出基于碎片重組的動(dòng)態(tài)數(shù)字出版模型,首先研究了知識(shí)碎片產(chǎn)生的社會(huì)背景和對科學(xué)研究所帶來的科學(xué)價(jià)值,以及技術(shù)發(fā)展環(huán)境對當(dāng)前社會(huì)化知識(shí)碎片閱讀的推動(dòng)作用;其次討論了動(dòng)態(tài)組合的數(shù)字出版模型,以及實(shí)現(xiàn)動(dòng)態(tài)數(shù)字出版中所考慮的關(guān)鍵技術(shù)。本研究不僅發(fā)展了知識(shí)組織的理論,還推進(jìn)了知識(shí)的深度檢索、小粒度知識(shí)獲取和高效利用的方法,大大提高了知識(shí)出版與傳播的效率。

知識(shí)碎片;動(dòng)態(tài)組合;數(shù)字出版

1 引言

大數(shù)據(jù)的到來,并沒有改變?nèi)祟惐恍畔⒀蜎]卻又知識(shí)貧乏的困境。大數(shù)據(jù)具有數(shù)量大而密度低的特點(diǎn),正在加劇人們對知識(shí)獲取的迷茫。傳統(tǒng)的科技文獻(xiàn)信息檢索為人們獲取知識(shí)提供了科學(xué)手段,但隨著科技文獻(xiàn)數(shù)量的日益劇增,研究內(nèi)容的深度日益加深,跨領(lǐng)域的直接有用知識(shí)的尋找變得難以勝任。這兩種現(xiàn)象反映了當(dāng)前知識(shí)的生產(chǎn)數(shù)量在劇增和研究內(nèi)容的深度同時(shí)在劇增。這兩個(gè)劇增對傳統(tǒng)的知識(shí)組織與傳播的方式提出了挑戰(zhàn)。至2012年末,非結(jié)構(gòu)化數(shù)據(jù)占有比例達(dá)到整個(gè)數(shù)據(jù)量的75%以上[1]。數(shù)字出版加快了知識(shí)傳播的速度,但這種以本、以篇為出版單位的數(shù)字出版方式卻并沒有解決讓讀者獲取直接有用知識(shí)的問題。為解決上述問題,人們在不斷尋找新的信息載體與傳播手段,尋找各種新的出版形態(tài)[2]。數(shù)字出版被看成是一種新的、有前途的出版形態(tài)。如何將傳統(tǒng)的出版標(biāo)準(zhǔn)形式、流程和模式轉(zhuǎn)換為標(biāo)準(zhǔn)的數(shù)字化、結(jié)構(gòu)化和規(guī)范化表達(dá)進(jìn)行了大量的研究,而基于XML(eXtensible Markup Language)的開放式電子文檔標(biāo)準(zhǔn)是解決文檔有效表達(dá)的必要前提。目前,國外有關(guān)的開放式電子文檔標(biāo)準(zhǔn)有很多:EPub、SCORM[3]、S1000D和 NewsML。本文認(rèn)為海量、非結(jié)構(gòu)化的科學(xué)文獻(xiàn)知識(shí)碎片化是影響多模態(tài)數(shù)字出版發(fā)展的關(guān)鍵問題之一,我們提出科學(xué)文獻(xiàn)內(nèi)容知識(shí)碎片化組織與按需動(dòng)態(tài)關(guān)聯(lián)重新組合的出版模式,發(fā)揮數(shù)字出版的多元化知識(shí)表示的優(yōu)勢,解決傳統(tǒng)科技文獻(xiàn)以本、篇為出版單位帶來的知識(shí)難以有效利用的瓶頸問題;創(chuàng)立一種新的科學(xué)知識(shí)碎片化存儲(chǔ)與按需動(dòng)態(tài)聚合的數(shù)字出版模式,以推進(jìn)科學(xué)知識(shí)的多模態(tài)利用。

2 碎片動(dòng)態(tài)知識(shí)數(shù)字出版的挑戰(zhàn)

2.1 碎片知識(shí)的科學(xué)價(jià)值

早在20世紀(jì)中葉科學(xué)家就在積極地探討科學(xué)知識(shí)分裂現(xiàn)象,尋找直接挖掘所需要知識(shí)的方法,但一直沒有很好的解決方案。20世紀(jì)60年代,美國情報(bào)學(xué)家Swanson教授對科學(xué)知識(shí)碎片(fragmentation of science knowledge)理論提出新的看法[4]:(1)客觀知識(shí)總量與人類吸收能力存在巨大的差距;(2)跨學(xué)科的信息傳遞變得更加困難;(3)跨學(xué)科間存在潛在未被發(fā)現(xiàn)的關(guān)聯(lián),首次提出并驗(yàn)證了利用文獻(xiàn)間存在知識(shí)碎片的推理發(fā)現(xiàn)新知識(shí)的方法。2000年Swanson為此榮獲ASIST(American Society for Information Science and Technology)最高榮譽(yù)獎(jiǎng)[5]。繼Swanson方法之后有許多研究人員提出了很多改進(jìn)方案,但由于知識(shí)碎片未能從文獻(xiàn)中分離出來,依靠人工方法尋找和識(shí)別文獻(xiàn)之間的互補(bǔ)性知識(shí)碎片,識(shí)別效率非常低而難以推廣。20世紀(jì)70年代后期,美國情報(bào)學(xué)家弗拉基米爾?斯拉麥卡教授也曾看到了知識(shí)碎片的價(jià)值,提出從文獻(xiàn)單元深化到文獻(xiàn)中的數(shù)據(jù)、公式、事實(shí)、結(jié)論等最小的獨(dú)立的“數(shù)據(jù)元”的思想。進(jìn)入21世紀(jì),我國情報(bào)學(xué)家徐如鏡研究員提出了“知識(shí)元”的概念,指出知識(shí)的控制單位長期原則還停留在文獻(xiàn)這一級(jí)上,而人對知識(shí)的需求一般不是以文獻(xiàn)為單位的[6]。2002年,清華光盤股份有限公司開始進(jìn)行了知識(shí)元的研究和商業(yè)化試驗(yàn),為知識(shí)的深度挖掘和有效傳播開創(chuàng)了先例。

基于知識(shí)元的知識(shí)組織也得到了數(shù)字化轉(zhuǎn)型中的出版社的借鑒和響應(yīng)。數(shù)字化出版社開始思考和探索以知識(shí)片段為單位的動(dòng)態(tài)內(nèi)容提供,圍繞內(nèi)容資源的知識(shí)片段分解、標(biāo)引、檢索和增值服務(wù)。讀秀突破了文獻(xiàn)單元檢索和瀏覽的知識(shí)獲取瓶頸,實(shí)現(xiàn)了圖書章節(jié)物理碎片化技術(shù),開創(chuàng)了真正意義上的文獻(xiàn)內(nèi)容深度揭示功能。這種把圖書以章節(jié)為基礎(chǔ)進(jìn)行物理拆分、重新整合,提供以頁為單位的文本資料數(shù)據(jù)庫關(guān)聯(lián)系統(tǒng),為跨越傳統(tǒng)的圖書書名檢索、圖書目錄檢索向圖書的全文內(nèi)容知識(shí)點(diǎn)檢索和瀏覽樹立了榜樣,也贏得了市場。

2.2 知識(shí)碎片化產(chǎn)生的原因

傳播學(xué)對知識(shí)碎片化的研究文獻(xiàn)出現(xiàn)在上世紀(jì)80年代。我國傳播學(xué)學(xué)者認(rèn)為知識(shí)碎片化產(chǎn)生的原因是社會(huì)階層的多元裂化,并導(dǎo)致消費(fèi)者細(xì)分、媒介小眾化[7]。第三屆《人民日報(bào)》讀者評(píng)報(bào)活動(dòng)調(diào)查結(jié)果顯示,網(wǎng)絡(luò)(54.12%)、報(bào)紙(46.32%)和電視(43.83%)是受訪讀者最重要的三種信息渠道。被調(diào)查閱讀習(xí)慣的結(jié)果是38.35%的人習(xí)慣于“先看標(biāo)題,如果感興趣就往下看”,另有32.99%的人會(huì)“挑喜歡的版面或欄目看”,“從頭到尾仔細(xì)看”的不到15%。人們的需求已經(jīng)從獲取“豐富信息”向獲取“更多有效信息”轉(zhuǎn)變。

Elsevier副總裁、技術(shù)服務(wù)研究與發(fā)展實(shí)驗(yàn)室負(fù)責(zé)人Allen博士認(rèn)為[8],隨著學(xué)術(shù)信息在線搜索與獲取的日益普及,學(xué)術(shù)出版不可避免地趨向于“在線與互聯(lián)”,這就要求現(xiàn)代期刊(Journal 3.0)在內(nèi)容出版方面必須具備片段化、知識(shí)化、語義化、可視化等特征,即:學(xué)術(shù)信息的發(fā)布應(yīng)采用在被“人理解”的同時(shí)也要被“計(jì)算機(jī)理解”,信息的傳播技術(shù)應(yīng)采用“一次編輯、多渠道出版”的傳播方式。

引起碎片化出版發(fā)展的原因有三個(gè),一是需求,二是價(jià)格,三是效率。首先,碎片化來自讀者的選擇性需求。專業(yè)讀者出于研究或是論文寫作的需要,對知識(shí)的查閱、引用和更新是其主要目的,而讀者真正感興趣的可能只是整本、整篇信息中的一章、一節(jié),甚至是一個(gè)片段。其次,以往讀者只為了其中一部分有用的信息而支付整本書費(fèi)用的方式,無疑增加了讀者的負(fù)擔(dān)。再次,專業(yè)出版社采取碎片化銷售模式不僅可為讀者提供更為精確的碎片內(nèi)容,還可使碎片多次復(fù)用以及按需組合銷售,極大地壓縮成本。讀者按照所需章節(jié)或片段的流量或字?jǐn)?shù)支付費(fèi)用,會(huì)產(chǎn)生不可估量的效率。

2.3 碎片動(dòng)態(tài)知識(shí)數(shù)字出版的挑戰(zhàn)

目前閱讀方式的極大變化對靜態(tài)的圖書、期刊等知識(shí)傳播方式提出了嚴(yán)重挑戰(zhàn),學(xué)術(shù)文獻(xiàn)服務(wù)商不僅從出版商那里購買數(shù)據(jù),更有可能與出版商聯(lián)合出版。作者和出版商不僅可以整本出版,還可以以碎片知識(shí)數(shù)字方式動(dòng)態(tài)出版,碎片知識(shí)以動(dòng)態(tài)數(shù)字方式排版、存儲(chǔ)、重組、聯(lián)合出版[9]。動(dòng)態(tài)碎片化數(shù)字出版方式大大節(jié)約人們的閱讀時(shí)間,有效提高人們對知識(shí)獲取和創(chuàng)新的速度,這將成為知識(shí)服務(wù)的新市場。讀秀在數(shù)字圖書閱讀的初級(jí)市場上抓住了重要機(jī)遇、贏得了巨大的文獻(xiàn)閱讀市場。新的動(dòng)態(tài)碎片知識(shí)數(shù)字出版在手機(jī)知識(shí)點(diǎn)閱讀、多媒體閱讀、多維度閱讀市場的前景會(huì)更加廣闊、潛力更大,用戶更喜歡??萍嘉墨I(xiàn)動(dòng)態(tài)數(shù)字出版內(nèi)容版式分離、跨媒體數(shù)字資產(chǎn)管理、內(nèi)容碎片化管理與動(dòng)態(tài)關(guān)聯(lián)、按需重組與內(nèi)容復(fù)用、多出版形態(tài)數(shù)字產(chǎn)品同步生成、多渠道數(shù)字出版發(fā)布、多終端適配與移動(dòng)閱讀等關(guān)鍵技術(shù)將大大推進(jìn)科技文獻(xiàn)動(dòng)態(tài)知識(shí)服務(wù)應(yīng)用市場。

3 動(dòng)態(tài)組合的數(shù)字出版模型

3.1 動(dòng)態(tài)數(shù)字出版流程

在多介質(zhì)跨媒體的數(shù)字時(shí)代,以紙介質(zhì)出版物為核心的編、印、發(fā)的傳統(tǒng)出版流程,已成為制約出版行業(yè)發(fā)展的障礙,已無法滿足內(nèi)容組織和服務(wù)過程中作者遠(yuǎn)程協(xié)同寫作、讀者需求個(gè)性化定制和智能識(shí)別、編輯自動(dòng)化等需求。因此,打破傳統(tǒng)出版流程和概念的約束,建立一個(gè)基于內(nèi)容對象的、協(xié)同工作的、“一次制作、多元發(fā)布”的動(dòng)態(tài)數(shù)字出版流程成為數(shù)字出版行業(yè)的關(guān)鍵問題。

傳統(tǒng)出版的流程主要是圍繞作者的作品、編輯整理、三審三校、排版、印刷、發(fā)行、零售進(jìn)行的,為此流程服務(wù)的關(guān)鍵技術(shù)必須保證內(nèi)容結(jié)構(gòu)、版式風(fēng)格、文件格式不能分離。傳統(tǒng)出版的內(nèi)容與結(jié)構(gòu)是一種固定模式,即把單一的文字、靜態(tài)圖像組合成作品變成出版物;將音樂作品變成音頻出版物;將電影電視劇作品變成視頻出版物。

因此,為了實(shí)現(xiàn)動(dòng)態(tài)數(shù)字出版,首先必須解決傳統(tǒng)出版的內(nèi)容結(jié)構(gòu)、版式風(fēng)格、文件格式不能分離的關(guān)鍵問題。動(dòng)態(tài)數(shù)字出版的關(guān)鍵還是內(nèi)容,但動(dòng)態(tài)數(shù)字出版內(nèi)容結(jié)構(gòu)與表現(xiàn)方式分離,只有到使用者選擇時(shí)才確定表現(xiàn)方式,也就是內(nèi)容結(jié)構(gòu)、版式風(fēng)格、文件格式是分離的,而不是傳統(tǒng)出版的以版式為基礎(chǔ)的變形。這樣可以將內(nèi)容從原來的種、冊、件、篇、章、節(jié)到更小的片段內(nèi)容按需重組。其次,按照多樣性終端,將文件格式轉(zhuǎn)變到動(dòng)態(tài)檢測終端后的適應(yīng)格式,再以適合的格式文件發(fā)行。典型的動(dòng)態(tài)數(shù)字出版流程如圖1所示。

動(dòng)態(tài)數(shù)字出版流程主要分為選題策劃、編輯加工、內(nèi)容管理、發(fā)布服務(wù)四個(gè)環(huán)節(jié),從環(huán)節(jié)劃分來說與傳統(tǒng)出版流程有一定相似之處,但是在每個(gè)環(huán)節(jié)內(nèi)的具體工作內(nèi)容和特點(diǎn),已經(jīng)有了很大區(qū)別。動(dòng)態(tài)出版流程的最主要特點(diǎn)就是利用互聯(lián)網(wǎng)云服務(wù)的廣泛性實(shí)時(shí)性、海量數(shù)據(jù)收集與處理能力、基于XML的內(nèi)容版式分離和再現(xiàn)技術(shù),來實(shí)現(xiàn)出版內(nèi)容的結(jié)構(gòu)化、碎片化、擴(kuò)展性、自動(dòng)多樣性,從而為讀者用戶提供更加方便、快捷、廉價(jià)、智能的信息獲取與知識(shí)服務(wù)。

3.2 數(shù)字內(nèi)容碎片化組織模式

(1)數(shù)字出版物內(nèi)容組織規(guī)范

目前用于描述數(shù)字出版物組織結(jié)構(gòu)方式主要有三種:第一種是基于文檔的描述方式;第二種是基于HTML的描述方法;第三種是基于XML的描述方法?;谖臋n的描述方式最常用的是PDF、WORD等格式,其組織方式是線性的,且組織結(jié)構(gòu)和版式信息的描述具有專用性,在重構(gòu)數(shù)字對象和個(gè)性化信息服務(wù)方面存在一定的難度,無法滿足個(gè)性化閱讀需求,不能進(jìn)行跨平臺(tái)的數(shù)據(jù)交換,也不能提供非線性的網(wǎng)狀導(dǎo)航機(jī)制和立體的表現(xiàn)形態(tài)?;贖TML的描述方式雖然可以通過嵌入與超鏈接機(jī)制將線性閱讀方式改為立體閱讀,但也無法滿足個(gè)性化數(shù)字出版的多維度信息檢索和網(wǎng)狀導(dǎo)航需求,再加上HTML本身的特點(diǎn)以及不具備跨平臺(tái)間數(shù)據(jù)交換的缺點(diǎn),已逐步被第三種方式——基于XML的方式所替代,其中應(yīng)用較廣的有兩種:OPF和METS。

(2)碎片標(biāo)引與索引技術(shù)

圖1 動(dòng)態(tài)數(shù)字出版流程

對數(shù)字出版產(chǎn)品進(jìn)行碎片標(biāo)引與索引是對文獻(xiàn)知識(shí)組織理論的發(fā)展。與數(shù)字文獻(xiàn)出版的元數(shù)據(jù)加工不同,除了對整本或整篇內(nèi)容進(jìn)行元數(shù)據(jù)標(biāo)注外,碎片標(biāo)引還要對數(shù)字文獻(xiàn)各個(gè)章節(jié)的知識(shí)更詳細(xì)地分別單獨(dú)標(biāo)引和索引。經(jīng)過標(biāo)引和索引后的碎片知識(shí)更容易被讀者獲取和利用,其生命周期要比整本書的更長、更有效。數(shù)字內(nèi)容碎片化組織需要考慮幾個(gè)問題:

①維持傳統(tǒng)出版內(nèi)容,保存作者稿件、終審稿件、終排文件,并轉(zhuǎn)換終排文件按照種、冊、件、篇、章、節(jié)模式進(jìn)行組織;

②將形成的篇章節(jié)內(nèi)容按學(xué)科、中圖分類、主題等方式分類;

③將形成的分類按照某一學(xué)科、某一方向、某一行業(yè)的知識(shí)形成知識(shí)體系;

④將知識(shí)領(lǐng)域再拆分成不同方向的知識(shí)單元,知識(shí)單元拆分成知識(shí)點(diǎn),最后拆分成主題詞、關(guān)鍵詞;

⑤通過關(guān)鍵詞間語義關(guān)系將知識(shí)點(diǎn)進(jìn)行動(dòng)態(tài)關(guān)聯(lián),形成網(wǎng)狀互聯(lián)關(guān)系;

⑥將內(nèi)容按需重組及多出版形態(tài)同步生成技術(shù)實(shí)現(xiàn)動(dòng)態(tài)出版。

3.3 內(nèi)容按需重組的多出版形態(tài)

(1)樣式和模板技術(shù)

傳統(tǒng)數(shù)字出版,自動(dòng)化排版引擎采用數(shù)字內(nèi)容與版面樣式相分離的設(shè)計(jì)思想,在后期完成結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)字內(nèi)容與版面樣式的組合,并對排版結(jié)果進(jìn)行智能化校正。

對于動(dòng)態(tài)數(shù)字出版,在進(jìn)行內(nèi)容按需重組時(shí),完全可以借鑒其數(shù)字內(nèi)容和樣式模板分離的設(shè)計(jì)思想。對于不同出版形態(tài)的數(shù)字產(chǎn)品制作,可以預(yù)定義對應(yīng)的樣式模板,通過樣式模板與數(shù)字內(nèi)容的關(guān)聯(lián)抽取,實(shí)現(xiàn)對應(yīng)數(shù)字產(chǎn)品的自動(dòng)生成。

(2)滿足多出版形態(tài)需求的數(shù)據(jù)格式

由于數(shù)字出版形態(tài)的多樣化,包括紙版印刷、網(wǎng)站發(fā)布、光盤出版、多終端移動(dòng)閱讀等。對于不同出版形態(tài),其內(nèi)容展現(xiàn)設(shè)備,如PC機(jī)、手持閱讀器、PDA、手機(jī)等顯示屏幕大小不一,所以需要研究輸出內(nèi)容自適應(yīng)技術(shù)。該技術(shù)需要考慮在不同的發(fā)布渠道下,如何充分發(fā)揮不同終端設(shè)備的展示優(yōu)勢,從而將制作的內(nèi)容更恰當(dāng)?shù)卣故窘o讀者,還原顯示電子圖書的規(guī)范版式,并能方便閱讀。

(3)可擴(kuò)展的多渠道輸出技術(shù)

動(dòng)態(tài)數(shù)字內(nèi)容出版需要研究可擴(kuò)展的多渠道輸出技術(shù),支持不同出版形態(tài)的輸出結(jié)果,以適應(yīng)包括紙質(zhì)出版、電子書出版、移動(dòng)終端出版在內(nèi)的多渠道出版發(fā)布的需要??蓴U(kuò)展的多渠道輸出技術(shù)是連接數(shù)字資產(chǎn)管理系統(tǒng)數(shù)字內(nèi)容資源和多渠道發(fā)布平臺(tái)的橋梁,由數(shù)據(jù)分發(fā)管理平臺(tái)、多渠道發(fā)布平臺(tái)、多終端支持接口組成,如圖2所示。

數(shù)據(jù)分發(fā)管理平臺(tái)主要包括模板引擎、任務(wù)調(diào)度、數(shù)據(jù)格式解析、多渠道輸出引擎。其中:

①模板解析引擎:主要解決數(shù)字內(nèi)容的提取與動(dòng)態(tài)重組;

②任務(wù)調(diào)度引擎:主要解決多出版形態(tài)數(shù)字產(chǎn)品的自動(dòng)和同步生成;

③數(shù)據(jù)格式解析引擎:提供對于電子書的格式解析、版式適應(yīng)生成和流式閱讀支持;

④多渠道輸出引擎:提供面向不同出版形態(tài)和發(fā)布平臺(tái)的數(shù)字產(chǎn)品提供和輸出。

圖2 數(shù)字資產(chǎn)管理系統(tǒng)

4 動(dòng)態(tài)數(shù)字出版關(guān)鍵技術(shù)

4.1 基于XML的內(nèi)容版式分離技術(shù)

資源描述框架的理念已廣泛應(yīng)用于美國及歐洲等國家的數(shù)字出版與數(shù)字圖書館的建設(shè)中。本系列標(biāo)準(zhǔn)的研制將以資源描述框架為基礎(chǔ),建立一套適用于中國數(shù)字內(nèi)容資源對象存儲(chǔ)、復(fù)用與交換的新聞出版行業(yè)標(biāo)準(zhǔn),使出版單位資源加工有據(jù)可依,使數(shù)字資源存儲(chǔ)格式統(tǒng)一,實(shí)現(xiàn)數(shù)字內(nèi)容的復(fù)用與交換,改變出版單位各自獨(dú)立建立自用加工標(biāo)準(zhǔn),全社會(huì)、全行業(yè)無法資源共享的現(xiàn)狀。

內(nèi)容版式分離技術(shù)在字處理軟件和排版軟件中均有應(yīng)用。字處理軟件包括Word、WPS等,其中以Word應(yīng)用最為廣泛;通過對Word2007和2010兩個(gè)版本軟件的相關(guān)分析、格式提取,利用XML結(jié)構(gòu)化標(biāo)引技術(shù),實(shí)現(xiàn)軟件中內(nèi)容、內(nèi)容結(jié)構(gòu)、版式結(jié)構(gòu)的分離,分離后的內(nèi)容形成可重組和復(fù)用的資源,為資源積累、動(dòng)態(tài)發(fā)布等環(huán)節(jié)做準(zhǔn)備。

目前流行的排版軟件如Indesign、方正排版、Word等,由于分屬不同的公司,其使用的核心技術(shù)、版式規(guī)范各不相同,相互間無法實(shí)現(xiàn)有效轉(zhuǎn)換,不利于數(shù)字出版多形態(tài)的生成和發(fā)布,也無法高效完成數(shù)字內(nèi)容的按需重組。所以,必須要對三個(gè)主流軟件產(chǎn)品的文件進(jìn)行內(nèi)容和版式的分離,才能做到根據(jù)內(nèi)容進(jìn)行碎片化,根據(jù)需要決定版式和格式。我們利用XML內(nèi)容的中間文件作為三者的同步文件,這個(gè)技術(shù)的突破可以極大地提高中國出版技術(shù)自動(dòng)化的水平。

4.2 多媒體碎片化內(nèi)容的管理及復(fù)用技術(shù)

數(shù)字化背景下,大規(guī)模內(nèi)容生產(chǎn)成為可能,同時(shí)也出現(xiàn)了規(guī)模化的內(nèi)容消費(fèi)需求,而內(nèi)容融合的大趨勢使動(dòng)態(tài)數(shù)字出版應(yīng)用示范平臺(tái)上集成了包括文字、聲音、圖片、圖像在內(nèi)的各種形態(tài)的多媒體、碎片化內(nèi)容。數(shù)據(jù)內(nèi)容資源在內(nèi)容和形式上越來越豐富,這就要求研究和開發(fā)多媒體碎片化內(nèi)容管理及復(fù)用技術(shù)。同時(shí),數(shù)字內(nèi)容的復(fù)合出版、碎片化內(nèi)容的立體使用也成為必然趨勢,即數(shù)字內(nèi)容同時(shí)在廣電、報(bào)紙、書籍中使用的局面。如何針對不同的載體需要,對原始內(nèi)容要素進(jìn)行標(biāo)準(zhǔn)化、數(shù)字化的加工和存儲(chǔ);碎片規(guī)則確定以后,計(jì)算如何提取、如何保存、如何進(jìn)行標(biāo)引和知識(shí)組織、如何進(jìn)行動(dòng)態(tài)重組是需要事先進(jìn)行復(fù)用規(guī)則的約定,在這個(gè)約定下進(jìn)行管理和利用,也是本研究需考慮的問題。

碎片化解決以后,復(fù)用與重組是動(dòng)態(tài)數(shù)字出版的關(guān)鍵技術(shù)之一。傳統(tǒng)的內(nèi)容管理可以管理碎片化的內(nèi)容,但是無法管理碎片化內(nèi)容的復(fù)用和重組規(guī)則,特別是動(dòng)態(tài)的重組,需要實(shí)現(xiàn)申請請求、組合、輸出等一系列標(biāo)準(zhǔn)化的動(dòng)態(tài)重構(gòu)。

對于碎片化的內(nèi)容、整體化各種格式化的文件,在存儲(chǔ)過程中如何檢查、管理等對于出版機(jī)構(gòu)是一個(gè)挑戰(zhàn),基本不可能把數(shù)萬的文件一個(gè)一個(gè)打開,檢查是否完好,必須要有一個(gè)檢查海量文件存儲(chǔ)后是否損壞的方法,然后對于損壞的部分進(jìn)行備份修復(fù),建立海量文件特征管理,以便于檢查、管理、修復(fù),這是目前數(shù)字內(nèi)容檢查及復(fù)用技術(shù)中的關(guān)鍵。

4.3 多出版形態(tài)同步生成技術(shù)

對于出版社來說,數(shù)字內(nèi)容資源經(jīng)過碎片化處理,可以滿足其重用、按需出版和個(gè)性化服務(wù)的需求,這些內(nèi)容資源通過數(shù)字資產(chǎn)管理系統(tǒng)進(jìn)行統(tǒng)一管理和輸出使用。

出版社實(shí)現(xiàn)內(nèi)容資源數(shù)字化的最終目的還是為了滿足其出版、發(fā)布、服務(wù)“一次制作、多元發(fā)布、多次服務(wù)、按需出版”的需要,因此,需要研究內(nèi)容按需重組及多出版形態(tài)同步生成技術(shù),來滿足其對于數(shù)字資產(chǎn)管理系統(tǒng)管理內(nèi)容資源的動(dòng)態(tài)重組,并根據(jù)不同出版形態(tài)封裝生成相應(yīng)的數(shù)字產(chǎn)品,通過多渠道發(fā)布系統(tǒng)進(jìn)行數(shù)字內(nèi)容的出版發(fā)布。也就是說,在數(shù)字資產(chǎn)管理系統(tǒng)與多渠道發(fā)布系統(tǒng)之間,還有一個(gè)橋梁,這就是數(shù)據(jù)分發(fā)管理系統(tǒng)。

對于內(nèi)容按需重組及多出版形態(tài)同步生成來說,需要重點(diǎn)研究樣式和模板技術(shù)、滿足多出版形態(tài)需求的數(shù)據(jù)格式、可擴(kuò)展的多渠道輸出技術(shù)等。

4.4 內(nèi)容動(dòng)態(tài)重組及按需出版平臺(tái)技術(shù)

平臺(tái)總體技術(shù)框架路線按業(yè)務(wù)流程、功能及特點(diǎn),分為相對獨(dú)立的三個(gè)層次:數(shù)據(jù)服務(wù)層、數(shù)據(jù)管理層和數(shù)據(jù)獲取層。平臺(tái)總體技術(shù)框架路線如圖3所示。其中數(shù)據(jù)服務(wù)層主要包括多渠道數(shù)字出版服務(wù)系統(tǒng)、移動(dòng)閱讀系統(tǒng);數(shù)據(jù)管理層主要包括數(shù)字資源管理系統(tǒng)、數(shù)據(jù)驗(yàn)證管理模塊、海量數(shù)據(jù)特征處理等模塊;數(shù)據(jù)獲取層主要包括:在線出版編纂系統(tǒng)、作者、編輯、專家標(biāo)引工具、基于互聯(lián)網(wǎng)的科技符號(hào)、圖形的復(fù)雜編輯工具等。

向內(nèi)容復(fù)用的跨媒體科技文獻(xiàn)數(shù)字資源管理平臺(tái)主要實(shí)現(xiàn)對于出版社數(shù)字內(nèi)容資源,包括書報(bào)刊、篇章節(jié)、知識(shí)點(diǎn)、音視頻、動(dòng)畫、圖片等多媒體資源的集中加工處理、資源管理和數(shù)字內(nèi)容輸出服務(wù)。

數(shù)字資源管理平臺(tái)分為內(nèi)容存儲(chǔ)層、通用組件層、內(nèi)容整理層、邏輯內(nèi)容庫層及內(nèi)容展現(xiàn)層。

(1)內(nèi)容存儲(chǔ)層:將各類數(shù)字內(nèi)容存放入統(tǒng)一內(nèi)容管理平臺(tái),其后通過內(nèi)容碎片化處理,把內(nèi)容按章節(jié)、圖片等進(jìn)行分割,并在分割后進(jìn)行語義化標(biāo)注,將處理后的結(jié)果存入碎片內(nèi)容存儲(chǔ)平臺(tái)。

(2)通用組件層:系統(tǒng)將對內(nèi)容的描述信息(屬性標(biāo)簽)進(jìn)行統(tǒng)一管理,并管理各類內(nèi)容間的關(guān)聯(lián)信息,同時(shí),系統(tǒng)將為管理的內(nèi)容提供全文搜索引擎,對全部內(nèi)容進(jìn)行統(tǒng)一檢索。

(3)內(nèi)容整理層:提供了語義引擎,幫助加工人員對數(shù)字內(nèi)容進(jìn)行標(biāo)注;同時(shí)提供了內(nèi)容標(biāo)注工具,該工具幫助分割PDF文檔為章節(jié)與圖片,并為切割后的碎片化內(nèi)容添加語義標(biāo)簽;內(nèi)容檢索系統(tǒng)提供了對不同層次內(nèi)容的檢索能力,并將檢索到的內(nèi)容按權(quán)重排序。編輯個(gè)人空間提供了編輯與作者積累和管理個(gè)人內(nèi)容的工具。

(4)內(nèi)容展現(xiàn)層:數(shù)字內(nèi)容經(jīng)過整理后,會(huì)形成各種邏輯內(nèi)容庫,如原始素材庫、圖片庫、文章庫、音視頻庫等,這些內(nèi)容庫既可以在出版社內(nèi)部使用以加快各類內(nèi)容編輯進(jìn)度,也可作為增值服務(wù)平臺(tái)向外部銷售。

5 結(jié)語

圖3 平臺(tái)總體技術(shù)框架路線圖

早在20世紀(jì)中葉,科學(xué)家就在積極地探討科學(xué)知識(shí)分裂現(xiàn)象,尋找挖掘所需知識(shí)的方法,但一直沒有很好的解決方案。20世紀(jì)60年代,情報(bào)學(xué)家對科學(xué)知識(shí)碎片理論提出新的看法并進(jìn)行了新的嘗試,這一思想引起了出版業(yè)的關(guān)注,但由于技術(shù)實(shí)現(xiàn)上的問題未能得到全面的實(shí)驗(yàn)。大數(shù)據(jù)的到來,又一次加劇了人們對知識(shí)獲取的困境。傳統(tǒng)的知識(shí)出版業(yè)以本或以篇為單位的出版方式成為制約人們有效檢索和利用知識(shí)的瓶頸問題,數(shù)字出版技術(shù)得到了廣泛的重視和研究。數(shù)字出版興起的強(qiáng)大的社會(huì)背景在于人們對知識(shí)傳播粒度的更小要求,和能借助于最小粒度的知識(shí)片段進(jìn)行知識(shí)的發(fā)現(xiàn)。因此,基于碎片重組的動(dòng)態(tài)數(shù)字出版就成為知識(shí)傳播領(lǐng)域的關(guān)鍵問題和研究目標(biāo)。本文對這一問題的研究只是基本概念和模型的宏觀研究,后續(xù)的具體技術(shù)研究將會(huì)深入進(jìn)行,相信本文的研究對知識(shí)傳播的發(fā)展會(huì)帶來推進(jìn)作用。

[1]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域:大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012,27(6):647-657.

[2]高蝴蝶,張志林.基于知識(shí)元的內(nèi)容組織對數(shù)字出版的啟示[J].北京印刷學(xué)院學(xué)報(bào),2009,17(5):33-36.

[3]scorm [EB/OL]. [2014-03-21]. http://baike.baidu.com/ view/834676.htm.

[4]馬明,武夷山. Don R. Swanson的情報(bào)學(xué)學(xué)術(shù)成就的方法論意義與啟示[J].情報(bào)學(xué)報(bào),2003(3):261-266.

[5]SWANSON D R. On the Fragmentation of Knowledge, the Connection Explosion, and Assembling Other People's Ideas [EB/OL]. [2014-03-21]. http://www.asis.org/Bulletin/Mar-01/ swanson.html.

[6]溫有奎,徐國華,賴伯年,等.知識(shí)元挖掘[M].西安:西安電子科技大學(xué)出版社,2005.

[7]黃升民,楊雪睿.碎片化:品牌傳播與大眾傳媒新趨勢[J].現(xiàn)代傳播,2005(6):6-12.

[8]HEY T, TANSLEY S, TOLLE K. The Found Paradigm: Data-Intensive Scientific Discovery [EB/OL]. [2014-03-21]. http:// www.doc88.com/p-777870574601.html.

[9]溫有奎,溫浩.中國學(xué)術(shù)搜索市場面對知識(shí)挖掘的挑戰(zhàn)[J].情報(bào)學(xué)報(bào),2013,32(12):1288-1294.

Dynamic Digital Publishing Model Based on Fragmentation Recombinant

WEN YouKui
(Beijing Wanfang Software Co., Ltd., Beijing 100038, China)

The large number of low-density characteristics of big data, are exacerbating the plight of our knowledge acquisition. In the traditional knowledge publishing industry, this publishing way in articles and books as units are becoming the bottleneck of our knowledge retrieval and use. To solve this problem, this paper proposes a dynamic digital publishing model of fragment reassembling. Firstly, it studies the social background and scienti fi c value of knowledge fragmentation, and the role in promoting the current social fragmentation reading brought by environmental technologies. Thus, it discusses a dynamic combination of digital publishing model, as well as key technologies to achieve dynamic digital publishing consideration. Our approach is not only to develop the theory of knowledge organization, but also to promote the depth of knowledge retrieval, small particle size and ef fi cient use of knowledge acquisition methods, and to greatly improve the ef fi ciency of the publication and dissemination of knowledge.

Knowledge fragments; Dynamic combination; Digital publishing

G237

10.3772/j.issn.1673—2286.2014.04.001

溫有奎,男,1951年生,管理學(xué)博士,教授,北京萬方軟件股份有限公司,研究方向:智能搜索引擎、文本知識(shí)挖掘。E-mail:wykui123@126.com。

2014-04-01)

*本研究得到“十二五”國家科技支撐計(jì)劃“科技文獻(xiàn)動(dòng)態(tài)數(shù)字出版技術(shù)研發(fā)與應(yīng)用示范”(編號(hào):2012BAH90F00)資助。

猜你喜歡
動(dòng)態(tài)文獻(xiàn)數(shù)字
國內(nèi)動(dòng)態(tài)
國內(nèi)動(dòng)態(tài)
國內(nèi)動(dòng)態(tài)
Hostile takeovers in China and Japan
速讀·下旬(2021年11期)2021-10-12 01:10:43
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
大東方(2019年12期)2019-10-20 13:12:49
動(dòng)態(tài)
答數(shù)字
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
The Role and Significant of Professional Ethics in Accounting and Auditing
商情(2017年1期)2017-03-22 16:56:36
數(shù)字看G20
石城县| 富蕴县| 连城县| 巴中市| 黄大仙区| 大同市| 镇沅| 收藏| 新郑市| 锡林郭勒盟| 寿阳县| 田阳县| 阿鲁科尔沁旗| 大姚县| 阿克苏市| 曲周县| 衡水市| 惠安县| 南安市| 绍兴县| 原阳县| 集贤县| 博客| 纳雍县| 雷波县| 清丰县| 辽源市| 深州市| 辰溪县| 历史| 西峡县| 壶关县| 门源| 道孚县| 湖口县| 司法| 宁津县| 工布江达县| 德州市| 蓝田县| 合川市|