国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

期刊論文結(jié)構(gòu)化數(shù)據(jù)加工存儲(chǔ)標(biāo)準(zhǔn)的研究與探索

2024-05-29 00:22:53彭勁松李璐
數(shù)字出版研究 2024年2期

彭勁松 李璐

專(zhuān)題主持人

趙婧,女,中圖科信數(shù)智技術(shù)(北京)有限公司期刊業(yè)務(wù)總監(jiān)。研究方向:數(shù)字出版技術(shù)平臺(tái)建設(shè)、數(shù)字出版與標(biāo)準(zhǔn)研究。

主持人語(yǔ)

標(biāo)準(zhǔn)化是經(jīng)濟(jì)社會(huì)發(fā)展強(qiáng)有力的技術(shù)支持,標(biāo)準(zhǔn)達(dá)到統(tǒng)一,才能獲得最佳秩序和社會(huì)效益。科技期刊數(shù)字化發(fā)展同樣離不開(kāi)標(biāo)準(zhǔn)的引導(dǎo)與規(guī)范,只有保證標(biāo)準(zhǔn)化工作的順利開(kāi)展,才能促進(jìn)數(shù)字出版活動(dòng)獲得共同秩序和共同效益,促進(jìn)參與各環(huán)節(jié)的各相關(guān)主體互聯(lián)互通。特別是在全球開(kāi)放科學(xué)大背景下,我國(guó)科技期刊高質(zhì)量發(fā)展、參與國(guó)際競(jìng)爭(zhēng),培育世界一流科技期刊亟須標(biāo)準(zhǔn)化引領(lǐng)。

本專(zhuān)題共四篇文章,第一篇聚焦國(guó)內(nèi)外科技論文結(jié)構(gòu)化標(biāo)準(zhǔn)應(yīng)用的歷程,提出既能完整保留論文原始信息,又便于提取各類(lèi)結(jié)構(gòu)化信息的數(shù)據(jù)處理方案,實(shí)現(xiàn)一次加工多渠道投放和傳播;第二篇參考科研與學(xué)術(shù)出版社區(qū)中多種持久標(biāo)識(shí)符體系(PIDs)的發(fā)展現(xiàn)狀,提出基于PIDs構(gòu)建技術(shù)解決方案;第三篇以科技期刊發(fā)布系統(tǒng)遷移作為切入點(diǎn),按照論文數(shù)據(jù)、擴(kuò)展數(shù)據(jù)及由此衍生的用戶(hù)數(shù)據(jù)進(jìn)行層次劃分,提出數(shù)據(jù)遷移的思路、方法和注意事項(xiàng);第四篇從個(gè)案切入,以中華醫(yī)學(xué)會(huì)系列雜志為例闡釋DOI在科技期刊傳播和評(píng)價(jià)中的重要價(jià)值,并提出防止DOI著錄錯(cuò)誤的有效建議。四篇文章將視角集中于科技期刊平臺(tái)的軟設(shè)施建設(shè),即:標(biāo)準(zhǔn)規(guī)范作為科技期刊數(shù)字化的基礎(chǔ)設(shè)施,能夠促進(jìn)科技期刊數(shù)字出版的標(biāo)準(zhǔn)化、規(guī)范化,促進(jìn)跨平臺(tái)、跨模態(tài)、跨機(jī)構(gòu)數(shù)據(jù)交換、數(shù)據(jù)集成和多平臺(tái)傳播,就需要在資源整理、平臺(tái)建設(shè)、業(yè)務(wù)制度等層面,通過(guò)形成方案指南和實(shí)踐案例,使之被更多科技期刊共識(shí)和踐行,更積極地參與全球開(kāi)放科學(xué),服務(wù)我國(guó)科技強(qiáng)國(guó)建設(shè),為我國(guó)科技創(chuàng)新提供支撐力量。本專(zhuān)題的初衷即在此。

摘 要:期刊論文結(jié)構(gòu)化加工在期刊界已經(jīng)逐步形成共識(shí),國(guó)內(nèi)期刊平臺(tái)多采用新版期刊文章標(biāo)簽集(Journal Article Tag Suite,JATS)標(biāo)準(zhǔn)進(jìn)行加工,但JATS標(biāo)準(zhǔn)僅對(duì)數(shù)據(jù)屬性提出建議值,自行拓展空間較大,導(dǎo)致實(shí)際的數(shù)據(jù)加工結(jié)果千差萬(wàn)別,數(shù)據(jù)交換困難重重。本文分析了國(guó)內(nèi)外數(shù)字化加工和標(biāo)準(zhǔn)進(jìn)化的歷程及我國(guó)在XML結(jié)構(gòu)化數(shù)據(jù)加工中存在的問(wèn)題,進(jìn)一步分析了存檔及交換標(biāo)簽集、出版標(biāo)簽集等不同子集的特點(diǎn),提出既能完整保留論文原始信息,又便于提取各類(lèi)結(jié)構(gòu)化信息的數(shù)據(jù)加工及存儲(chǔ)解決方案,可以根據(jù)需要通過(guò)減法轉(zhuǎn)換生成符合各平臺(tái)標(biāo)準(zhǔn)的數(shù)據(jù)加工存儲(chǔ)格式,從而真正實(shí)現(xiàn)一次加工、多渠道投放和傳播。

關(guān)鍵詞:期刊論文結(jié)構(gòu)化;JATS;存檔及交換標(biāo)簽集;出版標(biāo)簽集;數(shù)據(jù)加工存儲(chǔ)標(biāo)準(zhǔn);XML

DOI: 10.3969/j.issn.2097-1869.2024.02.007文獻(xiàn)標(biāo)識(shí)碼:A

著錄格式:彭勁松,李璐.期刊論文結(jié)構(gòu)化數(shù)據(jù)加工存儲(chǔ)標(biāo)準(zhǔn)的研究與探索[J].數(shù)字出版研究,2024,3(2):57-64.

1 背景及既有研究

1.1 國(guó)際期刊數(shù)字化加工及標(biāo)準(zhǔn)進(jìn)化的基本歷程

國(guó)際期刊論文全文內(nèi)容的數(shù)字化加工及標(biāo)準(zhǔn)進(jìn)化經(jīng)歷了較長(zhǎng)的發(fā)展過(guò)程,總體可分為萌芽期、發(fā)展期和成熟期三個(gè)階段。

1.1.1 萌芽期

國(guó)際出版業(yè)數(shù)字化加工及文檔格式標(biāo)準(zhǔn)起源于20世紀(jì)60年代,IBM研究人員發(fā)現(xiàn),要提高數(shù)據(jù)的可移植性,必須采用一種通用的文檔格式來(lái)分離內(nèi)容和數(shù)據(jù)樣式。在該原則下,IBM創(chuàng)建了通用標(biāo)記語(yǔ)言(Generalized Markup Language,GML),并開(kāi)始用該語(yǔ)言標(biāo)記文檔內(nèi)容、版式及相互關(guān)系。

1.1.2 發(fā)展期

1986年,國(guó)際標(biāo)準(zhǔn)化組織(International Organization for Standardization,ISO)在GML的基礎(chǔ)上發(fā)布了一個(gè)信息管理方面的國(guó)際標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言(Standard Generalized Markup Language,SGML),是ISO、美國(guó)國(guó)家標(biāo)準(zhǔn)學(xué)會(huì)(American National Standards Institute,ANSI)、歐洲計(jì)算機(jī)制造商協(xié)會(huì)(European Computer Manufacturers Association,ECMA)的共同標(biāo)準(zhǔn),主要用來(lái)注釋文本文檔,提供文檔片段類(lèi)型信息的規(guī)范。在此階段,一些國(guó)際出版公司如Commerce Clearing House(CCH)等開(kāi)始搭建基于SGML文檔存儲(chǔ)和展示的平臺(tái),把大量的紙質(zhì)膠片等文檔進(jìn)行電子化處理,轉(zhuǎn)變?yōu)镾GML文檔。部分科技期刊和數(shù)據(jù)庫(kù)開(kāi)始搭建基于SGML規(guī)范底層的電子期刊及數(shù)據(jù)庫(kù)產(chǎn)品,還有一些國(guó)際出版公司(如EBSCO)更是采用了文本標(biāo)記的方式對(duì)期刊的元數(shù)據(jù)信息進(jìn)行分類(lèi)標(biāo)記。1996年,學(xué)術(shù)資源平臺(tái)SpringerLink在線(xiàn)出版項(xiàng)目建立了全球第一個(gè)電子期刊全文數(shù)據(jù)庫(kù);同年,美國(guó)物理聯(lián)合會(huì)(American Institute of Physics,AIP)開(kāi)發(fā)了在線(xiàn)期刊出版服務(wù)(Online Journal Publishing Service,OJPS);1997年,巴西創(chuàng)建了SciELO科技期刊出版平臺(tái)。這一階段的主要方向是通過(guò)平臺(tái)形成各自的網(wǎng)絡(luò)電子出版模式。

1.1.3 成熟期

20世紀(jì)90年代中期,萬(wàn)維網(wǎng)聯(lián)盟(World Wide Web Consortium,W3C)又在SGML標(biāo)準(zhǔn)的基礎(chǔ)上衍生出可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language,XML),形成了用以描述網(wǎng)絡(luò)上的數(shù)據(jù)內(nèi)容和結(jié)構(gòu)的數(shù)字化標(biāo)準(zhǔn)。XML繼承了SGML的大部分功能,去除了使用率較低的功能,降低了使用的復(fù)雜度,使科技期刊在出版網(wǎng)絡(luò)化的同時(shí),能夠發(fā)揮數(shù)據(jù)集成的優(yōu)勢(shì),共享數(shù)據(jù)。國(guó)際科技期刊數(shù)字化出版自XML的出現(xiàn)開(kāi)始走向成熟,通過(guò)底層數(shù)據(jù)標(biāo)準(zhǔn)的轉(zhuǎn)換對(duì)接,從單一出版社、出版平臺(tái)走向了集群化并購(gòu)的道路。例如,愛(ài)思唯爾(Elsevier)搭建了ScienceDirect全文數(shù)據(jù)庫(kù),包含近3 000種期刊的全文數(shù)據(jù);施普林格(Springer)成為了世界最大的開(kāi)放獲取出版集團(tuán)之一;2004年,AIP將原OJPS升級(jí)為Scitation平臺(tái),并為10多家出版商提供服務(wù)。國(guó)際上,期刊集群化開(kāi)放獲取已經(jīng)成為主流,為了更好地實(shí)現(xiàn)集群化和數(shù)據(jù)共享,美國(guó)國(guó)家信息標(biāo)準(zhǔn)組織(National Information Standards Organization,NISO)采用了美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的期刊文章標(biāo)簽集(Journal Article Tag Suite,JATS)作為NISO定義的標(biāo)準(zhǔn)規(guī)范,并在此后逐步推出一系列國(guó)際出版物標(biāo)準(zhǔn),形成了標(biāo)準(zhǔn)體系。自2010年以來(lái),全球出版行業(yè)開(kāi)始加速數(shù)字化轉(zhuǎn)型。當(dāng)前,國(guó)際數(shù)字化業(yè)務(wù)已經(jīng)“顛覆”了傳統(tǒng)出版的概念。據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)Technavio評(píng)估,全球數(shù)字出版市場(chǎng)的總體規(guī)模會(huì)在2021—2025年以每年平均12.6%的增長(zhǎng)率加速擴(kuò)張[1]。以美國(guó)為例,其出版的核心業(yè)務(wù)逐漸從單一的平面化紙質(zhì)內(nèi)容生產(chǎn)向跨媒體、多元化的新型數(shù)字內(nèi)容生產(chǎn)轉(zhuǎn)變,美國(guó)科技期刊業(yè)已基本完成數(shù)字化轉(zhuǎn)型,傳統(tǒng)的紙質(zhì)出版已經(jīng)成為一項(xiàng)小眾業(yè)務(wù)。

1.2 國(guó)內(nèi)期刊數(shù)字化加工及標(biāo)準(zhǔn)進(jìn)化的基本歷程

國(guó)內(nèi)科技期刊的數(shù)字化加工及標(biāo)準(zhǔn)化進(jìn)程整體與國(guó)際同行相比尚有較大發(fā)展空間。國(guó)內(nèi)的數(shù)字化標(biāo)準(zhǔn)基本采用借鑒方式,主要是學(xué)習(xí)認(rèn)知國(guó)際標(biāo)準(zhǔn),國(guó)內(nèi)科技期刊數(shù)字化發(fā)展過(guò)程同樣也可近似地分為萌芽期、快速發(fā)展期和初步成熟期三個(gè)階段。

1.2.1 萌芽期

中國(guó)的數(shù)字化出版起始時(shí)間并不晚,其開(kāi)始于“748工程”。1974年,原國(guó)家計(jì)劃委員會(huì)發(fā)文批復(fù),同意將漢字信息處理系統(tǒng)工程列入國(guó)家科學(xué)技術(shù)發(fā)展計(jì)劃,成立漢字信息處理系統(tǒng)工程(簡(jiǎn)稱(chēng)“748工程”)[2]。但國(guó)內(nèi)科技期刊的數(shù)字化進(jìn)度比較緩慢,直至20世紀(jì)90年代,隨著計(jì)算機(jī)的普及,數(shù)字化才真正開(kāi)始。起初,國(guó)內(nèi)科技期刊數(shù)字化的主要方向是圖片化,而數(shù)字化的主體主要是圖書(shū)館。

這一階段的標(biāo)準(zhǔn)體系主要是基于掃描圖片及以?huà)呙鑸D片為基礎(chǔ)的PDF文件。PDF采用“掃描+光學(xué)字符識(shí)別(Optical Character Recognition,OCR)”的方式進(jìn)行數(shù)據(jù)加工,這種方式的優(yōu)勢(shì)在于,只要有紙質(zhì)期刊,就可以進(jìn)行加工,沒(méi)有其他任何前提要求。但這種方式也存在一些弊端,如數(shù)據(jù)加工后,閱讀時(shí)只能查看掃描形式的論文,不僅不美觀,而且文件體積大,不便于網(wǎng)絡(luò)傳輸,OCR識(shí)別出來(lái)的文字內(nèi)容也經(jīng)常出現(xiàn)錯(cuò)誤。

1.2.2 快速發(fā)展期

20世紀(jì)末至2010年,國(guó)內(nèi)眾多出版公司認(rèn)識(shí)到掃描版PDF的問(wèn)題而開(kāi)始采用數(shù)字化的排版方式,直接進(jìn)行轉(zhuǎn)換加工形成PDF文件。這種加工方式的優(yōu)勢(shì)在于內(nèi)容視覺(jué)效果美觀,便于閱讀,不會(huì)出現(xiàn)掃描文件常見(jiàn)的鋸齒現(xiàn)象,加工出來(lái)的文件體積小,便于使用。但這種方式對(duì)排版文件的收集提出了嚴(yán)格的要求,不僅要求完整收集排版文件及其附屬文件(如補(bǔ)字、補(bǔ)圖等),而且還要保證收集到的文件是最后印刷使用的文件版本,而非某個(gè)中間版本。雖然這種方式操作較為繁瑣,但通過(guò)適當(dāng)增加特定性標(biāo)簽并經(jīng)過(guò)長(zhǎng)時(shí)間的磨合和發(fā)展,這也成為了PDF加工的主流方式。這一時(shí)期,國(guó)內(nèi)出現(xiàn)了以知網(wǎng)、萬(wàn)方、維普為代表的一批期刊數(shù)據(jù)庫(kù)廠(chǎng)商,他們所采用的主要加工方式是“元數(shù)據(jù)+PDF展示”。此時(shí),國(guó)內(nèi)的各科技期刊編輯部也開(kāi)始向紙刊與編輯部網(wǎng)站兩種產(chǎn)品并存的方向發(fā)展,2010年后,大部分科技期刊都已建立自己的網(wǎng)站。

1.2.3 初步成熟期

自2015年開(kāi)始,國(guó)內(nèi)科技期刊數(shù)字化的主體除圖書(shū)館和數(shù)據(jù)庫(kù)廠(chǎng)商外,也涌現(xiàn)出一批科技期刊出版機(jī)構(gòu)。這一時(shí)期,國(guó)內(nèi)科技期刊數(shù)字化轉(zhuǎn)型開(kāi)始走向成熟,在國(guó)家政策的扶持下出現(xiàn)了一批以?xún)?nèi)容方為主體的期刊集群平臺(tái),如Mednexus、Researching、SciEngine、SciOpen等。這些平臺(tái)借鑒了前沿國(guó)際技術(shù)信息,建立了可以進(jìn)行全文XML結(jié)構(gòu)化數(shù)據(jù)展示的期刊集群平臺(tái),同時(shí)采用XML結(jié)構(gòu)化數(shù)據(jù)進(jìn)行全文內(nèi)容加工,少量頭部期刊開(kāi)始基于JATS編制適合自己的XML數(shù)據(jù)標(biāo)準(zhǔn),如中華醫(yī)學(xué)會(huì)的CMA JATS、科學(xué)出版社和清華大學(xué)出版社各自的XML數(shù)據(jù)標(biāo)準(zhǔn)等,并分別根據(jù)標(biāo)準(zhǔn)開(kāi)展XML結(jié)構(gòu)化數(shù)據(jù)加工。2019年,中國(guó)科技期刊卓越行動(dòng)計(jì)劃的開(kāi)展大幅加快了國(guó)內(nèi)科技期刊數(shù)字化的進(jìn)程。2023年,“DOAJ China Day 2023”開(kāi)放獲取研討會(huì)在海南召開(kāi),開(kāi)放獲取方式已得到眾多科技期刊的認(rèn)可。

1.3 我國(guó)期刊論文XML結(jié)構(gòu)化數(shù)據(jù)加工中的問(wèn)題

目前國(guó)際上進(jìn)行期刊論文數(shù)字化加工的首要目的是數(shù)據(jù)存儲(chǔ),用標(biāo)注語(yǔ)言把內(nèi)容和樣式進(jìn)行分離,底層是用標(biāo)注語(yǔ)言進(jìn)行標(biāo)注的文本文件,主要側(cè)重?cái)?shù)據(jù)標(biāo)準(zhǔn),并在數(shù)據(jù)標(biāo)準(zhǔn)的基礎(chǔ)上根據(jù)不同的產(chǎn)品需求提煉出對(duì)應(yīng)的產(chǎn)品標(biāo)準(zhǔn),由此在加工和制作數(shù)據(jù)時(shí)就可以不被產(chǎn)品標(biāo)準(zhǔn)所限制。筆者所在的機(jī)構(gòu)已有近40年的數(shù)據(jù)加工經(jīng)驗(yàn),一般國(guó)際客戶(hù)都會(huì)要求先按其自定義的數(shù)據(jù)規(guī)范加工和制作后,再轉(zhuǎn)換、輸出為目標(biāo)平臺(tái)的格式。

而我國(guó)開(kāi)始探索期刊XML數(shù)據(jù)加工的理念主要是按產(chǎn)品標(biāo)準(zhǔn)制定數(shù)據(jù)標(biāo)準(zhǔn),從而導(dǎo)致數(shù)據(jù)加工和制作受產(chǎn)品需求所限,大多國(guó)內(nèi)客戶(hù)都會(huì)要求直接制作成目標(biāo)平臺(tái)的數(shù)據(jù)格式,這可能會(huì)產(chǎn)生如下問(wèn)題。

1.3.1 無(wú)法完整保留期刊論文所有的原始信息

國(guó)內(nèi)主流的數(shù)據(jù)加工方式是根據(jù)特定產(chǎn)品的需求進(jìn)行加工,因此在加工具體的XML數(shù)據(jù)項(xiàng)時(shí),需要根據(jù)產(chǎn)品的標(biāo)準(zhǔn)要求舍棄不需要的原始信息,這樣做的好處是在展示時(shí)可以通過(guò)渲染實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一展示;但也由于丟失了部分原始信息,導(dǎo)致加工出來(lái)的數(shù)據(jù)無(wú)法作為原始數(shù)據(jù)進(jìn)行存檔,而強(qiáng)行存檔或?qū)⒃斐蓴?shù)據(jù)不完整等不可預(yù)期的后果。

1.3.2 無(wú)法基于已加工數(shù)據(jù)生成不同需求產(chǎn)品的數(shù)據(jù)

對(duì)于上述XML結(jié)構(gòu)化數(shù)據(jù)加工方式,由于數(shù)據(jù)不能完全體現(xiàn)論文的原始狀況,若僅根據(jù)經(jīng)驗(yàn)將數(shù)據(jù)加工成目標(biāo)產(chǎn)品需要的數(shù)據(jù)格式,那么當(dāng)需要把數(shù)據(jù)按其他數(shù)據(jù)庫(kù)收錄要求進(jìn)行轉(zhuǎn)換時(shí),可能導(dǎo)致無(wú)法生成相應(yīng)數(shù)據(jù),只能根據(jù)加工后的不完全數(shù)據(jù)進(jìn)行轉(zhuǎn)換或重新加工,造成資源浪費(fèi)。

2 期刊論文結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)的設(shè)計(jì)與實(shí)踐

2.1 國(guó)際數(shù)據(jù)標(biāo)準(zhǔn)設(shè)計(jì)思路

為解決上述問(wèn)題,可參考國(guó)際數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計(jì)思路。JATS是由NISO發(fā)布的期刊論文XML編碼的標(biāo)準(zhǔn)[3],鑒于該標(biāo)準(zhǔn)的完整性及各類(lèi)內(nèi)容提取的方便性,其成為全球科技期刊的一種通用數(shù)據(jù)交換文檔格式,支持出版商和數(shù)據(jù)庫(kù)進(jìn)行期刊內(nèi)容的存儲(chǔ)和交換[4],現(xiàn)在已經(jīng)逐漸被全世界大部分期刊平臺(tái)認(rèn)可并作為其底層數(shù)據(jù)的通用標(biāo)準(zhǔn)。

該標(biāo)準(zhǔn)體系分為三個(gè)標(biāo)準(zhǔn)子集:期刊存檔及交換標(biāo)簽集(Journal Archiving and Interchange Tag Set)、期刊出版標(biāo)簽集(Journal Publishing Tag Set)和文章創(chuàng)作標(biāo)簽集(Article Authoring Tag Set),見(jiàn)表1。

期刊存檔及交換標(biāo)簽集[5]是一套數(shù)據(jù)標(biāo)準(zhǔn)集,提供標(biāo)準(zhǔn)化格式以存儲(chǔ)期刊文章的知識(shí)內(nèi)容。該標(biāo)準(zhǔn)集在系列標(biāo)準(zhǔn)中包容性最強(qiáng),其中大部分屬性值都是字符數(shù)據(jù)值,可以容納任何源值,最大程度保留原始數(shù)據(jù)內(nèi)容(包含元素之間的標(biāo)點(diǎn)和空格等)而無(wú)需求助于樣式表生成文本元素。由于該標(biāo)準(zhǔn)集具有完整性特征,其還支持針對(duì)各種出版標(biāo)準(zhǔn)的用戶(hù)數(shù)據(jù)交換,而避免出現(xiàn)數(shù)據(jù)丟失的情況。

期刊出版標(biāo)簽集[6]是為期刊出版用戶(hù)提供的一種出版發(fā)布規(guī)范標(biāo)準(zhǔn)化格式,是一種產(chǎn)品標(biāo)準(zhǔn),側(cè)重于期刊發(fā)布,其包含的標(biāo)簽比期刊存檔及交換標(biāo)簽集少。根據(jù)該期刊發(fā)布標(biāo)準(zhǔn),部分原文內(nèi)容(如作者基金信息的分類(lèi)標(biāo)題等)會(huì)由發(fā)布平臺(tái)通過(guò)樣式表處理,從而丟棄原始的實(shí)際數(shù)據(jù)信息。

文章創(chuàng)作標(biāo)簽集[7]是為論文作者提供的一種論文寫(xiě)作標(biāo)準(zhǔn)化格式,很多編輯軟件針對(duì)該標(biāo)準(zhǔn)開(kāi)發(fā)相應(yīng)工具,方便作者寫(xiě)作并對(duì)接期刊編輯。與前兩個(gè)標(biāo)準(zhǔn)集不同,文章創(chuàng)作標(biāo)簽集是整體標(biāo)簽套件,規(guī)定比較嚴(yán)格,很多元素內(nèi)容必須以指定的順序出現(xiàn)并限制其格式設(shè)置選項(xiàng),不允許在該標(biāo)簽集上出現(xiàn)具有期刊編輯個(gè)體風(fēng)格的內(nèi)容,比如列表或參考文獻(xiàn)的標(biāo)號(hào)等。

2.2 期刊論文數(shù)據(jù)加工實(shí)踐問(wèn)題分析及解決思路

2.2.1 問(wèn)題分析

對(duì)于國(guó)內(nèi)期刊的XML結(jié)構(gòu)化數(shù)據(jù)加工,除第一章提出的問(wèn)題外,筆者在多年數(shù)據(jù)加工服務(wù)實(shí)踐中還遇到了如下問(wèn)題:

(1)各期刊集群或出版社的規(guī)范不一致;

(2)在同一種規(guī)范下,平臺(tái)的樣式不同導(dǎo)致對(duì)數(shù)據(jù)的要求不同;

(3)期刊集群或出版社標(biāo)準(zhǔn)持續(xù)更新。

上述問(wèn)題和第一章中提出問(wèn)題的實(shí)質(zhì)都在于,雖然期刊或期刊集群的標(biāo)準(zhǔn)規(guī)范都是產(chǎn)品類(lèi)型的規(guī)范,但即使是同一期刊或同一集群,這一規(guī)范也會(huì)根據(jù)產(chǎn)品的適用場(chǎng)景不同而發(fā)生變化。

2.2.2 關(guān)鍵問(wèn)題解決思路

為解決上述問(wèn)題,本文提出如下解決思路。

(1)在構(gòu)建數(shù)據(jù)加工存儲(chǔ)標(biāo)準(zhǔn)時(shí),以期刊存檔及交換標(biāo)簽集而非期刊出版標(biāo)簽集為基礎(chǔ)來(lái)進(jìn)行構(gòu)建,可以加強(qiáng)相關(guān)標(biāo)簽集的包容性,需要時(shí)再轉(zhuǎn)換為期刊出版標(biāo)簽集或其他期刊自行定義標(biāo)準(zhǔn)。這種方法的核心是數(shù)據(jù)標(biāo)準(zhǔn)與產(chǎn)品標(biāo)準(zhǔn)的分離。

因此,在設(shè)計(jì)數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)時(shí),要盡可能兼容其他平臺(tái)的顆粒度。同時(shí),由于XML語(yǔ)言具有可擴(kuò)展性,標(biāo)簽名稱(chēng)是否相同并非問(wèn)題的關(guān)鍵,標(biāo)簽內(nèi)容的唯一性和準(zhǔn)確性才是關(guān)鍵。具體來(lái)說(shuō),一是要針對(duì)各種期刊原文進(jìn)行分析,對(duì)期刊中的各種元素進(jìn)行總結(jié);二是要制定囊括期刊所有內(nèi)容的標(biāo)準(zhǔn)集(參考期刊存檔及交換標(biāo)簽集的存儲(chǔ)方式),將期刊中的所有內(nèi)容都以元素存儲(chǔ)的方式進(jìn)行標(biāo)識(shí),且在加工過(guò)程中保證標(biāo)簽內(nèi)容的唯一性和準(zhǔn)確性。

(2)采用多種手段保證論文原文信息完整,可通過(guò)如下方式處理:第一,將期刊出版標(biāo)簽集或產(chǎn)品類(lèi)型標(biāo)簽集中需要舍棄的內(nèi)容適當(dāng)增加特定性標(biāo)簽,放入專(zhuān)項(xiàng)內(nèi)容進(jìn)行存儲(chǔ),同時(shí)采用適合其內(nèi)容的標(biāo)簽進(jìn)行標(biāo)注;第二,對(duì)于原文元素中出現(xiàn)的標(biāo)點(diǎn)或空格等用于分割信息的內(nèi)容,也應(yīng)基于保留原則,采用特定標(biāo)識(shí)進(jìn)行標(biāo)記,這樣既能保留原文內(nèi)容(如原始的標(biāo)點(diǎn)或間距等),實(shí)現(xiàn)原文重現(xiàn),又能在根據(jù)產(chǎn)品標(biāo)準(zhǔn)統(tǒng)一渲染時(shí)去除相關(guān)標(biāo)識(shí)的內(nèi)容,使內(nèi)容按照統(tǒng)一的規(guī)格得以呈現(xiàn)。

(3)數(shù)據(jù)加工存儲(chǔ)標(biāo)準(zhǔn)的應(yīng)用針對(duì)不同的平臺(tái)標(biāo)準(zhǔn)轉(zhuǎn)換,也就是將數(shù)據(jù)加工后存儲(chǔ)的標(biāo)簽和結(jié)構(gòu)按照所需的平臺(tái)標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)換,由于設(shè)計(jì)的標(biāo)準(zhǔn)集內(nèi)容涵蓋期刊的所有內(nèi)容,客戶(hù)需要的平臺(tái)標(biāo)準(zhǔn)和產(chǎn)品標(biāo)準(zhǔn)一般為該標(biāo)準(zhǔn)集的子集(見(jiàn)圖1)。因此實(shí)際操作時(shí)可以針對(duì)客戶(hù)的個(gè)性化需求刪減不需要的標(biāo)簽內(nèi)容,進(jìn)行減法對(duì)接,并將標(biāo)簽對(duì)應(yīng)到客戶(hù)所需標(biāo)準(zhǔn)上,實(shí)現(xiàn)一次加工多次分發(fā)的目標(biāo)。

筆者采用上述方式進(jìn)行數(shù)據(jù)加工、存儲(chǔ)和轉(zhuǎn)換相關(guān)工具的調(diào)整和優(yōu)化,并在實(shí)際的數(shù)據(jù)服務(wù)過(guò)程中進(jìn)行了驗(yàn)證,現(xiàn)已成功將加工后的數(shù)據(jù)與多個(gè)平臺(tái)進(jìn)行對(duì)接,包括DOAJ、PubMed及PubMed Central(PMC)、Elsevier Digital Commons、Index Copernicus(ICI)、西太平洋地區(qū)醫(yī)學(xué)索引(WPRIM)、國(guó)家科技圖書(shū)文獻(xiàn)中心(NSTL)、中國(guó)科學(xué)引文數(shù)據(jù)庫(kù)(CSCD)、中國(guó)知網(wǎng)(CNKI)、萬(wàn)方醫(yī)學(xué)、中國(guó)人文社會(huì)科學(xué)引文數(shù)據(jù)庫(kù)(CHSSCD)、中文社會(huì)科學(xué)引文索引數(shù)據(jù)庫(kù)(CSSCI)、中國(guó)科學(xué)院科技論文預(yù)發(fā)布平臺(tái)(ChinaXiv)、EDP Sciences、OVID Technologies、SciOpen、SciEngine、中國(guó)激光雜志社(CLP)、中華醫(yī)學(xué)會(huì)雜志社(CMA)、方正等平臺(tái),全部采用同一個(gè)數(shù)據(jù)加工存儲(chǔ)標(biāo)準(zhǔn)并通過(guò)減法直接輸出,已實(shí)現(xiàn)一次加工多渠道投放的效果。

2.3 應(yīng)用案例及成效

筆者根據(jù)對(duì)中華醫(yī)學(xué)會(huì)雜志社的多年數(shù)據(jù)加工經(jīng)驗(yàn)和對(duì)標(biāo)準(zhǔn)的理解,在上述數(shù)據(jù)加工存儲(chǔ)標(biāo)準(zhǔn)基礎(chǔ)上建立了規(guī)范、高效的“中華醫(yī)學(xué)會(huì)期刊文檔標(biāo)簽集”(以下簡(jiǎn)稱(chēng)為“CMA-JATS標(biāo)準(zhǔn)”),現(xiàn)已完成中華醫(yī)學(xué)會(huì)雜志社全部回溯數(shù)據(jù)的標(biāo)準(zhǔn)化加工工作,并持續(xù)進(jìn)行現(xiàn)刊的數(shù)據(jù)加工。

中華醫(yī)學(xué)會(huì)雜志社從2006年開(kāi)始研究國(guó)際數(shù)字化成功案例,以?xún)?nèi)容建設(shè)為核心,參考國(guó)際標(biāo)準(zhǔn)并結(jié)合中國(guó)醫(yī)學(xué)期刊的特色制定了CMA-JATS標(biāo)準(zhǔn)[8]。雜志社于2015年開(kāi)始搭建中華醫(yī)學(xué)期刊網(wǎng),目前已收錄期刊206種,論文130余萬(wàn)篇。2019年,為了更好地服務(wù)集群化期刊出版平臺(tái),提升學(xué)術(shù)數(shù)據(jù)資源的價(jià)值,雜志社搭建了數(shù)據(jù)中臺(tái)和業(yè)務(wù)中臺(tái),將通用能力進(jìn)行抽象化和原子化處理,實(shí)現(xiàn)了數(shù)據(jù)、業(yè)務(wù)、用戶(hù)的集約化管理。其中,數(shù)據(jù)中臺(tái)在數(shù)據(jù)標(biāo)準(zhǔn)方面不斷迭代,將高精度、高價(jià)值的數(shù)據(jù)進(jìn)行清洗、標(biāo)引、分發(fā)、統(tǒng)計(jì)等,為數(shù)據(jù)資產(chǎn)的保值和增值打下基礎(chǔ)。目前,中華醫(yī)學(xué)會(huì)雜志社已經(jīng)基于數(shù)字中臺(tái)架構(gòu)開(kāi)展了多種數(shù)字運(yùn)營(yíng)形式,除中華醫(yī)學(xué)期刊網(wǎng)外還建立了中華醫(yī)學(xué)期刊全文數(shù)據(jù)庫(kù)、中國(guó)臨床案例成果數(shù)據(jù)庫(kù)、中華醫(yī)學(xué)期刊App等多形態(tài)、多模式的前端應(yīng)用,使其成為國(guó)內(nèi)名列前茅的已實(shí)現(xiàn)數(shù)字出版可持續(xù)運(yùn)營(yíng)的科技期刊出版單位。

3 面向科技期刊的數(shù)據(jù)加工及標(biāo)準(zhǔn)建議

目前,大量科技期刊和出版單位正在嘗試構(gòu)建自己的數(shù)據(jù)標(biāo)準(zhǔn)并開(kāi)展數(shù)據(jù)加工,對(duì)此,本文提出如下建議。

3.1 從存儲(chǔ)標(biāo)準(zhǔn)中提取產(chǎn)品標(biāo)準(zhǔn),以適應(yīng)跨平臺(tái)傳播需要

對(duì)科技期刊、出版社等內(nèi)容方而言,不建議以某單一平臺(tái)的產(chǎn)品標(biāo)準(zhǔn)作為數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)。建立數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)時(shí)應(yīng)脫離產(chǎn)品需求,可使用JATS期刊存檔及交換標(biāo)簽集為基礎(chǔ)來(lái)搭建存儲(chǔ)標(biāo)準(zhǔn)之上的數(shù)據(jù)中臺(tái),以本刊或本單位能用到的最大集的方式保留期刊的原始內(nèi)容。同時(shí),建議以期刊出版標(biāo)簽集為基礎(chǔ)來(lái)搭建期刊網(wǎng)站平臺(tái),充分利用樣式表及平臺(tái)渲染實(shí)現(xiàn)網(wǎng)站平臺(tái)的效果。目前,國(guó)內(nèi)大部分技術(shù)廠(chǎng)商的標(biāo)準(zhǔn)都基于JATS期刊出版標(biāo)簽集搭建,因此這種方式也能夠適應(yīng)技術(shù)廠(chǎng)商的發(fā)布平臺(tái)。由于期刊出版標(biāo)簽集和文章創(chuàng)作標(biāo)簽集都是期刊存檔及交換標(biāo)簽集的子集,完全可以從數(shù)據(jù)平臺(tái)提取對(duì)應(yīng)產(chǎn)品平臺(tái)的各項(xiàng)內(nèi)容,使內(nèi)容方真正掌握對(duì)數(shù)據(jù)的主動(dòng)權(quán),也只有全內(nèi)容的存儲(chǔ)標(biāo)準(zhǔn)才能使內(nèi)容方在對(duì)接第三方平臺(tái)時(shí),僅在數(shù)據(jù)標(biāo)準(zhǔn)里做“減法”或“翻譯”即可生成第三方數(shù)據(jù)。存儲(chǔ)標(biāo)準(zhǔn)和樣式表是脫離的,所有內(nèi)容均為文本化信息,而產(chǎn)品標(biāo)準(zhǔn)大多與樣式表相結(jié)合,若脫離了樣式表則可能導(dǎo)致部分?jǐn)?shù)據(jù)內(nèi)容缺失。目前國(guó)內(nèi)很多科技期刊出版單位仍將產(chǎn)品標(biāo)準(zhǔn)置于首位,以產(chǎn)品標(biāo)準(zhǔn)來(lái)定義自己的數(shù)據(jù)標(biāo)準(zhǔn),并且多以平臺(tái)展示作為數(shù)字化的發(fā)展方向,這就導(dǎo)致內(nèi)容方的數(shù)據(jù)被產(chǎn)品標(biāo)準(zhǔn)所“綁架”,在跨平臺(tái)傳播時(shí),數(shù)據(jù)的重用性會(huì)受到較大影響,甚至需要重復(fù)性加工。XML存儲(chǔ)和排版文件等數(shù)據(jù)都應(yīng)是內(nèi)容方的資產(chǎn),不同的產(chǎn)品標(biāo)準(zhǔn)應(yīng)該是從存儲(chǔ)標(biāo)準(zhǔn)中被針對(duì)性提煉出來(lái)的,這樣內(nèi)容方才能自主選擇平臺(tái)產(chǎn)品,實(shí)現(xiàn)期刊平臺(tái)商的更迭與優(yōu)化。

3.2 將數(shù)據(jù)底層進(jìn)行結(jié)構(gòu)化處理,避免偽數(shù)字化

期刊數(shù)字化主要是存儲(chǔ)方式的數(shù)字化,而網(wǎng)頁(yè)展示與檢索、PDF閱讀與下載等只是數(shù)字化的表面現(xiàn)象,是對(duì)期刊內(nèi)容的數(shù)字化展示手段,后者仍屬于傳統(tǒng)出版的邏輯。真正的數(shù)字化應(yīng)將數(shù)據(jù)底層進(jìn)行結(jié)構(gòu)化處理,而非僅為展示目的的偽數(shù)字化。

當(dāng)前,一些科技期刊內(nèi)容方存在一種認(rèn)知誤區(qū),即只要采用了國(guó)際JATS標(biāo)準(zhǔn),能在數(shù)據(jù)庫(kù)Schema①中檢測(cè)通過(guò),就可以和國(guó)際對(duì)接。但實(shí)際并非如此,Schema通過(guò)僅表明文件邏輯正確,可以導(dǎo)入對(duì)方平臺(tái),但內(nèi)容標(biāo)識(shí)的正確性無(wú)法通過(guò)Schema驗(yàn)證法進(jìn)行檢測(cè)。一些加工商將內(nèi)容生硬地關(guān)聯(lián)至標(biāo)準(zhǔn)元素(Element)中,可能會(huì)導(dǎo)致后續(xù)產(chǎn)品擴(kuò)展出現(xiàn)問(wèn)題,這就是對(duì)標(biāo)準(zhǔn)目的性理解不到位的結(jié)果。(①指數(shù)據(jù)庫(kù)的組織和結(jié)構(gòu)。)

XML是一種可擴(kuò)展的標(biāo)注語(yǔ)言,其元素及屬性(Attribute)均可自定義,并非只有嚴(yán)格按照國(guó)際通用定義才能與國(guó)際對(duì)接,JATS等通用標(biāo)準(zhǔn)都是由國(guó)際組織提供的一些指導(dǎo)性標(biāo)準(zhǔn),主要是基于顆粒度的指導(dǎo),國(guó)外的主流出版單位很少完全套用國(guó)際通用的標(biāo)準(zhǔn),而是往往會(huì)根據(jù)自身的需求進(jìn)行改動(dòng),或完全自定義一種自己的標(biāo)準(zhǔn)。國(guó)際對(duì)接的核心并不在于是否采用了國(guó)際標(biāo)準(zhǔn)元素,而在于顆粒度。如果數(shù)據(jù)加工的顆粒度足夠高,那么在與其他平臺(tái)對(duì)接時(shí),只需進(jìn)行每個(gè)元素的轉(zhuǎn)換或翻譯即可。這就如同語(yǔ)言翻譯,雖然中文和英文字集不同,但每個(gè)單詞對(duì)應(yīng)的指示性?xún)?nèi)容是一致的,只需對(duì)應(yīng)翻譯就可以讓對(duì)方理解。因此,對(duì)接標(biāo)準(zhǔn)的實(shí)質(zhì)是內(nèi)容的對(duì)接,而非標(biāo)簽的對(duì)接,本質(zhì)上也可以理解為存儲(chǔ)標(biāo)準(zhǔn)和產(chǎn)品標(biāo)準(zhǔn)的對(duì)接。

目前部分國(guó)內(nèi)期刊平臺(tái)為了展示效果的視覺(jué)統(tǒng)一或美觀進(jìn)行了很多樣式渲染,如一些原文的分類(lèi)小標(biāo)題等是通過(guò)平臺(tái)樣式表根據(jù)標(biāo)簽渲染出來(lái)的,在底層數(shù)據(jù)上并沒(méi)有相應(yīng)保留,有些期刊平臺(tái)甚至完全拋棄了原有數(shù)據(jù)的結(jié)構(gòu),對(duì)于科技期刊而言,若此后再想在其他平臺(tái)傳播就會(huì)面臨較大的麻煩。因此,數(shù)據(jù)標(biāo)準(zhǔn)和產(chǎn)品標(biāo)準(zhǔn)的分離是內(nèi)容商實(shí)現(xiàn)數(shù)據(jù)多平臺(tái)傳播的基礎(chǔ),應(yīng)充分吸取成功經(jīng)驗(yàn),避免造成“為了展示而展示”的偽數(shù)字化。

3.3 對(duì)數(shù)據(jù)進(jìn)行高質(zhì)量、高顆粒度的加工和存儲(chǔ),基于標(biāo)準(zhǔn)開(kāi)發(fā)平臺(tái)

目前國(guó)內(nèi)大部分科技期刊內(nèi)容方均采用現(xiàn)成的平臺(tái),造成其數(shù)字化受限于平臺(tái),形成“被數(shù)字化”的局面,其加工的數(shù)據(jù)在后續(xù)使用中都受到限制,甚至使出版資源數(shù)字化變成一個(gè)“雞肋”項(xiàng)目。而在國(guó)際上,數(shù)字化出版不僅實(shí)現(xiàn)了盈利,且大有替代傳統(tǒng)出版的架勢(shì),主要區(qū)別就在于國(guó)外科技期刊出版單位的數(shù)據(jù)加工往往有的放矢,可以持續(xù)應(yīng)用于后續(xù)產(chǎn)品中。

要緩解目前國(guó)內(nèi)科技期刊內(nèi)容數(shù)字化過(guò)程中存在的問(wèn)題,首先要確認(rèn)需求,明確數(shù)字化的目的及后期產(chǎn)品的種類(lèi),根據(jù)需求制定能夠滿(mǎn)足后續(xù)產(chǎn)品顆粒度需求的標(biāo)準(zhǔn);然后在此基礎(chǔ)上對(duì)內(nèi)容進(jìn)行高質(zhì)量、高顆粒度的數(shù)據(jù)加工和數(shù)據(jù)存儲(chǔ),而這也是期刊論文結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)的核心要求。平臺(tái)應(yīng)基于標(biāo)準(zhǔn)來(lái)開(kāi)發(fā),而不是反過(guò)來(lái)由平臺(tái)決定標(biāo)準(zhǔn)。

數(shù)字化內(nèi)容加工的精確度是關(guān)鍵,國(guó)外科技期刊出版單位往往都對(duì)基礎(chǔ)XML數(shù)據(jù)精度有明確要求,一般為99.95%或99.995%。當(dāng)前國(guó)內(nèi)出版物的質(zhì)量有三審三校等過(guò)程體系進(jìn)行保證,但期刊數(shù)字化內(nèi)容的質(zhì)量問(wèn)題還沒(méi)有引起足夠的重視。

3.4 重視知識(shí)標(biāo)注的專(zhuān)業(yè)化

在進(jìn)行數(shù)據(jù)加工和知識(shí)標(biāo)注的過(guò)程中,需要對(duì)二者的數(shù)據(jù)進(jìn)行分別處理。其主要的不同在于,數(shù)據(jù)加工是根據(jù)加工的技術(shù)要求和質(zhì)量要求,將期刊、論文的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,放置于不同的標(biāo)簽中,除加工的知識(shí)外,不需要論文內(nèi)容相關(guān)的領(lǐng)域知識(shí);而知識(shí)標(biāo)注則不同,需要標(biāo)注人員具有與論文內(nèi)容相關(guān)的學(xué)科背景,對(duì)其中的術(shù)語(yǔ)、知識(shí)有基本的了解,才能做好知識(shí)標(biāo)注,如對(duì)論文的分類(lèi)或研究方法進(jìn)行標(biāo)注等。數(shù)據(jù)加工可以由普通的熟悉相關(guān)操作的人員進(jìn)行,而后者則建議由具有專(zhuān)業(yè)背景的人員進(jìn)行操作。

3.5 增強(qiáng)版權(quán)意識(shí),區(qū)分元數(shù)據(jù)和全文數(shù)據(jù)對(duì)接

在與第三方渠道進(jìn)行對(duì)接時(shí),科技期刊內(nèi)容方應(yīng)充分了解對(duì)接的各數(shù)據(jù)庫(kù)或渠道所需要的數(shù)據(jù)類(lèi)型,區(qū)分元數(shù)據(jù)對(duì)接和全文數(shù)據(jù)對(duì)接,增強(qiáng)版權(quán)意識(shí)。一些編輯部對(duì)文章的版權(quán)認(rèn)知尚不清晰,在元數(shù)據(jù)收錄時(shí)直接將全部數(shù)據(jù)信息提供給收錄方,這有可能導(dǎo)致內(nèi)容方與收錄方在后期產(chǎn)生版權(quán)糾紛。

4 結(jié)語(yǔ)

本文基于對(duì)國(guó)內(nèi)外科技期刊數(shù)字化加工及標(biāo)準(zhǔn)進(jìn)化基本歷程的梳理,提出通過(guò)期刊論文結(jié)構(gòu)化數(shù)據(jù)加工存儲(chǔ)標(biāo)準(zhǔn)的建立和實(shí)施,有效、完整保存期刊內(nèi)容,并在此基礎(chǔ)上提出可以通過(guò)從存儲(chǔ)結(jié)構(gòu)中提取相關(guān)標(biāo)簽的信息并進(jìn)行轉(zhuǎn)換的方式,生成任何類(lèi)型平臺(tái)所需的包括JATS在內(nèi)的多種出版標(biāo)準(zhǔn)數(shù)據(jù),以及支持與各類(lèi)數(shù)據(jù)庫(kù)減法對(duì)接的數(shù)據(jù),從而實(shí)現(xiàn)一次加工多渠道投放的效果。本文還基于筆者所在機(jī)構(gòu)在數(shù)字加工領(lǐng)域的長(zhǎng)期經(jīng)驗(yàn),對(duì)科技期刊提出區(qū)分存儲(chǔ)標(biāo)準(zhǔn)和產(chǎn)品標(biāo)準(zhǔn)、吸取結(jié)構(gòu)化加工成功經(jīng)驗(yàn)并避免偽數(shù)字化、對(duì)內(nèi)容進(jìn)行高質(zhì)量和高顆粒度的加工和存儲(chǔ)、分別處理數(shù)據(jù)加工與知識(shí)標(biāo)注,以及增強(qiáng)版權(quán)意識(shí),區(qū)分元數(shù)據(jù)和全文數(shù)據(jù)對(duì)接等建議。

作者簡(jiǎn)介

彭勁松,男,北京欣博友數(shù)據(jù)科技有限公司技術(shù)總監(jiān)。研究方向:數(shù)字化國(guó)際標(biāo)準(zhǔn)及傳播。

李璐,女,北京欣博友數(shù)據(jù)科技有限公司期刊XML結(jié)構(gòu)化制作項(xiàng)目經(jīng)理。研究方向:期刊國(guó)內(nèi)外標(biāo)準(zhǔn)對(duì)接。

參考文獻(xiàn)

[1]付嬈,李暉.結(jié)構(gòu)改變與模式創(chuàng)新:美國(guó)數(shù)字出版業(yè)發(fā)展的現(xiàn)狀、轉(zhuǎn)向及啟示[J].出版與印刷,2022(5):25-31.

[2]周程.轉(zhuǎn)載《知識(shí)分子》:王選當(dāng)年是如何攻克核心技術(shù)戰(zhàn)勝外企的?[EB/OL].(2018-04-29)[2024-01-03].https://www.icst.pku.edu.cn/fqlm/icst_35th/zxbd/1223569.htm.

[3]MARK H N.NISO Z39.96-201x, JATS: Journal Article Tag Suite[J].Serials Review,2012,38(3):213-214.

[4]包靖玲,李敬文,沈錫賓,等.美國(guó)NLM DTD 3.0期刊存儲(chǔ)和交換標(biāo)簽集中文章正文部分標(biāo)記解讀[J].中國(guó)科技期刊研究,2014,25(4):515-519.

[5]NCBI.Journal Archiving and Interchange Tag Set[EB/OL].[2024-01-03].https://jats.nlm.nih.gov/archiving.

[6]NCBI.Journal Publishing Tag Set[EB/OL].[2024-01-03].https://jats.nlm.nih.gov/publishing.

[7]NCBI.Article Authoring Tag Set[EB/OL].[2024-01-03].https://jats.nlm.nih.gov/articleauthoring.

[8]沈錫賓,李鵬,劉冰,等.CMA JATS在中華醫(yī)學(xué)會(huì)雜志社數(shù)字出版中的三年實(shí)踐總結(jié)[J].中國(guó)科技期刊研究,2018,29(3):248-252.

Research and Exploration on Structured Data Processing and Storage Standards for Academic Journals

PENG Jinsong, LI Lu

Formax BPO Beijing Inc., 100085, Beijing, China

Abstract: Structured data processing of papers has gradually formed a consensus in academic journal field. Domestic journals and platforms mostly adopt the Journal Article Tag Suite (JATS) standard for processing, but the JATS standard only puts forward suggested values for data attributes, which has a large space for self-expansion, resulting in different actual data processing results and difficulties in data exchange. This study analyzed the process of digital processing and standard evolution at home and abroad and the problems existing in XML structured data processing in China, and further analyzed the characteristics of different subsets such as Journal Archiving and Interchange Tag Set and Journal Publishing Tag Set. A data processing and storage solution were proposed, which can not only completely retain the original information of the paper, but also facilitate the extraction of various structured information. It can be used to generate data compliant with each platforms standard through subtraction and conversion as needed, thus truly realizing one-time processing and multi-channel delivery and communication.

Keywords: Structured data of academic journals; JATS; Journal Archiving and Interchange Tag Set; Journal Publishing Tag Set; Data processing and storage standard; XML

调兵山市| 上犹县| 潼关县| 武宣县| 虞城县| 苏尼特左旗| 土默特左旗| 壤塘县| 高密市| 鹤山市| 西乌| 白城市| 古丈县| 广东省| 罗甸县| 子洲县| 阿勒泰市| 阜平县| 比如县| 乐都县| 庆城县| 武隆县| 盘锦市| 久治县| 商河县| 玛沁县| 绥棱县| 阿克苏市| 兴仁县| 德清县| 盐边县| 庐江县| 通江县| 榆社县| 宝丰县| 大英县| 华宁县| 湄潭县| 南木林县| 祥云县| 册亨县|