国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

民國報紙數(shù)字化驗收常見問題研究
——以國家圖書館為例

2019-09-06 07:55:22
圖書情報研究 2019年3期
關鍵詞:附圖篇目著錄

張 瑋

(國家圖書館 北京 100081)

1 引言

民國報紙?zhí)N藏了豐富的時代信息,反映了民國時期的政治、經(jīng)濟、法律、文化、軍事、教育等方面的信息,具有很高的研究價值。但由于民國報紙紙張的酸度很高,目前民國報紙老化及損壞的程度極高,迫切需要一種新的存儲方式來拯救民國報紙,目前,各圖書館和出版社都積極采取不同的措施進行民國報紙的拯救工作,比如各地高校圖書館依托豐富、珍稀、特色的民國報刊,對某一學科或某一專題有價值的信息建立民國時期報刊的特色數(shù)據(jù)庫、民國報刊專題數(shù)據(jù)庫、民國報刊商業(yè)數(shù)據(jù)庫等以供學者或商業(yè)使用[1];四川大學圖書館從提高利用率的實際角度出發(fā),根據(jù)讀者所查閱膠卷的頻次排名,對館藏民國四川報紙進行篩選式地數(shù)字化;此外,四川大學圖書館還自主研發(fā)了《新新新聞》共享平臺,基于前期的數(shù)據(jù)采集錄入,可支持公歷日期、民國日期、報紙主、副標題等字段的高級檢索[2];重慶圖書館自2012年3月開啟民國報紙數(shù)碼掃描工作,把民國報紙加工成方便讀者檢索查閱的PDF 格式的電子文檔進行保存[3]。國家圖書館自2014年啟動民國報紙縮微膠片數(shù)字化工作[4],在掃描圖像的基礎上,對文章標題進行OCR 文字識別[5],以方便讀者實現(xiàn)基于標題檢索的精準閱讀。隨著國家對民國文獻保護和利用的重視,各數(shù)字出版公司開發(fā)出一批資源豐富、檢索功能強大的民國文獻大型全文數(shù)據(jù)庫,但存在各文獻類型開發(fā)不均衡、缺少主題類型的數(shù)據(jù)庫等問題[6]。

民國報紙數(shù)字化已經(jīng)成為解決報紙問題的首要途徑,如何提高數(shù)字化的效率和質量,肖紅從宏觀方面(報紙、版式、OCR)進行數(shù)字化質檢問題探析[7],但該文對于質檢細節(jié)沒有給出詳細分析和介紹。本文從親身實踐角度出發(fā),以數(shù)字化驗收流程為主線,列出國家圖書館在驗收民國報紙數(shù)字化成品時發(fā)現(xiàn)的一些常見問題,并且分析這些問題產(chǎn)生的原因,提出有針對性的改進措施和方法,希望能為業(yè)內從事數(shù)字化驗收工作的同仁提供借鑒參考。

2 國家圖書館民國報紙數(shù)字化驗收常見問題的類型

民國報紙數(shù)字化成品通常包括元數(shù)據(jù)和對象數(shù)據(jù),國家圖書館民國報紙數(shù)字化元數(shù)據(jù)采用的是MARC 格式著錄,主要記載民國報紙的文獻內容特征、載體形態(tài)、記錄來源等信息。對象數(shù)據(jù)采用TIFF 作為存儲格式,JPG、雙層PDF 和XML 作為發(fā)布格式,是對民國報紙內容的如實寫照。

民國報紙數(shù)字化驗收主要完成對民國報紙元數(shù)據(jù)及對象數(shù)據(jù)的復查。國家圖書館關于元數(shù)據(jù)及對象數(shù)據(jù)依據(jù)相關規(guī)范進行驗收,使用漢王開發(fā)的專業(yè)數(shù)字化驗收軟件進行驗收。自2014年開啟民國報紙數(shù)字化項目以來,截至2018年10月底,國家圖書館已完成114 種約13 萬期、70 余萬版的民國報紙數(shù)字化加工驗收工作。根據(jù)實際工作,筆者總結出國家圖書館民國報紙數(shù)字化驗收時出現(xiàn)的常見問題,如圖1所示。

圖1 國家圖書館民國報紙數(shù)字化驗收常見問題

2.1 民國報紙元數(shù)據(jù)驗收常見問題

從驗收規(guī)范上看,民國報紙元數(shù)據(jù)的驗收,通常查驗“記錄標識”、“題名”、“出版日期”、“卷期”、“版次”、“版名”等標簽的合法性,標簽著錄內容是否符合規(guī)則,如:出版日期必須是8 位有效數(shù)字、卷期只能是數(shù)字格式等。在實際工作中,筆者發(fā)現(xiàn)民國報紙元數(shù)據(jù)驗收常見問題包括:字符集非法、標簽缺少或多余標簽、標簽著錄內容不符合規(guī)則等。

(1)字符集非法。例如:圖2中標簽“作者”為非法字符集,正確識別應為“圖片作者”。

圖2 字符集非法

(2)標簽缺少或多余標簽。例如:圖3缺少標簽“小標題”及內容。

圖3 標簽缺失

(3)標簽著錄內容不符合規(guī)則。例如:圖4中版次備注:標題殘缺。版次備注著錄版次的變更情況,沒有圖示著錄方式;圖5中“出版日期”:中華民國四十七年六月十五日,著錄錯誤,著錄內容只能是8 位有效數(shù)字;圖6中“出版日期”:19580631 不符合日期的記錄方式;圖7中“卷期”:五百四廿五,著錄錯誤,著錄內容只能是數(shù)字格式。

圖4 版次備注不合規(guī)則

圖5 出版日期不合規(guī)則

圖6 出版日期不合規(guī)則

圖7 卷期不合規(guī)則

2.2 民國報紙對象數(shù)據(jù)驗收問題

從驗收規(guī)范上看,民國報紙對象數(shù)據(jù)的驗收,包括查驗對象數(shù)據(jù)的圖像存儲文件夾和圖像文件命名是否正確、圖像是否清晰、亮度是否適中、圖像是否進行了糾偏處理、圖像是否真實反映原件內容,是否有缺版、錯版、數(shù)據(jù)缺失等現(xiàn)象。除此之外,驗收的關鍵點主要是xml 文件,主要查驗xml 的各個標簽是否符合加工規(guī)范、篇目是否置標正確、篇目著錄內容是否正確等。漢王開發(fā)的驗收軟件能夠如實反映xml 的著錄信息。

我館加工的XML 文件(見圖8)涵蓋全面的報紙信息(常見問題如2.1 節(jié)介紹)、篇目位置坐標以及篇目標題信息等。對于篇目位置及篇目信息著錄的驗收,可以借助驗收軟件直觀地查找錯誤,民國報紙對象數(shù)據(jù)驗收過程中常見問題包括:欄目錯誤、篇目錯誤、圖片組錯誤等。

圖8 民國報紙XML 文件

(1)欄目錯誤

欄目通常是報紙、雜志等刊物中,依據(jù)文字內容(即篇目)、圖片類型等進行的統(tǒng)籌概述,如新聞、體育、娛樂、經(jīng)濟等;它統(tǒng)領的篇目或圖片都應屬于同一欄目,且欄目不應歸屬于某一篇篇目。

民國報紙數(shù)字化加工,應該把某一欄目統(tǒng)籌下的所有篇目和圖片都標注上欄目信息,且欄目不應劃在任何一篇篇目中。常見問題包括:確定是否為欄目時出錯、欄目的范圍劃錯、欄目的字體識別錯誤。

①欄目的確定性問題。例如:圖9置標篇目的欄目有兩個,“新聞”、“國外之部”,而數(shù)字化加工的xml 文件欄目缺失,未著錄欄目,圖10 數(shù)字化加工的xml 文件欄目著錄錯誤。

圖9 欄目缺失

圖10 欄目著錄錯誤

②欄目的范圍劃錯。例如:圖11 把欄目劃入篇目框是錯誤的;圖12 大小欄目

順序錯誤,統(tǒng)籌范圍大的欄目應該寫在范圍小的欄目前面。

圖11 欄目誤入篇目

圖12 大小欄目順序錯誤

③欄目的文字識別錯誤。欄目的文字識別錯誤通常包括:多字或少字、文字識別有誤(異體字、形近字、簡繁字、未按原貌識別等)、多符號少符號等。例如:圖13,欄目的文字識別有誤。

圖13 欄目文字識別錯誤

(2)篇目錯誤

篇目是指某一欄目框架下關于某一議題的獨立的文字內容,篇目包括標題、作者、篇目內容、轉版信息、附圖。篇目置標要求完整、準確、美觀地把篇目相關信息都劃入。篇目標題細分為引題、標題、副題、小標;我館按字號大小劃分引題、標題、副題,字號最大者為標題,標題前為引題,標題后為副題,篇目內容中出現(xiàn)的標題為小標。篇目作者,要求去掉作者的屬性,比如國籍、辦公地點等,且不做集體作者,但關于多個作者的著錄方式要標清。篇目轉版是指由于版面等原因,當前篇目登載不完整,轉載至其他版面,要求篇目識別時附加轉版信息,從而完整記錄當前篇目。篇目附圖指當前篇目中涉及到的圖片、表格等形式,以附加圖片的形式進行展示,附圖屬于篇目的一部分。

篇目的錯誤通常分為:篇目置標或范圍確定的錯誤、篇目框線不美觀、標題的確定性錯誤及標題框線不美觀、作者的確定性錯誤及字體識別錯誤、轉版錯誤、附圖錯誤,具體如下。

①篇目置標錯誤。

A.篇目內容缺失或多余。例如:圖14,篇目內容缺失“第七章 司法”的部分。

圖14 篇目內容缺失

B.篇目嵌套問題

篇目嵌套,即一個篇目在另一個篇目的內容坐標里,需要在大篇目下增加標簽“內截坐標”,以表示大篇目里還有一個獨立的小篇目,大小篇目分開識別。例如:圖15 小篇目:“算命者”嵌套在大篇目下,大篇目沒有做內截坐標,導致小篇目:“算命者”重復置標。

圖15 篇目嵌套

②篇目框線不美觀。

A.篇目框折線問題。例如:圖16,標題和作者都被置標在篇目框之外了,不僅美觀性差,而且給人一種不是同一篇目的錯覺;圖17,篇目置標時出現(xiàn)多余的折線,導致篇目框看起來繁瑣復雜,不美觀。

圖16 篇目框線不美觀

圖17 篇目框折線問題

B.篇目框壓字。例如:圖18 篇目框左下方壓字。

圖18 篇目框壓字

③標題錯誤

A.引題、標題、副題順序識別錯誤。例如:圖19,引題、副題顛倒,以字號大小判斷出標題(最大字)后,標題之前為引題,之后為副題。

圖19 標題順序識別錯誤

B.小標題未識別。例如:圖20,小標題一、二、三未識別。

圖20 小標題未識別

C.標題框置標錯誤。通常包括:標題框壓字、標題框不全、標題框交叉、標題框劃入其他篇目內容(如作者、篇目內容等),例如:圖21。

圖21 標題置標錯誤

D.標題字識別錯誤,錯誤類型同欄目的字識別部分。

④作者錯誤

A.作者的著錄方式識別錯誤。例如:圖22,作者的屬性:法國,應該去掉;多個作者的著錄方式(作、譯)應該識別。

圖22 作者的著錄方式錯誤

圖23 作者識別不全

B.多個作者識別不全。例如:圖23,作者識別不全,圖中圈中的均為作者;

C.作者字體識別錯誤。錯誤類型同欄目的字識別部分。

⑤轉版錯誤

A.遺漏轉版。例如:圖24,篇目結尾:下接第四版,說明有轉版信息,應把轉版信息如實著錄。

圖24 遺漏轉版信息

B.誤做轉版。例如:圖25,轉版下接內容為獨立篇目,此情況轉版篇目不做轉版,而識別為其所在版面的獨立篇目。

圖25 轉版獨立篇目

C.轉版掛接錯誤。數(shù)字化加工過程中會存在因遺漏或者判斷錯誤導致的轉版版次錯誤的情況,例如:圖26,實際應該轉版到第3 版,寫成了轉到第2 版。

圖26 轉版掛接錯誤

D.轉版中附圖置標錯誤,轉版的附圖信息統(tǒng)一做到轉版所在篇目的附圖里。例如:圖27,轉版的附圖應該劃在所屬篇目的附圖組中。

圖27 轉版附圖錯誤

⑥附圖錯誤

A.篇目附圖誤入圖片組。例如:圖28,篇目中的附圖做到了圖片組中(圖片的介紹見下一節(jié))。

圖28 附圖誤入圖片組

B.多個附圖的情況。例如圖29,篇目中的兩個附圖應該分開分別如實著錄。

圖29 多個附圖著錄錯誤

(3)圖片組錯誤

圖片組用來記載獨立的圖片、表格、題詞等內容,它與正文組是并列的關系;一個完整的圖片也包括圖片置標、圖片標題、圖片作者等信息;圖片作為一篇完整的篇目,錯誤類型除上述介紹的外,還包括以下幾點。

①圖片有明確文字說明,識別為標題。例如圖30,圖片標題不應識別為:[圖片],應該按照圖片中的標題如實著錄。

圖30 圖片標題識別錯誤

②圖片無明確標題,自擬標題或者總結大意。例如:圖31,圖片無明確標題,概括大意作標題,或使用自擬標題[照片]、[漫畫]、[新聞圖片]、[廣告]等。

圖31 圖片無標題

3 民國報紙數(shù)字化驗收存在問題的原因及改善方法

分析民國報紙數(shù)字化驗收中存在的這些常見問題,主要是由于以下幾方面原因產(chǎn)生的:

(1)數(shù)字化加工人員經(jīng)驗不足,流水線加工之間配合不協(xié)調。一方面外包公司招來的加工人員絕大部分是初中生、高中生,由于加工任務緊湊,沒有對加工人員進行系統(tǒng)的培訓就上崗操作,且加工人員對加工任務的理解和操作能力有限,導致一些簡單操作出錯;另一方面外包公司的數(shù)字化加工采用流水線作業(yè),流水線之間溝通欠缺,常出現(xiàn)第一個流水線漏操作,第二個流水線按照自己的經(jīng)驗進行錄入。

(2)數(shù)字化加工人員與驗收管理方之間溝通不及時。隨著我館數(shù)字化成品的要求不斷提高,民國報紙數(shù)字化加工政策時常發(fā)生細微變化,我館傳達給外包公司相關負責人,負責人由于技術理解或者傳達不及時,導致政策發(fā)送和實施操作不協(xié)調,從而出現(xiàn)問題。

(3)批量進行數(shù)字化加工,加工人員追求量,不追求質。外包公司由于利益趨使,常常分配給加工人員滿負荷的工作量,這就導致加工人員為了完成分配的任務,每天長時間機械式地進行同一項操作,對一些細微之處(比如多字少字、多符號少符號)忽略,從而出現(xiàn)錯誤。

(4)外包公司技術和經(jīng)驗有限。由于外包公司技術有限,常會出現(xiàn)篇目置標出現(xiàn)細微鋸齒影響美觀等問題;外包公司加工經(jīng)驗欠缺,OCR文字識別字庫存儲量不足,遇到一些文字識別問題會無從下手。

針對上述原因,筆者認為可以從以下幾個方面加以改進:

(1)擇優(yōu)選擇外包公司。在競投標選擇外包公司時,參考公司往年的業(yè)績和加工任務量進行篩選,選擇一兩個經(jīng)驗豐富、技術水平過硬的公司負責數(shù)字化加工任務。

(2)根據(jù)不同的錯誤類型(比如:字錯誤、置標錯誤),分別計算外包公司加工的錯誤率,錯誤率高于某個閾值即回退公司,重新返工,以此來限制外包公司的加工質量,從源頭減少民國報紙加工中存在的問題。

(3)加工人員根據(jù)我館傳達的加工規(guī)范,實時進行培訓,且對特殊問題臨時更改或補充的規(guī)范進行一對一培訓學習,做到從技術溝通到實際加工人員之間的無縫鏈接。

(4)驗收人員定期培訓,對驗收流程做到人人熟知,并通過現(xiàn)場參觀外包公司的加工流程,及時發(fā)現(xiàn)外包公司數(shù)字化加工中存在的問題,減少數(shù)字化驗收錯誤問題的返回率。

(5)根據(jù)驗收人員的經(jīng)驗或專長,分配每個人的驗收任務量,以便提高驗收效率。

猜你喜歡
附圖篇目著錄
附圖
常用參考文獻著錄要求
常用參考文獻著錄要求
常用參考文獻著錄要求
附圖
附圖
附圖
河北省第二十五屆人大新聞獎獲獎篇目
本刊參考文獻著錄要求
軍事志的篇目設計
軍事歷史(1991年3期)1991-08-16 02:19:50
都匀市| 台中县| 龙井市| 白玉县| 泰顺县| 丰镇市| 永胜县| 商城县| 汽车| 竹北市| 寿光市| 盐亭县| 定西市| 南京市| 兰西县| 荣成市| 鹤山市| 合山市| 航空| 正蓝旗| 五常市| 阿拉善左旗| 新闻| 当雄县| 灵川县| 茌平县| 四子王旗| 两当县| 徐州市| 麻江县| 陵川县| 中山市| 视频| 长丰县| 德阳市| 佛教| 霍林郭勒市| 巨野县| 临朐县| 鸡西市| 沧州市|