熊定富
摘 要 建立報紙篇名數(shù)據(jù)庫,即報紙題錄數(shù)據(jù)庫,可以極大地方便讀者檢索圖書館報紙,提高報紙的開發(fā)利用率。論文討論了在實際的報紙題錄加工中可能用到的、利用關(guān)系數(shù)據(jù)庫建立的幾種報紙題錄的數(shù)據(jù)庫表結(jié)構(gòu),包括不需要鏈接全文和需要鏈接全文兩種形式。論文還提出了利用關(guān)系數(shù)據(jù)庫二維表分段管理全文索引的具體方法,對推動報紙題錄建設(shè)具有重要意義。
關(guān)鍵詞 報紙題錄;數(shù)據(jù)結(jié)構(gòu);篇名數(shù)據(jù)庫;地方文獻(xiàn)
分類號 G254.3
DOI 10.16810/j.cnki.1672-514X.2022.03.006
Research on Newspaper Title Data Structure Based on Relational Database
Xiong Dingfu
Abstract The establishment of newspaper title database, namely newspaper title database, can greatly facilitate readers to search library newspapers and improve the utilization rate of newspaper development. This paper discusses several kinds of database table structures of newspaper titles which may be used in the actual processing of newspaper titles, including two forms: no need to link full text and need to link full text. This paper also puts forward the specific method of segmented management of full-text index by using the two-dimensional table of the relevant system database, which is of great significance to promote the construction of newspaper titles.
Keywords Newspaper title. Data structure. Title database. Local literature.
報紙是圖書館最重要的館藏文獻(xiàn)之一,任何時候都要加強對圖書館報紙的整理、開發(fā)、利用,而重視報紙題錄的建設(shè)是重中之重。題錄,是將圖書和報刊中的篇目按照一定排檢方法編排,供人們查找篇目出處的工具。題錄的著錄項通常包括篇名、著者和出版來源,無內(nèi)容摘要[1]。題錄要指明文獻(xiàn)出處。題錄形成的檢索工具,國內(nèi)通常稱之為論文索引、篇名索引[2]。本文認(rèn)為,建立報紙的題錄數(shù)據(jù)庫相對于文摘和全文系統(tǒng)是最省力省心的辦法,其中,事先規(guī)劃好報紙題錄數(shù)據(jù)結(jié)構(gòu)顯得十分重要。
1 報紙題錄的幾種形式
基于關(guān)系數(shù)據(jù)庫的報紙題錄可以有兩種形式,一種是不帶全文鏈接的題錄,這種題錄可以指明紙質(zhì)文獻(xiàn)的收藏位置,讓讀者了解大致的館藏,其編寫和制作系統(tǒng)的速度特別快。另一種是編寫的題錄帶了全文鏈接,并且有對應(yīng)的全文可以閱讀和下載,這種可以叫做全文目錄。全文目錄,是全文系統(tǒng)的一部分,與全文構(gòu)成一個完整的整體。
全文鏈接,是指題錄要使用一個字段或幾個字段來存貯題錄所對應(yīng)的全文文獻(xiàn)的鏈接地址。全文鏈接有caj、pdf、DOI、html四種。caj連接超星的caj文檔;pdf連接服務(wù)器上pdf格式的全文;html連接服務(wù)器上的html格式的文檔。DOI是“Digital Object Identifier”(數(shù)字對象唯一標(biāo)識符)的簡寫,由美國出版協(xié)會于1994年提出,被形象地稱為“互聯(lián)網(wǎng)上的條形碼”[3],通過它可以方便、可靠、唯一地鏈接到全文。目前,我國萬方、CNKI等生產(chǎn)的全文文獻(xiàn)已經(jīng)在使用IDF[4]。對于一些小范圍的自建報紙題錄或不太愿意與外界進行數(shù)據(jù)交流的用戶,可以用pdf全文鏈接等來代替該字段。
根據(jù)報紙題錄所鏈接的報紙全文的形式,又可以分為以下三種:(1)題錄鏈接報紙的某個版面的某一篇具體的文章,即單篇鏈接。這是最常見的篇名全文數(shù)據(jù)庫,例如,慧科新聞和CNKI報紙數(shù)據(jù)庫。(2)題錄鏈接報紙的某個版面,即一條題錄數(shù)據(jù)對應(yīng)一個報紙版面。這是相對粗糙一點的加工。但是這種題錄形式有一個優(yōu)點,就是加工方便,使用起來也很方便。因此,很多題錄和全文系統(tǒng)就是這樣做的。如果要在版面內(nèi)進行全文檢索,必須將版面的所有內(nèi)容文字化,并建立關(guān)鍵詞索引、題名索引或全文索引。題錄所對應(yīng)的這個索引可以存放在本條題錄的專門字段之中,也可以建立專門的索引文件。(3)題錄鏈接某一天整天的報紙,即一條題錄對應(yīng)一天的報紙全文內(nèi)容。這也是相對粗放的報紙加工方式。這種加工方式也具有上述優(yōu)點,就是加工快捷方便,閱讀起來也能令讀者接受。
2 常見數(shù)據(jù)結(jié)構(gòu)
2.1 單篇鏈接1:不帶全文鏈接的題名、著者、關(guān)鍵詞綜合在一起的題錄數(shù)據(jù)結(jié)構(gòu)
“題名、著者、關(guān)鍵詞”這個字段是整條數(shù)據(jù)的核心字段,就是將一條報紙新聞的標(biāo)題、作者、關(guān)鍵詞全部寫在一起,填入該字段。為了項目操作起來更加簡單、方便和快捷,一般可以不加任何標(biāo)點符號和分隔符(如空隔、斜杠等)。只是在有時候會出現(xiàn)檢索誤差,查詢出的結(jié)果會出現(xiàn)冗余數(shù)據(jù),但這并不會過多地影響系統(tǒng)的實際使用和查詢效率。在我們的實際應(yīng)用中,“作者”一般情況下不能少。如果報紙的文章標(biāo)題已經(jīng)較好地反映了內(nèi)容主題,關(guān)鍵詞也可以不必錄入。在標(biāo)題不能全面反映文章的內(nèi)容時,可以適當(dāng)錄入幾個關(guān)鍵詞。總之,標(biāo)題、作者和關(guān)鍵詞可以根據(jù)需要分別來錄入。下面是《重慶晨報》《重慶晚報》《重慶時報》三份報紙中的三條新聞,其著錄如樣例1所示。
其腳本程序如下:CREATE TABLE [dbo].[樣例1題錄](
[ID] [int] NOT NULL,
[報名] [nvarchar](255) NULL,
[日期] [date] NULL,
[題名著者關(guān)鍵詞] [nvarchar](255)NULL,
CONSTRAINT [PK_樣例1題錄] PRIMARY
KEY CLUSTERED
將題名、著者、關(guān)鍵詞的全部數(shù)據(jù)放在一個數(shù)據(jù)字段中,檢索題名、著者、關(guān)鍵詞的數(shù)據(jù)時,便可以同時檢索題名、著者、關(guān)鍵詞,更加方便快捷。由于沒有原文鏈接,當(dāng)讀者在圖書館電腦中查找到報紙的線索信息時,可請工作人員從報紙的紙質(zhì)書庫中提出報紙原文,然后才能進行閱讀、查找、復(fù)印、掃描、拍照等利用。此外,還可以對地方文獻(xiàn)報紙進行快速、大數(shù)量的題錄索引,為讀者提供報紙線索。又比如,為縮微轉(zhuǎn)電腦版的報紙編寫題錄,以便為讀者查找報紙?zhí)峁?biāo)題和關(guān)鍵詞檢索服務(wù)。
最重要的是,這種將題名、著者、關(guān)鍵詞三個字段的數(shù)據(jù)綜合到一個字段的形式,也適合于我們后面要談到的其它數(shù)據(jù)結(jié)構(gòu),如按日期或按報紙版面建立的報紙題錄。這種建庫方法將極大地加快建庫速度,非常適合不需要加入DOI系統(tǒng)的圖書館,如地市級圖書館加工地方報紙。采用這種思路最大的好處是可以將房地產(chǎn)廣告、尋人啟示、遺失公告、公司注銷公告等常常為讀者大量查閱的信息錄入系統(tǒng)。
2.2 單篇鏈接2:帶全文鏈接的各檢索字段獨立的題錄數(shù)據(jù)結(jié)構(gòu)
我們先分析一下國內(nèi)兩個大型全文數(shù)據(jù)庫廠商的報紙題錄的數(shù)據(jù)結(jié)構(gòu)。CNKI數(shù)據(jù)庫的報紙題錄有如下數(shù)據(jù)字段:題名、作者、報紙名稱、日期、被引、下載、閱讀、收藏、正文快照、關(guān)鍵詞、報紙日期、版名、版號、專輯、專題、DOI、分類號[5]。而“慧科新聞”主要有如下字段:ID、文章相關(guān)度、日期、媒體、版面/欄目/作者、字?jǐn)?shù)、文章編號(全文鏈接代碼)、原文鏈接地址[6]。
由此我們看到,國內(nèi)目前已經(jīng)存在的幾種報紙題錄的數(shù)據(jù)結(jié)構(gòu)具有如下共性:
(1)具有ID、標(biāo)題、作者、關(guān)鍵詞、報名、日期、版面號等基礎(chǔ)性字段;
(2)有html地址、caj地址、pdf地址、DOI地址等全文文獻(xiàn)鏈接字段。
其中,題名、作者、報紙名稱、日期、關(guān)鍵詞、DOI/pdf鏈接、版號、分類號是基本字段,一般來說是必備的?!癶tml”字段是將pdf全文轉(zhuǎn)化html或XML格式直接展示給讀者閱讀的字段。如果用戶要閱讀圖像格式的文檔(pdf、caj等格式),通常須自己下載到本地電腦。
將題名、著者、關(guān)鍵詞分字段進行存貯與檢索,是當(dāng)前主流全文數(shù)據(jù)庫加工商的做法,不僅能夠讓數(shù)據(jù)的條理性更加清晰,而且可以方便地從電腦上直接看到文獻(xiàn)的全文。然而在實踐中也可以看出,無論是慧科新聞,還是CNKI,它們也有兩個方面不足:一是沒有將房地產(chǎn)廣告、尋人啟示、遺失公告、公司注銷公告等讀者大量查閱的信息建庫;二是篇名不齊全,只是選擇了一些重要的新聞文章建立全文庫。
2.3 按版面加工成題錄的數(shù)據(jù)結(jié)構(gòu)
基本思路是將按版面或按日期加工成的電子文檔(如pdf文檔)同步產(chǎn)生的可編輯文字所形成的文檔(如word文檔)中的結(jié)構(gòu)化數(shù)據(jù),主要是報紙的標(biāo)題、作者(記者)、關(guān)鍵詞(如重要概念、地點、時間等)按報紙的篇名一條一條地提出來,建立一個單獨的題錄,在鏈接全文的時候,同一版面或同一天而且報名又相同的數(shù)據(jù)鏈接同一個pdf電子文檔。
這樣做的好處是,加工速度會成倍加快,因為這樣就不需要去單獨拆分一篇一篇的報紙文章。不好的地方是用戶在閱讀的時候比較麻煩,當(dāng)用戶在題錄中找到某一天或某一版面報紙的時候,還得在該日期或該版面中繼續(xù)尋找自己需要的某篇新聞。數(shù)據(jù)樣例如樣例2所示。
上述兩條題錄的題名、著者、關(guān)鍵詞索引不同,但是鏈接了相同的pdf文件地址。很明顯,在這兩條題錄中,讀者能很方便地找到自己需要的文章。而且,這是一種很常見的報紙加工形式。下面是樣例2的腳本程序,僅供讀者參考:
CREATE TABLE [dbo].[樣例2題錄](
[ID] [int] NOT NULL,
[報名] [nvarchar](255) NULL,
[日期] [date] NULL,
[題名著者關(guān)鍵詞索引] [nvarchar](255)
NULL,
[版面] [nvarchar](50) NULL,
[pdf文件地址] [nvarchar](255) NULL,
[Html地址] [nvarchar](255) NULL,
[文字地址] [nvarchar](255) NULL,
CONSTRAINT [PK_樣例2題錄] PRIMARY
KEY CLUSTERED
2.4 按日期加工成題錄的數(shù)據(jù)結(jié)構(gòu)
基本思路類似于按版面加工,即按日期加工的題錄,每一條題錄對應(yīng)某個日期報紙的一篇文章,對應(yīng)的全文鏈接(如pdf鏈接)則鏈接該日期整天的報紙全文,可見樣例3。
上述兩條題錄,按“天”加工,就是將2021年1月20日的重慶晨報掃描制作成一個電子版,例如一個pdf文件。然后,為每一條新聞制作一條題錄,但是全文鏈接地址給的是完全相同的地址。讀者打開鏈接之后,自己去尋找當(dāng)天新聞中自己需要的某一篇文章。
這種結(jié)構(gòu)的優(yōu)點是將某一天的報紙加工成一個電子全文,利于收藏;在實際保存中,報紙文件不會那么容易被丟失和誤刪除。缺點是讀者閱覽和查找當(dāng)天某一篇自己需要的新聞時,需要花一些時間,而且因為在數(shù)據(jù)加工的時候要將同一天報紙的每一個版面連接成一個全文文檔,同樣也要花不少時間。下面是樣例3的腳本程序,僅供讀者參考:
CREATE TABLE [dbo].[樣例3題錄](
[ID] [int] NOT NULL,
[報名] [nvarchar](255) NULL,
[日期] [date] NULL,
[題名著者關(guān)鍵詞索引] [nvarchar]
(255) NULL,
[pdf文件地址] [nvarchar](255) NULL,
[Html地址] [nvarchar](255) NULL,
[文字地址] [nvarchar](255) NULL,
CONSTRAINT [PK_樣例3題錄] PRIMARY
KEY CLUSTERED
2.5 全文索引型題錄
全文索引型題錄不是嚴(yán)格意義上的題錄,但是為了研究的系統(tǒng)性,我們還是將它放在一起進行探討。全文索引型題錄的建立方法:采用非結(jié)構(gòu)化的數(shù)據(jù)加工方法+結(jié)構(gòu)化的數(shù)據(jù)管理方法。其基本思路是:(1)一次性將報紙全部掃描完,同時生成可編輯文字的文檔和供讀者閱讀的電子文檔。(2)利用計算機全文加工系統(tǒng)的插件或者自己編寫的全文索引程序,對可編輯文字文檔進行標(biāo)準(zhǔn)的全文索引,將高頻詞提出來作為關(guān)鍵詞放到全文索引文件中。(3)對產(chǎn)生的索引文字使用關(guān)系數(shù)據(jù)庫進行管理。主要是將超過255個字符的索引按255個字符的長度進行切分,形成多個全文索引數(shù)據(jù)段。這個切分過程應(yīng)該使用計算機程序段自動完成。在進行切分的時候,應(yīng)以詞而不是以單字為單位,注意不要將一個關(guān)鍵詞切分到兩個字段之中去。(4)每一個255字符的索引數(shù)據(jù)段保存為一條記錄,并鏈接上相同的地址。這樣就能實現(xiàn)全文索引和全文檢索。
如對重慶晨報2020年1月21日全天新聞[7]進行全文索引,其關(guān)鍵詞如下:
市政協(xié) 五屆四次會議 開幕 五屆人大四次會議 預(yù)備會議 主席團 第一次會議 春節(jié)返鄉(xiāng) 核酸檢測 陰性 證明 教育熱點 委員 八省市 聯(lián)考 重慶考生 重慶橋都 博物館 橋梁 建議 免征 增程式 電動汽車 消費稅 搖號入學(xué) 地域文化 城市設(shè)施 道路命名 學(xué)生 電子產(chǎn)品 教學(xué) 使用時間 家暴 受害人 扶貧工程 街道辦主任 斂財 疫情 一線 企業(yè) 100% 復(fù)工復(fù)產(chǎn) 江津 重慶晨報 上游新聞 記者 2020年 招商引資 豐都縣 重慶橋梁
依據(jù)全文索引切分所建立起的題錄其加工如樣例4所示。
從上面的例子可以看出,即使將一條報紙新聞的兩個全文索引詞分別放在不同的題錄中,計算機仍然可以檢索出該天的新聞。各個索引詞之間可以加分隔符,也可以不加分隔符,對檢索結(jié)果的影響都不是太大。下面是樣例4的腳本程序,僅供讀者參考:
CREATE TABLE [dbo].[樣例4題錄](
[ID] [int] NOT NULL,
[報名] [nvarchar](255) NULL,
[日期] [date] NULL,
[全文索引] [nvarchar](255) NULL,
[pdf文件地址] [nvarchar](255) NULL,
[Html地址] [nvarchar](255) NULL,
[文字地址] [nvarchar](255) NULL,
CONSTRAINT [PK_樣例4題錄] PRIMARY
KEY CLUSTERED
使用這種結(jié)構(gòu)來建立報紙題錄具有三個優(yōu)點。(1)全文加工速度快。全文掃描之后,文字層的生成,各種鏈接字段的生成,全文索引、全文題錄的建立等幾乎都可以實現(xiàn)計算機自動處理,大大節(jié)省了人工成本。(2)對于有缺陷的索引,可以在計算機處理完成后,以人工繼續(xù)進行處理,繼續(xù)向索引字段追加關(guān)鍵詞。(3)與非結(jié)構(gòu)化數(shù)據(jù)庫系統(tǒng)相比,使用這種結(jié)構(gòu)對老用戶來說更加利于理解。當(dāng)然,這種數(shù)據(jù)結(jié)構(gòu)也有自己的缺點:根據(jù)切分和詞頻抽取出的全文索引詞中,詞頻高的不完全是反映文章主題內(nèi)容的關(guān)鍵詞,而詞頻低但是反映文章主題內(nèi)容的關(guān)鍵詞匯又可能沒有被索引到,或者沒有被全文索引收錄。正如上面所說的,遇到這種情況時可以手工編輯索引字段,在全文索引數(shù)據(jù)字段中追加關(guān)鍵詞索引。
參考文獻(xiàn):
徐軍玲,洪江龍.科技文獻(xiàn)檢索[M].上海:復(fù)旦大學(xué)出版社,2004:21.
王立誠.科技文獻(xiàn)檢索與利用[M].5版.南京:東南大學(xué)出版社,2014: 29.
《醫(yī)藥導(dǎo)報》編輯部.DOI編碼功能介紹[J].醫(yī)藥導(dǎo)報,2020,39(12): 1707.
龍健,賴茂生.DOI的興起與我國的對策[J].情報雜志,2009,28(12): 161.
程正龍.重慶怎樣加快建成高質(zhì)量發(fā)展高品質(zhì)生活新范例?[N/OL].重慶日報,2020-12-24[2021-06-08]. http://elib.cqlib.cn:8081/interlibSSO/goto/10/+jmr9bmjh9mds/KXReader/Detail?TIMESTAMP=637587611121692813&DBCODE=CCND&TABLEName=CCNDLAST2021&FileName=CQRB202012240120&RESULT=1&SIGN=PyrjFZvDW9PxoJuGt6z%2bGtDTTyc%3d#.
開啟新征程!兩江新區(qū)瞄準(zhǔn)兩大定位兩大目標(biāo).慧科新聞[EB/OL].(2021-01-16)[2021-06-08].https://epaper.cqrb.cn/html/cqrb/2021-01/16/003/content_rt_2777602.htm.
重慶報業(yè)集團.重慶晨報[EB/OL].(2021-01-21)[2021-06-08].https://epaper.cqcb.com/html/202101/21/node_001.html.