国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于細(xì)粒度聚合單元元數(shù)據(jù)的書目資源聚合研究

2020-03-10 01:07衛(wèi)宇輝
國家圖書館學(xué)刊 2020年6期
關(guān)鍵詞:細(xì)粒度書目關(guān)聯(lián)

衛(wèi)宇輝

網(wǎng)絡(luò)文獻作為各類文章的載體,聚集了許多關(guān)聯(lián)度較低的學(xué)術(shù)信息資源,利用傳統(tǒng)的數(shù)字化手段無法形成規(guī)范化的知識系統(tǒng),導(dǎo)致學(xué)術(shù)信息檢索困難、精確度不高[1]。隨著網(wǎng)絡(luò)信息資源的快速更新、文獻實體內(nèi)容的不斷變更以及文獻數(shù)據(jù)庫的逐漸豐富,如果缺乏對文獻編目數(shù)據(jù)的及時更新,則會直接影響文獻檢索的精準(zhǔn)度。書目關(guān)系是一種能夠描述信息資源形態(tài)特征和內(nèi)容特征的書目記錄間關(guān)系,是促進信息資源內(nèi)容深化、結(jié)構(gòu)序化的主要途徑[2]。因此,建立規(guī)范化的書目數(shù)據(jù)、挖掘書目之間的關(guān)系是實現(xiàn)文獻書目自動更新的重要基礎(chǔ),對于文獻資源檢索、讀者服務(wù)、文獻資源建設(shè)具有重大意義。

目前,信息資源聚合作為知識服務(wù)領(lǐng)域中的重要基礎(chǔ),已成為國內(nèi)外信息組織與檢索領(lǐng)域探討的熱門話題,國內(nèi)外學(xué)者開展了大量相關(guān)研究并取得了顯著成果,例如信息資源聚合的概念及相關(guān)理論[3,4]、信息資源聚合的效果評估[5,6]、信息資源聚合手段和技術(shù)[7,8]、信息資源聚合的應(yīng)用[9,10]等。而實現(xiàn)網(wǎng)絡(luò)信息資源聚合的關(guān)鍵問題在于從細(xì)粒度層面深入挖掘信息資源之間的關(guān)聯(lián)及特征,現(xiàn)有的細(xì)粒度網(wǎng)絡(luò)學(xué)術(shù)資源研究主要集中在關(guān)聯(lián)數(shù)據(jù)[11-13]、知識元[14,15]、粒度劃分[16,17]等層面,這些研究為細(xì)粒度網(wǎng)絡(luò)學(xué)術(shù)資源的抽取、識別與關(guān)聯(lián)分析奠定了理論基礎(chǔ)。但關(guān)于細(xì)粒度網(wǎng)絡(luò)學(xué)術(shù)資源的劃分研究側(cè)重于從形式結(jié)構(gòu)的角度出發(fā)來構(gòu)建元數(shù)據(jù)框架[18],基于邏輯結(jié)構(gòu)劃分細(xì)粒度網(wǎng)絡(luò)學(xué)術(shù)資源的研究較少,同時也缺乏相應(yīng)的元數(shù)據(jù)描述標(biāo)準(zhǔn)。在專題數(shù)據(jù)庫開發(fā)中,書目的著錄會以資源類別(比如圖書以種類區(qū)分、期刊以刊名區(qū)分)為最小單元,無法充分揭示書目的內(nèi)容特征、學(xué)術(shù)價值和發(fā)揮專題數(shù)據(jù)庫的文獻整合利用功能,易于造成數(shù)據(jù)冗余。而基于邏輯結(jié)構(gòu)劃分細(xì)粒度的網(wǎng)絡(luò)學(xué)術(shù)資源,則會遵循“有利于檢索發(fā)現(xiàn),有利于讀者使用,有利于提高開發(fā)效率”原則,根據(jù)實際情況選擇 “章節(jié)”或者“篇”為最小著錄單元,然后再以邏輯關(guān)系進行組配,實現(xiàn)細(xì)粒度書目數(shù)據(jù)的自動化整合。因此,本文對以下問題進行了探索:(1)如何基于邏輯結(jié)構(gòu)和形式結(jié)構(gòu)劃分細(xì)粒度聚合單元;(2)如何構(gòu)建反映多類型網(wǎng)絡(luò)文獻資源信息單元層級的信息組織框架;(3)如何定義信息組織框架中的知識概念、關(guān)系,揭示聚合單元與實體之間的關(guān)聯(lián);(4)細(xì)粒度網(wǎng)絡(luò)資源聚合模式下的檢索效果如何。針對這些問題,本文通過設(shè)計細(xì)粒度聚合單元元數(shù)據(jù)框架,建立了聚合單元元數(shù)據(jù)框架下的細(xì)粒度信息組織模型并基于元數(shù)據(jù)框架構(gòu)建了書目擴展關(guān)系的映射方案,實現(xiàn)細(xì)粒度書目數(shù)據(jù)的聚合,通過設(shè)計檢索任務(wù)檢驗效果,為細(xì)粒度聚合單元環(huán)境下的書目分析提供了一定的理論基礎(chǔ)。

1 聚合單元劃分的依據(jù)與方法

目前,大多數(shù)元數(shù)據(jù)方案主要基于書目關(guān)系來實現(xiàn)對文獻資源的聚合與檢索,集中于對可檢索書目資源的揭示與關(guān)聯(lián),較少關(guān)注文獻資源實體及其內(nèi)容組織結(jié)構(gòu)。結(jié)合文獻資源的內(nèi)容組織與知識單元,本文以文獻資源的邏輯結(jié)構(gòu)、形式結(jié)構(gòu)及不同知識單元之間的關(guān)系為依據(jù),劃分出不同層級的聚合單元,拓展元數(shù)據(jù)設(shè)計方案,豐富書目資源聚合與檢索方式,從而實現(xiàn)基于書目關(guān)系與文獻知識單元的書目資源聚合功能。

1.1 邏輯結(jié)構(gòu)分析

(1)節(jié)段單元

節(jié)段單元是指根據(jù)文獻框架與邏輯思路對文章內(nèi)容進行劃分得到的結(jié)果[19]。劃分文獻節(jié)段單元的價值體現(xiàn)在三個方面:(1)讓讀者能夠根據(jù)文獻各級標(biāo)題了解全文的組織結(jié)構(gòu),從而判斷該文獻與自身實際需求是否相符;(2)幫助讀者快速檢索所需的段落內(nèi)容并進行精確定位,節(jié)省信息資源查找時間;(3)用文獻各級標(biāo)題的關(guān)鍵詞來描述節(jié)段單元主題,有利于文獻主題聚合功能的實現(xiàn)。

(2)句群單元

句群單元則是指具備修辭目的的語篇結(jié)構(gòu)。信息資源句群單元的劃分以體裁和體裁分析為主要依據(jù),體裁是指社會交際活動的分類,例如學(xué)術(shù)論文、新聞報道、法律文件等;體裁分析是指從體裁角度出發(fā),通過深層解析特定語篇的微觀結(jié)構(gòu)和宏觀結(jié)構(gòu)來掌握語篇的特定認(rèn)知結(jié)構(gòu)。由于不同類型文獻體裁的分析結(jié)果各不相同,必須綜合語篇的交際功能與話語意圖進行體裁分析。本文選取開源期刊論文進行體裁分析,以CARS模型為基礎(chǔ)[20],進行句群單元劃分。Swales在1990年提出引言結(jié)構(gòu)分析模型,即CARS(Create a Research Space)模型,包括確定研究領(lǐng)域、確定研究定位、把握研究契機3個語步(move),以及相應(yīng)語步的步驟(step)。語步是作者寫作目的的總體概況,步驟是為實現(xiàn)語步目的的詳細(xì)描述。以《結(jié)合地理信息的引文分析研究現(xiàn)狀》(魯超、劉清,《情報科學(xué)》2011年第2期)為例,該文屬于非實證型,論文組件包括介紹、理論分析、論證及結(jié)論,介紹部分的語輪/語步劃分結(jié)果如表 1 所示。

表1 語輪/語步劃分結(jié)果

1.2 形式結(jié)構(gòu)分析

文獻的形式結(jié)構(gòu)包括摘要、圖標(biāo)、正文及參考文獻等組成要素。本研究通過分析文獻的形式結(jié)構(gòu)對不同組成要素進行拆分,并將反映文獻外部特征的要素(摘要、標(biāo)題、作者、關(guān)鍵詞、機構(gòu)、參考文獻等)作為文獻元數(shù)據(jù)信息,通過解析論文正文部分,對圖表、句群進行抽取,經(jīng)過邏輯結(jié)構(gòu)分析后得到由句群單元、節(jié)段單元組成的細(xì)粒度聚合單元。文獻中的圖表通常概括了全文的重點研究內(nèi)容,是對文獻主要觀點的形象描述,圖表的提取對于文獻資源聚合及檢索具有重要作用。但對圖表單元必須給予相應(yīng)的描述以便于用戶理解,可以將主題明顯的、能夠解釋圖表的句群單元與圖表單元標(biāo)題進行關(guān)聯(lián)匹配,從而為圖表提供相應(yīng)的情境信息。

1.3 不同層級聚合單元之間的關(guān)系

綜合文獻的邏輯分析及形式分析結(jié)果可知,語篇單元、句群單元、圖表單元及節(jié)段單元共同構(gòu)成了細(xì)粒度網(wǎng)絡(luò)文獻資源的聚合單元,這些分布于不同層級的聚合單元之間均存在一定關(guān)系[21],篇章單元包含圖表單元、節(jié)段單元和功能單元,且都是一對多的關(guān)系:圖表單元需要篇章單元和具有相對完整意義的相關(guān)句群單元進行解釋。因此,圖表單元需要與提及該圖或表的句群單元相關(guān)聯(lián),由于可能存在不止一個句群單元提及圖或表的情況,句群單元也可能不只提到一個圖或表,所以圖表單元與功能單元是多對多的關(guān)系:從形式結(jié)構(gòu)上看,句群單元包含于節(jié)段單元之中。節(jié)段單元與句群單元是一對多的關(guān)系,節(jié)段單元可以指示句群單元所在的物理和邏輯結(jié)構(gòu)位置。如圖1所示。

2 聚合單元元數(shù)據(jù)框架設(shè)計

2.1 聚合單元屬性特征

本研究中聚合單元屬性特征及其包含的元素分別有復(fù)用DC元數(shù)據(jù)元素、LOM元數(shù)據(jù)元素以及新增元素:(1)復(fù)用LOM元數(shù)據(jù)。LOM元數(shù)據(jù)中的粗粒度聚合單元能夠重新組合、復(fù)用,符合本文的元數(shù)據(jù)研究目的。(2)復(fù)用DC元數(shù)據(jù)。本研究包括細(xì)粒度聚合單元和粗粒度聚合單元,復(fù)用DC元數(shù)據(jù)具備較好的可移植性和訪問屬性。(3)新增元素。為充分描述聚合單元的屬性特征還應(yīng)對特征獨特的新增元素進行分析。語篇單元的新增元素包括“體裁類型”“相關(guān)信息”,期刊論文按照理論、實證、綜述進行分類能夠幫助用戶查找其所需的文獻資料,因此需要增加“體裁類型”元素。另外,新增“聚合層級”元素來描述句群單元與節(jié)段單元所處的層級位置,以揭示不同細(xì)粒度聚合單元之間的關(guān)聯(lián),從而實現(xiàn)細(xì)粒度元數(shù)據(jù)聚合。

圖1 不同層級聚合單元的關(guān)系

圖2 細(xì)粒度聚合單元元數(shù)據(jù)框架

2.2 聚合單元元數(shù)據(jù)框架

語義元數(shù)據(jù)、訪問元數(shù)據(jù)及物理元數(shù)據(jù)共同組成元數(shù)據(jù)框架(見圖2),分別描述聚合單元的內(nèi)容特征、外部特征及物理形態(tài)。訪問元數(shù)據(jù)核心元素包括來源、標(biāo)識、關(guān)鍵詞,語篇單元特定元素包括作者、時間、分類、語言類型、資源類型、相關(guān)信息、體裁類型,圖表單元特定元素為描述,資源類核心元素為標(biāo)題;語義元數(shù)據(jù)資源類核心元素為話語意圖,句群單元特定元素為語義功能;物理元數(shù)據(jù)核心元素包括存儲位置、聚合層次,圖表單元特定元素為圖表類型,節(jié)段單元特定元素為節(jié)段單元層級。

下面以各類元數(shù)據(jù)的具體某一元素為例介紹其對應(yīng)的著錄方式,具體內(nèi)容如表2所示。

表2 元數(shù)據(jù)著錄方式

3 基于聚合單元元數(shù)據(jù)框架的細(xì)粒度信息聚合設(shè)計

3.1 基于聚合單元元數(shù)據(jù)框架的知識組織模型設(shè)計

本文基于支持知識發(fā)現(xiàn)的聚合單元元數(shù)據(jù)框架設(shè)計了細(xì)粒度信息聚合的知識組織框架,如圖3所示。該模型主要包括五個步驟:(1)資源采集與預(yù)處理。采集信息資源的主題及非主題特征并對其進行規(guī)范性描述。(2)識別主題與聚合單元。識別不同粒度聚合單元的主題,根據(jù)體裁分析結(jié)果劃分聚合單元。(3)構(gòu)建聚合單元本體。構(gòu)建用于聚合處理和語義描述的知識體系。(4)資源描述。根據(jù)聚合單元本體識別聚合單元語義并進行標(biāo)注,形成多維復(fù)合的語義概念。(5)聚合與呈現(xiàn)。將與用戶需求語義相匹配的聚合單元進行重組,進行可視化呈現(xiàn),實現(xiàn)交互功能。

圖3 基于聚合單元元數(shù)據(jù)框架的知識組織模型

3.2 基于聚合單元元數(shù)據(jù)的標(biāo)注

在細(xì)粒度聚合單元元數(shù)據(jù)框架下,聚合單元元數(shù)據(jù)是信息組織的基本單元。在細(xì)粒度聚合過程中,元數(shù)據(jù)是描述各層級聚合單元、關(guān)聯(lián)聚合單元、揭示文檔粒度屬性的重要工具,對聚合單元元數(shù)據(jù)進行標(biāo)注是實現(xiàn)細(xì)粒度信息聚合的重要基礎(chǔ)[22]。在對不同層級聚合單元進行標(biāo)注時,根據(jù)細(xì)粒度聚合單元本體所屬層級構(gòu)建數(shù)據(jù)庫表,并結(jié)合語義元數(shù)據(jù)、物理元數(shù)據(jù)以及訪問元數(shù)據(jù)的屬性特征設(shè)置相應(yīng)的字段。同時結(jié)合語篇單元、句群單元、節(jié)段單元對應(yīng)數(shù)據(jù)庫表之間的關(guān)聯(lián),確定表與表之間的關(guān)系,如圖4所示。

圖4 不同層級聚合單元標(biāo)注與索引數(shù)據(jù)表

聚合單元元數(shù)據(jù)通常采用XML技術(shù)進行標(biāo)注,利用由陳述、資源、屬性組成的RDF數(shù)據(jù)模型來描述元數(shù)據(jù)信息,RDF數(shù)據(jù)模型除了具備語義互操作功能外,還能在與元數(shù)據(jù)交換過程中保持其語義不變[23]。在劃分不同層級的細(xì)粒度聚合單元后,本文根據(jù)聚合單元本體實現(xiàn)語義標(biāo)注,按照聚合單元層級組織相互關(guān)聯(lián)的細(xì)粒度元數(shù)據(jù)來形成知識體系,為文檔檢索奠定基礎(chǔ)。

圖5 基于聚合單元元數(shù)據(jù)框架的細(xì)粒度信息語義組織模型

3.3 基于聚合單元元數(shù)據(jù)框架的細(xì)粒度信息語義組織模型設(shè)計

基于聚合單元元數(shù)據(jù)框架及其知識組織模型,以及細(xì)粒度聚合環(huán)境下聚合本體的語義聚合原理,本文構(gòu)建了細(xì)粒度信息語義組織模型,如圖5所示。在細(xì)粒度信息語義組織模型中,將網(wǎng)絡(luò)信息資源劃分為不同層級的聚合單元后,通過聚合單元屬性提取、元數(shù)據(jù)標(biāo)注及索引來構(gòu)建細(xì)粒度聚合本體,將具有語義關(guān)聯(lián)的單元聚合在一起,形成豐富的復(fù)合本體,為用戶提供實現(xiàn)語義關(guān)聯(lián)的網(wǎng)絡(luò)信息資源。

3.4 基于聚合單元元數(shù)據(jù)框架的細(xì)粒度信息語義組織模型的書目關(guān)系擴展

(1)基于元數(shù)據(jù)的書目關(guān)系擴展

為解決現(xiàn)有元數(shù)據(jù)方案在書目關(guān)系擴展上的局限性,本文將實體資源劃分為資源、主題、人、機構(gòu)以及地點等類別,各個實體均具有自身屬性和屬性值,例如人的屬性包括性別、姓名、出生日期、國籍、所屬機構(gòu)、作品等;地點的屬性包括城鎮(zhèn)、地區(qū)、國家等;機構(gòu)的屬性包括地區(qū)、作品、員工等;書目資源的屬性包括標(biāo)題、名稱、出版社、類型、責(zé)任者、語言、版權(quán)、標(biāo)識號、來源等;主題的屬性包括責(zé)任者、概念外鏈、上/下位主題等。對實體及其屬性的劃分有利于區(qū)分各類資源的表現(xiàn)形式,實現(xiàn)具有相同屬性的實體之間的關(guān)聯(lián)。

根據(jù)書目關(guān)系中的實體及其屬性,可建立基于聚合單元元數(shù)據(jù)的書目關(guān)系擴展框架。通過對實體關(guān)系進行擴展,發(fā)現(xiàn)各個實體之間、實體屬性之間、實體與實體屬性之間均存在一定的關(guān)聯(lián),即不同層次的書目關(guān)系?;谠獢?shù)據(jù)的書目關(guān)系分類體系(如表3所示)反映了各實體之間的關(guān)聯(lián),該關(guān)聯(lián)是擴展書目關(guān)系的重要基礎(chǔ),有利于實現(xiàn)對實體與屬性之間、實體屬性之間的關(guān)系擴展,從而在書目檢索過程中關(guān)聯(lián)更多與檢索條目相關(guān)的實體和屬性。

(2)基于元數(shù)據(jù)的書目關(guān)系擴展映射

根據(jù)元數(shù)據(jù)框架擴展元數(shù)據(jù)書目關(guān)系后,需要設(shè)計相應(yīng)的映射方案,以直觀地呈現(xiàn)以關(guān)系為主線的資源描述結(jié)果。鑒于目前圖書館采用的書目編目方案以MARC格式為主,本文以CNMARC為例分析其擴展書目關(guān)系與字段的映射情況,表4介紹了部分實體之間的關(guān)系,反映了書目與機構(gòu)、人、書目、地點、主題等實體之間的關(guān)系和字段對應(yīng)情況。

表3 基于元數(shù)據(jù)的書目關(guān)系分類體系

表4 基于CNMARC的擴展書目關(guān)系及字段映射方案

(3)實例分析

本文以MARC記錄為例(如圖6所示),根據(jù)CNMARC的擴展書目關(guān)系及字段映射方案分析其關(guān)系的層次與構(gòu)成。通過解析MARC記錄發(fā)現(xiàn)存在兩個層級關(guān)系,分別為實體與屬性之間的關(guān)系和實體與實體之間的關(guān)系。其中,“信息組織”的出版日期為“20040928”,該書目的標(biāo)識符為“413頁”“7-04-015340-8”,分別體現(xiàn)了200$a與010$a、200$d之間、200$a與210$d之間的關(guān)系,反映了實體與實體屬性間的關(guān)系;“高等教育出版社”與“信息組織”、“戴維民”與“信息組織”分別存在出版關(guān)系和創(chuàng)作關(guān)系,“高等學(xué)校”作為“信息管理”的下位主題,分別體現(xiàn)了200$a與200$f、200$a與210$c、690$a與690$x之間的關(guān)系。

圖6 MARC記錄

4 聚合單元元數(shù)據(jù)框架下細(xì)粒度模型的書目數(shù)據(jù)聚合

4.1 聚合單元元數(shù)據(jù)框架下細(xì)粒度模型的書目數(shù)據(jù)聚合層次設(shè)計

書目數(shù)據(jù)聚合涉及信息層、數(shù)據(jù)層和知識層,書目數(shù)據(jù)的聚合機制反映了文獻的內(nèi)部特征及外部聯(lián)系。從內(nèi)部特征來看,不僅包括文獻的題名及基本內(nèi)容信息,還包括文獻的轉(zhuǎn)載信息、出版信息、收錄情況等;從外部組織關(guān)系來看,反映了文獻資源之間的從屬關(guān)系、引用關(guān)系以及作者、機構(gòu)、標(biāo)題、內(nèi)部主題和發(fā)行卷期等概念性內(nèi)在關(guān)系。

細(xì)粒度聚合環(huán)境下,數(shù)據(jù)層實現(xiàn)對多源異構(gòu)書目數(shù)據(jù)的整合,參考相關(guān)標(biāo)準(zhǔn)對文獻元數(shù)據(jù)進行設(shè)置、著錄、標(biāo)注和審校,從內(nèi)部信息及外部關(guān)系來揭示文獻特征,搜集期刊的影響因子、刊物信息描述、期刊收錄情況、投稿指南、期刊分類信息等數(shù)據(jù)作為聚合的數(shù)據(jù)基礎(chǔ);信息層實現(xiàn)對書目數(shù)據(jù)的序化,通過建立元數(shù)據(jù)方案對信息資源進行規(guī)范化描述,揭示數(shù)據(jù)的外在關(guān)聯(lián)及內(nèi)部特征,該過程需要利用聚合本體或RDA、MARC、DC、LOM等元數(shù)據(jù)進行語義標(biāo)注,實現(xiàn)書目數(shù)據(jù)的語義關(guān)聯(lián);知識層利用基于聚合單元元數(shù)據(jù)的細(xì)粒度知識組織體系來揭示實體之間的聯(lián)系及本質(zhì)特征。

在書目數(shù)據(jù)聚合過程中,首先利用分類法與敘詞表劃分期刊文獻的細(xì)粒度聚合單元,建立基于聚合單元的元數(shù)據(jù)框架;然后,采用語義網(wǎng)技術(shù)對邏輯關(guān)系進行定義,根據(jù)不同層級聚合單元之間的邏輯關(guān)系深入描述元數(shù)據(jù)屬性并進行語義規(guī)范;最后,結(jié)合關(guān)聯(lián)數(shù)據(jù)建立文獻關(guān)聯(lián),實現(xiàn)細(xì)粒度信息聚合。該過程實現(xiàn)了數(shù)據(jù)層、信息層與知識層的有效聚合,形成了發(fā)現(xiàn)知識的聚合本體,從而為文獻資源的關(guān)聯(lián)發(fā)現(xiàn)、語義檢索及導(dǎo)航檢索奠定了基礎(chǔ)。

4.2 書目聚合層次與書目框架實體的關(guān)聯(lián)

聚合單元元數(shù)據(jù)框架下細(xì)粒度信息語義組織模型通過以下結(jié)構(gòu)層次來實現(xiàn)書目數(shù)據(jù)聚合,如圖7所示。該聚合機制的原理在于:利用書目數(shù)據(jù)對期刊資源核心元素進行附注,比較分析期刊資源間的關(guān)聯(lián)度與內(nèi)部特征,從而實現(xiàn)期刊資源在不同信息層面的聚合。在現(xiàn)實應(yīng)用中,可借助元數(shù)據(jù)關(guān)聯(lián)技術(shù)實現(xiàn)多層級知識檢索系統(tǒng)的設(shè)計與開發(fā),這有利于資源獲取與知識的自動發(fā)現(xiàn),能夠為信息檢索與利用提供更便捷、快速的途徑。

圖7 書目聚合層次與書目框架實體的關(guān)聯(lián)

該聚合機制中包含兩個層級結(jié)構(gòu):(1)基于細(xì)粒度信息單元屬性及語義關(guān)聯(lián)建立文獻資源數(shù)據(jù)。在實體-屬性書目關(guān)系體系下,根據(jù)實體之間的關(guān)聯(lián)及其自身屬性來組織文獻資源編目數(shù)據(jù),對不同層級聚合單元的核心元素進行語義描述,建立規(guī)范化書目數(shù)據(jù)。期刊書目編目過程中,對編目工作涉及的主題標(biāo)引、版本項、發(fā)行項、附注項、文獻題名、標(biāo)準(zhǔn)編號、載體形態(tài)項以及獲得方式項進行描述與著錄,重新編排書目數(shù)據(jù),再根據(jù)這些內(nèi)容分析期刊資源的再版、改名、流傳等情況。(2)利用書目數(shù)據(jù)聚合文獻資源。一是運用資源表征描述實現(xiàn)資源的數(shù)據(jù)層聚合,將書目數(shù)據(jù)置于更加廣泛的網(wǎng)絡(luò)環(huán)境中,使不同語言形式和包裝形式的書目元數(shù)據(jù)都能在國際范圍內(nèi)展現(xiàn),從而形成具有較強關(guān)聯(lián)的元數(shù)據(jù)系統(tǒng),為增強資源學(xué)科分類屬性、促進信息層關(guān)聯(lián)聚合奠定基礎(chǔ)。二是借助元數(shù)據(jù)本體實現(xiàn)資源的信息層聚合,結(jié)合用戶任務(wù)建立核心元素集合,從而提供目次表跳轉(zhuǎn)、關(guān)鍵詞檢索以及跟隨鏈接等服務(wù)。三是利用標(biāo)準(zhǔn)詞表實現(xiàn)資源的知識層聚合,運用學(xué)科內(nèi)容定制、學(xué)科知識索引、資源推薦與導(dǎo)航等元素,促進期刊資源在知識層面上的聚合,為用戶提供語義檢索、關(guān)聯(lián)發(fā)現(xiàn)、文獻索引等知識服務(wù)。

4.3 書目資源聚合模式下的檢索示例

在傳統(tǒng)的粗粒度文獻檢索模式下,由于書目資源之間的關(guān)聯(lián)度較低,且內(nèi)在內(nèi)容邏輯聯(lián)系分散,導(dǎo)致書目資源無序排列在文獻中,檢索主要通過選擇對應(yīng)類型的數(shù)據(jù)庫來獲取部分?jǐn)?shù)據(jù);而在細(xì)粒度聚合環(huán)境下,通過書目資源的關(guān)聯(lián)聚合就能實現(xiàn)語義檢索,精確獲取目標(biāo)數(shù)據(jù)。因此,在書目資源細(xì)粒度聚合模式下信息檢索流程可細(xì)化為以下五步:

第一步,確定檢索詞匯。用戶根據(jù)其所需資源選取適當(dāng)?shù)臋z索詞匯,表達檢索對象的主題、作者、標(biāo)題、類型等信息。本文以“愛迪生”為檢索詞,分析細(xì)粒度信息聚合機制下的信息檢索途徑。第二步,識別檢索點。該過程通過構(gòu)建基于細(xì)粒度聚合單元的元數(shù)據(jù)標(biāo)準(zhǔn),提高識別書目資源的可視化程度,對檢索實體進行識別,篩選出具有相似特征的實體。由“愛迪生”確定檢索實體為“Thomas Alva Edison”,中文名為托馬斯·阿爾瓦·愛迪生,發(fā)明家、企業(yè)家,擁有四大發(fā)明。根據(jù)該描述實體,識別出“愛迪生的發(fā)明”“愛迪生人物故事介紹”“愛迪生發(fā)明與專利介紹”等類型的文章。第三步,選擇目標(biāo)源。根據(jù)用戶需求選取載體、內(nèi)容、來源均能符合其需求的資源。在細(xì)粒度信息聚合模式下,書目檢索資源包含各種載體形式、出版形式的信息資源,因此對于“愛迪生”這一檢索詞,目標(biāo)源可以設(shè)置為報紙、增刊、正刊、會議集等形式。第四步,獲取資源。通過細(xì)粒度信息聚合模式實現(xiàn)書目數(shù)據(jù)的初步篩選,呈現(xiàn)相同或相似內(nèi)容的所有資源,利用載體類型、出版社、發(fā)表時間、語言類型等檢索條件縮小檢索范圍,實現(xiàn)書目資源的精確檢索。第五步,瀏覽檢索結(jié)果集。序化檢索選定的書目資源,建立檢索結(jié)果集中各實體之間的關(guān)聯(lián)。例如,根據(jù)介紹“愛迪生”人物事跡的文章,關(guān)聯(lián)出其他相關(guān)的書目及文章,由初始檢索目標(biāo)關(guān)聯(lián)查找到書目1,由書目1關(guān)聯(lián)查找到人物2,再由人物2關(guān)聯(lián)查找到其他書目或文章,經(jīng)過多次關(guān)聯(lián)積累更多書目資源,擴展檢索結(jié)果集的范圍,為用戶提供更全面、詳實的信息資源。

5 結(jié)語

針對網(wǎng)絡(luò)文獻資源的細(xì)粒度聚合問題,本文根據(jù)邏輯結(jié)構(gòu)和形式結(jié)構(gòu)對聚合單元進行了細(xì)粒度劃分,根據(jù)不同層級聚合單元的屬性及關(guān)系特征建立了細(xì)粒度元數(shù)據(jù)方案,在此基礎(chǔ)上對元數(shù)據(jù)進行語義標(biāo)注和規(guī)范化著錄,構(gòu)建了聚合單元元數(shù)據(jù)框架下的細(xì)粒度信息語義組織模型。該模型通過對書目資源各類實體與數(shù)據(jù)層、信息層、知識層的聚合來實現(xiàn)對信息資源的分解、重組,從而實現(xiàn)檢索系統(tǒng)的知識發(fā)現(xiàn)、語義檢索等功能;通過深入挖掘并擴展書目資源之間的關(guān)聯(lián)關(guān)系,為用戶提供更全面、高效、便捷的知識服務(wù)。

猜你喜歡
細(xì)粒度書目關(guān)聯(lián)
融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
推薦書目《初春之城》
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
基于SVM多分類的超分辨圖像細(xì)粒度分類方法
“一帶一路”遞進,關(guān)聯(lián)民生更緊
奇趣搭配
基于web粒度可配的編輯鎖設(shè)計
智趣
支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
本刊郵購書目