国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)時(shí)代數(shù)字資源的主題標(biāo)引研究

2016-12-20 08:11雯,李
圖書館理論與實(shí)踐 2016年11期
關(guān)鍵詞:主題詞表標(biāo)引新詞

肖 雯,李 鑫

(北京市科學(xué)技術(shù)情報(bào)研究所)

大數(shù)據(jù)時(shí)代數(shù)字資源的主題標(biāo)引研究

肖 雯,李 鑫

(北京市科學(xué)技術(shù)情報(bào)研究所)

主題標(biāo)引是對(duì)數(shù)字資源進(jìn)行組織的有效手段,標(biāo)引的質(zhì)量直接影響到數(shù)字資源的質(zhì)量和利用,因此,大數(shù)據(jù)時(shí)代應(yīng)重視主題標(biāo)引的發(fā)展。本文在對(duì)國(guó)內(nèi)外數(shù)字資源的主題標(biāo)引現(xiàn)狀進(jìn)行調(diào)研的基礎(chǔ)上,分析了大數(shù)據(jù)時(shí)代數(shù)字資源主題標(biāo)引面臨的挑戰(zhàn),探討了數(shù)字資源主題標(biāo)引的發(fā)展趨勢(shì)。

自動(dòng)標(biāo)引;受控標(biāo)引;自然語言標(biāo)引;自動(dòng)抽詞標(biāo)引;自動(dòng)賦詞標(biāo)引

大數(shù)據(jù)時(shí)代,為有效組織數(shù)字資源,主題標(biāo)引特別是自動(dòng)標(biāo)引的價(jià)值將更加凸顯,同時(shí)也面臨著前所未有的挑戰(zhàn)。本文對(duì)國(guó)內(nèi)外數(shù)十個(gè)數(shù)字資源數(shù)據(jù)庫的主題標(biāo)引現(xiàn)狀進(jìn)行了調(diào)研,從數(shù)字資源的特征、精確檢索需求、新詞標(biāo)引、跨語言檢索四個(gè)角度出發(fā),對(duì)數(shù)字資源主題標(biāo)引面臨的挑戰(zhàn)進(jìn)行了探討,并對(duì)主題標(biāo)引的發(fā)展趨勢(shì)進(jìn)行了論述。

1 數(shù)字資源標(biāo)引的定義及類型

(1)主題標(biāo)引(Subject Indexing)。是對(duì)文獻(xiàn)主題及其他有檢索意義的特征進(jìn)行分析、表示、提煉和歸納,然后用某種檢索語言(自然語言、受控語言)標(biāo)寫出來,作為信息存儲(chǔ)與檢索的依據(jù)的信息處理過程。[1]按使用主題標(biāo)引語言(自然語言或受控語言)的不同劃分,主題標(biāo)引可分為受控標(biāo)引與自然語言標(biāo)引。受控標(biāo)引,是指須由事先指定的敘詞表(主題詞表)中選用相應(yīng)規(guī)范詞,對(duì)文獻(xiàn)進(jìn)行的標(biāo)引。自然語言標(biāo)引,又稱自由詞標(biāo)引或自由標(biāo)引,是指不設(shè)規(guī)范詞表而由標(biāo)引人員直接選用的文獻(xiàn)自然語言詞,對(duì)文獻(xiàn)進(jìn)行的標(biāo)引。

(2)自動(dòng)標(biāo)引,是指利用計(jì)算機(jī)系統(tǒng)從擬存儲(chǔ)、檢索的事實(shí)情報(bào)或文獻(xiàn)(題目、文摘、正文)中抽取檢索標(biāo)志的過程。[2]按標(biāo)引詞的來源不同,自動(dòng)標(biāo)引可分為自動(dòng)抽詞標(biāo)引與自動(dòng)賦詞標(biāo)引。自動(dòng)抽詞標(biāo)引,是指利用計(jì)算機(jī)自動(dòng)從文獻(xiàn)(題名、摘 要、關(guān)鍵詞等)中抽取關(guān)鍵詞來作為檢索標(biāo)識(shí),關(guān)鍵詞是從文獻(xiàn)中抽出的。[3]自動(dòng)賦詞標(biāo)引,是指把從文獻(xiàn)中抽取的關(guān)鍵詞,參照關(guān)鍵詞和敘詞表中受控詞匯的對(duì)應(yīng)關(guān)系,把關(guān)鍵詞自動(dòng)轉(zhuǎn)化為對(duì)應(yīng)的受控詞,受控詞一般來自于敘詞表,無法轉(zhuǎn)化為敘詞的關(guān)鍵詞可以選擇自由詞標(biāo)引。

對(duì)數(shù)字資源進(jìn)行標(biāo)引,不同標(biāo)引類型的標(biāo)引過程如下圖所示。自動(dòng)賦詞標(biāo)引與受控標(biāo)引達(dá)到的結(jié)果一致,自然語言標(biāo)引和自動(dòng)抽詞標(biāo)引也大致一致。

圖數(shù)字資源標(biāo)引過程示意圖

2 國(guó)內(nèi)外數(shù)字資源的主題標(biāo)引現(xiàn)狀

為說明國(guó)內(nèi)外主題標(biāo)引現(xiàn)狀,以數(shù)字資源的主題標(biāo)引為對(duì)象,對(duì)Elsevier、Wiley、SpringerLink、CNKI-CHKD、萬方醫(yī)學(xué)網(wǎng)、獨(dú)秀學(xué)術(shù)搜索等數(shù)據(jù)庫進(jìn)行了調(diào)研,結(jié)果如下表所示。國(guó)內(nèi)外數(shù)字資源的主題標(biāo)引大致可以歸納為:(1)當(dāng)前國(guó)內(nèi)外數(shù)字資源主題標(biāo)引數(shù)量,自然語言標(biāo)引占絕大多數(shù),受控標(biāo)引應(yīng)用較少;(2)自動(dòng)標(biāo)引已小規(guī)模投入使用,但數(shù)量不多;(3)主題標(biāo)引的內(nèi)容方面,除傳統(tǒng)的文獻(xiàn)主題內(nèi)容外,有些數(shù)據(jù)庫已經(jīng)開始對(duì)文獻(xiàn)中的圖表、圖像、重要化學(xué)分子等內(nèi)容進(jìn)行標(biāo)引;(4)與國(guó)內(nèi)相比,受控標(biāo)引在國(guó)外數(shù)據(jù)庫中的應(yīng)用更普遍,發(fā)展亦更成熟。

表國(guó)內(nèi)外數(shù)字資源數(shù)據(jù)庫主題標(biāo)引情況

3 大數(shù)據(jù)時(shí)代數(shù)字資源主題標(biāo)引面臨的挑戰(zhàn)

3.1 標(biāo)引速度的挑戰(zhàn)

大數(shù)據(jù)時(shí)代,數(shù)字資源具有“Volume(大量)、Velocity(高速)”的特征,海量信息依賴人工標(biāo)引是不現(xiàn)實(shí)的,這種情況下對(duì)主題標(biāo)引速度提出了要求。

單位時(shí)間(比如一天)內(nèi)產(chǎn)生巨量數(shù)字資源,如果單位時(shí)間內(nèi)無法有效標(biāo)引所有資源,就會(huì)導(dǎo)致資源的相對(duì)過剩、信息數(shù)據(jù)冗余等現(xiàn)象。為解決這些現(xiàn)象,亟需提高標(biāo)引的速度,自動(dòng)標(biāo)引技術(shù)就是基于這種需求產(chǎn)生的。計(jì)算機(jī)要在盡可能短的時(shí)間內(nèi)完成標(biāo)引,在保證標(biāo)引速率的同時(shí)還要保證標(biāo)引專指度和網(wǎng)羅度,對(duì)自動(dòng)標(biāo)引能力是個(gè)巨大的挑戰(zhàn)。

3.2 主題詞表建設(shè)的挑戰(zhàn)

數(shù)字資源具有“價(jià)值(Value)”的特征,即通過精確分析、深度挖掘等提高數(shù)據(jù)的價(jià)值密度,使數(shù)據(jù)具有更大價(jià)值。標(biāo)引的目的就是為了有助檢索、實(shí)現(xiàn)資源價(jià)值。主題詞表作為數(shù)字資源組織和檢索的工具,能夠幫助提高資源的查全率、查準(zhǔn)率,在信息檢索、揭示方面發(fā)揮著不可替代的作用。因此,構(gòu)建、維護(hù)主題詞表是十分重要的。大數(shù)據(jù)時(shí)代,海量資源、新詞、跨語言檢索等情況對(duì)主題詞表的適應(yīng)能力提出挑戰(zhàn)。

3.3 多媒體標(biāo)引的挑戰(zhàn)

大數(shù)據(jù)時(shí)代,數(shù)字資源具有“多樣性(Variety)”特征,資源類型豐富多樣,包括文獻(xiàn)、音頻、視頻、網(wǎng)絡(luò)日志、圖片、地理位置等信息。除結(jié)構(gòu)化數(shù)據(jù)外,數(shù)字資源涌現(xiàn)大量半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),呈現(xiàn)多樣化和異構(gòu)化。目前對(duì)這些資源的標(biāo)引方法借鑒于文本的方式,用人工提取關(guān)鍵詞來描述多媒體資源的內(nèi)容。使用這樣的方法費(fèi)時(shí)費(fèi)力、成本高,且?guī)в幸欢ǖ闹饔^性,不能達(dá)到信息標(biāo)引的要求。隨著技術(shù)進(jìn)步,人們開始尋求多媒體信息的自動(dòng)標(biāo)引方法。

3.4 多層面標(biāo)引的挑戰(zhàn)

大數(shù)據(jù)時(shí)代,文獻(xiàn)檢索已經(jīng)不能完全滿足用戶需求,用戶需要更加精確的信息,數(shù)據(jù)檢索和事實(shí)檢索更能滿足這一檢索趨勢(shì)。文獻(xiàn)檢索的結(jié)果是與需求有關(guān)的文獻(xiàn),整篇文獻(xiàn)的閱讀費(fèi)時(shí)費(fèi)力且存在大量無用信息,不便于用戶直接利用;事實(shí)和數(shù)據(jù)檢索的結(jié)果是文獻(xiàn)中的具體信息,如某一具體的圖、表、數(shù)據(jù)、化學(xué)分子、數(shù)值概念、關(guān)系表達(dá)式等,內(nèi)容顯示直接、精確;為了適應(yīng)用戶的檢索需求,主題標(biāo)引面臨精確檢索的挑戰(zhàn)。因此,需要對(duì)資源進(jìn)行多層面標(biāo)引。多層面標(biāo)引是指對(duì)文獻(xiàn)中的內(nèi)容信息、化學(xué)分子、圖表、關(guān)系表達(dá)式等均進(jìn)行標(biāo)引,在此標(biāo)引基礎(chǔ)上才能進(jìn)行數(shù)據(jù)檢索或事實(shí)檢索。[4]對(duì)哪些內(nèi)容標(biāo)引、如何標(biāo)引、如何組織等問題,都是多層面標(biāo)引需要面對(duì)的,需要不斷地探索和總結(jié)。

3.5 新詞標(biāo)引的挑戰(zhàn)

隨著社會(huì)不斷發(fā)展,新事物、新觀念、新現(xiàn)象不斷涌現(xiàn),為了指稱的需要,新詞不斷被創(chuàng)造出來,隨著時(shí)間推移,新詞的出現(xiàn)速度會(huì)更快。新詞的識(shí)別和標(biāo)引,直接影響到數(shù)字資源組織的質(zhì)量和速度。因此,為適應(yīng)時(shí)代發(fā)展,主題標(biāo)引應(yīng)重視新詞詞典建設(shè)工作。新詞發(fā)現(xiàn)是新詞主題標(biāo)引的前提,新詞詞典建設(shè)是新詞主題標(biāo)引的基礎(chǔ)。與新詞的快速發(fā)展相比,新詞詞典的出版總是相對(duì)滯后,如果這些新詞不能及時(shí)收錄到新詞詞表中,將直接影響到自動(dòng)標(biāo)引的進(jìn)程。新詞收錄是一項(xiàng)浩大繁瑣的工程,新詞詞典的滯后性說明當(dāng)前新詞收錄效率不高,因此,新詞收錄對(duì)主題標(biāo)引是一個(gè)巨大挑戰(zhàn)。

3.6 跨語言標(biāo)引的挑戰(zhàn)

隨著互聯(lián)網(wǎng)在世界范圍內(nèi)的普及以及信息技術(shù)的發(fā)展,語言障礙限制了人們獲取更多的資源,跨語種信息檢索應(yīng)運(yùn)而生。大數(shù)據(jù)時(shí)代,面對(duì)不同語言的、海量的數(shù)字資源,單語種檢索結(jié)果已經(jīng)無法滿足用戶對(duì)資源的需求,跨語言信息檢索更有利于資源更大范圍內(nèi)的利用??缯Z言主題標(biāo)引的目的是實(shí)現(xiàn)跨語言檢索,跨語言檢索的實(shí)現(xiàn)是一個(gè)復(fù)雜的、涉及學(xué)科極廣的、綜合性強(qiáng)的過程??缯Z言主題標(biāo)引要根據(jù)跨語言主題檢索的需求同步調(diào)整,因此,跨語言主題標(biāo)引的實(shí)現(xiàn)是有一定難度的、不是一蹴而就的工作。[5]

4 大數(shù)據(jù)時(shí)代數(shù)字資源主題標(biāo)引的發(fā)展趨勢(shì)

4.1 人工參與的自動(dòng)標(biāo)引

大數(shù)據(jù)時(shí)代,自動(dòng)標(biāo)引具有效率高、速度快、成本低、穩(wěn)定性和一致性高等特點(diǎn),更能適應(yīng)大數(shù)據(jù)時(shí)代用戶的檢索需求,是今后信息組織和主題標(biāo)引的發(fā)展方向。自動(dòng)標(biāo)引是一項(xiàng)涉及面廣、難度較大的系統(tǒng)性工程,要依靠語言學(xué)、計(jì)算機(jī)、情報(bào)學(xué)等多學(xué)科人才的共同配合才能完成。目前,有些數(shù)字資源采用自動(dòng)標(biāo)引的方法進(jìn)行標(biāo)引(如上表中的CNKI、El、Inspec等),雖然提高了標(biāo)引速度,但存在各種問題及困難,主要表現(xiàn)在標(biāo)引質(zhì)量不及人工標(biāo)引水平,為了彌補(bǔ)這種不足,人工參與標(biāo)引不可或缺。自動(dòng)標(biāo)引代表主題標(biāo)引未來的發(fā)展方向,今后需要在人工參與下不斷嘗試創(chuàng)新改進(jìn),最終實(shí)現(xiàn)智能標(biāo)引。

4.2 主題詞表建設(shè)

4.3 多媒體標(biāo)引

大數(shù)據(jù)時(shí)代,數(shù)字資源的標(biāo)引對(duì)象包括文獻(xiàn)、音頻、視頻、網(wǎng)絡(luò)日志、圖片、地理位置等類型。目前,國(guó)內(nèi)外較側(cè)重于對(duì)文獻(xiàn)類資源的標(biāo)引,對(duì)圖像、音視頻、圖片等多媒體信息標(biāo)引的研究相對(duì)較少。[6]多媒體信息日益成為重要的信息資源,但對(duì)其自動(dòng)標(biāo)引的研究尚處于基礎(chǔ)階段,標(biāo)引的精確程度與深度還差強(qiáng)人意,今后,研究方向會(huì)逐漸側(cè)重多媒體資源自動(dòng)標(biāo)引,標(biāo)引質(zhì)量也會(huì)逐漸提高。

4.4 知識(shí)單元標(biāo)引

文獻(xiàn)標(biāo)引主要是針對(duì)文獻(xiàn)內(nèi)容的標(biāo)引,但碩博士論文、圖書、期刊等文獻(xiàn)資源篇幅差異巨大,用同一標(biāo)準(zhǔn)去標(biāo)引所有文獻(xiàn)類資源是否合理?大數(shù)據(jù)時(shí)代,為實(shí)現(xiàn)數(shù)據(jù)檢索和事實(shí)檢索,主題標(biāo)引的力度應(yīng)該加大,知識(shí)單元標(biāo)引是符合這種標(biāo)引趨勢(shì)的方式之一。

知識(shí)單元標(biāo)引是指把文獻(xiàn)中的章、節(jié)、化學(xué)分子式、圖、表、數(shù)值信息等拆分成知識(shí)單元,然后對(duì)知識(shí)單元進(jìn)行主題標(biāo)引。知識(shí)單元標(biāo)引深入到文獻(xiàn)中對(duì)章節(jié)內(nèi)容、圖、表、表達(dá)式等均進(jìn)行標(biāo)引,將文獻(xiàn)內(nèi)容以多層面的方式揭示出來。這種標(biāo)引是事實(shí)檢索和數(shù)據(jù)檢索的前提和基礎(chǔ),突破了文獻(xiàn)標(biāo)引和檢索的限制。這樣,讀者檢索結(jié)果是與滿足檢索要求的具體知識(shí)信息(如論文的某一節(jié)、某一化學(xué)分子式),標(biāo)引力度更深,檢索結(jié)果簡(jiǎn)單直接,是主題標(biāo)引的趨勢(shì)。

4.5 新詞詞典

新詞的收錄速度遠(yuǎn)遠(yuǎn)滯后于新詞的出現(xiàn)速度,從而直接影響到自動(dòng)標(biāo)引的準(zhǔn)確性。所以,研究知識(shí)庫智能收錄新詞的機(jī)制,建設(shè)及時(shí)的新詞詞典,提高知識(shí)庫、詞典反映新語匯的效率,將是今后主題標(biāo)引的研究方向之一。

4.6 跨語言標(biāo)引

為實(shí)現(xiàn)跨語言主題標(biāo)引和檢索,需要構(gòu)建跨語言主題詞表。當(dāng)前,國(guó)內(nèi)外十分重視跨語言主題詞表的建設(shè)工作,例如,Eurovoc(euro vocabulary thesaurus)主題詞表目前可支持23種官方語言。[7]為了適應(yīng)大數(shù)據(jù)的環(huán)境,跨語言主題詞表的自動(dòng)構(gòu)建技術(shù)將是跨語言標(biāo)引的一個(gè)重要研究方向。

[1]馬費(fèi)成,賴茂生.信息資源管理[M].北京:高等教育出版社,2006:65-66.

[2]自動(dòng)標(biāo)引[EB/OL].[2016-01-01].http://baike. baidu.com/link?url=SpPPtTzNniRVMFc_ShqXXxhHyQ LSe5MgGE0L0Rdf1JS8bV0XfsteHHjQOsdfgZnky51Y8 lz_a5YTHow IoC49nK.

[3]劉竟,等.網(wǎng)絡(luò)環(huán)境信息標(biāo)引的測(cè)評(píng)與比較研究[J].中國(guó)圖書館學(xué)報(bào),2008(1):70-74.

[4]朱華玲,等.受控標(biāo)引在文獻(xiàn)數(shù)據(jù)庫中應(yīng)用和發(fā)展的調(diào)查分析[J].圖書情報(bào)工作,2013(13):140-144.

[5]蔡丹,羅翀.國(guó)家圖書館跨語言主題標(biāo)引策略研究[J].山東圖書館學(xué)刊,2014(3):71-74.

[6]余春.自動(dòng)標(biāo)引研究進(jìn)展[J].圖書館學(xué)研究, 2012(4):18-22.

[7]維基百科.Eurovoc[EB/OL].[2016-01-10]. https://en.wikipedia.org/wiki/Eurovoc.

Studyon Subject IndexingofDigitalResource in the EraofBigData

XiaoWen,LiXin

Subject indexing isan effectivemeansoforganizingdigital resources,and the indexingquality directlyaffects thequality and utilization ofdigital resources.Therefore,weshould attach importance to thedevelopmentof thesubjectindexing in BigData era.Based on the research statusof domestic and abroad digital resource subject indexing,thisarticleanalyzes the challengeswe meetin digital resourcessubjectindexing,and discusses thedevelopmenttrend ofdigital resourcesubjectindexing.

Automatic Indexing;Controlled Indexing;Natural Language Indexing;Automatic Derived Indexing;Automatic Assignment Indexing

G254.36

A

1005-8214(2016)11-0067-04

表是保證標(biāo)引、檢索用詞一致的一個(gè)共同依據(jù),能夠幫助提高查準(zhǔn)率、查全率和專指性,是進(jìn)行主題標(biāo)引工作的前提。因此,要重視建立和完善主題詞表工作。為適應(yīng)自動(dòng)標(biāo)引的需求,需要建立適合數(shù)字資源使用的主題詞表。目前,國(guó)內(nèi)數(shù)字資源主題標(biāo)引采用較多的是mesh醫(yī)學(xué)主題詞表,例如CHKD、萬方、Sinomed等均采用了mesh表進(jìn)行標(biāo)引和檢索。主題詞表建設(shè)應(yīng)該借鑒mesh醫(yī)學(xué)主題詞表的成功經(jīng)驗(yàn),分學(xué)科構(gòu)建主題詞表,從而實(shí)現(xiàn)對(duì)全學(xué)科數(shù)字資源的主題標(biāo)引。

肖雯(1966-),女,碩士,北京市科學(xué)技術(shù)情報(bào)研究所副研究館員,研究方向:信息資源管理、科技情報(bào)研究與咨詢;李鑫(1980-),男,碩士,北京市科學(xué)技術(shù)情報(bào)研究所助理研究員,研究方向:科技情報(bào)研究與技術(shù)轉(zhuǎn)移咨詢。

2016-03-06[責(zé)任編輯]呂曉佩

猜你喜歡
主題詞表標(biāo)引新詞
《漢語主題詞表》
中醫(yī)古籍醫(yī)案知識(shí)元標(biāo)引方法的思考及對(duì)策
聲音·數(shù)字·新詞 等
《〈漢語主題詞表〉構(gòu)建研究》
《漢語主題詞表》
《〈漢語主題詞表〉構(gòu)建研究》
檔案主題標(biāo)引與分類標(biāo)引的比較分析
《微群新詞》選刊之十四
學(xué)詩偶感
關(guān)于關(guān)鍵詞標(biāo)引的要求