譚靜
(天津城建大學圖書館,天津 300384)
基于語義關聯(lián)的高校圖書情報檔案數(shù)字資源整合研究?
譚靜
(天津城建大學圖書館,天津 300384)
分析了資源整合的內(nèi)涵及作用,介紹了基于語義關聯(lián)的海量數(shù)字資源整合方法。詳述了高校圖書、情報、檔案資源整合的前提條件,主要包括:高校圖書、情報、檔案知識資源的數(shù)字化存貯,工作流程的革新化改造和高校組織之間基于協(xié)議的知識聯(lián)盟。最后,重點論述了基于語義關聯(lián)的圖書、情報、檔案數(shù)字資源整合模式。
語義關聯(lián) 數(shù)字資源 資源整合模式
信息社會的到來使得數(shù)字圖書館的服務模式發(fā)生了巨大轉變,更加專注于深度挖掘知識的內(nèi)容和關聯(lián)性。隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,數(shù)字資源的增長速度也在不斷加快,數(shù)字圖書館的知識資源也逐漸虛擬化,由此改變了用戶的使用習慣和交流方式[1]。為了將分散的數(shù)字資源進行整合,數(shù)字圖書館嘗試構建基于語義關聯(lián)的數(shù)字資源整合模型,從而進一步提高數(shù)字圖書館的知識服務效果。具體來講,數(shù)字資源整合技術就是利用相關技術將異構的數(shù)字資源進行整合,并通過后期的加工和排序處理將數(shù)字資源形成一個統(tǒng)一的整體,并將數(shù)字資源的規(guī)律性和知識性表現(xiàn)出來。筆者所研究的基于語義關聯(lián)的數(shù)字資源知識整合技術,就是利用語義處理相關技術,分析隱藏在數(shù)字資源中的知識,挖掘出語義關聯(lián)性,然后利用聚類和重構的方式將基于語義關聯(lián)的數(shù)字資源整合為一個有機整體,從而為用戶展現(xiàn)出豐富的知識關聯(lián)性。
資源整合技術就是根據(jù)特定需要將具有一定關聯(lián)性的數(shù)字對象、個體以及相應的功能進行重組、融合以及聚類處理,從而形成為同一種類的數(shù)字資源體系[2]。一般將描述資源的規(guī)范稱為元數(shù)據(jù)規(guī)范,而用于描述數(shù)字資源整合的規(guī)范又稱為數(shù)字資源整合的元數(shù)據(jù)規(guī)范。元數(shù)據(jù)規(guī)范已經(jīng)成為基于語義關聯(lián)的數(shù)字資源管理系統(tǒng)的重要規(guī)范,甚至可以直接將該規(guī)范認定為各種數(shù)字資源的統(tǒng)一規(guī)定。寬泛地講,數(shù)字資源的整合描述在分布式資源檢索、資源定位以及基于異構系統(tǒng)的相互操作等方面有著積極的作用。
1.1 分布式信息檢索
在分布式數(shù)字資源環(huán)境下,為了更好地滿足用戶關于信息系統(tǒng)的資源檢索需求,本研究根據(jù)數(shù)字資源開發(fā)原則為不同領域的數(shù)據(jù)資源以及不同網(wǎng)絡檢索技術提供數(shù)字整合描述,這也是在分布式數(shù)字資源中知識發(fā)現(xiàn)的重要方式。與此同時,針對數(shù)字資源進行有效描述不僅可以將異構數(shù)字資源的聯(lián)合范圍擴大,從而形成一種有機整體,而且還可以為用戶提供資源整合工具和相互操作機制,以此擴大影響范圍,并進一步提高信息檢索水平。
1.2 異構信息系統(tǒng)間的互操作
與關于資源對象的描述不同,關于資源整合的描述具有顯著的分布式特點,而且層次性特征也十分明顯,描述的對象可以存儲在不同的物理空間,甚至可以存儲在不同的信息系統(tǒng)之中,因此關于這些描述對象的數(shù)據(jù)存儲結構、存在方式以及檢索模式都是異構的。此外,基于資源對象的動態(tài)描述規(guī)范還能夠幫助實現(xiàn)異構資源對象的無縫鏈接,從而為整個異構信息系統(tǒng)的相互聯(lián)系提供支持。
2.1 海量數(shù)字資源采集、描述與整合機制
海量數(shù)字資源的來源方式多種多樣,存在的類型也繁多復雜,已經(jīng)呈現(xiàn)出分布式的特點。針對數(shù)字資源的采集方式應該結合自身的分布特點進行,利用合適的數(shù)字資源采集工具,并且制定相應的數(shù)字資源采集方案。具體來講,可以在數(shù)據(jù)庫資源中利用轉化和抽取技術以及分檔分析軟件,來提取異構數(shù)字資源的特征向量,并進行必要的語義標引[3]。數(shù)字資源的采集方式可以按照由近到遠的方式,也就是首先采集日期較近的數(shù)字資源,然后對日期較晚的數(shù)字資源采用回溯的方式,從而保證較新的數(shù)字資源優(yōu)先被采集和整理。當然,在具體描述數(shù)字資源之前,還要根據(jù)元數(shù)據(jù)模塊進行語義描述,從而讓異構的數(shù)字資源更容易被計算機識別。在語義整合階段,還可以利用已經(jīng)存在的先驗數(shù)字資源進行語義分類處理,接著分析數(shù)字資源的內(nèi)容差異和語義相似度,然后將較為相似的數(shù)字資源整合為一個整體;或者參照基于領域本體的映射關系進行數(shù)字資源重組,進一步揭示數(shù)字資源的內(nèi)在語義關聯(lián),從而將隱藏的知識資源進行深度整合。
2.2 以引證與概念為基礎的知識整合方式
引證關系反映出數(shù)字資源的流通情況,而且是一種單向流通。通過引證關系可以挖掘出數(shù)字資源的語義關聯(lián)性,比較常用的方法主要以引證耦合以及引證路徑為基礎構建通用模型,從而實現(xiàn)關于數(shù)字資源的語義分級和整理處理[4]。如果數(shù)字資源之間存在直接的引證關系,就可以直接在引證聯(lián)系網(wǎng)中搜索相似的數(shù)字資源,并進行多維度分析和評估。如果數(shù)字資源之間存在間接的引證關系,就需要利用分析引證方法來分析關聯(lián)的強度,進一步確定數(shù)字資源之間的關聯(lián)性,為資源的深度整合提供支持。此外,還可以利用數(shù)字資源的概念聯(lián)系進行資源整合,可以借助語義表達方式的不同來區(qū)分數(shù)字資源,利用不同的語義單元探討其關聯(lián)性;還能夠根據(jù)不同類型的數(shù)字資源關系和映射方式,并結合用戶的資源需求特征,利用語義關聯(lián)和概念關系來挖掘數(shù)字資源中的內(nèi)在規(guī)律性。針對知識組織系統(tǒng),可以根據(jù)知識粒度來分析語義關聯(lián),并在應用過程中挖掘不同知識粒度的語義關聯(lián)性,從而得到在不同知識粒度條件下的知識整合效果。
3.1 高校圖書情報檔案知識資源的數(shù)字化存貯
一體化方式的知識組織、知識編碼以及知識挖掘的主要對象不僅包括了在線網(wǎng)絡信息,而且還包括數(shù)字化圖書、檔案和情報信息等[5]。數(shù)字資源的來源主要分為兩個部分,其一為文檔文獻形式的數(shù)字資源,該類型在整個資源中占有的比例較大;其二為視聽形式的數(shù)字資源。比如文檔文獻形式的數(shù)字資源主要包括以檔案、情報以及圖書數(shù)字化形式進行存儲,還包括經(jīng)過數(shù)字化存儲的紙質文獻?;谖墨I文檔的數(shù)字化存儲方式主要有兩種方式:第一種為構建基于圖像的存儲方式,第二種為構建基于文本的存儲方式。值得注意的是,第一種存儲方式占用的物理空間較大,成本較高,不利于長遠的存儲規(guī)劃;第二種存儲方式需要人工進行數(shù)字化,也就是將文獻的資料,主要是圖像、文字以及數(shù)據(jù)表格等以Word、PDF、TXT或者GIF格式進行存儲。如果需要數(shù)字化的圖像、文字或者數(shù)據(jù)無法用人工輸入的方式完成,就可以利用復制或者掃描的方式將數(shù)字資源進行存儲;如果需要處理視聽類數(shù)字化資源,就需要利用相關設備和技術進行轉錄、降噪以及壓縮處理,并最終實現(xiàn)以MP3和AIV等格式進行存儲。
3.2 高校圖書情報檔案工作流程的革新化改造
一體化過程本身就是一種科技創(chuàng)新活動,是將圖書類、檔案類以及情報類資源進行結構調整和整合處理,而且要求這些工作流程與創(chuàng)新機制相一致。高校工作業(yè)務再造思想是進行一體化科學充足的重要參考依據(jù),也就是強調整體性工作與業(yè)務分工的相互連接,減少多余重復的構建過程,重視基于決策的業(yè)務建設,從而實現(xiàn)從職能管理到業(yè)務流程管理的轉變,堅持效能最優(yōu)以及性能最強的宗旨,進一步保證每個工作環(huán)節(jié)的增值最大化[6]。根據(jù)上述的高校工作業(yè)務員再造思想倡導的宗旨,并結合一體化結構組織原則,設計了一體化業(yè)務流程圖,如圖1所示。
3.3 高校組織之間基于協(xié)議的知識聯(lián)盟
知識聯(lián)盟主要指社會各界的組織機構以及單位系統(tǒng)為了更好地分享知識資源,加快知識交流以及實現(xiàn)知識創(chuàng)新,而利用各種協(xié)議和契約鏈接為一個團體,從而達到知識優(yōu)勢互補的目的。高校的知識聯(lián)盟的主要鏈接方式為知識共享協(xié)議或者知識交換契約。通過知識聯(lián)盟渠道,一體化機構可以直接從外界的高校知識環(huán)境中交換獲得本校所需的文獻資源,比如圖書資料、檔案資料以及情報資料等,從而更好地充實本校的知識體系。一體化機構還可以利用知識聯(lián)盟的知識集約性,改進機構的知識吸收能力,加強資源結構調整能力以及追蹤能力等,從而為知識整合提供便利條件。
若要實現(xiàn)基于語義關聯(lián)的圖書、檔案以及情報等數(shù)字資源的整合,必須要處理好數(shù)據(jù)共享問題以及知識互操作問題等。為了保證向用戶提供一個統(tǒng)一、高效的知識發(fā)現(xiàn)機制,筆者嘗試將OAI-PMH協(xié)議應用到以圖書、檔案以及情報等數(shù)字資源為主要內(nèi)容的系統(tǒng)中,并將數(shù)字資源中的元數(shù)據(jù)進行集成,從而構建一個基于語義關聯(lián)并且為用戶提供統(tǒng)一、高效的知識服務整合模式[7]。具體來講,本研究將語義關聯(lián)的應用程序接口定義為HTTP格式,經(jīng)過格式擴展后還能以Slash或者Hash格式轉發(fā)。利用語義關聯(lián)技術可以針對數(shù)字資源訪問模式進行統(tǒng)一的標準化,也就是用戶或者代理機構無需了解語義關聯(lián)發(fā)布網(wǎng)站的運行模式、體系架構以及存儲方式等內(nèi)容,只需利用SPARQL技術根據(jù)Web服務器的IP地址進行訪問即可。需要注意的是,基于圖書、檔案以及情報等資源的元數(shù)據(jù)存在兩個方面的問題:(1)OAI-PMH協(xié)議只為用戶提供基于Identifier等參數(shù)規(guī)定范圍的收集服務,目前還不允許用戶自行設定收集參數(shù),比如用戶不能按照作者或者資料語種收集,但這恰好是用戶所熟悉的收集方式。(2)在基于OAI的數(shù)據(jù)庫中,每個元數(shù)據(jù)條目都有唯一的標識符,但是這個標識符并不能直接被HTTP識別,因而無法利用元數(shù)據(jù)條目直接收集數(shù)字資源。
因此,如果要利用語義關聯(lián)技術實現(xiàn)關于圖書、情報以及檔案等數(shù)字資源的整合,首先要針對OAI-PMH元數(shù)據(jù)進行語義關聯(lián)處理,也就是將OAI的數(shù)據(jù)庫的元數(shù)據(jù)轉化為具有語義關聯(lián)性,從而幫助解決用戶在收集元數(shù)據(jù)時遇到的技術障礙。
4.1 OAI-PMH元數(shù)據(jù)的語義關聯(lián)化
如果要實現(xiàn)基于OAI-PMH元數(shù)據(jù)的語義關聯(lián)性處理,就需要參照語義關聯(lián)的原則進行,以此來確定關于URL的分配方式、關聯(lián)規(guī)則以及相應的關聯(lián)信息生成方案等。接著根據(jù)OAI的存儲特點利用基于URL收集技術來收集元數(shù)據(jù),并把收集結果存儲在本地的元數(shù)據(jù)庫中,然后借助D2R等工具根據(jù)收集結果生成相應的映射文件,從而讓存儲在本地元數(shù)據(jù)庫中的數(shù)據(jù)具有語義關聯(lián)性。根據(jù)上述的原理,圖書、情報以及檔案等資源都可以將OAI-PMH類型元數(shù)據(jù)轉化為具有語義關聯(lián)性,然后利用URL就可以直接訪問元數(shù)據(jù)資源,當然用戶還可以參照SPARQL協(xié)議設定數(shù)據(jù)查詢條件,從而實現(xiàn)針對元數(shù)據(jù)的有效檢索。值得注意的是,一定要針對圖書、情報以及檔案等資源構建專門的OAI數(shù)據(jù)庫,資源需要按照元數(shù)據(jù)的標準統(tǒng)一進行存儲,只有這樣才能夠真正實現(xiàn)關于圖書、情報以及檔案等資源的語義關聯(lián)處理。
4.2 基于語義關聯(lián)的圖書情報檔案數(shù)字資源整合模式
在關聯(lián)開放數(shù)據(jù)項目的推進下,現(xiàn)在已經(jīng)有超過140億的傳統(tǒng)數(shù)據(jù)轉換為具有語義關聯(lián)的數(shù)據(jù)。語義關聯(lián)技術讓圖書、情報以及檔案等數(shù)字資源的相互交流和共享更加便利?,F(xiàn)階段,大部分的政府機構和組織機構已經(jīng)認識到數(shù)字資源整合的重要性,并有意識地利用語義關聯(lián)技術來實現(xiàn)數(shù)字資源整合的目的。當然,圖書、情報以及檔案等資源需要將資源之間的語義關聯(lián)性數(shù)據(jù)存儲起來,因此數(shù)據(jù)存儲服務機構(比如云端服務提供商)將在數(shù)字資源整合服務占有更加重要的地位。
隨著圖書、情報以及檔案等數(shù)字資源的數(shù)據(jù)量不斷增長,急需針對這些數(shù)字資源進行整合,而利用語義關聯(lián)技術以及相應的Web應用框架機制,并通過URL將不同類型數(shù)據(jù)資源進行語義關聯(lián),筆者根據(jù)用戶和系統(tǒng)功能需要嘗試設計一種基于語義關聯(lián)的圖書、情報以及檔案等數(shù)字資源整合模式,具體如圖2所示。
從圖2中不難看出,基于語義關聯(lián)的圖書、情報以及檔案等數(shù)字資源的整合模式主要分為數(shù)據(jù)應用層、數(shù)據(jù)關聯(lián)層以及數(shù)據(jù)發(fā)布層等。具體來講,數(shù)據(jù)應用層的服務對象為SPARQL以及語義關聯(lián)等相似的網(wǎng)絡應用。例如國外數(shù)字圖書館已經(jīng)嘗試開發(fā)資源的語義檢索服務,該服務可以根據(jù)檢索詞關聯(lián)到更多的信息,如關聯(lián)出題名、摘要以及作者等信息,從而為用戶提供更有價值的檢索信息;數(shù)據(jù)關聯(lián)層的服務對象為圖書、情報以及檔案等數(shù)字資源內(nèi)部存在關聯(lián)性,比如一個作者可以有多部著作,一部電影可以有多個制作人等,可以利用RDF技術將這些聯(lián)系進行關聯(lián),形成一個關聯(lián)數(shù)據(jù)網(wǎng)絡,不同的資源利用關聯(lián)數(shù)據(jù)進行鏈接;數(shù)據(jù)發(fā)布層的服務對象為圖書、情報以及檔案等數(shù)字資源,主要以圖像、音頻、視頻以及檔案類資源為代表,設計人員可以將這些數(shù)據(jù)按照語義關聯(lián)的原則進行處理并上傳到網(wǎng)絡中,從而讓用戶可以方便地進行學習和交流。需要注意的是,與傳統(tǒng)的圖書、情報以及檔案等數(shù)字資源不同,在基于語義關聯(lián)的整合模式下的資源都是按照語義關聯(lián)原則進行描述的。
筆者嘗試利用語義關聯(lián)技術來處理圖書、情報以及檔案等數(shù)字資源,借助于語義關聯(lián)的鏈接性針對數(shù)字資源進行有效的組織和整合,還能夠進行數(shù)字資源的深層聯(lián)系挖掘和展示,并在互聯(lián)網(wǎng)平臺上為用戶提供統(tǒng)一、高效的數(shù)字資源整合服務。如今人們對于信息的需求愈加強烈,借助于先進的信息處理技術進行數(shù)字資源整合符合其發(fā)展要求,而語義關聯(lián)技術則為數(shù)字資源整合起到了非常重要的推動作用。
[1]丁楠,潘有能.基于關聯(lián)數(shù)據(jù)的圖書館信息聚合研究[J].圖書與情報,2011(6):50-53.
[2]李琳.關聯(lián)數(shù)據(jù)在圖書館界的應用與挑戰(zhàn)[J].圖書與情報,2011(4):58-61.
[3]劉瑜.當代圖書館信息資源整合的若干模式[J].圖書館雜志,2010(3):8-41.
[4]樓白宇.公共圖書館圖書檔案情報一體化數(shù)字網(wǎng)站的實踐效應[J].蘭臺世界,2013(4):99-100.
[5]賀德方,曾建勛.基于語義的館藏資源深度聚合研究[J].中國圖書館學報,2012(7):79-86.
[6]肖希明,田蓉.國外公共數(shù)字文化資源整合的現(xiàn)狀與發(fā)展趨勢[J].國家圖書館學刊,2014(5):48-56.
[7]徐翠艷.網(wǎng)絡環(huán)境下圖書、情報、檔案一體化建設研究[D].鄭州:鄭州大學,2013.
譚 靜 女,1978年生。學士,館員。研究方向:高校圖書情報、檔案管理。
G250.73
2016-09-29;責編:姚雪梅。)
*本文系2014年天津市教育委員會高等學校人文社會科學研究項目“高校圖書、情報、檔案一體化管理模式研究”(項目編號:20142155)成果。