曹 霞 劉亞麗
(1.黑龍江中醫(yī)藥大學(xué)圖書(shū)館,黑龍江 哈爾濱 150040;2.東北林業(yè)大學(xué)圖書(shū)館,黑龍江 哈爾濱 150040)
隨著大數(shù)據(jù)以及云計(jì)算等技術(shù)的深入發(fā)展,如何更好地運(yùn)用新技術(shù)為機(jī)構(gòu)知識(shí)庫(kù)的發(fā)展提供良好的生態(tài)環(huán)境,是當(dāng)前機(jī)構(gòu)知識(shí)庫(kù)的研究方向之一?,F(xiàn)階段,將機(jī)構(gòu)知識(shí)庫(kù)的內(nèi)部同多種知識(shí)庫(kù)資源實(shí)行連接,是新一代知識(shí)庫(kù)發(fā)展的關(guān)鍵手段,有利于促進(jìn)其個(gè)性化以及知識(shí)化發(fā)展。在這一背景下,對(duì)關(guān)聯(lián)數(shù)據(jù)的運(yùn)用,使其深入發(fā)掘知識(shí)庫(kù)中的潛在價(jià)值,分析資源整合以及知識(shí)服務(wù)的新業(yè)態(tài),這是新一代知識(shí)庫(kù)構(gòu)建以及發(fā)展的關(guān)鍵。
對(duì)于新一代知識(shí)庫(kù)來(lái)說(shuō),它主要是借助集成云計(jì)算以及大數(shù)據(jù)等技術(shù),促進(jìn)機(jī)構(gòu)知識(shí)庫(kù)的研發(fā),從而使其可以為用戶提供較多的服務(wù)支持。在機(jī)構(gòu)知識(shí)庫(kù)中,其底層數(shù)據(jù)來(lái)源的范圍非常廣,其中有WOS、EI、機(jī)構(gòu)文庫(kù)等。而且其數(shù)據(jù)類型也比較多,其中有期刊論文資源、學(xué)位論文資源以及專利等。從內(nèi)部功能來(lái)看,主要是借助數(shù)據(jù)處理流程,針對(duì)學(xué)術(shù)成果來(lái)說(shuō),可以自動(dòng)進(jìn)行更新,有效解決學(xué)者姓名以及機(jī)構(gòu)名稱等拼寫(xiě)錯(cuò)誤,實(shí)現(xiàn)對(duì)機(jī)構(gòu)以及學(xué)者的甄別。與此同時(shí),能夠?qū)W(xué)者以及機(jī)構(gòu)的學(xué)術(shù)產(chǎn)出,實(shí)現(xiàn)準(zhǔn)確地追蹤,還可以完成學(xué)術(shù)評(píng)價(jià)以及同行評(píng)審工作,深化科研合作,加快知識(shí)的傳播,實(shí)現(xiàn)資源共享。從外部功能來(lái)看,主要是借助標(biāo)準(zhǔn)數(shù)據(jù)接口,對(duì)各種服務(wù)進(jìn)行整合,能夠?qū)崿F(xiàn)人事、教學(xué)以及科研管理系統(tǒng)的有機(jī)融合,有利于更好地服務(wù)于機(jī)構(gòu)教學(xué)、管理和科研活動(dòng)。從其服務(wù)功能上來(lái)看,其中包括對(duì)數(shù)據(jù)目標(biāo)的管理,對(duì)機(jī)構(gòu)影響力的評(píng)估以及實(shí)現(xiàn)內(nèi)容自動(dòng)更新等服務(wù)。
1)數(shù)據(jù)與復(fù)合目標(biāo)管理服務(wù)。伴隨學(xué)術(shù)的深入研究,學(xué)術(shù)產(chǎn)出以及形式逐漸豐富起來(lái),這也致使多種形式的學(xué)術(shù)產(chǎn)出,逐漸從科研轉(zhuǎn)到前臺(tái)。其中就有科學(xué)數(shù)據(jù)、軟件以及圖像等。針對(duì)單一內(nèi)容目標(biāo)類型而言,其組織變得非常容易,針對(duì)復(fù)合型的目標(biāo),就要借助關(guān)聯(lián)組織模式,所以該功能就融入了新一代知識(shí)庫(kù),讓其服務(wù)于發(fā)現(xiàn)系統(tǒng)以及數(shù)據(jù)登記。
2)影響力管理服務(wù)。對(duì)于機(jī)構(gòu)知識(shí)庫(kù)來(lái)說(shuō),構(gòu)建的核心目標(biāo)以及作用,是為了強(qiáng)化科研人員和機(jī)構(gòu)的作用,提升他們的影響力,讓科研以及學(xué)術(shù)交流朝向更加多元化的方向發(fā)展,實(shí)現(xiàn)科研以及學(xué)術(shù)的綜合性目標(biāo)。針對(duì)傳統(tǒng)學(xué)術(shù)影響的評(píng)價(jià),大部分都是通過(guò)同行間的評(píng)價(jià),以及對(duì)學(xué)術(shù)的引用來(lái)進(jìn)行評(píng)價(jià)的。當(dāng)前比較盛行的綜合影響力評(píng)價(jià)要素,不但有學(xué)術(shù)引用,還有對(duì)學(xué)術(shù)文獻(xiàn)的下載運(yùn)用和來(lái)自社會(huì)各界的評(píng)價(jià)等。在新一代知識(shí)庫(kù)中,其集成主要有引用的計(jì)量,引用的頻次,科研者的H指數(shù)以及社會(huì)影響力等要素。
1)規(guī)范化描述實(shí)體。想要讓用戶準(zhǔn)確以及迅速地找到他們想要的資源,在新一代知識(shí)庫(kù)中,就結(jié)合了語(yǔ)義化訪問(wèn)服務(wù)。對(duì)此,應(yīng)該規(guī)范化描述實(shí)體,避免HTML格式的描述。機(jī)構(gòu)知識(shí)庫(kù)主要是根據(jù)研究的主題,以及學(xué)科領(lǐng)域來(lái)劃分知識(shí)結(jié)構(gòu)的,在每一個(gè)研究主題以及學(xué)術(shù)領(lǐng)域中,還對(duì)其劃分成多個(gè)專題。針對(duì)專題而言,能夠按照文獻(xiàn)的類型,以及別的索引方式加以組織。在各個(gè)專題內(nèi)容中,有很多類型的數(shù)據(jù)集,其中包括期刊論文、學(xué)位論文以及專利等。
2)語(yǔ)義化資源實(shí)體?;陉P(guān)聯(lián)數(shù)據(jù)的運(yùn)用,在機(jī)構(gòu)知識(shí)庫(kù)中,能夠?qū)崿F(xiàn)語(yǔ)義化資源實(shí)體,為其提供相應(yīng)的前提。主要是結(jié)合實(shí)體目標(biāo)間的聯(lián)系,來(lái)分析機(jī)構(gòu)知識(shí)庫(kù)中有關(guān)實(shí)體目標(biāo)資源的概念,并對(duì)其進(jìn)行明確,深層次地展開(kāi)分析以及描述。在這些資源概念中涉及很多內(nèi)容,有相關(guān)概念以及交叉概念等。對(duì)此,應(yīng)先建立知識(shí)庫(kù)的資源本體,然后再分析概念之間的聯(lián)系,增加類的屬性,進(jìn)而構(gòu)建本體與語(yǔ)義之間的聯(lián)系。與此同時(shí),關(guān)聯(lián)數(shù)據(jù)還能夠促使機(jī)構(gòu)知識(shí)庫(kù)建立更多信息資源,也不完全限制在資源實(shí)體信息中。在這之中,能夠?qū)崿F(xiàn)科研人員、科研成果和所屬機(jī)構(gòu)等信息的增加,還能找到任意信息描述下的數(shù)據(jù)源,給予它們更多分布式數(shù)據(jù)源,在此基礎(chǔ)上加以整合,形成關(guān)聯(lián)訪問(wèn),以便更好地為用戶服務(wù),提供給他們資源發(fā)現(xiàn)服務(wù)。
1)識(shí)別實(shí)體目標(biāo)、抽取實(shí)體關(guān)系。在機(jī)構(gòu)知識(shí)庫(kù)中,關(guān)于實(shí)體目標(biāo)就非常多,且它們之間的關(guān)系也十分復(fù)雜。針對(duì)相同的實(shí)體目標(biāo)以及關(guān)系,想要實(shí)現(xiàn)識(shí)別以及抽取,是非常關(guān)鍵的問(wèn)題。根據(jù)多種關(guān)聯(lián)數(shù)據(jù)源來(lái)說(shuō),將其放在同一個(gè)實(shí)體,比如地名等,通過(guò)多種URI進(jìn)行標(biāo)識(shí),將會(huì)導(dǎo)致其標(biāo)識(shí)的目標(biāo)以及實(shí)體達(dá)不到一致。想要有效優(yōu)化這一問(wèn)題,在設(shè)計(jì)時(shí)可以構(gòu)建一個(gè)將作者和知識(shí)資產(chǎn)作者進(jìn)行排序的程序,主要是利用人工分辨的方式,來(lái)達(dá)到作者及其成果的一致關(guān)系。這個(gè)程序能夠?qū)⒆髡呱蟼鞯綑C(jī)構(gòu)知識(shí)庫(kù)中的內(nèi)容進(jìn)行儲(chǔ)存,然后對(duì)其分配URI標(biāo)識(shí)符,可以實(shí)現(xiàn)自動(dòng)發(fā)送認(rèn)領(lǐng)郵件的目的,接著再讓作者進(jìn)行確認(rèn),來(lái)判斷這個(gè)是否為其作品,并自行選擇排序。雖然這個(gè)方式的效率相對(duì)較低,而且認(rèn)領(lǐng)時(shí)間也比較長(zhǎng),但是從現(xiàn)階段研究層次方面來(lái)看,該方式的效果是非常明顯的,還大幅度地增加了實(shí)體目標(biāo)識(shí)別的準(zhǔn)確度。同時(shí)在機(jī)構(gòu)知識(shí)庫(kù)中,還能夠設(shè)計(jì)別名管理程序,針對(duì)相同的人名實(shí)體,在知識(shí)庫(kù)中還設(shè)立了各種形式的別名,可以有效處理人名實(shí)體的識(shí)別問(wèn)題。做好前期的處理工作,在機(jī)構(gòu)知識(shí)庫(kù)中,抽取實(shí)體目標(biāo)以及關(guān)系,結(jié)合知識(shí)庫(kù)中的元數(shù)據(jù)來(lái)描述字段和關(guān)系,以此為前提加以分析。
2)選取關(guān)聯(lián)數(shù)據(jù)源、映射各種詞表間。對(duì)于機(jī)構(gòu)知識(shí)庫(kù)來(lái)說(shuō),其中的數(shù)據(jù)包括期刊論文資源、教材資源以及會(huì)議論文等資源,想要把其中的元數(shù)據(jù)和外面的關(guān)聯(lián)數(shù)據(jù)連接起來(lái),應(yīng)該科學(xué)選取關(guān)聯(lián)數(shù)據(jù)源,這是非常關(guān)鍵的內(nèi)容?,F(xiàn)階段在互聯(lián)網(wǎng)中關(guān)聯(lián)數(shù)據(jù)是非常多的,但是大部分都為綜合性的公共數(shù)據(jù)集。對(duì)于不同的關(guān)聯(lián)數(shù)據(jù)而言,其來(lái)源也會(huì)通過(guò)各種關(guān)聯(lián)詞表來(lái)實(shí)現(xiàn),想要最大程度地語(yǔ)義化元數(shù)據(jù),為用戶展現(xiàn)更加清晰的數(shù)據(jù)視圖,應(yīng)該對(duì)各種術(shù)語(yǔ)進(jìn)行轉(zhuǎn)換,使其達(dá)到相同的目標(biāo)模式。在進(jìn)行轉(zhuǎn)換時(shí),應(yīng)該按照詞表來(lái)把數(shù)據(jù)進(jìn)行映射,使其成為本地的數(shù)據(jù)模式,除此之外,也應(yīng)該按照人工產(chǎn)生以及數(shù)據(jù)挖掘等方式獲取的映射規(guī)則,在此基礎(chǔ)上實(shí)行轉(zhuǎn)換。
綜上所述,基于機(jī)構(gòu)知識(shí)庫(kù)內(nèi)部,將其與不同知識(shí)庫(kù)資源進(jìn)行有效的融合,有助于更好發(fā)展新一代知識(shí)庫(kù),達(dá)到個(gè)性化服務(wù)的目的?;诖?,應(yīng)當(dāng)積極引入關(guān)聯(lián)數(shù)據(jù)技術(shù),進(jìn)一步挖掘知識(shí)庫(kù)所隱藏的價(jià)值,就新一代知識(shí)庫(kù)的進(jìn)步來(lái)說(shuō),這有著很大的現(xiàn)實(shí)意義。