郝嘉樹 (國(guó)家圖書館 北京 100081)
?
個(gè)人名稱規(guī)范維護(hù)新方法探析
郝嘉樹(國(guó)家圖書館 北京 100081)
[摘 要]我國(guó)采用自上而下、人工操作和封閉的模式影響名稱規(guī)范的維護(hù)能力、效率及規(guī)范控制效果?;谥呓换サ淖砸?guī)范、自動(dòng)人名消歧和開放關(guān)聯(lián)數(shù)據(jù)的個(gè)人名稱規(guī)范維護(hù)方法,借鑒了文獻(xiàn)數(shù)據(jù)庫系統(tǒng)中的著者唯一標(biāo)識(shí)、機(jī)器學(xué)習(xí)領(lǐng)域的自動(dòng)身份辨識(shí)和有效信息源獲取,可改變我國(guó)個(gè)人名稱規(guī)范數(shù)量少、覆蓋范圍受限和數(shù)據(jù)質(zhì)量不高的現(xiàn)狀,解決當(dāng)前名稱規(guī)范模式維護(hù)能力差、效率低下和無法與外界互操作等問題,真正發(fā)揮出名稱規(guī)范控制應(yīng)有的功能及效果。
[關(guān)鍵詞]個(gè)人名稱規(guī)范維護(hù) 自規(guī)范 自動(dòng)人名消歧 開放關(guān)聯(lián)數(shù)據(jù) MARC格式
名稱規(guī)范的重要功能及近幾年越來越傾向于以人為中心的資源組織,使得個(gè)人名稱規(guī)范數(shù)據(jù)維護(hù)成為圖書館信息組織的重要內(nèi)容。目前,國(guó)內(nèi)對(duì)我國(guó)名稱規(guī)范維護(hù)工作問題的探討大多集中于從完善編目格式和規(guī)則的角度提升規(guī)范數(shù)據(jù)質(zhì)量,從多機(jī)構(gòu)聯(lián)合構(gòu)建角度解決數(shù)據(jù)的共享和重用[1-2]。然而,數(shù)據(jù)質(zhì)量的提升如果沒有信息源的有效獲取模式,完善格式和規(guī)則只能成為空殼,并且國(guó)內(nèi)多機(jī)構(gòu)聯(lián)合共建仍為自上而下的維護(hù)模式,并沒有從根本上提高維護(hù)的效率,規(guī)范控制能力仍跟不上資源增長(zhǎng)的速度。
筆者認(rèn)為,當(dāng)前我國(guó)個(gè)人名稱規(guī)范維護(hù)工作的突出問題有:一是面對(duì)海量數(shù)據(jù)資源采用自上而下、由領(lǐng)域內(nèi)少數(shù)權(quán)威機(jī)構(gòu)維護(hù)的模式,使得個(gè)人名稱規(guī)范數(shù)據(jù)質(zhì)量、規(guī)模和范圍受到影響與限制,規(guī)范控制能力跟不上資源增長(zhǎng)的速度;二是面對(duì)大量數(shù)據(jù)和難以獲取有效信息的事實(shí),完全由編目員承擔(dān)個(gè)人名稱規(guī)范維護(hù)工作,出現(xiàn)較多影響規(guī)范控制效果的不完整和白板數(shù)據(jù)①,這種人工維護(hù)的方式耗費(fèi)人力、財(cái)力而又效率偏低;三是網(wǎng)絡(luò)中發(fā)布了大量與人相關(guān)的資源和規(guī)范數(shù)據(jù),我國(guó)名稱規(guī)范數(shù)據(jù)封閉在圖書館環(huán)境內(nèi)無法與已開放數(shù)據(jù)關(guān)聯(lián),阻礙發(fā)現(xiàn)、整合已有資源以擴(kuò)大本地個(gè)人名稱規(guī)范規(guī)模和補(bǔ)充完善自身數(shù)據(jù),另外,數(shù)字化環(huán)境充斥的今日,期刊數(shù)據(jù)庫、網(wǎng)絡(luò)資源等對(duì)人名消歧和辨識(shí)有強(qiáng)烈的需求,然而封閉在圖書館內(nèi)的規(guī)范數(shù)據(jù)卻無法提供給外界使用。
針對(duì)以上問題,本文借鑒文獻(xiàn)數(shù)據(jù)庫系統(tǒng)中的著者唯一標(biāo)識(shí)、機(jī)器學(xué)習(xí)領(lǐng)域的自動(dòng)身份辨識(shí)和有效信息源獲取,提出基于著者交互的自規(guī)范、自動(dòng)人名消歧和開放關(guān)聯(lián)數(shù)據(jù)的個(gè)人名稱規(guī)范維護(hù)方法,并分別對(duì)這些方法進(jìn)行介紹,指出它們可解決的名稱規(guī)范問題,并給出如何實(shí)現(xiàn)維護(hù)的具體方案或做法。
2.1 自規(guī)范模式及相關(guān)應(yīng)用
因?yàn)橹吒私庾陨淼南嚓P(guān)信息和著作,所以采用自下而上、由著者主導(dǎo)的聯(lián)合共建模式,是提升個(gè)人名稱規(guī)范數(shù)據(jù)質(zhì)量、規(guī)模和范圍的途徑與方法。本文將無需外界指令而由著者自發(fā)和協(xié)同地實(shí)現(xiàn)個(gè)人信息生成和完善,以及不同人辨識(shí)的過程稱為自規(guī)范。自規(guī)范是一種自下而上、去中心化的由著者主導(dǎo)的聯(lián)合共建模式,由著者協(xié)同地維護(hù)個(gè)人名稱規(guī)范數(shù)據(jù)。
著者交互的自規(guī)范可解決自上而下維護(hù)模式的問題,具體表現(xiàn)在:一是廣泛的著者參與能消除自上而下維護(hù)的局限,擴(kuò)大個(gè)人名稱規(guī)范數(shù)據(jù)的規(guī)模和范圍;二是著者熟悉自身情況,能準(zhǔn)確辨識(shí)規(guī)范庫中的個(gè)人身份,區(qū)分同名著者,發(fā)現(xiàn)由更名、別名構(gòu)建的重復(fù)記錄;三是添加和修改生卒年、研究領(lǐng)域、相關(guān)作品、所在機(jī)構(gòu)等信息,可完善名稱規(guī)范數(shù)據(jù),提高個(gè)人名稱規(guī)范數(shù)據(jù)質(zhì)量。
自規(guī)范應(yīng)用出現(xiàn)在文獻(xiàn)數(shù)據(jù)庫系統(tǒng),這些系統(tǒng)大都由著者填寫自身及相關(guān)學(xué)術(shù)信息并進(jìn)行注冊(cè),系統(tǒng)會(huì)為每個(gè)著者分配一個(gè)唯一標(biāo)識(shí)符(Identifier),如Research ID[3]、Scopus Author ID[4]和arXiv Author ID[5]等。該做法可有效消除姓名拼寫方式混淆和重名問題,但只局限在某一范圍或系統(tǒng)內(nèi),整體上還是削弱了著者標(biāo)識(shí)符辨識(shí)度,同時(shí)系統(tǒng)間的分割導(dǎo)致了同一著者多次注冊(cè)、多入口操作和有多個(gè)標(biāo)識(shí)符。針對(duì)以上情況,近幾年出現(xiàn)了ORCID(Open Researcher and Contributor Identifier,開放研究者與貢獻(xiàn)者身份),目的是解決各系統(tǒng)間著者姓名混淆和識(shí)別問題。ORCID在兼容性和互操作方面進(jìn)行嘗試,建立與各系統(tǒng)著者標(biāo)識(shí)符的關(guān)聯(lián),并將著者相關(guān)信息和科研情況聚合起來;同時(shí)不受學(xué)科、機(jī)構(gòu)和地理的限制,免費(fèi)向全球?qū)W術(shù)界開放并提供服務(wù)[6],這種擴(kuò)大數(shù)據(jù)和服務(wù)范圍的做法真正起到了不同著者唯一身份辨識(shí)的作用。
2.2 基于自規(guī)范的個(gè)人名稱規(guī)范維護(hù)
個(gè)人名稱規(guī)范維護(hù)可借鑒自規(guī)范相關(guān)應(yīng)用,以搭建網(wǎng)絡(luò)平臺(tái)為渠道,通過著者辨識(shí)、修改、合并和新增等參與形式達(dá)到維護(hù)個(gè)人名稱規(guī)范數(shù)據(jù)的目的。構(gòu)建自規(guī)范平臺(tái)要重點(diǎn)實(shí)現(xiàn)以下3方面:
(1)在數(shù)據(jù)維護(hù)方面,著者新增或修改的信息項(xiàng)包括別名、更名、出生年月、所在機(jī)構(gòu)、發(fā)表文獻(xiàn)情況、研究興趣、教育程度、工作單位和開展項(xiàng)目等,平臺(tái)構(gòu)建者需將其與規(guī)范數(shù)據(jù)MARC格式建立映射,用以自動(dòng)完善個(gè)人名稱規(guī)范數(shù)據(jù)附加成分、單純參照等相關(guān)字段,并能將著者在平臺(tái)新建的數(shù)據(jù)批量轉(zhuǎn)化為圖書館規(guī)范記錄,從而大幅提高個(gè)人名稱規(guī)范數(shù)據(jù)的維護(hù)效率。
(2)在系統(tǒng)設(shè)計(jì)方面,通過技術(shù)手段和友好性設(shè)計(jì)降低著者參與的復(fù)雜度。平臺(tái)構(gòu)建者需規(guī)避專業(yè)的MARC格式,設(shè)計(jì)新增、修改、合并模板并內(nèi)嵌到系統(tǒng)內(nèi),通過著者參與挖掘頭腦里有關(guān)人的事實(shí)信息來新建、修改和補(bǔ)充個(gè)人記錄。除此之外,以易于理解的形式和語言幫助著作開展相關(guān)操作,同名規(guī)范數(shù)據(jù)的展示要利于其辨識(shí),盡量采取客觀形式完成信息項(xiàng)的填寫。
(3)在參與度方面,要增強(qiáng)著者粘性。只維護(hù)數(shù)據(jù)難以提高著者的參與興趣,平臺(tái)構(gòu)建者應(yīng)設(shè)計(jì)相關(guān)功能來增強(qiáng)著者參與的驅(qū)動(dòng)力,如開發(fā)個(gè)人科研管理模塊以自動(dòng)導(dǎo)入和生成科研成果,幫助著者發(fā)現(xiàn)開展相似項(xiàng)目的合著者等;同時(shí)與出版界、科研機(jī)構(gòu)、學(xué)術(shù)界等開展合作,他們對(duì)科研產(chǎn)出者有準(zhǔn)確識(shí)別和名稱消歧的需要,通過這些切合點(diǎn)帶動(dòng)更多的科研產(chǎn)出者參與到自規(guī)范中,從而擴(kuò)大個(gè)人名稱規(guī)范維護(hù)和控制的范圍和能力。
我國(guó)存在大量未能顯著區(qū)分的同名個(gè)人名稱規(guī)范數(shù)據(jù),該類數(shù)據(jù)在維護(hù)和書目掛接時(shí)需要人工逐條分析、比對(duì)和辨別,嚴(yán)重影響編目員的工作效率,成為個(gè)人名稱規(guī)范維護(hù)和控制中的突出問題。自動(dòng)人名消歧可彌補(bǔ)人工維護(hù)的不足,利用相關(guān)方法和技術(shù)自動(dòng)區(qū)分重名著者和聚合著者別名作品,從而實(shí)現(xiàn)個(gè)人名稱規(guī)范維護(hù)及控制。另外,受圖書館傳統(tǒng)維護(hù)模式與方法的影響,我國(guó)名稱規(guī)范控制工作局限于專著領(lǐng)域,而數(shù)字圖書館、網(wǎng)絡(luò)資源和期刊數(shù)據(jù)庫等對(duì)名稱規(guī)范控制有強(qiáng)烈的訴求,自動(dòng)人名消歧非常適用于網(wǎng)絡(luò)和數(shù)字環(huán)境,有快速區(qū)分海量數(shù)據(jù)著者及其作品的能力,更好地適應(yīng)不斷擴(kuò)大的數(shù)字化趨勢(shì)。
3.1 基于著作文體的辨識(shí)
文體學(xué)是用統(tǒng)計(jì)學(xué)中定量方法來分析著者寫作風(fēng)格的一種學(xué)科。著者都具有自己特定的寫作習(xí)慣和風(fēng)格,這種無意識(shí)和根深蒂固的寫作習(xí)慣和風(fēng)格會(huì)在所寫的著作中通過各種特征表現(xiàn)出來。因此,計(jì)算機(jī)可以通過統(tǒng)計(jì)特征來分析著者寫作風(fēng)格,從而能快速區(qū)分同名著者作品、聚合同人異名作品。
首先,著者文體識(shí)別需要提取出能代表著者文體風(fēng)格的識(shí)別特征(Identification Attributes),并根據(jù)這些特征評(píng)估作品之間文體風(fēng)格的相似程度。能有效區(qū)分著者文體的識(shí)別指標(biāo)可歸類為4個(gè)方面(見表1)[7-8]。其中,詞匯和句法特征中詞、標(biāo)點(diǎn)符號(hào)和功能詞等的使用情況可以體現(xiàn)著者的寫作特點(diǎn)和風(fēng)格;結(jié)構(gòu)特征反映著者如何組織整個(gè)篇章結(jié)構(gòu),不同著者對(duì)整體文本的呈現(xiàn)有不同偏好;內(nèi)容特征體現(xiàn)著者感興趣的主題類別。
表1 文體風(fēng)格識(shí)別指標(biāo)
其次,著者文體識(shí)別需設(shè)計(jì)各識(shí)別指標(biāo)的統(tǒng)計(jì)方法或公式。詞匯特征中,基于字的特征中各平均數(shù)指標(biāo)分別用總數(shù)字個(gè)數(shù)、總字母?jìng)€(gè)數(shù)、總空格數(shù)、每個(gè)特殊字符數(shù)除以總字?jǐn)?shù)得出,而平均每句字?jǐn)?shù)用總字?jǐn)?shù)除以句子數(shù)得到;基于詞的特征提取要進(jìn)行中文分詞,可利用已有成熟的分詞軟件,平均詞長(zhǎng)用總字?jǐn)?shù)除以總詞數(shù),平均每句中的字?jǐn)?shù)和詞數(shù)分別用總字?jǐn)?shù)和總詞數(shù)除以句子數(shù)獲??;句法特征中,通過統(tǒng)計(jì)標(biāo)點(diǎn)符號(hào)、功能詞和詞性的使用頻率來判斷著者的寫作風(fēng)格;結(jié)構(gòu)特征中平均每段的句、詞、字?jǐn)?shù)分別用總句數(shù)、詞數(shù)和字?jǐn)?shù)除以段落數(shù)獲得;內(nèi)容特征主要抽取能表達(dá)主題的關(guān)鍵詞,可通過TF-IDF、詞頻、互信息等方法提取。
3.2 基于著作外部特征的辨識(shí)
基于著作外部特征的辨識(shí)是利用著者的合著者、題名、研究方向、關(guān)鍵詞、出版物名稱及類型、著者機(jī)構(gòu)、引文和分類號(hào)等作為特征,使用機(jī)器學(xué)習(xí)中的相似度計(jì)算、自動(dòng)分類及自動(dòng)聚類等方法,將重名著者中同一人的作品聚合在一起,而將不同人的作品分開的過程,可利用該方法自動(dòng)區(qū)分重名著者和聚合同人別名著者的作品,達(dá)到個(gè)人名稱規(guī)范維護(hù)及控制的目的。
(1)算法介紹
基于著作外部特征的辨識(shí)包括著者分組法和著者分配法。著者分組法通過相似度函數(shù)計(jì)算文獻(xiàn)屬性的相似度值從而將同一著者的作品集合到一起,其中值越高代表文獻(xiàn)之間的相似度越高,表明為同一著者所著的可能性就越大。計(jì)算相似度包含兩種算法:預(yù)定義相似度函數(shù)是在算法中植入預(yù)先定義的函數(shù)或公式,如余弦相似函數(shù)、TFIDF、Levenshtein距離和Jaccard公式等[9];基于學(xué)習(xí)的相似度函數(shù)需要訓(xùn)練數(shù)據(jù)集②來標(biāo)注各個(gè)文獻(xiàn)是否屬于同一著者,然后在此基礎(chǔ)上生成精確的相似度函數(shù)來區(qū)分同名作品[10-11]。
著者分配法構(gòu)建著者模型,將作品分配給不同的著者,包括分類和聚類兩類方法。分類法需要準(zhǔn)備訓(xùn)練數(shù)據(jù)集,即用相關(guān)特征與正確著者關(guān)聯(lián)以幫助訓(xùn)練生成消歧函數(shù),之后用該函數(shù)對(duì)作品集合選擇分類算法進(jìn)行分配[12-13];聚類方法通過構(gòu)建著者的數(shù)學(xué)模型,直接選擇相應(yīng)的聚類算法,如劃分法、層次法、基于密度的方法和基于網(wǎng)格的方法等將作品分配給所屬的著者[14-15]。
(2)算法選用
著者分組法針對(duì)只有一個(gè)同名著者而有多個(gè)作品的情況,通過計(jì)算作品之間的相似度聚合同一著者的作品;著者分配法適合有多個(gè)同名著者且有多個(gè)作品的情況,區(qū)分同名異人的作品,聚合同人異名的作品。
著者分組法包含的兩種方法各有優(yōu)劣,在區(qū)分同名著者作品時(shí),要根據(jù)自身數(shù)據(jù)情況選擇合適的算法?;趯W(xué)習(xí)的相似度函數(shù)對(duì)不同數(shù)據(jù)集都有好的區(qū)分結(jié)果,但是需要大量的例子和充足的特征,構(gòu)建費(fèi)時(shí)費(fèi)力;預(yù)定義函數(shù)不需要訓(xùn)練數(shù)據(jù)集,但是面對(duì)不同的集合需要調(diào)整新的函數(shù)來適應(yīng)。對(duì)于已有訓(xùn)練數(shù)據(jù)集基礎(chǔ)、易構(gòu)建的情況,可考慮采用基于學(xué)習(xí)的相似度函數(shù)方法,否則可采用高效的預(yù)定義函數(shù),嵌入較多的預(yù)定義函數(shù)以增強(qiáng)對(duì)數(shù)據(jù)的適應(yīng)性。
著者分配法中,分類方法有較高的準(zhǔn)確度,但需人工構(gòu)建訓(xùn)練數(shù)據(jù)集,面對(duì)海量數(shù)據(jù)進(jìn)行人工標(biāo)注的工作量巨大,限制了該方法在自動(dòng)人名消歧中的應(yīng)用。聚類方法不需要訓(xùn)練數(shù)據(jù)集,適用性較高,是當(dāng)前自動(dòng)人名消歧的主流方法,但預(yù)先設(shè)定聚類個(gè)數(shù)、判斷數(shù)據(jù)分布特征等做法影響準(zhǔn)確性,因此EM算法和Gibbs抽樣可彌補(bǔ)一般聚類算法的不足。
4.1 去除MARC格式
MARC格式是制約當(dāng)前圖書館資源開放利用的最大障礙。隨著技術(shù)的發(fā)展和信息環(huán)境的改變,讀者利用圖書館資源的對(duì)象和方式發(fā)生巨大變化,MARC格式的種種局限在網(wǎng)絡(luò)時(shí)代越來越成為絆腳石:一方面在技術(shù)上,圖書館的MARC記錄雖然可以通過互聯(lián)網(wǎng)查詢,但是ISO2709格式依然作為其交換格式,除了按照C/S時(shí)代研發(fā)的Z39.50標(biāo)準(zhǔn)開放的API接口之外,基本沒有其他互操作方式;另一方面在領(lǐng)域上,網(wǎng)絡(luò)上充斥的錯(cuò)誤、冗余和虛假信息需要規(guī)范控制,而MARC因其領(lǐng)域上的封閉性已無法滿足這種需求。MARC格式的數(shù)據(jù)被牢牢“圈養(yǎng)”在各個(gè)圖書館的OPAC范圍內(nèi),缺乏方便生成一個(gè)國(guó)家或地區(qū)的聯(lián)合數(shù)據(jù)的技術(shù)和能力,更不用說開放給整個(gè)社會(huì)使用[16]。
名稱規(guī)范發(fā)布為開放關(guān)聯(lián)數(shù)據(jù),是采用RDF格式將封閉在圖書館由MARC格式表示的名稱規(guī)范數(shù)據(jù)開放到Web上,通過定義能用于識(shí)別名稱規(guī)范的詞匯集以實(shí)現(xiàn)唯一標(biāo)識(shí),并借助這些詞匯建立相關(guān)名稱標(biāo)識(shí)的自動(dòng)語義鏈接,實(shí)現(xiàn)與其他系統(tǒng)數(shù)據(jù)的互操作以及無縫訪問和獲取多來源、異構(gòu)資源,具體表現(xiàn)在:
(1)我國(guó)名稱規(guī)范控制工作局限于專著領(lǐng)域,名稱規(guī)范通過獲取來源于期刊數(shù)據(jù)庫、網(wǎng)絡(luò)和他國(guó)信息源的開放關(guān)聯(lián)數(shù)據(jù),能夠擴(kuò)展本地名稱規(guī)范數(shù)據(jù)種類、范圍和規(guī)模[17]。
(2)完善和提升本地?cái)?shù)據(jù)質(zhì)量。本地規(guī)范記錄可通過URI(Uniform Resource Identifier,統(tǒng)一資源標(biāo)識(shí)符)和詞匯集的關(guān)聯(lián)自動(dòng)發(fā)現(xiàn)和整合開放數(shù)據(jù)集合中特定人的相關(guān)信息,可用來完善自身附加成分、單純參照和信息附注,提高個(gè)人名稱規(guī)范數(shù)據(jù)質(zhì)量。除此之外, skos:related等詞匯挖掘與該規(guī)范記錄相關(guān)的人和機(jī)構(gòu)等從而幫助構(gòu)建個(gè)人名稱規(guī)范數(shù)據(jù)的相關(guān)參照。
(3)圖書館高質(zhì)量的規(guī)范數(shù)據(jù)在語義網(wǎng)環(huán)境下開放,可以被外部檢索使用,能夠促進(jìn)對(duì)分布異構(gòu)式網(wǎng)絡(luò)發(fā)揮規(guī)范控制作用。
4.2 基于開放關(guān)聯(lián)數(shù)據(jù)的個(gè)人名稱規(guī)范維護(hù)
基于開放關(guān)聯(lián)數(shù)據(jù)的個(gè)人名稱規(guī)范維護(hù)涉及到管理策略和具體實(shí)現(xiàn)。機(jī)構(gòu)首先要制定相關(guān)管理策略,包括開放哪些數(shù)據(jù),在技術(shù)和人力方面的支持、準(zhǔn)備和管理等。在實(shí)施初期可以分階段逐步推進(jìn),在實(shí)現(xiàn)規(guī)范數(shù)據(jù)自身開放的基礎(chǔ)上,逐漸實(shí)現(xiàn)與其他資源的互操作。
實(shí)現(xiàn)基于開放關(guān)聯(lián)數(shù)據(jù)的個(gè)人名稱規(guī)范維護(hù)的措施具體有以下3方面:
(1)用URI標(biāo)識(shí)規(guī)范記錄
URI形式穩(wěn)定,和規(guī)范記錄是固定關(guān)系,因此無論何種環(huán)境都可用URI來表示該規(guī)范記錄,避免由名稱表示人名帶來的種種歧義[18]。用戶通過HTTP URI訪問來實(shí)現(xiàn)對(duì)數(shù)據(jù)的參引(Dereference,即查找和獲?。?。
(2)個(gè)人名稱規(guī)范數(shù)據(jù)的語義描述
名稱規(guī)范數(shù)據(jù)的語義描述就是將名稱規(guī)范數(shù)據(jù)MARC格式轉(zhuǎn)換為RDF表達(dá)形式,即通過“主體-謂詞-客體”三元組(Triple)描述著者規(guī)范中各項(xiàng)內(nèi)容[19]。
建立個(gè)人名稱規(guī)范數(shù)據(jù)MARC格式字段及子字段對(duì)應(yīng)的RDF詞匯映射表,方便計(jì)算機(jī)自動(dòng)批量實(shí)現(xiàn)名稱規(guī)范數(shù)據(jù)的語義化描述。為保證共享和重用,數(shù)據(jù)在轉(zhuǎn)化過程中要盡量利用已標(biāo)準(zhǔn)化和成熟的詞匯集描述,避免自造新詞匯,并根據(jù)中文人名的特點(diǎn),采用SKOS(Simple Knowledge Organization System,簡(jiǎn)單知識(shí)組織系統(tǒng))[20]、Schema. org[21]和FOAF(Friend of a Friend,朋友的朋友)[22]已有詞匯組合定義中文人名規(guī)范數(shù)據(jù)的語義描述詞匯集,如表2所示。
表2 RDF詞匯與名稱規(guī)范MARC格式映射表
(3)與其他數(shù)據(jù)集建立關(guān)聯(lián)
建立與其他外部數(shù)據(jù)集的廣泛關(guān)聯(lián),便于本地?cái)?shù)據(jù)在不同數(shù)據(jù)集跳轉(zhuǎn),幫助本地?cái)?shù)據(jù)發(fā)現(xiàn)、重用已有資源來擴(kuò)大本地規(guī)范規(guī)模和完善自身數(shù)據(jù)。目前可選擇關(guān)聯(lián)的與人相關(guān)的開放數(shù)據(jù)有:VIAF(Virtual International Authority File,虛擬國(guó)際規(guī)范文檔)和NACO(Name Authority Cooperative Program,名稱規(guī)范合作項(xiàng)目)都聯(lián)合了多國(guó)的名稱規(guī)范數(shù)據(jù);BIO本體描述關(guān)于人的傳記類信息,包括出生日期、職業(yè)、事件、地點(diǎn)等信息;Wikipedia可定位關(guān)于人的百科文章;FOAF對(duì)人及其所關(guān)聯(lián)的社會(huì)網(wǎng)絡(luò)進(jìn)行描述;Organization本體描述機(jī)構(gòu),包括成員、角色和活動(dòng)等信息[23]。
關(guān)聯(lián)其他數(shù)據(jù)源雖然可通過匹配算法實(shí)現(xiàn),仍需要人工修正,因此并不是要關(guān)聯(lián)任何來源數(shù)據(jù),而是根據(jù)一定的標(biāo)準(zhǔn)來選擇:一是該資源被廣泛參考引用,二是該資源信息豐富,可用來完善本地?cái)?shù)據(jù)。
我國(guó)名稱規(guī)范維護(hù)中的突出問題希望能引起相關(guān)機(jī)構(gòu)的關(guān)注及重視,采用相關(guān)方法和措施幫助改善我國(guó)名稱規(guī)范維護(hù)能力和效率較低下、數(shù)據(jù)質(zhì)量不高的現(xiàn)狀,真正發(fā)揮出名稱規(guī)范控制應(yīng)有的功能及效果。
注 釋:
①白板數(shù)據(jù)為只有著者姓名而無其他信息的數(shù)據(jù)。
②訓(xùn)練數(shù)據(jù)集屬于機(jī)器學(xué)習(xí)中語料庫的范疇,通過其可獲得相關(guān)參數(shù)以提高準(zhǔn)確性。
參考文獻(xiàn) :
[1]曹玉強(qiáng).國(guó)家圖書館中文名稱規(guī)范的探討[J].圖書館建設(shè),2007 (3):46-48.
[2]謝琴芳. CALIS中文名稱規(guī)范數(shù)據(jù)庫建設(shè)方案及其實(shí)施進(jìn)展[J].新世紀(jì)圖書館, 2005(1):3-6.
[3]Research ID[EB/OL]. [2015-08-27]. http://www.researchid.com/.
[4]Scopus Author Identifier [EB/OL]. [2015-08-27]. http://help. scopus.com/Content/h_autsrch_intro.htm.
[5]Author Identifiers[EB/OL]. [2015-08-27]. http://arxiv.org/help/ author_identifiers.
[6]What is ORCID[EB/OL]. [2015-09-18]. http://orcid.org/content/ initiative.
[7]呂英杰, 范 靜, 劉景方. 基于文體學(xué)的中文UGC作者身份識(shí)別研究[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2013,29(9):48-53.
[8]Baayen H, Halteren H V, Neijt A, et al. An Experiment in Authorship Attribution[C]// In Proceedings of the 6th International Conference on Statistical Analysis of Textual Data. Saint Malo:LED, 2002:29-37.
[9]Soler M. Separating the Articles of Authors with the Same Name[J]. Scientometrics, 2007,72(2):281-290.
[10]Torvik V I, Smalheiser N R. Author Name Disambiguation in MEDLINE[J]. ACM TKDD, 2009,3(3):1-29.
[11]Ferreira A A, Goncalves M A. Laender A H F. A Brief Survey of Automatic Methods for Author Name Disambiguation[J]. SIGMOD Record, 2012,41(2):15-26.
[12]郭 舒. 文獻(xiàn)數(shù)據(jù)庫中作者名自動(dòng)化消歧方法應(yīng)用研究[J]. 情報(bào)雜志, 2013,32(9):132-137.
[13]Han Hui, Zha Hongyuan, Giles C L. Name Disambiguation in Author Citations Using a K-Way Spectral Clustering Method [C]// In Proceedings of the 5th ACM/IEEE-CS Joint Conference on Digital Libraries. New York: ACM, 2005:334-343.
[14]任景華. 利用優(yōu)化的DBSCAN算法進(jìn)行文獻(xiàn)著者人名消歧[J].圖書館理論與實(shí)踐, 2014(12):62-68.
[15]Tang Jie, Fong A C M, Wang Bo, et al. A Unified Probabilistic Framework for Name Disambiguation in Digital Library[J]. Knowledge and Data Engineering, 2012,24(6):975-987.
[16]劉 煒.書目數(shù)據(jù)新格式BIBFRAME及其應(yīng)用[J]. 大學(xué)圖書館學(xué)報(bào), 2014(1):5-13.
[17]Ilik V. Cataloger & Makeover: Creating Non-MARC Name Authorities[J]. Cataloging & Classification Quarterly, 2015(53): 382-398.
[18]Report for PCC Task Group on the Creation and Function of Name Authorities in a Non-MARC Environment[EB/OL]. [2015-09-27]. http://www.loc.gov/aba/pcc/rda/RDA%20Task% 2 0grou ps%2 0 and%2 0char ges/R epor t P CC T Gon NameAuthInA_NonMARC_Environ_FinalReport.pdf.
[19]Schreiber G, Raimond Y. PDF 1.1 Primer[EB/OL]. [2015-06-07]. http://www.w3.org/TR/rdf11-primer/.
[20]Simple Knowledge Organization System Reference [EB/OL]. [2015-09-18]. http://www.w3.org/TR/2009/REC-skosreference-20090818/.
[21]Person[EB/OL]. [2015-09-18]. http://schema.org.cn/Person.
[22]Dan B, Libby M. FOAF Vocabulary Specification 0.99[EB/OL]. [2015-09-18]. http://xmlns.com/foaf/spec/.
[23]賈君枝. 開放書目數(shù)據(jù)的實(shí)現(xiàn)與發(fā)展[J]. 晉學(xué)圖刊, 2015(1): 1-4.
Study on the New Methods of Personal Name Authority Maintenance
[Key words]Personal name authority maintenance; Self-authority; Automatic author name disambiguation; Open linked data; Non-MARC
[Abstract]Top-down, artificial and closed maintenance mode in our country have seriously affected the name authority maintenance's ability and efficiency, and also affected the effect of authority control. Personal name authority maintenance methods of self-authority based on author interaction, automatic author name disambiguation and open linked data draw the lessons from the contributor identifier in the document database system, automatic authorship identification of machine learning domain and effective information source acquisition, change the status of less quantity, limited coverage and low quality of data in China, resolve the problems of name authority maintenance mode, such as poor maintenance capacity, low efficiency and unable to operate with the outside world, which developing function and effect of the name authority control.
[中圖分類號(hào)]G254
[文獻(xiàn)標(biāo)識(shí)碼]A
[作者簡(jiǎn)介]
郝嘉樹 女,1983年生,現(xiàn)工作于國(guó)家圖書館,館員,已發(fā)表論文5篇,參與編寫著作5部。
[ 收稿日期:2015-10-13 ]