国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

開(kāi)放引文語(yǔ)料庫(kù)實(shí)踐案例及啟示*

2017-08-07 09:45:52宋丹輝
數(shù)字圖書(shū)館論壇 2017年7期
關(guān)鍵詞:書(shū)目本體文檔

宋丹輝

(河南科技大學(xué)圖書(shū)館,洛陽(yáng) 471023)

開(kāi)放引文語(yǔ)料庫(kù)實(shí)踐案例及啟示*

宋丹輝

(河南科技大學(xué)圖書(shū)館,洛陽(yáng) 471023)

開(kāi)放引文數(shù)據(jù)作為一種新的開(kāi)放關(guān)聯(lián)數(shù)據(jù),在國(guó)外已取得長(zhǎng)足發(fā)展,而在國(guó)內(nèi)還未開(kāi)始建設(shè)。為縮小差距,本文以國(guó)外已發(fā)揮重要作用的開(kāi)放引文項(xiàng)目為學(xué)習(xí)案例,深入分析其在數(shù)據(jù)規(guī)模、技術(shù)路線、元數(shù)據(jù)模型和工作流程方面的建設(shè)與實(shí)踐,詳細(xì)闡述其在解決引文數(shù)據(jù)不易獲取、不一致、語(yǔ)義缺乏等問(wèn)題的方法與特征,并從發(fā)展理念、關(guān)鍵步驟等方面總結(jié)經(jīng)驗(yàn),以期為我國(guó)引文數(shù)據(jù)開(kāi)放關(guān)聯(lián)建設(shè)提供建議。

引文數(shù)據(jù);開(kāi)放關(guān)聯(lián);開(kāi)放引文語(yǔ)料庫(kù)

1 引言

引文數(shù)據(jù)是學(xué)術(shù)交流的重要元素,也是引文分析的基礎(chǔ),但來(lái)源受限,大多存儲(chǔ)在Web of Science、Scopus等少數(shù)幾個(gè)商業(yè)引文數(shù)據(jù)庫(kù)中,較難免費(fèi)獲取。Web of Science由美國(guó)科學(xué)家尤金·加菲爾德于1964年創(chuàng)建的科學(xué)引文索引發(fā)展而來(lái),其主要商業(yè)對(duì)手是Scopus。二者都具有覆蓋學(xué)科范圍廣、文獻(xiàn)類(lèi)型多樣、引文數(shù)據(jù)豐富的特點(diǎn)。為訪問(wèn)其中資源,用戶(hù)需花費(fèi)巨額經(jīng)費(fèi),還要遵守嚴(yán)格的保密協(xié)議。一些免費(fèi)資源平臺(tái)如Google Scholar、Microsoft Academic Search、百度學(xué)術(shù)、必應(yīng)學(xué)術(shù)等,雖然支持文獻(xiàn)引用統(tǒng)計(jì)、生成不同格式引文,或通過(guò)軟件導(dǎo)出等,但都制定有嚴(yán)格的使用條款,用戶(hù)無(wú)法進(jìn)行大規(guī)模引文數(shù)據(jù)采集,從而無(wú)法自動(dòng)構(gòu)建引文網(wǎng)絡(luò),開(kāi)展計(jì)量、評(píng)價(jià)或智能化分析等研究[1-2]。

針對(duì)上述問(wèn)題,業(yè)界提出兩種不同的解決方案:一是引文數(shù)據(jù)開(kāi)放存取。隨著一系列研究報(bào)告及政府公文的發(fā)布,推行開(kāi)放存取政策已成為業(yè)界共識(shí),學(xué)者也將研究重點(diǎn)逐漸聚焦到實(shí)施效果上。實(shí)踐表明,將論文和數(shù)據(jù)以開(kāi)放存取方式發(fā)布會(huì)提升其引用次數(shù)和學(xué)術(shù)影響力[3-6]。鑒于此,有學(xué)者嘗試引文數(shù)據(jù)的開(kāi)放存取[7],以便于科研人員順利追蹤引用軌跡、深入開(kāi)展科研工作,并促進(jìn)在線論文的發(fā)現(xiàn)、討論和引用。二是把引文數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù),借助URI規(guī)范,通過(guò)HTTP/URI機(jī)制鏈接到以RDF/XML編碼的相關(guān)數(shù)據(jù)對(duì)象,從而實(shí)現(xiàn)富鏈接和富語(yǔ)義效果,這不僅有助于發(fā)現(xiàn)高被引論文、糾正錯(cuò)誤引文數(shù)據(jù),還有助于開(kāi)發(fā)新的智能應(yīng)用。

隨著開(kāi)放存取運(yùn)動(dòng)及科學(xué)數(shù)據(jù)管理研究的不斷發(fā)展和深入,開(kāi)放引文逐漸得到越來(lái)越多的關(guān)注,開(kāi)放引文數(shù)據(jù)庫(kù)也逐漸受到科研人員的重視,如開(kāi)放引文項(xiàng)目(Open Citations Project,OCP)[8]和Dryad數(shù)據(jù)庫(kù)[9]。前者由英國(guó)聯(lián)合信息系統(tǒng)委員會(huì)資助,于2010年啟動(dòng),旨在改變?nèi)驅(qū)W術(shù)交流和學(xué)術(shù)出版的現(xiàn)狀,促進(jìn)引文數(shù)據(jù)開(kāi)放。該項(xiàng)目遵循CC協(xié)議,并以RDF格式出版書(shū)目引用信息,使得人們能夠自由查看、研究、重用及豐富引文數(shù)據(jù),不受任何限制地遍歷引文鏈接。后者由美國(guó)國(guó)家科學(xué)基金會(huì)資助,于2008年9月啟動(dòng),旨在存放優(yōu)質(zhì)數(shù)據(jù)資源,并促使科技文獻(xiàn)中的數(shù)據(jù)發(fā)現(xiàn)和再利用。Dryad數(shù)據(jù)庫(kù)通過(guò)聯(lián)合學(xué)術(shù)團(tuán)體、出版社、研究機(jī)構(gòu)、教育機(jī)構(gòu)、基金資助機(jī)構(gòu)等構(gòu)建學(xué)術(shù)交流體系,以促進(jìn)學(xué)術(shù)文獻(xiàn)中基礎(chǔ)科研數(shù)據(jù)的保護(hù)和再利用。目前,Dryad雖然已被許多主流期刊采納,但其特色主要體現(xiàn)在規(guī)范數(shù)據(jù)引用格式上,相較于OCP的主要成果——開(kāi)放引文語(yǔ)料庫(kù)(Open Citations Corpus,OCC),其在數(shù)據(jù)關(guān)聯(lián)方面還存在很大差距[10]。此外,英國(guó)南安普頓大學(xué)、美國(guó)康奈爾大學(xué)及arXiv網(wǎng)站也于1999—2002年共同開(kāi)展了“開(kāi)放引文計(jì)劃”,但由于各種原因目前已經(jīng)無(wú)法使用。

截至目前,鮮有文獻(xiàn)針對(duì)“開(kāi)放引文項(xiàng)目”的技術(shù)路線、工作流程等進(jìn)行研究。鑒于此,本文以O(shè)CP為切入點(diǎn),討論引文數(shù)據(jù)開(kāi)放關(guān)聯(lián)過(guò)程中面臨的問(wèn)題、可能的解決方案,并總結(jié)經(jīng)驗(yàn)教訓(xùn),以期為我國(guó)引文數(shù)據(jù)開(kāi)放關(guān)聯(lián)提供參考。

2 OCC的建設(shè)實(shí)踐

引文數(shù)據(jù)是書(shū)目數(shù)據(jù)的子集,書(shū)目數(shù)據(jù)開(kāi)放關(guān)聯(lián)的成功經(jīng)驗(yàn)可以為引文數(shù)據(jù)提供參考,基于開(kāi)放獲取和關(guān)聯(lián)數(shù)據(jù)進(jìn)行引文數(shù)據(jù)開(kāi)放關(guān)聯(lián)的探索逐漸提上日程,主要的開(kāi)放引文項(xiàng)目代表是OCP,其主要成果為OCC[11]。OCC遵循CC協(xié)議,提供從學(xué)術(shù)文獻(xiàn)中抽取的、用語(yǔ)義出版和引用本體(Semantic Publishing and Referencing Ontologies,SPAR)描述的、與OCC元數(shù)據(jù)模型一致的、準(zhǔn)確的書(shū)目引用信息,用戶(hù)可自由地對(duì)這些書(shū)目信息進(jìn)行構(gòu)建、拓展、豐富和重用,不受任何知識(shí)產(chǎn)權(quán)或數(shù)據(jù)庫(kù)法律的限制。

2.1 OCC的規(guī)模

OCC于2011年發(fā)布第一版,實(shí)現(xiàn)對(duì)OA-PMC(PubM-ed Central Open Access)中204 637篇論文引文數(shù)據(jù)的開(kāi)放關(guān)聯(lián),包括6 325 178條指向3 373 961篇論文的引文記錄。該語(yǔ)料庫(kù)的規(guī)模雖然不大,但基本涵蓋1950—2010年生物醫(yī)學(xué)文獻(xiàn)索引中20%的內(nèi)容,包括已在PubMed發(fā)表的生物醫(yī)學(xué)領(lǐng)域的全部高被引論文。

隨著OA-PMC館藏?cái)?shù)量的不斷增加(截至2014年12月,館藏資源數(shù)量已經(jīng)是創(chuàng)建時(shí)的2倍),以及arXiv preprint server中引文數(shù)據(jù)的導(dǎo)入(在生物醫(yī)學(xué)等基礎(chǔ)上,增加了數(shù)學(xué)等學(xué)科的引文數(shù)據(jù)),OCC的覆蓋范圍也逐漸得到擴(kuò)展,下一步將增加CiteSeerX、CitEc(Citations in Economics)等免費(fèi)數(shù)據(jù)庫(kù)的引文數(shù)據(jù)。截至2014年12月,CiteSeerX已積累近1 350萬(wàn)條引文記錄,CitEc已積累1 354萬(wàn)余條引文記錄。這3個(gè)數(shù)據(jù)庫(kù)累計(jì)覆蓋約198萬(wàn)篇論文的引文數(shù)據(jù),但相對(duì)于科技文獻(xiàn)總量而言,該數(shù)據(jù)量并不算大,OCC仍有很長(zhǎng)的路要走。目前,OCC的工作人員正修改數(shù)據(jù)模型,加強(qiáng)基礎(chǔ)設(shè)施建設(shè),以進(jìn)一步擴(kuò)大覆蓋范圍。

2.2 OCC的技術(shù)路線

現(xiàn)有期刊的引文數(shù)據(jù)主要通過(guò)CrossRef收割,出版商將論文引文數(shù)據(jù)提交至CrossRef,支持免費(fèi)引用關(guān)聯(lián)服務(wù)。然而,CrossRef的使用條款是通過(guò)元數(shù)據(jù)描述的,且這些引文數(shù)據(jù)默認(rèn)是不公開(kāi)的,僅能在符合出版商使用條款的條件下通過(guò)元數(shù)據(jù)搜索服務(wù)獲取。對(duì)于過(guò)刊而言,若想實(shí)現(xiàn)引文數(shù)據(jù)的開(kāi)放獲取,出版商必須專(zhuān)門(mén)向CrossRef發(fā)郵件說(shuō)明。這種方法雖然簡(jiǎn)單直接,無(wú)成本,但整個(gè)進(jìn)度受工作人員回復(fù)時(shí)間限制。總之,引文數(shù)據(jù)開(kāi)放獲取的操作效率太低,引入智能化自動(dòng)處理技術(shù)才是根本解決之道[12]。

為解決上述問(wèn)題,OCC設(shè)定5個(gè)逐次遞進(jìn)的任務(wù):(1)創(chuàng)建語(yǔ)義基礎(chǔ)設(shè)施,開(kāi)發(fā)或重用能夠滿足學(xué)術(shù)創(chuàng)作和出版需求的、支持以RDF格式描述科技文獻(xiàn)書(shū)目數(shù)據(jù)、引文數(shù)據(jù)的語(yǔ)義模型,如本體或RDFS(Resource Description Framework Schema)詞匯表;(2)開(kāi)發(fā)注釋工具,允許作者基于上述語(yǔ)義模型用恰當(dāng)?shù)恼Z(yǔ)義聲明對(duì)文檔進(jìn)行語(yǔ)義增強(qiáng);(3)擴(kuò)展上述書(shū)目實(shí)體和書(shū)目引用的語(yǔ)義處理設(shè)施,以解決數(shù)據(jù)實(shí)體和數(shù)據(jù)引用問(wèn)題;(4)通過(guò)具體實(shí)例示范本體應(yīng)用于現(xiàn)實(shí)數(shù)據(jù)的具體過(guò)程,創(chuàng)建科研數(shù)據(jù)與書(shū)目實(shí)體的引用關(guān)系,及描述書(shū)目實(shí)體與科研數(shù)據(jù)間引用關(guān)系的RDF元數(shù)據(jù);(5)將OA-PMC中所有論文的引文數(shù)據(jù)轉(zhuǎn)化為RDF格式,并以開(kāi)放關(guān)聯(lián)數(shù)據(jù)的格式發(fā)布在OCC上,以便第三方組織免費(fèi)開(kāi)展創(chuàng)新性使用[13]。

2.3 OCC的元數(shù)據(jù)模型

為描述并關(guān)聯(lián)OCC的各類(lèi)書(shū)目實(shí)體,OCC構(gòu)建專(zhuān)門(mén)的元數(shù)據(jù)模型,如圖1所示。OCC元數(shù)據(jù)模型主要包括6類(lèi)書(shū)目實(shí)體:bibliographic resources(fabio:Expression)、resource embodiments(fabio:Manifestation)、bibliographic entries(biro:BibliographicReference)、responsible agents(foaf:Agent)、agent roles(pro:RoleInTime)、identifiers(datacite:Identifier)。其中核心類(lèi)為“fabio:Expression”,具備“title”“subtitle”“PublicationYear”“edition”等屬性,描述其題目、出版年和版本等信息,其通過(guò)“frbr:part”與“biro:BibliographicReference”建立關(guān)聯(lián);“biro:BibliographicReference”又通過(guò)“biro:references”與“fabio:Expression”的關(guān)聯(lián),實(shí)現(xiàn)反饋,描述論文與參考文獻(xiàn)的關(guān)系;通過(guò)“datacite:hasIdentifier”與“datacite:Identifier”建立關(guān)聯(lián),描述論文及其引用數(shù)據(jù)的關(guān)系;通過(guò)“pro:isDocumentContextFor”與“pro:RoleInTime”建立關(guān)聯(lián),而“pro:RoleInTime”通過(guò)“pro:isHeldBy”與“foaf:Agent”關(guān)聯(lián),描述論文是由代理機(jī)構(gòu)采用某種創(chuàng)作方式產(chǎn)生;通過(guò)“fabr:endeavour”與“fabio:Manifestation”建立關(guān)聯(lián),描述內(nèi)容表達(dá)與實(shí)體表現(xiàn)的關(guān)系[14]。

圖1 OCC元數(shù)據(jù)模型中的主要本體實(shí)體[14]

OCC由若干個(gè)子數(shù)據(jù)集構(gòu)成,每個(gè)子集對(duì)應(yīng)一類(lèi)書(shū)目實(shí)體,其中每個(gè)實(shí)體都被賦予唯一的URL(具體由“https://w3id.org/oc/corpus/”+“實(shí)體類(lèi)名首字母縮寫(xiě)”+“/”+“子集內(nèi)唯一序列碼”構(gòu)成),如“https://w3id.org/oc/corpus/be/537”代表“bibliographic entries”子集中第537個(gè)書(shū)目實(shí)體,可通過(guò)內(nèi)容協(xié)商機(jī)制以HTML、RDF/XML、Turtle或JSON-LD等多種格式下載[15]。描述這些實(shí)體的來(lái)源信息元數(shù)據(jù)用PROV-O本體和PROV-DC擴(kuò)展來(lái)表達(dá)。

為更好地對(duì)術(shù)語(yǔ)進(jìn)行管理,相關(guān)術(shù)語(yǔ)都收集在開(kāi)放引用本體(Open Citations Ontology,OCO)中,其是一個(gè)用于分組存放從若干現(xiàn)有本體中抽取出來(lái)的、互為補(bǔ)充的、書(shū)目實(shí)體元素的專(zhuān)屬空間,以便為OCC提供描述性元數(shù)據(jù)。

2.4 OCC抓取實(shí)例數(shù)據(jù)的流程

如圖2所示,在OCC中對(duì)具體引用數(shù)據(jù)的抓取工作主要由BEE(Bibliographic Entries Extractor)和SPACIN(SPAR Citation Indexer)實(shí)現(xiàn),程序代碼可從OCC的GitHub軟件存儲(chǔ)庫(kù)中下載。具體步驟為:(1)解析PMC論文的XML來(lái)源文檔;(2)利用DOI和書(shū)目實(shí)體生成JSON文檔;(3)對(duì)于每個(gè)引證或被引資源,若檢測(cè)到相關(guān)ID(DOI、PMID或PMCID),則進(jìn)一步確認(rèn)該資源是否存在,若存在,則直接進(jìn)行第5步;(4)若資源不存在,則從記錄中抽取可能的IDs,并檢索ORCID和CrossRef;(5)創(chuàng)建新的元數(shù)據(jù)資源,若CrossRef返回信息,則所有相關(guān)元數(shù)據(jù)都可以使用,否則只采納基礎(chǔ)元數(shù)據(jù)(IDs和記錄);(6)將所有聲明加載至三元組存儲(chǔ)庫(kù),并將其加入文檔系統(tǒng)中以便將來(lái)恢復(fù)數(shù)據(jù)[16]。

BEE主要負(fù)責(zé)為每篇論文創(chuàng)建JSON文檔。針對(duì)PMC中的每篇論文,BEE從可訪問(wèn)的XML來(lái)源文檔中抽取該論文的所有元數(shù)據(jù)信息(包括所有可獲取的唯一標(biāo)識(shí)符,如DOI、ISSN、ISBN、ORCID、URL或Crossref member URL等)和參考文獻(xiàn)信息(包括通過(guò)唯一標(biāo)識(shí)符獲取的信息),并將所有數(shù)據(jù)加入最終的JSON文檔中。此外,JSON文檔也包含數(shù)據(jù)出處、提供者、OCC維護(hù)者等信息。

SPACIN主要負(fù)責(zé)處理BEE生成的JSON文檔,并通過(guò)Crossref API和ORCID API檢索附加的有關(guān)引證或被引文檔的元數(shù)據(jù)信息。這些API也可以通過(guò)檢索到的唯一標(biāo)識(shí)符(如DOI、ISSN、ISBN、ORCID、URL或Crossref member URL等)來(lái)辨別書(shū)目資源和責(zé)任者。一旦檢索到相關(guān)元數(shù)據(jù),便可創(chuàng)建對(duì)應(yīng)的RDF聲明(若相關(guān)RDF聲明已經(jīng)存在,則重用便可),并以JSON-LD格式存儲(chǔ)到文件系統(tǒng)和OCC三元組存儲(chǔ)庫(kù)中。此外,考慮到空間和性能因素,三元組存儲(chǔ)庫(kù)幾乎包含維護(hù)實(shí)體的所有數(shù)據(jù),除來(lái)源數(shù)據(jù)和數(shù)據(jù)集自身描述信息外,二者只能通過(guò)HTTP協(xié)議訪問(wèn)。

圖2 OCC抓取實(shí)例數(shù)據(jù)的流程[16]

OCC抓取實(shí)例數(shù)據(jù)的整個(gè)流程是連續(xù)不斷的,直到不再加載新的JSON文檔為止。因此,OCC實(shí)例是隨時(shí)間動(dòng)態(tài)增長(zhǎng)的,容易通過(guò)調(diào)整配置、與更多不同來(lái)源REST APIs交互來(lái)擴(kuò)展PMC以外的論文,進(jìn)而收集更多元數(shù)據(jù)和參考文獻(xiàn)的信息。目前,OCC由博洛尼亞大學(xué)的計(jì)算機(jī)科學(xué)與工程學(xué)院來(lái)維護(hù),用戶(hù)可通過(guò)一個(gè)SPARQL查詢(xún)端點(diǎn)和一個(gè)支持?jǐn)?shù)據(jù)消費(fèi)的瀏覽界面來(lái)訪問(wèn)。自2016年7月以來(lái),該機(jī)構(gòu)已經(jīng)完成PMC中科技論文參考文獻(xiàn)列表的抓取、處理與發(fā)布工作。自2016年9月,所有抓取到的數(shù)據(jù)均能以數(shù)據(jù)集方式下載。

3 OCC的實(shí)踐特征

作為免費(fèi)引文庫(kù),OCC打破現(xiàn)有科技文獻(xiàn)引文數(shù)據(jù)的商業(yè)束縛,針對(duì)引文數(shù)據(jù)可獲取性差、準(zhǔn)確性不高、缺乏語(yǔ)義信息等問(wèn)題提供一系列解決方案,改變了在數(shù)字化科研基礎(chǔ)設(shè)施中的傳統(tǒng)形象,成為引文數(shù)據(jù)開(kāi)放關(guān)聯(lián)的最佳實(shí)踐。

3.1 通過(guò)數(shù)據(jù)收割協(xié)議提高引文數(shù)據(jù)的可獲取性

OCC的最終目標(biāo)是匯集世界范圍的科技文獻(xiàn)以及藝術(shù)領(lǐng)域、人文學(xué)科領(lǐng)域的引文數(shù)據(jù)。但目前大多數(shù)出版商都把引文數(shù)據(jù)設(shè)為付費(fèi)內(nèi)容,受版權(quán)保護(hù)。在OCC的引領(lǐng)下,已有Nature等少數(shù)幾家出版商把書(shū)目和引文數(shù)據(jù)開(kāi)放共享。

針對(duì)現(xiàn)有引文庫(kù)的商業(yè)壟斷及半開(kāi)放性控制,OCC與部分期刊出版商(如牛津大學(xué)出版社、麻省理工學(xué)院出版社等)就引文數(shù)據(jù)的日常收割問(wèn)題簽訂合作協(xié)議,并計(jì)劃進(jìn)一步整合收割數(shù)據(jù),以清晰展現(xiàn)論文間、論文與數(shù)據(jù)庫(kù)的引用關(guān)系,拓展作者、機(jī)構(gòu)、基金、論文間的多維語(yǔ)義關(guān)系。OCC將允許用戶(hù)免費(fèi)瀏覽多種來(lái)源的引文數(shù)據(jù),包括傳統(tǒng)學(xué)術(shù)出版物及其他數(shù)據(jù)論文等,但所有引文數(shù)據(jù)都會(huì)標(biāo)明來(lái)源[15]。

基于開(kāi)放獲取的引文數(shù)據(jù),OCC計(jì)劃開(kāi)發(fā)多種智能化分析服務(wù),如分面搜索和瀏覽工具、建議和趨勢(shì)識(shí)別服務(wù)以及基于時(shí)間的可視化服務(wù)等,其中部分服務(wù)已在OCC原型系統(tǒng)中實(shí)現(xiàn)。隨著覆蓋范圍的不斷擴(kuò)大,OCC在計(jì)算引用評(píng)價(jià)指標(biāo)有用性方面也將不斷提升。

3.2 借助外部權(quán)威數(shù)據(jù)源糾正引文數(shù)據(jù)的不一致問(wèn)題

受數(shù)據(jù)庫(kù)自身收錄文獻(xiàn)類(lèi)型、數(shù)量或范圍的影響,不同引文庫(kù)引文數(shù)據(jù)相差較大,計(jì)算機(jī)領(lǐng)域更為明顯,同一篇論文在Google Scholar的引用次數(shù)會(huì)遠(yuǎn)高于其他數(shù)據(jù)源。由于計(jì)算機(jī)領(lǐng)域很多重要成果以會(huì)議論文方式出版,而Google Scholar對(duì)會(huì)議論文的收錄及標(biāo)引最完整,因此,既使其準(zhǔn)確性低于其他引文庫(kù),計(jì)算機(jī)領(lǐng)域?qū)W者也更傾向于使用Google Scholar查詢(xún)論文的引用次數(shù)。但Google Scholar不允許非訂購(gòu)用戶(hù)對(duì)其進(jìn)行檢索,并以定義的格式返回結(jié)果,這大幅降低了其在構(gòu)建引文網(wǎng)絡(luò)中的影響與地位[17]。

此外,引文數(shù)據(jù)在準(zhǔn)確性方面也存在一定問(wèn)題。據(jù)不完全統(tǒng)計(jì),在已出版文獻(xiàn)的引文數(shù)據(jù)中,存在不同程度的錯(cuò)誤(約1%),如弄錯(cuò)論文題目或作者姓名中的符號(hào),缺少介詞,年代、卷期號(hào)、頁(yè)碼,或DOI等書(shū)寫(xiě)錯(cuò)誤。為降低錯(cuò)誤引文數(shù)據(jù)的數(shù)量,OCC開(kāi)始借助外部資源提供的權(quán)威書(shū)目記錄來(lái)糾正引文數(shù)據(jù)庫(kù)中的錯(cuò)誤,同時(shí)也提供引文數(shù)據(jù)在線檢錯(cuò)服務(wù)[18]。

3.3 通過(guò)SPAR本體增強(qiáng)引文數(shù)據(jù)的語(yǔ)義性

傳統(tǒng)的引文分析法只考慮在題錄數(shù)據(jù)中列出的參考文獻(xiàn),關(guān)注文獻(xiàn)間存在的引用關(guān)系,缺乏對(duì)引用行為的語(yǔ)義描述,包括引用功能(引文對(duì)施引文獻(xiàn)的作用,如背景、基礎(chǔ)、比較等)、觀點(diǎn)傾向(否定或批判性引用會(huì)降低引文的價(jià)值)、引用頻率(文獻(xiàn)被引頻次越高,其學(xué)術(shù)貢獻(xiàn)越大)、引用位置(在方法、實(shí)驗(yàn)、結(jié)論等部分的引文通常比引言、研究現(xiàn)狀或背景等部分的引文對(duì)于施引文獻(xiàn)的學(xué)術(shù)價(jià)值更大)、施引文獻(xiàn)的類(lèi)型(如研究論文、技術(shù)論文、理論概念、案例分析、文獻(xiàn)綜述或一般性評(píng)論,因類(lèi)型不同,其引用的價(jià)值也不同)等,這使得引用文獻(xiàn)對(duì)于施引文獻(xiàn)的具體貢獻(xiàn)以及重要性無(wú)法準(zhǔn)確展現(xiàn),引用文獻(xiàn)的相關(guān)信息如標(biāo)題、關(guān)鍵詞、摘要、作者、機(jī)構(gòu)等不能被正確、全面地理解,從而造成不同知識(shí)源間融合和互聯(lián)的困難[10,19,20,21,22]。

針對(duì)上述問(wèn)題,OCC通過(guò)引入描述學(xué)術(shù)交流、出版和引用信息的結(jié)構(gòu)化領(lǐng)域本體SPAR,實(shí)現(xiàn)文獻(xiàn)元數(shù)據(jù)和引文數(shù)據(jù)的自動(dòng)化處理與互操作。如表1所示,SPAR由8個(gè)(FaBiO、CiTO、BiRO、C4O、DoCO、PRO、PSO和PWO)覆蓋整個(gè)學(xué)術(shù)出版過(guò)程的通用本體構(gòu)成,基本整合了出版與引用相關(guān)的所有屬性。前4個(gè)本體主要用于描述書(shū)目對(duì)象、書(shū)目記錄、參考文獻(xiàn)列表、引用角色、引文記錄、引文背景等;后4個(gè)本體主要為組織文檔內(nèi)容組件、出版角色、出版狀態(tài)及出版流程提供結(jié)構(gòu)化的控制詞表。8個(gè)本體既可單獨(dú)使用,也可以聯(lián)成一體并用,各本體通過(guò)OWL2.0進(jìn)行編碼[22]。其中,CiTO主要通過(guò)在RDF語(yǔ)句中嵌入修辭性質(zhì)的元數(shù)據(jù)來(lái)描述科技文獻(xiàn)中不同參考文獻(xiàn)的引用角色。實(shí)現(xiàn)該過(guò)程的工具為CiTO參考注釋工具,其支持以自然語(yǔ)言和受控術(shù)語(yǔ)兩種方式描述參考文獻(xiàn)的語(yǔ)義特征[23]。

表1 SPAR中8個(gè)本體的功能

4 對(duì)我國(guó)引文數(shù)據(jù)開(kāi)放關(guān)聯(lián)的啟示

從上述對(duì)OCC的分析看出,實(shí)現(xiàn)引文數(shù)據(jù)開(kāi)放關(guān)聯(lián)的關(guān)鍵點(diǎn)主要有以下內(nèi)容。第一,盡可能爭(zhēng)取出版商的支持,通過(guò)簽署收割協(xié)議或者倡導(dǎo)開(kāi)放獲取行動(dòng)為抓取書(shū)目資源及相關(guān)引文數(shù)據(jù)提供法律保障;同時(shí),采用CC協(xié)議發(fā)布關(guān)聯(lián)化后的引文數(shù)據(jù),支持用戶(hù)對(duì)引文關(guān)聯(lián)數(shù)據(jù)的自由使用,實(shí)現(xiàn)創(chuàng)建OCC的初衷。第二,構(gòu)建元數(shù)據(jù)模型,篩選核心實(shí)體,確定主要屬性元素,明確不同實(shí)體間的關(guān)聯(lián)關(guān)系,并為每個(gè)實(shí)體賦予唯一命名域,制定實(shí)例的命名規(guī)則,這是抓取實(shí)例數(shù)據(jù)的前提。通過(guò)元數(shù)據(jù)模型搭建書(shū)目資源內(nèi)容表達(dá)、參考文獻(xiàn)、載體表現(xiàn)、唯一標(biāo)識(shí)符、代理及代理角色等實(shí)體(在實(shí)際應(yīng)用中,根據(jù)具體需求,也可以擴(kuò)展機(jī)構(gòu)、項(xiàng)目、相關(guān)數(shù)據(jù)集等其他實(shí)體)的關(guān)聯(lián)框架。第三,通過(guò)自動(dòng)化程序提高實(shí)例數(shù)據(jù)的抓取效率,既包括從XML文檔中抽取盡可能多的引文數(shù)據(jù),轉(zhuǎn)化為JSON格式存儲(chǔ),從源頭上把大量非結(jié)構(gòu)化信息變成結(jié)構(gòu)化信息;也包括充分利用DOI、ISSN、ISBN、ORCID、URL或Crossref member URL等唯一標(biāo)識(shí)符盡可能擴(kuò)展引文信息,并用元數(shù)據(jù)元素作為謂詞揭示這些信息與書(shū)目資源的各種語(yǔ)義關(guān)聯(lián),為后續(xù)知識(shí)推理及知識(shí)發(fā)現(xiàn)奠定基礎(chǔ)。第四,利用SPAR本體為引文信息添加引用類(lèi)型、引用角色等語(yǔ)義標(biāo)簽,實(shí)現(xiàn)對(duì)引用單元的語(yǔ)義標(biāo)注,為用戶(hù)理解引用內(nèi)涵及科學(xué)引文分析奠定基礎(chǔ)。第五,建立與相關(guān)人員、機(jī)構(gòu)、項(xiàng)目、事件、知識(shí)資源、數(shù)據(jù)庫(kù)集等外部關(guān)聯(lián)數(shù)據(jù)集的關(guān)聯(lián),多維度展示相關(guān)領(lǐng)域的隱性知識(shí)體系結(jié)構(gòu),豐富語(yǔ)義內(nèi)容,實(shí)例間的關(guān)聯(lián)關(guān)系通過(guò)類(lèi)屬性來(lái)揭示。

總之,OCC融匯了對(duì)書(shū)目資源內(nèi)外部特征、引文數(shù)據(jù)的挖掘以及多維度知識(shí)關(guān)聯(lián)的構(gòu)建,同時(shí)關(guān)聯(lián)了外部數(shù)據(jù)集,形成“從來(lái)源數(shù)據(jù)抓取書(shū)目及引文數(shù)據(jù)-擴(kuò)展元數(shù)據(jù)-語(yǔ)義標(biāo)注-知識(shí)關(guān)聯(lián)”的工作流程,并以此為基礎(chǔ)實(shí)現(xiàn)引文數(shù)據(jù)的開(kāi)放共享。

我國(guó)機(jī)構(gòu)數(shù)據(jù)庫(kù)、學(xué)科數(shù)據(jù)庫(kù)數(shù)量眾多,也制定了相應(yīng)的引文數(shù)據(jù)開(kāi)放獲取管理政策,但對(duì)于如何實(shí)施引文數(shù)據(jù)的開(kāi)放獲取計(jì)劃,如何與出版商合作促進(jìn)引文數(shù)據(jù)的開(kāi)放與語(yǔ)義關(guān)聯(lián),還有待進(jìn)一步探究。我國(guó)的圖書(shū)情報(bào)服務(wù)機(jī)構(gòu)應(yīng)抓住機(jī)遇,制定可動(dòng)態(tài)調(diào)整的引文分析發(fā)展戰(zhàn)略,整合專(zhuān)業(yè)機(jī)構(gòu)技術(shù)力量,與有關(guān)圖情機(jī)構(gòu)開(kāi)展合作研究;同時(shí),還要與計(jì)算機(jī)、網(wǎng)絡(luò)技術(shù)人員合作,積極探索將引文數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)的方式方法,為我國(guó)引文數(shù)據(jù)的開(kāi)放關(guān)聯(lián)提供參考。

[1]ROUSSEAU R,LIU Y.Interestingness and the essence of citation[J].Journal of Documentation,2013,69(4):580-589.

[2]CHADEGANI A A,SALEHI H,YUNUS M M,et al.A comparison between two main academic literature collections: Web of Science and Scopus Databases[J].Asian Social Science,2013,9(5):18-26.

[3]National Steering Committee on Open Access Policy.National principles for open access policy statement[J].Growth Hormone &Igf Research,2015,25(1):28-33.

[4]SWAN A.The open access citation advantage: studies and results to date[J].Journal of Geophysical Research Atmospheres,2010,112(FO2S06):195-225.

[5]PIWOWAR H A,DAY R S,FRIDSMA D B.Sharing detailed research data is associated with increased citation rate[J].Plos One,2007,2(3):e308.

[6]PIWOWAR H A,VISION T J.Data reuse and the open data citation advantage[J].Peerj,2013,1(3):e175.

[7]Dalmeet Singh Chawla.Now free:citation data from 14 million papers, and more might come[EB/OL].[2017-04-06].http://www.sciencemag.org/news/2017/04/now-free-citation-data-14-millionpapers-and-more-might-come.

[8]Open Citation Corpus(OCC)[EB/OL].[2017-04-06].http://opencitations.org.

[9]Dryad Digital Repository[EB/OL].[2017-04-06].http://datadryad.org/.

[10]林芳芳,趙輝.美國(guó)Dryad數(shù)據(jù)庫(kù)共享政策及啟示[J].中國(guó)科技資源導(dǎo)刊,2015,47(6):48-52,94.

[11]PERONI S, DUTTON A,GRAY T, et al.Setting our bibliographic references free: towards open citation data[J].Journal of Documentation,2015,71(2):253-277.

[12]CrossRef metadata best practice to support key performance indicators(KPIs)for funding agencies[EB/OL].[2016-11-05].http://fundref.crossref.org/docs/funder_kpi_metadata_best_practice.html.

[13]SHOTTON D.Open citations[J].Nature,2013,502(7471):295-297.

[14]PERONI S,SHOTTON D.Metadata for the OpenCitations Corpus[EB/OL].(2016-07-07)[2016-11-05].https://dx.doi.org/10.6084/m9. fi gshare.3443876.

[15]FALCO R,GANGEMI A,SILVIO P,et al.Modelling OWL ontologies with Graffoo[C]//In the Semantic Web:ESWC 2014 Satellite Events.Springer,2014,8798:320-325.

[16]PERONI S,SHOTTON D,VITALI F.Freedom for bibliographic references:OpenCitations arise[EB/OL].[2016-11-05].https://w3id.org/oc/paper/occ-lisc2016.html.

[17]FRANCESCHET M.A comparison of bibliometric indicators for computer science scholars and journals on Web of Science and Google Scholar[J].Scientometrics,2010,83(1):243-258.

[18]SHOTTON D.Semantic publishing:the coming revolution in scienti fi c journal publishing[J].Learned Publishing,2009,22(2):85-94.

[19]PRIEM J.Scholarship:Beyond the paper[J].Nature,2013,495(7442):437-440.

[20]CIANCARINI P,IORIO A D,NUZZOLESE A G, et al. Characterising citations in scholarly articles:an experiment[C]//International Workshop on Arti fi cial Intelligence and Cognition.[S.1.]:[s.n],2013.

[21]TEUFEL S,SIDDHARTHAN A,DAN T.An annotation scheme for citation function[C]//Proceedings of Sigdial Workshop on Discourse & Dialogue.[S.1.]:[s.n],2006.

[22]BERGSTROM C T,WEST J D, WISEMAN M A.The eigenfactor(TM)metrics[J].Journal of Neuroscience the Of fi cial Journal of the Society for Neuroscience,2008,28(45):11433-11434.

[23]PERONI S, SHOTTON D. FaBiO and CiTO: ontologies for describing bibliographic resources and citations[J].Web Semantics Science Services & Agents on the World Wide Web,2012,17(17):33-43.

作者簡(jiǎn)介

宋丹輝,女,1983年生,博士,館員,研究方向:知識(shí)組織、知識(shí)服務(wù),E-mail:hkdsongdh@163.com。

The Open Citation Corpus Practice Case and Its Enlightenment

SONG DanHui
( Library of Henan University of Science and Technology, Luoyang 471023, China)

As a new kind of linked data, the open citation data has already made substantial progress abroad, but has not yet to start at home. To shorten the gap,this paper chooses Open Citation Project which has played an important role in academic communication system as learning case. The author not only analysis the construction achievements and practices of its scale, technical route, the metadata model and working process in-depth, but also elaborates the methods and features in solving the problems of not easy to obtain, inconsistent, and semantic absence in citation dates. Moreover, summarizes the lessons to learn in aspects of development idea, key procedures, in order to provide sightedness suggestions to the construction of linked open citation data at home.

Citation Information; Openness and Relevance; Open Citations Corpus

G230

10.3772/j.issn.1673-2286.2017.07.009

2017-04-08)

* 本研究得到國(guó)家社會(huì)科學(xué)基金青年項(xiàng)目“基于引文內(nèi)容標(biāo)注的引文數(shù)據(jù)開(kāi)放關(guān)聯(lián)模型及發(fā)布流程研究”(編號(hào):17CTQ005)資助。

猜你喜歡
書(shū)目本體文檔
Abstracts and Key Words
推薦書(shū)目《初春之城》
都市人(2022年3期)2022-04-27 00:44:57
有人一聲不吭向你扔了個(gè)文檔
對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
Care about the virtue moral education
卷宗(2013年6期)2013-10-21 21:07:52
本刊郵購(gòu)書(shū)目
不讓他人隨意下載Google文檔
電腦迷(2012年4期)2012-04-29 06:12:13
盈江县| 修文县| 平昌县| 新竹县| 会宁县| 屯昌县| 漳浦县| 汉沽区| 建阳市| 天水市| 辽阳县| 蒙山县| 班玛县| 赞皇县| 扎兰屯市| 汉源县| 邯郸县| 将乐县| 临安市| 乾安县| 甘谷县| 绩溪县| 定兴县| 阿图什市| 榆林市| 甘洛县| 榕江县| 平潭县| 松江区| 太白县| 濉溪县| 台南市| 湖南省| 梨树县| 若尔盖县| 尉氏县| 射洪县| 关岭| 佛坪县| 广灵县| 前郭尔|