白林林 萬妮
摘要:[目的/意義]通過對(duì)CORE論文關(guān)系發(fā)現(xiàn)過程及其服務(wù)的詳細(xì)剖析,希望為我國開放獲取知識(shí)庫在論文內(nèi)容的推薦和語義鏈接方面提供有力的參考和借鑒。[方法/過程]從基于語義相似度的論文關(guān)聯(lián)關(guān)系發(fā)現(xiàn)過程和基于論文關(guān)系的語義服務(wù)兩方面進(jìn)行分析。其中,基于語義相似度的論文關(guān)聯(lián)關(guān)系發(fā)現(xiàn)過程包括元數(shù)據(jù)和全文內(nèi)容收割、論文之間關(guān)系語義相似度計(jì)算兩方面;基于發(fā)現(xiàn)的論文關(guān)聯(lián)關(guān)系的語義服務(wù)包括論文推薦服務(wù)和關(guān)聯(lián)開放數(shù)據(jù)服務(wù)。最后總結(jié)CORE對(duì)我國機(jī)構(gòu)知識(shí)庫的應(yīng)用建議。[結(jié)果/結(jié)論]研究發(fā)現(xiàn),CORE系統(tǒng)通過現(xiàn)有OAI-PMH協(xié)議自動(dòng)收割開放獲取知識(shí)庫中的元數(shù)據(jù),并進(jìn)一步提取元數(shù)據(jù)中URI字段,通過HTTP協(xié)議下載全文?;诎l(fā)現(xiàn)的論文語義關(guān)系提供論文推薦服務(wù)和論文關(guān)聯(lián)數(shù)據(jù)服務(wù),使得第三方系統(tǒng)可以利用CORE數(shù)據(jù)集,這些都為我國開放獲取知識(shí)庫(如機(jī)構(gòu)知識(shí)庫、開放獲取期刊)在論文關(guān)系的推薦和語義鏈接方面提供有力的參考。
關(guān)鍵詞:Connecting Repositories? ? 語義相似度? ? 論文關(guān)系? ?推薦系統(tǒng)? ?關(guān)聯(lián)數(shù)據(jù)
分類號(hào):G254
引用格式:白林林, 萬妮. 基于語義相似度的CORE論文關(guān)聯(lián)關(guān)系發(fā)現(xiàn)及其語義服務(wù)研究[J/OL]. 知識(shí)管理論壇, 2021, 6(5): 271-281[引用日期]. http://www.kmf.ac.cn/p/260/.
開放獲取(open access, OA)運(yùn)動(dòng)推動(dòng)和促進(jìn)了全球科研成果的免費(fèi)訪問和開放獲取知識(shí)庫的建設(shè)與發(fā)展。但是,目前開放獲取不應(yīng)該只是實(shí)現(xiàn)科研成果的開放,而是要在現(xiàn)有基礎(chǔ)上,充分發(fā)揮OA的潛力,通過改進(jìn)現(xiàn)有的OA技術(shù)基礎(chǔ)設(shè)施,用以支持內(nèi)容的搜索、發(fā)現(xiàn)、挖掘、分析等這些功能。目前的大多數(shù)開放獲取技術(shù)基礎(chǔ)設(shè)施(如機(jī)構(gòu)知識(shí)庫、主題知識(shí)庫、科研數(shù)據(jù)知識(shí)庫等)大都是基于元數(shù)據(jù)的訪問,而要實(shí)現(xiàn)開放獲取內(nèi)容的挖掘、分析等功能,必須實(shí)現(xiàn)OA元數(shù)據(jù)集成向內(nèi)容集成的有效轉(zhuǎn)換。為此,由歐共體資助的項(xiàng)目“歐洲研究開放獲取基礎(chǔ)設(shè)施(the Open Access Infrastructure for Research in Europe, OpenAIRE)”通過建立全歐研究信息平臺(tái)來收割和監(jiān)測(cè)歐共體和其他國家資助者的開放獲取研究成果,從而提供豐富的元數(shù)據(jù)服務(wù)和科學(xué)成果鏈接服務(wù),該項(xiàng)目開始于2009年12月1日,已從第一代發(fā)展到第五代(第一代OpenAIRE、第二代OpenAIREplus、第三代OpenAIRE2020、第四代OpenAIRE-Advance、第五代OpenAIRE-Nexus)[1]。截至2021年3月,美國的共享訪問研究生態(tài)系統(tǒng)(Shared Access Research Ecosystem, SHARE) 對(duì)182個(gè)數(shù)據(jù)源的6 575萬多個(gè)研究成果進(jìn)行了集成[2]。法國的HAL (Hyper Articles en Ligne)主要對(duì)法國的科研成果進(jìn)行集成,由法國國家科學(xué)研究中心的計(jì)算科學(xué)與控制研究所運(yùn)行管理,目前收錄了168個(gè)機(jī)構(gòu)的251萬多條數(shù)據(jù)[3]。我國由CALIS組建的機(jī)構(gòu)知識(shí)庫整合系統(tǒng)中國高校機(jī)構(gòu)知識(shí)庫聯(lián)盟集成了50家成員機(jī)構(gòu)的286萬條元數(shù)據(jù)[4],香港機(jī)構(gòu)知識(shí)庫整合系統(tǒng)對(duì)香港的8個(gè)大學(xué)的42.6萬條數(shù)據(jù)進(jìn)行了集成[5]。但目前的這些開放獲取技術(shù)基礎(chǔ)設(shè)施,只是從元數(shù)據(jù)層面對(duì)不同來源的研究成果進(jìn)行聚合和集成,并沒有進(jìn)一步從全文內(nèi)容對(duì)論文和論文之間的關(guān)聯(lián)關(guān)系進(jìn)行集成和發(fā)現(xiàn)。CORE(COnnecting Repositories)[6]是第一個(gè)從全文內(nèi)容來發(fā)現(xiàn)論文之間的關(guān)聯(lián)關(guān)系的系統(tǒng),并將發(fā)現(xiàn)的論文關(guān)聯(lián)關(guān)系通過不同的方式向用戶提供語義服務(wù)(如推薦服務(wù)、關(guān)聯(lián)數(shù)據(jù)服務(wù))。
基于此,對(duì)CORE中論文關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)過程以及在此基礎(chǔ)上提供的語義服務(wù)進(jìn)行詳細(xì)解析和具體應(yīng)用介紹,可為我國開放獲取知識(shí)庫在論文內(nèi)容的推薦和語義鏈接方面提供有力的參考和借鑒。
1? CORE概況
CORE(COnnecting REpositories)[7]是2011年由英國開放大學(xué)知識(shí)媒體研究所P. Knoth構(gòu)建的系統(tǒng)[8],目的是通過與數(shù)字圖書館和機(jī)構(gòu)知識(shí)庫的緊密合作,整合分布在不同系統(tǒng)上的開放資源,這些資源包括英國開放獲取期刊平臺(tái)(Directory of Open Access Journals, DOAJ)、世界各地機(jī)構(gòu)知識(shí)庫和主題知識(shí)庫中的元數(shù)據(jù)與全文,并在此基礎(chǔ)上提供了一系列的資源免費(fèi)訪問服務(wù)來進(jìn)一步促進(jìn)科研成果的開放獲取,這一舉措對(duì)英國的開放獲取運(yùn)動(dòng)做出了巨大的貢獻(xiàn),奠定了英國開放獲取內(nèi)容匯總的地位。因此,CORE自創(chuàng)建以來就獲得來自英國聯(lián)合信息系統(tǒng)委員會(huì)(Joint Information Systems Committee, JISC)[9]和歐盟委員會(huì)(European Commission, EC)等一系列機(jī)構(gòu)的資助,并在后續(xù)通過DiggiCORE和ServiceCORE兩個(gè)項(xiàng)目繼續(xù)開發(fā)了一些平臺(tái)新功能。DiggiCORE(Digging Into Connected Repositories)項(xiàng)目的目標(biāo)是通過使用自然語言處理技術(shù)和社會(huì)網(wǎng)絡(luò)分析方法分析大量的開放獲取科研出版物,實(shí)現(xiàn)研究團(tuán)體行為模式、研究領(lǐng)域趨勢(shì)和研究人員引文行為的識(shí)別,以發(fā)現(xiàn)高影響力的論文,用于開發(fā)搜索和瀏覽數(shù)字館藏更好的方法,同時(shí)形成評(píng)價(jià)科研影響力和學(xué)者影響力的新方法。ServiceCORE項(xiàng)目的目標(biāo)是通過進(jìn)一步改進(jìn)完善CORE技術(shù)基礎(chǔ)設(shè)施,開發(fā)面向科研成果的主題分類系統(tǒng)和知識(shí)發(fā)現(xiàn)系統(tǒng),如在CORE Linked Data知識(shí)庫之上構(gòu)建的新Web服務(wù)層,提供對(duì)內(nèi)容和元數(shù)據(jù)的可編程訪問;構(gòu)建基于文本挖掘的增強(qiáng)型相關(guān)資源發(fā)現(xiàn)系統(tǒng);使用文本分類技術(shù)(支持向量機(jī))對(duì)內(nèi)容進(jìn)行基于主題的自動(dòng)分類的工具等[10]。
截至2021年3月,該系統(tǒng)已收割來自13 799個(gè)機(jī)構(gòu)知識(shí)庫和主題知識(shí)庫的2.1億多篇開放獲取論文[11]。CORE系統(tǒng)的特點(diǎn)是不像其他的開放獲取搜索系統(tǒng)只提供元數(shù)據(jù),CORE還集成了全文內(nèi)容,確保了科研成果全文的免費(fèi)訪問和下載。目前,CORE系統(tǒng)提供了3種類型的服務(wù):原始數(shù)據(jù)訪問服務(wù)、內(nèi)容管理服務(wù)和內(nèi)容發(fā)現(xiàn)服務(wù)[12]。同時(shí)為了提高其檢索率,CORE于2019實(shí)現(xiàn)了CORE-MAG映射,即將CORE中的數(shù)據(jù)映射為微軟學(xué)術(shù)圖譜(Microsoft Academic Graph, MAG)[13]。
(1)原始數(shù)據(jù)訪問服務(wù):包括CORE API、CORE Dataset和CORE FastSync服務(wù)。CORE API為訪問CORE中的大量數(shù)據(jù)提供了一個(gè)入口,目前有兩個(gè)版本:一個(gè)是提供XML或JSON格式數(shù)據(jù)的RESTful API接口,另一個(gè)是關(guān)聯(lián)開放數(shù)據(jù)SPARQL終端[14]。CORE Dataset支持用戶批量下載CORE中的數(shù)據(jù),用于數(shù)據(jù)處理、分析和挖掘,數(shù)據(jù)包括論文元數(shù)據(jù)和全文、CORE到MAG實(shí)體的映射數(shù)據(jù)。CORE FastSync可以無縫訪問從主要出版商的非標(biāo)準(zhǔn)系統(tǒng)中匯總的金色和混合開放獲取論文,數(shù)據(jù)通過FastSync協(xié)議公開和共享。
(2)內(nèi)容管理服務(wù):包括CORE Repository Dashboard和CORE Repository Edition服務(wù)。CORE Repository Dashboard是專為知識(shí)庫管理員設(shè)計(jì)的知識(shí)庫面板工具,目標(biāo)是提供對(duì)聚合內(nèi)容的管理和控制。CORE Repository Edition是一套面向圖書館、機(jī)構(gòu)知識(shí)庫和內(nèi)容管理商的工具套件,可用于提高機(jī)構(gòu)研究成果的可發(fā)現(xiàn)性、數(shù)據(jù)訪問的合規(guī)性等。
(3)內(nèi)容發(fā)現(xiàn)服務(wù):包括CORE Recommender 和CORE Discovery。CORE Recommender作為一個(gè)插件,可以用于在CORE和其他開放獲取知識(shí)庫之間推薦語義相似的論文。CORE Discovery是一個(gè)瀏覽器插件,支持繞過出版商免費(fèi)訪問CORE中的論文。
2 基于語義相似度的CORE論文關(guān)系發(fā)現(xiàn)過程
基于語義相似度的CORE論文關(guān)系發(fā)現(xiàn)過程包括數(shù)據(jù)獲取和論文關(guān)聯(lián)關(guān)系發(fā)現(xiàn)兩個(gè)階段。數(shù)據(jù)獲取主要是通過從可用的開放獲取知識(shí)庫中收割元數(shù)據(jù)記錄和全文內(nèi)容,并對(duì)收割到的元數(shù)據(jù)和全文進(jìn)行索引;論文關(guān)聯(lián)關(guān)系發(fā)現(xiàn)主要是通過文本挖掘技術(shù)對(duì)收割到的論文之間的語義關(guān)系進(jìn)行計(jì)算與發(fā)現(xiàn)。
2.1? CORE數(shù)據(jù)獲取
2.1.1? 元數(shù)據(jù)的收割
元數(shù)據(jù)收割的來源包括開放獲取知識(shí)庫(機(jī)構(gòu)知識(shí)庫、主題知識(shí)庫)和出版商數(shù)據(jù)庫兩類。
(1)開放獲取知識(shí)庫中的元數(shù)據(jù)。開放獲取知識(shí)庫中的元數(shù)據(jù)收割是通過開放存檔倡議的元數(shù)據(jù)收割協(xié)議(Open Archives Initiative Protocol for Metadata Harvesting,OAI-PMH)[15]請(qǐng)求來實(shí)現(xiàn)的,OAI-PMH成功的請(qǐng)求返回一個(gè)XML文檔,其中包含有關(guān)存儲(chǔ)在知識(shí)庫中的論文的元數(shù)據(jù)信息。元數(shù)據(jù)收割過程中使用到的技術(shù)是OCLC OAIHarvester2[16],這是一個(gè)通過OAI-PMH協(xié)議進(jìn)行元數(shù)據(jù)收割的JAVA類集合工具包[17]。
(2)出版商數(shù)據(jù)庫中的元數(shù)據(jù)。針對(duì)不支持OAI-PMH協(xié)議的出版商數(shù)據(jù)庫中的元數(shù)據(jù),CORE團(tuán)隊(duì)開發(fā)了CORE Publisher Connector引擎,可以無縫訪問和獲取出版商數(shù)據(jù)庫中的金色和混合開放獲取類型的論文,通過資源同步協(xié)議FastSync進(jìn)行同步。與只收割元數(shù)據(jù)提供互操作性的OAI-PMH協(xié)議相比,F(xiàn)astSync協(xié)議可以共享任何類型的資源(包括元數(shù)據(jù)和實(shí)際數(shù)據(jù)),并在網(wǎng)上提供先進(jìn)的同步機(jī)制。FastSync協(xié)議是ResourceSync協(xié)議的改進(jìn)版本,ResourceSync協(xié)議開始于2011年底,是美國國家信息標(biāo)準(zhǔn)組織(National Information Standards Organization,NISO)和開放存檔倡議團(tuán)隊(duì)(OAI)合作開發(fā)的項(xiàng)目,由斯隆基金會(huì)資助,建立在同步元數(shù)據(jù)的OAI-PMH策略基礎(chǔ)上,這個(gè)項(xiàng)目旨在加強(qiáng)現(xiàn)代網(wǎng)絡(luò)技術(shù)的使用規(guī)范。CORE是最早部署ResourceSync協(xié)議以分發(fā)大量學(xué)術(shù)文獻(xiàn)的公司之一,這些文獻(xiàn)可以擴(kuò)展到數(shù)百萬條,并且能夠進(jìn)行實(shí)時(shí)更新。目前,已收割了Elsevier、Springer Nature、Frontiers和PLoS四大出版商中180萬篇開放獲取的論文[18]。
2.1.2? 全文內(nèi)容的下載
開放獲取知識(shí)庫將全文文檔的URL作為元數(shù)據(jù)的一部分提供,因此,全文內(nèi)容的獲取是在從收割到的元數(shù)據(jù)中提取URI字段之后,通過HTTP協(xié)議自動(dòng)從知識(shí)庫下載獲得的。從開放獲取知識(shí)庫下載PDF全文是通過一組Java類(如DownloadPdf類等)來實(shí)現(xiàn)的,在下載的過程中為了解決下載速度慢的問題,CORE通過使用緩沖流(BufferedStream)[19]將全文內(nèi)容先下載到服務(wù)器上,用以解決遠(yuǎn)程服務(wù)器響應(yīng)非常慢時(shí)會(huì)自動(dòng)取消下載的問題。
2.1.3? 元數(shù)據(jù)和全文索引
完成元數(shù)據(jù)和全文收割之后,CORE通過Apache Lucene對(duì)收割到的元數(shù)據(jù)和全文文檔建立索引。Apache Lucene項(xiàng)目開發(fā)了3個(gè)開源搜索軟件,包括:Lucene Core、Solr、PyLucene。Lucene Core是其核心子項(xiàng)目,提供基于Java的索引和搜索技術(shù)、拼寫檢查、命中突出顯示和高級(jí)分析/標(biāo)記化功能;Solr是一個(gè)使用Lucene Core構(gòu)建的高性能搜索服務(wù)器,具有XML / HTTP和JSON / Python / Ruby應(yīng)用程序接口,支持命中突出顯示、分面搜索、緩存、復(fù)制和Web管理界面;PyLucene是Lucene Core項(xiàng)目的Python端口[20]。
2.2? 基于語義相似度的CORE論文關(guān)系發(fā)現(xiàn)
CORE論文關(guān)聯(lián)關(guān)系的發(fā)現(xiàn)是通過語義關(guān)系分析器組件來完成的[21]。該組件通過自然語言處理技術(shù)從下載的論文中提取文本,然后通過計(jì)算“論文對(duì)”之間的語義相似度來識(shí)別其關(guān)聯(lián)強(qiáng)度。為了識(shí)別和計(jì)算論文之間的語義相似性,CORE系統(tǒng)通過向量空間來表示文檔內(nèi)容,即將內(nèi)容轉(zhuǎn)換為一組詞語向量,并通過找到相似的向量來找到相似的文檔。該系統(tǒng)選擇使用Apache Tika(PDFBox)工具包[22]從PDF文檔中提取文本,該工具包可從1 000多種不同的文件類型(如PPT、XLS和PDF)中識(shí)別和提取元數(shù)據(jù)和文本,并基于TF-IDF向量之間的余弦相似度來計(jì)算論文之間的相似度。
具體而言,可將CORE論文關(guān)系發(fā)現(xiàn)過程分為以下4個(gè)步驟:
(1)分詞處理。對(duì)CORE下載到的論文進(jìn)行詞法分析,構(gòu)建詞語字典T={t1,t2,…,tM}。所有的論文可被表示為N × M的詞語矩陣。其中,N表示論文數(shù)量,M表示對(duì)每篇文章進(jìn)行詞法分析后形成的詞語數(shù)量,每篇論文對(duì)應(yīng)于矩陣中某一行的向量。
(2)TF-IDF值的計(jì)算。TF-IDF(terms frequency-inverse document frequency)是指TF*IDF,用來評(píng)估某個(gè)詞語在文檔集合中的重要程度。TF即詞頻(terms frequency),指某個(gè)詞語在單個(gè)文章中的出現(xiàn)次數(shù);IDF即逆文檔頻率(inverse document frequency)=log2(N/DF),其中DF(document frequency)表示包含某個(gè)詞語的文檔數(shù)量。TF-IDF的主要思想是:一個(gè)詞語對(duì)一篇文章的重要性主要是依靠它在文件中出現(xiàn)的次數(shù),如果這個(gè)詞語在這篇文章中的出現(xiàn)次數(shù)越高,則表明這個(gè)詞語對(duì)于這篇文章的重要性越高;同時(shí),它還與這個(gè)詞語在整個(gè)文檔中出現(xiàn)的文章篇數(shù)有關(guān),隨著出現(xiàn)的篇數(shù)越多,則會(huì)降低這個(gè)詞語在這篇文章中的重要性,若包含某此項(xiàng)的文檔越少,IDF就越大,則該詞語對(duì)不同類別文檔的區(qū)分度就越高。
算法流程如下:首先對(duì)文檔進(jìn)行分詞,并去除停用詞;然后統(tǒng)計(jì)各個(gè)詞語在單個(gè)文檔中出現(xiàn)的次數(shù)和文檔集合中詞語出現(xiàn)的次數(shù);最后計(jì)算得出其TF-IDF值。
●TF詞頻的計(jì)算公式如下所示:
詞頻(TF)=某個(gè)詞語在文章中的出現(xiàn)次數(shù)
公式(1)
由于需要考慮不同的文章,長(zhǎng)度不同,需要將詞頻進(jìn)行歸一化處理,如公式(2)所示:
詞頻(TF)=某個(gè)詞語在文章中的出現(xiàn)次數(shù)/
文章的總詞數(shù)? ? ? ? ? ? ? ? ? 公式(2)
●IDF的計(jì)算公式如下所示:
逆文檔頻率(IDF)=log2(文檔總數(shù)/包含該詞? ? ? ? ? ?的文檔數(shù))? ? ? ? 公式(3)
計(jì)算逆文檔頻率的原因是為了去除哪些經(jīng)常出現(xiàn)的詞語,比如說“的”“我們”“他”等這類的詞語,這些詞語對(duì)于整篇文檔重要性不高、但是出現(xiàn)的頻率會(huì)比較多,有可能會(huì)影響到最后的計(jì)算結(jié)果,如果是經(jīng)常出現(xiàn)的詞語則不能作為文章的關(guān)鍵詞。
●計(jì)算TF-IDF的值,計(jì)算公式如下所示:
TF-IDF = 詞頻(TF)* 逆文檔頻率(IDF)公式(4)
(3)排序。對(duì)文章詞語的TF-IDF值進(jìn)行排序,從中選擇提取TF-IDF值比較大的詞語,合并成一個(gè)集合,計(jì)算每篇文章對(duì)于這個(gè)集合中的詞的詞頻,生成文章各自的詞頻向量,接下來計(jì)算文章詞頻向量之間的相似度。
(4)相似度計(jì)算。目前存在許多用于計(jì)算兩個(gè)向量之間的相似性的計(jì)算方法,例如余弦相似性、dice系數(shù)或Jaccard方法,并且有一些研究在計(jì)算相似性之前采用降低矢量的維數(shù)算法來提高性能。CORE采用了最標(biāo)準(zhǔn)的相似度計(jì)算方法:在TF-IDF向量基礎(chǔ)上計(jì)算余弦相似度。與其他相似度計(jì)算方法相比,TF-IDF向量的余弦相似度方法比較成熟,已被用于自動(dòng)鏈接生成系統(tǒng)中[23],完整性的公式如下:
公式(5)
可以通過夾角的大小,來判斷向量的相似程度。夾角越小,余弦值越大,就代表越相似。
3? 基于發(fā)現(xiàn)的CORE論文語義關(guān)系的服務(wù)
CORE在基于發(fā)現(xiàn)的論文語義關(guān)系基礎(chǔ)上為用戶提供了相似論文推薦服務(wù)和關(guān)聯(lián)開放數(shù)據(jù)服務(wù)。其中,相似論文推薦服務(wù)以CORE Recommender插件和CORE API形式提供;關(guān)聯(lián)開放數(shù)據(jù)服務(wù)是指CORE將論文之間相似性的數(shù)據(jù)作為關(guān)聯(lián)數(shù)據(jù)發(fā)布,并在Linked Data Cloud[24]中注冊(cè)。
3.1? CORE推薦服務(wù)
在2013年4月,CORE首次發(fā)布了適用于Eprints知識(shí)庫中的推薦系統(tǒng),名稱為CORE Widget,發(fā)布在Eprints商店(Eprints Bazaar)中[25],一個(gè)用于安裝Eprints附件組件、補(bǔ)丁的商店。2016年10月,CORE推出了新的版本,對(duì)原有“CORE Widget”推薦系統(tǒng)進(jìn)行了許多改進(jìn)與升級(jí),重新命名為CORE Recommender,新升級(jí)的推薦系統(tǒng)不僅支持在CORE中推薦相似的論文,而且也可以部署在其他知識(shí)庫和期刊系統(tǒng)中來推薦相似論文。其中Eprints知識(shí)庫只需在Eprints Bazaar中下載即可;對(duì)于其他知識(shí)庫(Dspace、Fedora、OJS),只需通過插入一段Javascript代碼片段就可安裝[26]。目前已被用于多個(gè)知識(shí)庫中,如斯特拉斯克萊德機(jī)構(gòu)知識(shí)庫Strathprints[27]、拉丁美洲機(jī)構(gòu)知識(shí)庫聯(lián)合網(wǎng)絡(luò)LA Referencia[28]、俄羅斯國立職業(yè)師范大學(xué)機(jī)構(gòu)知識(shí)庫[29]、預(yù)印本知識(shí)庫arXiv[30]等。
為了提高所推薦的相似論文的質(zhì)量,CORE Recommender采用多個(gè)過濾器和眾包機(jī)制來篩選推薦的論文,如只提供開放獲取的論文、僅包含至少一組最小元數(shù)據(jù)屬性的論文、包含縮略圖的論文等。另外在某些情況下,CORE Recommender可能會(huì)提供不相關(guān)的甚至錯(cuò)誤的推薦,為此CORE通過為用戶提供反饋按鈕進(jìn)行錯(cuò)誤上報(bào)。如果用戶反饋所推薦的論文不合適,CORE會(huì)將這些論文列入黑名單,不會(huì)再在推薦列表中顯示(見圖1)。
CORE Recommender有兩種使用方式。第一種方式是作為推薦系統(tǒng)部署在CORE系統(tǒng)內(nèi),向當(dāng)前被訪問的論文推薦相似的論文(見圖1)。第二種方式是作為推薦插件安裝并集成到知識(shí)庫系統(tǒng)或期刊系統(tǒng)中,當(dāng)用戶訪問知識(shí)庫中的一個(gè)論文頁面時(shí),插件會(huì)向CORE發(fā)送有關(guān)所訪問條目的信息,CORE會(huì)返回相似論文列表,目前提供了兩種形式的相似列表:一種是來源于CORE知識(shí)庫中的相似論文;另一種是用戶訪問的知識(shí)庫中的相似論文(見圖2)。
3.2? CORE論文關(guān)系關(guān)聯(lián)數(shù)據(jù)服務(wù)
2011年,CORE發(fā)布了在40多萬篇全文論文關(guān)系相似度計(jì)算基礎(chǔ)上生成的300多萬個(gè)RDF三元組,實(shí)現(xiàn)了論文之間相似度元數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)發(fā)布,以便于第三方以靈活的形式進(jìn)行訪問。CORE在將論文相似度關(guān)系發(fā)布為關(guān)聯(lián)數(shù)據(jù)過程中,選擇Sesame[31]平臺(tái)作為三元組存儲(chǔ)器,用于發(fā)布關(guān)聯(lián)數(shù)據(jù)。接下來筆者將對(duì)CORE論文關(guān)系發(fā)布為關(guān)聯(lián)數(shù)據(jù)的數(shù)據(jù)模型和實(shí)現(xiàn)機(jī)制進(jìn)行闡述。
3.2.1? CORE數(shù)據(jù)模型
遵循關(guān)聯(lián)數(shù)據(jù)原則,在將數(shù)據(jù)發(fā)布為關(guān)聯(lián)數(shù)據(jù)時(shí),盡可能復(fù)用已有的詞匯表或本體來描述數(shù)據(jù),以便外部世界更容易將新數(shù)據(jù)與已有的數(shù)據(jù)集和服務(wù)集成在一起。CORE采用MuSim相似度本體(The Similarity Ontology-MuSim)[32]、書目本體(Bibliographic ontology, BIBO)[33]以及自己構(gòu)建的本體(core)來表示CORE知識(shí)庫中論文之間的關(guān)系。
MuSim相似度本體由倫敦大學(xué)女王瑪麗數(shù)字音樂中心的K. Jacobson、BBC的Y. Raimond、德累斯頓技術(shù)大學(xué)T. G?ngler等合作開發(fā),最初在設(shè)計(jì)時(shí)主要用于表示音樂之間的相似性,但它也可以應(yīng)用到其他領(lǐng)域來表示兩個(gè)事物之間的相似性和關(guān)聯(lián)性,以便于在不同的環(huán)境下進(jìn)行相關(guān)性事物的推薦和發(fā)現(xiàn),這個(gè)本體中包含5個(gè)類和13個(gè)屬性。在CORE中主要利用其屬性實(shí)現(xiàn)對(duì)相似度計(jì)算方法、相似度權(quán)重進(jìn)行語義描述。
BIBO書目本體是由F. Giasson 和B. D’Arcus 合作開發(fā)的一個(gè)本體,用于在語義網(wǎng)中用于描述書目參考文獻(xiàn)和引文的一些基本的類和屬性,可擴(kuò)展性比較強(qiáng),其他的詞匯也可以混合在BIBO本體中,如FOAF詞匯、DC詞匯、Event詞匯等。在CORE中利用BIBO中的類和屬性對(duì)論文的文獻(xiàn)類型、作者等進(jìn)行語義描述。
CORE發(fā)布的論文相似度關(guān)系關(guān)聯(lián)數(shù)據(jù)以一篇文檔為主語,文檔類型(rdf:type)、相似的論文(MuSim:element)、OAI標(biāo)識(shí)符(core:hasOAIRepositoryIdentifier、core: hasOAIIdentifier)、論文之間的相似度權(quán)計(jì)算方法(MuSim:method)、相似度權(quán)重(MuSim:weight)為屬性(見圖3和圖4)。
3.2.2? Sesame關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)機(jī)制
Sesame是一個(gè)查詢和分析RDF數(shù)據(jù)的開源框架,最初由荷蘭軟件公司Aduna創(chuàng)建,2016年5月由Eclipse RDF4J[34]項(xiàng)目繼承,主要以兩個(gè)Java Web應(yīng)用程序的形式運(yùn)行:OpenRDF Sesame服務(wù)器(OpenRDF Sesame Server)和OpenRDF工作平臺(tái)(OpenRDF Workbench)[35]。OpenRDF Sesame服務(wù)器通過HTTP來訪問Sesame庫,除了提供一些服務(wù)器日志信息的查看功能外,不提供任何面向用戶的功能。OpenRDF Workbench通過一個(gè)網(wǎng)頁界面提供面向用戶的查詢、瀏覽、更新、輸出等功能。CORE自創(chuàng)建以來,一直使用Tomcat Web服務(wù)器[36]作為應(yīng)用程序容器,這是一個(gè)支持Java Servlets和JSP技術(shù)的Web服務(wù)器,所以CORE將Sesame的兩個(gè)組成部分OpenRDF Sesame Server和OpenRDF Workbench部署為Tomcat Web服務(wù)器上的Java Servlet應(yīng)用程序[37]。
具體而言Sesame分為以下3個(gè)層級(jí):
(1)存儲(chǔ)層和推理層。Sesame的存儲(chǔ)和推理功能通過SAIL (Storage and Inference Layer, SAIL) API [38]實(shí)現(xiàn),這是一個(gè)從底層存儲(chǔ)庫抽象出的API,支持內(nèi)存三元組存儲(chǔ)(in-memory triplestore)、磁盤三元組存儲(chǔ)(on-disk triplestore)和關(guān)系型數(shù)據(jù)庫存儲(chǔ),并有兩個(gè)單獨(dú)的Servlet軟件包在永久服務(wù)器上對(duì)這些三元組存儲(chǔ)器進(jìn)行訪問管理。
(2)關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換層。關(guān)聯(lián)數(shù)據(jù)轉(zhuǎn)換過程通過Sesame Rio(RDF)軟件包實(shí)現(xiàn)。Sesame Rio(RDF)軟件包是由一個(gè)基于Java的RDF解析器和編寫器組成的簡(jiǎn)單API,用于輸入/輸出RDF數(shù)據(jù),用戶可以通過在運(yùn)行應(yīng)用程序時(shí)將解析器和編寫器放在Java類路徑上來輕松擴(kuò)展列表。
(3)關(guān)聯(lián)數(shù)據(jù)查詢和訪問層。通過Sesame的Access API可以訪問這些功能模塊,它由兩個(gè)獨(dú)立的部分組成:Repository API和Graph API。Repository API提供對(duì)Sesame存儲(chǔ)庫的高級(jí)訪問、例如查詢、存儲(chǔ)RDF文件、提取RDF等。Graph API為RDF操作提供了更細(xì)粒度的支持,例如添加和刪除單個(gè)語句以及創(chuàng)建直接來自代碼的小型RDF模型。這兩個(gè)API在功能上相互補(bǔ)充,并且實(shí)際上經(jīng)常一起使用。Sesame支持兩種查詢語言:SPARQL和SeRQL,也可以通過LuceneSail添加自由文本搜索功能。
4? CORE對(duì)我國機(jī)構(gòu)知識(shí)庫的應(yīng)用建議
CORE通過集成世界各地的OA論文元數(shù)據(jù)和全文,提供了基于論文相似度的推薦服務(wù)和基于關(guān)聯(lián)數(shù)據(jù)的語義服務(wù),完成了OA元數(shù)據(jù)集成向內(nèi)容集成的有效轉(zhuǎn)換,提高了資源的可見度和訪問率,對(duì)傳統(tǒng)的OA知識(shí)庫集成系統(tǒng)進(jìn)行了發(fā)展,對(duì)我國仍處于初級(jí)階段的機(jī)構(gòu)知識(shí)庫的發(fā)展和完善具有一定的新意和借鑒意義。筆者從論文關(guān)系發(fā)現(xiàn)過程、論文推薦服務(wù)和關(guān)聯(lián)數(shù)據(jù)服務(wù)3個(gè)方面總結(jié)了CORE系統(tǒng)對(duì)我國機(jī)構(gòu)知識(shí)庫完善的啟示。
在論文關(guān)系發(fā)現(xiàn)方面,CORE先收割元數(shù)據(jù),并進(jìn)一步從收割到的元數(shù)據(jù)中提取URI字段,之后通過HTTP協(xié)議自動(dòng)從知識(shí)庫下載全文;在此基礎(chǔ)上通過自然語言處理技術(shù)從下載的論文中提取文本,然后通過計(jì)算“論文對(duì)”之間的語義相似度來識(shí)別其關(guān)聯(lián)強(qiáng)度。目前,我國機(jī)構(gòu)知識(shí)庫整合系統(tǒng)已實(shí)現(xiàn)了元數(shù)據(jù)層面的收割,并未實(shí)現(xiàn)全文的獲取,但在所收割的元數(shù)據(jù)字段中已包含URI字段,后續(xù)需要通過URI實(shí)現(xiàn)全文獲取,并將獲得的全文通過自然語言處理技術(shù)提取文本,計(jì)算論文對(duì)之間的相似性來識(shí)別論文關(guān)系。
在論文語義推薦服務(wù)方面,CORE通過將其開發(fā)CORE Recommender插件部署在CORE內(nèi)或者其他知識(shí)庫中實(shí)現(xiàn)論文推薦。我國機(jī)構(gòu)知識(shí)庫可借鑒這種思路,研發(fā)推薦服務(wù)系統(tǒng)或者引進(jìn)CORE Recommender插件部署在機(jī)構(gòu)知識(shí)庫中,以此來為用戶推薦相似論文。
在關(guān)聯(lián)數(shù)據(jù)服務(wù)方面,CORE通過利用現(xiàn)有的詞匯表MuSim相似度本體、BIBO書目本體和Sesame平臺(tái)對(duì)論文數(shù)據(jù)進(jìn)行關(guān)聯(lián)化發(fā)布,方便用戶更好地進(jìn)行語義鏈接。我國可以通過分析機(jī)構(gòu)知識(shí)庫的數(shù)據(jù)進(jìn)行建模,盡可能復(fù)用現(xiàn)有的成熟的詞匯表對(duì)數(shù)據(jù)進(jìn)行描述,并利用開源的關(guān)聯(lián)數(shù)據(jù)發(fā)布工具和平臺(tái)對(duì)機(jī)構(gòu)知識(shí)庫中的文獻(xiàn)資源進(jìn)行語義化組織和發(fā)布,從而提高資源的可發(fā)現(xiàn)性和可見度。
5? CORE論文關(guān)系發(fā)現(xiàn)過程及服務(wù)中遇到的問題
CORE在論文關(guān)系發(fā)現(xiàn)過程及提供的相關(guān)服務(wù)中也有許多問題和挑戰(zhàn)需要去解決,具體的解決方法如下:
(1)在全文內(nèi)容下載方面,主要涉及文件下載速度和數(shù)據(jù)存儲(chǔ)成本問題。針對(duì)下載速度問題,CORE通過使用緩沖流(BufferedStream)將全文內(nèi)容先下載到開放大學(xué)服務(wù)器上,用以解決在遠(yuǎn)程服務(wù)器相應(yīng)非常慢時(shí)自動(dòng)取消下載的問題。有關(guān)數(shù)據(jù)存儲(chǔ)成本問題,鑒于CORE需要從許多開放獲取存儲(chǔ)庫中下載數(shù)據(jù),系統(tǒng)需要較大的磁盤空間,同時(shí)為了執(zhí)行系統(tǒng)備份并允許系統(tǒng)快速響應(yīng),選擇快速串行連SCSI(Serial Attached SCSI, SAS)磁盤。
(2)在提取文本方面,CORE測(cè)試了3個(gè)PDF文本提取系統(tǒng):iText、Apache Tika(PDFBox)和pdftotext,最后發(fā)現(xiàn)雖然 Apache Tika的提取速度非常慢但提取到的文本質(zhì)量較高。最終,通過使用BufferedStreams先行緩沖,設(shè)法加快提取速度。
(3)在相似度計(jì)算方面,為了能夠在合理的時(shí)間內(nèi)發(fā)現(xiàn)相關(guān)的論文,涉及大量的論文組合問題。CORE開發(fā)了一種新的啟發(fā)式方法,通過使用文檔頻率切割標(biāo)準(zhǔn)來減少要考慮的組合數(shù)量,并考慮到計(jì)算結(jié)果的質(zhì)量問題,CORE在Lucene庫上開發(fā)了自己的TextAnalyzer和TextFilter,用于過濾數(shù)學(xué)公式、數(shù)字和其他類型的噪聲數(shù)據(jù)等。
6? 結(jié)語
筆者通過對(duì)CORE論文元數(shù)據(jù)和全文獲取過程、論文之間關(guān)系語義相似度計(jì)算的論文關(guān)系發(fā)現(xiàn)過程以及基于發(fā)現(xiàn)的論文語義關(guān)系提供的服務(wù)進(jìn)行了分析,為我國在開放獲取知識(shí)庫論文關(guān)系發(fā)現(xiàn)過程、論文推薦服務(wù)和關(guān)聯(lián)數(shù)據(jù)服務(wù)3個(gè)方面提供了有力的參考,但是CORE也存在下載速度慢、存儲(chǔ)開銷大、PDF中文本提取速度慢、相似度計(jì)算準(zhǔn)確度等問題,圍繞這些問題和挑戰(zhàn)還有待進(jìn)一步深入的研究。
參考文獻(xiàn):
[1] Openaire-history [EB/OL]. [2021-03-01]. https://www.openaire.eu/openaire-history.
[2] SHARE [EB/OL]. [2021-02-27]. https://share.osf.io/.
[3] The open archive HAL [EB/OL]. [2021-03-01]. https://hal.archives-ouvertes.fr/.
[4] 中國高校機(jī)構(gòu)知識(shí)庫聯(lián)盟 [EB/OL]. [2021-03-01]. http://chair.calis.edu.cn/.
[5] Hong Kong Institutional Repositories (HKIR) [EB/OL]. [2021-03-01]. https://library.tu.ac.th/tu-digital-collections/hong-kong-institutional-repositories-hkir.
[6] CORE – Aggregating the world’s open access research papers [EB/OL]. [2021-03-01]. https://core.ac.uk/.
[7] COnnecting Repositories [EB/OL]. [2021-03-01]. https://en.wikipedia.org/wiki/COnnecting_REpositories.
[8] Knowledge Media Institute [EB/OL]. [2021-03-01]. https://news.kmi.open.ac.uk/rostra/news.php?r=11&t=2&id=18463=KMi.
[9] CORE | Jisc [EB/OL]. [2021-03-01]. https://www.jisc.ac.uk/core#.
[10] Digging into Connected Repositories (DiggiCORE) [EB/OL]. [2021-03-01]. https://diggingintodata.org/awards/2011/project/digging-connected-repositories-diggicore.
[11] Data Providers [EB/OL]. [2021-03-01]. https://core.ac.uk/dataproviders.
[12] CORE Services [EB/OL]. [2021-03-01]. https://core.ac.uk/services.
[13] CORE Dataset [EB/OL]. [2021-03-01]. https://core.ac.uk/documentation/dataset/.
[14] Connecting Repositories (CORE) | Digging Into Data [EB/OL]. [2021-03-01]. https://diggingintodata.org/repositories/connecting-repositories-core.
[15] Open Archives Initiative Protocol for Metadata Harvesting [EB/OL]. [2021-03-01]. http://www.openarchives.org/pmh/.
[16] OAIHarvester2 [EB/OL]. [2021-03-01]. https://www.oclc.org/research/activities/oaiharvester2.html.
[17] Technical standards [EB/OL]. [2021-03-01]. https://blog.core.ac.uk/2011/03/.
[18] Releasing 1.8 million open access publications from publisher systems for text and data mining [EB/OL]. [2021-03-01]. https://blogs.lse.ac.uk/impactofsocialsciences/2018/03/22/releasing-1-8-million-open-access-publications-from-publisher-systems-for-text-and-data-mining/.
[19] Java文件流 BufferedStream [EB/OL]. [2021-03-01]. https://blog.csdn.net/mariofei/article/details/51195055.
[20] Apache Lucene[EB/OL]. [2021-03-01]. http://lucene.apache.org/.
[21] KNOTH P, ROBOTKA V, ZDRAHAL Z. Connecting repositories in the open access domain using text mining and semantic data [C]// International conference on theory and practice of digital libraries :research and advanced technology for digital libraries. Berlin: Springer, 2011: 483-487.
[22] Apache Tika [EB/OL]. [2021-03-01]. https://tika.apache.org/https://tika.apache.org/.
[23] FRANCINE C, AYMAN F, THORSTEN B. Multiple similarity measures and source-pair information in story link detection[C]// Proceedings of the human language technology conference of the North American Chapter of the Association for Computational Linguistics: HLT-NAACL 2004. Boston:? Association for Computational Linguistics, 2004: 313-320.
[24] CORE - Semantic Similarity of Open Access publications [EB/OL]. [2021-03-01]. https://lod-cloud.net/dataset/core.
[25] The EPrints Bazaar [EB/OL]. [2021-03-02]. https://bazaar.eprints.org/.
[26] CORE Recommender [EB/OL]. [2021-03-03]. https://core.ac.uk/services#recommender.
[27] Implementing the CORE Recommender in Strathprints: a “whitehat” improvement to promote user interaction [EB/OL]. [2021-03-03]. https://blog.core.ac.uk/2017/10/31/implementing-the-core-recommender-in-strathprints-a-whitehat-improvement-to-promote-user-interaction/.
[28] LA Referencia integrates CORE Recommender in its services [EB/OL]. [2021-03-03]. https://blog.core.ac.uk/2019/11/20/la-referencia-integrates-core-recommender-in-its-services/.
[29] CORE Recommender installation for DSpace [EB/OL]. [2021-03-03]. https://blog.core.ac.uk/2020/03/12/core-recommender-installation-for-dspace/.
[30] CORE Recommender now supports article discovery on arXiv [EB/OL]. [2021-03-03]. https://blog.arxiv.org/2020/10/15/core-recommender-now-supports-article-discovery-on-arxiv/.
[31] Sesame (framework) – Wikipedia [EB/OL]. [2021-03-06]. https://en.wikipedia.org/wiki/Sesame_(framework).
[32] The Similarity Ontology [EB/OL]. [2021-03-04]. http://grasstunes.net/ontology/similarity/0.2/musim.html.
[33] D'ARCUS B, GIASSON F. Bibliographic ontology specification [EB/OL]. [2021-03-05]. http://bibliontology.com/.
[34] Eclipse RDF4J – a Java framework for RDF [EB/OL]. [2021-03-10]. http://rdf4j.org/.
[35] Overview (OpenRDF Sesame 4.1.2 API) [EB/OL]. [2021-03-15]. http://archive.rdf4j.org/javadoc/sesame-4.1.2/.
[36] Apache Tomcat? [EB/OL]. [2021-03-15]. http://tomcat.apache.org/.
[37] Chapter1.Introduction: what is Sesame? [EB/OL]. [2021-03-17]. https://poc.vl-e.nl/distribution/manual/sesame-1.2.3/ch01.html.
[38] The SAIL API [EB/OL]. [2021-03-18]. http://docs.rdf4j.org/sail/.
作者貢獻(xiàn)說明:
白林林:負(fù)責(zé)數(shù)據(jù)獲取、研究提綱確定與論文撰寫;
萬妮:負(fù)責(zé)論文的修訂。
Research on CORE Paper Association Discovery and Semantic Services Based on Semantic Similarity
Bai Linlin? Wan Ni
Beijing Information and Science Technology University Library, Beijing 100192
Abstract: [Purpose/significance] This paper dissects the process and services of article association discovery in Connecting Repositories, and hopes to provide powerful reference for the recommendation and semantic linking of the content of articles in Chinese open access repositories. [Method/process] This paper analyzed the discovery process of article association based on semantic similarity and the semantic services based on article association. The discovery process of article association based on semantic similarity included metadata and full-text content harvesting, and semantic similarity calculation of article association. The semantic service based on the discovery process of article association included the CORE recommendation service and the linked open data service. And this paper summarized the application suggestions of CORE to Chinese institutional repositories. [Result/conclusion] This paper finds CORE system automatically harvests the metadata of the open access repositories through the existing OAI-PMH protocol, and further extracts the URI fields from the metadata to download the full-text through the HTTP protocol. Furtherly, providing article recommendation services and services of data linked articles based on the discovery of article semantic association enables third-party systems to utilize CORE datasets, it provides a powerful reference in recommendation and semantic linking of article association for open access repositories (such as institutional repositories and open access journals) in China.
Keywords: Connecting Repositories? ? semantic similarity? ? article association? ? recommendation system? ? linked data