黃政,張學福
(中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所,北京 100081)
一種基于網(wǎng)頁信息抽取的OA期刊資源采集方法研究
黃政,張學福
(中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所,北京 100081)
本文結(jié)合開放獲取期刊(Open Access Journal,OA期刊)資源特點,針對無法通過OAI-PMH協(xié)議進行資源采集的OA期刊,提出一種基于網(wǎng)頁信息抽取的資源采集策略。本文從網(wǎng)頁資源描述的角度總結(jié)OA期刊資源特點并對其分類?;诰W(wǎng)頁信息抽取方法在OA期刊資源采集適用性,提出一種基于OA期刊網(wǎng)頁元數(shù)據(jù)抽取的采集方法,并在此方法的基礎(chǔ)上設(shè)計了采集系統(tǒng)。通過對國內(nèi)外不遵循OAI-PMH協(xié)議的10本OA期刊的網(wǎng)站實證采集,得到45 785篇論文的元數(shù)據(jù),證明該采集方法能有效地應用于此類資源采集。研究豐富了OA期刊資源采集方式,對不遵循OAI-PMH協(xié)議的OA期刊資源采集提供方法借鑒。
OA期刊;OA期刊資源采集;網(wǎng)頁信息采集;OA期刊資源采集系統(tǒng)
開放獲取期刊(Open Access Journal,OA期刊)是經(jīng)過同行評審,且在網(wǎng)絡(luò)上可免費獲取的期刊。OA期刊資源主要包括期刊元數(shù)據(jù)、論文元數(shù)據(jù)以及論文全文等。該類資源分布廣泛,且經(jīng)過同行評審,具有重要的學術(shù)價值。目前,OA期刊資源采集方法主要有兩種:一種是針對遵循OAI-PMH協(xié)議的OA期刊,采用OAIPMH協(xié)議的方法對資源進行采集,該方法在此類資源采集應用中較成熟;另一種是對于部分不遵循OAIPMH協(xié)議的OA期刊,通常采用網(wǎng)頁信息抽取方法。然而,由于OA期刊資源在網(wǎng)頁中存在組織形式不一、揭示粒度多變,且網(wǎng)頁結(jié)構(gòu)變化多樣等特點,這為此類期刊資源采集帶來了一定挑戰(zhàn)。本文將從OA期刊資源特點出發(fā),對網(wǎng)頁信息采集方法和采集工具在OA期刊資源采集中的適用性進行對比分析,針對無法通過OAIPMH協(xié)議進行資源采集的OA期刊,提出一種基于網(wǎng)頁信息抽取的資源采集策略。以期既能豐富OA期刊資源采集方式,也能對不遵循OAI-PMH協(xié)議的OA期刊資源采集提供指導,提高資源采集效率。
OA期刊資源采集的研究現(xiàn)狀可以從網(wǎng)頁信息采集、開放獲取資源采集和OA期刊資源采集三個角度進行分析。
在網(wǎng)頁信息采集方面,根據(jù)采集包裝器形成方式將采集方法分為:(1)基于自然語言處理的網(wǎng)頁信息抽取,即將網(wǎng)頁信息作為文本,使用自然語言處理技術(shù)來抽取網(wǎng)頁信息;(2)基于本體的網(wǎng)頁信息抽取,即將網(wǎng)頁正文信息與構(gòu)建的本體集進行比較并計算相關(guān)度,從中抽取相關(guān)度高的信息;(3)基于包裝器歸納方式的網(wǎng)頁信息抽取,即對有標注的樣本網(wǎng)頁采用機器學習算法來歸納抽取規(guī)則,并利用該規(guī)則抽取其他網(wǎng)頁信息;(4)基于HTML頁面結(jié)構(gòu)分析的網(wǎng)頁信息抽取,即將網(wǎng)頁解析為結(jié)構(gòu)樹,對比多個網(wǎng)頁,進而構(gòu)建抽取信息的正則表達式采集網(wǎng)頁中的信息;(5)基于Web查詢的網(wǎng)頁信息抽取,即先將網(wǎng)頁進行解析,再使用類似數(shù)據(jù)庫查詢語句對網(wǎng)頁信息進行采集[1-4]。
在開放獲取資源采集方面,有學者對不同類型的開放獲取資源采集進行了研究。朱江等研究開放會議資源采集,利用用戶推薦和人工收集方式對Web環(huán)境下的開放會議資源進行采集,采用文本識別的方式抽取非結(jié)構(gòu)化文本格式的會議文獻開放資源[5];王思麗等根據(jù)開放知識資源的不同數(shù)據(jù)來源提出不同的自動采集策略,包括基于OAI-PMH協(xié)議的元數(shù)據(jù)采集策略、基于抽取動態(tài)網(wǎng)頁的元數(shù)據(jù)采集策略和基于解析RSS源接口的元數(shù)據(jù)采集策略[6]。對開放獲取資源采集方法的研究也越來越全面和深入,對所采集資源從一概而論變?yōu)榉诸愔贫ú杉呗?開放資源采集方法研究逐步從人工采集過渡到自動采集。除方法層面的研究外,有學者也從系統(tǒng)層面展開研究。宋辰對科技情報采集系統(tǒng)進行研究,指出當前科技情報采集工具難以滿足情報資源采集需求的原因之一在于收費系統(tǒng)需要花費大量財力和人力,并且系統(tǒng)使用和維護困難[7]。
在OA期刊資源采集方面,基于OAI-PMH協(xié)議的元數(shù)據(jù)采集方法對于主要局限于遵循OAI-PMH協(xié)議的OA期刊,資源采集的應用已十分成熟[8-12]。針對OA期刊網(wǎng)頁中展示的資源主要是先通過人工分析網(wǎng)頁結(jié)構(gòu),再使用網(wǎng)頁解析工具來對資源進行采集[13],該方法主要以人工考察分析網(wǎng)頁結(jié)構(gòu)為主,需要采集者具有一定的計算機專業(yè)背景,而且工作量大,不適合對大量期刊資源采集。OA期刊資源屬于網(wǎng)絡(luò)資源的一種,對不遵循OAI-PMH協(xié)議的OA期刊,可以借鑒網(wǎng)頁信息采集方法。文本將從網(wǎng)頁信息采集的角度出發(fā),結(jié)合OA期刊資源特點,對不遵循OAI-PMH協(xié)議的OA期刊資源采集策略進行研究,以滿足此類OA期刊資源采集需求。
2.1 OA期刊資源的特點與分類
OA期刊分為遵循OAI-PMH協(xié)議和不遵循OAIPMH協(xié)議兩種,但所有的OA期刊都是通過網(wǎng)頁對資源進行描述和展示,且描述和展示的方式差異較小,故本文分析的OA期刊資源特點適用于所有類型。
2.1.1 OA期刊資源的特點
(1)描述粒度細。OA期刊資源的元數(shù)據(jù)包含眾多字段,如文章標題、中英文關(guān)鍵詞、中英文摘要、作者、機構(gòu)、期刊名、年、卷、期等。相比于其他網(wǎng)絡(luò)資源,OA期刊資源元數(shù)據(jù)描述粒度更細。
(2)展現(xiàn)形式多樣。OA期刊資源的元數(shù)據(jù)字段眾多,而這些字段通常是以不同的組織形式展現(xiàn)在網(wǎng)頁中。部分元數(shù)據(jù)字段在網(wǎng)頁中是按照單個字段進行展示,如文章標題、摘要等;而部分元數(shù)據(jù)是多個字段組合成一條文本信息進行展示,如文章的年、卷、期。
(3)描述載體結(jié)構(gòu)多變。在對國內(nèi)OA期刊資源調(diào)研過程中發(fā)現(xiàn),部分OA期刊網(wǎng)站的資源展示頁面,在不同時期采用不同的網(wǎng)頁模板。在結(jié)構(gòu)發(fā)生變化的開放獲取資源網(wǎng)站中,一般會存在1—3套不等的網(wǎng)頁模板;而其他網(wǎng)絡(luò)資源,如電商平臺、論壇等通常采用統(tǒng)一的網(wǎng)頁模板。
2.1.2 OA期刊資源分類
OA期刊資源以不同的組織形式在不同網(wǎng)頁中進行展示,本文根據(jù)OA期刊資源在網(wǎng)頁中的組織形式,將其分為單一型資源和組合型資源。
單一型資源指網(wǎng)頁中一個HTML標簽僅展示一個元數(shù)據(jù)字段信息的資源,如期刊名稱、文章標題、摘要、關(guān)鍵詞、全文獲取鏈接等。此類資源信息揭示簡單明了、層次清晰。
組合型資源指網(wǎng)頁中一個HTML標簽封裝多個期刊元數(shù)據(jù)字段信息的資源,多個字段通常是組合成一個文本信息進行展示,如期刊的年、卷、期字段等。組合型資源的文本信息由固定字段按照一定的形式組合而成,具有一定的結(jié)構(gòu)性,為半結(jié)構(gòu)化文本。
2.2 現(xiàn)有網(wǎng)頁信息采集方法的特點及適用性分析
2.2.1 現(xiàn)有網(wǎng)頁信息采集方法特點分析
現(xiàn)有網(wǎng)頁信息采集方法主要分為基于自然語言處理的網(wǎng)頁信息抽取、基于本體的網(wǎng)頁信息抽取、基于包裝器歸納方式的網(wǎng)頁信息抽取、基于HTML頁面結(jié)構(gòu)分析的網(wǎng)頁信息抽取以及基于Web查詢的網(wǎng)頁信息抽取。5種采集方法特點對比分析結(jié)果如表1所示。
由表1可見,5種網(wǎng)頁信息采集方法采用不同方式來保證資源采集的準確性。如基于包裝器歸納方式的網(wǎng)頁信息抽取方法需要對樣本進行標注,通過機器學習歸納抽取規(guī)則來提高采集準確率;基于Web查詢的網(wǎng)頁信息抽取方法通過對網(wǎng)頁分析,編寫合適查詢語句來準確定位頁面中資源。不同的Web信息采集方法由于采集方式不同,適用于不同類型的網(wǎng)頁資源采集。如基于自然語言處理的網(wǎng)頁信息抽取方法適用于大量文本信息抽取,基于本體的網(wǎng)頁信息抽取方法適用于特定領(lǐng)域的信息抽取。
表1 5種網(wǎng)頁信息采集方法特點對比分析
2.2.2 網(wǎng)頁信息采集方法對OA期刊資源采集的適用性分析
與傳統(tǒng)網(wǎng)頁信息采集不同的是,OA期刊資源采集更注重網(wǎng)頁內(nèi)部元數(shù)據(jù)的過濾和抽取,網(wǎng)頁元素采集準確率是衡量采集方法適用性的基本指標。每本OA期刊的網(wǎng)頁結(jié)構(gòu)各不相同,因此采集方法需要具有很好的靈活性,以應對不同網(wǎng)頁結(jié)構(gòu)的OA期刊資源采集。單一型資源采集類似于普通網(wǎng)頁元數(shù)據(jù)采集,僅抽取網(wǎng)頁標簽對封裝的信息;而組合型資源除抽取網(wǎng)頁標簽對封裝的文本信息外,還需要對文本信息進一步采集,抽取文本信息中的單個資源信息。因此,文本信息抽取是采集OA期刊資源組合型元數(shù)據(jù)資源的主要方式。綜合而言,采集準確率和方法靈活性是衡量方法適用性的基礎(chǔ),而文本信息處理是全面采集OA期刊資源的衡量指標。通過對5種網(wǎng)頁信息采集方法特點以及優(yōu)缺點分析,結(jié)合5種方法在OA期刊資源采集上的應用,對5種方法適用性對比分析如表2所示。
表2 5種網(wǎng)頁信息采集方法適用性對比分析
通過對5種網(wǎng)頁信息采集方法的適用性分析,得出兩個結(jié)論。(1)現(xiàn)有主要的網(wǎng)頁信息采集方法無法單獨完成OA期刊資源采集工作?;赪eb查詢的網(wǎng)頁信息抽取方法具備采集準確率和方法靈活性特征,但無法對文本信息進行處理。而其他4種方法無法兼?zhèn)洳杉瘻蚀_率和方法靈活性。在文本信息處理方面,雖然基于本體的網(wǎng)頁信息抽取方法和基于包裝器歸納方式的網(wǎng)頁信息采集方法通過構(gòu)造本體集或構(gòu)造包裝器能夠?qū)ξ谋局械男畔⒊槿?但基于自然語言處理的信息抽取方法能更靈活、準確地抽取文本信息。(2)OA期刊資源采集方法需要綜合網(wǎng)頁信息采集方法的功能。雖然現(xiàn)有網(wǎng)頁信息采集方法無法完成OA期刊資源的完整性采集,但基于Web查詢的網(wǎng)頁信息抽取方法和基于自然語言處理的網(wǎng)頁信息抽取方法分別具備OA期刊資源采集的基礎(chǔ)性指標和全面性指標,OA期刊資源采集方法需要綜合這兩種Web信息采集方法的功能,實現(xiàn)OA期刊資源靈活、準確和全面地采集。
2.3 基于網(wǎng)頁信息抽取的OA期刊資源采集方法
通過分析5種網(wǎng)頁信息采集方法的特征,以及各方法在OA期刊資源采集的適用性,認為OA期刊資源采集方法需要集成Web查詢和自然語言處理兩種網(wǎng)頁信息資源采集方法的功能。基于網(wǎng)頁信息抽取的OA期刊資源采集方法如圖1所示。
圖1 基于網(wǎng)頁信息抽取的OA期刊資源采集方法
網(wǎng)頁元素采集指對OA期刊網(wǎng)頁中的單一型資源和組合型資源的文本信息進行采集。這些文本信息封裝在HTML標簽對中,屬于網(wǎng)頁元素。OA期刊資源采集需要靈活、準確地采集OA期刊網(wǎng)頁中的元素。借鑒Web信息采集方法思想,將網(wǎng)頁元素采集具體分為三個步驟:首先,將網(wǎng)頁解析成DOM樹結(jié)構(gòu);其次,解析出待采集網(wǎng)頁元素在DOM樹中的路徑,并以該路徑作為查詢條件;最后,使用Web-SQL語句對該網(wǎng)頁元素進行查詢和采集。該方法對網(wǎng)頁依賴度較低,而且不需要大量樣本學習,可以靈活應對不同OA期刊網(wǎng)頁元素采集。同時,通過待采集元素在DOM樹中的路徑可以準確定位網(wǎng)頁元素位置,保證采集的準確性。
半結(jié)構(gòu)化文本信息抽取指對組合型資源的OA期刊元數(shù)據(jù)字段進行抽取。組合型資源的文本信息是由多個期刊元數(shù)據(jù)字段組合而成的半結(jié)構(gòu)化文本。為保證資源采集的全面性,需對組合型資源文本信息中的期刊元數(shù)據(jù)進行抽取。使用類似基于自然語言處理的信息抽取方法,可以對組合型資源的半結(jié)構(gòu)化文本信息進行抽取。具體步驟為:先對半結(jié)構(gòu)化文本信息進行結(jié)構(gòu)分析,通過人工標注,構(gòu)建正則表達式對文本進行分解,抽取期刊元數(shù)據(jù),進而保證期刊資源的全面采集。
2.4 現(xiàn)有網(wǎng)頁信息采集工具特點及適用性分析
為解決OA期刊資源采集的實際問題,同時驗證本文提出的基于OA期刊資源網(wǎng)頁元數(shù)據(jù)采集方法的有效性,先對現(xiàn)有3款典型網(wǎng)頁信息采集工具進行對比,并對各采集工具在OA期刊網(wǎng)頁元數(shù)據(jù)采集中的適用性進行分析。
2.4.1 現(xiàn)有網(wǎng)頁信息采集工具特點分析
國內(nèi)外3款典型網(wǎng)頁信息采集工具對比分析如表3所示。通過對采集工具對比分析發(fā)現(xiàn),3款采集工具都采用類似基于Web查詢的網(wǎng)頁信息抽取方法,來對網(wǎng)頁元素進行采集。不同的是,在實現(xiàn)基于Web查詢的網(wǎng)頁信息抽取方法時,一部分工具是自動形成定位規(guī)則,另一部分工具則需要人工制定定位規(guī)則。而對于網(wǎng)頁元素中的文本信息,部分采集工具提供正則表達式匹配抽取功能。
2.4.2 網(wǎng)頁信息采集工具對OA期刊資源采集的適用性分析
通過上述分析,發(fā)現(xiàn)3款采集工具都能準確地采集網(wǎng)頁元素,因此,本文主要從采集資源的完整性角度分析各采集工具在OA期刊資源采集上的適用性。本文將OA期刊資源分為單一型資源和組合型資源,本文提出的判斷采集工具是否適用于OA期刊資源采集,主要由采集工具是否能對單一型資源和組合型資源進行采集決定。此外,本文在對OA期刊資源采集調(diào)研中發(fā)現(xiàn),有超過10%的OA期刊網(wǎng)站存在多套網(wǎng)頁模板,即存在網(wǎng)頁結(jié)構(gòu)變化的情況。因此,能否對網(wǎng)頁結(jié)構(gòu)變化后的資源進行采集也是判斷采集工具是否適用于OA期刊資源采集的指標之一。綜上所述,單一型資源采集、組合型資源采集以及網(wǎng)頁結(jié)構(gòu)變化后資源采集是判斷采集工具是否適用于OA期刊資源采集的主要指標。通過對3款工具特點和優(yōu)缺點分析,結(jié)合各工具在OA期刊資源采集上的應用,對3款采集工具的適用性分析如表4所示。
表3 3款國內(nèi)外典型網(wǎng)頁信息采集工具特點對比分析
表4 3款網(wǎng)頁信息采集工具適用性對比分析
通過適用性分析,可以得出兩個結(jié)論。(1)現(xiàn)有采集工具基本實現(xiàn)了本文提出的采集方法的功能,即對網(wǎng)頁元素準確、靈活地采集,對文本信息進行進一步抽取。(2)現(xiàn)有采集工具無法對網(wǎng)頁結(jié)構(gòu)變化后的OA期刊資源進行完整采集。由于OA期刊網(wǎng)站存在網(wǎng)頁結(jié)構(gòu)發(fā)生變化的情況,采集工具不具備網(wǎng)頁結(jié)構(gòu)檢查功能,形成的采集規(guī)則無法對結(jié)構(gòu)變化的網(wǎng)頁進行采集。
通過以上分析,雖然現(xiàn)有采集工具基本實現(xiàn)本文提出的基于OA期刊網(wǎng)頁信息抽取方法的功能,但并不能對網(wǎng)頁結(jié)構(gòu)變化后的OA期刊資源進行有效采集。因此,本文在現(xiàn)有方法基礎(chǔ)上,設(shè)計一種適用于OA期刊資源采集的系統(tǒng)并進行實證分析,以更好地實現(xiàn)OA期刊資源的全面采集。
現(xiàn)有采集工具無法對網(wǎng)頁結(jié)構(gòu)發(fā)生變化的OA期刊資源進行采集,為全面采集OA期刊資源,進一步驗證本文提出的基于網(wǎng)頁信息抽取的OA期刊資源采集方法的有效性,在該方法的基礎(chǔ)上,還需要提供頁面結(jié)構(gòu)檢查功能。基于網(wǎng)頁信息抽取的OA期刊資源采集框架如圖2所示。
基于OA期刊網(wǎng)頁元數(shù)據(jù)抽取的采集框架主要分為數(shù)據(jù)源、數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)服務四個層次。
數(shù)據(jù)源層是采集系統(tǒng)面向的數(shù)據(jù)源。本文主要研究不遵循OAI-PMH協(xié)議的OA期刊資源采集方法。根據(jù)網(wǎng)頁中OA期刊資源的組織形式,為保證OA期刊資源采集的全面和完整,數(shù)據(jù)源需覆蓋結(jié)構(gòu)統(tǒng)一和結(jié)構(gòu)變化兩種網(wǎng)頁結(jié)構(gòu)的OA期刊資源。
數(shù)據(jù)采集層是對OA期刊資源實施采集。對于不遵循OAI-PMH協(xié)議的資源,主要是在基于OA期刊網(wǎng)頁元數(shù)據(jù)抽取的采集方法基礎(chǔ)上,輔以網(wǎng)頁結(jié)構(gòu)檢查功能,來滿足單一型資源、組合型資源以及網(wǎng)頁結(jié)構(gòu)發(fā)生變化后的期刊資源進行采集。主要解決當前網(wǎng)頁信息采集方法無法單獨完成OA期刊資源采集,以及當前采集工具無法對網(wǎng)頁結(jié)構(gòu)變化后的OA期刊資源采集的問題。
數(shù)據(jù)存儲層主要表現(xiàn)OA期刊資源采集過程中數(shù)據(jù)的存儲過程,包括初始URL、待采集URL和采集規(guī)則等的臨時存儲,以及本地OA期刊元數(shù)據(jù)數(shù)據(jù)庫等。
數(shù)據(jù)服務層主要是為采集到的OA期刊資源提供服務,如對采集到的數(shù)據(jù)進行展示和提供下載服務。
為進一步驗證本文提出的方法,對基于網(wǎng)頁信息抽取的OA期刊資源采集系統(tǒng)的主要功能進行具體的實現(xiàn)。
圖2 基于網(wǎng)頁信息抽取的OA期刊資源采集框架
(1)網(wǎng)頁元素采集。使用JavaFX可視化組件Web View,實現(xiàn)資源選擇和查詢語句自動生成,通過網(wǎng)頁解析器Jsoup根據(jù)查詢語句采集網(wǎng)頁信息。具體而言,當Web View組件加載HTML內(nèi)容時,為每個節(jié)點添加事件監(jiān)聽,當鼠標點擊某節(jié)點時,系統(tǒng)會將該節(jié)點賦值給“org.w3c.dom.Node”類型的變量。Node類提供“getParentNode()”的方法來獲取當前節(jié)點的父類節(jié)點,據(jù)此可遞歸尋找到當前節(jié)點到網(wǎng)頁根節(jié)點的路徑。通過將路徑中各節(jié)點標簽名和屬性值拼接成Jsoup能夠識別的查詢語句,再使用Jsoup中select方法對待采集節(jié)點的信息進行采集,即可完成網(wǎng)頁元素采集工作。
(2)半結(jié)構(gòu)化文本信息抽取。具體實現(xiàn)方式為通過用戶標注的分隔符,再根據(jù)分隔符位置,提取元數(shù)據(jù)字段信息。OA期刊網(wǎng)站通常會將“年、卷、期”組合成一條文本信息,如“2017,vol39,no.1”。在抽取具體信息時,先將該條文本信息作為網(wǎng)頁元素進行采集,再通過用戶在文本中插入分隔符進行標注,將所需采集信息與固定展示信息進行分隔,即“{2017},vol{39}, no.{1}”“2017”“39”“1”是需要采集的信息,“,vol”“,no.”是固定展示信息。固定展示信息內(nèi)容通常不會改變,因此,可以根據(jù)固定展示信息位置來抽取文本中相應信息。
(3)網(wǎng)頁結(jié)構(gòu)檢查。根據(jù)規(guī)定所需采集的必須字段,來作為判斷網(wǎng)頁結(jié)構(gòu)是否發(fā)生變化的標準,如果采集到的必須字段為空則認為當前網(wǎng)頁結(jié)構(gòu)已發(fā)生變化,需重新選擇和采集。如文章標題作為必須字段,在網(wǎng)頁元素采集時會判斷采集到的該字段是否為空。如果為空則可能有兩種情況:一是當前頁面確實沒有該字段,此頁面為臟頁面;二是當前頁面存在該字段,但該元數(shù)據(jù)采集規(guī)則不適用于當前頁面,則可以判斷此頁面為結(jié)構(gòu)變化后的頁面。系統(tǒng)無法識別必須字段為空時屬于何種情況,因此,系統(tǒng)會將當前頁面加入結(jié)構(gòu)變化頁面鏈接數(shù)組中。該輪采集結(jié)束后,提取結(jié)構(gòu)變化網(wǎng)頁鏈接數(shù)組的第一個鏈接,在內(nèi)嵌瀏覽器中進行展示,由用戶對字段為空的情況作出判斷。系統(tǒng)對兩種情況均提出解決方案,對于第一種臟頁情況,直接跳過,并將該頁面鏈接從結(jié)構(gòu)變化的網(wǎng)頁鏈接數(shù)組中刪除;對于第二種網(wǎng)頁結(jié)構(gòu)變化的情況,用戶會在結(jié)構(gòu)變化后的頁面上重新進行元數(shù)據(jù)選擇,將形成的新采集規(guī)則加入原采集規(guī)則集合中,系統(tǒng)會使用新的采集規(guī)則繼續(xù)進行采集。這樣往復2—3次便可以遍歷網(wǎng)站所有模板,進而采集到全數(shù)據(jù),解決OA期刊資源網(wǎng)頁結(jié)構(gòu)多變而無法全面采集的問題。
為驗證基于網(wǎng)頁信息抽取的OA期刊資源采集方法的有效性,本文選擇國內(nèi)外不遵循OAI-PMH協(xié)議的10本OA期刊的網(wǎng)站作為采集對象,通過爬蟲腳本采集10本OA期刊的論文鏈接數(shù)量,作為采集數(shù)量全面性的標準。測試結(jié)果如表5所示。
表5 10本OA期刊資源采集結(jié)果對比分析
由表5可知,10本期刊共采集到論文45 785篇,采集時間共用31 039秒,其中有4本期刊的網(wǎng)頁結(jié)構(gòu)發(fā)生變化。通過系統(tǒng)測試結(jié)果可以看出,基于網(wǎng)頁信息抽取的OA期刊資源采集方法可以靈活應對不同OA期刊資源的采集。在準確率方面,該方法能準確采集單一型資源和文本結(jié)構(gòu)固定的組合型資源,說明其能夠適用于OA期刊資源采集工作。基于網(wǎng)頁信息抽取的OA期刊資源采集系統(tǒng)的網(wǎng)頁結(jié)構(gòu)檢查能準確識別網(wǎng)頁結(jié)構(gòu)變化,并對結(jié)構(gòu)變化后的資源進行采集。除部分OA期刊網(wǎng)站存在無法訪問或無詳細信息外,采集到的論文數(shù)量與通過爬蟲腳本統(tǒng)計到的論文鏈接數(shù)一致。從采集時間上看,平均1 000篇文章的采集時間為678秒??傮w而言,基于網(wǎng)頁信息抽取的OA期刊資源采集方法,能較好地滿足不遵循OAI-PMH協(xié)議的OA期刊資源采集需求。
本文以O(shè)A期刊資源為研究對象,從網(wǎng)頁信息采集的角度,對不遵循OAI-PMH協(xié)議的OA期刊資源采集進行研究。首先,本文對OA期刊資源特點進行總結(jié),并按照資源在網(wǎng)頁中的組織方式將其分為單一型資源和組合型資源;其次,分析對網(wǎng)頁采集方法在OA期刊資源采集上的適用性,發(fā)現(xiàn)網(wǎng)頁采集方法無法單獨完成OA期刊資源采集工作。因此,本文提出基于網(wǎng)頁信息抽取的OA期刊資源采集方法,該方法綜合了網(wǎng)頁信息采集方法的功能,不僅能準確、靈活采集OA期刊網(wǎng)頁元素,也能對本文信息進行抽取。通過3款典型網(wǎng)頁信息采集工具在OA期刊資源采集上的適用性分析,發(fā)現(xiàn)各工具均無法對網(wǎng)頁結(jié)構(gòu)發(fā)生變化的OA期刊資源進行采集。因此,本文對基于網(wǎng)頁信息抽取的OA期刊資源采集系統(tǒng)進行設(shè)計,增加對網(wǎng)頁結(jié)構(gòu)的檢查。通過對國內(nèi)外不遵循OAI-PMH協(xié)議的10本期刊網(wǎng)站實證采集,發(fā)現(xiàn)4本期刊網(wǎng)站存在網(wǎng)頁結(jié)構(gòu)發(fā)生變化的情況,并對網(wǎng)頁結(jié)構(gòu)變化后的資源進行采集,得到45 785篇論文的元數(shù)據(jù)信息,證明采集框架能很好地指導不遵循OAI-PMH協(xié)議的OA期刊資源采集工作。本文雖然基本滿足不遵循OAI-PMH協(xié)議的OA期刊資源采集需求,但仍存在如資源采集時間過長等問題,還有待進一步優(yōu)化。
[1]LAENDER A H F,RIBEIRO-NETO B A,SILVA A S D,et al.Abrief surveyof web data extraction tools[J].Acm Sigmod Record,2002,31(2):84-93.
[2]蒲筱哥.基于Web的信息抽取技術(shù)研究綜述[J].現(xiàn)代情報,2007,27(10): 215-219.
[3]董娟.基于頁面結(jié)構(gòu)分析的網(wǎng)頁信息抽取方法研究[D].青島:中國石油大學(華東),2010.
[4]于靜.基于頁面主體提取的WEB信息抽取技術(shù)研究[D].南京:南京郵電大學,2013.
[5]朱江,尚瑋姣,姜恩波,等.會議文獻開放資源采集與服務系統(tǒng)的建設(shè)[J].情報理論與實踐,2010(7):117-119.
[6]王思麗,馬建玲,王楠,等.開放知識資源的元數(shù)據(jù)自動采集策略研究[J].圖書館學研究,2013(12):47-51.
[7]宋辰.科技情報采集系統(tǒng)的設(shè)計及其快速文本聚類方法研究[D].北京:北京工業(yè)大學,2014.
[8]董慧,丁波濤.用OAI-MHP協(xié)議解決數(shù)字圖書館互操作問題[J].情報科學,2004(6):699-702.
[9]李勇文.OAI元數(shù)據(jù)搜索引擎的設(shè)計與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2005(2): 37-39,32.
[10]王芳,王小麗.基于OAI協(xié)議的數(shù)字檔案館元數(shù)據(jù)互操作問題研究[J].現(xiàn)代圖書情報技術(shù),2007(3):18-24.
[11]徐方,張靜.國內(nèi)OAI-PMH協(xié)議研究綜述[J].現(xiàn)代情報,2009(1):89-94.
[12]郭少友.OAI-PMH元數(shù)據(jù)的關(guān)聯(lián)數(shù)據(jù)化方法研究[J].圖書情報工作, 2011(2):107-111.
[13]楊東清.開放獲取期刊資源庫共建共享平臺的研究與開發(fā)[D].南京:南京農(nóng)業(yè)大學,2010.
A Research on Open Access Journal Resource Acquisition Method Based on Web Information Extraction
HUANG Zheng, ZHANG XueFu
(Agricultural Information Institute of Chinese Academy of Agricultural Sciences, Beijing 100081, China)
Open access journal resources have important academic value, however, some open access journals do not follow the OAI-PMH protocol, and can not collect resources through OAI-PMH protocol.In this paper, based on the characteristics of open Access journal resources, we propose a non OAI-PMH protocol based open access resource acquisition strategy.In this paper, from the point of view of web resources description, this paper summarizes the characteristics of open access journal resources and classi fi es them from the point of view of web resources description.Based on the applicability of the web information collection method in collecting open access journal resources, this paper proposes a open access journal resource acquisition strategy non based on OAI-PMH protocol, which is based on the method of acquisition open access journal web metadata extraction and design the acquisition system.Through the empirical study of 10 open access journals which do not provide the OAI-PMH protocol at home and abroad, a total of 45 785 papers were collected.It is proved that this method can be effectively applied to the acquisition of such resources.The research enriches the acquisition methods of open access journals, and provides a method to guide the acquisition of open access journals that do not follow the OAI-PMH protocol.
Open Access Journal; Open Access Journal Resource Acquisition; Web Information Acquisition; Open Access Journal Resource Acquisition System
G250
10.3772/j.issn.1673-2286.2017.05.004
黃政,男,1992年生,碩士研究生,研究方向:信息資源管理,E-mail:17888802420@163.com。
張學福,男,1966年生,博士,研究員,研究方向:農(nóng)業(yè)知識組織與可視化分析,通訊作者,E-mail:zhangxuefu@caas.cn。
2017-04-14)