国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

以主題爬蟲視角進(jìn)行數(shù)字資源的建設(shè)探析

2014-10-29 22:32:33何鈞雷
電子技術(shù)與軟件工程 2014年16期
關(guān)鍵詞:數(shù)字資源本體建設(shè)

何鈞雷

摘 要

作為數(shù)字圖書館建設(shè)的重要方面之一,數(shù)字資源建設(shè)可以利用主題爬蟲對網(wǎng)絡(luò)中所蘊(yùn)含的數(shù)字資源進(jìn)行自動化搜集。主題網(wǎng)絡(luò)爬蟲是主題搜索引擎的重要構(gòu)成方面,本文以本體指導(dǎo)主題爬蟲進(jìn)行數(shù)字資源的建設(shè),實(shí)驗結(jié)果顯示:以主題爬蟲為基礎(chǔ)進(jìn)行數(shù)字資源建設(shè)具有一定的實(shí)用價值,但性能有待進(jìn)一步提高。

【關(guān)鍵詞】主題爬蟲 數(shù)字資源 本體 建設(shè)

【關(guān)鍵詞】主題爬蟲 數(shù)字資源 本體 建設(shè)

數(shù)字資源在教育及科研等多個領(lǐng)域均具有舉足輕重的作用,圖書館是教學(xué)及科研的信息中心,因此,數(shù)字資源建設(shè)也是數(shù)字圖書館建設(shè)的重要方面之一。萬維網(wǎng)的推廣與應(yīng)用使其成為數(shù)字資源的主要來源之一,但是,由于其海量化、異構(gòu)化、增長快速化、半結(jié)構(gòu)化、動態(tài)更新化等特點(diǎn),導(dǎo)致手動搜索數(shù)字資源變得越來越費(fèi)時、費(fèi)力,主題爬蟲有效解決了這一問題。

1 主題爬蟲的概念與分類

所謂的“主題爬蟲”,指的是利用不同鏈接及爬取策略,從制定的主題資源入手,對各網(wǎng)頁鏈接進(jìn)行分析,并對主題相關(guān)度進(jìn)行計算,去除同主題不相關(guān)的資源及信息,保存同主題相關(guān)度較高的資源,有選擇性的爬取網(wǎng)頁。理想情況下,好的主題爬蟲可以準(zhǔn)確分析網(wǎng)頁主題相關(guān)度,因而運(yùn)行效率更高、更準(zhǔn),可以快速搜索到用戶所需資源。

根據(jù)不同的排序算法,可將主題網(wǎng)絡(luò)爬蟲分為三大類,即經(jīng)典爬蟲、語義爬蟲、智能爬蟲。其中,經(jīng)典爬蟲主要利用的是網(wǎng)頁文本的內(nèi)容、結(jié)構(gòu)及兩者相結(jié)合,對URLs 排序優(yōu)先值進(jìn)行計算,再進(jìn)行降序排列;語義爬蟲利用的是本體相似度對URLs 排序優(yōu)先值進(jìn)行計算,再進(jìn)行降序排列;智能爬蟲利用人工智能計算方式,對URLs排序優(yōu)先值進(jìn)行計算,再進(jìn)行降序排列。

2 主題爬蟲關(guān)鍵技術(shù)分析

2.1 爬行策略

主題爬蟲搜索策略是按有規(guī)則的、預(yù)先安排好的方式對網(wǎng)頁進(jìn)行搜集,爬蟲對網(wǎng)絡(luò)節(jié)點(diǎn)爬行方式是按照一定的次序,有目的性地進(jìn)行抓取,因而可使爬行方式更科學(xué)、目表更明確,且可以對爬行路線進(jìn)行有效辨別及解析。整體而言,主題爬蟲搜索策略包括兩種,即宏觀策略和微觀策略。前者針對的是如何對數(shù)據(jù)庫中的保存頁面更新進(jìn)行宏觀分析、描述,爬蟲周期性連續(xù)工作,由于頁面獲取數(shù)量及數(shù)據(jù)庫資源的有限性,導(dǎo)致爬蟲也需要周期性地抓取頁面,其每循環(huán)一周期,就可對傳統(tǒng)數(shù)據(jù)庫信息進(jìn)行獲取和更新,且出去所有相同頁面,對頁面信息缺乏的予以補(bǔ)充,如此循環(huán)往復(fù)下,確保頁面庫所有數(shù)據(jù)盡可能為最新的信息,提高了系統(tǒng)查詢功能的及時性與綜合性;后者搜索策略偏重于對爬蟲實(shí)際網(wǎng)頁獲取步驟進(jìn)行研究,包括爬行規(guī)則、運(yùn)行方式等。關(guān)鍵在于對爬蟲路徑及規(guī)則進(jìn)行預(yù)先規(guī)定,確保爬蟲可以根據(jù)預(yù)先設(shè)定的方式爬取網(wǎng)絡(luò)節(jié)點(diǎn),以便更好地對爬蟲行為進(jìn)行預(yù)測和控制,實(shí)現(xiàn)了爬蟲效率的有效提升。對于多樣化的搜索策略,其主要依賴于所設(shè)定的不同的爬行準(zhǔn)則,各策略爬蟲爬行目標(biāo)網(wǎng)頁并不一致,且爬行路徑各不相同,通常結(jié)合多重因素的制約,尋找更有針對性的搜索策略。

2.2 獲取網(wǎng)頁

爬取網(wǎng)頁是主題爬蟲最先需要實(shí)現(xiàn)的操作,由于網(wǎng)頁存在于網(wǎng)絡(luò)多服務(wù)器上,因此,主題爬蟲需要先對網(wǎng)頁進(jìn)行搜集。要想將網(wǎng)頁從服務(wù)器上進(jìn)行抓取,必須遵循網(wǎng)絡(luò)相應(yīng)的通信規(guī)則。應(yīng)以HTTP超文本傳輸協(xié)議為依據(jù),結(jié)合互聯(lián)網(wǎng)通信原理完成,在網(wǎng)頁解析時利用的是HTML語法進(jìn)行分析,實(shí)現(xiàn)了網(wǎng)頁的獲取。

2.3 主題相關(guān)度

首先,需要從網(wǎng)頁中對信息資源進(jìn)行提取。在此過程中,主題爬蟲系統(tǒng)預(yù)處理模塊將HTML文本轉(zhuǎn)換為數(shù)據(jù)流形式,并讀入內(nèi)存中,以所對應(yīng)內(nèi)容為依據(jù),執(zhí)行相應(yīng)的操作過程,然后對 HTML網(wǎng)頁的文本予以準(zhǔn)確分析,獲取正文文本以及超鏈接信息,為相關(guān)度分析提供了依據(jù)。例如,在超鏈接提取時,網(wǎng)頁解析器先根據(jù)文件集合獲取頁面,對頁面的類型予以判斷,只處理“text/html”類型的頁面;依次讀取緩存數(shù)據(jù)流,一旦遇見等標(biāo)記,將其URL鏈接記下,并提取為說明文字,用以解釋該超鏈接;將保存的超鏈接進(jìn)行格式處理;對URL錨文本進(jìn)行存儲,對網(wǎng)頁相關(guān)度進(jìn)行計算;鏈接提取完畢。

其次,需要進(jìn)行中文分詞。中文分詞指的是將漢字序列進(jìn)行有效切分,成為單獨(dú)的詞,此過程需要根據(jù)所設(shè)置規(guī)則,將連續(xù)性的字序重新結(jié)合為新詞序列。分詞算法主要包括三類,即根據(jù)字符串匹配與否進(jìn)行分詞算法、根據(jù)機(jī)器理解進(jìn)行分詞的算法、以人工統(tǒng)計為依據(jù)進(jìn)行計算的分詞算法。雖然分詞算法已經(jīng)十分成熟,但要想利用電腦實(shí)現(xiàn)中文分詞并非易事,需要對歧義、新詞進(jìn)行識別,可利用3GWS分詞系統(tǒng)來進(jìn)行。

3 主題爬蟲視角下數(shù)字資源的建設(shè)分析

鑒于傳統(tǒng)以鏈接分析為基礎(chǔ)的方法缺乏必要的語義分析,為此,應(yīng)充分結(jié)合網(wǎng)頁鏈接結(jié)構(gòu)及其語義性,以本體為基礎(chǔ),對URL隊列進(jìn)行排序,以便為主題爬蟲的搜索方法及基于主題爬蟲基礎(chǔ)上的數(shù)字資源建設(shè)提供指導(dǎo)。

3.1 本體結(jié)構(gòu)

本體是指用于人、數(shù)據(jù)庫及應(yīng)用間信息的共享,不斷加強(qiáng)人和計算機(jī)之間的相互協(xié)作,因而在諸如數(shù)字圖書館、信息檢索等領(lǐng)域得到十分廣泛的應(yīng)用。計算機(jī)領(lǐng)域?qū)⒈倔w定義為六元組O={C,AC,R,AR,H,X}。其中,C為概念的集合。AC代表多屬性集合共同構(gòu)成的集合,各屬性集合分別對應(yīng)某個概念。R為關(guān)系集合,AR指的是由多個屬性集合共同構(gòu)成的集合,其中各屬性集合分別對應(yīng)R中的某個關(guān)系。H代表概念相互之間存在的層次結(jié)構(gòu)關(guān)系,X為公理集合。

本體的直接目標(biāo)即獲取,對相關(guān)領(lǐng)域的知識進(jìn)行描述,提供對該知識的理解,對該領(lǐng)域都認(rèn)可的詞匯進(jìn)行明確,并分別從各層次形式化模式上對此類術(shù)語及相互間的關(guān)系給出清晰的定義。對于語義網(wǎng)而言,本體屬于核心元素,可用以對信息進(jìn)行結(jié)構(gòu)化,確保用戶及計算機(jī)可以對所需信息進(jìn)行訪問,實(shí)現(xiàn)相互間的有效合作。由此可見,本體在網(wǎng)絡(luò)交互、訪問及通信中具有十分重要的作用,將本體思想充分應(yīng)用于主題爬蟲模型中,可以有效提高網(wǎng)頁搜索與抓取的準(zhǔn)確性。

猜你喜歡
數(shù)字資源本體建設(shè)
Abstracts and Key Words
對姜夔自度曲音樂本體的現(xiàn)代解讀
自貿(mào)區(qū)建設(shè)再出發(fā)
中國外匯(2019年18期)2019-11-25 01:41:56
基于IUV的4G承載網(wǎng)的模擬建設(shè)
電子制作(2018年14期)2018-08-21 01:38:28
《人大建設(shè)》伴我成長
保障房建設(shè)更快了
民生周刊(2017年19期)2017-10-25 10:29:03
建立中文DOI標(biāo)識在科技期刊出版中的作用
高校數(shù)字資源云服務(wù)平臺的建設(shè)研究
評價高校圖書館數(shù)字資源綜合服務(wù)能力
圖書館與出版企業(yè)數(shù)字資源共享的環(huán)境因素分析
出版廣角(2016年4期)2016-04-20 01:10:00
福清市| 称多县| 乌拉特中旗| 射洪县| 闻喜县| 大石桥市| 西城区| 平利县| 阳西县| 施秉县| 梁山县| 佳木斯市| 福贡县| 彩票| 闵行区| 永嘉县| 邵阳市| 基隆市| 沁源县| 鄂伦春自治旗| 望城县| 长葛市| 建始县| 道真| 乌什县| 临泽县| 旬阳县| 安顺市| 荃湾区| 皮山县| 大冶市| 大连市| 信丰县| 黔东| 若羌县| 仙游县| 贵阳市| 阳高县| 白山市| 阳春市| 浦城县|