国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的網(wǎng)頁主題爬蟲的設(shè)計

2016-03-15 08:09:14袁優(yōu)
課程教育研究·中 2016年1期
關(guān)鍵詞:支持向量機深度學(xué)習(xí)

【摘要】網(wǎng)頁主題爬蟲能夠從萬維網(wǎng)中尋找從屬于特定主題的網(wǎng)頁,并對其中的關(guān)鍵詞、段落和圖像進(jìn)行保存和索引。但在網(wǎng)頁的表達(dá)形式、數(shù)量和內(nèi)容都呈現(xiàn)爆發(fā)式增長的情況下,傳統(tǒng)的基于關(guān)鍵字匹配的網(wǎng)頁主題發(fā)現(xiàn)方法已經(jīng)難以有效的為爬蟲程序進(jìn)行準(zhǔn)確的主題識別,這對于搜索引擎建立有效的網(wǎng)頁內(nèi)容數(shù)據(jù)庫和網(wǎng)頁內(nèi)容的話題分析等關(guān)鍵應(yīng)用都是具大的挑戰(zhàn)。提出一種基于深度學(xué)習(xí)的網(wǎng)頁主題爬蟲的設(shè)計,采用深度信念網(wǎng)絡(luò)對由文字向量表示的網(wǎng)頁內(nèi)容進(jìn)行概念表達(dá),以此構(gòu)建多層次的網(wǎng)頁主題概念特征向量,并使用支持向量機模型在新的特征表達(dá)下對網(wǎng)頁主題進(jìn)行快速識別,有效提升了爬蟲程序?qū)W(wǎng)頁主題的識別準(zhǔn)確率。

【關(guān)鍵詞】主題爬蟲 深度學(xué)習(xí) 深度信念網(wǎng)絡(luò) 向量空間模型 支持向量機

【Abstract】A foucsed crawler can detect the web pages belonging to certain topics through WWW as well as storing and indexing the key words, paragraphs and images in these web pages. However, currently the rapid growing of the quantities of formats and contents of web pages lead to a great challenge that the traditional topic discovery methods based on key words matching are ineffective for precise topic recognition, which also affect to the construction of web page database and topic detection of web page sessions. In this paper, we propose a design of focused crawler based on deep learning. In this method, a deep belief network is adopted to represent the potential concepts of web pages with different topics which are described as vector space model. The extracted concepts of a topic forms a feature vector which is used by a support vector machine to classify the topics of a new web page. The proposed method improves the recognition accuracy of web page topics.

【Keywords】focused crawler; deep learning; deep belief network; vector space model; support vector machine

【中圖分類號】G64 【文獻(xiàn)標(biāo)識碼】A 【文章編號】2095-3089(2016)01-0218-02

1.背景

在互聯(lián)網(wǎng)技術(shù)高速發(fā)展的今天,萬維網(wǎng)(World Wide Web,WWW)上保存了海量的信息和資源,且大多以多媒體網(wǎng)頁的形式進(jìn)行保存[1]。為了使人們能夠在海量的網(wǎng)頁資源中快速查找到感興趣的網(wǎng)頁資源,搜索引擎通過網(wǎng)頁爬蟲(Web Crawler)收集各種網(wǎng)頁,并建立基于關(guān)鍵詞或主題的索引,方便用戶的快速搜索[2]。在這種情況下,網(wǎng)頁爬蟲程序?qū)W(wǎng)頁主題的識別能力和效率就顯得十分重要[3]。傳統(tǒng)爬蟲程序主要是依據(jù)對網(wǎng)頁關(guān)鍵詞的匹配進(jìn)行主題識別,主要對HTML頁面中的meta字段或整個HTML文本進(jìn)行關(guān)鍵詞匹配[4]。而對特定主題的定義則為若干個關(guān)鍵詞的組合。這種基于簡單文本匹配的方法對當(dāng)前復(fù)雜且種類繁多的網(wǎng)頁是不適用的,主要原因在于網(wǎng)頁主題是一個比較復(fù)雜的概念,僅通過關(guān)鍵詞或其組合的方式難以準(zhǔn)確表達(dá)某個網(wǎng)頁主題[5, 6]。

研究者們采用機器學(xué)習(xí)和數(shù)據(jù)挖掘的方法對不同主題的文本特征進(jìn)行學(xué)習(xí)和提取,并以模型參數(shù)的形式預(yù)先設(shè)置在爬蟲程序里面,當(dāng)進(jìn)行網(wǎng)頁獲取時,爬蟲程序通過模型在線判斷一個新網(wǎng)頁所屬的主題,然后確定是否保存到數(shù)據(jù)庫中[7]。但同時我們指出,不同的機器學(xué)習(xí)模型的訓(xùn)練代價、識別效率和對網(wǎng)頁主題所蘊含的抽象概念的表達(dá)能力各不相同?;诮y(tǒng)計學(xué)習(xí)和淺層機器學(xué)習(xí)的模型由于受限于其對復(fù)雜函數(shù)的表達(dá)能力,因此在網(wǎng)頁主題爬蟲上使用的效果并不十分理想[8]。針對目前網(wǎng)頁主題爬蟲對網(wǎng)頁主題的識別問題,本文提出采用基于深度學(xué)習(xí)(Deep Learning)的模型對主題進(jìn)行特征表達(dá)并使用支持向量機(Support Vector Machine,SVM)模型進(jìn)行識別。區(qū)別于傳統(tǒng)的淺層模型,深度學(xué)習(xí)模型的輸入層和輸出層之間相隔了若干個運算層,如堆疊自動編碼器(Stacked Auto Encoder,SAE)就是若干個自動編碼器的疊加,深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)實質(zhì)上是一個多層的貝葉斯信念網(wǎng)絡(luò)[9]。通過多層的運算單元疊加,可以有效提取和表達(dá)各種復(fù)雜概念,這是構(gòu)建有效主題識別模型的基礎(chǔ)。

2.主要方法

本文方法首先使用向量空間模型對網(wǎng)頁進(jìn)行向量化表達(dá),即把網(wǎng)頁轉(zhuǎn)化為詞向量,在本研究中對中英文網(wǎng)頁分別使用不同的基礎(chǔ)向量,這是由于中文和英文的詞集是不同的。使用分詞軟件對網(wǎng)頁的文本內(nèi)容進(jìn)行過濾和分詞,并把分詞結(jié)果記錄在一個m維布爾向量中,若該網(wǎng)頁含有第i個基本詞,則該向量的第i位為1,反之為0。在此基礎(chǔ)上構(gòu)建深度信念網(wǎng)絡(luò),它本質(zhì)上是一個多層神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練它可以以最大的后驗概率去生成數(shù)據(jù)。對于每一層,其輸出均可以看作是對輸入的重新編碼,但要求得到的新編碼能依概率還原本來的輸入,深度學(xué)習(xí)模型正是通過這種不斷的重新編碼發(fā)現(xiàn)隱含概念。圖1給出了一個深度信念網(wǎng)絡(luò)的基本結(jié)構(gòu)。

圖1. 深度信念網(wǎng)絡(luò)的基本結(jié)構(gòu)

使用已經(jīng)標(biāo)注主題且以向量空間模型表達(dá)的網(wǎng)頁數(shù)據(jù)對DBN進(jìn)行訓(xùn)練,其目標(biāo)是通過正向(輸入層至輸出層)的數(shù)據(jù)通路得出在當(dāng)前權(quán)重下的模型輸出,與有監(jiān)督數(shù)據(jù)中的網(wǎng)頁真實主題信息進(jìn)行比較,若發(fā)現(xiàn)模型的輸出有錯誤,則通過反向傳播從輸出層至輸入層逐層調(diào)整權(quán)重,最終使模型的輸出與真實的主題信息一致。取訓(xùn)練后的模型權(quán)重矩陣作為網(wǎng)頁爬蟲程序在分析網(wǎng)頁的主題信息時的模型參數(shù)。需要指出的是,在圖1所示的DBN網(wǎng)絡(luò)中,其輸出層是一個多路的支持向量機分類器,該SVM的輸入是第t-1層的概念表達(dá)。如前所述,在DBN 中,每一層均是對前一層輸出特征向量的一種重新表達(dá),以盡可能還原原來的輸入信息為約束。因此,SVM分類器模型所得到的是一組抽象層次相當(dāng)高的概念。在模型中通過改變每一層的節(jié)點數(shù)量對概念的表達(dá)長度進(jìn)行壓縮,在本研究中SVM的輸入僅為模型輸入長度的■。

令網(wǎng)頁的向量空間表達(dá)的特征向量長度為d,即每個網(wǎng)頁pi為一個d維布爾向量,深度信念網(wǎng)絡(luò)執(zhí)行基于概率的特征表達(dá)轉(zhuǎn)換,如公式(1)所示:

p(x,y,h|?茲)=■(1)

其中?茲={b,c,d,W1,W2},E(·)是一個能量函數(shù),模擬能量從輸入層到輸出層的傳播,E(·)的定義如公式(2)所示:

E(x,y,h|?茲)=-bTx-cTh-dTy-xTW1h-hTW2y(2)

而Z(?茲)是一個邊緣分布函數(shù),定義為:

Z(?茲)=■exp(-E(x,y,h|?茲))(3)

在支持向量機作為輸出層的情況下,一個網(wǎng)頁x被分類為屬于某個主題yi的概率為:

p(yi=1|x)=■sig(cj+W■■+(W■■)Tx)(4)

其中sig(·)為sigmoid函數(shù)。結(jié)合公式(1)至(4),可以得到給定網(wǎng)頁x,它的主題向量的預(yù)測分布概率表達(dá)式:

p(y|x)=■(5)

本文方法的訓(xùn)練時間復(fù)雜度較高,但由于訓(xùn)練只需進(jìn)行一次,把得到的權(quán)重矩陣W放在分類器中,測試時根據(jù)公式(5)可以直接得到主題向量的預(yù)測分布,需要O(mn)的計算量。

3.實驗

采用一個互聯(lián)網(wǎng)上公開的網(wǎng)頁數(shù)據(jù)集“THE 4 UNIVERSITIES DATASET”對本文方法進(jìn)行測試,該數(shù)據(jù)集收集了幾所大學(xué)的計算機系網(wǎng)站上的網(wǎng)頁,包含了7個分類,分別是Student、Faculty、Staff、Department、Course、Project和Other。一共包含8282個網(wǎng)頁,平均網(wǎng)頁大小為26k。實驗中僅對網(wǎng)頁的文本內(nèi)容進(jìn)行分析,先對每個網(wǎng)頁生成一個15000維的詞向量,然后使用深度信念網(wǎng)絡(luò)進(jìn)行概念提取,得到一個102維的特征向量,最后使用多分類的支持向量機進(jìn)行網(wǎng)頁主題的分類。根據(jù)經(jīng)驗,深度信念網(wǎng)絡(luò)設(shè)計為15層,每層的節(jié)點數(shù)量遞減10%。訓(xùn)練集和測試集按3:7的比例從整個數(shù)據(jù)集中隨機抽取進(jìn)行構(gòu)建。為了增加主題識別結(jié)果的穩(wěn)定性,進(jìn)行了10次隨機的劃分,并取其識別正確率的平均值作為最終的結(jié)果。表1列出了本文方法對每個類別的識別正確率和CPU運行時間。

表1 算法在評估數(shù)據(jù)集上的正確率

從表1中可以看出,本文方法對實驗數(shù)據(jù)集的主題有較高的識別率,且對單個網(wǎng)頁的運行時間非常短,從而說明該方法對于提高主題爬蟲在識別網(wǎng)頁主題時的有效性和效率。

4.結(jié)論

本文提出了使用深度學(xué)習(xí)算法構(gòu)建網(wǎng)頁主題爬蟲的設(shè)計方案,設(shè)計了一種多層的深度信念網(wǎng)絡(luò),對多個受限波特曼機模型進(jìn)行堆疊,有效解決了對網(wǎng)頁主題的內(nèi)在概念的特征提取問題,使用支持向量機模型對經(jīng)過概念轉(zhuǎn)換表達(dá)的網(wǎng)頁數(shù)據(jù)進(jìn)行分類,在測試數(shù)據(jù)集上表明本文方法有較高的準(zhǔn)確率且運行速度較快,從而說明本文方法的有效性。

參考文獻(xiàn):

[1]L.Deng and D.Yu, “Deep learning: Methods and applications,” Found. Trends Signal Process., vol.7, no.4, pp. 197–387, Jun. 2014.

[2]M.Spencer, J.Eickholt, and J.Cheng, “A deep learning network approach to ab initio protein secondary structure prediction,” IEEE/ACM Trans. Comput. Biol. Bioinformatics, vol.?12, no.1, pp. 103–112, Jan. 2015.

[3]J.Fu, T.Mei, K.Yang, H.Lu, and Y.Rui, “Tagging personal photos with transfer deep learning,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 344–354.

[4]Z.Zuo, G.Wang, B.Shuai, L.Zhao, and Q.Yang, “Exemplar based deep discriminative and shareable feature learning for scene image classification,” Pattern Recogn., vol.48, no.10, pp. 3004–3015, Oct. 2015.

[5]N.Srivastava and R.Salakhutdinov, “Multimodal learning with deep boltzmann machines,” J. Mach. Learn. Res., vol.15, no.1, pp. 2949–2980, Jan. 2014.

[6]A.M. Elkahky, Y.Song, and X.He, “A multi-view deep learning approach for cross domain user modeling in recommendation systems,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 278–288.

[7]W.Zhang, R.Li, T.Zeng, Q.Sun, S.Kumar, J.Ye, and S.Ji, “Deep model based transfer and multi-task learning for biological image analysis,” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ser. KDD 15. New York, NY, USA: ACM, 2015, pp. 1475–1484.

[8]H.Wang, N.Wang, and D.-Y. Yeung, “Collaborative deep learning for recommender systems,” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ser. KDD 15. New York, NY, USA: ACM, 2015, pp. 1235–1244.

[9]K.Jung, B.-T. Zhang, and P.Mitra, “Deep learning for the web,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15 Companion. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 1525–1526.

作者簡介:

袁優(yōu)(1981-),女,湖北人,大學(xué)本科,講師。研究方向:智能信息系統(tǒng),統(tǒng)計學(xué)習(xí)。

猜你喜歡
支持向量機深度學(xué)習(xí)
基于改進(jìn)支持向量機的船舶縱搖預(yù)報模型
中國水運(2016年11期)2017-01-04 12:26:47
基于SVM的煙草銷售量預(yù)測
有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
動態(tài)場景中的視覺目標(biāo)識別方法分析
論提高裝備故障預(yù)測準(zhǔn)確度的方法途徑
價值工程(2016年32期)2016-12-20 20:36:43
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
基于熵技術(shù)的公共事業(yè)費最優(yōu)組合預(yù)測
價值工程(2016年29期)2016-11-14 00:13:35
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
东宁县| 斗六市| 湟中县| 宜兰市| 静乐县| 富宁县| 西和县| 唐海县| 平泉县| 平顺县| 靖远县| 东源县| 冕宁县| 丰城市| 正定县| 甘孜县| 苏尼特左旗| 手机| 高唐县| 广元市| 新龙县| 日喀则市| 大城县| 金湖县| 雷州市| 奉节县| 旌德县| 苏州市| 五原县| 北川| 武威市| 威远县| 南溪县| 德化县| 突泉县| 大足县| 如皋市| 平果县| 称多县| 金门县| 六盘水市|