摘要:旨在利用大數(shù)據(jù)和深度學習技術優(yōu)化網(wǎng)絡爬蟲算法,以更好地滿足信息搜集與處理的需求。首先,使用大數(shù)據(jù)技術進行數(shù)據(jù)收集;然后,引入詞頻反轉(zhuǎn)文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)權重作為輸入特征的初始權重,并利用傳播激活算法來優(yōu)化爬蟲算法;最后,對多模態(tài)信息進行整合。為了測試基于大數(shù)據(jù)的深度學習網(wǎng)絡爬蟲算法在信息搜集與處理中的應用效果,將其與傳統(tǒng)方法進行了比較。通過實驗發(fā)現(xiàn),在統(tǒng)一資源定位器(UniformResourceLocator,URL)數(shù)量為10000時,提出的方法的覆蓋率可達92.9%,而傳統(tǒng)方法的覆蓋率僅為73.7%。研究證明所提出的基于大數(shù)據(jù)的深度學習網(wǎng)絡爬蟲算法在信息收集方面具有更高的覆蓋率和更好的準確性。
關鍵詞:網(wǎng)絡爬蟲算法深度學習信息收集和處理大數(shù)據(jù)
ApplicationofDeepLearningWebCrawlerAlgorithmsBasedonBigDatainInformationCollectionandProcessing
YUPing
GuangzhouHuananBusinessCollege,Guangzhou,GuangdongProvince,510650China
Abstract:ThisarticleaimstooptimizewebcrawleralgorithmsbyusingBigDataandDeepLearningtechnologytobettermeettheneedsofinformationcollectionandprocessing.Firstly,useBigDatatechnologyfordatacollection;Then,theTermFrequency-InverseDocumentFrequency(TF-IDF)weightisintroducedastheinitialweightoftheinputfeature,andthePropagationActivationalgorithmisusedtooptimizethecrawleralgorithm;Finally,integratemultimodalinformation.InordertotesttheapplicationeffectofDeepLearningwebcrawleralgorithms basedonBigDataininformationcollectionandprocessing,thisarticlecomparedthemwithtraditionalmethods.Throughexperiments,itwasfoundthatthecoverageoftheproposedmethodcanreach92.9%whenthenumberofUniformResourceLocators(URL)is10000,whilethecoverageoftraditionalmethodsisonly73.7%.ResearchhasshownthattheDeepLearningwebcrawleralgorithmbasedonBigDataproposedinthisarticlehashighercoverageandbetteraccuracyininformationcollection.
KeyWords:Webcrawleralgorithm;DeepLearning;Informationcollectionandprocessing;BigData
網(wǎng)絡爬蟲是一種自動化工具,能夠按照一定的規(guī)則和算法從指定的起始網(wǎng)頁開始逐一抓取目標網(wǎng)頁中的鏈接[1-2]。隨著互聯(lián)網(wǎng)規(guī)模的爆炸式增長,網(wǎng)絡爬蟲面臨著越來越多的挑戰(zhàn)。傳統(tǒng)的網(wǎng)絡爬蟲算法往往無法有效地處理大規(guī)模和結(jié)構復雜的網(wǎng)絡數(shù)據(jù),同時,網(wǎng)頁更新速度很快,要求網(wǎng)絡爬蟲必須具有實時性和高效率。為了解決這些問題,研究者們開始將深度學習技術應用于網(wǎng)絡爬蟲算法中。他們利用深度學習技術對網(wǎng)頁進行特征提取和分類,從而提高了網(wǎng)頁的抓取準確性與覆蓋率,這不僅有助于提高信息收集與處理的效果,還具有重要的現(xiàn)實意義和理論價值。
1信息收集與處理的方法與過程
1.1數(shù)據(jù)收集
使用大數(shù)據(jù)技術進行廣泛的數(shù)據(jù)收集,并通過深度學習算法進行數(shù)據(jù)清理,以確保數(shù)據(jù)的準確性。數(shù)據(jù)收集是信息檢索過程中的重要步驟,其會直接影響后續(xù)深度學習網(wǎng)絡爬蟲算法的效果。本文利用大數(shù)據(jù)技術進行廣泛的數(shù)據(jù)收集,旨在構建一個全面和多樣化的數(shù)據(jù)集,以提高深度學習模型的泛化能力和適應能力。
首先,要選擇數(shù)據(jù)源,搜索并且下載用戶相關的網(wǎng)頁,通過大數(shù)據(jù),選擇4個熱門業(yè)務。然后,通過大數(shù)據(jù)技術,在網(wǎng)頁上讀取信息,搜索網(wǎng)頁的其他鏈接地址,設置不同訪問層數(shù),通過這種方式,把所有的網(wǎng)頁全部讀取完畢。最后,將網(wǎng)頁中的有效信息進行抓取,如文本、聲音、圖像和視頻等,在抓取網(wǎng)頁中的信息時,一般利用HTTP協(xié)議協(xié)助進行。
1.2深度學習網(wǎng)絡設計
在互聯(lián)網(wǎng)中,主題特征向量與其出現(xiàn)的頻率和網(wǎng)頁的頁面結(jié)構和位置有關,一個主題特征向量出現(xiàn)在網(wǎng)頁中的頻率越高,則其出現(xiàn)在標題或其他特殊超文本標記語言文本中的次數(shù)越多,這些對主題判別具有高影響的詞特征容易被選擇作為負采樣特征,剔除或修改這些負面特征有助于對主題相關的網(wǎng)頁特征進行聚合。負面特征選擇可用公式表示為:
式中,為網(wǎng)頁結(jié)構和位置,為所有負特征的權重和,;
為系數(shù)。
在網(wǎng)頁主題采集中,需要通過主題網(wǎng)頁的正采樣和非主題網(wǎng)頁的負采樣過濾,就會得到多棵主題強相關的特征樹。每顆特征樹需要有多個層級,最多為4層,按照樹的層級,對樹的每層特征進行橫向排列,形成主題特征梯形[3]。梯形的每層由若干個主題特征和對應的詞頻反轉(zhuǎn)文檔頻率(TermFrequency-InverseDocumentFrequency,TF-IDF)組成,這一梯形的主題樹中,由上至下,隨著梯形主題特征的增多,主題深度越弱。
傳統(tǒng)模式下,循環(huán)神經(jīng)網(wǎng)絡處理文本特征有一定的局限性,隨著時間的遞增,新特征的輸入與早期特征的路徑過長,這種局限性導致對早期主題的遺忘。為了解決這個問題,本章提出了一種改進的神經(jīng)網(wǎng)絡判別器。該判別器基于循環(huán)神經(jīng)網(wǎng)絡并引入了TF-IDF權重作為輸入特征的初始權重,這對于改善特征被遺忘的問題具有很大的幫助作用。
1.3爬蟲算法的優(yōu)化
對爬蟲算法進行優(yōu)化是為了更好地抓取網(wǎng)頁資源中的主題,因此,要對神經(jīng)網(wǎng)絡資源進行修改,結(jié)合傳播激活算法,以實現(xiàn)網(wǎng)頁資源的抓取。首先,將Hopfield神經(jīng)網(wǎng)絡模型轉(zhuǎn)化為前向傳播的神經(jīng)網(wǎng)絡,主要分為3個步驟:初始化、激活—傳播—迭代和終止。
聚焦爬蟲,以一組與目標領域主題高度相關的種子網(wǎng)頁為起點,并將網(wǎng)頁節(jié)點的權重初始化為1。在神經(jīng)網(wǎng)絡首次激活迭代時,聚焦爬蟲,從搜索隊列中逐一獲取種子網(wǎng)頁并解析。在迭代第s次時,網(wǎng)頁節(jié)點a的權重記作,權重值會在所有的種子網(wǎng)頁中進行調(diào)整,有。主題爬蟲在解析種子網(wǎng)頁過程中獲取的新網(wǎng)頁將添加到神經(jīng)網(wǎng)絡中[4]。
在完成初始化后,聚焦爬蟲,將進入下一次迭代,通過神經(jīng)網(wǎng)絡的激活和傳播來計算新獲取的網(wǎng)頁節(jié)點權重值。網(wǎng)頁節(jié)點權重值公式為:
式中,為網(wǎng)頁節(jié)點a在第s+1次迭代時的結(jié)點權重,為父節(jié)點c和子節(jié)點s之間的超文本鏈接權重。
通過憶阻器模型和信息熵的主題相關性分析算法計算,我們能夠得到為父節(jié)點c和子節(jié)點s之間的超文本鏈接的權重。采用分段線性和單調(diào)遞增的憶阻器模型來設計激活方程,能夠更好地適應聚焦爬蟲算法。
通過對權重值的計算,可以得到一個下載路徑,主題爬蟲會按照權重值大小來進行內(nèi)容的下載。在訪問和下載完所有與主題相關的網(wǎng)頁(節(jié)點權重值大于預設值)后,聚焦爬蟲將根據(jù)網(wǎng)頁內(nèi)容對所有相關網(wǎng)頁的節(jié)點權重值進行更新,以便在新的迭代中更準確地預測后續(xù)網(wǎng)頁的相關性。那么,網(wǎng)頁節(jié)點權重值更新公式表示為:
式中,為分段線性、單調(diào)遞增的憶阻器模型方程,為結(jié)點a所對應的網(wǎng)頁內(nèi)容與目標域中主題相關性的大小。
主題相關性的大小直接取決于目標領域中每個關鍵詞在網(wǎng)頁內(nèi)容中出現(xiàn)的頻率的總和。的值跟網(wǎng)頁內(nèi)容的相關度有一定關系,如果網(wǎng)頁內(nèi)容越相關,相應的值也會越大[5]。
聚焦爬蟲的工作方式很簡單,是在憶阻神經(jīng)網(wǎng)絡框架下進行持續(xù)抓取網(wǎng)頁。在本次迭代中,所有節(jié)點權值的均值小于預先設定的最大不相關權值(一個較小的正實數(shù)),或者是在獲取的網(wǎng)頁數(shù)量達到預先設定的數(shù)目時,抓取行為終止。
2信息搜集與處理效果評估
2.1實驗設計與數(shù)據(jù)來源
通過對互聯(lián)網(wǎng)上的網(wǎng)址進行實驗,驗證了深度學習算法在信息收集和處理方面的有效性。在此基礎上,我們選取了不同數(shù)目的統(tǒng)一資源定位器(UniformResourceLocator,URL)作為樣本,對該算法與傳統(tǒng)算法進行了比較。實驗證明,該方法能夠較好地獲取數(shù)據(jù)、提高數(shù)據(jù)采集的精度,為該方法在實際應用中的應用奠定了基礎。
2.2實驗結(jié)果分析
覆蓋率是衡量信息收集和處理的綜合性程度的一個重要指標。當爬行器覆蓋范圍不夠時,有可能會漏掉一些關鍵信息,從而不能完整地展現(xiàn)被搜索到的站點或者數(shù)據(jù)。所以,提升網(wǎng)絡爬行器的覆蓋率是信息收集與處理工作中不可或缺的一環(huán),能讓使用者更全面和更有效地擷取資訊,并提升資料的品質(zhì)與完整度。在此基礎上,對兩種算法在不同URL個數(shù)情況下的覆蓋情況進行了對比,得到的結(jié)果顯示在圖1中。
從圖1可以看出:在URL個數(shù)為1000的情況下,本方法得到的覆蓋率可以達到89.9%,而傳統(tǒng)的方式可以達到82.6%;在URL個數(shù)3000的情況下,該算法得到的覆蓋率可以達到92.8%,而傳統(tǒng)算法的覆蓋率可以達到84.3%;在URL個數(shù)為7000的情況下,該算法得到的覆蓋率為88.7%,而傳統(tǒng)算法的覆蓋率為83.7%;在URL個數(shù)為10000的情況下,該算法得到的覆蓋率可以達到92.9%,而傳統(tǒng)算法可以達到73.7%。由此可以看到,在URL數(shù)量相等的情況下,本論文的算法的覆蓋率要比傳統(tǒng)的算法高得多,這意味著我們的算法可以對數(shù)據(jù)進行更加全面的采集和處理,這有助于人們在獲取信息的過程中更好地提升信息的質(zhì)量和完整性。
3結(jié)語
互聯(lián)網(wǎng)時代下,信息呈現(xiàn)爆炸式的增長模式,傳統(tǒng)的信息搜集與處理方式已經(jīng)顯得力不從心。如何提高信息搜集與處理方式則是當前急需解決的問題。本文研究的主題便是基于大數(shù)據(jù)的深度學習網(wǎng)絡爬蟲算法在信息搜集與處理中的應用。研究發(fā)現(xiàn),使用本文大數(shù)據(jù)的深度學習網(wǎng)絡爬蟲算法進行信息收集與處理,覆蓋率與準確性均相比傳統(tǒng)方法得到了明顯的提升,這有利于更準確和全面地獲取信息,從而更好地保證信息的質(zhì)量和完整性,具有實際使用價值。但是,本文研究有所不足,由于實際條件的限制,本文實驗所選取的樣本較少,同時對于信息收集效率也缺乏驗證,在后續(xù)研究中還需對其進行更多探討。
參考文獻
[1]唐文軍,隆承志.基于Python的聚焦網(wǎng)絡爬蟲的設計與實現(xiàn)[J].計算機與數(shù)字工程,2023,51(4):845-849.
[2]馮艷茹.基于Python的網(wǎng)絡爬蟲系統(tǒng)的設計與實現(xiàn)[J].電腦與信息技術,2021,29(6):47-50.
[3]左薇,張熹,董紅娟,等.主題網(wǎng)絡爬蟲研究綜述[J].軟件導刊,2020,19(2):278-281.
[4]熊艷秋,嚴碧波.基于jsoup爬取圖書網(wǎng)頁信息的網(wǎng)絡爬蟲技術[J].電腦與信息技術,2019,27(4):61-63.
[5]張葉娥.基于帶狀無線傳感器網(wǎng)絡的實時智能數(shù)據(jù)收集算法[J].吉林大學學報(理學版),2023,61(2):393-399.