国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)爬蟲技術(shù)在電力產(chǎn)業(yè)中的應(yīng)用

2018-01-28 00:46賀冠博蘇宇琦黃源
電子技術(shù)與軟件工程 2017年18期
關(guān)鍵詞:分析

賀冠博+蘇宇琦+黃源

摘要

隨著技術(shù)的進(jìn)步,將互聯(lián)網(wǎng)技術(shù)和設(shè)計(jì)研究結(jié)構(gòu)融合在一起,能在提升設(shè)計(jì)參數(shù)有效性的同時(shí),提升設(shè)計(jì)框架的完整度,確保設(shè)計(jì)效果最優(yōu)化。網(wǎng)絡(luò)爬蟲爬取的網(wǎng)頁信息以固定的格式獲取到本地后,能達(dá)到一種比較合理科學(xué)性的空間膨脹比,并提升技術(shù)分析參數(shù)的完整度。因此,要想從根本上優(yōu)化技術(shù)設(shè)計(jì)框架質(zhì)量,就要結(jié)合網(wǎng)絡(luò)爬蟲技術(shù)中的不同框架要素。

【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲技術(shù) 分析 網(wǎng)絡(luò)爬蟲設(shè)計(jì)

國際互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展讓人類步入了大數(shù)據(jù)、云信息時(shí)代,在這種背景下,目前全球網(wǎng)頁己經(jīng)超過20億,而且正在以每天730萬的數(shù)量不斷增加。在如此浩瀚的信息海洋中尋找信息宛如大海撈針。而搜索引擎技術(shù)的出現(xiàn)正解決了這一問題,它充分利用到了信息檢索、人工智能、計(jì)算機(jī)網(wǎng)絡(luò)、分布式處理、數(shù)據(jù)挖掘、數(shù)據(jù)庫、數(shù)字圖書館、自然語言處理等多領(lǐng)域理論技術(shù),為互聯(lián)網(wǎng)技術(shù)發(fā)展提供了充足的參考依據(jù)。網(wǎng)絡(luò)爬蟲(Web Crawler)作為搜索引擎中的關(guān)鍵部分,它也被稱為網(wǎng)絡(luò)蜘蛛(Web Spider)、Web信息采集器,它是一個(gè)自動(dòng)下載網(wǎng)頁的計(jì)算機(jī)程序(自動(dòng)化腳本),能夠從一個(gè)稱之為種子集的URL集合中展開運(yùn)行流程。具體來講,它會(huì)將URL集合中的所有URL全部放入到某一個(gè)有序的待爬行隊(duì)列中,按照一定順序從中提取URL以下在被指定網(wǎng)頁頁面,同時(shí)分析頁面內(nèi)容,最后提取新的URL并存入待爬行URL隊(duì)列中,如此反復(fù),直到URL隊(duì)列為空或滿足某一爬行終止條件,實(shí)現(xiàn)用戶對(duì)Web的有效瀏覽,因此它還被稱之為網(wǎng)絡(luò)爬行(Web Crawling)。

作為網(wǎng)絡(luò)機(jī)器人中的一種,它隨著當(dāng)前網(wǎng)絡(luò)資源的爆炸式膨脹而不斷實(shí)現(xiàn)個(gè)性化更新,擴(kuò)大自身索引規(guī)模。傳統(tǒng)通用爬蟲技術(shù)己經(jīng)不能滿足現(xiàn)有索引規(guī)模及網(wǎng)絡(luò)個(gè)性化更新速度,更不能滿足客戶現(xiàn)實(shí)需求。所以像主題爬蟲的出現(xiàn)則異于通用爬蟲,它可以采集全部網(wǎng)絡(luò)資源,從互聯(lián)網(wǎng)上采集特定主題資源網(wǎng)頁,進(jìn)而大幅度提升信息資源搜索效率,逐漸成為當(dāng)前研究熱點(diǎn)。在美國的卡內(nèi)基梅隆大學(xué),眾多信息技術(shù)研究者就設(shè)計(jì)了Context Focused Crawler聚焦爬蟲系統(tǒng),提出了網(wǎng)頁主題管理WTMS系統(tǒng),并基于計(jì)算ontology相關(guān)度設(shè)計(jì)了主題爬蟲,逐步完善其體系結(jié)構(gòu)與框架,提出了目前全新的Web資源爬行系統(tǒng)IBM Focused Crawler。而國內(nèi)南京大學(xué)的學(xué)者教授則在近年來設(shè)計(jì)了IDGS數(shù)據(jù)采集系統(tǒng),該系統(tǒng)也基于Web技術(shù)與網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)了網(wǎng)絡(luò)資源信息自動(dòng)搜集功能,己經(jīng)被社會(huì)上各行各業(yè)所廣泛應(yīng)用。

在我國的國家電網(wǎng)行業(yè),全系統(tǒng)內(nèi)外網(wǎng)隔離及外部搜索引擎己經(jīng)無法進(jìn)入系統(tǒng)內(nèi)部網(wǎng)絡(luò),因此在電力企業(yè)內(nèi)部就必須通過更多網(wǎng)頁信息交流及鏈接交換功能來實(shí)現(xiàn)信息檢索和傳播。為此,電力系統(tǒng)應(yīng)該基于廣域網(wǎng)特點(diǎn),充分利用網(wǎng)絡(luò)爬蟲技術(shù),對(duì)廣域網(wǎng)中的有效信息進(jìn)行分類過濾和快速收集,確保信息的準(zhǔn)確性與完整性。電力產(chǎn)業(yè)作為關(guān)系到國民經(jīng)濟(jì)的重要行業(yè),積極應(yīng)用相關(guān)技術(shù)推動(dòng)其優(yōu)化發(fā)展,是產(chǎn)業(yè)發(fā)展的必然趨勢(shì)。本文將從網(wǎng)絡(luò)爬蟲技術(shù)整體結(jié)構(gòu)介紹入手,對(duì)網(wǎng)絡(luò)爬蟲技術(shù)基本框架和網(wǎng)絡(luò)爬蟲設(shè)計(jì)進(jìn)行了分析設(shè)計(jì),并著重闡釋了網(wǎng)絡(luò)爬蟲工具在信息調(diào)度值班中的應(yīng)用路徑,旨在證明網(wǎng)絡(luò)爬蟲技術(shù)在電力產(chǎn)業(yè)中的應(yīng)用作用,并為技術(shù)研究人員提供有價(jià)值的參考建議。

1網(wǎng)絡(luò)爬蟲技術(shù)整體結(jié)構(gòu)

網(wǎng)絡(luò)爬蟲技術(shù)結(jié)構(gòu)在建立過程中,要保證每個(gè)子目標(biāo)都貼合系統(tǒng)的實(shí)際發(fā)展結(jié)構(gòu)和規(guī)律,確保運(yùn)行參數(shù)和運(yùn)行結(jié)構(gòu)的穩(wěn)定性,也能提升網(wǎng)絡(luò)爬蟲技術(shù)的實(shí)際效率。在整體結(jié)構(gòu)研究過程中,技術(shù)人員要針對(duì)靈活性、低成本以及高性能進(jìn)行集中管控,確保運(yùn)行參數(shù)和運(yùn)行維度之間能建立有效的平衡結(jié)構(gòu)。另外,網(wǎng)絡(luò)爬蟲技術(shù)的健壯性特征也較為明顯,正是基于服務(wù)器通信結(jié)構(gòu)和服務(wù)器系統(tǒng)化反應(yīng),能在處理服務(wù)器異常舉動(dòng)的過程中,確保對(duì)URL進(jìn)行集中判定,從而對(duì)系統(tǒng)中PC結(jié)構(gòu)的基本結(jié)點(diǎn)進(jìn)行辨認(rèn),特別是處理錯(cuò)誤的程序較為有效。特別要注意的是,在運(yùn)行網(wǎng)絡(luò)爬蟲技術(shù)的過程中,基本框架能對(duì)信息和數(shù)據(jù)運(yùn)行速度實(shí)現(xiàn)有效控制,在規(guī)定范圍內(nèi)保持訪問間隔運(yùn)行有效,并對(duì)服務(wù)器要進(jìn)行每隔30秒的訪問。

2網(wǎng)絡(luò)爬蟲技術(shù)基本框架

2.1網(wǎng)絡(luò)艦蟲技術(shù)爬行節(jié)點(diǎn)結(jié)構(gòu)設(shè)計(jì)

網(wǎng)絡(luò)爬蟲技術(shù)基本框架由不同的PC端構(gòu)成,其中要對(duì)控制節(jié)點(diǎn)的設(shè)計(jì)結(jié)構(gòu)進(jìn)行分析,在結(jié)構(gòu)設(shè)計(jì)中要對(duì)五個(gè)基本模塊進(jìn)行綜合分析。

2.1.1URL分配模塊

該模塊主要是為了有效協(xié)調(diào)不同結(jié)點(diǎn)之間的工作項(xiàng)目,確保參數(shù)結(jié)構(gòu)符合實(shí)際需求,也為了將不同任務(wù)直接分配給不同的項(xiàng)目節(jié)點(diǎn),需要技術(shù)人員對(duì)工作節(jié)點(diǎn)的時(shí)序性和工作具體要求進(jìn)行分析,從而保證任務(wù)分配下項(xiàng)目在不同節(jié)點(diǎn)能發(fā)揮相應(yīng)的效力。特別要注意的是,不同結(jié)點(diǎn)要保證工作不會(huì)出現(xiàn)重復(fù),并能根據(jù)實(shí)際情況集中進(jìn)行項(xiàng)目添加。

2.1.2結(jié)點(diǎn)通信模塊

技術(shù)人員能利用不同的技術(shù)參數(shù)對(duì)系統(tǒng)進(jìn)行集中管控,確保管理結(jié)構(gòu)和參數(shù)之間能建立有效的平衡,在提高結(jié)點(diǎn)通信模塊通信效率的同時(shí),能利用采集器對(duì)采集網(wǎng)頁上的信息進(jìn)行直接處理,確保信息共享和信息交互。需要注意的是,在模塊運(yùn)行過程中,本身需要具備一定的策略結(jié)構(gòu),系統(tǒng)要在對(duì)等網(wǎng)絡(luò)建立的過程中確保通信協(xié)議符合實(shí)際標(biāo)準(zhǔn),提高通信器的實(shí)際價(jià)值。

2.1.3URL分析模塊

在模塊運(yùn)行過程中,能對(duì)即將訪問的URL隊(duì)列模塊和己經(jīng)訪問的URL隊(duì)列模塊進(jìn)行集中處理,并對(duì)IP和域名轉(zhuǎn)換模塊進(jìn)行綜合審定。

2.2網(wǎng)絡(luò)爬蟲技術(shù)控制節(jié)點(diǎn)結(jié)構(gòu)設(shè)計(jì)

在對(duì)網(wǎng)絡(luò)爬蟲技術(shù)控制節(jié)點(diǎn)進(jìn)行分析的過程中,能對(duì)數(shù)據(jù)進(jìn)行集中的管控,主要是對(duì)運(yùn)行狀態(tài)進(jìn)行觀察,并對(duì)參數(shù)進(jìn)行調(diào)整。要對(duì)刪除結(jié)點(diǎn)結(jié)構(gòu)和監(jiān)控項(xiàng)目進(jìn)行綜合分析,實(shí)現(xiàn)管理效果和管理水平的集中優(yōu)化。

(1)在對(duì)運(yùn)行狀態(tài)和運(yùn)行參數(shù)調(diào)整的過程中,技術(shù)人員要保證對(duì)不同結(jié)點(diǎn)的運(yùn)行維度和運(yùn)行參數(shù)進(jìn)行著重解構(gòu),對(duì)URL實(shí)際數(shù)目和參數(shù)結(jié)構(gòu)進(jìn)行集中調(diào)整,以保證系統(tǒng)在最佳狀態(tài)運(yùn)行實(shí)際工作。endprint

(2)技術(shù)人員要對(duì)系統(tǒng)添加和刪除結(jié)點(diǎn)進(jìn)行集中控制,以保證必要操作的完整度,真正從系統(tǒng)的擴(kuò)展性和容錯(cuò)性出發(fā),提高系統(tǒng)整體質(zhì)量。例如,要對(duì)系統(tǒng)中的ADDnode()以及Deletenode()進(jìn)行集中記錄,以保證信息同步操作的完整度,也實(shí)現(xiàn)副本更新的整體處理目標(biāo)。

(3)在對(duì)結(jié)點(diǎn)進(jìn)行有效監(jiān)控的過程中,技術(shù)人員要對(duì)系統(tǒng)中的同步模塊進(jìn)行綜合管理,確保結(jié)點(diǎn)列表內(nèi)部的信息真實(shí)有效,也要對(duì)結(jié)點(diǎn)中的hash映射信息和數(shù)據(jù)進(jìn)行集中處理,減少其隨意的向其他結(jié)點(diǎn)布置任務(wù)的情況。

3網(wǎng)絡(luò)爬蟲設(shè)計(jì)

3.1網(wǎng)絡(luò)爬蟲分布式設(shè)計(jì)策略

前文提到了任務(wù)在結(jié)點(diǎn)之間的分配,需要技術(shù)人員針對(duì)具體問題進(jìn)行優(yōu)化管控,也要對(duì)分布式策略進(jìn)行綜合分析,確保設(shè)計(jì)策略能貼合系統(tǒng)的實(shí)際需求。在分布式策略建立和運(yùn)行的過程中,技術(shù)人員要針對(duì)具體問題進(jìn)行優(yōu)化處理,最重要的就是要將信息劃分為分布式信息采集系統(tǒng)和廣域網(wǎng)分布式信息采集結(jié)構(gòu)。一方面,分布式信息采集系統(tǒng)要對(duì)內(nèi)連接信息進(jìn)行集中總結(jié),另一方面,要保證采集器能將信息借助網(wǎng)絡(luò)遠(yuǎn)程通信實(shí)現(xiàn)信息維度控制的有效性。技術(shù)人員要對(duì)廣域網(wǎng)模式進(jìn)行集中管控,也要對(duì)廣域網(wǎng)和局域網(wǎng)之間的結(jié)合結(jié)構(gòu)進(jìn)行綜合分析,確保處理機(jī)制和結(jié)點(diǎn)運(yùn)行機(jī)制貼合實(shí)際市場(chǎng)發(fā)展訴求。

3.2網(wǎng)絡(luò)爬蟲多線程下載設(shè)計(jì)策略

多線程下載設(shè)計(jì)結(jié)構(gòu)最基本的優(yōu)勢(shì)就是能對(duì)多個(gè)單程進(jìn)行記錄,確保不同事件能統(tǒng)一運(yùn)行。例如,在一個(gè)線程運(yùn)行GUI指令時(shí),需要對(duì)數(shù)據(jù)和信息進(jìn)行登記,第二個(gè)線程運(yùn)行或執(zhí)行I/O操作指令的過程中,第三個(gè)線程在運(yùn)行時(shí),需要對(duì)整體系統(tǒng)參數(shù)和結(jié)構(gòu)進(jìn)行計(jì)算,確保管控結(jié)構(gòu)具有時(shí)效性。多線程結(jié)構(gòu)最大的優(yōu)勢(shì)就是在程序內(nèi)部能提高計(jì)算機(jī)的實(shí)際效率,提升程序有效性的同時(shí),建構(gòu)更加有效的內(nèi)存空間,從而共享數(shù)據(jù)信息。只有保證多線程下載設(shè)計(jì)策略優(yōu)化運(yùn)行,才能真正提高整體運(yùn)行結(jié)構(gòu)和效率。

3.3網(wǎng)絡(luò)爬蟲網(wǎng)頁分析設(shè)計(jì)策略

主要對(duì)HTML標(biāo)記進(jìn)行分析,其中包括單標(biāo)記和雙標(biāo)記項(xiàng)目,第一,標(biāo)記為“單標(biāo)記”需要在單獨(dú)運(yùn)行過程中對(duì)信息進(jìn)行完整表達(dá),常用標(biāo)記就是

。第二,標(biāo)記為“雙標(biāo)記”要對(duì)初始標(biāo)志和結(jié)尾標(biāo)記進(jìn)行結(jié)構(gòu)分析,確保標(biāo)記結(jié)構(gòu)符合數(shù)據(jù)要求,常用的標(biāo)記形式是。

4網(wǎng)絡(luò)爬蟲工具在電力企業(yè)信息調(diào)度值班中的應(yīng)用

在技術(shù)逐步發(fā)展的進(jìn)程中,將網(wǎng)絡(luò)爬蟲技術(shù)和信息調(diào)度工作融合在一起,是順應(yīng)市場(chǎng)發(fā)展訴求的必然趨勢(shì),本項(xiàng)目主要是將網(wǎng)絡(luò)爬蟲工具應(yīng)用于電力企業(yè)調(diào)度值班工作中。

(1)要在電力企業(yè)信息調(diào)度值班中運(yùn)行有效的網(wǎng)絡(luò)爬蟲工具,提升管控制度的優(yōu)化水平,借助網(wǎng)絡(luò)爬蟲技術(shù)實(shí)現(xiàn)各應(yīng)用系統(tǒng)定時(shí)自動(dòng)巡檢,快速定位出現(xiàn)訪問異常的系統(tǒng),并對(duì)其具體參數(shù)進(jìn)行集中分析和控制,有效記錄異常發(fā)現(xiàn)時(shí)間,在應(yīng)用巡檢工具之前,值班員通過人工巡檢各應(yīng)用系統(tǒng),檢查系統(tǒng)的正常情況,平均每隔2小時(shí)檢查1次,每次用時(shí)30分鐘,則每天只能檢查12次,需耗時(shí)6小時(shí);在使用巡檢工具后,可以達(dá)到每隔30分鐘巡檢1次系統(tǒng),每次用時(shí)不超過5分鐘,則每天可以巡檢48次,耗時(shí)僅用4小時(shí)。

(2)值班人員也要借助網(wǎng)絡(luò)爬蟲工具強(qiáng)化信息值班調(diào)度的實(shí)際效果,并能及時(shí)通過短信的方式告知其他調(diào)度值班人員,以保證人力資源配置結(jié)構(gòu)的完整度,優(yōu)化技術(shù)應(yīng)用的實(shí)際效果,順利實(shí)現(xiàn)信息調(diào)度值班項(xiàng)目的優(yōu)化目標(biāo)。

(3)電力企業(yè)在調(diào)度工作中若是發(fā)現(xiàn)任何問題,都需要值班人員確后第一時(shí)間聯(lián)系系統(tǒng)負(fù)責(zé)人,及時(shí)處理系統(tǒng)異常問題,有效的提高值班工作中發(fā)現(xiàn)系統(tǒng)異常、處理問題的效率,減輕了每天手工巡檢系統(tǒng)的效率,為值班工作帶來了切實(shí)有效的巡檢手段。

(4)電力企業(yè)要針對(duì)信息調(diào)度值班工作人員進(jìn)行集中的技術(shù)培訓(xùn),提升其信息處理能力和技術(shù)操作意識(shí),確保整體管理效果和管理層級(jí)符合企業(yè)發(fā)展的實(shí)際需求,真正落實(shí)技術(shù)優(yōu)勢(shì),進(jìn)一步提高網(wǎng)絡(luò)爬蟲技術(shù)對(duì)信息調(diào)度值班項(xiàng)目的優(yōu)化水平。

5結(jié)束語

總而言之,將網(wǎng)絡(luò)爬蟲技術(shù)和信息調(diào)度

項(xiàng)目融合在一起,能從根本上提高整體運(yùn)行結(jié)構(gòu)質(zhì)量和效率,確保管理措施和管理效果更加符合市場(chǎng)需求,順利優(yōu)化仿真系統(tǒng)的有效性,從而保證企業(yè)的工作效率,從根本上實(shí)現(xiàn)技術(shù)工作按照標(biāo)準(zhǔn)化流程優(yōu)化運(yùn)行,調(diào)度員也能在仿真系統(tǒng)中獲得有效的信息和數(shù)據(jù),為我國信息項(xiàng)目可持續(xù)發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)。

參考文獻(xiàn)

[1]張明杰.基于網(wǎng)絡(luò)爬蟲技術(shù)的輿情數(shù)據(jù)采集系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2015,15(12):72-75.

[2]周大.云環(huán)境下Web應(yīng)用掃描中的網(wǎng)絡(luò)爬蟲技術(shù)探究[J].信息網(wǎng)絡(luò)安全,2013,15(05):20-23.

[3]鐘锃光.經(jīng)濟(jì)學(xué)家也要學(xué)點(diǎn)網(wǎng)絡(luò)爬蟲技術(shù)——漫談爬蟲技術(shù)與經(jīng)濟(jì)數(shù)據(jù)收集[J].經(jīng)濟(jì)資料譯叢,2014,22(02):94-100.

[4]徐劍,柯貴明.網(wǎng)絡(luò)爬蟲技術(shù)在搜索引擎中的應(yīng)用[C].全國第24屆計(jì)算機(jī)技術(shù)與應(yīng)用(CACIS)學(xué)術(shù)會(huì)議論文集,2013:531-535.

[5]彭冬,蔡皖東.面向Web論壇的網(wǎng)絡(luò)信息獲取技術(shù)及系統(tǒng)實(shí)現(xiàn)[J].計(jì)算機(jī)工程與科學(xué),2014,33(01):157-160.

猜你喜歡
分析
禽大腸桿菌病的分析、診斷和防治
隱蔽失效適航要求符合性驗(yàn)證分析
電力系統(tǒng)不平衡分析
電力系統(tǒng)及其自動(dòng)化發(fā)展趨勢(shì)分析
經(jīng)濟(jì)危機(jī)下的均衡與非均衡分析
對(duì)計(jì)劃生育必要性以及其貫徹實(shí)施的分析
GB/T 7714-2015 與GB/T 7714-2005對(duì)比分析
網(wǎng)購中不良現(xiàn)象分析與應(yīng)對(duì)
中西醫(yī)結(jié)合治療抑郁癥100例分析
偽造有價(jià)證券罪立法比較分析