国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)絡爬蟲技術的數(shù)字資源檢測軟件的設計與實現(xiàn)

2019-02-13 10:26:21
數(shù)字通信世界 2019年11期
關鍵詞:日志網(wǎng)頁軟件

(蘇州健雄職業(yè)技術學院,蘇州 215411)

在基于爬蟲技術的數(shù)字資源檢測軟件的設計和開發(fā)中,這類軟件能夠實現(xiàn)免安裝、免要求和高速度資源檢索目的,所以在這一軟件的具體應用中,可以更好完成對整個系統(tǒng)的完善和優(yōu)化工作。在后續(xù)的運行和發(fā)展中,可使用這一軟件實現(xiàn)對當前技術形式和檢測系統(tǒng)的替代,提高對資源的檢測質量。

1 數(shù)字資源檢測的傳統(tǒng)方法

1.1 人工檢測法

在人工檢測法的應用中,采用的方法為讓工作人員通過登錄的方式,找到網(wǎng)站和服務器中的失效資源,并確定是否需要將這些資源去除。從方法的應員工方法上來看,可以發(fā)現(xiàn)工作人員需要投入大量的工作,從整體上來看,在具體的工作中,由于工作人員難以在短時間之內完成對所有數(shù)字資源的研究和審查,在具體的工作中,會出現(xiàn)一些失效資源被遺漏現(xiàn)象,降低了這一網(wǎng)站的服務質量[1]。另外在人工檢測方法中,要求參與該項工作的人員要能夠及時發(fā)現(xiàn)被檢測資源中的問題,并將資源存在的問題提交,從這一方法的作用形式上來看,對工作人員的個人素質提出的要求較高,要求其能夠準確識別各項數(shù)據(jù),對于大部分工作人員來說,其工作情況難以滿足這一要求。

1.2 自研軟件檢測法

在當前的數(shù)字資源檢測中,行業(yè)內已經(jīng)開發(fā)出了多種資源的檢測軟件,取得了較好的效果,然而也可以發(fā)現(xiàn)當前的商用軟件存在一定問題,其一為軟件的售價較高,對于一些機構來說難以負擔,導致這類軟件在當前的實際應用效果較差,其二為軟件對網(wǎng)絡資源的占用量較高,導致對資源的處理和識別速度降低,導致整個系統(tǒng)的運行成果下滑。在當前的一些機構中,為降低成本,采用的方法為采用自研軟件完成對數(shù)字資源的檢測工作,但是從實踐結果來看,這類自研軟件的開發(fā)成本較高,并且對資源的檢驗人員工作素質提出了較高要求,從整體上來看,數(shù)字資源的檢測效率較低。

2 基于網(wǎng)絡爬蟲技術的數(shù)字資源檢檢測軟件設計和實現(xiàn)方法

2.1 整體框架建設

在整體框架的建設中,網(wǎng)絡層包括資源層、執(zhí)行層、信息的表現(xiàn)層和功能的實現(xiàn)層,這4個不同的層級發(fā)揮作用不同,其中資源層的作用為實現(xiàn)對所有數(shù)字資源的檢測和研究,為了能夠讓這一系統(tǒng)更好運行,通過免安裝的方式發(fā)揮應有作用,采用的方法為檢測系統(tǒng)的URL地址,然而在系統(tǒng)的整體運行中,必然會生成大量的監(jiān)測信息,在該系統(tǒng)的具體應用中,采取的方法為采用日志文件的方法替代傳統(tǒng)的信息存儲構件,這一方法的優(yōu)勢在于,可以實現(xiàn)對相關軟件的免安裝。執(zhí)行層的作用為完成對數(shù)字資源的檢測工作,在具體的工作中,該子系統(tǒng)詢問URL的地址,并逐個訪問系統(tǒng)中的信息,確定各類資源的網(wǎng)絡連接是否可用,當發(fā)現(xiàn)某連接失效時,則需要完成信息反饋工作。功能實現(xiàn)層的作用為,解析軟件運行中爬取的各類網(wǎng)頁信息,同時從中獲取有價值或者相關人員需求的信息,從整體上來看,在這一系統(tǒng)的運行和完善工作中,要從這一角度出發(fā),提供相應的反饋信息,包括信息的獲取時間、檢測結果的代碼等,從而讓工作人員能夠更好分析各類資源的實際效果。信息表現(xiàn)層的功能為,在功能實現(xiàn)層之后,將獲取的信息通過人機交互界面等設備展示,讓工作人員找到失效的資源。

2.2 系統(tǒng)管理流程

在這一系統(tǒng)的功能實現(xiàn)中,要按照具體的工作流程完成對數(shù)字資源的檢測工作,整個工作流程為URL地址讀取-訪問請求發(fā)送-響應信息接收-網(wǎng)頁解析-日志文件處理-數(shù)據(jù)對比。其中最關鍵的步驟為訪問請求發(fā)送、響應信息接收和網(wǎng)頁解析三個過程,對于請求的發(fā)送過程,需要應用的工具為蜘蛛引擎,在這一工具的使用中,可以在短時間內完成對大量訪問請求數(shù)據(jù)的發(fā)送,在此基礎上才可獲取相應的反饋信息,在后續(xù)的研究和分析中,通過對這類數(shù)據(jù)的研究,實現(xiàn)對資源的整合與分析。對于響應信息接收,根據(jù)向系統(tǒng)中輸入的控制信息,分析該項工作當前存在的問題,可以以200ms為周期,分析各類網(wǎng)頁信息的響應速度,其中時間在200ms之內時,反饋值為“快”,高于200ms,反饋值為“慢”,無反饋時,系統(tǒng)自動發(fā)送3次訪問請求,若依然無響應信息,反饋值為“失效”。對于網(wǎng)頁解析,要通過上述的分析過程,找到這一網(wǎng)頁的實際運行質量,當發(fā)現(xiàn)系統(tǒng)中存在運行問題時,則需要采用合理方法對這類網(wǎng)頁和資源進行處理。

2.3 關鍵技術應用

在關鍵技術的應用中,其一為蜘蛛引擎,其作用為從數(shù)據(jù)流中提取URL網(wǎng)頁,并接受相應的反饋信息,當可以獲取反饋值時,輸出的代碼為“200”,無法獲取反饋值時,輸出的代碼為“404”,由于復雜頁面中含有多種編碼形式,要實現(xiàn)對這類復雜信息的提取,在網(wǎng)頁的代碼中抓取相關信息[2]。其二為對日志文件的處理方法,這一子系統(tǒng)的運行中,會生成4個日志文件,發(fā)揮的作用為記錄上次信息、記錄本次信息、檢測信息的對比,在此基礎上生成最終的檢測結果展示日志,工作人員通過對這一日志中信息的研究和分析,可以及時找到和優(yōu)化當前系統(tǒng)中的失效網(wǎng)頁和資源,在后續(xù)的工作中,將這類資源清除。

3 結束語

綜上所述,在數(shù)字資源的檢測工作中,傳統(tǒng)方法為人工檢測和自研軟件檢測,從取得的檢測效果來看,當前的技術條件下取得的質量較為一般。在基于爬蟲技術的數(shù)字資源檢測軟件的開發(fā)中,要建成整個網(wǎng)絡體系的框架,在此基礎上加入蜘蛛引擎等工具,實現(xiàn)對所有信息的有效識別和分析,通過生成的日志完成信息展示。

猜你喜歡
日志網(wǎng)頁軟件
一名老黨員的工作日志
華人時刊(2021年13期)2021-11-27 09:19:02
禪宗軟件
英語文摘(2021年10期)2021-11-22 08:02:26
扶貧日志
心聲歌刊(2020年4期)2020-09-07 06:37:14
軟件對對碰
基于CSS的網(wǎng)頁導航欄的設計
電子制作(2018年10期)2018-08-04 03:24:38
游學日志
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
電子制作(2017年2期)2017-05-17 03:54:56
網(wǎng)頁制作在英語教學中的應用
電子測試(2015年18期)2016-01-14 01:22:58
談軟件的破解與保護
精品(2015年9期)2015-01-23 01:36:01
10個必知的網(wǎng)頁設計術語
景德镇市| 灵石县| 铜鼓县| 河北省| 临颍县| 昌平区| 磐石市| 探索| 湖南省| 无棣县| 泰顺县| 芒康县| 望奎县| 广宗县| 眉山市| 灵武市| 安西县| 如东县| 苏尼特左旗| 元江| 涟水县| 邳州市| 金门县| 洮南市| 铜陵市| 清苑县| 乐亭县| 永宁县| 韩城市| 永康市| 独山县| 栖霞市| 巴林右旗| 象山县| 杂多县| 湖北省| 武安市| 芜湖县| 当涂县| 岢岚县| 来安县|