国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于網(wǎng)絡(luò)爬蟲的四川大學(xué)資訊整合網(wǎng)站的研究與設(shè)計

2013-04-29 17:37:39劉驕陽
科協(xié)論壇·下半月 2013年7期
關(guān)鍵詞:網(wǎng)絡(luò)爬蟲新媒體設(shè)計

劉驕陽

摘 要:由于工作與生活節(jié)奏的加快,人們的時間呈現(xiàn)出碎片化,新媒體因迎合這種現(xiàn)狀而生。隨著互聯(lián)網(wǎng)信息呈“爆發(fā)式”增長,人們更需要新媒體能夠及時、準(zhǔn)確地提供資訊,資源整合就成了其中的必要環(huán)節(jié)。以四川大學(xué)為例,利用網(wǎng)絡(luò)爬蟲技術(shù)整合四川大學(xué)學(xué)生經(jīng)常瀏覽的教務(wù)處網(wǎng)站、團(tuán)委網(wǎng)站、學(xué)生工作處網(wǎng)站的通知及新聞,以計算機(jī)科學(xué)技術(shù)解決問題,滿足學(xué)生群體對新媒體運(yùn)營效果的期望。

關(guān)鍵詞:網(wǎng)絡(luò)爬蟲 新媒體 研究 設(shè)計

中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-3973(2013)007-063-03

1 引言

隨著新媒體的飛速發(fā)展與逐漸成熟,新媒體這一媒體形式憑借其便利、便捷的特點獲得了人們的認(rèn)可和關(guān)注。由于新媒體平臺的數(shù)量增長,人們已經(jīng)逐漸迷失在浩瀚的網(wǎng)絡(luò)中,無法在有限的時間內(nèi)及時、準(zhǔn)確地獲得想要的信息,所以對新媒體進(jìn)行有效的資源整合成了解決這一問題的首要途徑。本文以四川大學(xué)教務(wù)處網(wǎng)站、四川大學(xué)團(tuán)委網(wǎng)站、四川大學(xué)學(xué)生工作處網(wǎng)站為研究背景,結(jié)合計算科學(xué)技術(shù),提出了新媒體資源整合的方法,使廣大的學(xué)生群體在有限的課余時間內(nèi)準(zhǔn)確、高效地了解校內(nèi)外的資訊。

本文主要工作包括:(1)研究四川大學(xué)網(wǎng)絡(luò)媒體現(xiàn)狀;(2)提出新媒體平臺數(shù)量增長背景下,如何及時、高效地獲取資訊的辦法;(3)介紹新媒體資源整合的核心技術(shù) — 網(wǎng)絡(luò)爬蟲技術(shù)及相關(guān)關(guān)鍵技術(shù);(4)結(jié)合網(wǎng)絡(luò)爬蟲技術(shù)設(shè)計資源整合網(wǎng)站,整合四川大學(xué)教務(wù)網(wǎng)站、學(xué)生工作處網(wǎng)站、團(tuán)委網(wǎng)站的資訊。

2 四川大學(xué)網(wǎng)絡(luò)媒體現(xiàn)狀分析

經(jīng)調(diào)查,四川大學(xué)學(xué)生最經(jīng)常訪問的校園官方網(wǎng)絡(luò)平臺有“四川大學(xué)教務(wù)處網(wǎng)站”、“四川大學(xué)團(tuán)委網(wǎng)站”、“四川大學(xué)學(xué)生工作處網(wǎng)站”,其主要原因在于以上幾個網(wǎng)絡(luò)媒體平臺經(jīng)常頒布貼近學(xué)生校園生活的資訊信息,學(xué)生急需從中獲取及時的資訊了解校園內(nèi)的實時動態(tài)?,F(xiàn)階段,四川大學(xué)官方網(wǎng)絡(luò)媒體具有以下幾個特點:

2.1 資訊重復(fù)出現(xiàn),缺乏系統(tǒng)性

新媒體飛速發(fā)展,其主要原因在于其便捷和便利的特點。經(jīng)過調(diào)查發(fā)現(xiàn),四川大學(xué)教務(wù)處網(wǎng)站、團(tuán)委網(wǎng)站、學(xué)生工作處網(wǎng)站上經(jīng)常出現(xiàn)資訊重復(fù)的現(xiàn)象,一則通知或新聞因其工作性質(zhì)與網(wǎng)站直屬單位相同而被同時發(fā)布在多個網(wǎng)絡(luò)平臺上。網(wǎng)頁的主頁設(shè)計中,一般會將5-8條的資訊顯示在主頁面上,其余的資訊需點擊“更多”進(jìn)行查看。學(xué)生在瀏覽網(wǎng)站了解資訊時,主要關(guān)注的就是頁面中通知欄、新聞欄的即時信息,很少點擊“更多”查看未全部顯示的信息,如此重復(fù)信息的出現(xiàn),極可能導(dǎo)致信息的更新而使學(xué)生錯過還未閱讀的資訊信息。

2.2 資訊分布廣,使用效率低

資訊分布廣是現(xiàn)階段四川大學(xué)網(wǎng)絡(luò)平臺的一個主要特點,同時也是一個亟待解決的問題。廣泛的信息分布使學(xué)生在瀏覽信息時疲于奔命,再加之校園網(wǎng)刷新速度較慢,很大程度上降低了學(xué)生的使用效率。效率降低了,也違背了新媒體這一新興產(chǎn)業(yè)的初衷,高效率的獲取資訊是廣大學(xué)生的需求。

3 及時、高效地獲取資訊的對策研究

3.1 及時性

所謂及時性,需要使學(xué)生在瀏覽網(wǎng)頁時能第一時間了解到同步更新的資訊。

3.2 高效性

所謂高效性,需要使學(xué)生在有限的時間內(nèi)盡可能多得獲得有效的資訊。

結(jié)合以上兩點,資源整合概念是解決這一問題的最佳對策。

資源整合是系統(tǒng)論的思維方式,針對本文提出的問題,就是要通過科學(xué)化的方法將四川大學(xué)教務(wù)處網(wǎng)站、團(tuán)委網(wǎng)站、學(xué)生工作處網(wǎng)站彼此相關(guān)但又分離的資訊,通過計算機(jī)科學(xué)技術(shù)的方法整合到一起。

具體方法是設(shè)計一個四川大學(xué)資訊整合網(wǎng)站,將三個網(wǎng)站的通知、新聞獲取到一個網(wǎng)站上,使學(xué)生在登陸瀏覽一個網(wǎng)站時就可以關(guān)注到三個網(wǎng)站的實時信息。同時,網(wǎng)站將使用自動更新技術(shù)實現(xiàn)及時性,使用去除重復(fù)的方法實現(xiàn)高效性。

4 實現(xiàn)資源整合的核心技術(shù)

網(wǎng)絡(luò)爬蟲是在搜索引擎領(lǐng)域中廣泛使用的技術(shù),而其主要是根據(jù)用戶的需求,在制定的網(wǎng)絡(luò)范圍內(nèi)搜尋消息。這項技術(shù)可以運(yùn)用在實現(xiàn)本文提出的資源整合理念上。本節(jié)將概述網(wǎng)絡(luò)爬蟲技術(shù)并介紹實現(xiàn)網(wǎng)絡(luò)爬蟲相關(guān)技術(shù)。

4.1 網(wǎng)絡(luò)爬蟲技術(shù)概述

網(wǎng)絡(luò)爬蟲是通過網(wǎng)頁的鏈接地址尋找網(wǎng)頁的程序,如圖1所示,它從網(wǎng)站的某一個頁面開始讀取網(wǎng)頁的內(nèi)容,找到網(wǎng)頁的其他鏈接地址,然后不斷地遞歸循環(huán),直到把網(wǎng)站內(nèi)所需資源遍歷完整為止。

在抓取網(wǎng)頁的時候,網(wǎng)絡(luò)爬蟲一般有兩種策略:(1)廣度優(yōu)先策略;(2)深度優(yōu)先策略。

4.2 Java語言

Java語言具有簡單性、多線程性、與平臺無關(guān)性的特點。

網(wǎng)絡(luò)爬蟲需要對多個頁面進(jìn)行解析,顯然,單線程的工作效率極低,程序會因此出現(xiàn)瓶頸。單線程技術(shù)需要一個接一個地等待響應(yīng),等待時間將是每個網(wǎng)頁請求等待響應(yīng)的時間。因此,多線程是實現(xiàn)網(wǎng)絡(luò)爬蟲的必要技術(shù)。

4.3 Jsoup Html解析工具

Jsoup是一種Java的Html解析器,可以直接解析某個URL地址、HTML文本內(nèi)容。Jsoup提供了較為方便的API,可以通過類似于JQuery的操作方法進(jìn)行數(shù)據(jù)操作。

主要功能有:從URL中直接獲取頁面HTML,使用DOM、CSS選擇器查找、獲取數(shù)據(jù),實現(xiàn)對HTML的簡單操作。

4.4 JDBC數(shù)據(jù)庫訪問

網(wǎng)絡(luò)爬蟲解析HTML后,將獲取有用信息儲存在數(shù)據(jù)庫。Java提供了JDBC(Java Data Base Connectivity)接口來進(jìn)行數(shù)據(jù)庫訪問。JDBC的用途是通過向數(shù)據(jù)庫發(fā)送SQL請求語句,讓使用者從數(shù)據(jù)庫中獲取請求的信息。

5 結(jié)合網(wǎng)絡(luò)爬蟲,資源整合網(wǎng)站的具體實現(xiàn)

5.1 主要算法實現(xiàn)

針對四川大學(xué)教務(wù)處網(wǎng)站、四川大學(xué)學(xué)生工作處網(wǎng)站、四川大學(xué)團(tuán)委網(wǎng)站的頁面特性,設(shè)計網(wǎng)絡(luò)爬蟲算法的方法基本一致,這里以抓取四川大學(xué)團(tuán)委網(wǎng)站通知內(nèi)容為例,詳細(xì)分析算法的實現(xiàn)方法。實現(xiàn)網(wǎng)絡(luò)爬蟲算法的主要步驟有解析HTML頁面,使用Jsoup抓取需要的信息。

(1)解析HTML頁面。

使用Google Chrome瀏覽器的審查元素功能,分析四川大學(xué)團(tuán)委網(wǎng)站通知欄的HTML結(jié)構(gòu)。如圖2 所示,首先定位通知欄在HTML頁面中的位置,然后定位進(jìn)行進(jìn)一步的解析操作。

以四川大學(xué)團(tuán)委網(wǎng)站通知欄中《關(guān)于組織開展“中國夢·為夢想改變的21天”網(wǎng)絡(luò)筑夢活動的通知》為例,通知的鏈接地址和標(biāo)題位于Marquee標(biāo)簽內(nèi)td標(biāo)簽內(nèi)。

(2)使用Jsoup抓取信息。

由對HTML頁面的分析可以確定通知欄內(nèi)的所有通知都是位于Marquee標(biāo)簽內(nèi),所以使用Jsoup中提供的API鏈接至四川大學(xué)團(tuán)委網(wǎng)站,并調(diào)用select方法將讀入的HTML定位至Marquee標(biāo)簽,具體實現(xiàn)代碼如下:

Jsoup.connect("http://tuanwei.scu.edu.cn/tw/index.php").get().select("marquee a");

定位之后,需要對Marquee標(biāo)簽內(nèi)內(nèi)容進(jìn)一步解析,將通知的標(biāo)題title和通知的超鏈接地址href進(jìn)行提取,并根據(jù)鏈接地址提取通知的具體內(nèi)容,具體實現(xiàn)代碼如下:

String href = elem.attr("href");

Document doc = Jsoup.connect("http://tuanwei.scu.edu.cn/tw/" + href).get();

String time = doc.select("#articlelink tr:eq(1) td").first().text();

String content = doc.select(".articlecontent").first().text();

5.2 網(wǎng)站基本框架

圖3 框架結(jié)構(gòu)

網(wǎng)站的設(shè)計使用MVC(Model View Controller)框架,是模型、視圖、控制器三個部分組成。MVC框架實現(xiàn)了數(shù)據(jù)模型和用戶界面的代碼分離。如圖3所示,網(wǎng)站主體框架分為表現(xiàn)層、服務(wù)層、持久層。

表現(xiàn)層:Layout、Panel、Widget、Style;

服務(wù)層:LimitsValidtors、ConnectionPool;

持久層:@Column、AvSql。

5.3 網(wǎng)站數(shù)據(jù)庫防重復(fù)內(nèi)容機(jī)制

網(wǎng)站的數(shù)據(jù)庫使用PostgresQL數(shù)據(jù)庫實現(xiàn),數(shù)據(jù)庫的存儲與訪問通過JDBC接口實現(xiàn)。由于四川大學(xué)網(wǎng)站更新頻率較低,網(wǎng)絡(luò)爬蟲進(jìn)行信息抓取時經(jīng)常會出現(xiàn)重復(fù)數(shù)據(jù)的現(xiàn)象,為了防止數(shù)據(jù)冗余,在網(wǎng)絡(luò)爬蟲執(zhí)行時嵌入了如下代碼:

Notice tmp = DaoFactory.createNoticeDao().find(Notice.TITLE + "=" + title + "");

if(tmp != null)

{continue;}

爬蟲每次獲取通知標(biāo)題后,與數(shù)據(jù)庫已有數(shù)據(jù)進(jìn)行比對,如果存在相同的標(biāo)題則直接執(zhí)行continue語句進(jìn)行下條標(biāo)題的抓取。

5.4 網(wǎng)站的自動更新機(jī)制

為了實現(xiàn)網(wǎng)站與四川大學(xué)教務(wù)處網(wǎng)站、四川大學(xué)學(xué)生工作處網(wǎng)站、四川大學(xué)團(tuán)委網(wǎng)站的信息同步及時更新,網(wǎng)站設(shè)計了自動更新機(jī)制。爬蟲程序每隔24小時執(zhí)行一次,并將新的信息存入數(shù)據(jù)庫,實現(xiàn)代碼如下:

public void contextInitialized(ServletContextEvent arg0)

{

this.timer = new Timer();

this.timer.schedule(new TimerTask(), 1000, 24 * 3600 * 1000);

}

6 結(jié)語

本文選取四川大學(xué)作為研究背景,研究出了新媒體橫向增長的趨勢下,及時、高效地獲取資訊的方法。及時、高效,必然是新媒體未來發(fā)展的主流趨勢,利用網(wǎng)絡(luò)爬蟲技術(shù)實現(xiàn)資源整合將很好地迎合了新媒體的發(fā)展趨勢,滿足了用戶的普遍需求。

參考文獻(xiàn):

[1] 杜亞軍,嚴(yán)兵,宋亮.爬行蟲算法設(shè)計與程序?qū)崿F(xiàn)[J].計算機(jī)應(yīng)用,2004(01).

[2] 陳鵬.新媒體環(huán)境下的科學(xué)傳播新格局研究[D].中國科學(xué)技術(shù)大學(xué),2012.

[3] 林海霞,司海峰,張微微.基于Java技術(shù)的主題網(wǎng)絡(luò)爬蟲的研究與實現(xiàn)[J].微型電腦應(yīng)用,2009(02).

猜你喜歡
網(wǎng)絡(luò)爬蟲新媒體設(shè)計
瞞天過?!律O(shè)計萌到家
設(shè)計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設(shè)計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
煉鐵廠鐵量網(wǎng)頁數(shù)據(jù)獲取系統(tǒng)的設(shè)計與實現(xiàn)
新媒體背景下黨報的轉(zhuǎn)型探析
新聞世界(2016年10期)2016-10-11 20:19:46
對農(nóng)廣播節(jié)目的媒體融合之路
新聞世界(2016年10期)2016-10-11 20:12:46
新媒體語境下高校思想政治教育話語研究綜述
成才之路(2016年26期)2016-10-08 11:02:55
基于社會網(wǎng)絡(luò)分析的權(quán)威網(wǎng)頁挖掘研究
主題搜索引擎中網(wǎng)絡(luò)爬蟲的實現(xiàn)研究
淺析如何應(yīng)對網(wǎng)絡(luò)爬蟲流量
中國市場(2016年23期)2016-07-05 04:35:08
东源县| 广灵县| 利辛县| 南平市| 乐平市| 东丽区| 博湖县| 黑山县| 会理县| 吐鲁番市| 天全县| 清苑县| 阳泉市| 淮南市| 海口市| 江口县| 梁平县| 石棉县| 乡城县| 奉节县| 弥勒县| 泸定县| 驻马店市| 宁津县| 瑞安市| 托里县| 昌江| 台北县| 墨竹工卡县| 修文县| 普陀区| 称多县| 柳林县| 广德县| 沅江市| 元阳县| 泽普县| 五峰| 凤庆县| 合山市| 阿尔山市|