国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

依托百度搜索引擎的輿情信息搜索系統(tǒng)研究?

2019-11-29 05:14唐國(guó)維李井輝
關(guān)鍵詞:網(wǎng)址網(wǎng)頁(yè)郵件

唐國(guó)維 趙 璨 李井輝 張 巖

(東北石油大學(xué) 大慶 163318)

1 引言

近10 年來(lái)中國(guó)互聯(lián)網(wǎng)取得了長(zhǎng)足的發(fā)展,截至2016年底中國(guó)互聯(lián)網(wǎng)用戶人數(shù)已超過(guò)7.10億[1]。互聯(lián)網(wǎng)的方便、快捷的特點(diǎn)使得互聯(lián)網(wǎng)網(wǎng)站數(shù)量得到了快速增長(zhǎng),所包含的信息也越來(lái)越豐富,因此通過(guò)互聯(lián)網(wǎng)獲得信息來(lái)源已經(jīng)成為人們最主要的一個(gè)方式。雖然互聯(lián)網(wǎng)給大家的生活帶來(lái)了很多好處,但是由于互聯(lián)網(wǎng)中的網(wǎng)站眾多,同時(shí)在互聯(lián)網(wǎng)上發(fā)布信息幾乎不受限制,也導(dǎo)致近年在互聯(lián)網(wǎng)中,出現(xiàn)的不利于國(guó)家發(fā)展、社會(huì)穩(wěn)定的信息越來(lái)越多,事實(shí)真相被扭曲,其嚴(yán)重影響了社會(huì)的穩(wěn)定發(fā)展。因此如何在互聯(lián)網(wǎng)中及時(shí)的發(fā)現(xiàn)和篩選出不良信息,避免負(fù)面事件的出現(xiàn)和擴(kuò)大,已成為一項(xiàng)亟待解決的重要工作。

目前人們都很重視網(wǎng)絡(luò)輿情監(jiān)控工作,網(wǎng)絡(luò)輿情系統(tǒng)通常包括數(shù)據(jù)采集、網(wǎng)頁(yè)信息抽取、數(shù)據(jù)統(tǒng)計(jì)分析、輿情數(shù)據(jù)處理和系統(tǒng)管理等,網(wǎng)頁(yè)信息抽取是網(wǎng)絡(luò)輿情系統(tǒng)中極其關(guān)鍵的部分[2]。但是目前網(wǎng)絡(luò)輿情監(jiān)控工作存在很多的問(wèn)題和困難。例如:開(kāi)展輿情監(jiān)控采取人工搜索方式,其手段簡(jiǎn)單,目的性不強(qiáng)且所需人員較多,而信息相關(guān)的網(wǎng)站數(shù)量較多,信息量也非常大。面對(duì)海量復(fù)雜的信息,采用人工搜索方式,效率較低而且容易錯(cuò)過(guò)消除或避免輿情信息擴(kuò)散的最佳時(shí)機(jī),容易造成不良影響[3]。

本文主要研究的是爬蟲(chóng)、搜索引擎、文本信息挖掘等技術(shù),以百度網(wǎng)站和某貼吧為例,應(yīng)開(kāi)展網(wǎng)絡(luò)輿情監(jiān)控工作的應(yīng)用需求而提出的一個(gè)完整的解決方案,可以大幅提高百度網(wǎng)站、百度貼吧輿情信息搜索的速度和獲取信息的準(zhǔn)確度,有效縮短信息搜索時(shí)間,提高監(jiān)控效率。

2 主要研究?jī)?nèi)容

本文主要針對(duì)目前輿情信息搜索采用人工方式效率低、易出現(xiàn)信息遺漏等問(wèn)題而提出的一個(gè)可行解決方案,主要研究?jī)?nèi)容是依托百度搜索引擎,根據(jù)預(yù)設(shè)的關(guān)鍵字,向百度數(shù)據(jù)服務(wù)器發(fā)送請(qǐng)求并接收回傳的數(shù)據(jù),同時(shí)抽取包含目標(biāo)信息的文檔和鏈接地址;利用信息轉(zhuǎn)存技術(shù),將服務(wù)器返回的數(shù)據(jù)轉(zhuǎn)存到本地[4];利用信息去冗技術(shù),根據(jù)設(shè)置的冗余信息對(duì)比度來(lái)剔除冗余信息[5];根據(jù)分詞技術(shù)和相似篩選技術(shù),把轉(zhuǎn)存后的數(shù)據(jù)按照相似度分類(lèi)存儲(chǔ),并實(shí)現(xiàn)本地?cái)?shù)據(jù)的查詢和檢索[6];根據(jù)輿情級(jí)別制定相應(yīng)的預(yù)警機(jī)制,將分級(jí)的輿情信息生成輿情報(bào)告并整合到電子郵件中,自動(dòng)傳送給用戶,實(shí)現(xiàn)無(wú)人監(jiān)管時(shí)輿情信息自動(dòng)收發(fā);根據(jù)輿情信息重要與否,利用信息推送技術(shù),將輿情信息整合成輿情報(bào)告發(fā)送給指定人員,實(shí)現(xiàn)輿情信息郵件推送。

根據(jù)需求,依托百度搜索引擎對(duì)輿情信息爬行。為了實(shí)現(xiàn)獲取百度搜索引擎的服務(wù)器數(shù)據(jù),經(jīng)過(guò)研究和探討設(shè)計(jì)了多個(gè)思路,并在實(shí)踐中驗(yàn)證這些思路的可靠性和穩(wěn)定性。

主要從三個(gè)思路進(jìn)行了驗(yàn)證,分別為:1)Socket 通信方法,通過(guò)模擬客戶端和服務(wù)器之間的交互;2)獲取百度網(wǎng)站的XML文檔方法,只要對(duì)XML文檔進(jìn)行分析處理即可以獲得需求信息;3)采用HTML 分析方法直接對(duì)百度網(wǎng)站的源碼字符串進(jìn)行分析。最終經(jīng)過(guò)比較研究確定了第三種方案,雖然不同網(wǎng)站的源碼標(biāo)記具有特殊性,且不同網(wǎng)頁(yè)源碼分析技術(shù)存在未知難點(diǎn),但是這種方案對(duì)于網(wǎng)頁(yè)目標(biāo)信息的提取效果很明顯,其研究重點(diǎn)是分析不同網(wǎng)站的HTML 源碼標(biāo)記結(jié)構(gòu),看能否找出網(wǎng)頁(yè)源碼標(biāo)記的通用結(jié)構(gòu),同時(shí)按照此研究方案進(jìn)行充實(shí)和完善。

3 系統(tǒng)總體設(shè)計(jì)

3.1 系統(tǒng)總體結(jié)構(gòu)

結(jié)合系統(tǒng)的功能分析以及未來(lái)輿情發(fā)展的綜合考慮,實(shí)現(xiàn)系統(tǒng)與百度網(wǎng)站搜索引擎的鏈接,完成信息搜索。利用信息轉(zhuǎn)存、信息去冗以及相似篩選技術(shù)實(shí)現(xiàn)對(duì)在互聯(lián)網(wǎng)上發(fā)布的信息的抓取、轉(zhuǎn)存、去冗以及自動(dòng)分類(lèi)功能,針對(duì)輿情信息還具有自動(dòng)生成輿情報(bào)告和輿情信息預(yù)警功能,同時(shí)利用電子郵件的形式向用戶提供信息呈報(bào)服務(wù)。同時(shí),在系統(tǒng)管理中實(shí)現(xiàn)功能控制,包括關(guān)鍵詞的設(shè)置以及登錄用戶的增刪編輯等。

本系統(tǒng)應(yīng)用B/S 網(wǎng)頁(yè)瀏覽模式,主要分為五個(gè)模塊:信息搜索模塊、定制信息模塊、信息推送模塊、信息匯總模塊和系統(tǒng)管理模塊[7]。五個(gè)模塊呈遞進(jìn)關(guān)系,功能上相輔相成,實(shí)現(xiàn)本系統(tǒng)所需的所有需求,系統(tǒng)總體結(jié)構(gòu)圖如圖1。

圖1 系統(tǒng)總體結(jié)構(gòu)框圖

3.2 系統(tǒng)物理結(jié)構(gòu)

3.3 系統(tǒng)數(shù)據(jù)結(jié)構(gòu)

因考慮系統(tǒng)數(shù)據(jù)處理量較大,因此數(shù)據(jù)結(jié)構(gòu)很復(fù)雜,不同類(lèi)別網(wǎng)站的搜索信息需要存放在不同的數(shù)據(jù)表中,不同數(shù)據(jù)表數(shù)據(jù)格式和數(shù)據(jù)字段也不同,需要對(duì)數(shù)據(jù)進(jìn)行大量操作,如轉(zhuǎn)存、分類(lèi)、去冗等,本系統(tǒng)數(shù)據(jù)結(jié)構(gòu)框圖如圖3。

4 系統(tǒng)功能

本系統(tǒng)包括五個(gè)功能模塊:信息搜索模塊、定制信息模塊、信息推送模塊、信息匯總模塊和系統(tǒng)管理模塊[8]。

圖3 系統(tǒng)數(shù)據(jù)結(jié)構(gòu)框圖

4.1 信息搜索模塊

系統(tǒng)的信息搜索模塊界面包括兩部分:關(guān)鍵詞選擇部分和信息顯示部分。關(guān)鍵詞選擇部分包括部分勾選和全選兩種方式,當(dāng)選擇完關(guān)鍵詞以后在信息顯示部分就會(huì)把數(shù)據(jù)庫(kù)中的信息顯示出來(lái),顯示的內(nèi)容分為百度網(wǎng)站、貼吧兩個(gè)選項(xiàng)卡,當(dāng)點(diǎn)擊相應(yīng)的選項(xiàng)卡就會(huì)呈現(xiàn)出相應(yīng)的內(nèi)容。

百度網(wǎng)站、貼吧顯示出來(lái)的內(nèi)容包括標(biāo)題和日期,而標(biāo)題是可以通過(guò)點(diǎn)擊進(jìn)入到所對(duì)應(yīng)網(wǎng)站和貼吧。網(wǎng)站和貼吧都擁有生成輿情報(bào)告的功能,當(dāng)點(diǎn)擊生成輿情報(bào)告的時(shí)候,會(huì)把此條信息的詳細(xì)內(nèi)容顯示出來(lái)。

對(duì)于百度網(wǎng)站、貼吧都有輿情信息checkbox復(fù)選框,當(dāng)認(rèn)為是輿情信息的時(shí)候,可以勾選將這條信息選中,選中的信息就會(huì)在后面的信息匯總模塊中展現(xiàn)出來(lái)。對(duì)于貼吧有重點(diǎn)信息checkbox 復(fù)選框,當(dāng)認(rèn)為此條帖子需要重點(diǎn)關(guān)注的時(shí)候,可以勾選這條信息,選中信息的標(biāo)題就會(huì)展現(xiàn)在后面的定制信息模塊中重點(diǎn)輿情信息定制中。

4.2 定制信息模塊

定制信息模塊包括自主百度網(wǎng)站信息、自主貼吧信息、重點(diǎn)輿情信息定制、重點(diǎn)輿情信息四個(gè)部分,定制信息模塊界面圖默認(rèn)的是自主百度網(wǎng)站信息界面圖。在系統(tǒng)管理中,點(diǎn)擊自主百度網(wǎng)站爬行鏈接,啟動(dòng)自主爬行程序,在這個(gè)程序中設(shè)定相關(guān)信息后進(jìn)行輿情信息爬行,并將爬行的信息顯示在自主百度網(wǎng)站信息欄中;點(diǎn)擊自主貼吧爬行鏈接,啟動(dòng)自主爬行程序,在這個(gè)程序中設(shè)定相關(guān)信息后進(jìn)行輿情信息爬行,并將爬行的信息顯示在自主貼吧信息欄中;點(diǎn)擊重點(diǎn)輿情信息定制按鈕,顯示的是重點(diǎn)輿情信息定制界面,主要功能是設(shè)定重點(diǎn)輿情信息的爬行條件。當(dāng)在系統(tǒng)管理模塊中點(diǎn)擊打開(kāi)重點(diǎn)爬行程序根據(jù)條件爬行,并將爬行的結(jié)果顯示在重點(diǎn)輿情信息欄中。自主百度網(wǎng)站信息、自主貼吧信息、重點(diǎn)輿情信息顯示的內(nèi)容和信息搜索模塊中顯示的數(shù)據(jù)內(nèi)容一樣,同樣包括標(biāo)題和日期,以及生成輿情報(bào)告。

重點(diǎn)輿情信息定制包括關(guān)鍵詞和帖子名兩部分,當(dāng)勾選出需要重點(diǎn)關(guān)注的帖子和關(guān)鍵詞,提交以后,就可以在系統(tǒng)管理中的通過(guò)點(diǎn)擊進(jìn)行重點(diǎn)貼吧爬行。

仁宗即位以后,總計(jì)81人次出任首輔。其中有重復(fù)出任首輔的,最多的是四任首輔的李時(shí)和夏言。計(jì)有首輔61人,平均任期為3年7個(gè)月。超過(guò)10年的有:楊士奇19年6個(gè)月,嚴(yán)嵩15年8個(gè)月,萬(wàn)安10年4個(gè)月,張居正10年。首輔任期較短的原因有二:皇帝頻繁地變動(dòng)閣臣和首輔,例如崇禎年間;原首輔去職后新首輔尚未到職,次輔臨時(shí)接任首輔。

4.3 信息推送模塊

信息推送模塊包括手動(dòng)郵件發(fā)送、自動(dòng)郵件發(fā)送和推送記錄三項(xiàng)。手動(dòng)郵件發(fā)送可以通過(guò)先勾選出收件人,然后依次填寫(xiě)主題和添加附件,點(diǎn)擊發(fā)送即可實(shí)現(xiàn)輿情報(bào)告的推送。自動(dòng)郵件發(fā)送先勾選出收件人,然后選擇自動(dòng)發(fā)送郵件的開(kāi)始日期、終止日期和時(shí)間,點(diǎn)擊確定,當(dāng)?shù)竭_(dá)預(yù)設(shè)時(shí)間后系統(tǒng)將自動(dòng)發(fā)送郵件到收件人郵箱[9]。推送記錄顯示的是發(fā)送郵件的記錄,主要記錄了發(fā)件人、發(fā)件日期時(shí)間和是否發(fā)送成功。

4.4 信息匯總模塊

信息匯總模塊包括全部匯總、日期匯總、年度匯總?cè)?xiàng)。信息匯總模塊界面默認(rèn)的是全部匯總里的百度網(wǎng)站界面,全部匯總分百度網(wǎng)站、貼吧兩個(gè)選項(xiàng)卡。信息匯總模塊中顯示的信息是通過(guò)信息搜索模塊中百度網(wǎng)站、貼吧中的輿情信息checkbox復(fù)選框勾選以后顯示的內(nèi)容。

4.5 系統(tǒng)管理模塊

系統(tǒng)管理模塊包括用戶管理、關(guān)鍵詞管理、收件人管理、重點(diǎn)信息管理和爬行鏈接管理五部分。用戶管理是對(duì)于登錄用戶的信息進(jìn)行編輯、刪除和添加[10]。關(guān)鍵詞管理是對(duì)于需要爬行的關(guān)鍵詞的編輯、刪除和添加[11]。收件人管理則是對(duì)于郵件推送模塊中的手動(dòng)發(fā)送郵件和自動(dòng)發(fā)送郵件的收件人進(jìn)行編輯、刪除和添加。重點(diǎn)信息管理是對(duì)于定制信息模塊中重點(diǎn)輿情信息定制中的關(guān)鍵詞和貼子名進(jìn)行編輯、刪除和添加。爬行鏈接管理是將常規(guī)爬行和定制信息模塊中的三個(gè)自主爬行和一個(gè)重點(diǎn)爬行對(duì)應(yīng)的鏈接顯示其中。

5 關(guān)鍵技術(shù)

5.1 百度網(wǎng)站源代碼解析技術(shù)

網(wǎng)站的網(wǎng)頁(yè)頭標(biāo)記就屬于無(wú)關(guān)信息的標(biāo)記,可以直接忽略。而網(wǎng)頁(yè)體內(nèi)容就是本網(wǎng)頁(yè)內(nèi)容的標(biāo)記集合,例如廣告信息、音頻信息和圖片信息和輿情信息等,由于標(biāo)記中的信息量很大,標(biāo)記結(jié)構(gòu)復(fù)雜,尤其是嵌套的標(biāo)記結(jié)構(gòu),因此分析起來(lái)很難。必須區(qū)分出圖片標(biāo)記、音頻標(biāo)記和輿情信息標(biāo)記以及一些樣式表的信息。

為了把輿情信息提取出來(lái),因此在分析HTML源代碼的時(shí)候需要剔除廣告信息、圖片信息、音頻信息等。通過(guò)標(biāo)記類(lèi)別忽略或者去除無(wú)關(guān)信息,留下所需要的目標(biāo)信息所在的標(biāo)記。

通過(guò)分析,我們發(fā)現(xiàn)所有搜索的信息都包含在<table></table>標(biāo)記中,其中這個(gè)標(biāo)記含有子標(biāo)記<tr></tr><td></td>,其中子標(biāo)記<tr></tr>表示表行,標(biāo)記<td></td>表示表列。因此只要解析這個(gè)table標(biāo)記,從這個(gè)標(biāo)記中提取目標(biāo)信息即可。

由于我們需要獲取目標(biāo)信息的標(biāo)題、摘要、網(wǎng)頁(yè)的真實(shí)鏈接和發(fā)布日期,因此需要針對(duì)這些個(gè)信息點(diǎn)在<table></table>標(biāo)記進(jìn)行查找。通過(guò)分析網(wǎng)頁(yè)源代碼,可以找到目標(biāo)信息的標(biāo)題、摘要、日期和真實(shí)網(wǎng)址所在的標(biāo)記。

5.2 貼吧源代碼標(biāo)記解析技術(shù)

通過(guò)對(duì)百度某貼吧的源代碼進(jìn)行分析,發(fā)現(xiàn)貼吧與百度搜索引擎網(wǎng)站的源代碼結(jié)構(gòu)是有很大的不同,大慶吧的每條信息都是以<div class=“s_post”>開(kāi)始,以</div>結(jié)束。這個(gè)<div></div>標(biāo)記中有5 個(gè)子標(biāo)記,分別為1 個(gè)<span></span>標(biāo)記,1 個(gè)<div></div>標(biāo)記,2 個(gè)<a></a>標(biāo)記和一個(gè)<font></font>標(biāo)記[12]。而在<span></span>標(biāo)記中有一個(gè)子標(biāo)記<a></a>,該子標(biāo)記<a></a>的屬性href對(duì)應(yīng)的正是真實(shí)網(wǎng)址,同時(shí)標(biāo)記<a></a>的子標(biāo)記包含的也是所需要的標(biāo)題,第二個(gè)<div></div>標(biāo)記包含的是摘要,而<font></font>標(biāo)記所包含的也是需要的最后一項(xiàng)——發(fā)布時(shí)間。

5.3 數(shù)據(jù)轉(zhuǎn)存技術(shù)

通過(guò)輿情信息爬行端獲取百度網(wǎng)站數(shù)據(jù)、貼吧數(shù)據(jù),并從其數(shù)據(jù)庫(kù)轉(zhuǎn)存到本地?cái)?shù)據(jù)庫(kù)。轉(zhuǎn)存技術(shù)主要是對(duì)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)插入操作,在本地?cái)?shù)據(jù)庫(kù)中創(chuàng)建數(shù)據(jù)表,并根據(jù)獲取的信息建立數(shù)據(jù)表字段,這些數(shù)據(jù)庫(kù)操作完成后,就可以將數(shù)據(jù)轉(zhuǎn)存到本地?cái)?shù)據(jù)庫(kù)了,通過(guò)編寫(xiě)SQL語(yǔ)句將數(shù)據(jù)逐條插入到數(shù)據(jù)庫(kù)中。

5.4 數(shù)據(jù)去冗技術(shù)

本地?cái)?shù)據(jù)庫(kù)數(shù)據(jù)量將會(huì)非常龐大,數(shù)據(jù)去冗將能節(jié)省一定的數(shù)據(jù)空間,減少數(shù)據(jù)服務(wù)器負(fù)載部分壓力,數(shù)據(jù)去冗主要是針對(duì)同一數(shù)據(jù)表內(nèi)的數(shù)據(jù)和不同數(shù)據(jù)表之間的數(shù)據(jù)的去除重復(fù)冗余數(shù)據(jù)。同一數(shù)據(jù)表內(nèi)的數(shù)據(jù)去冗可以通過(guò)對(duì)數(shù)據(jù)表內(nèi)已有數(shù)據(jù)循環(huán)遍歷,如果有一個(gè)或多個(gè)字段數(shù)據(jù)重復(fù),那就定義為冗余數(shù)據(jù),需要去除。不同表之間的數(shù)據(jù)去冗工作量很大,且比較麻煩,為了減少數(shù)據(jù)大量對(duì)比操作,采用把不同表內(nèi)的數(shù)據(jù)轉(zhuǎn)存到一個(gè)新的數(shù)據(jù)表。當(dāng)一條新數(shù)據(jù)轉(zhuǎn)存到這個(gè)表內(nèi)時(shí)循環(huán)遍歷一編,對(duì)比已存在的數(shù)據(jù),如果數(shù)據(jù)不同就執(zhí)行插入操作,相同則放棄此條數(shù)據(jù)執(zhí)行下一條數(shù)據(jù)的插入對(duì)比操作,這樣最后這個(gè)表就是我們需要的數(shù)據(jù)匯總表。

5.5 郵件自動(dòng)推送技術(shù)

電子郵件的推送也是一個(gè)重要的問(wèn)題,不僅功能上有要求而且要求具有準(zhǔn)確性和實(shí)時(shí)性,因此為了實(shí)現(xiàn)電子郵件推送,編寫(xiě)郵件推送類(lèi)庫(kù),將電郵推送的代碼集成封裝到一個(gè)類(lèi)庫(kù),通過(guò)類(lèi)庫(kù)生成DLL 文件,在系統(tǒng)平臺(tái)中只要調(diào)用這個(gè)類(lèi)庫(kù)的DLL文件,后臺(tái)C#代碼中的變量經(jīng)過(guò)實(shí)例化,就能繼承這個(gè)類(lèi)庫(kù)中的所有函數(shù)、屬性和方法。

由起初的發(fā)送郵件C#代碼到將其封裝成類(lèi)庫(kù)直接調(diào)用DLL 文件,是一個(gè)代碼設(shè)計(jì)架構(gòu)的進(jìn)步,不僅減少了后臺(tái)C#代碼的復(fù)雜,而且減少了網(wǎng)站運(yùn)行的負(fù)載,同時(shí)整個(gè)網(wǎng)站的解決方案結(jié)構(gòu)更具條理化,從復(fù)雜代碼轉(zhuǎn)變?yōu)榉庋b類(lèi)庫(kù)這本身就是一種優(yōu)化程序結(jié)構(gòu)的編程思想,當(dāng)大部分的代碼都轉(zhuǎn)變?yōu)轭?lèi)庫(kù)時(shí),那這個(gè)程序的集成性好、可移植性高、運(yùn)行負(fù)載低,這不僅是編程代碼的技術(shù)收獲,更是編程思維和程序設(shè)計(jì)的進(jìn)步。

5.6 百度網(wǎng)站鏈接獲取和網(wǎng)址url傳值技術(shù)

百度網(wǎng)站鏈接技術(shù)是為了實(shí)現(xiàn)百度網(wǎng)站鏈接的獲取,真實(shí)網(wǎng)址的獲取是一個(gè)重點(diǎn)問(wèn)題,起初獲取到的是偽真實(shí)網(wǎng)址,就是百度網(wǎng)站頁(yè)面顯示帶有省略號(hào)的假網(wǎng)址,這個(gè)網(wǎng)址不能真正定位到目標(biāo)信息的網(wǎng)頁(yè)。為了獲取真實(shí)網(wǎng)址,采用網(wǎng)址信息加載前觸發(fā)事件函數(shù)提取網(wǎng)頁(yè)的真實(shí)網(wǎng)址,通過(guò)編程序?qū)⒕W(wǎng)頁(yè)的鏈接地址賦值給一個(gè)虛擬瀏覽器,然后在該網(wǎng)頁(yè)家在信息前觸發(fā)一個(gè)虛擬瀏覽器的事件函數(shù),瞬間把這個(gè)網(wǎng)頁(yè)的真實(shí)網(wǎng)址提取出來(lái),從而實(shí)現(xiàn)了真實(shí)網(wǎng)址的提取。

通過(guò)這種間接的方式獲取真實(shí)網(wǎng)址,雖然路線曲折但達(dá)到了獲取真實(shí)網(wǎng)址的需求,在這過(guò)程中,不僅對(duì)網(wǎng)頁(yè)源代碼的標(biāo)記有了更深入的理解,同時(shí)對(duì)于HTML 源代碼解析技術(shù)的運(yùn)用也更熟練,最重要的是這種實(shí)現(xiàn)功能的思想,既然不能直接獲取真實(shí)網(wǎng)址,那就轉(zhuǎn)變編程思維通過(guò)間接方式獲取所需要的信息。

網(wǎng)址url 傳值是通過(guò)keyword 鏈接到百度網(wǎng)站對(duì)應(yīng)的關(guān)鍵詞的網(wǎng)頁(yè),獲取需要的關(guān)鍵詞信息。

5.7 數(shù)據(jù)轉(zhuǎn)存excel表技術(shù)

在信息搜索模塊中常規(guī)爬行出來(lái)的百度網(wǎng)站、百度貼吧中生成輿情報(bào)告以后,為了能夠?qū)崿F(xiàn)發(fā)送郵件功能,有導(dǎo)出excel表操作,同時(shí)在定制信息模塊中的自主百度網(wǎng)站、自主貼吧和重點(diǎn)貼吧中生成的輿情報(bào)告也同樣需要導(dǎo)出excel 表操作,最后的全部匯總模塊中所有的Gridview 也需要導(dǎo)出excel表操作,如此多的地方都涉及到excel表導(dǎo)出技術(shù),在項(xiàng)目中導(dǎo)出excel表技術(shù)就顯得非常重要。

6 結(jié)語(yǔ)

輿情信息搜索系統(tǒng)的出現(xiàn)是時(shí)代發(fā)展的根本產(chǎn)物,完善輿情監(jiān)測(cè)和搜索系統(tǒng),做好輿情監(jiān)測(cè)和引導(dǎo)工作,是解決網(wǎng)絡(luò)信息問(wèn)題的基本方法。而本系統(tǒng)通過(guò)百度網(wǎng)站鏈接技術(shù),實(shí)現(xiàn)百度網(wǎng)站鏈接的獲?。煌ㄟ^(guò)網(wǎng)址url傳值技術(shù),實(shí)現(xiàn)通過(guò)關(guān)鍵詞搜索出相應(yīng)的信息[13];通過(guò)運(yùn)用HTMLParser 類(lèi)庫(kù)的方法和函數(shù),分析HTML 代碼中標(biāo)記結(jié)構(gòu),截取目標(biāo)信息所在的標(biāo)記,實(shí)現(xiàn)獲取所需要的目標(biāo)信息;通過(guò)數(shù)據(jù)轉(zhuǎn)存技術(shù),將獲取的目標(biāo)信息轉(zhuǎn)存至本地?cái)?shù)據(jù)庫(kù)[14];通過(guò)數(shù)據(jù)去冗技術(shù),剔除冗余和重復(fù)的數(shù)據(jù)[15];通過(guò)分詞技術(shù)和相似篩選技術(shù),將數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照相似度分類(lèi)存儲(chǔ),方便數(shù)據(jù)的查詢和更新;通過(guò)郵件發(fā)送技術(shù),實(shí)現(xiàn)本地與郵箱服務(wù)器之間的數(shù)據(jù)流交互,從而完成電子郵件的發(fā)送;從而改變了目前輿情信息搜索花費(fèi)大量時(shí)間以及人工搜索輿情信息易遺漏效率低的現(xiàn)狀,提高輿情監(jiān)控效率和搜索速率。

本系統(tǒng)中的技術(shù)可以應(yīng)用于其他網(wǎng)站進(jìn)行輿情信息的搜索,如搜狗搜索引擎、谷歌搜索引擎、必應(yīng)搜索引擎、愛(ài)問(wèn)搜索引擎、騰訊新聞、新浪博客等,其具有很高的應(yīng)用和推廣價(jià)值。本系統(tǒng)的推廣開(kāi)發(fā)實(shí)現(xiàn)了對(duì)輿情信息進(jìn)行數(shù)字化管理和信息化操作,從而擴(kuò)大了輿情信息的搜索范圍,提高了輿情信息搜索的精確度,在一定程度上為網(wǎng)絡(luò)中輿情信息的管理和監(jiān)控提供了技術(shù)支持,能夠有效地解決目前網(wǎng)絡(luò)輿情存在的問(wèn)題。

猜你喜歡
網(wǎng)址網(wǎng)頁(yè)郵件
啟 示
啟 示
基于James的院內(nèi)郵件管理系統(tǒng)的實(shí)現(xiàn)
本刊網(wǎng)址變更通知
基于HTML5與CSS3的網(wǎng)頁(yè)設(shè)計(jì)技術(shù)研究
來(lái)自朋友的郵件
火眼金睛快速顯示鏈接的網(wǎng)址
基于HTML5靜態(tài)網(wǎng)頁(yè)設(shè)計(jì)
搜索引擎怎樣對(duì)網(wǎng)頁(yè)排序
Outlook和Foxmail郵件互導(dǎo)