国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于web的數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用研究

2020-09-16 13:29宋超
科學(xué)與信息化 2020年14期
關(guān)鍵詞:系統(tǒng)開發(fā)數(shù)據(jù)庫(kù)

宋超

摘要:本文對(duì)基于Web的數(shù)據(jù)庫(kù)技術(shù)進(jìn)行探討,確定基于Web的數(shù)據(jù)庫(kù)系統(tǒng)總體框架,詳細(xì)劃分了系統(tǒng)的總體功能并進(jìn)行分別闡述,通過(guò)MySQL數(shù)據(jù)庫(kù)設(shè)計(jì)信息的采集、分析以及管理過(guò)程,確定并設(shè)計(jì)了各模塊的主要功能,經(jīng)實(shí)踐證實(shí),該系統(tǒng)可實(shí)現(xiàn)對(duì)系統(tǒng)的有效管理,可自動(dòng)跟蹤互聯(lián)網(wǎng)信息并進(jìn)行分析與處理,自動(dòng)生成網(wǎng)絡(luò)信息簡(jiǎn)報(bào),可滿足用戶對(duì)獲取信息的需求。

關(guān)鍵詞:數(shù)據(jù)庫(kù);Web開發(fā)技術(shù);系統(tǒng)開發(fā)

互聯(lián)網(wǎng)技術(shù)不斷發(fā)展的當(dāng)前,通過(guò)網(wǎng)絡(luò)獲取信息具有方便、快速的優(yōu)勢(shì),因此人們已經(jīng)習(xí)慣于這一信息獲取方式。本文探討了基于Web的數(shù)據(jù)庫(kù)開發(fā),可實(shí)現(xiàn)自動(dòng)跟蹤信息并獲取,分析信息并處理,生成網(wǎng)絡(luò)信息簡(jiǎn)報(bào),能滿足人們對(duì)信息獲取的需求。

1Web信息獲取方法

Web的圖形界面良好,容易操作,因此受到人們的廣泛認(rèn)可。Web上的信息資源豐富,但是Web基于文件系統(tǒng),通過(guò)靜態(tài)HTML文本形式儲(chǔ)存,不能像數(shù)據(jù)庫(kù)系統(tǒng)一樣來(lái)對(duì)數(shù)據(jù)進(jìn)行管理。當(dāng)前信息量不斷增加,為了為人們發(fā)現(xiàn)知識(shí)以及查詢信息提供便利,需要研制基于Web的檢索系統(tǒng)及索引。信息獲取系統(tǒng)主要有人工轉(zhuǎn)換與自動(dòng)轉(zhuǎn)換這兩種。

人工轉(zhuǎn)換這一方法利用搜索引擎來(lái)實(shí)現(xiàn)對(duì)HTML等信息的獲取,經(jīng)人工處理轉(zhuǎn)化為數(shù)據(jù)庫(kù)系統(tǒng),之后進(jìn)行查詢、排序以及索引,這種方法的優(yōu)勢(shì)在于實(shí)現(xiàn)難度低,但是其重要缺陷在于周期較長(zhǎng),因此無(wú)法滿足迅速更新數(shù)據(jù)的要求。

自動(dòng)轉(zhuǎn)換這一方法經(jīng)系統(tǒng)在指定范圍內(nèi)迅速且自動(dòng)地發(fā)現(xiàn)新信息并進(jìn)行自動(dòng)更新,能通過(guò)搜索引擎實(shí)現(xiàn)數(shù)據(jù)的收集及索引。

2基于Web的數(shù)據(jù)庫(kù)開發(fā)

2.1系統(tǒng)總體設(shè)計(jì)

系統(tǒng)為數(shù)據(jù)庫(kù)、信息采集以及信息管理等服務(wù)器組成,通過(guò)互聯(lián)網(wǎng)實(shí)現(xiàn)彼此的通信。系統(tǒng)用戶有兩類,普通用戶以及系統(tǒng)管理員,從系統(tǒng)管理員的權(quán)限上劃分可以細(xì)化為管理員與操作員。普通用戶的權(quán)限只有對(duì)相應(yīng)文檔進(jìn)行查閱與下載;管理員可登錄信息管理服務(wù)器創(chuàng)建采集任務(wù),在數(shù)據(jù)庫(kù)中存入配置數(shù)據(jù)。信息采集服務(wù)器讀取相關(guān)數(shù)據(jù)后,采集信息并分析,在數(shù)據(jù)庫(kù)中儲(chǔ)存分析結(jié)果。信息管理服務(wù)器對(duì)采集任務(wù)結(jié)果進(jìn)行讀取并進(jìn)行統(tǒng)計(jì)及展示。

2.2功能模塊設(shè)計(jì)

子系統(tǒng)主要包括采集系統(tǒng)、處理系統(tǒng)、分析體統(tǒng)以及信息服務(wù)系統(tǒng)。

(1)信息采集系統(tǒng)

該系統(tǒng)負(fù)責(zé)對(duì)指定范圍的網(wǎng)站內(nèi)容進(jìn)行定向采集,支持對(duì)PDF、word、PHP、ASP、JSP等動(dòng)態(tài)內(nèi)容的分頁(yè)抓取,將信息抓取后以文件的形式單獨(dú)保存,也可以在數(shù)據(jù)庫(kù)的字段中進(jìn)行存儲(chǔ),采集范圍可包括整站采集、板塊內(nèi)容以及部分欄目采集。

通過(guò)關(guān)鍵詞:在常用搜索引擎中自動(dòng)搜索數(shù)據(jù),結(jié)合實(shí)際需要來(lái)設(shè)計(jì)采集狀態(tài)、采集數(shù)量、開始/結(jié)束采集等,具備對(duì)站點(diǎn)資源數(shù)據(jù)進(jìn)行查找、刪除、增添以及修改等管理權(quán)限。自動(dòng)識(shí)別采集主體后追蹤采集任務(wù)。

(2)信息處理系統(tǒng)

這一系統(tǒng)可以設(shè)置行業(yè)用戶信息類以及報(bào)紙類等不同網(wǎng)站站點(diǎn)的開發(fā)優(yōu)先級(jí),經(jīng)專題設(shè)置實(shí)現(xiàn)對(duì)信息的管理及分類,結(jié)合需要來(lái)對(duì)數(shù)據(jù)進(jìn)行增添、刪除、編輯以及整理等管理維護(hù);以媒體的時(shí)間、來(lái)源等為依據(jù)對(duì)采集到的目標(biāo)媒體數(shù)據(jù)進(jìn)行分類統(tǒng)計(jì),之后自動(dòng)生成信息目錄;采用平面媒體報(bào)告的形式將所采集的信息展示出來(lái);獲取地址中的指定內(nèi)容;生成信息簡(jiǎn)報(bào)并進(jìn)行編輯;導(dǎo)入/導(dǎo)出需要采集的站點(diǎn)數(shù)據(jù)。

(3)信息分析系統(tǒng)

其功能包括對(duì)采集到的信息進(jìn)行分析,對(duì)信息的主題進(jìn)行識(shí)別,同時(shí)多角度跟蹤,通過(guò)熱詞以及聚類等方法來(lái)對(duì)發(fā)展趨勢(shì)進(jìn)行判斷以及對(duì)所需內(nèi)容進(jìn)行提取?;谏鲜龉δ芙y(tǒng)計(jì)根據(jù)信息的站點(diǎn)分布以及采集時(shí)間統(tǒng)計(jì),輸出圖表形式的報(bào)告。

(4)信息服務(wù)系統(tǒng)

其功能包括對(duì)系統(tǒng)賬戶以及權(quán)限進(jìn)行管理,確定信息采集詞;監(jiān)測(cè)專題采集,顯示信息詳情;對(duì)關(guān)注信息進(jìn)行收藏。

2.3整體功能流程

根據(jù)專題出結(jié)果時(shí),單個(gè)網(wǎng)站配置,之后在專題里設(shè)置關(guān)鍵詞:并添加網(wǎng)址,對(duì)篩選進(jìn)行設(shè)置,對(duì)采集時(shí)間進(jìn)行設(shè)置最后進(jìn)入信息分析流程。當(dāng)選擇根據(jù)詞頻出結(jié)果時(shí),配置單個(gè)網(wǎng)站,確定模塊或者板塊,對(duì)篩選及采集時(shí)間進(jìn)行設(shè)置,根據(jù)熱度給出關(guān)鍵詞:,最后進(jìn)入信息分析流程。

進(jìn)行信息分析時(shí),信息的采集管理包括專題配置以及單個(gè)網(wǎng)站配置,確定信息采集管理之后選擇采集方式,采集方式包括專題采集、全網(wǎng)采集以及網(wǎng)站采集,之后進(jìn)行定時(shí)采集,對(duì)內(nèi)容進(jìn)行識(shí)別,分析信息并進(jìn)行統(tǒng)計(jì),生成簡(jiǎn)報(bào)。

分別根據(jù)網(wǎng)站采集以及專題采集做出配置說(shuō)明,采集方式包括全網(wǎng)(主要是搜狗以及百度等潴留搜索引擎)、專題(主要是網(wǎng)站中的某個(gè)欄目板塊)以及網(wǎng)站(指定的網(wǎng)站)這三種,指定采集數(shù)據(jù)類型,當(dāng)進(jìn)行全網(wǎng)采集時(shí),要求指定關(guān)鍵詞:。

信息采集效率直接影響系統(tǒng)的使用效果,因此采用多線程方式來(lái)設(shè)計(jì)總體信息采集框架以提高信息采集效率,各線程執(zhí)行不同操作,從而充分利用資源。

2.4數(shù)據(jù)庫(kù)設(shè)計(jì)

由于系統(tǒng)設(shè)計(jì)大量數(shù)據(jù)表,需要通過(guò)多表分離的方式來(lái)對(duì)荷載進(jìn)行均衡,為了解決數(shù)據(jù)的檢索及存儲(chǔ)問題,采用MySQL數(shù)據(jù)庫(kù),其具有容易操作且高效、安全的優(yōu)勢(shì),能為信息的管理以及統(tǒng)計(jì)分析提供便利。建立字段并完善,從而做到準(zhǔn)確、全面地查詢數(shù)據(jù)。

邏輯結(jié)構(gòu)中,采集任務(wù)信息表最為關(guān)鍵,采用關(guān)聯(lián)設(shè)計(jì)的方法來(lái)對(duì)相關(guān)的關(guān)鍵數(shù)據(jù)表進(jìn)行設(shè)計(jì)。

3系統(tǒng)主要功能

3.1用戶管理功能

正如上文所說(shuō),系統(tǒng)的用戶有管理員與普通用戶兩種。具體的權(quán)限劃分方面,系統(tǒng)管理員可管理各模塊的內(nèi)容,設(shè)置采集時(shí)間權(quán)限等;操作員沒有權(quán)限操作用戶管理模式,但是有對(duì)其他模塊進(jìn)行操作的權(quán)限;普通用戶只有對(duì)文檔進(jìn)行查閱及下載的權(quán)限。根據(jù)這些需求,首先對(duì)系統(tǒng)模塊功能進(jìn)行確定,對(duì)功能點(diǎn)進(jìn)行排序標(biāo)號(hào),組合相應(yīng)用戶類型,在數(shù)據(jù)庫(kù)的用戶權(quán)限表中進(jìn)行儲(chǔ)存,將功能點(diǎn)的耦合度降低,基于此關(guān)聯(lián)匹配新用戶與指定用戶類型,從而配置用戶權(quán)限。

3.2采集及分析功能

分析需要采集的網(wǎng)站,基于此定義信息采集規(guī)則、處理流程。在網(wǎng)站的對(duì)應(yīng)目錄下自定義配置文件,編寫對(duì)應(yīng)網(wǎng)站的處理代碼。讀取采集任務(wù)時(shí),先與數(shù)據(jù)庫(kù)連接,之后進(jìn)行SQL語(yǔ)句的編寫。采集信息時(shí),對(duì)采集任務(wù)的網(wǎng)站模塊ID、時(shí)間間隔、關(guān)鍵詞以及采集方式等進(jìn)行解析讀寫,基于此將采集線程開啟,執(zhí)行采集任務(wù)。當(dāng)成功采集結(jié)果主要內(nèi)容時(shí),先以文章的位置為依據(jù)來(lái)編寫正則表達(dá)式,過(guò)濾結(jié)構(gòu)化標(biāo)簽,之后再提取文章主要信息。分析信息時(shí),過(guò)濾文本無(wú)用符號(hào),先建立系統(tǒng)通用詞庫(kù),再通過(guò)調(diào)用功能去除文本通用詞,最后采用TextRank~法對(duì)關(guān)鍵詞進(jìn)行提取,信息采集階段已經(jīng)在數(shù)據(jù)庫(kù)中存放了標(biāo)題,處理階段已經(jīng)在磁盤上存放了正文,依次讀取文章信息,通過(guò)算法分析關(guān)鍵詞,待相同采集任務(wù)相關(guān)的文章都已經(jīng)分析完畢時(shí),提取熱度最高的五個(gè)詞,這些詞就是關(guān)鍵詞。

4系統(tǒng)測(cè)試

通過(guò)黑盒測(cè)試法來(lái)測(cè)試該系統(tǒng)的主要功能模塊的主要功能,進(jìn)而檢測(cè)該系統(tǒng)穩(wěn)定性與實(shí)用性。經(jīng)測(cè)試證明,系統(tǒng)管理員能有效管理系統(tǒng),能以用戶的需求為依據(jù)設(shè)置信息采集的目標(biāo)站點(diǎn)、時(shí)間間隔以及主體,能通過(guò)多角度跟蹤主題的后續(xù)發(fā)展,且該系統(tǒng)在信息的采集、讀取以及分析方面表現(xiàn)良好,可通過(guò)平面媒體報(bào)告的形式將結(jié)果呈現(xiàn)給用戶。該系統(tǒng)的拓展性以及穩(wěn)定性良好,可投入使用。

5結(jié)束語(yǔ)

為了能夠滿足用戶的需求,本文對(duì)基于Web的數(shù)據(jù)庫(kù)技術(shù)進(jìn)行探討,與Web技術(shù)以及HTTP協(xié)議相結(jié)合確定基于Web的數(shù)據(jù)庫(kù)系統(tǒng)總體框架,詳細(xì)劃分了系統(tǒng)的總體功能并進(jìn)行分別闡述,基于系統(tǒng)整體拓?fù)浣Y(jié)構(gòu),通過(guò)MySQL數(shù)據(jù)庫(kù)設(shè)計(jì)信息的采集、分析以及管理過(guò)程,確定并設(shè)計(jì)了各模塊的主要功能,最終經(jīng)實(shí)踐證實(shí),該系統(tǒng)可實(shí)現(xiàn)對(duì)系統(tǒng)的有效管理,可自動(dòng)跟蹤互聯(lián)網(wǎng)信息并進(jìn)行分析與處理,自動(dòng)生成網(wǎng)絡(luò)信息簡(jiǎn)報(bào),可滿足用戶對(duì)獲取信息的需求。

猜你喜歡
系統(tǒng)開發(fā)數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
基于PLC的火電廠輸配煤粉節(jié)能程控系統(tǒng)的開發(fā)
氣象數(shù)據(jù)傳輸監(jiān)控平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)
基于網(wǎng)絡(luò)數(shù)據(jù)分析的計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)開發(fā)
發(fā)射機(jī)房運(yùn)行監(jiān)控系統(tǒng)關(guān)鍵技術(shù)的解決方案
基于開源系統(tǒng)的綜合業(yè)務(wù)數(shù)據(jù)采集系統(tǒng)的開發(fā)研究
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
布拖县| 沙田区| 朔州市| 达拉特旗| 本溪市| 吴忠市| 咸宁市| 寻乌县| 象州县| 长子县| 钟祥市| 济源市| 佛坪县| 辽源市| 大余县| 广饶县| 平远县| 腾冲县| 迭部县| 乌什县| 新和县| 镇远县| 荆州市| 青冈县| 江华| 红河县| 枣阳市| 宁蒗| 许昌县| 木里| 高青县| 桃园县| 上杭县| 兴仁县| 屏东县| 乌海市| 始兴县| 延长县| 嘉义县| 泾源县| 六盘水市|