国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

非交互Web數(shù)據(jù)平臺(tái)本質(zhì)安全改造技術(shù)研究

2021-06-16 16:43:08張佳偉
電子技術(shù)與軟件工程 2021年4期
關(guān)鍵詞:系統(tǒng)配置流程圖頁(yè)面

張佳偉

(新疆師范高等??茖W(xué)?,F(xiàn)代教育技術(shù)中心 新疆維吾爾自治區(qū)烏魯木齊市 830043)

國(guó)內(nèi)絕大多數(shù) Web 數(shù)據(jù)平臺(tái)運(yùn)行在 X86 體系架構(gòu)+Win/Linux 操作系統(tǒng)之上,無(wú)法直接運(yùn)行在自主可控的純國(guó)產(chǎn)計(jì)算環(huán)境中。故本研究實(shí)現(xiàn)一種輕量級(jí)平滑遷移技術(shù),而無(wú)需改動(dòng)原有 Web 數(shù)據(jù)平臺(tái)。研究基于銀河麒麟操作系統(tǒng)+飛騰處理器的自主可控軟硬件,開(kāi)展針對(duì)靜態(tài)與動(dòng)態(tài)的非交互 Web 數(shù)據(jù)平臺(tái)抓取技術(shù)研究。主要涉及目標(biāo) URL 頁(yè)面的讀取與下載、頁(yè)面過(guò)濾、結(jié)構(gòu)解析與數(shù)據(jù)獲取、頁(yè)面視頻轉(zhuǎn)碼;解析器的框架設(shè)計(jì)、測(cè)試、特征定義等,實(shí)現(xiàn)靈活定制正則表達(dá)式來(lái)篩選目標(biāo)數(shù)據(jù),以及數(shù)據(jù)存儲(chǔ)設(shè)計(jì)與展示等。本研究的輕量級(jí)遷移方法,避免了重新對(duì)原有系統(tǒng)遷移和重構(gòu)的高昂投入,降低 Web 系統(tǒng)遷移到自主可控平臺(tái)的開(kāi)發(fā)周期和資金,為系統(tǒng)自主可控遷移提供一種新思路。本研究成果形成的示范工程,對(duì)現(xiàn)有的信息系統(tǒng)進(jìn)行自主可控改造工作,提供實(shí)踐參考,對(duì)信息系統(tǒng)安全具有良好的促進(jìn)作用。

1 Web數(shù)據(jù)抓取技術(shù)路線

運(yùn)行在X86 體系架構(gòu)+Win/Linux 操作系統(tǒng)的靜態(tài)與動(dòng)態(tài)的非交互 Web 數(shù)據(jù)平臺(tái),通過(guò)抓取功能按照如圖3 數(shù)據(jù)抓取功能及業(yè)務(wù)流程圖所示的流程圖處理,整個(gè)數(shù)據(jù)抓取過(guò)程分為目標(biāo)內(nèi)容分析、數(shù)據(jù)抓取、抓取數(shù)據(jù)分析、URL 識(shí)別、URL 去重收集、URL 分配、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)顯示等流程步驟,完成靜態(tài)與動(dòng)態(tài)的非交互 Web 數(shù)據(jù)平臺(tái)數(shù)據(jù)進(jìn)行抓取,如圖1 所示。

2 自主可控改造系統(tǒng)關(guān)鍵技術(shù)研究

運(yùn)行在X86 體系架構(gòu)+Win/Linux 操作系統(tǒng)的靜態(tài)與動(dòng)態(tài)的非交互 Web 數(shù)據(jù)平臺(tái),一般有靜態(tài)網(wǎng)站、動(dòng)態(tài)的非交互web 數(shù)據(jù)平臺(tái)、音視頻資源平臺(tái)等,同時(shí)動(dòng)態(tài)的非交互數(shù)據(jù)平臺(tái)需要使用數(shù)據(jù)平臺(tái)支撐,目前大部分的黨政機(jī)關(guān)、企事業(yè)單位的門戶網(wǎng)站均屬于這種模式。

自主可控改造系統(tǒng)分為頁(yè)面抓取、頁(yè)面內(nèi)容存儲(chǔ)、視頻資源轉(zhuǎn)換、安全審計(jì)、系統(tǒng)配置等功能。頁(yè)面抓取是從目標(biāo)網(wǎng)站抓取頁(yè)面,獲得網(wǎng)頁(yè)Html document 文檔,并對(duì)頁(yè)面內(nèi)容進(jìn)行解析。頁(yè)面內(nèi)容存儲(chǔ)對(duì)抓取分析完的數(shù)據(jù)內(nèi)部鏈接進(jìn)行修改重寫(xiě),頁(yè)面的附件進(jìn)行存儲(chǔ)。視頻資源轉(zhuǎn)換,需要對(duì)視頻資源進(jìn)行上傳、轉(zhuǎn)碼、輸出、發(fā)布。安全審計(jì)主要是內(nèi)頁(yè)面內(nèi)容審計(jì),主要是通過(guò)內(nèi)外鏈檢測(cè)、關(guān)鍵詞安全審計(jì)等,進(jìn)一步加固信息安全。系統(tǒng)配置主要是系統(tǒng)頁(yè)面抓取參數(shù)配置、視頻轉(zhuǎn)換配置等。自主可控改造系統(tǒng)功能結(jié)構(gòu)圖如圖2 所示。

2.1 頁(yè)面抓取功能

頁(yè)面抓取處理過(guò)程,從系統(tǒng)配置中讀取出當(dāng)前要改造的系統(tǒng)地址、抓取層級(jí)等。從現(xiàn)有信息系統(tǒng)抓取數(shù)據(jù),需要目標(biāo)信息系統(tǒng)網(wǎng)站,獲取document 文件,再對(duì)document 文件內(nèi)容進(jìn)行解析、URL 采集、URL 去重等工作。Python 具有豐富的第三庫(kù),其中requests 庫(kù)是一個(gè)常用的用于http 請(qǐng)求的模塊,可以方便的對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行抓取。Requests 庫(kù)基于urllib 編寫(xiě)的,采用的是Apache2 Licensed 開(kāi)源協(xié)議的HTTP 庫(kù),比urllib 更加方便使用。Requests 庫(kù)常用的頁(yè)面請(qǐng)求處理方法有:

圖1:數(shù)據(jù)抓取功能及業(yè)務(wù)流程圖

圖2:自主可控改造系統(tǒng)功能結(jié)構(gòu)圖

圖3:自主可控改造前系統(tǒng)訪問(wèn)流程圖

(1)requests.get()方法獲取html 內(nèi)容;

(2)requests.head()方法獲取html 頭部信息;

(3)requests.post()方法向html 網(wǎng)頁(yè)提交post;

(4)requests.head()方法獲取html 頭部信息。

抓取的document 數(shù)據(jù),都是符合HTML/XML 標(biāo)準(zhǔn)數(shù)據(jù)。Python 庫(kù)中有豐富的HTML/XML 解析器,常用的有BeautifulSoup和lxml,或者結(jié)合著使用,具有較高的文檔容錯(cuò)能力。Beautiful Soup 自動(dòng)將輸入文檔轉(zhuǎn)換為Unicode 編碼,輸出文檔轉(zhuǎn)換為utf-8編碼。

頁(yè)面內(nèi)容解析的核心代碼:

2.2 頁(yè)面內(nèi)容存儲(chǔ)

頁(yè)面內(nèi)容存儲(chǔ)主要完成抓取頁(yè)面內(nèi)容處理完保存、頁(yè)面圖片資源保存、頁(yè)面CSS 文件資源保存、頁(yè)面JavaScript 頁(yè)面保存、頁(yè)面附件資源保存等核心功能。附件內(nèi)容保存通過(guò)自定義函數(shù)save_attachments(url)完成,處理流程同文件內(nèi)容保存,只是文件保存時(shí)使用urlretrieve()方法。

2.3 頁(yè)面內(nèi)容安全審計(jì)

頁(yè)面內(nèi)容安全審計(jì)主要是頁(yè)面內(nèi)外鏈接審計(jì)和頁(yè)面文本內(nèi)容審計(jì)。頁(yè)面文本內(nèi)容審計(jì)主要是通過(guò)關(guān)鍵詞檢索所有對(duì)文本,與不合規(guī)文本庫(kù)比對(duì),判斷是否有不合規(guī)的文本內(nèi)容。頁(yè)面內(nèi)外連接審計(jì),通過(guò)對(duì)頁(yè)面所有鏈接審計(jì),判斷網(wǎng)站是否存在非法攔截,尤其釣魚(yú)網(wǎng)址、惡意鏈接、暗鏈、盜鏈等。

網(wǎng)站文本內(nèi)容審計(jì)核心代碼

soup = BeautifulSoup(content, "lxml")

獲取頁(yè)面全部文本

循環(huán)關(guān)鍵詞列表:

if 當(dāng)前頁(yè)面中存在關(guān)鍵詞:

添加該頁(yè)面Url 到審計(jì)鏈接集

2.4 系統(tǒng)功能配置

系統(tǒng)配置主要是對(duì)網(wǎng)站抓取的配置文件和視頻轉(zhuǎn)換參數(shù)存儲(chǔ)于數(shù)據(jù)庫(kù),實(shí)現(xiàn)配置文件的動(dòng)態(tài)管理。本研究使用國(guó)產(chǎn)達(dá)夢(mèng)數(shù)據(jù)庫(kù),進(jìn)行數(shù)據(jù)配置文件存儲(chǔ)。使用前預(yù)先安裝達(dá)夢(mèng)數(shù)據(jù)庫(kù)python 語(yǔ)言支持包dmPython。

數(shù)據(jù)庫(kù)使用核心代碼

3 自主可控改造系統(tǒng)驗(yàn)證

3.1 自主可控改造前系統(tǒng)訪問(wèn)流程

當(dāng)用戶訪問(wèn)現(xiàn)有靜態(tài)網(wǎng)站類的資源時(shí),用戶打開(kāi)瀏覽器,訪問(wèn)靜態(tài)網(wǎng)站等資源平臺(tái)時(shí),由資源平臺(tái)的Web 服務(wù)器與用戶進(jìn)行數(shù)據(jù)交互。當(dāng)用戶訪問(wèn)動(dòng)態(tài)的非交互 Web 數(shù)據(jù)平臺(tái)的資源時(shí),用戶打開(kāi)瀏覽器,訪問(wèn)動(dòng)態(tài)的非交互Web 數(shù)據(jù)平臺(tái),由數(shù)據(jù)平臺(tái)的Web服務(wù)器與用戶進(jìn)行數(shù)據(jù)交互,Web 服務(wù)器與ASP.NET、JAVA、PHP 等動(dòng)態(tài)語(yǔ)言結(jié)合構(gòu)成動(dòng)態(tài)網(wǎng)站頁(yè)面,動(dòng)態(tài)網(wǎng)站數(shù)據(jù)使用數(shù)據(jù)庫(kù)平臺(tái)提供。自主可控改造前系統(tǒng)訪問(wèn)流程圖如圖3 所示。

3.2 自主可控改造后系統(tǒng)訪問(wèn)流程

本研究提出的針對(duì)非交互Web 數(shù)據(jù)平臺(tái)的自主可控改造,是在現(xiàn)有的信息系統(tǒng)前放置基于銀河麒麟操作系統(tǒng)和飛騰處理器的自主可控硬件平臺(tái)實(shí)現(xiàn)的自主可控改造系統(tǒng)來(lái)承載原來(lái)的網(wǎng)絡(luò)訪問(wèn)流量,屏蔽后端現(xiàn)有信息系統(tǒng)存在的部分軟硬件安全性問(wèn)題,來(lái)提高信息系統(tǒng)安全性,保護(hù)現(xiàn)有的信息系統(tǒng)數(shù)據(jù)安全。部署完自主可控改造系統(tǒng)硬件平臺(tái),完成目標(biāo)改造平臺(tái)的系統(tǒng)配置,變更現(xiàn)有的信息的系統(tǒng)域名映射地址到自主可控改造系統(tǒng)。用戶訪問(wèn)原有的信息系統(tǒng)數(shù)據(jù)平臺(tái),首先訪問(wèn)自主可控改造系統(tǒng),由自主可控系統(tǒng)定期去和原有信息系統(tǒng)抓取數(shù)據(jù),保證自主可控改造系統(tǒng)的數(shù)據(jù)的更新。用戶訪問(wèn)改造前和改造后系統(tǒng)訪問(wèn)流程感覺(jué)不到差異,只是系統(tǒng)內(nèi)部數(shù)據(jù)處理流程發(fā)生變化。自主可控改造后系統(tǒng)訪問(wèn)流程圖如圖4所示。

3.3 系統(tǒng)結(jié)果

當(dāng)完成自主可控改造系統(tǒng)硬件部署后,增加相應(yīng)的目標(biāo)系統(tǒng)配置,用戶就可以直接訪問(wèn)改造后的網(wǎng)站。以動(dòng)態(tài)網(wǎng)站改造為例,自主可控增加原網(wǎng)站域名、網(wǎng)站地址、當(dāng)前網(wǎng)站域名、數(shù)據(jù)抓取最大層級(jí)數(shù)、安全策略等相關(guān)信息。

4 結(jié)論

本研究針對(duì)靜態(tài)與動(dòng)態(tài)的非交互 Web 數(shù)據(jù)平臺(tái),提出一種輕量級(jí)的自主可控改造方法,以解決運(yùn)行在 X86 體系架構(gòu)+Win/Linux 操作系統(tǒng)之上的數(shù)據(jù)平臺(tái)與基于ARM 和MIPS 的自主可控軟硬件系統(tǒng)結(jié)構(gòu)的差異問(wèn)題。主要通過(guò)移植、優(yōu)化等方法完善自主可控軟硬件基礎(chǔ)支撐環(huán)境,設(shè)計(jì)實(shí)現(xiàn)Web 數(shù)據(jù)抓取功能,涉及目標(biāo) URL 頁(yè)面的讀取與下載、頁(yè)面過(guò)濾、結(jié)構(gòu)解析與數(shù)據(jù)獲取,實(shí)現(xiàn)目標(biāo)分析、數(shù)據(jù)抓取、數(shù)據(jù)顯示等功能。本研究的輕量級(jí)國(guó)產(chǎn)化遷移方法,避免了重新對(duì)原有系統(tǒng)遷移和重構(gòu)的高昂投入,降低Web 系統(tǒng)遷移到自主可控平臺(tái)的開(kāi)發(fā)周期和資金。我國(guó)正面臨錯(cuò)綜復(fù)雜的國(guó)際政治環(huán)境,國(guó)家信息安全時(shí)刻受到威脅,實(shí)現(xiàn)信息系統(tǒng)國(guó)產(chǎn)安全可控已刻不容緩,本研究為系統(tǒng)安全自主可控遷移提供一種新思路。另外結(jié)合研究成果和實(shí)際需求,將單位網(wǎng)站進(jìn)行國(guó)產(chǎn)化遷移,形成研究成果示范,并申請(qǐng)軟件著作權(quán),同時(shí)通過(guò)信息系統(tǒng)等級(jí)保護(hù)測(cè)評(píng)。本研究成果對(duì)現(xiàn)有的信息系統(tǒng)安全加固工作,具有良好的促進(jìn)作用。

猜你喜歡
系統(tǒng)配置流程圖頁(yè)面
大狗熊在睡覺(jué)
刷新生活的頁(yè)面
針對(duì)不同空間的13套系統(tǒng)配置攻略 2020定制家庭影院組建推薦指南
專利申請(qǐng)審批流程圖
河南科技(2016年8期)2016-09-03 08:08:22
專利申請(qǐng)審批流程圖
河南科技(2016年6期)2016-08-13 08:18:29
計(jì)算機(jī)聯(lián)鎖系統(tǒng)配置軟件設(shè)計(jì)與實(shí)現(xiàn)
基于IEC61850的可視化系統(tǒng)配置器的設(shè)計(jì)與實(shí)現(xiàn)
一種1000MW機(jī)組超速保護(hù)系統(tǒng)配置方案
寧??h村級(jí)權(quán)力清單36條
《天津醫(yī)藥》稿件處理流程圖
禹城市| 贞丰县| 青浦区| 鄂伦春自治旗| 武功县| 富宁县| 四子王旗| 甘南县| 合作市| 苍南县| 孟州市| 遂溪县| 荣昌县| 高雄市| 泰顺县| 安吉县| 苏尼特左旗| 都兰县| 古交市| 大冶市| 灌阳县| 台山市| 遂川县| 黄山市| 永济市| 托里县| 康马县| 溆浦县| 郯城县| 朝阳市| 扬州市| 门源| 道孚县| 象州县| 张北县| 孟州市| 腾冲县| 兰西县| 威远县| 普兰县| 万盛区|