国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于字符卷積神經(jīng)網(wǎng)絡(luò)的違法URL識(shí)別

2021-05-23 09:30:24汪俊明俞詩博李素云
電腦知識(shí)與技術(shù) 2021年11期
關(guān)鍵詞:深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

汪俊明 俞詩博 李素云

摘要:違法URL是網(wǎng)絡(luò)違法犯罪傳播的方式之一,當(dāng)前,依托互聯(lián)網(wǎng)進(jìn)行的詐騙、賭博等違法行為日益猖獗,上當(dāng)受騙者眾多,嚴(yán)重危害人民群眾財(cái)產(chǎn)安全和正常生活秩序。針對(duì)上述問題,該實(shí)驗(yàn)利用深度學(xué)習(xí)方法,挖掘歷史違法URL數(shù)據(jù)特征,建立違法URL快速識(shí)別模型,為打擊網(wǎng)絡(luò)犯罪提供支撐。

關(guān)鍵詞:深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);惡意URL

中圖分類號(hào):TP183? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)11-0181-03

近年來,隨著移動(dòng)網(wǎng)絡(luò)應(yīng)用的蓬勃發(fā)展,依托互聯(lián)網(wǎng)進(jìn)行的違法行為日益猖獗,通過App、網(wǎng)站進(jìn)行的網(wǎng)絡(luò)犯罪現(xiàn)象持續(xù)高發(fā),雖然經(jīng)過公安、電信、銀行、互聯(lián)網(wǎng)企業(yè)等單位的多方努力,進(jìn)行了大量宣傳、采取各種防范措施,但上當(dāng)受騙者仍不在少數(shù),嚴(yán)重危害人民群眾財(cái)產(chǎn)安全,擾亂正常生產(chǎn)生活秩序,已成為影響社會(huì)穩(wěn)定的突出問題。特別是網(wǎng)絡(luò)詐騙,具有方式多樣、手段翻新快、隱匿性強(qiáng)、技術(shù)化程度高、目標(biāo)針對(duì)性廣等特點(diǎn),大量詐騙通過短信和通聯(lián)應(yīng)用向不特定對(duì)象傳播、發(fā)送惡意URL,誘使當(dāng)事人訪問違法頁面,進(jìn)而落入各種詐騙陷阱。因此,及時(shí)準(zhǔn)確識(shí)別違法URL,采取有效措施預(yù)先防范潛在違法行為,是構(gòu)建網(wǎng)絡(luò)安全防護(hù)體系的重要環(huán)節(jié)。

本文提出了一種基于字符卷積神經(jīng)網(wǎng)絡(luò)(Char-CNN)的違法URL識(shí)別算法[1],在第一節(jié)中,我們介紹當(dāng)前識(shí)別違法URL的主流技術(shù)手段;第二節(jié)中,我們對(duì)本文提出的違法URL識(shí)別算法進(jìn)行了詳細(xì)介紹,第三節(jié)報(bào)告該算法在真實(shí)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果,最后對(duì)算法的應(yīng)用進(jìn)行了總結(jié)。

1 相關(guān)技術(shù)

1.1 啟發(fā)式學(xué)習(xí)

針對(duì)違法URL的識(shí)別,黑名單是使用時(shí)間最久且目前仍然廣泛使用的技術(shù)。使用黑名單作為違法URL的判別標(biāo)準(zhǔn)具有明顯的優(yōu)勢(shì)和劣勢(shì),一方面,由于黑名單數(shù)據(jù)均經(jīng)過人工確認(rèn),正確率高;另一方面,違法URL活躍時(shí)間較短,歷史積累的黑名單數(shù)據(jù)隨著時(shí)間推移會(huì)逐漸失效,基于人工舉報(bào)、標(biāo)記的黑名單數(shù)據(jù)更新速度遠(yuǎn)低于犯罪分子啟用新URL的速度,導(dǎo)致無法識(shí)別新近出現(xiàn)的違法URL,漏報(bào)率高,僅能提供給較低程度的防護(hù)[2]。

為彌補(bǔ)其缺點(diǎn),啟發(fā)式算法應(yīng)運(yùn)而生。啟發(fā)式算法利用累計(jì)的黑名單數(shù)據(jù),挖掘歷史數(shù)據(jù)的相似性規(guī)律,尋找歷史數(shù)據(jù)的違法“簽名”,使用相似性規(guī)則對(duì)違法URL進(jìn)行判別。這些算法常?;卺槍?duì)頁面的動(dòng)態(tài)分析,抓取多次重定向、非常規(guī)操作步驟等特征[3,4],因此有一定概率遭受網(wǎng)絡(luò)攻擊。這些算法可在一定程度上彌補(bǔ)黑名單技術(shù)僅使用精準(zhǔn)碰撞來判別的弊端,但仍然具有規(guī)則更新慢、準(zhǔn)確率低的缺點(diǎn),時(shí)效性仍然較差。

1.2 機(jī)器學(xué)習(xí)

機(jī)器學(xué)習(xí)算法通過分析URL頁面信息,提取頁面內(nèi)容特征,訓(xùn)練預(yù)測(cè)模型對(duì)頁面內(nèi)容進(jìn)行判別[5-7]。機(jī)器學(xué)習(xí)算法主要分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩類。監(jiān)督學(xué)習(xí)基于標(biāo)注數(shù)據(jù),不斷基于已標(biāo)注URL,提取頁面特征進(jìn)行訓(xùn)練,常用于URL識(shí)別的算法有支持向量機(jī)(SVM)、隨機(jī)森林、C5.0等。無監(jiān)督學(xué)習(xí)則使用沒有標(biāo)注的數(shù)據(jù),通過對(duì)無標(biāo)簽樣本的學(xué)習(xí)來揭示數(shù)據(jù)的內(nèi)在特性及規(guī)律,按照數(shù)據(jù)的相對(duì)標(biāo)準(zhǔn)進(jìn)行學(xué)習(xí)。無監(jiān)督學(xué)習(xí)的URL識(shí)別模型中,常使用聚類方法來進(jìn)行特征提取,將相似度較高的對(duì)象聚到同一個(gè)簇,不同簇間相似度較低,以此來區(qū)分違法URL和正常URL[8]。

相對(duì)啟發(fā)式學(xué)習(xí),使用機(jī)器學(xué)習(xí)方法判別違法URL不必拘泥于歷史數(shù)據(jù)集,基于樣本數(shù)據(jù)訓(xùn)練的模型可以挖掘更多違法URL,具有一定主動(dòng)性。但“數(shù)據(jù)決定了機(jī)器學(xué)習(xí)的上限,而算法只是盡可能逼近這個(gè)上限”,高度依賴于訓(xùn)練集數(shù)據(jù)及特征工程的機(jī)器學(xué)習(xí)方法依然有其局限性。要建立價(jià)值較高的判別模型,首先需要準(zhǔn)確率非常高的樣本,且需不斷更新,以適應(yīng)違法URL的更新速度;其次,還需要通過特征工程進(jìn)行特征構(gòu)建、特征提取和特征選擇,以最大限度地從原始數(shù)據(jù)中提取特征供算法和模型使用,人工預(yù)處理對(duì)模型的效果仍然有著至關(guān)重要的作用。

1.3 深度學(xué)習(xí)

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,是一種基于對(duì)數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的算法。相較于需要大量人工參與進(jìn)行特征工程的機(jī)器學(xué)習(xí),深度學(xué)習(xí)預(yù)處理工作較少,使用非監(jiān)督式或半監(jiān)督式的特征學(xué)習(xí)和高效分層特征提取算法來代替人工,可以實(shí)現(xiàn)自動(dòng)提取數(shù)據(jù)中包含的特征,避免人工耗費(fèi)和可能出現(xiàn)的主觀錯(cuò)誤,本文使用的卷積神經(jīng)網(wǎng)絡(luò)(CNN)即為常用的一種深度學(xué)習(xí)算法[1,9,10]。

CNN與普通神經(jīng)網(wǎng)絡(luò)非常相似,由可學(xué)習(xí)的權(quán)重和偏置常量神經(jīng)元組成。每個(gè)神經(jīng)元都接收一些輸入,并做點(diǎn)積計(jì)算,輸出是每個(gè)分類的分?jǐn)?shù)。卷積神經(jīng)網(wǎng)絡(luò)常應(yīng)用于計(jì)算機(jī)視覺和自然語言處理領(lǐng)域,它能將大信息量數(shù)據(jù)在不影響結(jié)果的前提下降維為小量數(shù)據(jù),并保留數(shù)據(jù)特征。CNN包含卷積層、池化層和全連接層。卷積層對(duì)信息的局部進(jìn)行提取,保留數(shù)據(jù)的重要特征,類似于人類視覺原理,在每一小塊中深入分析從而得到抽象程度更高的特征;池化層即下采樣,通過數(shù)據(jù)降維減少運(yùn)算量,可以有效避免過擬合;全連接層則根據(jù)算法需要,輸出最終結(jié)果。CNN通過疊加上述三種結(jié)構(gòu),設(shè)計(jì)出適合應(yīng)用場(chǎng)景的算法。

2 基于字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)的違法URL識(shí)別模型與實(shí)現(xiàn)

字符級(jí)別的卷積神經(jīng)網(wǎng)絡(luò),即Character-level Convolutional Networks(Char-CNN)。相較于基于短語和單詞的自然語言處理算法,Char-CNN從字符粒度訓(xùn)練神經(jīng)網(wǎng)絡(luò),不需要預(yù)先掌握單詞、語法和語義知識(shí),可以跨語言使用。不同于普通文本文章,URL文本較短,可提取信息量有限,且URL生成方式多樣,多數(shù)不以單詞為基本單位組成,缺乏語法語義特征,故對(duì)于URL的判別,使用字符作為基本單位是更加合適的信息挖掘方式[1,11]。

Char-CNN識(shí)別算法分為生成嵌入式表示、特征挖掘和分類三個(gè)階段。生成特征圖像環(huán)節(jié)需固定URL長(zhǎng)度,將輸入U(xiǎn)RL通過索引方式生成輸入神經(jīng)網(wǎng)絡(luò)的二維張量;特征挖掘通過多個(gè)尺寸的卷積層,提取URL編輯距離、前后順序等重要信息,并將這些信息合成為一個(gè)固定長(zhǎng)度的特征向量;最后,被提取的信息通過全連接層進(jìn)行判別分類。

圖1為模型流程,整個(gè)算法由訓(xùn)練和預(yù)測(cè)兩部分構(gòu)成。在模型訓(xùn)練完成后,我們使用測(cè)試集對(duì)模型進(jìn)行評(píng)估,通過準(zhǔn)確率、召回率、F1值對(duì)模型進(jìn)行評(píng)價(jià),并依據(jù)結(jié)果對(duì)模型進(jìn)行參數(shù)和層數(shù)調(diào)整。下面將詳細(xì)闡述模型的訓(xùn)練過程。

2.1 生成特征圖像

模型使用單個(gè)字符作為語義單元,單條URL可以看作是一個(gè)由基本語義單元組成的普通語句。根據(jù)RFC3986編碼規(guī)范,URL只允許包含英文字母(a-zA-Z)、數(shù)字(0-9)、-_.~4個(gè)特殊字符以及所有保留字符!*'();:@&=+$,/?#[],共計(jì)84個(gè)有效字符[12]。在本次實(shí)驗(yàn)中,我們嘗試將所有大寫字母轉(zhuǎn)換為小寫字母,即使用58個(gè)有效字符,作為模型的語料庫,同時(shí),考慮到可能出現(xiàn)的非法字符,我們另增加一個(gè)詞語unknown作為非法字符的表示,若出現(xiàn)語料庫之外的字符,則使用unknown作為代替。

卷積神經(jīng)網(wǎng)絡(luò)最初運(yùn)用于計(jì)算機(jī)視覺領(lǐng)域,對(duì)數(shù)據(jù)輸入大小有一定要求,例如在LeNet-5中,每個(gè)輸入都是[32×32]的圖像文件[10]。一旦圖像分辨率發(fā)生了變化,造成多余卷積操作結(jié)果丟失,就會(huì)對(duì)模型結(jié)果產(chǎn)生影響,或者使得網(wǎng)絡(luò)內(nèi)部狀態(tài)發(fā)生混亂,在圖像處理中,主要通過設(shè)置輸入圖像固定分辨率來解決這個(gè)問題。但是,在自然語言處理中,由于輸入的是文檔或者語句,輸入內(nèi)容長(zhǎng)度是不固定的,通常采用截?cái)噙^長(zhǎng)文本、填充不足文本的方式進(jìn)行處理,以保持文本長(zhǎng)度的一致性[8]。不同于普通文本,URL的前半部分相對(duì)于后半部分而言包含的有用的信息更多,本實(shí)驗(yàn)中我們選擇從后段進(jìn)行截?cái)嗷蛘咛畛?。在?duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行預(yù)處理和統(tǒng)計(jì)分析后發(fā)現(xiàn)數(shù)據(jù)集中95%的URL的字符數(shù)小于等于80個(gè)字符,使用80作為輸入長(zhǎng)度可以保留絕大部分實(shí)驗(yàn)樣本的信息,在本文模型試驗(yàn)中,長(zhǎng)度長(zhǎng)于80個(gè)字符的URL從尾部進(jìn)行截?cái)?,短?0的使用填充字符填充。

由于URL語料庫較小,不會(huì)造成維度災(zāi)難,為方便實(shí)驗(yàn),使用1-60代表語料庫中60個(gè)字符(59個(gè)原始字符及1個(gè)填充字符)建立索引,根據(jù)索引使用一個(gè)一維向量對(duì)URL中字符進(jìn)行表示,使得每條URL都生成一個(gè)[80×60]特征圖像,輸入后續(xù)的卷積層中。

2.2 特征挖掘

實(shí)驗(yàn)使用CNN作為分類模型,將上述階段生成的特征圖像作為輸入,進(jìn)行特征挖掘和分類。特征挖掘過程包含多個(gè)并列的卷積層[Convt, k]和對(duì)應(yīng)的池化層,其中[t]為卷積核個(gè)數(shù),[k]為卷積層大小。為提取足夠多的上下文信息,實(shí)驗(yàn)中使用多個(gè)不同大小的卷積層,設(shè)置[k∈2, 3, 4, 5],并依據(jù)經(jīng)驗(yàn)設(shè)置[t]值為256。

特征挖掘過程中,設(shè)初始輸入一個(gè)長(zhǎng)度為[M]的URL字符串,一個(gè)大小為[k]的卷積核應(yīng)用到[第i]個(gè)長(zhǎng)度為[k]的窗口上,將生成一個(gè)新特征[zi],新特征[zi]生成計(jì)算式如下文所示,其中[ωm]表示卷積核的[m]位置的權(quán)重,[xi:i+k-1]表示URL從[i]位置到[i+k-1]位置的字符數(shù)據(jù),[b]是偏置項(xiàng),[f]是一個(gè)非線性函數(shù),實(shí)驗(yàn)使用RELU作為激活函數(shù)。

[zi=fm=0M-k-1ωm×xi:i+k-1+b]? ? ? ? ? (1)

每一個(gè)卷積層對(duì)應(yīng)一個(gè)最大池化層,只保留區(qū)域內(nèi)的最大特征,忽略其他值,以降低噪聲的影響、提高模型健壯性、避免過擬合。實(shí)驗(yàn)中256個(gè)卷積核在經(jīng)過池化層后會(huì)得到256個(gè)[1×1]維度的輸出,4個(gè)大小為[1×256]的卷積層輸出結(jié)果將拼接展開為一個(gè)長(zhǎng)度為1024的向量,進(jìn)入RELU全連接層后再接一個(gè)sigmoid全連接層,最后輸出二分類結(jié)果。

2.3 過擬合處理

在深度學(xué)習(xí)中,經(jīng)常會(huì)出現(xiàn)某些神經(jīng)元比另一些神經(jīng)元具有更重要的預(yù)測(cè)能力,這種現(xiàn)象導(dǎo)致預(yù)測(cè)模型過度依賴于個(gè)別神經(jīng)元以致模型對(duì)新樣本的預(yù)測(cè)能力較差,通常使用dropout解決該問題,即隨機(jī)移除神經(jīng)網(wǎng)絡(luò)中的一些神經(jīng)元,防止過擬合,同時(shí)實(shí)現(xiàn)提高模型訓(xùn)練速度。在本文模型實(shí)驗(yàn)中,我們?cè)黾恿薙patial dropout,并依據(jù)經(jīng)驗(yàn)設(shè)置dropout參數(shù)為0.5,每個(gè)卷積層在經(jīng)過池化后和第一次經(jīng)過全連接層后做一次dropout,以防止本實(shí)驗(yàn)樣本量不大的情況下出現(xiàn)過擬合。

然而,在實(shí)際實(shí)驗(yàn)中,因?yàn)槌跏糴poch值設(shè)置過大,依然出現(xiàn)了過擬合問題。因此,除去dropout,在實(shí)驗(yàn)中我們還設(shè)置了早停機(jī)制,以解決epoch數(shù)量需要手動(dòng)設(shè)置的問題,即使用一個(gè)及時(shí)停止的標(biāo)準(zhǔn)來提前結(jié)束訓(xùn)練,使模型盡可能產(chǎn)生最低的泛化錯(cuò)誤[13]。具體過程如下所示。

1)將原始訓(xùn)練數(shù)據(jù)集劃分成訓(xùn)練集和驗(yàn)證集。

2)只在訓(xùn)練集上進(jìn)行訓(xùn)練,在驗(yàn)證集上進(jìn)行驗(yàn)證并計(jì)算誤差。實(shí)驗(yàn)中,我們使用100步作為計(jì)算周期,即每100步計(jì)算一次驗(yàn)證集誤差,并統(tǒng)計(jì)比較驗(yàn)證集歷史最低誤差值。

3)當(dāng)模型效果經(jīng)過多輪訓(xùn)練后無明顯提升時(shí),結(jié)束實(shí)驗(yàn)。實(shí)驗(yàn)中,我們?cè)O(shè)置模型訓(xùn)練效果在1000輪后仍未提升,則結(jié)束訓(xùn)練。

4)使用最后一次迭代參數(shù)作為模型最終參數(shù),生成預(yù)測(cè)模型。

3 實(shí)驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)及評(píng)估標(biāo)準(zhǔn)

本次實(shí)驗(yàn)違法樣本數(shù)據(jù)來源于公安、互聯(lián)網(wǎng)安全公司,包含賭博、色情、詐騙等違法URL數(shù)據(jù)共70648條。合法樣本則使用爬蟲從Alexa爬取,共70571條數(shù)據(jù)。實(shí)驗(yàn)共包含141219條URL數(shù)據(jù)。

實(shí)驗(yàn)使用準(zhǔn)確率、召回率及F1值對(duì)模型進(jìn)行評(píng)估。由于實(shí)際運(yùn)用中,違法網(wǎng)站被錯(cuò)誤識(shí)別為合法網(wǎng)站可能產(chǎn)生較大風(fēng)險(xiǎn),故在對(duì)比算法準(zhǔn)確程度時(shí),本文使用召回率作為主要評(píng)價(jià)標(biāo)注。

3.2 實(shí)驗(yàn)結(jié)果及分析

本文實(shí)驗(yàn)使用一臺(tái)Centos 7服務(wù)器進(jìn)行訓(xùn)練,服務(wù)器均安裝python3.7.7及TensorFlow 2.0.0軟件環(huán)境,使用scikit-learn對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。

實(shí)驗(yàn)設(shè)置訓(xùn)練集、驗(yàn)證集及測(cè)試集樣本比例為8:1:1。為防止過擬合問題,設(shè)置1000步為早停參數(shù),每100步使用當(dāng)前模型對(duì)驗(yàn)證集進(jìn)行測(cè)試,若1000步后模型對(duì)驗(yàn)證集預(yù)測(cè)的準(zhǔn)確率沒有提升,則停止訓(xùn)練。

圖2為模型訓(xùn)練過程,試驗(yàn)中,約400步后準(zhǔn)確率逐漸穩(wěn)定于0.95。由于實(shí)驗(yàn)加入了早停機(jī)制,驗(yàn)證集正確率未因epoch值設(shè)置有誤出現(xiàn)明顯過擬合。

表1為訓(xùn)練完成后準(zhǔn)確率、召回率及F1值,表2為測(cè)試集上的混淆矩陣。在實(shí)驗(yàn)測(cè)試集上,完成訓(xùn)練后的模型準(zhǔn)確率達(dá)到0.980,召回率達(dá)到0.987,F(xiàn)1值為0.983,三個(gè)判別評(píng)價(jià)標(biāo)準(zhǔn)均顯示出良好的模型擬合效果。

實(shí)驗(yàn)中,早停機(jī)制發(fā)揮出了極大效果。前期測(cè)試中,因epoch設(shè)置過大,訓(xùn)練過程耗時(shí)過長(zhǎng),超過10個(gè)小時(shí),且驗(yàn)證集準(zhǔn)確率一度低于0.6。因此,對(duì)于該類型數(shù)據(jù)集而言,加入過擬合機(jī)制尤為重要。經(jīng)試驗(yàn),在本文數(shù)據(jù)集上,當(dāng)全連接層核數(shù)為1024,截?cái)嚅L(zhǎng)度為80,批處理數(shù)量為128,學(xué)習(xí)率為0.005時(shí),試驗(yàn)效果最好。

4 結(jié)語

URL作為大量網(wǎng)絡(luò)違法犯罪過程中的要素信息之一,實(shí)時(shí)識(shí)別并阻斷違法網(wǎng)絡(luò)請(qǐng)求可有效降低犯罪行為的發(fā)生,當(dāng)前,各類模型和算法識(shí)別違法URL的效果還有待提高,但是計(jì)算機(jī)智能模型作為快速識(shí)別、自動(dòng)處置的手段之一,具有較高的工程應(yīng)用價(jià)值。本文針對(duì)如何利用機(jī)器學(xué)習(xí)算法進(jìn)行違法URL識(shí)別的問題,提出了一種基于URL字符串的深度學(xué)習(xí)分類算法,并利用TensorFlow進(jìn)行了代碼實(shí)現(xiàn)。實(shí)驗(yàn)證明, 本文提出的違法URL識(shí)別分類方法, 在準(zhǔn)確率與召回率方面都達(dá)到了較好的效果。目前模型僅實(shí)現(xiàn)了違法URL識(shí)別的二分類,主要用于判斷URL是否為違法,隨著數(shù)據(jù)的積累,我們將開展多分類模型研究,識(shí)別違法URL具體類型,促進(jìn)網(wǎng)絡(luò)違法行為的精確識(shí)別。

參考文獻(xiàn):

[1] ZhangXiang,ZhaoJun-bo,LeCunYann.Character-level Convolutional Networksfor Text Classification[J].NIPS'15:Proceedings of the 28th International Conferenceon Neural Information Processing Systems-Volume1,2015(12):649-657.

[2] KivinenJ,Smola A J,Williamson R C.Online learning with kernels[J].IEEE Transactions on Signal Processing,2004,52(8):2165-2176.

[3] Moshchuk Alexander,Bragin Tanya,Deville Damien,GribbleSteven D,Levy Henry M.SpyProxy:Executionbased Detection of Malicious Web Content[M].In Proceeding of the 16th USENIX Security Symposium.Berkeley,CA,United States:USENIX Association,2007:27-42.

[4] Khonji M,Iraqi Y,Jones A.Phishing detection:a literature survey[J].IEEE Communications Surveys&Tutorials,2013,15(4):2091-2121.

[5] PatilDharmaraj Rajaram,Patil J B.Surveyon Malicious Web Pages Detection Techniques[J].International Journal of uande Service,Science and Technology,2015,8(5):195-206

[6] 沙泓州,劉慶云,柳廳文,等.惡意網(wǎng)頁識(shí)別研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2016,39(3):529-542.

[7] 凡友榮,楊濤,王永劍,等.基于URL特征檢測(cè)的違法網(wǎng)站識(shí)別方法[J].計(jì)算機(jī)工程,2018,44(3):171-177.

[8] Kim,Y.ConvolutionalNeuralNetworksforSentenceClassification[M].Proceedingsof the 2014ConferenceonEmpiricalMethodsinNaturalLanguageProcessing(EMNLP),Doha,Qatar:Association for Computational Linguistics,2014:1746-1751.

[9] Sinha S,Bailey M,Jahanian F.Shades of grey: On the effectiveness of reputation-based “blacklists”[C]//2008 3rd International Conference on Malicious and Unwanted Software (MALWARE).October 7-8,2008,Alexandria,VA,USA.IEEE,2008:57-64.

[10] LeCun Y,BottouL,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.

[11] 陳康,付華崢,向勇.基于深度學(xué)習(xí)的惡意URL識(shí)別[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(6):27-33.

[12] Internet Engineering Task Force.Uniform Resource Identifier(URI):GenericSyntax(RFC3986)[Z].2005.

[13] Prechelt Lutz.Early Stopping But When?[M].Neural Networks:Tricks of the Trade,volume1524of LNCS,chapter2,Berlin:Springer Verlag,1997:55-69.

【通聯(lián)編輯:唐一東】

猜你喜歡
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
伊金霍洛旗| 东光县| 慈利县| 定远县| 上杭县| 石城县| 平乡县| 林周县| 崇明县| 寻甸| 漯河市| 如东县| 房产| 洪泽县| 池州市| 揭西县| 遵义县| 林甸县| 潮州市| 鄂州市| 南城县| 伊春市| 集贤县| 井陉县| 灵石县| 阜新市| 安宁市| 淄博市| 南皮县| 五家渠市| 色达县| 五华县| 应用必备| 长垣县| 喀喇沁旗| 叙永县| 鹤岗市| 郸城县| 上犹县| 分宜县| 清流县|