国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)安全領(lǐng)域智能語(yǔ)義分析技術(shù)研究

2020-12-30 16:08孫強(qiáng)強(qiáng)丘恵軍陳昊
關(guān)鍵詞:詞義郵件釣魚(yú)

◆孫強(qiáng)強(qiáng) 丘恵軍 陳昊

(深圳供電局有限公司 廣東 518000)

1 語(yǔ)義分析

語(yǔ)義分析是人工智能的一個(gè)分支,也是自然語(yǔ)言處理技術(shù)的核心技術(shù),涉及的學(xué)科有:機(jī)器學(xué)習(xí)、認(rèn)知語(yǔ)言、語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)等。語(yǔ)義分析技術(shù)的進(jìn)步有助于促進(jìn)其他自然語(yǔ)言處理任務(wù)的快速發(fā)展。近年來(lái),人工智能中的語(yǔ)義分析技術(shù),特別是深度學(xué)習(xí)技術(shù)發(fā)展迅速。例如:在自動(dòng)駕駛、語(yǔ)音識(shí)別、圍棋游戲、圖像識(shí)別等眾多領(lǐng)域都取得了突破。

語(yǔ)義分析通過(guò)各種方法,識(shí)別和理解一段文本內(nèi)容所表達(dá)的語(yǔ)義內(nèi)容,這種對(duì)任何語(yǔ)言的理解都可以歸為語(yǔ)義分析的范疇。通常,一段文本內(nèi)容由詞、句和段落組成。詞匯語(yǔ)義分析的重點(diǎn)是如何獲得或區(qū)分詞的語(yǔ)義。簡(jiǎn)單來(lái)說(shuō),語(yǔ)義分析是通過(guò)建立有效的模型和系統(tǒng),實(shí)現(xiàn)對(duì)各種語(yǔ)言的自動(dòng)語(yǔ)義分析,達(dá)到實(shí)現(xiàn)對(duì)整個(gè)文本所表達(dá)語(yǔ)義的理解。

語(yǔ)義分析技術(shù)在詞匯層面上的意思是如何理解詞義,包括詞義消歧和詞義表示。

1.1 詞義消歧

詞匯歧義作為自然語(yǔ)言固有特征。詞義消歧是根據(jù)一個(gè)多義詞在文本中出現(xiàn)的上下文聯(lián)系來(lái)確定其在該文中的詞義,是各項(xiàng)自然語(yǔ)言處理的基礎(chǔ)步驟和必經(jīng)階段。詞義消歧包括兩個(gè)必要的步驟:(1)在詞典中描述詞義;(2)在語(yǔ)料庫(kù)中進(jìn)行詞義自動(dòng)消歧。詞義消歧要克服的兩個(gè)關(guān)鍵問(wèn)題是:(1)詞典構(gòu)建、(2)上下文建模。

1.2 詞義表示和學(xué)習(xí)

早期詞匯表示的實(shí)踐,是把詞義表示由網(wǎng)絡(luò)中的詞義位置,連接到網(wǎng)絡(luò)根節(jié)點(diǎn)的路徑的信息。然而詞義的數(shù)字化則是另一個(gè)表示方式。

一種最直觀、最通用的表達(dá)單詞的方法是一個(gè)hot,此方法把每個(gè)單詞都表示成一個(gè)長(zhǎng)長(zhǎng)的向量。因此,詞向量的維度數(shù)就是詞匯表的大小。其中,大部分元素用0表示,僅有一個(gè)維度值用1表示。該“維度”表示的就是當(dāng)前的單詞意思。但是,此表述的方式是存在問(wèn)題的,主要問(wèn)題點(diǎn)是:對(duì)于任意兩個(gè)詞來(lái)說(shuō),它們的關(guān)系是孤立的。

機(jī)器學(xué)習(xí)算法和技術(shù)水平的不斷發(fā)展,出現(xiàn)了比較流行的表達(dá)詞義的方式,如:詞的嵌入(注:也叫詞向量)。通俗來(lái)講,這種方式的基本思路:用訓(xùn)練的方式撥開(kāi)語(yǔ)言中的每一個(gè)詞,如通過(guò)JIEBA分詞,每個(gè)詞被映射成為固定的維度向量,通過(guò)計(jì)算將這些向量匯聚、組合在一起從而形成詞向量空間,每個(gè)向量其實(shí)也是空間中的一個(gè)小點(diǎn)。假如在這個(gè)空間中引入“距離”(distance),根據(jù)比較“距離”的大小,用來(lái)判斷詞與詞之間的擬合程度(也即是詞匯或語(yǔ)義上的相似性)。

2 網(wǎng)絡(luò)安全領(lǐng)域

為了防止這些類型的攻擊,重要的是對(duì)釣魚(yú)郵件有明確的理解。釣魚(yú)郵件的真正困難在于如何發(fā)現(xiàn)它,本文將研究智能語(yǔ)義分析技術(shù)如何抵御這類攻擊。

釣魚(yú)郵件指攻擊者發(fā)送偽裝的電子郵件,包括惡意文件、惡意鏈接、病毒木馬等,欺騙用戶輸入賬號(hào)、密碼、銀行卡號(hào)等敏感隱私信息,竊取用戶敏感信息,或者把中病毒、木馬的設(shè)備作為跳板,實(shí)施進(jìn)一步的攻擊行為。

近幾年來(lái),隨著人工智能技術(shù)的快速發(fā)展,在網(wǎng)絡(luò)安全領(lǐng)域機(jī)器程序模仿人的功能不斷增強(qiáng),現(xiàn)在已有攻擊者利用先進(jìn)的人工智能技術(shù),收集各種維度的數(shù)據(jù),如公共網(wǎng)站數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、郵件數(shù)據(jù)等,通過(guò)對(duì)大數(shù)據(jù)的進(jìn)一步挖掘,從中提取用戶的出生日期、性別、常住地、電話號(hào)碼、電子郵件地址等個(gè)人信息,通過(guò)AI語(yǔ)言模型批量化為社會(huì)工程攻擊創(chuàng)建連貫的令人信服并具備針對(duì)性的網(wǎng)絡(luò)釣魚(yú)郵件,并利用機(jī)器學(xué)習(xí)來(lái)分析大量被盜記錄,以識(shí)別潛在受害者,構(gòu)建能夠更加有效針對(duì)這些人的內(nèi)容詳盡的釣魚(yú)類電子郵件。深度偽造(deep fake)技術(shù)制作的假文本、假視頻,已經(jīng)很難讓人區(qū)分,它能夠騙過(guò)當(dāng)前的一些反釣魚(yú)郵件遙測(cè)技術(shù)。它自身能夠不停地增強(qiáng)學(xué)習(xí),假如攻擊有效果,有效信息將會(huì)反饋到樣本模型中,從而進(jìn)一步增強(qiáng)攻擊樣本的準(zhǔn)確性;而且,即使失敗的無(wú)效數(shù)據(jù)也會(huì)得到反饋利用,使機(jī)器程序能夠分辨哪些信息是無(wú)效的。所以,攻擊者越來(lái)越善于學(xué)習(xí)目標(biāo)的特性,發(fā)送出看似合法的郵件,通過(guò)對(duì)外部技術(shù)和資源的整合使其網(wǎng)絡(luò)釣魚(yú)的成效變得越加突出。

3 網(wǎng)絡(luò)安全領(lǐng)域智能語(yǔ)義應(yīng)用

我們的研究?jī)?nèi)容主要集中在硬件的設(shè)計(jì)與測(cè)試,通過(guò)使用自然語(yǔ)言處理(NLP)的方式來(lái)設(shè)計(jì)硬件的組件,因?yàn)槲覀冋J(rèn)為這種方式對(duì)防范釣魚(yú)郵件具有一定作用。根據(jù)一段時(shí)間的研究和測(cè)試,我們總結(jié)得出,一是攻擊者通常會(huì)根據(jù)傳統(tǒng)已存在的釣魚(yú)檢測(cè)方法,改進(jìn)釣魚(yú)的策略和手段,從而實(shí)現(xiàn)規(guī)避檢測(cè)的目的;二是網(wǎng)絡(luò)釣魚(yú)的活動(dòng)具有存活時(shí)間短暫、時(shí)效性較強(qiáng)、偽裝水平較高和釣魚(yú)目標(biāo)較廣泛等特點(diǎn),往往很難有效地識(shí)別。舉個(gè)例子,跟合法目標(biāo)網(wǎng)站相似的域名名稱、頁(yè)面內(nèi)容排版和圖片布局相似的內(nèi)容等,以此欺騙用戶獲取敏感信息。AI生成的文本內(nèi)容具有通用性和大眾化的特定,通常是將釣魚(yú)郵件批量發(fā)出,有目的、有針對(duì)、有方向地發(fā)向特定人群,其個(gè)性化非常靈活。然而,真正具有高危害的攻擊,往往是通過(guò)電話來(lái)交談關(guān)于你的事情,攻擊者可以根據(jù)交談的內(nèi)容調(diào)整自己的講話,因此理解句子的語(yǔ)義是理解釣魚(yú)郵件的最佳方式,也即是通過(guò)機(jī)器讀懂釣魚(yú)郵件的文本的字面內(nèi)容。通過(guò)對(duì)文本內(nèi)容的關(guān)注了解,這種策略用來(lái)防御釣魚(yú)郵件的攻擊。

通過(guò)語(yǔ)義分析,建立郵件庫(kù)的樣本模型,檢測(cè)郵件中的問(wèn)題或命令,或評(píng)價(jià)句子中主要?jiǎng)釉~和賓語(yǔ)的整體意義。

“動(dòng)詞+賓語(yǔ)”的組合邏輯,與黑名單模型中描述禁止動(dòng)作的“動(dòng)賓”,進(jìn)行比較可得出批量電子郵件內(nèi)容中是否存在惡意的命令執(zhí)行。我們實(shí)踐過(guò)程中,隨機(jī)從一批釣魚(yú)郵件選出一些,首先是進(jìn)行內(nèi)容的識(shí)別和訓(xùn)練,標(biāo)識(shí)每個(gè)單詞是否有同義詞,排除歧義的單詞,避免出現(xiàn)歸類失誤的情況。

我們研究總結(jié)得出,開(kāi)展此類工作(即通過(guò)釣魚(yú)郵件獲取黑名單)的難點(diǎn)部分是獲取攻擊樣本。檢測(cè)的精準(zhǔn)度,與模型訓(xùn)練中的攻擊樣本的精準(zhǔn)度,息息相關(guān)。為確保精準(zhǔn)度,我們提高了樣本的數(shù)量,數(shù)量總數(shù)超過(guò)380,000個(gè)釣魚(yú)郵件和正常電子郵件。最后的檢測(cè)數(shù)據(jù)表明,樣本模型識(shí)別率達(dá)到預(yù)期。這也說(shuō)明本文的工作不僅在理論上具有創(chuàng)新性,也具有一定的落地應(yīng)用的價(jià)值。

4 結(jié)語(yǔ)

互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)電子郵件作為人與人、業(yè)務(wù)與業(yè)務(wù)之間交流的重要工具之一,已經(jīng)是黑客攻擊的主要目標(biāo),為欺詐、勒索病毒的傳播提供了溫床。郵件安全是網(wǎng)絡(luò)安全中的風(fēng)險(xiǎn)點(diǎn)之一,打破了傳統(tǒng)的邊界架構(gòu)安全的防御,所以郵件安全的防御十分重要。根本的解決方案,不僅僅要依賴各種的邊界設(shè)備、檢測(cè)系統(tǒng)和人員安全意識(shí)的提升,更重要的是要用新的技術(shù)來(lái)對(duì)抗,充分發(fā)揮人工智能技術(shù)中語(yǔ)義分析技術(shù)的優(yōu)勢(shì),通過(guò)對(duì)郵件內(nèi)容的檢測(cè)和管控,杜絕釣魚(yú)郵件的傳播,如果發(fā)現(xiàn)釣魚(yú)郵件及時(shí)切斷釣魚(yú)郵件的傳播,保護(hù)自身資產(chǎn)的安全,確保網(wǎng)絡(luò)用戶的上網(wǎng)的安全。

猜你喜歡
詞義郵件釣魚(yú)
基于James的院內(nèi)郵件管理系統(tǒng)的實(shí)現(xiàn)
“誅”的詞義演變及其在古籍中的釋義
如何學(xué)習(xí)掌握古代漢語(yǔ)詞義*——何九盈先生《古漢語(yǔ)詞義叢談》評(píng)介
來(lái)自朋友的郵件
西夏語(yǔ)“頭項(xiàng)”詞義考
根據(jù)認(rèn)知語(yǔ)義學(xué)淺談?dòng)⒄Z(yǔ)單詞記憶法
一封郵件引發(fā)的梅賽德斯反彈
釣魚(yú)
第七章 去泥盆紀(jì)釣魚(yú)
第七章 去泥盆紀(jì)釣魚(yú)
汾阳市| 大埔区| 来安县| 建平县| 兴义市| 湄潭县| 桂平市| 崇文区| 河源市| 武义县| 汕尾市| 岐山县| 昌黎县| 杭锦后旗| 夏津县| 六枝特区| 德令哈市| 通道| 伊宁县| 札达县| 城固县| 西平县| 东港市| 霍城县| 赤壁市| 营口市| 宁陕县| 宝丰县| 丹凤县| 泽州县| 贵溪市| 荔波县| 伊宁市| 赣榆县| 吉水县| 江门市| 沐川县| 宁明县| 淮安市| 科尔| 思南县|