網(wǎng)絡(luò)安全領(lǐng)域智能語(yǔ)義分析技術(shù)研究

2020-12-30 16:08孫強(qiáng)強(qiáng)丘恵軍陳昊

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2020年8期

◆孫強(qiáng)強(qiáng) 丘恵軍陳昊

（深圳供電局有限公司廣東 518000）

1 語(yǔ)義分析

語(yǔ)義分析是人工智能的一個(gè)分支，也是自然語(yǔ)言處理技術(shù)的核心技術(shù)，涉及的學(xué)科有：機(jī)器學(xué)習(xí)、認(rèn)知語(yǔ)言、語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)等。語(yǔ)義分析技術(shù)的進(jìn)步有助于促進(jìn)其他自然語(yǔ)言處理任務(wù)的快速發(fā)展。近年來(lái)，人工智能中的語(yǔ)義分析技術(shù)，特別是深度學(xué)習(xí)技術(shù)發(fā)展迅速。例如：在自動(dòng)駕駛、語(yǔ)音識(shí)別、圍棋游戲、圖像識(shí)別等眾多領(lǐng)域都取得了突破。

語(yǔ)義分析通過(guò)各種方法，識(shí)別和理解一段文本內(nèi)容所表達(dá)的語(yǔ)義內(nèi)容，這種對(duì)任何語(yǔ)言的理解都可以歸為語(yǔ)義分析的范疇。通常，一段文本內(nèi)容由詞、句和段落組成。詞匯語(yǔ)義分析的重點(diǎn)是如何獲得或區(qū)分詞的語(yǔ)義。簡(jiǎn)單來(lái)說(shuō)，語(yǔ)義分析是通過(guò)建立有效的模型和系統(tǒng)，實(shí)現(xiàn)對(duì)各種語(yǔ)言的自動(dòng)語(yǔ)義分析，達(dá)到實(shí)現(xiàn)對(duì)整個(gè)文本所表達(dá)語(yǔ)義的理解。

語(yǔ)義分析技術(shù)在詞匯層面上的意思是如何理解詞義，包括詞義消歧和詞義表示。

1.1 詞義消歧

詞匯歧義作為自然語(yǔ)言固有特征。詞義消歧是根據(jù)一個(gè)多義詞在文本中出現(xiàn)的上下文聯(lián)系來(lái)確定其在該文中的詞義，是各項(xiàng)自然語(yǔ)言處理的基礎(chǔ)步驟和必經(jīng)階段。詞義消歧包括兩個(gè)必要的步驟：（1）在詞典中描述詞義；（2）在語(yǔ)料庫(kù)中進(jìn)行詞義自動(dòng)消歧。詞義消歧要克服的兩個(gè)關(guān)鍵問(wèn)題是：（1）詞典構(gòu)建、（2）上下文建模。

1.2 詞義表示和學(xué)習(xí)

早期詞匯表示的實(shí)踐，是把詞義表示由網(wǎng)絡(luò)中的詞義位置，連接到網(wǎng)絡(luò)根節(jié)點(diǎn)的路徑的信息。然而詞義的數(shù)字化則是另一個(gè)表示方式。

一種最直觀、最通用的表達(dá)單詞的方法是一個(gè)hot，此方法把每個(gè)單詞都表示成一個(gè)長(zhǎng)長(zhǎng)的向量。因此，詞向量的維度數(shù)就是詞匯表的大小。其中，大部分元素用0表示，僅有一個(gè)維度值用1表示。該“維度”表示的就是當(dāng)前的單詞意思。但是，此表述的方式是存在問(wèn)題的，主要問(wèn)題點(diǎn)是：對(duì)于任意兩個(gè)詞來(lái)說(shuō)，它們的關(guān)系是孤立的。

機(jī)器學(xué)習(xí)算法和技術(shù)水平的不斷發(fā)展，出現(xiàn)了比較流行的表達(dá)詞義的方式，如：詞的嵌入（注：也叫詞向量）。通俗來(lái)講，這種方式的基本思路：用訓(xùn)練的方式撥開(kāi)語(yǔ)言中的每一個(gè)詞，如通過(guò)JIEBA分詞，每個(gè)詞被映射成為固定的維度向量，通過(guò)計(jì)算將這些向量匯聚、組合在一起從而形成詞向量空間，每個(gè)向量其實(shí)也是空間中的一個(gè)小點(diǎn)。假如在這個(gè)空間中引入“距離”（distance），根據(jù)比較“距離”的大小，用來(lái)判斷詞與詞之間的擬合程度（也即是詞匯或語(yǔ)義上的相似性）。

2 網(wǎng)絡(luò)安全領(lǐng)域

為了防止這些類型的攻擊，重要的是對(duì)釣魚(yú)郵件有明確的理解。釣魚(yú)郵件的真正困難在于如何發(fā)現(xiàn)它，本文將研究智能語(yǔ)義分析技術(shù)如何抵御這類攻擊。

釣魚(yú)郵件指攻擊者發(fā)送偽裝的電子郵件，包括惡意文件、惡意鏈接、病毒木馬等，欺騙用戶輸入賬號(hào)、密碼、銀行卡號(hào)等敏感隱私信息，竊取用戶敏感信息，或者把中病毒、木馬的設(shè)備作為跳板，實(shí)施進(jìn)一步的攻擊行為。

近幾年來(lái)，隨著人工智能技術(shù)的快速發(fā)展，在網(wǎng)絡(luò)安全領(lǐng)域機(jī)器程序模仿人的功能不斷增強(qiáng)，現(xiàn)在已有攻擊者利用先進(jìn)的人工智能技術(shù)，收集各種維度的數(shù)據(jù)，如公共網(wǎng)站數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、郵件數(shù)據(jù)等，通過(guò)對(duì)大數(shù)據(jù)的進(jìn)一步挖掘，從中提取用戶的出生日期、性別、常住地、電話號(hào)碼、電子郵件地址等個(gè)人信息，通過(guò)AI語(yǔ)言模型批量化為社會(huì)工程攻擊創(chuàng)建連貫的令人信服并具備針對(duì)性的網(wǎng)絡(luò)釣魚(yú)郵件，并利用機(jī)器學(xué)習(xí)來(lái)分析大量被盜記錄，以識(shí)別潛在受害者，構(gòu)建能夠更加有效針對(duì)這些人的內(nèi)容詳盡的釣魚(yú)類電子郵件。深度偽造（deep fake）技術(shù)制作的假文本、假視頻，已經(jīng)很難讓人區(qū)分，它能夠騙過(guò)當(dāng)前的一些反釣魚(yú)郵件遙測(cè)技術(shù)。它自身能夠不停地增強(qiáng)學(xué)習(xí)，假如攻擊有效果，有效信息將會(huì)反饋到樣本模型中，從而進(jìn)一步增強(qiáng)攻擊樣本的準(zhǔn)確性；而且，即使失敗的無(wú)效數(shù)據(jù)也會(huì)得到反饋利用，使機(jī)器程序能夠分辨哪些信息是無(wú)效的。所以，攻擊者越來(lái)越善于學(xué)習(xí)目標(biāo)的特性，發(fā)送出看似合法的郵件，通過(guò)對(duì)外部技術(shù)和資源的整合使其網(wǎng)絡(luò)釣魚(yú)的成效變得越加突出。

3 網(wǎng)絡(luò)安全領(lǐng)域智能語(yǔ)義應(yīng)用

我們的研究?jī)?nèi)容主要集中在硬件的設(shè)計(jì)與測(cè)試，通過(guò)使用自然語(yǔ)言處理（NLP）的方式來(lái)設(shè)計(jì)硬件的組件，因?yàn)槲覀冋J(rèn)為這種方式對(duì)防范釣魚(yú)郵件具有一定作用。根據(jù)一段時(shí)間的研究和測(cè)試，我們總結(jié)得出，一是攻擊者通常會(huì)根據(jù)傳統(tǒng)已存在的釣魚(yú)檢測(cè)方法，改進(jìn)釣魚(yú)的策略和手段，從而實(shí)現(xiàn)規(guī)避檢測(cè)的目的；二是網(wǎng)絡(luò)釣魚(yú)的活動(dòng)具有存活時(shí)間短暫、時(shí)效性較強(qiáng)、偽裝水平較高和釣魚(yú)目標(biāo)較廣泛等特點(diǎn)，往往很難有效地識(shí)別。舉個(gè)例子，跟合法目標(biāo)網(wǎng)站相似的域名名稱、頁(yè)面內(nèi)容排版和圖片布局相似的內(nèi)容等，以此欺騙用戶獲取敏感信息。AI生成的文本內(nèi)容具有通用性和大眾化的特定，通常是將釣魚(yú)郵件批量發(fā)出，有目的、有針對(duì)、有方向地發(fā)向特定人群，其個(gè)性化非常靈活。然而，真正具有高危害的攻擊，往往是通過(guò)電話來(lái)交談關(guān)于你的事情，攻擊者可以根據(jù)交談的內(nèi)容調(diào)整自己的講話，因此理解句子的語(yǔ)義是理解釣魚(yú)郵件的最佳方式，也即是通過(guò)機(jī)器讀懂釣魚(yú)郵件的文本的字面內(nèi)容。通過(guò)對(duì)文本內(nèi)容的關(guān)注了解，這種策略用來(lái)防御釣魚(yú)郵件的攻擊。

通過(guò)語(yǔ)義分析，建立郵件庫(kù)的樣本模型，檢測(cè)郵件中的問(wèn)題或命令，或評(píng)價(jià)句子中主要?jiǎng)釉~和賓語(yǔ)的整體意義。

“動(dòng)詞+賓語(yǔ)”的組合邏輯，與黑名單模型中描述禁止動(dòng)作的“動(dòng)賓”，進(jìn)行比較可得出批量電子郵件內(nèi)容中是否存在惡意的命令執(zhí)行。我們實(shí)踐過(guò)程中，隨機(jī)從一批釣魚(yú)郵件選出一些，首先是進(jìn)行內(nèi)容的識(shí)別和訓(xùn)練，標(biāo)識(shí)每個(gè)單詞是否有同義詞，排除歧義的單詞，避免出現(xiàn)歸類失誤的情況。

我們研究總結(jié)得出，開(kāi)展此類工作（即通過(guò)釣魚(yú)郵件獲取黑名單）的難點(diǎn)部分是獲取攻擊樣本。檢測(cè)的精準(zhǔn)度，與模型訓(xùn)練中的攻擊樣本的精準(zhǔn)度，息息相關(guān)。為確保精準(zhǔn)度，我們提高了樣本的數(shù)量，數(shù)量總數(shù)超過(guò)380，000個(gè)釣魚(yú)郵件和正常電子郵件。最后的檢測(cè)數(shù)據(jù)表明，樣本模型識(shí)別率達(dá)到預(yù)期。這也說(shuō)明本文的工作不僅在理論上具有創(chuàng)新性，也具有一定的落地應(yīng)用的價(jià)值。

4 結(jié)語(yǔ)

互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，網(wǎng)絡(luò)電子郵件作為人與人、業(yè)務(wù)與業(yè)務(wù)之間交流的重要工具之一，已經(jīng)是黑客攻擊的主要目標(biāo)，為欺詐、勒索病毒的傳播提供了溫床。郵件安全是網(wǎng)絡(luò)安全中的風(fēng)險(xiǎn)點(diǎn)之一，打破了傳統(tǒng)的邊界架構(gòu)安全的防御，所以郵件安全的防御十分重要。根本的解決方案，不僅僅要依賴各種的邊界設(shè)備、檢測(cè)系統(tǒng)和人員安全意識(shí)的提升，更重要的是要用新的技術(shù)來(lái)對(duì)抗，充分發(fā)揮人工智能技術(shù)中語(yǔ)義分析技術(shù)的優(yōu)勢(shì)，通過(guò)對(duì)郵件內(nèi)容的檢測(cè)和管控，杜絕釣魚(yú)郵件的傳播，如果發(fā)現(xiàn)釣魚(yú)郵件及時(shí)切斷釣魚(yú)郵件的傳播，保護(hù)自身資產(chǎn)的安全，確保網(wǎng)絡(luò)用戶的上網(wǎng)的安全。