◆孫強(qiáng)強(qiáng) 丘恵軍 陳昊
(深圳供電局有限公司 廣東 518000)
語(yǔ)義分析是人工智能的一個(gè)分支,也是自然語(yǔ)言處理技術(shù)的核心技術(shù),涉及的學(xué)科有:機(jī)器學(xué)習(xí)、認(rèn)知語(yǔ)言、語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)等。語(yǔ)義分析技術(shù)的進(jìn)步有助于促進(jìn)其他自然語(yǔ)言處理任務(wù)的快速發(fā)展。近年來(lái),人工智能中的語(yǔ)義分析技術(shù),特別是深度學(xué)習(xí)技術(shù)發(fā)展迅速。例如:在自動(dòng)駕駛、語(yǔ)音識(shí)別、圍棋游戲、圖像識(shí)別等眾多領(lǐng)域都取得了突破。
語(yǔ)義分析通過(guò)各種方法,識(shí)別和理解一段文本內(nèi)容所表達(dá)的語(yǔ)義內(nèi)容,這種對(duì)任何語(yǔ)言的理解都可以歸為語(yǔ)義分析的范疇。通常,一段文本內(nèi)容由詞、句和段落組成。詞匯語(yǔ)義分析的重點(diǎn)是如何獲得或區(qū)分詞的語(yǔ)義。簡(jiǎn)單來(lái)說(shuō),語(yǔ)義分析是通過(guò)建立有效的模型和系統(tǒng),實(shí)現(xiàn)對(duì)各種語(yǔ)言的自動(dòng)語(yǔ)義分析,達(dá)到實(shí)現(xiàn)對(duì)整個(gè)文本所表達(dá)語(yǔ)義的理解。
語(yǔ)義分析技術(shù)在詞匯層面上的意思是如何理解詞義,包括詞義消歧和詞義表示。
詞匯歧義作為自然語(yǔ)言固有特征。詞義消歧是根據(jù)一個(gè)多義詞在文本中出現(xiàn)的上下文聯(lián)系來(lái)確定其在該文中的詞義,是各項(xiàng)自然語(yǔ)言處理的基礎(chǔ)步驟和必經(jīng)階段。詞義消歧包括兩個(gè)必要的步驟:(1)在詞典中描述詞義;(2)在語(yǔ)料庫(kù)中進(jìn)行詞義自動(dòng)消歧。詞義消歧要克服的兩個(gè)關(guān)鍵問(wèn)題是:(1)詞典構(gòu)建、(2)上下文建模。
早期詞匯表示的實(shí)踐,是把詞義表示由網(wǎng)絡(luò)中的詞義位置,連接到網(wǎng)絡(luò)根節(jié)點(diǎn)的路徑的信息。然而詞義的數(shù)字化則是另一個(gè)表示方式。
一種最直觀、最通用的表達(dá)單詞的方法是一個(gè)hot,此方法把每個(gè)單詞都表示成一個(gè)長(zhǎng)長(zhǎng)的向量。因此,詞向量的維度數(shù)就是詞匯表的大小。其中,大部分元素用0表示,僅有一個(gè)維度值用1表示。該“維度”表示的就是當(dāng)前的單詞意思。但是,此表述的方式是存在問(wèn)題的,主要問(wèn)題點(diǎn)是:對(duì)于任意兩個(gè)詞來(lái)說(shuō),它們的關(guān)系是孤立的。
機(jī)器學(xué)習(xí)算法和技術(shù)水平的不斷發(fā)展,出現(xiàn)了比較流行的表達(dá)詞義的方式,如:詞的嵌入(注:也叫詞向量)。通俗來(lái)講,這種方式的基本思路:用訓(xùn)練的方式撥開(kāi)語(yǔ)言中的每一個(gè)詞,如通過(guò)JIEBA分詞,每個(gè)詞被映射成為固定的維度向量,通過(guò)計(jì)算將這些向量匯聚、組合在一起從而形成詞向量空間,每個(gè)向量其實(shí)也是空間中的一個(gè)小點(diǎn)。假如在這個(gè)空間中引入“距離”(distance),根據(jù)比較“距離”的大小,用來(lái)判斷詞與詞之間的擬合程度(也即是詞匯或語(yǔ)義上的相似性)。
為了防止這些類型的攻擊,重要的是對(duì)釣魚(yú)郵件有明確的理解。釣魚(yú)郵件的真正困難在于如何發(fā)現(xiàn)它,本文將研究智能語(yǔ)義分析技術(shù)如何抵御這類攻擊。
釣魚(yú)郵件指攻擊者發(fā)送偽裝的電子郵件,包括惡意文件、惡意鏈接、病毒木馬等,欺騙用戶輸入賬號(hào)、密碼、銀行卡號(hào)等敏感隱私信息,竊取用戶敏感信息,或者把中病毒、木馬的設(shè)備作為跳板,實(shí)施進(jìn)一步的攻擊行為。
近幾年來(lái),隨著人工智能技術(shù)的快速發(fā)展,在網(wǎng)絡(luò)安全領(lǐng)域機(jī)器程序模仿人的功能不斷增強(qiáng),現(xiàn)在已有攻擊者利用先進(jìn)的人工智能技術(shù),收集各種維度的數(shù)據(jù),如公共網(wǎng)站數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、郵件數(shù)據(jù)等,通過(guò)對(duì)大數(shù)據(jù)的進(jìn)一步挖掘,從中提取用戶的出生日期、性別、常住地、電話號(hào)碼、電子郵件地址等個(gè)人信息,通過(guò)AI語(yǔ)言模型批量化為社會(huì)工程攻擊創(chuàng)建連貫的令人信服并具備針對(duì)性的網(wǎng)絡(luò)釣魚(yú)郵件,并利用機(jī)器學(xué)習(xí)來(lái)分析大量被盜記錄,以識(shí)別潛在受害者,構(gòu)建能夠更加有效針對(duì)這些人的內(nèi)容詳盡的釣魚(yú)類電子郵件。深度偽造(deep fake)技術(shù)制作的假文本、假視頻,已經(jīng)很難讓人區(qū)分,它能夠騙過(guò)當(dāng)前的一些反釣魚(yú)郵件遙測(cè)技術(shù)。它自身能夠不停地增強(qiáng)學(xué)習(xí),假如攻擊有效果,有效信息將會(huì)反饋到樣本模型中,從而進(jìn)一步增強(qiáng)攻擊樣本的準(zhǔn)確性;而且,即使失敗的無(wú)效數(shù)據(jù)也會(huì)得到反饋利用,使機(jī)器程序能夠分辨哪些信息是無(wú)效的。所以,攻擊者越來(lái)越善于學(xué)習(xí)目標(biāo)的特性,發(fā)送出看似合法的郵件,通過(guò)對(duì)外部技術(shù)和資源的整合使其網(wǎng)絡(luò)釣魚(yú)的成效變得越加突出。
我們的研究?jī)?nèi)容主要集中在硬件的設(shè)計(jì)與測(cè)試,通過(guò)使用自然語(yǔ)言處理(NLP)的方式來(lái)設(shè)計(jì)硬件的組件,因?yàn)槲覀冋J(rèn)為這種方式對(duì)防范釣魚(yú)郵件具有一定作用。根據(jù)一段時(shí)間的研究和測(cè)試,我們總結(jié)得出,一是攻擊者通常會(huì)根據(jù)傳統(tǒng)已存在的釣魚(yú)檢測(cè)方法,改進(jìn)釣魚(yú)的策略和手段,從而實(shí)現(xiàn)規(guī)避檢測(cè)的目的;二是網(wǎng)絡(luò)釣魚(yú)的活動(dòng)具有存活時(shí)間短暫、時(shí)效性較強(qiáng)、偽裝水平較高和釣魚(yú)目標(biāo)較廣泛等特點(diǎn),往往很難有效地識(shí)別。舉個(gè)例子,跟合法目標(biāo)網(wǎng)站相似的域名名稱、頁(yè)面內(nèi)容排版和圖片布局相似的內(nèi)容等,以此欺騙用戶獲取敏感信息。AI生成的文本內(nèi)容具有通用性和大眾化的特定,通常是將釣魚(yú)郵件批量發(fā)出,有目的、有針對(duì)、有方向地發(fā)向特定人群,其個(gè)性化非常靈活。然而,真正具有高危害的攻擊,往往是通過(guò)電話來(lái)交談關(guān)于你的事情,攻擊者可以根據(jù)交談的內(nèi)容調(diào)整自己的講話,因此理解句子的語(yǔ)義是理解釣魚(yú)郵件的最佳方式,也即是通過(guò)機(jī)器讀懂釣魚(yú)郵件的文本的字面內(nèi)容。通過(guò)對(duì)文本內(nèi)容的關(guān)注了解,這種策略用來(lái)防御釣魚(yú)郵件的攻擊。
通過(guò)語(yǔ)義分析,建立郵件庫(kù)的樣本模型,檢測(cè)郵件中的問(wèn)題或命令,或評(píng)價(jià)句子中主要?jiǎng)釉~和賓語(yǔ)的整體意義。
“動(dòng)詞+賓語(yǔ)”的組合邏輯,與黑名單模型中描述禁止動(dòng)作的“動(dòng)賓”,進(jìn)行比較可得出批量電子郵件內(nèi)容中是否存在惡意的命令執(zhí)行。我們實(shí)踐過(guò)程中,隨機(jī)從一批釣魚(yú)郵件選出一些,首先是進(jìn)行內(nèi)容的識(shí)別和訓(xùn)練,標(biāo)識(shí)每個(gè)單詞是否有同義詞,排除歧義的單詞,避免出現(xiàn)歸類失誤的情況。
我們研究總結(jié)得出,開(kāi)展此類工作(即通過(guò)釣魚(yú)郵件獲取黑名單)的難點(diǎn)部分是獲取攻擊樣本。檢測(cè)的精準(zhǔn)度,與模型訓(xùn)練中的攻擊樣本的精準(zhǔn)度,息息相關(guān)。為確保精準(zhǔn)度,我們提高了樣本的數(shù)量,數(shù)量總數(shù)超過(guò)380,000個(gè)釣魚(yú)郵件和正常電子郵件。最后的檢測(cè)數(shù)據(jù)表明,樣本模型識(shí)別率達(dá)到預(yù)期。這也說(shuō)明本文的工作不僅在理論上具有創(chuàng)新性,也具有一定的落地應(yīng)用的價(jià)值。
互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)電子郵件作為人與人、業(yè)務(wù)與業(yè)務(wù)之間交流的重要工具之一,已經(jīng)是黑客攻擊的主要目標(biāo),為欺詐、勒索病毒的傳播提供了溫床。郵件安全是網(wǎng)絡(luò)安全中的風(fēng)險(xiǎn)點(diǎn)之一,打破了傳統(tǒng)的邊界架構(gòu)安全的防御,所以郵件安全的防御十分重要。根本的解決方案,不僅僅要依賴各種的邊界設(shè)備、檢測(cè)系統(tǒng)和人員安全意識(shí)的提升,更重要的是要用新的技術(shù)來(lái)對(duì)抗,充分發(fā)揮人工智能技術(shù)中語(yǔ)義分析技術(shù)的優(yōu)勢(shì),通過(guò)對(duì)郵件內(nèi)容的檢測(cè)和管控,杜絕釣魚(yú)郵件的傳播,如果發(fā)現(xiàn)釣魚(yú)郵件及時(shí)切斷釣魚(yú)郵件的傳播,保護(hù)自身資產(chǎn)的安全,確保網(wǎng)絡(luò)用戶的上網(wǎng)的安全。
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2020年8期