国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度神經(jīng)網(wǎng)絡(luò)的企業(yè)信息系統(tǒng)用戶異常行為預(yù)測(cè)

2020-07-12 05:09彭艷紅葛世倫
管理科學(xué) 2020年1期
關(guān)鍵詞:信息系統(tǒng)預(yù)測(cè)分類

尹 雋,彭艷紅,陸 怡,葛世倫,劉 鵬

1 江蘇科技大學(xué) 江蘇高校哲學(xué)社會(huì)科學(xué)重點(diǎn)研究基地,江蘇 鎮(zhèn)江 212003 2 江蘇科技大學(xué) 經(jīng)濟(jì)管理學(xué)院,江蘇 鎮(zhèn)江 212003 3 中國(guó)工商銀行 軟件開發(fā)中心,上海 200120

引言

企業(yè)信息系統(tǒng)用戶異常行為是系統(tǒng)正常用戶行為模式之外、對(duì)企業(yè)信息系統(tǒng)正常運(yùn)行造成影響的行為[1]。隨著企業(yè)信息系統(tǒng)應(yīng)用的深入,用戶異常行為的威脅也日益嚴(yán)重,不僅影響用戶的工作質(zhì)量和效率,甚至給企業(yè)造成經(jīng)濟(jì)損失,威脅到企業(yè)的安全[2-3]。如近10年中國(guó)銀行業(yè)的違規(guī)金額損失事故中,由內(nèi)部員工系統(tǒng)使用異常行為引發(fā)的事故占比高達(dá)51%[4];2018年4月,韓國(guó)三星證券因用戶違規(guī)操作,造成企業(yè)損失高達(dá)1.87億美元[5]。對(duì)企業(yè)信息系統(tǒng)的用戶異常行為進(jìn)行預(yù)測(cè)成為業(yè)界和學(xué)界廣泛關(guān)注的焦點(diǎn)問(wèn)題。

系統(tǒng)使用日志忠實(shí)地記錄了系統(tǒng)用戶的行為數(shù)據(jù),使捕捉和分析系統(tǒng)用戶的異常行為成為可能[6],對(duì)系統(tǒng)日志進(jìn)行分析逐漸成為識(shí)別用戶異常行為的有效手段。關(guān)于系統(tǒng)日志的分析,學(xué)界主要形成基于模型[7]、基于規(guī)則[8]和數(shù)據(jù)驅(qū)動(dòng)[9-10]3類方法,但是,隨著信息系統(tǒng)復(fù)雜程度的不斷加大,前兩種方法逐漸難以滿足數(shù)量呈指數(shù)級(jí)上升的系統(tǒng)日志的分析需求[11]。因此,結(jié)合系統(tǒng)日志提出有針對(duì)性的、數(shù)據(jù)驅(qū)動(dòng)的用戶異常行為分析方法成為學(xué)界廣泛探索的開放性課題。

本研究采用數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)日志分析方法,針對(duì)企業(yè)信息系統(tǒng)異常行為預(yù)測(cè)的問(wèn)題,結(jié)合企業(yè)信息系統(tǒng)特征界定企業(yè)信息系統(tǒng)用戶的異常行為,并構(gòu)建一個(gè)加入業(yè)務(wù)維度特征的新特征工程方案,采用更能抽象復(fù)雜行為模式的深度神經(jīng)網(wǎng)絡(luò)方法進(jìn)行預(yù)測(cè),以船舶制造A企業(yè)日志數(shù)據(jù)為實(shí)驗(yàn)環(huán)境進(jìn)行驗(yàn)證,初步實(shí)驗(yàn)結(jié)果表明,該預(yù)測(cè)框架在分析和預(yù)測(cè)企業(yè)信息系統(tǒng)用戶異常行為問(wèn)題上具有更好的效果。

1 相關(guān)研究評(píng)述

1.1 信息系統(tǒng)領(lǐng)域用戶異常行為

ANDERSON[12]最早將信息系統(tǒng)用戶異常行為定義為濫用對(duì)系統(tǒng)及其數(shù)據(jù)的授權(quán)訪問(wèn)權(quán)限。隨后,DENNING[13]提出與軟件系統(tǒng)常規(guī)行為完全不同的用戶行為是異常行為。此外,由于異常行為預(yù)測(cè)與用戶行為模式之間的密切關(guān)系,ZHANG et al.[1]稱異常行為為系統(tǒng)正常用戶行為模式之外的行為。

按照信息系統(tǒng)的架構(gòu)層次,可以將信息系統(tǒng)用戶異常行為分為網(wǎng)絡(luò)層網(wǎng)絡(luò)用戶異常行為、數(shù)據(jù)層數(shù)據(jù)庫(kù)用戶異常行為、表達(dá)層用戶鼠標(biāo)異常行為和應(yīng)用層社交網(wǎng)絡(luò)用戶異常行為等,詳見表1。以網(wǎng)絡(luò)用戶異常行為研究最為活躍和深入,具體分為基于主機(jī)[14]、基于網(wǎng)絡(luò)[15]和混合型[16-18]3類問(wèn)題的研究,目前相關(guān)研究成果已運(yùn)用到政府、能源、教育、電子商務(wù)、醫(yī)療和制造業(yè)等各個(gè)領(lǐng)域,多數(shù)已開發(fā)了對(duì)應(yīng)的入侵檢測(cè)系統(tǒng)。近些年,隨著信息系統(tǒng)承載的數(shù)據(jù)越來(lái)越豐富且重要,有學(xué)者開始關(guān)注信息系統(tǒng)數(shù)據(jù)層的用戶異常行為。李海斌等[19]提出一種無(wú)監(jiān)督的檢測(cè)數(shù)據(jù)庫(kù)內(nèi)部合法用戶行為的方法;SALLAM et al.[20]研究基于query語(yǔ)句向量化特征的異常檢測(cè)方法。此外,在信息系統(tǒng)越來(lái)越重視用戶體驗(yàn)的同時(shí),表達(dá)層的用戶異常行為也開始受到關(guān)注。ZHENG et al.[22]根據(jù)用戶標(biāo)識(shí),使用支持向量機(jī)分類器構(gòu)建用戶特征的鼠標(biāo)移動(dòng)模式;許洪軍等[23]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)分析用戶鼠標(biāo)軌跡,檢測(cè)用戶異常的鼠標(biāo)行為。但相對(duì)而言,已有研究對(duì)應(yīng)用層的關(guān)注并不夠,僅有部分研究對(duì)社交網(wǎng)絡(luò)用戶異常行為進(jìn)行探討,針對(duì)惡意用戶[24-26]、僵尸用戶[27]、垃圾用戶[28]和虛假用戶[29]等的識(shí)別進(jìn)行研究,但這僅僅是應(yīng)用層的一個(gè)領(lǐng)域。實(shí)際上,企業(yè)信息系統(tǒng)用戶異常行為的威脅不容忽視,因?yàn)槠髽I(yè)內(nèi)部用戶能夠通過(guò)系統(tǒng)驅(qū)動(dòng)企業(yè)的核心業(yè)務(wù),一旦異常行為造成損失,對(duì)企業(yè)而言可能就是致命的打擊。

1.2 用戶異常行為的特征模型

為保證預(yù)測(cè)方法的有效性,需結(jié)合具體情景選擇有助于識(shí)別用戶異常行為的特征。此外,還需要考慮數(shù)據(jù)獲取和處理時(shí)的可行性和效率因素。目前在預(yù)測(cè)用戶異常行為的研究中選取的特征主要分為兩類,一類是用戶的個(gè)體屬性特征。李海斌等[19]在研究數(shù)據(jù)庫(kù)用戶異常行為時(shí),選取用戶角色和用戶工作狀態(tài)等用戶屬性特征;談磊等[24]在分析社交網(wǎng)絡(luò)惡意行為時(shí)選取用戶資料為特征。另一類是用戶的行為屬性特征。李海斌等[19]選取數(shù)據(jù)庫(kù)的單日內(nèi)訪問(wèn)數(shù)據(jù)量、單日內(nèi)訪問(wèn)不同表總個(gè)數(shù)作為特征;張艷梅等[30]在對(duì)新浪微博的異常用戶行為進(jìn)行分析時(shí)選取發(fā)文頻率、發(fā)博文數(shù)和離線時(shí)間等行為屬性;岳虹等[25]在對(duì)僵尸微博用戶進(jìn)行分析時(shí)選取轉(zhuǎn)發(fā)比例和提及其他用戶比例等屬性。

表1 信息系統(tǒng)領(lǐng)域用戶異常行為研究Table 1 Research on User Abnormal Behavior in Information System Domain

1.3 預(yù)測(cè)用戶異常行為的方法

根據(jù)已有研究,預(yù)測(cè)用戶異常行為的方法可以分為統(tǒng)計(jì)方法和基于機(jī)器學(xué)習(xí)的方法。統(tǒng)計(jì)方法是指收集和分析用戶行為數(shù)據(jù)并由數(shù)據(jù)得出結(jié)論的一系列方法,包括分析用戶行為正常狀態(tài)以及與正常行為不同的異常行為。然而,統(tǒng)計(jì)方法需要準(zhǔn)確的統(tǒng)計(jì)分布,當(dāng)統(tǒng)計(jì)特征值不明顯或者變化較大時(shí),誤報(bào)率和漏報(bào)率高,而且隨著數(shù)據(jù)量和特征維度的增長(zhǎng),還導(dǎo)致異常行為分析效率降低。例如,經(jīng)典的多元線性回歸方法(MLR)適用于線性相關(guān)情況的預(yù)測(cè),且需事先篩選出對(duì)因變量影響較高的自變量。為此,很多研究通過(guò)機(jī)器學(xué)習(xí)方法取得了較好的預(yù)測(cè)效果,相應(yīng)的方法有樸素貝葉斯方法(NB)、K近鄰算法(KNN)、支持向量機(jī)算法(SVM)和神經(jīng)網(wǎng)絡(luò)算法等。樸素貝葉斯方法較適合小數(shù)據(jù)規(guī)模,且對(duì)于數(shù)據(jù)的表達(dá)形式較敏感,需要計(jì)算先驗(yàn)概率;K近鄰模型的時(shí)間和空間復(fù)雜度都比較高,效率相對(duì)比較低;SVM能較好地解決高維問(wèn)題并提高泛化能力,在預(yù)測(cè)大規(guī)模日志行為數(shù)據(jù)的異常行為研究中的應(yīng)用越來(lái)越廣泛[24,26],但當(dāng)特征變量較多時(shí),分類效率有所降低;而神經(jīng)網(wǎng)絡(luò)算法以神經(jīng)元數(shù)學(xué)模型為基礎(chǔ),通過(guò)模擬人腦學(xué)習(xí)新事物的方式工作,通過(guò)獲取主題的行為模式特征,利用神經(jīng)網(wǎng)絡(luò)的識(shí)別、分類和歸納能力,實(shí)現(xiàn)對(duì)用戶行為模式的預(yù)測(cè),其優(yōu)勢(shì)在于效率和準(zhǔn)確率高、適應(yīng)性強(qiáng),目前越來(lái)越多地應(yīng)用在專門的網(wǎng)絡(luò)防御和預(yù)測(cè)社交網(wǎng)絡(luò)用戶行為異常等任務(wù)中[19]。

1.4 評(píng)述

綜上所述,針對(duì)用戶異常行為數(shù)據(jù)的多層次、大規(guī)模和數(shù)據(jù)不平衡等特點(diǎn),已有研究從信息系統(tǒng)架構(gòu)的多個(gè)層次開展了許多有益的工作。然而,作為直接面向用戶的信息系統(tǒng)應(yīng)用層,其識(shí)別模式有別于其他技術(shù)層次,具有高度的領(lǐng)域相關(guān)性和更直接的行為后果,已有研究還有待進(jìn)一步豐富和深化。①?gòu)膽?yīng)用領(lǐng)域方面,已有研究大多關(guān)注社交網(wǎng)絡(luò)用戶的異常行為,這些僅反映一個(gè)代表性領(lǐng)域。②從方法方面,由于用戶異常行為數(shù)據(jù)的特征,相關(guān)工作主要基于機(jī)器學(xué)習(xí)的方法進(jìn)行預(yù)測(cè),對(duì)于小規(guī)模的用戶異常行為數(shù)據(jù),貝葉斯的識(shí)別效率較高,但計(jì)算復(fù)雜;對(duì)于相對(duì)高維的數(shù)據(jù),SVM具有較好的性能,因而在預(yù)測(cè)異常用戶行為研究中被廣泛使用[24,26],但當(dāng)特征變量較多時(shí),分類效果并不好;神經(jīng)網(wǎng)絡(luò)算法能克服上述兩種方法的缺陷,對(duì)當(dāng)前大規(guī)模、高維的用戶異常行為數(shù)據(jù),其預(yù)測(cè)的表現(xiàn)更好[19],但收斂速度慢,且特征的抽取只有一層?;谏鲜龇治觯狙芯筷P(guān)注應(yīng)用層的企業(yè)信息系統(tǒng)領(lǐng)域,該領(lǐng)域的用戶異常行為不僅影響用戶工作質(zhì)量,更重要的是直接影響企業(yè)效益,甚至企業(yè)安全;在方法方面選用深度神經(jīng)網(wǎng)絡(luò),建立現(xiàn)有特征模型到高層次語(yǔ)義特征之間的映射關(guān)系,以提高預(yù)測(cè)的準(zhǔn)確率。

2 企業(yè)信息系統(tǒng)用戶異常行為預(yù)測(cè)框架

信息系統(tǒng)中的用戶異常行為帶來(lái)的負(fù)面影響程度不一,但都不可小覷,如用戶在不允許登錄系統(tǒng)的時(shí)間段內(nèi)[1]向未經(jīng)授權(quán)的目的地發(fā)送敏感數(shù)據(jù)、企圖入侵計(jì)算機(jī)或無(wú)意中非法操作了信息系統(tǒng),可能造成數(shù)據(jù)泄露和丟失等情況。此外,用戶由于自身原因出現(xiàn)的工作超時(shí)行為[31]和不當(dāng)退出行為,使用戶工作效率降低或數(shù)據(jù)損壞和丟失,甚至造成直接或間接經(jīng)濟(jì)損失[32]。因此,結(jié)合企業(yè)信息系統(tǒng)特征和已有研究,本研究將企業(yè)信息系統(tǒng)用戶異常行為定義為:當(dāng)企業(yè)信息用戶偏離正常行為模式,或者用戶的行為有可能具有非法操作系統(tǒng)的嫌疑,對(duì)企業(yè)業(yè)務(wù)造成威脅時(shí),稱為異常。

在前述分析的基礎(chǔ)上,本研究提出建立企業(yè)信息系統(tǒng)用戶異常行為預(yù)測(cè)框架,見圖1,該模型主要包括用戶異常行為分類和界定、特征工程、模型訓(xùn)練和模型評(píng)估4個(gè)模塊。其基本思想為:首先,本研究關(guān)注應(yīng)用層用戶行為異常,這種異常往往與時(shí)間和地點(diǎn)相關(guān),具體包括無(wú)意產(chǎn)生、基于規(guī)則和基于知識(shí)3類異常[33],本研究模型將結(jié)合已有研究和企業(yè)信息系統(tǒng)的管理特征進(jìn)行異常行為的進(jìn)一步分類和界定。其次,由于企業(yè)信息系統(tǒng)本質(zhì)是對(duì)各企業(yè)具體業(yè)務(wù)的管理,不同的業(yè)務(wù)類型直接影響用戶行為模式,因此本研究提出將業(yè)務(wù)維度納入特征模型,以提升特征的識(shí)別度。此外,考慮到用戶異常行為的復(fù)雜性,本研究采用深度神經(jīng)網(wǎng)絡(luò)作為用戶異常行為的預(yù)測(cè)方法,該方法更能適應(yīng)多維度和大規(guī)模的數(shù)據(jù),有助于建立現(xiàn)有特征模型到高層次語(yǔ)義特征之間的映射關(guān)系,從而提高預(yù)測(cè)的準(zhǔn)確率。

2.1 用戶異常行為分類和界定

用戶異常行為的分類和界定是進(jìn)行分析預(yù)測(cè)的起點(diǎn),目前用戶異常行為研究涉及到多種異常行為的分類,如按復(fù)雜程度分為簡(jiǎn)單異常和復(fù)雜異常[19],按發(fā)生的層次分為運(yùn)輸層異常和網(wǎng)絡(luò)層異常等[34]。本研究考慮可能對(duì)企業(yè)信息系統(tǒng)產(chǎn)生不良后果的用戶異常行為,從用戶認(rèn)知特征的角度進(jìn)行異常行為分類,即結(jié)合ZHAO et al.[33]的研究將異常分為無(wú)意產(chǎn)生、基于規(guī)則和基于知識(shí)。此外,為了能夠更明確地界定用戶異常行為,梳理相應(yīng)的界定標(biāo)準(zhǔn),目前應(yīng)用層的異常行為主要基于時(shí)間和地點(diǎn)進(jìn)行界定。

綜合已有研究以及對(duì)企業(yè)情況的訪談?wù){(diào)研,將企業(yè)信息系統(tǒng)異常行為的分類、界定方式以及可能的情景和后果進(jìn)行梳理,結(jié)果見表2。

(1)基于時(shí)間的用戶行為異常界定

主要考慮兩種時(shí)間,用戶登錄時(shí)間Tin和退出時(shí)間Tout,且均以秒計(jì)算。假設(shè)企業(yè)規(guī)定每天CTin時(shí)刻開始工作,CTout時(shí)刻結(jié)束工作,考慮到真實(shí)的企業(yè)情景,合理的登錄和退出時(shí)間可能允許有偏差,因此用一個(gè)偏離值ΔT修正合理登錄和退出時(shí)間,相應(yīng)地,可以界定的3類基于時(shí)間的異常分別為無(wú)退出時(shí)間異常、非正常時(shí)間登錄異常和超出合理操作時(shí)間異常。

圖1 企業(yè)信息系統(tǒng)用戶異常行為預(yù)測(cè)框架Figure 1 Prediction Framework of User Abnormal Behavior in Enterprise Information System

分類說(shuō)明企業(yè)信息系統(tǒng)異常界定可能的情景和后果無(wú)意產(chǎn)生未按計(jì)劃執(zhí)行的動(dòng)作[33]基于時(shí)間:無(wú)退出時(shí)間誤操作或操作不規(guī)范,使業(yè)務(wù)未進(jìn)行完就退出模塊可能后果:數(shù)據(jù)冗余、數(shù)據(jù)異常基于規(guī)則規(guī)則被錯(cuò)誤地應(yīng)用于熟悉的場(chǎng)景[33,35]基于時(shí)間:非正常時(shí)間登錄(1)用戶可能盜用賬戶信息,在非正常時(shí)間登錄基于地點(diǎn):未在規(guī)定地點(diǎn)登錄(2)用戶可能盜用賬戶信息,在非常規(guī)地點(diǎn)登錄可能后果:數(shù)據(jù)泄露或執(zhí)行違規(guī)業(yè)務(wù)操作,如修改審批價(jià)格造成經(jīng)濟(jì)損失、違規(guī)審批采購(gòu)單造成企業(yè)生產(chǎn)受阻基于知識(shí)思維模式錯(cuò)誤或知識(shí)儲(chǔ)備不足[33,35]基于時(shí)間:超出合理操作時(shí)間(1)用戶登錄后長(zhǎng)時(shí)間不退出,占用系統(tǒng)資源(2)用戶登錄后立刻退出,形成無(wú)效操作可能后果:大量類似操作造成系統(tǒng)堵塞

①無(wú)退出時(shí)間異常

此類異常對(duì)應(yīng)無(wú)退出時(shí)間的記錄。當(dāng)用戶誤操作、操作不規(guī)范等原因?qū)е滦畔⑾到y(tǒng)無(wú)響應(yīng)或異常關(guān)閉時(shí),用戶正常的業(yè)務(wù)操作進(jìn)程中斷,則系統(tǒng)中的退出時(shí)間Tout丟失,此時(shí)的操作記錄中Tout∈?。

②非正常時(shí)間登錄異常

該類異常對(duì)應(yīng)非正常登錄時(shí)間記錄。根據(jù)企業(yè)實(shí)際情況,企業(yè)正常的工作時(shí)間為CTin-ΔT~CTout+ΔT。若操作記錄中出現(xiàn)登錄時(shí)間Tin?(CTin-ΔT,CTout+ΔT),表明用戶在不允許登錄系統(tǒng)的時(shí)間段內(nèi)非法登錄系統(tǒng),可能破壞信息系統(tǒng)的安全性,使企業(yè)機(jī)密信息被泄漏,嚴(yán)重時(shí)還導(dǎo)致其核心競(jìng)爭(zhēng)力下降。因此,本研究將該行為對(duì)應(yīng)的操作記錄定義為非正常時(shí)間登錄異常。

③超出合理操作時(shí)間異常

(2)基于地點(diǎn)的用戶行為異常界定

地點(diǎn)是指用戶登錄企業(yè)信息系統(tǒng)所處的位置,通常用IP地址表示主機(jī)所處的位置,用戶通常在固定的地方使用信息系統(tǒng)完成企業(yè)業(yè)務(wù)。根據(jù)企業(yè)具體情況分為兩種,一種是設(shè)定企業(yè)正常IP地址總集合IPset;另一種對(duì)用戶行為控制要求高的企業(yè),可以以用戶為單位設(shè)置其能進(jìn)行操作的正常IP地址集合(UserID,IPset),相應(yīng)地,可以界定超出正常IP地址集合登錄的行為即為未在規(guī)定地點(diǎn)登錄異常。

2.2 特征工程

特征工程主要實(shí)現(xiàn)從原始數(shù)據(jù)到可供算法直接使用的特征數(shù)據(jù)的轉(zhuǎn)化,特征決定了機(jī)器學(xué)習(xí)的上限,而訓(xùn)練模型只是盡可能接近該上限,因此結(jié)合具體研究問(wèn)題進(jìn)行特征模型構(gòu)建尤其重要。已有相關(guān)研究的特征模型主要分為用戶屬性特征和用戶行為特征兩類。由于企業(yè)信息系統(tǒng)承載了各企業(yè)的具體業(yè)務(wù),應(yīng)考慮將用戶行為涉及的業(yè)務(wù)維度納入特征模型。

基于上述分析,本研究提出構(gòu)建用戶屬性特征、用戶行為特征和業(yè)務(wù)特征3類特征,3類特征的選取思路如下。

(1)用戶屬性特征

已有研究發(fā)現(xiàn),在信息系統(tǒng)操作過(guò)程中,性別是一個(gè)影響個(gè)體對(duì)信息系統(tǒng)認(rèn)知和行為的重要因素[36-37],而年齡的差異使用戶對(duì)系統(tǒng)的認(rèn)知和處理方式等有所不同,從而影響用戶使用信息系統(tǒng)的態(tài)度和行為[38-39]。此外,根據(jù)認(rèn)知決策理論的闡述[40],用戶在復(fù)雜環(huán)境中做出決策,受到個(gè)人經(jīng)驗(yàn)和技術(shù)能力的影響,具體而言,工齡是用戶在企業(yè)工作時(shí)間長(zhǎng)短,主要體現(xiàn)用戶的工作經(jīng)驗(yàn)[41],職稱級(jí)別主要用于區(qū)分用戶的工作能力和技術(shù)水平[42]。因此,在用戶基本屬性方面,本研究選取性別、出生日期、進(jìn)廠日期和職稱級(jí)別4個(gè)特征。

(2)用戶行為特征

用戶的操作時(shí)間、時(shí)間間隔和操作技能成熟度等因素都對(duì)用戶行為產(chǎn)生影響[43],本研究將這3個(gè)特征納入用戶行為特征的子集。

(3)業(yè)務(wù)特征

用戶操作的功能與其業(yè)務(wù)職能直接掛鉤,因此需要考慮用戶操作功能的業(yè)務(wù)特性,具體包括用戶操作系統(tǒng)的業(yè)務(wù)類型和業(yè)務(wù)成熟度。此外,在企業(yè)內(nèi)部各部門之間,用戶行政級(jí)別的高低體現(xiàn)了不同用戶群體之間的業(yè)務(wù)責(zé)任差異,這類職責(zé)差異直接影響其行為模式[44]。因此,本研究選取業(yè)務(wù)層級(jí)、業(yè)務(wù)操作類型和業(yè)務(wù)成熟度3個(gè)特征。

特征模型的構(gòu)建具體包含4個(gè)過(guò)程。①原始特征提取,就本框架而言,將從企業(yè)信息系統(tǒng)的用戶基本信息數(shù)據(jù)、用戶日志數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)中進(jìn)行抽??;②目標(biāo)特征構(gòu)造;③特征數(shù)值化編碼;④特征分級(jí)縮放。

2.3 模型訓(xùn)練

由于企業(yè)信息系統(tǒng)用戶行為數(shù)據(jù)量大,模式復(fù)雜,為了能層層抽取用戶異常行為的抽象特征,建立現(xiàn)有的特征模型到高層次語(yǔ)義特征之間的映射關(guān)系,結(jié)合對(duì)用戶異常行為相關(guān)預(yù)測(cè)方法的分析,本框架選擇深度神經(jīng)網(wǎng)絡(luò)(DNN)構(gòu)建預(yù)測(cè)模型。目前深度神經(jīng)網(wǎng)絡(luò)被廣泛用于圖像處理、語(yǔ)音識(shí)別、搜索引擎等許多領(lǐng)域,它能夠從大量數(shù)據(jù)中學(xué)習(xí)分類所需的高層和抽象的特征表示[45]。

DNN模型是一種前饋人工神經(jīng)網(wǎng)絡(luò)[45],根據(jù)節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置,可分為輸入層、隱藏層和輸出層。與淺層網(wǎng)絡(luò)相比,DNN具有多個(gè)隱藏層,且每一層也可以有數(shù)量較多的神經(jīng)單元,當(dāng)前層的輸出將作為下一層的輸入。由此,可構(gòu)造出層層疊加的網(wǎng)絡(luò)結(jié)構(gòu),見圖2。

圖2 DNN結(jié)構(gòu)概念圖Figure 2 DNN Structure Concept Diagram

DNN中各變量間都存在對(duì)應(yīng)關(guān)系。假設(shè)存在(N+1)層的DNN,其中,輸入層為第0層,隱藏層為第1層到第(N-1)層,輸出層為第N層。存在n∈(0,N],對(duì)任意的第n層,都有如下對(duì)應(yīng)關(guān)系,即

(1)

(2)

具體訓(xùn)練過(guò)程為:將原始特征輸入深度神經(jīng)網(wǎng)絡(luò)的Sequential模型,進(jìn)行多次的模擬訓(xùn)練,選擇出最優(yōu)的初始化參數(shù)設(shè)置,在最優(yōu)參數(shù)的模型訓(xùn)練下獲得最高層的特征表達(dá),將其輸入混淆矩陣分類模型[46]中進(jìn)行模型的評(píng)估。

表3 UserLog表中原始數(shù)據(jù)的部分記錄Table 3 Partial Record of the Original Data in the UserLog Table

表4 UserInfo表中原始數(shù)據(jù)的部分記錄Table 4 Partial Record of the Original Data in the UserInfo Table

2.4 模型評(píng)估

為測(cè)量和驗(yàn)證本研究預(yù)測(cè)框架的有效性和準(zhǔn)確性,本研究將進(jìn)行兩個(gè)層次的模型評(píng)估。第1層,考慮是否加入業(yè)務(wù)特征,比較模型的預(yù)測(cè)效果;第2層,與統(tǒng)計(jì)類經(jīng)典方法(多元線性回歸)和機(jī)器學(xué)習(xí)經(jīng)典方法(支持向量機(jī))進(jìn)行比較,驗(yàn)證模型預(yù)測(cè)的準(zhǔn)確性。

具體評(píng)估指標(biāo)方面,采用召回率、查準(zhǔn)率和AUC共3個(gè)常用指標(biāo),召回率和查準(zhǔn)率反映預(yù)測(cè)方法針對(duì)信息系統(tǒng)異常行為的分類能力,AUC值主要用來(lái)評(píng)估二值分類器的好壞。

3 實(shí)驗(yàn)結(jié)果和分析

為驗(yàn)證預(yù)測(cè)框架的有效性,本研究選取A船舶制造企業(yè)為實(shí)驗(yàn)對(duì)象,因?yàn)椋孩僭撈髽I(yè)為行業(yè)內(nèi)業(yè)績(jī)領(lǐng)先的大型修造船企業(yè),屬于典型的大型單件小批制造企業(yè),業(yè)務(wù)復(fù)雜,因而樣本具有一定的代表性;②企業(yè)于2011年11月起開始正式啟用ERP系統(tǒng)并應(yīng)用至今,良好的應(yīng)用基礎(chǔ)為本研究提供了大量的實(shí)驗(yàn)數(shù)據(jù),對(duì)該樣本進(jìn)行研究具有可行性;③企業(yè)在信息化應(yīng)用過(guò)程中出現(xiàn)過(guò)多次由用戶異常行為造成的損失,對(duì)用戶異常行為的管理提出明確的需求,這為本研究提供了良好的案例環(huán)境。

3.1 數(shù)據(jù)準(zhǔn)備

本研究選取A企業(yè)2011年10月至2017年9月共72個(gè)月的用戶操作企業(yè)信息系統(tǒng)日志數(shù)據(jù)作為數(shù)據(jù)來(lái)源,采用覆蓋用戶范圍較廣的業(yè)務(wù)部門、職能部門和信息部門的信息系統(tǒng)作為研究對(duì)象。就本研究而言,需要用到系統(tǒng)中的日志信息表(UserLog)、用戶信息表(UserInfo)和系統(tǒng)信息表(Module),基本數(shù)據(jù)情況見表3、表4和表5。字段含義分別為L(zhǎng)oginName為用戶名,LoginTime為登錄時(shí)間,LogoutTime為退出時(shí)間,ModuleName為功能名,Department為所在部門,Gender為性別,BirthDate為出生日期,JoinDate為進(jìn)廠日期,Prank為職稱級(jí)別,PositionRank為行政級(jí)別,MoName為模塊名,ModuleType為功能類型,SysName為系統(tǒng)名。

表5 Module表中原始數(shù)據(jù)的部分記錄Table 5 Partial Record of the Original Data in the Module Table

注:DSS為決策支持系統(tǒng),TPS為事務(wù)處理系統(tǒng)。

經(jīng)統(tǒng)計(jì),UserLog表中源數(shù)據(jù)共1 611 288條,通過(guò)對(duì)表中空缺數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)、重復(fù)數(shù)據(jù)以及不完整數(shù)據(jù)進(jìn)行處理,共獲取1 569 246條日志數(shù)據(jù),結(jié)合UserInfo表得到研究樣本,用戶信息統(tǒng)計(jì)見表6。

根據(jù)用戶信息系統(tǒng)使用日志數(shù)據(jù)計(jì)算出登錄時(shí)長(zhǎng)(LoginTime-LogoutTime),單位為秒(s),統(tǒng)計(jì)結(jié)果見表7。

3.2 用戶異常行為數(shù)據(jù)

結(jié)合2.1,根據(jù)異常發(fā)生情況的不同,本研究將企業(yè)信息系統(tǒng)中可能的用戶異常行為分為3類,即無(wú)退出時(shí)間異常、非正常時(shí)間登錄異常和超出合理操作時(shí)間異常。該企業(yè)規(guī)定的工作時(shí)間范圍為8:00-18:00,根據(jù)企業(yè)實(shí)際情況,設(shè)置偏離值為2小時(shí),則正常登錄時(shí)間范圍為6:00-20:00,若操作記錄中出現(xiàn)登錄時(shí)間Tin?(6:00,20:00),則表明用戶在不允許登錄系統(tǒng)的時(shí)間段內(nèi)異常登錄系統(tǒng),具體統(tǒng)計(jì)情況見表8。

表8 3類用戶異常行為分類數(shù)據(jù)描述Table 8 Three Types of User Abnormal Behavior Classification Data Description

圖3 月異常率趨勢(shì)Figure 3 Monthly Abnormal Rate Trend

3.3 特征構(gòu)建

本框架的特征模型包含4個(gè)過(guò)程。

(1)原始特征提取,從日志數(shù)據(jù)中提取所有9個(gè)原始特征。

在用戶基本屬性方面,選取用戶名、性別、出生日期、進(jìn)廠日期和職稱級(jí)別5個(gè)原始特征,主要從用戶信息表進(jìn)行特征數(shù)據(jù)提?。辉谟脩粝到y(tǒng)業(yè)務(wù)屬性方面選取業(yè)務(wù)層級(jí)和操作功能類型兩個(gè)原始特征,主要從系統(tǒng)信息表和日志信息表提取特征數(shù)據(jù);在用戶行為屬性特征方面,選取登錄時(shí)間和操作功能兩個(gè)原始特征,主要從日志信息表提取特征數(shù)據(jù)。

(2)目標(biāo)特征構(gòu)建,通過(guò)特征提取得到9維特征子集后,進(jìn)一步構(gòu)建新特征。

在用戶基本屬性方面,對(duì)用戶年齡和工齡進(jìn)行目標(biāo)特征構(gòu)建,用戶年齡=當(dāng)前操作日期-出生日期,工齡=當(dāng)前操作日期-進(jìn)廠日期;在用戶系統(tǒng)業(yè)務(wù)屬性方面,構(gòu)建業(yè)務(wù)成熟度特征,業(yè)務(wù)成熟度為功能投入使用至員工本次登錄時(shí)間的間隔月數(shù);在用戶行為屬性特征方面,增加技能成熟度、登錄時(shí)間間隔和操作時(shí)間段3個(gè)目標(biāo)特征,技能成熟度是指本次操作為止該用戶操作的總次數(shù),登錄時(shí)間間隔為距上一次登錄時(shí)間的間隔,操作時(shí)間段指用戶登錄的時(shí)間段。

與具體數(shù)據(jù)表的特征匹配情況見圖4。

(3)特征數(shù)值化編碼,見表9。

(4)特征分級(jí)縮放。由于用戶原始特征對(duì)極端值不太敏感,故本研究使用分級(jí)縮放對(duì)操作技能成熟度和登錄時(shí)間間隔兩個(gè)特征進(jìn)行數(shù)據(jù)的標(biāo)準(zhǔn)化,見表10。

3.4 DNN模型參數(shù)設(shè)置

(1)在具體的DNN模型構(gòu)建中,本研究設(shè)置適當(dāng)?shù)呐叽?batch_size=128)和訓(xùn)練輪次(epochs=100),使模型在內(nèi)存不溢出的情況下達(dá)到最佳運(yùn)算效率。為提高模型收斂效果,本研究采用可變的學(xué)習(xí)速率方案,令學(xué)習(xí)速率隨著學(xué)習(xí)進(jìn)展逐步減小。具體的動(dòng)態(tài)學(xué)習(xí)率計(jì)算方法為

(3)

其中,lrate為學(xué)習(xí)率;initial_lrate為初始學(xué)習(xí)率,本研究模型中為0.10;drop為每個(gè)周期的衰減率,本研究模型中為0.50;epoch為當(dāng)前訓(xùn)練輪次數(shù)量;epochs_drop為每個(gè)周期中包含的訓(xùn)練輪次數(shù)量,本研究模型中為4,即模型的學(xué)習(xí)率每經(jīng)過(guò)4個(gè)訓(xùn)練輪次就會(huì)衰減50%。

(2)本研究在其他條件不變的情況下,改變模型中的隱藏層層數(shù)和層中神經(jīng)元數(shù)量,采用業(yè)務(wù)信息系統(tǒng)的全特征子集進(jìn)行訓(xùn)練和測(cè)試,得到的模型性能對(duì)比結(jié)果見圖5和圖6。其中,圖例中每條線對(duì)應(yīng)的數(shù)組表示輸入層、隱藏層和輸出層神經(jīng)元的個(gè)數(shù)。例如,圖5中紫色線對(duì)應(yīng)的數(shù)組為[10,16,32,16,1],表示的神經(jīng)網(wǎng)絡(luò)配置為:包含10個(gè)神經(jīng)元的輸入層和1個(gè)神經(jīng)元的輸出層,隱藏層的數(shù)量為3個(gè),3個(gè)隱藏層中包含的神經(jīng)元個(gè)數(shù)分別為16、32、16。

綜合分析圖5和圖6的結(jié)果可以發(fā)現(xiàn),當(dāng)網(wǎng)絡(luò)配置為[10,64,128,256,128,64,1]時(shí),模型性能處于相對(duì)最好、最穩(wěn)定的狀態(tài)。因此,本研究的DNN模型中采用該配置下的參數(shù)值。

圖4 企業(yè)信息系統(tǒng)用戶異常行為特征匹配關(guān)系Figure 4 Matching Relationship of User Abnormal Behavior Characteristics of Enterprise Information System

圖5 不同隱藏層層數(shù)與層中神經(jīng)元數(shù)量配置下模型召回率對(duì)比Figure 5 Comparison Diagram of Recall of Model Based on Different Number of Hidden Layers and Neurons in the Layer

表10 技能成熟度和登錄時(shí)間間隔分級(jí)映射對(duì)應(yīng)關(guān)系Table 10 Hierarchical Mapping Correspondence of Skill Maturity and Logintime Interval

(3)本研究在解決分類不平衡問(wèn)題時(shí)采用設(shè)置懲罰系數(shù)的方法[47],通過(guò)降低負(fù)樣本對(duì)模型的影響和提高正樣本對(duì)模型的影響來(lái)保障正負(fù)樣本對(duì)模型的影響大致相同,以提高模型訓(xùn)練的有效性。

(4)配置合理的激活函數(shù)[48],讓模型具備非線性因素,提高模型的表達(dá)能力。此外,為避免過(guò)擬合現(xiàn)象[49],模型加入Dropout層,優(yōu)化了網(wǎng)絡(luò)層之間的連接結(jié)構(gòu)。

3.5 模型分類效果評(píng)估

采用兩個(gè)實(shí)驗(yàn)分別對(duì)本研究提出的預(yù)測(cè)框架中特征模型的有效性以及最終預(yù)測(cè)結(jié)果的有效性進(jìn)行分析。

圖6 不同隱藏層層數(shù)與層中神經(jīng)元數(shù)量配置下模型AUC對(duì)比Figure 6 Comparison Diagram of AUC of Model Based on Different Number of Hidden Layers and Neurons in the Layer

3.5.1 實(shí)驗(yàn)1:特征模型對(duì)比

對(duì)比不考慮業(yè)務(wù)特征和加入業(yè)務(wù)特征的情況下,驗(yàn)證本預(yù)測(cè)框架的性能。具體步驟為:①選擇所有用戶的行為日志數(shù)據(jù),基于已有研究,只采用包括用戶基本屬性和行為屬性的7個(gè)經(jīng)典特征進(jìn)行預(yù)測(cè);②加入代表業(yè)務(wù)特性的3個(gè)特征進(jìn)行訓(xùn)練,比較不同特征數(shù)量下本研究方法的分類效果,驗(yàn)證本研究提出的特征模型有效性。

實(shí)驗(yàn)1的對(duì)比分析共輸出100行模型性能數(shù)據(jù),以訓(xùn)練輪次為橫坐標(biāo),模型性能為縱坐標(biāo),繪制預(yù)測(cè)結(jié)果折線圖,結(jié)果見圖7。圖7中的(a)、(b)、(c)分別給出召回率、查準(zhǔn)率和AUC的變化趨勢(shì),可以看出,加入業(yè)務(wù)特性后的特征模型預(yù)測(cè)準(zhǔn)確性有明顯提高,召回率、查準(zhǔn)率和AUC分別提高3.52%、2.16%和3.36,說(shuō)明這些業(yè)務(wù)特征能夠提高特征模型對(duì)用戶異常行為的識(shí)別度。

這進(jìn)一步說(shuō)明就本案例而言,本預(yù)測(cè)模型的特征選取方式是合理的,符合企業(yè)信息系統(tǒng)的特點(diǎn)。但與傳統(tǒng)預(yù)測(cè)方法相比是否具有優(yōu)勢(shì),需要通過(guò)第2個(gè)實(shí)驗(yàn)進(jìn)一步驗(yàn)證。

3.5.2 實(shí)驗(yàn)2:預(yù)測(cè)方法的對(duì)比

通過(guò)與MLR分類和SVM分類等其他預(yù)測(cè)方法的對(duì)比驗(yàn)證本研究模型的有效性。此外,考慮到A企業(yè)信息系統(tǒng)用戶來(lái)自不同部門,不同部門用戶產(chǎn)生的行為異常往往是不同的。因此,為了進(jìn)一步考察預(yù)測(cè)框架的適用性,下面的預(yù)測(cè)實(shí)驗(yàn)也包含了針對(duì)不同部門的異常行為預(yù)測(cè)分析。

(1)MLR分類

所有部門:

0.4005X5+0.1196X6-0.2007X7-0.3935X8+

0.6493X9+0.1774X10-7.1149

(4)

業(yè)務(wù)部門:

0.0016X5+0.0018X6+0.0012X7+0.0003X8-

0.0544X9-0.0495X10-0.0157

(5)

職能部門:

0.0004X5+0.001X6+0.0013X7-0.0012X8-

0.0447X9-0.1096X10-0.0197

(6)

信息部門:

0.0028X5+0.0001X6+0.0001X7+0.0009X8-

0.0404X9-0.0004X10-0.3809

(7)

表11 多重線性回歸結(jié)果Table 11 Results for Multiple Linear Regression

(a)召回率對(duì)比

(b)查準(zhǔn)率對(duì)比

(c)AUC對(duì)比圖7 不同特征數(shù)量下的比較結(jié)果Figure 7 Comparison Results with Different Feature Quantities

表12 MLR模型的預(yù)測(cè)結(jié)果Table 12 Prediction Results for the MLR Model

根據(jù)表12,各部門的召回率都遠(yuǎn)低于50%的自然分類結(jié)果,MLR的分類效果很差,表明用戶行為模式呈現(xiàn)出線性不可分的狀態(tài)。因此,不能采用MLR的方法進(jìn)行用戶異常行為的分類。

(2)SVM分類

MLR分類實(shí)驗(yàn)的研究結(jié)果表明,用戶異常行為的預(yù)測(cè)問(wèn)題是線性不可分的問(wèn)題,因此屬于非線性分類的SVM問(wèn)題,需要引入內(nèi)核擴(kuò)展方法。本研究有10個(gè)輸入維度,根據(jù)公式可知,如果映射到特征空間,會(huì)產(chǎn)生65個(gè)維度,故需要尋找合適的核函數(shù),降低計(jì)算量,提高運(yùn)算效率。測(cè)試發(fā)現(xiàn),高斯核函數(shù)的性能相對(duì)較好,選該函數(shù)作為SVM模型的核函數(shù),并對(duì)其γ值進(jìn)行配置測(cè)試,發(fā)現(xiàn)γ=20時(shí)效果最佳;選擇1 024作為批尺寸的大小,使模型在內(nèi)存允許的情況下達(dá)到最大的運(yùn)算速度;采用構(gòu)建懲罰系數(shù)的計(jì)算方法,解決分類不平衡的問(wèn)題。實(shí)驗(yàn)結(jié)果見表13。

表13 SVM模型的預(yù)測(cè)結(jié)果Table 13 Prediction Results for the SVM Model

根據(jù)表13,所有部門以及3個(gè)部門在SVM模型下的預(yù)測(cè)結(jié)果均高于自然分類的50%的閾值,明顯優(yōu)于MLR預(yù)測(cè)結(jié)果,但仍然沒(méi)有達(dá)到理想狀態(tài),說(shuō)明10個(gè)維度的特性仍然沒(méi)有很好地抽取出來(lái)用于最后的訓(xùn)練。從分類效果看,SVM模型相當(dāng)于單層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效果。因此,本研究的用戶異常行為預(yù)測(cè)框架中采用深度神經(jīng)網(wǎng)絡(luò)模型是合理的,可以層層抽取各個(gè)特征的特性用于訓(xùn)練。

根據(jù)表11~表13,將3種預(yù)測(cè)模型或方法進(jìn)行信息匯總,結(jié)果見表14。

統(tǒng)計(jì)方法中的MLR分類結(jié)果表明,3個(gè)部門的召回率都低于自然分類結(jié)果,表明用戶異常行為呈現(xiàn)出線性不可分的數(shù)據(jù)狀態(tài),而采用非線性的SVM模型進(jìn)行分類,分類效果得到顯著提高。但由于非線性的SVM模型相當(dāng)于單層的簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)的特性,其抽取各個(gè)特征的特性的能力較弱,故在防止過(guò)度擬合的情況下,需要考慮增加模型的復(fù)雜度以提高模型的召回率。在最終采用的深度神經(jīng)網(wǎng)絡(luò)分類模型中,所有部門、業(yè)務(wù)部門和職能部門的用戶異常行為預(yù)測(cè)的召回率分別為74.28%、77.40%和73.64%,查準(zhǔn)率分別為77.12%、84.56%和74.68%,AUC分別為0.84、0.88和0.82;但信息部門的召回率和查準(zhǔn)率始終都低于70%,AUC低于0.75,即該模型在信息部門的數(shù)據(jù)上表現(xiàn)較差。由此可以表明,DNN模型在用戶異常行為分類問(wèn)題的研究中,性能優(yōu)于MLR和SVM預(yù)測(cè)模型。

此外,對(duì)3個(gè)部門的模型進(jìn)一步比較可以發(fā)現(xiàn),在與企業(yè)業(yè)務(wù)直接相關(guān)的業(yè)務(wù)部門和職能部門中,用戶異常行為被較好地識(shí)別出來(lái),而信息部門的分類效果不佳,這也恰好說(shuō)明本研究選取的特征與企業(yè)的業(yè)務(wù)緊密相關(guān),而信息部門用戶的主要職責(zé)是輔助其他部門用戶實(shí)施信息系統(tǒng),其本身的操作不涉及企業(yè)的主要業(yè)務(wù)流程,因此用本研究的用戶異常行為預(yù)測(cè)框架預(yù)測(cè)信息部門的用戶異常行為效果欠佳。

綜合以上實(shí)驗(yàn)結(jié)果可知,本研究提出的加入業(yè)務(wù)維度的特征模型能夠有效提高模型的效果,與統(tǒng)計(jì)方法和機(jī)器學(xué)習(xí)方法相比,本研究模型表現(xiàn)得更好。

表14 不同預(yù)測(cè)模型的預(yù)測(cè)結(jié)果對(duì)比信息匯總Table 14 Comparison Information Summary for Prediction Results of Different Prediction Models

4 結(jié)論

4.1 研究結(jié)果

針對(duì)企業(yè)信息系統(tǒng)用戶異常行為的預(yù)測(cè)問(wèn)題,為提高預(yù)測(cè)的準(zhǔn)確性,本研究基于深度神經(jīng)網(wǎng)絡(luò)方法構(gòu)建一種企業(yè)信息系統(tǒng)用戶異常行為預(yù)測(cè)框架,并進(jìn)行驗(yàn)證,得出研究結(jié)果如下。

(1)提出一套企業(yè)信息系統(tǒng)的非開放式用戶異常行為預(yù)測(cè)框架,具體包括用戶異常行為分類和界定、特征工程、模型訓(xùn)練和模型評(píng)估4個(gè)模塊,并通過(guò)案例企業(yè)的實(shí)際數(shù)據(jù)初步驗(yàn)證了其有效性。

(2)加入業(yè)務(wù)特征后的新特征工程方案,在預(yù)測(cè)和分析企業(yè)信息系統(tǒng)異常行為方面有更好的表現(xiàn),召回率、查準(zhǔn)率和AUC分別提高3.52%、2.16%和3.36。

(3)通過(guò)與統(tǒng)計(jì)方法的MLR和機(jī)器學(xué)習(xí)的SVM比較,預(yù)測(cè)效果均有相應(yīng)提升,與MLR相比,召回率和查準(zhǔn)率分別提高16.49%和7.48%;與SVM相比,召回率、查準(zhǔn)率和AUC分別提高3.09%、5.09%和0.08。

4.2 理論意義和實(shí)踐意義

本研究的理論意義在于:①與已有研究主要考慮網(wǎng)絡(luò)層、數(shù)據(jù)層和表達(dá)層的用戶異常行為不同,本研究重點(diǎn)聚焦應(yīng)用層的企業(yè)信息系統(tǒng),提出基于深度神經(jīng)網(wǎng)絡(luò)的用戶異常行為預(yù)測(cè)框架,補(bǔ)充和豐富了用戶異常行為的研究成果,并通過(guò)一個(gè)典型企業(yè)的實(shí)驗(yàn)分析初步驗(yàn)證了該模型的有效性。②驗(yàn)證了深度神經(jīng)網(wǎng)絡(luò)方法對(duì)應(yīng)用層用戶異常行為預(yù)測(cè)研究的作用, 一定程度上為深度學(xué)習(xí)在應(yīng)用層用戶異常行為的預(yù)測(cè)研究方面增加了新的證據(jù)。已有關(guān)于應(yīng)用層用戶異常行為的研究大部分集中在社交網(wǎng)絡(luò)領(lǐng)域,對(duì)企業(yè)信息系統(tǒng)缺乏關(guān)注,且主要采用機(jī)器學(xué)習(xí)方法,如貝葉斯[30]和SVM[24,26]等,這些方法屬于單層的特征學(xué)習(xí),對(duì)復(fù)雜的行為模式缺乏多層次的特征抽取。本研究提出一個(gè)更為集成的特征方案,即在企業(yè)信息系統(tǒng)情景下考慮加入業(yè)務(wù)特征維度,并采用深度神經(jīng)網(wǎng)絡(luò)抽取并建立高層次語(yǔ)義特征的映射,豐富了用戶異常行為的理論研究,也為后續(xù)其他復(fù)雜行為模式的用戶異常行為預(yù)測(cè)研究提供了新的研究思路。

本研究的實(shí)踐意義在于:①本研究使用實(shí)際的企業(yè)信息系統(tǒng)用戶行為數(shù)據(jù)進(jìn)行實(shí)驗(yàn),提出的方法預(yù)測(cè)性能較好,可以將該方法推廣到企業(yè),輔助企業(yè)進(jìn)行更有針對(duì)性的預(yù)防和管理決策,減少用戶異常行為可能帶來(lái)的損失;②除關(guān)注影響異常的用戶特征和行為特征,業(yè)務(wù)特性也是影響異常的一個(gè)關(guān)鍵因素,企業(yè)需要充分關(guān)注用戶操作所對(duì)應(yīng)的屬性,如業(yè)務(wù)類型和業(yè)務(wù)層級(jí),這些可能是企業(yè)制定差異化安全策略的重要依據(jù)。

4.3 局限性和未來(lái)研究方向

本研究仍然存在一些局限性,需要在未來(lái)研究中進(jìn)行擴(kuò)展。①不同的用戶異常行為可能帶來(lái)不同的后果,本研究目前是將3類用戶異常行為都視為一類進(jìn)行研究,未來(lái)研究可細(xì)化分析不同用戶異常行為的預(yù)測(cè)模型,使研究更具有針對(duì)性;②由于實(shí)驗(yàn)企業(yè)的實(shí)際情況,本預(yù)測(cè)框架只初步驗(yàn)證3類基于時(shí)間的用戶異常,在未來(lái)研究中應(yīng)逐步加入基于地點(diǎn)的用戶異常情況,如結(jié)合企業(yè)的業(yè)務(wù)特征和政策環(huán)境,進(jìn)一步收集其他類型企業(yè)的信息系統(tǒng)數(shù)據(jù)集進(jìn)行分析;③本研究的相關(guān)結(jié)果主要通過(guò)構(gòu)建預(yù)測(cè)框架和實(shí)驗(yàn)分析得到,在后續(xù)的研究中應(yīng)嘗試從理論層面尋找企業(yè)信息系統(tǒng)用戶異常行為的影響機(jī)制,進(jìn)而對(duì)用戶異常行為的管理提出更有針對(duì)性的管控策略。

猜你喜歡
信息系統(tǒng)預(yù)測(cè)分類
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
選修2—2期中考試預(yù)測(cè)卷(B卷)
選修2—2期中考試預(yù)測(cè)卷(A卷)
建設(shè)工程招投標(biāo)管理中智能化信息系統(tǒng)的運(yùn)用
2022年信息系統(tǒng)與運(yùn)營(yíng)管理專欄征稿
基于信息系統(tǒng)的計(jì)量標(biāo)準(zhǔn)管理
按需分類
教你一招:數(shù)的分類
說(shuō)說(shuō)分類那些事
黄石市| 阿拉尔市| 澄迈县| 东至县| 怀安县| 中方县| 繁峙县| 尼木县| 虎林市| 绵竹市| 五峰| 平泉县| 上饶市| 洞口县| 云安县| 富民县| 礼泉县| 棋牌| 弥渡县| 天等县| 宜阳县| 阜阳市| 鄂托克前旗| 龙门县| 萍乡市| 阜南县| 新源县| 莱芜市| 石柱| 涡阳县| 扶风县| 广德县| 富川| 栖霞市| 水富县| 辽源市| 寿光市| 长汀县| 阜南县| 中牟县| 湘潭市|