国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于屬性的兩級(jí)敏感度計(jì)算模型

2021-05-10 11:19劉建華任丹丹王國(guó)銘
關(guān)鍵詞:字段敏感度姓名

劉建華,任丹丹,王國(guó)銘

(1.西安郵電大學(xué) 信息中心,陜西 西安 710121;2.西安郵電大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安 710121; 3.陜西師范大學(xué) 民族教育學(xué)院,陜西 西安 710119)

敏感信息[1]是指不當(dāng)使用或未經(jīng)授權(quán)被人接觸或修改會(huì)不利于國(guó)家利益或政府計(jì)劃的實(shí)行或不利于個(gè)人依法享有的個(gè)人隱私權(quán)的所有信息。中國(guó)《個(gè)人信息安全規(guī)范》將個(gè)人敏感信息界定為“一旦泄露、非法提供或?yàn)E用可能危害人身和財(cái)產(chǎn)安全,極易導(dǎo)致個(gè)人名譽(yù)、身心健康受到損害或歧視性待遇的個(gè)人信息”。在大數(shù)據(jù)環(huán)境下對(duì)敏感信息的保護(hù)十分重要,不同用戶(hù)針對(duì)敏感信息的敏感程度具有差異性,制定合理的訪問(wèn)授權(quán)策略[2],可更為有效地保護(hù)敏感信息不被泄露。敏感程度即用戶(hù)希望敏感信息不被他人獲悉的程度,是用戶(hù)是否有權(quán)限訪問(wèn)敏感信息的重要依據(jù)。因此,有效分析用戶(hù)針對(duì)敏感信息的敏感程度尤為重要。

針對(duì)敏感程度的測(cè)度,文獻(xiàn)[3]提出了基于屬性敏感度度量的自動(dòng)信任協(xié)商模型,通過(guò)給出敏感度量化標(biāo)準(zhǔn)和屬性敏感度到訪問(wèn)控制策略的映射規(guī)則,自動(dòng)匹配相應(yīng)的協(xié)商策略。該模型不僅提高了自動(dòng)信任協(xié)商的效率,還減少了陌生域隱私泄露問(wèn)題;面向敏感值和敏感程度同時(shí)保護(hù)的(SD,K)-anonymity模型,主要結(jié)合分類(lèi)樹(shù)對(duì)敏感屬性進(jìn)行敏感程度衡量[4];文獻(xiàn)[5]提出了可自動(dòng)計(jì)算數(shù)據(jù)敏感性的動(dòng)態(tài)框架,使數(shù)據(jù)敏感性會(huì)隨著時(shí)間段推移而變化,以保護(hù)敏感數(shù)據(jù)遠(yuǎn)離未經(jīng)授權(quán)的用戶(hù);ε-敏感程度不可區(qū)分的隱私保護(hù)方法將敏感程度融入了隱私保護(hù)中,可防止攻擊者獲得用戶(hù)目標(biāo)[6];敏感度感知的高維數(shù)據(jù)差分隱私保護(hù)方法主要利用信息熵衡量屬性的敏感程度[7]。然而,上述方法僅分析了敏感數(shù)據(jù)的敏感度屬性,并沒(méi)有充分考慮訪問(wèn)敏感信息的用戶(hù)自身攜帶的敏感度屬性,屬性考慮的不全面會(huì)對(duì)敏感數(shù)據(jù)的隱私保護(hù)造成威脅。在某種特定應(yīng)用場(chǎng)景下分析敏感程度,如采用統(tǒng)計(jì)方法構(gòu)建敏感度計(jì)算公式,將高校圖書(shū)館服務(wù)質(zhì)量評(píng)價(jià)指標(biāo)分類(lèi)[8];通過(guò)建立駕駛員信息敏感反應(yīng)結(jié)構(gòu)方程模型,分析不同駕駛員敏感信息的反應(yīng)程度[9],但這些方法并不能適用于其他場(chǎng)景。

針對(duì)現(xiàn)有敏感度衡量方法中敏感度屬性考慮不全面,敏感程度分析模型不具有普適性的問(wèn)題,擬建立一種基于屬性的兩級(jí)敏感度計(jì)算模型。通過(guò)結(jié)合用戶(hù)和敏感信息的敏感度屬性,從定量層面[10]準(zhǔn)確計(jì)算用戶(hù)針對(duì)敏感信息的敏感程度,以期在不同場(chǎng)景下分析用戶(hù)針對(duì)敏感信息的敏感程度差異性,保護(hù)敏感信息不被泄露。

1 兩級(jí)敏感度模型

1.1 基于訪問(wèn)控制的敏感信息分類(lèi)模型

在訪問(wèn)控制過(guò)程中,增加敏感信息敏感程度測(cè)度機(jī)制是提高敏感度計(jì)算普適性的有效方法?;谠L問(wèn)控制的敏感信息分類(lèi)模型如圖1所示。

在該模型中,角色即一種叫做“角色”的屬性,代表用戶(hù)的屬性集合。通過(guò)兩級(jí)敏感度計(jì)算模型分別計(jì)算出用戶(hù)和敏感信息的敏感度值,以及二級(jí)敏感度值,然后將包含用戶(hù)自身屬性、所處環(huán)境屬性和用戶(hù)敏感度屬性等用戶(hù)屬性隱含到“角色”里,使用戶(hù)通過(guò)權(quán)限訪問(wèn)樹(shù)獲得密鑰,進(jìn)行解密,進(jìn)而訪問(wèn)敏感信息。

1.2 兩級(jí)敏感度模型

基于屬性的兩級(jí)敏感度模型,主要從分層角度定義了兩種實(shí)體的敏感度,分別是敏感信息和用戶(hù)的敏感度,以及一種虛擬的敏感度,即用戶(hù)對(duì)于敏感信息的反應(yīng)程度。用戶(hù)和敏感信息分別擁有的敏感度屬性為一級(jí)敏感度。用戶(hù)針對(duì)敏感信息的敏感程度為二級(jí)敏感度,是多對(duì)多的關(guān)系[11]。兩級(jí)敏感度模型如圖2所示。

圖2 兩級(jí)敏感度模型

用戶(hù)敏感度U、敏感信息敏感度I和二級(jí)敏感度S具體定義如下。

定義1用戶(hù)敏感度U為各個(gè)用戶(hù)自身具有的敏感度值,也稱(chēng)用戶(hù)的敏感標(biāo)簽,其指定了該用戶(hù)的敏感等級(jí)或者信任等級(jí)[12]。

定義2敏感信息敏感度I為各個(gè)敏感字段的敏感度值,也稱(chēng)敏感信息的敏感標(biāo)簽,說(shuō)明了該敏感字段的敏感等級(jí)及其隱私保護(hù)的要求大小。

定義3二級(jí)敏感度S表示某一用戶(hù)針對(duì)某一敏感信字段的敏感程度,是多對(duì)多關(guān)系。

將敏感度的范圍設(shè)定為(0,1)的一個(gè)開(kāi)區(qū)間,假設(shè)I,U,S∈(0,1),標(biāo)度越小,表示I的敏感等級(jí)越低,U的敏感類(lèi)型越輕微,S的程度越輕微。敏感度分類(lèi)如表1所示。

表1 敏感度分類(lèi)表

2 敏感度計(jì)算

分別采用層次分析法[13]和統(tǒng)計(jì)法計(jì)算一級(jí)敏感度中的敏感信息敏感度和用戶(hù)敏感度,采用線性回歸法計(jì)算二級(jí)敏感度。

2.1 一級(jí)敏感度計(jì)算

1)敏感信息敏感度計(jì)算。敏感信息涉及用戶(hù)的個(gè)人隱私,層次分析法不僅適用于存在不確定性和主觀信息的情況,還允許以合乎邏輯的方式運(yùn)用經(jīng)驗(yàn)、洞察力和直覺(jué)。因此,通過(guò)定性指標(biāo)模糊量化方法[14]計(jì)算敏感信息的敏感度。

設(shè)目標(biāo)層為敏感信息I,準(zhǔn)則層為各敏感字段a1,a2,…,an,I?{a1,a2,…,an}。類(lèi)比Santy-成對(duì)比較矩陣標(biāo)度表[15]中的重要性等級(jí),按照1-9分級(jí)設(shè)計(jì)敏感性等級(jí)。在確定準(zhǔn)則層各敏感字段之間的權(quán)重時(shí),用相對(duì)尺度對(duì)所有敏感字段兩兩比較,盡可能減少性質(zhì)不同的敏感字段間相互比較的困難。敏感字段ai與敏感字段aj的敏感性對(duì)比結(jié)果為aij,i,j∈n由9個(gè)敏感性等級(jí)及其賦值建立的敏感程度標(biāo)度如表2所示。

表2 敏感程度標(biāo)度

根據(jù)表2,對(duì)準(zhǔn)則層各敏感字段創(chuàng)建成對(duì)比較矩陣,即

式中,n為A中敏感字段的個(gè)數(shù)。

敏感信息敏感度的計(jì)算步驟如下。

步驟1建立敏感信息敏感度的層次結(jié)構(gòu)模型,即目標(biāo)層的敏感信息和準(zhǔn)則層的各敏感信息字段。

步驟2構(gòu)建如表2所示的敏感程度標(biāo)度表,依據(jù)表2,結(jié)合具體應(yīng)用場(chǎng)景創(chuàng)建成對(duì)比較矩陣A。

步驟3在Matlab中運(yùn)行層次分析法[13]程序,輸入矩陣A,輸出各敏感字段權(quán)重Q。

敏感信息敏感度的計(jì)算過(guò)程如圖3所示。

圖3 敏感信息敏感度計(jì)算過(guò)程

2)用戶(hù)敏感度計(jì)算。用戶(hù)即敏感信息的訪問(wèn)者,通過(guò)分析用戶(hù)訪問(wèn)日志,過(guò)濾包含關(guān)鍵詞的網(wǎng)際互連協(xié)議(Internet Protocol,IP),關(guān)鍵詞的選取與敏感信息相關(guān)[16]。最后,統(tǒng)計(jì)日志中IP出現(xiàn)的頻率作為用戶(hù)的敏感度[17]。具體計(jì)算步驟如下。

步驟1下載用戶(hù)網(wǎng)絡(luò)日志數(shù)據(jù)集D={date,time,ip,method,url,status}。

步驟2遍歷日志文件,包含關(guān)鍵字xxx的日志行用正則表達(dá)式[18]"(?:[0-9]{1,3}.){3}[0-9]{1,3}"提取IP。

步驟3創(chuàng)建列表countX存放包含關(guān)鍵字的IP,ipsum為不同IP出現(xiàn)次數(shù),countX.count(ip)/ipsum即為不同IP出現(xiàn)的頻率。

2.2 二級(jí)敏感度計(jì)算

將二級(jí)敏感度S作為因變量,敏感信息敏感度I和用戶(hù)敏感度U作為自變量,通過(guò)自變量的最優(yōu)組合共同預(yù)測(cè)二級(jí)敏感度,借助線性回歸法[19]構(gòu)建二級(jí)敏感度對(duì)應(yīng)的多元線性回歸模型,表達(dá)式為

S=β0+β1I+β2U

(1)

其中,β0、β1和β2表示回歸系數(shù)。

二級(jí)敏感度計(jì)算過(guò)程如圖4所示。首先,針對(duì)每一個(gè)敏感信息字段,建立一個(gè)以敏感信息敏感度和用戶(hù)敏感度作為自變量,二級(jí)敏感度作為因變量的數(shù)據(jù)集。然后,對(duì)其進(jìn)行相關(guān)性分析,從箱圖和散點(diǎn)圖可視化分析數(shù)據(jù)分布情況,生成相關(guān)系數(shù)矩陣,從定量層面刻畫(huà)相關(guān)性。最后,通過(guò)劃分訓(xùn)練集和測(cè)試集訓(xùn)練回歸模型,得到相應(yīng)的二級(jí)敏感度公式。

圖4 二級(jí)敏感度計(jì)算過(guò)程

3 實(shí)例驗(yàn)證與分析

不同的用戶(hù)(如輔導(dǎo)員、任課老師等)對(duì)在校大學(xué)生(簡(jiǎn)稱(chēng)學(xué)生)敏感信息具有差異性,以此為例,驗(yàn)證基于屬性的兩級(jí)敏感度計(jì)算模型的有效性。實(shí)驗(yàn)硬件環(huán)境為Windows 10操作系統(tǒng),主頻1.90 GHz,內(nèi)存8 G。軟件環(huán)境為Python 3.7.2,Matlab 2018,JetBrains PyCharm 5.0.3。

3.1 學(xué)生敏感信息敏感度計(jì)算

選取表示學(xué)生敏感信息的學(xué)號(hào)、姓名、學(xué)院、專(zhuān)業(yè)、出生日期、性別和聯(lián)系電話等7個(gè)數(shù)據(jù)字段構(gòu)建層次模型,如圖5所示。

圖5 層次結(jié)構(gòu)模型

根據(jù)表2,結(jié)合接觸學(xué)生敏感信息各個(gè)字段時(shí)的反應(yīng)程度,以及信息的保密程度,構(gòu)造成對(duì)比較矩陣

在Matlab中運(yùn)行層次分析法程序,輸入矩陣A,輸出權(quán)重Q=(0.034 5,0.245 7,0.110 8,0.141 0,0.174 9,0.116 0,0.176 6)。計(jì)算得出一致性指標(biāo)CI=0.045 0,接近于0,有滿意的一致性,檢驗(yàn)系數(shù)CR=0.033 1,CR<0.1,說(shuō)明該成對(duì)比較矩陣通過(guò)了一致性檢驗(yàn),即權(quán)重Q可用來(lái)表示各敏感字段的敏感度。姓名的敏感度為0.245 7,是權(quán)重里最高的一個(gè),因此,對(duì)姓名字段的保護(hù)要求也最高,其他敏感字段同理。

3.2 用戶(hù)敏感度計(jì)算

選取網(wǎng)絡(luò)日志數(shù)據(jù)集UserClustering作為實(shí)驗(yàn)依據(jù),其部分內(nèi)容如圖6所示。

圖6 用戶(hù)訪問(wèn)日志截取圖

考慮到訪問(wèn)學(xué)生敏感信息,可將Student作為關(guān)鍵字進(jìn)行篩選,然后遍歷日志文件每一行,查看是否包含關(guān)鍵字Student,包含關(guān)鍵字的日志行用正則表達(dá)式"(?:[0-9{1,3}.]){3}[0-9]{1,3}"提取IP,并統(tǒng)計(jì)IP出現(xiàn)的頻率[20],由此得到用戶(hù)的敏感度分布如圖7所示。

圖7 用戶(hù)敏感度分布

從圖7中可以看出,用戶(hù)118.244.228.205擁有最高的敏感度,說(shuō)明該用戶(hù)的敏感等級(jí)最高,其信任等級(jí)也最高。其次是用戶(hù)118.244.228.208,該用戶(hù)敏感等級(jí)和信任等級(jí)僅次于用戶(hù)118.244.228.205,其他用戶(hù)同理。

3.3 用戶(hù)針對(duì)學(xué)生信息敏感程度計(jì)算

以姓名這一敏感字段為例,借助python實(shí)現(xiàn)計(jì)算,包括利用pandas和numpy對(duì)數(shù)據(jù)進(jìn)行操作,使用matplotlib和seaborn進(jìn)行圖像化,以及sklearn進(jìn)行數(shù)據(jù)集訓(xùn)練與模型導(dǎo)入[21]。

1)數(shù)據(jù)集準(zhǔn)備。創(chuàng)建包含姓名敏感度、用戶(hù)敏感度以及二級(jí)敏感度的小型數(shù)據(jù)集,如表3所示。姓名敏感度是由前面計(jì)算出的敏感信息敏感度中姓名字段對(duì)應(yīng)的值0.245 7為中心,左右0.01為單位擴(kuò)展得到的5項(xiàng)值組成的一組數(shù)據(jù),目的是為了讓層次分析法計(jì)算出的敏感信息敏感度值更具有客觀性,減少人為因素的干預(yù)。用戶(hù)敏感度即隨機(jī)抽取5位用戶(hù)組成。二級(jí)敏感度采用random模塊隨機(jī)生成介于姓名敏感度和用戶(hù)敏感度區(qū)間內(nèi)的隨機(jī)值,由實(shí)際意義可知,二級(jí)敏感度受姓名敏感度和用戶(hù)敏感度相互牽制的影響,必然介于兩者之間。

表3 二級(jí)敏感度_姓名表

為了使數(shù)據(jù)集更具有說(shuō)服力,復(fù)制該數(shù)據(jù)集3份,對(duì)應(yīng)二級(jí)敏感度也隨機(jī)生成3份,得到總計(jì)20條數(shù)據(jù)的數(shù)據(jù)集Sen_2nd_namecsv。

2)相關(guān)性分析。采用describe()方法對(duì)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì),并采用boxplot()方法繪制箱圖,姓名敏感度、用戶(hù)敏感度和二級(jí)敏感度的最大值、上四分位數(shù)、中位數(shù)、下四分位數(shù)及最小值如圖8所示。圖中空心原點(diǎn)表示異常值,可忽略不計(jì)。

圖8 二級(jí)敏感度_姓名箱圖

在描述統(tǒng)計(jì)之后對(duì)數(shù)據(jù)進(jìn)行相關(guān)性分析,以此查找數(shù)據(jù)中特征值與標(biāo)簽值之間的關(guān)系。采用corr()方法計(jì)算相關(guān)系數(shù)矩陣如表4所示。

表4 相關(guān)系數(shù)矩陣

從表4中可以看出,用戶(hù)敏感度和二級(jí)敏感度呈較強(qiáng)的正相關(guān)關(guān)系,姓名敏感度和二級(jí)敏感度呈較弱的負(fù)相關(guān)關(guān)系。

使用seaborn的pairplot建立散點(diǎn)圖,查看姓名敏感度、用戶(hù)敏感度分別對(duì)二級(jí)敏感度的影響,以及不同的因素對(duì)二級(jí)敏感度的預(yù)測(cè)線。二級(jí)敏感度_姓名散點(diǎn)如圖9所示。

圖9 二級(jí)敏感度_姓名/用戶(hù)散點(diǎn)

3)回歸模型的建立。使用train_test_split函數(shù)創(chuàng)建訓(xùn)練集與測(cè)試集,訓(xùn)練比例設(shè)置為0.8,將訓(xùn)練集中的特征值與標(biāo)簽值放入LinearRegression()模型中,并使用fit函數(shù)進(jìn)行訓(xùn)練,在模型訓(xùn)練完成之后,由式(1)可得對(duì)應(yīng)的線性回歸方程式為

S=0.108 2-0.084 9I+0.295 9U

(2)

即可得某一用戶(hù)針對(duì)姓名字段的敏感程度。例如,當(dāng)姓名敏感度為0.245 7時(shí),某一用戶(hù)敏感度為0.305 6,代入式(2)可計(jì)算出該用戶(hù)針對(duì)姓名的敏感程度為0.177 7,說(shuō)明該用戶(hù)對(duì)姓名這一敏感字段輕微敏感。其他敏感字段的線性回歸模型建立方法同理。

用戶(hù)針對(duì)學(xué)生敏感信息各個(gè)字段的二級(jí)敏感度,描述了用戶(hù)針對(duì)不同敏感字段的反應(yīng)程度,便于后續(xù)結(jié)合訪問(wèn)控制策略判斷用戶(hù)是否可以訪問(wèn)相應(yīng)的敏感字段。該模型從全面計(jì)算用戶(hù)和敏感信息的敏感度屬性出發(fā),有利于更好地保護(hù)敏感信息的隱私安全,且對(duì)應(yīng)用場(chǎng)景沒(méi)有強(qiáng)依賴(lài)性,僅需要確定用戶(hù)群體和敏感信息內(nèi)容后,便可分析出敏感程度的差異性。

4 結(jié)語(yǔ)

基于屬性的兩級(jí)敏感度計(jì)算模型是用戶(hù)在訪問(wèn)控制過(guò)程中判斷訪問(wèn)敏感信息敏感程度的一種測(cè)度模型。該模型不僅測(cè)度信息敏感度,還測(cè)度訪問(wèn)該信息的用戶(hù)敏感度,計(jì)算訪問(wèn)過(guò)程的綜合敏感度,充分全面考慮了兩者之間的影響與關(guān)聯(lián)性。實(shí)例驗(yàn)證結(jié)果表明,該模型能有效地從定量層面計(jì)算出用戶(hù)針對(duì)敏感信息的敏感程度,只需在訪問(wèn)控制模型中加入敏感度計(jì)算即可,具有通用性,且適用于非單一化應(yīng)用場(chǎng)景下分析用戶(hù)對(duì)于敏感信息的反應(yīng)程度。

猜你喜歡
字段敏感度姓名
帶鉤或不帶鉤選擇方框批量自動(dòng)換
淺談臺(tái)灣原版中文圖書(shū)的編目經(jīng)驗(yàn)
跨文化敏感度綜述
小學(xué)語(yǔ)文寫(xiě)作教學(xué)存在的問(wèn)題及對(duì)策
XpertMTB/RIF技術(shù)在腎結(jié)核的早期診斷和利福平耐藥檢測(cè)中的價(jià)值
小記者檔案
一年級(jí)語(yǔ)文上冊(cè)期末測(cè)試
無(wú)正題名文獻(xiàn)著錄方法評(píng)述
無(wú)正題名文獻(xiàn)著錄方法評(píng)述
第一單元綜合模擬測(cè)試卷