国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

運(yùn)營商面向大數(shù)據(jù)應(yīng)用的數(shù)據(jù)脫敏方法探討

2015-06-05 08:19:42喬宏明梁奐
移動通信 2015年13期
關(guān)鍵詞:敏感數(shù)據(jù)脫敏運(yùn)營商

喬宏明,梁奐

(中國電信股份有限公司廣州研究院,廣東 廣州 510630)

1 引言

近兩年來,國內(nèi)通信運(yùn)營商傳統(tǒng)業(yè)務(wù)(特別是語音、短信)發(fā)展受互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)沖擊的現(xiàn)象日益顯現(xiàn),業(yè)務(wù)量和業(yè)務(wù)收入增量的剪刀差越發(fā)明顯:增長量差值(電信業(yè)務(wù)總量同比增長-電信業(yè)務(wù)收入同比增長)從2014年初的8%左右擴(kuò)大到2015年一季度的近19%[1],總體上“增量不增收”已經(jīng)形成“慣性”。隨著國家一系列導(dǎo)向性政策的出臺(如《國務(wù)院辦公廳關(guān)于加快高速寬帶網(wǎng)絡(luò)建設(shè)推進(jìn)網(wǎng)絡(luò)提速降費(fèi)的指導(dǎo)意見》),當(dāng)前運(yùn)營商的“‘明星業(yè)務(wù)’——數(shù)據(jù)流量——收入預(yù)計”在未來1~2年內(nèi)也將見頂,運(yùn)營商現(xiàn)有的傳統(tǒng)業(yè)務(wù)將逐步“公益化”。作為企業(yè)實體的運(yùn)營商必須拓展新的業(yè)務(wù)領(lǐng)域,找到增長點(diǎn),挖掘手中“大數(shù)據(jù)”這座金礦,成為三大運(yùn)營商共同的目標(biāo)。運(yùn)營商數(shù)據(jù)分析應(yīng)用范圍在由“內(nèi)”(經(jīng)營分析、網(wǎng)絡(luò)優(yōu)化、針對性營銷等)向“外”(廣告、數(shù)據(jù)服務(wù))轉(zhuǎn)變,正在探索以“直接收益”為目標(biāo)的大數(shù)據(jù)經(jīng)營。

考慮到短期內(nèi)運(yùn)營商在新的大數(shù)據(jù)產(chǎn)業(yè)鏈中并不占據(jù)主導(dǎo)地位[2],廣泛的外部合作必不可少。但正是因為運(yùn)營商所掌握的數(shù)據(jù)“含金量”過高,其使用也一直受到嚴(yán)格的政策監(jiān)管:2013年7月19日,工信部下達(dá)了《電信和互聯(lián)網(wǎng)用戶個人信息保護(hù)規(guī)定》文件,明確了個人信息的收集和使用規(guī)范以及運(yùn)營企業(yè)的管理責(zé)任。同時,當(dāng)前廣大客戶對自身隱私的關(guān)注也日益增強(qiáng),一直對運(yùn)營商使用相關(guān)數(shù)據(jù)保持高度警覺狀態(tài),稍有疏忽就會給運(yùn)營企業(yè)造成重大的聲譽(yù)損失。運(yùn)營商相關(guān)數(shù)據(jù)對外開放以進(jìn)入大數(shù)據(jù)產(chǎn)業(yè)面臨難以逾越的困難:既要挖掘使用,又要避免隱私風(fēng)險。兩難之間,對相關(guān)數(shù)據(jù)進(jìn)行“脫敏”或許是一個解決方案。

2 常用數(shù)據(jù)脫敏架構(gòu)和方法

所謂數(shù)據(jù)脫敏(Data Masking)是對個人身份識別數(shù)據(jù)(personal identifiable data)、個人敏感數(shù)據(jù)(personal sensitive data)和商業(yè)敏感數(shù)據(jù)(commercially sensitive data)進(jìn)行偽裝,以便用于生產(chǎn)系統(tǒng)以外的地方[3]。數(shù)據(jù)脫敏不是新的技術(shù),當(dāng)前也有很多成熟的商用解決方案可以選擇,如Oracle的Data Masking組件[4]、IBM的InfoSphere Optim Data Privacy產(chǎn)品[5]、Informatica的Informatica Data Masking產(chǎn)品[6]等,其中Informatica的產(chǎn)品可以實現(xiàn)對異構(gòu)數(shù)據(jù)的脫敏處理。針對特定的生產(chǎn)環(huán)境(如異構(gòu)系統(tǒng)),也可以自己創(chuàng)建脫敏平臺或系統(tǒng)進(jìn)行脫敏處理。脫敏后數(shù)據(jù)的服務(wù)對象,可以是企業(yè)內(nèi)部統(tǒng)計分析、企業(yè)生產(chǎn)系統(tǒng)的開放、測試環(huán)境,也可以是外部第三方。當(dāng)然,面向不同的服務(wù)對象,針對其服務(wù)要求,脫敏的級別和方法也有不同。

從架構(gòu)的角度看,數(shù)據(jù)脫敏有2種常用架構(gòu):

(1)動態(tài)(On the Fly/Dynamic)數(shù)據(jù)脫敏架構(gòu)。指數(shù)據(jù)脫敏規(guī)則應(yīng)用于在將數(shù)據(jù)從源數(shù)據(jù)庫(生產(chǎn)庫)導(dǎo)出到目標(biāo)數(shù)據(jù)庫(脫敏后數(shù)據(jù)庫)的過程中進(jìn)行脫敏處理,或者在生產(chǎn)系統(tǒng)產(chǎn)生實際數(shù)據(jù)的同時,也同步產(chǎn)生用于其他環(huán)境的脫敏數(shù)據(jù)。這種架構(gòu)有2個好處:脫敏目標(biāo)庫可以獲得實時性很高的數(shù)據(jù);在生產(chǎn)系統(tǒng)外不存在非脫敏數(shù)據(jù),減少安全風(fēng)險。這種架構(gòu)產(chǎn)生的問題是,脫敏處理會對生產(chǎn)系統(tǒng)產(chǎn)生一定的壓力;脫敏策略可定制性不強(qiáng),一旦投入持續(xù)生產(chǎn)就不能調(diào)整,否則會影響現(xiàn)有業(yè)務(wù);脫敏應(yīng)用會對源數(shù)據(jù)庫到目標(biāo)數(shù)據(jù)庫鏈路安全和穩(wěn)定性有較高要求;該架構(gòu)一般都要求脫敏工具和生產(chǎn)庫管理軟件緊密耦合,限制可用工具的選擇范圍。

(2)靜態(tài)(Static)數(shù)據(jù)脫敏架構(gòu)。通過對源數(shù)據(jù)庫的克隆來進(jìn)行脫敏操作,形成目標(biāo)數(shù)據(jù)庫。脫敏規(guī)則可以在第三方實體上執(zhí)行,也可以在目標(biāo)數(shù)據(jù)庫上執(zhí)行。因為面對的是生產(chǎn)數(shù)據(jù)的鏡像,這種架構(gòu)可以根據(jù)需要調(diào)整脫敏規(guī)則,靈活性更高;脫敏工具的選擇范圍也更大;相對動態(tài)架構(gòu),靜態(tài)架構(gòu)對生產(chǎn)系統(tǒng)的壓力更小。這種架構(gòu)的風(fēng)險是,因為涉及到第三方平臺或目標(biāo)數(shù)據(jù)庫存儲源數(shù)據(jù),安全風(fēng)險會增加;此架構(gòu)獲取的脫敏數(shù)據(jù)實時性相對動態(tài)架構(gòu)偏低。

具體的數(shù)據(jù)脫敏方法,主要有以下6種:

(1)替代。指用偽裝數(shù)據(jù)完全替換源數(shù)據(jù)中的敏感數(shù)據(jù),一般替換用的數(shù)據(jù)都有不可逆性,以保證安全。替代是最常用的數(shù)據(jù)脫敏方法,具體操作上有常數(shù)替代(所有敏感數(shù)據(jù)都替換為唯一的常數(shù)值)、查表替代(從中間表中隨機(jī)或按照特定算法選擇數(shù)據(jù)進(jìn)行替代)、參數(shù)化替代(以敏感數(shù)據(jù)作為輸入,通過特定函數(shù)形成新的替代數(shù)據(jù))等。具體選擇的替代算法取決于效率、業(yè)務(wù)需求等因素間的平衡。替代方法能夠徹底的脫敏單類數(shù)據(jù),但往往也會使相關(guān)字段失去業(yè)務(wù)含義,對于查表替代而言,中間表的設(shè)計非常關(guān)鍵。

(2)混洗。主要通過對敏感數(shù)據(jù)進(jìn)行跨行隨機(jī)互換來打破其與本行其他數(shù)據(jù)的關(guān)聯(lián)關(guān)系,從而實現(xiàn)脫敏?;煜纯梢栽谙喈?dāng)大范圍內(nèi)保證部分業(yè)務(wù)數(shù)據(jù)信息(如有效數(shù)據(jù)范圍、數(shù)據(jù)統(tǒng)計特征等),使脫敏后數(shù)據(jù)看起來跟源數(shù)據(jù)更一致,與此同時也犧牲了一定的安全性。一般混洗方法用于大數(shù)據(jù)集合、且需要保留待脫敏數(shù)據(jù)特定特征的場景;對于小數(shù)據(jù)集,混洗形成的目標(biāo)數(shù)據(jù)有可能通過其他信息被還原,在使用的時候需要特別慎重。

(3)數(shù)值變換。指對數(shù)值和日期類型的源數(shù)據(jù),通過隨機(jī)函數(shù)進(jìn)行可控的調(diào)整(例如對于數(shù)值類型數(shù)據(jù)隨機(jī)增減20%;對于日期數(shù)據(jù),隨機(jī)增減200天),以便在保持原始數(shù)據(jù)相關(guān)統(tǒng)計特征的同時,完成對具體數(shù)值的偽裝。數(shù)值變化通過調(diào)整變動幅度可以有效控制目標(biāo)數(shù)據(jù)的統(tǒng)計特征和真實度,是常用的脫敏方法。

(4)加密。指對待脫敏數(shù)據(jù)進(jìn)行加密處理,使外部用戶只看到無意義的加密后數(shù)據(jù),同時在特定場景下,可以提供解密能力,使具有密鑰的相關(guān)方可以獲得原數(shù)據(jù)。加密的方法存在一定的安全風(fēng)險(密鑰泄露或加密強(qiáng)度不夠);加密本身需要一定的計算能力,對于大數(shù)據(jù)集來源會產(chǎn)生很大資源開銷;一般加密后數(shù)據(jù)與原始數(shù)據(jù)格式差異較大,“真實性”較差。一般情況下,加密的數(shù)據(jù)脫敏方式應(yīng)用不多。

(5)遮擋(Mask Out)。指對敏感數(shù)據(jù)的部分內(nèi)容用掩飾符號(如“X、*”)進(jìn)行統(tǒng)一替換,從而使得敏感數(shù)據(jù)保持部分內(nèi)容公開。這種方法可以在很大程度上脫敏的同時,保持原有數(shù)據(jù)感觀,也是一種廣泛使用的方法。

(6)空值插入/刪除。指直接刪除敏感數(shù)據(jù)或?qū)⑵渲脼镹ULL值。在條件允許的情況下,這種方法最直接。

總體而言,數(shù)據(jù)脫敏的方法有以上6個類別。在具體應(yīng)用時,可以根據(jù)業(yè)務(wù)需求,結(jié)合可用計算資源情況,進(jìn)行靈活選擇。

3 運(yùn)營商大數(shù)據(jù)應(yīng)用的特點(diǎn)

前期電信運(yùn)營商在大數(shù)據(jù)應(yīng)用方面主要聚焦在內(nèi)部使用,隱私方面的風(fēng)險相對可控,因而更多著力于管理流程和技術(shù)手段的完善,在脫敏方面投入的力量相對不大。當(dāng)面向外部需要與第三方合作、甚至在政策范圍內(nèi)要輸出部分?jǐn)?shù)據(jù)給第三方時,數(shù)據(jù)脫敏就必不可少了。數(shù)據(jù)脫敏方法各有特色,具體選擇需要結(jié)合運(yùn)營商數(shù)據(jù)特點(diǎn)和實際的業(yè)務(wù)需求。

結(jié)合國內(nèi)外各大運(yùn)營商前期的探索研討[7-8],目前運(yùn)營商面向外部的大數(shù)據(jù)應(yīng)用主要包括以下場景:

◆精準(zhǔn)廣告:通信運(yùn)營商發(fā)揮在用戶上網(wǎng)行為數(shù)據(jù)采集方面的優(yōu)勢,為具有精準(zhǔn)投放在線廣告需求的企業(yè)客戶篩選出高價值客戶,提升其廣告投放的精準(zhǔn)性。

◆精準(zhǔn)營銷:通信運(yùn)營商基于客戶標(biāo)簽數(shù)據(jù),為企業(yè)客戶提供目標(biāo)用戶清單和廣告精準(zhǔn)推送方案,提升其營銷活動效率。

需要說明的是,以上2種數(shù)據(jù)應(yīng)用的開展目前也有政策限制。以短信這一最常用的廣告營銷手段為例,根據(jù)工信部最近發(fā)布的《通信短信息服務(wù)管理規(guī)定》[9]要求,從2015年6月30日起,短信息服務(wù)提供者、短信息內(nèi)容提供者未經(jīng)用戶同意或者請求,不得向其發(fā)送商業(yè)性短信息。在此,必須假定運(yùn)營商或外部第三方已經(jīng)獲得了向用戶發(fā)送短信的許可。

◆數(shù)據(jù)報告:通信運(yùn)營商基于通信流量數(shù)據(jù)挖掘結(jié)果,為行業(yè)客戶提供流量、流向、應(yīng)用活躍性等方面分析報告,為有相關(guān)需求的企業(yè)提供數(shù)據(jù)類咨詢服務(wù)。

◆能力出租:通信運(yùn)營商為不具備大數(shù)據(jù)運(yùn)營能力的中小企業(yè)開放大數(shù)據(jù)平臺的數(shù)據(jù)存儲和分析能力,為其開展大數(shù)據(jù)應(yīng)用提供高性價比的IaaS、PaaS平臺。在運(yùn)營商具備響應(yīng)能力后,也可以進(jìn)行“智力出租”,采用“來料加工”的方式,由客戶提供數(shù)據(jù),提出要求,運(yùn)營商方面負(fù)責(zé)加工處理。

◆公共服務(wù):對于政府或其他公共服務(wù)部門牽頭開展的公共領(lǐng)域研究項目(如人群分布、人群流動、交通信息、輿情監(jiān)控等),通信運(yùn)營商作為重要的數(shù)據(jù)合作方和基礎(chǔ)能力提供方,一方面提供部分通信相關(guān)數(shù)據(jù),一方面出租IaaS/PaaS資源,實現(xiàn)企業(yè)和社會的雙贏。

上述幾個場景中,除能力出租外,都需要將電信數(shù)據(jù)和第三方數(shù)據(jù)緊密結(jié)合,才能獲得預(yù)期成效,在此過程中數(shù)據(jù)的共享和開放不可避免。另一方面,這些大數(shù)據(jù)應(yīng)用需要的往往都是用戶敏感數(shù)據(jù),涉及具體的客戶信息必須做脫敏處理。

參照歐美運(yùn)營商已經(jīng)開展的大數(shù)據(jù)應(yīng)用實踐[10],當(dāng)前運(yùn)營商的大數(shù)據(jù)應(yīng)用有以下4個特點(diǎn)需要在脫敏方法選擇時予以考慮:

(1)除國家特定要求外,輸出數(shù)據(jù)不能包含個體性敏感信息。

(2)提供的數(shù)據(jù)應(yīng)能提供較準(zhǔn)確的統(tǒng)計性信息,支持群體性偏好或行為指標(biāo)的深度分析。

(3)數(shù)據(jù)的時效性相對較高。特別是營銷應(yīng)用,大部分場景下都要求及時聚焦目標(biāo)客戶群,動態(tài)把握趨勢和動向。

(4)數(shù)據(jù)需要能夠動態(tài)更新:相對產(chǎn)業(yè)鏈上其他參與方,運(yùn)營商最大的優(yōu)勢之一就是有源源不斷的數(shù)據(jù)源,可以持續(xù)優(yōu)化應(yīng)用的效果(如客戶刻畫的精準(zhǔn)度)。

4 脫敏方法選擇框架

數(shù)據(jù)脫敏的最大難點(diǎn)在于平衡隱私保護(hù)和數(shù)據(jù)挖掘需求,從某種意義上,運(yùn)營商必須要致力保護(hù)的隱私內(nèi)容(具體某個用戶的具體位置、社會關(guān)系、訪問內(nèi)容等)可能也正是外部第三方希望通過挖掘得到的內(nèi)容?;谏鲜鰧\(yùn)營商大數(shù)據(jù)應(yīng)用特點(diǎn)的分析,結(jié)合具體應(yīng)用場景,在選擇脫敏方法時應(yīng)該考慮以下6個因素:

(1)應(yīng)用對數(shù)據(jù)可用性的要求,即脫敏后的數(shù)據(jù)滿足分析應(yīng)用需要的程度。如果脫敏后的數(shù)據(jù)完全無法用于目標(biāo)分析,其也不具備使用價值。在特定的應(yīng)用場景中,可能需要?dú)埩舨糠址顷P(guān)鍵信息(如手機(jī)號碼部分字段、手機(jī)位置等)才能滿足分析需求。

(2)應(yīng)用對數(shù)據(jù)真實性的要求。這里的真實性是指脫敏后的數(shù)據(jù)對原有數(shù)據(jù)邏輯特征、統(tǒng)計分布特征的保留程度。絕大部分應(yīng)用,特別是數(shù)據(jù)服務(wù)類應(yīng)用對數(shù)據(jù)統(tǒng)計分布特征都有明確要求;同時對于復(fù)雜業(yè)務(wù),其相關(guān)信息可能跨表跨庫,數(shù)據(jù)間的邏輯特征也必須予以保留。

(3)應(yīng)用對數(shù)據(jù)時效性的要求,即脫敏后數(shù)據(jù)需要在哪個時段內(nèi)提供才有進(jìn)一步分析挖掘的意義。

(4)應(yīng)用對數(shù)據(jù)可重現(xiàn)性的要求,即相同參數(shù)配置下,相同源數(shù)據(jù)脫敏后的數(shù)據(jù)是否必須一致。

(5)脫敏方法資源占用。需要結(jié)合源數(shù)據(jù)量、源數(shù)據(jù)間行內(nèi)同步、表內(nèi)同步、跨表同步、跨庫同步要求,考慮不同脫敏方法對計算資源、存儲資源的需求。資源占用對數(shù)據(jù)時效性也會有潛在影響。

(6)脫敏方法可配置性。是否可以結(jié)合需求,通過對脫敏方法的配置生成個性化的脫敏后數(shù)據(jù)。

上述幾個要素中,脫敏方法資源占用主要需考慮企業(yè)內(nèi)部的資源約束,除此以外都和具體應(yīng)用相關(guān)。針對需要數(shù)據(jù)輸出的典型大數(shù)據(jù)應(yīng)用,從業(yè)務(wù)需求視角,對現(xiàn)有的脫敏方法選擇有以下簡要分析供討論,典型大數(shù)據(jù)應(yīng)用如表1所示。

5 結(jié)束語

運(yùn)營商開展大數(shù)據(jù)業(yè)務(wù)必須解決信息安全問題,為有效開展對外合作,必須對其持有的待挖掘數(shù)據(jù)進(jìn)行脫敏。本文結(jié)合對數(shù)據(jù)脫敏的常用方法及其特點(diǎn)的理解,結(jié)合典型大數(shù)據(jù)應(yīng)用類型,對各類脫敏方法的選擇框架給出了建議。數(shù)據(jù)脫敏僅僅是運(yùn)營商企業(yè)內(nèi)部信息安全管理的一個環(huán)節(jié),現(xiàn)有的脫敏方法既要服務(wù)于企業(yè)業(yè)務(wù)發(fā)展,也要遵從整體的IT安全治理要求,脫敏方案的制定和方法的選擇需要業(yè)務(wù)需求單位(包括第三方)、IT安全監(jiān)管單位和數(shù)據(jù)實際管控單位協(xié)同才能取得預(yù)期的成果。

表1 典型大數(shù)據(jù)應(yīng)用

[1]中華人民共和國工業(yè)和信息化部. 2015年4月份通信業(yè)經(jīng)濟(jì)運(yùn)行情況[EB/OL]. (2015-05-19)[2015-05-30]. http://www.miit.gov.cn/n11293472/n11293832/n11294132/n12858447/16594331.html.

[2]喬宏明. 運(yùn)營商在大數(shù)據(jù)產(chǎn)業(yè)中的定位芻議[J]. 移動通信, 2014(13): 16-17.

[3]WIKIPEDIA. Data masking [EB/OL]. (2015-04-23)[2015-05-30]. http://en.wikipedia.org/wiki/Data_masking.

[4]Oracle. Oracle Data Masking[EB/OL]. [2015-05-30].http://www.oracle.com/technetwork/oem/app-qualitymgmt/default-1965435.html.

[5]IBM. InfoSphere Optim Data Privacy[EB/OL]. [2015-05-30]. http://www-03.ibm.com/software/products/en/infosphere-optim-data-privacy.

[6]Informatica. Data Masking[EB/OL]. [2015-05-30]. http://international.informatica.com/cn/products/data-masking/.

[7]李曦?zé)? 大數(shù)據(jù)時代:通信運(yùn)營五模式[EB/OL].(2014-05-26)[2015-05-30]. http://labs.chinamobile.com/mblog/110109/221380.

[8]黃小剛. 電信行業(yè)大數(shù)據(jù)應(yīng)用的四個方向[J]. 信息通信技術(shù), 2013(6): 26-28.

[9]中華人民共和國工業(yè)和信息化部. 通信短信息服務(wù)管理規(guī)定[EB/OL]. (2015-05-28)[2015-05-30].http://www.miit.gov.cn/n11293472/n11294912/n11296542/16613248.html.

[10]36大數(shù)據(jù). 全球十大電信巨頭是如何玩大數(shù)據(jù)的[EB/OL]. (2014-04-19)[2015-05-30]. http:// www.199it.com/archives/210931.html.

猜你喜歡
敏感數(shù)據(jù)脫敏運(yùn)營商
干擾條件下可檢索數(shù)字版權(quán)管理環(huán)境敏感數(shù)據(jù)的加密方法
激光聯(lián)合脫敏劑治療牙本質(zhì)過敏癥
實現(xiàn)虛擬機(jī)敏感數(shù)據(jù)識別
過敏體質(zhì)與脫敏治療
基于透明加密的水下通信網(wǎng)絡(luò)敏感數(shù)據(jù)防泄露方法
基于4A平臺的數(shù)據(jù)安全管控體系的設(shè)計與實現(xiàn)
讓青春脫敏
幸福(2017年18期)2018-01-03 06:34:42
取消“漫游費(fèi)”只能等運(yùn)營商“良心發(fā)現(xiàn)”?
第一章 在腐敗火上烤的三大運(yùn)營商
IT時代周刊(2015年9期)2015-11-11 05:51:43
三大運(yùn)營商換帥不是一個簡單的巧合
IT時代周刊(2015年9期)2015-11-11 05:51:27
邮箱| 三门峡市| 邵阳市| 呼图壁县| 乌鲁木齐县| 绥滨县| 阜平县| 沁阳市| 岳普湖县| 淮安市| 喀喇沁旗| 都匀市| 微博| 芜湖市| 永新县| 云梦县| 万山特区| 镇坪县| 中超| 循化| 南昌市| 湟源县| 巍山| 大英县| 丹棱县| 扶绥县| 高唐县| 海伦市| 子长县| 阳东县| 青岛市| 宽甸| 汨罗市| 财经| 嘉祥县| 阿勒泰市| 木兰县| 峡江县| 社旗县| 林州市| 来安县|