白 磊, 梅真瑋, 陳 霞, 呂廷杰
(北京郵電大學(xué) 經(jīng)濟(jì)管理學(xué)院, 北京 100876)
隨著互聯(lián)網(wǎng)的迅速發(fā)展,在線(xiàn)社交網(wǎng)絡(luò)得到了進(jìn)一步的蓬勃發(fā)展.在線(xiàn)社交網(wǎng)絡(luò)平臺(tái),以其開(kāi)放性、共享性和連通性等特點(diǎn),成為人們進(jìn)行網(wǎng)絡(luò)社交活動(dòng)的重要場(chǎng)所.出于社交的目標(biāo),社交網(wǎng)絡(luò)用戶(hù)在與其他用戶(hù)產(chǎn)生聯(lián)系的過(guò)程中自覺(jué)或不自覺(jué)間暴露了一定的個(gè)人隱私信息,如姓名、聯(lián)系方式、社交關(guān)系、照片、地理位置、言論信息等.由于網(wǎng)絡(luò)的開(kāi)放性也使得這些用戶(hù)的隱私信息更容易被獲取、整理和非法使用,進(jìn)而致使用戶(hù)遭受一定的損失和傷害.電信詐騙事件頻發(fā)就有很大一部分源于用戶(hù)個(gè)人隱私信息泄露所致.隨著人們對(duì)隱私觀(guān)念逐步提升,對(duì)在線(xiàn)社交網(wǎng)絡(luò)用戶(hù)的隱私信息的保護(hù)問(wèn)題也成為學(xué)術(shù)界和業(yè)界近年來(lái)關(guān)注的熱點(diǎn).
對(duì)社交網(wǎng)絡(luò)的研究,理論方面格拉諾維特的弱關(guān)系理論、林楠的強(qiáng)關(guān)系理論、博特的結(jié)構(gòu)洞理論[1]等相關(guān)理論基本成熟.在社交網(wǎng)絡(luò)用戶(hù)行為的研究方面,理論和實(shí)證研究也都較深入.研究主要通過(guò)對(duì)用戶(hù)在在線(xiàn)社交網(wǎng)路中的發(fā)布信息、互動(dòng)等行為,從統(tǒng)計(jì)和人類(lèi)行為動(dòng)力學(xué)的視角,進(jìn)行分析研究.Wang[2]以新浪微博為研究對(duì)象,對(duì)用戶(hù)行為和用戶(hù)間關(guān)系數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)用戶(hù)的關(guān)注數(shù)、粉絲數(shù)、微博數(shù)呈高度正相關(guān).Wu等[3]對(duì)天涯網(wǎng)絡(luò)社區(qū)上用戶(hù)的回復(fù)進(jìn)行了統(tǒng)計(jì)分析,發(fā)現(xiàn)用戶(hù)發(fā)表評(píng)論的時(shí)間間隔分布符合冪率分布,具有胖尾特性.于洪等[4]以新浪微博作為研究對(duì)象,研究微博網(wǎng)絡(luò)環(huán)境中的信息傳播特點(diǎn)和傳播節(jié)點(diǎn)影響力的關(guān)系.
對(duì)社交網(wǎng)絡(luò)用戶(hù)隱私方面的研究還存在較大的空間.目前國(guó)內(nèi)外的研究主要有基于隱私數(shù)據(jù)的挖掘保護(hù)、隱私影響因素的研究、隱私信息傳播和隱私建模研究等方向.Babbitt等[5]提出了基于保護(hù)規(guī)則的隱私保護(hù)分析模型.Hull等[6]通過(guò)構(gòu)建基于上下文數(shù)據(jù)的框架模型,并根據(jù)用戶(hù)設(shè)定的規(guī)則,在規(guī)定時(shí)間將規(guī)定數(shù)據(jù)分配給不同用戶(hù).Iachello等[7]則根據(jù)用戶(hù)的使用經(jīng)驗(yàn)以及規(guī)律,對(duì)于用戶(hù)常見(jiàn)的一些隱私,進(jìn)行設(shè)定權(quán)限、分配隱私等操作,效率雖然高,但是有一定局限性.Zeng等[8]通過(guò)建立用戶(hù)隱私信息傳播的框架模型,基于信息傳播過(guò)程中被泄露的概率建立了用戶(hù)隱私量化的理論模型框架,但主要停留在理論框架階段,對(duì)具體使用場(chǎng)景的適用性未做深入分析.劉向宇等[9]對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)隱私保護(hù)研究現(xiàn)狀分析中也指出目前社會(huì)網(wǎng)絡(luò)隱私保護(hù)主要集中于數(shù)據(jù)挖掘、K-匿名、數(shù)據(jù)擾亂、推演控制等方法.李征仁[10]以移動(dòng)互聯(lián)網(wǎng)為研究對(duì)象,通過(guò)結(jié)構(gòu)方程模型、社會(huì)網(wǎng)絡(luò)分析和數(shù)據(jù)挖掘模型,研究用戶(hù)隱私關(guān)注的影響因素及用戶(hù)隱私信息的擴(kuò)散的時(shí)間和范圍規(guī)律.沈洪洲等[11]通過(guò)實(shí)驗(yàn)和訪(fǎng)談的方法對(duì)人人網(wǎng)、朋友網(wǎng)的隱私控制功能的可用性研究,指出兩者在保護(hù)用戶(hù)隱私方面需要改進(jìn)的不足之處.葛偉平[12]對(duì)隱私保護(hù)數(shù)據(jù)挖掘方法上進(jìn)行了分析,給出一種全局關(guān)聯(lián)規(guī)則的隱私保護(hù)挖掘算法,并介紹了一種基于數(shù)據(jù)變換前后相關(guān)屬性取值數(shù)量的差異程度來(lái)表示隱私保護(hù)程度.石碩[13]通過(guò)分析相關(guān)文獻(xiàn),結(jié)合TPB模型和隱私計(jì)算理論,使用隱私憂(yōu)慮和感知收益揭示用戶(hù)隱私披露行為,提出了社交網(wǎng)絡(luò)上個(gè)人信息披露行為的理論研究模型.Gao等[14]運(yùn)用隨機(jī)抽樣問(wèn)卷調(diào)查的方法,制定相關(guān)因素量表,研究了隱私關(guān)注度、感知公平和感知投訴效益對(duì)我國(guó)互聯(lián)網(wǎng)用戶(hù)網(wǎng)絡(luò)隱私保護(hù)行為的影響,表明隱私關(guān)注度對(duì)拒絕提供個(gè)人信息、偽造個(gè)人信息和投訴行為都有顯著正向影響.Jiang等[15]提出了網(wǎng)絡(luò)隱私關(guān)注和行為意向影響因素的概念模型.張志杰等[16]從LBS服務(wù)用戶(hù)接受模型的角度進(jìn)行研究,通過(guò)問(wèn)卷調(diào)查和結(jié)構(gòu)方程的方法,實(shí)證證明用戶(hù)隱私因素對(duì)LBS業(yè)務(wù)使用意向的顯著影響作用.王斌等[17]綜合考慮用戶(hù)個(gè)體和所處系統(tǒng)中心對(duì)網(wǎng)絡(luò)用戶(hù)隱私的影響,從動(dòng)態(tài)隱私保護(hù)的視角提出一種基于所處環(huán)境的面向普適計(jì)算的用戶(hù)的隱私量化模型,針對(duì)不同的隱私狀態(tài)級(jí)別,采取不同的信息保護(hù)策略實(shí)現(xiàn)對(duì)用戶(hù)隱私信息的保護(hù).Zhu等[18]通過(guò)使用人類(lèi)行為動(dòng)力學(xué)和統(tǒng)計(jì)物理的方法研究用戶(hù)的網(wǎng)絡(luò)行為與用戶(hù)隱私量值的關(guān)系,并用微博和人人網(wǎng)用戶(hù)數(shù)據(jù)進(jìn)行了實(shí)證分析.李鳳華等[19]在分析隱私保護(hù)研究現(xiàn)狀的基礎(chǔ)上,提出隱私計(jì)算概念,對(duì)隱私計(jì)算的內(nèi)涵進(jìn)行界定,并提出從隱私信息的全生命周期討論隱私計(jì)算的研究范疇,但主要停留于理論階段,未做具體的隱私計(jì)算實(shí)證.
本研究建立了一種新的隱私量化模型,將用戶(hù)的隱私狀況抽象為一種向量,影響隱私屬性的各影響因子為隱私向量的不同維度,通過(guò)隱私向量的取值定量化的表示用戶(hù)的隱私保護(hù)程度.考慮到不同因子對(duì)隱私的影響力不同,提出采用基于相關(guān)系數(shù)的CRITIC方法來(lái)確定相應(yīng)的權(quán)重.實(shí)證方面,基于新浪微博用戶(hù)的真實(shí)數(shù)據(jù),通過(guò)隱私量化模型得到相應(yīng)用戶(hù)的隱私量值.在此基礎(chǔ)上對(duì)隱私量值與用戶(hù)的基本屬性及行為信息進(jìn)行了對(duì)比分析,也從側(cè)面驗(yàn)證了隱私保護(hù)狀況與用戶(hù)相關(guān)行為表現(xiàn)之間的關(guān)系.
1.1用戶(hù)隱私量化模型本研究采用向量化的方式,通過(guò)構(gòu)建用戶(hù)隱私向量來(lái)表示用戶(hù)的隱私關(guān)注和隱私保護(hù)情況,以該隱私向量的取值來(lái)刻畫(huà)用戶(hù)隱私量值的大小,從而實(shí)現(xiàn)用戶(hù)隱私量化.考慮到用戶(hù)對(duì)不同隱私因子的重視程度不同,各隱私影響因子具有不同的權(quán)重,通過(guò)計(jì)算該隱私向量來(lái)實(shí)現(xiàn)隱私向量做量化刻畫(huà).由于在已有的研究中對(duì)用戶(hù)隱私量值的計(jì)算主要通過(guò)直接進(jìn)行各因子的權(quán)重簡(jiǎn)單疊加來(lái)實(shí)現(xiàn)[18],認(rèn)為各影響因子屬于同一維度且相互獨(dú)立,而忽略了各影響因子之間的相互影響.本研究將隱私向量作為空間中的向量指標(biāo),通過(guò)考慮各影響因子之間的相互關(guān)系確定其在隱私量值中的影響大小,以隱私向量的長(zhǎng)度(二范數(shù))來(lái)表示用戶(hù)的隱私量值的大小.
假設(shè)用戶(hù)j的隱私向量為Pj=(f1,f2,…,fn),fn表示與用戶(hù)隱私有關(guān)的量值因子,則用戶(hù)j的隱私量值Pj可以表示為
(1)
αi表示用戶(hù)對(duì)隱私影響因子fi的重視程度,即其權(quán)重的大小.
1.2確定隱私影響因子權(quán)重已有的研究主要通過(guò)信息熵理論等[18]方法確定相關(guān)因子權(quán)重的大小,在計(jì)算復(fù)雜度高的同時(shí)忽略了因子之間相互的影響作用,對(duì)此本研究采用考慮不同因子之間的相互關(guān)系的基于相關(guān)系數(shù)法的CRITIC[20]決策方法來(lái)確定各因子的權(quán)重.
1.2.1相關(guān)系數(shù)法 相關(guān)系數(shù)法的基本思路是通過(guò)各因子之間的相關(guān)系數(shù)來(lái)度量各因子重復(fù)信息的大小,是一種消除重復(fù)信息對(duì)綜合評(píng)價(jià)結(jié)果影響的客觀(guān)附權(quán)方法,具有顯著的理論和現(xiàn)實(shí)意義.從相關(guān)系數(shù)的數(shù)值上看,若2個(gè)因子之間的相關(guān)系數(shù)越接近于1,則他們的信息重復(fù)越嚴(yán)重,等于1,則完全重復(fù);反之,若2個(gè)因子間的相關(guān)系數(shù)越接近0,則他們的重新信息越少,等于0,則無(wú)任何重復(fù).各因子之間重合的信息越少,則能夠越全面的刻畫(huà)整體信息.多因子評(píng)價(jià)決策模型中因子往往不止2個(gè),因而借助相關(guān)系數(shù)矩陣來(lái)合理確定因子的權(quán)重.具體計(jì)算步驟如下.
Step1計(jì)算相關(guān)系數(shù)矩陣.首先將原始數(shù)據(jù)標(biāo)準(zhǔn)化,假設(shè)原始數(shù)據(jù)包含m個(gè)因子,則其相關(guān)系數(shù)矩陣
Step2按列求和.計(jì)算第j列(1-rij)的和,可得到反映第j個(gè)因子與其他因子信息重復(fù)程度的行向量為
Step3計(jì)算因子權(quán)重.將上述向量做歸一化處理,可得一組權(quán)向量,則可得各因子權(quán)重大小
(2)
此外考慮到在多因子評(píng)價(jià)中某項(xiàng)因子在所有被評(píng)價(jià)對(duì)象上的觀(guān)測(cè)值可能存在較大的差異,變異程度越大,則說(shuō)明該因子在被評(píng)價(jià)公式執(zhí)行時(shí)達(dá)到平均水平的難度越大,表明它越能夠區(qū)分各評(píng)價(jià)對(duì)象在該方面的性能,則該因子應(yīng)賦予較大的權(quán)重,反之則較小.
同時(shí)考慮因子變異性和因子間沖突性的2個(gè)重要因素.本研究采用由文獻(xiàn)[20]提出的客觀(guān)賦權(quán)方法.因子變異性用標(biāo)準(zhǔn)差體現(xiàn),以表明一個(gè)因子各評(píng)價(jià)方案之間取值差距的大小,標(biāo)準(zhǔn)差越大,表明各方案之間取值差距越大;而評(píng)價(jià)因子間沖突性則以因子間的相關(guān)性為基礎(chǔ)進(jìn)行考慮,即2個(gè)因子間具有較強(qiáng)的正相關(guān)將表明2個(gè)因子的沖突性較低.
(3)
其中Ij越大表示第j個(gè)因子所包含的信息量越大,即該因子的相對(duì)重要性越大,所以賦權(quán)重也相應(yīng)越大.第j個(gè)因子的權(quán)重
(4)
綜上,隱私量化公式(1)中因子αi即可通過(guò)計(jì)算Wj實(shí)現(xiàn),進(jìn)而實(shí)現(xiàn)用戶(hù)隱私量化.
在新浪微博的社交網(wǎng)絡(luò)平臺(tái)中,用戶(hù)之間主要存在關(guān)注、粉絲和好友3種關(guān)系形態(tài).關(guān)注和粉絲屬于單向關(guān)系,A用戶(hù)關(guān)注B用戶(hù),則A成為B的粉絲,A能夠單方面接收到來(lái)自用戶(hù)B發(fā)布的所有的微博信息,但B不會(huì)接收A發(fā)布的信息;好友關(guān)系即用戶(hù)A和用戶(hù)B互相關(guān)注,發(fā)布的信息雙方互相能夠接收到,具有較強(qiáng)的互動(dòng)屬性,屬于社交網(wǎng)絡(luò)中的一種強(qiáng)關(guān)系的體現(xiàn).
本研究通過(guò)編寫(xiě)JAVA網(wǎng)絡(luò)爬蟲(chóng)程序,利用新浪微博開(kāi)放授權(quán)的API數(shù)據(jù)接口,以一個(gè)初始用戶(hù)為起點(diǎn),以滾雪球的網(wǎng)狀數(shù)據(jù)采集方式,獲取到其所處的社交網(wǎng)絡(luò)環(huán)境的用戶(hù)和相應(yīng)微博數(shù)據(jù).考慮到數(shù)據(jù)規(guī)模情況,主要獲取了初始節(jié)點(diǎn)周?chē)?層好友關(guān)系網(wǎng)絡(luò)的數(shù)據(jù),即初始用戶(hù)本身、該用戶(hù)好友、該用戶(hù)好友的好友.這種獲取方式也在一定程度上杜絕了非活躍用戶(hù)的情況.歷時(shí)3個(gè)月獲取到來(lái)自新浪微博的32 386條用戶(hù)基本數(shù)據(jù)及2 000余萬(wàn)條相關(guān)的微博的數(shù)據(jù).用戶(hù)基本數(shù)據(jù)具體包含如下屬性.
1) 基本信息:用戶(hù)ID、用戶(hù)等級(jí)、微博數(shù)、粉絲數(shù)、關(guān)注數(shù)、好友數(shù)、粉絲列表、關(guān)注列表、好友列表(ID)、收藏?cái)?shù)、賬戶(hù)注冊(cè)時(shí)間.
2) 隱私屬性:隱私設(shè)置情況、與地理位置行為有關(guān)的微博行為數(shù)(簽到數(shù)、包含地理信息的微博數(shù)、包含地理位置的照片數(shù)).
具體與隱私有關(guān)的設(shè)置的數(shù)據(jù),由于數(shù)據(jù)獲取權(quán)限及平臺(tái)方數(shù)據(jù)的限制,主要取得3項(xiàng)主要設(shè)置信息:
1) 信息行為:是否允許所有人給我發(fā)私信(m);
2) 評(píng)論行為:是否允許所有人評(píng)論我的微博(c);
3) 地理位置信息:是否允許獲取我的地理位置相關(guān)的信息(g).
在具體獲取數(shù)據(jù)方面,由于相應(yīng)設(shè)置用戶(hù)目前僅可選擇允許或禁止,屬于布爾型數(shù)據(jù),則定義1為設(shè)置允許,0為設(shè)置禁止.
在新浪微博用戶(hù)數(shù)據(jù)中取m(私信)、c(評(píng)論)、g(地理信息)3項(xiàng)設(shè)置為隱私量化評(píng)價(jià)指標(biāo),通過(guò)這3項(xiàng)指標(biāo)具體反映用戶(hù)對(duì)隱私信息的保護(hù)情況.采用隱私量化模型的方法可以得到新浪微用戶(hù)j的隱私向量為
Pj=(mj,cj,gj).
(5)
向量Pj代表用戶(hù)j在隱私方面的保護(hù)情況,mj是用戶(hù)j對(duì)其他用戶(hù)發(fā)私信行為的隱私保護(hù)情況;cj表示用戶(hù)j對(duì)其他用戶(hù)評(píng)論行為的隱私保護(hù)情況;gj表示用戶(hù)對(duì)地理位置信息的保護(hù)情況.通過(guò)對(duì)3項(xiàng)影響因子在隱私量值的權(quán)重進(jìn)行分析研究,進(jìn)而對(duì)隱私向量取模實(shí)現(xiàn)用戶(hù)j隱私的定量化分析.具體分析步驟如下.
Step1數(shù)據(jù)預(yù)處理.由于獲取的用戶(hù)中可能存在一定的僵尸用戶(hù),即非活躍的、在微博環(huán)境中不產(chǎn)生價(jià)值的用戶(hù).本研究中的僵尸用戶(hù)的評(píng)判標(biāo)準(zhǔn)有以下2條:1) 無(wú)關(guān)注、無(wú)粉絲、無(wú)微博;2) 賬戶(hù)創(chuàng)建時(shí)間大于3個(gè)月,且發(fā)布的微博數(shù)低于10條且好友數(shù)低于10且粉絲數(shù)低于5.經(jīng)數(shù)據(jù)處理所剔除僵尸用戶(hù)約占總數(shù)據(jù)比為0.1%,獲得有價(jià)值的用戶(hù)數(shù)32 333個(gè).
此外由于對(duì)上述3項(xiàng)隱私設(shè)置量值的獲取數(shù)據(jù)靜態(tài)的用戶(hù)當(dāng)前的設(shè)置數(shù)據(jù),并未包含用戶(hù)的歷時(shí)變更情況.本研究利用用戶(hù)地理位置有關(guān)的信息行為對(duì)用戶(hù)的地理隱私設(shè)置情況進(jìn)行修正.將有歷史地理位置信息行為的用戶(hù)的地理位置設(shè)置情況數(shù)值修正為1.在私信和評(píng)論方面的行為數(shù)據(jù)因子的限制暫不做處理,也希望未來(lái)的學(xué)者可以考慮到相應(yīng)的因素.
Step2通過(guò)這32 333條用戶(hù)數(shù)據(jù),針對(duì)上述3項(xiàng)的隱私設(shè)置因子,可以得到一個(gè)R3×32 333的多因子評(píng)價(jià)矩陣.通過(guò)實(shí)際數(shù)據(jù)分析發(fā)現(xiàn)3個(gè)隱私設(shè)置因子間的相關(guān)性如表1所示.
表 1 因子相關(guān)性
注:** 在 0.01 級(jí)別(雙尾),相關(guān)性顯著.
從相關(guān)系數(shù)的角度看,3項(xiàng)隱私因子之間相關(guān)性較差,說(shuō)明相互之間信息重合程度低,3項(xiàng)因子組合能夠更多的表達(dá)隱私信息.采用CRITIC客觀(guān)賦權(quán)的方法,確定3項(xiàng)隱私因子在用戶(hù)的隱私量值中的影響權(quán)重如表2所示.
表 2 新浪微博用戶(hù)隱私影響因子權(quán)重
如表2所示,用戶(hù)對(duì)接收私信的重視程度最大,具體表現(xiàn)為不愿意遭到陌生人的打擾;地理位置信息次之,主要出于地理信息安全問(wèn)題泄露的考慮;評(píng)論行為的影響則相對(duì)較低,主要受限于用戶(hù)間需要互動(dòng)的影響.隱私影響因素的權(quán)重?cái)?shù)值上符合實(shí)際情況.
Step3對(duì)用戶(hù)的隱私向量取模,確定用戶(hù)的隱私量值
(6)
數(shù)值的高低表現(xiàn)了用戶(hù)對(duì)隱私保護(hù)情況的高低.數(shù)值上隱私量值越高,表示該用戶(hù)越開(kāi)放其隱私信息,對(duì)隱私信息的保護(hù)情況越差,從而對(duì)隱私關(guān)注的程度越低;反之隱私量值越低,表示該用戶(hù)的隱私信息越封閉,對(duì)隱私信息的保護(hù)意識(shí)越高,對(duì)高隱私關(guān)注的程度越高.通過(guò)真實(shí)的新浪用戶(hù)數(shù)據(jù)進(jìn)行隱私量化分析,具體隱私數(shù)據(jù)分布情況如表3所示.
從數(shù)據(jù)占比上看,高隱私群體和低隱私群體的總體分布占比為6.6%,屬于合理的區(qū)間,表明社交網(wǎng)絡(luò)中嚴(yán)格關(guān)注隱私信息和完全不關(guān)注隱私信息的
表 3 隱私量值分布
用戶(hù)在總體用戶(hù)中屬于少數(shù)群體,其中低隱私群體相對(duì)略高.在用戶(hù)隱私量值分布最明顯的區(qū)間為允許其他用戶(hù)評(píng)論且公開(kāi)地理信息,占比為79.8%,幾乎覆蓋絕大部分用戶(hù),也符合在微博社交網(wǎng)絡(luò)環(huán)境中,用戶(hù)為滿(mǎn)足自己表達(dá)和互動(dòng)的需求,絕大部分用戶(hù)愿意別人來(lái)評(píng)論他的信息,及公開(kāi)自己的地理位置信息.在私信、評(píng)論、地理信息3項(xiàng)隱私信息公開(kāi)中,單獨(dú)公開(kāi)私信有關(guān)的行為信息的用戶(hù)比例最小,總體占比為1.7%,與用戶(hù)隱私權(quán)重的占比也有一個(gè)較明顯的反饋,表明較多的用戶(hù)注重信息的保護(hù),不愿意被其他用戶(hù)打擾.單獨(dú)開(kāi)放評(píng)論或地理信息的用戶(hù)占比分別為3.3%、8.6%,出于與其他用戶(hù)互動(dòng)或展示自己地理位置信息的需求,選擇開(kāi)放相應(yīng)的隱私設(shè)置.
Step4用戶(hù)隱私量值與用戶(hù)基本屬性的相關(guān)性分析.
由于已有的研究成果在計(jì)算得出隱私量值后并未對(duì)隱私量值與用戶(hù)基本屬性、用戶(hù)行為數(shù)據(jù)等方面進(jìn)行相互驗(yàn)證和解釋說(shuō)明,本研究將通過(guò)對(duì)隱私量值的分布情況與用戶(hù)基本屬性進(jìn)行相關(guān)性分析及擬合,從實(shí)證角度解釋和驗(yàn)證所得隱私量值分布的合理性和所采用隱私量化模型的有效性.具體工作如表4所示.
表 4 隱私量值與用戶(hù)基本屬性的相關(guān)性
注:單元格包含零階(皮爾遜)相關(guān)性.
總體數(shù)據(jù)上看用戶(hù)的隱私量值與用戶(hù)的基本屬性之間相關(guān)系數(shù)均低于0.2.從相關(guān)系數(shù)表中也能看出用戶(hù)的關(guān)注數(shù)和用戶(hù)的好友數(shù)呈明顯的相關(guān),用戶(hù)的等級(jí)和時(shí)間呈明顯相關(guān).
1) 隱私量值與注冊(cè)時(shí)長(zhǎng).通過(guò)隱私量值與用戶(hù)的注冊(cè)時(shí)長(zhǎng)可獲取到其相關(guān)皮爾遜系數(shù)為0.114,對(duì)其做二項(xiàng)式相關(guān)性擬合,可以發(fā)現(xiàn):盡管從相關(guān)性的角度看,隱私量值和注冊(cè)時(shí)長(zhǎng)之間不存在明顯的相關(guān)性分布趨勢(shì),但從二項(xiàng)式擬合注冊(cè)時(shí)長(zhǎng)的發(fā)展趨勢(shì)和隱私量值的變化角度,呈現(xiàn)出注冊(cè)時(shí)間越短、隱私量值越低的趨勢(shì).圖1中也可以明顯發(fā)現(xiàn)公開(kāi)評(píng)論和地理信息用戶(hù)的注冊(cè)時(shí)長(zhǎng)明顯較其他隱私值的用戶(hù)注冊(cè)時(shí)長(zhǎng)低,一定程度上反映了注冊(cè)時(shí)間短、隱私保護(hù)意識(shí)低的狀態(tài).而有明確的選擇只公開(kāi)私信的用戶(hù)的平均注冊(cè)時(shí)長(zhǎng)最長(zhǎng),反映了此類(lèi)用戶(hù)明確的隱私保護(hù)意識(shí)行為;同時(shí)公開(kāi)評(píng)論和私信兩項(xiàng)設(shè)置的用戶(hù)的平均注冊(cè)時(shí)長(zhǎng)也相對(duì)較長(zhǎng)一些,也在一定程度上反映了用戶(hù)注冊(cè)時(shí)長(zhǎng)越長(zhǎng),對(duì)隱私保護(hù)的選擇意識(shí)會(huì)有相應(yīng)的提高.
圖 1 隱私量值與平均注冊(cè)時(shí)長(zhǎng)分布
2) 隱私量值與粉絲數(shù).隱私量值與粉絲數(shù)分布如圖2所示.
圖 2 隱私量值與粉絲數(shù)分布
對(duì)不同隱私量值群體平均粉絲數(shù)做相關(guān)性分析,并對(duì)不同隱私量值下平均粉絲數(shù)分布情況做多項(xiàng)式擬合,發(fā)現(xiàn)隨著用戶(hù)隱私量值的提升即隱私關(guān)注度降低,用戶(hù)的粉絲數(shù)呈明顯的增加趨勢(shì),即隱私保護(hù)意識(shí)越低,粉絲數(shù)越大.高隱私關(guān)注的用戶(hù)群體,在開(kāi)放評(píng)論設(shè)置后,粉絲數(shù)有明顯的提升,地理因素對(duì)粉絲的影響方面效果略差于私信設(shè)置,在開(kāi)放私信設(shè)置后,粉絲數(shù)明顯提升.將評(píng)論設(shè)置替換為地理設(shè)置后由于缺乏互動(dòng)相應(yīng)粉絲數(shù)有所下降.
3) 隱私量值與關(guān)注數(shù)和好友數(shù).從總體二項(xiàng)擬合趨勢(shì)看(圖3),隱私保護(hù)情況越差的用戶(hù)關(guān)注數(shù)越大.對(duì)用戶(hù)而言有選擇的開(kāi)放評(píng)論設(shè)置,可以產(chǎn)生更多的社交行為,這類(lèi)用戶(hù)關(guān)注的用戶(hù)數(shù)也相應(yīng)較多;當(dāng)開(kāi)放地理信息后,出于保護(hù)地理信息的考慮,用戶(hù)的關(guān)注水平有所降低;而開(kāi)放私信與評(píng)論起同等作用,希望有較多的互動(dòng),關(guān)注的用戶(hù)相對(duì)增加.低隱私群體的關(guān)注數(shù)總體也是最高的,基本符合預(yù)期.
隱私量值與用戶(hù)的好友數(shù)變化,整體不太顯著,但能夠看出隨著隱私權(quán)限的開(kāi)放,用戶(hù)的好友數(shù)逐漸增加,其中由評(píng)論和私信引起的互動(dòng)因素的影響較明顯,地理信息開(kāi)放與好友數(shù)的變化呈微負(fù)向相關(guān),可能與用戶(hù)對(duì)地理信息的隱私保護(hù)觀(guān)念有關(guān).對(duì)比關(guān)注數(shù)和好友數(shù)的擬合圖(圖4),也能反映前文提到的好友數(shù)與關(guān)注數(shù)的明顯相關(guān)性.
4) 隱私量值與用戶(hù)發(fā)布的微博數(shù).隱私量值與用戶(hù)微博數(shù)略微呈現(xiàn)正相關(guān)趨勢(shì)(圖5),隱私量值越低微博數(shù)相對(duì)越多.在隱私設(shè)置中開(kāi)放評(píng)論和地理信息而關(guān)閉私信的用戶(hù)平均微博數(shù)明顯較低,主要原因可能在于用戶(hù)明確的關(guān)閉私信設(shè)置表明有一定的隱私關(guān)注意識(shí),且開(kāi)放了地理信息后發(fā)布微博的行為考慮到隱私的問(wèn)題也有所降低.允許評(píng)論和私信的設(shè)置開(kāi)放后,用戶(hù)的互動(dòng)積極性提高,因而微博數(shù)也較高.
圖 3 隱私量值與用戶(hù)關(guān)注數(shù)
圖4隱私量值與好友數(shù)
Fig.4Privacyvaluesandthenumberoffriends
圖 5 隱私量值與微博數(shù)
5) 性別因素.如圖6所示,從性別上看,獲取的用戶(hù)數(shù)據(jù)中女性與男性的比例為57.7比42.3,女性用戶(hù)相對(duì)較多.女性的平均隱私量值為0.424 8,男性的平均隱私量為0.432 2,差異不明顯.從數(shù)據(jù)分布比例來(lái)看,女性在地理信息權(quán)限開(kāi)放的比例較男性高,反映為女性用戶(hù)會(huì)有較多的地理位置信息表露的行為,同時(shí)又通過(guò)關(guān)閉私信和評(píng)論來(lái)避免別人的打擾來(lái)保護(hù)隱私.而在地理信息表露的基礎(chǔ)上評(píng)論設(shè)置開(kāi)放的比例也明顯較男性低,也在一定程度上反映女性用戶(hù)在社交網(wǎng)絡(luò)中對(duì)隱私保護(hù)的意識(shí)較男性相對(duì)高一些.
圖6不同性別隱私保護(hù)情況
Fig.6Privacyprotectionofdifferentgender
6) 微博認(rèn)證情況.如圖7所示,認(rèn)證用戶(hù)群體的隱私量值的均值為0.434,總體上高于普通用戶(hù)的平均水平,隱私保護(hù)程度相對(duì)開(kāi)放.總體用戶(hù)數(shù)據(jù)中5.42%的用戶(hù)為認(rèn)證用戶(hù),認(rèn)證用戶(hù)中有較多為的是企業(yè)賬號(hào).從隱私量值看10.3%的認(rèn)證用戶(hù)屬于低隱私群體,明顯多于非認(rèn)證用戶(hù);開(kāi)放評(píng)論及開(kāi)放評(píng)論與私信設(shè)置的用戶(hù)明顯較普通用戶(hù)的數(shù)據(jù)占比大,與地理信息有關(guān)的行為的保護(hù)程度也較普通用戶(hù)高,符合認(rèn)證賬號(hào)強(qiáng)互動(dòng)和信息發(fā)布的要求.
圖 7 不同認(rèn)證情況隱私量值分布
隨著互聯(lián)網(wǎng)的飛速發(fā)展,給人們的社交活動(dòng)帶來(lái)了更好的體驗(yàn),但同時(shí)也為社交網(wǎng)絡(luò)用戶(hù)的隱私保護(hù)提出了更多的考驗(yàn).如何更好保護(hù)用戶(hù)隱私成為擺在社交平臺(tái)方、監(jiān)管方和社交網(wǎng)絡(luò)用戶(hù)面前的一個(gè)重要的問(wèn)題.本文從用戶(hù)隱私保護(hù)情況入手,建立用戶(hù)隱私向量,通過(guò)考慮各因子影響大小對(duì)用戶(hù)隱私進(jìn)行了量化描述,并通過(guò)新浪微博用戶(hù)數(shù)據(jù)進(jìn)行實(shí)證分析,對(duì)用戶(hù)隱私量值與用戶(hù)相關(guān)屬性進(jìn)行了相關(guān)分析,從另一方面驗(yàn)證和解釋模型的可行性以及揭示用戶(hù)的相應(yīng)網(wǎng)絡(luò)行為和用戶(hù)隱私量值之間的關(guān)系.研究發(fā)現(xiàn),由于新浪微博屬于一個(gè)信息發(fā)布和傳播的平臺(tái),大部分的用戶(hù)傾向于傳播信息,因而用戶(hù)對(duì)評(píng)論的隱私保護(hù)情況相對(duì)較弱,而用戶(hù)的私信行為和包含地理位置信息的行為則受用戶(hù)的隱私關(guān)注情況影響明顯.同時(shí)用戶(hù)的隱私量值與用戶(hù)的好友數(shù)、關(guān)注數(shù)、微博數(shù)及性別和認(rèn)證情況也有一定的相關(guān)性.從實(shí)用的角度,如果平臺(tái)服務(wù)方能提供更全面的隱私保護(hù)機(jī)制將極大地增加用戶(hù)對(duì)微博的使用體驗(yàn),如增加信息發(fā)布環(huán)境選項(xiàng)、信息接收來(lái)源選項(xiàng)、數(shù)據(jù)分享對(duì)象選項(xiàng)等.同時(shí)作為微博用戶(hù)在使用過(guò)程中及時(shí)的變更隱私信息保護(hù)提醒也具有較大的隱私保護(hù)意義.本文通過(guò)向量化的方式建立隱私量化模型,為在線(xiàn)社交網(wǎng)絡(luò)用戶(hù)隱私保護(hù)提供了一定的建議,在研究思路上也為未來(lái)的研究者提供了新的參考.但由于所獲取數(shù)據(jù)廣度和深度有限,包括在研究方法的選取上可能存在諸多未及深入的地方,希望未來(lái)的研究者能夠有更加深入的研究.
[1] 郭龍飛. 社交網(wǎng)絡(luò)用戶(hù)隱私關(guān)注動(dòng)態(tài)影響因素及行為規(guī)律研究[D]. 北京:北京郵電大學(xué),2013.
[2] WANG X G. Empirical analysis on behavior characteristics and relation characteristics of micro-blog users take“sina micro-blog” for example[J]. Library and Information Service,2010,54(14):66-70.
[3] WU Y, ZHOU C, CHEN M, et al. Human comment dynamics in on-line social systems[J]. Physica A:Statistical Mechanics and Its Applications,2010,389(24):5832-5837.
[4] 于洪,楊顯. 微博中節(jié)點(diǎn)影響力度量與傳播路徑模式研究[J]. 通信學(xué)報(bào),2012,33(S1):96-102.
[5] BABBITT R, WONG J, CHANG C. Towards the modeling of personal privacy in ubiquitous computing environments[C]//Computer Software and Applications Conference,2007. COMPSAC 2007. DOI:10.1109/compsac.2007.224.
[6] HULL R, KUMAR B, LIEUWEN D, et al. Enabling context-aware and privacy-conscious user data sharing[C]//Mobile Data Management,2004. Proceedings. 2004 IEEE International Conference on. DOI:10.1109/mdm.2004.1263065.
[7] IACHELLO G, TRUONG K N, ABOWD G D, et al. Prototyping and sampling experience to evaluate ubiquitous computing privacy in the real world[C]//Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. DOI:10.1145/1124772.1124923.
[8] ZENG Y, SUN Y, XING L, et al. Trust-aware privacy evaluation in online social networks[C]//Communications (ICC), 2014 IEEE International Conference on. DOI:10.1109/icc.2014.6883439.
[9] 劉向宇,王斌,楊曉春. 社會(huì)網(wǎng)絡(luò)數(shù)據(jù)發(fā)布隱私保護(hù)技術(shù)綜述[J]. 軟件學(xué)報(bào),2014,25(3):576-590.
[10] 李征仁. 移動(dòng)互聯(lián)網(wǎng)環(huán)境下用戶(hù)隱私關(guān)注的影響因素及隱私信息擴(kuò)散規(guī)律研究[D]. 北京:北京郵電大學(xué),2014.
[11] 沈洪洲,宗乾進(jìn),袁勤儉,等. 我國(guó)社交網(wǎng)絡(luò)隱私控制功能的可用性研究[J]. 計(jì)算機(jī)應(yīng)用,2012,32(3):690-693.
[12] 葛偉平. 隱私保護(hù)的數(shù)據(jù)挖掘[D].上海:復(fù)旦大學(xué),2005.
[13] 石碩. 社交網(wǎng)站用戶(hù)隱私披露行為探究:隱私計(jì)算理論與TPB模型的整合[D]. 南京:南京大學(xué),2011.
[14] GAO X, YANG K. Factors affecting internet users information privacy protection[J]. J Intelligence,2011,4:39-42.
[15] JIANG X, JI S B. Conceptual model of the factors influencing consumer online privacy concern and behavior intention[J]. Science-Technology and Management,2009,5:21.
[16] 張志杰,呂廷杰. 移動(dòng)LBS用戶(hù)接受模型的實(shí)證研究[J]. 北京郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2012,14(1):56-61.
[17] 王斌,段友祥. 面向普適計(jì)算的用戶(hù)隱私量化方法研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2011,47(27):1-5.
[18] ZHU H Y, WU L R, LU J. Research on quantifying user privacy on social networking sites[J]. J Tsinghua University (Science and Technology),2015,54(3):402-406.
[19] 李鳳華,李暉,賈焰,等. 隱私計(jì)算研究范疇及發(fā)展趨勢(shì)[J]. 通信學(xué)報(bào),2016,37(4):1-11.
[20] 林齊寧. 決策分析教程[M]. 北京:清華大學(xué)出版社,2013.