牛彬彬
個人信息保護(hù)法強(qiáng)調(diào)個體的不可識別性,側(cè)重于在個體維度保護(hù)數(shù)據(jù)主體的隱私利益。這也符合大多數(shù)人的心理預(yù)期,認(rèn)為自己只要不被他人不法識別,就可以保障自己的數(shù)據(jù)隱私利益不受侵犯。隨著用戶數(shù)量的不斷增多和用戶數(shù)據(jù)體量的不斷龐大化,數(shù)據(jù)處理者的分析和學(xué)習(xí)對象也不再局限于個體,“不問因果,只問相關(guān);只做歸納,不做演繹”[1]的大數(shù)據(jù)運(yùn)作邏輯,使數(shù)據(jù)處理者的興趣逐漸轉(zhuǎn)移到學(xué)習(xí)并預(yù)測群體的行為上。此舉可謂“一箭雙雕”,群組級別的分析和處理,既可以避免精確識別個體,又可以極大提高數(shù)據(jù)處理和分析的效率。這也直接促進(jìn)了群組推薦系統(tǒng)的出現(xiàn)和應(yīng)用[2]11,數(shù)據(jù)分析的對象也從單個數(shù)據(jù)個體轉(zhuǎn)變?yōu)榫哂泄餐卣鞯臄?shù)據(jù)集群。以群體作為基本單位的數(shù)據(jù)分析與決策行為越來越普遍,數(shù)據(jù)驅(qū)動的決策程序從過去的“識別+分析”模式演變?yōu)椤巴ㄟ^影響由個體組成的數(shù)據(jù)集群,并間接作用于個體”的過程(1)以數(shù)據(jù)群組為基本單位的數(shù)據(jù)分析以及個性化推薦的方法在數(shù)據(jù)分析和應(yīng)用中的作用,可以在避免識別個體的前提下,實(shí)現(xiàn)群體化的個性推薦和定向營銷,借以影響單個數(shù)據(jù)主體的行為。。
然而,群組化分類技術(shù)卻對數(shù)據(jù)隱私保護(hù)提出新問題:在群組畫像與決策中,越來越少地用到傳統(tǒng)意義上的身份標(biāo)識,在這一過程中創(chuàng)建了不能還原到個體的身份標(biāo)識,個體在保持匿名的前提下,可以根據(jù)自身的行為、傾向和其他的特征被分類到一起,組成一個個單體式的群組。數(shù)據(jù)控制者通過作用于這些單體式的群組進(jìn)而影響群組內(nèi)的個體行為。由此,原本屬于個體的、孤立的隱私利益彼此關(guān)聯(lián),同時也生發(fā)出群體層面的隱私形態(tài),數(shù)據(jù)主體的數(shù)據(jù)隱私利益面臨新風(fēng)險(xiǎn):借助于算法模型通過分組方式進(jìn)行的個體解析,使得公共組織或者商業(yè)機(jī)構(gòu)能夠以單體化的方式對分析或者決策對象進(jìn)行完美歧視,并在這一過程中破壞甚至消解個人的完整性[3],導(dǎo)致算法世界中的歧視變得越來越普遍。不僅如此,通過對群體的解析,數(shù)據(jù)處理者還能夠?qū)崿F(xiàn)對群體行為的監(jiān)視,并識別特定群組的性質(zhì)甚至反向識別個體身份。由此,對于數(shù)據(jù)隱私的侵犯也開始從個體的窺探向群體的規(guī)?;绊戅D(zhuǎn)變。本文試圖從超個體的“群體”視角發(fā)現(xiàn)新的個人信息侵犯風(fēng)險(xiǎn)以及其背后的因果邏輯。
數(shù)據(jù)和算法驅(qū)動所形成的群組并非雜亂無章,F(xiàn)loridi用極其淺顯直白的語言說明了群組的形成邏輯:目的(為什么進(jìn)行分組)——抽象方法(怎樣分組)——結(jié)果(得到的組)[4]88。由此可知,發(fā)現(xiàn)和分析數(shù)據(jù)主體之間的共同特征是群組形成過程中最為關(guān)鍵的部分,此即Floridi所稱的抽象方法,通過匯總展示個體成員偏好的共同標(biāo)簽,形成群組偏好模型,并將其輸出為整體的偏好模型。因此,共同標(biāo)簽是生成一個群組的基本前提。
描述群組之內(nèi)共同特征的標(biāo)簽可以稱為共同標(biāo)簽,也有學(xué)者將其稱為共享標(biāo)簽(shared lebel)[5]。共同標(biāo)簽是形成群組的一個關(guān)鍵元素,相當(dāng)于一組數(shù)據(jù)的最大公約數(shù),描述一個群組之內(nèi)的數(shù)據(jù)主體共同擁有的屬性或者行為傾向。標(biāo)簽是劃分?jǐn)?shù)據(jù)群組的一項(xiàng)重要參考,根據(jù)不同數(shù)據(jù)主體之間所擁有的共同標(biāo)簽,數(shù)據(jù)處理能夠擁有一個個基于系統(tǒng)識別而獲得的、以數(shù)據(jù)主體的行為或者屬性以及其他因素為內(nèi)容的、群組內(nèi)各個數(shù)據(jù)主體相互聯(lián)系的“畫像”,或者稱其為“群組畫像”。這種畫像是由成百上千個具有共同行為傾向的個體共同組建而成的,在一定程度上失去了個體指向性。而群組之內(nèi),一個個標(biāo)簽共同構(gòu)成了群組的“身份畫像”,數(shù)據(jù)只需要識別出具有特定行為特征或者屬性特征的群組,即可通過算法間接實(shí)現(xiàn)個體控制。以差異化定價為例,數(shù)據(jù)處理者會根據(jù)消費(fèi)者購買次數(shù)、瀏覽次數(shù)對網(wǎng)頁瀏覽者進(jìn)行分組,第一次購買或者瀏覽的會分在同一群組,而瀏覽多次的又會被分在一個群組,隨后使用差異化定價算法,對不同群組內(nèi)的成員做出不同的價格決策。正如某些學(xué)者所言,“從前粗放式的歧視定價行為已經(jīng)演化為更為精準(zhǔn)的消費(fèi)者分組。在這一過程中,商家會為我們貼上一個個標(biāo)簽”[6]。這些標(biāo)簽成為數(shù)據(jù)處理者進(jìn)行定價決策的重要參考。例如,某些專門為商業(yè)數(shù)據(jù)平臺提供個性化推送服務(wù)的平臺(如個推學(xué)院等),即在用戶群中大規(guī)模提取用戶的行為標(biāo)簽、場景標(biāo)簽、屬性標(biāo)簽、興趣標(biāo)簽以及針對特殊行業(yè)設(shè)置的定制化標(biāo)簽,并將其應(yīng)用于商業(yè)領(lǐng)域中。
共同標(biāo)簽的形成有兩種方式,一種是用戶在接受服務(wù)注冊信息時主動提供給數(shù)據(jù)控制者的,這也被稱為顯式的偏好獲?。灰环N是數(shù)據(jù)控制者或者數(shù)據(jù)處理者在數(shù)據(jù)處理過程中,從已有數(shù)據(jù)中推斷出的,這也被稱為隱式的偏好獲取[7]。前者是數(shù)據(jù)主體將自己的偏好或者興趣主動提供給數(shù)據(jù)控制者,以便于獲取平臺提供的自動化推送服務(wù)。例如,在注冊微博或者小紅書等APP時,此類應(yīng)用APP一般都會要求用戶選擇自己感興趣的項(xiàng)目,便于其向用戶提供信息推送服務(wù)。但是也有一些應(yīng)用則并不要求用戶提供相關(guān)的信息,而是通過用戶的操作來推斷其可能的愛好和行為傾向,最為典型的就是淘寶等購物APP網(wǎng)站,其根據(jù)用戶的瀏覽、點(diǎn)擊情況,推斷用戶的喜好,并進(jìn)行相應(yīng)的自動化推送。在這種操作模式下,數(shù)據(jù)處理者大多使用群組發(fā)現(xiàn)技術(shù)(2)群組發(fā)現(xiàn)技術(shù)是通過分析用戶的歷史偏好數(shù)據(jù),然后將獲取的用戶的歷史偏好信息結(jié)合聚類算法來構(gòu)建群組。[2]12發(fā)現(xiàn)和甄別對數(shù)據(jù)處理者而言較有意義的數(shù)據(jù)群組。在此種群組內(nèi),共享標(biāo)簽的生成是自動化算法進(jìn)行規(guī)?;\(yùn)算后的結(jié)果。數(shù)據(jù)主體主動向數(shù)據(jù)處理者提供自己的行為傾向或者愛好等個人信息,在某種程度上是數(shù)據(jù)主體主動加入某群組的表現(xiàn),數(shù)據(jù)主體雖然沒有明確表示自己同意被劃入某特定群體中,但是其主動提供自己信息的行為實(shí)際上就是以默示的方式表明允許數(shù)據(jù)控制者對自己進(jìn)行劃分。因?yàn)槠湎喈?dāng)于告訴信息處理者自己欲被劃入哪一小組,并希望在向數(shù)據(jù)處理者提供標(biāo)簽之后獲得更多的信息便利。但是第二種分組的方式是在個體不知情的前提下分析獲得的,尤其是“算法黑箱”的存在導(dǎo)致數(shù)據(jù)處理者難以預(yù)料算法以何種方式對數(shù)據(jù)主體進(jìn)行分組,數(shù)據(jù)主體也根本無法知曉數(shù)據(jù)處理者在數(shù)據(jù)分析過程中又被貼上何種標(biāo)簽。由于這種事前的不知情,第二種被動型分組方式將面臨更大的歧視或者差別化待遇等信息侵權(quán)風(fēng)險(xiǎn)。
群組的“共同標(biāo)簽”使得特定數(shù)據(jù)集合具備了價值增量[8]229。在數(shù)據(jù)交易中,數(shù)據(jù)需求方根據(jù)數(shù)據(jù)標(biāo)簽可以被快速地確定購買對象,而數(shù)據(jù)供給方也可以根據(jù)群組的“標(biāo)簽”獲得議價能力,能夠極大地提升數(shù)據(jù)要素市場的活力,然而這也更容易引發(fā)跨場景分析和應(yīng)用中的算法歧視風(fēng)險(xiǎn),特定的群組可能成為算法歧視的對象。例如,數(shù)據(jù)交易平臺中有一組經(jīng)常尋找無糖食品的、被標(biāo)注為“糖尿病傾向”的數(shù)據(jù)集合,如果被保險(xiǎn)公司購買,這些用戶可能會被標(biāo)注為“高風(fēng)險(xiǎn)群體”,進(jìn)而提高他們的保費(fèi)[9]。在數(shù)據(jù)交易中,數(shù)據(jù)集群上的標(biāo)簽是數(shù)據(jù)的供給方和需求方確定是否就該特定數(shù)據(jù)進(jìn)行數(shù)據(jù)交易的重要參考依據(jù)。線上的數(shù)據(jù)交易總是經(jīng)過數(shù)據(jù)交易平臺進(jìn)行的,數(shù)據(jù)交易平臺會將供給方提供的數(shù)據(jù)規(guī)格(規(guī)模、數(shù)量、格式、大小)、數(shù)據(jù)字段等基本信息和數(shù)據(jù)樣例發(fā)送給需求方,需求方根據(jù)用戶標(biāo)簽以及其他信息決定是否參與數(shù)據(jù)的競價與購買[8]233??梢?,具有共同標(biāo)簽的數(shù)據(jù)群組是確定數(shù)據(jù)價格的重要參考依據(jù),是數(shù)據(jù)資產(chǎn)化的重要條件。
共享標(biāo)簽的生成與群組的創(chuàng)建是在算法的驅(qū)動下完成的,算法對于數(shù)字世界中群體的形成與創(chuàng)建起到?jīng)Q定性的作用。利用算法進(jìn)行群組化計(jì)算(group computation),數(shù)據(jù)處理者在海量數(shù)據(jù)中尋找數(shù)據(jù)與數(shù)據(jù)之間的微妙關(guān)聯(lián),發(fā)現(xiàn)數(shù)據(jù)主體之間甚至數(shù)據(jù)群組之間的相關(guān)關(guān)系,具有相同或者相似行為傾向的個體經(jīng)由算法的作用形成一個個群組化單體。群組之間的關(guān)聯(lián)分析能夠發(fā)現(xiàn)數(shù)據(jù)之間最為潛在和微妙的關(guān)聯(lián)關(guān)系,由此生成連算法設(shè)計(jì)者都無法知曉系統(tǒng)生成的標(biāo)簽類型,由此形成新的群組[10],此即標(biāo)簽挖掘技術(shù)[11]。
目前的個性化推薦主要是通過群組化數(shù)據(jù)分析挖掘?qū)崿F(xiàn)的,此種算法類型又被稱為群組推薦算法。這種群組推薦算法是為了滿足群體中所有成員共同愛好或者共同行為傾向而設(shè)計(jì)的算法系統(tǒng),其涉及群組用戶偏好獲取、群組發(fā)現(xiàn)、群組偏好融合和群組推薦等幾個方面。具體而言,群組推薦算法的工作原理主要分為以下三步:第一步,在對成員的共同屬性或者行為偏好進(jìn)行分析匯總的基礎(chǔ)上形成用戶群組;第二步,群組預(yù)測推薦,并對項(xiàng)目預(yù)測評分;第三步,推薦結(jié)果[2]12-13。目前,這種組推薦系統(tǒng)已經(jīng)廣泛應(yīng)用于視頻服務(wù)、購物、旅行、學(xué)習(xí)和餐飲等諸多領(lǐng)域,與傳統(tǒng)的個性化推薦不同,群組推薦的對象是在用戶的屬性或者行為傾向上具有一定相似性的群組用戶。由此可見,數(shù)據(jù)群組的發(fā)現(xiàn),是數(shù)據(jù)時代算法發(fā)現(xiàn)并解析個體的重要路徑,數(shù)據(jù)處理者按照自己的目的和方法將個人數(shù)據(jù)集群分門別類,并在此基礎(chǔ)上實(shí)現(xiàn)對個體的支配。
具體而言,群組發(fā)現(xiàn)和群組偏好融合是群組推薦算法構(gòu)建群組的兩種主要方式。其中,群組發(fā)現(xiàn)是指通過分析用戶的偏好數(shù)據(jù),通過個體之間的相似度高低來劃分群組。此種劃分方式是針對顯式的群組偏好獲取。群組偏好融合是數(shù)據(jù)處理者使用偏好融合算法將所有用戶的偏好轉(zhuǎn)變?yōu)閱蝹€的群組偏好,然后推薦系統(tǒng)根據(jù)群組的偏好進(jìn)行推薦[10]。后者主要用于用戶隱式偏好的發(fā)現(xiàn)和獲取,即通過用戶在互聯(lián)網(wǎng)中的行為推斷用戶的可能偏好,并在此基礎(chǔ)上進(jìn)行群組構(gòu)建。在技術(shù)角度,偏好融合又包括模型融合群組推薦結(jié)構(gòu)和推薦融合群組推薦結(jié)構(gòu)兩種[2]11。兩種算法結(jié)構(gòu)如圖1、圖2所示。
圖1 模型融合群組推薦結(jié)構(gòu)
圖2 推薦融合群組推薦結(jié)構(gòu)
程序之間合縱連橫,極大提升了計(jì)算力,在大數(shù)據(jù)持續(xù)供給下,算法也具備了高效的分類篩選能力和超乎想象的預(yù)測能力[12]。以數(shù)據(jù)群組作為基本的數(shù)據(jù)分析處理基本單位的情況也變得越來越普遍,聚類分析、關(guān)聯(lián)分析和預(yù)測分析等群組化分析模式得到廣泛的運(yùn)用,由此也推動數(shù)字社會中的數(shù)據(jù)分析進(jìn)入超越個體的“群體化個性預(yù)測”時代。這種群組化、規(guī)模化的分析預(yù)測技術(shù)有意或者無意地增強(qiáng)了數(shù)字對人的干預(yù)能力,數(shù)據(jù)處理者依靠算法不斷進(jìn)行數(shù)據(jù)分類與社會分選,針對群體的歧視與差別待遇悄然發(fā)生,數(shù)據(jù)侵權(quán)的風(fēng)險(xiǎn)輪廓也隨之改變。
“群體化個性預(yù)測”中的數(shù)據(jù)處理活動呈現(xiàn)出處理批量化、群組行為同質(zhì)化和部分群體邊緣化三個特征。所謂處理批量化,是指數(shù)據(jù)分析對象不再是單獨(dú)的個體,而是具有相同或相似特征的數(shù)據(jù)群組。群組的同質(zhì)化,是指在規(guī)?;瘮?shù)據(jù)處理的背景下,群組內(nèi)數(shù)據(jù)主體的行為可能會趨于同質(zhì)化。數(shù)據(jù)處理者在進(jìn)行規(guī)?;臄?shù)據(jù)處理過程中,通過持續(xù)監(jiān)測組內(nèi)用戶并對用戶不斷擴(kuò)大的數(shù)據(jù)配置文件并進(jìn)行算法分析后,將數(shù)據(jù)反饋給系統(tǒng)的設(shè)計(jì)人員,算法設(shè)計(jì)者根據(jù)數(shù)據(jù)處理者的利益訴求重新配置算法應(yīng)用程序,從而不斷改變?nèi)航M內(nèi)個人的選擇環(huán)境,使組內(nèi)個別成員適應(yīng)群組整體的行為模式[13]。通過“助推(nudge)”(3)“助推”是由桑斯坦和泰勒提出的概念,它涉及利用行為科學(xué)的洞察力來建構(gòu)和選擇架構(gòu),以“推動”人們采取福利最大化或服務(wù)于公共利益的行動。輕推式干預(yù)旨在通過優(yōu)化人的選擇架構(gòu),讓人們的行為朝著預(yù)期的方向改變,以此幫助人自由地做出最佳選擇。參見:賈浩然.助推及其對技術(shù)設(shè)計(jì)的啟示[J].自然辯證法研究,2018(6):44-50.的方式,以數(shù)據(jù)處理者利潤最大化為目的,并結(jié)合組內(nèi)數(shù)據(jù)主體的傾向,針對性、目的性地修改組內(nèi)數(shù)據(jù)主體的選擇環(huán)境,潛移默化地影響數(shù)據(jù)主體的認(rèn)知框架和價值選擇,達(dá)到數(shù)據(jù)處理者所欲實(shí)現(xiàn)的商業(yè)目的,由此導(dǎo)致群組內(nèi)個體的行為不斷趨同。與此同時,算法系統(tǒng)也會自動將無法獲得高額利潤的數(shù)據(jù)群組排除在進(jìn)一步影響的范圍之外,系統(tǒng)性地邊緣化那些對數(shù)據(jù)控制者而言低價值的數(shù)據(jù)群組、或者被潛在歧視的群組[13]。
然而風(fēng)險(xiǎn)也由此產(chǎn)生。算法是設(shè)計(jì)者按照一定規(guī)則解決某一類問題的、明確且有限的步驟[14],其往往從“最少努力”原則出發(fā);同樣算法設(shè)計(jì)者在進(jìn)行算法設(shè)計(jì)時,共同標(biāo)簽就理所當(dāng)然地成為數(shù)據(jù)處理者對數(shù)據(jù)進(jìn)行分組的依據(jù)。長期以數(shù)據(jù)群組作為分析和處理對象,也會導(dǎo)致算法認(rèn)知的范疇化和刻板化,范疇內(nèi)部的相似性和范疇之間的差異性也隨之被夸大[15],由此也就產(chǎn)生了同一數(shù)據(jù)在應(yīng)用場景內(nèi)群組內(nèi)部的同質(zhì)化和異質(zhì)群組的邊緣化,并進(jìn)一步夸大甚至扭曲既定的偏見。由此觀之,群組化分析技術(shù)雖具有諸多技術(shù)優(yōu)勢,但同時卻削減個體主體性,個體成為混雜于群體之中的渺小顆粒,淪為數(shù)據(jù)處理者分析與控制的對象,其可能引起的負(fù)外部性社會效應(yīng)不容小覷。
新的風(fēng)險(xiǎn)催生新的利益形態(tài)。從“數(shù)據(jù)隱私”概念提出以來,傳統(tǒng)的隱私概念一直經(jīng)歷著不斷瓦解與重塑的過程,并形成以“對信息進(jìn)行數(shù)字化或其他形式的收集、儲存、流通、分享中產(chǎn)生的隱私期待”[16]為內(nèi)容的數(shù)據(jù)化隱私理念[17],這也就意味著,數(shù)據(jù)時代的“數(shù)據(jù)隱私”概念已經(jīng)超脫于傳統(tǒng)私法概念上的以保持生活空間私密性或者以個人事務(wù)自決為基礎(chǔ)的隱私形態(tài)[17],而更加注重具體應(yīng)用場景中的隱私期待。群組化便是數(shù)據(jù)應(yīng)用中的一種特殊場景,在由數(shù)據(jù)驅(qū)動所形成的群組中,不當(dāng)?shù)臄?shù)據(jù)分析和處理方式誘發(fā)群組之內(nèi)新的利益形態(tài)。
群組數(shù)據(jù)都是由單個數(shù)據(jù)構(gòu)成的,所以在群組數(shù)據(jù)之上,個體利益是極為重要的利益內(nèi)容。具體而言,群組數(shù)據(jù)中的個體大致享有如下利益。第一,接受適當(dāng)推送的權(quán)利。利用大數(shù)據(jù)分析技術(shù)生成信息算法,極大增加了數(shù)據(jù)群組被攻擊的可能性。以群組為單位的規(guī)?;脩舢嬒癫⒎鞘且环N描述性事務(wù),更多的是一種設(shè)計(jì)式的事務(wù),群組的共同標(biāo)簽可能并不能完全反映組內(nèi)數(shù)據(jù)主體的真實(shí)喜好。數(shù)據(jù)處理中的群組劃分一般會使用偏好融合算法,這種算法都會經(jīng)過一個取均值的過程。例如使用群組推薦算法所生成的關(guān)聯(lián)推斷,群組內(nèi)用戶的偏好可能存在差異,加之諸如隨機(jī)化擾動等隱私保護(hù)技術(shù)可能導(dǎo)致自動化推薦的準(zhǔn)確性下降,此時便不能保障群組內(nèi)每個個體都能夠接收到適當(dāng)?shù)耐扑?。由此可見,以群組為單位的數(shù)據(jù)分析和推送模式,實(shí)質(zhì)上增加了個體被侵?jǐn)_的概率。因此,接收適當(dāng)推送的權(quán)利有必要成為群組的一種特定利益,這在某種程度上與群組成員的安寧利益有相似之處。第二,避免被再識別的權(quán)利。群組之內(nèi)的成員個體可能面臨著被再次精準(zhǔn)識別的風(fēng)險(xiǎn),例如,如若一個群組是由“駕駛紅色汽車”“住在某特定街區(qū)”“長頭發(fā)”等特征組成,那么群組之內(nèi)的個體很可能面臨著被再次識別的風(fēng)險(xiǎn)。如果某數(shù)據(jù)群組中的共同標(biāo)簽越來越多,但是成員卻越來越少,此時數(shù)據(jù)主體可能面臨著被精準(zhǔn)識別的風(fēng)險(xiǎn)。群體維度下,如何應(yīng)對再識別風(fēng)險(xiǎn),是制度設(shè)計(jì)過程中需要面對的問題。另外,群組與群組之間的重疊也可能會對隱私構(gòu)成侵害。由于群組和群組之間存在成員的重合,群組和群組重疊交合也可能會加大反向識別和隱私暴露的風(fēng)險(xiǎn)。群組和群組進(jìn)行合并時,同樣需要評估樣本的重疊情況,如果數(shù)據(jù)樣本發(fā)生大規(guī)模的重疊,此時需要注意對再識別風(fēng)險(xiǎn)或者隱私泄露風(fēng)險(xiǎn)重新進(jìn)行評估。
大數(shù)據(jù)分析對象從個體轉(zhuǎn)變?yōu)槿后w之后,群組內(nèi)的數(shù)據(jù)主體日漸形成利益統(tǒng)一體,具有相對統(tǒng)一的利益形態(tài)。第一,群體免受歧視的權(quán)利。數(shù)據(jù)群組內(nèi)的成員是基于各個成員間所具有的共同特征作為聚類基礎(chǔ)的,如果群組的生成以某些敏感的數(shù)據(jù)信息作為聚類基礎(chǔ),如種族或者宗教信息等,一旦經(jīng)過算法分析,則可能會產(chǎn)生帶有歧視性色彩的自動化決策。例如,美國信貸公司經(jīng)常會采用社區(qū)整體評分的方式,對居住在特定區(qū)域的人的總體信用狀況進(jìn)行評估,如果某地區(qū)居住著大量低收入人群,則居住在該地區(qū)的所有人都有可能遭到信貸公司的負(fù)面評價[18]。數(shù)字環(huán)境下針對個體的歧視或者不公平待遇在很多情形下是由于某些敏感性信息的使用所導(dǎo)致。當(dāng)群體分析用于政治營銷目的時,通過群體的細(xì)分可以幫助競選活動確定目標(biāo)受眾,這種細(xì)分正是根據(jù)選民的宗教、種族、民族、收入、教育水平、政黨認(rèn)同等敏感信息進(jìn)行分組,敏感信息標(biāo)簽化后果的嚴(yán)重性程度由此可見一斑[19]。可能會有學(xué)者認(rèn)為,如若避免用戶敏感信息被收集,在數(shù)據(jù)收集階段拒絕數(shù)據(jù)收集者收集自己的敏感信息即可實(shí)現(xiàn)[20],但知情同意框架僅在數(shù)據(jù)收集階段能夠發(fā)揮其相應(yīng)的作用,某些敏感性信息標(biāo)簽的產(chǎn)生是經(jīng)過數(shù)據(jù)處理者的數(shù)據(jù)分析之后得出的,事前的知情同意在避免數(shù)據(jù)處理過程中的標(biāo)簽化問題上很難發(fā)揮制度功能。第二,群體的隱私利益。例如,通過數(shù)據(jù)分析技術(shù),可以輕易地分析出在互聯(lián)網(wǎng)上匿名發(fā)表言論的人可能持有的政見,這些人可能被算法進(jìn)行分類識別,進(jìn)而受到政府或相關(guān)機(jī)關(guān)團(tuán)體的監(jiān)視(4)Jennifer Jiyoung Suh et.Distinguishing Group Privacy From Personal Privacy: The Effect of Group Inference Technologies on Privacy Perceptions and Behaviors Proceedings of the ACM on Human-Computer Interaction,2018,2(CSCW):1-22。例如,某些少數(shù)群體共同組成的線上討論群,或者豆瓣小組,這些小組成員大部分沒有辦法在現(xiàn)實(shí)社會中找到相應(yīng)傾訴渠道,如果類似于該群組被非法公開,其可能會侵犯小組整體的利益[21]。第三,群組成員的安寧利益。由于數(shù)據(jù)處理者使用偏好融合算法將用戶的偏好轉(zhuǎn)變?yōu)閱蝹€的群組偏好,所以系統(tǒng)一旦被攻擊,整個群組之內(nèi)所有成員的權(quán)益都有可能受到影響。算法錯誤自然可能會導(dǎo)致群組之內(nèi)的利益受到影響,例如算法內(nèi)部錯誤導(dǎo)致澳大利亞中央福利系統(tǒng)錯誤地向數(shù)千名公民發(fā)送債務(wù)催收通知,民眾也因此感到不安(5)Karps P, Knous C.“Centre-link robot-debt program accused of enforcing ‘Illegal debt ‘”,The Guardian(4 April 2018).;除此之外,惡意的算法技術(shù)也可能會導(dǎo)致數(shù)據(jù)群組成員安寧利益受到侵犯,如數(shù)據(jù)偽裝技術(shù)可以通過添加噪聲的方法,將用戶原生的數(shù)據(jù)進(jìn)行變換處理,再將處理后的數(shù)據(jù)作為用戶數(shù)據(jù),并應(yīng)用到數(shù)據(jù)處理過程中,由此一來,攻擊者可能會向群組內(nèi)的數(shù)據(jù)主體推送其不需要的內(nèi)容,群組內(nèi)數(shù)據(jù)主體可能會受到不必要定向廣告的侵?jǐn)_。
個人信息的雙重性質(zhì)[22]決定作為個人信息數(shù)據(jù)集合的數(shù)據(jù)群組的利益內(nèi)容可能會超越個體私益,向公共利益領(lǐng)域彌散。利用算法進(jìn)行的分組化技術(shù)對數(shù)據(jù)主體進(jìn)行社會分類或者社會信譽(yù)評分,可能導(dǎo)致社會階層的固化。例如,根據(jù)卡內(nèi)基梅隆大學(xué)研究者的研究發(fā)現(xiàn),某自動化算法決策系統(tǒng)給男性工作者高薪廣告推廣的概率是女性的六倍,其原因在于,自動化算法根據(jù)以往歷史分析,發(fā)現(xiàn)很少有女性在高薪職位任職,因此得出“大多數(shù)女性對高薪職位并不感興趣”的結(jié)論[16]。這一結(jié)論顯然不合理,因?yàn)闆]有人不會對高薪職位感興趣,這顯然是對舊有的、帶有歧視性的數(shù)據(jù)信息進(jìn)行分析后得出的錯誤結(jié)論。由此可見,算法會根據(jù)帶有偏見的數(shù)據(jù)或者數(shù)據(jù)集合,得出帶有偏見的結(jié)論。從系統(tǒng)設(shè)計(jì)者的視角,其首要的目標(biāo)仍然在于將用戶的行為引到系統(tǒng)設(shè)計(jì)者首選的方向中,利用算法對大數(shù)據(jù)進(jìn)行“分組化”“模塊化”的分析,數(shù)據(jù)控制者能夠發(fā)現(xiàn)并掌握不斷多元化的社會中的一系列規(guī)律,將數(shù)字世界中的“算法分組”投射于現(xiàn)實(shí)世界中,形成“社會分組”;同時,算法系統(tǒng)性地排斥那些對其而言低價值的、不太可能為其帶來高利潤的群體,或者直接剝奪他們平等獲得社會資源的機(jī)會,并將其進(jìn)一步邊緣化。由此,以群組化為基本模式的規(guī)?;瘮?shù)據(jù)分析的凈累計(jì)效應(yīng)不斷蠶食人類已經(jīng)形成的價值觀體系,進(jìn)而系統(tǒng)性、永久性地固化社會歧視類型以及既定的社會分層[19]。
數(shù)據(jù)群組之內(nèi)可能潛藏著相應(yīng)的國家利益,而且在某些情形下可能會有損國家利益。例如Strava是一個健身應(yīng)用程序,該應(yīng)用的用途是使用“熱圖”(heat map)來發(fā)現(xiàn)用戶在何處運(yùn)動,其通過匿名的方式收集用戶的數(shù)據(jù),以避免識別到個體、避免個人被追蹤,然而該軟件卻能夠輕松地展示出用戶經(jīng)常進(jìn)行鍛煉的地點(diǎn),這是在對匿名用戶的數(shù)據(jù)進(jìn)行分類、聚合,并建構(gòu)用戶群組的基礎(chǔ)上對所得出的結(jié)論。然而吊詭的是,美國通過這一方式發(fā)現(xiàn)了在阿富汗和伊朗地區(qū)的幾個秘密軍事基地,直接侵害了相關(guān)國家的軍事秘密,嚴(yán)重威脅其國家安全以及士兵的生命安全。由此觀之,雖然匿名化在很大程度上保護(hù)了個人信息不被泄露、個人身份不被識別,但是這些數(shù)據(jù)仍然對被描述的群體造成一定威脅。另外,發(fā)生在20世紀(jì)的哈佛大學(xué)在我國安徽偏遠(yuǎn)農(nóng)村進(jìn)行大規(guī)模的血液、基因樣本篩選和采集的行為,以及2015年華大基因科技有限服務(wù)公司未經(jīng)許可將部分人類遺傳資源信息從網(wǎng)上傳遞給英國牛津大學(xué)的行為(6)中華人民共和國科學(xué)技術(shù)部,國科罰(2015)2號。,這些行為不僅威脅到社群隱私利益,甚至可能會影侵害國家層面的利益[16]。這種對于國家利益的侵犯,在較為貧困和經(jīng)常發(fā)生動亂的發(fā)展中國家表現(xiàn)得尤為突出,在那里,行為人以特定的群體作為攻擊目標(biāo),發(fā)送威脅性短信,目的在于對特定群體傳播恐懼,進(jìn)而威脅這些國家公民的生命財(cái)產(chǎn)及健康[23]。
群體維度下數(shù)據(jù)利益形態(tài)使得數(shù)據(jù)隱私的概念進(jìn)一步向縱深延展,其一方面對個體數(shù)據(jù)隱私利益的保護(hù)具有補(bǔ)充意義,另一方面它也具有超脫個體的政治或者社會意義,這些都是大數(shù)據(jù)時代“數(shù)據(jù)隱私”概念的應(yīng)有之義。
《個人信息保護(hù)法》在一定程度上體現(xiàn)了群體利益保護(hù)的內(nèi)容。例如,針對敏感信息的使用做出嚴(yán)格規(guī)定,數(shù)據(jù)主體如若收集并利用數(shù)據(jù)主體的敏感信息,需要經(jīng)過數(shù)據(jù)主體的單獨(dú)同意。這在一定程度上限制了數(shù)據(jù)處理者肆意利用敏感信息進(jìn)行分組的行為。另外,自動化決策的反對權(quán)貌似在一定程度上可以對抗群組決策所帶來的諸如刻板印象、反向識別風(fēng)險(xiǎn)等一系列問題,但是它仍然無法完全對抗大數(shù)據(jù)時代的群組化所帶來的一系列風(fēng)險(xiǎn)。
第一,被虛置的匿名化規(guī)則。根據(jù)《個人信息保護(hù)法》的規(guī)定,個人信息在經(jīng)過匿名化程序之后就不再是個人信息,如此一來在法律上數(shù)據(jù)的處理行為就與個人沒有任何聯(lián)系,然而事實(shí)是,通過數(shù)據(jù)分類、分組和標(biāo)簽化,數(shù)據(jù)處理的結(jié)果可能仍然影響到個體,數(shù)據(jù)主體還是避免不了“被標(biāo)簽化”的命運(yùn)。群組化數(shù)據(jù)分析技術(shù)完美地繞開匿名化的影響,以群組為單位發(fā)現(xiàn)、分析與作用于對象,并借此對個體的行為產(chǎn)生影響。
第二,形式大于內(nèi)容的自動化決策反對權(quán)。有學(xué)者認(rèn)為,反對權(quán)或者《個人信息保護(hù)法》中所規(guī)定的“要求數(shù)據(jù)處理者為數(shù)據(jù)主體提供不針對其個人特征的選項(xiàng)”,賦予數(shù)據(jù)主體對抗算法權(quán)力的重要武器,數(shù)據(jù)主體可以此直接排除算法對個體的影響和支配。但在“算法歧視”“算法暴政”等輿論影響下,數(shù)據(jù)公司可能會因?yàn)槿藗兇笠?guī)模拒絕自動決策算法的應(yīng)用而徹底失去享受大數(shù)據(jù)紅利的可能,數(shù)據(jù)主體也可能因此難以提升互聯(lián)網(wǎng)的使用體驗(yàn)[24]。另外,利用自動化決策的反對權(quán)來保護(hù)數(shù)據(jù)群組內(nèi)的利益,僅僅能夠有限對抗決策類算法應(yīng)用,反對自動化決策僅僅是在結(jié)果層面對歧視性算法的一種事后規(guī)制,很難滿足人們對于透明度的要求,因此也難以對抗隱蔽的群體性分析和監(jiān)視行為。
第三,標(biāo)簽化管理制度未盡完善。《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》中第一次提出數(shù)據(jù)處理者的標(biāo)簽化義務(wù),并要求數(shù)據(jù)處理者加強(qiáng)對用戶的標(biāo)簽化管理,并向用戶提供修改、刪除用于算法推薦服務(wù)的用戶標(biāo)簽的功能。這在很大程度上補(bǔ)足匿名化與反對權(quán)等保護(hù)制度的局限,但仍面臨如下問題:第一,標(biāo)簽化實(shí)際上是數(shù)據(jù)處理者在處理用戶數(shù)據(jù)過程中產(chǎn)生的,從根本上看,此為數(shù)據(jù)處理者的勞動所得,其緣何之故賦予數(shù)據(jù)主體以修改、刪除等一系列等同于個人信息處理的操作,用戶標(biāo)簽在何種意義上等同于個人信息,這些恐怕仍然需要在理論層面一一予以探討。第二,標(biāo)簽化的通知局限于存在算法推薦的應(yīng)用場景下,但是在其他場景下,標(biāo)簽化似乎也存在應(yīng)用之必要。利用Strava軟件發(fā)現(xiàn)秘密軍事基地即為一例;在很多并不明顯的系統(tǒng)性決策中,被算法系統(tǒng)性地排除在某種機(jī)會之外的人,根本無法發(fā)現(xiàn)這一現(xiàn)象,也無從反對。例如,上文中女性很難發(fā)現(xiàn)自己獲得高薪工作的機(jī)會早就被算法系統(tǒng)性地排除[13]。實(shí)際上,數(shù)據(jù)處理者對數(shù)據(jù)主體的標(biāo)簽化管理,不僅僅局限于算法推薦的場合,在算法決策中,標(biāo)簽化的告知與管理似乎更加必要。
學(xué)界對是否存在群體性隱私利益存在分歧。第一種觀點(diǎn)否定群體性隱私利益的存在,目前也沒有哪個國家的立法承認(rèn)這種群體性隱私利益。第二種觀點(diǎn)認(rèn)為,群體性隱私毋寧是個體性隱私利益的集合,保護(hù)群體性隱私的目的仍然在于保護(hù)群組之內(nèi)組成人員的個人隱私[25]。群體性隱私利益是每一個個體在經(jīng)過妥協(xié)之后所形成的一種隱私利益形態(tài),如自己通過與他人分享自己的隱私,從而與他人形成一種隱私利益的共同體,在這樣一個隱私利益共同體內(nèi),大家各自都可能會對自己的隱私利益加以妥協(xié),并在此基礎(chǔ)上形成隱私共同體。當(dāng)群體的隱私利益遭受侵害與威脅之后,個體的隱私利益也會隨之遭受侵害。第三種觀點(diǎn)認(rèn)為,群體隱私利益是一種獨(dú)特的利益形態(tài),其并不是個體隱私利益的集合,第三方對群體隱私的揭示可能并不必然伴隨著個體隱私利益的侵害,因此應(yīng)當(dāng)設(shè)立一種獨(dú)立的群體隱私權(quán),并賦予符合法定條件的群體以法定權(quán)利[25]。群體隱私的構(gòu)想,旨在保護(hù)群體身份的完整性,因?yàn)槿后w身份的共享對于個體的隱私利益也存在重大影響[26]。第四種觀點(diǎn)認(rèn)為,群體隱私利益的確是一種較為特殊利益形態(tài),但其并非一種特別權(quán)利,而是作為一種利益形態(tài)出現(xiàn)[16]。數(shù)據(jù)群組之上存在的私人利益和公共利益證明第一種觀點(diǎn)顯然不能成立,而數(shù)據(jù)群組之上所具有的公共利益和國家利益,則說明群組維度的數(shù)據(jù)隱私利益不可簡單地認(rèn)為是個體隱私利益的集合[23],所以問題的關(guān)鍵在于能否賦予特定數(shù)據(jù)群組以獨(dú)立隱私權(quán)。
一般而言,社會交往活動中群體的形成是基于一定的社會單元、一定的活動場域或者一定的身份關(guān)系,即某種特定的社會關(guān)系。群體中的每一個個體對于自己所屬的群體性組織具有一定意識。美國的Edward Bloustein首次提出“群體隱私”(group privacy)的概念便是基于這一場景,在他看來,群體隱私是“一種人們在尋求與他人聯(lián)系時的隱私形式。群體隱私是個人與群體中其他人發(fā)生聯(lián)系的屬性,而不是群體本身的屬性”(7)Edward J. Bloustein,Individual and Group Privacy,New Brunswick: Transaction Books,1978,p.124.[16],如針對某個群體所形成的隱私利益。顯然,Bloustein并不認(rèn)為“群體隱私”作為一種獨(dú)立權(quán)利,其仍然停留于個體維度討論隱私利益的保護(hù);將隱私權(quán)概念真正推進(jìn)到群體層面的則是Floridi,其認(rèn)為數(shù)據(jù)驅(qū)動形成的群組具有獨(dú)特的隱私利益形態(tài)并應(yīng)受特殊保護(hù)[27]。數(shù)據(jù)群組之內(nèi)的個體之間聯(lián)系十分緊密,在屬性層面具有高度相關(guān)性,如某個群組之內(nèi)的數(shù)據(jù)主體具有相似的性格特征、行為傾向或者愛好,進(jìn)而導(dǎo)致隱私利益具有高度一致性;而分散的、無規(guī)律的數(shù)據(jù),在以屬性或者行為傾向加以抽象之后,其可被再識別的風(fēng)險(xiǎn)更高。由于這種個體與個體之間的共同特征,群組之內(nèi)的個體成為一個“一榮俱榮、一損俱損”的利益共同體。
首先,我國私法理論中并沒有群體隱私的概念,雖然曾有學(xué)者提出過類似于“群體性隱私”的概念。楊立新提出“人格利益準(zhǔn)共有”概念以保護(hù)特定群體內(nèi)部共同的隱私利益,認(rèn)為人格利益準(zhǔn)共有的典型表現(xiàn)就是相關(guān)隱私,它指的是民事主體之間有著共同內(nèi)容的隱私[28]。例如,家庭成員之間所共同保有的隱私利益內(nèi)容,各權(quán)利人對此種隱私利益享有共同的支配權(quán),應(yīng)當(dāng)注意對共有成員的保護(hù)義務(wù);在遭受侵害之后,群組之內(nèi)的每個成員都可以提起訴訟,且訴訟結(jié)果給予群組之內(nèi)的每個成員。但是楊立新認(rèn)為,家庭等社會群體并非民事主體,所以也不存在“集體隱私權(quán)”,不過是一種相關(guān)隱私。我國主流學(xué)界至今也不承認(rèn)“集體隱私權(quán)”或者“群體隱私權(quán)”的相關(guān)理論。
其次,數(shù)據(jù)群組缺少主體性特征,難以賦予其獨(dú)立的權(quán)利。傳統(tǒng)私法理論下,獨(dú)立的主體地位是特定組織或者共同體享有私法權(quán)利的前提,但數(shù)據(jù)和算法驅(qū)動形成的數(shù)據(jù)群組與現(xiàn)實(shí)社會交往語境中的群組具有以下不同特征,這使得我們很難賦予特定數(shù)據(jù)群組以相應(yīng)權(quán)利:(1)動態(tài)性和臨時性。在現(xiàn)實(shí)的社會交往活動中所形成的群體更加穩(wěn)定,由于一個個社會群體的形成總是基于個體之間存在的社會關(guān)系,因此群體的各個成員之間的聯(lián)系更加穩(wěn)定和緊密,在此基礎(chǔ)上所形成的社會群體關(guān)系也較為穩(wěn)定。但是數(shù)據(jù)應(yīng)用場域中,數(shù)據(jù)群組的形成是基于數(shù)據(jù)主體之間的某種關(guān)聯(lián)關(guān)系,利用算法臨時性地將代表特定數(shù)據(jù)主體的數(shù)據(jù)集劃撥為一個群組。由于大數(shù)據(jù)的種類繁多、處理速度快,導(dǎo)致群組之內(nèi)成員更新?lián)Q代的周期較短。所以在數(shù)字世界中,數(shù)字群組在形態(tài)上并沒有一般社會群體那樣穩(wěn)定,群組成員也并不固定。(2)不可感知性。大數(shù)據(jù)分析中的數(shù)據(jù)群組不同于一般性社會群體的另一個不同之處在于群體組織生成的消極被動性。在社會交往活動中,在特定的社會群體內(nèi)部,無論群組內(nèi)成員的加入方式為主動抑或被動,其組成人員一般都能夠意識到自己成為或者將要成為群組內(nèi)成員的事實(shí),但在數(shù)字世界中,數(shù)據(jù)主體無意識地被算法匯聚到一個群組中。(3)隱秘性。數(shù)據(jù)環(huán)境下的群組具有隱秘性,現(xiàn)實(shí)社會交往中形成的群組具有相對公開性。一個社群或者組織,社會公眾總是能夠通過各種方式發(fā)現(xiàn)這一社群的存在,但是在數(shù)據(jù)環(huán)境下,很難了解一個通過自動化算法組合到一起的群體組織,不僅社群成員自己沒有意識到自己被劃歸到特定群組中,就連算法設(shè)計(jì)者或者數(shù)據(jù)處理者都不知道某特定群體的形成,遑論賦予群組以權(quán)利。(4)存在的利他性。現(xiàn)實(shí)物理環(huán)境下所形成的群組總是存有特定的目標(biāo),這種目標(biāo)或者是為獲得情感上的慰藉,或者是為了更好地實(shí)現(xiàn)自己的訴求,或者是為了共同營利的目標(biāo);在數(shù)據(jù)環(huán)境中形成的群體,尤其是在自動化算法驅(qū)動下所生成的群組,其存在的根本目的在于提升數(shù)據(jù)控制者的利益,例如通過群組細(xì)分提高信息推送的效率以攫取更多利潤,在數(shù)據(jù)處理者達(dá)成目的之后該數(shù)據(jù)群組也就無存在價值了。
最后,數(shù)據(jù)群組之上的隱私利益呈現(xiàn)出隨機(jī)性和不確定性。數(shù)據(jù)信息具有的公共性和共享性導(dǎo)致數(shù)據(jù)隱私利益形態(tài)處于一種不甚清晰的狀態(tài)。所謂隨機(jī)性,是指數(shù)據(jù)之上的隱私利益形態(tài)是隨著技術(shù)應(yīng)用場景和數(shù)據(jù)處理階段的不同而有所變化;所謂不確定性,是指數(shù)據(jù)隱私利益可能會因人而異,即數(shù)據(jù)隱私的異質(zhì)性[29]。由此觀之,由數(shù)據(jù)和算法驅(qū)動形成的群組同人們在社會交往關(guān)系中所形成的群組并不相同。這種數(shù)據(jù)群組之上的利益主體與利益形態(tài)均不穩(wěn)定,不具備群體層面身份的獨(dú)立性與完整性,也很難將數(shù)據(jù)群組作為一種特殊的利益主體進(jìn)行保護(hù)。
《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》或許為保護(hù)群體維度的數(shù)據(jù)利益提供了新的思路,其中第十五條第二款規(guī)定:算法推薦服務(wù)提供者應(yīng)當(dāng)向用戶提供選擇、修改或者刪除用于算法推薦服務(wù)的用戶標(biāo)簽的功能。此處用戶標(biāo)簽之法律性質(zhì)為何?用戶標(biāo)簽由數(shù)據(jù)處理者所發(fā)現(xiàn)和挖掘,為何允許用戶修改、刪除?其規(guī)范基礎(chǔ)在何處?用戶標(biāo)簽是一種超越個人信息的形態(tài),由數(shù)據(jù)處理者利用算法進(jìn)行大數(shù)據(jù)挖掘之后所獲得的、關(guān)于用戶屬性或者分類的重要信息,因此,用戶標(biāo)簽在本質(zhì)上是數(shù)據(jù)主體在對個人信息進(jìn)行分析基礎(chǔ)上所得出的“衍生數(shù)據(jù)”或者“推論數(shù)據(jù)”。
推論數(shù)據(jù)究竟是否屬于個人數(shù)據(jù)?這一問題目前學(xué)界存在三種觀點(diǎn):否定說、肯定說和折中說。否定說的主要理由是,推論數(shù)據(jù)的讀取難度較大(8)在卷積神經(jīng)網(wǎng)絡(luò)中,算法決策所依賴的機(jī)器學(xué)習(xí)模型群,對應(yīng)著不同層級的信息簇,除直接來源于信息主體的初始信息之外,其余所有層級的信息簇都是數(shù)據(jù)主體所難以理解的推論信息。參見:唐林垚.《個人信息保護(hù)法》語境下“免受算法支配權(quán)”的實(shí)現(xiàn)路徑與內(nèi)涵辨析[J].湖北社會科學(xué),2021(2).,因而討論推論數(shù)據(jù)的規(guī)范意義微乎其微。也有學(xué)者認(rèn)為,分析數(shù)據(jù)并非個人數(shù)據(jù),因?yàn)槠湟咽チ藗€體指向性,是數(shù)據(jù)處理者進(jìn)行數(shù)據(jù)分析后的結(jié)果,其權(quán)利屬于數(shù)據(jù)處理者??隙ㄕf則認(rèn)為,推斷數(shù)據(jù)雖然并非對物理世界中數(shù)字主體的數(shù)字化復(fù)刻,但即便如此,推論數(shù)據(jù)仍然具有一定程度的可識別性,且個人對推斷數(shù)據(jù)仍然享有一定程度的合理期待[30]。持折中說的學(xué)者認(rèn)為,并非所有數(shù)據(jù)都屬于個人,如果在第一個步驟中所處理的是非個人數(shù)據(jù),那后續(xù)步驟自然不涉及個人數(shù)據(jù)的使用問題。如果畫像是在匿名畫像的基礎(chǔ)上作出的,則這一過程并不涉及數(shù)據(jù)主體個人信息的使用,即便是能夠據(jù)此推斷相應(yīng)數(shù)據(jù),也并非對個人數(shù)據(jù)的使用或者處理,但是如若在畫像過程中使用的是未經(jīng)處理的個人數(shù)據(jù),則應(yīng)當(dāng)屬于對個人數(shù)據(jù)的處理[31]。更有學(xué)者對個人信息的定義提出質(zhì)疑:個人數(shù)據(jù)應(yīng)當(dāng)摒棄以“識別”(包括“已識別”或者“可識別”)為核心的個人數(shù)據(jù)定義,轉(zhuǎn)而應(yīng)當(dāng)強(qiáng)調(diào)數(shù)據(jù)使用過程中的“可及性”,因?yàn)椤白R別”早已經(jīng)不是數(shù)據(jù)處理的核心或者必要步驟,在數(shù)據(jù)處理實(shí)踐中,完全可以越過這一步驟,直接實(shí)現(xiàn)對個人的影響或者控制,而對于數(shù)據(jù)主體的控制或者影響才應(yīng)當(dāng)成為信息保護(hù)規(guī)范著重規(guī)制的內(nèi)容。
從目的論角度看,推斷數(shù)據(jù)在某些情形下仍然應(yīng)當(dāng)納入個人數(shù)據(jù)的范疇。誠然,推斷數(shù)據(jù)并非物理世界中的主體在數(shù)字世界中的映射,而僅僅表示一種可能性或者傾向性,通過該種推斷數(shù)據(jù)單獨(dú)或者與其他數(shù)據(jù)結(jié)合可能也無法識別到特定的個人。由此觀之,推論數(shù)據(jù)的確在某種程度上失去了個體指向性,但我們不能就此絕對否認(rèn)推斷數(shù)據(jù)與個體的關(guān)聯(lián)性,因?yàn)閿?shù)據(jù)主體仍然會因推斷數(shù)據(jù)而被數(shù)據(jù)處理者所控制或者影響。我國《個人信息保護(hù)法》第四條對“個人信息”的定義采取“識別+關(guān)聯(lián)”說,這一界定方式在某種程度上擴(kuò)大了個人數(shù)據(jù)的范圍,即便是不具備識別性的個人數(shù)據(jù)信息,由于其仍可在某種程度上影響數(shù)據(jù)主體,故而仍然建議將其作為個人數(shù)據(jù)的范疇。從規(guī)范保護(hù)目的角度看,用戶標(biāo)簽由于其同個人的關(guān)聯(lián)性,同樣應(yīng)當(dāng)納入個人數(shù)據(jù)的范疇。
至此,數(shù)據(jù)處理者的告知義務(wù),其合法性源于推論信息與個人信息之間的密切關(guān)系,用戶標(biāo)簽作為基于用戶個人數(shù)據(jù)的推論數(shù)據(jù),由于其仍然可能會對用戶的行為產(chǎn)生影響,故仍屬于個人信息的范疇,因此在某種意義上,標(biāo)簽化告知是“知情同意”義務(wù)的一種形式。
1.數(shù)據(jù)處理者履行標(biāo)簽化的告知義務(wù)
數(shù)據(jù)處理者的數(shù)據(jù)標(biāo)簽化行為使數(shù)據(jù)主體的個人信息與隱私保護(hù)面臨更加嚴(yán)重的威脅[32]。數(shù)據(jù)處理者應(yīng)當(dāng)履行更加嚴(yán)格的告知義務(wù),尤其是在數(shù)據(jù)處理之前或者數(shù)據(jù)處理過程中,應(yīng)當(dāng)及時告知群組內(nèi)用戶的標(biāo)簽化情況。由此一來,個人信息主體能夠大概知曉其在數(shù)據(jù)處理者處的分組情況。如果發(fā)現(xiàn)數(shù)據(jù)處理者推送的標(biāo)簽對個人信息主體而言具有一定的敏感性,數(shù)據(jù)處理者可以及時采取措施。為了對抗數(shù)據(jù)分組對公民個人信息帶來的安全和隱私侵犯威脅,美國的信息委員會辦公室要求數(shù)據(jù)處理者增加“監(jiān)控和評估表現(xiàn)”這一項(xiàng)目,告知數(shù)據(jù)主體以“標(biāo)簽化”“隱私泄露的風(fēng)險(xiǎn)評估”等分組,以及其面臨歧視與識別風(fēng)險(xiǎn)等情況,以此來增加數(shù)據(jù)處理過程中的透明度。
標(biāo)簽化的告知義務(wù)在技術(shù)層面是可行的。機(jī)器學(xué)習(xí)是數(shù)據(jù)分析技術(shù)的主要應(yīng)用方式,其中包括監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三種主要學(xué)習(xí)方式。其中,監(jiān)督學(xué)習(xí)由數(shù)據(jù)處理者自行對數(shù)據(jù)類型設(shè)置標(biāo)簽,在此基礎(chǔ)上發(fā)現(xiàn)數(shù)量相關(guān)關(guān)系;無監(jiān)督學(xué)習(xí)是由算法自行發(fā)現(xiàn)數(shù)量相關(guān)關(guān)系,但是只要數(shù)據(jù)處理者及時進(jìn)行監(jiān)督,依然可以發(fā)現(xiàn)算法分類的形式并進(jìn)行標(biāo)簽化的操作;唯一存在問題的可能是強(qiáng)化學(xué)習(xí)技術(shù),這種機(jī)器學(xué)習(xí)形式由于是自行發(fā)現(xiàn)數(shù)據(jù)處理結(jié)果的最優(yōu)路徑,因此其運(yùn)作邏輯相對而言一直處于技術(shù)黑箱之中,很難為他人知曉。對采取第三種算法運(yùn)作邏輯的數(shù)據(jù)處理者,要求其承擔(dān)標(biāo)簽化告知義務(wù)似乎較為苛刻,但是仍然需要盡最大可能揭示算法運(yùn)行過程中可能應(yīng)用到的重要參數(shù),并告知數(shù)據(jù)主體。這種標(biāo)簽化的告知義務(wù)目前已經(jīng)應(yīng)用于某些數(shù)據(jù)處理者的數(shù)據(jù)治理實(shí)踐中。在2020年11月8日,蘋果公司強(qiáng)制性要求各個APP 添加“隱私營養(yǎng)標(biāo)簽”,就像普通營養(yǎng)標(biāo)簽上列出的成分和卡路里含量一樣,用戶在應(yīng)用商店中下載相關(guān)的應(yīng)用程序之前,就需要就收集信息的類型,對可能進(jìn)行的處理和操作進(jìn)行說明。這些隱私標(biāo)簽,能夠幫助用戶更好地了解應(yīng)用程序內(nèi)部的情況(9)何淵,突發(fā)!蘋果要求APP添加隱私“營養(yǎng)標(biāo)簽”,從12月8日開始,載“數(shù)據(jù)法盟”公眾號,2020.11.8。另外,蘋果的開發(fā)者網(wǎng)站也要求開發(fā)者公開他們和第三方合作伙伴收集的所有信息,并使這些“標(biāo)簽”保持實(shí)時更新。
根據(jù)分組方式的不同,同意可以分為明示的同意和默示的同意兩種。數(shù)據(jù)主體向數(shù)據(jù)控制者提供自己的信息時,應(yīng)當(dāng)推定數(shù)據(jù)主體同意以被分組和標(biāo)簽化為代價換取更加便利的服務(wù),此時,我們可以默認(rèn)數(shù)據(jù)主體是同意自己被標(biāo)簽化的。但是,對第二種分組方式,也就是通過數(shù)據(jù)分析的方式獲取用戶標(biāo)簽并在此基礎(chǔ)上進(jìn)行分組的,則必須采取明示的方式,需要向用戶明確可能面臨的分組以及相應(yīng)的變量參數(shù),并賦予其隨時退出的權(quán)利。正如某些學(xué)者所言,應(yīng)當(dāng)設(shè)立民主化的數(shù)據(jù)收集和選擇退出機(jī)制,指定算法考量的數(shù)據(jù)點(diǎn)及其意義[33],而標(biāo)簽化信息正是重要的數(shù)據(jù)點(diǎn),應(yīng)當(dāng)納入數(shù)據(jù)處理者告知義務(wù)的范圍內(nèi)。域外也有學(xué)者提出,對于某些結(jié)構(gòu)化的數(shù)據(jù)群組,可以考慮為此類群組設(shè)置一個代表人(representative),其可以監(jiān)督群組之內(nèi)的標(biāo)簽化情況,一旦群組之內(nèi)出現(xiàn)敏感信息標(biāo)簽,代表人及時通知組內(nèi)的相關(guān)成員[34]。可能的辦法是,通過算法審計(jì)的方法,事先識別并發(fā)現(xiàn)群組之內(nèi)的潛在的利益集群,并在此基礎(chǔ)上增加群組內(nèi)成員的自我意識,并賦予其管理群組的權(quán)利。但是這種方式是否可行,筆者仍然對此持有疑問(10)此種觀點(diǎn)認(rèn)為,應(yīng)當(dāng)賦予數(shù)據(jù)群體參與數(shù)據(jù)治理,但是被動形成的群組成員應(yīng)當(dāng)如何實(shí)現(xiàn)自治,某個群組成員在多大程度上能夠代表小組之內(nèi)所有成員?這些問題仍需進(jìn)一步討論。。
2.增加限制處理權(quán)
拒絕自動化分析的權(quán)利,為我們對抗數(shù)據(jù)主體的自動化分析行為提供了相對有力的權(quán)利武器,但是需要明確的是,這種自動化分析仍然局限于個體的識別層面[35],而現(xiàn)在的用戶畫像大多是在群組層面進(jìn)行的,直接繞開了識別的過程,所以在應(yīng)對這種新類型用戶畫像技術(shù)時,反對權(quán)的作用必然是有限的;我國《個人信息保護(hù)法》中所規(guī)定的不針對其個人的個性化選項(xiàng),僅僅局限于結(jié)果層面,并不包括數(shù)據(jù)處理過程中的數(shù)據(jù)分析行為。正如上文所述,數(shù)據(jù)主體的隱私利益在數(shù)據(jù)處理過程中即已存在,限制處理權(quán)可以將限制的范圍擴(kuò)展至算法監(jiān)視層,直接針對數(shù)據(jù)處理者利用分組算法進(jìn)行監(jiān)視的行為。配合標(biāo)簽化告知義務(wù),數(shù)據(jù)主體能夠及時了解被標(biāo)簽化的情況,更加積極地應(yīng)對算法反向識別、隱私泄露等風(fēng)險(xiǎn),與此同時,也可以更加放心地接受以群組化分析為基礎(chǔ)的數(shù)據(jù)服務(wù)。另外,限制處理權(quán)也可以發(fā)揮自力救濟(jì)的功能[36],在數(shù)據(jù)主體根據(jù)標(biāo)簽化的情況及時感知數(shù)據(jù)利益被侵犯的風(fēng)險(xiǎn),在數(shù)據(jù)主體來不及使用算法解釋權(quán)請求數(shù)據(jù)處理者解釋算法運(yùn)行邏輯時,或者僅僅希望維持?jǐn)?shù)據(jù)處理的現(xiàn)狀時,可以通過限制處理權(quán)限制數(shù)據(jù)處理者的數(shù)據(jù)處理行為。通過“限制處理權(quán)+反對權(quán)+算法解釋權(quán)”三權(quán)配合,輔之以標(biāo)簽化告知義務(wù),真正實(shí)現(xiàn)透明度原則的要求。
強(qiáng)化對數(shù)據(jù)處理全過程的監(jiān)管,需要在我國全面確立“算法影響評估”制度[3]。在技術(shù)領(lǐng)域中,算法影響評估是指對自動化決策系統(tǒng)的穩(wěn)健性、公平性和可解釋性等特征進(jìn)行的評估(11)參見張欣.個人信息保護(hù)法(草案),載“網(wǎng)絡(luò)法理論與實(shí)務(wù)課程”公眾號,2020.10.22.。我國的算法風(fēng)險(xiǎn)評估,尤其是《個人信息保護(hù)法》中所規(guī)定的風(fēng)險(xiǎn)評估,更多地集中于事前,如第五十四條僅僅要求數(shù)據(jù)處理者事前的風(fēng)險(xiǎn)評估義務(wù),但是對于事中的風(fēng)險(xiǎn)評估問題卻沒有提及。而數(shù)據(jù)處理者大規(guī)模地應(yīng)用算法進(jìn)行分組處理和分析數(shù)據(jù)的做法,導(dǎo)致自動化算法產(chǎn)生突發(fā)性的風(fēng)險(xiǎn)隱患成為可能,數(shù)據(jù)處理者不僅應(yīng)當(dāng)重視事前的風(fēng)險(xiǎn)評估,而且也需要關(guān)注數(shù)據(jù)處理過程中的風(fēng)險(xiǎn)評估。數(shù)據(jù)處理者應(yīng)當(dāng)及時地將分組和聚類的情況告知數(shù)據(jù)主體,確保算法的可解釋性,重視組內(nèi)群體成員的反饋情況。使用數(shù)據(jù)群組發(fā)現(xiàn)技術(shù)(group-inference technology)的數(shù)據(jù)處理者,應(yīng)當(dāng)及時向監(jiān)管部門報(bào)備,并在數(shù)據(jù)處理過程中接受審查部門的評估和監(jiān)管。監(jiān)管部門應(yīng)當(dāng)注意數(shù)據(jù)處理者對共同標(biāo)簽的設(shè)置與挖掘,具體包括以下幾點(diǎn)。
第一,應(yīng)當(dāng)注意數(shù)據(jù)處理過程中敏感性標(biāo)簽的設(shè)置,如以性別、民族、職業(yè)等用戶的敏感信息作為標(biāo)簽進(jìn)行處理時,除非數(shù)據(jù)處理者希望通過敏感標(biāo)簽的使用以促進(jìn)結(jié)果的公平,否則算法得出歧視性結(jié)果的可能性也就大為增加。這種評估不僅僅限于事前的風(fēng)險(xiǎn)評估,也包括在數(shù)據(jù)處理過程中,利用自動處理系統(tǒng)所生成的一些反映敏感性信息的參數(shù),這些都可能導(dǎo)致歧視性分析結(jié)果產(chǎn)生。因此,監(jiān)管機(jī)構(gòu)應(yīng)當(dāng)注意在評估利用算法進(jìn)行數(shù)據(jù)處理過程中產(chǎn)生的參數(shù)或標(biāo)簽類型,并進(jìn)行實(shí)時預(yù)警。
第二,應(yīng)當(dāng)注意標(biāo)簽數(shù)量和復(fù)雜程度的設(shè)置。一般而言,數(shù)據(jù)群組內(nèi)標(biāo)簽越豐富,造成歧視性結(jié)果或者差別性待遇的可能性就越小,而算法運(yùn)算標(biāo)簽或者參數(shù)越少,由于評價標(biāo)準(zhǔn)單一,造成歧視的可能性也就越高。例如,在算法設(shè)計(jì)中,僅僅按照性別進(jìn)行簡單的分組,可能會導(dǎo)致以模塊化為目標(biāo)的簡化思維[37],由此極大地增加算法歧視發(fā)生的風(fēng)險(xiǎn)。為應(yīng)對這一問題,一方面,需要數(shù)據(jù)控制者全方位地搜集數(shù)據(jù),提高數(shù)據(jù)樣本完備性,避免在簡單分組基礎(chǔ)上的片面化分析與決策。優(yōu)化數(shù)據(jù)群組內(nèi)的參數(shù)設(shè)置,盡最大可能地解構(gòu)并消融群組內(nèi)的利益內(nèi)容和比重,將權(quán)益侵害的風(fēng)險(xiǎn)降到最低,這樣既可以相對簡化保護(hù)策略,也可以盡量避免單向化思維和簡單策略造成的刻板印象,防止群組之內(nèi)的歧視。所以,在數(shù)據(jù)分析和處理過程中,可以將標(biāo)簽參數(shù)的復(fù)雜程度作為風(fēng)險(xiǎn)評估的一項(xiàng)重要標(biāo)準(zhǔn)。需要注意的是,標(biāo)簽參數(shù)設(shè)置過多,也可能導(dǎo)致個體的精準(zhǔn)識別,如若享有共同標(biāo)簽群組內(nèi)的個體數(shù)量較少時,需要嚴(yán)格評估其再識別風(fēng)險(xiǎn),防止數(shù)據(jù)利用侵犯個體的信息隱私利益。
第三,審核標(biāo)簽設(shè)置的方法。分組標(biāo)簽的設(shè)置方式主要有兩種:一種是基于經(jīng)驗(yàn)的標(biāo)簽設(shè)置,一種是基于數(shù)據(jù)模型的標(biāo)簽設(shè)置。對于前者而言,數(shù)據(jù)群組的標(biāo)簽設(shè)置本身帶有數(shù)據(jù)處理者的先驗(yàn)預(yù)設(shè),如在求職者數(shù)據(jù)中設(shè)置性別分組,對女性可能會存在較高的歧視風(fēng)險(xiǎn)。此類未經(jīng)過數(shù)學(xué)邏輯證明的、帶有數(shù)據(jù)處理者或者算法設(shè)計(jì)者先驗(yàn)預(yù)設(shè)的標(biāo)簽類型,監(jiān)管部門應(yīng)當(dāng)加大審查力度,要求數(shù)據(jù)處理者或者算法設(shè)計(jì)者在進(jìn)行算法報(bào)備義務(wù)時,說明標(biāo)簽設(shè)置的原因、目的、必要性等理由。例如,美國證監(jiān)會要求所有人工智能投資顧問的底層算法必須嵌入“法律識別標(biāo)識符”,防止算法設(shè)計(jì)者在算法中預(yù)設(shè)有損投資者利益的代碼[38],以明確的方式在其底層代碼中加以標(biāo)注,并報(bào)監(jiān)管部門審核。另一種標(biāo)簽類型則是在數(shù)據(jù)處理過程中使用群組發(fā)現(xiàn)技術(shù)和偏好推薦算法等技術(shù)手段發(fā)現(xiàn)或者生成的標(biāo)簽類型。此種標(biāo)簽雖然通過數(shù)據(jù)分析技術(shù)獲得,但如若作為訓(xùn)練樣本的數(shù)據(jù)本身帶有偏見,則數(shù)字歧視仍然無法避免。對此,數(shù)據(jù)處理者應(yīng)將數(shù)據(jù)預(yù)處理和產(chǎn)品內(nèi)測作為前置程序[39],并將某些數(shù)據(jù)主體的敏感特征設(shè)置為算法學(xué)習(xí)禁止學(xué)習(xí)并使用的特征參數(shù),如若通過數(shù)據(jù)預(yù)處理發(fā)現(xiàn)算法特別善于對特定特征進(jìn)行預(yù)測或推斷,則可以預(yù)先設(shè)置禁止算法推斷的內(nèi)容標(biāo)簽,或者通過其他技術(shù)手段降低其特征預(yù)測性能(12)系統(tǒng)不僅要學(xué)會預(yù)測結(jié)果,也要學(xué)會禁止預(yù)測特定的信息。見:Blass J. Algorithmic advertising discrimination[J]. Northwestern university law review, 114(2019).,以此防止算法的隱私侵犯和特征歧視風(fēng)險(xiǎn)。
第四,數(shù)據(jù)群組的利用應(yīng)符合目的限制原則,且盡量避免群組數(shù)據(jù)作為整體的多次利用[25]。正如前文所述,規(guī)?;缫曅纬傻囊粋€重要原因在于可能存在歧視風(fēng)險(xiǎn)的歷史性組群的重復(fù)利用。這也就要求數(shù)據(jù)控制者在實(shí)現(xiàn)特定目的之后,充分評估某些歷史性群組存在的必要性與合理性。如果允許某些具有歧視風(fēng)險(xiǎn)群組的反復(fù)、多次利用,可能會造成群組內(nèi)數(shù)據(jù)主體陷入長期的歧視風(fēng)險(xiǎn)。數(shù)據(jù)處理者應(yīng)當(dāng)充分衡量數(shù)據(jù)分組的必要性,在實(shí)現(xiàn)特定的數(shù)據(jù)分析目標(biāo)后,及時清除某些可能導(dǎo)致歧視的群組。筆者建議由獨(dú)立的第三方機(jī)構(gòu)預(yù)先對數(shù)據(jù)群組之內(nèi)的利益內(nèi)容進(jìn)行充分評估,并進(jìn)行平衡性測試,協(xié)調(diào)數(shù)據(jù)處理過程中多元利益主體的利益平衡。
《個人信息保護(hù)法》第七十條規(guī)定:個人信息處理者違反本法規(guī)定處理個人信息,侵害眾多個人的權(quán)益的,人民檢察院、法律規(guī)定的消費(fèi)者組織和由國家網(wǎng)信部門確定的組織可以依法向人民法院提起訴訟。由于個人信息的匿名化、信息侵權(quán)的隱蔽性等諸多原因,個人信息侵權(quán)的認(rèn)定往往面臨諸多困難。而用戶標(biāo)簽化的告知義務(wù),不僅能夠增加數(shù)據(jù)處理過程的透明度,而且也可以借此判斷自己的數(shù)據(jù)信息有無被過度或者錯誤分析。具體而言,基于用戶標(biāo)簽的個人信息侵權(quán)主要又可以分為以下三種情況:(1)用戶標(biāo)簽內(nèi)容錯誤,或者帶有貶低人格的價值色彩,如用戶標(biāo)簽中出現(xiàn)“拖延癥”“色情”等有辱人格的內(nèi)容標(biāo)簽,用戶可以此要求糾正違法標(biāo)簽信息。(2)超出用戶授權(quán)范圍和使用目的,此時用戶標(biāo)簽本身并無主觀價值傾向,但實(shí)際的數(shù)據(jù)分析過程可能會超出實(shí)際授權(quán)范圍,如在購物應(yīng)用中,如果數(shù)據(jù)主體明確不同意平臺收集使用自己的性別信息,但是用戶標(biāo)簽中卻顯示了諸如“時尚雜志”“化妝品”等具有性別傾向性的標(biāo)簽時,則足以認(rèn)定數(shù)據(jù)處理者存在過度分析用戶數(shù)據(jù)之嫌疑。對數(shù)據(jù)主體造成損失的,應(yīng)當(dāng)承擔(dān)相應(yīng)的侵權(quán)責(zé)任。(3)存在基于用戶標(biāo)簽的歧視。用戶標(biāo)簽也可作為判斷算法歧視的一項(xiàng)重要因素,用戶標(biāo)簽在某種程度上可作為算法參數(shù)可視化的手段,借此判斷算法決策是否存在歧視嫌疑。如在商業(yè)貸款場景下,數(shù)據(jù)處理者通過數(shù)據(jù)分析與挖掘之后得出“居住于城市郊區(qū)”的標(biāo)簽,通過測試,如若發(fā)現(xiàn)該標(biāo)簽同算法作出的拒絕該群體向銀行貸款的算法決策之間存在高度關(guān)聯(lián)性,則可能因“居住地區(qū)”與“用戶的信用狀況”之間無直接的、合理的關(guān)聯(lián)而存在歧視之嫌疑。
用戶標(biāo)簽化告知與管理是應(yīng)對“群組化個性預(yù)測”時代個人信息保護(hù)問題的新思路,其補(bǔ)足了以“算法解釋”和“自動化決策反對權(quán)”構(gòu)建起來的、針對“算法權(quán)力”的對抗式權(quán)利救濟(jì)體系,提高了數(shù)據(jù)處理過程中的透明度。其試圖建構(gòu)一種數(shù)據(jù)主體同數(shù)據(jù)控制者之間的“對話與協(xié)商機(jī)制”[9],在兼顧數(shù)據(jù)處理與利用效率的同時,也加強(qiáng)對用戶數(shù)據(jù)利益的保護(hù)。但是,用戶標(biāo)簽管理制度仍然處于嘗試設(shè)置階段,存在諸多有待解決的問題,如用戶標(biāo)簽的告知內(nèi)容與范圍、人工智能深度學(xué)習(xí)中的標(biāo)簽挖掘與告知義務(wù),等等,皆有待進(jìn)一步探索。