国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

算法不正義與大數(shù)據(jù)倫理

2020-11-17 03:53林曦郭蘇建
社會觀察 2020年9期
關(guān)鍵詞:邊緣化群體算法

文/林曦 郭蘇建

在過去數(shù)十年間,大數(shù)據(jù)對我們身處的社會進(jìn)程和發(fā)展產(chǎn)生了很大的影響,在全世界范圍內(nèi),我們都可以觀察到一個(gè)“大數(shù)據(jù)化”的現(xiàn)象。對于大數(shù)據(jù)而言,其數(shù)據(jù)的采集、分析和應(yīng)用,都是借由各種算法來進(jìn)行。一般而言,算法的定義即旨在解決某個(gè)問題的方式或進(jìn)程,它在大數(shù)據(jù)運(yùn)行的過程中起到了不可替代的作用。比如,搜索引擎運(yùn)用特定的算法,對海量的數(shù)據(jù)進(jìn)行采集、過濾、分類和索引;數(shù)據(jù)分析技術(shù)則依賴算法,對采集到的數(shù)據(jù)進(jìn)行清洗、結(jié)構(gòu)化和運(yùn)算處理;最終,當(dāng)數(shù)據(jù)分析結(jié)果需要呈現(xiàn)的時(shí)候,算法又對這些結(jié)果進(jìn)行可視化的處理或者顯示優(yōu)先順序的排列。離開了算法,大數(shù)據(jù)就無法以一種被人類思維“可理解”的方式呈現(xiàn)出來。

以各種算法為基礎(chǔ)的大數(shù)據(jù)而言,在其數(shù)據(jù)的收集、處理和應(yīng)用中,有可能會出現(xiàn)相應(yīng)的不正義倫理議題。所謂的“算法的不正義”,指的是在大數(shù)據(jù)的知識建構(gòu)過程中,社會不同個(gè)體或團(tuán)體,在大數(shù)據(jù)資源的占有、使用和分配上出現(xiàn)的不平等,從而導(dǎo)致在數(shù)據(jù)資源的“代表性”、“用戶畫像”、決策支持、行動干預(yù)等不同維度上出現(xiàn)的不正義之情形。這其中,一個(gè)主要的原因在于,我們所收集到的數(shù)據(jù),很多時(shí)候都是不完美的,這些數(shù)據(jù)有可能是之前決策者基于人為偏好而得到的。因此,此類數(shù)據(jù),本身就包含了偏見、不平等、排斥。而且,因?yàn)樵O(shè)備和資源使用的分布不均衡,這也會導(dǎo)致,我們在采集數(shù)據(jù)的過程中,那些占有更多數(shù)據(jù)資源的使用者的偏好,會更有可能進(jìn)入數(shù)據(jù)。如此一來,我們所得到的數(shù)據(jù),就會和在社會上廣泛存在的偏好、偏見,重疊在一起。在數(shù)據(jù)挖掘的過程中,有可能會出現(xiàn)的情況是,它和此前業(yè)已存在的排斥、不平等現(xiàn)象,呈現(xiàn)出驚人的相似性或者一致性,都是以同樣的規(guī)律來呈現(xiàn)。因此,如果我們對數(shù)據(jù)進(jìn)行分析,本身是不加反思、不加批判地接受,那么,這就讓我們更加無視那些在過去的歷史發(fā)展中被邊緣化、處于弱勢地位或者岌岌可危的群體所遭受的不公,這就相當(dāng)于拒斥了這些群體完全融入到我們的公共生活之中。程序員或者編程人員在開發(fā)軟件、設(shè)計(jì)算法的時(shí)候,可能并沒有想到這些問題,而這些偏見都是人們在使用算法的過程中才出現(xiàn)的。因此,它是一個(gè)非意圖的后果。

數(shù)據(jù)采集

數(shù)據(jù)收集主要是涉及到兩個(gè)方面的問題——“采集”和“捕獲”。首先,大數(shù)據(jù)集合需要確認(rèn)被收集或者采集的對象,即所謂的“數(shù)據(jù)源頭”。

(一)源頭:“大數(shù)據(jù)鴻溝”

以人類行為為源頭的大數(shù)據(jù)采集,有可能會因?yàn)椴煌娜巳涸谑褂脭?shù)字設(shè)備和技術(shù)上存在千差萬別,而導(dǎo)致收集到的數(shù)據(jù)復(fù)制、映射出現(xiàn)實(shí)社會中的不平等。所謂的“大數(shù)據(jù)鴻溝”,即不同群體或?qū)嶓w(比如公司、企業(yè)、高校)在創(chuàng)建、購買、存儲、使用大型數(shù)據(jù)集層面上存在的能力和知識等方面的差距?!按髷?shù)據(jù)鴻溝”體現(xiàn)在以下兩個(gè)群體之間不對稱的關(guān)系之上:一方是那些有能力收集、儲存、挖掘海量數(shù)據(jù)的主體;另一方是那些被收集數(shù)據(jù)的對象?!按髷?shù)據(jù)鴻溝”會沿著如下幾個(gè)維度展開:經(jīng)濟(jì)資源、技術(shù)設(shè)施、分析能力、行動能力、組織化程度(被對象化的個(gè)體和手握各種資源的公司或者機(jī)構(gòu))。那些“數(shù)字素養(yǎng)”更高的群體,一般都是更加年輕、教育水平更高的中產(chǎn)階級,一個(gè)人的“信息或者數(shù)據(jù)慣習(xí)”,其實(shí)是和其階層、社會地位存在高度關(guān)聯(lián)。很多時(shí)候,人們會說,信息技術(shù)促進(jìn)了民主參與,不過,對這些信息技術(shù)成果的享有和分配,卻仍然是不平等的,媒體平臺其實(shí)還是復(fù)制了那些處于更高階層和社會地位的人的觀點(diǎn)。而且,這些擁有數(shù)字優(yōu)勢的群體,本身在現(xiàn)實(shí)生活中也處在優(yōu)勢的權(quán)力地位上,更加有可能對其他在數(shù)字上處于弱勢地位的群體施加影響。

“大數(shù)字鴻溝”會涉及到一個(gè)數(shù)據(jù)源頭的用戶代表性問題,所收集到的大數(shù)據(jù),在多大程度上能夠代表現(xiàn)實(shí)人口中的多樣性和族群比例。不同的社會群體,在數(shù)據(jù)中所獲得的能見度和曝光度,是不是能夠和現(xiàn)實(shí)中的實(shí)際情況相匹配?有研究表明,城市中那些被邊緣化的群體,他們在數(shù)據(jù)權(quán)利上長期以來遭受一些不公正的待遇。一個(gè)最突出的問題,就是在現(xiàn)實(shí)中他們被邊緣化,然后到了虛擬世界,在數(shù)字呈現(xiàn)中,他們同樣是被邊緣化的,這兩個(gè)邊緣化之間是相互映射的關(guān)系。因此,盡管基于大數(shù)據(jù)的“數(shù)字孿生”技術(shù)被寄予了打造智慧城市的厚望,但是,虛擬世界中的技術(shù)或者數(shù)據(jù)本身亦可能復(fù)制、模擬、映射現(xiàn)實(shí)世界中的各種不平等和不公平。從數(shù)據(jù)上來講,這些群體不可見或者能見度很低,不僅僅是因?yàn)檫@些群體所處的區(qū)域,并未在數(shù)字地圖上標(biāo)注出來;同時(shí),在以數(shù)據(jù)為基礎(chǔ)的資產(chǎn)、服務(wù)之中,這些群體是集體失聲的。

(二)數(shù)據(jù)捕獲:“平臺單一性”

在確定了源頭或者采集對象之后,大數(shù)據(jù)的采集就進(jìn)入“數(shù)據(jù)捕獲”的環(huán)節(jié),即采用自動化的方式去收集、抓取和獲取信息。這其中存在一個(gè)“平臺單一性”的問題,即如果大數(shù)據(jù)研究針對的只是某個(gè)軟件應(yīng)用、網(wǎng)站或者服務(wù),那么,在這個(gè)研究里面所呈現(xiàn)出來的人員數(shù)據(jù)(行為、看法),就是某個(gè)時(shí)刻正在使用該應(yīng)用、網(wǎng)站或者服務(wù)的那些人。取樣的樣本對象,就是該應(yīng)用、網(wǎng)站或者服務(wù)的使用者。如果某個(gè)用戶并沒有使用該應(yīng)用、網(wǎng)站或者服務(wù),那么,該用戶就被排除在取樣的樣本對象范圍之外,該用戶的特征、行為、看法,也就無法進(jìn)入研究者的視野。如果我們?nèi)拥臉颖玖亢艽?,成千上萬乃至上百萬,因?yàn)轶w量巨大,我們會傾向于認(rèn)為,對這些樣本進(jìn)行考察的研究,就具備了一定的可普遍化特性,在這些人身上所得出的研究發(fā)現(xiàn),可以推廣到社會上更加廣泛的人群。但是,現(xiàn)實(shí)中的情況并非如此。光是數(shù)字,并不代表著可推廣性。

數(shù)據(jù)處理

在上述環(huán)節(jié)被收集到的海量數(shù)據(jù),經(jīng)過一系列的技術(shù)手段和程序的處理,會變成有意義的信息。在這個(gè)環(huán)節(jié),那些有技術(shù)手段、經(jīng)濟(jì)資源、分析能力的一方,總是能夠從數(shù)據(jù)中獲取更多的收益,這被稱為是“數(shù)據(jù)分析鴻溝”,包括“用戶畫像”和“算法分析”兩個(gè)核心環(huán)節(jié)。

(一)用戶畫像:數(shù)據(jù)處理中對不平等的復(fù)制

公司在挖掘數(shù)據(jù)的時(shí)候,使用大數(shù)據(jù)的方式,有可能會進(jìn)行一些社會分類,即所謂的“用戶畫像”。企業(yè)在進(jìn)行數(shù)據(jù)挖掘的時(shí)候,其實(shí)是把不同的人群進(jìn)行分類,給他們分別賦予不同的值,用以表明其風(fēng)險(xiǎn)程度、商業(yè)價(jià)值,并且會按照已有的分類和不平等的體系來對用戶進(jìn)行分組。這可能在一定程度上削弱個(gè)體在數(shù)據(jù)層面上的自主性,而且,建立數(shù)據(jù)庫,其實(shí)相當(dāng)于創(chuàng)建了另一個(gè)搜索索引,把用戶進(jìn)行分類管理。這就導(dǎo)致了用戶的身份不再是由用戶自行來進(jìn)行定義。同時(shí),用戶也失去了去定義和闡釋身份范疇意義的自主權(quán)。在這個(gè)過程中,這些公司、機(jī)構(gòu)、企業(yè)所用到的算法、數(shù)據(jù)庫,完全不對公眾開放,由此我們也無法檢視其正當(dāng)性和合理性。這就勢必造成整個(gè)數(shù)據(jù)化過程變得缺乏“透明度”。被客體化的數(shù)據(jù)對象,完全意識不到從自己身上收集到的數(shù)據(jù),是拿去進(jìn)行何種用途,是如何分類,是如何對他們進(jìn)行“畫像”的,這些數(shù)據(jù)又是怎么進(jìn)行分析,然后在此基礎(chǔ)上公司又采取了何種行為和措施。盡管這種“不透明”有些時(shí)候是公司的有意為之(比如涉及商業(yè)機(jī)密),但是,有些時(shí)候,其來源是結(jié)構(gòu)性的,嵌入在大數(shù)據(jù)運(yùn)行的基礎(chǔ)設(shè)施之中。

(二)算法分析:被隱藏的歷史偏見

從上一節(jié)的分析可以看出,將用戶進(jìn)行分門別類,由此為基礎(chǔ)而得出的所謂“原始數(shù)據(jù)”,其實(shí)并不“原始”,它們總是嵌入在各種社會-技術(shù)的語境之中,這些數(shù)據(jù)本身也會攜帶著生產(chǎn)這些數(shù)據(jù)的那些結(jié)構(gòu)之中存在的各種等級、不平等、偏見和歧視。有時(shí)候,這些偏見和歧視是通過一些“未意圖的后果”而體現(xiàn)出來。我們首先可以來看目標(biāo)變量的創(chuàng)建過程和分類標(biāo)簽是如何被定義的。在分類上,總有一些信息是受到重視的,而另外一些信息則是被忽略或者不受待見的。因此,對目標(biāo)變量和分類標(biāo)簽的定義,會直接決定數(shù)據(jù)挖掘的結(jié)果以何種面貌呈現(xiàn)出來。如果以這樣的數(shù)據(jù)為基礎(chǔ)來進(jìn)行分析,那么,分析結(jié)果也會將上述的不平等、偏見和歧視,都原封不動地保留下來。更加令人擔(dān)心的是,這種分析結(jié)果做出來之后,往往宣稱自己是“客觀、中立、公正、不偏不倚”的,這樣一種被數(shù)據(jù)構(gòu)建出來的新現(xiàn)實(shí),實(shí)質(zhì)上是掩蓋了數(shù)據(jù)生產(chǎn)和分析背后所隱藏的不平等、偏見和歧視。這種現(xiàn)象被稱為“數(shù)據(jù)原教旨主義”,即認(rèn)為海量數(shù)據(jù)集和預(yù)測分析技術(shù)反映的都是客觀事實(shí)。

大數(shù)據(jù)的一個(gè)工作過程,就是導(dǎo)入大量的數(shù)據(jù)來訓(xùn)練程序。工程師會開發(fā)各種機(jī)器學(xué)習(xí)的算法,這些算法在發(fā)展過程中需要用海量的數(shù)據(jù)來訓(xùn)練自己的模型,從中學(xué)習(xí),以便按照某種特定的方式來處理數(shù)據(jù)??梢韵胂蟮玫?,如果模型所使用的數(shù)據(jù)本身就是帶有各種偏見、偏好和歧視,那么,機(jī)器學(xué)習(xí)算法輸出的結(jié)果,也會相應(yīng)地?cái)y帶這些數(shù)據(jù)之中所包含的“偏見基因”。數(shù)據(jù)本身無法獨(dú)立于生產(chǎn)該數(shù)據(jù)的社會系統(tǒng)而存在,我們社會中各種不平等,也會進(jìn)入到數(shù)據(jù)結(jié)果之中去。其次,分析特性的選擇過程,算法在對大數(shù)據(jù)進(jìn)行分析的時(shí)候,需要對一些邊緣化的組別里面所包含的數(shù)據(jù)差異進(jìn)行考量,如果沒有這些考量,那就會導(dǎo)致這些組別被排除在結(jié)果之外,從而造成系統(tǒng)性的偏差和偏見。有些時(shí)候,人們在處理大數(shù)據(jù)的過程中,還會使用到代理變量,這些代理變量要么無法準(zhǔn)確地代表目標(biāo)變量,要么無法考慮到目標(biāo)變量背后所包含的歷史遺留下來的偏見問題。這種情況尤其在大數(shù)據(jù)分析中可以看到,因?yàn)榇髷?shù)據(jù)分析是全樣本分析,而非代表性樣本分析,因此,這些全樣本里面所包含的偏見,及其背后所承載的歷史遺留問題,有可能都會在大數(shù)據(jù)分析的結(jié)果中得以體現(xiàn)。

數(shù)據(jù)應(yīng)用

經(jīng)過一系列技術(shù)手段和程序進(jìn)行處理的數(shù)據(jù),最終將以一種被清洗過、結(jié)構(gòu)化甚至可視化的分析結(jié)果呈現(xiàn)出來。這些數(shù)據(jù)結(jié)果,會直接被用于各種用途,包括商業(yè)決策、公共決策、行動干預(yù)等。這里我們將從“決策支持”和“行動干預(yù)”兩個(gè)方面來考察,在數(shù)據(jù)應(yīng)用的過程中,會出現(xiàn)何種的算法不正義之情形。

(一)決策支持

在大數(shù)據(jù)的應(yīng)用過程中,經(jīng)常會發(fā)生的一個(gè)情況是,那些在金錢、各種形式的資本上具有優(yōu)勢地位的群體,會“俘獲”或者“壟斷”或者“主導(dǎo)”決策過程,事實(shí)上造成了對其他階層尤其是被邊緣化群體的排斥。這個(gè)過程凸顯的一個(gè)問題,即參與決策過程不光需要時(shí)間和精力,更重要的是還需要掌握那一套話語體系;而這些能力都是需要學(xué)習(xí)和培養(yǎng)的。對于被邊緣化群體而言,他們可能迫于生計(jì),無暇他顧。如果在制度設(shè)計(jì)上不能為這些群體設(shè)置特別的通道,那么,很有可能這些群體就會在決策過程中被無視和排斥,即便他們擁有參與、列席的機(jī)會。

當(dāng)大數(shù)據(jù)在政府的公共決策中得到應(yīng)用時(shí),其基礎(chǔ)是數(shù)據(jù)在里面發(fā)揮的功能,即數(shù)據(jù)具備的某種特定效用或者價(jià)值。這里面每一步都包含了和數(shù)據(jù)有關(guān)的權(quán)利,而且,這些不同的步驟、部分,都與下列的因素相互關(guān)聯(lián)、互相型塑,即社會結(jié)構(gòu)中的主要組成部分:正式與非正式的制度,社會和技術(shù)資源,社會關(guān)系,知識資源(知識和話語)。

(二)行動干預(yù)

除了用于支持公共決策,分析處理的數(shù)據(jù)結(jié)果還可以用于干預(yù)社會行動本身,比如對自殺行為的干預(yù)和預(yù)防。有學(xué)者針對全球不同地區(qū)使用谷歌進(jìn)行自殺或者自殺預(yù)防的搜索情況進(jìn)行了研究,發(fā)現(xiàn)谷歌的搜索引擎結(jié)果會隨著地區(qū)而呈現(xiàn)出一些差異。谷歌的算法是把英語設(shè)置成和“自殺預(yù)防結(jié)果”相關(guān)的優(yōu)先語言或者默認(rèn)語言。這一發(fā)現(xiàn)在同一個(gè)國家或地區(qū)的對照實(shí)驗(yàn)中得到證實(shí)。在那些官方語言不止一種的國家(比如新加坡和印度),研究者發(fā)現(xiàn),只有使用英語搜索和自殺相關(guān)的信息,無論是具有潛在危害性還是求助信息,才會觸發(fā)“自殺預(yù)防結(jié)果”的顯示。這事實(shí)上造成了全球不同區(qū)域、不同語言,在搜索引擎結(jié)果上的不平等,這會導(dǎo)致全球在健康信息上面的“大數(shù)據(jù)鴻溝”。

從算法偏見和數(shù)字不平等的批判研究來看,公司不見得是有意要編寫一些帶有歧視或者偏見的算法。只不過,問題的關(guān)鍵在于,在實(shí)施這些算法之后,一旦出現(xiàn)了歧視或者偏見的結(jié)果,公司卻常常不去投入時(shí)間、人力、財(cái)力和資源來解決這些問題。如果運(yùn)用算法本身比沒有算法的時(shí)候已經(jīng)產(chǎn)生一些看得見、摸得著的成果和效益,那么,公司就沒有動力去進(jìn)行進(jìn)一步的完善。

結(jié)語

為了應(yīng)對上述的“算法不正義”的問題,不同的國家和地區(qū)可以開展一些“促進(jìn)平等的數(shù)據(jù)倡議”,這些倡議旨在為那些以前“無數(shù)據(jù)歷史”的人群創(chuàng)造條件,讓他們可以進(jìn)入大數(shù)據(jù)的視野,在城市數(shù)據(jù)中獲得代表性,并且可以獲取和使用這些數(shù)據(jù)。這樣的一些倡議包括:在社區(qū)里面布置無線網(wǎng)絡(luò)接入點(diǎn),讓原本被邊緣化的人群獲得自己的數(shù)據(jù)、信息權(quán),進(jìn)而創(chuàng)建數(shù)據(jù)集、數(shù)據(jù)庫,進(jìn)行“社區(qū)畫像”,讓這些被邊緣化的社區(qū),同樣能夠進(jìn)入決策者的視野。

有些國家和地區(qū),還出現(xiàn)了一個(gè)自下而上的“量化自我”運(yùn)動,參與者旨在主張自己對數(shù)據(jù)的所有權(quán),通過這種方式,來“軟性地對抗”公司、企業(yè)和政府部門對大數(shù)據(jù)的壟斷。這場運(yùn)動里面的參與者,旨在奪回自己對數(shù)據(jù)的所有權(quán),并在數(shù)據(jù)收集和分析的過程中發(fā)揮積極主動的作用,這樣參與者就不再是被動地讓各種建制從自己身上收集、分析和應(yīng)用數(shù)據(jù)。反過來,他們可以主動參與針對自己的數(shù)據(jù)收集、分析和行為,主動地去構(gòu)建和數(shù)據(jù)有關(guān)的意義和行為。也有學(xué)者討論我們?nèi)绾螛?gòu)建數(shù)據(jù)體系,可以促進(jìn)社區(qū)參與和公民賦權(quán)。隨著民眾的“數(shù)字素養(yǎng)”的提高,我們也可以通過數(shù)據(jù)收集方式的創(chuàng)新,來賦權(quán)民眾,這一過程被稱為“數(shù)據(jù)制造”。這個(gè)過程與傳統(tǒng)數(shù)據(jù)收集方式相比,差異點(diǎn)主要在于:個(gè)體不再只是被動、等待被收集數(shù)據(jù)的對象,而是在適當(dāng)資源的支持下,成為積極主動的數(shù)據(jù)生產(chǎn)者和消費(fèi)者,在大數(shù)據(jù)中發(fā)揮更多的主觀能動性。

并且,我們需要對全球南部地區(qū)、發(fā)展中國家和地區(qū)對大數(shù)據(jù)的應(yīng)用有更多了解。在歐美國家被批判對待的數(shù)據(jù)收集和分析方式,在發(fā)展中國家有可能是作為賦權(quán)、發(fā)展目標(biāo)的形式而存在。因此,會有不少的發(fā)展中國家,視大數(shù)據(jù)為發(fā)展目標(biāo)和推動本國、本地區(qū)發(fā)展的有力助手。這些認(rèn)識和應(yīng)用上的差異,也需要進(jìn)行一個(gè)對比和分析,以防止學(xué)者不自主地?cái)y帶著“殖民主義”或者“后殖民主義”的眼光,把全部北部和南部地區(qū)一視同仁,無差別地進(jìn)行對待和處理。如果不能從地方語境中來對大數(shù)據(jù)所可能產(chǎn)生的問題進(jìn)行一個(gè)更為在地化的理解,那么,有可能復(fù)制這些議題從歐美傳輸?shù)桨l(fā)展中國家時(shí)產(chǎn)生的殖民主義困境。

猜你喜歡
邊緣化群體算法
體操教學(xué)“邊緣化”問題及對策研究*
江蘇海外新華商群體探秘
達(dá)到群體免疫,沒那么容易
“小團(tuán)體主義”帽子不要隨便扣
Travellng thg World Full—time for Rree
中間群體
“邊緣化”初中的去邊緣化
學(xué)習(xí)算法的“三種境界”
算法框圖的補(bǔ)全
算法初步知識盤點(diǎn)
卢龙县| 施甸县| 南丰县| 辰溪县| 巩留县| 永清县| 雷州市| 定远县| 前郭尔| 疏附县| 辉南县| 彭山县| 汉沽区| 神农架林区| 台湾省| 崇仁县| 从江县| 永清县| 乌兰察布市| 富源县| 金堂县| 方城县| 盐边县| 吉首市| 高安市| 金溪县| 双鸭山市| 上高县| 淳安县| 泰和县| 铁岭县| 彝良县| 双鸭山市| 康平县| 大理市| 芜湖县| 鲁甸县| 怀来县| 宝清县| 浠水县| 尉氏县|