韓宇航
(上海交通大學(xué)媒體與傳播學(xué)院,上海 201100)
算法推薦指采用計(jì)算機(jī)算法分析用戶的基本信息、網(wǎng)絡(luò)瀏覽情況和網(wǎng)絡(luò)社交行為等數(shù)據(jù),從而推測(cè)用戶可能感興趣的內(nèi)容并向其精準(zhǔn)推送信息的新型信息分發(fā)方式。
基于不同的運(yùn)行機(jī)制,常見(jiàn)的算法推薦系統(tǒng)有三種:基于知識(shí)的算法推薦系統(tǒng)、基于內(nèi)容的算法推薦系統(tǒng)和協(xié)同過(guò)濾的算法推薦系統(tǒng)。第一,基于知識(shí)的算法推薦系統(tǒng)以用戶和商品屬性為基礎(chǔ),對(duì)用戶和商品了解越多,預(yù)期效果就越好。第二,基于內(nèi)容的算法推薦系統(tǒng)主要依賴于用戶的顯性或隱性反饋,會(huì)向用戶推薦與其喜好相似的商品。其中,顯性反饋指用戶明確點(diǎn)擊喜歡、不喜歡按鈕或進(jìn)行打分的行為,這種反饋一般較難獲得;隱性反饋指用戶在看到信息后瀏覽或購(gòu)買了相關(guān)產(chǎn)品的行為。第三,協(xié)同過(guò)濾的算法推薦系統(tǒng)更依賴于整個(gè)用戶群的交互,主要有基于商品和基于用戶兩種協(xié)同過(guò)濾形式。
目前,各大互聯(lián)網(wǎng)公司的算法推薦系統(tǒng)多為組合形式,比如,今日頭條算法推薦系統(tǒng)的運(yùn)作邏輯就是一個(gè)用戶對(duì)內(nèi)容滿意度的函數(shù),通過(guò)輸入三個(gè)維度的變量 (第一個(gè)維度是內(nèi)容變量,比如文字、視頻等;第二個(gè)維度的變量以職業(yè)、年齡等用戶特征為代表,第三個(gè)維度的變量是所處的環(huán)境特征,即場(chǎng)景),模型會(huì)生成一個(gè)預(yù)估,用來(lái)判斷所推薦的內(nèi)容在這一場(chǎng)景下對(duì)特定用戶是否適用。
算法推薦為了實(shí)現(xiàn)個(gè)性化的信息推送,就必須廣泛收集用戶的信息瀏覽記錄,深入分析用戶的“數(shù)字足跡”,從而形成精準(zhǔn)、全面的用戶畫(huà)像,因此,人們?cè)谙硎芩惴ㄍ扑]帶來(lái)的便利的同時(shí),也面臨著信息泄露的風(fēng)險(xiǎn)。
社交媒體時(shí)代,各類傳感器和可穿戴設(shè)備成為了不易被察覺(jué)的數(shù)據(jù)收集裝置,人們?nèi)粘I畹男袨閿?shù)據(jù)乃至生理信息都成為了數(shù)據(jù)收集的對(duì)象,加之互聯(lián)網(wǎng)對(duì)“流量”的追捧以及用戶對(duì)便利的追求,導(dǎo)致用戶的隱私安全面臨著前所未有的風(fēng)險(xiǎn)。從2018年暴發(fā)的涉及5000多萬(wàn)用戶數(shù)據(jù)泄露的“劍橋分析事件”中可以看到:無(wú)論用戶是否主動(dòng)登錄其社交媒體賬號(hào),平臺(tái)都可以憑借技術(shù)能力、關(guān)聯(lián)經(jīng)營(yíng)網(wǎng)絡(luò)獲取到用戶在第三方平臺(tái)的使用痕跡,由此而產(chǎn)生的便是信息的商業(yè)化出售和濫用問(wèn)題。
算法偏見(jiàn)指“算法程序在信息生產(chǎn)和分發(fā)過(guò)程中失去了客觀中立的立場(chǎng),造成片面或與客觀實(shí)際不符的信息、觀念被生產(chǎn)并傳播,從而影響了公眾對(duì)信息的客觀、全面認(rèn)知”。2021年,在Netflix上線的紀(jì)錄片 《編碼偏見(jiàn)》中,科學(xué)家在測(cè)試了諸多面部識(shí)別商用軟件后發(fā)現(xiàn),膚色偏白的男性群體被正確識(shí)別的概率高達(dá)99%,女性則偏低;然而,隨著膚色的不斷加深,識(shí)別正確率也呈指數(shù)式下降。
縱觀整個(gè)信息生產(chǎn)和分發(fā)過(guò)程,算法偏見(jiàn)問(wèn)題一直存在。首先,是輸入數(shù)據(jù)的偏見(jiàn)。機(jī)器學(xué)習(xí)是以社會(huì)中已經(jīng)存在的數(shù)據(jù)為基礎(chǔ)的,只要偏見(jiàn)仍然存在于社會(huì)中,機(jī)器便會(huì)通過(guò)這些帶有偏見(jiàn)的數(shù)據(jù)進(jìn)行更進(jìn)一步的分析。這就意味著,當(dāng)帶有偏見(jiàn)的數(shù)據(jù)進(jìn)入算法程序,還會(huì)再次面對(duì)帶有偏見(jiàn)的算法指令。其次,是算法設(shè)計(jì)者自身刻意或無(wú)意的偏見(jiàn)。算法設(shè)計(jì)者的偏見(jiàn)直接影響著算法程序的公平與公正,使得本該中立的算法技術(shù)也往往帶有偏見(jiàn),帶有偏見(jiàn)的數(shù)據(jù)進(jìn)入帶有偏見(jiàn)的程序后所呈現(xiàn)的便是不夠客觀的內(nèi)容,而這些內(nèi)容也影響著用戶的數(shù)字媒介使用足跡,從而通過(guò)機(jī)器學(xué)習(xí)帶來(lái)更深度的影響。所以說(shuō),當(dāng)自帶偏見(jiàn)的算法系統(tǒng)投入使用,其背后的偏見(jiàn)也在影響和“操縱”著社會(huì)的發(fā)展和進(jìn)步。
一方面,算法偏見(jiàn)的存在使得不同種族、不同性別的人群被區(qū)別對(duì)待,在一定程度上損害了社會(huì)公平;另一方面,算法偏見(jiàn)的存在也損害著用戶的個(gè)人利益,典型代表就是算法殺熟現(xiàn)象,即不同人在同一個(gè)網(wǎng)絡(luò)平臺(tái)進(jìn)行消費(fèi),同一商品或服務(wù)的價(jià)格卻不一樣。算法偏見(jiàn)的存在直接影響著人們接收到信息后的決策,并且,隨著技術(shù)的發(fā)展對(duì)社會(huì)產(chǎn)生的負(fù)面影響會(huì)不斷加深。
首先,低俗信息并不是智能媒體時(shí)代的新產(chǎn)物,但卻在人工智能技術(shù)的助推下在傳媒界愈演愈烈。由于算法推薦以獲取流量為目的,其運(yùn)行也是以用戶數(shù)據(jù)為基礎(chǔ)、以用戶興趣為指向的,天生具有“逐熱”屬性,因此,用戶的局限性都被復(fù)刻在了算法程序之中,并且,在信息繭房中部分用戶的低俗愛(ài)好正在被一步步強(qiáng)化,隨著算法推薦的深度使用,低俗信息泛濫的問(wèn)題也逐步嚴(yán)重。
其次,算法推薦對(duì)虛假信息的傳播也具有推波助瀾的作用。皮尤研究中心調(diào)查研究顯示,一半以上的專家對(duì)“可以利用技術(shù)遏止假新聞傳播”持悲觀態(tài)度,事實(shí)也似乎正在印證這一點(diǎn)。一方面,算法推薦難以有效識(shí)別和抑制假新聞的傳播;另一方面,算法推薦的特點(diǎn)又為假新聞的廣泛傳播提供了更大的助力和傳播空間。在社交媒體中,借助夸張標(biāo)題來(lái)吸引用戶眼球的虛假信息往往會(huì)收獲更多的流量,而用戶點(diǎn)擊率的高低又是算法推薦機(jī)制衡量信息受歡迎程度的重要指標(biāo),因此,就造成了虛假信息屢禁不止的狀況。
2016年,“后真相”被牛津詞典評(píng)為年度詞匯,指情緒和個(gè)人的既有傾向在影響個(gè)人觀點(diǎn)上,扮演著比事實(shí)和真相更重要的角色,相對(duì)于人們的既有立場(chǎng)和情感傾向,真相是什么顯得越來(lái)越無(wú)關(guān)緊要。隨著“后真相”時(shí)代的到來(lái),人們更傾向于尋找和自身情感需求或既有價(jià)值觀相符的信息,而并非真相,因此,只要虛假信息披上情感的外衣或利用夸張的標(biāo)題刺激人們的情緒,人們便會(huì)點(diǎn)擊瀏覽,從而產(chǎn)生了一條又一條高流量信息。
首先,通過(guò)透明化算法,加強(qiáng)算法規(guī)制。近年來(lái),部分互聯(lián)網(wǎng)企業(yè)開(kāi)始致力于向公眾提供更開(kāi)放、透明化的算法,比如,2019年6月,YouTube宣布將公開(kāi)其平臺(tái)的內(nèi)部算法運(yùn)行機(jī)制,主要表現(xiàn)為:在其推薦內(nèi)容段下方,向用戶解釋為何該段視頻會(huì)被推薦進(jìn)入用戶首頁(yè)。與此同時(shí),YouTube也賦予了用戶更多的主動(dòng)性,增加了過(guò)濾和排序功能,用戶可以在首頁(yè)頂部搜索想要了解的特定主題。
其次,通過(guò)改進(jìn)算法,糾正算法可能存在的偏見(jiàn)。比如,2018年5月,F(xiàn)acebook推出了 Fairness flow工具,用以檢驗(yàn)算法偏差,主要功能為:當(dāng)算法程序因?yàn)槿说男詣e、種族等特性作出有失公平的判斷時(shí),F(xiàn)airness flow就會(huì)發(fā)出警告提醒;同年9月,谷歌也推出了具有相似功能的工具——what-if,幫助開(kāi)發(fā)者衡量算法的公平程度。
為了共同維護(hù)良好的平臺(tái)環(huán)境,構(gòu)建多元化的新聞平臺(tái)用戶隱私保護(hù)機(jī)制,較多媒體平臺(tái)采取了“自身發(fā)力+用戶共建”的方式。比如,YouTube不僅加強(qiáng)了平臺(tái)信息的管控和監(jiān)管力度,對(duì)視頻內(nèi)容實(shí)行評(píng)級(jí)機(jī)制,并為用戶賦權(quán),引入人工機(jī)制,用戶通過(guò)舉報(bào)反饋可以標(biāo)記不良信息;還繼續(xù)沿用了“三振出局”的懲罰系統(tǒng),即一個(gè)賬號(hào)被舉報(bào)三次以上將無(wú)法再使用,加大了違規(guī)賬號(hào)的懲處力度,與用戶協(xié)力加強(qiáng)平臺(tái)內(nèi)容治理。Facebook敞開(kāi)技術(shù)大門,其新聞室發(fā)文提醒用戶設(shè)置賬戶的隱私、可見(jiàn)度權(quán)限,并介紹了關(guān)涉隱私的新功能:在全球范圍內(nèi)正式上線Off-Facebook activity以及第三方授權(quán)登錄提示。
2018年,歐盟出臺(tái)了 《通用數(shù)據(jù)保護(hù)條例》(GDPR),旨在保護(hù)歐盟境內(nèi)居民的個(gè)人數(shù)據(jù)和隱私,對(duì)網(wǎng)站的數(shù)據(jù)收集和使用作出了比較完整的規(guī)定,即收集數(shù)據(jù)前要獲得用戶的許可,并向其解釋收集數(shù)據(jù)的原因,保證在必要時(shí)可以刪除相關(guān)數(shù)據(jù)信息。2020年7月,美國(guó) 《加州消費(fèi)者隱私法案》(CCPA)正式生效,明確表示濫用cookie的企業(yè)可能因侵犯隱私而面臨高額處罰。
2021年8月20日,十三屆全國(guó)人大常委會(huì)第三十次會(huì)議表決通過(guò)了 《中華人民共和國(guó)個(gè)人信息保護(hù)法》,這是中國(guó)首部專門保護(hù)個(gè)人信息的法律,旨在保護(hù)個(gè)人信息權(quán)益,規(guī)范個(gè)人信息處理活動(dòng),促進(jìn)個(gè)人信息合理利用。法案制定參考了歐盟的 《通用數(shù)據(jù)保護(hù)條例》,對(duì)個(gè)人信息的保護(hù)作了更為明確和嚴(yán)格的規(guī)定。
首先,由于算法推薦是以數(shù)據(jù)為基礎(chǔ)的,因此,規(guī)制算法推薦可以先從數(shù)據(jù)著手,凈化并管理算法推薦需要的數(shù)據(jù)。其次,加強(qiáng)監(jiān)管,避免算法設(shè)計(jì)者將個(gè)人偏見(jiàn)代入算法程序,并將算法監(jiān)管和算法自覺(jué)貫徹于算法設(shè)計(jì)、運(yùn)行的全過(guò)程。最后,重視事后的補(bǔ)救,對(duì)因算法偏見(jiàn)而引起的社會(huì)不公現(xiàn)象,要通過(guò)法律程序補(bǔ)償權(quán)益受損者,并對(duì)技術(shù)方酌情處罰。一方面,要加強(qiáng)算法設(shè)計(jì)方的媒介倫理意識(shí);另一方面,要強(qiáng)化政府、電信主管部門、公安部門和其他監(jiān)管者的責(zé)任意識(shí),對(duì)技術(shù)方進(jìn)行合理有效的監(jiān)管,在社會(huì)公平和科技發(fā)展之間找到合適的平衡。
無(wú)論是用戶采取保密措施予以保護(hù)的直接隱私,還是技術(shù)方在用戶公開(kāi)信息和行為中挖掘的間接隱私,其保護(hù)都應(yīng)根據(jù)信息特性,通過(guò)用戶和數(shù)據(jù)使用者兩方協(xié)力完成。
首先,針對(duì)間接隱私,應(yīng)堅(jiān)持事前告知、“告知許可”原則。一方面,應(yīng)在收集數(shù)據(jù)前告知用戶哪些信息可能會(huì)被收集,并規(guī)范數(shù)據(jù)使用者的行為;另一方面,應(yīng)在加強(qiáng)數(shù)據(jù)收集使用監(jiān)管的同時(shí)堅(jiān)持“先告知,再許可”的原則,即先告知用戶算法可能會(huì)收集哪些信息以及存在的風(fēng)險(xiǎn),在征得用戶許可后進(jìn)行信息數(shù)據(jù)收集。其次,針對(duì)直接隱私,應(yīng)著重對(duì)數(shù)據(jù)使用者進(jìn)行責(zé)任規(guī)范。由于網(wǎng)絡(luò)時(shí)代的數(shù)據(jù)量較為龐大,完全執(zhí)行“告知許可”原則會(huì)降低信息傳播的效率,因此,可以通過(guò)立法的形式規(guī)范數(shù)據(jù)濫用和非法使用數(shù)據(jù)的行為,一旦數(shù)據(jù)使用者侵害了用戶的隱私權(quán)利,必須依法進(jìn)行處罰。
人們把算法稱為“黑箱”,一方面,是因?yàn)槠涑绦虻膹?fù)雜性和智能性;另一方面,則是因?yàn)槠溥\(yùn)行程序和決策機(jī)制的不透明性。算法的“黑箱”特性使得用戶對(duì)算法的運(yùn)行和決策機(jī)制抱有較大的好奇與質(zhì)疑,無(wú)形中加劇了用戶對(duì)人工智能的不安情緒。
加快算法的透明化,不僅可以緩解用戶的不安情緒,也可以防止數(shù)據(jù)和權(quán)力的絕對(duì)集中,因此,應(yīng)通過(guò)法律要求數(shù)據(jù)擁有者定期公開(kāi)其算法運(yùn)行機(jī)制,解釋算法的設(shè)計(jì)原理,并將算法程序透明化,以消除用戶的誤解和懷疑,避免算法和科技公司對(duì)數(shù)據(jù)的深度操縱。
首先,平臺(tái)方應(yīng)制定相關(guān)條例遏制不良內(nèi)容的傳播,從算法推薦機(jī)制入手,對(duì)各種假新聞和擦邊信息的推薦作出調(diào)整,減少可能誤導(dǎo)用戶的內(nèi)容推薦。其次,平臺(tái)方可以賦予用戶更多實(shí)際性的權(quán)力,推出用戶舉報(bào)后對(duì)平臺(tái)的懲罰機(jī)制,使平臺(tái)與用戶合力凈化內(nèi)容環(huán)境。比如,一條消息如果被多名用戶舉報(bào)或被同名用戶多次舉報(bào),就應(yīng)該對(duì)其內(nèi)容進(jìn)行再次審核,必要時(shí)應(yīng)避免該內(nèi)容發(fā)布,同時(shí)完善申訴機(jī)制,賦予用戶合理范圍內(nèi)的監(jiān)督權(quán),從而實(shí)現(xiàn)內(nèi)容管理體制的透明化、高效化。
算法推薦機(jī)制不僅改變了用戶獲取信息的方式,其“投其所好”的特點(diǎn)也不可避免地造成了“信息繭房”效應(yīng)的擴(kuò)大,背后的算法偏見(jiàn)更是用“看不見(jiàn)的手”影響著社會(huì)發(fā)展。因此,算法推薦應(yīng)兼具工具理性和價(jià)值理性,在法律法規(guī)和公眾的監(jiān)督下,加強(qiáng)內(nèi)容質(zhì)量把控,將社會(huì)人文價(jià)值導(dǎo)向滲入其中。