嚴柏
什么是瀏覽器指紋,看看幾類你被互聯(lián)網(wǎng)巨頭監(jiān)控的場景:
場景一:在網(wǎng)站上瀏覽了某個商品,了解了相關的商品信息,但并沒有下單購買,甚至沒有進行登錄操作,過兩天同臺電腦訪問其他網(wǎng)站的時候卻發(fā)現(xiàn)很多同類商品的廣告。
場景二:在某博客中你有多個小號,這些小號的存在就是為了刷某個帖子的熱度或者進行輿論引導,又或者純粹進行流量交易,即便你在切換賬號的時候清空了Cookie、本地緩存,重開路由器來進行操作,你覺得自己足夠小心,但是管理人員可能還是知道這是同一個人在操作,從而被打擊。
一般情況下,網(wǎng)站或者廣告商都想要一種技術可以在網(wǎng)絡上精確地定位到每一個個體,就算你沒有賬號,沒有登錄,也可以通過收集這些個體的數(shù)據(jù),然后加以分析之后更加精確地去推送廣告和其他的一些活動。而這個技術就是瀏覽器指紋,這還是用前端技術來實現(xiàn)的。
目前包括Firefox、Safari、Opera和Chrome在內(nèi)的瀏覽器已開始提供針對使用Cookie和IP地址的跨站點跟蹤方法的保護,尤其是為了打擊指紋。
在最近的一項研究中,愛荷華大學和加州大學的研究人員戴維斯研究了一種基于機器學習的方法,稱為FP-Inspector,該方法訓練分類器學習指紋。共同作者說,通過將靜態(tài)和動態(tài)分析相結(jié)合來提取句法和語義特征,從而有效地補充了彼此的局限性,F(xiàn)P-Inspector克服了動態(tài)分析的覆蓋范圍問題,同時解決了靜態(tài)分析無法處理混淆的問題。
一些瀏覽器和隱私工具已嘗試使用API更改和網(wǎng)絡請求阻止之類的技術來減輕指紋跟蹤。但是這些需要人工分析,并且難以限制內(nèi)容交付網(wǎng)絡之類的雙重用途第三方提供的腳本。因為必須嚴格定義每個硬編碼的試探法,以避免誤報,并不斷進行更新以捕獲不斷發(fā)展的指紋和非指紋。
相比之下,基于JavaScript的FP-Insp
ector具有獨立的檢測組件,該檢測組件從腳本中提取特征(例如語法和執(zhí)行)并訓練分類器以識別指紋(無監(jiān)督和受監(jiān)督的特征選擇方法將用于訓練分類器的特征數(shù)量限制為1000個靜態(tài)特征和1000個動態(tài)特征)。
緩解組件將限制應用于檢測到的腳本;FP-Inspector限制所有已知正在使用指紋識別的腳本的訪問,并阻止請求下載從執(zhí)行指紋識別的域提供的腳本。
為了培訓FP-Inspector,研究人員抓取了20000個網(wǎng)站的主頁,以編譯包含153354個不同執(zhí)行腳本的17629個網(wǎng)站的列表。他們從100000個訪問量最高的網(wǎng)站(Alexa的全球排名)中選出了前10000個網(wǎng)站,并從其余的10000個網(wǎng)站中隨機抽取了樣本,使它們可以覆蓋最受歡迎的網(wǎng)站和下層網(wǎng)站在實驗中。實驗表明,F(xiàn)P-Inspector的性能很好,與手動設計的啟發(fā)式方法相比,檢測到的指紋腳本多出26%,準確率達99.9%。
為了衡量網(wǎng)絡上指紋識別腳本的流行程度,研究人員將FP-Inspector的檢測組件應用于Alexa排名最高的71112個網(wǎng)站。他們發(fā)現(xiàn),現(xiàn)在有超過四分之一的頂級站點都部署了指紋識別(前十萬個站點中的10.18%,總計2349個唯一域),并且指紋在不同類別的網(wǎng)站上使用不均。使用率范圍從將近14%的新聞網(wǎng)站到僅1%的與信貸和債務相關的網(wǎng)站,這是作者之間的差異,這是因為指紋識別在依賴廣告和付費墻進行貨幣化的網(wǎng)站上很普遍。
研究人員說,他們計劃發(fā)布提供指紋識別腳本的域,以跟蹤保護列表,例如Disconnect和EasyPrivacy。他們寫道:“我們計劃向面向隱私的瀏覽器供應商和標準機構(gòu)報告這些API的名稱和統(tǒng)計信息。”