国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

正在窺探的大佬們

2014-04-29 00:44:03
CHIP新電腦 2014年1期
關(guān)鍵詞:離線用戶分析

免費獲取信息、貨比三家地購物,還有各種形式的通信和娛樂服務(wù),互聯(lián)網(wǎng)的好處實在太多,絕對不容錯過,而且這些服務(wù)幾乎都是免費的。不過,為什么免費的服務(wù)能夠讓Google這樣的互聯(lián)網(wǎng)公司最終盈利數(shù)十億呢?這是因為它們獲取了我們的數(shù)據(jù),這些數(shù)據(jù)經(jīng)過處理和分析之后,最終將產(chǎn)生利潤,例如有針對性的商業(yè)廣告。其次,所有的數(shù)據(jù)還可能被作為情報來收集,例如一個眾所周知的秘密計劃:棱鏡。

網(wǎng)站運營商收集數(shù)據(jù)的方法最為簡單,訪問網(wǎng)站的用戶,產(chǎn)生的每次點擊、每次文本輸入,瀏覽器都會將大量相關(guān)的數(shù)據(jù)(元數(shù)據(jù))提交到網(wǎng)站上。其次,在Google+、亞馬遜和Facebook之類的大型社交網(wǎng)站上,供應(yīng)商可以通過用戶填寫的個人信息以及使用過程中泄漏的更多信息,結(jié)合元數(shù)據(jù)創(chuàng)建一個更全面的用戶配置文件。此外,數(shù)據(jù)分銷商還將收集離線數(shù)據(jù),例如姓名、住址,并出售這些數(shù)據(jù)給商業(yè)廣告公司之類的機構(gòu)。軟件提供商也同樣會收集我們的數(shù)據(jù),除了收集其他相關(guān)軟件的信息外,還可能收集我們使用軟件的時長信息以及定位數(shù)據(jù)之類的內(nèi)容。

對于用戶來說,要弄清楚是誰收集了數(shù)據(jù)、收集了什么樣數(shù)據(jù)以及這些數(shù)據(jù)如何被利用是非常困難的。IT巨頭通常都將自己塑造成用戶的朋友,但是當(dāng)我們對它們?nèi)绾问占屠脭?shù)據(jù)心存疑慮時,它們通常都會說數(shù)據(jù)只會用于為用戶提供更好的服務(wù),并信誓旦旦地表示它們將嚴(yán)格遵守隱私政策。但實際上隱私政策是企業(yè)自己制定的,并且除了專業(yè)的律師以外,這些政策中的法規(guī)部分普通用戶基本無法理解,涉及到重要問題的部分,巨頭們通常也都是含糊其詞。如果IT巨頭最終不得不承認(rèn)自己將用戶的數(shù)據(jù)提供給了第三方,那么經(jīng)典的說辭會是:“我們只向我們的附屬機構(gòu)和其他值得信賴的公司與個人提供用戶的個人資料……”。不過,這樣的慷慨陳詞一點意義都沒有,究竟提供給什么公司和個人?這樣的說辭和“我們想給誰就給誰”,實際上并沒有什么不同。

事實上,Google、Facebook等許多IT巨頭對于用戶個人隱私的處理方法已經(jīng)被許多國家、地區(qū)判定為違法,但是通常IT巨頭最多也只會針對這一國家或者地區(qū)的用戶修改相關(guān)的法律條文,其他國家和地區(qū)的用戶仍然無法得到保護(hù)。目前,圍繞數(shù)據(jù)收集與利用的法律糾紛不斷,但是仍然沒有一個有效的方法對相關(guān)的企業(yè)進(jìn)行約束。因而,對于用戶來說,更有必要學(xué)習(xí)相關(guān)的知識,并學(xué)會如何保護(hù)自己。

先收集再分析

對于一個沒有邊界的互聯(lián)網(wǎng)來說,通過法律約束難度極大。信息的全球流動,每天數(shù)百萬GB的數(shù)據(jù)通過粗粗的光纖和電纜流入巨大的數(shù)據(jù)中心,要了解這些數(shù)據(jù),就必須先收集,之后再進(jìn)行分析。大型互聯(lián)網(wǎng)公司在多年前就已經(jīng)開始了這一工作,Google公司分析搜索請求,在用戶輸入搜索關(guān)鍵字的過程中給出最可能符合用戶需要的關(guān)鍵字建議。亞馬遜則分析我們一直以來的購物行為,因而,總是能夠給出精確的采購建議。而警察通過數(shù)據(jù)的分析致力于預(yù)測罪犯的行為,這種技術(shù)已經(jīng)在洛杉磯、西雅圖和其他幾個城市使用了很長的一段時間。至于情報部門和反恐單位,則更是依賴大量的數(shù)據(jù)分析,以求能夠盡早發(fā)現(xiàn)潛在的恐怖分子。

然而,如果需要做出預(yù)測,不僅需要個人的數(shù)據(jù),還必須結(jié)合用戶的配置文件。為了識別用戶,通常需要較長的一段時間匯總數(shù)據(jù)和創(chuàng)建用戶配置文件。通過網(wǎng)站保存在用戶電腦上的Cookie,可以跟蹤用戶并收集用戶點擊哪個鏈接之類的數(shù)據(jù),結(jié)合瀏覽器訪問網(wǎng)站時提供的軟件版本、插件等相關(guān)的元數(shù)據(jù),創(chuàng)建用戶的配置文件,這就好像是在產(chǎn)生一個用戶獨有的指紋。

在離線世界中使用的數(shù)據(jù)收集方法技術(shù)含量較低,但這并不會影響其效果。除了一些政府機構(gòu)公開地販賣所掌握的資料外,數(shù)據(jù)經(jīng)銷商也收集數(shù)據(jù)并將它們賣給保險經(jīng)紀(jì)人、房地產(chǎn)中介。這些批量銷售的數(shù)據(jù)集,除了包含吸引購買者關(guān)注的特定“線索”外,通常還會包含用戶的姓名、地址、電子郵件信息或者電話號碼。另外還會包含一些其他的細(xì)節(jié),例如大概的收入,是否是動物愛好者等。在美國,這種數(shù)據(jù)批發(fā)生意正在蓬勃發(fā)展,而在其他隱私保護(hù)法律相當(dāng)薄弱的國家自然就更不在話下了。以美國為例,美國LeadsPlease公司銷售的郵件地址價格最為低廉,1 000個地址僅售85美元,并且購買超過50 000個地址的可以獲得超過40%的折扣。

在線和離線數(shù)據(jù)

對于用戶來說,在線和離線個人數(shù)據(jù)的結(jié)合是一件非常令人擔(dān)心的事情,不過,對于利用數(shù)據(jù)的人來說,這自然是一件非常令人興奮的事情。結(jié)合在線和離線數(shù)據(jù)的公司,最有名的是美國的Acxiom。根據(jù)該公司自己的聲明,Acxiom公司擁有全世界5億多人、每人約1 500個數(shù)據(jù)項的龐大數(shù)據(jù)池。該公司使用超過75 000個網(wǎng)站收集在線數(shù)據(jù),并結(jié)合運作數(shù)十年之久的離線數(shù)據(jù)庫,建成了一個令人難以置信的巨大數(shù)據(jù)池。

Acxiom公司在德國的歷史,可以追溯到1962年,首先建立起的是醫(yī)療公司和出版社的地址池,電話營銷的運作始于1982年,2005年開始電子郵件營銷。盡管在德國禁止將在線和離線數(shù)據(jù)建立關(guān)聯(lián),但是該公司仍然掌握著許多德國用戶的資料。根據(jù)Acxiom公司德國總經(jīng)理卡斯滕的介紹,該公司掌握4 000多萬個德國用戶的個人資料,其中包括姓名、郵政地址及大概的收入等信息,其中部分?jǐn)?shù)據(jù)來自聯(lián)邦統(tǒng)計局、國家統(tǒng)計局辦公室直接公布的數(shù)據(jù)。不過,Acxiom公司強調(diào),這一部分的數(shù)字并不指向個人,而是5戶、1 000戶,甚至是整個地區(qū)的統(tǒng)計數(shù)字,這意味著Acxiom公司可以向其客戶提供統(tǒng)計概率,告訴他們,在目標(biāo)地區(qū)他們應(yīng)該銷售什么產(chǎn)品。

情報機構(gòu)的數(shù)據(jù)收集

美國國家安全局和其他情報機構(gòu)也試圖將網(wǎng)上收集的數(shù)據(jù)和離線數(shù)據(jù)合并,并將數(shù)據(jù)與具體的人聯(lián)系起來。2013年6月初以來,前國家安全局分析師愛德華·斯諾登披露的數(shù)據(jù)顯示,美國當(dāng)局以反恐戰(zhàn)爭為借口進(jìn)行了大范圍的深度數(shù)據(jù)收集,電話和互聯(lián)網(wǎng)服務(wù)供應(yīng)商都是數(shù)據(jù)收集的目標(biāo)。在當(dāng)局認(rèn)為涉及刑事起訴的情況下,電話和互聯(lián)網(wǎng)供應(yīng)商必須提供相關(guān)的數(shù)據(jù),并允許調(diào)查人員監(jiān)控個人通信。而且,情報機構(gòu)不僅收集犯罪嫌疑人的數(shù)據(jù),還通過網(wǎng)絡(luò)接口進(jìn)行深層的數(shù)據(jù)包檢測,例如對數(shù)據(jù)進(jìn)行過濾,去除流媒體數(shù)據(jù)和文件共享服務(wù)的數(shù)據(jù),捕獲電子郵件。據(jù)介紹,德國聯(lián)邦情報局同樣使用類似的方法過濾并檢索特定的內(nèi)容,例如檢索用于制造炸彈的材料。不過,根據(jù)德國的相關(guān)法律,聯(lián)邦情報局必須向德國聯(lián)邦議會G10委員會提出關(guān)鍵詞申請,在聯(lián)邦議會監(jiān)控委員會委員認(rèn)可的情況下,才可以執(zhí)行為期3個月的數(shù)據(jù)過濾分析。但是僅在2011年,聯(lián)邦情報局已經(jīng)對約300萬人的電子郵件和電話交談進(jìn)行了分析。

供應(yīng)商并不是數(shù)據(jù)的唯一來源。事實上,情報機構(gòu)直接在網(wǎng)絡(luò)節(jié)點和水下電纜連接點上截取數(shù)據(jù),世界上最大的節(jié)點DE-CIX在法蘭克福,其運營商斷言外部無法訪問該設(shè)施,但是世界各地還有約340個類似的節(jié)點,其中80個位于北美,是否外部也是無法訪問,就不得而知了。據(jù)英國“衛(wèi)報”報道,英國的監(jiān)控程序“TEMPORA”有能力直接訪問大西洋的光纖電纜,這是歐洲和美國之間的互聯(lián)網(wǎng)數(shù)據(jù)大動脈。據(jù)報道,“TEMPORA”可以監(jiān)控200多條光纖,同一時間能夠并行捕獲高達(dá)46條光纖的數(shù)據(jù),捕獲的數(shù)據(jù)存儲時間長達(dá)30天。由于情報機構(gòu)截取數(shù)據(jù)的海底電纜是各國互聯(lián)網(wǎng)提供商的轉(zhuǎn)接點,因而,這將會影響到全世界的互聯(lián)網(wǎng)用戶。

互聯(lián)網(wǎng)服務(wù)供應(yīng)商本身是第三個數(shù)據(jù)源,據(jù)愛德華·斯諾登所說,美國棱鏡電子監(jiān)聽計劃的程序能夠直接訪問Google、Facebook、微軟、蘋果、雅虎、Dropbox、AOL、Paltalk等網(wǎng)絡(luò)服務(wù)提供商的服務(wù)器。2013年7月中旬,斯諾登詳細(xì)介紹了棱鏡電子監(jiān)聽計劃的具體操作情況。據(jù)他介紹,盡管微軟公司此前曾否認(rèn)這一說法,但微軟確實給國家安全局提供了直接訪問的接口,國家安全局除了可以對數(shù)據(jù)進(jìn)行深度挖掘之外,甚至還可以訪問加密的數(shù)據(jù)。而對于微軟下屬的VoIP服務(wù)商Skype,國家安全局可以通過其服務(wù)產(chǎn)品錄制音頻和視頻,美國國家安全局有一個接口可以采集數(shù)據(jù)。然而,微軟和美國國家安全局則說,這種數(shù)據(jù)訪問方式,只發(fā)生在法院批準(zhǔn)的情況下。

通過不同來源收集的大量數(shù)據(jù)如何處理,情報部門面臨著和Google相同的問題。這些非結(jié)構(gòu)化數(shù)據(jù)中包含大量的信息,并且以不同的格式存儲,處理和分析這些數(shù)據(jù)是相當(dāng)復(fù)雜的事情。在幾年前,這些數(shù)據(jù)的處理有時會需要花費幾個星期。不過,使用現(xiàn)有的“大數(shù)據(jù)”挖掘處理工具,這種數(shù)據(jù)的處理和分析可以實時地進(jìn)行。

過濾大數(shù)據(jù)的算法

在過濾、分析數(shù)據(jù)的過程中,首先需要將非結(jié)構(gòu)化的語音輸入、連接數(shù)據(jù)、文本和其他各種類型的信息進(jìn)行處理,生成結(jié)構(gòu)化的數(shù)據(jù)庫。這樣才可以通過簡單的查詢,例如誰和誰溝通?他們說什么?表達(dá)什么樣的心情?獲得可視化的搜索結(jié)果,這類似于Facebook新的搜索工具,我們可以輸入一些像“3月在慕尼黑出生的朋友”的語句來進(jìn)行查詢,對Facebook的數(shù)據(jù)進(jìn)行搜索和排序。

大數(shù)據(jù)處理最常用的工具是Hadoop,這是一個支持?jǐn)?shù)據(jù)密集型分布式應(yīng)用的軟件框架,在此框架的支持下可以對分布式計算網(wǎng)絡(luò)中PB級的數(shù)據(jù)進(jìn)行分析,這個分析過程基于Google開發(fā)的MapReduce算法,Hadoop會將數(shù)據(jù)劃分為塊,其中每個都包含大約64MB的數(shù)據(jù),然后將這些塊單獨排序。這種經(jīng)過劃分的數(shù)據(jù)對于接下來的步驟非常有幫助。數(shù)據(jù)集中的數(shù)據(jù)將被分發(fā)給分布式計算網(wǎng)絡(luò)上的節(jié)點,每個節(jié)點會周期性地把完成的工作和狀態(tài)的更新報告到中央收集點。在Hadoop的框架下,這個過程只需幾分之一秒。

分析處理過程的第二個步驟將創(chuàng)建預(yù)測模型,根據(jù)目的的不同,該過程的具體方法有一定差異,通常是檢測異常數(shù)據(jù),并根據(jù)數(shù)據(jù)的特點或者關(guān)聯(lián),對數(shù)據(jù)流進(jìn)行聚類分析,目標(biāo)是將對象根據(jù)某些共同的或者相似之處劃分成組(群),例如根據(jù)人們的電話或者電子郵件,獲得一個可視化的社交網(wǎng)絡(luò)。情報部門通過這種方法識別不同的人之間存在的關(guān)系,他們的方法跨越國界并且經(jīng)過多年的時間積累。而我們則可以通過在線工具Immersion(immersion.media.mit.edu),檢索自己的Google電子郵箱,以類似的方法標(biāo)識自己的家人、朋友和同事。

根據(jù)國家安全局主任助理約翰·英格利斯的說法,監(jiān)測范圍大約是2個或3個層級的聯(lián)系人。如果每個人的社交圈人數(shù)是100人,那么這個人的第三個層級的聯(lián)系人就多達(dá)百萬人(100×100×100),這意味著,在監(jiān)控一個嫌疑人時,情報部門的分析師將收集百萬人的信息,通過這些信息發(fā)現(xiàn)和調(diào)查某人。

數(shù)據(jù)收集的是與非

從數(shù)據(jù)分析的角度來看,關(guān)鍵的問題是能從數(shù)據(jù)中推斷出什么。有一些積極的應(yīng)用可以為人們帶來巨大的價值,確實是必須通過數(shù)據(jù)收集分析實現(xiàn)的。例如信用卡公司通過分析用戶的行為模式,可以更快地發(fā)現(xiàn)用戶的信用卡被盜等問題。Google通過分析搜索查詢的數(shù)據(jù),甚至可以預(yù)測流感疫情。研究人員分析人類基因組,同樣也需要收集大量的數(shù)據(jù)并加以分析。

然而,即使是積極的應(yīng)用也可能會有危險,例如Google可能會顯示錯誤的搜索建議;亞馬遜可能會推薦我們不感興趣的商品;最壞的情況下,問題可能會很嚴(yán)重,例如情報機構(gòu)可能由于一個無辜的人在社交網(wǎng)絡(luò)的觀點而懷疑他,甚至和穆拉特·庫納茨一樣,在錯誤的行為分析基礎(chǔ)下被關(guān)押在關(guān)塔那摩灣,這從社會的角度看是絕對不能容忍的。

在兩個極端之間存在一個廣闊的灰色區(qū)域,對于大部分用戶來說,身邊的這些數(shù)據(jù)具體發(fā)生了什么,基本上是一無所知。而事實上別人將利用這些數(shù)據(jù)賺錢,例如從廣告業(yè)的角度來看,有關(guān)病歷、家庭狀態(tài)和即將建立一個新家的個人資料與信息是非常有價值的。而對于網(wǎng)絡(luò)犯罪分子來說,個人數(shù)據(jù)是非常重要的。從他們的角度來看,最有價值的是個人的完整記錄,即所謂的“Fullz”,這一般包括個人的姓名、銀行卡或者信用卡信息和電話號碼、電子郵件等個人信息。利用這些信息可以偽造信用卡或駕駛執(zhí)照,轉(zhuǎn)手販賣給其他人也同樣價值不菲。根據(jù)戴爾SecureWorks公司的介紹,個人信息的價值可以高達(dá)1 000多美元,其中所謂的“Fullz”約值550美元。

然而,當(dāng)我們清楚自己每一個點擊的數(shù)據(jù)都將被收集起來、每一個操作及輸入的每一個字符都可能有人在窺探時,我們完全可以有意識地決定給他們留下些什么,例如犧牲一點時間和精力采取一些小措施等。

大數(shù)據(jù)分析

實時:處理數(shù)個PB量級的數(shù)據(jù)

在線公司和情報機構(gòu)需要解決一個相同的問題,那就是他們必須使用自己的數(shù)據(jù)中心實時處理巨大的數(shù)據(jù)量。通過復(fù)雜的算法,例如Google開發(fā)的MapReduce算法,就可以有效地解決這一問題。

數(shù)據(jù)分析的結(jié)果

群集分析方法,可以通過電子郵件提供商的數(shù)據(jù)可視化用戶的社會關(guān)系。

數(shù)據(jù)銷售

我們的數(shù)據(jù)為什么那么寶貴

有關(guān)疾病的信息,從廣告業(yè)的角度來看,是最有價值的信息點,因為它可以幫助相關(guān)的行業(yè)投放有針對性的藥品廣告。

我們?nèi)绾伪Wo(hù)自己

對我們的通信進(jìn)行加密

使用Gpg4win(gpg4win.de/index.html)加密我們在Outlook、Thunderbird等郵件客戶端處理的郵件。

隱藏我們的IP地址

使用Tor(www.torproject.org)客戶端連接到Tor網(wǎng)絡(luò),我們可以匿名上網(wǎng)沖浪,不留痕跡。

處理好我們的隱私

使用Privacyfix(www.privacyfix.com)檢測并學(xué)習(xí)如何處理好自己的隱私問題。

猜你喜歡
離線用戶分析
異步電機離線參數(shù)辨識方法
防爆電機(2021年4期)2021-07-28 07:42:46
呼吸閥離線檢驗工藝與評定探討
隱蔽失效適航要求符合性驗證分析
淺談ATC離線基礎(chǔ)數(shù)據(jù)的準(zhǔn)備
電力系統(tǒng)不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
離線富集-HPLC法同時測定氨咖黃敏膠囊中5種合成色素
中成藥(2018年2期)2018-05-09 07:20:09
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
電力系統(tǒng)及其自動化發(fā)展趨勢分析
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
沧源| 玉林市| 仁寿县| 谢通门县| 灵武市| 合山市| 突泉县| 五华县| 新宾| 吴江市| 武山县| 宁乡县| 江孜县| 舟山市| 梧州市| 资源县| 江川县| 宣威市| 许昌县| 麻城市| 慈利县| 松潘县| 莒南县| 敖汉旗| 阿合奇县| 黎平县| 永平县| 安乡县| 辽源市| 那曲县| 张家口市| 大渡口区| 长岭县| 定南县| 湟中县| 张家港市| 武鸣县| 天全县| 潞西市| 汨罗市| 张家界市|