小說里的神探,不管是福爾摩斯還是柯南,都有一個共同的特點,那就是有一個具備強大分析能力的大腦,能夠觀察到細小的證據(jù),并把這些證據(jù)關(guān)聯(lián)起來,從而分析出犯罪事實。
但在現(xiàn)實中,神探不容易出現(xiàn),罪犯卻天天在行動。
幸運的是,在大數(shù)據(jù)時代,普通警察都有可能變成神探,甚至能預(yù)測犯罪。如果福爾摩斯穿越到現(xiàn)代,他將不必在現(xiàn)場頻繁擺弄他的放大鏡,也許他只要坐在電腦前,看看電腦屏幕,一個個奇案就可告破!
犯罪分子無處遁形
在互聯(lián)網(wǎng)時代,警察破案除了用到傳統(tǒng)的檔案、走訪資料、電話記錄等信息外,還會用到互聯(lián)網(wǎng)上出現(xiàn)的信息。所有的這些信息匯集成海量的數(shù)據(jù),這些數(shù)據(jù)如今有了一個更加時髦的身份,那就是“大數(shù)據(jù)”。當然,大數(shù)據(jù)不僅僅是換了“馬甲”的資訊,它與傳統(tǒng)的資訊還是有區(qū)別的。大數(shù)據(jù)指的是資料量規(guī)模巨大的資訊,往往是在一個較大地域范圍內(nèi)所出現(xiàn)的所有或某類資訊,它們無法在短時間內(nèi)利用傳統(tǒng)的方法被人們所利用。
在信息時代,一個犯罪分子要想銷聲匿跡,除非把自己完全絕緣起來,這樣無論警察掌握的大數(shù)據(jù)有多大,都難以查找到犯罪分子的個人電子信息了。但是,在如今這個信息技術(shù)已經(jīng)滲透到生活方方面面的時代,犯罪分子要想不留下任何電子信息,已經(jīng)是幾乎不可能的事情了。就算犯罪分子不上網(wǎng)、不使用手機、不看電視等,總之不和任何信息設(shè)備發(fā)生關(guān)聯(lián),也可能逃不脫大數(shù)據(jù)的追蹤。因為犯罪分子不可能長期遠離道路、商店、碼頭、車站等公共場所,一旦出現(xiàn),就可能被公共的或他人的電子設(shè)備拍攝到。
近來,利用大數(shù)據(jù)成功偵破的有名案例是波士頓連續(xù)爆炸案。2013年4月15日,美國波士頓在舉辦馬拉松比賽的過程中發(fā)生連續(xù)炸彈爆炸案,結(jié)果導(dǎo)致3人死亡、183人受傷。在案件發(fā)生后,警方保留了案發(fā)現(xiàn)場附近的所有監(jiān)控錄像以供比對、查找,波士頓警察局的官員稱“仔細查看了所有錄像的每一幀畫面”。然后,警察走訪了事發(fā)地點附近12個街區(qū)的居民,收集可能存在的各種私人錄像、照片,無論它們來自攝像機還是手機。警方還大量收集網(wǎng)上信息,包括像Twitter、Facebook、 Youtube等社交媒體上出現(xiàn)的相關(guān)照片、錄像等,而且在這些流量巨大的網(wǎng)站上向公眾提出了收集相關(guān)信息的請求。
結(jié)果,警方從馬拉松賽事沿途錄像中尋覓到嫌疑人的蹤跡,并從錄像中截取出嫌疑人照片,其中包括嫌疑人正面的清晰影像,并結(jié)合其他信息,宣布犯罪嫌疑人為兄弟倆,分別是26歲的塔米爾南·沙尼耶夫和19歲的喬卡·沙尼耶夫。4月19日凌晨,嫌疑人與警方發(fā)生槍戰(zhàn),塔米爾南在槍戰(zhàn)中受重傷,送到醫(yī)院后不治身亡,喬卡趁亂逃脫。當日晚間,警方利用公共場所的紅外線攝像機搜集到的數(shù)據(jù),準確定位了喬卡的位置,并且迅速包圍。在與警方對峙數(shù)小時后,喬卡投降,追捕行動結(jié)束。
困惑“現(xiàn)代福爾摩斯”的是如何存儲這些大數(shù)據(jù)
目前,獲取大數(shù)據(jù)的渠道主要有兩個:一個是電話公司,一個是互聯(lián)網(wǎng)公司。美國國家安全局就長期從電話運營商處獲取通話數(shù)據(jù)庫,其中包含大量通話數(shù)據(jù)記錄,例如通話時間與通話時長、相關(guān)電話號碼以及移動設(shè)備的本地數(shù)據(jù)等。這套數(shù)據(jù)庫建立于2001年“9·11”恐怖襲擊事件后不久,而且得到了多家運營商的支持。2006年,《今日美國》雜志發(fā)表文章稱,這套通話數(shù)據(jù)庫是“世界上規(guī)模最大的數(shù)據(jù)庫”。該數(shù)據(jù)庫處理著數(shù)以十億計的電話記錄數(shù)據(jù),有超級計算機和數(shù)據(jù)分析師專門處理這些數(shù)據(jù)。
美國還長期從互聯(lián)網(wǎng)信息中獲取大數(shù)據(jù)。然而,他們目前無法真正捕捉并保存用戶們所產(chǎn)生的全部數(shù)據(jù),更無法將其無限期加以留存。隨著信息技術(shù)的發(fā)展,這兩項艱巨任務(wù)逐漸變得可能起來。由于全球互聯(lián)網(wǎng)的I P地址都由美國的服務(wù)商來提供,這給美國監(jiān)控全世界提供了便利。美國國家安全局已經(jīng)在海底互聯(lián)網(wǎng)光纖主干上安裝了智能流量分析器,這是一種原理類似于“水龍頭”的分流裝置,可以獲取全球互聯(lián)網(wǎng)上的信息。
然而,比獲取信息更難的是存儲信息。根據(jù)思科公司的統(tǒng)計,2012年全球互聯(lián)網(wǎng)流量每天達11億GB,這需要110萬個容量為1 000GB的硬盤來容納這些數(shù)據(jù)。目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的,而在未來一段時期內(nèi),互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,從存儲介質(zhì)來講,目前要將互聯(lián)網(wǎng)上的所有信息存儲下來就已經(jīng)無法實現(xiàn),更不要說實際使用這些信息了。當然,從技術(shù)發(fā)展的角度來看,將來是有希望做到把所有的信息都存儲下來,這就是未來的DNA存儲技術(shù)所能做的事情。
由于目前DNA存儲還沒有進入實用階段,人們只能從相對有限的大數(shù)據(jù)中獲取線索。美國國家安全局每天所捕捉并保留的數(shù)據(jù)總量,也僅占每天全球互聯(lián)網(wǎng)流量和通話記錄中的一小部分,那都是通過關(guān)鍵詞、關(guān)鍵圖像、關(guān)鍵數(shù)據(jù)等篩選過后的信息。
從互聯(lián)網(wǎng)獲取信息還遭遇另外一個難題,那就是密碼問題。安全部門希望獲得的信息往往是經(jīng)過加密的,比如恐怖組織和一些黑客會采取很先進的加密技術(shù)來傳輸自己的信息。要破譯這些信息,不僅需要更好的技術(shù),而且投入十分巨大。更重要的是,破譯這些信息需要一定時間,恐怖組織或犯罪分子會利用這個時間差,有時在安全部門或司法部門破譯信息之前,恐怖襲擊或犯罪活動已經(jīng)發(fā)生了。因此,大數(shù)據(jù)時代警方所能利用的線索雖然很多,但是需要警方不斷更新技術(shù),讓自己更好更快地從那些數(shù)據(jù)中挖掘出有用信息。這些技術(shù)被統(tǒng)稱為“數(shù)據(jù)挖掘”。
福爾摩斯的筆記本變成了數(shù)據(jù)挖掘技術(shù)
在偵破過程中,刑偵人員會對來源不同的各種證據(jù)和線索進行梳理,找出對偵破最有用的證據(jù)和線索。這些對已有資料的梳理、統(tǒng)計、分析工作,就是數(shù)據(jù)挖掘技術(shù)。
在100多年前,多國司法機構(gòu)就知道建立違法犯罪檔案。一旦某地出現(xiàn)新的違法犯罪活動時,刑偵人員會搜索已有的檔案,從中發(fā)現(xiàn)破案的線索。而犯罪學(xué)專家則研究這些檔案,總結(jié)違法犯罪的動機、方式、工具等特征,為預(yù)防犯罪和偵破案件提供依據(jù)。這些都是較為古老的數(shù)據(jù)挖掘方法。福爾摩斯就有一本筆記本,里面記載著自己編制的犯罪記錄檔案,在辦案遇到瓶頸時,他也會掏出那本子翻一翻,看看能不能從中找到什么線索。
到了信息科技時代,福爾摩斯的筆記本就不夠看了,數(shù)據(jù)挖掘則以人工挖掘為主轉(zhuǎn)變?yōu)橛嬎銠C挖掘為主。
數(shù)據(jù)挖掘又被稱為資料探勘、數(shù)據(jù)采礦,是指從大量、不完全、有噪聲、模糊、隨機的數(shù)據(jù)中,通過設(shè)置一定的學(xué)習(xí)算法,提取隱含在其中的、人們事先不知道但又是潛在有用的信息。它是根據(jù)數(shù)據(jù)的微觀特征,發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的知識,是信息優(yōu)勢成為知識優(yōu)勢的基礎(chǔ)工程。數(shù)據(jù)挖掘萌芽于“情報深加工”,其實質(zhì)就是發(fā)現(xiàn)情報背后的情報。在大數(shù)據(jù)時代,數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中尋找到自己需要的信息,我們常用百度、谷歌等搜索引擎去搜索各種答案,這也屬于數(shù)據(jù)挖掘的范疇。
數(shù)據(jù)挖掘技術(shù)已經(jīng)被廣泛用在刑事偵破領(lǐng)域,為破獲一些疑難雜案、保障公民的人身和財產(chǎn)安全提供了新的技術(shù)支持。比如,尋找犯罪嫌疑人的人臉識別方法就需要用到數(shù)據(jù)挖掘技術(shù)。警方先通過計算機對嫌疑人進行畫像,然后自動在目標人員數(shù)據(jù)庫中搜索犯罪嫌疑人。不過,人臉識別技術(shù)要高效發(fā)揮破案的作用,前提就是要建立有大級別的人像數(shù)據(jù)庫系統(tǒng)。也就是說,人臉識別的數(shù)據(jù)挖掘是需要建立在大數(shù)據(jù)的基礎(chǔ)之上的。同樣,指紋識別、虹膜識別、掌紋識別、步態(tài)識別等生物識別技術(shù),也需要逐步完善的數(shù)據(jù)庫給予支撐。
美國國家安全局和交通安全局曾經(jīng)基于數(shù)據(jù)挖掘技術(shù),開發(fā)出計算機輔助乘客篩選系統(tǒng)。該系統(tǒng)為美國本土各個機場提供接口,當乘客購買機票時,系統(tǒng)利用乘客提供的信息,確定乘客是不是需要額外安全篩選的人員。該系統(tǒng)將乘客購買機票時提供的信息輸入到商用數(shù)據(jù)提供商提供的數(shù)據(jù)庫,這些信息包括全名、地址、電話號碼以及出生日期。然后,商用數(shù)據(jù)庫將隱含特殊危險等級的數(shù)字分值傳送給交通安全局?!熬G色”分值的乘客將接受“正常篩選”,“黃色”分值的乘客將接受“額外篩選”,“紅色”分值的乘客將被禁止登機,而且還將接受“法律強制性的關(guān)照”。
大數(shù)據(jù)時代的隱憂
英國牛津大學(xué)網(wǎng)絡(luò)學(xué)院的維克托·爾耶·舍恩伯格教授在其新書《大數(shù)據(jù)時代》的引言中說:“大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型。就像望遠鏡讓我們能夠感受宇宙、顯微鏡讓我們觀測微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā)……”美國政府已將大數(shù)據(jù)視為“未來的新石油”,并將對大數(shù)據(jù)的研究上升到國家高度。在美國的推動下,未來大數(shù)據(jù)之戰(zhàn)的腳步聲也似乎越來越近。大數(shù)據(jù)是一股不可阻擋的時代潮流,它不僅可以幫助政府機關(guān)和司法機構(gòu)提高辦事效率,而且會影響到普通人日常生活的方方面面。
舍恩伯格在新書中還表示,在大數(shù)據(jù)時代,人們時刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視著我們的購物習(xí)慣;谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣;而微博似乎什么都知道,不僅竊聽到了我們的心思,還能描繪我們的社交關(guān)系網(wǎng)。因此,不僅司法機構(gòu)可以利用大數(shù)據(jù)來破案和預(yù)測潛在的犯罪,犯罪分子和犯罪團伙也可以利用大數(shù)據(jù)尋找到可以侵害的對象并實施犯罪。以前不少盜竊大案的犯罪分子往往要實地勘察幾個月甚至數(shù)年,以此來分析某人或某機構(gòu)的習(xí)慣規(guī)律以實施犯罪行為。在大數(shù)據(jù)時代,只需要一臺電腦和簡單的黑客手段就可以完成這樣的分析。目前,已經(jīng)有不少犯罪團伙通過互聯(lián)網(wǎng)上的海量數(shù)據(jù),利用搜索引擎和密碼破譯等手段,挖掘出人們的私人信息和社交關(guān)系,以此實施盜竊、詐騙、敲詐勒索、拐賣兒童等犯罪行為。
除了可能被犯罪分子偷窺外,黑客也可能侵入到政府的服務(wù)器查看所監(jiān)控到的信息。如果個人網(wǎng)絡(luò)信息保護問題得不到很好的解決,未來因大數(shù)據(jù)和數(shù)據(jù)挖掘引發(fā)的社會矛盾將會越來越多,且會越來越激烈。