/斯嘉
這天,準(zhǔn)備考研許久的你,躊躇滿志地打開了考研報(bào)名網(wǎng)站。
然而,還沒來得及一展才學(xué),你就被卡在了網(wǎng)站登錄的驗(yàn)證碼上。重疊在一起的字體,布滿馬賽克的背景,讓你輸了幾次驗(yàn)證碼都沒有輸對。
你屢敗屢戰(zhàn),但驗(yàn)證碼上出現(xiàn)的“骉叕犇羴”,又瞬間讓你懷疑自己的學(xué)識水平。
逼瘋你的驗(yàn)證碼,為什么變得越來越復(fù)雜?
這個(gè)究竟是o還是0?是1還是l?
每一次輸驗(yàn)證碼時(shí),你都會忍不住發(fā)出這樣的疑問。它那扭曲的形狀,粘連在一起的字符,雪花狀的背景,常讓你陷入自己是不是眼瞎的懷疑。
然而,這種字符驗(yàn)證碼,還只是日常的基礎(chǔ)題,高難度的題目,往往出現(xiàn)在春節(jié)這樣的特殊時(shí)刻。
登入12306時(shí)要選擇的圖片驗(yàn)證碼,就曾是每個(gè)在春節(jié)搶過火車票的人的噩夢。
你要在一堆高糊的圖片中,挑選出各種“猶抱琵琶半遮面”的物體。有時(shí)運(yùn)氣不好,碰上排風(fēng)機(jī)、發(fā)電機(jī)等超出生活常識之外的東西,你就只能被困在一次又一次的選擇錯(cuò)誤中,眼睜睜看著車票越來越少。
有些驗(yàn)證碼更是不滿足只考你的眼力,還要測一下你的智商。在購票網(wǎng)站搶演唱會門票時(shí),不僅要懂點(diǎn)文學(xué)典故,讀過四大名著,末了,還要附帶讓你算一道數(shù)學(xué)題。
屏幕上的每一個(gè)驗(yàn)證碼,似乎都在提醒你:沒點(diǎn)文化,就別跟人學(xué)著追星了吧。
美國斯坦福大學(xué)的研究指出,驗(yàn)證碼已經(jīng)過難。
研究者們搜集了8500個(gè)多種形式的驗(yàn)證碼讓受試者辨認(rèn),發(fā)現(xiàn)他們在判斷驗(yàn)證碼時(shí),平均要花9.8秒,且同時(shí)讓三個(gè)人辨別同一個(gè)驗(yàn)證碼,三人間的一致率只有71%。如果是聽聲音辨識的驗(yàn)證碼,準(zhǔn)確率會更低,只有31.2%。
驗(yàn)證碼瘋狂內(nèi)卷,而你只想砸鼠標(biāo)。
其實(shí),驗(yàn)證碼也不是一開始就這么復(fù)雜。
在驗(yàn)證碼被發(fā)明前,許多免費(fèi)的郵箱網(wǎng)站常遭受惡性外掛軟件的攻擊。例如在2000年時(shí),雅虎郵箱中曾有大量用機(jī)器注冊的馬甲賬號,他們會給用戶發(fā)大量的垃圾、詐騙郵件。
為了解決這個(gè)問題,程序開發(fā)人員試圖找到一種登錄驗(yàn)證方式,能判斷出正在操作的究竟是人還是機(jī)器。
Alta Vista的工程師們便找到了有效的方式。他們發(fā)現(xiàn),在當(dāng)時(shí),即使是配備了最先進(jìn)的光學(xué)字符識別系統(tǒng)的電腦,也很難正確識別出印在紙本上的字,尤其當(dāng)字符被拉伸、扭曲時(shí),電腦就更難辨認(rèn)。
然而,這對于人類來說卻很容易。我們從小就一直在接受閱讀訓(xùn)練,即使紙上的字歪歪斜斜,部分被遮擋,也不影響我們對整體的判讀。你作業(yè)簿上的鬼畫符,老師們也能細(xì)心辨認(rèn);醫(yī)生寫的天書病歷,照樣有人能破譯。
扭曲的字符,便成了最常用的登錄驗(yàn)證方式,并有了“驗(yàn)證碼”(Captcha)這個(gè)正式名字。程序員們會預(yù)先設(shè)定一個(gè)字符庫,庫中的字符會排列組合成字符串,再根據(jù)隨機(jī)變量被扭曲、涂抹,定位在隨機(jī)背景上,從而成了我們所見的驗(yàn)證碼。
這些字符謎題,確實(shí)有效減少了網(wǎng)站中的垃圾郵件,到2001年,“ADD-URL”郵箱中的垃圾郵件便減少了95%。
但隨著電腦光學(xué)字符識別技術(shù)的不斷發(fā)展,這種形式的驗(yàn)證碼已經(jīng)越來越難將外掛機(jī)器擋在門外。在2014年Google工程師的測試中,即使是最難的扭曲字符類驗(yàn)證碼,電腦識別的準(zhǔn)確率也高達(dá)99.8%。
為了擋住越來越聰明的機(jī)器,驗(yàn)證碼因此被迫進(jìn)化,出現(xiàn)了圖形驗(yàn)證碼、邏輯驗(yàn)證碼、語音驗(yàn)證碼,甚至還有把幾種混合而成的究極形態(tài)。
不過,你受的每一次苦,也不是白費(fèi)功夫。你在十秒內(nèi)減少的腦細(xì)胞,其實(shí)都轉(zhuǎn)移到了一個(gè)AI身上。
我們辨識的一些驗(yàn)證碼字符,來自那些年代久遠(yuǎn)的報(bào)紙、典籍,這些手寫帶有污點(diǎn)的字跡,難以被電腦辨識,程序員便將這些字符加入到驗(yàn)證碼中。
這樣的驗(yàn)證碼通常由兩段組成,前一段是已經(jīng)成功數(shù)字化的單詞,另一段則是不知道正確答案的典籍字符。只要用戶答對第一段,第二段的判讀結(jié)果也會被記錄下,再比對多個(gè)用戶的辨識結(jié)果,得出結(jié)論。
不只是字符類驗(yàn)證碼,Google讓用戶辨認(rèn)驗(yàn)證碼圖片中的“斑馬線”“紅綠燈”,也是在加強(qiáng)機(jī)器人的圖片辨識能力,并將機(jī)器學(xué)習(xí)成果運(yùn)用在自動駕駛上。
我們就陷入了這樣一個(gè)循環(huán)怪圈:輸入越多驗(yàn)證碼,AI的學(xué)習(xí)能力就越強(qiáng),技術(shù)的進(jìn)步讓更多驗(yàn)證碼被破解,而我們就要被迫再次設(shè)計(jì)出更復(fù)雜的驗(yàn)證碼……
驗(yàn)證碼似已背離了初衷,成了一個(gè)難住了人類,卻難不住機(jī)器的擺設(shè)。
越來越多的科技公司也意識到了這個(gè)問題,開始試圖簡化繁雜的驗(yàn)證碼。
比如,你現(xiàn)在登錄12306時(shí),就不用在白百何中找王珞丹,而只用拖動滑塊。
這樣的驗(yàn)證碼不僅是在評判你操作的結(jié)果,更多的是記錄并分析你操作時(shí)的行為。電腦觀察你移動滑塊的速度變化,就能認(rèn)出你是人類。
你顫動的鼠標(biāo),對準(zhǔn)滑塊時(shí)的慢悠悠,甚至可能還要重復(fù)左右擺動幾次才能對準(zhǔn)——都是只屬于人類的笨拙。
并不是它真的有讀心術(shù),而是在你勾選后,它會自動分析你在瀏覽該網(wǎng)頁時(shí)的行為,包括鼠標(biāo)的移動軌跡、瀏覽的速率等等,借此分析出這些行為是否屬于正常人類的操作。
至此,在這場人類與機(jī)器的比賽中,我們已不再試圖證明自己更聰明,而是轉(zhuǎn)向另一種策略:那不統(tǒng)一的行為軌跡、不精確的答案、笨手笨腳的操作,才是我們生而為人的特征啊。
不過,這樣的隱性驗(yàn)證碼也不是萬靈丹藥。在它出現(xiàn)后不久,加拿大多倫多大學(xué)的學(xué)者便發(fā)表了論文,聲稱他們的機(jī)器人可以模仿人類的操作行為,順利通過隱性驗(yàn)證碼的測試。
1950年,著名計(jì)算機(jī)科學(xué)家圖靈提出了一個(gè)思想實(shí)驗(yàn):人類提出一系列問題,機(jī)器給出答案,再由人類判斷對方是否為機(jī)器。
如果有30%以上的人將機(jī)器誤判成人類,那么這個(gè)機(jī)器就被認(rèn)為具有人類智能。
但70年過去,人類陷入了完全相反的境地——一個(gè)個(gè)驗(yàn)證碼,正是機(jī)器拋給人類的問題:“你是人類嗎?”
這一次,審判權(quán)握在機(jī)器手中,而被驗(yàn)證碼難住的人類,仍在用力吶喊:我不是機(jī)器人。