陸佳裔
欺詐自古有之,到了互聯(lián)網(wǎng)上,欺詐的行業(yè)更為集中,并且形成了一條產(chǎn)業(yè)鏈。上游是黑客,他們通過(guò)挖掘平臺(tái)的漏洞、編寫木馬入侵客戶的終端獲得數(shù)據(jù),中游是購(gòu)買數(shù)據(jù)的欺詐團(tuán)伙,下游是黑色產(chǎn)業(yè)鏈的各種周邊組織,它們洗錢、收卡、販賣身份等。
猛犸反欺詐在做的,就是在互聯(lián)網(wǎng)平臺(tái)上從海量的用戶中揪出那些有異常行為的欺詐分子,向商家發(fā)出預(yù)警。猛犸反欺詐是一家提供SaaS服務(wù),以保護(hù)企業(yè)互聯(lián)網(wǎng)及移動(dòng)業(yè)務(wù)安全為目標(biāo)的數(shù)據(jù)技術(shù)公司,通過(guò)抓取互聯(lián)網(wǎng)上用戶的行為軌跡,使用這些大數(shù)據(jù)去分析。
“過(guò)去判斷好人和壞人,要聽(tīng)其言和觀其行,在互聯(lián)網(wǎng)上,行為數(shù)據(jù)則提供了大量的信息讓人判斷對(duì)方是不是他聲稱的那個(gè)好人?!泵歪锓雌墼p的創(chuàng)始人張克告訴《第一財(cái)經(jīng)周刊》。
猛犸把分析的過(guò)程交給了機(jī)器—你可能并不知道這些數(shù)據(jù)各自代表了什么,但是機(jī)器自動(dòng)跟蹤分析后,根據(jù)模型在不同點(diǎn)位的分布,能自動(dòng)發(fā)現(xiàn)異常的情況,并予以預(yù)告和提醒。就像給企業(yè)的風(fēng)控安上了一連串烽火臺(tái),機(jī)器學(xué)習(xí)成了那些看不見(jiàn)的哨兵。
這些欺詐分子大多出現(xiàn)在游戲、O2O和互聯(lián)網(wǎng)金融等平臺(tái),在張克看來(lái),離錢越近越危險(xiǎn)。
張克曾在思科擔(dān)任SaaS產(chǎn)品總監(jiān),后來(lái)跳槽到移動(dòng)網(wǎng)絡(luò)廣告公司 Madhouse成為DSP事業(yè)部負(fù)責(zé)人。為了實(shí)現(xiàn)廣告的精準(zhǔn)投放,張克和他的團(tuán)隊(duì)開(kāi)發(fā)了一套R(shí)eal Time Bidding系統(tǒng),用于實(shí)時(shí)預(yù)測(cè)用戶轉(zhuǎn)化概率并出價(jià)購(gòu)買廣告機(jī)會(huì)。簡(jiǎn)單說(shuō)來(lái)就是分析用戶和點(diǎn)擊量之間的關(guān)系,找出誰(shuí)是目標(biāo)廣告客戶,并預(yù)測(cè)他們下一次點(diǎn)擊同類廣告的概率。比如當(dāng)一個(gè)廣告推送后,團(tuán)隊(duì)通常會(huì)統(tǒng)計(jì)200毫秒內(nèi)點(diǎn)擊廣告的客戶數(shù)量,以及這些客戶來(lái)自什么渠道,然后給這些源自不同渠道的用戶數(shù)據(jù)打上標(biāo)簽,整合到廣告公司的平臺(tái)上。
通過(guò)機(jī)器建模后的用戶行為分析,張克的團(tuán)隊(duì)就能幫助公司預(yù)測(cè),用戶下一次點(diǎn)擊同類廣告的概率,以此給出一個(gè)建議公司購(gòu)買該廣告的金額。
這套技術(shù)系統(tǒng)在鑒別好人、預(yù)測(cè)誰(shuí)是廣告公司目標(biāo)客戶的同時(shí),需要發(fā)現(xiàn)廣告中的虛假點(diǎn)擊和注冊(cè),兩者的原理和技術(shù)相似,后來(lái)成了猛犸反欺詐的靈感。它們?cè)硐嗨?,但是目?biāo)對(duì)象、底層數(shù)據(jù)以及模型結(jié)構(gòu)都完全不同。廣告主要找到目標(biāo)受眾,預(yù)測(cè)他們購(gòu)買的幾率,而猛犸要找到目標(biāo)欺詐者,從他們的行為軌跡中嗅到欺詐的痕跡。意識(shí)到廣告行業(yè)遠(yuǎn)遠(yuǎn)無(wú)法滿足這套技術(shù)的應(yīng)用后,2014年11月,張克離職創(chuàng)辦了猛犸反欺詐(下簡(jiǎn)稱“猛犸”)。
不過(guò)離職創(chuàng)業(yè)的最初,這家技術(shù)驅(qū)動(dòng)型公司卻為應(yīng)用場(chǎng)景發(fā)了愁。如果用在廣告上太浪費(fèi),那么什么行業(yè)才能最大化它的效用呢?張克和團(tuán)隊(duì)最初為猛犸找了5個(gè)應(yīng)用方向。比如做數(shù)據(jù)交換平臺(tái),類似現(xiàn)在的貴州大數(shù)據(jù)交易所,再比如DMP的廣告流量分發(fā),或者像友盟、TalkingData等應(yīng)用分析類的數(shù)據(jù)平臺(tái)。然而這些設(shè)想一一夭折。數(shù)據(jù)交換平臺(tái)目前多由政府主導(dǎo),自己做容易越界;DMP是典型的廣告行業(yè)生意,沒(méi)有數(shù)據(jù)源寸步難行。至于應(yīng)用分析類平臺(tái)—猛犸成立3個(gè)月內(nèi),張克發(fā)現(xiàn)有3個(gè)校友在做同樣的事,它技術(shù)門檻不高,且已經(jīng)成了紅海。
團(tuán)隊(duì)最后把猛犸的定位聚焦在了反欺詐上,做“以機(jī)器學(xué)習(xí)驅(qū)動(dòng)的反欺詐產(chǎn)品”。其核心依然是利用技術(shù),對(duì)用戶行為做預(yù)測(cè)。
猛犸要打擊的就是位于產(chǎn)業(yè)鏈中游的欺詐團(tuán)伙,這套反欺詐系統(tǒng)主要應(yīng)用在線上可以產(chǎn)生交易的環(huán)節(jié),這里的交易是泛指,包括從最前端的注冊(cè)開(kāi)始,再到登錄,最后到支付等步驟。欺詐主要分為“薅羊毛”、代充值、刷單和消費(fèi)金融的惡意套現(xiàn),主要集中在O2O、游戲和互聯(lián)網(wǎng)金融領(lǐng)域。
如果說(shuō)廣告行業(yè)的欺詐還停留在點(diǎn)擊量作假,只是騙取流量,那么到了O2O、游戲等行業(yè),薅羊毛、刷單、代充值等欺詐帶來(lái)的是切實(shí)的損失。以薅羊毛為例,別看“利潤(rùn)微薄”,猛犸的一個(gè)客戶曾發(fā)現(xiàn)一天內(nèi)損失30余萬(wàn)元,源頭就是單價(jià)1角的系統(tǒng)漏洞。羊毛黨利用漏洞,一天刷單了300萬(wàn)次。
“越接近錢的地方,越危險(xiǎn)”,張克說(shuō)?;ヂ?lián)網(wǎng)金融領(lǐng)域的欺詐和薅羊毛的小額高頻不同,頻率低、金額大,出現(xiàn)一筆欺詐,就意味著至少1000元無(wú)法收回。因此風(fēng)控問(wèn)題是大部分互聯(lián)網(wǎng)金融平臺(tái)存亡的關(guān)鍵所在。根據(jù)芝麻信用的一份調(diào)查,消費(fèi)金融、互聯(lián)網(wǎng)金融公司的壞賬損失超過(guò)50%來(lái)源于欺詐,身份冒用類欺詐占比最高,其次是團(tuán)伙欺詐,其余的還有賬戶盜用、惡意違約等。
“更難以監(jiān)督的是,欺詐產(chǎn)業(yè)鏈并沒(méi)有按行業(yè)劃分,而是按錢劃分,哪里有錢去哪里?!崩讜源ǜ嬖V《第一財(cái)經(jīng)周刊》,和張克在廣告公司共事兩年后,他加入猛犸,成為合伙人之一。他發(fā)現(xiàn),電商的刷單和游戲的刷單薅羊毛,背后極有可能是同一撥人。這些作案團(tuán)伙分工有序,有些負(fù)責(zé)刷量,有些負(fù)責(zé)盜號(hào),還有的就從業(yè)務(wù)中薅羊毛。根據(jù)不同的欺詐行為,有人負(fù)責(zé)提供技術(shù),有人負(fù)責(zé)設(shè)備,還有人管理外圍服務(wù),甚至還有一套專業(yè)的“如何造假”系列培訓(xùn)。
張克最初的目標(biāo)是金融業(yè)。在他看來(lái),從廣告、游戲、電商到金融,欺詐有個(gè)循序漸進(jìn)的過(guò)程,終點(diǎn)就在金融行業(yè)。尤其在金融業(yè)整體由實(shí)體轉(zhuǎn)向虛擬,帶火了P2P、消費(fèi)金融、現(xiàn)金貸等互聯(lián)網(wǎng)金融的大環(huán)境下,傳統(tǒng)的風(fēng)控手段成本越來(lái)越高,跟不上欺詐者的新花樣,只有依靠技術(shù)才能解決這些問(wèn)題。
不過(guò)猛犸最先切入的卻是O2O和游戲領(lǐng)域。
2014年年末,當(dāng)時(shí)公司算上張克,只有四五位員工。在沒(méi)有規(guī)模、沒(méi)有案例的情況下,沒(méi)有金融公司愿意使用猛犸的產(chǎn)品,哪怕是免費(fèi)的。張克只能從身邊的朋友入手,托熟人送出免費(fèi)的系統(tǒng)測(cè)試。
后來(lái)并入滴滴出行的快的公司,是猛犸早期的幾家客戶之一,也是其中體量最大的一家。羊毛黨們?yōu)榱双@得當(dāng)時(shí)幾家打車平臺(tái)因競(jìng)爭(zhēng)而產(chǎn)生的高額補(bǔ)貼,導(dǎo)致快的淪為了其中刷單的重災(zāi)區(qū)。猛犸為快的提供了底層的設(shè)備識(shí)別服務(wù),即通過(guò)用戶所使用的移動(dòng)終端產(chǎn)生的數(shù)據(jù),來(lái)鑒別刷單和虛假注冊(cè)。
在這套系統(tǒng)中,猛犸所使用的底層規(guī)則是通用的。比如說(shuō)對(duì)行車路徑的判斷,就可以用在外賣、交通、打車、物流等各個(gè)領(lǐng)域。決定最終使用情況的,是不同應(yīng)用場(chǎng)景下的計(jì)算模型和參數(shù)。比如根據(jù)行車路徑,注冊(cè)設(shè)備在一個(gè)小時(shí)內(nèi)完成了上海和北京的單,或者幾分鐘內(nèi)完成了幾單,但在行車路徑上只移動(dòng)了幾百米,這就是一起典型的快的欺詐。
猛犸的反欺詐風(fēng)控和目前主流的黑名單式風(fēng)控不同。黑名單模式是傳統(tǒng)線下風(fēng)控的線上延伸版本,搜集到各個(gè)平臺(tái)的數(shù)據(jù)后,找出其中的“老鼠屎”,當(dāng)他們?cè)俅涡袆?dòng)時(shí)就發(fā)出警報(bào)。在黑名單的基礎(chǔ)上加入白名單,經(jīng)過(guò)大數(shù)據(jù)之間的交叉驗(yàn)證,找到欺詐者。
但這樣做的問(wèn)題是,黑名單的數(shù)據(jù)需要經(jīng)過(guò)相當(dāng)長(zhǎng)時(shí)間的積累。以張克創(chuàng)業(yè)的時(shí)間點(diǎn)來(lái)看,在他之前已有數(shù)家公司在做同樣的事,再加入顯然為時(shí)已晚。更何況當(dāng)時(shí)的團(tuán)隊(duì)太小,且員工基本都是做技術(shù)出身的,積累黑名單需要的核心能力卻是商務(wù)談判能力。
除開(kāi)天然的限制,張克認(rèn)為黑名單有其自身的缺陷,需要其他的風(fēng)控策略來(lái)補(bǔ)充。搜集到的10個(gè)公司的數(shù)據(jù)都關(guān)聯(lián)了同一用戶,其中5家說(shuō)這個(gè)人是女性,還有4家驗(yàn)證是男性,剩余1家沒(méi)有標(biāo)注,那么這位用戶的標(biāo)簽,交叉驗(yàn)證后,是男是女呢?再比如,如果同一個(gè)用戶,在互聯(lián)網(wǎng)金融平臺(tái)上實(shí)施欺詐,但是在游戲行業(yè)又特別“忠誠(chéng)”,這時(shí)候黑名單該如何歸類?張克認(rèn)為,這是黑名單和交叉驗(yàn)證的盲區(qū)。于是猛犸索性不貼標(biāo)簽,讓機(jī)器根據(jù)用戶的行為自動(dòng)判斷。
從一開(kāi)始,猛犸就沒(méi)有采用黑名單模式“主動(dòng)”攔截,而是讓機(jī)器去搜集用戶的“特征”,被動(dòng)學(xué)習(xí)。張克為這種技術(shù)起了個(gè)專業(yè)而拗口的名字:“全棧被動(dòng)式設(shè)備指紋識(shí)別”。
在傳統(tǒng)的線下風(fēng)控中,這種識(shí)別“特征”的方式,我們稱之為人工“經(jīng)驗(yàn)”。它相當(dāng)于把風(fēng)險(xiǎn)前置了?!疤卣鳌弊R(shí)別相當(dāng)于簽證官在申請(qǐng)人與交流時(shí),如果發(fā)現(xiàn)對(duì)方有移民傾向,給出的拒簽,而“黑名單”是事后發(fā)現(xiàn)對(duì)方在國(guó)境內(nèi)逾期逗留,下一次再拒簽。這和黑名單屬于兩種不同的風(fēng)控手段。
要讓機(jī)器識(shí)別特征,就要轉(zhuǎn)換成它們聽(tīng)得懂的語(yǔ)言。讓機(jī)器自動(dòng)習(xí)得人工經(jīng)驗(yàn),并提前防控,這就是特征學(xué)習(xí),它讓轉(zhuǎn)換后的數(shù)據(jù)能被更好地理解和運(yùn)算,方便我們從貌似雜亂無(wú)章的原始數(shù)據(jù)中找出那些可疑的異常數(shù)據(jù)。
官網(wǎng)上目前已經(jīng)公布的與手游行業(yè)客戶合作的數(shù)據(jù)經(jīng)過(guò)了把猛犸產(chǎn)品的實(shí)時(shí)動(dòng)態(tài)篩查結(jié)果與客戶現(xiàn)在應(yīng)用的人工審核結(jié)果一一比對(duì)。過(guò)程驗(yàn)證結(jié)果顯示,Maxent預(yù)警的欺詐事件數(shù)量是人工審核的3倍,對(duì)欺詐設(shè)備和交易的識(shí)別準(zhǔn)確率高于95%,這一結(jié)果有效地防止了9.7%的壞賬損失。
和所有創(chuàng)業(yè)公司遇到的問(wèn)題一樣,即使有技術(shù)護(hù)航,猛犸依然遇到了缺錢、缺人的難題。尤其對(duì)于技術(shù)公司而言,前期的人力成本投入巨大,難度也最大。七八個(gè)創(chuàng)始員工在一個(gè)十幾平方米的聯(lián)合辦公空間待了近一年后,最初的資金快花完了,再繼續(xù)免費(fèi)策略,看起來(lái)也無(wú)法為公司創(chuàng)收。
經(jīng)朋友推薦,2015年8月張克帶著猛犸參加了微軟加速器的選拔,從1000多家參賽公司中,留到了最后,成為入圍的18家公司之一。他希望能借助比賽,獲得業(yè)界對(duì)其技術(shù)的認(rèn)可。微軟加速器給猛犸做了背書(shū),證明這家不到10人的公司不是瞎忽悠,同時(shí)也帶來(lái)了資源。經(jīng)過(guò)加速器的孵化后,猛犸獲得了第一個(gè)銀行客戶,浦發(fā)銀行。半年后,DCM投資副總裁高凱健在整理微軟加速器名錄時(shí),發(fā)現(xiàn)了這家做智能反欺詐的公司,并在后續(xù)的A+輪領(lǐng)投5000萬(wàn)元。
此時(shí),猛犸也迎來(lái)了第一個(gè)付費(fèi)客戶,薩摩耶金服。在服務(wù)了30個(gè)左右的公司客戶,積累了五六千萬(wàn)的數(shù)據(jù),且和薩摩耶金服磨合了近半年后,終于有公司愿意付費(fèi)使用產(chǎn)品了。
“我們挑了塊硬骨頭在啃?!鲍@得新一輪融資后,張克依然顯得很謹(jǐn)慎。雖然不需要買入黑名單,但是機(jī)器學(xué)習(xí)依然需要喂數(shù)據(jù)做訓(xùn)練。這部分?jǐn)?shù)據(jù)通常來(lái)自合作伙伴,數(shù)據(jù)越多,系統(tǒng)越了解大多數(shù)人的行為模式。
“硬骨頭”指的是數(shù)據(jù)清洗,這是猛犸要做智能分析繞不開(kāi)的一個(gè)坎。在技術(shù)上,數(shù)據(jù)清洗并不是難點(diǎn),卻是鮮少有人愿意干的臟活累活。它需要人工一個(gè)個(gè)手動(dòng)打標(biāo)簽、梳理,比如把來(lái)自不同平臺(tái)的數(shù)據(jù)的格式統(tǒng)一,變成機(jī)器能夠識(shí)別的語(yǔ)言,這樣才能讓機(jī)器自動(dòng)學(xué)習(xí)。從理論上來(lái)說(shuō),合作客戶越多,數(shù)據(jù)清洗的工作量越大。
從去年下半年開(kāi)始,猛犸把重心從特征識(shí)別,延伸到了關(guān)聯(lián)圖譜的制作上。如果“一天在上海打開(kāi)某App 100次”,可以視為上述所稱欺詐者的一種特征,那么關(guān)聯(lián)圖譜指的是,找到這個(gè)欺詐分子偽造的身份。以地址為例,猛犸曾用關(guān)聯(lián)圖譜將地址信息逐漸分段,從省區(qū)市縣到一條街道的門牌號(hào)都在其中。如果某一個(gè)團(tuán)伙偽造了100個(gè)身份,那么他在某一區(qū)域中的所有地址會(huì)被關(guān)聯(lián)在一 起。
“當(dāng)時(shí)客戶懷疑我們做錯(cuò)了,因?yàn)椴](méi)有給到我們?nèi)魏闻c交易相關(guān)的數(shù)據(jù)。但是通過(guò)行為數(shù)據(jù)我們把完全不同的信息歸納在同一個(gè)人上,一個(gè)個(gè)打電話驗(yàn)證,發(fā)現(xiàn)是同一個(gè)人拿著不同的身份多次借款?!睆埧苏f(shuō)。不過(guò)他并未提及關(guān)聯(lián)圖譜的準(zhǔn)確率。
大數(shù)據(jù)已經(jīng)成為一片紅海,但張克并不擔(dān)心競(jìng)爭(zhēng)。相比承認(rèn)自己經(jīng)營(yíng)的是一家大數(shù)據(jù)公司,他更愿意稱猛犸是一家技術(shù)公司。張克也不怕聽(tīng)到客戶拒絕的理由是“這種技術(shù)太新,沒(méi)有聽(tīng)過(guò)”,他只怕賣的是沒(méi)有任何特點(diǎn)的產(chǎn)品。但到目前為止,據(jù)他說(shuō),“國(guó)內(nèi)還沒(méi)有任何一家公司和我們?cè)谧鐾患虑??!?