世界杯是球迷的盛會(huì),亦是賭棍的狂歡節(jié)。
對(duì)科學(xué)家來(lái)說(shuō),預(yù)測(cè)是另一回事。從玄幻的量子糾纏到我們更熟知的天氣、地震預(yù)報(bào),總的來(lái)說(shuō),研究者是通過(guò)某種或多種規(guī)律,結(jié)合海量數(shù)據(jù),獲得一些特定模型。這些模型所生成的結(jié)果,會(huì)在某些條件下觸發(fā)。這樣只要出現(xiàn)類似的條件,某個(gè)結(jié)果的概率就會(huì)浮現(xiàn)。
同樣,投行巨擘高盛新推出的《2014世界杯經(jīng)濟(jì)學(xué)》研究報(bào)告也是從大數(shù)據(jù)中找規(guī)律,一幫應(yīng)用數(shù)學(xué)的天才用一大把數(shù)據(jù)和一個(gè)玄之又玄的模型對(duì)世界杯比賽結(jié)果進(jìn)行了量化分析。
工欲善其事,必先利其器。要對(duì)世界杯進(jìn)行量化分析,海量且靠譜的數(shù)據(jù)是萬(wàn)萬(wàn)不可缺少的,而高盛所需要的就是1960年以來(lái)主要國(guó)際賽事(非友誼賽)的比賽結(jié)果,這樣一來(lái),就有了14000多個(gè)歷史樣本,以供數(shù)學(xué)家們演算調(diào)整自己的模型。除此之外,高盛還引用了一個(gè)重要參數(shù),那就是Elo系統(tǒng)排名。
說(shuō)到Elo系統(tǒng)排名,絕大多數(shù)人都會(huì)覺得有點(diǎn)陌生。這是一個(gè)以國(guó)家隊(duì)為單位的國(guó)際足球評(píng)分系統(tǒng),跟FIFA排名并不相同,而很顯然地,高盛覺得Elo系統(tǒng)排名要更為科學(xué)。這主要是因?yàn)镕IFA排名主要著眼于最近一段時(shí)間的比賽情況,而Elo系統(tǒng)則是對(duì)1872年至今的完整歷史數(shù)據(jù)進(jìn)行評(píng)估。
那么,什么是Elo系統(tǒng)排名呢?顧名思義,Elo系統(tǒng)排名背后的算法當(dāng)然就是Elo評(píng)分體系,最早由物理學(xué)家阿爾帕德·埃洛(Arpad Elo)開發(fā)。埃洛出生在風(fēng)雨飄搖的奧匈帝國(guó),在10歲的時(shí)候就跟著父母移民到了美國(guó),他從小熱愛國(guó)際象棋,又天生對(duì)數(shù)字有天分有研究,所以自打1939年美國(guó)成立了國(guó)際象棋協(xié)會(huì)以后,他就積極熱情地參與到協(xié)會(huì)工作之中。剛好,當(dāng)時(shí)美國(guó)國(guó)際象棋協(xié)會(huì)的排名算法引發(fā)了一定爭(zhēng)議,埃洛便自告奮勇為該協(xié)會(huì)開發(fā)出了一種更科學(xué)更合理的排名算法,也就是今天被用于多種體育競(jìng)賽和電子游戲中的Elo評(píng)分體系。
這個(gè)評(píng)分體系的核心,是對(duì)于單場(chǎng)比賽的評(píng)判,它的算法基于幾個(gè)重要的參數(shù):賽前積分(Ro)、預(yù)期結(jié)果(We)和比賽結(jié)果(W),外加一個(gè)常數(shù)(K)。其公式為Rn= Ro + K × (W - We)——如果你看過(guò)《社交網(wǎng)絡(luò)》的話,你也許會(huì)記得電影里扎克伯格做的Facemash網(wǎng)站,對(duì),那個(gè)網(wǎng)站用來(lái)評(píng)判女生相貌的依據(jù)就是Elo算法。
具體到國(guó)際足球的Elo系統(tǒng)排名中,每個(gè)參數(shù)都有確定的數(shù)據(jù)指標(biāo)。其中,K代表著不同級(jí)別的賽事權(quán)重,比如說(shuō),世界杯決賽圈比賽權(quán)重為60,歐洲杯或者美洲杯這樣的洲際錦標(biāo)賽決賽圈比賽權(quán)重為50,世界杯預(yù)選賽決賽輪為40,其他錦標(biāo)賽為30,友誼賽則只有20。至于W,則分為勝平負(fù)三類,獲勝為1,戰(zhàn)平為0.5,而輸球當(dāng)然就只有0了。We比較復(fù)雜,需要根據(jù)賽前兩隊(duì)積分差來(lái)判定,算式為We=1/(10 (-dr/400)+1),其中dr為賽前積分差(還要給主隊(duì)加100)。也就是說(shuō),如果賽前主隊(duì)積分1110,客隊(duì)積分1200,兩隊(duì)的We就應(yīng)該分別是0.514和0.486。
用這個(gè)算法對(duì)浩瀚的歷史數(shù)據(jù)進(jìn)行遞歸演算,最終得出的結(jié)果相當(dāng)合理。世界杯開賽之前,在國(guó)際足球的Elo系統(tǒng)里排名第一的是得分2113的巴西,第二位是2086分的西班牙,其后依次是德國(guó)、阿根廷、荷蘭、英格蘭和葡萄牙。高盛的報(bào)告指出,Elo系統(tǒng)排名下每支球隊(duì)的評(píng)分,是他們用來(lái)打造預(yù)測(cè)模型的“最有力武器”。
有了Elo評(píng)分這個(gè)“神隊(duì)友”,高盛就可以開始預(yù)測(cè)每支球隊(duì)在世界杯上的表現(xiàn)了。具體要怎么做呢?高盛在報(bào)告中明確寫道,他們用這些數(shù)據(jù)來(lái)進(jìn)行了10萬(wàn)次蒙特卡洛演算。
蒙特卡洛是歐洲小國(guó)摩納哥的一個(gè)沿海城市,素以富人聚集和博彩業(yè)繁華而著名,而所謂蒙特卡洛演算方法其實(shí)本來(lái)跟該城市毫無(wú)關(guān)聯(lián),不過(guò)是借了“賭城”的名頭,玩笑般地剖白該方法的實(shí)質(zhì):上帝也會(huì)擲骰子。
是的,蒙特卡洛方法是一種隨機(jī)模擬方法,其基本思想是對(duì)某個(gè)隨機(jī)事件進(jìn)行模擬演算,最終得到各種概率分布的隨機(jī)變量,然后用統(tǒng)計(jì)方法將模型的數(shù)字特征估計(jì)出來(lái),從而得到問題的數(shù)值解。
不熟悉的人可能會(huì)問,如果是純粹擲骰子的方法,那么雙方的勝平負(fù)概率不都是均等的嗎?這有誰(shuí)不會(huì)的呢,高盛還需要數(shù)據(jù)干什么?其實(shí)非也。因?yàn)槊商乜咫m說(shuō)是隨機(jī)模擬,它也是有不同權(quán)重的——比賽雙方的實(shí)力不同,就好比在擲骰子比總數(shù)大小的時(shí)候,雙方可以投擲的次數(shù)不同。
在競(jìng)技體育里面遵循蒙特卡洛方法而進(jìn)行的事件里,NBA樂透抽簽大概算是最有名的了。在NBA樂透抽簽中,主持抽簽的人會(huì)拿出編號(hào)為1-14的14個(gè)球,放入一個(gè)容器里,從中隨機(jī)拿出4個(gè)球,而這4個(gè)球的組合就決定了狀元簽的歸屬。如果不計(jì)數(shù)字的先后順序,這種抽簽可以有1001種組合,其中1種被規(guī)定為“廢票”,另外1000種組合被電腦隨機(jī)分配給14支沒有獲得季后賽資格的球隊(duì)。其中,戰(zhàn)績(jī)最差的球隊(duì)能獲得250種組合,也就是說(shuō),它贏得狀元簽的幾率為25%;戰(zhàn)績(jī)最好的球隊(duì)只有5種組合,中選幾率就只有0.5%。
為什么說(shuō)它隨機(jī)呢?因?yàn)閹茁式K歸只是幾率,250種組合只不過(guò)讓你的機(jī)會(huì)比別人更大,卻不能確保狀元花落你家。事實(shí)上,自從NBA在1990年采用這種方法進(jìn)行樂透抽簽后,以最差戰(zhàn)績(jī)抽到狀元簽的只有4支球隊(duì);而2008年公牛抽中狀元簽的時(shí)候,他們事實(shí)上只有17種組合,也就是1.7%的中選概率。
于是讓我們回到高盛的預(yù)測(cè)模型來(lái),他們分配權(quán)重的依據(jù)當(dāng)然不像NBA就看戰(zhàn)績(jī)那么簡(jiǎn)單。根據(jù)報(bào)告所言,除了Elo評(píng)分之外,高盛還將五個(gè)重要變量引入分析:
A:確實(shí)有人能做到成功預(yù)測(cè)每一場(chǎng)比賽的勝負(fù),甚至精確到比分。并不奇怪。從另一個(gè)角度講,這與一個(gè)郵件騙局的思路是相同的。假設(shè)某騙子給90萬(wàn)人發(fā)郵件,以巴西對(duì)克羅地亞開始,任選一種結(jié)果(勝平負(fù))隨機(jī)發(fā)給30萬(wàn)人。然后在這場(chǎng)球結(jié)果出來(lái)后,給收到正確結(jié)果的30萬(wàn)人繼續(xù)發(fā)下一場(chǎng)的預(yù)測(cè)。再正確一場(chǎng)后,給其中10萬(wàn)人繼續(xù)發(fā)。于是,假設(shè)最后有10個(gè)人收到郵件,發(fā)現(xiàn)這個(gè)預(yù)測(cè)帝連續(xù)猜對(duì)了前面10場(chǎng)球的每一場(chǎng),(然后相信他能繼續(xù)正確,就把錢交給他賭一把)……因此,在一個(gè)預(yù)測(cè)帝成功的同時(shí),千萬(wàn)個(gè)預(yù)測(cè)帝倒下了。
1.每支球隊(duì)在過(guò)去10場(chǎng)主要國(guó)際賽事中的平均進(jìn)球數(shù);
2.每支球隊(duì)在過(guò)去5場(chǎng)主要國(guó)際賽事中的平均丟球數(shù);
3.每支球隊(duì)的世界杯抽風(fēng)指數(shù)——這個(gè)變量主要是看某支球隊(duì)是否有在世界杯上發(fā)威或者突然啞火的傾向。當(dāng)然了,要分析傾向,至少得有足夠大的樣本,所以高盛只選取了巴西、德國(guó)、阿根廷、西班牙、荷蘭、英格蘭、意大利和法國(guó)進(jìn)行該指數(shù)研究;
4.每支球隊(duì)在主場(chǎng)比賽的表現(xiàn);
5.每支球隊(duì)在所屬大洲比賽時(shí)的表現(xiàn)。
有了這些指標(biāo),高盛就構(gòu)造了一個(gè)分子模型,然后進(jìn)行10萬(wàn)次的擲骰子模擬,得到每?jī)芍蜿?duì)交鋒時(shí)最可能出現(xiàn)的結(jié)果,進(jìn)而得出一個(gè)“最合理”的世界杯預(yù)測(cè)。
10萬(wàn)次模擬之后,高盛的結(jié)果出爐——巴西將一路大勝到奪冠。
這其實(shí)非常好理解,我們可以挨個(gè)對(duì)照著高盛引入的6項(xiàng)指標(biāo)來(lái)解析:在世界杯開賽前的Elo排名中,巴西隊(duì)高居榜首,評(píng)分比西班牙高了27分;最近的主要國(guó)際賽事里,巴西在去年聯(lián)合會(huì)杯中3比0大勝西班牙,4比2戰(zhàn)勝意大利,進(jìn)球數(shù)不少,丟球數(shù)不多;巴西隊(duì)歷史上5奪世界杯冠軍,世界杯表現(xiàn)往往超出平時(shí),絕不會(huì)像英格蘭一樣每逢大賽就抽風(fēng);再者,巴西是主場(chǎng),根據(jù)高盛的計(jì)算,主場(chǎng)優(yōu)勢(shì)能讓巴西每場(chǎng)多進(jìn)0.4個(gè)球;另外,在美洲進(jìn)行比賽也是大利好,平均每個(gè)美洲球隊(duì)每場(chǎng)能多進(jìn)0.2個(gè)球,而歐洲球隊(duì)就比較慘了,歷史上還沒有歐洲球隊(duì)在美洲舉辦的世界杯上奪冠的先例。
于是,按照這種預(yù)測(cè),本屆世界杯上最合理的情況就是,巴西隊(duì)在小組賽分別以4比1、4比1和5比0大勝克羅地亞、墨西哥和喀麥隆,然后在第二輪3比1干掉荷蘭,1/4決賽3比1擊敗烏拉圭,半決賽2比1淘汰德國(guó),最后在決賽里3比1贏了老冤家阿根廷奪冠。
但是高盛也知道,所謂“合理”在足球運(yùn)動(dòng)里是很不靠譜的。因?yàn)樽闱虿幌窕@球動(dòng)輒打到100分以上,全場(chǎng)比賽0比0結(jié)束也是常有的事,而我們也知道,這種低進(jìn)球的比賽同時(shí)就意味著極高的不可預(yù)測(cè)性——哪怕你全場(chǎng)壓著對(duì)方打,全場(chǎng)射門比是50比2,射正比是25比1,結(jié)果人家門將神勇?lián)涑隽四闼械纳溟T,就靠那僅有的一腳射正以1比0贏球,這種故事發(fā)生得還不夠多么?所以,高盛認(rèn)為,還是用蒙特卡洛方法計(jì)算一下每支隊(duì)晉級(jí)不同階段的概率是多大更靠譜。
于是又是一輪反復(fù)的擲骰子模擬實(shí)驗(yàn),最終高盛得出結(jié)論,巴西隊(duì)有99%的幾率小組出線,78.8%的可能性進(jìn)入八強(qiáng),71.7%可能進(jìn)入四強(qiáng),進(jìn)入決賽可能性達(dá)到60.3%,奪冠概率也高達(dá)48.5%!這可是個(gè)了不得的數(shù)字,要知道,歐洲開賭球盤口的人不過(guò)也只認(rèn)為巴西有25%左右奪冠幾率而已。
根據(jù)高盛的預(yù)測(cè),除了巴西隊(duì)之外,最可能奪冠的球隊(duì)分別是阿根廷、德國(guó)和西班牙,他們分別有14.1%、11.4%和9.8%的奪冠概率。
值得一提的是,為了盡可能將預(yù)測(cè)維持在理性分析的范疇內(nèi),高盛并未考慮單個(gè)球員對(duì)比賽造成的影響,比如德國(guó)隊(duì)穆勒一到世界杯就爆發(fā),或者阿根廷的梅西的國(guó)家隊(duì)進(jìn)球運(yùn)勢(shì)不暢,還有裁判傾向等等,這些不可量化的影響因素統(tǒng)統(tǒng)都會(huì)被排除在考慮之外。這樣當(dāng)然會(huì)讓模擬過(guò)程更簡(jiǎn)單容易,不過(guò),其預(yù)測(cè)效用也就會(huì)大打折扣了。
事實(shí)上,四年前南非世界杯的時(shí)候,高盛就曾經(jīng)預(yù)測(cè)過(guò)一次,其結(jié)果不算太離譜,但也有一些很失準(zhǔn)的地方。比如說(shuō),他們當(dāng)時(shí)預(yù)測(cè)巴西隊(duì)奪冠幾率最高,西班牙次之,結(jié)果是西班牙奪冠;另外,他們還認(rèn)為意大利小組出線概率達(dá)到84.8%,法國(guó)隊(duì)也能有76.0%的把握出線,但這兩支球隊(duì)分別在所在小組墊底,不得不在小組賽結(jié)束后就打道回府。如果用R平方系統(tǒng)來(lái)評(píng)估他們的預(yù)測(cè)準(zhǔn)確度,你會(huì)發(fā)現(xiàn),高盛在2010年的預(yù)測(cè)R平方值只有0.24,距離完美的1(100%準(zhǔn)確度)還有相當(dāng)遙遠(yuǎn)的距離。