John Edwards
準(zhǔn)確而又自信地預(yù)測(cè)未來。本文介紹如何借助數(shù)據(jù)預(yù)見未來所需的工具和策略。
一直以來人們很難預(yù)測(cè)未來。幸運(yùn)的是,隨著預(yù)測(cè)性分析技術(shù)的出現(xiàn),用戶能根據(jù)歷史數(shù)據(jù)以及統(tǒng)計(jì)建模和機(jī)器學(xué)習(xí)等分析技術(shù)來預(yù)測(cè)未來的結(jié)果,這使得人們能夠得出比以前更加可靠的預(yù)測(cè)結(jié)果和趨勢(shì)。
盡管如此,與任何新興技術(shù)一樣,預(yù)測(cè)性分析也很難充分發(fā)揮其潛力。而更具挑戰(zhàn)的是,由于不成熟的開發(fā)策略或者預(yù)測(cè)性分析工具的濫用而導(dǎo)致的不準(zhǔn)確或者誤導(dǎo)性的結(jié)果可能在幾周、幾個(gè)月甚至幾年之后才會(huì)顯現(xiàn)出來。
預(yù)測(cè)性分析有可能徹底改變各種行業(yè)和企業(yè)的運(yùn)營(yíng),包括零售業(yè)、制造業(yè)、供應(yīng)鏈、網(wǎng)絡(luò)管理、金融服務(wù)和醫(yī)療保健等。人工智能網(wǎng)絡(luò)技術(shù)公司Mist Systems的首席技術(shù)官和聯(lián)合創(chuàng)始人Bob Friday預(yù)測(cè),“深度學(xué)習(xí)和預(yù)測(cè)性人工智能分析將改變我們社會(huì)的方方面面,其程度不亞于十多年來的互聯(lián)網(wǎng)和蜂窩技術(shù)革命?!?/p>
本文的7個(gè)秘訣旨在幫助你的企業(yè)充分發(fā)揮自己預(yù)測(cè)性分析計(jì)劃的優(yōu)勢(shì)。
1、能夠獲得高質(zhì)量且易于理解的數(shù)據(jù)
預(yù)測(cè)性分析應(yīng)用需要大量的數(shù)據(jù),依賴于通過反饋循環(huán)提供的信息來不斷改進(jìn)。全球IT解決方案和服務(wù)提供商L&T Infotech的首席數(shù)據(jù)官和分析官Soumendra Mohanty指出:“數(shù)據(jù)和預(yù)測(cè)性分析相互提供信息。”
了解流入預(yù)測(cè)性分析模型的數(shù)據(jù)類型是非常重要的。流行病學(xué)家、營(yíng)養(yǎng)學(xué)家和健康經(jīng)濟(jì)學(xué)家Eric Feigl-Ding目前是哈佛陳氏公共衛(wèi)生學(xué)院的訪問學(xué)者,他提出了問題:“我們會(huì)有什么樣的數(shù)據(jù)?是像臉書和谷歌那樣每天收集的實(shí)時(shí)數(shù)據(jù),還是難以訪問的醫(yī)療記錄所需的醫(yī)療保健數(shù)據(jù)?”為了做出準(zhǔn)確的預(yù)測(cè),模型應(yīng)被設(shè)計(jì)成能夠處理它所獲取的特定類型的數(shù)據(jù)。
僅僅在計(jì)算資源上投入大量數(shù)據(jù)的預(yù)測(cè)性建模工作通常注定要失敗。金融數(shù)據(jù)和軟件公司FactSet負(fù)責(zé)投資組合管理和交易解決方案的副總裁兼研究總監(jiān)Henri Waelbroeck解釋說:“數(shù)據(jù)實(shí)在太多了,大部分?jǐn)?shù)據(jù)可能與具體的問題無關(guān),但在給定的樣本中看起來可能是相關(guān)的。如果不理解產(chǎn)生數(shù)據(jù)的過程,一個(gè)基于有偏見的數(shù)據(jù)所訓(xùn)練出來的模型可能是完全錯(cuò)誤的。”
2、注意模式
SAP首席高級(jí)分析產(chǎn)品經(jīng)理Richard Mooney指出,每個(gè)人都對(duì)算法著迷,但算法的好壞取決于輸入到算法中的數(shù)據(jù)。他說:“如果沒有要找的模式,那就是徒勞的工作。大部分?jǐn)?shù)據(jù)集都有隱藏的模式。”
模式通常以兩種方式隱藏:
● 在兩列之間的關(guān)系中找到模式。例如,通過比較即將達(dá)成交易的結(jié)束日期信息與相關(guān)的電子郵件打開率數(shù)據(jù),可以發(fā)現(xiàn)一種模式。Mooney說:“如果交易即將結(jié)束,電子郵件打開率會(huì)大幅提高,因?yàn)橘I方會(huì)有很多人閱讀合同并審查合同。”
● 觀察一個(gè)變量隨時(shí)間的變化就能夠揭示出模式。Mooney說:“在上面的例子中,知道客戶把一封郵件打開了200次,所提供的信息和知道他上周打開了175次差不多。”
3、關(guān)注能帶來較大投資回報(bào)的可管理任務(wù)
紐約理工學(xué)院(NYIT)的分析和商業(yè)智能主任Michael Urmeneta認(rèn)為,“現(xiàn)在,人們很想把機(jī)器學(xué)習(xí)算法應(yīng)用到海量數(shù)據(jù)上,以期獲得更深入的分析結(jié)果?!彼f,這種方法的問題在于,它就像試圖同時(shí)治愈所有的癌癥一樣。Urmeneta解釋說,“問題太大,數(shù)據(jù)太亂——沒有足夠的資金,沒有足夠的支持。不可能贏。”
當(dāng)關(guān)注于任務(wù)時(shí),成功的概率就大得多。Urmeneta指出,“如果有問題,我們就會(huì)去找理解錯(cuò)綜復(fù)雜問題的主題專家。我們將會(huì)有更清潔、更容易理解的數(shù)據(jù)?!?/p>
4、使用正確的方法來完成工作
好消息是,有幾乎數(shù)不盡的方法來生成準(zhǔn)確的預(yù)測(cè)性分析。然而,這也恰恰是壞消息。芝加哥大學(xué)NORC(前身為國(guó)家意見研究中心)的行為、經(jīng)濟(jì)分析和決策實(shí)踐主任Angela Fontes評(píng)論說:“每天都會(huì)出現(xiàn)熱門的新分析方法,使用新方法很容易讓人激動(dòng)。然而,據(jù)我的經(jīng)驗(yàn),最成功的項(xiàng)目是那些真正深入思考分析預(yù)期結(jié)果的項(xiàng)目,并讓這些項(xiàng)目指導(dǎo)他們的選擇方法——即使最合適的方法并非最吸引人、最新的方法?!?/p>
Rochester理工學(xué)院計(jì)算機(jī)工程系主任、副教授Shanchieh Jay Yang建議,“用戶必須謹(jǐn)慎地選擇能滿足自己需求的合適的方法?!盰ang說:“應(yīng)該擁有一種有效而且可以解釋的技術(shù),利用時(shí)序數(shù)據(jù)的統(tǒng)計(jì)特性,并將其推廣應(yīng)用到最有可能的未來。”
5、建立具有精確定義目標(biāo)的模型
這似乎是顯而易見的,但很多預(yù)測(cè)性分析項(xiàng)目開始的目標(biāo)是建立一個(gè)宏偉的模型,但沒有明確的計(jì)劃來指導(dǎo)最終怎樣使用它。CCC信息服務(wù)公司是一家面向汽車、保險(xiǎn)和修車行業(yè)的SaaS提供商,其產(chǎn)品管理高級(jí)副總裁Jason Verlen評(píng)論說:“有很多很棒但卻從來沒用過的模型,因?yàn)闆]有人知道怎樣使用這些信息來實(shí)現(xiàn)或者創(chuàng)造價(jià)值?!?/p>
Fontes對(duì)此表示同意。她解釋道,“使用合適的工具確實(shí)可以確保我們從分析中得到預(yù)期的結(jié)果,因?yàn)檫@迫使我們必須明確我們的目標(biāo)。如果我們不清楚分析的目標(biāo),我們可能會(huì)想盡一切辦法去解決問題,但是永遠(yuǎn)也得不到我們想要的東西?!?/p>
6、IT與相關(guān)業(yè)務(wù)部門建立緊密合作關(guān)系
非常有必要在業(yè)務(wù)部門和技術(shù)部門之間建立穩(wěn)固的合作伙伴關(guān)系??蛻趔w驗(yàn)技術(shù)提供商Genesys公司的人工智能產(chǎn)品管理副總裁Paul Lasserre說:“你應(yīng)該知道新技術(shù)怎樣應(yīng)對(duì)業(yè)務(wù)挑戰(zhàn)或者改進(jìn)現(xiàn)有的業(yè)務(wù)環(huán)境。”然后,一旦設(shè)置了目標(biāo),就在一定范圍的應(yīng)用程序中測(cè)試模型,以確定解決方案是否真正能帶來價(jià)值。
7、不要被設(shè)計(jì)不當(dāng)?shù)哪P退`導(dǎo)
模型是由人設(shè)計(jì)的,因此,往往潛藏著缺陷。一個(gè)錯(cuò)誤的模型,或者使用不正確/選擇不當(dāng)?shù)臄?shù)據(jù)所建立的模型,很容易產(chǎn)生誤導(dǎo),在極端情況下,甚至產(chǎn)生完全錯(cuò)誤的預(yù)測(cè)。
例如,選擇偏見問題,如果隨機(jī)化做的不好,可能會(huì)混淆預(yù)測(cè)。再比如,在一項(xiàng)假設(shè)的減肥研究中,可能有50%的參與者選擇退出后續(xù)的體重測(cè)量。而退出的個(gè)體與留下的個(gè)體相比,其體重變化曲線是不同的。這使得分析變得復(fù)雜,因?yàn)樵谶@樣的研究中,那些堅(jiān)持參加項(xiàng)目的人通常是真正能減肥的人。另一方面,退出的通常是那些很少或者根本沒有減肥經(jīng)歷的人。Feigl-Ding報(bào)告稱,因此,雖然從整體上看減肥是有因果的,可預(yù)測(cè)的,但是在一個(gè)有50%退出率的有限數(shù)據(jù)庫中,實(shí)際的最終結(jié)果可能被隱藏了。
總結(jié)
商業(yè)智能和分析軟件開發(fā)商GoodData的數(shù)據(jù)科學(xué)高級(jí)主管Arvin Hsu評(píng)論說:“企業(yè)正在經(jīng)歷成長(zhǎng)的痛苦,認(rèn)識(shí)到預(yù)測(cè)性分析并不是那么容易涉足。然而,強(qiáng)大的預(yù)測(cè)性分析對(duì)業(yè)務(wù)效率、收入和產(chǎn)品性能的影響,完全值得我們花費(fèi)時(shí)間、精力和資源來確保成功?!?/p>