楊青俊
隨著時(shí)代的進(jìn)步,互聯(lián)網(wǎng)快速發(fā)展,互聯(lián)網(wǎng)技術(shù)在各行各業(yè)得以廣泛使用。對數(shù)據(jù)的分析和使用呈現(xiàn)井噴式的增長和幾何式的上升,我國于2012年開始進(jìn)步大數(shù)據(jù)時(shí)代。大數(shù)據(jù)時(shí)代給人們帶來便利的同時(shí),也因?yàn)槠渥陨淼囊?guī)模廣、增長快、稀疏性等特點(diǎn)而造成了分析的困難。為了解決這種困難,人們試著將概率論和數(shù)理統(tǒng)計(jì)投入到大數(shù)據(jù)分析中,并取得了相對顯著的成就?;诟怕收摵蛿?shù)理統(tǒng)計(jì)的大數(shù)據(jù)分析更為準(zhǔn)確,使得互聯(lián)網(wǎng)技術(shù)更高效的服務(wù)于人類,需求分析和生產(chǎn)投放得以精準(zhǔn),減少了中間環(huán)節(jié)產(chǎn)生的成本浪費(fèi),整個(gè)社會(huì)的生產(chǎn)力大幅度提升。本文將針對概率論與梳理統(tǒng)計(jì)在大數(shù)據(jù)分析中的應(yīng)用策略進(jìn)行更為深入的探討,方便讀者了解什么是大數(shù)據(jù)分析,明確概率論和數(shù)理統(tǒng)計(jì)如何作用于大。
一、引言
現(xiàn)如今,概率學(xué)在我們的生產(chǎn)生活中的方方面面都有著廣泛的應(yīng)用,它既可以幫助我們有效的認(rèn)識(shí)這個(gè)世界,通過使用概率論和數(shù)理統(tǒng)計(jì)幫助人們冷靜客觀的分析現(xiàn)實(shí)生活中存在的問題,解讀數(shù)據(jù),幫助人們提高生活質(zhì)量和工作效率;又可以根據(jù)已有的數(shù)據(jù)和行為軌跡推算出事物演變的規(guī)律和發(fā)展方向以及發(fā)展趨勢,指導(dǎo)人們朝著科學(xué)的方向前進(jìn)。因此,概率論和數(shù)理統(tǒng)計(jì)不僅是一門學(xué)科知識(shí),更是指導(dǎo)人們認(rèn)識(shí)世界改造世界的方法論,通過概率論和數(shù)理統(tǒng)計(jì)的應(yīng)用,指引人們認(rèn)清問題解決問題。時(shí)代發(fā)展至今,人們對概率論和數(shù)理統(tǒng)計(jì)的需要越來越迫切,對大數(shù)據(jù)分析的應(yīng)用需求也越來越大,為此,筆者將對概率論和數(shù)理統(tǒng)計(jì)在大數(shù)據(jù)分析中的應(yīng)用策略進(jìn)行深入探討,希望以此幫助讀者更清晰的了解這方面的知識(shí),為大數(shù)據(jù)在生產(chǎn)生活中的廣泛普及起到一定的作用。
正如我們所知道的那樣,現(xiàn)如今各行各業(yè)、生活的方方面面都在或多或少的使用著概率論和數(shù)理統(tǒng)計(jì),一些新興且重要的行業(yè)更是如此,如電子商務(wù)、互聯(lián)網(wǎng)技術(shù)和互聯(lián)網(wǎng)廣告等,概率論和數(shù)理統(tǒng)計(jì)等概率學(xué)知識(shí)依然成為一項(xiàng)我們認(rèn)識(shí)世界改造世界重要的知識(shí)手段和方法論,它不再是一門毫無生命的抽象的學(xué)科知識(shí)。我們可以通過使用概率學(xué)理論知識(shí)客觀科學(xué)的分析生產(chǎn)生活中的復(fù)雜的問題和技術(shù)難題,處理龐大的數(shù)據(jù),提高生活質(zhì)量了和工作效率,了解各方面的參數(shù),更可以通過概率學(xué)知識(shí)和已有的數(shù)據(jù)與行為軌跡推算出事物演變的規(guī)律和發(fā)展方向,以及行業(yè)的發(fā)展趨勢和可能出現(xiàn)的問題。因此,概率論對生產(chǎn)生活有著重要的指導(dǎo)意義。隨著大數(shù)據(jù)時(shí)代的來臨,數(shù)據(jù)規(guī)模呈現(xiàn)井噴式增長,概率論和數(shù)理統(tǒng)計(jì)有效的幫助人們減少了分析數(shù)據(jù)的時(shí)間和復(fù)雜性,同互聯(lián)網(wǎng)的結(jié)合與應(yīng)用更是將社會(huì)運(yùn)轉(zhuǎn)推上了一個(gè)高效的巔峰。
二、概率論與數(shù)理統(tǒng)計(jì)
在高等數(shù)學(xué)中,概率論和數(shù)理統(tǒng)計(jì)是一種特征鮮明的分析方法,在研究對象上有著十分獨(dú)特的思維方式和特點(diǎn),與其他學(xué)科有著緊密和深入的聯(lián)系,如經(jīng)濟(jì)學(xué)等,是一個(gè)交叉型特別強(qiáng)的學(xué)科。概率論和數(shù)理統(tǒng)計(jì)的知識(shí)涵蓋非常豐富,使得它成為數(shù)學(xué)分支中非常重要的組成部分。直至目前,概率論和數(shù)理統(tǒng)計(jì)方法在社會(huì)的各個(gè)領(lǐng)域都有著或大或小的應(yīng)用,概率論和數(shù)理統(tǒng)計(jì)既可以被看作是一門獨(dú)立的學(xué)科,幫助人們提高生產(chǎn)生活效率,在工業(yè)、互聯(lián)網(wǎng)和其他行業(yè)領(lǐng)域適用。概率論和數(shù)理統(tǒng)計(jì)對數(shù)據(jù)信息和計(jì)算機(jī)技術(shù)的的需求十分嚴(yán)格,在“互聯(lián)網(wǎng)+”和大數(shù)據(jù)分析中有著不可比擬的優(yōu)勢。同時(shí),又可以被看做是一門與其他知識(shí)聯(lián)系緊密的非獨(dú)立學(xué)科,因?yàn)樗旧砭哂休^強(qiáng)的交叉性,和其他學(xué)科內(nèi)部存在著緊密的聯(lián)系,具有相互滲透的作用。由于概率論和數(shù)理統(tǒng)計(jì)具有非常廣泛的涵蓋和應(yīng)用范圍,人們很難對其進(jìn)行準(zhǔn)確的定位和逐一進(jìn)行解釋,因此,本文將僅就概率和樹立統(tǒng)計(jì)幾個(gè)方面的應(yīng)用策略進(jìn)行討論,以幫助讀者知曉概率論和數(shù)理統(tǒng)計(jì)在在大數(shù)據(jù)分析中是如何具體應(yīng)用和使用的。
三、大數(shù)據(jù)分析
大數(shù)據(jù)分析是一門應(yīng)用廣泛的熱門研究方向,由于其自身存在的優(yōu)勢被各行各業(yè)廣泛使用。大數(shù)據(jù)分析的方法也在不斷發(fā)展和完善,隨著科學(xué)技術(shù)的前進(jìn),一些大型公司甚至有專門的大數(shù)據(jù)分析部門,運(yùn)用高端的技術(shù)和設(shè)備,已達(dá)到分析的準(zhǔn)確和客觀。
大數(shù)據(jù)分析是一門非常龐大繁雜、分支很多的學(xué)科,因?yàn)榇髷?shù)據(jù)涉及方面的多樣性大數(shù)據(jù)分析結(jié)果可以應(yīng)用在生產(chǎn)生活中的方方面面,包括我們在處理海量數(shù)據(jù)時(shí)難以發(fā)現(xiàn)規(guī)律而帶來的一些問題,都可以運(yùn)用概率論與數(shù)理統(tǒng)計(jì)中的一些方法來發(fā)現(xiàn)問題趨勢,從而解決問題。事實(shí)上概率論成了現(xiàn)實(shí)生活中很多問題的方法指引。但是從我們現(xiàn)如今的研究情況來看,不難看出,許多理論上不錯(cuò)的研究方法在實(shí)際運(yùn)用中卻并沒有得到廣泛的應(yīng)用。這是因?yàn)檫@些方法還是具有一些短處。從而難以適應(yīng)現(xiàn)如今大數(shù)據(jù)分析中的一情況。即使運(yùn)用概率論與數(shù)理統(tǒng)計(jì)的方法來研究大數(shù)據(jù)分析,可是還是有許多研究模式或者方法難以迅速地從理論轉(zhuǎn)向?qū)嶋H生產(chǎn)。
四、概率論與數(shù)理統(tǒng)計(jì)與大數(shù)據(jù)分析的聯(lián)系
大數(shù)據(jù)時(shí)代的加快,使人們使用計(jì)算機(jī)和科學(xué)技術(shù)運(yùn)用概率論和數(shù)理統(tǒng)計(jì)進(jìn)行大數(shù)據(jù)分析成為可能,也加深了概率論和數(shù)理統(tǒng)計(jì)與大數(shù)據(jù)分析之間的聯(lián)系。具體體現(xiàn)在以下幾個(gè)方面:
(一)研究方向相同。概率論和數(shù)理統(tǒng)計(jì)與大數(shù)據(jù)分析的研究方向是一致的,都是為了更準(zhǔn)確清晰的對數(shù)據(jù)進(jìn)行分析與探索,以尋求大數(shù)據(jù)的內(nèi)部聯(lián)系與規(guī)律分布。
(二)大數(shù)據(jù)的發(fā)展,使得大數(shù)據(jù)分析為統(tǒng)計(jì)學(xué)拓展了新的空間和領(lǐng)域,為概率論和數(shù)理統(tǒng)計(jì)的研究提供新的方向,在大數(shù)據(jù)分析的基礎(chǔ)上,推動(dòng)概率論和數(shù)理統(tǒng)計(jì)的發(fā)展。
(三)大數(shù)據(jù)分析是獨(dú)立于統(tǒng)計(jì)學(xué)知識(shí)范疇的,不屬于其任何一門分支。大數(shù)據(jù)分析也不僅僅局限于和數(shù)理統(tǒng)計(jì)與概率論的聯(lián)系,它還可以被運(yùn)用到其他生產(chǎn)生活領(lǐng)域,成為該領(lǐng)域指導(dǎo)方向發(fā)現(xiàn)規(guī)律的工具和方法論,如云儲(chǔ)存等。
(四)概率論和數(shù)理統(tǒng)計(jì)是DM中且較為成熟的知識(shí)體系和理論,這種技術(shù)在DM中發(fā)揮著重要作用與意義。
五、概率論與數(shù)理統(tǒng)計(jì)在大數(shù)據(jù)分析中的常用方法
概率論與數(shù)理統(tǒng)計(jì)在大數(shù)據(jù)分析中的常有方法有二:層次分析法和蒙特卡羅法。
(一)層次分析法
層次分析法是指“指當(dāng)人們對某些不確定因素的演變規(guī)律及發(fā)展趨勢進(jìn)行研究時(shí),必須要對這些因素的影響作用及相互聯(lián)系進(jìn)行綜合考慮,由于評價(jià)指標(biāo)中的這些不確定性因素是可以按照層次進(jìn)行劃分的,同時(shí),在各個(gè)層次中的不確定性因素內(nèi)還包含著若干要素,這就使整個(gè)復(fù)雜問題的結(jié)構(gòu)看上去是一種多級(jí)遞階結(jié)構(gòu),在對這類問題進(jìn)行解決時(shí),就可以采用層次分析法來對這些層次中的不確定性因素對于整個(gè)問題的相對重要度進(jìn)行判斷,而這便產(chǎn)生了概率。”層次分析法的建立主要包括四個(gè)方面:一是明確問題的各個(gè)要素,并對這些要素進(jìn)行層次劃分,使得問題結(jié)構(gòu)趨近于遞階層次結(jié)構(gòu),二是用上一級(jí)的要素作為對下一級(jí)要素進(jìn)行劃分的標(biāo)準(zhǔn),實(shí)施兩兩對比,三是按照評定尺度來對下一級(jí)要素的重要程度進(jìn)行確定,構(gòu)建判定矩陣,四是對問題中的各個(gè)要素的相對重要程度和綜合重要程度進(jìn)行計(jì)算,幫助決策者做出正確而合理的決定。
(二)蒙特卡洛法
蒙特卡洛法是指“是在概率論與數(shù)理統(tǒng)計(jì)的基礎(chǔ)上對問題中的不確定性因素進(jìn)行反復(fù)隨機(jī)的抽樣,以此模擬出該不確定性因素的自身變化給問題帶來的影響程度,并對問題中的所有不確定因素給問題帶來的影響進(jìn)行計(jì)算分析,進(jìn)而獲得科學(xué)的分析結(jié)果。”蒙特卡洛法的優(yōu)點(diǎn)在于可以模擬問題的實(shí)際過程,其數(shù)字表達(dá)式為Z=k(x1,x2,x3,..., xn),xi(i=1,2,3,...,n)代表該復(fù)雜問題中存在的 n 個(gè)相互獨(dú)立的隨機(jī)變量,n個(gè)變量的函數(shù)是Z,Z則是需要求解的目標(biāo)。
六、概率論與數(shù)理統(tǒng)計(jì)在大數(shù)據(jù)分析中的應(yīng)用策略
概率論和數(shù)理統(tǒng)計(jì)在大數(shù)據(jù)分析中的應(yīng)用策略本文主要從兩方面進(jìn)行闡述,一是經(jīng)濟(jì)數(shù)據(jù)分析,二是商業(yè)數(shù)據(jù)分析,具體如下。
(一)概率論與數(shù)理統(tǒng)計(jì)在經(jīng)濟(jì)數(shù)據(jù)分析中的應(yīng)用策略
數(shù)據(jù)對經(jīng)濟(jì)而言,一直具有十分重要的作用。在各類數(shù)據(jù)中,經(jīng)濟(jì)數(shù)據(jù)是十分典型且應(yīng)用性強(qiáng)的一種。對經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析有利于推動(dòng)社會(huì)的整體發(fā)展,但在分析過程中,由于經(jīng)濟(jì)數(shù)據(jù)具有低密度的特點(diǎn),導(dǎo)致經(jīng)濟(jì)數(shù)據(jù)分析存在一定困難,因此,需要通過概率論和數(shù)理統(tǒng)計(jì)來使經(jīng)濟(jì)數(shù)據(jù)分析變得更為簡單有效,就具有十分重要的意義了。如正被廣泛應(yīng)用在經(jīng)濟(jì)金融管理領(lǐng)域的正態(tài)概率分布的方法,通過此種方法對經(jīng)濟(jì)數(shù)據(jù)進(jìn)行分析能夠有效的預(yù)測和描述連續(xù)性隨機(jī)變量的概率,并對概率所有相關(guān)信息進(jìn)行高效的分析,從而通過分析結(jié)果對市場經(jīng)濟(jì)狀況進(jìn)行實(shí)時(shí)掌握,幫助人們了解市場發(fā)展規(guī)律和運(yùn)作模式,以及其中普遍存在的市場經(jīng)濟(jì)規(guī)律,甚至能夠分析出更多的經(jīng)濟(jì)信息,從而幫助決策者制定長遠(yuǎn)的戰(zhàn)略目標(biāo)和工作部署。
對經(jīng)濟(jì)數(shù)據(jù)的分析除了對經(jīng)濟(jì)市場的變化規(guī)律和發(fā)展趨勢進(jìn)行分析和預(yù)測,還要預(yù)測和分析經(jīng)濟(jì)運(yùn)行的風(fēng)險(xiǎn)。概率論和數(shù)理統(tǒng)計(jì)則可以幫助經(jīng)濟(jì)市場的投資者有效減少投資過程中潛在的風(fēng)險(xiǎn),降低風(fēng)險(xiǎn)產(chǎn)生的可能性,增加投資者利潤獲取的概率和可能性。
(二)概率論與數(shù)理統(tǒng)計(jì)在商業(yè)數(shù)據(jù)分析中的應(yīng)用策略
大數(shù)據(jù)時(shí)代,商業(yè)數(shù)據(jù)對于企業(yè)的生存與發(fā)展而言具有十分重要的作用,而商業(yè)數(shù)據(jù)又屬于經(jīng)濟(jì)數(shù)據(jù)的一種?,F(xiàn)如今,企業(yè)進(jìn)行商業(yè)數(shù)據(jù)分析時(shí),大都會(huì)采用概率論和數(shù)理統(tǒng)計(jì),如分析計(jì)算商業(yè)數(shù)據(jù)中的大客戶流失概率,首先需先建立研究模型,確立流失數(shù)據(jù)與流失函數(shù)相對應(yīng)的函數(shù)關(guān)系,其次找出對大客戶流失產(chǎn)生影響最大的因素,并按照劃分層次進(jìn)行歸類,設(shè)定特殊時(shí)段,對特殊時(shí)段中大客戶流失情況進(jìn)行匯總,制作流失情況走勢圖,計(jì)算出標(biāo)準(zhǔn)函數(shù),進(jìn)而獲得特定客戶在某一時(shí)段的流失概率,通過函數(shù)公式找出協(xié)變量,分析出影響要素的定義,最終完善模型的構(gòu)造。在模型構(gòu)建后需要注意的是,由于最大片似然函數(shù)對回歸參數(shù)的計(jì)算過程中影響大客戶流失的因素眾多,為了減少模型維數(shù)以降低參數(shù)估計(jì)難度,需要對這些影響因素進(jìn)行選擇性使用,同時(shí)我,為了確定協(xié)變量的數(shù)量,還應(yīng)按照數(shù)理統(tǒng)計(jì)的結(jié)果進(jìn)行篩選,以避免錯(cuò)誤的產(chǎn)生,提高正確性。
七、結(jié)語
概率論和數(shù)理統(tǒng)計(jì)在大數(shù)據(jù)分析中具有十分重要的作用,是有利于高效分析數(shù)據(jù)的有效工具。在未來,數(shù)據(jù)分析和數(shù)據(jù)基數(shù)將會(huì)占據(jù)越來越重要的位置,而概率論和數(shù)理統(tǒng)計(jì)也將成為一項(xiàng)能夠推動(dòng)人們生產(chǎn)生活發(fā)展的重要研究方向。
(作者單位:中國人民大學(xué)統(tǒng)計(jì)學(xué)院在職研究生)