国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種二元響應(yīng)變量模型的分布式貝葉斯估計方法

2017-09-19 05:41:19錢夕元
關(guān)鍵詞:后驗參數(shù)估計貝葉斯

吳 磊, 錢夕元

(華東理工大學(xué)理學(xué)院,上海 200237)

一種二元響應(yīng)變量模型的分布式貝葉斯估計方法

吳 磊, 錢夕元

(華東理工大學(xué)理學(xué)院,上海 200237)

在海量數(shù)據(jù)背景下,傳統(tǒng)的基于單個計算節(jié)點的算法很難滿足分析要求??疾炝艘环N分布式貝葉斯估計方法,通過在每臺機(jī)器上單獨運(yùn)行蒙特卡洛抽樣并做加權(quán)平均可以有效地解決算法效率問題。將該方法應(yīng)用于基于廣義極值模型的二元響應(yīng)變量回歸分析,并探討其實用性。模擬研究表明分布式算法比傳統(tǒng)方法更有效。

海量數(shù)據(jù); 分布式貝葉斯方法; 極值模型

邏輯回歸模型是在處理二元響應(yīng)變量數(shù)據(jù)時最為常用的一種廣義線性模型,它采用邏輯分布作為連接函數(shù),可以實現(xiàn)利用連續(xù)型解釋變量來說明0-1二元響應(yīng)變量的變化。該模型一般假設(shè)潛在變量的概率響應(yīng)曲線是對稱的,即0-1二元響應(yīng)變量中的各類樣本數(shù)目基本均衡,但當(dāng)樣本數(shù)存在明顯不平衡時,邏輯回歸模型會嚴(yán)重違背對稱性的假設(shè),帶來連接函數(shù)設(shè)定錯誤,使得模型參數(shù)估計存在較大的偏差和均方誤差[1]。

不平衡數(shù)據(jù)在實際應(yīng)用中并不少見,它一般來源于某類稀有事件或現(xiàn)象發(fā)生概率較小的環(huán)境,且相關(guān)屬性的數(shù)據(jù)會具有明顯的偏度特征。為此,學(xué)者們提出了大量改進(jìn)的連接函數(shù)用來靈活處理此類數(shù)據(jù)。最近,Wang等[2]提出了以廣義極值(GEV)分布作為連接函數(shù)的二元響應(yīng)變量回歸模型,該連接函數(shù)比傳統(tǒng)GEV分布增加了一個形狀參數(shù),新增的形狀參數(shù)不但沒有取值約束,而且可以更大幅度地調(diào)節(jié)偏度,使得該模型對非對稱或?qū)ΨQ的響應(yīng)曲線都可以進(jìn)行擬合,具有了更廣泛的靈活性,可以更好地處理二元不平衡數(shù)據(jù)。

值得注意的是模型的靈活性帶來了經(jīng)典參數(shù)估計方法(極大似然估計)求解的困難性。隨著馬爾科夫鏈蒙特卡羅(MCMC)方法的發(fā)展,貝葉斯估計方法得到了更加廣泛的應(yīng)用。貝葉斯估計方法可以有效地利用先驗信息,對小到中型樣本問題可以有效改善估計精度,但如何有效地將貝葉斯方法應(yīng)用到海量數(shù)據(jù)分析成為近期一個研究熱點。隨著數(shù)據(jù)爆炸式增長,單個的處理器已經(jīng)很難滿足人們的需求,一個可以想到的解決辦法是將數(shù)據(jù)分發(fā)到多個處理器上,但隨之帶來的問題就是如何解決各個節(jié)點間的信息交換,如何協(xié)調(diào)好各個處理過程,否則很容易出現(xiàn)死鎖或者串行化等問題。貝葉斯方法中廣泛采用的MCMC方法是基于馬氏鏈構(gòu)造的,其當(dāng)前狀態(tài)轉(zhuǎn)移的概率依賴于前一個狀態(tài),這實際上和分布式的思想是有沖突的,因為馬氏鏈要求串行化而分布式要求的是并行化[3]。

本文首先給出了基于極值理論的二元響應(yīng)變量回歸模型及其貝葉斯估計,針對海量數(shù)據(jù)應(yīng)用環(huán)境,給出了分布式貝葉斯估計算法,設(shè)計模擬數(shù)據(jù)驗證了算法的有效性。

1 二元響應(yīng)變量模型及其貝葉斯估計(Be)

Ψ(·)是一個取值在0和1之間的非負(fù)函數(shù),標(biāo)準(zhǔn)情況下,設(shè)定Ψ(·)為累積分布函數(shù),而稱Ψ-1(·)為連接函數(shù)。

常用二元響應(yīng)變量模型的連接函數(shù)有l(wèi)ogit連接Ψ-1(pi)=lg{pi/(1-pi)},probit連接Ψ-1(pi)=Φ-1(pi),Φ-1為標(biāo)準(zhǔn)正態(tài)分布的反函數(shù),cloglog連接Ψ-1(pi)=-lg{-lg(pi)}等。上述連接函數(shù)都是對稱的,在處理不平衡數(shù)據(jù)時會出現(xiàn)較大的偏差和均方誤差。

Wang等[2]提出了基于廣義極值分布的二元響應(yīng)變量回歸模型,其連接函數(shù)采用如下累積分布函數(shù),具體表示為:

ξ為形狀參數(shù),用以改變模型分布的偏度和尾部厚度。根據(jù)ξ的不同,該模型既可以表現(xiàn)出對稱性,也可以表現(xiàn)出非對稱性,可以很好地用來處理非平衡樣本數(shù)據(jù)[4]。本文采用基于MCMC算法的貝葉斯方法進(jìn)行模型的參數(shù)估計,其Metropolis-Hastings(M-H)抽樣算法描述如下:

Step0選取待估參數(shù)的初始值θ0;

Step1從產(chǎn)生候選參數(shù)的密度函數(shù)q(θ(s-1),θ*)中獲得候選參數(shù)θ*;

Step2計算候選參數(shù)被接收的概率α(θ(s-1),θ*);

Step3以α(θ(s-1),θ*)的概率設(shè)θ(s)=θ*,或者以1-α(θ(s-1),θ*)的概率設(shè)θ(s)=θ(s-1);

Step4重復(fù)Step1,Step2和Step3S次;

Step5以θ0,θ1,…,θS作為參數(shù)θ的近似后驗密度,作均值估計得參數(shù)θ的點估計。

其中接受概率

式中,p(θ=θ*|y)表示后驗密度在點θ=θ*的取值,q(θ*;θ=θ(s-1))表示隨機(jī)變量θ的密度函數(shù)在θ=θ(s-1)處的取值。

2 分布式貝葉斯估計(DBe)方法

2.1模型參數(shù)估計

在海量數(shù)據(jù)背景下,上述估計方法將變得十分困難。本文提出借助分布式貝葉斯方法對模型參數(shù)進(jìn)行估計。該方法的主要思想是根據(jù)現(xiàn)有的計算資源,在確保每份數(shù)據(jù)集的樣本容量足夠的情況下合理地把樣本數(shù)據(jù)拆分,為每份數(shù)據(jù)分配一個獨立的計算節(jié)點做蒙特卡洛抽樣,從而得到參數(shù)的貝葉斯后驗分布,最后根據(jù)一定的方式把每份數(shù)據(jù)的后驗分布整合成一個全局的后驗分布,其主要過程描述如下:

記y為全部的樣本數(shù)據(jù)(樣本數(shù)為n),ys是第s份數(shù)據(jù)(樣本數(shù)為ns),記θ為待估參數(shù)。假設(shè)數(shù)據(jù)集間相互獨立,則根據(jù)貝葉斯公式:

(1)

從式(1)中可以看到,每個部分的先驗分布變成了總體先驗的S次方根,這是為了保持整個系統(tǒng)中的先驗信息保持不變。另外,由于對先驗信息并不是很了解,本文采用了方差較大的無信息正態(tài)先驗。根據(jù)模型可知,似然函數(shù)為:

由于后驗分布比較復(fù)雜,本文采用自適應(yīng)的正態(tài)隨機(jī)游走來逼近該目標(biāo)后驗,其優(yōu)勢是可以提高M(jìn)etropolis-Hastings迭代過程的接受率,根據(jù)上一次的參數(shù)是否被接受來調(diào)整隨機(jī)游走的步長,從而自適應(yīng)地保證更高的接受率[5]。

假定在第s個計算節(jié)點上得到了總共G個Metropolis-Hastings抽樣,以下述加權(quán)平均的方法得到總共S個計算節(jié)點的全局后驗分布參數(shù)估計:

式中,Ws稱為權(quán)重矩陣,一般可以取樣本方差的逆或在參數(shù)θ維數(shù)較高時作簡單的平均即可。DBe估計的步驟如下:

Step1 把樣本數(shù)據(jù)y分片為y1,…,ys;

Step2 由分離先驗信息p(θ)1/S,重復(fù)S次獨立的M-H抽樣(該部分算法步驟如上)得θsg~p(θ|ys),g=1,…,G;

Step3 對θsg,s=1,…,S;g=1,…,G加權(quán),得到全局的后驗分布參數(shù)θg,g=1,…,G;

Step4 根據(jù)接收率α,過濾掉馬爾科夫鏈的前(1-α) G個參數(shù);

2.2其他非參數(shù)估計策略

3 模擬研究

取樣本容量n=100 000,解釋變量取3個,均由服從均值為0、方差為1的正態(tài)隨機(jī)數(shù)生成,模型參數(shù)的真值為β0=1,β1=2,β2=3,β3=4,分布參數(shù)的真值ξ=2,產(chǎn)生模擬數(shù)據(jù)集50份。根據(jù)模擬數(shù)據(jù)集的樣本容量以及計算資源,設(shè)定S=12,G=1 250,α=0.8。

數(shù)據(jù)分布式處理環(huán)境如下:Hadoop2.x:1個Master節(jié)點和3個Slave節(jié)點,集群中CPU的數(shù)量Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00 GHz*8*(1[M]+3[S])=32core,內(nèi)存大小32 (1[M]+3[S])=128 GB,JVM參數(shù)設(shè)定-Xmx768 M,其中Container的大小為1 GB[6]。

表1給出了分布式貝葉斯方法和傳統(tǒng)分析方法的對比結(jié)果。從中可以看到,分布式貝葉斯方法優(yōu)勢明顯,在本文的計算節(jié)點上,計算效率提升了近3倍。但由于計算時間取決于最慢的節(jié)點,且Hadoop環(huán)境下的Map階段(將數(shù)據(jù)拆分成12份)并沒有并行化而是僅使用了一個節(jié)點,因此計算效率并不呈線性提升。但是隨著數(shù)據(jù)量的進(jìn)一步增大,分布式貝葉斯方法的優(yōu)勢會更趨明顯。另外,在準(zhǔn)確性和穩(wěn)定性上,當(dāng)M-H抽樣的初值為0,自適應(yīng)隨機(jī)游走的步長分別是0.005和0.1的情況下,50次的重復(fù)實驗中分布式貝葉斯方法和傳統(tǒng)分析方法的參數(shù)估計精度差別不大,參見圖1的比較結(jié)果。

表1 算法對比分析結(jié)果Table 1 Comparative analysis of distributed Bayes vs.classical method

圖1 分布式貝葉斯方法和傳統(tǒng)方法參數(shù) 估計精度對比分析結(jié)果Fig.1 Comparative analysis of distributed Bayes vs.classical method

4 結(jié)束語

本文針對不平衡二元響應(yīng)變量的海量數(shù)據(jù),基于廣義極值分布進(jìn)行回歸分析,借助于分布式貝葉斯方法(Metropolish-Hastings抽樣算法)進(jìn)行參數(shù)估計,模擬研究表明該方法具有一定的計算優(yōu)勢,應(yīng)用于模擬數(shù)據(jù)分析中取得了較好的效果。今后可以進(jìn)一步推廣到基于Gibbs抽樣的分布式貝葉斯分析中。

[1] CZADO C,SANTNER T J.The effect of link misspecification on binary regression inference [J].Journal of Statistical Planning and Inference,1992,33(2):213-231.

[2] WANG X,DEY D K.Generalized extreme value regression for binary response data:An application to B2B electronic payments system adoption [J].The Annals of Applied Statistics,2010,4(4):2000-2023.

[3] STEVEN S L,BLOCKER A W,BONASSI F V .Bayes and big data:The consensus Monte Carlo algorithm [J].International Journal of Management Science and Engineering Management,2016,11(2):78-88.

[4] GHOSH S K,MUKHOPADHYAY P,LU J C.Bayesian analysis of zero-inflated regression models [J].Journal of Statistical Planning and Inference,2006,136(4):1360-1375.

[5] CHIPMA H A,GEORGE E I,MCCULLOCH R E.BART:Bayesian additive regression trees [J].The Annals of Applied Statistics,2010,4(1):266-298.

[6] DEAN J,GHEMAWAT S.Mapreduce:Simplified data processing on large clusters [J].Communications of the ACM,2008,51(1):107-113.

ADistributedBayesianRegressionMethodforBinaryResponseMassiveData

WULei,QIANXi-yuan

(SchoolofScience,EastChinaUniversityofScienceandTechnology,Shanghai200237,China)

In the background of massive data,it is difficult to meet the analysis requirements for traditional one-node based algorithm.This paper considers a distributed Bayesian estimation method to solve the GEV based general linear regression model by running a separate Monte Carlo algorithm on each machine.The method is applied to regression analysis of binary response variables based on generalized extreme value model.The results show that the proposed distributed Bayesian regression algorithm is much faster than the traditional algorithm in the simulated data sets studying.

massive data; distributed Bayesian regression; GEV model

1006-3080(2017)04-0559-04

10.14135/j.cnki.1006-3080.2017.04.016

2016-10-31

國家高科技研究發(fā)展(“863”)計劃(2015AA20107);上海市經(jīng)信委“軟件和集成電路產(chǎn)業(yè)發(fā)展專項資金”(140304)

吳 磊(1992-),男,上海人,碩士生,主要研究方向為統(tǒng)計計算。

錢夕元,E-mail:xyqian@ecust.edu.cn

TP301.6

A

猜你喜歡
后驗參數(shù)估計貝葉斯
基于新型DFrFT的LFM信號參數(shù)估計算法
基于對偶理論的橢圓變分不等式的后驗誤差分析(英)
貝葉斯統(tǒng)計中單參數(shù)后驗分布的精確計算方法
貝葉斯公式及其應(yīng)用
一種基于最大后驗框架的聚類分析多基線干涉SAR高度重建算法
Logistic回歸模型的幾乎無偏兩參數(shù)估計
基于向前方程的平穩(wěn)分布參數(shù)估計
基于貝葉斯估計的軌道占用識別方法
基于競爭失效數(shù)據(jù)的Lindley分布參數(shù)估計
一種基于貝葉斯壓縮感知的說話人識別方法
電子器件(2015年5期)2015-12-29 08:43:15
太康县| 邮箱| 新乡市| 九寨沟县| 自治县| 衡南县| 馆陶县| 陕西省| 铜梁县| 开化县| 河津市| 涟源市| 千阳县| 历史| 安泽县| 枣庄市| 县级市| 和平县| 英德市| 兰考县| 永城市| 开化县| 满城县| 中宁县| 巴中市| 舞钢市| 泗阳县| 临夏县| 治县。| 故城县| 黑水县| 满洲里市| 伊吾县| 义乌市| 长寿区| 安新县| 大冶市| 思南县| 三台县| 白朗县| 丹巴县|