李武
摘要:目前,我國正在進(jìn)行深化科技體制改革、加快國家創(chuàng)新體系建設(shè)。R&D經(jīng)費(fèi)的投入和經(jīng)濟(jì)增長之間存在依賴關(guān)系。 首次利用最大信息系數(shù)MIC法來判斷GDP與R&D經(jīng)費(fèi)投入的相依程度,同時,還應(yīng)用了HHG獨(dú)立性檢驗(yàn)最新的統(tǒng)計(jì)學(xué)方法來驗(yàn)證和說明。結(jié)果表明GDP的增長與R&D經(jīng)費(fèi)投入相關(guān)性很高,因此應(yīng)進(jìn)一步加大R&D經(jīng)費(fèi)投入將為我國的經(jīng)濟(jì)增長以及建設(shè)科技創(chuàng)新型國家起關(guān)鍵性作用。
關(guān)鍵詞:最大信息系數(shù)MIC;國內(nèi)生產(chǎn)總值;R&D 科研經(jīng)費(fèi);獨(dú)立性檢驗(yàn)
中圖分類號:F830.591 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-2101(2015)03-0055-03
一、前言
我國科技經(jīng)費(fèi)是指統(tǒng)計(jì)年度內(nèi)全社會實(shí)際用于研究與試驗(yàn)發(fā)展經(jīng)費(fèi)投入(簡稱R&D),包括基礎(chǔ)研究、應(yīng)用研究和試驗(yàn)發(fā)展的經(jīng)費(fèi)支出。目前,我國科技經(jīng)費(fèi)投入保持增長態(tài)勢。國家財(cái)政科技支出穩(wěn)步增加,2013年,國家統(tǒng)計(jì)局、科學(xué)技術(shù)部、財(cái)政部聯(lián)合發(fā)布了《2012年全國科技經(jīng)費(fèi)投入統(tǒng)計(jì)公報(bào)》(簡稱《公報(bào)》)。《公報(bào)》數(shù)據(jù)顯示,2012年全社會研究與試驗(yàn)發(fā)展經(jīng)費(fèi)投入首次突破萬億元大關(guān),R&D經(jīng)費(fèi)投入強(qiáng)度(R&D經(jīng)費(fèi)投入與國內(nèi)生產(chǎn)總值之比)再創(chuàng)歷史新高。這就反映了我國在深化科技體制改革、加快國家創(chuàng)新體系建設(shè)方面又邁出了堅(jiān)實(shí)的一步。本文將用最大信息系數(shù)MIC來判斷GDP與R&D經(jīng)費(fèi)投入的相依程度,從而為我國宏觀經(jīng)濟(jì)政策的制定提供參考和依據(jù)。
表1給出我國1995—2013的國內(nèi)生產(chǎn)總值GDP和全國R&D經(jīng)費(fèi)投入的數(shù)據(jù),并計(jì)算出了R&D經(jīng)費(fèi)投入強(qiáng)度,下面利用表1數(shù)據(jù)來對GDP和R&D經(jīng)費(fèi)進(jìn)行相關(guān)性分析。
二、GDP與R&D經(jīng)費(fèi)相關(guān)性分析
(一)秩相關(guān)系數(shù)
考慮兩個隨機(jī)變量的相關(guān)性,如果這兩個隨機(jī)變量的聯(lián)合分布服從高斯分布,應(yīng)直接運(yùn)用線性相關(guān)系數(shù),如果數(shù)據(jù)不服從高斯分布,此時應(yīng)考慮能描述單調(diào)相關(guān)的秩相關(guān)系數(shù)或者其他關(guān)系的相關(guān)系數(shù)。由于兩個指標(biāo)都不服從正態(tài)分布,首先考慮秩相關(guān)系數(shù),秩相關(guān)系數(shù)主要有Spearman和Kendall兩種,它們可以度量兩個變量之間的單調(diào)關(guān)系。
關(guān)于spearman和kendall系數(shù)的計(jì)算,可以通過R語言的函數(shù)cor.test來完成。以秩相關(guān)系數(shù)來構(gòu)建統(tǒng)計(jì)量,原假設(shè)就是兩個變量之間存在相關(guān)性,在原假設(shè)成立條件下,統(tǒng)計(jì)量服從t分布。R語言的宏包pspearman改進(jìn)spearman系數(shù)計(jì)算方法,不再局限于t分布,而是提前設(shè)置的原分布。所以我們這里計(jì)算了spearman系數(shù)、kendall系數(shù)和改進(jìn)的spearman系數(shù)來判斷相關(guān)性。如果檢驗(yàn)的相伴概率大于0.05,不拒絕原假設(shè),說明兩個變量之間存在相關(guān)性;系數(shù)越接近零,說明相關(guān)性越小。從計(jì)算結(jié)果看出各種系數(shù)均為1,表明我國GDP和科研經(jīng)費(fèi)投入之間存在相關(guān)性(見表2)。
(二)距離相關(guān)Dcor(Distance correlation) 系數(shù)
距離相關(guān)Dcor(Distance correlation)是Székely和Rizzo 提出的一種新的相關(guān)性度量,它以觀測值的距離作為度量的依據(jù)。Dcor等于零表示隨機(jī)變量X和Y獨(dú)立。距離相關(guān)Dcor取值在[0,1]之間,其中大于0.05表示變量之間存在相關(guān)性,距離相關(guān)Dcor系數(shù)還可以用來檢驗(yàn)多維隨機(jī)變量的獨(dú)立性。距離相關(guān)Dcor系數(shù)計(jì)算,可以通過R語言energy宏包dcor函數(shù)完成,經(jīng)過計(jì)算得到Dcor檢驗(yàn)結(jié)果為0.992 607 8,因此認(rèn)為我國GDP和科研經(jīng)費(fèi)投入之間存在相關(guān)性。
(三)平均互信息指數(shù)
平均互信息指數(shù)是信息論中比較重要的一個概念,可以用來判斷系統(tǒng)的非線性相關(guān)性??紤]由兩離散系統(tǒng){s1,s2,…,sn}和{q1,q2,…,qn}構(gòu)成的系統(tǒng)S和Q,定義兩系統(tǒng)互信息。
I(Q,S)=■■Psq(si,qj)log[Psq(si,qj)/Ps(si)Pq(q j)]
其中Psq(si,qj)為同時出現(xiàn)事件si和qj的概率,Ps(si)為出現(xiàn)事件si的概率,Pq(qj)為出現(xiàn)事件qj的概率。
采用R軟件宏包bioDist中的函數(shù)mutualInfo可以計(jì)算兩個系統(tǒng)的互信息指數(shù)。經(jīng)計(jì)算得到我國GDP和科研經(jīng)費(fèi)投入之間的兩兩互信息指數(shù)為1.576 029,這說明我國GDP和科研經(jīng)費(fèi)投入之間存在很強(qiáng)的相關(guān)性。
以上通過幾種相關(guān)性檢驗(yàn)方法,進(jìn)行簡單的介紹和驗(yàn)證,可以看出我國GDP和科研經(jīng)費(fèi)投入存在相關(guān)性,下面將用最新的最大信息系數(shù)MIC的方法進(jìn)行驗(yàn)證說明。
(四)最大信息系數(shù)MIC(Maximal Information Coefficient)
哈佛大學(xué)Broad研究院的研究人員在Science雜志上發(fā)表了題為“Detecting novel associations in large data sets”的文章,這是相關(guān)系數(shù)比較新的研究成果。該算法可以對各種類型的相關(guān)進(jìn)行快速估計(jì),能夠發(fā)現(xiàn)更為一般的函數(shù)聯(lián)系。這種方法被稱為MINE(Maximal Information-Based Nonparametric Exploration),研究人員無需事前對其尋找的關(guān)系類型有所了解,就檢測由多種因素驅(qū)動的復(fù)雜模式。MINE基于最大信息系數(shù)MIC,其依據(jù)的理念是,如果兩個變量之間存在著一種關(guān)系,那么就應(yīng)該有一種方法在那些變量的散點(diǎn)圖上畫一個網(wǎng)格,使得大多數(shù)的數(shù)據(jù)點(diǎn)集中在該網(wǎng)格的幾個單元格中。通過搜尋這種“最適合”的網(wǎng)格,計(jì)算機(jī)可以計(jì)算MIC及一族可用來發(fā)現(xiàn)并描繪關(guān)系的相關(guān)的統(tǒng)計(jì)數(shù)據(jù)。
下面主要介紹MINE的核心概念,令D={(x,y)}為x和y的n個次序樣本。樣本空間在X-O-Y平面分割,分別統(tǒng)計(jì)落入每個小格的樣本數(shù)。則MIC定義如下:endprint
MIC(D)=■M(D)X,Y=■I*(D,X,Y)/log(min(X,Y)),
其中B(n)=n?琢為網(wǎng)格搜索大小。I*(D,X,Y)為所有X-Y網(wǎng)格上的最大互信息指數(shù)(maximum mutual information),落入某網(wǎng)格概率以落入該網(wǎng)格的點(diǎn)數(shù)除以總點(diǎn)數(shù)得到。其他統(tǒng)計(jì)量都從X-Y網(wǎng)格上的互信息指數(shù)導(dǎo)出。
MINE各種系數(shù)計(jì)算通過R語言的minerva宏包函數(shù)mine完成,其輸入可以是兩個數(shù)值向量x和y,也可以是一個矩陣,還有5個參數(shù)master,alpha,C,n.cores,var.thr可供選擇。參數(shù)默認(rèn)值為:
master=NULL,alpha=0.6,C=15,n.cores=1,var.thr=1e-5.
master參數(shù)控制變量x的選擇,可以是一列數(shù)據(jù),也可以是多列數(shù)據(jù),剩下的列數(shù)據(jù)作為變量y。alpha參數(shù)控制網(wǎng)格分割的大小,網(wǎng)格分割大小B(n)=n?琢。如果樣本數(shù)據(jù)小,可以提高alpha值以得到更精確估計(jì)。由于本文樣本數(shù)據(jù)只有18組,提高其值到0.9。參數(shù)C決定X-Y網(wǎng)格搜索的起點(diǎn),參數(shù)alpha和參數(shù)C聯(lián)合控制近似精度和運(yùn)行時間。參數(shù)n.cores 設(shè)置并行計(jì)算,如果樣本數(shù)據(jù)不是很大,取默認(rèn)值即可。參數(shù)var.thr設(shè)置允許的樣本最小方差,如果樣本方差過小,MINE方法無法計(jì)算。
表3給出了我國GDP與R&D經(jīng)費(fèi)MINE計(jì)算結(jié)果。MIC值在[0,1]之間,如果為零,說明兩個變量之間獨(dú)立;如果越接近1,說明相關(guān)性越強(qiáng)。MIC-R2表示MIC系數(shù)和線性相關(guān)系數(shù)的差值,大多數(shù)值在0.6以上,說明它們之間線性關(guān)系很不顯著,更多的是非線性關(guān)系。MAS衡量了非對稱的強(qiáng)弱,MEV指出邊緣網(wǎng)格上系數(shù)大小,MCN值在2,3之間,說明有2,3個網(wǎng)格起到主要作用。從計(jì)算結(jié)果中可以看出,MIC值為0.998 000 9,非常接近于1,說明我國GDP與R&D經(jīng)費(fèi)相關(guān)性很強(qiáng)。
三、HHG獨(dú)立性檢驗(yàn)
通過上述秩相關(guān)系數(shù)、距離相關(guān)Dcor系數(shù)、互信息指數(shù)、MIC等各種相關(guān)性檢驗(yàn),說明了我國GDP與R&D經(jīng)費(fèi)的相關(guān)性,下面將通過獨(dú)立性檢驗(yàn),說明假設(shè)不成立,證明其相關(guān)性。
HHG獨(dú)立性檢驗(yàn)是一種功效很高的非參數(shù)檢驗(yàn),可以是任何維數(shù)的兩個隨機(jī)向量,任何形式的相關(guān)性都可以作為對立假設(shè)。因此,HHG檢驗(yàn)可以判斷兩個隨機(jī)向量之間是否存在相關(guān)性。下面以全國R&D經(jīng)費(fèi)投入為隨機(jī)變量X,國內(nèi)生產(chǎn)總值GDP為隨機(jī)向量Y,來進(jìn)行獨(dú)立性檢驗(yàn)。HHG獨(dú)立性檢驗(yàn)可以通過R語言的HHG宏包來實(shí)現(xiàn),通過計(jì)算得到HHG檢驗(yàn)結(jié)果如表4所示。
從表4的計(jì)算結(jié)果可以看出,相伴概率均小于0.05,拒絕原假設(shè),認(rèn)為兩個隨機(jī)向量(或者隨機(jī)變量)之間存在相關(guān)性。也就是說我國GDP與R&D經(jīng)費(fèi)的獨(dú)立性檢驗(yàn)不通過,二者存在相關(guān)性,這就進(jìn)一步驗(yàn)證和說明了相關(guān)性驗(yàn)證的正確性。
四、結(jié)語
筆者首次利用2011年哈佛大學(xué)Broad研究院的研究人員在《Science》雜志上提出的最大相關(guān)系數(shù)MIC來判斷GDP與R&D經(jīng)費(fèi)投入的相依程度。計(jì)算MIC值為0.998 000 9,非常接近于1,說明GDP的增長與R&D經(jīng)費(fèi)投入相關(guān)性很高。同時還計(jì)算了spearman系數(shù)、kendall系數(shù)和改進(jìn)的spearman系數(shù)來判斷二者的相關(guān)性,計(jì)算結(jié)果均為1,驗(yàn)證了二者存在相關(guān)性。還計(jì)算了距離相關(guān)Dcor系數(shù)、計(jì)算結(jié)果為0.992 607 8,也非常接近1,因此認(rèn)為我國GDP和科研經(jīng)費(fèi)投入之間存在相關(guān)性。另外還計(jì)算了我國GDP和科研經(jīng)費(fèi)投入之間的兩兩互信息指數(shù),計(jì)算結(jié)果為1.576 029,也說明了二者存在相關(guān)性。
通過對這幾種方法的比較發(fā)現(xiàn):MIC方法可以對各種類型的相關(guān)性進(jìn)行快速估計(jì),并且能夠發(fā)現(xiàn)更為一般的函數(shù)聯(lián)系。因此,MIC方法比較適合判斷GDP與R&D經(jīng)費(fèi)投入的相依程度,而且計(jì)算比較快速有效。
另外,筆者還應(yīng)用了最新的統(tǒng)計(jì)學(xué)方法HHG獨(dú)立性檢驗(yàn)進(jìn)行了驗(yàn)證和說明。計(jì)算結(jié)果表明,相伴概率均小于0.05,拒絕原假設(shè),也就是說我國GDP與R&D經(jīng)費(fèi)的獨(dú)立性檢驗(yàn)不通過,二者存在相關(guān)性。
從本文分析結(jié)果可以推斷我國的國內(nèi)生產(chǎn)總值GDP的增長與R&D經(jīng)費(fèi)投入有很大的相關(guān)性,同時從表1的GDP與R&D經(jīng)費(fèi)投入的數(shù)據(jù)也可以看出我國R&D經(jīng)費(fèi)投入和GDP同時呈上升趨勢的,這也進(jìn)一步驗(yàn)證了本文所得相關(guān)性結(jié)論的正確性。
所以,我國加大R&D經(jīng)費(fèi)投入將為我國的經(jīng)濟(jì)增長以及建設(shè)創(chuàng)新型國家方面起關(guān)鍵性作用。本文的分析結(jié)果為我國相關(guān)宏觀經(jīng)濟(jì)政策的制定提供一定理論參考。
參考文獻(xiàn):
[1]薛毅,陳立萍.統(tǒng)計(jì)建模與R軟件[M].北京:清華大學(xué)出版社,2007.
[2]史道濟(jì).相關(guān)系數(shù)與相關(guān)性[J].統(tǒng)計(jì)科學(xué)與實(shí)踐,2002,(4):22-24.
[3]Sz′ekely G J,Rizzo M L,et al.Brownian distance covariance[J].The annals of applied statistics,2009,(4):1236-1265.
[4]Reshef D.N., Reshef Y.A., Finucane H.K., Grossman S.R., etc.Detecting Novel Associations in Large Data Sets[J].Science,2011,(6062):1518-1524.
[5]Speed T.A Correlation for the 21st Century[J].Science,2011,(6062):1502-1503.
[6]Efron B,Hastie T,Johnstone I,et al.Least angle regression[J].The Annals of statistics,2004,(2):407-499.
[7]宋琳曦.天津移動關(guān)鍵績效指標(biāo)MIC和LASSO分析及規(guī)則集成預(yù)測[D].天津:天津大學(xué),2014.
責(zé)任編輯、校對:武玲玲endprint
河北經(jīng)貿(mào)大學(xué)學(xué)報(bào)2015年3期