李 武
(天津大學 科學技術(shù)發(fā)展研究院,天津300072)
我國科技經(jīng)費是指統(tǒng)計年度內(nèi)全社會實際用于研究與試驗發(fā)展經(jīng)費投入(簡稱RD),包括基礎(chǔ)研究、應用研究和試驗發(fā)展的經(jīng)費支出。目前,我國科技經(jīng)費投入保持增長態(tài)勢。國家財政科技支出穩(wěn)步增加,2013年,國家統(tǒng)計局、科學技術(shù)部、財政部聯(lián)合發(fā)布了《2012年全國科技經(jīng)費投入統(tǒng)計公報》(簡稱《公報》)?!豆珗蟆窋?shù)據(jù)顯示,2012年全社會研究與試驗發(fā)展經(jīng)費投入首次突破萬億元大關(guān),RD經(jīng)費投入強度(RD經(jīng)費投入與國內(nèi)生產(chǎn)總值之比)再創(chuàng)歷史新高。這就反映了我國在深化科技體制改革、加快國家創(chuàng)新體系建設(shè)方面又邁出了堅實的一步。本文將用最大信息系數(shù)MIC來判斷GDP與RD經(jīng)費投入的相依程度,從而為我國宏觀經(jīng)濟政策的制定提供參考和依據(jù)。
表1給出我國1995—2013的國內(nèi)生產(chǎn)總值GDP和全國RD經(jīng)費投入的數(shù)據(jù),并計算出了RD經(jīng)費投入強度,下面利用表1數(shù)據(jù)來對GDP和RD經(jīng)費進行相關(guān)性分析。
考慮兩個隨機變量的相關(guān)性,如果這兩個隨機變量的聯(lián)合分布服從高斯分布,應直接運用線性相關(guān)系數(shù),如果數(shù)據(jù)不服從高斯分布,此時應考慮能描述單調(diào)相關(guān)的秩相關(guān)系數(shù)或者其他關(guān)系的相關(guān)系數(shù)。由于兩個指標都不服從正態(tài)分布,首先考慮秩相關(guān)系數(shù),秩相關(guān)系數(shù)主要有Spearman和Kendall兩種,它們可以度量兩個變量之間的單調(diào)關(guān)系。
表1 我國歷年RD經(jīng)費投入與GDP情況
關(guān)于spearman和kendall系數(shù)的計算,可以通過R語言的函數(shù)cor.test來完成。以秩相關(guān)系數(shù)來構(gòu)建統(tǒng)計量,原假設(shè)就是兩個變量之間存在相關(guān)性,在原假設(shè)成立條件下,統(tǒng)計量服從t分布。R語言的宏包pspearman改進spearman系數(shù)計算方法,不再局限于t分布,而是提前設(shè)置的原分布。所以我們這里計算了spearman系數(shù)、kendall系數(shù)和改進的spearman系數(shù)來判斷相關(guān)性。如果檢驗的相伴概率大于0.05,不拒絕原假設(shè),說明兩個變量之間存在相關(guān)性;系數(shù)越接近零,說明相關(guān)性越小。從計算結(jié)果看出各種系數(shù)均為1,表明我國GDP和科研經(jīng)費投入之間存在相關(guān)性(見表2)。
表2 我國GDP與RD經(jīng)費秩相關(guān)系數(shù)檢驗
距離相關(guān)Dcor(Distance correlation)是Székely和Rizzo提出的一種新的相關(guān)性度量,它以觀測值的距離作為度量的依據(jù)。Dcor等于零表示隨機變量X和Y獨立。距離相關(guān)Dcor取值在[0,1]之間,其中大于0.05表示變量之間存在相關(guān)性,距離相關(guān)Dcor系數(shù)還可以用來檢驗多維隨機變量的獨立性。距離相關(guān)Dcor系數(shù)計算,可以通過R語言energy宏包dcor函數(shù)完成,經(jīng)過計算得到Dcor檢驗結(jié)果為0.992 607 8,因此認為我國GDP和科研經(jīng)費投入之間存在相關(guān)性。
平均互信息指數(shù)是信息論中比較重要的一個概念,可以用來判斷系統(tǒng)的非線性相關(guān)性??紤]由兩離散系統(tǒng){s1,s2,…,sn}和{q1,q2,…,qn}構(gòu)成的系統(tǒng)S和Q,定義兩系統(tǒng)互信息。
其中Psq(si,qj)為同時出現(xiàn)事件si和qj的概率,Ps(si)為出現(xiàn)事件si的概率,Pq(qj)為出現(xiàn)事件qj的概率。
采用R軟件宏包bioDist中的函數(shù)mutualInfo可以計算兩個系統(tǒng)的互信息指數(shù)。經(jīng)計算得到我國GDP和科研經(jīng)費投入之間的兩兩互信息指數(shù)為1.576 029,這說明我國GDP和科研經(jīng)費投入之間存在很強的相關(guān)性。
以上通過幾種相關(guān)性檢驗方法,進行簡單的介紹和驗證,可以看出我國GDP和科研經(jīng)費投入存在相關(guān)性,下面將用最新的最大信息系數(shù)MIC的方法進行驗證說明。
哈佛大學Broad研究院的研究人員在Science雜志上發(fā)表了題為“Detecting novel associations in large data sets”的文章,這是相關(guān)系數(shù)比較新的研究成果。該算法可以對各種類型的相關(guān)進行快速估計,能夠發(fā)現(xiàn)更為一般的函數(shù)聯(lián)系。這種方法被稱為MINE(Maximal Information-Based Nonparametric Exploration),研究人員無需事前對其尋找的關(guān)系類型有所了解,就檢測由多種因素驅(qū)動的復雜模式。MINE基于最大信息系數(shù)MIC,其依據(jù)的理念是,如果兩個變量之間存在著一種關(guān)系,那么就應該有一種方法在那些變量的散點圖上畫一個網(wǎng)格,使得大多數(shù)的數(shù)據(jù)點集中在該網(wǎng)格的幾個單元格中。通過搜尋這種“最適合”的網(wǎng)格,計算機可以計算MIC及一族可用來發(fā)現(xiàn)并描繪關(guān)系的相關(guān)的統(tǒng)計數(shù)據(jù)。
下面主要介紹MINE的核心概念,令D={(x,y)}為x和y的n個次序樣本。樣本空間在X-O-Y平面分割,分別統(tǒng)計落入每個小格的樣本數(shù)。則MIC定義如下:
其中B(n)=nα為網(wǎng)格搜索大小。I*(D,X,Y)為所有X-Y網(wǎng)格上的最大互信息指數(shù)(maximum mutual information),落入某網(wǎng)格概率以落入該網(wǎng)格的點數(shù)除以總點數(shù)得到。其他統(tǒng)計量都從X-Y網(wǎng)格上的互信息指數(shù)導出。
MAS(Maximum Asymmetry Score)定義如下:
MEV(Maximum Edge Value)定義如下:
MCN(Minimum Cell Number)定義如下:
MINE各種系數(shù)計算通過R語言的minerva宏包函數(shù)mine完成,其輸入可以是兩個數(shù)值向量x和y,也可以是一個矩陣,還有5個參數(shù)master,alpha,C,n.cores,var.thr可供選擇。參數(shù)默認值為:
master=NULL,alpha=0.6,C=15,n.cores=1,var.thr=1e-5.
master參數(shù)控制變量x的選擇,可以是一列數(shù)據(jù),也可以是多列數(shù)據(jù),剩下的列數(shù)據(jù)作為變量y。alpha參數(shù)控制網(wǎng)格分割的大小,網(wǎng)格分割大小B(n)=nα。如果樣本數(shù)據(jù)小,可以提高alpha值以得到更精確估計。由于本文樣本數(shù)據(jù)只有18組,提高其值到0.9。參數(shù)C決定X-Y網(wǎng)格搜索的起點,參數(shù)alpha和參數(shù)C聯(lián)合控制近似精度和運行時間。參數(shù)n.cores 設(shè)置并行計算,如果樣本數(shù)據(jù)不是很大,取默認值即可。參數(shù)var.thr設(shè)置允許的樣本最小方差,如果樣本方差過小,MINE方法無法計算。
表3給出了我國GDP與RD經(jīng)費MINE計算結(jié)果。MIC值在[0,1]之間,如果為零,說明兩個變量之間獨立;如果越接近1,說明相關(guān)性越強。MIC-R2表示MIC系數(shù)和線性相關(guān)系數(shù)的差值,大多數(shù)值在0.6以上,說明它們之間線性關(guān)系很不顯著,更多的是非線性關(guān)系。MAS衡量了非對稱的強弱,MEV指出邊緣網(wǎng)格上系數(shù)大小,MCN值在2,3之間,說明有2,3個網(wǎng)格起到主要作用。從計算結(jié)果中可以看出,MIC值為0.998 000 9,非常接近于1,說明我國GDP與RD經(jīng)費相關(guān)性很強。
表3 我國GDP與RD經(jīng)費MINE結(jié)果
通過上述秩相關(guān)系數(shù)、距離相關(guān)Dcor系數(shù)、互信息指數(shù)、MIC等各種相關(guān)性檢驗,說明了我國GDP與RD經(jīng)費的相關(guān)性,下面將通過獨立性檢驗,說明假設(shè)不成立,證明其相關(guān)性。
HHG獨立性檢驗是一種功效很高的非參數(shù)檢驗,可以是任何維數(shù)的兩個隨機向量,任何形式的相關(guān)性都可以作為對立假設(shè)。因此,HHG檢驗可以判斷兩個隨機向量之間是否存在相關(guān)性。下面以全國RD經(jīng)費投入為隨機變量X,國內(nèi)生產(chǎn)總值GDP為隨機向量Y,來進行獨立性檢驗。HHG獨立性檢驗可以通過R語言的HHG宏包來實現(xiàn),通過計算得到HHG檢驗結(jié)果如表4所示。
從表4的計算結(jié)果可以看出,相伴概率均小于0.05,拒絕原假設(shè),認為兩個隨機向量(或者隨機變量)之間存在相關(guān)性。也就是說我國GDP與RD經(jīng)費的獨立性檢驗不通過,二者存在相關(guān)性,這就進一步驗證和說明了相關(guān)性驗證的正確性。
表4 HHG檢驗結(jié)果
筆者首次利用2011年哈佛大學Broad研究院的研究人員在《Science》雜志上提出的最大相關(guān)系數(shù)MIC來判斷GDP與RD經(jīng)費投入的相依程度。計算MIC值為0.998 000 9,非常接近于1,說明GDP的增長與RD經(jīng)費投入相關(guān)性很高。同時還計算了spearman系數(shù)、kendall系數(shù)和改進的spearman系數(shù)來判斷二者的相關(guān)性,計算結(jié)果均為1,驗證了二者存在相關(guān)性。還計算了距離相關(guān)Dcor系數(shù)、計算結(jié)果為0.992 607 8,也非常接近1,因此認為我國GDP和科研經(jīng)費投入之間存在相關(guān)性。另外還計算了我國GDP和科研經(jīng)費投入之間的兩兩互信息指數(shù),計算結(jié)果為1.576 029,也說明了二者存在相關(guān)性。
通過對這幾種方法的比較發(fā)現(xiàn):MIC方法可以對各種類型的相關(guān)性進行快速估計,并且能夠發(fā)現(xiàn)更為一般的函數(shù)聯(lián)系。因此,MIC方法比較適合判斷GDP與RD經(jīng)費投入的相依程度,而且計算比較快速有效。
另外,筆者還應用了最新的統(tǒng)計學方法HHG獨立性檢驗進行了驗證和說明。計算結(jié)果表明,相伴概率均小于0.05,拒絕原假設(shè),也就是說我國GDP與RD經(jīng)費的獨立性檢驗不通過,二者存在相關(guān)性。
從本文分析結(jié)果可以推斷我國的國內(nèi)生產(chǎn)總值GDP的增長與RD經(jīng)費投入有很大的相關(guān)性,同時從表1的GDP與RD經(jīng)費投入的數(shù)據(jù)也可以看出我國RD經(jīng)費投入和GDP同時呈上升趨勢的,這也進一步驗證了本文所得相關(guān)性結(jié)論的正確性。
所以,我國加大RD經(jīng)費投入將為我國的經(jīng)濟增長以及建設(shè)創(chuàng)新型國家方面起關(guān)鍵性作用。本文的分析結(jié)果為我國相關(guān)宏觀經(jīng)濟政策的制定提供一定理論參考。
[1]薛毅,陳立萍.統(tǒng)計建模與R軟件[M].北京:清華大學出版社,2007.
[2]史道濟.相關(guān)系數(shù)與相關(guān)性[J].統(tǒng)計科學與實踐,2002,(4):22-24.
[3]Sz′ekely G J,Rizzo M L,et al.Brownian distance covariance[J].The annals of applied statistics,2009,(4):1236-1265.
[4]Reshef D.N.,Reshef Y.A.,F(xiàn)inucane H.K.,Grossman S.R.,etc.Detecting Novel Associations in Large Data Sets[J].Science,2011,(6062):1518-1524.
[5]Speed T.A Correlation for the 21st Century[J].Science,2011,(6062):1502-1503.
[6]Efron B,Hastie T,Johnstone I,et al.Least angle regression[J].The Annals of statistics,2004,(2):407-499.
[7]宋琳曦.天津移動關(guān)鍵績效指標MIC和LASSO分析及規(guī)則集成預測[D].天津:天津大學,2014.