陳藝曦 于博駿
摘? 要: 基于第三次全國(guó)經(jīng)濟(jì)普查年鑒數(shù)據(jù),運(yùn)用機(jī)器學(xué)習(xí)算法和多元統(tǒng)計(jì)方法進(jìn)行建模分析,構(gòu)建了地區(qū)工業(yè)企業(yè)創(chuàng)新能力評(píng)價(jià)模型。首先利用K-means算法對(duì)31個(gè)省市自治區(qū)進(jìn)行聚類,得到三個(gè)不同水平的分類;采用隨機(jī)森林算法篩選影響類別劃分的重要指標(biāo),其次運(yùn)用因子分析方法提取影響地區(qū)工業(yè)企業(yè)創(chuàng)新能力的三個(gè)公因子,即資金投入、人力投入和創(chuàng)新成果;最后對(duì)各地區(qū)工業(yè)企業(yè)創(chuàng)新能力水平進(jìn)行了綜合分析,并對(duì)未來各地區(qū)工業(yè)企業(yè)創(chuàng)新發(fā)展提出建議。
關(guān)鍵詞: 地區(qū)差異;工業(yè)企業(yè);創(chuàng)新能力;K-means;隨機(jī)森林;因子分析
中圖分類號(hào): O212.1;TP181? ? 文獻(xiàn)標(biāo)識(shí)碼: A? ? DOI:10.3969/j.issn.1003-6970.2019.01.025
【Abstract】: On the basis of the third national economic census yearbook, this paper uses machine learning algorithm and multivariate statistical method to carry out modeling analysis, conducting an evaluation model of innovation ability for regional industrial enterprise. Firstly, we use K-means algorithm to classify 31 regions into three different levels; then random forest algorithm is used to screen the important indicators that affect classification greatly. In addition, we use factor analysis method to extract the three common factors of the industrial enterprises' innovation ability, namely, capital investment, human input and innovation results. Finally, the author conducts comprehensive analysis of industrial enterprises innovation ability in various regions, and puts forward suggestions for the future development of industrial enterprises.
【Key words】: Regional differences; Industrial enterprise; Innovation ability; K-means; Random forest; Factor analysis
0? 引言
黨的十九大報(bào)告指出,“創(chuàng)新是引領(lǐng)發(fā)展的第一動(dòng)力,是建設(shè)現(xiàn)代化經(jīng)濟(jì)體系的戰(zhàn)略支撐”。在經(jīng)濟(jì)發(fā)展新常態(tài)的背景下,實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,發(fā)揮科技創(chuàng)新的引領(lǐng)作用,全面提高創(chuàng)新能力,是“十三五”時(shí)期乃至更長(zhǎng)時(shí)期內(nèi)國(guó)家的重要發(fā)展方向。工業(yè)企業(yè),特別是規(guī)模以上工業(yè)企業(yè)(以下簡(jiǎn)稱工業(yè)企業(yè))是實(shí)現(xiàn)國(guó)家創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略的主導(dǎo)力量,是帶動(dòng)工業(yè)企業(yè)轉(zhuǎn)型升級(jí)的排頭兵,是促進(jìn)地區(qū)經(jīng)濟(jì)持續(xù)發(fā)展的中堅(jiān)力量。
工業(yè)企業(yè)的科技創(chuàng)新情況是《第三次全國(guó)經(jīng)濟(jì)普查年鑒》[1]的一個(gè)普查大項(xiàng),是近年來國(guó)家大力倡導(dǎo)工業(yè)企業(yè)結(jié)構(gòu)調(diào)整和產(chǎn)業(yè)結(jié)構(gòu)升級(jí)的重要體現(xiàn),是實(shí)現(xiàn)以企業(yè)為主體的技術(shù)創(chuàng)新體系建設(shè)新進(jìn)展的客觀反映。而工業(yè)企業(yè)創(chuàng)新能力的地區(qū)差異是當(dāng)前工業(yè)企業(yè)推動(dòng)結(jié)構(gòu)調(diào)整、推進(jìn)轉(zhuǎn)型升級(jí)、提升核心競(jìng)爭(zhēng)力和實(shí)現(xiàn)持續(xù)發(fā)展所面臨的重要問題。如何客觀有效的反映和評(píng)價(jià)各地區(qū)工業(yè)企業(yè)創(chuàng)新能力是目前專家學(xué)者研究的熱點(diǎn)問題。目前研究工業(yè)企業(yè)創(chuàng)新能力地區(qū)差異的方法主要有:描述性統(tǒng)計(jì)分析[2]、錫爾熵法[3]、時(shí)序加權(quán)平均法[4]、熵權(quán)法[3,4]、因子分析[5-7]、層次分析[8,9]等。本文采用機(jī)器學(xué)習(xí)算法和多元統(tǒng)計(jì)分析方法,充分挖掘《第三次全國(guó)經(jīng)濟(jì)普查年鑒》中工業(yè)企業(yè)創(chuàng)新能力的數(shù)據(jù)信息,從而建立宏觀角度的地區(qū)工業(yè)企業(yè)創(chuàng)新能力評(píng)價(jià)模型。本文的創(chuàng)新之處在于跳出傳統(tǒng)的思維模式,通過“零散的數(shù)據(jù)”挖掘整合出核心評(píng)價(jià)指標(biāo),最大程度地避免主觀因素的影響,實(shí)現(xiàn)了科學(xué)性、客觀性和可操作性的協(xié)調(diào)統(tǒng)一。
1? 數(shù)據(jù)來源
本文以國(guó)家統(tǒng)計(jì)局調(diào)研整理的《第三次全國(guó)經(jīng)濟(jì)普查年鑒》中工業(yè)企業(yè)科技創(chuàng)新情況的數(shù)據(jù),包括R&D基本情況、R&D人員情況、R&D經(jīng)費(fèi)情況、R&D項(xiàng)目情況、企業(yè)辦研發(fā)機(jī)構(gòu)情況、新產(chǎn)品開發(fā)與生產(chǎn)情況、自主知識(shí)產(chǎn)權(quán)情況、政府相關(guān)政策落實(shí)情況技術(shù)獲取、技術(shù)改造情況等九個(gè)方面,選取了31個(gè)省市自治區(qū)(除港澳臺(tái)地區(qū))的53個(gè)原始指標(biāo)變量,作為反映地區(qū)工業(yè)企業(yè)創(chuàng)新能力的指標(biāo)樣本集。(見表1)。
2? K-means聚類
本文首先從樣本數(shù)據(jù)集出發(fā)探究地區(qū)差異性,對(duì)各地區(qū)工業(yè)企業(yè)的創(chuàng)新能力實(shí)現(xiàn)相似地區(qū)聚類,這屬于典型的無(wú)監(jiān)督學(xué)習(xí)問題。K-means算法是目前比較流行的聚類算法,其主要原理是將樣本集劃分為幾個(gè)不相交的組,需同時(shí)滿足組與組之間的距離盡可能大,而組內(nèi)的距離盡可能小[10]。本文利用R軟件(版本3.4.1)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理并編程實(shí)現(xiàn)K-means算法[11],旨在對(duì)31個(gè)地區(qū)的工業(yè)企業(yè)創(chuàng)新能力樣本數(shù)據(jù)集進(jìn)行聚類分析。
對(duì)于K取2,3,…,10,分別計(jì)算聚類后的組內(nèi)平方誤差和,如圖1??梢园l(fā)現(xiàn)組內(nèi)平方誤差和隨著K的取值的增大呈現(xiàn)下降趨勢(shì)。不難發(fā)現(xiàn),當(dāng)K取3的時(shí)候組內(nèi)平方誤差和下降得最快,故選取K為3。因此,本文將地區(qū)工業(yè)企業(yè)的創(chuàng)新能力評(píng)價(jià)指標(biāo)樣本數(shù)據(jù)集劃分成3個(gè)組,即將31個(gè)省市自治區(qū)(除港澳臺(tái)地區(qū))分為三個(gè)類,如表2所示。
3? 隨機(jī)森林算法的重要性評(píng)分
3.1? 隨機(jī)森林算法原理
隨機(jī)森林算法是通過bootstrap的方法有放回抽樣出n個(gè)指標(biāo)集,并為每個(gè)指標(biāo)集建立一棵分類樹,通過n棵分類樹的投票結(jié)果決定最優(yōu)分類[11],如圖2。通過計(jì)算每個(gè)指標(biāo)在隨機(jī)森林中n分類樹上的平均貢獻(xiàn)來衡量該指標(biāo)的重要性評(píng)分,通??梢杂肎ini指數(shù)來評(píng)估指標(biāo)的貢獻(xiàn)大小。
3.2? 篩選的重要指標(biāo)
本文利用R語(yǔ)言編程實(shí)現(xiàn)隨機(jī)森林算法,根據(jù)重要性評(píng)分原理,獲取指標(biāo)變量的重要性評(píng)分。本文選取重要性評(píng)分>0.4的指標(biāo)變量作為地區(qū)工業(yè)企業(yè)創(chuàng)新能力評(píng)價(jià)的重要指標(biāo),如表3所示。
4? 因子分析
4.1? 標(biāo)準(zhǔn)化和相關(guān)性檢驗(yàn)
為了消除數(shù)量級(jí)和量綱差異的影響,先對(duì)篩選出的15個(gè)指標(biāo)進(jìn)行標(biāo)準(zhǔn)化處理,再運(yùn)用SPSS 25.0對(duì)標(biāo)準(zhǔn)化后的指標(biāo)進(jìn)行相關(guān)性檢驗(yàn)[12]。由表4,KMO值為0.816,且巴特利特球形度檢驗(yàn)的顯著性小于0.05,根據(jù)KMO檢驗(yàn)和巴特利特球形度檢驗(yàn)的判別標(biāo)準(zhǔn),各指標(biāo)之間的信息重疊度較高,適合進(jìn)行因子分析。
4.2? 因子提取
由表5,旋轉(zhuǎn)后的前三個(gè)成分的累計(jì)方差貢獻(xiàn)
5? 綜合分析與建議
5.1? 綜合分析
通過因子分析,本文提取了影響31個(gè)地區(qū)工業(yè)企業(yè)創(chuàng)新能力水平的重要因素。從因子綜合排名并結(jié)合聚類結(jié)果來看,各地區(qū)工業(yè)企業(yè)創(chuàng)新能力按從強(qiáng)到弱的層次排序?yàn)椋旱谝活惖貐^(qū)、第二類地區(qū)、第三類地區(qū)。各因子得分和綜合得分的分值相差大,可以看出地區(qū)間的工業(yè)企業(yè)創(chuàng)新能力的差異較大,同一層次的地區(qū)間工業(yè)企業(yè)創(chuàng)新能力的參差不齊,各地區(qū)在資金投入、人力投入和創(chuàng)新成果這三個(gè)方面的優(yōu)劣勢(shì)分明。
工業(yè)企業(yè)創(chuàng)新能力處于第一層次的北京、天津、上海的因子綜合得分位列前三。北京的工業(yè)企業(yè)資金投入力度大、人才資源多、研發(fā)能力強(qiáng)、產(chǎn)出的創(chuàng)新成果也是名列第一,故北京的工業(yè)企業(yè)創(chuàng)新能力的綜合實(shí)力最強(qiáng)。天津雖然在資金投入因子上的得分最高,對(duì)于新產(chǎn)品開發(fā)的投入資金多,但由于人才資源、科研環(huán)境、技術(shù)水平等不如北京,其創(chuàng)新成果的產(chǎn)出量相對(duì)較低。上海也非常重視研發(fā)資金的投入,但缺乏科研人員的技術(shù)能力轉(zhuǎn)化,導(dǎo)致創(chuàng)新產(chǎn)出成果也相對(duì)較少。
工業(yè)企業(yè)創(chuàng)新能力處于第二層次的地區(qū)綜合得分也相距甚遠(yuǎn)。如廣東、江蘇、海南等東部沿海地區(qū)排名較靠前。廣東、江蘇的工業(yè)企業(yè)在科研活動(dòng)中大力投入資金、引進(jìn)人才,資源的合理配置決定了其創(chuàng)新能力的巨大潛力。海南作為唯一的省級(jí)經(jīng)濟(jì)特區(qū),堅(jiān)持改革發(fā)展,勇于突破傳統(tǒng)經(jīng)濟(jì)體制束縛,在工業(yè)企業(yè)的科技創(chuàng)新產(chǎn)出上取得了驕人的成績(jī)。西部地區(qū)如陜西、重慶等老工業(yè)基地得益于黨中央的西部大開發(fā)政策、西部人才引進(jìn)和科研資金支持,率先進(jìn)行內(nèi)部改革,從而實(shí)現(xiàn)了自身的創(chuàng)新能力和科研水平的快速提升。而甘肅、寧夏由于自然環(huán)境惡劣、工業(yè)基礎(chǔ)薄弱、缺乏科研人才,此兩省區(qū)的工業(yè)企業(yè)創(chuàng)新能力綜合實(shí)力仍然低于全國(guó)平均水平。
工業(yè)企業(yè)創(chuàng)新能力處于第三層次的地區(qū)只有湖北和山東的綜合實(shí)力高于全國(guó)平均水平,但它們?cè)趧?chuàng)新成果上的得分非常低,科研投入和產(chǎn)出不成正比。遼寧、吉林等地區(qū)響應(yīng)國(guó)家振興東北老工業(yè)基地的口號(hào),在原有的工業(yè)基礎(chǔ)上實(shí)現(xiàn)了一定的企業(yè)技術(shù)改造和技術(shù)進(jìn)步。遼寧在的資金投入上得分較高,吉林的科研技術(shù)創(chuàng)新成果轉(zhuǎn)化率較高,但產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整還需時(shí)日,其創(chuàng)新能力還有待進(jìn)一步提升。西部偏遠(yuǎn)地區(qū)如云南、新疆、西藏,受到資源環(huán)境、科研條件、技術(shù)落后等原因的限制,工業(yè)企業(yè)基礎(chǔ)薄弱,導(dǎo)致創(chuàng)新能力也較弱。
5.2? 結(jié)論與建議
根據(jù)各地區(qū)工業(yè)企業(yè)在資金投入、人力投入和創(chuàng)新成果上的因子得分與全國(guó)平均水平的比較結(jié)果,我們得到如下結(jié)論:海南、寧夏兩省的工業(yè)企業(yè)在人力投入和創(chuàng)新成果上的得分高于全國(guó)平均水平,但仍需加大資金投入;上海、重慶兩市的工業(yè)企業(yè)在資金投入和創(chuàng)新成果上的得分位居全國(guó)前列,在人力投入方面卻稍顯不足,未來應(yīng)著眼于科研人才的引進(jìn)和培養(yǎng);廣東、山西、湖北和內(nèi)蒙古地區(qū)的工業(yè)企業(yè)在人力投入和資金投入方面都處于全國(guó)上游,但創(chuàng)新成果產(chǎn)出量較低,未來應(yīng)重視科研技術(shù)的轉(zhuǎn)化和新產(chǎn)品的研發(fā)。而河北、江西、廣西、云南和西藏地區(qū)的工業(yè)企業(yè)在資金投入、人力投入和創(chuàng)新成果上的得分均低于全國(guó)平均水平,因此增加科研資金、引進(jìn)科技人才、重視技術(shù)的改造和產(chǎn)品的創(chuàng)新,是未來地區(qū)工業(yè)企業(yè)創(chuàng)新能力的必要條件。
綜上,各地區(qū)工業(yè)企業(yè)應(yīng)該充分發(fā)揮優(yōu)勢(shì)彌補(bǔ)劣勢(shì),重視開展科技創(chuàng)新研究,加大科研經(jīng)費(fèi)投入,
加強(qiáng)科技創(chuàng)新人才培養(yǎng),促進(jìn)技術(shù)升級(jí)和創(chuàng)新成果轉(zhuǎn)化,從而提升創(chuàng)新能力和綜合實(shí)力,推進(jìn)地區(qū)? 工業(yè)產(chǎn)業(yè)結(jié)構(gòu)轉(zhuǎn)型升級(jí),帶動(dòng)區(qū)域經(jīng)濟(jì)持續(xù)健康? 發(fā)展。
參考文獻(xiàn)
[1] 國(guó)務(wù)院第三次全國(guó)經(jīng)濟(jì)普查領(lǐng)導(dǎo)小組辦公室. 中國(guó)經(jīng)濟(jì)普查年鑒2013[CD]. 中國(guó)統(tǒng)計(jì)出版社, 2015.
[2] 盧方元, 范云菲. 我國(guó)大中型工業(yè)企業(yè)自主創(chuàng)新能力的區(qū)域差異比較[J]. 科技進(jìn)步與對(duì)策, 2011, 28(16): 15-20.
[3] 桂黃寶. 我國(guó)大中型工業(yè)企業(yè)創(chuàng)新能力地區(qū)差距及變遷——基于1999—2010年面板數(shù)據(jù)的分析[J]. 財(cái)經(jīng)論叢, 2013, 174(5): 3-8.
[4] 齊秀輝, 武志勇. 創(chuàng)新驅(qū)動(dòng)視角下大中型工業(yè)企業(yè)創(chuàng)新能力動(dòng)態(tài)綜合評(píng)價(jià)[J]. 科技進(jìn)步與對(duì)策, 2015(21): 114-119.
[5] 谷煒, 杜秀亭, 衛(wèi)李蓉. 基于因子分析法的中國(guó)規(guī)模以上工業(yè)企業(yè)技術(shù)創(chuàng)新能力評(píng)價(jià)研究[J]. 科學(xué)管理研究, 2015(1): 84-87.
[6] 梁志兵. 區(qū)域規(guī)模以上工業(yè)企業(yè)創(chuàng)新能力評(píng)價(jià)——基于因子分析法[J]. 經(jīng)濟(jì)視角, 2015(9): 32-35.
[7] 蘇楊, 羅萬(wàn)有. 工業(yè)企業(yè)自主創(chuàng)新能力評(píng)價(jià)研究[J]. 江蘇科技信息, 2017(2): 23-26.
[8] 孫冰,吳勇. 地區(qū)自主創(chuàng)新能力評(píng)價(jià)指標(biāo)體系的構(gòu)建——以大中型工業(yè)企業(yè)為實(shí)例的研究[J]. 科技與經(jīng)濟(jì), 2006, (4): 17-19.
[9] 馬欽. 制造企業(yè)科技創(chuàng)新指數(shù)的構(gòu)建與運(yùn)用[J]. 產(chǎn)業(yè)與科技論壇, 2018(14): 80-82.
[10] 周志華. 機(jī)器學(xué)習(xí)[M]. 北京: 清華大學(xué)出版社, 2016. 197-204.
[11] Sebastian Raschka. Python Machine Learning[M]. Packt Publishing, 2015. 80-92.
[12] 張文彤, 董偉, SPSS 統(tǒng)計(jì)分析高級(jí)教程[M]. 北京: 高等教育出版, 2004: 195-199.