国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

縣域中小企業(yè)生命周期研究

2019-05-21 03:56:46姚健琪楊云波施建華陳曉平
三明學(xué)院學(xué)報(bào) 2019年2期
關(guān)鍵詞:決策樹類別閾值

姚健琪,楊云波,施建華,陳曉平

(1.福建師范大學(xué) 數(shù)學(xué)與信息學(xué)院,福建 福州350117;2.閩南師范大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,福建 漳州363000)

隨著改革開放的步伐,我國中小企業(yè)不斷地發(fā)展,已經(jīng)逐漸成為國民經(jīng)濟(jì)的重要組成部分。然而,中小企業(yè)在成長和發(fā)展過程中,也面臨著一系列發(fā)展問題,尤其是生存問題,日益成為社會、政府和學(xué)界關(guān)注的焦點(diǎn)。勞動力成本上升、出口貿(mào)易的同比增加幅度下滑等現(xiàn)象直接影響了我國中小企業(yè)健康發(fā)展。國內(nèi)外研究表明,中小企業(yè)死亡率高,生命周期普遍較短。Abdesselam 等(2004)發(fā)現(xiàn)歐洲中小企業(yè)能夠生存3年以上的僅占65%,其中能夠生存5 a 以上的僅占50%;美國中小企業(yè)能夠生存5 a 以上的僅占68%,能夠生存6~10 a 的約占19%,生存時(shí)間超過10 a 的僅占13%;法國中小企業(yè)50%以上的生存時(shí)間不超過5 a[1]。陳曉紅等(2009)對我國五個(gè)城市(鄭州、成都、長沙、廣州、深圳)的中小企業(yè)進(jìn)行統(tǒng)計(jì)研究分析,發(fā)現(xiàn)這些地區(qū)中小企業(yè)的平均生存時(shí)間為4.32 a,并且這些中小企業(yè)存活時(shí)間小于3年的占42.99%,存活時(shí)間為3~5 a 的僅占26.48%[2]。

國內(nèi)學(xué)者對中小企業(yè)生存及其影響因素進(jìn)行了大量的理論研究和實(shí)證分析。張靜等(2013)基于1999-2007年我國制造業(yè)企業(yè)微觀數(shù)據(jù),闡述了新建公司進(jìn)入與退出市場的現(xiàn)狀,進(jìn)而利用Cox 比例風(fēng)險(xiǎn)模型探討了對企業(yè)生存有顯著影響的因素[3];何平(2008)搜集并總結(jié)梳理了國內(nèi)外現(xiàn)有關(guān)于企業(yè)壽命研究的理論成果,提出了延長企業(yè)壽命的建議[4]。鄭建貞等(2014)利用生存分析模型對中國企業(yè)OFDI 持續(xù)時(shí)間數(shù)據(jù)進(jìn)行全樣本和分層研究,采用Kaplan-Meier 估計(jì)方法分析了中國企業(yè)子公司在海外領(lǐng)域的生存時(shí)間,應(yīng)用Cox 模型探討了對OFDI 生存時(shí)間存在顯著影響的相關(guān)變量[5]。國內(nèi)外對中小企業(yè)的研究中,大多數(shù)考慮中小企業(yè)發(fā)展受融資困難、稅收等經(jīng)濟(jì)、政策因素的影響,卻很少學(xué)者對中小企業(yè)的發(fā)展?fàn)顟B(tài)和生存狀況進(jìn)行研究,因此文中以縣域中小企業(yè)為樣本,運(yùn)用多種分類預(yù)測模型,有效地預(yù)測縣域中小企業(yè)的生存狀態(tài),最終選取了更有效的logistic 回歸模型。

以福建省羅源縣工商局1979-2017年登記注冊成立的中小企業(yè)為研究對象,定義企業(yè)注銷或者吊銷營業(yè)執(zhí)照的時(shí)間為死亡時(shí)間。截至2017年,1219 家企業(yè)注(吊)銷,即可知35.15%的企業(yè)真實(shí)生存時(shí)間;而2 249 家企業(yè)未注(吊)銷,無法得知這64.85%的企業(yè)真實(shí)生存時(shí)間,即出現(xiàn)了右刪失數(shù)據(jù),這種情況導(dǎo)致數(shù)據(jù)信息的缺失。由于其含有數(shù)據(jù)信息,故在對右刪失數(shù)據(jù)進(jìn)行分析時(shí)需要保留未死亡部分,不能直接刪除。文中研究的企業(yè)生存時(shí)間存在刪失觀測數(shù)據(jù)的情況,不能直接采用線性回歸的方法,故需建立Logistic 回歸模型、決策樹分類模型和K 近鄰分類模型來預(yù)測縣域中小企業(yè)的生存狀態(tài),并以誤判率和ROC 曲線作為評價(jià)標(biāo)準(zhǔn),將Logistic 回歸、決策樹和K 近鄰分類模型的預(yù)測效果進(jìn)行對比,得出Logistic 回歸模型可以更有效地預(yù)測縣域中小企業(yè)的生存狀況。

1 數(shù)據(jù)樣本及其處理

文中以羅源縣1979-2017年成立的中小企業(yè)作為樣本數(shù)據(jù)。企業(yè)樣本數(shù)據(jù)包含產(chǎn)業(yè)類別、企業(yè)類型、企業(yè)類別、注冊資本。將產(chǎn)業(yè)類別和企業(yè)類型進(jìn)一步劃分,將產(chǎn)業(yè)類別劃分為三大產(chǎn)業(yè)(第一產(chǎn)業(yè)、第二產(chǎn)業(yè)、第三產(chǎn)業(yè)),將企業(yè)類型劃分為五個(gè)類別(國有企業(yè)、股份合作制企業(yè)、集體所有制企業(yè)、有限責(zé)任公司、其他企業(yè))。以觀察期為界限,計(jì)算生存時(shí)間,為了更好地處理數(shù)據(jù)和建立模型,將注冊資本加1 之后取自然對數(shù)。由于抽取的樣本有些數(shù)據(jù)信息不全,故文中剔除了缺失數(shù)據(jù)。經(jīng)過預(yù)處理之后的樣本數(shù)據(jù)結(jié)構(gòu)見表1。

表1 變量及其類型

2 研究的理論與方法

2.1 logistic 回歸模型

邏輯回歸是在線性回歸的基礎(chǔ)上,套用了一個(gè)邏輯函數(shù)。設(shè)因變量Yi是一個(gè)二分類變量,取值為1 或0,在m 個(gè)自變量影響下發(fā)生Yi=1 的條件概率為pi,pi=P(Yi=1∣X1,X1,…,Xm),則Logistic 回歸模型[6]的基本結(jié)構(gòu)為:

其中β為系數(shù)向量,X=(1,X1,X1,…,Xm),β=(β0,β1,…,βp)T。

2.2 決策樹模型

決策樹模型是一種簡單易用的非參數(shù)分類器,是基于變量特征對實(shí)例進(jìn)行分類,結(jié)構(gòu)呈樹形,由結(jié)點(diǎn)和有向邊構(gòu)成。它不需要對數(shù)據(jù)進(jìn)行任何的先驗(yàn)假設(shè),計(jì)算速度較快,結(jié)果容易解釋,而且穩(wěn)健性強(qiáng)。基于ID3 算法和C4.5 算法,決策樹學(xué)習(xí)的主要環(huán)節(jié)是特征選擇、生成決策樹、減枝,對訓(xùn)練集樣本進(jìn)行學(xué)習(xí)時(shí),在損失函數(shù)最小的前提下,構(gòu)建決策樹模型,并在決策樹模型上對測試集數(shù)據(jù)進(jìn)行分類[7]。決策樹的一個(gè)重要概念是熵,熵表示隨機(jī)變量不確定性的度量,設(shè)X 為一個(gè)取有限個(gè)值的離散型隨機(jī)變量,概率分布為:

則X 的熵定義為:

熵越大,隨機(jī)變量的不確定性就越大。

條件熵H(Y|X)表示在已知隨機(jī)變量X 的條件下隨機(jī)變量Y 的不確定性。定義為X 給定條件下Y 的條件概率分布的熵對X 的數(shù)學(xué)期望

信息增益表示得知特征X 的信息而使得類Y 的信息不確定性減少的程度。特征A 對訓(xùn)練數(shù)據(jù)集D 的信息增益g(D,A),定義為集合D 的經(jīng)驗(yàn)熵H(D)與特征A 給定條件下的經(jīng)驗(yàn)條件熵H(D|A)之差,即

決策樹模型應(yīng)用信息增益準(zhǔn)則來選擇特征,通過圖解方式求解在不同條件下各類方案的信息增益,然后通過比較,做出決策。信息增益大的特征具有更強(qiáng)的分類能力。

2.3 K 近鄰分類模型

K 近鄰分類模型是一種目前在回歸、分類和模式識別等領(lǐng)域被廣泛使用的經(jīng)典非參數(shù)分類模型。

K 近鄰分類的基本思想是:給定數(shù)據(jù)庫樣本x,需要將它分類,從訓(xùn)練集中找出k 個(gè)與其最相近的樣本,然后看這k 個(gè)樣本中哪個(gè)類別的樣本多,則待判定的值就屬于這個(gè)類別。k 近鄰模型的3 個(gè)基本要素是距離度量、k 值的選擇、分類決策規(guī)則。k 近鄰分類模型的基本步驟是:①計(jì)算已知類別訓(xùn)練集樣本數(shù)據(jù)中每個(gè)點(diǎn)與當(dāng)前點(diǎn)的距離,一般采用歐氏距離。②根據(jù)計(jì)算出來的距離,選取與當(dāng)前點(diǎn)距離最小的k 個(gè)點(diǎn),采用這k 個(gè)訓(xùn)練數(shù)據(jù)樣本所屬的類別作為樣本x 的備選類別。③統(tǒng)計(jì)前k個(gè)點(diǎn)中每個(gè)類別的樣本出現(xiàn)的頻率, 返回前k 個(gè)點(diǎn)出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測分類。k近鄰分類的核心就是使用一種距離度量,獲得距離目標(biāo)點(diǎn)最近的k 個(gè)點(diǎn),根據(jù)分類決策規(guī)則,決定目標(biāo)點(diǎn)的分類[8]。

3 分類預(yù)測模型

3.1 Logistic回歸模型

3.1.1 變量篩選

若注冊資本(X1)、產(chǎn)業(yè)類別(X2)、企業(yè)類別(X3)、企業(yè)類型(X4)為4 維協(xié)變量,則logistic 回歸模型為:

利用AIC 最小準(zhǔn)則的逐步回歸法選擇協(xié)變量,其思想是在模型中一次剔除或加入一個(gè)協(xié)變量,選擇AIC 值最小的模型,重復(fù)上述操作,直到?jīng)]有協(xié)變量可以被剔除或加入為止,這樣得到的最終模型為最優(yōu)模型[9]。利用AIC 最小準(zhǔn)則對上述4 個(gè)協(xié)變量進(jìn)行選擇,發(fā)現(xiàn)全模型AIC 值最小,故全模型為最優(yōu)模型。則經(jīng)過變量篩選后的logistic 回歸模型為:

3.1.2 Logistic 回歸模型的建立

根據(jù)變量篩選得到的4 維協(xié)變量,由于產(chǎn)業(yè)類別(X2)、企業(yè)類別(X3)、企業(yè)類型(X4)是定性變量,故引入2 個(gè)0~1 型自變量X21、X22,反映產(chǎn)業(yè)類別的3 個(gè)水平;引入2 個(gè)0~1 型自變量X31、X32,反映企業(yè)類別的3 個(gè)水平;引入4 個(gè)0~1 型自變量X41、X42、X43、X44,反映企業(yè)類型的5 個(gè)水平。在全部樣本中抽取75%的樣本數(shù)據(jù)作為訓(xùn)練集,25%的樣本數(shù)據(jù)作為測試集, 利用訓(xùn)練集對4 維協(xié)變量建立logistic 回歸模型,參數(shù)β 的估計(jì)值如表2所示。將的估計(jì)值代入上述模型中,結(jié)果如下所示:

其中X1為注冊資本 (對數(shù)),

表2 協(xié)變量系數(shù)及顯著性

上述模型結(jié)果顯示殘差為2 400.5, AIC 值為2 420.5,散布參數(shù)的估計(jì)為1,說明模型未發(fā)生過散布現(xiàn)象。

3.2 決策樹分類模型

3.2.1 決策樹模型的建立

在全部樣本中抽取75%的樣本數(shù)據(jù)作為訓(xùn)練集,25%的樣本數(shù)據(jù)作為測試集, 利用訓(xùn)練集樣本數(shù)據(jù)建立決策樹分類模型,再用測試集樣本數(shù)據(jù)對該模型進(jìn)行預(yù)測,畫出決策樹模型圖如圖1所示。

圖1 決策樹模型圖

3.2.2 模型規(guī)則提取

利用R 語言提取決策樹模型規(guī)則,最終提取的規(guī)則包含如下6 個(gè)。

規(guī)則1:當(dāng)注冊資本小于98.5 萬元,且企業(yè)類別為內(nèi)資時(shí),判定公司為死亡。

規(guī)則2:當(dāng)注冊資本小于98.5 萬元,企業(yè)類別為農(nóng)?;蛩綘I,產(chǎn)業(yè)類別為第二產(chǎn)業(yè),且企業(yè)類型為其他企業(yè)時(shí),判定公司為死亡。

規(guī)則3:當(dāng)注冊資本大于等于98.5 萬元,且企業(yè)類型為股份合作制企業(yè)、國有企業(yè)或集體所有制企業(yè)時(shí),判定公司為死亡。

規(guī)則4:當(dāng)注冊資本小于98.5 萬元,企業(yè)類別為農(nóng)?;蛩綘I,產(chǎn)業(yè)類別為第二產(chǎn)業(yè),且企業(yè)類型為有限責(zé)任公司時(shí),判定公司為未發(fā)生死亡。

規(guī)則5:當(dāng)注冊資本小于98.5 萬元,企業(yè)類別為農(nóng)?;蛩綘I,且產(chǎn)業(yè)類別為第一產(chǎn)業(yè)或第三產(chǎn)業(yè),判定公司為未發(fā)生死亡。

規(guī)則6:當(dāng)注冊資本大于等于98.5 萬元,且企業(yè)類型為有限責(zé)任公司或其他企業(yè),判定公司為未發(fā)生死亡。

3.2.3 變量重要性

如圖2所示,在決策樹模型的4 個(gè)變量中,最重要的變量是注冊資本,其次是企業(yè)類型,然后是企業(yè)類別,最后是產(chǎn)業(yè)類別。

3.3 K 近鄰分類模型

在全部樣本中抽取75%的樣本數(shù)據(jù)作為訓(xùn)練集,25%的樣本數(shù)據(jù)作為測試集。K 近鄰分類3 個(gè)重要的 過程是k 值的選取、距離的度量方式和分類決策辦法[10]。

圖2 決策樹模型的變量重要性圖

3.3.1 k 值的選取

利用R 語言建立k 近鄰分類算法, 并找出使得測試集誤判率最小的k 值,圖3是k 值為1到100 時(shí)對應(yīng)的誤判率之間的散點(diǎn)圖。

由圖3可以看出,當(dāng)k 值取23 時(shí),誤判率最低,預(yù)測分類效果最好,故23 是最佳k 值。

3.3.2 距離的度量

一般情況下,樣本之間的近鄰距離是依據(jù)歐式距離決定的,故文中采用的距離度量方式是歐氏距離。假設(shè)數(shù)據(jù)集中第i 個(gè)樣本的特征向量,其中xij表示第i 個(gè)樣本中第j 個(gè)特征的取值。此時(shí)任意兩個(gè)樣本xj和xk之間的歐式距離定義為d(xj,xk),公式為:

圖3 不同k 值的分類效果散點(diǎn)圖

3.3.3 分類決策規(guī)則

k 近鄰分類最常采用的分類決策的辦法是多數(shù)表決,故文中也采用多數(shù)表決的方法確定待分類樣本的類別,即哪個(gè)類別的樣本數(shù)目最多,就把樣本x 的類別歸于哪一類。

4 模型對比

利用測試集的樣本,以誤判率和ROC 曲線作為評價(jià)標(biāo)準(zhǔn),將logistic 回歸、決策樹和K 近鄰分類模型的預(yù)測效果進(jìn)行對比。

4.1 模型評價(jià)標(biāo)準(zhǔn)

4.1.1 誤判率

對一般分類模型而言,如果因變量有C 種類別,當(dāng)C>1 時(shí),可以通過繪制C*C 錯(cuò)誤分類表來評價(jià)模型的預(yù)測效果及準(zhǔn)確性。若pij表示把第i 種類別誤判為第j 種類別的個(gè)數(shù),則

4.1.2 ROC 曲線

ROC 曲線是依據(jù)大小不等的閾值,以靈敏度為縱坐標(biāo)、1-特異性為橫坐標(biāo)描述分類模型預(yù)測效果的曲線。由訓(xùn)練集樣本建立的模型,給定一個(gè)閾值,則可以判斷公司是否發(fā)生死亡,判斷的情況有以下4 種情況:

(1)公司預(yù)測結(jié)果為未發(fā)生死亡,觀測值也是未發(fā)生死亡,這種情況為真陰性,用TN 表示;

(2)公司預(yù)測結(jié)果為未發(fā)生死亡,觀測值為死亡,這種情況為假陰性,用FN 表示;

(3)公司預(yù)測結(jié)果為死亡,觀測值也是死亡,這種情況為真陽性,用TP 表示;

(4)公司預(yù)測結(jié)果為死亡,觀測值是未發(fā)生死亡,這種情況為假陽性,用FP 表示。

ROC 曲線縱坐標(biāo)為靈敏度,也叫真陽性率,sensitivity=TP/(TP+FN),表示給定閾值時(shí)正確預(yù)測為死亡的公司個(gè)數(shù)占真正發(fā)生死亡的公司個(gè)數(shù)的比例。特異性表示給定閾值時(shí)正確預(yù)測為未發(fā)生死亡的公司數(shù)占真正未發(fā)生死亡的公司個(gè)數(shù)的比例,ROC 曲線橫坐標(biāo)為1-特異性,也叫假陽性率,1-specificity=FP/(FP+TN), 表示給定閾值時(shí)將未發(fā)生死亡錯(cuò)誤預(yù)測為發(fā)生死亡的公司數(shù)占真正未發(fā)生死亡的公司個(gè)數(shù)的比例。ROC 曲線描述的是當(dāng)閾值從0 到1 變動時(shí)靈敏度和(1-特異性)之間的關(guān)系。AUC 是ROC 曲線下整個(gè)區(qū)域面積的比重,AUC 常用來評估模型的性能好壞,AUC 的值越大,說明模型越有效,有效的模型在ROC 曲線下方有更大的面積[11],相應(yīng)的AUC 的值也越接于1。

4.2 模型測試

運(yùn)用上文兩種評價(jià)標(biāo)準(zhǔn)比較Logistic 回歸模型、決策樹模型和K 近鄰分類模型這三種模型的性能。在全部樣本中抽取75%的數(shù)據(jù)作為訓(xùn)練集, 25%的數(shù)據(jù)作為測試集,用測試集樣本數(shù)據(jù)對利用訓(xùn)練集建立的模型進(jìn)行測試,這樣得出的結(jié)論更有說服力。

4.2.1 Logistic 回歸模型測試

通過訓(xùn)練集建立Logistic 回歸模型,用測試集進(jìn)行測試,對于每一個(gè)測試樣本(比如),利用建立好的模型預(yù)測出來的是pi,并不是第i 個(gè)樣本的預(yù)測水平(“0”或者“1”,“no”或者“yes”,等),此時(shí)需要取一個(gè)閾值pt,當(dāng)pi>pt時(shí),這個(gè)測試樣本被判定為某一水平;否則被歸為另一個(gè)水平。

當(dāng)閾值為0.5 時(shí),可以得到其錯(cuò)誤分類表(如表3所示),這說明有76 個(gè)樣本原來是水平“0”被誤判為水平“1”,有98 個(gè)樣本原來是水平“1”被誤判為水平“0”,正確分類的樣本是表中對角線上的樣本,此時(shí)誤判率為0.200692。

顯然,用閾值為0.5 不一定合適,應(yīng)利用R 語言繼續(xù)找出使得測試集誤判率最小的閾值,圖4是閾值為0.01 到0.99 時(shí)對應(yīng)的誤判率之間的散點(diǎn)圖。

表3 Logistic 回歸的錯(cuò)誤分類表

圖4 不同閾值的分類效果散點(diǎn)圖

由圖4可知,選擇閾值等于0.71,可使得logistic 模型的誤判率最小,表4為logistic 回歸模型的錯(cuò)誤分類表,這說明有41 個(gè)樣本原來是水平“0”被誤判為水平“1”,有117 個(gè)樣本原來是水平“1”被誤判為水平“0”,正確分類的樣本是表中對角線上的樣本,此時(shí)得到誤判率為0.1822,閾值為0.71 的效果比閾值為0.5 要好一些。

logistic 回歸模型預(yù)測的ROC 曲線如圖5所示,ROC 曲線下方的面積占整個(gè)區(qū)域面積的0.8257,所以其AUC 為0.8257,說明logistic 回歸模型有很好的預(yù)測效果。

4.2.2 決策樹模型測試

利用訓(xùn)練集樣本建立決策樹模型,用測試集樣本進(jìn)行測試,表5為決策樹模型的錯(cuò)誤分類表,這說明有53 個(gè)樣本原來是水平“0”被誤判為水平“1”,有113 個(gè)樣本原來是水平“1”被誤判為水平“0”,正確分類的樣本是表中對角線上的樣本,此時(shí)可以得到誤判率為0.1915。

決策樹模型預(yù)測的ROC 曲線如圖6所示,ROC 曲線下方的面積占整個(gè)區(qū)域面積的0.7574,所以其AUC 為0.7574,從誤判率和AUC 來看,無論是分類的判別還是敏感度,決策樹模型都不如logistic回歸。

表4 Logistic 回歸的錯(cuò)誤分類表

表5 決策樹的錯(cuò)誤分類表

圖5 logistic 回歸測試樣本的ROC 曲線

圖6 決策樹模型測試樣本的ROC 曲線

4.2.3 k 近鄰分類測試

由上文可知,選擇k 值等于23,可使得k 近鄰的誤判率最小,表6為k 近鄰模型的錯(cuò)誤分類表,這說明有56 個(gè)樣本原來是水平“0”被誤判為水平“1”,有104 個(gè)樣本原來是水平“1”被誤判為水平“0”,正確分類的樣本是表中對角線上的樣本,此時(shí)得到誤判率為0.1845。

k 近鄰分類模型預(yù)測的ROC 曲線如圖7所示,ROC 曲線下方的面積占整個(gè)區(qū)域面積的0.7705,所以其AUC 為0.7705,說明k 近鄰分類模型有不錯(cuò)的預(yù)測效果。

表6 k 近鄰的錯(cuò)誤分類表

圖7 k 近鄰分類模型測試樣本的ROC 曲線

4.3 模型比較

介紹二個(gè)常用的評價(jià)模型性能的標(biāo)準(zhǔn), 即誤判率和ROC 曲線。用訓(xùn)練集樣本分別建立了Logistic 回歸模型、決策樹模型和k 近鄰分類模型,并計(jì)算了各個(gè)模型的誤判率和AUC 值,表7是這3種分類模型預(yù)測效果匯總表。從誤判率來看,決策樹模型的誤判率最大,k 近鄰分類模型的誤判率次之,Logistic 回歸模型誤判率最小;從AUC 來看,logistic 回歸模型的AUC 值最大,k 近鄰分類模型的AUC 值次之,決策樹模型的AUC 值最小。從誤判率和ROC 曲線兩個(gè)常用的評價(jià)模型性能的標(biāo)準(zhǔn)來看,基于Logistic 回歸的分類預(yù)測模型誤判率最低,AUC 值最大,預(yù)測正確率最高,說明基于Logistic回歸的分類預(yù)測模型可以有效地預(yù)測企業(yè)發(fā)生死亡情況。同時(shí),3 個(gè)模型的AUC 值均大于0.5,由此說明三者都可以預(yù)測企業(yè)發(fā)生死亡情況。

表7 3 種分類模型預(yù)測效果匯總表

5 結(jié)論與政策建議

以羅源縣中小企業(yè)為樣本,利用所抽取的訓(xùn)練集樣本分別建立logistic 回歸模型、決策樹分類模型和k 近鄰分類模型來分析對中小企業(yè)生存周期有影響的因素, 并以誤判率和ROC 曲線作為模型性能的評價(jià)標(biāo)準(zhǔn),將Logistic 回歸、決策樹和K 近鄰分類模型的預(yù)測效果進(jìn)行對比。主要結(jié)論有:①注冊資本、產(chǎn)業(yè)類別、企業(yè)類別和企業(yè)類型對企業(yè)的生存周期存在顯著影響且在不同時(shí)間段內(nèi)生存概率存在顯著差異。②企業(yè)注冊資本越高,企業(yè)生存時(shí)間越長;第三產(chǎn)業(yè)的企業(yè)生存時(shí)間更長;國有企業(yè)比其他四種企業(yè)生存時(shí)間更長;農(nóng)專的生存概率最高,內(nèi)資企業(yè)的生存概率最低。③在這三個(gè)模型中,基于logistic 回歸的分類預(yù)測模型誤判率最低,AUC 值最大,預(yù)測正確率最高,說明基于logistic 回歸的分類預(yù)測模型可以更有效地預(yù)測企業(yè)的生存狀況。

據(jù)此,提出以下政策建議:①中小企業(yè)的發(fā)展速度逐漸緩慢,效益逐漸降低,虧損、破產(chǎn)逐漸增多,相關(guān)部門和中小企業(yè)應(yīng)積極合作,構(gòu)建政府、金融機(jī)構(gòu)和中小企業(yè)的合作平臺,積極推行創(chuàng)新金融模式,可以極大地推動中小企業(yè)的發(fā)展和技術(shù)進(jìn)步。②注冊資本更低,企業(yè)生存時(shí)間更短,政府應(yīng)采取積極的稅收政策和貨幣政策支持其度過難關(guān),解決中小企業(yè)融資難的問題,提高中小企業(yè)生命周期,降低中小企業(yè)死亡率。③民營企業(yè)對當(dāng)?shù)刎?cái)稅收入有很大的貢獻(xiàn),卻比國有企業(yè)生存時(shí)間更短,地方政府應(yīng)積極制定更多優(yōu)惠政策,發(fā)展民營企業(yè),實(shí)現(xiàn)民營企業(yè)與國有企業(yè)共同健康發(fā)展。

猜你喜歡
決策樹類別閾值
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
小波閾值去噪在深小孔鉆削聲發(fā)射信號處理中的應(yīng)用
基于自適應(yīng)閾值和連通域的隧道裂縫提取
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
比值遙感蝕變信息提取及閾值確定(插圖)
河北遙感(2017年2期)2017-08-07 14:49:00
室內(nèi)表面平均氡析出率閾值探討
基于決策樹的出租車乘客出行目的識別
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
南投市| 龙岩市| 临朐县| 泸西县| 连州市| 南皮县| 延安市| 西畴县| 昌图县| 绿春县| 拜泉县| 金堂县| 宁波市| 正宁县| 乐清市| 大邑县| 洛扎县| 香港 | 巢湖市| 普安县| 安塞县| 华宁县| 犍为县| 登封市| 汝城县| 获嘉县| 镇坪县| 乐平市| 香河县| 黄冈市| 门源| 桐梓县| 扬中市| 波密县| 邯郸市| 额尔古纳市| 昂仁县| 威远县| 邵阳县| 雅江县| 盈江县|