王云麗,韓珍珍,楊文煥,成 彬
(河北省科學(xué)院應(yīng)用數(shù)學(xué)研究所,河北省信息安全認證技術(shù)創(chuàng)新中心,河北 石家莊 050081)
高新技術(shù)企業(yè)作為經(jīng)濟新常態(tài)下最重要的創(chuàng)新驅(qū)動主體,一直受到政府的重點扶持。我國高新技術(shù)企業(yè)資格認定工作從20世紀(jì)90年代初開始,經(jīng)認定的高新技術(shù)企業(yè),資格有效期為三年,在資格有效期內(nèi)可享受企業(yè)稅收優(yōu)惠及政府的多項政策優(yōu)惠。認定政策對處于成長期企業(yè)的實質(zhì)性創(chuàng)新有更強的額外激勵效應(yīng),國家的研發(fā)激勵和稅收激勵政策都能顯著促進企業(yè)自主創(chuàng)新。相關(guān)數(shù)據(jù)顯示,截止到2020年底,全國有效期內(nèi)高新技術(shù)企業(yè)有27.8萬家。隨著企業(yè)認定數(shù)量的增長,國家監(jiān)管趨于嚴(yán)格,科技、財政和稅務(wù)等部門每年都對其進行日常檢查和重點抽查,被取消資格的企業(yè)數(shù)量不斷增加。截止到2021年10月12日,因不符合相關(guān)政策要求而被取消資格的企業(yè)共588家。被取消資格后,稅務(wù)機關(guān)會要求企業(yè)補繳自認定年度起享受的稅收優(yōu)惠,相關(guān)部門也會對財政獎勵資金進行追繳[1],可見高新技術(shù)企業(yè)資格對本企業(yè)聲譽、核心競爭力和業(yè)績等有重要作用。因此,對高新技術(shù)企業(yè)資格維護的研究對其未來發(fā)展具有重要指導(dǎo)意義。
目前,我國學(xué)者在高新技術(shù)企業(yè)資格預(yù)警模型研究方面有較多研究,王統(tǒng)一從審計角度闡述加強高新技術(shù)企業(yè)資格的維護與風(fēng)險防范的措施[2];趙平從稅收角度闡述高新技術(shù)企業(yè)資格保持的關(guān)鍵點[3];胡意等構(gòu)建了高新技術(shù)企業(yè)運行發(fā)展預(yù)警模型,對湛江市部分高新技術(shù)企業(yè)未來的運行發(fā)展進行預(yù)測[4],但應(yīng)用邏輯回歸預(yù)警模型的很少。基于前人的理論研究與實證分析,本文參考高新技術(shù)企業(yè)認定的指標(biāo)體系要求,以河北省高新技術(shù)企業(yè)為例,采集與高新技術(shù)企業(yè)經(jīng)營發(fā)展相關(guān)公開數(shù)據(jù),構(gòu)建邏輯回歸預(yù)警模型,預(yù)測企業(yè)在資格維護管理方面的潛在風(fēng)險,提醒企業(yè)對風(fēng)險項指標(biāo)采取措施,防患于未然,并在提升高新技術(shù)企業(yè)自身資質(zhì)管理方面進行探索。
邏輯回歸(Logistic Regression)是一種名為“回歸”的線性分類器,其本質(zhì)是由線性回歸變化而來,常用于二分類,是各類風(fēng)險預(yù)警的常用模型,具備以下優(yōu)點:
(1)邏輯回歸返回的分類結(jié)果不是固定的0,1,而是以小數(shù)形式呈現(xiàn)的類概率數(shù)字。在制作評分卡時,不僅可以返回高新技術(shù)企業(yè)是否會被取消資格的判斷,還能夠給出確定的“資格維護分數(shù)”。
(2)邏輯回歸在線性數(shù)據(jù)的擬合和計算速度上非??欤⑶以谛?shù)據(jù)集上表現(xiàn)較好。由此可見,邏輯回歸在實際問題的解決上具有一定的優(yōu)勢[5]。
線性回歸是機器學(xué)習(xí)中最簡單的回歸算法,其方程為:
z=θ0+θ1x1+θ2x2+...+θnxn=θTX
(1)
式中θ為參數(shù)向量,X為特征向量。
引入sigmoid函數(shù),即:
(2)
當(dāng)自變量z取值大于0時,因變量g(z)取值大于0.5,自變量z趨近正無窮時,因變量g(z)趨近于1,表明該高新技術(shù)企業(yè)資格維護風(fēng)險較大;而當(dāng)z取值小于0時,g(z)取值小于0.5,z趨近負無窮時,g(z)趨近于0,表明該企業(yè)資格維護風(fēng)險較小[6],所以它能夠?qū)⑷魏螌崝?shù)映射到(0,1)區(qū)間,使其可用于將任意值函數(shù)轉(zhuǎn)換為更適合二分類的函數(shù)。
因此,邏輯回歸模型通常表示為:
(3)
邏輯回歸的損失函數(shù)由極大似然估計推導(dǎo)出來:
(4)
其中,θ表示求解出來的一組參數(shù),m為樣本個數(shù),xi是樣本i各個特征的取值,yi為樣本i上真實的標(biāo)簽,yθ(xi)是樣本i上的基于參數(shù)θ計算出來的返回值。
模型追求的是能夠最小化損失函數(shù)的參數(shù)組合,即求解最小值。追求最小損失函數(shù)以使模型在訓(xùn)練集上表現(xiàn)最佳,但是在測試集上可能會導(dǎo)致模型過擬合,需要在模型的損失函數(shù)中加上一個正則化項,有時也稱為“懲罰項”,來緩解模型過擬合傾向。
正則化常用的有L1和L2兩種選項,分別通過在損失函數(shù)后加上參數(shù)向量θ的L1范式和L2范式的倍數(shù)來實現(xiàn)[7]:
(5)
(6)
其中J(θ)是損失函數(shù),C是用來控制正則化程度的超參數(shù),n是方程中特征的總數(shù),j代表每個參數(shù)。
雖然L1正則化和L2正則化都可以控制過擬合,但它們的效果并不相同。當(dāng)正則化強度逐漸增大(即C逐漸變小)時,參數(shù)θ的值將逐漸變小,但L1正則化會將參數(shù)壓縮為0,L2正則化只會使參數(shù)盡可能小,而不是0。L1正則化會使得某些系數(shù)不斷地向0收縮,當(dāng)C值變化時,某些系數(shù)會被壓縮為0,達到解的稀疏性,從而實現(xiàn)變量選擇的目的。
為了辨別基于邏輯回歸的高新技術(shù)企業(yè)資格維護風(fēng)險預(yù)警模型的分類效果,使用準(zhǔn)確率和ROC曲線作為評估指標(biāo)。根據(jù)樣本真實的類別和模型預(yù)測的類別組合形成4類,分別為真正TP例、假正FP例、真反TN例、假反FN例。很明顯,將這4類所包含的樣本相加就是完整的數(shù)據(jù)集,分類結(jié)果的混淆矩陣如表1。
表1 混淆矩陣
準(zhǔn)確率:正確分類的樣本占總樣本的比率,即正確分類的概率,是判斷分類模型分類效果最直觀的評價指標(biāo),計算公式為:
(7)
ROC曲線是受試者工作特征曲線(Receive Operating characteristic Curve),以真陽率(TPR=TP/(TP+FN))為縱坐標(biāo),假陽率(FPR=FP/FP+TN)為橫坐標(biāo)的感受性曲線。ROC曲線下方與坐標(biāo)軸圍成的面積為AUC(Area Under ROC Curve),AUC值越大說明分類器性能越好。
高新技術(shù)企業(yè)資質(zhì)維護預(yù)警模型基本流程分為5個步驟:數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、分箱、模型構(gòu)建調(diào)優(yōu)及制作評分卡。
從“科技部火炬中心”網(wǎng)站獲取河北高新技術(shù)企業(yè)的名錄(2018年—2020年)共有9425家,根據(jù)企業(yè)名錄,采集互聯(lián)網(wǎng)上的公開數(shù)據(jù),獲取企業(yè)基本信息、經(jīng)營狀況、經(jīng)營風(fēng)險、知識產(chǎn)權(quán)以及招投標(biāo)信息等85個特征指標(biāo)[8]。
根據(jù)最近的河北省高新技術(shù)企業(yè)取消資格的公告文件,構(gòu)造“被取消資格證書又重新獲取”特征指標(biāo),并把該特征變量作為高新技術(shù)企業(yè)資格維護風(fēng)險預(yù)警模型的標(biāo)簽。
高新技術(shù)企業(yè)證書編號為GR201813000828的企業(yè),未能獲取其相關(guān)數(shù)據(jù),舍棄。
2.2.1 招投標(biāo)數(shù)據(jù)的去重處理
以企業(yè)名稱作為關(guān)鍵詞進行檢索,招投標(biāo)項目信息出現(xiàn)了大量的重復(fù)數(shù)據(jù)(不同網(wǎng)站公告同一項目信息),這些重復(fù)的數(shù)據(jù)需要去重處理。共采集了455,485條(2018/1/1—2021/8/1)招投標(biāo)信息,涉及5505家高新技術(shù)企業(yè),經(jīng)過數(shù)據(jù)處理構(gòu)造特征變量:“招投標(biāo)總數(shù)量”、“中標(biāo)總額”和“中標(biāo)項目數(shù)量”。
2.2.2 樣本不平衡的處理
2018年—2021年間,被取消資格后再次獲取高新技術(shù)企業(yè)資格的企業(yè)河北省共有9家,樣本個數(shù)為9424,其中標(biāo)簽為1占0.0955%,標(biāo)簽為0占99.9045%,可以看出,樣本嚴(yán)重不均衡。對于風(fēng)險預(yù)警模型來說,真正想要被判別出來的是資格被取消過的高新技術(shù)企業(yè),而這部分企業(yè)非常少,樣本就不平衡。邏輯回歸模型一般采用上采樣(增加少數(shù)類的樣本)的方法來實現(xiàn)樣本平衡。不平衡處理后:標(biāo)簽為1占49.81%,標(biāo)簽為0占50.19%。
2.2.3 訓(xùn)練集和測試集
樣本平衡后的數(shù)據(jù),劃分為70%訓(xùn)練集和30%測試集。
2.3.1 特征選擇_嵌入法
圖1 L1和L2范式模型準(zhǔn)確率對比圖
為盡量保留原數(shù)據(jù)上的信息,讓模型在降維后的數(shù)據(jù)上的擬合效果保持優(yōu)秀,因此不考慮訓(xùn)練集測試集的問題,把所有的數(shù)據(jù)都放入模型進行降維。風(fēng)險預(yù)警模型的核心目的是通過求解參數(shù)來探究特征與標(biāo)簽之間的關(guān)系,所以要盡可能地保留特征的原貌,而PCA(Principal Component Analysis)和SVD(Singular Value Decomposition)的降維結(jié)果是不可解釋的,因此,本文采用嵌入法以特征選擇的方式進行降維。
首先通過描述性統(tǒng)計對數(shù)據(jù)進行整體探索,結(jié)果如表2所示。通過描述性統(tǒng)計結(jié)果看,特征變量比較稀疏。
使用嵌入法進行特征選擇。使用L1正則化進行特征選擇的結(jié)果如表2,而使用L2正則化項降維,模型效果較差,圖1是L1和L2正則化效果對比。
2.3.2 特征篩選_IV值
制作評分卡,就是對每個特征變量進行“分箱”。分箱的本質(zhì)是對連續(xù)變量進行離散化,以便將具有不同屬性的企業(yè)劃分為不同的類別(打上不同的分數(shù))。
表2 特征變量(部分)描述性統(tǒng)計及嵌入法篩選
分箱一般以3-5個為最佳。連續(xù)變量的離散化必然伴隨著信息的丟失,而箱子越少,信息的損失越大。為了衡量特征的信息量以及特征對預(yù)測函數(shù)的貢獻,定義了IV概念:
其中N是某個特征上箱子的個數(shù),i代表每個箱子,good%是這個箱內(nèi)的好樣本(標(biāo)簽為0)占整個特征中所有好樣本的比例,bad%是這個箱子里的壞樣本(標(biāo)簽為1,被取消過資格的企業(yè))占整個特征中所有壞樣本的比例,而WOEi寫作為:
WOE本質(zhì)就是好樣本比上壞樣本的比例的對數(shù),對一個箱子來說值越大,代表這個箱子里的好樣本越多[7,9]。
2.3.3 卡方檢驗、合并箱體,畫IV曲線
等頻分箱,每個特征分別劃分為20箱,統(tǒng)計每個箱子中0和1的數(shù)量,確保每箱必須包含兩類樣本。對相鄰的箱子進行卡方檢驗,合并卡方檢驗p值大的箱子,直到箱數(shù)小于設(shè)置的值為止,畫出IV曲線。
2.3.4 最佳分箱、WOE值趨勢單調(diào)
觀察IV值在不同箱數(shù)下的曲線變化,找出最合適的箱數(shù)。IV值下降比較迅速的轉(zhuǎn)折點對應(yīng)的箱子,為最佳分箱個數(shù)。無法等頻分箱的特征變量,如“企業(yè)年報”,通過觀察然后手工分箱。從嵌入法降維后的24個特征里面選擇IV值大于0.05且WOE趨勢單調(diào)的11個特征,用來輸入模型,見表3。
表3 特征選擇_IV值大小、WOE趨勢及最佳分箱個數(shù)
“變更記錄次數(shù)”、“分支機構(gòu)數(shù)量”、“建筑資質(zhì)數(shù)量”、“新聞輿情條數(shù)”、“稅務(wù)評級次數(shù)”、“資質(zhì)證書數(shù)量”、“招投標(biāo)總數(shù)量”、“中標(biāo)項目數(shù)量”等8個特征變量的WOE趨勢單調(diào)。而“招聘信息發(fā)布次數(shù)”和“軟件著作權(quán)數(shù)量”的IV值曲線見圖2和圖3,WOE趨勢單調(diào)或只有一個轉(zhuǎn)折點。
圖2 “招聘信息”IV曲線
圖3 “軟件著作權(quán)”IV曲線
計算每個箱的WOE,將其替換到原始數(shù)據(jù)中,使用WOE數(shù)據(jù)進行建模。使用C值和迭代次數(shù)(梯度下降法)進行調(diào)參,C取0.4,迭代次數(shù)為20,調(diào)優(yōu)后模型的準(zhǔn)確率:78.33%,ROC曲線:0.89,見圖4-圖6。
圖4 C值學(xué)習(xí)曲線圖
圖5 迭代次數(shù)學(xué)習(xí)曲線圖
圖6 ROC曲線
評分卡中的分數(shù),借鑒金融行業(yè)的信用風(fēng)險評估計算公式:
Score=A-B*log(odds)
其中A與B是常數(shù),A叫做“補償”,B叫做“刻度”,log(odds)代表了一個企業(yè)被取消資質(zhì)又獲取的風(fēng)險值。需要設(shè)定兩個假定:一是某個特定比率的預(yù)期分值,二是指定概率翻倍的分數(shù)(PDO)[7,10]?;A(chǔ)得分和特征變量的各分檔的結(jié)果見表4。
由表4可以得出,企業(yè)基本信息、經(jīng)營狀況和知識產(chǎn)權(quán)這三個方面的11個特征數(shù)據(jù),基本上覆蓋了高新技術(shù)企業(yè)認定需滿足的主要指標(biāo)。
本文基于邏輯回歸算法提出高新技術(shù)企業(yè)資質(zhì)維護風(fēng)險預(yù)警的特征篩選模型。為保留原數(shù)據(jù)上的信息,使用嵌入法進行特征選擇,鑒于數(shù)據(jù)的稀疏性,采用L1正則化范式。進一步使用IV值和WOE趨勢進行特征篩選,最終保留了11個特征變量輸入模型,ROC曲線結(jié)果表明模型有較高的預(yù)測價值。但是,本文的數(shù)據(jù)采集僅限于互聯(lián)網(wǎng)上的公開數(shù)據(jù),受到數(shù)據(jù)公開程度的限制,那些對企業(yè)資格保持影響較大的因素,如企業(yè)財務(wù)情況等核心數(shù)據(jù)是無法獲取的,所以,本模型的應(yīng)用有一定的局限性。
表4 高新技術(shù)企業(yè)資格維護風(fēng)險預(yù)警評分卡模型
高新技術(shù)企業(yè)的競爭壓力越來越大,自身所面臨的風(fēng)險相對較高,在運營過程中一定要重視資格管理,關(guān)注財務(wù)規(guī)范管理(稅務(wù)評級),特別是企業(yè)年報、資質(zhì)證書、招投標(biāo)和知識產(chǎn)權(quán)等方面的情況變化,加強內(nèi)控,及時補齊短板,避免因為某項指標(biāo)不達標(biāo)而失去資格,從而保持高新技術(shù)企業(yè)資格的穩(wěn)定性和連續(xù)性。