李 寧,尉 昊
(蘭州財(cái)經(jīng)大學(xué) 會(huì)計(jì)學(xué)院,甘肅 蘭州,730020)
資本市場(chǎng)中上市公司股價(jià)崩盤現(xiàn)象頻發(fā),如美國(guó)1929 年發(fā)生的股市大崩盤、日本1989 年股市的泡沫宣告破裂,國(guó)內(nèi)昔日“股王”安碩信息、2016 年萬(wàn)科股份公司的股價(jià)崩盤以及2020 年瑞幸咖啡股價(jià)暴跌等事件讓投資者至今談之色變,因此股價(jià)崩盤相關(guān)研究一直以來(lái)受到業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。股價(jià)崩盤一方面損害投資者的利益,危害金融市場(chǎng)的正常運(yùn)行,引發(fā)金融危機(jī);另一方面使企業(yè)產(chǎn)生財(cái)務(wù)危機(jī),不利于其穩(wěn)定發(fā)展。對(duì)于股價(jià)崩盤現(xiàn)象的研究,不僅可以糾正投資者自身的投資決策偏誤,而且對(duì)促進(jìn)企業(yè)可持續(xù)發(fā)展和國(guó)家金融穩(wěn)定具有重要意義。
目前,多數(shù)學(xué)者認(rèn)為造成股價(jià)崩盤的主要原因是信息不對(duì)稱,而社會(huì)責(zé)任報(bào)告是企業(yè)非財(cái)務(wù)信息的主要載體之一,其中必然存在著信息不對(duì)稱的現(xiàn)象。由于我國(guó)社會(huì)責(zé)任報(bào)告披露形式的相關(guān)準(zhǔn)則不夠完善,披露質(zhì)量與國(guó)際相比差距仍十分明顯,使得企業(yè)管理層有機(jī)可乘,社會(huì)責(zé)任報(bào)告成為企業(yè)進(jìn)行印象管理的陣地。管理層通過(guò)選擇性披露操縱文本信息,主要體現(xiàn)在文本可讀性、文本語(yǔ)調(diào)等方面,采用過(guò)度強(qiáng)調(diào)“正面信息”或者過(guò)度隱匿“負(fù)面消息”等手段,提升企業(yè)聲譽(yù)以獲得或維持合法性地位,進(jìn)而實(shí)現(xiàn)企業(yè)利潤(rùn)最大化目標(biāo)[1]。除此之外還發(fā)現(xiàn)上市公司社會(huì)責(zé)任報(bào)告所披露的信息幾乎未作調(diào)整,出現(xiàn)變動(dòng)的僅為某些具體事件和數(shù)字,全部套用照搬的現(xiàn)象被稱為“克隆社會(huì)責(zé)任報(bào)告”[2],并且大部分僅是為應(yīng)對(duì)證監(jiān)會(huì)、國(guó)資委、上交所和深交所的規(guī)定而發(fā)布社會(huì)責(zé)任報(bào)告[3]。過(guò)度的印象管理其實(shí)質(zhì)是欺詐性的[4]42,所提供的信息會(huì)誤導(dǎo)利益相關(guān)者的評(píng)估與決策行為,最終會(huì)造成企業(yè)股價(jià)崩盤風(fēng)險(xiǎn)增加。
為了探究社會(huì)責(zé)任披露對(duì)股價(jià)崩盤的影響,本文基于LDA 主題模型提取2010—2022 年企業(yè)社會(huì)責(zé)任報(bào)告中的文本主題指標(biāo),構(gòu)建股價(jià)崩盤風(fēng)險(xiǎn)模型,探討社會(huì)責(zé)任報(bào)告文本主題指標(biāo)與股價(jià)崩盤風(fēng)險(xiǎn)之間的關(guān)系,以為投資者提供更加可靠的信息,保障投資者利益;同時(shí)相比于傳統(tǒng)模型,采用機(jī)器學(xué)習(xí)模型對(duì)股價(jià)崩盤風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)分析,克服了由于變量過(guò)多導(dǎo)致的多重共線性、內(nèi)生性的問(wèn)題,增強(qiáng)預(yù)測(cè)的可靠性。
在當(dāng)前經(jīng)濟(jì)市場(chǎng),有效的股價(jià)崩盤風(fēng)險(xiǎn)預(yù)測(cè)能夠維護(hù)國(guó)家金融市場(chǎng)的穩(wěn)定,減少資源錯(cuò)配,保持實(shí)體經(jīng)濟(jì)的正常運(yùn)行,對(duì)于投資者自身的風(fēng)險(xiǎn)管理也具有重要的現(xiàn)實(shí)意義。以往研究主要使用專業(yè)機(jī)構(gòu)評(píng)級(jí)數(shù)據(jù)建立股價(jià)崩盤風(fēng)險(xiǎn)模型,但評(píng)級(jí)機(jī)構(gòu)是以第三方的角度對(duì)企業(yè)進(jìn)行評(píng)價(jià),可能存在個(gè)人主觀評(píng)判。企業(yè)社會(huì)責(zé)任報(bào)告作為企業(yè)非財(cái)務(wù)信息披露的重要載體,相比于企業(yè)評(píng)級(jí)機(jī)構(gòu)單純的評(píng)分分值,更能具體地反映企業(yè)履行的社會(huì)責(zé)任,其披露在一定程度上能夠減緩信息不對(duì)稱[5]。此外,企業(yè)社會(huì)責(zé)任報(bào)告段落之間的銜接、語(yǔ)言的表達(dá)及語(yǔ)調(diào)的安排都會(huì)影響信息使用者對(duì)該報(bào)告的理解。所以直接從企業(yè)社會(huì)責(zé)任報(bào)告中提取相關(guān)文本主題指標(biāo),建立股價(jià)崩盤模型,不僅可以避免第三方角度的主觀評(píng)價(jià),彌補(bǔ)企業(yè)評(píng)級(jí)機(jī)構(gòu)數(shù)據(jù)的缺陷,同時(shí)也能夠獲取更深層次的文本信息。因此,在單一企業(yè)評(píng)級(jí)機(jī)構(gòu)數(shù)據(jù)指標(biāo)的基礎(chǔ)上,LDA主題模型提取的文本主題指標(biāo)可以提升預(yù)測(cè)股價(jià)崩盤風(fēng)險(xiǎn)的能力。基于此,提出假設(shè):
H1:社會(huì)責(zé)任文本主題指標(biāo)能夠顯著提升股價(jià)崩盤風(fēng)險(xiǎn)模型的預(yù)測(cè)性能。
現(xiàn)有的關(guān)于社會(huì)責(zé)任信息披露對(duì)股價(jià)崩盤風(fēng)險(xiǎn)的影響主要有兩種觀點(diǎn):(1)企業(yè)社會(huì)責(zé)任信息披露會(huì)提升股價(jià)發(fā)生崩盤的風(fēng)險(xiǎn);(2)企業(yè)社會(huì)責(zé)任信息披露會(huì)抑制股價(jià)發(fā)生崩盤的風(fēng)險(xiǎn)。其中,持第一種觀點(diǎn)的學(xué)者發(fā)現(xiàn)當(dāng)企業(yè)的經(jīng)營(yíng)成果不理想時(shí),管理層出于維護(hù)自身利益的動(dòng)機(jī)會(huì)操縱文本信息,進(jìn)而導(dǎo)致投資者的決策失誤,增加股價(jià)崩盤的風(fēng)險(xiǎn)。此外,管理層也會(huì)通過(guò)印象管理操縱社會(huì)責(zé)任報(bào)告信息,具體表現(xiàn)為隱匿壞消息,回避企業(yè)效益不佳等,通過(guò)向資本市場(chǎng)釋放好信息,以期利用各種手段來(lái)實(shí)現(xiàn)自身利益最大化,但壞消息的隱匿終究是紙包不住火,一旦負(fù)面消息集中釋放,最終會(huì)增大股價(jià)崩盤風(fēng)險(xiǎn)[6]。與此相反,一些學(xué)者則認(rèn)為企業(yè)履行社會(huì)責(zé)任間接表明企業(yè)管理層擁有更高的倫理和道德標(biāo)準(zhǔn),更傾向基于自身的優(yōu)勢(shì)去為社會(huì)謀福利,重視本身的社會(huì)價(jià)值,其社會(huì)責(zé)任報(bào)告的披露有助于真實(shí)反映企業(yè)的社會(huì)責(zé)任履行情況,從而提高企業(yè)財(cái)務(wù)報(bào)告信息的透明度,抑制股價(jià)崩盤風(fēng)險(xiǎn)[7]。
綜上所述,企業(yè)基于自利性動(dòng)機(jī)選擇性披露企業(yè)社會(huì)責(zé)任報(bào)告,即在信息披露時(shí),管理層可以決定如何披露社會(huì)責(zé)任信息。一般體現(xiàn)為凸顯對(duì)自身的有利消息,而對(duì)壞消息避之不談[8],粉飾企業(yè)社會(huì)責(zé)任報(bào)告,進(jìn)而使得信息使用者進(jìn)入“信息誤區(qū)”。研究發(fā)現(xiàn)過(guò)度的印象管理,即欺詐性印象管理會(huì)增加企業(yè)額外的成本支出,降低信息的可靠性、相關(guān)性,不利于企業(yè)持久經(jīng)營(yíng)[4]41的同時(shí)也會(huì)導(dǎo)致利益相關(guān)者對(duì)企業(yè)形象識(shí)別不清,進(jìn)而造成信息使用者決策偏誤,損害利益相關(guān)者的利益[9]。一旦利益相關(guān)者識(shí)別出企業(yè)釋放的虛假好信息,就會(huì)拋售股票,進(jìn)而造成企業(yè)股價(jià)斷崖式下跌。與欺騙性印象管理不同,采用適度策略性印象管理有助于獲得公眾的信賴,提升企業(yè)自身形象,進(jìn)而吸引投資者投入更多的資源[10],降低股價(jià)崩盤風(fēng)險(xiǎn)?;诖?,提出假設(shè):
H2:社會(huì)責(zé)任披露信息與股價(jià)崩盤風(fēng)險(xiǎn)之間呈現(xiàn)“U”型關(guān)系。
2008 年5 月,上海證券交易所發(fā)布《關(guān)于加強(qiáng)上市公司社會(huì)責(zé)任承擔(dān)工作的通知》,強(qiáng)制性要求各上市公司定期在上海證券交易所網(wǎng)站披露公司的社會(huì)責(zé)任報(bào)告,使得自2009 年起上市公司披露的企業(yè)社會(huì)責(zé)任報(bào)告成倍增加。所以本文選取2010—2022年上市公司公開(kāi)發(fā)布的企業(yè)社會(huì)責(zé)任報(bào)告作為樣本。其企業(yè)社會(huì)責(zé)任報(bào)告均從巨潮資訊網(wǎng)下載得到,社會(huì)責(zé)任文本主題指標(biāo)通過(guò)LDA 主題模型提取整理所得,機(jī)構(gòu)評(píng)級(jí)數(shù)據(jù)的選取來(lái)自和訊網(wǎng)。
1?被解釋變量
被解釋變量為股價(jià)崩盤風(fēng)險(xiǎn),若上市公司在經(jīng)營(yíng)期間發(fā)生了股價(jià)崩盤,則將上市公司當(dāng)期樣本的變量賦值為1,若上市公司未發(fā)生股價(jià)崩盤,則賦值為0。將股價(jià)崩盤的變量定義為Crash[11]:
其中,wi,t為第i家上市公司第t年的特定周收益率,Average(wi,t) 表示第i家公司股票第t年的特定周收益率均值,σi,t表示第i家公司股票第t年特定周收益率標(biāo)準(zhǔn)差,3?09 個(gè)標(biāo)準(zhǔn)差對(duì)應(yīng)標(biāo)準(zhǔn)正態(tài)分布下0?1% 的概率區(qū)間。如果一年時(shí)間里第i家公司股票的特定周收益率滿足上式的條件,那就意味著這家公司在該年內(nèi)發(fā)生了股價(jià)崩盤事件。
2.解釋變量
選取的解釋變量為文本主題指標(biāo)、財(cái)務(wù)變量、和訊網(wǎng)評(píng)級(jí)數(shù)據(jù)指標(biāo)。具體變量及含義見(jiàn)表1。
表1 變量定義表Tab.1 Variable definition table
(1)文本主題指標(biāo)變量
使用LDA 主題模型進(jìn)行社會(huì)責(zé)任主題指標(biāo)的構(gòu)建。LDA 主題模型是一種基于概率圖模型的文本主題分析方法,最早由Blei 等[12]在2003 年提出,旨在通過(guò)對(duì)文本數(shù)據(jù)進(jìn)行分析,自動(dòng)發(fā)現(xiàn)其隱藏的主題結(jié)構(gòu)。與相對(duì)簡(jiǎn)單的潛在變量模型相比,LDA 的優(yōu)點(diǎn)體現(xiàn)在:是全概率模型,具有清楚明晰的層次結(jié)構(gòu);引入了Dirichlet 先驗(yàn)參數(shù),解決過(guò)度擬合的問(wèn)題,更適合處理大批量文檔。LDA 主題模型是基于這樣的假設(shè):文本是一個(gè)詞的集合,忽略任何語(yǔ)法或者順序關(guān)系。其由多個(gè)主題構(gòu)成,而每個(gè)主題又是詞集的一個(gè)概率分布,是由“詞-主題-文檔”三個(gè)層次構(gòu)成的概率圖模型,可以將文檔集中每篇文檔的主題以概率分布的形式給出,推測(cè)文檔的主題分布,而后便可以進(jìn)行主題聚類或文本分類。同時(shí)LDA 主題模型在文本分析的基礎(chǔ)上考慮了詞語(yǔ)在語(yǔ)義中的上下文關(guān)系。
困惑度(Perplexity) 是一種常用的機(jī)器學(xué)習(xí)模型評(píng)估方法,通常用于評(píng)估語(yǔ)言模型的性能。困惑度可以理解為預(yù)測(cè)一個(gè)測(cè)試集中每個(gè)樣本發(fā)生的概率的倒數(shù),困惑度越低,語(yǔ)言模型的效果越好。一致性檢驗(yàn)則可以檢驗(yàn)語(yǔ)言模型生成的每個(gè)主題所對(duì)應(yīng)的高概率詞語(yǔ)在語(yǔ)義上是否一致,一致性得分越高,則表示模型效果越好。在以往的研究中選擇最優(yōu)主題數(shù)常用的方法是最小困惑度法,但是基于最小困惑度法得到的最優(yōu)主題數(shù)數(shù)量過(guò)多且相似,模型預(yù)測(cè)效果會(huì)變差[13]。基于此,本文將最小困惑度與一致性檢驗(yàn)相結(jié)合,選擇最優(yōu)主題數(shù)。
(2)財(cái)務(wù)變量
參照荊思寒等[14]3093,將財(cái)務(wù)指標(biāo)作為控制變量。選用5 個(gè)變量作為財(cái)務(wù)變量,分別是個(gè)股周收益率的標(biāo)準(zhǔn)差、個(gè)股收益偏度、當(dāng)年股票月均換手率-去年股票月均換手率、凈資產(chǎn)收益率、總資產(chǎn)對(duì)數(shù)。其中,參照荊思寒等[14]3092、尉昊等[15]的研究,預(yù)測(cè)模型中的個(gè)股收益偏度采用個(gè)股過(guò)去一整年的收益偏度。
(3)和訊網(wǎng)評(píng)級(jí)數(shù)據(jù)指標(biāo)
參考沈紅波等[16]的研究,選取和訊網(wǎng)評(píng)級(jí)數(shù)據(jù)指標(biāo)作為控制變量。和訊網(wǎng)采用綜合評(píng)分體系,相比于其他評(píng)級(jí)機(jī)構(gòu),該機(jī)構(gòu)評(píng)分指標(biāo)更全面,包含了環(huán)境、社會(huì)、治理等方面,數(shù)據(jù)來(lái)源更加可靠;其企業(yè)社會(huì)責(zé)任評(píng)分?jǐn)?shù)據(jù)來(lái)源廣泛,包括公司公開(kāi)報(bào)告、第三方調(diào)查、媒體報(bào)道等多個(gè)渠道;評(píng)價(jià)方法更加科學(xué),主觀評(píng)價(jià)和客觀評(píng)價(jià)相結(jié)合,評(píng)價(jià)結(jié)果更加客觀準(zhǔn)確;評(píng)價(jià)結(jié)果更加透明,其評(píng)價(jià)過(guò)程和評(píng)價(jià)結(jié)果都可以被公眾查詢?;诖耍疚倪x取了和訊網(wǎng)機(jī)構(gòu)的評(píng)級(jí)數(shù)據(jù)指標(biāo),分別為股東責(zé)任、社會(huì)責(zé)任、員工責(zé)任、環(huán)境責(zé)任、消費(fèi)者責(zé)任、總得分。
在機(jī)器學(xué)習(xí)的有監(jiān)督學(xué)習(xí)算法中,需要學(xué)習(xí)出一個(gè)能夠保持穩(wěn)定,各個(gè)方面表現(xiàn)良好的模型,但實(shí)際情況并沒(méi)有理想中的那么良好,往往只能得到多個(gè)具有偏好的模型?;诖?,集成學(xué)習(xí)克服了單個(gè)弱監(jiān)督偏好模型的缺點(diǎn),將多個(gè)弱監(jiān)督模型組合起來(lái),得到一個(gè)更好更全面的強(qiáng)監(jiān)督模型。集成學(xué)習(xí)的基本思想是即便某一個(gè)弱分類器進(jìn)行了錯(cuò)誤的預(yù)測(cè),其他的弱分類器也可以進(jìn)行糾正錯(cuò)誤,可能某一個(gè)弱分類器無(wú)法得出所需的最優(yōu)解,但是集成學(xué)習(xí)能夠得到近似解?;诩蓪W(xué)習(xí)的優(yōu)勢(shì),本文選用集成學(xué)習(xí)模型對(duì)股價(jià)崩盤風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。以往的研究常用的是滾動(dòng)時(shí)間序列求平均的方法,這種方法是基于模型數(shù)據(jù)所具有的時(shí)間序列屬性,即隨著時(shí)間的變動(dòng),數(shù)據(jù)目標(biāo)值會(huì)發(fā)生規(guī)律的變動(dòng)。而本文所選用的上市公司的時(shí)間序列屬性不強(qiáng),隨著宏觀經(jīng)濟(jì)的變動(dòng)以及公司內(nèi)部經(jīng)營(yíng)的改變,企業(yè)社會(huì)責(zé)任報(bào)告每年披露數(shù)量不同,甚至大相徑庭,所以將所選樣本總體隨機(jī)打亂,以訓(xùn)練集: 測(cè)試集——8:2 的比例,對(duì)股價(jià)崩盤風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。
其中,Crash 表示股票發(fā)生股價(jià)崩盤,lda 表示社會(huì)責(zé)任報(bào)告文本主題特征,shareholder 表示股東責(zé)任,social 表示社會(huì)責(zé)任,employee 表示員工責(zé)任,score 表示總得分,environment 表示環(huán)境責(zé)任,consumer 表示消費(fèi)者責(zé)任,ε表示回歸殘差,j表示第j個(gè)lda 文本主題特征,i表示第i個(gè)股票,t表示第t年,k表示lda 文本主題特征個(gè)數(shù)。
1.準(zhǔn)確率(accuarcy)
由訓(xùn)練集得到樣本內(nèi)預(yù)測(cè)準(zhǔn)確率Score-Train,并將訓(xùn)練模型在測(cè)試集上進(jìn)行擬合,由此得到測(cè)試集樣本內(nèi)預(yù)測(cè)準(zhǔn)確率Score-Test。具體而言,預(yù)測(cè)準(zhǔn)確率的計(jì)算方法為:
其中TP 為真正例,即實(shí)際與預(yù)測(cè)均為正例的樣本;TN 為真反例,即實(shí)際與預(yù)測(cè)均為反例的樣本;FP 為假正例,是實(shí)際與預(yù)測(cè)出現(xiàn)相反的結(jié)果樣本,即實(shí)際為反例,預(yù)測(cè)為正例的樣本;FN 為假反例,是實(shí)際與預(yù)測(cè)出現(xiàn)相反的結(jié)果樣本,即實(shí)際為正例,預(yù)測(cè)為反例的樣本。TP 與TN 統(tǒng)稱為預(yù)測(cè)正確的樣本,而FP 與FN 統(tǒng)稱為預(yù)測(cè)錯(cuò)誤的樣本,預(yù)測(cè)準(zhǔn)確率反映的就是預(yù)測(cè)正確的樣本在總樣本中所占的比例。
2.F1 分?jǐn)?shù)(f1-score)
F1 分?jǐn)?shù)是統(tǒng)計(jì)學(xué)中用來(lái)衡量二分類( 或多任務(wù)二分類)模型精確度的一種指標(biāo)。它兼顧了分類模型的準(zhǔn)確率和召回率。F1 分?jǐn)?shù)可以看作是模型準(zhǔn)確率和召回率的一種加權(quán)平均,它的最大值為1,最小值為0,值越大意味著模型越好。
查準(zhǔn)率(precision),是指預(yù)測(cè)值為1 且真實(shí)值也為1 的樣本,在預(yù)測(cè)值為1 的所有樣本中所占的比例。具體而言,查準(zhǔn)率的計(jì)算公式為:
召回率(recall),是指真實(shí)值為1 且預(yù)測(cè)值也為1 的樣本,在真實(shí)值為1 的所有樣本中所占的比例。具體而言,召回率的計(jì)算公式為:
F1 分 數(shù)(f1-score), 又 稱 為 平 衡F 分 數(shù)(Balanced-Score),其計(jì)算公式為:
3?kappa 系數(shù)評(píng)估方法
kappa 系數(shù)是基于一致性檢驗(yàn)的指標(biāo),也可以用于衡量分類的效果。因?yàn)閷?duì)于分類問(wèn)題,所謂一致性就是實(shí)際與假設(shè)的結(jié)果是否一致,也就是模型預(yù)測(cè)結(jié)果和實(shí)際分類結(jié)果是否一致。kappa 系數(shù)的計(jì)算是建立在混淆矩陣基礎(chǔ)上的,取值為-1~1,通常大于0。
基于混淆矩陣的kappa 系數(shù)計(jì)算公式如下:
其中:
即所有類別對(duì)應(yīng)的“實(shí)際與預(yù)測(cè)數(shù)量的乘積”之總和,除以“樣本總數(shù)的平方”。
1?主題數(shù)的選擇
主題的個(gè)數(shù)越多,模型的困惑度就越低,但是,當(dāng)主題數(shù)很多的時(shí)候,生成的模型往往會(huì)過(guò)擬合,所以不能單純依靠困惑度來(lái)判斷一個(gè)模型的好壞。根據(jù)困惑度的實(shí)驗(yàn)結(jié)果,在合理的范圍內(nèi)進(jìn)行一致性實(shí)驗(yàn),最后確定效果最好的23 個(gè)主題(見(jiàn)圖1)。
圖1 LDA 主題模型的困惑度檢驗(yàn)與一致性檢驗(yàn)Fig.1 The perplexity test and consistency test of the LDA mode
2?主題詞可視化
對(duì)“最小困惑度”與“一致性檢驗(yàn)”結(jié)合得出的23 個(gè)主題進(jìn)行可視化,觀察主題分布情況,結(jié)果如圖2 所示。圖中每個(gè)圓圈代表一個(gè)主題,從可視化圖中可以看出每個(gè)圓圈相互獨(dú)立,互不重疊,這表示23 個(gè)主題間相互獨(dú)立,驗(yàn)證了由“最小困惑度”與“一致性檢驗(yàn)”結(jié)合得出的主題指標(biāo)是可行的。
圖2 LDA 主題指標(biāo)可視化結(jié)果Fig.2 LDA topic metrics visualization results
為了進(jìn)一步科學(xué)地選取預(yù)測(cè)股價(jià)崩盤風(fēng)險(xiǎn)的模型,通過(guò)機(jī)器學(xué)習(xí)算法中的評(píng)價(jià)指標(biāo)來(lái)評(píng)估XGBoost、Gradient Boosting、CatBoost、AdaBoost、RandomForest 這五種模型。相比于股價(jià)崩盤的企業(yè)數(shù)量來(lái)說(shuō),股價(jià)不崩盤的企業(yè)數(shù)量要更多,這就產(chǎn)生不平衡數(shù)據(jù),綜合準(zhǔn)確率(accuarcy)、F1 分?jǐn)?shù)(f1-score)、kappa 系數(shù)這三個(gè)指標(biāo),發(fā)現(xiàn)Gradient Boosting 模型在處理不平衡數(shù)據(jù)樣本分類問(wèn)題上明顯優(yōu)于其他模型,結(jié)果見(jiàn)圖3?;诖耍疚倪x擇Gradient Boosting 模型進(jìn)行股價(jià)崩盤風(fēng)險(xiǎn)的預(yù)測(cè)。
圖3 各機(jī)器學(xué)習(xí)模型評(píng)價(jià)指標(biāo)Fig.3 Evaluation metrics for each machine learning model
利用Gradient Boosting 模型分別實(shí)證檢驗(yàn)社會(huì)責(zé)任報(bào)告信息指標(biāo)、機(jī)構(gòu)評(píng)級(jí)數(shù)據(jù)指標(biāo)對(duì)股價(jià)崩盤風(fēng)險(xiǎn)的預(yù)測(cè)作用(見(jiàn)表2)。其原理是一個(gè)變量的相對(duì)重要性指的是一個(gè)變量在模型擬合過(guò)程中,相對(duì)于其他變量的重要程度。根據(jù) Friedman[17]的思路,首先建立模型進(jìn)行預(yù)測(cè),觀察其預(yù)測(cè)結(jié)果準(zhǔn)確度,其次在模型中加入某一變量再次進(jìn)行預(yù)測(cè),觀察其預(yù)測(cè)結(jié)果準(zhǔn)確度,若后者預(yù)測(cè)準(zhǔn)確度明顯高于前者,證明該變量是重要變量。
表2 非結(jié)構(gòu)化社會(huì)責(zé)任報(bào)告信息指標(biāo)對(duì)股價(jià)崩盤風(fēng)險(xiǎn)的預(yù)測(cè)作用Tab.2 The predictive effect of unstructured social responsibility reporting information indicators on stock price crash risk
基于此,本文在含有財(cái)務(wù)指標(biāo)的模型基礎(chǔ)上分別加入機(jī)構(gòu)評(píng)級(jí)數(shù)據(jù)指標(biāo)與社會(huì)責(zé)任報(bào)告信息指標(biāo)進(jìn)行對(duì)比分析。在模型1 中,將機(jī)構(gòu)評(píng)級(jí)數(shù)據(jù)指標(biāo)放在模型中進(jìn)行實(shí)證檢驗(yàn),其中總得分指標(biāo)對(duì)股價(jià)崩盤風(fēng)險(xiǎn)的預(yù)測(cè)作用排名為第9。在模型2 中,將社會(huì)責(zé)任報(bào)告信息指標(biāo)放在模型中進(jìn)行實(shí)證檢驗(yàn),lda16 指標(biāo)在社會(huì)責(zé)任報(bào)告信息指標(biāo)中對(duì)股價(jià)崩盤風(fēng)險(xiǎn)的預(yù)測(cè)作用排名為第4,顯然,社會(huì)責(zé)任報(bào)告信息指標(biāo)相比于社會(huì)評(píng)級(jí)機(jī)構(gòu)指標(biāo),有著更好的預(yù)測(cè)能力。在模型3 數(shù)據(jù)中,將社會(huì)責(zé)任報(bào)告信息指標(biāo)與機(jī)構(gòu)評(píng)級(jí)數(shù)據(jù)指標(biāo)同時(shí)放在一個(gè)模型中進(jìn)行實(shí)證檢驗(yàn),發(fā)現(xiàn)lda16對(duì)股價(jià)崩盤風(fēng)險(xiǎn)的預(yù)測(cè)作用的排名要明顯高于機(jī)構(gòu)評(píng)級(jí)數(shù)據(jù)指標(biāo)score 的排名,而且在加入社會(huì)責(zé)任報(bào)告指標(biāo)后,機(jī)構(gòu)評(píng)級(jí)數(shù)據(jù)的排名也大幅下降,同時(shí)lda16 的排名較比之前也有所上升。綜上所述,在初始預(yù)測(cè)模型中加入重要變量lda16 后,其預(yù)測(cè)股價(jià)崩盤風(fēng)險(xiǎn)的結(jié)果準(zhǔn)確度明顯提高。即lda16 是一個(gè)重要變量,它相對(duì)于模型中其他指標(biāo)的重要程度更高,能夠更好地提高股價(jià)崩盤風(fēng)險(xiǎn)模型的預(yù)測(cè)準(zhǔn)確度,進(jìn)而得出社會(huì)文本主題指標(biāo)對(duì)股價(jià)崩盤風(fēng)險(xiǎn)的預(yù)測(cè)能力明顯高于機(jī)構(gòu)評(píng)級(jí)數(shù)據(jù)指標(biāo)的結(jié)論。
上述結(jié)論出現(xiàn)的原因可概括為:企業(yè)評(píng)級(jí)機(jī)構(gòu)數(shù)據(jù)存在個(gè)人主觀評(píng)判,不夠公允。企業(yè)社會(huì)責(zé)任報(bào)告披露內(nèi)容中含有大量的非結(jié)構(gòu)化信息,作為信息使用者了解企業(yè)非財(cái)務(wù)信息的主要載體,同財(cái)務(wù)信息一樣,這些非結(jié)構(gòu)化信息對(duì)于公司治理做出決策也起著非常重要的作用,但是在以往的研究中,非結(jié)構(gòu)化信息未得到學(xué)者以及業(yè)界的重視,在本文所做的實(shí)證檢驗(yàn)中,發(fā)現(xiàn)加入社會(huì)文本主題指標(biāo)后,提高了股價(jià)崩盤風(fēng)險(xiǎn)模型的預(yù)測(cè)性能。此結(jié)果表明社會(huì)文本主題指標(biāo)能夠顯著提升股價(jià)崩盤風(fēng)險(xiǎn)模型的預(yù)測(cè)性能,印證了假設(shè)H1。
圖4 反映出總得分score 與股價(jià)崩盤風(fēng)險(xiǎn)之間的負(fù)向關(guān)系,雖然有輕微的波動(dòng),但是整體趨勢(shì)是負(fù)向影響,企業(yè)總得分越高,股價(jià)崩盤風(fēng)險(xiǎn)就越低,即企業(yè)社會(huì)責(zé)任報(bào)告披露能夠降低股價(jià)崩盤風(fēng)險(xiǎn)。這說(shuō)明企業(yè)社會(huì)責(zé)任評(píng)級(jí)數(shù)據(jù)未考慮管理層會(huì)采用過(guò)度的印象管理手段,進(jìn)而得出過(guò)于片面的結(jié)論。
圖4 專業(yè)機(jī)構(gòu)評(píng)級(jí)數(shù)據(jù)對(duì)股價(jià)崩盤風(fēng)險(xiǎn)的預(yù)測(cè)機(jī)制Fig.4 The predicting mechanism for the risk of stock price crash by professional institutional rating data
圖5 表現(xiàn)出LDA 主題模型提取的重要變量lda16 與股價(jià)崩盤風(fēng)險(xiǎn)之間非線性的預(yù)測(cè)關(guān)系,即隨著lda16 文本特征數(shù)量增加到一定水平,股價(jià)崩盤風(fēng)險(xiǎn)先降低后增加,表現(xiàn)出“U”型關(guān)系。其理由是:在時(shí)間推進(jìn)中,企業(yè)以持續(xù)經(jīng)營(yíng)為目標(biāo),在企業(yè)社會(huì)責(zé)任報(bào)告披露前期,適度印象管理能夠提升企業(yè)自身形象,成為企業(yè)與信息使用者的“信息橋梁”,得到投資者的信任,提升企業(yè)的市值,進(jìn)而降低股價(jià)崩盤風(fēng)險(xiǎn);隨著時(shí)間的推移,管理層印象管理行為不斷的累積,達(dá)到某一水平之上時(shí),從而形成欺詐性印象管理。管理層通過(guò)操縱其文本主題特征,對(duì)好消息進(jìn)行過(guò)度渲染,對(duì)壞消息避之不談,就會(huì)形成“信息誤區(qū)”,此時(shí)信息使用者若不能有效地避開(kāi),就會(huì)影響其做出決策,損害信息使用者的利益,進(jìn)而增加股價(jià)崩盤風(fēng)險(xiǎn)。綜上印證了社會(huì)責(zé)任信息指標(biāo)對(duì)股價(jià)崩盤風(fēng)險(xiǎn)之間的“U”型關(guān)系,與假設(shè)H2 相符。
圖5 社會(huì)責(zé)任主題指標(biāo)對(duì)股價(jià)崩盤風(fēng)險(xiǎn)預(yù)測(cè)機(jī)制Fig.5 Social responsibility theme indicators on stock price crash risk predicting mechanism
利用LDA 主題模型提取企業(yè)責(zé)任報(bào)告中的文本信息,構(gòu)建社會(huì)責(zé)任主題指標(biāo),使用Gradient Boosting 模型進(jìn)行股價(jià)崩盤風(fēng)險(xiǎn)的預(yù)測(cè)。研究發(fā)現(xiàn):(1)相比于XGBoost、CatBoost、AdaBoost、RandomForest 這四種模型,Gradient Boosting 模型在處理樣本不平衡數(shù)據(jù)時(shí)優(yōu)于其他模型,對(duì)股價(jià)崩盤預(yù)測(cè)效果最優(yōu)。(2)相較于社會(huì)責(zé)任專業(yè)機(jī)構(gòu)評(píng)級(jí)數(shù)據(jù)的評(píng)分,非結(jié)構(gòu)化社會(huì)責(zé)任報(bào)告信息指標(biāo)對(duì)股價(jià)崩盤的作用更顯著;在專業(yè)評(píng)級(jí)數(shù)據(jù)指標(biāo)中加入社會(huì)責(zé)任報(bào)告信息指標(biāo)后,股價(jià)崩盤模型預(yù)測(cè)能力顯著提高。(3)社會(huì)責(zé)任報(bào)告信息披露與股價(jià)崩盤風(fēng)險(xiǎn)之間呈現(xiàn)“U”型關(guān)系。
從債權(quán)人、投資者等利益相關(guān)者視角來(lái)看,由于信息的不對(duì)稱,利益相關(guān)者作為企業(yè)信息的接收方,被動(dòng)接受企業(yè)披露的信息,處在信息獲取的劣勢(shì)地位。股價(jià)崩盤風(fēng)險(xiǎn)預(yù)測(cè)模型為利益相關(guān)者提供一種新型且有效的判別方式,改變了以往單純分析企業(yè)財(cái)務(wù)指標(biāo)這一途徑,使其能夠通過(guò)社會(huì)責(zé)任報(bào)告文本主題指標(biāo)提前預(yù)知企業(yè)發(fā)生股價(jià)崩盤的風(fēng)險(xiǎn),在一定程度上減少信息不對(duì)稱帶來(lái)的風(fēng)險(xiǎn),避免非必要的損失。從監(jiān)管視角來(lái)看,監(jiān)管機(jī)構(gòu)應(yīng)盡快出臺(tái)企業(yè)社會(huì)責(zé)任報(bào)告披露的相關(guān)規(guī)章制度,使企業(yè)責(zé)任報(bào)告的披露形式趨于結(jié)構(gòu)化,更好地保障企業(yè)社會(huì)責(zé)任報(bào)告披露的作用。
目前來(lái)說(shuō),僅從社會(huì)責(zé)任報(bào)告中提取信息,來(lái)源比較單一,隨著機(jī)器學(xué)習(xí)方法的應(yīng)用逐步走向成熟,在未來(lái)的研究中,可以為大數(shù)據(jù)挖掘提供更多獲取信息的渠道及更為有效的工具。學(xué)者可以利用機(jī)器學(xué)習(xí)技術(shù)對(duì)會(huì)計(jì)欺詐、股票市場(chǎng)風(fēng)險(xiǎn)溢價(jià)等進(jìn)行更有效的預(yù)測(cè)。