国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA主題模型的上市公司違規(guī)識別
——以中國A股上市銀行為例

2022-10-25 04:25:54李維萍
審計與經(jīng)濟研究 2022年5期
關(guān)鍵詞:財務(wù)指標(biāo)年報違規(guī)

張 熠,徐 陽,李維萍

(南京審計大學(xué) 信息工程學(xué)院,江蘇 南京 211815)

一、引言

近些年來,我國上市公司違規(guī)丑聞頻發(fā),對投資者的決策以及證券市場的秩序都造成了巨大影響,甚至影響國家的經(jīng)濟運行。因此目前識別上市公司違規(guī)的研究層出不窮。傳統(tǒng)違規(guī)識別是基于年報中的結(jié)構(gòu)化數(shù)據(jù)構(gòu)建財務(wù)指標(biāo)。隨著文本分析技術(shù)的不斷發(fā)展,學(xué)者們開始重視年報中的非結(jié)構(gòu)化數(shù)據(jù)即文本數(shù)據(jù),利用文本分析技術(shù)提取文本信息,構(gòu)建語義、語調(diào)等相關(guān)指標(biāo)用于違規(guī)預(yù)測?!豆_發(fā)行證券的公司信息披露內(nèi)容與格式準(zhǔn)則第2號——年度報告的內(nèi)容與格式(2021年修訂)》中指出,公司年報中應(yīng)該包括經(jīng)營情況討論與分析、董事會報告、監(jiān)事會報告等內(nèi)容。這些非結(jié)構(gòu)化文本主觀性強,其編寫者更有可能對其進行粉飾夸大甚至編制虛假財務(wù)報告,從而造成重大錯報風(fēng)險。在傳統(tǒng)審計工作中,隨著企業(yè)規(guī)模擴大,企業(yè)的經(jīng)濟活動愈加復(fù)雜,審計工作量也隨之變大,多數(shù)情況下在審計過程中發(fā)現(xiàn)的都是財務(wù)報表中存在的技術(shù)性錯誤,審計風(fēng)險依然存在。此外,在有限的時間內(nèi),注冊會計師在審計時會依據(jù)經(jīng)驗將注意力更多地放置在高風(fēng)險領(lǐng)域。而隨著時間的推移,企業(yè)的違規(guī)手段愈加復(fù)雜和隱蔽,僅僅依靠審計師的經(jīng)驗和傳統(tǒng)的財務(wù)報告分析手段并不能識別出更多的違規(guī)行為。因此根據(jù)傳統(tǒng)的審計模式與方法,審計人員仍有較大造成審計失敗的風(fēng)險。為了進一步規(guī)避審計風(fēng)險、減少審計失敗,亟需提高注冊會計師識別企業(yè)違規(guī)的能力。本文基于Brown的思想,利用LDA(Latent Dirichlet Allocation)主題模型提取上市公司年報的潛在主題內(nèi)容,構(gòu)建主題指標(biāo),捕獲年報中管理者是否存在違規(guī)意圖并獲得審計線索。與傳統(tǒng)的審計模式相比,利用主題挖掘技術(shù)可以更快速地鎖定更多的審計疑點,降低審計風(fēng)險,提高審計效率,輔助注冊會計師更精準(zhǔn)、更快速地判斷上市公司是否存在違規(guī)行為并出具正確的審計意見。

由于我國的審查制度以及相關(guān)的法律法規(guī)等都在不斷完善,對于常用的違規(guī)手段都能夠監(jiān)察到位,但仍有上市公司為了謀取巨額利潤而鋌而走險。為了避免被審計人員發(fā)現(xiàn)其違規(guī)行為,上市公司的違規(guī)手段也在隨著時間的推移不斷地發(fā)生變化,采用更新穎、更隱蔽的違規(guī)方法與手段。為了探究基于年報文本所構(gòu)建的主題指標(biāo)是否可以識別出不斷變化的違規(guī)手法,本文采用滾動窗口的方法來研究年報主題與上市公司是否存在違規(guī)行為之間的相關(guān)性,并觀察各時間窗口內(nèi)與違規(guī)相關(guān)的主題的演化情況。同時,為了檢驗主題指標(biāo)是否可有效地對年報中的違規(guī)進行預(yù)測,本文在每個時間窗口上運行LDA主題模型構(gòu)建主題指標(biāo),基于主題指標(biāo)運用多種機器學(xué)習(xí)算法構(gòu)建上市公司違規(guī)預(yù)測模型,并對每個時間窗口后一年的違規(guī)情況進行預(yù)測。此外,由于違規(guī)樣本占比較低,樣本數(shù)據(jù)存在不平衡現(xiàn)象,本文使采用多種指標(biāo)評估了模型的預(yù)測能力并對主題指標(biāo)、財務(wù)指標(biāo)、文本特征指標(biāo)以及合并指標(biāo)的預(yù)測效果進行了對比分析。

本文的主要貢獻主要體現(xiàn)在:首先,不同于之前研究中用到的傳統(tǒng)財務(wù)指標(biāo)和文本特征指標(biāo),本文通過挖掘銀行年報的潛在主題信息來構(gòu)建主題指標(biāo),并用于對上市公司違規(guī)識別,且提升了傳統(tǒng)指標(biāo)違規(guī)識別的準(zhǔn)確性,進一步降低了審計風(fēng)險并提升了審計效率。其次,本文分析了主題指標(biāo)與違規(guī)的相關(guān)性以及與違規(guī)顯著相關(guān)的主題隨時間推移呈現(xiàn)的變化情況,得到了盡管違規(guī)手法愈加隱蔽且復(fù)雜,主題指標(biāo)仍可以有效識別的結(jié)論。最后,在相同的輸入樣本的基礎(chǔ)上,檢驗了不同指標(biāo)體系、不同機器學(xué)習(xí)算法在上市銀行違規(guī)識別上的優(yōu)劣,找到了更為高效的智能化違規(guī)識別方法。

二、文獻回顧

關(guān)于上市公司違規(guī)識別的研究可以劃分為兩個方面,分別是基于財務(wù)信息的違規(guī)識別研究以及基于非財務(wù)信息的違規(guī)識別研究。在傳統(tǒng)的基于結(jié)構(gòu)化財務(wù)數(shù)據(jù)預(yù)測上市公司違規(guī)的研究中,為了識別多種類型的違規(guī),所選變量應(yīng)盡量涵蓋公司業(yè)績的各個方面,因此一般所使用的初始財務(wù)變量呈現(xiàn)出數(shù)量多且復(fù)雜的特點。Dechow等為了發(fā)現(xiàn)美國上市公司存在的財務(wù)舞弊現(xiàn)象,從應(yīng)計質(zhì)量、財務(wù)績效、非財務(wù)績效、表外活動和資本市場等五個方面選擇28個結(jié)構(gòu)化變量,建立舞弊識別模型。針對中國上市公司的舞弊現(xiàn)象,有研究也從財務(wù)杠桿、營運能力、盈利能力等方面選擇財務(wù)變量構(gòu)建舞弊識別模型。盡管常規(guī)的財務(wù)指標(biāo)在違規(guī)預(yù)測中可以表現(xiàn)出很好的預(yù)測性能,但在財務(wù)變量的選取過程中存在較強的主觀性,對模型的分類效果也存在相應(yīng)的干擾。同時隨著上市公司違規(guī)手法的愈加高明與隱蔽,僅利用財務(wù)指標(biāo)也無法識別出更多的違規(guī)現(xiàn)象。有研究發(fā)現(xiàn),與財務(wù)信息相比,非財務(wù)信息在反映公司經(jīng)營活動和未來發(fā)展前景上表現(xiàn)更加突出。隨著文本分析技術(shù)和自然語言處理技術(shù)的不斷發(fā)展,學(xué)者們便將注意力轉(zhuǎn)移到年報中的文本上,并利用年報文本構(gòu)建相關(guān)指標(biāo)從而挖掘年報文本與違規(guī)之間的內(nèi)在聯(lián)系。有研究發(fā)現(xiàn)舞弊公司年報中的管理層與討論(MD&A)部分中會增加美化公司績效的內(nèi)容。此外,與非舞弊年報相比,舞弊年報中的句子會較多使用被動語態(tài)和不確定的詞匯。國內(nèi)在這方面的研究主要基于情感分析,研究發(fā)現(xiàn)年報中的情感特征有助于財務(wù)舞弊的識別。通過梳理國內(nèi)外的研究發(fā)現(xiàn),用于識別違規(guī)的文本特征指標(biāo)主要涉及文本語調(diào)、可讀性、相似性等,但以上指標(biāo)只能反映文本披露形式,并不能揭示文本披露信息的內(nèi)在含義。本文通過對年報文本進行主題挖掘,提取年報潛在主題信息并構(gòu)建適合中國市場的違規(guī)識別模型,可以輔助注冊會計師發(fā)現(xiàn)更多的審計疑點,從而進一步規(guī)避了審計風(fēng)險。

本文利用LDA主題模型提取年報潛在主題。LDA主題模型由Blei等人在2003年提出,該主題模型是一個概率主題模型,通過建模后可獲得文本所對應(yīng)的主題概率分布。目前在國內(nèi)LDA主題模型主要用于社交網(wǎng)絡(luò)、情報分析等領(lǐng)域。如關(guān)鵬等將LDA主題模型應(yīng)用在科技情報分析中,對基于不同科學(xué)文獻文本語料庫而建立的模型的主題發(fā)現(xiàn)效果進行對比評價。目前將LDA主題模型應(yīng)用到經(jīng)濟和金融領(lǐng)域的研究較少,有研究將LDA主題模型應(yīng)用到財經(jīng)新聞文本上并基于此分析主題強度與孟買股票交易所敏感指數(shù)的每日收盤價等指標(biāo)之間的相關(guān)關(guān)系,并將主題熱度用于預(yù)測指數(shù)的漲跌。近幾年在國內(nèi)也有學(xué)者將LDA主題模型應(yīng)用到財經(jīng)文本上,在此基礎(chǔ)上研究主題的強度、熱度或其他特征,并將結(jié)果進行可視化。如傅魁等人對LDA主題模型進行擴展,提出SGC-LDA財經(jīng)文本主題研究模型。

綜上,國內(nèi)外的學(xué)者們在構(gòu)建違規(guī)預(yù)測模型時關(guān)注到了財務(wù)信息與文本披露的形式,并基于此來構(gòu)建財務(wù)指標(biāo)和文本特征指標(biāo),但較少研究年報中所披露的主題內(nèi)容并將其應(yīng)用于上市公司違規(guī)識別中。本文采用LDA主題模型對年報文本建模,構(gòu)建反映文本語義的主題指標(biāo),并用于識別上市銀行是否存在違規(guī)行為。與財務(wù)指標(biāo)和文本特征指標(biāo)相比,主題指標(biāo)蘊含了更為豐富的上下文信息和語義信息,從理論上來說可以更為準(zhǔn)確地識別出公司管理者是否有違規(guī)意圖。因此與單一傳統(tǒng)指標(biāo)相比,基于主題指標(biāo)的違規(guī)識別模型打破了原有的審計模式,充分利用中文年報的非財務(wù)信息,將主題挖掘技術(shù)運用到審計中,幫助注冊會計師更快速獲得豐富的審計線索,從而減少審計失敗的可能性,更大程度地規(guī)避審計風(fēng)險。目前在國內(nèi)還沒有將年報主題信息用于違規(guī)識別方面的研究,因此研究文本主題指標(biāo)與違規(guī)之間的聯(lián)系對于中國市場來說具有重要意義。

三、理論分析和研究假設(shè)

(一)年報文本主題與違規(guī)

我國年報中披露的管理層討論與分析、董事會報告等文本信息不僅總結(jié)了公司上一年的經(jīng)營成果、財務(wù)狀況,也對公司即將要發(fā)生的重大事項和未來可能發(fā)生的變化進行了討論與分析,因此年度報告中的文本數(shù)據(jù)可以反映公司將來的發(fā)展風(fēng)險和趨勢。此外,在上市公司年報中,文本數(shù)據(jù)所占篇幅明顯高于財務(wù)數(shù)據(jù),尤其在近幾年,年報篇幅逐漸增加,除去三大報表,非結(jié)構(gòu)化文本占比明顯上升。因此通過對上市公司年報中的文本信息進行挖掘和分析,了解公司整體的業(yè)績和發(fā)展趨勢,可以獲取更多的有效信息,無論是對于投資者的選擇,還是注冊會計師的決策,都是不可缺少的。

即使上市公司年報文本中蘊含著豐富的信息,但由于文本篇幅過長,完全依靠人工閱讀、理解并直接提取文本中的有效信息難度非常大,且效率非常低。因此在本文中使用LDA主題模型對年報文本潛在的主題進行挖掘。主題挖掘是利用主題模型挖掘語料中的隱藏信息,發(fā)現(xiàn)一系列非結(jié)構(gòu)化文本中的主題,也就是找出表達文本中心思想的主題詞。同時,本文選用LDA主題模型這一最為通用的主題模型,提取具有語義信息的主題。因此,采用LDA主題模型所發(fā)掘出的年報文本的主題信息可以很好地反映出年報的潛在語義。由于年報中的非結(jié)構(gòu)化文本在編寫時自由度較大,主觀性較強,可以傳達公司許多內(nèi)部信息,管理者為了牟利或掩蓋本身經(jīng)營問題可能會對年報文字部分進行美化,在用詞遣句上避重就輕或進行選擇性披露,導(dǎo)致其年報文本內(nèi)容發(fā)生變化,繼而導(dǎo)致使用LDA主題模型對年度報告挖掘后得到的主題信息也會發(fā)生改變。因此,年報文本主題是與上市公司違規(guī)顯著相關(guān)的,通過年報主題可以反映出由于要掩蓋違規(guī)行為所導(dǎo)致的年報內(nèi)容的變化。此外,隨著時間的推移,我國的會計準(zhǔn)則、審計準(zhǔn)則和監(jiān)管手段也在不斷進行修正與完善,在一定程度上阻止了某些違規(guī)行為的出現(xiàn),但總會產(chǎn)生一些新的違規(guī)手段與方法,為了避免被審計人員發(fā)現(xiàn),發(fā)生違規(guī)行為的年報中討論的重點會隨著時間的推移而變化,即可用于識別違規(guī)行為的主題并不是一成不變的,會隨著違規(guī)手段的變化而變化。因此,可利用年報文本的主題信息去識別新出現(xiàn)的且更隱蔽的違規(guī)行為?;谝陨系睦碚摲治觯疚奶岢黾僭O(shè)H1。

H1:年報文本主題會隨著上市公司違規(guī)手段的變化而發(fā)生變化。

(二)主題指標(biāo)、財務(wù)指標(biāo)與文本特征指標(biāo)

目前識別上市公司違規(guī)的方法大多是基于結(jié)構(gòu)化的財務(wù)數(shù)據(jù)或股票市場數(shù)據(jù),但利用此類數(shù)據(jù)存在的一個缺點是違規(guī)公司會故意操縱當(dāng)期的績效指標(biāo)和會計交易數(shù)據(jù)以便與本公司之前的業(yè)績數(shù)據(jù)或同行的業(yè)績數(shù)據(jù)保持一致,使得違規(guī)行為不易被發(fā)現(xiàn),而且有研究指出結(jié)構(gòu)化的財務(wù)報表數(shù)據(jù)可提供給投資者的信息是有限的。因此,僅僅利用財務(wù)指標(biāo)構(gòu)建的違規(guī)識別模型的效果存在一定的不足。為了彌補財務(wù)數(shù)據(jù)的缺陷,研究人員利用財務(wù)報告中的非結(jié)構(gòu)化文本數(shù)據(jù)去發(fā)現(xiàn)上市公司是否違規(guī)。有研究利用年報文本的語言結(jié)構(gòu)特征來構(gòu)建與違規(guī)相關(guān)的指標(biāo),如文本可讀性、語調(diào)等。盡管研究發(fā)現(xiàn)利用文本特征指標(biāo)來識別舞弊有一定的效果,但在一些研究中對于文本特征指標(biāo)仍然存在質(zhì)疑,即文本特征是否可以真正捕獲到管理者違規(guī)的意圖。有語言學(xué)研究表明,很難從披露文本的文本特征中辨別出其中是否存在欺騙或混淆視聽的內(nèi)容。此外,Loughran和McDonald指出常用的文本語言特征指標(biāo)并不能反映出文本的上下文和語義信息,從而導(dǎo)致利用文本語言特征指標(biāo)建立的違規(guī)識別模型效果就會有所限制。為了進一步提升違規(guī)識別模型的效果,本文基于Brown的思想,運用LDA主題模型構(gòu)造年報的主題指標(biāo),提取年報文本中潛在的語義信息,反映出年報文本表達的真正含義并捕獲公司管理者的違規(guī)意圖。綜上,基于年報非結(jié)構(gòu)化文本的主題指標(biāo)不僅蘊含豐富信息,還具有語義內(nèi)涵,可以反映出文本披露的具體內(nèi)容,可以彌補財務(wù)指標(biāo)和文本特征指標(biāo)在預(yù)測違規(guī)時的不足。因此,相對而言,在傳統(tǒng)單一指標(biāo)的基礎(chǔ)上,主題指標(biāo)可以提升識別上市公司違規(guī)的性能?;谝陨戏治?,本文提出假設(shè)2。

H2:在財務(wù)指標(biāo)和文本特征指標(biāo)的基礎(chǔ)上,年報文本主題指標(biāo)可以進一步提升違規(guī)識別模型的性能。

四、研究設(shè)計

(一)樣本選擇與數(shù)據(jù)來源

由于我國相關(guān)的法律法規(guī)等都在不斷推進,若選擇時間過早的樣本,樣本對應(yīng)的上市銀行的治理結(jié)構(gòu)、經(jīng)營環(huán)境間存在著較大差異,導(dǎo)致樣本數(shù)據(jù)不可比。另外考慮到近期產(chǎn)生違規(guī)的公司還未被證監(jiān)會認定,同時為了研究用于預(yù)測違規(guī)主題的變化過程,本文選取我國36家A股上市銀行在2010—2019年間發(fā)布的年報作為研究樣本。其中上市銀行的年度報告均從巨潮資訊網(wǎng)中下載得到;文本語言特征數(shù)據(jù)是對銀行年報進行文本分析以及人工計算整理的方式取得;財務(wù)數(shù)據(jù)來自于國泰安數(shù)據(jù)庫。最終本文得到215個公司-年度層面的上市公司數(shù)據(jù)。

(二)變量定義

1.被解釋變量

本文的被解釋變量為是否違規(guī)(),違規(guī)數(shù)據(jù)來源于國泰安經(jīng)濟金融研究數(shù)據(jù)庫()和色諾芬數(shù)據(jù)庫(),并經(jīng)過人工合并得到。若上市公司在上期年報和當(dāng)期年報發(fā)布之間發(fā)生了違規(guī)行為,則將上市公司當(dāng)期樣本的變量賦值為1,若上市公司未發(fā)生違規(guī),則賦值為0。最終本文得到68個違規(guī)樣本,147個非違規(guī)樣本。

表1 主題指標(biāo)變量定義

2.解釋變量

本文的解釋變量為文本的主題指標(biāo)變量。同時為了對比主題指標(biāo)的預(yù)測效果,本文將財務(wù)變量、文本特征變量也作為解釋變量。

(1)主題指標(biāo)變量()

本文使用LDA主題模型進行年報主題指標(biāo)的構(gòu)建。LDA主題模型可以得到相應(yīng)數(shù)據(jù)集的兩個概率分布,分別是“文檔-主題”概率分布以及“主題-詞”概率分布,其中“文檔-主題”概率分布就是我們所構(gòu)建的主題指標(biāo)。此外,為了研究隨著時間推移,與違規(guī)相關(guān)的主題指標(biāo)的變化情況,本文采取滾動窗口的方式,將2010—2019年的樣本區(qū)間劃分為五個時間窗口,在五個時間窗口上分別運行LDA主題模型并構(gòu)建相應(yīng)的主題指標(biāo)。表1呈現(xiàn)了每個時間窗口所構(gòu)建的主題指標(biāo)變量的定義。LDA主題模型是無監(jiān)督機器學(xué)習(xí)模型,只需提供文本集合和要生成的主題數(shù)。其中主題數(shù)對于LDA主題模型的聚類效果有很大影響。但目前如何得到主題模型的最優(yōu)主題數(shù)這一問題尚未有最佳的方法。在以往的研究中選擇最優(yōu)主題數(shù)常用的方法是最小困惑度法,困惑度是指所構(gòu)建的主題模型對一篇文檔屬于某一主題的不確定程度。困惑度越小,表示模型對于文本的主題選擇越不“困惑”。但研究發(fā)現(xiàn)基于最小困惑度法得到的最優(yōu)主題數(shù)數(shù)量過多,主題間相似度高,存在冗余情況。

本文首先嘗試使用最小困惑度方法來確定最終要產(chǎn)生的主題數(shù)量,將主題數(shù)分別設(shè)置為1至51,分別訓(xùn)練LDA模型并計算模型困惑度。結(jié)果如圖1所示。結(jié)果顯示根據(jù)最小困惑度方法得到的最優(yōu)主題數(shù)為36個。對36個主題進行可視化,觀察主題的分布情況。結(jié)果如圖2所示(圖2中列示了11個主題圈,其他由于占比較小未列示,有需要可聯(lián)系作者)。圖中每一個圓圈代表一個主題,從可視化圖中可以看出圓圈之間存在很多重疊部分,表示36個主題間存在很高的重復(fù)性即存在冗余主題數(shù),驗證了通過最小困惑度方法得到的最優(yōu)主題數(shù)量過多。

圖1 困惑度與主題數(shù)的關(guān)系

圖2 36個主題可視化結(jié)果

表2 最優(yōu)主題數(shù)

為了避免主題相似度過高,本文借鑒王澤賢的主題數(shù)選擇方法即最小冗余主題數(shù)法,即在初設(shè)最大主題數(shù)的基礎(chǔ)上,采用二分法逐步減小主題數(shù)量,使得最終得到的主題兩兩之間JS散度為0。最終得到的主題數(shù)結(jié)果如表2所示。

(2)財務(wù)變量(-)

本文基于美國學(xué)者Dechow研究的F-score舞弊識別模型中的變量體系,并對其變量進行篩選,最終選擇12個變量作為本文的財務(wù)變量,分別為公司資產(chǎn)、應(yīng)收賬款變動、總應(yīng)計、軟資產(chǎn)占比、現(xiàn)金銷售變動、資產(chǎn)回報率變動、凈值市價比、前期持有期收益率、并購情況、會計師事務(wù)所是否為四大、融資現(xiàn)金流量、重組情況。財務(wù)變量的具體定義如表3所示。

表3 財務(wù)變量定義

(3)文本特征變量()

本文基于Brown等使用的文本語言特征變量及其構(gòu)建方法,對36家上市銀行在2010—2019年間披露的年報全文,通過文本分析等方式構(gòu)建文本特征指標(biāo)。由于美國與中國的年報在披露標(biāo)準(zhǔn)與內(nèi)容上有所不同,因此本文對其變量進行篩選。最終選擇的文本特征變量分別為著重號數(shù)量、換行數(shù)、標(biāo)簽數(shù)、平均句長、詞長標(biāo)準(zhǔn)差、段長標(biāo)準(zhǔn)差、平均重復(fù)句數(shù)、句長標(biāo)準(zhǔn)差、唯一詞比例、Coleman-Liau指數(shù)、Fog指數(shù)、主動句比例、被動句比例、消極詞比例、積極詞比例。變量的具體定義如表4所示。

表4 文本特征變量定義

(三)模型構(gòu)建

隨著計算機技術(shù)的發(fā)展,機器學(xué)習(xí)已經(jīng)逐漸成為研究的熱點,若能使用機器學(xué)習(xí)識別上市公司的違規(guī)行為,對于審計師、投資者以及各類監(jiān)管機構(gòu)都能起到重要的輔助作用。識別上市公司的違規(guī)行為適用于機器學(xué)習(xí)模型的分類算法。本文選取目前常用的機器學(xué)習(xí)分類算法,分別為邏輯回歸模型(Logistic Regression)、K-近鄰模型(K-nearest neighbor,簡稱KNN)、支持向量機(Suppprt Vector Machine,簡稱SVM)、隨機森林(Random Forest,簡稱RF)、AdaBoost(Adaptive Boosting)、多層感知器(Multilayer Perceptron,簡稱MLP)。本文在五個時間窗口上,將主題指標(biāo)、財務(wù)指標(biāo)、文本特征指標(biāo)、主題指標(biāo)+財務(wù)指標(biāo)、主題指標(biāo)+文本特征指標(biāo)分別作為以上機器學(xué)習(xí)模型的輸入指標(biāo),并對每個時間窗口后一年的違規(guī)情況進行預(yù)測,比較不同指標(biāo)體系、不同機器學(xué)習(xí)模型在識別上市公司違規(guī)時的優(yōu)劣,探究加入主題指標(biāo)是否能夠提高財務(wù)指標(biāo)或文本特征指標(biāo)的預(yù)測效果。

(1)

(2)

(3)

(4)

(5)

本文構(gòu)建以上邏輯回歸模型驗證主題指標(biāo)的有效性,并與財務(wù)指標(biāo)、文本特征指標(biāo)及合并指標(biāo)進行對比分析。模型中為上文中構(gòu)建的主題指標(biāo),-為財務(wù)指標(biāo),為文本特征指標(biāo)。同樣地,本文還將構(gòu)建KNN、SVM、RF、AdaBoost和MLP模型,并對不同模型的違規(guī)識別效果進行對比。

五、實證結(jié)果與分析

(一)描述性統(tǒng)計

1.財務(wù)變量描述性統(tǒng)計

本文財務(wù)變量的描述性統(tǒng)計如表5所示。表中的財務(wù)變量均來自CSMAR數(shù)據(jù)庫,涵蓋了我國36家上市銀行在2010—2019年間的財務(wù)數(shù)據(jù),各個財務(wù)變量的具體定義如上文表3所示。本文將樣本劃分為兩類樣本,分別是正常樣本與違規(guī)樣本,并標(biāo)記為0、1,為了對比兩類樣本在同一財務(wù)變量上的差別,在表5中對每一類都進行了描述性統(tǒng)計。

表5 財務(wù)變量描述性統(tǒng)計

2.文本特征變量描述性統(tǒng)計

本文文本特征變量的描述性統(tǒng)計如表6所示。表中的文本特征變量是對36家上市銀行2010—2019年的年報進行文本分析后計算得到的。各個文本特征變量的具體定義如上文表4所示。為了對比兩類樣本在同一文本特征變量上的差別,本文在表6中對每一類樣本都進行了描述性統(tǒng)計。

表6 文本特征變量描述性統(tǒng)計

(二)主題變化情況

本文采用滾動回歸驗證通過LDA主題模型所提取的年報主題指標(biāo)與違規(guī)之間的相關(guān)性以及在不同時間段內(nèi)與違規(guī)顯著相關(guān)的主題的變化情況。本文的樣本區(qū)間為2010—2019年,將每五年作為一個時間窗口,最終將樣本區(qū)間劃分為五個窗口,分別是2010—2014年、2011—2015年、2012—2016年、2013—2017年、2014—2018年,在五個窗口上分別運行LDA模型,提取每個窗口年報文本的潛在主題。為了便于展示,本文計算所有主題對應(yīng)的詞語權(quán)重向量間的余弦相似度,基于相似度將所有窗口內(nèi)的單個主題聚合為組合主題,最終在整個樣本區(qū)間內(nèi)生成14個組合主題。

圖3 組合主題顯著性與主題變化情況

為了呈現(xiàn)與違規(guī)顯著相關(guān)的主題在不同時間段內(nèi)的變化情況,本文分別對每個時間窗口上的主題指標(biāo)構(gòu)建邏輯回歸模型,根據(jù)回歸系數(shù)的值判斷組合主題的顯著性。下圖3描述了在樣本預(yù)測年份2015-2019年上每個組合主題是否存在以及是否與違規(guī)顯著相關(guān)。圖中正方形表示在50%的置信水平下,該組合主題中至少一個子主題與違規(guī)顯著負相關(guān)且其他子主題與違規(guī)均不顯著相關(guān);菱形表示在50%的置信水平下,該組合主題中至少一個子主題與違規(guī)顯著正相關(guān)且其他子主題與違規(guī)均不顯著相關(guān);三角形表示該組合主題中所有子主題與違規(guī)相關(guān)性均不顯著或多個子主題顯著但顯著性符號相反。

通過圖3可以發(fā)現(xiàn)存在多個主題與違規(guī)顯著相關(guān)。隨著時間的推移,可以觀察到某些主題的變化情況,如組合主題2在2015年和2018年中與違規(guī)均無顯著相關(guān)關(guān)系,但在2019年與違規(guī)呈現(xiàn)出負相關(guān)關(guān)系;同時隨著時間變化,也出現(xiàn)了一些之前未出現(xiàn)過的且與違規(guī)顯著相關(guān)的主題,如組合主題12、13、14,在前兩年中未曾出現(xiàn),在2017年、2018年出現(xiàn)并與違規(guī)呈顯著相關(guān)關(guān)系。因此本文認為對于一些新出現(xiàn)的違規(guī)行為,盡管手段更加隱蔽且復(fù)雜,我們依然可以通過主題指標(biāo)找到與違規(guī)之間的相關(guān)關(guān)系,從而可有效識別違規(guī)。

表7 二分類混淆矩陣

(三)評估指標(biāo)

在機器學(xué)習(xí)算法中,常用的評價指標(biāo)有準(zhǔn)確率()、精確率()、召回率()、F1分數(shù)和F2分數(shù)。為了直觀地解釋以上指標(biāo),本文基于混淆矩陣對以上指標(biāo)進行定義如表7所示。

基于此,本文將準(zhǔn)確率、精確率、召回率、F1分數(shù)、F2分數(shù)定義如下。

(6)

(7)

(8)

(9)

(10)

式中,表示準(zhǔn)確率,表示精確率,表示召回率,F(xiàn)1表示F1分數(shù),F(xiàn)2表示F2分數(shù)。

由于在本文中違規(guī)樣本與正常樣本存在不平衡現(xiàn)象,有些機器學(xué)習(xí)算法會將樣本全部預(yù)測為無違規(guī)從而造成準(zhǔn)確率很高,但顯然此時準(zhǔn)確率指標(biāo)已經(jīng)失去參考意義。因此本文選取精確率、召回率、F1分數(shù)和F2分數(shù)作為分類的評價指標(biāo)。在審計工作中,重要的是盡可能將違規(guī)樣本識別出來,因此召回率與F2分數(shù)更為關(guān)鍵。由于本文將全部樣本劃分成到五個時間窗口,并在每個時間窗口上都建立違規(guī)識別模型,在每個窗口后一年上進行預(yù)測得到模型預(yù)測結(jié)果,因此下文中的精確率、召回率、F1分數(shù)和F2分數(shù)都是取五個時間窗口上的平均值。

表8 主題指標(biāo)和財務(wù)指標(biāo)下的預(yù)測效果對比

(四)主題指標(biāo)與財務(wù)指標(biāo)預(yù)測效果對比

為了驗證本文構(gòu)建的主題指標(biāo)的有效性以及假設(shè)H2,本文先將主題指標(biāo)和財務(wù)指標(biāo)-進行對比。除此之外,本文還將主題指標(biāo)和財務(wù)指標(biāo)進行合并,同時作為模型的解釋變量,來研究主題指標(biāo)是否可以彌補財務(wù)指標(biāo)中的信息損失,使基于合并指標(biāo)的模型與基于財務(wù)指標(biāo)的模型相比,預(yù)測效果有進一步的提高。因此本文將對、-、+-三種指標(biāo)體系的預(yù)測效果進行比較,并分別構(gòu)建多種機器學(xué)習(xí)模型進行對比分析?;诓煌笜?biāo)的模型預(yù)測結(jié)果如表8所示。

在違規(guī)識別中,我們著重關(guān)注模型的召回率以及F2分數(shù)。從實驗結(jié)果中可以看出,當(dāng)采用單一財務(wù)指標(biāo)作為輸入指標(biāo)時,邏輯回歸模型Logistic的召回率和F2分數(shù)最高,分別為73.84%和65.40%,其次是支持向量機和多層感知器,召回率分別達到6559和6361。且與單一財務(wù)指標(biāo)相比,基于單一主題指標(biāo)的違規(guī)識別模型召回率普遍較低,但其中基于主題指標(biāo)的多層感知機的精確率和召回率都較高,說明基于主題指標(biāo)的模型可以即準(zhǔn)確又盡可能多地識別出上市公司違規(guī)。除此之外,基于單一主題指標(biāo)的邏輯回歸模型Logistic和K-近鄰模型的召回率和F2分數(shù)也較高。為了探究主題指標(biāo)的加入是否可以提升財務(wù)指標(biāo)的識別性能,我們著重對比財務(wù)指標(biāo)與主題指標(biāo)+財務(wù)指標(biāo)的召回率和F2分數(shù),發(fā)現(xiàn)與單一財務(wù)指標(biāo)相比,除邏輯回歸模型Logistic外,其余五個模型基于合并指標(biāo)的召回率和F2分數(shù)都有較大提升,其中-近鄰模型基于合并指標(biāo)的召回率提升最為明顯,相較于單一財務(wù)指標(biāo),召回率提高了17.12%。實驗結(jié)果表明,主題指標(biāo)可以彌補財務(wù)指標(biāo)的不足,提升了財務(wù)指標(biāo)的違規(guī)識別性能。

表9 主題指標(biāo)與文本特征指標(biāo)下的預(yù)測效果對比

(五)主題指標(biāo)與文本特征指標(biāo)預(yù)測效果對比

為了進一步驗證假設(shè)H2,本文將主題指標(biāo)和文本特征指標(biāo)的預(yù)測效果進行對比。同樣地,本文也構(gòu)建主題指標(biāo)和文本特征指標(biāo)的合并指標(biāo)+來探究主題模型是否可以彌補文本特征模型中缺少的語義信息,使得合并指標(biāo)的預(yù)測效果優(yōu)于文本特征指標(biāo)的預(yù)測效果。基于不同指標(biāo)的模型預(yù)測結(jié)果如表9所示。

從實驗結(jié)果中可以看出,當(dāng)采用單一文本特征指標(biāo)進行違規(guī)識別時,隨機森林RF的召回率最高,達到了68.77%,其次是邏輯回歸Logistic和多層感知器MLP,召回率分別為63.76%、60.32%。通過對比單一文本特征指標(biāo)和主題指標(biāo)的識別性能可以發(fā)現(xiàn),除隨機森林RF外,其余五個模型基于主題指標(biāo)的召回率都高于基于文本特征指標(biāo)的召回率,說明在利用主題指標(biāo)進行識別違規(guī)時,集成學(xué)習(xí)模型可能并不適用。為了探究主題指標(biāo)的加入是否可以提升文本特征指標(biāo)的識別性能,我們著重對比文本特征指標(biāo)與主題指標(biāo)+文本特征指標(biāo)的召回率和F2分數(shù)。通過對比發(fā)現(xiàn),相較于單一的文本特征指標(biāo),除邏輯回歸模型Logistic外,其余五個機器學(xué)習(xí)模型基于合并指標(biāo)的召回率都有較大提升,其中提升最多的是K-近鄰模型KNN,相較于單一文本特征指標(biāo),召回率提升了18.05%。實驗結(jié)果表明,主題指標(biāo)可以彌補文本特征指標(biāo)的不足,提升文本特征指標(biāo)的違規(guī)識別率。

六、研究結(jié)論

本文基于A股上市銀行年度報告的文本數(shù)據(jù)和相關(guān)財務(wù)數(shù)據(jù),構(gòu)建了財務(wù)指標(biāo)、文本特征指標(biāo),并運用LDA主題模型對年報文本建模構(gòu)建主題指標(biāo),并在不同指標(biāo)下分別建立機器學(xué)習(xí)預(yù)測模型,以發(fā)現(xiàn)上市銀行是否存在違規(guī)行為。研究發(fā)現(xiàn):第一,基于年報文本所構(gòu)建的主題指標(biāo)可有效預(yù)測上市銀行違規(guī)。第二,本文提取出與違規(guī)顯著相關(guān)的主題指標(biāo)后發(fā)現(xiàn),可用于識別違規(guī)的主題并不是一成不變的,呈現(xiàn)出迭代更新的現(xiàn)象。第三,將主題指標(biāo)與財務(wù)指標(biāo)、文本特征指標(biāo)合并后共同構(gòu)建的違規(guī)模型的預(yù)測效果優(yōu)于僅使用財務(wù)指標(biāo)、文本特征指標(biāo)構(gòu)建的違規(guī)識別模型,說明主題指標(biāo)可提供財務(wù)指標(biāo)和文本特征指標(biāo)中所缺少的語義信息,能夠提升財務(wù)指標(biāo)和文本特征指標(biāo)違規(guī)識別的性能。

猜你喜歡
財務(wù)指標(biāo)年報違規(guī)
我刊2021年影響因子年報
我刊2021年影響因子年報
我刊2021年影響因子年報
違規(guī)借調(diào)的多重“算計”
“啄木鳥”專吃“違規(guī)蟲”
我國金融機構(gòu)股價和主要財務(wù)指標(biāo)的相關(guān)性分析
違規(guī)試放存放 爆炸5死1傷
勞動保護(2018年5期)2018-06-05 02:12:09
全國國有企業(yè)主要財務(wù)指標(biāo)
違規(guī)逆行之后
上市公司2015年年報重要數(shù)據(jù)
井研县| 渝北区| 孝感市| 金坛市| 满城县| 张家界市| 洱源县| 常宁市| 舒城县| 墨竹工卡县| 永济市| 衡南县| 西贡区| 阳原县| 北流市| 吉木乃县| 光泽县| 万州区| 获嘉县| 屏南县| 宁城县| 山东| 林芝县| 平昌县| 灌阳县| 井冈山市| 闵行区| 班戈县| 竹山县| 农安县| 洛扎县| 赤城县| 潍坊市| 射洪县| 哈尔滨市| 大姚县| 合肥市| 旌德县| 迁安市| 定西市| 呈贡县|