国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本大數(shù)據(jù)分析的年報舞弊識別研究

2022-12-02 07:50:16陳璐CHENLu
價值工程 2022年32期
關(guān)鍵詞:舞弊年報分類器

陳璐CHEN Lu

(對外經(jīng)濟貿(mào)易大學(xué)統(tǒng)計學(xué)院,北京 100020)

0 引言

年度報告,是公司每年度向大眾披露該公司經(jīng)營狀況的一項報告,該報告涵蓋較多的內(nèi)容,包括該年度的主營業(yè)務(wù),公司的負債情況等重要經(jīng)濟指標(biāo)。年報多數(shù)時候會成為投資者對未來預(yù)期以及投資選擇的一項重要依據(jù),同時也是國家證監(jiān)會為打擊舞弊行為重點查處的內(nèi)容。有效地識別年報舞弊行為,一方面可以規(guī)范整個股票市場,另一方面也能讓股民選擇一家誠信的公司投資。因此針對上市公司年報的研究成為經(jīng)濟學(xué)科、計算機文本數(shù)據(jù)挖掘方面的熱點。例如研究年報信息披露的特點,通過年報判斷公司類型進而計算公司的競爭力。

本文在結(jié)合了傳統(tǒng)的文本分類系統(tǒng)以及對年報信息的研究,實現(xiàn)對年報信息的合理分類,進而識別出年報的舞弊行為。本文的第二部分介紹了目前國內(nèi)外針對年報以及文本處理的相關(guān)研究;第三部分主要介紹了本系統(tǒng)的核心模型和數(shù)據(jù);第四部分主要介紹本系統(tǒng)的實驗設(shè)計;第五部分是對本次實驗結(jié)果的分析;最后是對整個系統(tǒng)的不足之處的闡述與分析以及對未來工作的展望。

1 相關(guān)工作

國外針對文本信息處理發(fā)展的較早,Verrecchia(2001)[1]在關(guān)于信息披露的文獻綜述中將現(xiàn)有的公司信息披露理論劃分為三大類,即聯(lián)系性披露(association-based disclosure),選擇性披露(discretionary-based disclosure)和基于效率的披露(efficiency-based disclosure)。系統(tǒng)地闡述了上市公司在年報的信息披露過程中是存在一些策略的,因此可能在披露的內(nèi)容上,有一定的規(guī)律可循。Gerard Hoberg 和Craig Lewis(2013)[2]詳細研究了上市公司年報信息披露的羊群現(xiàn)象以及局部反羊群現(xiàn)象。同時關(guān)于文本類數(shù)據(jù)的自動化分類工作,國內(nèi)也存在較多研究,基于SVM 模型的文本分類判別的研究[3][4];楊麗華[5]等針對KNN模型進行了文本分類任務(wù)的研究,詳細介紹了KNN 模型的算法原理和實現(xiàn)機制;王[6]等基于機器學(xué)習(xí)方法進行了各類文本分類任務(wù)進行了相關(guān)研究工作。

以上各類研究或涉及對上市公司年報披露特點的研究分析,或利用文本數(shù)據(jù)挖掘模型對各類文本進行分類研究,目前沒有完整地基于文本數(shù)據(jù)挖掘方法的上市公司年報舞弊行為的識別研究。

2 模型和數(shù)據(jù)

2.1 文本表示

本文采用向量空間模型(VSM)作為文本表示途徑,首先將文本進行中文分詞,本文采用IKAnalyze 分詞器進行中文分詞,提取特征并計算特征項的權(quán)值,將文本表示成一個空間向量,便于對文本進行相應(yīng)的操作。

2.2 年報語料

本系統(tǒng)所涉及的所有語料通過爬蟲[7]技術(shù)進行收集整理,所有的年報文檔均以文本格式存儲。資料來源是證監(jiān)會官方網(wǎng)站(http: //www.csrc.gov.cn)和聚潮資訊網(wǎng)(http://www.cninfo.com.cn)。證監(jiān)會網(wǎng)站會及時的公布涉嫌年報舞弊的上市公司的處決書,以此獲取年報舞弊的公司名單。在聚潮資訊網(wǎng)上可以下載任何上市公司的年報信息,因此根據(jù)證監(jiān)會處罰公告的內(nèi)容,實現(xiàn)對舞弊公司舞弊年報的精確定位,從而獲得舞弊的年報以及非舞弊的年報。最終選取2012 年~2018 年公告內(nèi)容中獲取正負類樣本各200,為了消除噪音和平衡樣本數(shù)量,最終篩選其中194 個作為訓(xùn)練數(shù)據(jù)。

2.3 特征詞典

本次設(shè)計的特征詞典主要來源于三部分,第一部分是通過CHI 卡方分布統(tǒng)計訓(xùn)練語料的分類關(guān)鍵字,第二部分是通過LDA 主題模型提取訓(xùn)練語料主題關(guān)鍵字,第三部分是經(jīng)濟學(xué)角度獲取的專業(yè)詞匯。

第一部分是通過對年報數(shù)據(jù)本身的挖掘,首先對文本進行分詞,再使用卡方統(tǒng)計量計算詞ti與年報類別C=(c1,c2)的關(guān)聯(lián)程度。

其中,A 表示Ci類中包含ti的文檔頻率,B 表示不屬于Ci類包含ti的文檔頻率,C 表示Cj類中不包含ti的文檔頻率,D 表示不屬于Cj類也不包含ti的文檔頻率,N 表示文檔總數(shù)。以下是特征與類的關(guān)系表,如表1 所示。

表1 特征與類關(guān)系表

第二部分是通過LDA(Latent Dirichlet Allocation)主題模型[8]獲取訓(xùn)練文檔主題詞,將這些詞加入特征詞典。主題模型是一種非監(jiān)督機器學(xué)習(xí)技術(shù),可以識別大規(guī)模的文檔或語料中潛在的主題詞。采用了計算每個詞匯w 與文檔d 相關(guān)聯(lián)的概率P(w|d)=P(w|t)·P(t|d),主題t 作為中間層的概率公式。LDA 可以設(shè)置文檔集的主題數(shù),在實驗中設(shè)置了兩個主題,獲取800 個待選主題詞。因為LDA 相比基于詞頻的統(tǒng)計量來說,屬于更深層次的語義分析,因此選用LDA 主題模型來豐富本系統(tǒng)的特征選擇模型。

第三部分是通過專業(yè)人員對大規(guī)模年報進行分析、研究,獲取的經(jīng)濟學(xué)專業(yè)的詞匯,選出與年報舞弊相關(guān)程度較高的加入特征詞典。

2.4 特征權(quán)重計算

通過計算特征詞的TF*IDF 值獲取特征項的權(quán)重,從而實現(xiàn)文本向量化,構(gòu)建能夠代表文本特征的向量。

2.5 SVM 分類器(Support Vector Machine,SVM)

支持向量機是Vapnik V[9]提出的一個非常有效的統(tǒng)計機器學(xué)習(xí)算法,后期主要用于模式識別領(lǐng)域。支持向量機能夠很好地解決二分類,而且其分類準(zhǔn)確率和穩(wěn)定性較高。SVM 的基本思想就是通過對樣本的訓(xùn)練,在向量空間尋求一個超平面(Hyper Surface),通過參數(shù)調(diào)優(yōu),使得這個超平面能夠最大限度的將所有樣本點分割成兩個部分,這樣就能清晰地完成分類任務(wù)。因此支持向量機的目的就是在樣本的向量空間中找到具有最大分類精度的決策平面。

為了實現(xiàn)系統(tǒng)的容錯性,在分類的時候允許一些點不能正確分類,這些點可能是噪音,為了消除噪音,在SVM中需要選擇合適的懲罰因子C(C 表明了某個樣本點的重要性)。約束條件的意義是認為所有的點到超平面的距離都大于1,并且給這個硬閾值加一個松弛變量ξ,即:

2.6 KNN(K-nearest neighbor)分類器

K-最鄰近法[10]的思想是:當(dāng)輸入一個待測試文檔時,分類器會選取該文檔相近的K 個訓(xùn)練文檔(已知其分類標(biāo)簽的文檔)來為待測文檔判別類別。把鄰近文檔和待測文檔的文本相似度作為該鄰近文檔所在類別的權(quán)重,將訓(xùn)練文檔中同屬于某個類別的權(quán)重進行求和計算作為該類別和測試文檔的相似度。然后系統(tǒng)可以將這些相似度進行排序,給定閾值,確定所屬類別。決策規(guī)則表示如下:

2.7 BERT 分類器

BERT[11]模型是由Google 公司提出,是一種基于預(yù)訓(xùn)練方式的語言模型,近年來在各項語言理解任務(wù)上取得了優(yōu)異的表現(xiàn),因此我們基于該模型設(shè)計了文檔分類的任務(wù)用于解決對年報舞弊行為的判別。該模型相對傳統(tǒng)機器學(xué)習(xí)模型具有更強的特征抽取能力和泛化能力,因此可以降低特征組織的難度。該模型的結(jié)構(gòu)圖如圖1。

3 實驗設(shè)計

本系統(tǒng)主要采用了傳統(tǒng)機器學(xué)習(xí)模型(SVM/KNN)和深度神經(jīng)網(wǎng)絡(luò)模型(BERT)對年報文本進行自動分類,進而驗證年報舞弊行為在文本語義分布的差異化。首先將收集好的文本數(shù)據(jù),依據(jù)監(jiān)管部門披露的信息進行類別標(biāo)注。此外對文本進行一些特殊處理,去除停用詞、標(biāo)點等,然后進行分詞并獲取文本特征,計算特征權(quán)重。實現(xiàn)對文本的預(yù)處理,獲得具備文本特征的文本向量。文本向量的格式是:

<label index : value index : value……>,其中l(wèi)abel 表示該文本的類別,index 表示向量的特征,value 表示相應(yīng)的index 特征的特征值。統(tǒng)一數(shù)據(jù)格式便于分類器能夠準(zhǔn)確讀取。

3.1 模型設(shè)置

SVM 分類器主要采用臺灣大學(xué)的林智仁博士開發(fā)的Libsvm[12]工具包,實現(xiàn)對文本的快速分類。并使用Libsvm自帶的交叉驗證進行參數(shù)尋優(yōu),實現(xiàn)最優(yōu)的分類參數(shù),獲取最佳參數(shù)c 和最佳參數(shù)g。用最佳的訓(xùn)練參數(shù)訓(xùn)練出較高分類精度的分類模型。

KNN 分類器主要通過K-最鄰近算法,通過計算每一個測試文本向量與所有已知類別的訓(xùn)練文本向量的相似度,作為兩者的距離。篩選出距離最近的K 個向量的距離值,并計算其中每個類別的向量的距離和。距離和較小的類別作為該測試文本的類別。

BERT 分類模型將年報的核心文本以及本章上述方案中提取的文本特征作為組合信息喂入模型中,基于訓(xùn)練數(shù)據(jù)有監(jiān)督的學(xué)習(xí)判別范式,微調(diào)預(yù)訓(xùn)練模型進而達成對新年報文本的判定。

3.2 訓(xùn)練數(shù)據(jù)與特征分布

樣本均衡角度出發(fā),從收集的樣本中分別選取194 條正負樣本作為訓(xùn)練集,35 條數(shù)據(jù)作為測試樣本,用以驗證模型的有效性。

表2 訓(xùn)練數(shù)據(jù)分布表

不同模型我們選擇不同的特征抽取方式以適應(yīng)模型對數(shù)據(jù)的需求,SVM 主要是TFIDF/CHI 卡方等特征抽取和特征權(quán)重算法;KNN 主要基于淺層語義表達進行文本向量化;BERT 主要基于年報文本以及核心詞作為模型輸入。

表3 模型特征抽取表

4 結(jié)果分析

為探究自動化模型識別對該任務(wù)的有效性,本文設(shè)計了三個文本分類器,用以對年報文本進行自動分類。以下通過對實驗結(jié)果的統(tǒng)計,對比不同模型在該任務(wù)上的有效性,進而探究出基于自動化模型實現(xiàn)年報舞弊行為判別的可行性。

表4 展示了不同模型分別實現(xiàn)對年報文本舞弊行為的判別任務(wù)。

表4 模型測評結(jié)果表

從表4 結(jié)果分析可以得出一些直觀結(jié)論:

①從宏觀視角觀測三個模型的準(zhǔn)確率來看,均能達到遠高于0.5 的概率預(yù)測值,因此基于機器學(xué)習(xí)模型的思路從統(tǒng)計概率的角度來看,對年報文本舞弊行為的特征分布具有一定的發(fā)現(xiàn)性,驗證了該方案的有效性;

②同時橫向的比較兩個機器學(xué)習(xí)模型,SVM 和KNN同屬于淺層的機器學(xué)習(xí)模型,而SVM 基于大量的手工特征(例如經(jīng)濟學(xué)/會計學(xué)專業(yè)詞匯,會計指標(biāo)等)為模型提供了大量先驗知識,提高了模型識別準(zhǔn)確率,相對于KNN的淺層模型具有更優(yōu)勝的性能表現(xiàn),驗證了會計類特征對判別科學(xué)性的影響是正向的;

③整體模型之間對比來看,BERT 模型具有明顯的性能優(yōu)勢,能夠取得最佳的實驗精度,從模型和特征角度出發(fā),BERT 模型的輸入特征相對淺層模型更為基礎(chǔ),而該模型具有更多的預(yù)訓(xùn)練語言模型的知識信息以及極強的語義抽取能力,能夠在年報文本中有效的捕捉到文本的核心信息,從而有監(jiān)督地學(xué)習(xí)到文本語義與年報舞弊情況之間的關(guān)聯(lián)性,進而實現(xiàn)對未知年報文本舞弊情況的有效判別,驗證了語義挖掘在年報舞弊行為識別任務(wù)上的有效性。

5 未來工作

本文的主要任務(wù)是分析探究如何通過文本挖掘的辦法,自動處理大量的年報數(shù)據(jù),并有效地識別出年報舞弊行為,進而能夠為舞弊年報的識別提供新的思路和文本層面上的特征挖掘。文中分別使用兩種經(jīng)典的統(tǒng)計機器學(xué)習(xí)算法和前沿的深度語義模型(BERT)對年報文本進行建模,有監(jiān)督地對該類特殊文本進行判別,從目前實驗結(jié)果來看模型在準(zhǔn)確性上取得了相對優(yōu)秀的實驗精度,具有一定的應(yīng)用可行性。未來從兩個角度對該工作做進一步的深入研究,首先針對年報特征信息的挖掘?qū)ψR別精度和科學(xué)性具有重要意義,后續(xù)研究會引入更多的經(jīng)濟學(xué)/會計學(xué)指標(biāo),并基于多變量進行關(guān)聯(lián)關(guān)系分析,從而選出最為顯著的特征自動化加入模型訓(xùn)練中;為進一步獲取舞弊年報的文本分布特征,在模型設(shè)計上充分利用深度語義模型在注意力機制上的能力,挖掘舞弊年報在文本表達上的特點,為監(jiān)管部門提供預(yù)見性指引,同時為模型的可解釋性提供充分論證。

猜你喜歡
舞弊年報分類器
我刊2021年影響因子年報
我刊2021年影響因子年報
我刊2021年影響因子年報
淺談財務(wù)舞弊與防范
活力(2021年6期)2021-08-05 07:24:28
會計電算化環(huán)境下會計舞弊的應(yīng)對策略
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
上市公司2015年年報重要數(shù)據(jù)
我國上市公司財務(wù)舞弊識別模型初探
南汇区| 博客| 望奎县| 苍溪县| 泉州市| 寻甸| 博罗县| 孟村| 仪征市| 长寿区| 武川县| 涡阳县| 襄垣县| 安福县| 大渡口区| 马关县| 汉阴县| 沙田区| 共和县| 合江县| 曲阜市| 长乐市| 定南县| 仙居县| 响水县| 乌拉特中旗| 颍上县| 肥乡县| 宁明县| 辽源市| 江津市| 扎赉特旗| 渭源县| 岐山县| 侯马市| 孟津县| 宁海县| 四平市| 巨鹿县| 阿拉尔市| 民和|