宋英慧 黃麒
【摘 要】 近年來,財(cái)務(wù)報(bào)告附注的篇幅越來越長、信息越來越龐雜,這無疑增加了財(cái)務(wù)報(bào)告使用者的閱讀難度。文本挖掘技術(shù)可以視為提煉文本中有用信息的工具,對提取財(cái)務(wù)報(bào)表附注中披露的關(guān)鍵信息具有很大的幫助。以文本挖掘?yàn)楣ぞ哐芯控?cái)務(wù)報(bào)表附注信息披露的特征,使用ROST CM軟件對財(cái)務(wù)報(bào)表附注文本內(nèi)容進(jìn)行分詞處理,經(jīng)過詞頻統(tǒng)計(jì)、關(guān)鍵詞共現(xiàn)分析、文本內(nèi)容語義網(wǎng)絡(luò)分析等過程發(fā)現(xiàn)財(cái)務(wù)報(bào)表附注披露內(nèi)容的特征,探究了文本挖掘在附注研究中可以使用的技術(shù)?;谖谋就诰蚣夹g(shù)的相關(guān)研究在國內(nèi)剛剛起步,財(cái)務(wù)報(bào)表附注方面更是鮮有研究,文章嘗試使用文本挖掘技術(shù)來研究財(cái)務(wù)報(bào)表附注,對未來此方向的研究提供了一個(gè)可供借鑒的方法。
【關(guān)鍵詞】 財(cái)務(wù)報(bào)表附注; 文本挖掘; 信息披露
【中圖分類號】 F231.5 ?【文獻(xiàn)標(biāo)識碼】 A ?【文章編號】 1004-5937(2019)01-0142-06
一、引言
財(cái)務(wù)報(bào)表以表格形式列報(bào)和披露企業(yè)信息為主要特征,財(cái)務(wù)報(bào)告的主體部分是幾大報(bào)表,報(bào)表只以項(xiàng)目和金額的方式列報(bào)和披露信息,而財(cái)務(wù)報(bào)表附注是對前述項(xiàng)目和金額進(jìn)行詳細(xì)的解釋,具體形式包括文字描述和表格明細(xì)。對于報(bào)表使用者來說,表格無疑是財(cái)務(wù)報(bào)表通用的列報(bào)和披露形式,在財(cái)務(wù)報(bào)表附注篇幅不斷增加的今天,報(bào)表附注中大幅的文字描述已超過表格形式,成為財(cái)務(wù)報(bào)表附注披露內(nèi)容的重要部分并包含著很多重要信息,但是,文字較表格而言,具有非結(jié)構(gòu)化的特征,難以直觀地得到文字信息所要披露的重要內(nèi)容,也無法直接了解披露信息中相關(guān)事項(xiàng)的聯(lián)系。此外,除了關(guān)注某一公司財(cái)務(wù)報(bào)告外,金融機(jī)構(gòu)等報(bào)告使用者會(huì)閱讀大量的財(cái)務(wù)報(bào)告,如何在財(cái)務(wù)報(bào)告附注中提取關(guān)鍵信息,進(jìn)行公司之間的對比以及行業(yè)之間的對比,對于報(bào)告使用者來說是一個(gè)焦點(diǎn)問題。
在信息時(shí)代,如何快速獲取信息并從海量而復(fù)雜的信息中抽取關(guān)鍵的知識成為信息井噴時(shí)代的一個(gè)重要問題。據(jù)此,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,它是一個(gè)在海量數(shù)據(jù)庫中提取有用信息的過程。數(shù)據(jù)挖掘的對象不是狹義的數(shù)字?jǐn)?shù)據(jù),而是廣義的數(shù)據(jù),不僅包括數(shù)字?jǐn)?shù)據(jù),也包括文本與多媒體數(shù)據(jù)等,文本挖掘的目的是針對文檔集合抽取知識信息。隨著企業(yè)數(shù)量增多、披露信息不斷增長,應(yīng)用文本挖掘技術(shù)研究這些文本數(shù)據(jù)成為提高信息交換過程的一個(gè)重要手段。
文本挖掘技術(shù)是專門提取知識密集型文本數(shù)據(jù)信息的一種方法,是數(shù)據(jù)挖掘的一個(gè)分類,它可以通過使用者設(shè)置的識別模式,在非結(jié)構(gòu)化的龐大數(shù)據(jù)集中抽取結(jié)構(gòu)化、數(shù)據(jù)化、可視化的信息,便于快速識別文本特征,提取文本中的關(guān)鍵詞,構(gòu)建文本知識地圖,從而更有效地閱讀文本信息。目前,國內(nèi)的文本挖掘研究,主要是從事計(jì)算機(jī)科學(xué)方面研究的學(xué)者,研究對象主要集中在從網(wǎng)絡(luò)直接獲得的文本數(shù)據(jù)。在年度報(bào)告、董事會(huì)決議、企業(yè)社會(huì)責(zé)任報(bào)告等方面的報(bào)告型文檔研究較少,有些方面甚至為空白。近年來,這些報(bào)告數(shù)量呈現(xiàn)大幅增長的趨勢,內(nèi)容也在不斷增加,通過文本挖掘技術(shù),合理解構(gòu)報(bào)告中非結(jié)構(gòu)化文本,快速提取有效信息,將有利于市場交易的主體獲取市場信息,降低交易成本。
二、財(cái)務(wù)報(bào)表附注的相關(guān)理論
(一)財(cái)務(wù)報(bào)表附注的內(nèi)容
財(cái)務(wù)報(bào)表附注在《企業(yè)會(huì)計(jì)準(zhǔn)則》中被定義為“對在資產(chǎn)負(fù)債表、利潤表、現(xiàn)金流量表和所有者權(quán)益變動(dòng)表等報(bào)表中列示項(xiàng)目的文字描述或明細(xì)資料,以及對未能在這些報(bào)表中列示項(xiàng)目的說明等[1]?!?/p>
《企業(yè)會(huì)計(jì)準(zhǔn)則》中規(guī)定財(cái)務(wù)報(bào)表附注應(yīng)包括:財(cái)務(wù)報(bào)表的編制基礎(chǔ),遵循企業(yè)會(huì)計(jì)準(zhǔn)則的聲明,重要會(huì)計(jì)政策的說明,重要會(huì)計(jì)估計(jì)的說明,會(huì)計(jì)政策和會(huì)計(jì)估計(jì)變更以及差錯(cuò)更正的說明,對已在資產(chǎn)負(fù)債表、利潤表、現(xiàn)金流量表和所有者權(quán)益變動(dòng)表中列示的重要項(xiàng)目的進(jìn)一步說明,或有事項(xiàng)和承諾事項(xiàng)、資產(chǎn)負(fù)債表日后非調(diào)整事項(xiàng)、關(guān)聯(lián)方關(guān)系及其交易等需要說明的事項(xiàng),其他未在與財(cái)務(wù)報(bào)表一起公布的其他信息中披露的信息[1]。證監(jiān)會(huì)規(guī)定公開發(fā)行證券的公司的財(cái)務(wù)報(bào)表附注披露的內(nèi)容包括公司的基本情況、財(cái)務(wù)報(bào)表的編制基礎(chǔ)、重要會(huì)計(jì)政策及會(huì)計(jì)估計(jì)、稅項(xiàng)、合并財(cái)務(wù)報(bào)表項(xiàng)目附注、合并范圍的變動(dòng)、在其他主體中的權(quán)益、與金融工具相關(guān)的風(fēng)險(xiǎn)、公允價(jià)值的披露、關(guān)聯(lián)方及關(guān)聯(lián)交易、股份支付、或有事項(xiàng)、資產(chǎn)負(fù)債表日后事項(xiàng)、其他重要事項(xiàng)、母公司財(cái)務(wù)報(bào)表的重要項(xiàng)目附注的披露[2]。
(二)財(cái)務(wù)報(bào)表附注的作用
為了制定更優(yōu)的投資決策,報(bào)告使用者對會(huì)計(jì)信息的需求越來越高,傳統(tǒng)的財(cái)務(wù)報(bào)表已無法滿足財(cái)務(wù)報(bào)表使用者的需求,將財(cái)務(wù)報(bào)表中無法列報(bào)和披露的信息通過財(cái)務(wù)報(bào)表附注提供,以括弧注釋、腳注的形式表現(xiàn)出來,進(jìn)行單獨(dú)列報(bào),成為會(huì)計(jì)實(shí)務(wù)中一個(gè)較好的選擇。財(cái)務(wù)報(bào)表附注的作用是為了報(bào)表使用者更方便地閱讀財(cái)務(wù)報(bào)表,即對報(bào)表中未列報(bào)和披露項(xiàng)目進(jìn)行補(bǔ)充,以及對報(bào)表中列報(bào)的金額進(jìn)行解釋,或者對綜合性項(xiàng)目的明細(xì)內(nèi)容進(jìn)行披露。財(cái)務(wù)報(bào)表的編制有相關(guān)性、可比性、實(shí)質(zhì)重于形式、重要性等原則。
(三)財(cái)務(wù)報(bào)表附注的局限
市場經(jīng)濟(jì)迅速發(fā)展,企業(yè)的規(guī)模不斷擴(kuò)大,業(yè)務(wù)也不斷增多并涵蓋不同的行業(yè),這使得會(huì)計(jì)主體的交易和事項(xiàng)日趨復(fù)雜,作為會(huì)計(jì)信息主體的財(cái)務(wù)報(bào)表沒有得到使用者的重視,而附注作為財(cái)務(wù)報(bào)表的補(bǔ)充部分,其作用和篇幅甚至超過了財(cái)務(wù)報(bào)表的基本部分,這些使得財(cái)務(wù)報(bào)表附注容易出現(xiàn)以下問題:第一,財(cái)務(wù)報(bào)表附注內(nèi)容的增多使得表外信息過載。財(cái)務(wù)報(bào)表附注出現(xiàn)的目的就是為了幫助報(bào)告使用者更好地解讀財(cái)務(wù)報(bào)表,如果附注內(nèi)容過多、信息過于復(fù)雜,就可能本末倒置,使得使用者更加難以解讀財(cái)務(wù)報(bào)表。第二,由于財(cái)務(wù)報(bào)表附注可以對報(bào)表中未列示項(xiàng)目進(jìn)行補(bǔ)充與列示項(xiàng)目進(jìn)一步解釋,企業(yè)可能會(huì)把一些重要信息與非重要信息混雜于附注之中,混淆使用者的耳目,或者一些對企業(yè)不利的信息隱藏在附注大段的文字之中,而使報(bào)告使用者忽略這些信息。第三,財(cái)務(wù)報(bào)表作為財(cái)務(wù)報(bào)告的主體,是披露企業(yè)財(cái)務(wù)信息的主體的部分,但隨著財(cái)務(wù)報(bào)表附注披露篇幅的不斷增加以及使用者對附注的不斷關(guān)注,有可能使得報(bào)表和附注的主次位置顛倒[3]。
三、文本挖掘的相關(guān)理論
(一)相關(guān)概念
文本挖掘的對象是文本,它是一個(gè)分析文本數(shù)據(jù)、抽取有用信息、發(fā)掘知識的過程,文本挖掘的目的是指為了發(fā)現(xiàn)知識、提取信息,它從非結(jié)構(gòu)化的文本數(shù)據(jù)中提取的信息是隱含在文本中的,具有以前未知、對未來有用的特點(diǎn)[4]。
文本挖掘的對象是文本數(shù)據(jù),其具有非結(jié)構(gòu)化的特點(diǎn)。非結(jié)構(gòu)化數(shù)據(jù),簡單來說就是無法用真假二維邏輯表現(xiàn)的數(shù)據(jù),其數(shù)據(jù)格式、存儲(chǔ)方式、業(yè)務(wù)流程、數(shù)據(jù)結(jié)構(gòu)等不盡相同,具有難以標(biāo)準(zhǔn)化的特點(diǎn)。通過文本挖掘,可以把非結(jié)構(gòu)化的文本數(shù)據(jù)集合,用高度組織的方式表示,以向量、矩陣或表格的形式來呈現(xiàn)知識信息。
(二)文本挖掘的開發(fā)
文本挖掘技術(shù)作為數(shù)據(jù)挖掘的一種子技術(shù),在國外有著較為深入的研究,不僅在學(xué)術(shù)上做出了豐富的理論研究,在實(shí)際應(yīng)用上也有著豐碩的成果。目前,文本挖掘的應(yīng)用多集中在網(wǎng)絡(luò)文本數(shù)據(jù)的開發(fā)上,其文本數(shù)據(jù)可以直接從網(wǎng)絡(luò)上獲取,通過爬蟲技術(shù)可以搜集海量的文本數(shù)據(jù),建立數(shù)據(jù)庫,使用不同的文本挖掘技術(shù)以實(shí)現(xiàn)不同的目標(biāo)。目前的文本挖掘在商業(yè)文檔的分類、知識提取與總結(jié)、可視化分析上有著較為全面的功能,圍繞著挖掘文本信息的主題、提取關(guān)鍵信息來實(shí)現(xiàn)。
數(shù)據(jù)挖掘技術(shù)在國內(nèi)起步較遲,而文本挖掘的對象也發(fā)生了變化,由于中文的特點(diǎn),中文文本挖掘技術(shù)具有更復(fù)雜的過程和特點(diǎn),目前中文文本的挖掘技術(shù)在國內(nèi)并不是很完善,在學(xué)術(shù)和實(shí)際應(yīng)用中也不是很廣泛,主要集中在在線文本信息的挖掘,對于報(bào)告型的文檔研究較少。目前,類似的研究在企業(yè)社會(huì)責(zé)任報(bào)告上有一定體現(xiàn),段釗等[5]把PDF格式的報(bào)告進(jìn)行文本化處理,然后進(jìn)行文本挖掘,研究其報(bào)告披露的信息;此外,林鐘高等[6]提取企業(yè)年度報(bào)告中的董事會(huì)報(bào)告文本信息進(jìn)行相關(guān)研究;田程濤[7]在大數(shù)據(jù)審計(jì)理念下,導(dǎo)出被審計(jì)單位的非結(jié)構(gòu)化數(shù)據(jù),采用統(tǒng)計(jì)學(xué)的方法研究審計(jì)工作。目前尚未發(fā)現(xiàn)國內(nèi)有相關(guān)學(xué)者以財(cái)務(wù)報(bào)表附注為研究對象,使用文本挖掘技術(shù)進(jìn)行相關(guān)研究。
四、以文本挖掘?yàn)楣ぞ叩呢?cái)務(wù)報(bào)表附注分析
(一)資料來源
本文選取A股上市公司財(cái)務(wù)報(bào)告的財(cái)務(wù)報(bào)表附注作為樣本,通過手工處理對財(cái)務(wù)報(bào)表附注進(jìn)行文本化并錄入財(cái)務(wù)報(bào)表附注數(shù)據(jù)庫中。本文的樣本行業(yè)為航空公司,單個(gè)報(bào)告樣本來源為東方航空2017年度財(cái)務(wù)報(bào)告,行業(yè)分析為航空業(yè)中晨曦航空、上海航空等共計(jì)10家公司的2017年度財(cái)務(wù)報(bào)表附注。
(二)研究工具
ROST CM,全稱為ROST Content Mining,是本文主要使用的文本內(nèi)容挖掘工具,它由武漢大學(xué)的沈陽教授開發(fā)完成,可以實(shí)現(xiàn)分詞、微博信息分析、網(wǎng)站分析以及分詞、詞性標(biāo)注、社會(huì)網(wǎng)絡(luò)分析等功能,在社會(huì)科學(xué)研究中具有廣泛的應(yīng)用。
NetDraw是本文主要使用的文本挖掘可視化軟件,是一款社會(huì)網(wǎng)絡(luò)與語義網(wǎng)絡(luò)分析軟件,由Steve Borgatti開發(fā)完成,可以分析網(wǎng)絡(luò)中具有聯(lián)系的節(jié)點(diǎn)、節(jié)點(diǎn)之間聯(lián)系的緊密程度以及節(jié)點(diǎn)在網(wǎng)絡(luò)中的地位。NetDraw可以通過共現(xiàn)矩陣?yán)L制出反映網(wǎng)絡(luò)中各節(jié)點(diǎn)聯(lián)系的知識地圖。
(三)單個(gè)財(cái)務(wù)報(bào)表附注分析
1.分詞后形成高頻詞
分詞是進(jìn)行文本挖掘分析的第一步,也是將非結(jié)構(gòu)化的文本數(shù)據(jù)分解為可供統(tǒng)計(jì)與分析的詞匯的關(guān)鍵一步。在進(jìn)行分詞之前,首先要設(shè)定詞表,即被分析內(nèi)容要按照一定的標(biāo)準(zhǔn)進(jìn)行分詞處理,財(cái)務(wù)報(bào)表附注不同于一般文本,具有非常多的會(huì)計(jì)術(shù)語,而且根據(jù)不同的報(bào)告主體,里面的一些專有名詞也要進(jìn)行專門的定義。設(shè)定會(huì)計(jì)術(shù)語自定義詞表,一方面要包括會(huì)計(jì)術(shù)語“會(huì)計(jì)分期”“金融工具”等,另一方面包括公司的專有名詞即公司全稱、公司簡稱等,還要包括“2017年度”等作為一個(gè)整體具有特殊含義的詞匯。
以“遵循企業(yè)會(huì)計(jì)準(zhǔn)則的聲明”這樣一句話為例,分詞處理后就會(huì)得出“遵循 企業(yè)會(huì)計(jì)準(zhǔn)則 的 聲明”這樣的結(jié)果。被分析文本會(huì)以單個(gè)詞匯、單字的形式呈現(xiàn)出來。對分詞進(jìn)行統(tǒng)計(jì),可以得到財(cái)務(wù)報(bào)表附注詞頻表,即對不同的詞匯出現(xiàn)的次數(shù)的統(tǒng)計(jì)。由于篇幅所限,本文摘取了詞頻表中出現(xiàn)次數(shù)最多的前30個(gè)詞匯,編制出財(cái)務(wù)報(bào)表附注披露文本高頻詞匯表(見表1)。觀察發(fā)現(xiàn),出現(xiàn)頻率最高的關(guān)鍵詞的“本集團(tuán)”;其次是“資產(chǎn)”“東航”“確認(rèn)”“公允價(jià)值”“金額”“計(jì)量”等。
會(huì)計(jì)四大假設(shè)是核算的前提,這在詞頻統(tǒng)計(jì)中得到了很好的體現(xiàn),會(huì)計(jì)主體“本集團(tuán)”是出現(xiàn)最多的詞,其次是公司簡稱“東航”,而“金額”與貨幣計(jì)量相關(guān)的關(guān)鍵詞出現(xiàn)頻率也居前列,會(huì)計(jì)“確認(rèn)”和“計(jì)量”則是財(cái)務(wù)信息記錄的方法。詞頻統(tǒng)計(jì)與分析是文本挖掘最簡單的一步,它可以直接反映被挖掘文本內(nèi)容的關(guān)鍵信息以及關(guān)鍵信息出現(xiàn)的頻率,其缺點(diǎn)是只能觀察出獨(dú)立的關(guān)鍵信息,而無法觀察出它們之間的聯(lián)系。
2.共現(xiàn)分析
共現(xiàn)是指被挖掘文本中分詞得到的不同的關(guān)鍵詞共同出現(xiàn)的現(xiàn)象,共現(xiàn)分析可以實(shí)現(xiàn)比較一組關(guān)鍵詞直接的聯(lián)系,即兩個(gè)關(guān)鍵詞之間是否有聯(lián)系,哪兩個(gè)關(guān)鍵詞之間有聯(lián)系。是否具有關(guān)聯(lián)可以通過是否具有共現(xiàn)頻數(shù)進(jìn)行測量,關(guān)聯(lián)程度的大小則可以通過共現(xiàn)頻數(shù)的大小來測量。將分詞后的文本導(dǎo)入ROST CM軟件,可以構(gòu)建出所有關(guān)聯(lián)詞匯的共現(xiàn)矩陣詞表,本文只摘取了部分關(guān)鍵詞,呈現(xiàn)了財(cái)務(wù)報(bào)表附注披露信息關(guān)鍵詞的11×11的共現(xiàn)矩陣(見表2)。觀察發(fā)現(xiàn),“資產(chǎn)”與“確認(rèn)”這一組關(guān)鍵詞一起出現(xiàn)了43次,而“金融資產(chǎn)”與“確認(rèn)”這一組關(guān)鍵詞共同出現(xiàn)了24次,表明附注中著重披露了資產(chǎn)的確認(rèn)這一方面的信息;“子公司”關(guān)鍵詞只與“東航”共同出現(xiàn),表明在附注中披露的子公司信息是圍繞著公司主體出現(xiàn)的。在11個(gè)關(guān)鍵詞中,“確認(rèn)”與“計(jì)入”兩個(gè)關(guān)鍵詞是與其他關(guān)鍵詞共同出現(xiàn)最多的詞,分別與7個(gè)詞共同出現(xiàn),表明在附注中披露的項(xiàng)目及其金額是圍繞著金額如何確認(rèn)、計(jì)入何種項(xiàng)目中去的。
共現(xiàn)分析與高頻詞分析相比是二維的,即高頻詞分析只能觀察出財(cái)務(wù)報(bào)表附注披露關(guān)鍵事項(xiàng)的出現(xiàn)次數(shù),而共現(xiàn)分析可以看出披露內(nèi)容的兩個(gè)關(guān)鍵詞之間的聯(lián)系。共現(xiàn)分析的一大缺點(diǎn)是只能分析一組關(guān)鍵詞的直接聯(lián)系,即只能比較兩個(gè)關(guān)鍵詞之間的直接聯(lián)系,不能看出多個(gè)關(guān)鍵詞之間的聯(lián)系以及關(guān)鍵詞之間的間接聯(lián)系。
3.語義網(wǎng)絡(luò)分析
對文本挖掘可視化程度最高的是語義網(wǎng)絡(luò)分析,它可以構(gòu)建出財(cái)務(wù)報(bào)表附注披露信息的知識地圖,語義網(wǎng)絡(luò)圖可以觀察出不同關(guān)鍵詞之間的直接聯(lián)系和間接聯(lián)系,把整個(gè)財(cái)務(wù)報(bào)表附注披露內(nèi)容的信息在一張圖中構(gòu)建信息知識地圖。通過NetDraw制作的語義網(wǎng)絡(luò)圖,可以自定義設(shè)置圖形來展示不同關(guān)鍵詞的特征,關(guān)鍵詞節(jié)點(diǎn)的大小表現(xiàn)了關(guān)鍵詞的中心程度,不同節(jié)點(diǎn)之間的連線表明了不同關(guān)鍵詞之間具有聯(lián)系,關(guān)鍵詞連線的長度體現(xiàn)了不同關(guān)鍵詞直接聯(lián)系程度的大小。
通過財(cái)務(wù)報(bào)表附注信息披露關(guān)鍵詞語義網(wǎng)絡(luò)圖可以觀察出:第一,會(huì)計(jì)主體“本集團(tuán)”節(jié)點(diǎn)圖形最大,表明其中心程度最高,會(huì)計(jì)主體處于財(cái)務(wù)報(bào)表附注信息披露內(nèi)容的關(guān)鍵詞語義網(wǎng)絡(luò)中心。第二,“資產(chǎn)”“收入”“當(dāng)期損益”“現(xiàn)金流量”等一系列體現(xiàn)的經(jīng)營成果和財(cái)務(wù)狀況的關(guān)鍵詞與“確認(rèn)”“計(jì)量”等會(huì)計(jì)活動(dòng)關(guān)鍵詞節(jié)點(diǎn)的大小為第二大,也是中心節(jié)點(diǎn)的外圍節(jié)點(diǎn),這些關(guān)鍵詞節(jié)點(diǎn)一方面以“本集團(tuán)”會(huì)計(jì)主體為會(huì)計(jì)活動(dòng)或事項(xiàng)的主體,另一方面與“金融工具”“壞賬準(zhǔn)備”等其他報(bào)表項(xiàng)目和“物流”“發(fā)動(dòng)機(jī)”等公司業(yè)務(wù)層面活動(dòng)相聯(lián)系,第二外圍的節(jié)點(diǎn)是構(gòu)建會(huì)計(jì)主體中心節(jié)點(diǎn)和外圍項(xiàng)目及業(yè)務(wù)活動(dòng)的紐帶。第三,最外圍的“金融工具”“壞賬準(zhǔn)備”“余額”等關(guān)鍵詞則是財(cái)務(wù)報(bào)表附注披露的其他會(huì)計(jì)事項(xiàng)以及“發(fā)動(dòng)機(jī)”“物流”“進(jìn)出口”等與公司業(yè)務(wù)相關(guān)的關(guān)鍵詞,這些外圍的關(guān)鍵詞出現(xiàn)的次數(shù)較少,表明這些財(cái)務(wù)報(bào)表附注中的關(guān)鍵詞中心程度較低,與其他信息披露內(nèi)容的關(guān)鍵詞節(jié)點(diǎn)聯(lián)系較少,在附注中并非屬于重要信息。詳見圖1。
(四)行業(yè)報(bào)表附注分析
首先進(jìn)行分詞后提取關(guān)鍵詞,得到關(guān)鍵詞詞頻表,表3列示了頻數(shù)前30的行業(yè)財(cái)務(wù)報(bào)表附注關(guān)鍵詞高頻詞匯表。財(cái)務(wù)報(bào)表主要以列報(bào)數(shù)字為主,“金額”作為各項(xiàng)目實(shí)際金額的關(guān)鍵詞成為出現(xiàn)頻數(shù)最高的關(guān)鍵詞,其次是會(huì)計(jì)主體“本公司”,“資產(chǎn)”類項(xiàng)目作為財(cái)務(wù)報(bào)表中的重要項(xiàng)目在財(cái)務(wù)報(bào)表附注中披露頻率也很高,在后面出現(xiàn)的關(guān)鍵詞中,“單位”“余額”“計(jì)量”等出現(xiàn)較多的關(guān)鍵詞反映了披露貨幣計(jì)量相關(guān)的內(nèi)容,“航空”“機(jī)場”“飛機(jī)”“服務(wù)”等關(guān)鍵詞反映了企業(yè)業(yè)務(wù)。
構(gòu)建12×12共現(xiàn)矩陣表(見表4),可以發(fā)現(xiàn)反映財(cái)務(wù)報(bào)表列報(bào)數(shù)字的“金額”依舊是與各關(guān)鍵詞共現(xiàn)頻率較高的詞,表明在整個(gè)航空業(yè)財(cái)務(wù)報(bào)表附注對報(bào)表中各項(xiàng)目所列示金額的合理確認(rèn)是附注披露的重點(diǎn)內(nèi)容;“資產(chǎn)”作為財(cái)務(wù)報(bào)表中列報(bào)的重點(diǎn)項(xiàng)目類別,在附注中與“確認(rèn)”“計(jì)入”等表面資產(chǎn)記錄于財(cái)務(wù)報(bào)表中的方式。
進(jìn)行關(guān)鍵詞語義網(wǎng)絡(luò)分析,可以構(gòu)建出航空業(yè)財(cái)務(wù)報(bào)表附注關(guān)鍵詞知識地圖(見圖2),可以看出“確認(rèn)”成為網(wǎng)絡(luò)中心關(guān)鍵詞,其次是“資產(chǎn)”“金額”“計(jì)入”。與個(gè)體報(bào)表附注披露內(nèi)容知識地圖相比,行業(yè)報(bào)告披露的內(nèi)容所構(gòu)建的語義網(wǎng)絡(luò)表達(dá)了更豐富、更全面的航空業(yè)的報(bào)表附注所披露信息關(guān)鍵詞之間的邏輯關(guān)系。可以看出,資產(chǎn)、負(fù)債、當(dāng)期損益、收入、成本等實(shí)質(zhì)性內(nèi)容在財(cái)務(wù)報(bào)表附注披露中,與確認(rèn)、計(jì)量、計(jì)入等會(huì)計(jì)記錄手段相比較少,表面附注披露的內(nèi)容更關(guān)注把報(bào)表中的項(xiàng)目正式記錄和計(jì)入財(cái)務(wù)報(bào)表內(nèi)的全過程。
五、結(jié)論與展望
(一)研究結(jié)論
第一,財(cái)務(wù)報(bào)表附注具有對報(bào)表各項(xiàng)目及其金額進(jìn)行解釋和補(bǔ)充的重要作用,其信息披露的篇幅越來越長,信息披露內(nèi)容成為報(bào)告使用者重點(diǎn)關(guān)注的內(nèi)容。但是財(cái)務(wù)報(bào)表附注也存在著一些問題,比如表外信息過量讓報(bào)告使用者閱讀難度增加,重要信息與非重要信息混雜從而誤導(dǎo)使用者等。
第二,文本挖掘技術(shù)具有把文本中非結(jié)構(gòu)化數(shù)據(jù)抽取為可視化、規(guī)則化、結(jié)構(gòu)化信息的特征,其對于直接獲取的網(wǎng)絡(luò)文本信息應(yīng)用較多,對于傳統(tǒng)的報(bào)告型文檔應(yīng)用較少。
第三,使用文本挖掘作為研究工具分析財(cái)務(wù)報(bào)表附注,可以發(fā)現(xiàn)有分詞、詞頻統(tǒng)計(jì)、共現(xiàn)分析、語義網(wǎng)絡(luò)分析等途徑來實(shí)現(xiàn),分詞是對財(cái)務(wù)報(bào)表附注進(jìn)行文本挖掘的前提,即把文本集合進(jìn)行信息拆分;詞頻統(tǒng)計(jì)是對財(cái)務(wù)報(bào)表附注披露關(guān)鍵詞的簡單統(tǒng)計(jì),可以最直觀地看出披露內(nèi)容重點(diǎn)集中在哪些信息上;共現(xiàn)分析可以實(shí)現(xiàn)具有直接聯(lián)系關(guān)鍵詞的呈現(xiàn),即通過共現(xiàn)矩陣發(fā)現(xiàn)哪些關(guān)鍵詞直接具有聯(lián)系并聯(lián)系較多;語義網(wǎng)絡(luò)分析是可以繪制出關(guān)鍵詞節(jié)點(diǎn)的中心程度以及信息披露內(nèi)容關(guān)鍵詞之間的直接聯(lián)系和間接聯(lián)系,它構(gòu)建了一幅財(cái)務(wù)報(bào)表附注披露信息的知識地圖。
第四,財(cái)務(wù)報(bào)表附注的信息披露,通過文本挖掘可以發(fā)現(xiàn)一些顯著的特征,一是重點(diǎn)關(guān)注會(huì)計(jì)事項(xiàng)的確認(rèn)和計(jì)量,對報(bào)表所列報(bào)金額的完整性、連續(xù)性等方面的驗(yàn)證。二是財(cái)務(wù)報(bào)表附注重點(diǎn)披露了資產(chǎn)類科目的項(xiàng)目內(nèi)容和明細(xì)資料。三是附注圍繞著會(huì)計(jì)主體而展開,重點(diǎn)披露了報(bào)表中報(bào)告主體各項(xiàng)目的內(nèi)容,作為報(bào)表的補(bǔ)充,對子公司、關(guān)聯(lián)方交易等重大事項(xiàng)也做出了說明。四是附注說明了報(bào)表中金額的來源是根據(jù)一定的規(guī)則得出的,即按照準(zhǔn)則、按照公司的會(huì)計(jì)政策或者其他有供選擇的標(biāo)準(zhǔn),金額的來源具有合理性的保證。
(二)研究不足
本文在使用文本挖掘作為工具研究財(cái)務(wù)報(bào)表附注披露的過程中發(fā)現(xiàn)了研究中存在著很多不足:第一,樣本規(guī)模較小,行業(yè)綜合分析上,選擇了航空業(yè),由于航空上市公司較少,只選擇了主板上市的10家航空公司,樣本量較個(gè)體分析而言差異不是很大;第二,文本挖掘尚不夠深入,本文只是使用了文本挖掘技術(shù)中分詞、詞頻統(tǒng)計(jì)、共現(xiàn)分析、語義網(wǎng)絡(luò)分析等功能研究財(cái)務(wù)報(bào)表附注信息披露的特點(diǎn),功能并沒有涵蓋文本挖掘技術(shù)的全部,技術(shù)尚不夠深入,而且是通過相同的分析技術(shù)分析了不同的研究對象,沒有多元化分析。
(三)建議
通過對研究的總結(jié)和不足的反思,對使用文本挖掘技術(shù)作為研究財(cái)務(wù)報(bào)表附注的工具,可以對未來的研究提出建議:第一,使用文本挖掘技術(shù)中的聚類分析,對財(cái)務(wù)報(bào)表附注信息披露的關(guān)鍵詞進(jìn)行聚類,與企業(yè)會(huì)計(jì)準(zhǔn)則中規(guī)定的應(yīng)當(dāng)披露的內(nèi)容進(jìn)行對比分析。第二,由于會(huì)計(jì)師事務(wù)所出具財(cái)務(wù)報(bào)告都具有各所的模板,可以通過相似性對比,比較由同一家事務(wù)所出具的不同年份的同一家企業(yè)的報(bào)告的相似性,以及相同行業(yè)企業(yè)財(cái)務(wù)報(bào)表附注的相似性。
【參考文獻(xiàn)】
[1] 財(cái)政部會(huì)計(jì)司.企業(yè)會(huì)計(jì)準(zhǔn)則第30號——財(cái)務(wù)報(bào)表列報(bào)[M].北京:中國財(cái)政經(jīng)濟(jì)出版社,2014.
[2] 中國證券監(jiān)督管理委員會(huì).公開發(fā)行證券的公司信息披露編報(bào)規(guī)則第15號——財(cái)務(wù)報(bào)告的一般規(guī)定(2014年修訂)[EB/OL].http://www.csrc.gov.cn/pub/zjhpublic/G00306201/201412/t20141226_265704.htm,
2014-12-15.
[3] 葛家澍,杜興強(qiáng),等.會(huì)計(jì)理論[M].上海:復(fù)旦大學(xué)出版社,2015.
[4] TAN A H.Text mining:the state of the art and challenges[Z]. Proceedings of the Pakdd Workshop on Knowledge Discovery from Advanced Databases,1999:65-70.
[5] 段釗,何雅娟,鐘原.企業(yè)社會(huì)責(zé)任信息披露是否客觀——基于文本挖掘的我國上市公司實(shí)證研究[J].南開管理評論,2017,20(4):62-72.
[6] 林鐘高,楊雨馨.風(fēng)險(xiǎn)提示信息與銀行信貸決策——基于A股上市公司年報(bào)文本信息的研究[J].安徽師范大學(xué)學(xué)報(bào)(人文社會(huì)科學(xué)版),2017,45(2):245-255.
[7] 田程濤.大數(shù)據(jù)審計(jì)下統(tǒng)計(jì)分析方法研究[J].會(huì)計(jì)之友,2018(1):140-145.
【作者簡介】 宋英慧(1968— ),女,吉林長春人,博士,東北師范大學(xué)人文學(xué)院教授、東北師范大學(xué)商學(xué)院教授,研究方向:財(cái)務(wù)會(huì)計(jì)理論與實(shí)務(wù);黃麒(1996— ),男,江蘇泗陽人,東北師范大學(xué)商學(xué)院,研究方向:文本挖掘、財(cái)務(wù)會(huì)計(jì)