国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的長(zhǎng)期股權(quán)投資分類(lèi)模型

2022-11-22 09:20廈門(mén)大學(xué)管理學(xué)院葉莉莉陳亞盛
管理會(huì)計(jì)研究 2022年5期
關(guān)鍵詞:分詞文檔向量

文 · 廈門(mén)大學(xué)管理學(xué)院 葉莉莉 陳亞盛

一、引言

隨著全球經(jīng)濟(jì)的不斷發(fā)展與變化,投資在企業(yè)三大活動(dòng)中所占的比例越來(lái)越高,成為企業(yè)中極其重要的活動(dòng)。長(zhǎng)期股權(quán)投資作為投資活動(dòng)的重要類(lèi)別,可分為對(duì)子公司的投資、對(duì)合營(yíng)企業(yè)的投資和對(duì)聯(lián)營(yíng)企業(yè)的投資三類(lèi)。根據(jù)會(huì)計(jì)準(zhǔn)則要求、分類(lèi)不同,適用的初始計(jì)量和后期核算方法都不一樣。在此背景下,有些企業(yè)可能會(huì)鉆空子,將投資分類(lèi)為利好業(yè)績(jī)的一類(lèi),達(dá)到調(diào)整報(bào)表業(yè)績(jī)的目的,影響市場(chǎng)投資者的判斷。因此,一個(gè)能對(duì)長(zhǎng)期股權(quán)投資進(jìn)行正確分類(lèi)的工具,不論是對(duì)保證企業(yè)會(huì)計(jì)核算的準(zhǔn)確性、提高審計(jì)的質(zhì)量,抑或是增強(qiáng)監(jiān)管機(jī)構(gòu)的監(jiān)督能力,都具有十分重要的意義。

目前,因構(gòu)成股權(quán)投資的合同、協(xié)議等有大量的文字,對(duì)它們的分類(lèi)只能依賴(lài)人工判斷。而從審計(jì)工作和政府監(jiān)管的需求來(lái)看,面對(duì)企業(yè)大量的長(zhǎng)期股權(quán)投資,若僅采用人工分類(lèi),耗時(shí)長(zhǎng)且效率低。為彌補(bǔ)人工分類(lèi)的不足,本文嘗試運(yùn)用自然語(yǔ)言處理技術(shù)和機(jī)器學(xué)習(xí)方法,構(gòu)建一個(gè)長(zhǎng)期股權(quán)投資的分類(lèi)模型,希望能通過(guò)此模型實(shí)現(xiàn)對(duì)股權(quán)投資的初步分類(lèi),在一定程度上實(shí)現(xiàn)股權(quán)投資分類(lèi)的自動(dòng)化和批量化。

二、長(zhǎng)期股權(quán)投資

(一)股權(quán)投資定義

股權(quán)投資,又稱(chēng)權(quán)益性投資,是指投資方通過(guò)付出現(xiàn)金或其他資產(chǎn)獲得被投資單位的股份,享有被投資單位的相關(guān)股東權(quán)利。股權(quán)投資形成投資方的金融資產(chǎn)、被投資單位的權(quán)益工具。根據(jù)投資之后投資方能夠?qū)Ρ煌顿Y單位施加影響的程度,將其分為按照《企業(yè)會(huì)計(jì)準(zhǔn)則第22號(hào)—金融工具確認(rèn)和計(jì)量》進(jìn)行核算和按照《企業(yè)會(huì)計(jì)準(zhǔn)則第2號(hào)—長(zhǎng)期股權(quán)投資》進(jìn)行核算兩類(lèi)。本文研究的是長(zhǎng)期股權(quán)投資的分類(lèi)。

(二)長(zhǎng)期股權(quán)投資的分類(lèi)依據(jù)

根據(jù)投資方對(duì)被投資單位施加影響的程度,長(zhǎng)期股權(quán)投資可以分為對(duì)聯(lián)營(yíng)企業(yè)投資、對(duì)合營(yíng)企業(yè)投資和對(duì)子公司投資三類(lèi)。

1.對(duì)聯(lián)營(yíng)企業(yè)投資

對(duì)聯(lián)營(yíng)企業(yè)投資,是指投資方能夠?qū)Ρ煌顿Y單位施加重大影響的股權(quán)投資。對(duì)于重大影響的判定,企業(yè)會(huì)計(jì)準(zhǔn)則沒(méi)有給出具體的判斷標(biāo)準(zhǔn),只是將其定義為“投資方對(duì)被投資單位的財(cái)務(wù)和生產(chǎn)經(jīng)營(yíng)決策有參與決策的權(quán)力,但并不能夠控制或者與其他方一起共同控制這些政策的制定”。會(huì)計(jì)準(zhǔn)則應(yīng)用指南中舉例了以下情況來(lái)判斷是否具有重大影響:在董事會(huì)或類(lèi)似機(jī)構(gòu)派有代表、發(fā)生重要交易、派有管理人員、提供關(guān)鍵技術(shù)材料等。

2.對(duì)合營(yíng)企業(yè)投資

對(duì)合營(yíng)企業(yè)投資,是指投資方持有的對(duì)構(gòu)成合營(yíng)企業(yè)的合營(yíng)安排的投資。判斷對(duì)合營(yíng)企業(yè)的投資時(shí),首先看是否構(gòu)成合營(yíng)安排,其次看有關(guān)合營(yíng)安排是否構(gòu)成合營(yíng)企業(yè)。

3.對(duì)子公司投資

當(dāng)投資方能夠直接對(duì)被投資單位實(shí)施控制時(shí),該投資即為對(duì)子公司的投資??刂?,是指投資方擁有對(duì)被投資方的權(quán)力,通過(guò)參與被投資方的相關(guān)活動(dòng)而享有可變回報(bào),并且有能力運(yùn)用對(duì)被投資方的權(quán)力影響其回報(bào)金額。會(huì)計(jì)準(zhǔn)則中定義控制的三項(xiàng)基本要素為相關(guān)活動(dòng)主導(dǎo)權(quán)、獲利權(quán)和影響回報(bào)權(quán)。

基于以上會(huì)計(jì)準(zhǔn)則的要求,在判斷長(zhǎng)期股權(quán)投資的類(lèi)別時(shí),最重要的是尋找關(guān)于權(quán)力來(lái)源、控股比例、董事會(huì)結(jié)構(gòu)等方面的關(guān)鍵信息。

三、自然語(yǔ)言處理與機(jī)器學(xué)習(xí)方法

本文嘗試實(shí)現(xiàn)長(zhǎng)期股權(quán)投資的智能分類(lèi),是對(duì)文本類(lèi)型的數(shù)據(jù)進(jìn)行分類(lèi)。因此,在構(gòu)建模型前,我們需要先將數(shù)據(jù)進(jìn)行自然語(yǔ)言處理,對(duì)文本進(jìn)行分詞,通過(guò)統(tǒng)計(jì)方法將文本數(shù)據(jù)轉(zhuǎn)換為向量形式的數(shù)值型數(shù)據(jù)。在此基礎(chǔ)上,我們?cè)贅?gòu)建適合的機(jī)器學(xué)習(xí)分類(lèi)模型對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。

(一)文本分詞技術(shù)

分詞是將一段文本分割為詞語(yǔ),主要應(yīng)用于自然語(yǔ)言處理,如進(jìn)行關(guān)鍵詞提取優(yōu)化搜索、智能問(wèn)答系統(tǒng)中語(yǔ)義分析等。英文中使用空格來(lái)分開(kāi)每個(gè)單詞,而中文詞語(yǔ)和單個(gè)字之間的含義有時(shí)相差甚遠(yuǎn),因此需要采用專(zhuān)門(mén)的中文分詞來(lái)進(jìn)行語(yǔ)句切割。本文的研究是基于Python語(yǔ)言進(jìn)行代碼編寫(xiě),Python中有許多中文分詞庫(kù),常見(jiàn)的有jieba、THULAC、pkuseg等。本文選用的是jieba分詞。

jieba分詞支持四種分詞模式:精確模式、全模式、搜索引擎模式和paddle模式。除簡(jiǎn)單的分詞模式外,jieba還支持繁體分詞、自定義詞典和詞性標(biāo)注等,是一個(gè)強(qiáng)大的中文開(kāi)源分詞包,擁有高性能與高準(zhǔn)確率、可擴(kuò)展等特點(diǎn)。

(二)TF-IDF統(tǒng)計(jì)方法

TF-IDF是用于評(píng)估字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度的統(tǒng)計(jì)方法。TF-IDF統(tǒng)計(jì)方法的主要思想是:如果某個(gè)詞語(yǔ)或短語(yǔ)在一篇文章中出現(xiàn)的頻率很高,同時(shí)它在其他文章中很少出現(xiàn),則認(rèn)為此詞語(yǔ)或短語(yǔ)具有很好的類(lèi)別區(qū)分能力,適合用來(lái)分類(lèi)。其實(shí)際上是TF(Term frequency,詞頻)* IDF(Inverse document frequency,逆文檔頻率)。

TF,詞頻,即某個(gè)詞語(yǔ)在文檔中出現(xiàn)的次數(shù)。出現(xiàn)頻率越高的詞語(yǔ),TF值越大。TF的計(jì)算公式為:

TF(a)表示詞語(yǔ)a在一篇文檔Di中出現(xiàn)的頻率,ma表示詞語(yǔ)a在文檔Di中出現(xiàn)的頻數(shù),M表示文檔Di中所有的詞語(yǔ)總數(shù)。

IDF,逆文檔頻率,即一個(gè)詞語(yǔ)普遍重要性的度量。其思想是當(dāng)包含某個(gè)詞語(yǔ)的文檔數(shù)越少時(shí),該詞語(yǔ)越適合用來(lái)做分類(lèi);而當(dāng)包含某個(gè)詞語(yǔ)的文檔數(shù)很多時(shí),其類(lèi)別區(qū)分能力就很弱,不適合用來(lái)做分類(lèi),比如介詞、代詞等在大多數(shù)文檔中均存在的詞語(yǔ)便不適合用來(lái)分類(lèi)。IDF的計(jì)算公式為:

其中a為詞語(yǔ),N為語(yǔ)料庫(kù)中包含的文檔數(shù)量,n(a)為包含詞語(yǔ)a的文檔數(shù)量。因此:

該權(quán)重值包含了詞語(yǔ)在一篇文檔中所占的比例以及在其他文檔中所占的比例兩個(gè)部分,兼顧了詞語(yǔ)的重要性和對(duì)于文檔的代表性?xún)蓚€(gè)方面,能幫助找出每一篇文檔中的特征詞,可以作為很好的分類(lèi)輔助工具。通過(guò)計(jì)算詞語(yǔ)的TF-IDF值,并對(duì)應(yīng)組合成一個(gè)長(zhǎng)向量,便可以將文本型數(shù)據(jù)轉(zhuǎn)換為機(jī)器能理解和處理的數(shù)值型數(shù)據(jù),通過(guò)對(duì)每一篇文檔對(duì)應(yīng)的向量進(jìn)行分類(lèi),即可實(shí)現(xiàn)對(duì)文檔的分類(lèi)。

(三)支持向量機(jī)分類(lèi)模型

支持向量機(jī)(Support Vector Machine,SVM)是按監(jiān)督學(xué)習(xí)方式的分類(lèi)算法,通過(guò)輸入已標(biāo)記好類(lèi)別的數(shù)據(jù)來(lái)對(duì)模型進(jìn)行訓(xùn)練,機(jī)器通過(guò)數(shù)據(jù)計(jì)算得到待分類(lèi)數(shù)據(jù)的分類(lèi)邊界,對(duì)輸入的數(shù)據(jù)進(jìn)行分類(lèi)。以下通過(guò)二維數(shù)據(jù)點(diǎn)對(duì)支持向量機(jī)模型做簡(jiǎn)要解釋。

如圖1所示,在二維數(shù)據(jù)下,對(duì)圖中兩類(lèi)數(shù)據(jù)(橙色三角形和藍(lán)色圓點(diǎn))進(jìn)行分類(lèi),模型需找到其最好的分類(lèi)邊界,這樣不僅能在現(xiàn)存數(shù)據(jù)下進(jìn)行最優(yōu)分類(lèi),還能在后續(xù)有新加入的數(shù)據(jù)點(diǎn)時(shí)做到分類(lèi)最優(yōu),準(zhǔn)確率最高。在該二維數(shù)據(jù)分布下,圖中的綠色直線便是最佳決策邊界。此時(shí),兩邊數(shù)據(jù)點(diǎn)都與決策邊界有一定的距離,藍(lán)色直線和橙色直線間的空白處成為緩沖區(qū)。當(dāng)藍(lán)色直線和橙色直線的間隔最大時(shí),待分類(lèi)數(shù)據(jù)點(diǎn)便有足夠大的緩沖區(qū),分類(lèi)出現(xiàn)錯(cuò)誤的概率就最低。因此,模型要解決的問(wèn)題是找到最佳決策邊界,即找到兩條直線的最大間隔。

圖1 二維數(shù)據(jù)下決策邊界的確定

要使間隔最大,則要找到兩類(lèi)數(shù)據(jù)中分別處于最邊界的兩個(gè)點(diǎn),即圖1中在藍(lán)色直線上的圓點(diǎn)和橙色直線上的三角形,我們將這兩個(gè)點(diǎn)稱(chēng)為支持向量。中間的決策邊界為,藍(lán)色直線為,橙色直線為(此處和為二維向量的兩個(gè)維度輸入值;和為兩個(gè)維度值對(duì)應(yīng)的權(quán)重值,決定決策邊界的方向;b為偏置項(xiàng),決定決策邊界左右移動(dòng)的距離;c為兩側(cè)支持向量點(diǎn)與決策邊界的距離)。通過(guò)數(shù)學(xué)公式轉(zhuǎn)換與相應(yīng)代替,基于支持向量點(diǎn),結(jié)合決策邊界的函數(shù)式,利用向量運(yùn)算的規(guī)則,可以推導(dǎo)出求解最大間隔等同于在約束條件下求解長(zhǎng)度的最小值。此時(shí),通過(guò)轉(zhuǎn)換約束條件格式和運(yùn)用拉格朗日函數(shù)即可求解出和b值。

當(dāng)數(shù)據(jù)從二維拓展到高維度下,SVM模型運(yùn)用核技巧,使用核函數(shù)獲取數(shù)據(jù)的高維度向量差異度,來(lái)減少因升維而導(dǎo)致的計(jì)算量和避免維度爆炸,簡(jiǎn)化運(yùn)算,提高效率。同時(shí),不同的核函數(shù)也會(huì)有不同的參數(shù),在調(diào)用過(guò)程中不斷調(diào)整來(lái)選擇最合適的參數(shù)匹配模型,達(dá)到模型最優(yōu)化。與其他分類(lèi)算法相比,SVM更適合于小樣本訓(xùn)練,可簡(jiǎn)化分類(lèi)和回歸問(wèn)題。同時(shí),SVM對(duì)異常值不敏感,有優(yōu)秀的泛化能力,也便于通過(guò)調(diào)整參數(shù)來(lái)達(dá)到更好的擬合。

(四)自然語(yǔ)言處理和機(jī)器學(xué)習(xí)算法應(yīng)用于投資類(lèi)型分類(lèi)的原理

在構(gòu)建模型過(guò)程中,本文首先將數(shù)據(jù)通過(guò)文本分詞技術(shù)分成單個(gè)字或詞,將所有的字詞構(gòu)建成一個(gè)詞典。之后計(jì)算每一條數(shù)據(jù)分詞后所得的字詞在整個(gè)語(yǔ)料庫(kù)中的TF-IDF值,并按照詞典統(tǒng)一的順序形成一個(gè)包含各個(gè)字詞TF-IDF值的多維向量,總維數(shù)是詞典中字詞的數(shù)量,如此能確保所有數(shù)據(jù)的維數(shù)都一樣,之后才能進(jìn)行模型構(gòu)造。一條數(shù)據(jù)中不存在的詞語(yǔ)即按TFIDF的計(jì)算公式計(jì)算所得為0標(biāo)注,因此每條數(shù)據(jù)對(duì)應(yīng)的向量都會(huì)有一些維數(shù)是0,數(shù)據(jù)越短則向量中為0的維數(shù)可能越多。將收集到的數(shù)據(jù)分為訓(xùn)練集和測(cè)試集。訓(xùn)練集預(yù)先人工標(biāo)注好類(lèi)別以供機(jī)器進(jìn)行監(jiān)督學(xué)習(xí)。機(jī)器通過(guò)訓(xùn)練集的向量數(shù)據(jù)和標(biāo)記類(lèi)別進(jìn)行監(jiān)督學(xué)習(xí),生成劃分兩類(lèi)數(shù)據(jù)向量的最佳決策邊界。之后輸入測(cè)試集的向量數(shù)據(jù),模型通過(guò)判斷其位于決策邊界的哪一側(cè)來(lái)對(duì)其進(jìn)行分類(lèi),輸出結(jié)果。

因此,在模型構(gòu)建中,機(jī)器進(jìn)行學(xué)習(xí)主要依靠的是向量數(shù)據(jù)?;谏衔慕榻B的TF-IDF統(tǒng)計(jì)方法,TF-IDF值可用來(lái)衡量詞語(yǔ)的重要性和對(duì)于文檔的代表性,即可以幫助機(jī)器找出每段數(shù)據(jù)文本的關(guān)鍵詞,如董事會(huì)、成員人數(shù)、表決權(quán)、重要影響等。這和人在進(jìn)行長(zhǎng)期股權(quán)投資分類(lèi)時(shí),需要關(guān)注董事會(huì)人數(shù)和控股比例等關(guān)鍵內(nèi)容類(lèi)似。

例如,冠城大通股份有限公司2021年的年度報(bào)告披露:“公司對(duì)北京海淀科技園建設(shè)股份有限公司下屬公司北京盛世翌豪房地產(chǎn)經(jīng)紀(jì)有限公司(以下簡(jiǎn)稱(chēng)‘盛世翌豪’)的間接持股比例合計(jì)為50%,鑒于公司委派的董事占盛世翌豪董事會(huì)成員總?cè)藬?shù)的一半以上,在盛世翌豪董事會(huì)中占多數(shù)表決權(quán),能夠控制盛世翌豪?!睍?huì)計(jì)人員在讀取完本段文字時(shí),會(huì)著重注意“持股比例合計(jì)為50%”和“委派的董事占盛世翌豪董事會(huì)成員總?cè)藬?shù)的一半以上”這兩個(gè)關(guān)鍵內(nèi)容,基于其占多數(shù)表決權(quán)、能控制盛世翌豪來(lái)將該股權(quán)投資分類(lèi)為對(duì)子公司的投資。而機(jī)器在通過(guò)分詞和TF-IDF計(jì)算后,讀取到的關(guān)鍵詞包括“持股比例”“50%”“總?cè)藬?shù)”“一半以上”“多數(shù)表決權(quán)”“控制”等。在大量讀取并處理我們標(biāo)記好的數(shù)據(jù)后,通過(guò)不斷的學(xué)習(xí),機(jī)器會(huì)生成算法將文本中有“多數(shù)表決權(quán)”“一半以上”等詞語(yǔ)作為子公司投資類(lèi)別的關(guān)鍵詞。因?yàn)檫@幾個(gè)關(guān)鍵詞更有可能在被標(biāo)記為子公司投資類(lèi)別的文本樣本中出現(xiàn)。

四、長(zhǎng)期股權(quán)投資分類(lèi)模型構(gòu)建

本文選取上海證券交易所披露的上市公司定期報(bào)告中“在其他主體中的權(quán)益”部分關(guān)于對(duì)子公司的投資和對(duì)合營(yíng)企業(yè)或聯(lián)營(yíng)企業(yè)的投資文本描述內(nèi)容作為數(shù)據(jù)來(lái)源,通過(guò)構(gòu)建支持向量機(jī)模型,對(duì)這些包含有長(zhǎng)期股權(quán)投資內(nèi)容的文本數(shù)據(jù)進(jìn)行分類(lèi),將長(zhǎng)期股權(quán)投資分為對(duì)子公司的投資和對(duì)合營(yíng)企業(yè)或聯(lián)營(yíng)企業(yè)的投資。

(一)文本分詞處理

首先對(duì)收集到的數(shù)據(jù)進(jìn)行標(biāo)注,以便之后進(jìn)行模型訓(xùn)練:將合營(yíng)企業(yè)或聯(lián)營(yíng)企業(yè)股權(quán)投資的文本標(biāo)注為“1”,對(duì)子公司的投資文本標(biāo)注為“2”,共計(jì)147條相關(guān)數(shù)據(jù),如圖2所示。在收集、標(biāo)注數(shù)據(jù)后,將其存為txt文件類(lèi)型,使用jieba分詞庫(kù)對(duì)文本數(shù)據(jù),即圖2中所示data列進(jìn)行分詞。

圖2 完成數(shù)據(jù)標(biāo)注的數(shù)據(jù)集

首先導(dǎo)入pandas和numpy擴(kuò)展程序庫(kù)和jieba分詞庫(kù),再利用pandas擴(kuò)展庫(kù)工具上傳、讀取文件;使用jieba進(jìn)行分詞,并將分詞后的結(jié)果存入result_1文本文件中,通過(guò)jieba分詞處理后的文本數(shù)據(jù)變成了一個(gè)個(gè)分隔開(kāi)的字詞。如圖3所示,每一個(gè)段落為一個(gè)文本數(shù)據(jù),對(duì)應(yīng)一種類(lèi)別。

圖3 經(jīng)過(guò)jieba分詞后的文本

(二)計(jì)算TF-IDF值,生成向量

對(duì)文本做好預(yù)處理工作后,便要將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù),方便模型的識(shí)別與讀取。如上文介紹,本文選取TF-IDF值來(lái)度量每個(gè)詞語(yǔ)的重要性和對(duì)于文檔的代表性,將其轉(zhuǎn)化為向量形式的數(shù)值。

首先導(dǎo)入scipy學(xué)習(xí)庫(kù)和sk learn中特征選擇的工具包,再將分詞后得到的文件result_1讀取到corpus中,一共147行,每行代表一個(gè)文本數(shù)據(jù):

將文本中的詞語(yǔ)轉(zhuǎn)換為詞頻矩陣,計(jì)算每條數(shù)據(jù)中每個(gè)字詞的TF-IDF值,得到對(duì)應(yīng)的TF-IDF向量。

(三)構(gòu)建支持向量機(jī)模型

得到每個(gè)文本數(shù)據(jù)的TF-IDF向量后,便可通過(guò)構(gòu)建支持向量機(jī)模型來(lái)對(duì)向量進(jìn)行分類(lèi),進(jìn)而實(shí)現(xiàn)對(duì)長(zhǎng)期股權(quán)投資文本數(shù)據(jù)的分類(lèi)。

首先導(dǎo)入sklearn中模型構(gòu)建庫(kù)。其次設(shè)置計(jì)算出的TF-IDF向量值作為x,讀取預(yù)先做好標(biāo)記的label文件設(shè)置為y。

導(dǎo)入sk learn中模型評(píng)估庫(kù),用于輸出評(píng)價(jià)模型的指標(biāo):精確度(precision)、召回率(recall)和F1值(F1-score)。其中精確度precision=A/(A+B),召回率recall=A/(A+C);F1值為精確度和召回率的均值。A、B、C、D所代表的具體含義如表1所示。

表1 判別列聯(lián)表

對(duì)數(shù)據(jù)集進(jìn)行劃分:將其中的70%劃分為訓(xùn)練集,即102條數(shù)據(jù);30%劃分為測(cè)試集,即45條數(shù)據(jù)。對(duì)x值進(jìn)行歸一化處理;

我們分別采用線性核函數(shù)、高斯核函數(shù)、多項(xiàng)式核函數(shù)、Sigmoid核函數(shù)和其對(duì)應(yīng)的不同參數(shù)進(jìn)行SVM模型構(gòu)建,得出最適合此次分類(lèi)的SVM模型。以下代碼以高斯核函數(shù)為例:

在調(diào)整參數(shù)和核函數(shù)的過(guò)程中,我們發(fā)現(xiàn)模型的精確度、召回率和F1值并沒(méi)有顯著差異。最終模型的測(cè)試準(zhǔn)確率可達(dá)0.711111,測(cè)試集中實(shí)際共有分類(lèi)為聯(lián)營(yíng)企業(yè)和合營(yíng)企業(yè)投資的文本24個(gè),模型正確分類(lèi)20個(gè);實(shí)際數(shù)據(jù)中分類(lèi)為對(duì)子公司的投資的文本21個(gè),模型正確分類(lèi)12個(gè)。其具體判別列聯(lián)表如表2所示。對(duì)合營(yíng)企業(yè)或聯(lián)營(yíng)企業(yè)的投資文本分類(lèi)的精確度為0.69,召回率為0.83,F(xiàn)1值為0.75;對(duì)子公司的投資文本分類(lèi)的精確度為0.75,召回率為0.57,F(xiàn)1值為0.65。具體數(shù)據(jù)如圖4所示。

表2 模型結(jié)果判別列聯(lián)表

圖4 訓(xùn)練模型和測(cè)試模型評(píng)價(jià)指標(biāo)

通過(guò)上述正確分類(lèi)個(gè)數(shù)以及各個(gè)評(píng)價(jià)模型的指標(biāo)等數(shù)據(jù),可以發(fā)現(xiàn)模型對(duì)于聯(lián)營(yíng)企業(yè)和合營(yíng)企業(yè)投資的分類(lèi)準(zhǔn)確率高于對(duì)子公司投資的分類(lèi)。

五、結(jié)論與展望

本文根據(jù)會(huì)計(jì)準(zhǔn)則的規(guī)定,梳理出關(guān)于長(zhǎng)期股權(quán)投資分類(lèi)的相關(guān)定義和影響因素,并利用關(guān)鍵詞在分類(lèi)中的決定性作用這一規(guī)律,通過(guò)Python編程構(gòu)建支持向量機(jī)機(jī)器學(xué)習(xí)模型,實(shí)現(xiàn)對(duì)長(zhǎng)期股權(quán)投資的智能分類(lèi)。最終構(gòu)建的模型能在71.11%的準(zhǔn)確率下對(duì)長(zhǎng)期股權(quán)投資進(jìn)行分類(lèi),將其分為對(duì)子公司的投資和對(duì)聯(lián)營(yíng)企業(yè)與合營(yíng)企業(yè)的投資,在一定程度上實(shí)現(xiàn)了計(jì)算機(jī)對(duì)會(huì)計(jì)專(zhuān)業(yè)文本數(shù)據(jù)自動(dòng)處理和分類(lèi)。該模型可在實(shí)務(wù)中輔助財(cái)務(wù)人員、審計(jì)師和監(jiān)管機(jī)構(gòu)進(jìn)行股權(quán)投資分類(lèi)篩查,提高工作效率。本文使用的文本分類(lèi)方法也可運(yùn)用于其他會(huì)計(jì)分類(lèi)判斷,如金融資產(chǎn)分類(lèi)、租賃合同分類(lèi)等。希望本文的研究能促進(jìn)會(huì)計(jì)和自然語(yǔ)言處理技術(shù)及機(jī)器學(xué)習(xí)的結(jié)合,進(jìn)一步推動(dòng)會(huì)計(jì)智能化的發(fā)展。

猜你喜歡
分詞文檔向量
淺談Matlab與Word文檔的應(yīng)用接口
向量的分解
有人一聲不吭向你扔了個(gè)文檔
聚焦“向量與三角”創(chuàng)新題
分詞在英語(yǔ)教學(xué)中的妙用
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
Word文檔 高效分合有高招
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
双桥区| 永仁县| 绵竹市| 宁晋县| 三都| 克什克腾旗| 镶黄旗| 多伦县| 文昌市| 洛扎县| 化州市| 堆龙德庆县| 新巴尔虎左旗| 甘泉县| 太原市| 额济纳旗| 威海市| 盐亭县| 封开县| 马尔康县| 云林县| 西乌珠穆沁旗| 冀州市| 和平区| 曲麻莱县| 吴忠市| 平湖市| 怀柔区| 六枝特区| 宁化县| 姚安县| 济源市| 改则县| 定襄县| 利辛县| 宝兴县| 凤山市| 宽甸| 合水县| 凉城县| 吉隆县|