基于短文本分類的電子發(fā)票自動(dòng)生成會(huì)計(jì)分錄

2020-08-04 11:07李燕萍宋磊

青年生活 2020年23期

李燕萍?宋磊

引言

電子發(fā)票中的信息抽取屬于自然語(yǔ)言處理中信息抽取子領(lǐng)域。自然語(yǔ)言處理可以分成3個(gè)層級(jí)，分別是文本理解、信息抽取和信息檢索。在以往的紙質(zhì)發(fā)票報(bào)銷中，通常要經(jīng)過(guò)一系列流程，層層審批，然后財(cái)務(wù)部門根據(jù)報(bào)銷的內(nèi)容進(jìn)行分類，做賬。而線上報(bào)銷流程與線下一致，軟件自動(dòng)識(shí)別發(fā)票，報(bào)銷人雖無(wú)需填寫發(fā)票，但財(cái)務(wù)依舊需要根據(jù)報(bào)銷內(nèi)容制作會(huì)計(jì)分錄才能做賬。將報(bào)銷內(nèi)容自動(dòng)生成分錄，可節(jié)約財(cái)會(huì)人員時(shí)間和精力_[1]。

一、自動(dòng)生成目錄可行性

電子發(fā)票具有文字稀疏性、產(chǎn)品術(shù)語(yǔ)、名詞術(shù)語(yǔ)較多等特點(diǎn)，將其內(nèi)容分類自動(dòng)生成會(huì)計(jì)分錄，可減少企業(yè)資金投入，提高企業(yè)做賬效率。在報(bào)銷的項(xiàng)目?jī)?nèi)容中，大多數(shù)是一些屬性相近的詞，可以看作是單個(gè)詞語(yǔ)到語(yǔ)義一般概念的映射。詞聚類算法可以分為三種：第一，各種啟發(fā)式量度表示聚類過(guò)程中的元素的距離;第二，以統(tǒng)計(jì)模型計(jì)算距離量度并給定聚類結(jié)果的類總數(shù);第三，同樣以統(tǒng)計(jì)模型計(jì)算距離量度，但增減例如困感度等量度的值_[2]。

二、短文本分類存在問(wèn)題

報(bào)銷的內(nèi)容較為簡(jiǎn)潔明了，屬于短文本，但傳統(tǒng)的向量空間模型（VSM， Vector Space Model）對(duì)長(zhǎng)文本的分類有較高的敏感度，而用于短文本分類時(shí)卻存在特征稀疏性等問(wèn)題。1、傳統(tǒng)的向量進(jìn)行空間分析模型對(duì)關(guān)鍵字的文檔數(shù)據(jù)處理方式方法是依據(jù)詞頻信息，難以分辨自然語(yǔ)言的語(yǔ)義模糊性。2、傳統(tǒng)的向量空間模型的假設(shè)詞與詞之間是相互獨(dú)立的，是一一對(duì)應(yīng)的關(guān)系，但在實(shí)際情況中，文檔存在著很多一詞多義和同義詞的現(xiàn)象，所以這種假設(shè)難以滿足實(shí)際情況。 3、文檔中的詞與詞通常存在著一定關(guān)聯(lián)性，通過(guò)簡(jiǎn)單的詞匯模式匹配進(jìn)行語(yǔ)義檢索會(huì)降低信息檢索結(jié)果的查準(zhǔn)率與查全率，直接應(yīng)用傳統(tǒng)的向量空間模型進(jìn)行短文本分類難以達(dá)到理想的效果_[3]。

三、短文本的Word2Vec模型

在此基礎(chǔ)上，本文探討采用Word2Vec的詞向量模型+K-means聚類，利用Word2vec淺而雙層的神經(jīng)網(wǎng)絡(luò)重新構(gòu)建給定語(yǔ)料庫(kù)的文本，快速有效地將關(guān)鍵詞表達(dá)成詞向量，再使用詞向量聚類得到類別關(guān)鍵詞達(dá)到理想的短文本分類效果。

（一）文本預(yù)處理

首先使用結(jié)巴分詞將獲取的兩千萬(wàn)條淘寶商品名稱數(shù)據(jù)集進(jìn)行分詞處理，過(guò)濾掉標(biāo)點(diǎn)符號(hào)、停用詞等將文本標(biāo)準(zhǔn)化。由于中文沒(méi)有詞形變化，不需要還原詞形、詞綴的轉(zhuǎn)化以及詞性識(shí)別。為了準(zhǔn)確地分析和表達(dá)文本，利用Word2vec將向量化的文本進(jìn)行特征提取。

（二）文本向量化

詞袋模型（Bag of Words）是對(duì)文本中的單詞進(jìn)行統(tǒng)計(jì)，簡(jiǎn)單說(shuō)就是統(tǒng)計(jì)某個(gè)單詞在一個(gè)文本中出現(xiàn)的頻率或者次數(shù)。

（三）特征提取

Word2vec是一種估算式（Estimator），它采用的是訓(xùn)練商品名稱一系列文檔的重要詞語(yǔ)，形成Word2vec模型，每個(gè)詞語(yǔ)的模型映射成一個(gè)固定大小的向量。Word2vec模型使用商品名稱中每個(gè)詞語(yǔ)的平均數(shù)來(lái)將文檔轉(zhuǎn)換為向量，然后通過(guò)這個(gè)向量我們可以不斷擴(kuò)散，然后作為預(yù)測(cè)電子發(fā)票內(nèi)容的特征，來(lái)計(jì)算商品名稱的相似度。

Word2vec模型一般分為CBOW（Continuous Bag-of-Words）和Skip-gram兩種模型。訓(xùn)練CBOW模型的輸入是某一個(gè)特征詞上下文相關(guān)的詞對(duì)應(yīng)的詞向量，輸出是某特定詞的詞向量。在Skip-gram模型中，每個(gè)詞語(yǔ)受到上下文的影響，即利用上下文的預(yù)測(cè)結(jié)果，在梯度下降過(guò)程中不斷調(diào)整當(dāng)前詞的詞向量。因此，盡管 Skip-gram 的訓(xùn)練時(shí)間相對(duì)較長(zhǎng)，但在數(shù)據(jù)量較少或生僻詞含量較多的情況下，會(huì)使經(jīng)過(guò)多次調(diào)整得到的詞向量具有更高的準(zhǔn)確度。在缺少報(bào)銷具體內(nèi)容領(lǐng)域擴(kuò)展語(yǔ)料庫(kù)的情況下，本文采用Skip-gram模型預(yù)訓(xùn)練商品標(biāo)題語(yǔ)料得到詞向量。經(jīng)過(guò)訓(xùn)練后可以得到每個(gè)詞語(yǔ)的詞向量以及詞語(yǔ)之間的余弦相似度。

四、商品名稱訓(xùn)練

本文采用淘寶商品名稱數(shù)據(jù)，以會(huì)計(jì)科目作為類別標(biāo)簽，將提取的關(guān)鍵詞權(quán)重輸入分類器，通過(guò)分類結(jié)果的準(zhǔn)確率來(lái)衡量關(guān)鍵詞提取的有效性。

五、K-means聚類后分類

聚類是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)，通過(guò)將相似的研究對(duì)象歸到同一個(gè)簇中，利用相似度計(jì)算方法將其一一對(duì)應(yīng)。K-means聚類算法用于數(shù)據(jù)集K個(gè)簇的聚類，K個(gè)簇采用事先制作憑證中的會(huì)計(jì)科目，每一科目對(duì)應(yīng)商品名稱通過(guò)其所有點(diǎn)的中心來(lái)描述，聚類與前述分類處理算法的最大區(qū)別在于分類的目標(biāo)類別已知，但聚類的目標(biāo)類別是一個(gè)未知的，將訓(xùn)練集中的科目對(duì)應(yīng)商品名稱按Word2vec模型的計(jì)算結(jié)果劃分為k組，獲得的聚類滿足同一聚類中的名稱相似度較高，而不同聚類中的名稱相似度較小。以下是聚類算法的基本步驟：

1、從訓(xùn)練集的數(shù)據(jù)中選擇k個(gè)名稱作為聚類的初始中心;

2、用每個(gè)聚類名稱到聚類中心的距離來(lái)劃分類別;

3、重復(fù)計(jì)算每個(gè)聚類的中心;

4、計(jì)算標(biāo)準(zhǔn)測(cè)度函數(shù)，直到達(dá)到最大迭代次數(shù)停止，否則從第2步重復(fù)操作。

結(jié)論

目前市場(chǎng)中的移動(dòng)報(bào)銷應(yīng)用還無(wú)法滿足將報(bào)銷內(nèi)容自動(dòng)分類，為了適應(yīng)新時(shí)代科技發(fā)展的需求，各行各業(yè)要想在資金方面提供準(zhǔn)確的資金狀況，須采用移動(dòng)報(bào)銷下的短文本自動(dòng)分類?；诮y(tǒng)計(jì)的名稱分類存在大型參數(shù)空間、足夠的訓(xùn)練數(shù)據(jù)、數(shù)據(jù)稀疏等問(wèn)題。本文利用Word2vec工具集和K-means聚類，探尋一種較為方便的方法對(duì)短文本進(jìn)行文本分類，移動(dòng)報(bào)銷中的短文本分類自動(dòng)對(duì)應(yīng)到會(huì)計(jì)憑證的分錄可提供準(zhǔn)確的資金用途及細(xì)目，減少精力投入，提高效率，促進(jìn)各行各業(yè)的長(zhǎng)遠(yuǎn)發(fā)展。

參考文獻(xiàn)

[1]李昕，文桂江.會(huì)計(jì)信息處理智能化研究[J].財(cái)會(huì)通訊，2014（07）：90-91.

[2]楊軍澤.互聯(lián)網(wǎng)環(huán)境下自動(dòng)化會(huì)計(jì)確認(rèn)探討[J].財(cái)會(huì)通訊，2019（01）：104-108.

[3]徐建國(guó)，肖海峰，.基于多示例學(xué)習(xí)框架的文本分類算法[J].計(jì)算機(jī)工程與設(shè)計(jì)，2020，41（04）：1017-1023.

基金項(xiàng)目：國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目，項(xiàng)目編號(hào)：201910379018

作者簡(jiǎn)介：李燕萍（2000—）女，安徽省黃山市祁門縣人，本科在讀。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于短文本分類的電子發(fā)票自動(dòng)生成會(huì)計(jì)分錄