国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

財務(wù)文檔分詞及文檔相關(guān)性分析

2013-04-29 21:36:25殷偉
電腦知識與技術(shù) 2013年7期

殷偉

摘要:搜集財務(wù)專業(yè)語料庫,利用中科院的分詞工具對專業(yè)語料庫進(jìn)行分詞,計算分詞的準(zhǔn)確率和召回率,并將結(jié)果保存在文件中。計算文檔中給定詞的詞頻和反文檔頻率,并對專業(yè)詞匯加權(quán),提高專業(yè)詞匯的重要性,利用數(shù)學(xué)模型進(jìn)行文檔的相似度匹配。設(shè)置閾值,若兩篇文檔的相似度大于指定閾值,即認(rèn)定兩篇文檔相似,進(jìn)而生成一個矩陣,求解矩陣的連通性,得到該本聚類的結(jié)果,并進(jìn)行文章的相關(guān)性分析。該文有利于財務(wù)分析人員根據(jù)已分類好的財務(wù)文檔,了解企業(yè)過去,評價企業(yè)現(xiàn)狀,作出對企業(yè)有長遠(yuǎn)影響的決策。

關(guān)鍵詞:準(zhǔn)確率和召回率;財務(wù)文檔相似度匹配;財務(wù)文檔相關(guān)性分析

中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2013)07-1718-02

財務(wù)分析[1]為企業(yè)的投資者、債權(quán)人、經(jīng)營者及其他關(guān)心企業(yè)的組織或個人了解企業(yè)過去、評價企業(yè)現(xiàn)狀、預(yù)測企業(yè)未來做出正確決策提供準(zhǔn)確的信息或依據(jù),其本質(zhì)就是搜集與決策有關(guān)的各種財務(wù)信息,并加以分析和解釋的一種技術(shù)。因此針對財務(wù)文檔的分詞聚類研究會更有價值,由此便會涉及到數(shù)據(jù)挖掘[2]技術(shù)。

對財務(wù)文檔進(jìn)行相關(guān)性分析,必須依賴文本聚類[4]技術(shù),它主要是依據(jù)著名的聚類假設(shè):同類的文檔相似度較大,而不同類的文檔相似度較小。作為一種無監(jiān)督的機器學(xué)習(xí)方法,聚類由于不需要訓(xùn)練過程,以及不需要預(yù)先對文檔手工標(biāo)注類別,因此具有一定的靈活性和較高的自動化處理能力,已經(jīng)成為對文本信息進(jìn)行有效地組織、摘要和導(dǎo)航的重要手段。而對于財務(wù)文檔歸類的質(zhì)量的分析,就顯得非常必要。

1 問題分析

在該問題的分析中,主要需要解決以下問題:

1)提高財務(wù)文檔分詞的準(zhǔn)確率。

2)求解兩個財務(wù)文檔的最長公共子序列。

3)計算財務(wù)文檔的相似度。

4)提高財務(wù)文本聚類的質(zhì)量。

根據(jù)以上問題的提出,經(jīng)過分析,初步的解決方案是:首先將問題化成若干子問題,先求解兩字符串的最長公共子序列。其次通過計算給定文章中單詞的詞頻(TF)和反文檔頻率(IDF)[8],對財務(wù)詞匯進(jìn)行加權(quán),利用數(shù)學(xué)模型求解文章的相似度。最后將相似度的結(jié)果表示成二維矩陣,求解圖的連通性,達(dá)到聚類的目的。

2 問題的解決

先對財務(wù)專業(yè)文檔進(jìn)行機器分詞,將分詞結(jié)果保存在相應(yīng)的文件夾下。將分詞結(jié)果與人工分詞的財務(wù)文檔進(jìn)行比較,計算機器分詞的準(zhǔn)確率和召回率,并將機器分詞的錯誤語句和準(zhǔn)確率和召回率的結(jié)果保存在相應(yīng)的文件夾下。對財務(wù)文檔的分詞結(jié)果進(jìn)行相似度匹配,半將匹配結(jié)果以二維表格的形式保存在相應(yīng)的文件夾下。讀取二維表格中的數(shù)據(jù),設(shè)定閾值,進(jìn)行財務(wù)文檔聚類,將將聚類結(jié)果輸出。

財經(jīng)詞匯使用百度文庫中的財經(jīng)金融詞匯大全官方推薦。該財經(jīng)詞匯庫詞匯量大,共計11379個詞匯;詞匯豐富,包含知名的銀行、公司等。語料庫中專業(yè)的詞匯在財務(wù)金融詞匯大全中都有明顯體現(xiàn),如印花稅、增值稅等,利于對語料庫的專業(yè)詞匯進(jìn)行加權(quán),提高專業(yè)詞匯的重要性。根據(jù)以上分析,得到該系統(tǒng)的系統(tǒng)結(jié)構(gòu)組織框架如圖1所示。

在財務(wù)分詞系統(tǒng)中,基于財務(wù)專業(yè)術(shù)語庫的財務(wù)文檔相似度匹配子系統(tǒng)設(shè)計與實現(xiàn)是所有其他功能的基礎(chǔ),在處理時首先在給定的財務(wù)文檔中,先對文檔中的詞進(jìn)行預(yù)處理,去掉無意義的虛詞停頓詞等。計算每個詞的詞頻(TF)和反文檔頻率(IDF),最終計算權(quán)重(TF*IDF)。通過匹配財務(wù)詞庫,對財務(wù)領(lǐng)域的專業(yè)詞匯再進(jìn)行加權(quán),使的專業(yè)詞匯的重要性增加。依據(jù)求兩個向量的空間夾角的余弦數(shù)值理論計算兩篇文檔的相似度。相似度匹配部分結(jié)果如圖2所示。分別是文檔“CPI創(chuàng)新高 央行或?qū)⑻岣叽婵罾?txt”和文檔“國際六大央行按兵不動 本周維持利率或不變.txt”的前15個特征詞匯,共同的詞匯是“利率”,在專業(yè)詞庫的第784行。

在該分詞部分,詞頻(TF)指某一給定的詞在該文件中出現(xiàn)的次數(shù),反文檔頻率(IDF)指一個詞的權(quán)重大小,計算公式是log(D/Dt),D是文檔總數(shù),Dt是包含該詞的文檔總數(shù)。某一個詞的權(quán)重即為TF*IDF;在此就可以通過函數(shù)getWordsIDF(set[i].getKey().toString())獲取詞的權(quán)重。相似度計算公式:D*C/(|D|*|C|),D指文章D的向量表示,C指文章C的向量表示。通過Resutl保存兩篇文檔的相似度。

財務(wù)文檔的聚類系統(tǒng)也是設(shè)計中需要注意的地方,在此通過相應(yīng)的變量進(jìn)行相關(guān)數(shù)據(jù)的存取。從矩陣的下三角部分從下往上搜索,搜索時可以指定上下左右的搜索方向,對指定文檔利用遞歸算法求解相鄰數(shù)值為1的矩陣索引,同時添加標(biāo)志位防止二次檢索,提高檢索效率。對相似度為1的文檔直接進(jìn)行保存,其余的根據(jù)相似度用不同的變量單獨保存,

因文檔相似度的值多數(shù)小于0.5,設(shè)一系數(shù),用于與相似度的乘積同1進(jìn)行比較。當(dāng)系數(shù)為100時,共分為1369類。歸類數(shù)目多,且每類中的文件數(shù)也很多。查看第19類結(jié)果,共包含49個文件。應(yīng)用舉例部分文件列表如圖3所示。查看文件中的特征詞,可以看出這個歸類中5個文件是以“利率”為特征詞歸類的。

3 結(jié)束語

針對財務(wù)文件量大的特點,構(gòu)架了這樣一個財務(wù)的分詞系統(tǒng),可以實現(xiàn)日常財務(wù)文件的自動識別和分配管理,大大減輕了工作人員的工作量,提高了工作效率,在以后的進(jìn)一步研究中,將針對詞庫的進(jìn)一步優(yōu)化識別,系統(tǒng)的運行效率再做進(jìn)一步的研究提升。

參考文獻(xiàn):

[1] 百度百科.財務(wù)分析[EB/OL]. (2011-01-10)[2011-03-15].http://baike.baidu.com/view/548342.htm.

[2] wikipedia. Data_mining[EB/OL]. (2011-03-16) [2011-03-20].http://en.wikipedia.org/wiki/Data_mining.

[3] 百度百科.中文分詞[EB/OL]. (2010-12-22)[2011-03-01].http://baike.baidu.com/view/19109.htm.

[4] 百度百科.文本聚類[EB/OL]. (2010-06-19)[2011-03-10].http://baike.baidu.com/view/1133919.htm.

[5] wikipedia. k-means clustering[EB/OL]. (2011-03-19) [2011-03-20].http://en.wikipedia.org/wiki/k-means.clustering.

[6] wikipedia. Longest common subsequence problem[EB/OL].[2011-03-20]. http://en.wikipedia.org/wiki/Longest_common_subsequence_problem.

[7] soulingm.文本相似度的計算向量空間模型[EB/OL].[2011-03-18].http://hi.baidu.com/soulingm/blog/item/80c38d47c41c8a42500ffe82.html.

[8] wikipedia. Precision and recall[EB/OL].[2011-03-18]. http://en.wikipedia.org/wiki/Precision_and_recall.

重庆市| 驻马店市| 都安| 铁岭县| 泰宁县| 磐安县| 霍林郭勒市| 辽阳市| 工布江达县| 江永县| 射阳县| 福贡县| 苍南县| 永城市| 元朗区| 乾安县| 浙江省| 邵阳县| 措勤县| 五大连池市| 商城县| 宜都市| 曲松县| 阿拉善盟| 彩票| 堆龙德庆县| 泾川县| 壤塘县| 南雄市| 宁都县| 敖汉旗| 阿合奇县| 施秉县| 梁山县| 高邑县| 河源市| 新河县| 长泰县| 湘潭县| 宜川县| 策勒县|