国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于K-means算法的某高校各二級單位報銷聚類分析統(tǒng)計研究

2024-05-13 16:08楊澤
信息系統(tǒng)工程 2024年4期
關(guān)鍵詞:機器學(xué)習(xí)聚類分析

楊澤

摘要:近年來,隨著國際形勢的變化和我國經(jīng)濟社會發(fā)展的內(nèi)在需要,國家對高校的經(jīng)費投入逐漸加大,高校管理者如何管好、用好相關(guān)經(jīng)費具有現(xiàn)實意義。選取某高校17個二級單位2022年全年的預(yù)約單量、經(jīng)費執(zhí)行進度以及問題單率等三個特征變量的數(shù)據(jù)進行K-means算法統(tǒng)計分析,研究結(jié)果顯示K-means聚類算法可以有效反映出該高校各二級單位報銷情況,為科學(xué)化評估經(jīng)費使用情況提供決策參考依據(jù),并為學(xué)校財務(wù)信息化建設(shè)提供支撐。

關(guān)鍵詞:K-means;聚類分析;執(zhí)行進度;機器學(xué)習(xí)

一、前言

近年來,隨著高等教育事業(yè)的蓬勃發(fā)展,高校各項經(jīng)費穩(wěn)步增長,配套的經(jīng)費使用管理制度也在不斷更新和完善,師生們在進行財務(wù)報銷時發(fā)生問題的數(shù)量也隨著報銷頻率的升高而不斷增加[1]。與此同時,對于許多高校管理者而言,如何及時有效地對二級單位的報銷情況進行考評并督促二級單位不斷改進完善成為擺在高校管理者面前的一個難題??荚u方法選擇不當也會使各個二級單位產(chǎn)生不解與質(zhì)疑。預(yù)約單量、問題單率以及經(jīng)費執(zhí)行進度作為重要的財務(wù)指標,可以很大程度上反映出高校各個二級單位的經(jīng)費執(zhí)行情況、財務(wù)預(yù)約工作量以及對財務(wù)規(guī)章制度的理解掌握程度。通過利用這些指標對若干不同二級單位進行聚類,有利于高校管理者對二級單位進行評估與考核,對整個學(xué)校事業(yè)發(fā)展可以起到正向推進作用。相比于主觀性比較強的評委打分形式,采用機器學(xué)習(xí)聚類算法對客觀數(shù)據(jù)進行分類更容易讓二級單位負責人與基層工作人員信服,可以有效降低矛盾和沖突的發(fā)生。然而,現(xiàn)階段對于高校各個二級單位財務(wù)報銷評估與分類的研究較少,評估指標的選取也缺乏統(tǒng)一的標準。

K-means算法作為一種易收斂、操作性強的機器學(xué)習(xí)算法[2],在電力、圖像處理、高校管理等領(lǐng)域取得了廣泛的應(yīng)用[3-4]。鑒于K-means聚類算法[5]優(yōu)秀的聚類效果,本文采用該算法對某高校各二級單位財務(wù)報銷情況進行統(tǒng)計研究,以達到通過利用這些指標對不同二級單位進行聚類的目的,便于高校管理機構(gòu)進行評估與考核。

二、數(shù)據(jù)挖掘和聚類分析

(一)數(shù)據(jù)挖掘

數(shù)據(jù)挖掘技術(shù)有許多細分領(lǐng)域,較為主流的方向是機器學(xué)習(xí)、數(shù)理統(tǒng)計、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、模式識別等。數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge-Discovery in Databases,KDD)中的一個步驟。數(shù)據(jù)庫知識發(fā)現(xiàn)這個概念最早是在第11屆國際聯(lián)合人工智能學(xué)術(shù)會議上提出的,通常是指通過算法搜索隱藏于大量的數(shù)據(jù)中有價值信息的過程,是一種深層次的數(shù)據(jù)分析與處理方法。隨著數(shù)據(jù)挖掘技術(shù)的不斷成熟,應(yīng)用領(lǐng)域也不斷擴大。數(shù)據(jù)挖掘?qū)τ诓煌瑪?shù)據(jù)領(lǐng)域可以應(yīng)用不同的數(shù)據(jù)分析方法, 其中聚類分析就是一種重要的分析方法[6]。

(二)聚類分析

聚類分析是數(shù)據(jù)挖掘中的經(jīng)典算法之一,是指通過數(shù)據(jù)點的相似性將數(shù)據(jù)分為若干個集合,每個集合中的數(shù)據(jù)點之間比其他集合中的數(shù)據(jù)點相似性更高。簡單來說,聚類就是將數(shù)據(jù)集按照不同相似特征歸類為一個個子集,也就是許多個“類”。聚類分析應(yīng)用十分廣泛,不同的聚類分析算法存在各自不同的特點和應(yīng)用場景,其在經(jīng)濟、管理、醫(yī)學(xué)、心理學(xué)、氣象預(yù)報、地質(zhì)勘探、生物分類等諸多領(lǐng)域都取得了很好的效果。

三、K-means聚類分析算法

(一)K-means聚類分析算法簡介

K-means算法是James MacQueen于1967年提出的,屬于一種無監(jiān)督、可迭代的機器學(xué)習(xí)算法。該算法需要提前給定分類簇的數(shù)目k,并隨機選擇樣本點作為每個簇的初始中心,不斷計算每個樣本點與初始中心之間的歐氏距離。樣本點與初始中心的歐氏距離作為標準來衡量樣本點之間的相似度,歐氏距離值越小的樣本點與初始中心的相似度越高,反之,相異程度越高。將距離最近的初始中心歸為一簇,并對簇的中心進行重新選取。重復(fù)上述過程,直至各個簇中心位置不再發(fā)生變化,樣本數(shù)據(jù)也完成劃分,至此算法結(jié)束。

兩個樣本點x與y之間的歐氏距離表達式為:

(1)

(二)K-means聚類分析算法的優(yōu)點

K-means算法作為無監(jiān)督的機器學(xué)習(xí)算法,具備以下優(yōu)點:第一,邏輯簡單、效率較高。由于具有迭代的特性,K-means算法在少量樣本聚類的情況下也能達到很好的聚類效果,該算法時間復(fù)雜度較低。第二,對于數(shù)據(jù)集是數(shù)值類型的情況,K-means算法聚類效果更好。第三,K-means優(yōu)化了監(jiān)督學(xué)習(xí)樣本分類不合理的地方。

四、數(shù)據(jù)的獲取與處理

(一)數(shù)據(jù)獲取與指標選擇

本文所用的數(shù)據(jù)取自某高校2022年財務(wù)數(shù)據(jù),選取該高校17個二級單位作為研究對象進行聚類分析,進而得出這些二級單位報銷情況的評估。所獲取的數(shù)據(jù)字段包括各個二級單位的年度撥款數(shù)、年度執(zhí)行數(shù)、年度預(yù)約單總量以及問題預(yù)約單總量。通過年度執(zhí)行數(shù)與年度撥款數(shù)的比值可以得到各個二級單位的年度經(jīng)費執(zhí)行率,通過問題預(yù)約單總量與年度預(yù)約單總量的比值可以得到各個二級單位的問題單率。選取年度經(jīng)費執(zhí)行率、預(yù)約單總量以及問題單率這三個指標,分別表征這些二級單位的經(jīng)費執(zhí)行情況、財務(wù)預(yù)約工作量以及對財務(wù)規(guī)章制度的把控程度,可以有效對各個二級單位的財務(wù)報銷情況進行區(qū)分。

17個二級單位對應(yīng)的三個指標數(shù)據(jù)如表1所示。

(二)使用K-means算法對數(shù)據(jù)進行聚類分析

將17個二級單位分成三類,即優(yōu)秀、合格與不合格,分別對應(yīng)的類代碼是:1、2和3。對于K-means算法可以將k的值設(shè)定為k=3。將表1的數(shù)據(jù)作為原始數(shù)據(jù)集導(dǎo)入MATLAB軟件,經(jīng)過運行程序得到的聚類結(jié)果如表2所示。對聚類結(jié)果進行可視化展示見圖2。

由表2可以看出,這3類分別有4個、10個和3個單位。第1類有單位A、單位D、單位I和單位M;第2類有單位B、單位C、單位E、單位F、單位G、單位H、單位J、單位K、單位N和單位O;第3類有單位L、單位P和單位Q。

從圖2的K-means聚類結(jié)果可視化也可以看出,該算法非常直觀地將所有樣本點劃分成3個類,表明對于樣本量較少的數(shù)值類型數(shù)據(jù)集,K-means算法的聚類效果非常明顯。

五、將K-means聚類分析算法應(yīng)用于某高校各二級單位報銷統(tǒng)計效果

第一,有效降低主觀性評估手段帶來的矛盾。如果單純依靠若干個評委打分統(tǒng)計評比的話,不僅會耗費大量的時間和人力、物力,還會因為過程的不透明引發(fā)各種矛盾和沖突。從前文的分析結(jié)果也可以看出,采用K-means聚類分析算法對各個二級單位的分類非常直觀,更容易讓基層員工信服。

第二,將對多個二級單位的劃分量化為對數(shù)據(jù)的處理。K-means算法的優(yōu)勢之一就是對數(shù)值類型數(shù)據(jù)集具有較好的聚類準確度,所以在評估過程中可以將一些指標經(jīng)過統(tǒng)計后的數(shù)據(jù)信息通過K-means算法的數(shù)據(jù)處理,快速準確地對這些二級單位進行分類,進而使主管部門實時掌握這些二級單位的財務(wù)狀況以及報銷進度情況,以便及時調(diào)整工作計劃并安排下一階段的部署實施。

第三,不同指標綜合評估,得到的評估結(jié)果更具全面性。與傳統(tǒng)的評估方法單純依靠某個指標不同,K-means算法通過將年度經(jīng)費執(zhí)行率、預(yù)約單總量以及問題單率這三個指標綜合進行聚類分析,指標所反映的二級單位的經(jīng)費執(zhí)行情況、財務(wù)預(yù)約工作量以及對財務(wù)規(guī)章制度的理解掌握程度可以全面表征各個二級單位財務(wù)狀況的健康程度。

六、完善K-means聚類分析算法應(yīng)用的建議

為了擴大K-means聚類分析算法在高校財務(wù)報銷統(tǒng)計中的應(yīng)用,本文提出幾點建議:

第一,隨著國家教育經(jīng)費的投入力度不斷加大以及學(xué)校申請的科研經(jīng)費增長迅猛,許多學(xué)校為了做大做強某些優(yōu)勢研究方向,紛紛組建許多科研團隊。這些科研團隊在經(jīng)費等方面擁有更多的自主權(quán),這也是高校落實國家“放管服”改革的要求。許多較大的科研團隊規(guī)??氨刃⌒偷膶W(xué)院(研究所),在學(xué)校層面也有對這些科研團隊的財務(wù)報銷情況進行評估的需求。K-means算法操作簡便,速度較快,可以滿足學(xué)校主管部門對于這些科研團隊聚類分析的需要。

第二,本文選取的三項指標在描述各個二級單位財務(wù)報銷狀況時稍顯單薄,無法全面衡量出各個二級單位的真實情況。在這種情況下非常有必要增加一些指標。根據(jù)前文所述K-means算法對于數(shù)值類型的數(shù)據(jù)集合具有比較好的聚類準確度,然而許多指標并非數(shù)值類型。對應(yīng)于本文所關(guān)注的對象高校各個二級單位就有許多指標不是數(shù)值類型,例如,有些二級單位有專職財務(wù)人員或者財務(wù)秘書,有些二級單位則沒有。對于這種非數(shù)值類型的指標可以將其進行“數(shù)值化”,即有財務(wù)人員或者財務(wù)秘書的單位該指標標記為1,沒有的話標記為0。通過增加指標數(shù)量全面評估各個二級單位財務(wù)報銷情況。

第三,本文采用的K-means算法需要提前給定需要劃分類別的數(shù)目,即需要提前給定k值,對聚類結(jié)果有很大影響。除此以外,本文選取的三項指標權(quán)重都是相同的,但在實際工作中權(quán)值未必一樣。對于這種情況,有些學(xué)者采用熵值法賦權(quán),有些研究人員采用基于變異系數(shù)的歐氏距離實現(xiàn)特征賦權(quán),還有人采用AHP和熵值法相結(jié)合的方式為各個指標賦權(quán)。這些都表明傳統(tǒng)的K-means算法并不是完美的,需要與其他算法結(jié)合并改進,完善對各個二級單位的財務(wù)報銷聚類分析模型,優(yōu)化聚類算法的時間復(fù)雜度與聚類效果。

七、結(jié)語

針對高校管理者對各個二級單位評估考核的現(xiàn)實困境,本文提出將K-means聚類算法應(yīng)用于高校財務(wù)分析。通過將某高校2022年17個二級單位的財務(wù)數(shù)據(jù)作為研究對象進行聚類分析,進而得出這些二級單位報銷情況的評估,即17個二級單位評估為優(yōu)秀、合格與不合格的單位分別為4個、10個和3個。實驗結(jié)果驗證了K-means算法在對高校各二級單位報銷統(tǒng)計聚類的可行性及有效性。

參考文獻

[1]郭美彤,陳鈺怡,毛彧,等.探索星級評定機制在改善高校財務(wù)報銷管理中的作用——以S高校為例[J].教育財會研究,2022,33(05):63-69.

[2]羅鑫帥,高洋.基于改進型K-means算法的高校研究生成績畫像研究[J].陜西教育,2023(07):49-51.

[3]查香云,呂國良.基于K-means聚類分析的高校論文統(tǒng)計研究[J].浙江理工大學(xué)學(xué)報,2017,38(05):478-482.

[4]謝旭,施學(xué)鴻,楊柳,等.一種基于K-means的電力傳感網(wǎng)信任決策方法[J].傳感技術(shù)學(xué)報,2023,36(10):1643-1648.

[5]李鵬,李強,馬味敏,等.基于K-means聚類的路面裂縫分割算法[J].計算機工程與設(shè)計,2020,41(11):3143-3147.

[6]王世純,許新華,黃嘉成,等.K-means聚類算法在高校學(xué)生成績分析中的應(yīng)用研究[J].湖北師范大學(xué)學(xué)報(自然科學(xué)版),2019,39(03):113-118.

責任編輯:張津平、尚丹

猜你喜歡
機器學(xué)習(xí)聚類分析
基于詞典與機器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費支出分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于省會城市經(jīng)濟發(fā)展程度的實證分析
基于支持向量機的金融數(shù)據(jù)分析研究
基于聚類分析的互聯(lián)網(wǎng)廣告投放研究
機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
“縣級供電企業(yè)生產(chǎn)經(jīng)營統(tǒng)計一套”表輔助決策模式研究
康乐县| 张家界市| 天门市| 卢湾区| 丘北县| 阳江市| 永平县| 曲沃县| 河源市| 金堂县| 喀喇| 桐庐县| 罗江县| 资源县| 灌阳县| 平邑县| 邹城市| 增城市| 资溪县| 菏泽市| 嘉义县| 葵青区| 镇远县| 大渡口区| 丽江市| 农安县| 彝良县| 秦皇岛市| 安化县| 武安市| 南阳市| 广南县| 唐海县| 安丘市| 应城市| 赤水市| 常州市| 平定县| 筠连县| 合肥市| 砀山县|