国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

預測個人收益數(shù)據(jù)計算模型研究

2024-07-17 00:00:00賴丹何軍
科技風 2024年19期

摘要:個人的收益情況與未來的發(fā)展以及社會的建設(shè)都有緊密的聯(lián)系。個人收益也是社會各界所關(guān)注的熱門話題之一。本文根據(jù)數(shù)據(jù)計算模型對個人收益情況進行預測研究應用,將收集的數(shù)據(jù)進行數(shù)據(jù)處理、數(shù)據(jù)建模和各數(shù)據(jù)結(jié)果分析對比。所運用到數(shù)據(jù)挖掘的模型主要有KNN模型、決策樹模型、隨機森林模型。在三個模型的對比下,隨機森林模型的預測準確率最好,最終選取隨機森林模型預測個人收益是否超過50k。

關(guān)鍵詞:個人收益;KNN模型;決策樹模型;隨機森林模型

DataMiningResearchonPersonIncomePrediction

LaiDan1HeJun2

1.ChengduJinchengCollegeSichuanChengdu610097;

2.ChengduGaoxinChengwaiSeniorHighSchoolSichuanChengdu610095

Abstract:Theincomestatusofindividualsiscloselyrelatedtotheleveloffutureeconomicdevelopmentandsocialconstruction.Atpresent,thestudyofpersonalincomehasalwaysbeenoneofthehotspotsthatpeoplepayattentionto.Thispapermainlystudiestheapplicationofmachinelearninginpersonalincomeprediction,andconductsdataprocessing,datamodeling,andanalysisandcomparisonofvariousdataresultsonthecollecteddata.ThemodelsusedindataminingmainlyincludeKNNmodel,decisiontreemodelandrandomforestmodel.Inthecomparisonofthethreemodels,therandomforestmodelhasthebestpredictionaccuracy.Finally,therandomforestmodelisselectedtopredictwhetherpersonalincomeexceeds50k.

Keywords:personalincome;KNNmodel;decisiontreemodel;randomforestmodel

1研究背景

隨著社會經(jīng)濟的發(fā)展進步,社會關(guān)注的熱點逐步轉(zhuǎn)移到了個人收益水平上來,個人的收益水平直接決定著一個家庭的穩(wěn)固和社會的進步。個人的收益狀況在目前的技術(shù)支持之下也可預測,通過預測我們可以發(fā)現(xiàn)并解決目前的個人收益出現(xiàn)逆差的問題,就可以做到在問題出現(xiàn)之前解決問題。筆者先收集個人的基本信息,通過數(shù)據(jù)挖掘依據(jù)計算機不同的計算方法對個人收益情況進行預測。機器學習解決生活中的問題已經(jīng)不勝枚舉[1]。利用計算機的數(shù)據(jù)挖掘算法解決社會中的各個領(lǐng)域的數(shù)據(jù)問題,如經(jīng)濟、生活和醫(yī)學等,處理各個行業(yè)的工作推進的難點都可以提供有效的辦法[2]。筆者通過愛數(shù)科數(shù)據(jù)收集網(wǎng)站收集了個人的一些基本數(shù)據(jù)集,收集了個人的個體受教育程度、年齡、性別、職業(yè)、婚姻狀態(tài)以及個人收益等。筆者選取了這些數(shù)據(jù)的一部分進行數(shù)據(jù)挖掘?qū)嶒?,具體采用了KNN計算模型、決策樹計算模型、隨機森林計算模型。通過分類別計算預測、比對不同的計算方法以及特征因素對個人收益預測準確性的影響;通過調(diào)整其中的重要參數(shù)比對,達到各個模型預測準確性的最優(yōu)值再對比;通過比對結(jié)果得到最優(yōu)的預測模型。

2KNN模型、決策樹模型、隨機森林模型介紹

2.1KNN模型概述

KNN模型的全稱是K近鄰模型,這是一種簡單的預測模型,便于操作,同時也便于移植,但要得到實驗的高精度就要滿足多種限制條件。首先在計算數(shù)據(jù)時,會要求數(shù)據(jù)的范圍不能太大,數(shù)據(jù)范圍稍小一些,通過模型計算結(jié)果就會很精確;反之,范圍過大會導致預測結(jié)果偏差較大。其次是在進行數(shù)據(jù)計算時,KNN模型的計算核心是計算度量之間的距離,計算距離的前提就是要選取目標點,也就是要選取距離目標最近的K值,然后再根據(jù)分類決策的原則,決定目標點的類比。最后一點,也是最關(guān)鍵的一點,通過K值的確定來決定最后的預測準確度,而K值的選取是完全主觀的,也是決定性的。當K值的選擇過大時,預測的誤差會增大,模型就會變得過于泛化,無法預測訓練和測試集中的數(shù)據(jù)點;反之,當K值的選擇過小時,近似誤差就會偏大,模型會變得過于具體,不能很好地泛化。

2.2決策樹模型概述

決策樹模型是一種簡單的非參數(shù)分類器。它不僅不需要對數(shù)據(jù)有任何的先驗假設(shè),而且在計算數(shù)據(jù)速度方面較快,其結(jié)果容易解釋。在復雜的決策情況中,往往需要多層次或者多階段的決策。當一個階段的決策完成后,又會有新的不同的自然情況發(fā)生,每種自然狀態(tài)下,都又有新的策略需要選擇,選擇后產(chǎn)生的不同的結(jié)果又會有更新的自然狀態(tài),這些被稱為序列決策或者多級決策。這樣就可以由一個決策圖和可能的結(jié)果組成。它參照了樹的形態(tài)來建立可視化圖形結(jié)構(gòu),是一種類似于流程圖的結(jié)構(gòu)。其中,每一個內(nèi)部節(jié)點都代表著一個特征變量的測試,而每一個分支代表著測試的結(jié)果,每一個葉節(jié)點代表著一個類的標簽。其結(jié)點的類型有三種:決策節(jié)點、機會節(jié)點和結(jié)束節(jié)點。在決策樹模型中有三種算法分別為ID3算法、C4.5算法、CART算法。ID3算法是計算訓練集所有樣本的信息熵和每一個特征分類后的信息增益來選擇信息增益最大的特征進行分類。C4.5算法則是在ID3算法的基礎(chǔ)上采用信息增益率作為特征選擇,解決了ID3算法無法處理連續(xù)變量的問題。CART算法不再通過信息熵的方式來選擇特征,而是采用了基尼系數(shù),通過衡量信息量對特征進行選擇。由于基尼系數(shù)沒有對數(shù)計算,可以大幅度地減少開銷,相對于ID3算法和C4.5算法,最大的優(yōu)勢是可以處理回歸問題。在決策樹模型中max_depth(決策樹最大參數(shù))是使模型達到最優(yōu)的參數(shù)之一,當模型的樣本量過多、特征特多的情況下,使用max_depth可以解決過擬合的問題。

2.3隨機森林概述

隨機森林算法的本質(zhì)也是決策樹模型,與決策樹算法的本質(zhì)相同,但計算方式卻又有很大的區(qū)別。隨機森林算法包含了多個決策樹,同時通過隨機森林算法所輸出的類比由眾數(shù)來確定。隨機森林算法結(jié)合了隨機種子的空間算法和集成學習算法,得到了一個在不同的數(shù)據(jù)環(huán)境下優(yōu)于決策樹模型的算法。通過新的計算方法,解決了決策樹模型中的過擬合問題,同時數(shù)據(jù)中的噪聲以及異常值對于本算法的準確預測都不會產(chǎn)生影響,而且在計算的最后也不需要進行最后的分類驗算,大大提高了計算的效率。隨機森林算法是建立在決策樹算法的基礎(chǔ)上,通過分類建立了更多的決策樹。首先,在數(shù)據(jù)進行訓練時使用Bagging算法訓練得到多個決策樹模型;然后對特征變量進行分類時,采用多個決策樹分別進行類別預測;再通過投票法對數(shù)據(jù)的類別進行判斷,哪一種類別所獲得的投票數(shù)最多,就把該數(shù)據(jù)歸于哪一類。在實踐中我們可以發(fā)現(xiàn),隨機森林模型的計算結(jié)果也在前面的計算中得到了很大的提升,不僅不會出現(xiàn)過擬合的問題,也大大展示了它強大的泛化能力,從而計算的預測誤差也相對減小。由于隨機森林包含很多的決策樹,因此此算法可以處理分類問題,也可以處理回歸問題,同時也可以處理降維問題。同時,由于隨機森林在計算當中對于異常值和噪音由很強的包容性,在各個領(lǐng)域的應用中都凸顯了自己強大的優(yōu)點,計算的結(jié)果也具有更強的預測性和分類性。因此,在醫(yī)學計算領(lǐng)域,以及經(jīng)濟建模領(lǐng)域等都有隨機森林的優(yōu)秀表現(xiàn)。

3實驗分析

3.1實驗數(shù)據(jù)案例分析

3.1.1實驗數(shù)據(jù)來源與實驗工具

愛數(shù)科數(shù)據(jù)網(wǎng)站有關(guān)于個人收益預測的數(shù)據(jù)集,筆者先從網(wǎng)站上下載這些數(shù)據(jù),這些數(shù)據(jù)集有個人的一些基本的數(shù)據(jù),包含性別、年齡、職業(yè)、婚姻狀態(tài)以及受教育程度等。每一條個人收益有類別標簽,其標簽有兩種取值1或0,1表示個人收益超過5萬美元,0表示個人收益低于5萬美元。筆者將下載好的數(shù)據(jù)集進行特征變量和目標變量選擇,選取年齡、性別、受教育時長、種族、每周工作小時數(shù)作為測試集,將收益作為目標變量;接下來對數(shù)據(jù)集進行訓練集和測試集劃分,數(shù)據(jù)集有10000+條數(shù)據(jù),筆者的實驗配置相對較低,同時也考慮到數(shù)據(jù)模擬計算的難度,提高數(shù)據(jù)運算的可行性,本文從數(shù)據(jù)集中隨機抽取4000+條數(shù)據(jù)來進行實驗。

本文使用jupyterNotebook軟件進行機器學習的實驗,這個軟件的本質(zhì)是Web應用程序可以很便捷地創(chuàng)建和共享程序文檔,并且支持實時代碼,便于操縱數(shù)學方程,也能可視化調(diào)整,也可以隨時markdown,常用于數(shù)據(jù)清理和轉(zhuǎn)化,進行數(shù)據(jù)模擬,統(tǒng)計建模等等實驗性的應用。

3.1.2數(shù)據(jù)預處理

筆者對下載的數(shù)據(jù)保存為Excel的形式,如下圖,由于數(shù)據(jù)中存在字符型和數(shù)據(jù)數(shù)值相差幅度較大,因此,筆者在進行實驗之前對數(shù)據(jù)進行處理。具體的處理步驟為;字典特征提取、無量綱化處理、數(shù)據(jù)歸一化[3]。

部分個人收益信息圖

3.2實驗結(jié)果

3.2.1KNN模型的實驗結(jié)果

在對數(shù)據(jù)進行特征工程處理后,先使用KNN模型進行實驗。在上文解釋了K值的重要性,所以首先要調(diào)整KNN模型中K值的大小以便于實驗。為了K值的最優(yōu)取值,運用網(wǎng)格搜索對K值進行最優(yōu)范圍的篩選,通過篩選的結(jié)果,最終將K值的取值范圍選取為3、5、7、9、11,實驗的結(jié)果如表1所示。

由表1可以看出,當K值從[3、5、8、10、12]逐漸變大時,模擬實驗的準確率開始不斷的上升,K值上升到10的時候準確率又開始下降;K值取10時,KNN模型的準確率最高。由此,本文的KNN模型中的參數(shù)K值的最優(yōu)值是10。

3.2.2決策樹的實驗結(jié)果

本文使用決策樹模型進行實驗,上文解釋了max_depth參數(shù)的重要性,為了使模型能達到最好的效果,將對max_depth進行最優(yōu)參數(shù)篩選。我們采用網(wǎng)格搜索對max_depth值進行最優(yōu)范圍的篩選,通過最終的篩選結(jié)果,本文將決策樹最大深度的最佳范圍取值為6、8、10、15、17,實驗的結(jié)果如表2所示。

表2是對決策樹max_depth參數(shù)最佳范圍篩選的結(jié)果。從表2可以看出,隨著決策樹深度的加深,決策樹模型預測準確率在逐步增加,當max_depth取15時準確率達到最高。由此可以判斷出,本文的決策樹模型中max_depth的最佳參數(shù)為15。

3.2.3隨機森林的實驗結(jié)果

通過隨機森林模型再進行實驗,通過調(diào)整n_estimators值來篩選范圍,可以快速找到隨機森林包含決策樹的最佳個數(shù),將結(jié)果進行篩選,可以將決策樹的個數(shù)依次設(shè)置為5、10、20、30、40,實驗結(jié)果如表3所示。

由表3可知,當決策樹的數(shù)目增大的時候,通過隨機森林模型模擬的結(jié)果的準確率會不斷變高,并且決策樹數(shù)目達到30的時候,準確率達到最高。因此,可以得出結(jié)論,利用隨機森林模型模擬個人的收益情況中,決策樹的數(shù)目為30的時候模擬的情況最好。

3.2.4三種模型的比較

現(xiàn)將三類模型的模擬情況進行對比,KNN模型的K值為7,決策樹模型的max_depth為15,隨機森林模型含有30個決策樹,通過對比可以得到三個模型模擬的準確率都很高,其中隨機森林模型的預測準確率最高。因此,本文選擇隨機森林模型來判斷年收益是否超過50k這一問題的解決方案。

結(jié)語

本文通過計算機模型對個人收益進行預測,使用了三種模型進行預測,并對比預測結(jié)果:KNN模型的預測準確率最高為79.4%、決策樹模型預測準確率最高為78.7%、隨機森林模型預測準確率最高為80.6%。通過比對實驗結(jié)果,可以看到預測效果最好的是隨機森林模型。

參考文獻:

[1]李運.機器學習算法在數(shù)據(jù)挖掘中的應用[D].北京郵電大學,2015.

[2]楊志輝.基于機器學習算法在數(shù)據(jù)分類中的應用研究[D].中北大學,2017.

[3]方洪鷹.數(shù)據(jù)挖掘中數(shù)據(jù)預處理的方法研究[D].西南大學,2009.

作者簡介:賴丹(1988—),女,漢族,四川雙流人,研究生,中學一級,研究方向:計算數(shù)學;何軍(1986—),男,漢族,四川綿竹人,本科,中學一級,研究方向:中學數(shù)學教育。

木里| 惠来县| 涞源县| 连江县| 辽中县| 旬邑县| 常山县| 伊宁市| 江川县| 修水县| 麻阳| 禹城市| 乾安县| 延川县| 周宁县| 楚雄市| 正镶白旗| 镇安县| 图木舒克市| 白玉县| 华阴市| 加查县| 佛山市| 中山市| 铅山县| 唐海县| 贵定县| 隆安县| 滁州市| 宽甸| 贵溪市| 昌宁县| 清河县| 怀远县| 拜城县| 赣州市| 桑植县| 故城县| 铁岭市| 夏津县| 辰溪县|