国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度LightGBM集成學(xué)習(xí)模型的谷歌商店顧客購買力預(yù)測

2019-01-06 07:27葉志宇馮愛民高航
計算機應(yīng)用 2019年12期
關(guān)鍵詞:機器學(xué)習(xí)數(shù)據(jù)挖掘

葉志宇 馮愛民 高航

摘要:針對輕量化梯度促進機(LightGBM)等集成學(xué)習(xí)模型只對數(shù)據(jù)信息進行一次挖掘,無法自動地細化數(shù)據(jù)挖掘粒度或通過深入挖掘得到更多的數(shù)據(jù)中潛在內(nèi)部關(guān)聯(lián)信息的問題,提出了深度LightGBM集成學(xué)習(xí)模型,該模型由滑動窗口和加深兩部分組成。首先,通過滑動窗口使得集成學(xué)習(xí)模型能夠自動地細化數(shù)據(jù)挖掘粒度,從而更加深入地挖掘數(shù)據(jù)中潛在的內(nèi)部關(guān)聯(lián)信息,同時賦予模型一定的表示學(xué)習(xí)能力。然后,基于滑動窗口,用加深步驟進一步地提升模型的表示學(xué)習(xí)能力。最后,結(jié)合特征工程對數(shù)據(jù)集進行處理。在谷歌商店數(shù)據(jù)集上進行的實驗結(jié)果表明,所提深度集成學(xué)習(xí)模型相較原始集成學(xué)習(xí)模型的預(yù)測精度高出6.16個百分點。所提方法能夠自動地細化數(shù)據(jù)挖掘粒度,從而獲取更多數(shù)據(jù)集中的潛在信息,并且深度LightGBM集成學(xué)習(xí)模型與傳統(tǒng)深度神經(jīng)網(wǎng)絡(luò)相比是非神經(jīng)網(wǎng)絡(luò)的深度模型,參數(shù)更少,可解釋性更強。

關(guān)鍵詞:機器學(xué)習(xí);輕量化梯度促進機;數(shù)據(jù)挖掘;深度模型;集成學(xué)習(xí);特征工程

中圖分類號: TP391.4文獻標志碼:A

Customer purchasing power prediction of Google store based on deep LightGBM

ensemble learning model

YE Zhiyu, FENG Aimin*, GAO Hang

(College of Computer Science and Technology, Nanjing University of Aeronautics and Astronautics, Nanjing Jiangsu 211100, China)

Abstract: The ensemble learning models such as Light Gradient Boosting Machine (LightGBM) only mine data information once, and cannot automatically refine the granularity of data mining or obtain more potential internal correlation information in the data by deep digging. In order to solve the problems, a deep LightGBM ensemble learning model was proposed, which was composed of sliding window and deepening. Firstly, the ensemble learning model was able to automatically refine the granularity of data mining through the sliding window, so as to further mine the potential internal correlation information in the data and a certain expressive learning ability was given to the model. Secondly, based on the sliding window, the deepening step was used to further improve the representation learning ability of the model. Finally, the dataset was processed with feature engineering. The experimental results on the dataset of Google store show that, the prediction accuracy of the proposed deep ensemble learning model is 6.16 percentage points higher than that of original ensemble learning model. The proposed method can automatically refine the granularity of data mining, so as to obtain more potential information in the dataset. Moreover, compared with the traditional deep neural network, the deep LightGBM ensemble learning model has fewer parameters and better interpretability as a non-neural network.

Key words: machine learning; Light Gradient Boosting Machine (LightGBM); data mining; deep model; ensemble learning; feature engineering

0引言

今廣泛應(yīng)用于數(shù)據(jù)挖掘任務(wù)的集成學(xué)習(xí)[1]模型主要有隨機森林(Random Forest, RF)[2]、輕量化梯度促進機(Light Gradient Boosting Machine, LightGBM)[3]、Catboost(gradient boosting with Categorical features support)[4]。隨機森林屬于集成學(xué)習(xí)中的bagging[5],而LightGBM、Catboost屬于集成學(xué)習(xí)中的boosting[6],都是基于梯度促進決策樹(Gradient Boosting Decision Tree, GBDT)[7]的集成學(xué)習(xí)模型,且具有預(yù)測精度高、訓(xùn)練速度快、占用內(nèi)存少等優(yōu)點,成為解決數(shù)據(jù)挖掘問題的主流方案;但目前對于集成學(xué)習(xí)模型的應(yīng)用,大都只是將所得到的特征集整塊地放入模型中進行訓(xùn)練學(xué)習(xí),其對數(shù)據(jù)關(guān)聯(lián)關(guān)系只進行一次挖掘,挖掘粒度較為粗糙,不具備深度挖掘的能力,因而亦無法自動挖掘出數(shù)據(jù)間更為深入的關(guān)聯(lián)關(guān)系。

為了獲取更多的數(shù)據(jù)關(guān)聯(lián)信息,目前主流方法都是依靠人工設(shè)計的特征工程對原始特征集進行處理,將處理后的數(shù)據(jù)再整體放入集成學(xué)習(xí)模型中進行訓(xùn)練。人工設(shè)計的特征工程非常依賴設(shè)計人員的經(jīng)驗積累以及大量的數(shù)據(jù)分析工作,因而,如何能夠使得LightGBM等模型自動地獲取深度信息成為關(guān)鍵。

對于如何自動地獲取數(shù)據(jù)中的深度信息,深度網(wǎng)絡(luò)在圖像處理以及自然語言處理任務(wù)上都獲得了很出色的成績。例如:長短期記憶(Long Short Term Memory, LSTM)模型[8]及其變型[9-11]被廣泛地應(yīng)用于自然語言處理等任務(wù)上;深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Neural Network, DeepCNN)[12]則被廣泛地應(yīng)用于圖像處理任務(wù)中。其中,表示學(xué)習(xí)能力[13]被公認為是深度網(wǎng)絡(luò)中不可或缺的一部分。若能夠賦予集成學(xué)習(xí)模型一定的表示學(xué)習(xí)能力,將使其能夠自動地挖掘數(shù)據(jù)中更為深入的關(guān)聯(lián)關(guān)系。

深度森林[14]的提出給深度模型帶來了新的思考方向——能夠做成深度形式的模型不只有神經(jīng)網(wǎng)絡(luò)。借鑒深度森林的思想,本文通過將LightGBM、Catboost模型做成深度的形式,從而使其具有挖掘數(shù)據(jù)中深度信息的能力。首先,通過加入滑動窗口對特征集進行劃分,細化數(shù)據(jù)挖掘粒度,從而使得模型能夠潛在地具有情境意識或結(jié)構(gòu)意識;然后,在滑動窗口的基礎(chǔ)上,通過加深操作進一步地提升模型的表示學(xué)習(xí)能力。與原始集成學(xué)習(xí)模型相比,本文所提的深度集成學(xué)習(xí)模型能夠自動地發(fā)掘更多特征之間的潛在關(guān)系,對數(shù)據(jù)潛在信息進行深入挖掘,而不是僅停留在已有的特征層面上;并且,所使用的基礎(chǔ)模型是集成樹模型,樹模型與其他模型相比具有更好的可解釋性,其樹節(jié)點的劃分思想與人類的思考過程是非常相似的,有助于對模型的分析和研究。

除此之外,本文還提出了半自動化特征工程來進一步強化模型的挖掘信息能力。在數(shù)據(jù)挖掘領(lǐng)域,特征工程往往起著很重要的作用,不同特征工程得到的特征集不同,一個好的特征工程可以揭示數(shù)據(jù)集中更多的關(guān)聯(lián)信息,從而使得機器學(xué)習(xí)模型得到更加精準的預(yù)測;而特征工程[15]的設(shè)計又非常依賴人工分析,一旦涉及到人工的方式就非常耗時耗力,特別是當數(shù)據(jù)量非常龐大的時候,因而如果能通過自動化生成特征和人工分析相結(jié)合的方式來獲取更多潛藏信息將會大幅減少人工操作量,同時還能提高預(yù)測的精確度。最后,將本文所提的方法應(yīng)用在谷歌商店顧客數(shù)據(jù)集上,驗證了本文方法的可行性、有效性。

1.1LightGBM

LightGBM是對GBDT的高效實現(xiàn),盡管已經(jīng)有了一些關(guān)于GBDT實現(xiàn)的算法,例如XGBoost(eXtreme Gradient Boosting)[16]、pGBRT(parallel Gradient Boosted Regression Trees)[17]、scikit-learn(machine learning in Python)[18]等;但是當數(shù)據(jù)的特征維度高、樣本個數(shù)多時,它們的表現(xiàn)就不盡如人意了。其中,最主要的原因在于以上的實現(xiàn)算法都需要對所有數(shù)據(jù)樣本遍歷,然后估計所有可能劃分點的信息增益,這項操作是非常耗時的。因而,LightGBM提出了GOSS(Gradient-based One-Side Sampling)和EFB(Exclusive Feature Building)兩種解決方法。

GOSS算法(算法1)排除了大部分具有小梯度的樣本,只使用剩余的樣本來進行信息增益估計,LightGBM[3]研究表明:具有較大梯度的樣本在計算信息增益的時候扮演著更加重要的角色,GOSS可以通過更加小規(guī)模的數(shù)據(jù)來獲得非常精準的信息增益計算。

EFB算法(算法2和算法3)通過將互斥的特征捆綁在一起,來減少特征數(shù)目?;コ馓卣饕馕吨鼈儙缀鹾苌偻瑫r出現(xiàn)非零值,并且LightGBM也表明:找到最優(yōu)互斥特征捆綁是NP(Non-deterministic Polynomial)難問題,但是貪心算法能夠獲得非常好的近似概率。

算法1GOSS。

輸入訓(xùn)練數(shù)據(jù)I, 迭代次數(shù)d,大梯度數(shù)據(jù)采樣率a,小梯度數(shù)據(jù)采樣率b,損失函數(shù)loss,弱學(xué)習(xí)器L。程序前

models←{}, fact←(1-a)/b

1)topN←a×len(I),randN← b×len(I)

2)for i=1 to d do

3)preds←models.predict(I)

4)g← loss(I,preds),w←{1,1,…}

5)sorted← GetSortedIndices(abs(g))

6)topSet← sorted[1: topN]

7)randSet← RandomPick(sorted[topN:len(I)],randN)

8)usedSet← topSet+randSet

9)w[randSet]×=fact∥給小梯度數(shù)據(jù)分配權(quán)重參數(shù)

10)newModel←L(I[usedSet],-g[usedSet],w[usedSet])

11)models.append(newModel)程序后

算法2Greedy Bundling。

輸入特征集F,最大沖突計數(shù)K;

輸出捆綁集bundles。程序前

構(gòu)造圖G

1)searchOrder←G.sortByDegree()

2)bundles←{},bundlesConflict←{}

3)for i in searchOrder do

4)needNew← True

5)for j=1 to len(bundles) do

6)cnt←ConflictCnt(bundles[j],F(xiàn)[i])

7)if cnt+bundlesConflict[i]≤K then

8)bundles[j].add(F[i]),needNew← False

9)break

10)if needNew then

11)將F[i]作為新的捆綁束bundle加入到捆綁集bundles中程序后算法3Merge Exclusive Features。

輸入數(shù)據(jù)的數(shù)目numData,一束關(guān)于互斥特征的捆綁特征F;

輸出新的直方圖newBin,直方圖區(qū)間binRanges。程序前

1)binRanges←{0},totalBin←0

2)for? f? in F do

3)totalBin+=f.numBin

4)binRanges.append(totalBin)

5)newBin←new Bin(numData)

6)for i=1 to numData do

7)newBin[i]←0

8)for j=1 to len(F) do

9)if F[j].bin[i]≠0 then

10)newBin[i]←F[j].bin[i]+binRanges[j]程序后

1.2Catboost

首先,該模型通過在訓(xùn)練的過程中處理和利用類屬特征,而不是在預(yù)處理階段進行此操作。其次,該模型使用了新的模式來計算葉節(jié)點的值,從而減少了過擬合現(xiàn)象。對于某個樣本的某個類屬特征的替換式如下:

∑p-1j=1[xσj,k=xσp,k]Yσj+a·P∑p-1j=1[xσj,k=xσp,k]+a

2本文模型

本文提出的深度集成學(xué)習(xí)模型主要由兩部分組成:

1)滑動窗口。在原始特征向量上進行滑動,自動地將原始特征集分割成多個不同的窗口,從而實現(xiàn)進行深度特征抽取,滑動窗口的大小自主選擇,步長固定為1;假設(shè),全特征向量用full_cols表示,滑動窗口大小為window_size,總的滑動窗口數(shù)目為len(full_cols)-window_size+1。

2)加深。將第一塊中每個窗口所產(chǎn)生的預(yù)測結(jié)果串聯(lián)成一個全新的特征向量,再將新的特征向量放入所選基礎(chǔ)模型中進行訓(xùn)練,這樣會產(chǎn)生預(yù)測結(jié)果,將預(yù)測結(jié)果與輸入的特征向量串聯(lián)作為下一層的輸入;可以不斷迭代來加深模型深度。

2.1滑動窗口

為了使得集成學(xué)習(xí)模型能夠自動地細化數(shù)據(jù)挖掘粒度并且在數(shù)據(jù)集上潛在地具有情境意識或結(jié)構(gòu)意識,本文提出將滑動窗口(對應(yīng)圖1中內(nèi)部和外圍虛線框)預(yù)測結(jié)果以及原始特征向量串聯(lián)作為新的特征向量,具體算法流程見算法4。并且,在進行訓(xùn)練的時候都采用K折交叉驗證方式進行訓(xùn)練,避免出現(xiàn)過擬合現(xiàn)象。

算法4滑動窗口產(chǎn)生新特征。

輸入原始數(shù)據(jù)集為D,window size為w;

輸出將full_cols與each_time_cols預(yù)測結(jié)果串聯(lián)。程序前

1)full_cols=D.columns

2)window_size=len(full_cols)

3)LightGBM/Catboost對window_size數(shù)據(jù)進行訓(xùn)練,產(chǎn)生預(yù)測結(jié)果

4)window_size=w

5)for i in range(len(full_cols)-window_size+1)

6)each_time_cols=full_cols[i:i+window_size]

7)LightGBM/Catboost對each_time_cols數(shù)據(jù)進行訓(xùn)練,并產(chǎn)

生預(yù)測結(jié)果程序后

從圖1和算法4可以清晰地看到,圖1中最外圍虛線框?qū)?yīng)著算法4中第2)步:全特征訓(xùn)練及其預(yù)測結(jié)果,圖1中內(nèi)部虛線框?qū)?yīng)著算法4中第4)步:滑動窗口訓(xùn)練及其預(yù)測結(jié)果,圖1的最右輸出向量對應(yīng)著算法4的輸出;無論是全特征還是滑動窗口都可看作滑動窗口,只是window_size不同。

根據(jù)最終評判指標的變化來對window_size進行調(diào)整,例如:window_size從小到大進行變化,當window_size偏小時,所產(chǎn)生的新特征向量維數(shù)就更大;若在增大window_size時預(yù)測誤差越來越小,則繼續(xù)增大window_size,直到預(yù)測誤差增加時停止增加window_size。

2.2加深

為了使本文所提的算法也能具有一定的深度網(wǎng)絡(luò)中的表示學(xué)習(xí)能力[13],因而在滑動窗口的基礎(chǔ)上,對于模型層次進行加深,通過加深模型層次的方式來進一步提升算法表示學(xué)習(xí)能力,具體算法步驟見算法5。

算法5深度LightGBM/Catboost集成學(xué)習(xí)模型。

輸入滑動窗口輸出的特征向量,深度參數(shù)Depth;

輸出學(xué)習(xí)模型預(yù)測值。程序前

1)for i in range(Depth)

2)輸入向量放入LightGBM/Catboost模型進行訓(xùn)練

3)if i==0

4)預(yù)測結(jié)果作為新特征與輸入向量串聯(lián)

5)else

6)預(yù)測結(jié)果覆蓋輸入向量中對應(yīng)位置特征值

7)更新過的輸入向量作為下一層輸入向量程序后

在該部分,本文首先將滑動窗口部分的輸出特征向量作為輸入。對于LightGBM/Catboost+滑動窗口模型進行加深的算法5,其算法流程為:首先,將輸入特征向量放入學(xué)習(xí)模型進行訓(xùn)練,同樣也將采用K折交叉驗證進行訓(xùn)練。其次,如若當前所處深度等于1,則將學(xué)習(xí)模型的預(yù)測結(jié)果和輸入特征向量串聯(lián);如若當前所處深度大于1,則將學(xué)習(xí)模型的預(yù)測結(jié)果覆蓋到輸入特征向量中存儲上一層預(yù)測結(jié)果的位置。圖2中每層輸出特征向量的第一個虛線框代表著每層學(xué)習(xí)模型的預(yù)測結(jié)果。最后,達到指定深度時,將學(xué)習(xí)模型的預(yù)測結(jié)果輸出。圖2所展示的是Depth=2時模型結(jié)構(gòu),通過控制Depth參數(shù)來調(diào)整模型的深度。

深度的確定依據(jù)最終預(yù)測結(jié)果的精度,若層次過深、精度下降,則減少加深層次、調(diào)整深度以達到最優(yōu)精度輸出。

除了將LightGBM和Catboost做成深度形式以外,還將LightGBM+Catboost集合做成深度形式。在對LightGBM+Catboost進行加深之前,首先,按照算法4分別生成對應(yīng)于LightGBM和Catboost的全特征預(yù)測值以及滑動窗口預(yù)測值,假設(shè):len(full_cols)=100,window_size=25,那么滑動窗口階段所輸出的特征向量維數(shù)d=len(full_cols)+2+2(len(full_cols)-window_size+1)=254;接下來,關(guān)于深度模型的具體操作見算法6。算法6中i==0的情況對應(yīng)著圖3中Depth=1的過程,在圖3中可以清楚地看到,Depth=1時,輸入向量和輸出向量之間的差異。

算法6深度LightGBM+Catboost集成學(xué)習(xí)模型。

輸入滑動窗口輸出的特征向量,深度參數(shù)Depth;

輸出加權(quán)求和的預(yù)測結(jié)果。程序前

1)for i in range(Depth)

2)輸入向量分別放入LightGBM和Catboost學(xué)習(xí)模型進行訓(xùn)練

3)if i==0

4)LightGBM和Catboost預(yù)測結(jié)果分別作為新特征與輸入向量串聯(lián)

5)else

6)LightGBM和Catboost預(yù)測結(jié)果分別覆蓋輸入向量中對應(yīng)位置特征值

7)更新過的輸入向量作為下一層輸入向量

8)LightGBM和Catboost預(yù)測結(jié)果分別乘上wlgb、wcat,相加得到最終預(yù)測結(jié)果程序后

2.3特征工程

將通過分析谷歌商店顧客數(shù)據(jù)集中的各個特征在LightGBM中重要性表現(xiàn)來進行特征工程操作。對原始特征集中幾個較重要的特征進行解釋說明,如表1所示。

首先,將原始谷歌商店顧客數(shù)據(jù)集放入LightGBM訓(xùn)練的結(jié)果如表2所示。

從表2可以發(fā)現(xiàn),關(guān)于pageviews(每次會話中頁面瀏覽次數(shù))的特征權(quán)值最大,而在原始數(shù)據(jù)集中對于pageviews的操作有sum、count、mean。通過分析可知,進行上述操作的特征都是屬于數(shù)值型特征,對于數(shù)值計算的指標不僅僅是以上3種。

于是,本文的特征工程自動地對數(shù)值型特征進行處理,對其進行sum、count、mean、median、std統(tǒng)計分析,最終獲得基于數(shù)值型特征的額外統(tǒng)計分析特征。而原始數(shù)據(jù)集中對于totals_newVisits(每次會話中新訪問次數(shù)總和)卻沒有進行處理,通過分析pageviews產(chǎn)生衍生特征的過程,對totals_newVisits按照network_domain(網(wǎng)絡(luò)管區(qū))、region(地理區(qū)域)分組進行count、sum、mean、median、std操作來獲取額外的新特征。在進行上述兩個操作后,再將獲得的新數(shù)據(jù)集放入LightGBM中進行訓(xùn)練,可以得到表3所示的特征權(quán)值排序。

如果只是一直不停地增加特征,不但增加運行時間,還使得預(yù)測精度下降。從表2和表3中可以觀察到,后半部分特征的權(quán)值遠遠大于前半部分特征,并且有一些特征的權(quán)值幾乎為零。

而這些對于學(xué)習(xí)模型沒有幫助的特征是多余的,本文通過刪除Date_Hour(會話發(fā)生在幾時)、Date_Is_year_start(會話是否發(fā)生在一年的開端)、Date_Is_year_end(會話是否發(fā)生在一年的末尾)、Date_Is_quarter_start(會話是否發(fā)生在季度的開端)、Date_Is_quarter_end(會話是否發(fā)生在季度的末尾)等權(quán)值偏低的特征,最終所得數(shù)據(jù)集再放入LightGBM中訓(xùn)練,便可得到表4中所示的特征權(quán)值排序。

從表4中可以觀察到,在刪除了一些特征之后,整體特征的權(quán)值分布更加均勻了,而且在圖中的最后幾名特征也有了一定的貢獻,雖然也很低,但不像表2和表3中貢獻幾乎為0。

通過上述兩種操作來實現(xiàn)半自動化特征工程,其中對于數(shù)值型特征的操作屬于自動化處理,而刪除特征操作屬于人工分析的方式。

3實驗與結(jié)果分析

3.1數(shù)據(jù)集

本文所使用的數(shù)據(jù)集是來自Kaggle網(wǎng)站上2018年9月份左右舉辦的Google Analytics Custmer Revenue Prediction比賽數(shù)據(jù)集,通過分析Google Merchandise Store(also known as GStore swag is sold)的顧客數(shù)據(jù)集來預(yù)測將來每位顧客的購買力,可以確保數(shù)據(jù)來源的真實性和有效性,同時也能驗證本文所提方法的實際性。本文所述的原始數(shù)據(jù)集,指的是在進行過數(shù)據(jù)清洗和一定的特征工程操作后所得到的數(shù)據(jù)集,數(shù)據(jù)集及其評測指標如表5所示。表5中,訓(xùn)練集之所以比測試集多了一列特征的原因是:多出的一列是預(yù)測目標,也就是客戶購買力。其中均方根誤差(Root Mean Squard Error, RMSE)的計算式為:

RMSE=1n∑ni=1(yi-y^i)2

其中,y^i是預(yù)測某客戶購買力的自然對數(shù),并且yi是實際某客戶購買力總和加1的自然對數(shù)。RMSE越小表明預(yù)測結(jié)果越準確。

在關(guān)于客戶購買力預(yù)測問題上,往往存在著80/20定律,該定律證明了在許多商業(yè)貿(mào)易中,大部分的利潤來源于一小部分的顧客。

通過對數(shù)據(jù)進行簡單的分析可以發(fā)現(xiàn),比賽所給出的數(shù)據(jù)的確符合80/20準則,圖4顯示了有進行商品購買的用戶大多集中在編號700000以上,而在此之前的用戶幾乎都不產(chǎn)生任何利潤。

3.2結(jié)果分析

[10]BAO W, YUE J, RAO Y. A deep learning framework for financial time series using stacked autoencoders and long-short term memory [J]. PloS One, 2017, 12(7):? Article No. e0180944.

[11]SHAO X, MA D, LIU Y, et al. Short-term forecast of stock price of multi-branch LSTM based on K-means [C]// Proceedings of the 2018 International Conference on Systems and Informatics. Piscataway: IEEE, 2018: 1546-1551.

[12]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2019-03-20]. https://arxiv.org/pdf/1409.1556.pdf.

[13]BENGIO Y, COURVILLE A, VINCENT P. Representation learning: a review and new perspectives [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798-1828.

[14]ZHOU Z-H, FENG J. Deep forest: towards an alternative to deep neural networks [C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2017: 3553-3559.

[15]SCOTT S, MATWIN S. Feature engineering for text classification [C]// Proceedings of the 1999 International Machine Learning Conference. San Francisco: Morgan Kaufmann Publishers Inc., 1999: 379-388.

[16]CHEN T, GUESTRIN C. XGBoost: a scalable tree boosting system [C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2016: 785-794.

[17]TYREE S, WEINBERGER K Q, AGRAWAL K, et al. Parallel boosted regression trees for Web search ranking [C]// Proceedings of the 2011 International Conference on World Wide Web. New York: ACM, 2011: 387-396.

[18]PEDREGOSA F, VAROQUAUX G, GRAMFORT A, et al. Scikit-learn: machine learning in python [J]. Journal of Machine Learning Research, 2011, 12: 2825-2830.

YE Zhiyu, born in 1994, M. S. candidate. His research interests include machine learning, data mining, tree model, deep model.

FENG Aimin, born in 1971, Ph. D., associate professor. Her research interests include machine learning, data mining.

GAO Hang, born in 1964, Ph. D., associate professor. His research interests include multimedia technology, embedded system.

收稿日期:2019-04-29;修回日期:2019-07-25;錄用日期:2019-07-26。

作者簡介:葉志宇(1994—),男,福建三明人,碩士研究生,主要研究方向:機器學(xué)習(xí)、數(shù)據(jù)挖掘、樹模型、深度模型;馮愛民(1971—),女,江蘇南京人,副教授,博士,主要研究方向:機器學(xué)習(xí)、數(shù)據(jù)挖掘;高航(1964—),男,江蘇南京人,副教授,博士,主要研究方向:多媒體技術(shù)、嵌入式系統(tǒng)。

文章編號:1001-9081(2019)12-3434-06DOI:10.11772/j.issn.1001-9081.2019071305

猜你喜歡
機器學(xué)習(xí)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)在內(nèi)河航道維護管理中的應(yīng)用研究
數(shù)據(jù)挖掘綜述
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
基于詞典與機器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
基于支持向量機的金融數(shù)據(jù)分析研究
基于R的醫(yī)學(xué)大數(shù)據(jù)挖掘系統(tǒng)研究
機器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
一本面向中高級讀者的數(shù)據(jù)挖掘好書
柏乡县| 顺义区| 新民市| 土默特左旗| 永丰县| 邳州市| 和田市| 兖州市| 萨嘎县| 浦东新区| 塘沽区| 醴陵市| 那坡县| 东乡族自治县| 茌平县| 宁明县| 亚东县| 兰州市| 个旧市| 独山县| 田林县| 始兴县| 惠来县| 隆昌县| 津市市| 安福县| 土默特右旗| 建水县| 故城县| 盐源县| 建湖县| 宜宾市| 永城市| 察雅县| 洪洞县| 佛冈县| 凌海市| 博爱县| 都江堰市| 湄潭县| 富蕴县|