国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

在調(diào)優(yōu)NLP模型時使用J-K-fold交叉驗證來減少方差

2019-03-25 08:01:52吉祥飛李明東
電腦知識與技術(shù) 2019年3期
關(guān)鍵詞:自然語言處理

吉祥飛 李明東

摘要:K-fold交叉驗證(CV)是估計機器學習模型真實性能的常用方法。CV的過程需要數(shù)據(jù)的隨機劃分,因此性能評估實際上是隨機的,具有可變性,這對于自然語言處理任務(wù)是非常重要的。所以建議使用較少變化的J-K-fold CV,其中J個獨立的K-fold交叉驗證用于評估性能。實驗結(jié)果表明,通過重復的J-K-fold交叉驗證進行調(diào)優(yōu)能減少方差。

關(guān)鍵詞:J-K-fold交叉驗證;自然語言處理;調(diào)優(yōu)

中圖分類號:TP393? ? ? ? 文獻標識碼:A? ? ? ? 文章編號:1009-3044(2019)03-0008-02

近年來,機器學習的主要關(guān)注點一直是模型性能。需要精確地預(yù)測模型在實際應(yīng)用時的表現(xiàn),即預(yù)測或泛化誤差;模型從其訓練集中泛化的能力。模型性能的精確估計對于模型之間的選擇和最優(yōu)模型參數(shù)的選擇至關(guān)重要。對用于訓練模型的相同數(shù)據(jù)進行預(yù)測誤差的估計會導致對預(yù)測誤差的嚴重低估,這是不明智的。簡單的替代方法是將數(shù)據(jù)隨機分成訓練和測試集,或訓練、驗證和測試集,使用訓練集訓練的模型,對驗證集和測試集上的性能進行調(diào)優(yōu),以報告擬合模型的性能。更復雜的方法是基于重新采樣和更有效地利用數(shù)據(jù);包括bootstrapping[1]和K-fold交叉驗證(CV)[2]。由于bootstrapping具有很高的計算成本,并且容易低估預(yù)測誤差,因此通常將CV作為估計預(yù)測誤差的默認方法。

每一種評估方法都涉及對數(shù)據(jù)進行一個或多個隨機分區(qū)。數(shù)據(jù)的這種隨機分離導致了我們的預(yù)測估計值的變化,我們將其定義為內(nèi)部變化。雖然之前討論過這種內(nèi)部可變性[3][4],但是對于這個問題的數(shù)據(jù)集和模型的理解是很差的。由于模型只訓練在一個子集上,所以它不能達到像訪問所有數(shù)據(jù)那樣的高性能。Zhang和Yang[5]認為,評估性能、模型選擇和參數(shù)調(diào)優(yōu)對估計量的偏差和方差有不同的要求。特別是,只要偏差在不同的模型/參數(shù)之間近似恒定,對所選模型的影響就很小。如果我們估計的方差超過了模型性能的實際差異,我們就不能區(qū)分參數(shù)和噪聲之間的差異。降低交叉驗證的內(nèi)部方差是本文的重點。

1 通過重復的J-K-fold交叉驗證進行調(diào)優(yōu)

僅考慮一個分區(qū)不能提供關(guān)于性能評估中存在的可變性的數(shù)量的信息。我們必須查看由1000個不同分區(qū)選項產(chǎn)生的調(diào)優(yōu)模型。這種觀察激發(fā)了重復K-fold CV的使用,也稱為J-K-fold CV;K-fold CV估計值的平均值來自J不同的分區(qū)選擇。實驗證明,重復的CV降低了內(nèi)部的變異性,從而穩(wěn)定了預(yù)測誤差,特別是對于較小的數(shù)據(jù)集。我們可以單獨考慮K和J的選擇。K增加以減少偏差,而J減少內(nèi)部變化。有效的參數(shù)調(diào)優(yōu)對方差比對偏差更敏感。因此,在我們的調(diào)優(yōu)能夠從減少的偏差中獲益之前,我們首先需要減少內(nèi)部的可變性。

我們考慮使用LSTM在Li[6]收集的基準twitter數(shù)據(jù)集中使用特定于twitter的情緒詞向量來執(zhí)行目標依賴情緒分類。6248個句子中的每一個都帶有一個目標元素,任務(wù)是預(yù)測該元素的情緒(積極的、消極的或中性的)。在這些實驗中,我們將最大的時間間隔固定為100,當我們發(fā)現(xiàn)5個連續(xù)時間的驗證集性能沒有改善時,就停止訓練。對于每個J?K模型,驗證集是模型訓練數(shù)據(jù)的隨機20%,因此可以認為只是一個隨機分區(qū)的一部分。我們使用具有默認學習參數(shù)的ADAM優(yōu)化器,批處理大小為32。

我們進行了兩個實驗: 在網(wǎng)格{10、20、30、90}中對LSTM層(稱為寬度)的節(jié)點數(shù)進行調(diào)優(yōu),并分別在{0.00001,0.001,0.1}調(diào)優(yōu)輸入和偏差(固定寬度為50)的L2正則化量。如圖1(a)所示,普通1-10-fold CV根本不適合調(diào)優(yōu)LSTM的寬度,因為它在30到90之間生成幾乎一致的值。它也沒有一致地為正則化方案選擇單一選項(圖1(b))。相比之下,使用8-5-fold調(diào)優(yōu)會產(chǎn)生更一致的選擇,大多數(shù)時間選擇70作為最佳寬度(圖1(a)),0.001作為輸入和偏差正則化(圖1(c))。雖然我們所選擇的LSTM參數(shù)中的可變性隨著J的增加而減少,但它仍然顯著高于我們的參數(shù)網(wǎng)格中的間隙。再加上此調(diào)優(yōu)模型的精度估計的相對穩(wěn)定性,這表明8-5-fold CV最常見的選擇之間的性能差異很小。然而,為了持續(xù)地調(diào)整模型以適應(yīng)這種特性,我們需要更大的J而不僅僅是J=8。

2 討論和結(jié)論

本文提倡使用J-K-fold CV,擴展到參數(shù)調(diào)優(yōu)。通過使用來自多重估計的信息,穩(wěn)定了我們的調(diào)優(yōu)過程。為了抵消增加J的計算成本,建議降低K的選擇,因為有效的調(diào)優(yōu)更依賴于變化性而不是偏差。

雖然已經(jīng)在NLP示例中展示了一些特定的J和K選項的有效性,但是在選擇它們的最優(yōu)配置方面還有很多工作要做,這是與問題相關(guān)的。我們還想分析目前常見的提前停止的做法,這需要對另一保留數(shù)據(jù)集進行評估,以防止過度擬合。

參考文獻:

[1] Bradley Efron and Robert J Tibshirani. An Introduction to the Bootstrap[M]. CRC press, 1994.

[2] Ron Kohavi. A study of cross-validation and bootstrap for accuracy estimation and model selection[C].International Joint Conference on Artificial Intelligence, 1995(14):1137-1145.

[3] Gaoxia Jiang and Wenjian Wang. Error estimation based on variance analysis of k-fold cross-validation[J].Pattern Recognition, 2017(69):94-106.

[4] YoshuaBengio and Yves Grandvalet. No unbiased estimator of the variance of k-fold cross-validation[J].Journal of Machine Learning Research, 2004(5):1089–1105.

[5] Yongli Zhang and Yuhong Yang. Cross-validation for selecting a model selection procedure[J].Journal of Econometrics, 2015(187):95-112.

[6] Li Dong, Furu Wei, Chuanqi Tan, Duyu Tang, Ming Zhou, Ke Xu. Adaptive recursive neural network for target-dependent twitter sentiment classification[C].Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 2014(2):49-54.

【通聯(lián)編輯:代影】

猜你喜歡
自然語言處理
基于LSTM自動編碼機的短文本聚類方法
自然語言處理與司法案例
魅力中國(2017年24期)2017-09-15 04:35:10
國外基于知識庫的問答系統(tǒng)相關(guān)研究進展及其啟示
中國市場(2016年39期)2017-05-26 17:55:58
基于依存句法的實體關(guān)系抽取
基于組合分類算法的源代碼注釋質(zhì)量評估方法
面向機器人導航的漢語路徑自然語言組塊分析方法研究
詞向量的語義學規(guī)范化
求知導刊(2016年10期)2016-05-01 14:09:25
漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
科技視界(2016年5期)2016-02-22 11:41:39
基于.NET的維哈柯多語種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)
南丹县| 贞丰县| 乌什县| 讷河市| 安溪县| 明溪县| 深泽县| 兴海县| 汉川市| 连南| 垦利县| 搜索| 鹰潭市| 榕江县| 西乌珠穆沁旗| 柞水县| 克什克腾旗| 澄迈县| 酉阳| 铁力市| 南华县| 府谷县| 五家渠市| 新兴县| 江达县| 昂仁县| 获嘉县| 文成县| 拜城县| 安顺市| 永平县| 林州市| 灌南县| 星座| 阆中市| 赤峰市| 翁源县| 甘泉县| 榆社县| 民县| 和田市|