劉婷婷,徐 紅,梅馨元,劉一心,肖愛民
(新疆大學(xué) 紡織與服裝學(xué)院,新疆 烏魯木齊 830046)
人體體型根據(jù)時(shí)間、生活環(huán)境、地理位置等客觀因素的影響而變化。對新疆地區(qū)青年女性裙裝合體性進(jìn)行問卷調(diào)查發(fā)現(xiàn),臀部的不合體比例較高。為了使服裝更加合體,應(yīng)對地區(qū)性體型進(jìn)行細(xì)分研究。近幾年國內(nèi)外有通過新方法建立體型分類與判別的模型,來提高服裝合體度。而針對體型分類的研究方法較多:如尹玲等[1]選擇有序樣本最優(yōu)分割法從整體、局部、軀干輪廓層面對女性體型分類,最終把體型劃分為3類;Maja Mahnic Naglic等[2]把K-means聚類法應(yīng)用到人體姿勢體型分類中,此分類函數(shù)可基于判別函數(shù)及其因子負(fù)載來定義;王軍等[3]利用兩步聚類法作為臀部分類方法,選取5個(gè)指標(biāo)后對臀部進(jìn)行細(xì)分;石小強(qiáng)等[4]使用DIANA分裂聚類將江浙地區(qū)青年女性臀部分為5類。體型判別上的創(chuàng)新有:尹玲等[5]采用隨機(jī)森林算法建立可靠的判別模型,提升了體型判別精準(zhǔn)度;景曉寧等[6]把女童數(shù)據(jù)庫合理利用起來,運(yùn)用樸素貝葉斯算法對女童體型進(jìn)行了判別分析。
極端梯度提升(XGBoost)是一種基于梯度提升決策樹的集中學(xué)習(xí)模型,該方法不僅解決了梯度提升[7]的過擬合問題,還提升了預(yù)測的精準(zhǔn)度,是目前計(jì)算機(jī)領(lǐng)域中的一個(gè)研究熱點(diǎn)。該算法屬于提升方法,在分類和預(yù)測領(lǐng)域中應(yīng)用廣泛,其優(yōu)點(diǎn)是模型計(jì)算運(yùn)行速度快,精準(zhǔn)度高,運(yùn)行方式簡單[8]。本文采用XGBoost算法建立了判別模型,對新疆地區(qū)青年女性臀部進(jìn)行判別,得到了極高的精準(zhǔn)度。該模型可運(yùn)用到數(shù)據(jù)系統(tǒng)內(nèi),為服裝定制廠商提供參考依據(jù),并提高服裝的合體性。
本文采用馬丁測量儀、卷尺、角度儀等作為測量工具;對新疆地區(qū)18~25歲的青年女性進(jìn)行人體數(shù)據(jù)采集。參照GB/T 1335.2—2008《服裝號型 女子》中人體部位尺寸的標(biāo)準(zhǔn)差與最大允許誤差,其中樣本量的計(jì)算公式為
式中:N為樣本量;t為標(biāo)準(zhǔn)正態(tài)分布在置信度α為5%時(shí)的概率,查表可知t為1.96;δ為標(biāo)準(zhǔn)差;A為允許誤差。
程朋朋等[9]指出,以腰圍為基礎(chǔ)的樣本量為最小值,腰圍的允許誤差為1 cm,總體標(biāo)準(zhǔn)差為6.7 cm,代入計(jì)算公式后最終可得樣本量為173。考慮到奇異值的篩選,最終選擇測量人數(shù)為220。
本文選擇臀部作為體型細(xì)致研究部位,參照王軍等對臀部分類的指標(biāo)[2-4],及張文斌描述的前臀長、側(cè)臀長、后臀長與人體腰臀部位、裙裝原型的關(guān)系[10],使用公因子方差分析后,確認(rèn)符合要求的17個(gè)指標(biāo):體重、臀圍、腰圍、中腰圍、大腿根圍、腰厚、腹厚、臀厚、身高、臀高、腰高、膝蓋中點(diǎn)高、前臀長、后臀長、側(cè)臀長、臀突上角、腰側(cè)角[11]。
圖1示出臀長與角度的測量方法。本文中所有測量部位誤差不超過允許誤差。
圖1 臀長與角度測量示意圖Fig.1 Hip length and angle measurement schematic. (a) Face of hip body;(b) Side of hip body
通過這些指標(biāo)可計(jì)算出需要的間接變量:身體質(zhì)量指數(shù)(BMI值)、臀腰差、臀腰比、腰圍身高比、臀圍身高比、后臀長腰圍比、后臀長臀圍比、后臀長身高比。
使用SPSS軟件對指標(biāo)進(jìn)行描述性統(tǒng)計(jì)分析,用QQ概率圖與直方圖對數(shù)據(jù)進(jìn)行正態(tài)性檢驗(yàn),所有指標(biāo)均服從正態(tài)分布。運(yùn)用XGBoost算法處理缺失值,通過箱型圖與莖葉圖查找異常值,對原始數(shù)據(jù)進(jìn)行校正。確定有效樣本量為200個(gè)。
對17項(xiàng)指標(biāo)進(jìn)行主成分貢獻(xiàn)率分析,不同主成分方差貢獻(xiàn)率如表1所示。提取特征根大于1的前4個(gè)主要成分,4個(gè)主要成分的累積貢獻(xiàn)率為77.11%,說明前4個(gè)主要成分能表述臀部體型的絕大部分信息。
表1 主成分貢獻(xiàn)率分析Tab.1 Analysis of contribution rate of main component
旋轉(zhuǎn)后的成分矩陣如表2所示。旋轉(zhuǎn)后的載荷數(shù)的絕對值>0.5時(shí)即可被定為指標(biāo)因子。由表2可知,第1主要指標(biāo)因子是圍度相關(guān)指標(biāo)因子;第2主要指標(biāo)因子是高度相關(guān)指標(biāo)因子;第3主要指標(biāo)因子是臀長相關(guān)指標(biāo)因子;第4主要指標(biāo)因子是角度相關(guān)指標(biāo)因子。
表2 旋轉(zhuǎn)后的成分矩陣Tab.2 Rotating composition matrix
表4 測量部位的間接變量與臀部體型關(guān)鍵部位的單因素方差分析Tab.4 One-way ANOVA between each derived variable and key part of hip body
相關(guān)指數(shù)與變異系數(shù)如表3所示??梢杂孟嚓P(guān)指數(shù)與變異系數(shù)來決定影響臀部的主要指標(biāo)。指標(biāo)的相關(guān)指數(shù)與變異系數(shù)越大,越具有代表性。由表3可知:圍度因子的重要指標(biāo)為體重、臀圍、腰圍;高度因子的重要指標(biāo)為身高;由于后臀長的相關(guān)指數(shù)比其他指標(biāo)大,與臀角、臀突均存在相關(guān)關(guān)系,因此臀長因子重要指標(biāo)為后臀長;角度因子的相關(guān)指數(shù)值較小,表1中的前3個(gè)主要成分的累積貢獻(xiàn)率為69.311%,也可代表所有數(shù)據(jù)的主要信息,因此可省略角度因子。最終確定體重、腰圍、臀圍、身高、后臀長作為主要影響指標(biāo)。
表3 相關(guān)指數(shù)與變異系數(shù)Tab.3 Correlation coefficients and coefficients of variation
國內(nèi)外最常使用的體型分類方法為K-means聚類方法。本文使用K-means聚類方法對臀部進(jìn)行分類,參照黃燦藝對福建地區(qū)上體下體分類時(shí)選擇聚類指標(biāo)的方法,采用單因素方差分析確定最終的聚類指標(biāo)[12],并以此為依據(jù)進(jìn)行聚類分析。使用長度與圍度比、圍度差,體重與身高計(jì)算得出的BMI值作為間接變量[13]。
表4給出了測量部位間接變量與臀部指標(biāo)的F值與P值。P值代表顯著水平,當(dāng)P<0.05時(shí),其顯著性就越強(qiáng);而表中只有后臀長腰圍比與后臀長臀圍顯著性效果更好,因此定義其為聚類指標(biāo)。聚類指標(biāo)與主要指標(biāo)的三維散點(diǎn)圖如圖2所示,2個(gè)聚類指標(biāo)與腰圍、臀圍、身高、后臀長這4個(gè)主要指標(biāo)均存在線性正相關(guān)的關(guān)系,且2個(gè)變量符合K-means聚類的要求[14],最終確定以這2個(gè)間接變量作為聚類指標(biāo)。
注:BHL為后臀長;W為腰圍;H為臀圍;Z為身高。 圖2 聚類指標(biāo)與主要指標(biāo)的散點(diǎn)圖Fig.2 Scatter plot of clustering indicators and major variables. (a) A scatterplot of clustering indicators and W; (b) A scatterplot of clustering indicators and H; (c) A scatterplot of clustering indicators and Z; (d) A scatterplot of clustering indicators and BHL
通過體型占比分布與迭代次數(shù)來選擇[15]K-means聚類中的聚類數(shù),為了給企業(yè)提供參考,不應(yīng)有太多類別。在進(jìn)行3次分類時(shí)的體型占比較為合理,初始聚類數(shù)據(jù)與最終聚類數(shù)據(jù)變化較大,迭代次數(shù)為12,因此確定將新疆青年女性臀部分為3類。
3種體型用于分類的聚類指標(biāo)平均值及占比見表5。第1類體型聚類指標(biāo)的數(shù)值最大,描述分析中得知各臀長數(shù)值也最大,臀角最??;第2類體型聚類指標(biāo)的數(shù)值適中,身高、腰臀圍與厚度、角度適中,且占比最大,可定義為中間體;第3類的聚類指標(biāo)的數(shù)值最小,腰臀圍、角度最大。3種體型的示意圖如圖3所示,參照文獻(xiàn)[11]中的臀部體型名稱,最終定義為平臀體、中間臀體、翹臀體。
表5 3種體型主要指標(biāo)平均值及占比Tab.5 Average and proportion of main indicators of three body types
圖3 3種臀型示意圖Fig.3 Three hip body shape diagram. (a)Face of hip body; (b)Side of hip body
表6示出不同地區(qū)與時(shí)間的女性臀部數(shù)據(jù)均值比較。由表可知,新疆[16]、上海[17]、東北[3]3個(gè)地區(qū)的臀部基本指標(biāo)會隨著時(shí)間的變化而增長。由此可證明體型的變化與時(shí)間也有關(guān)系,因此,對新疆青年女性臀部進(jìn)行體型判別分析,并及時(shí)修正原型,設(shè)計(jì)數(shù)據(jù)系統(tǒng)是有實(shí)用價(jià)值的。
表6 不同地區(qū)與時(shí)間的女性臀部數(shù)據(jù)均值比較Tab.6 Comparison of waist and hip data mean in different regions cm
XGBoost算法是一種集中學(xué)習(xí)模型,把多個(gè)分類準(zhǔn)確率較低的決策樹組合起來,多次迭代并擬合最終值。它具有良好的推理性,可通過較少的決策樹得到更高的精度。該算法與傳統(tǒng)的梯度樹相比,有較好的權(quán)衡偏差和方差[18]。其目的在于對原有目標(biāo)函數(shù)進(jìn)行改寫和優(yōu)化,同時(shí)進(jìn)行泰勒展開,使算法收斂得更快,最終得到最優(yōu)解,并以此來提升判別精度。
XGBoost算法的目標(biāo)函數(shù)為
式中:γ為復(fù)雜度參數(shù);T為葉子節(jié)點(diǎn)的個(gè)數(shù);λ為正則項(xiàng)懲罰系數(shù);ω為葉子上的權(quán)值。
定義一個(gè)近似目標(biāo)函數(shù),設(shè)第t次的損失函數(shù)為目標(biāo)函數(shù),用二階泰勒展開得到的公式為
損失函數(shù)的一階導(dǎo)數(shù)gi與二階導(dǎo)數(shù)hi分別為:
定義函數(shù)葉子節(jié)點(diǎn)一階與二階導(dǎo)數(shù)之和:
Gj=∑i∈Ijgi,Hj=∑i∈Ijhi
式中,葉子節(jié)點(diǎn)樣本集合為Ij={i|q(xi=j)},化解得:
對ωi求導(dǎo),令導(dǎo)數(shù)為0,得:
代入ωj,求得最優(yōu)解目標(biāo)函數(shù)
本文使用Python軟件建立了XGBoost預(yù)測模型,用來判別未知的女性臀部體型。XGBoost模型體型判別流程如圖4所示,訓(xùn)練與測試的流程相同,在多維特征訓(xùn)練后先讓訓(xùn)練集進(jìn)行機(jī)器訓(xùn)練,再通過測試集了解其精準(zhǔn)度,最終得出判別結(jié)果。
圖4 XGBoost模型體型判別流程圖Fig.4 XGBoost model body size difference flow chart
模型機(jī)器學(xué)習(xí)的訓(xùn)練集和測試集所占比例為7∶3。XGBoost模型的參數(shù)可進(jìn)行網(wǎng)絡(luò)調(diào)參Xgboost=XGBOSTclassifier(n_estimater=100,learning_rate=0.05)。
將XGBoost算法與支持向量機(jī)(SVM)算法、臨近算法(KNN)進(jìn)行精度比較: XGBoost、KNN、SVM訓(xùn)練集的精準(zhǔn)度分別為97.8%、97.1%、75.7%,測試集的精準(zhǔn)度分別為98.4%、96.8%、74.6%。結(jié)果顯示,XGBoost算法訓(xùn)練集與測試集的精準(zhǔn)度最高。
在對人臺進(jìn)行修正后,使用立裁與平面結(jié)構(gòu)方法對版型數(shù)據(jù)進(jìn)行調(diào)整[19],標(biāo)準(zhǔn)裙裝原型與修正裙裝原型比較見圖5。由圖可知,B與B1分別是修正裙裝原型和標(biāo)準(zhǔn)裙裝原型的后臀長,2種裙裝原型的后臀長之差為2.4 cm,證明新疆地區(qū)的臀部較翹;地區(qū)性的裙裝原型前后臀長差值較大,后臀長B比前臀長A長了1.4 cm;標(biāo)準(zhǔn)裙裝原型的側(cè)縫線處弧度C比修正裙裝原型大,說明角度不同會影響弧度的變化。
圖5 標(biāo)準(zhǔn)裙裝原型與修正裙裝原型的比較Fig.5 Comparison of revised skirt prototype and standard skirt prototype
將不同裙裝原型[20]前后片差值進(jìn)行比較分析發(fā)現(xiàn),新疆、英式、美式裙裝原型前后片差值均大于或等于0,國內(nèi)標(biāo)準(zhǔn)裙裝原型前后片差值為-1。這可能是由于人口遷徙相互融合、地域等原因?qū)е滦陆貐^(qū)與國內(nèi)其他地區(qū)青年女性臀部差異較大,本研究可為新疆本地與線上服裝生產(chǎn)企業(yè)提供參考依據(jù)。
新的算法可用于實(shí)踐研究,可應(yīng)用到數(shù)據(jù)系統(tǒng)內(nèi),提升體型判別的效率,增加其實(shí)用性。本文設(shè)計(jì)的數(shù)據(jù)系統(tǒng)有體型判別的功能,先選擇XGBoost算法,再輸入后臀長腰圍比與后臀長臀圍比,即可快速獲得新疆地區(qū)青年女性的臀部體型類別。
1)本文利用主成分因子分析與相關(guān)指數(shù)、變異系數(shù)分析及單因素方差分析確定了2個(gè)聚類指標(biāo):后臀長腰圍比、后臀長臀圍比;通過K-means聚類分析法將女性臀部體型分為3類:平臀體、中間臀體、翹臀體。
2)運(yùn)用XGBoost算法對新疆青年女性臀部體型進(jìn)行了判別分析,與SVM、KNN算法進(jìn)行精度比較,結(jié)果表明,該算法的訓(xùn)練集與測試集的精準(zhǔn)度均在97%以上。
3)利用標(biāo)準(zhǔn)裙裝原型與新疆地區(qū)青年女性修正裙裝原型結(jié)構(gòu)比較發(fā)現(xiàn),修正原型的后臀長比前臀長多1.4 cm,說明新疆地區(qū)青年女性臀部與其他地區(qū)臀部差異較大。
4)將XGBoost算法模型應(yīng)用到數(shù)據(jù)系統(tǒng)中,可提高效率,增加實(shí)用價(jià)值。