韓金+侯圓圓+王鳴泉
引言
1.棉花產(chǎn)量統(tǒng)計(jì)何其難。數(shù)學(xué)界有一個(gè)哥德巴赫猜想,棉花界也有一道難解的數(shù)學(xué)題,國家的棉花年產(chǎn)量究竟有多少?新疆的棉花產(chǎn)量究竟有多少?這道難題困擾著棉花界的人士。
中國的棉花總產(chǎn)量從500萬噸到800萬噸跨度不斷變化,但確切數(shù)字是多少,我們有多種答案,就拿2014棉花年度為例,生產(chǎn)、收購、加工等環(huán)節(jié)基本結(jié)束,我們?nèi)匀焕_著這個(gè)答案。
2.統(tǒng)計(jì)失真問題源于樣本和方法。棉花產(chǎn)量統(tǒng)計(jì)失真,主要源于統(tǒng)計(jì)口徑與統(tǒng)計(jì)方法。棉花產(chǎn)量究竟是多少?對于這個(gè)問題權(quán)威部門也沒有一個(gè)統(tǒng)一的說法,國家統(tǒng)計(jì)局、中國棉花協(xié)會、發(fā)改委、農(nóng)業(yè)部、美國農(nóng)業(yè)部(USDA)、國際棉花咨詢委員會(ICAC)等不同的渠道有不同的版本發(fā)布。以2014年新疆棉產(chǎn)量預(yù)測,從367萬噸到450萬噸之間有多個(gè)版本和渠道發(fā)布,跨度較大,不但業(yè)外困惑,業(yè)內(nèi)也是眾說紛紜。
統(tǒng)計(jì)失真問題,既有樣本影響因素,也有統(tǒng)計(jì)口徑因素,還有人為因素,當(dāng)然統(tǒng)計(jì)方法也非常重要。
3.數(shù)據(jù)建模解決棉花產(chǎn)量精確統(tǒng)計(jì)問題。古訓(xùn)云:工欲善其事,必先利其器。解決中國棉花產(chǎn)量問題,要充分相信科學(xué)、充分利用科技手段。為解決棉花產(chǎn)量的精確統(tǒng)計(jì),特別是新疆棉花產(chǎn)量的精確統(tǒng)計(jì)與預(yù)測問題,作者所在協(xié)會的成員單位北京中棉機(jī)械成套設(shè)備有限公司重點(diǎn)投入搭建了“全國棉花加工檢驗(yàn)綜合數(shù)據(jù)平臺”,從2013年度監(jiān)測新疆阿克蘇,到2014棉花年度在新疆全區(qū)推廣應(yīng)用。該系統(tǒng)精確統(tǒng)計(jì)每一包產(chǎn)量,每一包棉花都有自己的條碼編號,每一個(gè)加工廠精確統(tǒng)計(jì),每個(gè)地區(qū)涵蓋所有加工企業(yè)。
本文作者韓金在棉花加工領(lǐng)域從事多年研究,中國人民大學(xué)侯圓圓是統(tǒng)計(jì)方面的專家,王鳴泉是中國聯(lián)通大數(shù)據(jù)分析方面的專家,三人一塊共同對棉花采集數(shù)據(jù)進(jìn)行了建模分析。
第一節(jié):數(shù)據(jù)來源
一、技術(shù)基礎(chǔ)
由于數(shù)據(jù)平臺系統(tǒng)做到了全覆蓋,因此每日加工量匯總數(shù)據(jù)真實(shí),根據(jù)已發(fā)生的記載數(shù)據(jù),預(yù)測未來日期的加工量,從而達(dá)到分析預(yù)測整個(gè)新疆的棉花總產(chǎn)量,有著很重要的研究價(jià)值和社會價(jià)值,本文就從新疆棉花產(chǎn)量的每日加工量統(tǒng)計(jì),通過建立數(shù)據(jù)模型,來分析預(yù)測新疆2014年度棉花總產(chǎn)量。
目前已經(jīng)實(shí)現(xiàn)了棉花加工、檢驗(yàn)數(shù)據(jù)信息化。每包棉花依據(jù)加工數(shù)據(jù)編成條碼,作為棉包身份證進(jìn)行統(tǒng)計(jì)。專業(yè)纖檢機(jī)構(gòu)逐包HVI儀器化檢驗(yàn),形成公檢電子證書。
新疆所有棉花加工企業(yè)的加工、檢驗(yàn)數(shù)據(jù)的采集、存儲、管理及業(yè)務(wù)操作都由北京中棉機(jī)械成套設(shè)備有限公司的棉包條碼信息管理系統(tǒng)實(shí)現(xiàn)。
二、數(shù)據(jù)平臺和模型作用
1.以棉包條碼信息系統(tǒng)作為數(shù)據(jù)終端,通過網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)數(shù)據(jù)集中存儲形成數(shù)據(jù)平臺,實(shí)現(xiàn)數(shù)據(jù)價(jià)值。準(zhǔn)確采集全國收購、加工、檢驗(yàn)、批次數(shù)據(jù),為政府部門、行業(yè)協(xié)會等提供產(chǎn)量等宏觀數(shù)據(jù)服務(wù)。
2.圍繞新疆棉花產(chǎn)量統(tǒng)計(jì)難題,各種數(shù)據(jù)滯后,調(diào)控、經(jīng)營決策不合理的現(xiàn)狀,建立科學(xué)合理的數(shù)據(jù)模型。形成集加工、檢驗(yàn)、倉儲、物流、紡織等各環(huán)節(jié)信息支撐系統(tǒng),實(shí)現(xiàn)棉花全產(chǎn)業(yè)鏈信息化。
3.建立棉花現(xiàn)代物流體系需要的信息流,圍繞中央一號文件要求的農(nóng)產(chǎn)品價(jià)格形成機(jī)制試點(diǎn),形成新疆目標(biāo)價(jià)格補(bǔ)貼試點(diǎn)按照產(chǎn)量發(fā)放補(bǔ)貼的依據(jù)。
4.以平臺為中心圍繞棉花產(chǎn)業(yè)鏈開發(fā)應(yīng)用服務(wù),與現(xiàn)有交易平臺形成對接,按照詳細(xì)質(zhì)量指標(biāo)實(shí)現(xiàn)精準(zhǔn)購棉,建立適合國產(chǎn)棉使用的計(jì)算機(jī)輔助配棉系統(tǒng),實(shí)現(xiàn)紡織企業(yè)國產(chǎn)棉精細(xì)化用棉。
三、數(shù)據(jù)平臺現(xiàn)狀
數(shù)據(jù)平臺平穩(wěn)運(yùn)行。2014年9月1日建成全疆?dāng)?shù)據(jù)采集系統(tǒng),覆蓋全疆846家棉花加工廠的1118條生產(chǎn)線,做到了新疆400型加工廠全覆蓋,新疆所有規(guī)劃內(nèi)400型棉花加工全部使用采集終端,采集終端成為棉花加工企業(yè)的生產(chǎn)管理系統(tǒng)。由于2014年新疆采取棉花入庫公檢模式,該系統(tǒng)又作為預(yù)約終端,實(shí)現(xiàn)全部新疆加工企業(yè)預(yù)約入庫管理系統(tǒng)的一部分,成功采集企業(yè)的預(yù)約入庫量。加上該系統(tǒng)是儀器化公證檢驗(yàn)數(shù)據(jù)下載和傳輸?shù)墓ぞ?,又采集加工企業(yè)加工數(shù)據(jù)對應(yīng)的檢驗(yàn)數(shù)據(jù)。因此數(shù)據(jù)平臺涵蓋從生產(chǎn)到入庫所有環(huán)節(jié)的加工數(shù)據(jù)、入庫數(shù)據(jù)、檢驗(yàn)數(shù)據(jù)。
本分析僅從采集到的加工數(shù)據(jù),通過建模分析,得出預(yù)測和分析結(jié)論。
四、數(shù)據(jù)收集
本數(shù)據(jù)建模采用的數(shù)據(jù)來源,全部來自2014年9月1日建成的全國加工檢驗(yàn)綜合數(shù)據(jù)平臺系統(tǒng),系統(tǒng)覆蓋了全疆846家400型棉花加工廠的1118條生產(chǎn)線。由于生產(chǎn)線作業(yè)采集,企業(yè)全覆蓋,因此數(shù)據(jù)來源真實(shí)可靠。
由于樣本不包含200型小廠,因此根據(jù)采集樣本得出的總預(yù)測產(chǎn)量理論上會小于實(shí)際新疆總產(chǎn)量。為保證數(shù)據(jù)真實(shí),我們抓取了數(shù)據(jù)平臺的截圖來證明數(shù)據(jù)來源(見圖1)。
圖1 ? ?產(chǎn)量統(tǒng)計(jì)系統(tǒng)登錄窗口
第二節(jié):數(shù)據(jù)的整理和顯示
一、數(shù)據(jù)整理
由于數(shù)據(jù)分收購數(shù)據(jù)、加工數(shù)據(jù)、檢驗(yàn)數(shù)據(jù)、入庫數(shù)據(jù)幾類,為便于分析,我們僅以全新疆加工數(shù)據(jù)為樣本進(jìn)行分析。
我們截取匯總了從2014年9月18日開始加工的每日新疆加工日增量更新數(shù)據(jù)見表1,來進(jìn)行決策和預(yù)測分析。
二、數(shù)據(jù)顯示
1.直方圖
按照月份進(jìn)行分組,計(jì)算組距,如圖2所示。
圖2 ? ?按月統(tǒng)計(jì)加工量
從圖2中可以得出一些結(jié)論:(1)2014年新疆從9月18日開始加工。(2)加工高峰期主要集中在10月和11月。(3)觀察數(shù)為91個(gè),日最大加工量體現(xiàn)在10月30日84180噸,日最小加工量體現(xiàn)在9月20日121噸,平均日加工量38831噸。(4)截至發(fā)稿之日12月18日,累計(jì)匯總加工量為3533626噸,即新疆產(chǎn)量已經(jīng)達(dá)到353萬噸,占國家統(tǒng)計(jì)局統(tǒng)計(jì)發(fā)布產(chǎn)量的96%。(5)截至發(fā)稿之日12月18日,從12月14日日加工量跌破3萬噸后,連續(xù)4天檢測平均加工量仍維持2.6萬噸,說明加工進(jìn)入尾聲,增量下降,總量增加。
2.折線圖
圖3 ? ?日加工量折線圖
通過圖3的折線圖,可以清晰地揭示出每日加工量的增量在時(shí)間序列上的變化規(guī)律,通過早期的數(shù)據(jù)分布規(guī)律,我們可以依據(jù)時(shí)間序列變量及日加工量之間的對應(yīng)關(guān)系,對未來時(shí)間的數(shù)據(jù)進(jìn)行預(yù)測分析,這也是我們課題研究的意義所在。
對異常數(shù)據(jù)進(jìn)行適當(dāng)削峰處理,可以得到圖4 曲線,其中M代表月份。
第三節(jié):數(shù)據(jù)建模
根據(jù)圖3折線圖和圖4平滑圖,我們認(rèn)為日增量曲線變化規(guī)律符合二次曲線,現(xiàn)將時(shí)間(excel圖標(biāo)的水平軸)作為x,例如2014年9月8日就是1,2014年9月9日就是2,以此類推。x2就是x的平方,產(chǎn)量(excel圖標(biāo)的縱軸)作為y。
函數(shù)形式假設(shè)為二次型y=a0+b1x+b2x2,看是否通過檢驗(yàn)。
我們分別采用excel自帶的數(shù)據(jù)分析工具,先對采集數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)再進(jìn)行檢驗(yàn)假設(shè),限于篇幅,假設(shè)檢驗(yàn)步驟省略。從回歸假設(shè)檢驗(yàn)看,回歸模型的R方達(dá)到了0.906,ANOVA分析也表現(xiàn)顯著,因此模型的擬合效果良好。再看系數(shù),所有參數(shù)系數(shù)都非常顯著,因此該二次模型成立。
第四節(jié):數(shù)據(jù)分析
依據(jù)上述模型,根據(jù)時(shí)間軸與產(chǎn)量作散點(diǎn)圖,棉花產(chǎn)量隨時(shí)間遞減,加上上述檢驗(yàn)假設(shè),模型的擬合曲線與真實(shí)增量的散點(diǎn)圖如圖5所示,可以看出模型的擬合效果良好,數(shù)據(jù)符合二次曲線。
圖5 ? ?二次函數(shù)散點(diǎn)曲線圖
根據(jù)趨勢線得出曲線方程:y=ax2+bx+c
依據(jù)實(shí)際加工量進(jìn)行二次函數(shù)運(yùn)算,得a=-24.07,b=2585.054,c=-12540.375,該模型表達(dá)式為y=-24.07x2+2585.054x-12540.375。為此,欲求新疆棉花總產(chǎn)量,首先需要預(yù)測出以后各期增量。因此為x賦值92、93、94……并帶入到二次函數(shù)中求解產(chǎn)量y,計(jì)算的終止條件是y≤0。
用以上方式,算出增量第102天時(shí)增量為正,第103天增量為負(fù)。
x=102時(shí)(即2014年12月28日),解得y值:y=-24.07x2+2585.054x-12540.375
=-24.07×1022+2585.054×102-12540.375=710.853。
略去小數(shù),x=102時(shí),y=711。
數(shù)據(jù)列表如表2,累計(jì)匯總為3660124噸。
在我們截稿之際,恰逢國家統(tǒng)計(jì)局2014年12月17日統(tǒng)計(jì)發(fā)布了新疆棉花產(chǎn)量367.7萬噸。此二次曲線數(shù)學(xué)模型計(jì)算與國家統(tǒng)計(jì)局的發(fā)布數(shù)據(jù)基本吻合。
第五節(jié):數(shù)據(jù)修正
我們依據(jù)上述模型對數(shù)據(jù)進(jìn)行擬合,發(fā)現(xiàn)從9月18日到11月18日期間即前60天預(yù)測值與實(shí)際值重合度高,從11月18日后,預(yù)測值在實(shí)際值下方整體偏下,即實(shí)際值略高于預(yù)測值,而且隨著時(shí)間推移,偏離度逐漸加大,進(jìn)一步抓取11月18日到12月18日之間30天的數(shù)據(jù)作散點(diǎn)圖(見圖6)分析。
圖6 ? ?30天實(shí)際加工量散點(diǎn)圖
該散點(diǎn)圖特質(zhì)除了具備二次曲線下降的趨勢外,是否更符合線性關(guān)系呢?
數(shù)據(jù)模型的最關(guān)鍵點(diǎn)在于找到二次曲線與線性回歸的拐點(diǎn),依據(jù)線性假設(shè)和回歸分析,根據(jù)趨勢,我們做線假設(shè),假設(shè)線性方程:y=ax+b。
利用excel表格中數(shù)據(jù)分析工具,帶入11月11日到12月18日共38天時(shí)間的實(shí)際加工量,進(jìn)行回歸函數(shù)運(yùn)算,得出a= -663,b=92008,該模型表達(dá)式為y = -663x + 92008。
為此,欲求新疆棉花總產(chǎn)量,首先需要預(yù)測出12月18日以后的每日增量。因此為x賦值93、94……并代入到二次函數(shù)中求解產(chǎn)量y,計(jì)算的終止條件是y≤0。
當(dāng)x=139時(shí),y=-149,即第139天增量為負(fù)值,也就是說加工到第139天結(jié)束,對應(yīng)加工日期為2015年2月2日,預(yù)計(jì)整個(gè)加工量為4270343噸(見表3)。
表3 ? ?線性回歸函數(shù)
第六節(jié):決策結(jié)論
427萬噸的數(shù)學(xué)模型預(yù)測產(chǎn)量,我們認(rèn)為有其合理性??紤]到樣本的覆蓋性,我們增加考慮因素,影響產(chǎn)量變動(dòng)的主要因素有:
1.未被統(tǒng)計(jì)在內(nèi)的200型小包棉產(chǎn)量??紤]到樣本沒有覆蓋目標(biāo)價(jià)格改革試點(diǎn)實(shí)施前,東疆哈密和吐魯番地區(qū)棉花成熟早,主要用于絮棉、民用棉的現(xiàn)狀,該區(qū)域收購早,加工也早,大部分用的是200型小包銷售,因此樣本不包含小包型產(chǎn)量,預(yù)計(jì)有2萬~3萬噸左右。
2.未被覆蓋的400型大包未參與公檢部分。因?yàn)槟繕?biāo)價(jià)格補(bǔ)貼政策出臺較晚,部分紡織自用棉加工企業(yè)沒有入庫參與公檢,但由于系統(tǒng)包含了紡織自用棉的統(tǒng)計(jì),盡管不參與入庫公檢,但不影響數(shù)據(jù)采集,數(shù)據(jù)系統(tǒng)中加工量的統(tǒng)計(jì)還是完整的。
3.入庫數(shù)量和檢驗(yàn)數(shù)量佐證模型。截止到12月18日,加工分會成員單位北京中棉機(jī)械成套有限公司統(tǒng)計(jì)新疆全疆皮棉的加工量是353萬噸,從我們掌握的新疆入庫數(shù)據(jù)看,截至同日新疆棉花入庫336.5萬噸,這和我們模型計(jì)算的情況是吻合的。收購情況也符合預(yù)測,整體看新疆南北疆采摘基本結(jié)束了,無論加工還是入庫,地方上下降明顯,明顯結(jié)束早于上年同期,突出表現(xiàn)在兵團(tuán)企業(yè)仍在持續(xù),與目標(biāo)價(jià)格補(bǔ)貼兵地之間籽棉流動(dòng)減少有關(guān)。同期檢驗(yàn)量是309.5萬噸,符合加工量大于入庫量,入庫量大于檢驗(yàn)量的規(guī)律。
分析結(jié)論
綜上,我們根據(jù)數(shù)學(xué)模型計(jì)算的新疆棉花產(chǎn)量為427萬噸左右??紤]調(diào)整因素,預(yù)計(jì)新疆產(chǎn)量為430萬噸左右。
數(shù)據(jù)模型的好處在于,如果能夠累計(jì)2~3年以上數(shù)據(jù),基本可以得出比較精確的函數(shù)關(guān)系,那么就可以根據(jù)早期的加工量,分析預(yù)測全年加工量,例如根據(jù)2015年10月的加工規(guī)律,預(yù)測2015年度的棉花產(chǎn)量,從這層意義上,經(jīng)濟(jì)價(jià)值很大。
(作者單位:韓金,中國棉花協(xié)會加工分會;侯圓圓,中國人民大學(xué);王鳴泉,中國聯(lián)通)