陳永欣 周 山 李慈進(jìn) 吳國境 何龍涼
SPSS在進(jìn)口鐵礦產(chǎn)地品牌識別中的應(yīng)用
陳永欣1周山2李慈進(jìn)1吳國境1何龍涼1
(1.中華人民共和國防城海關(guān),廣西 防城港 536000;2.廣西柳州鋼鐵集團(tuán)有限公司,廣西 防城港 538001)
文章介紹了建立進(jìn)口鐵礦產(chǎn)地品牌識別模型的方法。利用X射線熒光光譜法、紅外吸收法、發(fā)射光譜法等常規(guī)方法測定所收集的進(jìn)口鐵礦樣品中的主次元素含量,選擇其中Al2O3、SiO2、Fe、K2O、Cr、CaO、MgO、V2O5、TiO2、MnO、Na2O、P、As、S、Ni、Zn、Pb共17種元素進(jìn)行含量分析。在大量檢測數(shù)據(jù)的基礎(chǔ)上,分別采用SPSS軟件中4種算法對元素和產(chǎn)地品牌的關(guān)聯(lián)程度進(jìn)行計(jì)算,建立不同進(jìn)口鐵礦產(chǎn)地品牌識別模型,并利用測試樣本評估不同模型的準(zhǔn)確性和可靠性。測試結(jié)果顯示,判別分析和多層感知器神經(jīng)網(wǎng)絡(luò)能實(shí)現(xiàn)對鐵礦石產(chǎn)地與品牌的識別。所建立的模型可應(yīng)用于常見進(jìn)口鐵礦的產(chǎn)地品牌識別,對于維護(hù)貿(mào)易公平、保障礦石質(zhì)量安全將起到積極的作用。
鐵礦石;神經(jīng)網(wǎng)絡(luò);判別分析;產(chǎn)地;品牌
鐵礦石是鋼鐵生產(chǎn)的重要原材料,是重要的國際大宗商品,由于受地質(zhì)、環(huán)境等因素影響,不同產(chǎn)地鐵礦石的主次元素含量存在某些區(qū)域特征。中國是世界上最大的鐵礦石需求國,2020年中國累計(jì)進(jìn)口鐵礦石11.7億噸,同比增加9.5%。雖然進(jìn)口量不斷增加,但品質(zhì)卻難以得到保障。少部分鐵礦供應(yīng)商采取了降低品質(zhì)、以次充好的做法,甚至出現(xiàn)原產(chǎn)地造假,以擴(kuò)大出口規(guī)模,騙取最惠國關(guān)稅,謀求更大的經(jīng)濟(jì)利益。由于不同產(chǎn)地的鐵礦品質(zhì)、應(yīng)用范圍不盡相同,國內(nèi)鐵礦使用企業(yè)在冶煉時(shí)就需要制定不同的混料配比。偽冒鐵礦原產(chǎn)地不僅直接損害了鋼鐵企業(yè)的利益,同時(shí)也嚴(yán)重?cái)_亂了我國進(jìn)口鐵礦的市場秩序和進(jìn)口貨物海關(guān)監(jiān)管,因此對于識別進(jìn)口鐵礦產(chǎn)地品牌就變得極為重要。
以已知國別鐵礦石樣本X 射線熒光光譜無標(biāo)樣分析數(shù)據(jù)為基礎(chǔ),武素茹、張博等[1,2]采用逐步判別法、逐步判別-Fisher判別分析法等建立進(jìn)口國別的判別模型,識別進(jìn)口鐵礦石產(chǎn)地及品牌,準(zhǔn)確率為74.6%以上。劉倩[3]應(yīng)用波長色散-X射線熒光光譜無標(biāo)樣分析法,選擇 O、Al、Mg、 Si、S、P、K、Ca、Cu、Fe、Ti、Ag、As、Pb、Mo、Zn和Mn 共17種元素含量作為變量,結(jié)合 F-score 篩選變量用于 BP 神經(jīng)網(wǎng)絡(luò)模式識別可以實(shí)現(xiàn)對銅精礦的國別識別。較多方法是應(yīng)用無標(biāo)樣半定量方法確定元素含量,但不同儀器、不同實(shí)驗(yàn)室之間所得到的成分含量不盡相同,甚至相差較大,會影響到方法適用性[4-6]。
大數(shù)據(jù)應(yīng)用為量化管理提供便利的同時(shí),也需要全面掌握數(shù)據(jù)統(tǒng)計(jì)分析技術(shù)與方法。SPSS 是世界上最早采用圖形菜單驅(qū)動界面的統(tǒng)計(jì)軟件[7],由于其操作簡單,已經(jīng)在各個(gè)領(lǐng)域發(fā)揮了巨大作用。本文對798份防城口岸進(jìn)口鐵礦進(jìn)行準(zhǔn)確成分分析,并應(yīng)用SPSS對所獲得監(jiān)測數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,分析出進(jìn)口鐵礦中各元素含量與產(chǎn)地品牌間的關(guān)系,利用不同統(tǒng)計(jì)方法建立礦石組分含量—產(chǎn)地品牌的“大數(shù)據(jù)”識別模型。該模型直接應(yīng)用于進(jìn)口鐵礦的產(chǎn)地鑒別,不僅有利于保護(hù)我國進(jìn)口鐵礦貿(mào)易相關(guān)方的經(jīng)濟(jì)利益和保障進(jìn)口鐵礦的質(zhì)量安全,而且對于維護(hù)國家外貿(mào)秩序穩(wěn)定也將起到一定作用。
根據(jù)GB/T 10322.1-2014《鐵礦石取樣和制樣方法》從防城口岸采集并制備來自8個(gè)國家21個(gè)品牌的進(jìn)口鐵礦化學(xué)分析樣品,共798批次樣品。采集的樣品分布地域廣,容量大,具有一定的獨(dú)立性和代表性,包含了我國進(jìn)口鐵礦的主要來源國。
所收集的樣品采用以下方法對其中17種主次含量進(jìn)行分析:SN/T 0832-1999 《進(jìn)出口鐵礦中鐵、硅、錳、鈣、鈦、磷、鋁和鎂的測定——波長色散X射線熒光光譜法》、GB/T 6730.61-2005《鐵礦石碳和硫含量的測定高頻燃燒紅外吸收法》、GB/T 6730.76-2017《鐵礦石鉀、鈉、釩、銅、鋅、鉛、鉻、鎳、鈷含量的測定電感耦合等離子體發(fā)射光譜法》。
通過采集來自全國主要銅精礦進(jìn)出口口岸的澳大利亞、巴西、秘魯、南非、烏克蘭、毛里塔尼亞、伊朗、智利8個(gè)國家798批進(jìn)口鐵礦代表性樣品,選擇17種元素含量用于判別分析與神經(jīng)網(wǎng)絡(luò)建模,對比了一般判別、逐步判別、多層感知器神經(jīng)網(wǎng)絡(luò)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)對鐵礦石產(chǎn)地品牌識別的適用性,討論不同方法的差異,通過建模樣品驗(yàn)證、交叉驗(yàn)證以及預(yù)測樣品驗(yàn)證,可確保不同模型的準(zhǔn)確性和適用性。
1.3.1 判別分析
在分類確定的條件下,根據(jù)某一研究對象的各種特征值,判別其歸屬類型問題的一種多變量統(tǒng)計(jì)分析方法,稱為判別分析,又稱“分辨法”。其基本原理是根據(jù)一定的判別準(zhǔn)則,建立相關(guān)判別函數(shù),用研究對象的相關(guān)數(shù)值確定判別函數(shù)中的待定系數(shù),并計(jì)算判別指標(biāo)。據(jù)此即可確定某一樣本屬于何類。判別方法可分為參數(shù)法和非參數(shù)法,也可以分為定性資料的判別分析和定量資料的判別分析。常用方法有最大似然法、距離判別、Bayes判別和Fisher判別等4種。SPSS軟件具有其中一般判別和逐步判別兩種判別分析的算法。一般判別分析是根據(jù)已知變量數(shù)據(jù)來判別某些樣本未知類別的方法。逐步判別分析則是篩選出跟要判別的類別相關(guān)性較強(qiáng)的變量指標(biāo)來判別類別,而與類別相關(guān)性不強(qiáng)的指標(biāo),則給予剔除。
應(yīng)用SPSS軟件,采取兩種不同方式對全部個(gè)案進(jìn)行分析,分析個(gè)案處理摘要如表1所示,共有7.6%的個(gè)案排除在外,一般判別通過變量共提取了17個(gè)函數(shù);而逐步判別通過變量共提取了16個(gè)函數(shù),在每個(gè)步驟中,將輸入可以使總體威爾克Lambda最小化的變量,最大步驟數(shù)為34,要輸入的最小偏F為3.84,要除去的最大偏 F為2.71。
表1 分析個(gè)案處理摘要表
1.3.2 神經(jīng)網(wǎng)絡(luò)
近年來興起的人工神經(jīng)網(wǎng)絡(luò)學(xué)科(ANN- artificialneuralnetworks)是集數(shù)學(xué)、計(jì)算機(jī)科學(xué)、神經(jīng)學(xué)等學(xué)科為一體的綜合性交叉學(xué)科。神經(jīng)網(wǎng)絡(luò)是由大量的稱為神經(jīng)處理單元的自律要素及這些要素相互作用形成的網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)分為一個(gè)輸入層、若干個(gè)中間隱含層和一個(gè)輸出層三個(gè)部分。神經(jīng)網(wǎng)絡(luò)分析法能夠從未知模式的大量復(fù)雜數(shù)據(jù)中發(fā)現(xiàn)其規(guī)律。神經(jīng)網(wǎng)絡(luò)分析過程是一種自然的非線性建模過程,無需分清樣本數(shù)據(jù)間存在的何種線性、非線性關(guān)系,克服了傳統(tǒng)數(shù)據(jù)分析過程的復(fù)雜性及選擇適當(dāng)模型函數(shù)形式的困難,極大方便了樣本數(shù)據(jù)建模與分析。目前應(yīng)用的神經(jīng)網(wǎng)絡(luò)包括BP神經(jīng)網(wǎng)絡(luò)、RBF(徑向基)神經(jīng)網(wǎng)絡(luò)、感知器神經(jīng)網(wǎng)絡(luò)、線性神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)等。SPSS軟件中具備兩種神經(jīng)網(wǎng)絡(luò)算法:多層感知器神經(jīng)網(wǎng)絡(luò)和徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)。
多層感知器神經(jīng)網(wǎng)絡(luò)是一個(gè)具有單層計(jì)算神經(jīng)元的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)的傳遞函數(shù)是線性閾值單元;主要用來模擬人腦的感知特征,采取閾值單元作為傳遞函數(shù),適合簡單的模式分類問題。徑向基函數(shù)(RBF-Radial Basis Function)神經(jīng)網(wǎng)絡(luò)具有單隱層的三層前饋網(wǎng)絡(luò)。模擬了人腦中局部調(diào)整、相互覆蓋接收域的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),是一種局部逼近網(wǎng)絡(luò),它能夠以任意精度逼近任意連續(xù)函數(shù),特別適合于解決分類問題。
應(yīng)用SPSS軟件中多層感知器和徑向基函數(shù)兩種方法,均使用樣品798個(gè),其中多層感知器訓(xùn)練數(shù)561(70.3%),檢驗(yàn)數(shù)237(29.7%);徑向基函數(shù)訓(xùn)練數(shù)546個(gè)(68.4%),檢驗(yàn)數(shù)252(31.6%)。兩種算法的輸入層是一致的(17個(gè)),隱藏層同為1個(gè),隱藏層中單元數(shù)和激活函數(shù)不一樣,輸出層中因變量和單元數(shù)一致,但激活函數(shù)和誤差函數(shù)不一致。具體如表2所示。
表2 神經(jīng)網(wǎng)絡(luò)算法網(wǎng)絡(luò)信息
2.1.1一般判別
算法共提取的17個(gè)函數(shù),可以解釋100%的方差,其中函數(shù)1~7累計(jì)方差已經(jīng)達(dá)到98.8%的方差,如表3所示,函數(shù)1~5的典型相關(guān)性在0.9以上,而函數(shù)8驟降到0.656,可以看出函數(shù)1~7尤為重要。如表4所示,顯著性小于0.05時(shí),具有統(tǒng)計(jì)意義,提取的函數(shù)有效,可以使用。同時(shí)可以看出函數(shù)15~17的顯著性0.102~0.810之間,遠(yuǎn)大于0.05,證明這三個(gè)函數(shù)并非十分必要。從一般判別函數(shù)分類合并圖(圖1)也可以明顯看出,不同產(chǎn)地的類別質(zhì)心分散性較好,同一產(chǎn)地的質(zhì)心較為接近,說明不同國家的品質(zhì)能相互區(qū)別開;“澳大利亞中信精粉”與其它1~6種類相對分散,“巴西英美資源精粉”與其它8~11種類相對分散,說明這兩種精粉與其它礦種區(qū)別較大;“伊朗精粉”和“智利CMP Atacama精粉”同一分類個(gè)案與質(zhì)心重疊性不佳,說明這兩個(gè)礦種的品質(zhì)波動性較大。
一般判別算法的典則判別函數(shù)(1~7):
Y1=0.834X1+1.349X2+2.925X3-17.913X4+31.749X5-47.571X6-112.321X7-0.477X8-0.378X9-1.031 X10+6.907 X11+8.652 X12-20.157X13+85.507X14+49.007X15+54.327X16+36.478X17-92.686
Y2=-2.598X1-1.184X2+3.123X3-13.273X4-74.445X5+25.191X6-256.347X7+1.141X8+2.230X9-1.186 X10+6.396 X11+3.731X12+145.100X13+53.416X14+20.687X15+20.157 X16+16.861X17+85.437
Y3=0.346X1+0.445X2+5.171X3+5.014X4-180.998X5-40.140X6+102.434X7-0.626X8+12.007 X9+5.409X10+4.626X11+5.189X12+136.779X13-111.468 X14-35.050X15-60.722X16+18.044 X17-29.018
Y4=1.110X1-0.014X2+7.043X3+26.716X4+74.267X5+65.584X6-411.206X7+1.188X8+3.897X9+5.016X10+1.363X11+1.922X12-65.319X13+218.019X14-6.783X15-2.949X16+22.142 X17-9.514
Y5=0.963X1+0.517X2-7.653X3+35.977X4-61.525X5-151.645X6+346.439X7+1.878X8+1.114X9+2.561X10+2.609X11+4.908X12+17.352X13-183.264X14+10.463X15+15.537 X16-41.913 X17-44.150
Y6=1.405X1+2.308X2+0.366X3+49.243X4+273.704X5-41.850X6-266.263X7+4.322X8-5.095X9-3.836X10+0.961X11+0.746X12-72.016X13-2.415X14-9.586X15-21.251X16+51.709X17-160.526
Y7=0.842X1+2.112X2+3.389X3-35.118X4-235.823X5+100.148X6+4.097X7+4.948X8+7.367X9+7.270X10-1.019X11-0.886X12+98.242X13-3.557X14-18.662X15-4.440X16-42.033X17-142.793
為達(dá)到更高的識別準(zhǔn)確率,筆者選擇使用全部17個(gè)函數(shù)來建立判別模型,所建立的模型具有很好的識別效果,可準(zhǔn)確地對94.4%個(gè)原始已分組個(gè)案進(jìn)行分類,正確地對93.9%個(gè)進(jìn)行了交叉驗(yàn)證的已分組個(gè)案進(jìn)行了分類。
表3 一般判別函數(shù)特征值
表4 一般判別函數(shù)威爾克 Lambda
(1-澳大利亞BHP金布巴粉,2-澳大利亞必和必拓麥克粉,3-澳大利亞必和必拓紐曼粉,4-澳大利亞必和必拓紐曼混合塊,5-澳大利亞力拓PB粉,6-澳大利亞力拓PB塊,7-澳大利亞中信精粉,8-巴西CSNIOC6粉,9-巴西淡水河谷BRBF混合粉,10-巴西淡水河谷SSFG粉,11-巴西托克SSFS粉,12-巴西英美資源精粉,13-毛里塔尼亞SNIM TZFC粉,14-秘魯精粉,15-南非阿斯芒粉,16-南非庫博標(biāo)準(zhǔn)粉,17-南非庫博塊,18-烏克蘭INGGOK 精粉,19-烏克蘭KRIVOY ROG 精粉,20-伊朗精粉,21-智利CMP Atacama精粉)
2.1.2 逐步判別
算法所提取的16個(gè)函數(shù)可以解釋100%的方差,函數(shù)1~7累計(jì)方差已經(jīng)達(dá)到98.9%的方差。函數(shù)特征值(表5)顯示函數(shù)1~5的典型相關(guān)性在0.9以上,而函數(shù)8驟降到0.644,可以看出函數(shù)1~7尤為重要。威爾克 Lambda表(表6)可以看出函數(shù)16的顯著性0.077,證明這個(gè)函數(shù)重要性可以忽略。從逐步判別函數(shù)分類合并圖(圖2)也可以明顯看出,與2.1.1一般判別圖1的情況一致。
逐步判別算法的典則判別函數(shù)(1~7):
Y1=0.833X1+1.349X2+2.928X3-17.919X4-44.595X5-84.204X6-0.478X7-0.370X8-1.025X9+6.907X10+8.653X11-19.222X12+ 85.571X13+48.969X14+54.268X15+36.426 X16-92.706
Y2=-2.597X1-1.186X2+3.105X3-13.263X4+18.345X5-322.260X6+1.146X7+2.185X8-1.212X9+6.387X10+3.718X11+142.654X12+53.521X13+20.851X14+20.423X15+16.962X16+85.591
Y3=0.341X1+0.439X2+5.174X3+5.044X4-57.163X5-59.228X6-0.614X7+11.990X8+5.380X9+4.659X10+5.205X11+132.183X12- 111.851X13-34.839X14-60.458X15+18.509X16-28.619
Y4=1.107X1-0.016X2+7.036X3+26.597X4+72.658X5-345.183X6+1.179X7+3.920X8+5.039X9+1.353X10+1.918X11-63.116X12+218.292X13-6.813X14-2.925X15+21.706X16-9.328
Y5=0.970X1+0.528X2-7.664X3+36.293X4-157.876X5+292.529X6+1.902X7+1.066X8+2.520X9+2.622X10+4.917X11+ 15.293X12-183.992X13+10.479X14+15.454X15-41.379 X16-44.947
Y6=1.410X1+2.332X2+0.476X3+48.994X4-13.373X5-29.268X6+4.348X7-5.035X8-3.785X9+0.912X10+0.688X11-64.542X12+ 1.769X13-10.087X14-21.673X15+51.007X16-162.053
Y7=0.828X1+2.083X2+3.361X3-35.848X4+76.913X5-202.548X6+4.920X7+7.409X8+7.328X9-1.012X10-0.872X11+92.772X12-6.651X13+18.287X14-3.973X15-41.739 X16-140.838
為追求更高的識別準(zhǔn)確率,還是選擇使用全部16個(gè)函數(shù)來建立判別模型,該模型正確地對94.2%個(gè)原始已分組個(gè)案進(jìn)行了分類,正確地對93.4%個(gè)進(jìn)行了交叉驗(yàn)證的已分組個(gè)案進(jìn)行了分類。
表5 逐步判別函數(shù)特征值
表6 逐步判別函數(shù)威爾克 Lambda
(1-澳大利亞BHP金布巴粉,2-澳大利亞必和必拓麥克粉,3-澳大利亞必和必拓紐曼粉,4-澳大利亞必和必拓紐曼混合塊,5-澳大利亞力拓PB粉,6-澳大利亞力拓PB塊,7-澳大利亞中信精粉,8-巴西CSNIOC6粉,9-巴西淡水河谷BRBF混合粉,10-巴西淡水河谷SSFG粉,11-巴西托克SSFS粉,12-巴西英美資源精粉,13-毛里塔尼亞SNIM TZFC粉,14-秘魯精粉,15-南非阿斯芒粉,16-南非庫博標(biāo)準(zhǔn)粉,17-南非庫博塊,18-烏克蘭INGGOK 精粉,19-烏克蘭KRIVOY ROG 精粉,20-伊朗精粉,21-智利CMP Atacama精粉)
2.1.3 兩種判別方式的比較
從上述2.1.1和2.1.2可知,雖然算法不一樣,激活函數(shù)、誤差函數(shù)不盡相同,逐步判別所提取的函數(shù)比一般判別少1個(gè),但從兩個(gè)模型的參數(shù)評估來說,在鐵礦石產(chǎn)地和品牌模型的建立上,一般判別與逐步判別沒有明顯差異,函數(shù)1~7的累計(jì)方差達(dá)到了98%以上,函數(shù)1-13的顯著性為0.000,重要的是兩者準(zhǔn)確性都較為理想,超過93%。
2.2.1 敏感性
敏感性分析,主要是通過對神經(jīng)網(wǎng)絡(luò)各個(gè)參數(shù)的敏感性進(jìn)行分析,比較出對網(wǎng)絡(luò)模型的輸出決策幾乎不起作用或無影響的連接或輸入結(jié)點(diǎn),然后進(jìn)行網(wǎng)絡(luò)裁剪,從而達(dá)到網(wǎng)絡(luò)結(jié)構(gòu)簡化的目的。從曲線下方的區(qū)域數(shù)值(表7)可以看出,多層的敏感性比徑向基的要好,曲線下方的區(qū)域,多層感知器的數(shù)值大于0.998,而徑向基的為0.873~0.998之間。
表7 不同特異性-敏感性曲線下方的區(qū)域
續(xù)表7
巴西英美資源精粉1.0000.996 巴西CSNIOC6粉(分類12)0.9990.974 毛里塔尼亞SNIM TZFC粉1.0000.992 秘魯精粉1.0000.986 南非阿斯芒粉1.0000.967 南非庫博標(biāo)準(zhǔn)粉1.0000.996 南非庫博塊1.0000.939 烏克蘭INGGOK 精粉0.9990.976 烏克蘭KRIVOY ROG 精粉1.0000.985 伊朗精粉1.0000.998 智利CMP Atacama精粉1.0000.998
2.2.2 增益及效益
兩種方法在增益和效益指標(biāo)方面差異較大,具體見圖3至圖6。(1)多層感知器:當(dāng)使用10%樣本量計(jì)算時(shí),增益就在60%以上,大部分產(chǎn)地品牌的增益接近100%;當(dāng)使用20%樣本量計(jì)算時(shí),全部增益接近100%。也就是說,只用到10%左右的樣本就可以篩選出來自同一產(chǎn)地品牌的樣本。這也從效益圖中也得到印證。(2)徑向基函數(shù):相比于多層感知器,增益就沒有那么明顯,當(dāng)使用20%樣本量計(jì)算時(shí),尚有不少產(chǎn)地品牌增益尚未達(dá)到90%;當(dāng)使用70%樣本量計(jì)算時(shí),“澳大利亞力拓PB塊”增益才90%。
圖3 多層感知器增益圖
圖4 徑向基函數(shù)增益圖
圖5 多層感知器效益圖
圖6 徑向基函數(shù)效益圖
2.2.3 自變量正態(tài)化重要性
對17個(gè)自變量正態(tài)化重要性進(jìn)行分析,多層感知器模型中各變量重要性在0.020~0.099之間,前五的因變量分別為SiO2(100%)、Al2O3(84.0%)、K2O(69.8%)、Na2O(66.6%)、TiO2(65.2%);徑向基模型中各變量重要性在0.038~0.076之間,前五的因變量分別為MgO(100%)、V2O5(89.2%)、S(89.0%)、Na2O(87.7%)、MnO(85.6%)。兩者前五因變量中只有Na2O一個(gè)相同,從另一方面證明兩個(gè)算法有較大區(qū)別,模型的權(quán)重完全不一樣。具體數(shù)值如表8所示。
表8 自變量重要性
續(xù)表8
MnO0.05555.30.06585.6 CaO0.05555.90.05977.3 MgO0.06610.076100 Ni0.05656.90.03849.2 Cr0.05353.80.05268.2 V2O50.0661.20.06889.2 K2O0.06969.80.06483.7 Na2O0.06666.60.06787.7
2.2.4 準(zhǔn)確性
(1)多層感知器:訓(xùn)練中使用的中止規(guī)則為“誤差在1個(gè)連續(xù)步驟中沒有減少”,交叉熵誤差為34.068,不正確預(yù)測百分比為1.6%;在檢驗(yàn)計(jì)算時(shí),交叉熵誤差為31.641,不正確預(yù)測百分比為4.2%。多層感知器分類結(jié)果,訓(xùn)練集中3個(gè)澳大利亞樣品、4個(gè)巴西粉礦樣品、1個(gè)烏克蘭精粉被識別為同一國家別的品牌,1個(gè)毛里塔尼亞SNIM TZFC粉被識別為烏克蘭INGGOK 精粉。訓(xùn)練集中“烏克蘭INGGOK 精粉”的準(zhǔn)確性最低為80%,高達(dá)14個(gè)品牌的準(zhǔn)確性達(dá)100%;檢驗(yàn)集中,共有13個(gè)品牌的準(zhǔn)確性達(dá)100%,“南非阿斯芒粉”和“智利CMP Atacama精粉”準(zhǔn)確性僅為50%,總體準(zhǔn)確性為95.8%。經(jīng)過訓(xùn)練之后可以達(dá)到很好的精度和較高的學(xué)習(xí)效率。收斂速度很快,可以在一定情況下逼近給定的任意精度。
(2)徑向基函數(shù):訓(xùn)練中平方和誤差103.893,不正確預(yù)測百分比為27.7%;在檢驗(yàn)計(jì)算時(shí),平方和誤差56.179,不正確預(yù)測百分比為34.5%。徑向基函數(shù)分類結(jié)果較為不理想,訓(xùn)練集中,共有8個(gè)產(chǎn)地品牌樣本準(zhǔn)確性為0,準(zhǔn)確性最高的為澳大利亞BHP金布巴粉,總體準(zhǔn)確性僅為72.3%;檢驗(yàn)集中,同樣共有8個(gè)產(chǎn)地品牌樣本準(zhǔn)確性為0(品牌與訓(xùn)練集一致),總體準(zhǔn)確性僅為65.5%。
圖7 多層感知器預(yù)測擬概率
圖8 徑向基函數(shù)預(yù)測擬概率
表9 兩種方法的正確百分比
比較4種模型的結(jié)果,徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)模型中多個(gè)產(chǎn)品品牌無法正確識別,總體準(zhǔn)確性僅為65.5%,無法在實(shí)際中獲得應(yīng)用;一般判別、逐步判別、多層感知器神經(jīng)網(wǎng)絡(luò)模型識別結(jié)果很好,三者的總體準(zhǔn)確性高于90%,可以進(jìn)行很好的預(yù)測和分類,在綜合信息成礦信息預(yù)測中具有特征提取的作用和好的泛化能力(推廣性),即有效逼近樣本蘊(yùn)含的內(nèi)在規(guī)律。模型樣品原產(chǎn)地及建模樣品數(shù)量與模型識別的準(zhǔn)確率存在很大關(guān)系,隨著后續(xù)樣品收集數(shù)量增加,該模型數(shù)據(jù)庫還可繼續(xù)豐富,模型的穩(wěn)定性將得到進(jìn)一步的提升。
[1]武素茹,谷松海,宋義,等. 進(jìn)口鐵礦產(chǎn)地鑒別模型的建立[J]. 計(jì)算機(jī)與應(yīng)用化學(xué),2014,31(12): 1543-1546.
[2]張博,閔紅,劉曙,等. X 射線熒光光譜結(jié)合判別分析識別進(jìn)口鐵礦石產(chǎn)地及品牌[J]. 光譜學(xué)與光譜分析,2020,40(8): 2640-2646.
[3]劉倩,秦曄瓊,劉曙,等. X 射線熒光光譜結(jié)合 BP 神經(jīng)網(wǎng)絡(luò)識別進(jìn)口銅精礦產(chǎn)地[J]. 光譜學(xué)與光譜分析,2020,40(9): 2884-2890.
[4]紀(jì)雷,林雨霏,孫健,等. 我國進(jìn)口鐵礦石有害元素含量代表值估計(jì)及整體特征分析[J]. 分析試驗(yàn)室,2007,26(6): 58-61.
[5]孟海東,殷躍,孫家駒,等. BP神經(jīng)網(wǎng)絡(luò)在礦產(chǎn)資源分類識別中的應(yīng)用[J]. 西部探礦工程,2012,24(8): 137- 139,145.
[6]陰江寧,克炎,李楠,等. BP神經(jīng)網(wǎng)絡(luò)在化探數(shù)據(jù)分類中的應(yīng)用[J]. 地質(zhì)通報(bào),2010,29(10): 1564-1567.
[7]吳占福,馬旭平,李亞奎. 統(tǒng)計(jì)分析軟件SPSS介紹[J].河北北方學(xué)院學(xué)報(bào)(自然科學(xué)版),2006,56(6): 23-25.
Application of SPSS in Brand Recognition of Imported Iron Ore Origin
This paper introduces the method of establishing the brand recognition model of imported iron ore origin. The contents of primary and secondary elements in the collected imported iron ore samples were determined by conventional methods such as X-ray fluorescence spectrometry, infrared absorption spectrometry and emission spectrometry. A total of 17 elements including Al2O3, SiO2, Fe, K2O, Cr, CaO, MgO, V2O5, TiO2, MnO, Na2O, P, As, S, Ni, Zn, Pb were selected for content analysis. Based on a large number of test data, four algorithms in SPSS software are used to calculate the correlation degree between elements and origin brand, establish brand recognition models of different imported iron ore origin, and use test samples to evaluate the accuracy and reliability of different models. The test results show that discriminant analysis and multilayer perceptron neural network can recognize the origin and brand of iron ore. The established model can be applied to the origin brand identification of common imported iron ore, and will play a positive role in maintaining trade equity and ensuring ore quality and safety.
iron ore; neural network; discriminant analysis; origin; brand
TF52
A
1008-1151(2022)01-0005-07
2021-11-15
2020年防城港市技術(shù)研究與開發(fā)財(cái)政補(bǔ)助項(xiàng)目(防科AD20014029)。
陳永欣(1981-),男,中華人民共和國防城海關(guān)工程師,從事進(jìn)口礦產(chǎn)品監(jiān)管工作。