摘 要:本文針對(duì)402家供應(yīng)商進(jìn)行量化分析排名。首先,整體分析A、B、C的需求量,整體的供貨量,誤差在某范圍內(nèi)的訂單數(shù)。然后,個(gè)體分析每家供應(yīng)商,確定評(píng)價(jià)指標(biāo),用主成分分析法各供應(yīng)商按供應(yīng)的原材料對(duì)應(yīng),將這個(gè)結(jié)果作為第一個(gè)指標(biāo)。最后,利用SPSS求解,給出最終的供應(yīng)商排名。
關(guān)鍵詞:量化分析;主成分分析;SPSS
一、研究背景
某生產(chǎn)企業(yè)所用原材料總體可分為A、B、C三種類型。企業(yè)每年按 48 周安排生產(chǎn),需要提前制定 24 周的原材料訂購(gòu)和轉(zhuǎn)運(yùn)計(jì)劃,企業(yè)需要根據(jù)產(chǎn)能要求確定需要的供應(yīng)商和訂貨量,確定轉(zhuǎn)運(yùn)商,并讓轉(zhuǎn)運(yùn)商將供應(yīng)商每周的供貨量轉(zhuǎn)運(yùn)到企業(yè)倉(cāng)庫(kù)。該企業(yè)每周的產(chǎn)能為2.82萬(wàn)立方米,每立方米產(chǎn)品需消耗的各類材料用量以及各類原料的采購(gòu)單價(jià)和儲(chǔ)存費(fèi)用。本文建立數(shù)學(xué)模型對(duì)402家供應(yīng)商的供貨特征進(jìn)行量化分析,確定50家最重要的供應(yīng)商。
二、基于主成分分析的模型
1.模型的建立
(1) 利用主成分分析算法對(duì)商家數(shù)量進(jìn)行數(shù)學(xué)降維
問(wèn)題一要求對(duì) 402 家原材料供應(yīng)商進(jìn)行量化分析,建立反映保障企業(yè)生產(chǎn)重要性的數(shù)學(xué)模型,并從中選出 50 家最重要的供應(yīng)商。即從多個(gè)存在一定相關(guān)性的變量之間,當(dāng)變量的個(gè)數(shù)較多且變量之間存在復(fù)雜的關(guān)系時(shí),增加了問(wèn)題分析的難度??梢圆捎弥鞒煞址治鏊惴▉?lái)解決這個(gè)問(wèn)題,主成分分析是一種數(shù)學(xué)降維的方法,該方法主要將原來(lái)眾多具有一定相關(guān)性的變量,重新組合成為一種新的相互無(wú)關(guān)的綜合變量。
(2) 主成分分析算法相關(guān)介紹
基本概念:主成分分析,英文簡(jiǎn)寫(xiě) PCA(Principal Component Analysis),提取數(shù)據(jù)集的主要特征成分,忽略次要特征成分,達(dá)到降維目的。
(3) 主成分分析算法特點(diǎn)
PCA 通過(guò)線性變換,將 N 維空間的原始數(shù)據(jù)變換到一個(gè)較低的 R 維空間(R 在降維過(guò)程中,不可避免地要造成信息損失。如原來(lái)在高維空間可分的點(diǎn),在低維空間可能變成一個(gè)點(diǎn),變得不可分。因此,要在降維過(guò)程中盡量減少這種損失。 特征之間的相關(guān)性越弱,則特征就越應(yīng)該作為主要成分被保留。 反之,如果兩個(gè)特征有較高的相關(guān)性,則只保留其中一個(gè)特征即可。為使樣本投影到低維空間后盡可能分散,它們的方差要盡可能大。 (4) 主成分分析算法的基本思想 數(shù)據(jù)集 X 有 N 個(gè)特征,M 個(gè)樣本。若將每個(gè)樣本用列向量 xj(j=1,2,...,M)表示,則該數(shù)據(jù)集可以用下面的矩陣表示: 選擇 N 個(gè) R 維的正交基 pi(i=1,2,...,R)組成的矩陣: 所謂正交可以理解為兩個(gè)向量 Pij(i≠j)相互垂直,即一個(gè)向量在另一個(gè)向量的投影為 0。 通過(guò)正交基將維數(shù) N 降到 R 后,可能帶來(lái)的一個(gè)問(wèn)題是原本在 N 維空間可分的點(diǎn),在 R 維空間變得不可分。 例如在三維空間上,位于垂直于某坐標(biāo)平面的一條直線上的不同點(diǎn),投影到該坐標(biāo)平面上后成為一個(gè)點(diǎn),從而使樣本的可區(qū)分性喪失,造成信息丟失。 為了避免這類問(wèn)題,降維的一個(gè)基本原則是,降維后的點(diǎn)(或投影后的值)在新的低維空間里盡可能的分散。 于是 PCA 問(wèn)題就變成一個(gè)正交基的優(yōu)化問(wèn)題,即尋找一組最優(yōu)正交基,使得將 N 維數(shù)據(jù)集的樣本點(diǎn)投影到 R 維空間后,新的樣本點(diǎn)在 R 維空間盡可能的分散。 方差是刻畫(huà)樣本分散程度的統(tǒng)計(jì)量。對(duì)特征xj(j=1,2,…,M),其方差為: 為了簡(jiǎn)化計(jì)算,將 xj 平移μ個(gè)單位,則樣本均值變換為 0。 用 a 表示變換過(guò)的 x,上式變換為: 方差值越大,則特征 aj(j=1,2,...,M)的各個(gè)分量越分散。另外,對(duì)多維特征空間,如果兩個(gè)特征是線性相關(guān)的,則這兩個(gè)特征是冗余的,只保留一個(gè)即可。因此,降維后的特征間應(yīng)盡可能不相關(guān)??坍?huà)特征相關(guān)關(guān)系的統(tǒng)計(jì)量是協(xié)方差。協(xié)方差表示了兩個(gè)隨機(jī)變量 X,Y 同向(或反向)變化的程度。其絕對(duì)值越大,則同向(反向)變化的程度越明顯,說(shuō)明兩者相關(guān)性越強(qiáng)。其值越接近 0,說(shuō)明兩者同向(反向)變化的程度越不明顯,說(shuō)明兩者的相關(guān)性越弱。 對(duì)降維問(wèn)題來(lái)說(shuō),希望保留下來(lái)的特征兩兩間是不相關(guān)的。因此要使其協(xié)方差的絕對(duì)值盡量小。由于各個(gè)特征經(jīng)過(guò)平移,均值已為 0,因此有式: 特征均值為 0 的情況下,兩個(gè)特征的協(xié)方差簡(jiǎn)潔地表示為其內(nèi)積除以元素?cái)?shù) M。 當(dāng)協(xié)方差為 0 時(shí),表示兩個(gè)特征完全獨(dú)立。 為了讓協(xié)方差為 0,選擇基的方向一定是正交的。 則降維問(wèn)題的優(yōu)化目標(biāo)為:將一組 N 維向量降為 R 維(R 大于 0,小于 N),其目標(biāo)是選擇 R 個(gè)單位(模為 1)正交基,使得原始數(shù)據(jù)變換到這組基上后,各特征兩兩間協(xié)方差為 0,而特征的方差則盡可能大。 即在正交約束下,取最大的 R 個(gè)方差。 多個(gè)特征兩兩間的協(xié)方差可以通過(guò)協(xié)方差矩陣來(lái)表示。 將數(shù)據(jù)集 X 的特征進(jìn)行 0 均值以后記為 A,即式: N 維特征向量的協(xié)方差矩陣: PCA 的優(yōu)化目標(biāo)是在新的低維空間,特征間的協(xié)方差為 0,特征維數(shù)為 R.則應(yīng)該尋找一個(gè)能使上式變換為形如下式的 R 階對(duì)角方陣: 且對(duì)角線元素應(yīng)是前式中對(duì)角線上前 R 個(gè)最大的元素,以滿足特征方差越大數(shù)據(jù)越分散的要求。 令 P 為 R×N 單位對(duì)角矩陣: 至此,使用 P 將特征 0 均值化的 N 維數(shù)據(jù)集,降維至 R 維。 實(shí)際應(yīng)用時(shí),還需要保證留下來(lái)的 R 維空間中的特征內(nèi)積(方差)之和最大,以使樣本盡可能分散。 因此,要調(diào)整 P 的行向量與式(6-17)中對(duì)角線上最大的前R 個(gè)值相適應(yīng),以保證選擇的 R 維向量方差之和最大。 對(duì) M 條 N 維特征數(shù)據(jù),PCA 算法步驟可以描述如下: (1) 將原始數(shù)據(jù)按列組成 N 行 M 列矩陣 X; (2) 將 X 的每一行(代表一個(gè)特征)進(jìn)行零均值化,即減去這一行的均值; (3) 求出協(xié)方差矩陣 C=; (4) 求出協(xié)方差矩陣的特征值及對(duì)應(yīng)的特征向量; (5) 將特征向量按對(duì)應(yīng)特征值大小從上到下按行排列成矩陣,取前 R 行組成矩陣 P; (6) Y=PX 即為降維到 R 維后的數(shù)據(jù)。 本題主要采用主成分分析算法來(lái)求解問(wèn)題。 2.模型的分析 (1) 利用 SPSS 進(jìn)行主成分分析求解 使用 SPSS 軟件對(duì)本模型進(jìn)行主成分分析,根據(jù)近五年某 402 家企業(yè)訂貨量和供應(yīng)商供貨量中的數(shù)據(jù),對(duì)表格中的數(shù)據(jù)分別進(jìn)行量化處理,并將因子分析-選項(xiàng)-系數(shù)顯示方式選擇“按大小排序”,得到關(guān)于訂貨量和供貨量的成分分析圖。其中二者總方差累計(jì)的數(shù)據(jù)分別為 89.636%(供貨量總方差解釋圖)和 89.727%(訂貨量總方差解釋圖),相差并不大。但是比較二者的前 50 項(xiàng)主成分總方差分析圖發(fā)現(xiàn),前 50 項(xiàng)二者的總方差累計(jì)的數(shù)據(jù)分別為 80.814%(供貨量總方差解釋圖)和 69.604%(訂貨量總方差解釋圖),因此在從 402 家供應(yīng)商中選擇主要的 50 家供應(yīng)商時(shí),由供貨量進(jìn)行主成分分析的結(jié)果時(shí)更準(zhǔn)確。 (2) 從成分矩陣中選擇前 50 項(xiàng)得出最重要的 50 家供應(yīng)商將因子分析-選項(xiàng)-系數(shù)顯示方式選擇“按大小排序”,得到關(guān)于供貨量的成分矩陣圖。從中選擇前 50 項(xiàng),即可確定最重要的 50 家供應(yīng)商。 故對(duì) 402 家供應(yīng)商的供貨特征進(jìn)行量化分析,建立反映保障企業(yè)生產(chǎn)重要性的主成分分析模型,確定 50 家最重要的供應(yīng)商為 S259、S032、S401、S145、S389、S097、S164、S187、S399、S220、S278、S079、S018、S053、S061、S370、S106、S311、S316、S243、S302、S020、S029、S198、S043、S391、S107、S118、S230、S087、S354、S309、S274、S325、S171、S101、S052、S050、S006、S377、S021、S047、S249、S091、S398、S109、S048、S179、S205、S192。 3.模型評(píng)價(jià) (1) 模型的優(yōu)點(diǎn) 主成分分析法的優(yōu)點(diǎn):第一,可消除評(píng)價(jià)指標(biāo)之間的相關(guān)影響。第二,可減少指標(biāo)選擇的工作量。第三,當(dāng)評(píng)級(jí)指標(biāo)較多時(shí)還可以在保留絕大部分信息的情況下用少數(shù)綜合指標(biāo)代替原指標(biāo)進(jìn)行分析,主成分分析中各主成分是按方差大小依次排列順序的,在分析問(wèn)題時(shí),可以舍棄一部分主成分,只取前后方差較大的幾個(gè)主成分來(lái)代表原變量,從而減少了計(jì)算工作量。 (2) 模型的缺點(diǎn) 主成分分析法的缺點(diǎn):主成分的解釋其含義一般多少帶有點(diǎn)模糊性,不像原始變量的含義那么清楚、確切。 參考文獻(xiàn): [1]楊玲玲,馬良,張慧珍.多目標(biāo)0-1規(guī)劃的混沌優(yōu)化算法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(12):4486-4488. [2]馬龍,盧才武,顧清華,陳曉妮.多目標(biāo)0-1規(guī)劃問(wèn)題的元胞狼群優(yōu)化算法研究[J].運(yùn)籌與管理,2018,27(3):18. [3]孫明濤,曹慶奎.基于遺傳算法的供應(yīng)鏈企業(yè)訂購(gòu)方案優(yōu)化模型[J].2004,21(2):87. [4]蘇學(xué)能,劉天琪,曹鴻謙,焦慧明,于亞光,何川,沈驥.基于Hadoop架構(gòu)的多重分布式BP神經(jīng)網(wǎng)絡(luò)的短期負(fù)荷預(yù)測(cè)方法[J].中國(guó)電機(jī)工程學(xué)報(bào),2017,37(17):4967. [5]楊海民,潘志松,白瑋.時(shí)間序列預(yù)測(cè)方法綜述[J].計(jì)算機(jī)科學(xué),2019,46(1):22. [6]韓曉龍,李上,楊全業(yè).基于遺傳算法的戰(zhàn)略供應(yīng)鏈集成研究[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(2). 作者簡(jiǎn)介:侯星竹(2001.12- ),女,漢族,遼寧省鐵嶺市人,渤海大學(xué)數(shù)學(xué)科學(xué)學(xué)院,本科在讀