黃 瑋
(閩江學(xué)院軟件學(xué)院,福州 350011)
在企業(yè)產(chǎn)品設(shè)計管理過程中,需要找到設(shè)計與市場、生產(chǎn)等不同維度指標之間的規(guī)律,然后根據(jù)這些規(guī)律,有針對性的設(shè)計指標。為此提出在飾品開發(fā)部門使用FP-Tree算法進行數(shù)據(jù)挖掘,以找到隱藏于數(shù)據(jù)之下的規(guī)律,并使用這些規(guī)律進行飾品的設(shè)計和指導(dǎo)設(shè)計部門的日常管理。
數(shù)據(jù)挖掘技術(shù)在產(chǎn)品設(shè)計領(lǐng)域應(yīng)用越來越廣泛,相關(guān)研究也不斷深入。針對創(chuàng)新設(shè)計過程中的知識獲取和挖掘需求,文獻[1]采用向量空間模型的夾角余弦算法對知識進行挖掘處理,實現(xiàn)對網(wǎng)絡(luò)創(chuàng)新知識的獲取。文獻[2]中,進行外觀創(chuàng)新設(shè)計時按照產(chǎn)品形式美學(xué)、使用方式及文化時尚分類建立創(chuàng)新案例庫,實現(xiàn)以用戶為中心的產(chǎn)品開發(fā)。文獻[3]研究了概念設(shè)計過程中所需的知識構(gòu)建了該過程中基于知識工程理念的知識獲取系統(tǒng)框架。文獻[4]則認為在未發(fā)現(xiàn)潛在市場需求之前,產(chǎn)品應(yīng)先行進化,為此構(gòu)建了進化驅(qū)動型產(chǎn)品創(chuàng)新設(shè)計方法。
數(shù)據(jù)挖掘應(yīng)用于飾品開發(fā)領(lǐng)域時具有以下特點:(1)客戶訂單產(chǎn)品類別分布離散,無特別明顯的市場關(guān)注產(chǎn)品,不易收集市場評價;(2)飾品開發(fā)有很大的主觀性,無法精確判斷產(chǎn)品的外觀特性;(3)除產(chǎn)品外觀外,種類、材質(zhì)、工藝、地域、季節(jié)等也對產(chǎn)品的生產(chǎn)訂購有較大影響。上述特點與之前文獻中所列舉的環(huán)境有所區(qū)別。為了便于分析挖掘規(guī)律,此處使用FP-Tree的改進算法實現(xiàn)對數(shù)據(jù)的挖掘。
FP-Tree算法是Jiawei Han教授提出的一種不需要生成候選頻繁項集的關(guān)聯(lián)規(guī)則挖掘算法。在該算法中其采用分治的策略,使用頻繁模式樹存儲頻繁項信息,然后利用該樹生成頻繁項目集。由于該方法不生成候選項目集,且僅需掃描2次數(shù)據(jù)庫,極大提升了挖掘效率。
FP-Tree算法有 Build_FP-Tree、Insert_FPTree及FP_growth等行為。Build_FP-Tree根據(jù)事務(wù)數(shù)據(jù)庫DB與最小支持度Minsup生成頻繁項表。Insert_FP-Tree,則根據(jù)已生成的頻繁項集創(chuàng)建樹的分支。在該過程中對數(shù)據(jù)庫中的每一個事務(wù)創(chuàng)建一個分支,在后續(xù)事務(wù)分支的創(chuàng)建過程中可與前事務(wù)共享前綴。FP_growth則在Insert_FP-Tree創(chuàng)建樹的基礎(chǔ)上進行挖掘。設(shè)挖掘的目標為p,只需要樹中求得以p為結(jié)尾的分支即可得到挖掘的結(jié)果。
用于挖掘的數(shù)據(jù)主要有兩個方面的來源,一是業(yè)務(wù)售部門提供的歷史銷售數(shù)據(jù),二是質(zhì)檢查部門提供的歷史抽檢情況。在數(shù)據(jù)挖掘前,對原始數(shù)據(jù)需要進行預(yù)處理,使之能被應(yīng)用于挖掘。
(1)數(shù)據(jù)合并處理。兩種數(shù)據(jù)存在較大的不同,先行對其進行合并。合并以訂單編號與產(chǎn)品編號為關(guān)鍵字。合并后的原始數(shù)據(jù)庫DB具有以下結(jié)構(gòu):(產(chǎn)品編號、產(chǎn)品名稱、訂單編號、訂購時間、客戶ID、數(shù)量,…,質(zhì)檢員ID,返工數(shù),…)。由于產(chǎn)品編號、產(chǎn)品名稱并不能反映產(chǎn)品的屬性,因此需要對其進行擴展。
(2)設(shè)計屬性處理:產(chǎn)品屬性根據(jù)目的可分為設(shè)計屬性與工藝屬性。對于產(chǎn)品的設(shè)計屬性,由開發(fā)部門提供。開發(fā)部門根據(jù)對產(chǎn)品進行總結(jié),從文化、情感、美觀等多個角度總結(jié)產(chǎn)品的設(shè)計屬性。由于開發(fā)部門之前沒有做過這一類似的工作,出于工作量的考慮,只取銷售數(shù)據(jù)中銷售額最大的前10%產(chǎn)品進行分析。將這些產(chǎn)品樣品提供給開發(fā)部門的領(lǐng)域?qū)<?,由領(lǐng)域?qū)<矣枚鄠€簡短的形容詞來總結(jié)其產(chǎn)品的屬性,例如“簡約”、“華貴”等。統(tǒng)計每個屬性出現(xiàn)頻率后取前20%的屬性放入屬性庫中。
屬性庫中存放的是用于描述所有產(chǎn)品可能出現(xiàn)的設(shè)計屬性,針對具體的產(chǎn)品需要為其設(shè)計屬性進行度量。度量公式為:
式中:Vi為產(chǎn)品在第i個設(shè)計屬性上的值;Mij表示第j個人在對產(chǎn)品的i屬性給出的評價值;Pj為該評價人的權(quán)重。由于Vi的取連續(xù)數(shù)值,后續(xù)需要進行離散化的處理。
(3)工藝屬性處理:工藝屬性反映產(chǎn)品工藝上的物理特征,例如:材質(zhì)、大小、光面,特殊工序等,與設(shè)計屬性相比,這一部分的屬性較為客觀,由生產(chǎn)部門提供。
(4)離散化處理。例如光面大小的取值是個連續(xù)的范圍,根據(jù)加工工藝可對其分為L、M、S等三個類別。對于時間的分,只以淡季、旺季、正常三種離散的值進行劃分。對于一種產(chǎn)品的市場價值,則以每年度所有訂單中該產(chǎn)品的總金額進行劃分,按金額的大小由財務(wù)部門將其劃分為極重要、重要、中等、一般、不重要5個類別。而對于(2)中的產(chǎn)品設(shè)計屬性Vi,則設(shè)計一個閥值λ,當Vi<λ時,取Vi=0;當 Vi≥ λ 時,取 Vi=1。
(5)數(shù)據(jù)擴充與消減處理:為了反映產(chǎn)品與銷售之間的關(guān)聯(lián),需要在挖掘前增加客戶的相關(guān)信息(區(qū)域、規(guī)?!?。同時消去與挖掘目的沒有明顯關(guān)聯(lián)的屬性或重復(fù)的屬性。如當對研究市場情況時,消除與質(zhì)檢的相關(guān)信息。
(1)設(shè) min_sup=10%,min_conf=40%
(2)第一次掃描數(shù)據(jù)庫時,導(dǎo)出頻繁項集L=(銀材 a、時尚 b、永恒 c、…..、光面大 n、……),其中a,b,c,n表示支持度。根據(jù)頻繁項集中每個元素的支持數(shù)排序后去除不頻繁的項,達到化簡數(shù)據(jù)庫的目的。表1中給出了部分原始數(shù)據(jù)庫與排序后的部分數(shù)據(jù)示例。
表1 原始數(shù)據(jù)庫/排序后的數(shù)據(jù)庫(部分示例)
表中的示例使用中文進行說明,在實際挖掘的過程中則根據(jù)數(shù)據(jù)字典的編號進行處理。
(3)第二次掃描數(shù)據(jù)庫,對每一個事務(wù)創(chuàng)建分支。例如,讀取1001事務(wù)時,創(chuàng)建構(gòu)造樹的第一個分支<銀材1→時尚1→永恒1→一般1>。對于第二個事務(wù),由于其排序后的頻繁項表<銀材1→時尚1→尖晶1→中等1>與已有分支共享前綴<銀材、時尚>因此對前綴的每個結(jié)點數(shù)加1,形成新的分支<銀材2→時尚2→尖晶1→中等1>。掃描完數(shù)據(jù)庫DB中的所有事務(wù)后,即可得到FP-Tree樹,圖1給出了該樹的部分結(jié)構(gòu)。
圖1 FP-Tree樹部分示例
對數(shù)據(jù)進行挖掘后可獲得飾品與設(shè)計、市場、工藝等相關(guān)的信息,除去一些明顯的已為企業(yè)所知的規(guī)律,以下提供部分的示例用以說明。
銀材飾品在所有被訂購的產(chǎn)品中的份額最大,黃金材質(zhì)飾品則有穩(wěn)定的銷量和周期。具有較大光面的飾品和嵌有大號水鉆的飾品往往具有“時尚”屬性,磨砂工藝的產(chǎn)品多具有“華貴”屬性,超過之前所認為的電鍍。使用皮繩部件的飾品多具有“新潮”這一設(shè)計屬性,與手鏈產(chǎn)品關(guān)聯(lián)大,多用“古銀”工藝。在工藝上震桶、修邊的返修率低,而拋光則有最高的次品率和返修率,在現(xiàn)有的工藝下需要減少產(chǎn)品的光面。
在明確了解產(chǎn)品的設(shè)計屬性所對應(yīng)的市場價值及工藝成本后,開發(fā)部門可以以此為依據(jù)進行開發(fā)人員績效的考核;由于可知飾品材質(zhì)、外型、顏色、零配件等多種物理屬性與設(shè)計屬性之間的對應(yīng)關(guān)系,在設(shè)計時可避開工藝上不易于生產(chǎn)的部分,減少生產(chǎn)的成本;將客戶屬性也納入挖掘體系后,得知地域與產(chǎn)品屬性的關(guān)聯(lián)情況。以上這些均可在開發(fā)部門對新員工的培訓(xùn)時進行有針對性的訓(xùn)練,減少其自行摸索的時間成本。
可見在對飾品的相關(guān)數(shù)據(jù)進行挖掘后的信息有利于開發(fā)部門的管理規(guī)范化,減少了之前粗放式管理的管理成本,提高了企業(yè)的開發(fā)效率,也增加了企業(yè)對市場的把握能力。
飾品開發(fā)中的主觀性強,對新產(chǎn)品的在市場、生產(chǎn)等維度上的優(yōu)劣難以判斷。這給開發(fā)部門的績效管理、成本管理、知識管理等均造成很大的困撓。在使用FP-Tree算法對歷史銷售數(shù)據(jù)與生產(chǎn)數(shù)據(jù)進行挖掘后得到了部分的未知知識,這些知識對于企業(yè)的管理起到了有效的指導(dǎo)作用。
[1]周翼,張曉冬,郭波.面向產(chǎn)品創(chuàng)新設(shè)計的網(wǎng)絡(luò)知識獲取及挖掘[J].現(xiàn)代制造工程,2010(6):28-31.
[2]劉征,孫守遷,吳劍鋒,等.基于用戶認知的產(chǎn)品外觀創(chuàng)新設(shè)計知識模型[J].計算機集成制造系統(tǒng),2009(2):59-64.
[3]姜娉娉,黃克正,黃寶香,等.產(chǎn)品概念創(chuàng)新設(shè)計中的知識獲?。跩].制造技術(shù)與機床,2005(8):41-43.
[4]麻廣林,李彥,黃振勇,等.進化驅(qū)動型產(chǎn)品創(chuàng)新設(shè)計方法研究[J].計算機集成制造系統(tǒng),2009(5):19-27.
[5]Han Jiawei,Pei Jian,Yin Yiwen.Mining Frequent Patterns without Candidate Eneration:a Frequent-pattern Tree Approach[J].Data Mining and Knowledge Discovery,2004,8(1):53-87.