唐中君,崔駿夫,禹海波
(北京工業(yè)大學(xué)經(jīng)濟與管理學(xué)院北京現(xiàn)代制造業(yè)發(fā)展研究基地,北京 100124)
基于擴展質(zhì)量功能展開和網(wǎng)絡(luò)圖的產(chǎn)品大數(shù)據(jù)分析方法及其應(yīng)用探討
唐中君,崔駿夫,禹海波
(北京工業(yè)大學(xué)經(jīng)濟與管理學(xué)院北京現(xiàn)代制造業(yè)發(fā)展研究基地,北京 100124)
現(xiàn)有大數(shù)據(jù)分析方法存在側(cè)重算法提升而忽視數(shù)據(jù)固有關(guān)系、難以綜合分析網(wǎng)絡(luò)形態(tài)數(shù)據(jù)之間連動關(guān)系的問題。為解決這些問題,提出了一個基于擴展QFD和網(wǎng)絡(luò)圖的產(chǎn)品大數(shù)據(jù)分析方法。該方法由面向數(shù)據(jù)關(guān)系的擴展QFD、基于網(wǎng)絡(luò)圖的產(chǎn)品大數(shù)據(jù)關(guān)系描述模型和基于該描述模型的產(chǎn)品大數(shù)據(jù)分析模型組成。該方法有助于厘清產(chǎn)品各類數(shù)據(jù)間的固有關(guān)系,可將具有復(fù)雜結(jié)構(gòu)、多重關(guān)系的數(shù)據(jù)以清晰的網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)出來,并可綜合利用多種大數(shù)據(jù)分析模型對產(chǎn)品大數(shù)據(jù)進行模式探索,從而達到從海量數(shù)據(jù)中獲取關(guān)鍵數(shù)據(jù)、發(fā)現(xiàn)新數(shù)據(jù)及數(shù)據(jù)間的新關(guān)系等目標。解決了現(xiàn)有大數(shù)據(jù)分析方法忽視數(shù)據(jù)固有關(guān)系、難以綜合分析數(shù)據(jù)間連動關(guān)系的問題,使數(shù)據(jù)建模與算法技術(shù)更好地結(jié)合。
大數(shù)據(jù)分析;質(zhì)量功能展開;網(wǎng)絡(luò)圖;產(chǎn)品大數(shù)據(jù)
數(shù)據(jù)采集和存儲技術(shù)的長足進步使企業(yè)得以擁有大量與產(chǎn)品有關(guān)的數(shù)據(jù),其主要來源有企業(yè)自有數(shù)據(jù)、公開信息和有償獲取數(shù)據(jù)[1]。來自各類信息源的數(shù)據(jù)存在不同表現(xiàn)形式,如歷史數(shù)據(jù)和實時數(shù)據(jù)、線上和線下數(shù)據(jù)、傳感數(shù)據(jù)和社會數(shù)據(jù)等。這些多源異構(gòu)數(shù)據(jù)產(chǎn)生于產(chǎn)品全生命周期的不同階段,共同組成了產(chǎn)品大數(shù)據(jù)。多源異構(gòu)和產(chǎn)生于全生命周期不同階段的性質(zhì)使得產(chǎn)品大數(shù)據(jù)呈現(xiàn)出復(fù)雜的結(jié)構(gòu)、多重的關(guān)系,使數(shù)據(jù)及其關(guān)系具有了網(wǎng)絡(luò)形態(tài)特性。產(chǎn)品的全生命周期包含需求分析、設(shè)計、制造、銷售和售后階段。本文結(jié)合產(chǎn)品全生命周期各階段將產(chǎn)品大數(shù)據(jù)分為需求類、產(chǎn)品屬性要求類、制造要求類(零部件要求子類、工藝要求子類、生產(chǎn)要求子類)、銷售要求類、運營類和售后使用類。其中運營類數(shù)據(jù)產(chǎn)生于供應(yīng)鏈活動,涉及原材料采購、產(chǎn)品制造、生產(chǎn)、銷售和售后服務(wù)等活動。各類產(chǎn)品大數(shù)據(jù)產(chǎn)生于產(chǎn)品生命周期不同階段,反映產(chǎn)品處于不同階段的狀態(tài),將這些數(shù)據(jù)融合分析能夠清晰地識別產(chǎn)品全生命周期內(nèi)各類數(shù)據(jù)之間的關(guān)系,有助于提取新的關(guān)系與模式,從而為開拓市場和制定商業(yè)模式提供決策參考。
大數(shù)據(jù)分析方法源于多個領(lǐng)域,如統(tǒng)計學(xué)、計算科學(xué)和經(jīng)濟學(xué)等,主要有關(guān)聯(lián)規(guī)則學(xué)習(xí)、分類、聚類、網(wǎng)絡(luò)分析、神經(jīng)網(wǎng)絡(luò)等方法[2]。這些方法側(cè)重于算法性能優(yōu)化和處理技術(shù)的提升。例如,Zhang等使用spark技術(shù)提升了關(guān)聯(lián)模式挖掘中頻繁集挖掘的迭代計算效率[3]。Wu等使用基于迭代樣本的頻繁模式挖掘方法優(yōu)化了大數(shù)據(jù)處理的效率問題[4]。Sarma等使用一種尋找分割面的方法優(yōu)化了K-means聚類方法;該方法以犧牲聚類質(zhì)量為代價,顯著增加了大數(shù)據(jù)集的聚類速度[5]。一些學(xué)者改進了支持向量機方法,降低了原有算法的時間復(fù)雜度和空間復(fù)雜度[6-8]。Jiang等結(jié)合約束聚類和KNN算法生成增強型KNN算法;該算法降低了文本相似度的計算量,提升了對文本型大數(shù)據(jù)分類的效率[9]??梢钥闯瞿壳坝嘘P(guān)大數(shù)據(jù)分析方法的研究主要針對算法本身,欠缺對數(shù)據(jù)之間固有關(guān)系的分析研究。
在分析具有復(fù)雜結(jié)構(gòu)和網(wǎng)絡(luò)型多重關(guān)系的數(shù)據(jù)時,一些學(xué)者使用了網(wǎng)絡(luò)分析方法。例如Sudhahar等使用中心度、同配性等多種網(wǎng)絡(luò)分析指標對2012年美國大選期間的網(wǎng)絡(luò)新聞數(shù)據(jù)進行了分析,找出了競選期間候選人在其社交網(wǎng)絡(luò)中與其他節(jié)點的關(guān)系;各節(jié)點代表資助方或黨派候選人,節(jié)點間連線表示資助關(guān)系[10]。He等構(gòu)建了一個基于隨機矩陣論的統(tǒng)一數(shù)據(jù)分析模型用于分析移動網(wǎng)絡(luò)數(shù)據(jù)的特點[11]。Alamsyah等人使用社交網(wǎng)絡(luò)方法分析了某組織內(nèi)員工的36000多封郵件的收發(fā)關(guān)系,以幫助該組織實施組織內(nèi)部的知識管理[12]。Lobb等利用網(wǎng)絡(luò)分析方法對癌癥項目進行分析并提出優(yōu)化建議[13]。Chopade等利用節(jié)點屬性和邊的結(jié)構(gòu)對網(wǎng)絡(luò)數(shù)據(jù)進行分析,并根據(jù)網(wǎng)絡(luò)屬性設(shè)計了網(wǎng)絡(luò)社區(qū)識別算法[14]??梢园l(fā)現(xiàn)網(wǎng)絡(luò)分析方法廣泛用于描述數(shù)據(jù)之間的關(guān)系。但是,運用網(wǎng)絡(luò)分析方法分析數(shù)據(jù)之間關(guān)系的文獻鮮有利用數(shù)據(jù)之間的固有關(guān)系。此外,目前學(xué)者在分析具有復(fù)雜結(jié)構(gòu)和網(wǎng)絡(luò)型多重關(guān)系的數(shù)據(jù)時僅使用單一的分析方法,尚未發(fā)現(xiàn)將多種大數(shù)據(jù)分析模型綜合運用于數(shù)據(jù)分析的研究。因而目前的大數(shù)據(jù)分析方法難以綜合利用各類數(shù)據(jù)建模與算法技術(shù),難以綜合分析數(shù)據(jù)之間的聯(lián)動關(guān)系。
針對上述問題,本文將提出一個基于擴展QFD和網(wǎng)絡(luò)圖的產(chǎn)品大數(shù)據(jù)分析方法。該方法由三部分組成:面向數(shù)據(jù)關(guān)系的擴展QFD,基于網(wǎng)絡(luò)圖的產(chǎn)品大數(shù)據(jù)關(guān)系描述模型和基于該描述模型的產(chǎn)品大數(shù)據(jù)分析模型。其中面向數(shù)據(jù)關(guān)系的擴展QFD能將復(fù)雜的數(shù)據(jù)類抽象為變量集,并識別出變量之間的固有關(guān)系?;诰W(wǎng)絡(luò)圖的產(chǎn)品大數(shù)據(jù)關(guān)系描述模型能將擴展QFD識別出的數(shù)據(jù)及其多重關(guān)系以直觀清晰的網(wǎng)絡(luò)形式表現(xiàn)出來?;诿枋瞿P偷漠a(chǎn)品大數(shù)據(jù)分析模型通過聯(lián)用多種大數(shù)據(jù)分析方法對描述模型的網(wǎng)絡(luò)圖進行研究,對數(shù)據(jù)之間的關(guān)系進行綜合分析,以實現(xiàn)多角度的模式探測。該方法解決現(xiàn)有大數(shù)據(jù)分析方法側(cè)重算法提升而忽視利用數(shù)據(jù)間固有關(guān)系的問題,并能綜合多種大數(shù)據(jù)分析方法分析具有復(fù)雜結(jié)構(gòu)和網(wǎng)絡(luò)型多重關(guān)系數(shù)據(jù)之間的聯(lián)動關(guān)系,使數(shù)據(jù)建模與算法技術(shù)高效地結(jié)合。
傳統(tǒng)QFD是一種重要的產(chǎn)品設(shè)計技術(shù),通過四個質(zhì)量屋的順次分析將顧客要求轉(zhuǎn)化成產(chǎn)品屬性要求、零部件要求、工藝要求和生產(chǎn)要求[15]。QFD通過描述數(shù)據(jù)及其之間的關(guān)系實現(xiàn)各類信息之間的轉(zhuǎn)化,從而使QFD可用于識別數(shù)據(jù)之間的固有關(guān)系。傳統(tǒng)QFD涉及的數(shù)據(jù)有顧客需求類數(shù)據(jù)、產(chǎn)品屬性要求類數(shù)據(jù)、零部件要求類數(shù)據(jù)、工藝要求類數(shù)據(jù)和生產(chǎn)要求類數(shù)據(jù)。這些數(shù)據(jù)類涉及的數(shù)據(jù)間關(guān)系有兩類。一類是同類數(shù)據(jù)之間的關(guān)系,包括顧客不同類別要求之間的相互約束關(guān)系、產(chǎn)品屬性要求間的相互約束關(guān)系、零部件要求之間的相互約束關(guān)系、工藝要求之間的相互約束關(guān)系、生產(chǎn)要求之間的相互約束關(guān)系。另一類是不同類數(shù)據(jù)之間的關(guān)系,包括顧客要求與產(chǎn)品屬性要求之間的因果關(guān)系、產(chǎn)品屬性要求與零部件要求之間的因果關(guān)系、零部件要求與工藝要求之間的因果關(guān)系、工藝要求與生產(chǎn)要求之間的因果關(guān)系。然而傳統(tǒng)QFD是一種以顧客需求為起點的產(chǎn)品設(shè)計工具,從描述產(chǎn)品全生命周期內(nèi)數(shù)據(jù)之間關(guān)系的角度看,存在兩方面局限。首先,傳統(tǒng)QFD的信息轉(zhuǎn)化過程是單向的[16],僅考慮產(chǎn)品生命周期中相鄰階段數(shù)據(jù)類之間的關(guān)系,沒有同時考慮所有階段所有數(shù)據(jù)間可能存在的關(guān)系。其次,傳統(tǒng)QFD的四個質(zhì)量屋僅反映產(chǎn)品生產(chǎn)之前的數(shù)據(jù)類及其關(guān)系,無法體現(xiàn)全生命周期的產(chǎn)品大數(shù)據(jù)及各數(shù)據(jù)類之間的關(guān)系。
針對上述局限,本文提出了如圖1所示的“面向數(shù)據(jù)關(guān)系的擴展QFD”。圖中,平行四邊形代表數(shù)據(jù)類,矩形代表質(zhì)量屋的左墻和天花板,虛箭線連接了數(shù)據(jù)類與質(zhì)量屋,表示質(zhì)量屋所需的數(shù)據(jù)由所連數(shù)據(jù)類提供,實折線表示質(zhì)量屋之間的信息傳遞。在傳統(tǒng)QFD的基礎(chǔ)上,本文從數(shù)據(jù)類、質(zhì)量屋和數(shù)據(jù)關(guān)系等方面進行了擴展。
圖1 面向數(shù)據(jù)關(guān)系的擴展QFD
首先,根據(jù)產(chǎn)品全生命周期數(shù)據(jù)的分類,將銷售要求類數(shù)據(jù)、運營類數(shù)據(jù)和售后使用類數(shù)據(jù)加入傳統(tǒng)QFD中。銷售要求類數(shù)據(jù)用于提供營銷要求。運營類數(shù)據(jù)包含供應(yīng)鏈活動所涉及的企業(yè)采購、生產(chǎn)、營銷和售后等活動數(shù)據(jù)。相較于要求類數(shù)據(jù)(產(chǎn)品屬性要求類、制造要求類、銷售要求類),運營類數(shù)據(jù)屬于動態(tài)數(shù)據(jù)。售后使用類數(shù)據(jù)包含產(chǎn)品使用數(shù)據(jù)、服務(wù)數(shù)據(jù)、維護數(shù)據(jù)和回收數(shù)據(jù)。這些數(shù)據(jù)與顧客相關(guān),對這些數(shù)據(jù)的分析能析出消費者的新需求,為新一階段擴展QFD提供需求類數(shù)據(jù)。產(chǎn)品全生命周期所有數(shù)據(jù)類的加入,使得面向數(shù)據(jù)關(guān)系的擴展QFD可以進行全生命周期內(nèi)多重數(shù)據(jù)類關(guān)系識別。
其次,增加了兩個質(zhì)量屋。隨著銷售要求類數(shù)據(jù)的加入,添加了產(chǎn)品屬性要求、零部件要求、工藝要求及生產(chǎn)要求與營銷要求的質(zhì)量屋。該質(zhì)量屋用于識別產(chǎn)品屬性要求數(shù)據(jù)、零部件要求數(shù)據(jù)、工藝要求數(shù)據(jù)及生產(chǎn)要求數(shù)據(jù)和營銷要求數(shù)據(jù)之間的關(guān)系。供應(yīng)鏈活動受傳統(tǒng)QFD中各類要求數(shù)據(jù)的影響,例如原材料采購與零部件要求有關(guān)、生產(chǎn)制造活動與工藝要求及生產(chǎn)要求有關(guān)、產(chǎn)品銷售活動與營銷要求有關(guān)等。因此,本文添加了一個將產(chǎn)品屬性要求、零部件要求、工藝要求、生產(chǎn)要求和營銷要求共同作用于供應(yīng)鏈活動的質(zhì)量屋。
最后,根據(jù)新加入的數(shù)據(jù)類和質(zhì)量屋,擴展得到兩類新的數(shù)據(jù)關(guān)系。一是有關(guān)同類數(shù)據(jù)之間的關(guān)系,包括營銷要求之間的相互約束關(guān)系、不同類別售后使用數(shù)據(jù)之間的約束關(guān)系、不同供應(yīng)鏈活動數(shù)據(jù)之間的約束和反饋關(guān)系。二是有關(guān)不同類數(shù)據(jù)之間的關(guān)系,包括產(chǎn)品屬性要求、零部件要求、工藝要求、生產(chǎn)要求分別與營銷要求之間的因果關(guān)系,以及產(chǎn)品屬性要求、零部件要求、工藝要求、生產(chǎn)要求、營銷要求分別與供應(yīng)鏈活動之間的因果關(guān)系。
從圖1可知,面向數(shù)據(jù)關(guān)系的擴展QFD可以識別兩大類數(shù)據(jù)關(guān)系。一類是依據(jù)數(shù)據(jù)產(chǎn)生于生命周期的階段而得的關(guān)系,即擴展QFD中全部質(zhì)量屋內(nèi)左墻數(shù)據(jù)間關(guān)系、屋頂數(shù)據(jù)間關(guān)系以及兩者相互之間的關(guān)系,形成了如圖1所示的從左上到右下的依產(chǎn)品生命周期不同階段的瀑布型關(guān)系。
另一類是如表1所示依據(jù)數(shù)據(jù)間抽象關(guān)系的種類而得的五種關(guān)系。第一種關(guān)系是層級關(guān)系,表示數(shù)據(jù)類A可以細分為若干子類。例如制造要求類數(shù)據(jù)可以細分為零部件要求、工藝要求和生產(chǎn)要求類數(shù)據(jù)。第二種關(guān)系是約束關(guān)系,表示數(shù)據(jù)類A和數(shù)據(jù)類B中任一類的變動將導(dǎo)致另一類的變動。例如任一質(zhì)量屋中位于屋頂?shù)臄?shù)據(jù)之間可能存在約束關(guān)系。第三種關(guān)系是反饋關(guān)系,表示數(shù)據(jù)類A在影響數(shù)據(jù)類B后,數(shù)據(jù)類B又反饋影響數(shù)據(jù)類A。例如供應(yīng)鏈活動數(shù)據(jù)中的生產(chǎn)類數(shù)據(jù)會影響營銷類數(shù)據(jù),營銷類數(shù)據(jù)又將反饋作用于生產(chǎn)類數(shù)據(jù)。第四種關(guān)系為因果關(guān)系,表示數(shù)據(jù)類A在受到一定影響后,產(chǎn)生數(shù)據(jù)類B。例如售后使用類數(shù)據(jù)可以析出消費者對產(chǎn)品的部分新需求。第五種關(guān)系是自更新關(guān)系,表示數(shù)據(jù)類A隨著時間的推移,對自身狀態(tài)進行更新。
表1 數(shù)據(jù)關(guān)系
面向數(shù)據(jù)關(guān)系的擴展QFD將產(chǎn)品全生命周期內(nèi)產(chǎn)生的大數(shù)據(jù)融入傳統(tǒng)QFD,延長了傳統(tǒng)的信息轉(zhuǎn)化過程,并在延長的過程中豐富了數(shù)據(jù)類固有關(guān)系。數(shù)據(jù)類關(guān)系分為依據(jù)生命周期產(chǎn)生階段而得的關(guān)系和依據(jù)數(shù)據(jù)間抽象關(guān)系種類而得的關(guān)系,兩類關(guān)系皆借助QFD中質(zhì)量屋結(jié)構(gòu)來體現(xiàn)。在大數(shù)據(jù)時代,每個數(shù)據(jù)類都與其他數(shù)據(jù)類之間存在多重復(fù)雜關(guān)系,無法脫離其他數(shù)據(jù)類而單獨發(fā)揮作用,故利用擴展QFD能以結(jié)構(gòu)化方式識別數(shù)據(jù)類間固有關(guān)系,為后續(xù)分析提供便捷。此外,供應(yīng)鏈活動質(zhì)量屋的加入將直線式的QFD變成了閉環(huán)式的結(jié)構(gòu)。這種閉環(huán)式結(jié)構(gòu)將QFD中多個質(zhì)量屋分別與營銷要求質(zhì)量屋和供應(yīng)鏈活動質(zhì)量屋相連,可同時考慮相連兩者所涉及數(shù)據(jù)類的固有關(guān)系。
總之,面向數(shù)據(jù)關(guān)系的擴展QFD是一種幫助識別數(shù)據(jù)類間固有關(guān)系的工具。使用該工具可以對數(shù)據(jù)分類,并識別出產(chǎn)品大數(shù)據(jù)間存在的兩大類固有關(guān)系。
網(wǎng)絡(luò)圖由節(jié)點和連線構(gòu)成。節(jié)點可以具有不同屬性,兩個節(jié)點之間的連線反映節(jié)點之間的關(guān)系。該關(guān)系可以通過節(jié)點間連線的方向性、強弱等多種方式加以描述。網(wǎng)絡(luò)圖中所有連線反映了所有節(jié)點之間的全局關(guān)系,可以通過節(jié)點的度、中心性、最短路徑和介數(shù)等方式加以描述。
由上節(jié)可知,通過面向數(shù)據(jù)關(guān)系的擴展QFD可以幫助識別產(chǎn)品大數(shù)據(jù)包含的數(shù)據(jù)類及其間的固有關(guān)系。對數(shù)據(jù)類及數(shù)據(jù)關(guān)系的描述,既要描述所有的數(shù)據(jù)類,還要描述局部數(shù)據(jù)類之間的關(guān)系,更要從整體描述所有數(shù)據(jù)類之間的全局關(guān)系。基于網(wǎng)絡(luò)圖的上述特點,本文提出如圖2所示的產(chǎn)品大數(shù)據(jù)關(guān)系描述模型。圖中平行四邊形代表不同的數(shù)據(jù)類,虛線表示不同顆粒度數(shù)據(jù)之間的關(guān)系,圓圈代表數(shù)據(jù)。圈中的符號代表數(shù)據(jù)類別;類別符號含義如表2所示。C代表顧客要求變量;D代表產(chǎn)品屬性要求變量;M代表制造類數(shù)據(jù)變量,其子類有零部件要求變量Part、工藝要求變量Tech和生產(chǎn)要求變量Prod;S代表營銷要求變量;As代表售后使用數(shù)據(jù)變量;Sc代表供應(yīng)鏈活動變量。圖中每層內(nèi)的連線表示數(shù)據(jù)間的關(guān)系;關(guān)系類型如表1所示。
圖2 基于網(wǎng)絡(luò)圖的產(chǎn)品大數(shù)據(jù)關(guān)系描述模型
圖2所示的模型是一個三層網(wǎng)絡(luò)結(jié)構(gòu)。上層從宏觀角度描述產(chǎn)品大數(shù)據(jù)間的關(guān)系。中層描述數(shù)據(jù)類變量集間的關(guān)系,由上層各數(shù)據(jù)類具體化而成。下層從微觀角度全面描述各數(shù)據(jù)類變量間的關(guān)系,是對中層數(shù)據(jù)間關(guān)系的細化。
表2 數(shù)據(jù)類變量
上層網(wǎng)絡(luò)中各數(shù)據(jù)類間的連線表示數(shù)據(jù)類間具有因果關(guān)系。需求類與產(chǎn)品屬性要求類、產(chǎn)品屬性要求類與制造要求類、制造要求類與銷售要求類均呈因果關(guān)系。此外,產(chǎn)品屬性要求類、制造要求類共同與銷售要求類數(shù)據(jù)呈因果關(guān)系。產(chǎn)品屬性要求類、制造要求類、銷售要求類和售后使用類數(shù)據(jù)共同與運營類數(shù)據(jù)呈因果關(guān)系。
中層網(wǎng)絡(luò)描述各數(shù)據(jù)變量集及其關(guān)系形成的數(shù)據(jù)關(guān)系網(wǎng)。關(guān)系網(wǎng)中體現(xiàn)的關(guān)系類型有質(zhì)量屋中左墻數(shù)據(jù)與屋頂數(shù)據(jù)之間的因果關(guān)系、數(shù)據(jù)自身固有的層級關(guān)系和自更新關(guān)系。存在的因果關(guān)系有需求變量集C和產(chǎn)品屬性要求變量集D間的關(guān)系、產(chǎn)品屬性要求變量集D和制造要求變量集M間的關(guān)系。其中制造要求變量集的子變量集間也呈因果關(guān)系(零部件要求變量集Part和工藝要求變量集Tech,工藝要求變量集Tech和生產(chǎn)要求變量集Prod)。產(chǎn)品屬性要求變量集D、制造要求變量集M共同與營銷要求變量集S呈因果關(guān)系。產(chǎn)品屬性要求變量集D、制造要求變量集M、營銷要求變量集S和售后使用變量集As共同與供應(yīng)鏈活動變量集Sc呈因果關(guān)系。售后使用變量集As和新需求變量集C也呈因果關(guān)系。
中層網(wǎng)絡(luò)中的層級關(guān)系有制造要求變量集M及其三個子類變量集(零部件要求變量集Part、工藝要求變量集Tech、生產(chǎn)要求變量集Prod)。中層網(wǎng)絡(luò)中的自更新關(guān)系有售后使用變量集As對自身的更新,供應(yīng)鏈活動變量Sc對自身的更新。
下層網(wǎng)絡(luò)描述各數(shù)據(jù)變量及其關(guān)系形成的數(shù)據(jù)關(guān)系網(wǎng),關(guān)系網(wǎng)中體現(xiàn)的關(guān)系類型有質(zhì)量屋中同一數(shù)據(jù)類變量之間的約束關(guān)系、左墻數(shù)據(jù)和屋頂數(shù)據(jù)之間的因果關(guān)系、數(shù)據(jù)自身固有的反饋關(guān)系。同一數(shù)據(jù)類變量之間的約束關(guān)系體現(xiàn)在每個數(shù)據(jù)變量集中的變量間相互影響。左墻數(shù)據(jù)和屋頂數(shù)據(jù)之間的因果關(guān)系同中層數(shù)據(jù)網(wǎng)絡(luò)所體現(xiàn)的一致。存在反饋關(guān)系的有各供應(yīng)鏈活動變量Sc和售后使用變量集As。
圖2所示的描述模型具有以下三方面特點:
(1)該模型通過網(wǎng)絡(luò)結(jié)構(gòu)可以直觀清晰地描述數(shù)據(jù)類型、其間關(guān)系和關(guān)系強度。網(wǎng)絡(luò)結(jié)構(gòu)中的節(jié)點表示數(shù)據(jù)類型,數(shù)據(jù)節(jié)點之間不同類型的連接反映各數(shù)據(jù)類之間的關(guān)系、各數(shù)據(jù)類形成的網(wǎng)絡(luò)之間的關(guān)系,邊的不同連接強度反映各數(shù)據(jù)類之間、各數(shù)據(jù)類網(wǎng)絡(luò)之間的相互影響程度。
(2)將上節(jié)所述的兩大類數(shù)據(jù)關(guān)系融入該模型,能從全局出發(fā),體現(xiàn)數(shù)據(jù)之間的相互作用。兩類關(guān)系互不排斥,相互補充。
(3)由于網(wǎng)絡(luò)關(guān)系可以轉(zhuǎn)換為矩陣形式,該描述模型易于用矩陣表達。矩陣的行和列均由變量節(jié)點組成。所形成的矩陣中,每個位置的元素都表示特定位置兩個變量的關(guān)系強度。例如,由圖2下層網(wǎng)絡(luò)圖生成的矩陣中,變量D2與變量D3因在圖中不相連,故變量D2所在行與變量D3所在列相交位置的值為0。變量D3與變量Part2相連,則兩個變量節(jié)點相交處的值為行變量節(jié)點對列變量節(jié)點的關(guān)系強度。圖2所示模型的矩陣形式可以方便描述因產(chǎn)品大數(shù)據(jù)節(jié)點過多導(dǎo)致的復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)[17]。此外,多數(shù)大數(shù)據(jù)分析方法在處理數(shù)據(jù)時需將數(shù)據(jù)轉(zhuǎn)換為矩陣形式,因此使用矩陣表示網(wǎng)絡(luò)關(guān)系將增加圖2所示模型的分析效率。
總之,基于網(wǎng)絡(luò)圖的產(chǎn)品大數(shù)據(jù)關(guān)系描述模型能將面向數(shù)據(jù)關(guān)系的擴展QFD識別出的產(chǎn)品大數(shù)據(jù)間關(guān)系進行網(wǎng)絡(luò)化可視化構(gòu)建,得到一個直觀描述產(chǎn)品大數(shù)據(jù)間關(guān)系的模型。無形的數(shù)據(jù)可以通過該描述模型有形化,無序的數(shù)據(jù)可以通過該描述模型有序化。借助矩陣形式,運用該模型可以發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系模式。
基于大數(shù)據(jù)關(guān)系描述模型的產(chǎn)品大數(shù)據(jù)分析模型是一個數(shù)據(jù)分析的過程模型,過程步驟如下。
(1)利用面向數(shù)據(jù)關(guān)系的擴展QFD 識別產(chǎn)品大數(shù)據(jù)及各類關(guān)系。
(2)將面向數(shù)據(jù)關(guān)系的擴展QFD識別得到的產(chǎn)品大數(shù)據(jù)間關(guān)系以網(wǎng)絡(luò)圖形式表現(xiàn)出來。數(shù)據(jù)類變量為節(jié)點,關(guān)系為連接節(jié)點的邊,形成基于產(chǎn)品大數(shù)據(jù)關(guān)系的描述模型。
(3)利用多種大數(shù)據(jù)分析方法對上一步構(gòu)建的描述模型進行分析處理,得出各關(guān)系間相互作用程度,并分析數(shù)據(jù)間的聯(lián)動反應(yīng)。例如,多源數(shù)據(jù)類包含大量異構(gòu)數(shù)據(jù),由數(shù)據(jù)類抽象為數(shù)據(jù)變量的過程前需使用數(shù)據(jù)融合的方法預(yù)處理。對數(shù)據(jù)類進行變量提取時,需根據(jù)數(shù)據(jù)的本質(zhì)特性、應(yīng)用特性和表現(xiàn)特性等采取不同的方法。如對文本數(shù)據(jù)進行自然語言處理后使用有向主題建??色@取特征,或利用聚類方法發(fā)現(xiàn)數(shù)據(jù)相似性聚集所體現(xiàn)的特征等。獲得變量集后,可以使用關(guān)聯(lián)規(guī)則學(xué)習(xí)的方法識別變量間的關(guān)系。在利用各種關(guān)系構(gòu)建出網(wǎng)絡(luò)圖后,可利用網(wǎng)絡(luò)分析等方法對數(shù)據(jù)變量網(wǎng)進行分析。
該模型具有三方面功能。第一,基于數(shù)據(jù)變量間相互作用程度,可識別出如圖3所示依據(jù)數(shù)據(jù)分析目標所得的數(shù)據(jù)之間的關(guān)鍵路徑。關(guān)鍵路徑是根據(jù)數(shù)據(jù)分析目標得出的一條從初始變化數(shù)據(jù)到目標數(shù)據(jù)之間的一條特殊路徑[18]。關(guān)鍵路徑可以識別出為達到分析目標所涉及的重要數(shù)據(jù),從而達到從海量數(shù)據(jù)中識別關(guān)鍵數(shù)據(jù)的目的,并有助于明確數(shù)據(jù)之間相互作用的機理。第二,可以實現(xiàn)數(shù)據(jù)連動反應(yīng)的動態(tài)分析。這種連動反應(yīng)主要體現(xiàn)在數(shù)據(jù)變化所引起的關(guān)系變化和關(guān)系網(wǎng)絡(luò)結(jié)構(gòu)變化兩方面。首先,數(shù)據(jù)的更新變化將影響變量之間原有關(guān)系作用程度的變化。其次,關(guān)系的變化將引起網(wǎng)絡(luò)結(jié)構(gòu)的變化。對連動反應(yīng)進行動態(tài)分析可獲取信息流傳遞方向,從而識別市場的動向。第三,可以識別出新的數(shù)據(jù)和關(guān)系。若某數(shù)據(jù)的加入能改變數(shù)據(jù)關(guān)系網(wǎng)的結(jié)構(gòu),則該數(shù)據(jù)為新數(shù)據(jù)。新數(shù)據(jù)可用來監(jiān)控市場中出現(xiàn)的新動向。隨著新數(shù)據(jù)的出現(xiàn),可獲得數(shù)據(jù)關(guān)系網(wǎng)中存在但未被識別的連接,從而發(fā)現(xiàn)新的關(guān)系模式。關(guān)系模式可以通過矩陣運算發(fā)現(xiàn)。
圖3 關(guān)鍵路徑圖
總之,基于大數(shù)據(jù)關(guān)系描述模型的產(chǎn)品大數(shù)據(jù)分析模型是一種綜合運用多種大數(shù)據(jù)分析方法分析處理數(shù)據(jù)的過程模型。該模型根據(jù)數(shù)據(jù)自身的特性和數(shù)據(jù)變量間固有關(guān)系從已有的大數(shù)據(jù)分析方法中選取合適的方法進行分析處理,其目的在于利用已有的大數(shù)據(jù)分析方法對面向數(shù)據(jù)關(guān)系的擴展QFD識別出的關(guān)系進行量化分析,即得出數(shù)據(jù)變量之間的相互作用程度,進而分析數(shù)據(jù)之間的聯(lián)動反應(yīng),通過多角度建模實現(xiàn)數(shù)據(jù)建模和算法技術(shù)的高效結(jié)合。
基于擴展QFD和網(wǎng)絡(luò)圖的產(chǎn)品大數(shù)據(jù)分析方法是一種具有一般性的數(shù)據(jù)分析方法。一般性在于兩方面。首先,該方法分析的產(chǎn)品大數(shù)據(jù)不限于實體商品的數(shù)據(jù),亦可是服務(wù)數(shù)據(jù)。其次,在產(chǎn)品全生命周期中,只要獲得不少于兩類數(shù)據(jù)即可進行相應(yīng)環(huán)節(jié)的建模分析。例如,利用制造要求類和運營類數(shù)據(jù)可以構(gòu)建用于決策支持的智能制造模型,并利用大數(shù)據(jù)分析來優(yōu)化生產(chǎn)性能和改進產(chǎn)品工藝[19]。因此,本文構(gòu)建的方法既可用于有形產(chǎn)品,也可用于無形服務(wù);可應(yīng)用于數(shù)據(jù)類不少于兩類的產(chǎn)品大數(shù)據(jù)分析。
應(yīng)用本文提出的方法分析產(chǎn)品大數(shù)據(jù)的流程如上文所述:先識別數(shù)據(jù)類之間的關(guān)系和數(shù)據(jù)間的固有關(guān)系,再用網(wǎng)絡(luò)圖的方式對數(shù)據(jù)關(guān)系進行可視化,最后綜合多種現(xiàn)有大數(shù)據(jù)分析方法實現(xiàn)多角度建模分析。通過上述流程和多角度建??蓪崿F(xiàn)多種目標的產(chǎn)品大數(shù)據(jù)分析。目標包括對任意不少于兩類的數(shù)據(jù)進行建模分析、從海量數(shù)據(jù)中識別關(guān)鍵數(shù)據(jù)、對數(shù)據(jù)進行聯(lián)動關(guān)系分析和利用新數(shù)據(jù)發(fā)現(xiàn)新關(guān)系模式等。這些目標的組合可實現(xiàn)多種實際用途。例如可用于提高生產(chǎn)決策的準確率、提供智能制造的決策支持、進行需求預(yù)測、識別各類客戶以實現(xiàn)多角度精準營銷,以及實現(xiàn)整個產(chǎn)業(yè)鏈的動態(tài)戰(zhàn)略規(guī)劃??傊疚臉?gòu)建的產(chǎn)品大數(shù)據(jù)分析方法可以實現(xiàn)多種分析目標和多種實際用途。
本文針對現(xiàn)有大數(shù)據(jù)分析方法只側(cè)重算法性能優(yōu)化以及現(xiàn)有大數(shù)據(jù)分析方法難以綜合分析網(wǎng)絡(luò)形態(tài)數(shù)據(jù)之間連動關(guān)系的問題,提出了一個基于擴展QFD和網(wǎng)絡(luò)圖的產(chǎn)品大數(shù)據(jù)分析方法。該方法可識別出產(chǎn)品大數(shù)據(jù)之間的固有關(guān)系,并以網(wǎng)絡(luò)圖的方式表示數(shù)據(jù)關(guān)系,最終用于多目標分析。多目標分析包括從海量數(shù)據(jù)中獲取關(guān)鍵數(shù)據(jù)、識別產(chǎn)品在市場中的動向等,故使用基于擴展QFD和網(wǎng)絡(luò)圖的產(chǎn)品大數(shù)據(jù)分析方法將對決策者有重要意義。
[1]化柏林,李廣建.大數(shù)據(jù)環(huán)境下的多源融合型競爭情報研究[J].情報理論與實踐,2015,38(4):1-5.
[2]MANYIKA J,CHUI M,BROWN B,et al.Big data:the next frontier for innovation,comptetition,and productivity[J].Analytics,2011:27-31.
[3]ZHANG F,LIU M,GUI F,et al.A distributed frequent itemset mining algorithm using spark for big data analytics[J].Cluster computing,2015,18(4):1493-1501.
[4]WU X,F(xiàn)AN W,PENG J,et al.Iterative sampling based frequent itemset mining for big data[J].International journal of machine learning and cybernetics,2015,1(6):1-8.
[5]SARMA T H,VISWANATH P,REDDY B E.A fast approximate kernel k-means clustering method for large data sets[C]// Recent Advances in Intelligent Computational Systems.IEEE,2011:545-550.
[6]TSANG I W,KWOK J T,CHEUNG P M.Core vector machines:fast SVM training on very large data sets[J].Journal of machine learning research,2005,6(1):363-392.
[7]LEE L H,WAN C H,RAJKUMAR R,et al.An enhanced support vector machine classification framework by using euclidean distance function for text document categorization[J].Applied intelligence,2012,37(1):80-99.
[8]WAN C H,LEE L H,RAJKUMAR R,et al.A hybrid text classification approach with low dependency on parameter by integrating K-nearest neighbor and support vector machine[J].Expert systems with applications,2012,39(15):11880-11888.
[9]JIANG S,PANG G,WU M,et al.An Improved k-Nearest Neighbor Algorithm for Text Categorization[C]// Advances in Computation of Oriental Languages—Proceedings of the,International Conference on Computer Processing of Oriental Languages.2003:1503-1509.
[10]SUDHAHAR S,VELTRI G A,CRISTIANINI N.Automated analysis of the US presidential elections using big data and network analysis[J].Big data & society,2015,2(1):1-28.
[11]HE Y,YU F R,ZHAO N,et al.Big data analytics in mobile cellular networks[J].IEEE access 2017,4:1985-1996.
[12]ALAMSYAH A,PERANGINANGIN Y.Effective knowledge management using big data and social network analysis[J]Learn organ manage bus int J.2013,1(1):17-26.
[13]LOBB R,CAROTHERS B J,LOFTERS A K.Using organizational network analysis to plan cancer screening programs for vulnerable populations.[J].American journal of public health,2014,104(2):358-364.
[14]CHOPADE P,ZHAN J,BIKDASH M.Node attributes and edge structure for large-scale big data network analytics and community detection[C]// IEEE International Symposium on Technologies for Homeland Security.IEEE,2015:1-8.
[15]赤尾洋二,水野滋.Quality function deployment:integrating customer requirements into product design[M].Productivity Press,1990.
[16]MEHRJERDI Y Z.Applications and extensions of quality function deployment[J].Assembly automation,2010,30(4):388-403.
[17]王國順,曹峰彬.基于產(chǎn)業(yè)網(wǎng)絡(luò)的企業(yè)BP評價模型——以湖南現(xiàn)代制造業(yè)為例[J].中南大學(xué)學(xué)報(社會科學(xué)版),2009,15(6):771-775.
[18]曹霞,張路蓬.基于扎根理論的合作創(chuàng)新網(wǎng)絡(luò)可拓機理與優(yōu)化路徑[J].中國科技論壇,2015(9):24-30.
[19]NI M,XU X,DENG S.Extended QFD and data-mining-based methods for supplier selection in mass customization[J].International journal of computer integrated manufacturing,2007,20(2):280-291.
ABigDataAnalyticMethodBasedonAnExtendedQFDandWebGraphandItsApplication
Tang Zhongjun,Cui Junfu,Yu Haibo
(School of Economics and Management,Beijing University of Technology, Research Base of Beijing Modern Manufacturing Development,Beijing 100124,China)
Extant big data analytic methods focus on boosting performance of algorithm but ignore to take inherent relationships of data into consideration.And the methods are lack of ability to process web-based data thoroughly.This paper has proposed a big data analytic method based on extended QFD and web graph.The method consists of①an data relationship-oriented extended QFD that can identify relationships of big product data categories,②a description model of product big data’s categories that is constructed to web form to display the relationships of data categories,and③a description model-based big data analytic model which is aimed to recognize patterns in a multi-dimensional way.The proposed method can display the data with complex shape and multiple connections in an explicit way via web form and then explore the big product data by making use of various suitable big data analytic methods for identifying the key data among huge data and finding new data and its relationship.The method can make it possible to combine the algorithm and data modeling more effectively.
Big data analytics;Quality function deployment;Web graph;Big product data
國家自然科學(xué)基金面上項目“基于類比推理的短生命周期無形體驗品需求預(yù)測”(71672004)。
2017-04-13
唐中君(1969-),男,湖南人,北京工業(yè)大學(xué)經(jīng)濟與管理學(xué)院博士生導(dǎo)師;研究方向:需求預(yù)測、運營與營銷。
F272.3
A
(責(zé)任編輯 劉傳忠)