劉慧梅,殷鋒社
(1.陜西國防工業(yè)職業(yè)技術(shù)學(xué)院 陜西 西安 710300;2.陜西工業(yè)職業(yè)技術(shù)學(xué)院 陜西 咸陽 712000)
電子商務(wù)環(huán)境下企業(yè)信息平臺相關(guān)關(guān)鍵技術(shù)研究
劉慧梅1,殷鋒社2
(1.陜西國防工業(yè)職業(yè)技術(shù)學(xué)院 陜西 西安 710300;2.陜西工業(yè)職業(yè)技術(shù)學(xué)院 陜西 咸陽 712000)
目前物流企業(yè)以及大型制造企業(yè)管理信息系統(tǒng)之間的互聯(lián)互通和互操作性很差,導(dǎo)致信息資源的巨大浪費(fèi)和利用效率低下。針對企業(yè)信息集成、企業(yè)應(yīng)用集成和數(shù)據(jù)抽取、轉(zhuǎn)換、裝載,為實現(xiàn)LIP開放、復(fù)雜、多層次的計算任務(wù),對分布式對象和分布式數(shù)據(jù)庫技術(shù)進(jìn)行了分析,并在Matlab環(huán)境下,對這些數(shù)據(jù)進(jìn)行聚類仿真。
管理信息系統(tǒng);信息集成;計算任務(wù);遠(yuǎn)程數(shù)據(jù)庫
隨著中國物流行業(yè)的發(fā)展,物流運(yùn)營管理也正在逐步走向現(xiàn)代化。目前物流企業(yè)以及大型制造企業(yè)的運(yùn)輸公司建立了諸多運(yùn)輸管理信息系統(tǒng),為物流運(yùn)輸管理及調(diào)度指揮發(fā)揮了巨大作用。但是,由于管理體制、建設(shè)時間、建設(shè)需求等多方面原因,造成信息系統(tǒng)的重復(fù)建設(shè)、數(shù)據(jù)質(zhì)量較差,形成各自獨(dú)立、自成體系的信息孤島,各系統(tǒng)之間的互聯(lián)性、互通性和互操作性很差,導(dǎo)致信息資源的巨大浪費(fèi)。
物流過程中信息的流動是跨系統(tǒng)進(jìn)行的,物流系統(tǒng)必須實現(xiàn)跨地區(qū)的信息實時傳輸、遠(yuǎn)程數(shù)據(jù)訪問、數(shù)據(jù)分布處理和集中處理的結(jié)合等。由于物流系統(tǒng)相關(guān)部分的地域分布性,為有效的控制物流企業(yè)信息平臺(LIP)開發(fā)、管理和維護(hù)的復(fù)雜性,實現(xiàn)LIP開放、復(fù)雜、多層次的計算任務(wù)和同時快速平穩(wěn)的處理大流量數(shù)據(jù),使用了分布式對象和分布式數(shù)據(jù)庫技術(shù)[1]。
分布式對象技術(shù)是指在網(wǎng)絡(luò)計算平臺上開發(fā)、部署、管理和維護(hù)以資源共享和協(xié)同工作為主要應(yīng)用目標(biāo)的分布式應(yīng)用系統(tǒng)的技術(shù)。它采用面向?qū)ο蟮亩鄬涌蛻?服務(wù)器計算模型,將分布在網(wǎng)絡(luò)上的全部資源(系統(tǒng)層或應(yīng)用層)都按照對象的概念來組織,每個對象都有定義明晰的訪問接口。目前分布式對象技術(shù)已經(jīng)成為建立應(yīng)用框架和軟構(gòu)件的核心技術(shù),OMG的CORBA,Microsoft的ActiveXIDCOM和Sun公司的JavaIRMI是目前流行的3種主流技術(shù)。
分布式數(shù)據(jù)庫系統(tǒng)是物理上分散而邏輯上集中的數(shù)據(jù)庫系統(tǒng)。分布式數(shù)據(jù)庫系統(tǒng)使用計算機(jī)網(wǎng)絡(luò)將地理位置分散而管理和控制需要不同程度集中的多個邏輯單位 (通常是集中式數(shù)據(jù)庫)連接起來,共同組成一個統(tǒng)一的數(shù)據(jù)庫系統(tǒng)。這里的邏輯單位指LIP的相關(guān)節(jié)點,由于每個節(jié)點在業(yè)務(wù)上需要處理各自的數(shù)據(jù),因此它們都有自己的數(shù)據(jù)庫、中央處理機(jī)、終端,以及各自的局部數(shù)據(jù)庫管理系統(tǒng)。采用分布式數(shù)據(jù)庫結(jié)構(gòu),解決了大量數(shù)據(jù)集中存放所帶來的問題,通過系統(tǒng)內(nèi)在的訪問、采集、分布和復(fù)制機(jī)制實現(xiàn)對遠(yuǎn)程數(shù)據(jù)庫的操作。
在電子商務(wù)環(huán)境下,LIP必需解決聯(lián)盟成員、客戶企業(yè)、相關(guān)政府機(jī)構(gòu)之間的大量異構(gòu)數(shù)據(jù)傳輸?shù)膯栴}。物流網(wǎng)絡(luò)中,所有節(jié)點企業(yè)或集團(tuán)子公司的物流信息可以認(rèn)為被包含在一個廣義的數(shù)據(jù)庫中。這種情況下,每個節(jié)點企業(yè)的物流系統(tǒng)就是該數(shù)據(jù)庫中的一個數(shù)據(jù)源。由于不同企業(yè)的物流信息和業(yè)務(wù)組織不盡相同,該廣義數(shù)據(jù)庫是異構(gòu)的。要挖掘并有效利用異構(gòu)數(shù)據(jù)[2],需要集成物流網(wǎng)絡(luò)中所有的數(shù)據(jù)源,這在實際操作中將是困難的。
EDI一直都是商業(yè)機(jī)構(gòu)間數(shù)據(jù)交換的標(biāo)準(zhǔn),我國的很多政府機(jī)構(gòu)如海關(guān)、銀行、稅務(wù)、保險等都建立了各自的EDI系統(tǒng),因此現(xiàn)階段LIP必需支持EDI。但是EDI結(jié)構(gòu)復(fù)雜、開發(fā)和應(yīng)用成本昂貴,不可能被普遍應(yīng)用,XML的出現(xiàn)突破了EDI的發(fā)展瓶頸。開放且基于文本的XML非常適用于服務(wù)器之間交換事務(wù)信息,利用XML的可延伸性及自我描述的特性,同一數(shù)據(jù)可以用不同的表現(xiàn)方式提供給不同用戶,在多個不同的數(shù)據(jù)庫之間傳遞信息。應(yīng)用XML進(jìn)行數(shù)據(jù)傳輸并不強(qiáng)迫物流網(wǎng)絡(luò)中的所有節(jié)點企業(yè)使用統(tǒng)一的數(shù)據(jù)處理標(biāo)準(zhǔn),而是通過客戶化的接口來實現(xiàn)不同系統(tǒng)數(shù)據(jù)格式之間的統(tǒng)一,能夠?qū)崿F(xiàn)企業(yè)與多個不同的供應(yīng)商、客戶及配送單位之間物流信息互動,使銷售或采購訂單可以直接驅(qū)動物流的運(yùn)作,并將即時的物流運(yùn)作信息反饋到企業(yè)內(nèi)部信息管理系統(tǒng)。
數(shù)據(jù)倉庫[3]是一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理部門的決策過程。它從大量的事務(wù)型數(shù)據(jù)庫中抽取數(shù)據(jù),并將其整理、轉(zhuǎn)換層新的存儲和組織格式,通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新來構(gòu)造,是一種多個異種數(shù)據(jù)源在單個站點以統(tǒng)一的模式組織的存儲。從概念上說,數(shù)據(jù)庫支持的是操作型的日常事務(wù)處理,面對的是低層操作人員與管理人員;而數(shù)據(jù)倉庫支持的是信息型或分析型的數(shù)據(jù)處理,即是針對制訂決策過程中管理層的需求而進(jìn)行的處理,或是通過瀏覽大量數(shù)據(jù)以找出其中的趨勢的處理,所面對的是中高層決策管理人員。
數(shù)據(jù)倉庫具有下列特征:
1)面向主題性與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用相對應(yīng),主題是一個在較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個主題對應(yīng)一個宏觀的分析領(lǐng)域,并通過一系列具有共同的公共碼鍵的表在數(shù)據(jù)倉庫中實現(xiàn)。
2)集成性原始數(shù)據(jù)與適合DSS分析的數(shù)據(jù)之間的差別很大,因此數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必然要經(jīng)過加工和集成。
3)穩(wěn)定性數(shù)據(jù)倉庫主要為決策分析提供經(jīng)過綜合、集成的面向某一分析主題的數(shù)據(jù),這些數(shù)據(jù)原則上是只讀的,不允許決策分析人員直接對數(shù)據(jù)進(jìn)行修改或刪除等操作。因此數(shù)據(jù)倉庫中的數(shù)據(jù)是相對穩(wěn)定的。
4)隨時間變化性數(shù)據(jù)倉庫的穩(wěn)定是相對于應(yīng)用而言,由于事務(wù)處理數(shù)據(jù)庫中數(shù)據(jù)是不斷更新的,每過一定的時間階段,事務(wù)處理數(shù)據(jù)就要轉(zhuǎn)化為歷史數(shù)據(jù)增加到數(shù)據(jù)倉庫中來。
LIP中數(shù)據(jù)倉庫主要作用就是跨越企業(yè)時空界限,把不同部門不同事務(wù)處理系統(tǒng)的數(shù)據(jù)集成起來提供一個統(tǒng)一的數(shù)據(jù)視圖,從而使各數(shù)據(jù)倉庫應(yīng)用方便地獲得有關(guān)公司運(yùn)作狀況或客戶行為等方面更為綜合的信息。數(shù)據(jù)倉庫系統(tǒng)運(yùn)作流程如圖1所示。
圖1 數(shù)據(jù)倉庫系統(tǒng)運(yùn)作Fig.1 Operation of data warehouse system
最流行的數(shù)據(jù)倉庫模型是多維數(shù)據(jù)模型,這種模型可以以星型模式、雪花模式或事實星座模式(星系模式)形式存在。 LIP數(shù)據(jù)倉庫采用事實星座模式,因為它能對多個相關(guān)的主題建模。在開發(fā)利用LIP時,使用的數(shù)據(jù)庫服務(wù)器是Microsoft SQL Server 2000,它提供了一個綜合的數(shù)據(jù)倉庫平臺,是設(shè)計、創(chuàng)建、維護(hù)及使用數(shù)據(jù)倉庫解決方案更加容易和快捷。
目前,數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,有多種分類法。根據(jù)挖掘任務(wù),可分為分類或預(yù)測模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢發(fā)現(xiàn)等等;根據(jù)挖掘?qū)ο?,可分為基于關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫、空間數(shù)據(jù)庫等多種數(shù)據(jù)庫,以及基于Web的數(shù)據(jù)挖掘;根據(jù)挖掘方法,可分為機(jī)器學(xué)習(xí)方法、統(tǒng)計方法、神經(jīng)網(wǎng)絡(luò)方法、決策樹方法和數(shù)據(jù)庫方法等。
在物流信息平臺上物流企業(yè)業(yè)務(wù)量大、信息來源多和各種實時交互信息量巨大,蘊(yùn)藏著豐富的隱藏信息,同時這些信息是呈實時、動態(tài)變化的。從物流企業(yè)的信息網(wǎng)絡(luò)中抽取所需用信息作分析對企業(yè)作出正確的決策和史好的適應(yīng)市場的需求是非常重要的。數(shù)據(jù)挖掘技術(shù)正是從此類汪洋大海似的信息寶庫中實時發(fā)現(xiàn)、貯存,及時地提取,并充分地利用各領(lǐng)域中隱含的知識、規(guī)律、規(guī)則,以用于決策、過程控制、信息處理、查詢處理等。
一般來說,作某種分析時所要求的系列數(shù)據(jù)往往是同一類型的數(shù)據(jù),如某網(wǎng)點某段時間某種貨品的存儲數(shù)量等,這時候要用到數(shù)據(jù)挖掘中的聚類分析方法。所謂聚類[4],是將物理或抽象對象的集合分割成為由類似的對象組成的多個類的過程,由聚類所生成的簇是一組數(shù)據(jù)對象的集合,同一個簇中的對象彼此相似,不同簇中的對象間區(qū)別較大。聚類分析是根據(jù)事物本身的特性,研究對象分類的方法,依據(jù)的原則是使同一類中的對象具有盡可能大的相似性,而不同類中的對象具有盡可能大的差異性。聚類分析要解決的就是實現(xiàn)滿足這種要求的類的聚類。作為統(tǒng)計學(xué)的一個分支,聚類分析已經(jīng)被廣泛地研究了許多年,主要集中在基于距離的傳統(tǒng)聚類算法,如 k-means(k一平均值)、k-rnedoids(k一中心點)算法等。這些算法具有聚類結(jié)果清晰,無模糊、二義的優(yōu)點,但也存在許多問題,如要求事先指定K個聚類初始點,且結(jié)果對K值(聚類數(shù))大,}1、非常敏感,對于不同K值的聚類結(jié)果往往大相徑庭。因此,如何事先確定K值是傳統(tǒng)聚類算法所存在的最大問題。神經(jīng)網(wǎng)絡(luò)是在研究生物神經(jīng)系統(tǒng)的啟示下發(fā)展起來的一種信號處理方法,其具有強(qiáng)大的并行處理機(jī)制、任意函數(shù)的逼近能力、學(xué)習(xí)能力,以及自組織和自適應(yīng)能力等特性,從而可代替復(fù)雜的傳統(tǒng)算法,使信號處理過程更接近于人類思維活動。神經(jīng)網(wǎng)絡(luò)在人工智能、自動控制、計算機(jī)科學(xué)、信息處理、模式識別等方面的應(yīng)用越來越廣,為實現(xiàn)企業(yè)信息平臺中的數(shù)據(jù)挖掘聚類功能,本文就應(yīng)用Kohonen神經(jīng)網(wǎng)絡(luò)實現(xiàn)聚類分析的方法及應(yīng)用進(jìn)行研究。
自組織特征映射網(wǎng)絡(luò)((SOM網(wǎng)絡(luò))是由芬蘭赫爾辛基大學(xué)神經(jīng)網(wǎng)絡(luò)專家Kohonen教授提出來的,這種網(wǎng)絡(luò)模擬大腦神經(jīng)系統(tǒng)自組織特征映射的功能,它是一種競爭式學(xué)習(xí)網(wǎng)絡(luò),在學(xué)習(xí)中能無監(jiān)督地進(jìn)行自組織學(xué)習(xí)。由于聚類分析結(jié)果的不可知性,聚類不是基于訓(xùn)練數(shù)據(jù)的,而是直接對數(shù)據(jù)源進(jìn)行處理,其過程是一個無導(dǎo)師指導(dǎo)的學(xué)習(xí)過程,因此,本文在聚類分析器中采用了Kohonen神經(jīng)網(wǎng)絡(luò)[5]。
Kohonen神經(jīng)網(wǎng)絡(luò)算法Kohonen算法是一種無教師示教的聚類方法,它能將任意維輸入模式在輸出層映射成一維或二維離散圖形,并保持其拓?fù)浣Y(jié)構(gòu)不變,即在無教師示教的情況下,通過對輸入模式的自組織學(xué)習(xí),在競爭層將聚類結(jié)果表示出來。此外,網(wǎng)絡(luò)通過對輸入模式的反復(fù)學(xué)習(xí),可以使連接權(quán)矢量空間分布密度與輸入模式的概率分布趨于一致,即連接權(quán)矢量空間分布能反映輸入模式的統(tǒng)計特性。該算法往往在完成極高維數(shù)、超大量數(shù)據(jù)和高度非線性問題的聚類,模式表征和數(shù)據(jù)壓縮,分類等任務(wù)時是一個很有效、很簡便、快速、并且穩(wěn)健性好的算法。
Kohonen的學(xué)習(xí)算法如下:
1)給出輸出節(jié)點(即矢量模式)的個數(shù)M及輸入節(jié)點(即每個矢量元素)的個數(shù)N,并將從輸入節(jié)點i到輸出節(jié)點3的權(quán)值初始化。
2)對網(wǎng)絡(luò)輸入模式 X(t)=(x0(t),x1(t),…,xN-1(t))T計算輸入矢量X(t)全部輸出節(jié)點所連權(quán)矢量的距離。
3)從dj中選出最小值所對應(yīng)的輸出節(jié)點J為響應(yīng)節(jié)點。
4)按照公式調(diào)整J及其鄰域NEj(t)內(nèi)各輸出節(jié)點的權(quán)值。
5)若還有輸入樣本數(shù)據(jù),則轉(zhuǎn)到2),反復(fù)迭代,直到算法收斂。
設(shè)有某一對一對應(yīng)關(guān)系(X,Y),其中X表示輸入信號大小,Y表示輸入信號經(jīng)過處理后的輸出信號大小,現(xiàn)在要考察輸入X與輸出Y之間的關(guān)系可分為多少類。每類輸入輸出關(guān)系是以一定形式來表示的,這種特定的形式可稱為某一聚類。從某數(shù)據(jù)庫中隨機(jī)選擇九百多組上述數(shù)據(jù),下面使用聚類Kohonen神經(jīng)網(wǎng)絡(luò)[6],在Matlab環(huán)境下,對這些數(shù)據(jù)進(jìn)行聚類仿真。
1)準(zhǔn)備數(shù)據(jù)源。由對應(yīng)關(guān)系(X,Y)可知輸入矢量為兩輸入模式,將數(shù)據(jù)存入二維數(shù)組p,部分?jǐn)?shù)據(jù)如下:
2)選定參數(shù)。取神經(jīng)元為5,取學(xué)習(xí)速率為0.2,定義網(wǎng)絡(luò)最大訓(xùn)練步數(shù)為1 500步。
3)運(yùn)用newc()函數(shù)創(chuàng)建競爭層網(wǎng)絡(luò),建立網(wǎng)絡(luò)結(jié)構(gòu)。代碼如下:
4)運(yùn)用網(wǎng)絡(luò)初始化函數(shù)init(),對競爭網(wǎng)絡(luò)初始化。代碼如下:
5)初始化連接權(quán)矢量。代碼如下:
6)運(yùn)用網(wǎng)絡(luò)訓(xùn)練函數(shù)train()訓(xùn)練上述初始化后的網(wǎng)絡(luò)。代碼如
7)調(diào)用繪圖函數(shù)plot()繪制P輸入矢量值的平面圖和網(wǎng)絡(luò)訓(xùn)練t權(quán)值矢量,并將結(jié)果以圖形的形式顯示出來。這里用加號“+”顯示輸出量,用圓圈來顯示經(jīng)過網(wǎng)絡(luò)訓(xùn)練后的權(quán)值矢量。代碼如下:
8)運(yùn)用仿真函數(shù)sim()對一個具有輸入矢量p的神經(jīng)網(wǎng)絡(luò)進(jìn)行仿該函數(shù)最后返回網(wǎng)絡(luò)的輸出結(jié)果。以[0.7;5」為輸入矢量進(jìn)行仿真,代碼如
隨著企業(yè)競爭的日趨激烈,需要企業(yè)信息系統(tǒng)為企業(yè)決策提供有關(guān)員工、供應(yīng)商和客戶的詳細(xì)數(shù)據(jù),并且要求這些數(shù)據(jù)是準(zhǔn)確、一致和完整的。只有這樣才能夠保證更加高效的運(yùn)營[7],更高的客戶滿意度,以及更加快速有效的科學(xué)決策。因此消除現(xiàn)有信息系統(tǒng)間的信息孤島問題,建立異構(gòu)系統(tǒng)間信息共享、信息交換的有效機(jī)制,成為企業(yè)信息化建設(shè)中的首要問題。
[1]錢曉江.物流信息系統(tǒng)體系結(jié)構(gòu)[J].東南大學(xué)學(xué)報,2001,31(11):40-41.
QIAN Xiao-jiang.The architecture of logistics information system[J].Journal of Southeast University,2001,31 (11):40-41.
[2]李玲青,竇明暉,周洞汝.C/S模式結(jié)合OLE技術(shù)在開發(fā)GIS系統(tǒng)中的應(yīng)用[J].計算機(jī)工程,2002,28(1):260-262.
LI Ling-qing,DOU Ming-hui,ZHOU Dong-ru.application.C/S model with OLE technology in the development of GIS system[J].Computer Engineering,2002,28(1):260-262.
[3]鄒咸林,楊俊杰.分布式對象技術(shù)及客戶機(jī)/服務(wù)器體系結(jié)構(gòu)[J].湖北民族學(xué)院學(xué)報,2002,20(3):62-65.
ZOU Xian-lin,YANG Jun-jie.A distributed object technology and client/server architecture[J].Journal of Hubei Institute for Nationalities,2002,20(3):62-65.
[4]R.Otte,M.Roy.CoRBA教程:公共對象請求代理體系結(jié)構(gòu)[M].北京:清華大學(xué)出版社,1999.
[5]Tilanus B.Information systems in logistics and transport[J].Bsenier Scienee,1997(5):56-66.
[6]唐衛(wèi)寧,耿國華.電子商務(wù)中基于CORBA的WEB數(shù)據(jù)挖掘研究[J].計算機(jī)應(yīng)用研究,2002(7):45-47.
TANG Wei-ning,GENG Guo-hua.Research of WEB data mining based on CORBA in electronic commerce[J].The Research and Application of Computer,2002(7):45-47.
[7]張海龍,馮森,李建祥,等.電動汽車充換電服務(wù)網(wǎng)絡(luò)運(yùn)營管理系統(tǒng)的研究與設(shè)計[J].陜西電力,2011(11):47-50.
ZHANG Hai-long,F(xiàn)ENG Sen,LI Jian-xiang,et al.Research and design of electric vehicle charging net management system[J].Shaanxi Electric Power,2011(11):47-50.
Research of key technology of enterprise information platform under the electronic commerce environment
LIU Hui-mei1,YIN Feng-she2
(1.Shaanxi Institute of Technology, Xi’an 710300, China; 2.Shaanxi Polytechnic Institute, Xianyang 712000, China)
At present,the interconnection between logistics enterprises and large manufacturing enterprise management information system and interoperability is poor,causing great waste of information resources and low utilization efficiency.In view of the enterprise information integration, enterprise application integration and data extraction, conversion, loading, in order to realize the LIP open, complex, multi-level computing tasks, the distributed objects and distributed database technology is analyzed, and in the Matlab environment, clustering of these data simulation-
management information system;information integration;computing;remote database
2014-01-13稿件編號201401094
咸陽市科技計劃項目(2012k02-14)
劉慧梅(1976—),女,甘肅武威人,工程碩士,講師。研究方向:軟件工程。
TN-9
A
1674-6236(2014)12-0030-04