楊振宇
(安徽交通職業(yè)技術(shù)學(xué)院 信息工程系,安徽 合肥 230051)
廢舊物資處理符合循環(huán)經(jīng)濟(jì)發(fā)展模式,廢舊物資中很大一部分屬于不可再生資源,做好這部分廢舊物資的處理與回收工作顯得尤為重要[1-3].各地政府越來越重視廢舊物資處理工作,但由于沒有形成完整統(tǒng)一的管理機(jī)制,缺乏信息化、一體化、系統(tǒng)化的管理系統(tǒng),廢舊物資處理過程中效率低下、信息化水平較低、專業(yè)人才缺失等問題凸顯,很大程度上制約了我國(guó)廢舊物資處理事業(yè)的良性發(fā)展[4-6];另一方面,由于沒有重視廢舊物資處理內(nèi)在規(guī)律和潛在的數(shù)據(jù)支撐,相關(guān)政策的制定往往帶有盲目性,不能很好地引導(dǎo)我國(guó)廢舊物資處理事業(yè)向著良性循環(huán)方向發(fā)展.基于上述背景,以我國(guó)某三線中等城市為例,采用C4.5決策樹算法對(duì)廢舊物資進(jìn)行精細(xì)化分類與處理,采用支持向量機(jī)(SVM)算法進(jìn)行固定周期內(nèi)廢舊物資處理數(shù)據(jù)的潛在規(guī)律挖掘.在此基礎(chǔ)上,遵循軟件工程一般方法,設(shè)計(jì)并實(shí)現(xiàn)了一款基于數(shù)據(jù)挖掘算法的廢舊物資處理系統(tǒng).實(shí)際驗(yàn)證表明,系統(tǒng)整體運(yùn)行穩(wěn)定,實(shí)用性較好,抗壓性等指標(biāo)滿足實(shí)際要求,可以較好地滿足廢舊物資處理對(duì)信息化的要求.
廢舊物資種類繁多,處理價(jià)值和處理工藝各異,為了最大程度上利用廢舊物資,需要對(duì)廢舊物資進(jìn)行精細(xì)化處理,基于此,提出了一種基于C4.5決策樹算法的廢舊物資精細(xì)化分類算法.該算法主要包括廢舊物資的屬性識(shí)別與分裂子算法、分裂子屬性的離散化處理子算法、構(gòu)造決策樹并進(jìn)行剪枝操作子算法、處理具有缺失屬性值的訓(xùn)練數(shù)據(jù)子算法.如圖1所示,屬性識(shí)別與分裂子算法主要實(shí)現(xiàn)廢舊物資的屬性識(shí)別并分裂為若干個(gè)子屬性;分裂子屬性的離散化處理子算法主要實(shí)現(xiàn)若干個(gè)子屬性的信息增益離散化并作為構(gòu)建決策樹的主要元素;構(gòu)造決策樹并進(jìn)行剪枝操作子算法主要實(shí)現(xiàn)決策樹的構(gòu)建并依據(jù)PEP剪枝法進(jìn)行剪枝操作;處理具有缺失屬性值的訓(xùn)練數(shù)據(jù)子算法主要處理訓(xùn)練樣本集中出現(xiàn)屬性值缺失的情況和待分類樣本.
廢舊物資精細(xì)化分類與處理的運(yùn)行流程如下:S1:創(chuàng)建并確定分類節(jié)點(diǎn)數(shù)N,根據(jù)錄入的廢舊物資信息進(jìn)行屬性識(shí)別與屬性分裂;S2:判斷廢舊物資屬性類型是否為連續(xù)型,如果是,則根據(jù)信息增益提取進(jìn)行離散化處理;S3:根據(jù)數(shù)據(jù)樣本離散化處理結(jié)果構(gòu)建決策樹,采用PEP剪枝法進(jìn)行子樹的修剪,確保較高的分類準(zhǔn)確率;S4:訓(xùn)練樣本集中有可能會(huì)出現(xiàn)一些樣本缺失了一些屬性值,待分類樣本中也會(huì)出現(xiàn)這樣的情況,為了確保分類數(shù)據(jù)的系統(tǒng)性,需要進(jìn)行補(bǔ)充缺失操作.基于C++語言,在VS2012環(huán)境下實(shí)現(xiàn)的核心代碼如下:
std::pair
optimal_attribute(datas,attributes,map_attr);
pTree->attribute = optimal_attrs.first;
for (auto aptimal_attr:optimal_attrs.second) %屬性識(shí)別與子屬性分裂
{
Node* new_node = new Node();
new_node->edgeValue = aptimal_attr;%構(gòu)建決策樹
}
if (!best_attribute.empty()) {
auto search = map_attr.find(best_attribute);%得出精細(xì)化分類結(jié)果
}
圖1 基于C4.5決策樹算法的廢舊物資精細(xì)化分類與處理算法邏輯示意圖
本文采用真實(shí)的數(shù)據(jù)集來對(duì)分類算法的精度進(jìn)行研究,該數(shù)據(jù)集來源于對(duì)我國(guó)某三線中等城市某回收廠的廢舊塑料瓶統(tǒng)計(jì)數(shù)據(jù).我們將本文算法與線性分類器和二次型分類器進(jìn)行對(duì)比,結(jié)果如表1所示.數(shù)據(jù)集中包括透明瓶(無色、綠色、黃色以及綠色)和不透明瓶(無色、綠色、黃色以及綠色)兩大類別,由于篇幅有限,此處僅呈現(xiàn)部分實(shí)驗(yàn)結(jié)果.由表1可知,本文算法的分類精度較高.
表1 算法分類精度對(duì)比
基于上述背景,根據(jù)反饋數(shù)據(jù)類型,提出了一種基于支持向量機(jī)(SVM)算法的廢舊物資處理潛在規(guī)律挖掘算法.該算法首先對(duì)數(shù)據(jù)點(diǎn)進(jìn)行格式化處理并選定訓(xùn)練集和測(cè)試集,然后為每一個(gè)訓(xùn)練集和測(cè)試集選定標(biāo)簽集并得到model,最后根據(jù)model獲取目標(biāo)規(guī)律.選取我國(guó)中部某三線中等城市6個(gè)月的數(shù)據(jù)為例,應(yīng)用本系統(tǒng)進(jìn)行處理和分析.首先需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,采用SVM算法將低維線性不可分的數(shù)據(jù)映射到高維線性可分,最后采用顯著差異評(píng)價(jià)對(duì)分類的準(zhǔn)確性進(jìn)行評(píng)估,最終分類結(jié)果如圖2所示.為了提高編程效率,快捷地尋找最佳有效的模型函數(shù),引進(jìn)核函數(shù)把樣本集映射到高維空間,核心代碼如下:
% 分類廢舊物資的分類標(biāo)簽集
train_set_labels=[lableset(1:5);lableset(11:15)];
% 將第一類的6-10,第二類的16-20,做為測(cè)試集
[dataset_scale,ps]=mapminmax(test_dataset’,0,1);
dataset_scale = dataset_scale’;
xlabel(’測(cè)試集樣本’,’FontSize’,12);
ylabel(’類別標(biāo)簽’,’FontSize’,12);
legend(’實(shí)際測(cè)試集分類’,’預(yù)測(cè)測(cè)試集分類’);
title(’測(cè)試集的實(shí)際分類和預(yù)測(cè)分類圖’,’FontSize’,12);%得出預(yù)測(cè)規(guī)律
grid on;
圖2 基于支持向量機(jī)(SVM)算法的廢舊物資處理潛在規(guī)律挖掘效果圖
圖3 廢舊物資處理系統(tǒng)用例圖
在需求分析部分,對(duì)基于數(shù)據(jù)挖掘算法的廢舊物資處理系統(tǒng)進(jìn)行功能性需求分析和非功能性需求分析.圖3給出了系統(tǒng)各個(gè)功能模塊及其內(nèi)在的邏輯關(guān)系,系統(tǒng)的非功能性需求分析需要滿足這幾個(gè)方面:
(1)系統(tǒng)應(yīng)該具有初始信息,提升信息打理的便捷度.
(2)通過各種方式密切相關(guān)角色的聯(lián)系,實(shí)現(xiàn)其交換信息的目的.
(3)系統(tǒng)應(yīng)該有較強(qiáng)的并發(fā)處理能力,要保證系統(tǒng)的穩(wěn)定性,它決定了信息的安全性.
(4)要保證數(shù)據(jù)真實(shí)可靠有效.
(5)系統(tǒng)應(yīng)該有較強(qiáng)的可擴(kuò)展性,便于后期的更新與維護(hù).
(6)系統(tǒng)應(yīng)該具有較強(qiáng)的抗壓性,可以為多用戶提供并發(fā)服務(wù).
使用Java EE模塊對(duì)廢舊物資處理系統(tǒng)進(jìn)行設(shè)計(jì),可以更簡(jiǎn)便、輕易地實(shí)現(xiàn)系統(tǒng)模塊.運(yùn)用面向?qū)ο蟮姆椒▽?duì)廢舊物資處理系統(tǒng)軟件實(shí)施封裝,不但能減輕開發(fā)者的工作負(fù)擔(dān),也能提升系統(tǒng)的開發(fā)效率[7].
系統(tǒng)采用了視圖模型控制器方案,用HTML頁面構(gòu)建視圖層,HTML經(jīng)由AJAX技術(shù)與內(nèi)部的控制層面進(jìn)行連接,并處理源于控制層的數(shù)據(jù)信息,再通過HTML頁面進(jìn)行顯示.為了提高系統(tǒng)的易用性,采取jQuery技術(shù),進(jìn)一步加強(qiáng)用戶界面的可操作性和體驗(yàn)感受.控制層對(duì)于業(yè)務(wù)流程的管控是通過相關(guān)模塊實(shí)施的,它應(yīng)用了工作流控制、權(quán)限和其他業(yè)務(wù)處理模塊驗(yàn)證數(shù)據(jù)的合法化,模型層為這一系統(tǒng)方面的業(yè)務(wù)類,是經(jīng)由DAO實(shí)施對(duì)數(shù)據(jù)庫操控.基于上述工作,系統(tǒng)工作流模型示意圖如圖4所示.
圖4 系統(tǒng)工作流模型示意圖
對(duì)于廢舊物資處理系統(tǒng),組織模型中人員組織關(guān)系的構(gòu)成是通過組織元素與元素的內(nèi)在聯(lián)系來呈現(xiàn).組織模型能夠幫助系統(tǒng)管理人員對(duì)系統(tǒng)進(jìn)行靈活組織和定義,使得過程模型能起到人性化、個(gè)性化的增益功能.這一系統(tǒng)內(nèi)部的組織模型,是經(jīng)由人員、角色、職務(wù)、部門、工作組共計(jì)5種個(gè)體組合而來.廢舊物資處理系統(tǒng)組織模型邏輯示意圖如圖5所示.
圖5 廢舊物資處理系統(tǒng)組織模型邏輯示意圖
基于上述工作,在vs2012環(huán)境下采用C++語言對(duì)系統(tǒng)分模塊進(jìn)行實(shí)現(xiàn)與測(cè)試,實(shí)現(xiàn)過程遵循軟件工程的一般規(guī)律.本文利用的是Windows 7操作系統(tǒng),采用的硬件設(shè)備 CPU為AMD公司的Ryzen 5系列處理器,主頻3.4 GHz,動(dòng)態(tài)加速頻率為3.9 GHz,采用三級(jí)緩存工藝,容量大小為16 MB.系統(tǒng)運(yùn)行內(nèi)存為32 GB,存儲(chǔ)空間4 TB,網(wǎng)絡(luò)帶寬15 M獨(dú)享,系統(tǒng)對(duì)屏幕分辨率的要求為1 024*768,支持國(guó)內(nèi)主流瀏覽器.系統(tǒng)實(shí)際運(yùn)行界面如圖6所示.
圖6 系統(tǒng)登錄界面示意圖
為了進(jìn)一步驗(yàn)證系統(tǒng)在某些非正常環(huán)境下的性能,基于系統(tǒng)性能測(cè)試工具LoadRunner,對(duì)系統(tǒng)的并發(fā)服務(wù)性能進(jìn)行分析,并發(fā)性能測(cè)試主要包括負(fù)載和壓力測(cè)試兩方面,由于系統(tǒng)應(yīng)用范圍明確,負(fù)載較小,故側(cè)重壓力測(cè)試,方法如下:首先確定壓力測(cè)試的上下限,然后按照規(guī)則遞增的方式從下限遞增到上限觀察服務(wù)器性能,最后根據(jù)測(cè)試結(jié)果進(jìn)行對(duì)應(yīng)的優(yōu)化.基于上述工作,以我國(guó)某三線中等城市標(biāo)準(zhǔn)化監(jiān)控中心(服務(wù)器采用華碩公司的ESC500 G3服務(wù)器,運(yùn)行Windows 7操作系統(tǒng))為例進(jìn)行測(cè)試,則實(shí)驗(yàn)結(jié)果如圖7所示.測(cè)試結(jié)果表明,系統(tǒng)運(yùn)行穩(wěn)定,服務(wù)器端壓力服務(wù)滿足實(shí)際要求.
圖7 服務(wù)器端壓力服務(wù)測(cè)試結(jié)果示意圖
針對(duì)傳統(tǒng)廢舊物資處理過程中出現(xiàn)的諸多問題,采用C4.5決策樹算法的廢舊物資精細(xì)化分類與處理算法較好地解決了廢舊物資的精細(xì)化分類問題,采用支持向量機(jī)(SVM)算法挖掘廢舊物資處理數(shù)據(jù)潛在的規(guī)律,為后續(xù)政策的改善提供了數(shù)據(jù)依據(jù).基于上述工作,設(shè)計(jì)并實(shí)現(xiàn)了一款基于數(shù)據(jù)挖掘算法的廢舊物資處理系統(tǒng),可以滿足我國(guó)三線中等城市的相關(guān)需求,對(duì)提高我國(guó)廢舊物資處理信息化水平具有積極意義.通過實(shí)際測(cè)試表明,系統(tǒng)運(yùn)行穩(wěn)定,實(shí)用性較好,抗壓性等指標(biāo)滿足實(shí)際要求,可以較好地滿足廢舊物資處理對(duì)信息化的要求,具有一定的實(shí)際推廣價(jià)值.