国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Web數(shù)據(jù)挖掘主流CAD軟件的對比分析

2015-12-06 02:47:33趙華許超
精密制造與自動化 2015年1期
關(guān)鍵詞:關(guān)鍵字采集器網(wǎng)址

趙華 許超

(天津機(jī)電職業(yè)技術(shù)學(xué)院 產(chǎn)學(xué)研中心 天津 300131)

基于Web數(shù)據(jù)挖掘主流CAD軟件的對比分析

趙華 許超

(天津機(jī)電職業(yè)技術(shù)學(xué)院 產(chǎn)學(xué)研中心 天津 300131)

CAD技術(shù)在制造業(yè)中發(fā)揮著越來越重要的作用,由于有四大主流CAD軟件,怎樣選擇適合本行業(yè)最優(yōu)的軟件,成為企業(yè)和工程技術(shù)人員的難題。應(yīng)用采集工具“火車采集器”對國內(nèi)招聘網(wǎng)站“51job”發(fā)布的招聘信息進(jìn)行數(shù)據(jù)挖掘,通過對采集到的數(shù)據(jù)進(jìn)行分析,結(jié)合四大主流CAD軟件各自的特點(diǎn),在行業(yè)及地區(qū)分布等多個方面,對四大軟件在國內(nèi)的應(yīng)用情況進(jìn)行對比分析,為廣大學(xué)生、工程技術(shù)人員和企業(yè)選擇合適的CAD軟件提供依據(jù)。

Web 數(shù)據(jù)挖掘 CAD 對比分析

1 引言

隨著計算機(jī)計算能力的不斷提高,CAD技術(shù)和CAD產(chǎn)業(yè)在工業(yè)需求的推動下日益興旺與繁榮[1]。隨著我國制造業(yè)的不斷發(fā)展,CAD技術(shù)已經(jīng)被廣泛應(yīng)用于航空航天、汽車制造、船舶制造、機(jī)械制造、電子、消費(fèi)品等行業(yè)[2]。當(dāng)前,國內(nèi)企業(yè)通常采用的大型CAD軟件主要有SolidWorks、UG NX、Pro/Engineer、CATIA。業(yè)內(nèi)很多人對當(dāng)前主流的CAD軟件進(jìn)行比較,網(wǎng)絡(luò)上也充斥著關(guān)于幾大軟件的爭論。這些對比分析一般都是基于個人使用經(jīng)驗(yàn)或者CAD軟件公司的宣傳,缺乏科學(xué)的數(shù)據(jù)支持。本文對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行挖掘,以市場的實(shí)際應(yīng)用情況為依據(jù),對四大主流軟件進(jìn)行對比分析,為廣大學(xué)生、工程技術(shù)人員和企業(yè)選擇合適的軟件提供了可靠的依據(jù)。

2 數(shù)據(jù)挖掘

2.1 采集工具

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)正影響著人類社會生活的方方面面?;ヂ?lián)網(wǎng)為人類提供了海量數(shù)據(jù),已經(jīng)成為人類信息資源的主要來源。Web包含了各種信息和資源,數(shù)據(jù)多樣而復(fù)雜,數(shù)據(jù)量十分龐大。有時,人們可以直接登錄某個網(wǎng)站,通過網(wǎng)站程序提供的某些功能直接提取所需的信息。但是也有些時候,現(xiàn)有的網(wǎng)站程序不能提取滿足人們需求的數(shù)據(jù),這時就需要借助Web數(shù)據(jù)挖掘技術(shù)來采集有價值的信息。Web數(shù)據(jù)挖掘是從網(wǎng)絡(luò)資源上抽取信息(或知識)的過程,是對Web資源中蘊(yùn)含的、未知的、有潛在應(yīng)用價值的模式的提取[3]。Web爬蟲是Web挖掘中重要技術(shù)之一,是爬取頁面的重要手段,通過爬蟲的構(gòu)建達(dá)到Web信息搜索的目的。網(wǎng)絡(luò)爬蟲,又稱網(wǎng)絡(luò)蜘蛛或Web信息采集器,是一個自動下載網(wǎng)頁的計算機(jī)程序或自動化腳本[4,5]。目前,國內(nèi)應(yīng)用較多的采集軟件主要有以下幾種:“火車采集器”、“網(wǎng)絡(luò)曠工”、“有訊軟件”、“狂人”、“三人行”等,本文選擇“火車采集器”作為采集工具。

2.2 Web數(shù)據(jù)源

“前程無憂(51job)”是國內(nèi)領(lǐng)先的專業(yè)招聘網(wǎng)站,網(wǎng)站擁有超過8 200萬個注冊用戶,通過“51job”發(fā)布的招聘職位每天超過320萬個,涉及信息技術(shù)、電子、金融、化工、物流、廣告等59個行業(yè)58個職能大類720個小類,職位遍布全國近500個大中小城市?!?1job”提供的海量人力資源信息真實(shí)地反映了就業(yè)市場對某一類人才和技能的需求。本文選取“51job”網(wǎng)站上的招聘信息作為作為數(shù)據(jù)源,采集對四大主流CAD軟件有技術(shù)要求的招聘信息,進(jìn)行數(shù)據(jù)分析,從中總結(jié)出四大主流CAD軟件在市場上的應(yīng)用情況,進(jìn)而進(jìn)行對比分析。

2.3 Web數(shù)據(jù)挖掘

因?yàn)檎衅妇W(wǎng)頁具有相同的結(jié)構(gòu),可以使用統(tǒng)一的抽取規(guī)則。利用“火車采集器(Locoyspider)”對地區(qū)、行業(yè)、職位等關(guān)鍵信息要素進(jìn)行抓取?!盎疖嚥杉鳌笔且豢顚I(yè)的網(wǎng)絡(luò)數(shù)據(jù)采集/信息挖掘處理軟件,通過采集規(guī)則的定義,可以搜索所有網(wǎng)站,采集幾乎任何類型的信息,采集到的數(shù)據(jù)被同步保存到關(guān)聯(lián)數(shù)據(jù)庫中。

以包含關(guān)鍵字Pro/Engineer的所有招聘信息的采集為例,“火車采集器”采集信息主要分以下三步進(jìn)行:

第一步:采集網(wǎng)址,即采集所有關(guān)鍵字包含Pro/Engineer的招聘網(wǎng)頁對應(yīng)的網(wǎng)址。

“51job”提供招聘信息全文關(guān)鍵字搜索,輸入關(guān)鍵字,可以檢索到與該關(guān)鍵字有關(guān)的所有職位。以Pro/Engineer為例,輸入關(guān)鍵字Pro/Engineer,“51job”檢索出所有招聘信息中對Pro/Engineer軟件有一定要求的所有職位信息,這些招聘信息的簡要信息被羅列在搜索欄的下方,形成搜索結(jié)果頁面,稱為起始頁,也就是列表頁,對應(yīng)的URL,就是起始網(wǎng)址。因?yàn)榉纤阉鳁l件的招聘信息一共11183條,而每個列表頁只能顯示50條,因此列表有分頁。

添加開始采集地址時,選擇“批量/多頁”選項(xiàng)卡,地址格式為:

(其中*為列表頁頁碼,呈等差數(shù)列增長,首項(xiàng)為1,項(xiàng)數(shù)為224)

但是,在這些網(wǎng)頁中只能看到關(guān)于招聘內(nèi)容的簡單概述,如,職位名稱、公司名稱等,如果想進(jìn)一步了解招聘信息,必須單擊該條信息,網(wǎng)頁跳轉(zhuǎn)到該條信息所在的招聘信息網(wǎng)頁,該網(wǎng)頁對應(yīng)的URL稱為多級網(wǎng)址。

由于“51job”的招聘頁網(wǎng)址都有統(tǒng)一的格式,http://search.51job.com/job/(*),c.html(其中*為變量,代表不同的招聘信息頁面)。因此,在添加多級網(wǎng)址采集規(guī)則時,選擇“從頁面自動分析得到地址鏈接”,在網(wǎng)頁中解析出“必須包含/job/”的網(wǎng)址,即可得到具體的招聘信息頁面網(wǎng)址。

第二步:采集內(nèi)容,編寫采集規(guī)則,使采集器在所有采集到的網(wǎng)址上遍歷,抓取所有符合采集規(guī)則的內(nèi)容。根據(jù)招聘信息網(wǎng)頁源代碼的特點(diǎn),數(shù)據(jù)提取方式選擇“前后截取”,同時添加適當(dāng)?shù)臄?shù)據(jù)處理方式,具體規(guī)則如表1所示。

第三步:發(fā)布內(nèi)容,“火車采集器”支持在線發(fā)布到網(wǎng)站、保存為內(nèi)地文件、導(dǎo)入自定義數(shù)據(jù)庫和發(fā)布到其它擴(kuò)展四種方式,在“發(fā)布內(nèi)容設(shè)置”選項(xiàng)卡選擇“保存為本地Excel文件”。

表1 含關(guān)鍵字Pro/Engineer的招聘信息網(wǎng)頁內(nèi)容采集規(guī)則

3 數(shù)據(jù)分析

經(jīng)過數(shù)據(jù)采集,得到四大主流CAD軟件相關(guān)的招聘信息總數(shù)為30828條,各大軟件所占比例如圖1所示。

圖1 四大CAD軟件相關(guān)招聘信息數(shù)量所占比例

“51job”把公司按照公司性質(zhì)分為“國企”“民營企業(yè)”等十類,四大主流CAD軟件相關(guān)的招聘信息中,不同性質(zhì)的公司提供的職位數(shù)量所占比重如表2所示。

表2 不同性質(zhì)公司提供的職位數(shù)量所占比例

提供招聘職位的企業(yè)有大中小不同規(guī)模,“51job”對公司規(guī)模按照人數(shù)不同分為7個等級。各種軟件相關(guān)的招聘信息中,不同等級規(guī)模公司提供的職位數(shù)量所占比重如表3所示。

表3 不同等級規(guī)模公司提供的職位數(shù)量所占比重

30828條招聘信息中提供的職位分布在全國各地198個大中小城市。在各大軟件相關(guān)的招聘信息中,職位分布密集度前十的城市提供的職位數(shù)量所占比重見表4所示。

表4 職位分布密集度前十的城市提供的職位數(shù)量所占比重

30828條招聘信息分布在38個行業(yè),在各大軟件相關(guān)的招聘信息中,職位分布密集度前十的行業(yè)職位數(shù)量所占比重如表5所示。

表5 職位分布密集度前十的行業(yè)職位數(shù)量所占比重

在以上行業(yè)中,選出7個典型的職能類別,四大主流CAD軟件相關(guān)的職位數(shù)量如表6所示。

表67個典型的職能類別中四大主流CAD軟件相關(guān)職位數(shù)量

4 結(jié)語

UG NX、CATIA、Pro/Engineer同屬高階大型CAD/CAM/CAE軟件,而SolidWorks則占據(jù)中低端市場。單就職位數(shù)量來看,企業(yè)對能夠掌握Pro/Engineer的人才需求量最大,其次為UG NX和SolidWorks,CATIA最少。其中CATIA居于領(lǐng)先地位,在航空航天、汽車制造領(lǐng)域的應(yīng)用遠(yuǎn)高于UG NX和Pro/Engineer;CATIA整體功能強(qiáng)大,是達(dá)索集團(tuán)的高端軟件,價格也昂貴,因此在大型企業(yè)的應(yīng)用較多,但是CATIA的CAM功能在國內(nèi)較少使用。UG NX的模具設(shè)計模塊功能強(qiáng)大,在模具設(shè)計領(lǐng)域占有絕對優(yōu)勢;在汽車制造和航空航天領(lǐng)域UG NX也有較多的應(yīng)用;同時UG NX加工方式完備,在NC領(lǐng)域具有較高的聲譽(yù),在以加工制造為主的企業(yè)中應(yīng)用較廣泛;在地區(qū)分布上,相對比其他三款軟件,UG NX在南方應(yīng)用更加廣泛。Pro/Engineer以參數(shù)化著稱,強(qiáng)調(diào)特征的全相關(guān)性,在家電、數(shù)碼產(chǎn)品等小型電子產(chǎn)品設(shè)計領(lǐng)域Pro/Engineer應(yīng)用最為廣泛,在模具設(shè)計領(lǐng)域的受歡迎程度僅次于UG NX;Pro/Engineer的編程功能也相當(dāng)強(qiáng)大,在加工企業(yè)也較受歡迎。SolidWorks是達(dá)索集團(tuán)的中端軟件,圖形界面友好,操作簡單,用戶易學(xué)易用,價格便宜,在中小企業(yè)及民營企業(yè)應(yīng)用十分廣泛;該軟件的NC模塊SolidCAM在國內(nèi)較少應(yīng)用;雖然SolidWorks整體功能較其他三大軟件較弱,但是在對曲面造型要求不高的機(jī)械領(lǐng)域卻占有絕對優(yōu)勢,一般企業(yè)機(jī)械工程師多使用該軟件。

[1] 葉修梓,彭維,唐榮錫.國際CAD產(chǎn)業(yè)的發(fā)展歷史回顧與幾點(diǎn)經(jīng)驗(yàn)教訓(xùn)[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2003,15(10):1186-1193.

[2] 梅黎錦.CAD/CAM技術(shù)在我國的發(fā)展和應(yīng)用現(xiàn)狀[J].機(jī)械工程師,2009,(3):75-76.

[3] 高巖,胡靜濤.Web數(shù)據(jù)挖掘的原理、方法及用途[J].現(xiàn)代圖書情報技術(shù),2002(3):51-52.

[4] 焦賽美.網(wǎng)絡(luò)爬蟲技術(shù)的研究[J].瓊州學(xué)院學(xué)報,2011[1].18(5):28-30.

[5] 蘇新寧,楊建林.數(shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003:15-18.

猜你喜歡
關(guān)鍵字采集器網(wǎng)址
2023年6月全宅影音器材編輯推薦
履職盡責(zé)求實(shí)效 真抓實(shí)干勇作為——十個關(guān)鍵字,盤點(diǎn)江蘇統(tǒng)戰(zhàn)的2021
華人時刊(2022年1期)2022-04-26 13:39:28
本刊網(wǎng)址變更通知
COVID-19大便標(biāo)本采集器的設(shè)計及應(yīng)用
成功避開“關(guān)鍵字”
基于ZigBee的大型公共建筑能耗采集器設(shè)計
基于LabVIEW的多數(shù)據(jù)采集器自動監(jiān)控軟件設(shè)計與開發(fā)
本刊網(wǎng)址變更通知
本刊網(wǎng)址更改通知
多接口溫濕度數(shù)據(jù)采集器的設(shè)計
郴州市| 曲麻莱县| 雷山县| 贞丰县| 鲁山县| 南投县| 宣恩县| 盐池县| 壶关县| 樟树市| 和平县| 柞水县| 彰化县| 内丘县| 潜山县| 无为县| 龙海市| 明光市| 如东县| 嘉义市| 余庆县| 筠连县| 龙海市| 汽车| 宜宾市| 东阳市| 班玛县| 荔波县| 广灵县| 灌阳县| 松江区| 江油市| 西青区| 贵溪市| 大姚县| 和硕县| 怀远县| 桐城市| 鄂托克旗| 杨浦区| 古交市|