王彬彬
(阜陽(yáng)幼兒師范高等??茖W(xué)?;A(chǔ)教學(xué)部,阜陽(yáng) 236000)
隨著信息技術(shù)和云計(jì)算技術(shù)的快速發(fā)展,“互聯(lián)網(wǎng)+”這一新概念的產(chǎn)生引起了社會(huì)公眾的廣泛關(guān)注和討論。 目前,隨著我國(guó)社會(huì)經(jīng)濟(jì)的不斷進(jìn)步,互聯(lián)網(wǎng)所囊括的內(nèi)容逐漸完善,衍生了許多新興技術(shù),“互聯(lián)網(wǎng)+”時(shí)代已經(jīng)來(lái)臨。 在當(dāng)前時(shí)代背景下,傳統(tǒng)數(shù)據(jù)處理技術(shù)無(wú)法實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)和傳遞,已不能滿足現(xiàn)代化數(shù)據(jù)處理的要求,更無(wú)法解決軟件工程開(kāi)發(fā)與應(yīng)用過(guò)程中數(shù)據(jù)傳輸不穩(wěn)定的問(wèn)題。 數(shù)據(jù)挖掘技術(shù)能夠?qū)崿F(xiàn)海量有價(jià)值數(shù)據(jù)的提取、存儲(chǔ)和整合,剔除無(wú)效信息,確保數(shù)據(jù)來(lái)源的安全性,有利于軟件工程中軟件開(kāi)發(fā)、項(xiàng)目管理等各項(xiàng)工作的開(kāi)展,具有現(xiàn)實(shí)性意義。
數(shù)據(jù)挖掘技術(shù)實(shí)際上就是一種現(xiàn)代化信息處理技術(shù),具備數(shù)據(jù)轉(zhuǎn)化、數(shù)據(jù)處理、數(shù)據(jù)分析等功能,憑借獨(dú)特的優(yōu)勢(shì)已廣泛應(yīng)用于各個(gè)領(lǐng)域。 現(xiàn)階段,很多互聯(lián)網(wǎng)企業(yè)由于缺乏對(duì)數(shù)據(jù)挖掘技術(shù)的理解,仍使用傳統(tǒng)信息處理技術(shù)來(lái)處理數(shù)據(jù),導(dǎo)致信息處理效率低下。 數(shù)據(jù)挖掘也就是收集數(shù)據(jù)的整個(gè)過(guò)程,應(yīng)用于軟件工程中能夠借助其驅(qū)動(dòng)分析技術(shù)實(shí)現(xiàn)數(shù)據(jù)驗(yàn)證,篩選出符合條件的相關(guān)數(shù)據(jù)。 可以說(shuō),數(shù)據(jù)挖掘采用了一種發(fā)現(xiàn)驅(qū)動(dòng)分析數(shù)據(jù)機(jī)制,能夠?qū)崿F(xiàn)對(duì)海量數(shù)據(jù)的價(jià)值分析,最終挖掘出有價(jià)值的數(shù)據(jù)。 在軟件工程領(lǐng)域應(yīng)用數(shù)據(jù)挖掘技術(shù)不僅能為軟件研發(fā)提供依據(jù),提高信息處理效率,還能對(duì)開(kāi)發(fā)產(chǎn)品進(jìn)行修正,促進(jìn)企業(yè)穩(wěn)定發(fā)展。
軟件工程數(shù)據(jù)是指在軟件研發(fā)過(guò)程中各種算法的運(yùn)算所產(chǎn)生的系統(tǒng)數(shù)據(jù)。 運(yùn)用這些系統(tǒng)數(shù)據(jù)可以對(duì)軟件內(nèi)部進(jìn)行測(cè)評(píng),維護(hù)軟件正常運(yùn)行。 這些信息是軟件研發(fā)人員測(cè)評(píng)軟件采用的最安全的方式,通過(guò)算法來(lái)獲取數(shù)據(jù)不僅能保證數(shù)據(jù)的完整性,還能維護(hù)軟件正常運(yùn)行。
數(shù)據(jù)挖掘過(guò)程是一系列算法與程序的綜合運(yùn)算過(guò)程,復(fù)雜度高、運(yùn)算量大。 其流程包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)整合。 在處理大規(guī)模數(shù)據(jù)時(shí),任何軟件的運(yùn)行都需要具備強(qiáng)大的運(yùn)算后臺(tái)來(lái)維護(hù)數(shù)據(jù)的安全性和穩(wěn)定性。 價(jià)值信息的提取實(shí)際上就是對(duì)數(shù)據(jù)的二次選擇。 在數(shù)據(jù)預(yù)處理環(huán)節(jié),主要運(yùn)用合適的算法對(duì)原始數(shù)據(jù)進(jìn)行識(shí)別和轉(zhuǎn)化,預(yù)處理后的數(shù)據(jù)可供用戶直接獲取或使用。 數(shù)據(jù)收集,即數(shù)據(jù)的吸收,經(jīng)過(guò)前期對(duì)數(shù)據(jù)的預(yù)處理,確保數(shù)據(jù)是安全可靠的。 用戶獲取數(shù)據(jù)后可結(jié)合實(shí)際需求對(duì)數(shù)據(jù)進(jìn)行刪除或存儲(chǔ),進(jìn)而提升用戶的體驗(yàn)感。
1.有利于信息的正確錄入
運(yùn)用傳統(tǒng)信息處理技術(shù)處理數(shù)據(jù)的過(guò)程中,由于數(shù)據(jù)量龐大,運(yùn)算系統(tǒng)往往會(huì)崩潰,耗費(fèi)大量時(shí)間,而運(yùn)用數(shù)據(jù)挖掘技術(shù)開(kāi)展數(shù)據(jù)處理工作不僅能夠解決這些問(wèn)題,還能提高運(yùn)算效率,保證數(shù)據(jù)采集的準(zhǔn)確性和有效性,更不會(huì)出現(xiàn)數(shù)據(jù)破損、丟失等問(wèn)題,能夠有效提升數(shù)據(jù)的完整性。 在海量數(shù)據(jù)資源中,數(shù)據(jù)分布雜亂、種類繁多,存在一些無(wú)使用價(jià)值的垃圾數(shù)據(jù),在進(jìn)行數(shù)據(jù)處理時(shí)會(huì)將所有原始數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)處理系統(tǒng)中,從而導(dǎo)致系統(tǒng)運(yùn)算效率降低,而采用數(shù)據(jù)挖掘技術(shù)能夠有效剔除其中的垃圾數(shù)據(jù),將目標(biāo)數(shù)據(jù)準(zhǔn)確提取出來(lái),保存在數(shù)據(jù)系統(tǒng)中,提高數(shù)據(jù)整體質(zhì)量。
2.有利于各項(xiàng)信息的了解
傳統(tǒng)信息處理技術(shù)所具備的功能都包含于數(shù)據(jù)挖掘技術(shù)之中。 數(shù)據(jù)挖掘技術(shù)通過(guò)采集原始數(shù)據(jù),對(duì)數(shù)據(jù)種類進(jìn)行識(shí)別,從而進(jìn)行分類管理。 在整個(gè)數(shù)據(jù)采集過(guò)程中,如果涉及的范圍夠大,那么可以通過(guò)分析數(shù)據(jù)特征,建立全面的數(shù)據(jù)管理平臺(tái),為用戶提供便捷、快速的數(shù)據(jù)查詢服務(wù)。 將數(shù)據(jù)挖掘技術(shù)應(yīng)用于軟件工程,實(shí)現(xiàn)了數(shù)據(jù)資源的整合,有利于企業(yè)深入了解并掌握各種數(shù)據(jù),為企業(yè)決策提供有價(jià)值的依據(jù)。
3.有利于節(jié)省數(shù)據(jù)處理時(shí)間
利用數(shù)據(jù)挖掘技術(shù)處理數(shù)據(jù)的過(guò)程中,能夠?qū)㈦s亂無(wú)章的數(shù)據(jù)轉(zhuǎn)換成試用形式,用戶通過(guò)數(shù)據(jù)處理系統(tǒng)能夠直接進(jìn)行調(diào)用。 在軟件工程中運(yùn)用數(shù)據(jù)挖掘技術(shù),能夠自主實(shí)現(xiàn)分析功能的選擇,對(duì)原始數(shù)據(jù)進(jìn)行處理、清洗,確保提取的數(shù)據(jù)能夠有效應(yīng)用于軟件開(kāi)發(fā)或項(xiàng)目管理中。 整個(gè)數(shù)據(jù)分析環(huán)節(jié)看似簡(jiǎn)單,但實(shí)際流程十分煩瑣,需要對(duì)數(shù)據(jù)的真實(shí)有效性進(jìn)行多次反復(fù)驗(yàn)證,直到提取出符合條件的運(yùn)算結(jié)果為止。 與傳統(tǒng)信息處理技術(shù)相比,數(shù)據(jù)挖掘技術(shù)應(yīng)用于軟件工程領(lǐng)域中有利于提升數(shù)據(jù)質(zhì)量、節(jié)省數(shù)據(jù)處理時(shí)間。
軟件工程是一門工程學(xué)科,其工作流程為根據(jù)用戶的實(shí)際需求和項(xiàng)目資金、項(xiàng)目指標(biāo)開(kāi)發(fā)出相應(yīng)的產(chǎn)品。 在傳統(tǒng)的軟件工程開(kāi)發(fā)模式中,產(chǎn)品研發(fā)流程十分煩瑣,但隨著社會(huì)需求的不斷變化,軟件工程已普遍應(yīng)用于各行各業(yè)中。 在軟件工程中應(yīng)用數(shù)據(jù)挖掘技術(shù),可以借助其強(qiáng)大的數(shù)據(jù)存儲(chǔ)功能,保存大量具有探究?jī)r(jià)值的數(shù)據(jù),對(duì)于軟件工程項(xiàng)目研發(fā)具有重要促進(jìn)作用。 軟件工程通過(guò)將研發(fā)過(guò)程中涉及的系統(tǒng)數(shù)據(jù)進(jìn)行處理、整合,以實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)更新,提高軟件研發(fā)質(zhì)量。 目前,軟件研發(fā)中通過(guò)數(shù)據(jù)挖掘?qū)崿F(xiàn)了軟件內(nèi)部的劃分,為用戶查找并處理相關(guān)問(wèn)題提供了便捷,有利于研發(fā)目標(biāo)的順利實(shí)現(xiàn)。 開(kāi)源軟件是指可供用戶免費(fèi)試用的軟件,還可以為用戶提供源代碼,其缺點(diǎn)在于管理難度較大。 隨著數(shù)據(jù)挖掘技術(shù)與軟件開(kāi)發(fā)的融合,軟件呈現(xiàn)出多元化的特征,開(kāi)源思想逐漸形成,Web 軟件開(kāi)發(fā)呈現(xiàn)大眾化發(fā)展趨勢(shì)。 開(kāi)源軟件研發(fā)是一個(gè)動(dòng)態(tài)、開(kāi)放的過(guò)程,導(dǎo)致數(shù)據(jù)挖掘難度大幅度提升,而利用數(shù)據(jù)挖掘技術(shù)能夠有效提高軟件研發(fā)效率,便于進(jìn)行軟件管理。
在結(jié)構(gòu)與程序代碼應(yīng)用中,數(shù)據(jù)挖掘技術(shù)的使用價(jià)值主要體現(xiàn)在克隆代碼檢測(cè)上,也就是根據(jù)軟件工程相關(guān)標(biāo)準(zhǔn),實(shí)現(xiàn)代碼的復(fù)制粘貼,然后結(jié)合實(shí)際情況對(duì)復(fù)制的代碼進(jìn)行修改、管理以及檢測(cè),預(yù)防錯(cuò)誤代碼的傳遞,維護(hù)系統(tǒng)正常運(yùn)行。 現(xiàn)階段,克隆代碼檢測(cè)主要有文本對(duì)比、標(biāo)識(shí)符對(duì)比、程序結(jié)構(gòu)、語(yǔ)義應(yīng)用和索引四種方法,每種檢測(cè)方法的評(píng)估與診斷形式各不相同,在軟件工程中應(yīng)結(jié)合實(shí)際情況選擇合適的檢測(cè)方式;其次,數(shù)據(jù)挖掘技術(shù)通常會(huì)應(yīng)用于橫切關(guān)注點(diǎn)中,在橫切關(guān)注點(diǎn)的程序也有類似的代碼或者是相同的代碼。 在軟件工程中運(yùn)用該技術(shù)能夠?qū)崿F(xiàn)系統(tǒng)的改造,提供多種問(wèn)題處理方式,但這些方法必須重新構(gòu)建選集才能實(shí)現(xiàn)對(duì)橫切點(diǎn)挖掘問(wèn)題的處理。 軟件工程數(shù)據(jù)十分復(fù)雜,在數(shù)據(jù)挖掘技術(shù)的應(yīng)用上難度較大,雖然我國(guó)對(duì)該技術(shù)的應(yīng)用更多體現(xiàn)在數(shù)據(jù)庫(kù)上,但想要找到相似的代碼,還需要有效應(yīng)用聚類技術(shù),為數(shù)據(jù)挖掘技術(shù)的發(fā)展提供空間。
在軟件項(xiàng)目管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以從版本控制信息挖掘和組織關(guān)系挖掘兩個(gè)方面入手。軟件項(xiàng)目管理流程較為煩瑣,且具備較強(qiáng)的系統(tǒng)性,對(duì)組織關(guān)系結(jié)構(gòu)標(biāo)準(zhǔn)要求較高,挖掘出明確的組織關(guān)系是實(shí)現(xiàn)信息資源靈活調(diào)用的關(guān)鍵。 在軟件項(xiàng)目管理過(guò)程中,可利用數(shù)據(jù)挖掘技術(shù)對(duì)項(xiàng)目管理所涉及的郵件信息或文件信息進(jìn)行挖掘,找出項(xiàng)目參與人員之間的關(guān)聯(lián),生成對(duì)應(yīng)的組織關(guān)系,避免出現(xiàn)管理混亂的情況,保證軟件項(xiàng)目管理活動(dòng)順利有序開(kāi)展。 軟件項(xiàng)目管理中的版本控制信息反映了文件內(nèi)部信息的實(shí)際變化情況,運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)其進(jìn)行管理,有利于減少系統(tǒng)維護(hù)成本,充分體現(xiàn)信息披露情況,提高軟件項(xiàng)目管理水平。
目前,軟件工程融合了多項(xiàng)學(xué)科,已發(fā)展成一門綜合性學(xué)科,涉及的知識(shí)和技術(shù)越來(lái)越復(fù)雜。 企業(yè)在軟件開(kāi)發(fā)過(guò)程中不僅要注重開(kāi)發(fā)產(chǎn)品的創(chuàng)新性,還要注重軟件項(xiàng)目管理方面,包括項(xiàng)目參與人員、項(xiàng)目經(jīng)費(fèi)、項(xiàng)目研發(fā)進(jìn)度以及控制信息的變化等內(nèi)容。
在軟件工程領(lǐng)域中,數(shù)據(jù)挖掘技術(shù)的有效應(yīng)用有利于檢測(cè)軟件故障。 軟件故障檢測(cè)的主要內(nèi)容包括數(shù)據(jù)收集、轉(zhuǎn)化、處理、采集和選取,還包括各項(xiàng)軟件測(cè)試項(xiàng)目。 軟件故障檢測(cè)的前提是,選擇合理有效的軟件數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)挖掘有效數(shù)據(jù)并對(duì)其真實(shí)性進(jìn)行驗(yàn)證,經(jīng)過(guò)一系列整合與訓(xùn)練操作后,對(duì)軟件存在的漏洞或缺陷進(jìn)行定位、識(shí)別及描述。 在軟件開(kāi)發(fā)過(guò)程中,參與人員會(huì)對(duì)程序運(yùn)行情況進(jìn)行記錄,保證后續(xù)工作中數(shù)據(jù)挖掘環(huán)節(jié)的正常開(kāi)展。 軟件運(yùn)行過(guò)程中,難免會(huì)受到內(nèi)部與外部環(huán)境的影響而存在缺陷或漏洞,使用傳統(tǒng)故障檢測(cè)技術(shù)雖然能夠解決故障檢測(cè)問(wèn)題,但該方法處理效率較低,且效果不佳。 而采用數(shù)據(jù)挖掘技術(shù)能夠?qū)崿F(xiàn)對(duì)代碼定位,快速找出故障原因,及時(shí)進(jìn)行處理。 比如,針對(duì)發(fā)動(dòng)機(jī)的穩(wěn)態(tài)故障問(wèn)題,利用數(shù)據(jù)挖掘技術(shù)能夠有效集成引發(fā)故障的所有因素,構(gòu)造故障因素參數(shù)集合,通過(guò)觀察參數(shù)的變化情況,根據(jù)變化情況分析其存在的規(guī)律,從而判斷發(fā)動(dòng)機(jī)是否存在故障。
軟件工程項(xiàng)目能夠順利、高效進(jìn)行,取決于企業(yè)對(duì)數(shù)據(jù)挖掘技術(shù)的有效應(yīng)用。 首先,企業(yè)必須加強(qiáng)對(duì)數(shù)據(jù)挖掘技術(shù)應(yīng)用價(jià)值的認(rèn)識(shí),深入了解并掌握該技術(shù)中涉及的編程知識(shí),同時(shí)對(duì)軟件項(xiàng)目給予高度重視,確保軟件工程各項(xiàng)流程和系統(tǒng)數(shù)據(jù)是規(guī)范合理的。 在代碼庫(kù)選擇環(huán)節(jié),企業(yè)應(yīng)嚴(yán)格控制軟件項(xiàng)目的研發(fā)成本,結(jié)合代碼關(guān)鍵詞生成相應(yīng)的體系,根據(jù)數(shù)據(jù)之間的重載、調(diào)用關(guān)系,找出具有關(guān)聯(lián)的、可靠的目標(biāo)數(shù)據(jù),以滿足其實(shí)際需求。 此外,根據(jù)挖掘目標(biāo)設(shè)置靜態(tài)代碼,確保數(shù)據(jù)的存儲(chǔ)功能最大化。 如果出現(xiàn)代碼缺失,則進(jìn)一步對(duì)測(cè)試代碼進(jìn)行檢測(cè),針對(duì)檢測(cè)結(jié)果制定相應(yīng)的處理策略,提高系統(tǒng)整體框架的完整性以及合理性。
將數(shù)據(jù)挖掘技術(shù)應(yīng)用于軟件工程中時(shí),企業(yè)可以通過(guò)構(gòu)建現(xiàn)代化體系來(lái)指導(dǎo)軟件開(kāi)發(fā)工作的開(kāi)展,提升軟件研發(fā)質(zhì)量,并利用靜態(tài)網(wǎng)絡(luò)模型及系統(tǒng)網(wǎng)絡(luò)框架為軟件開(kāi)發(fā)中鏈結(jié)構(gòu)的建立提供依據(jù),提升數(shù)據(jù)查詢效果。 同時(shí),還要加強(qiáng)對(duì)軟件工程實(shí)際效果的評(píng)估,重視病毒處理工作,確保軟件開(kāi)發(fā)各個(gè)環(huán)節(jié)中數(shù)據(jù)的時(shí)效性,通過(guò)實(shí)現(xiàn)各項(xiàng)功能的整合,從而促使軟件工程高效、穩(wěn)定發(fā)展。 除此之外,在整合缺陷項(xiàng)目時(shí),必須建立相應(yīng)的缺陷定位標(biāo)準(zhǔn),保證缺陷評(píng)估工作能夠順利有序開(kāi)展,同時(shí)確保評(píng)估分析結(jié)果的真實(shí)性、合理性。
軟件的長(zhǎng)期穩(wěn)定運(yùn)行需要具備安全、可靠的維護(hù)技術(shù)。 在軟件維護(hù)過(guò)程中,必須嚴(yán)格按照工作流程及維護(hù)標(biāo)準(zhǔn)來(lái)開(kāi)展維護(hù)工作,確保修復(fù)項(xiàng)目及框架的全面性,尤其是缺陷處理上,必須確保軟件處理與維修的質(zhì)量,提升維護(hù)效果,實(shí)現(xiàn)對(duì)軟件管理、軟件研發(fā)環(huán)節(jié)的綜合處理。 利用實(shí)時(shí)跟蹤的形式,檢查所有工作體系是否全面落實(shí),并且在代碼復(fù)用的情況下,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)模型的合理劃分,以確保軟件功能、軟件結(jié)構(gòu)的作用得以充分發(fā)揮,為軟件故障檢測(cè)和數(shù)據(jù)處理等環(huán)節(jié)提供完善的依據(jù)。 還可以借助數(shù)據(jù)挖掘技術(shù)的整合功能,對(duì)數(shù)據(jù)處理流程及工作體系進(jìn)行完善,提高軟件工程整體效率及質(zhì)量。 但在應(yīng)用數(shù)據(jù)挖掘技術(shù)時(shí),必須結(jié)合實(shí)際模型來(lái)對(duì)關(guān)聯(lián)數(shù)據(jù)進(jìn)行整合,保證數(shù)據(jù)描述相關(guān)性和定位信息的完整性,確保軟件安全,及時(shí)發(fā)現(xiàn)軟件漏洞并對(duì)其進(jìn)行處理。
目前,開(kāi)源軟件是軟件工程中常見(jiàn)的開(kāi)發(fā)項(xiàng)目之一,挖掘開(kāi)源軟件技術(shù)的應(yīng)用具有較大優(yōu)勢(shì)。 與傳統(tǒng)軟件不同,開(kāi)源軟件的研發(fā)過(guò)程具有動(dòng)態(tài)性、開(kāi)放性、全局性等特征。 因此,在開(kāi)源軟件研發(fā)過(guò)程中,必須對(duì)軟件進(jìn)行類型劃分,對(duì)不同類型的軟件采取對(duì)應(yīng)的分析方法、研發(fā)理念以及管理對(duì)策。比如:在開(kāi)發(fā)開(kāi)源軟件時(shí),其開(kāi)發(fā)環(huán)境是開(kāi)放性的,那么研發(fā)人員應(yīng)該根據(jù)實(shí)際情況,進(jìn)行多次改變,讓其置身于改變環(huán)境中;針對(duì)全局性的特征,開(kāi)發(fā)人員應(yīng)根據(jù)實(shí)際情況進(jìn)行記錄,為后續(xù)網(wǎng)絡(luò)形成營(yíng)造良好的條件;針對(duì)動(dòng)態(tài)性的特征,開(kāi)發(fā)工作人員應(yīng)該具備較強(qiáng)的管理能力和專業(yè)素養(yǎng),保證開(kāi)發(fā)過(guò)程的嚴(yán)謹(jǐn)性、科學(xué)性。
在軟件工程中應(yīng)用數(shù)據(jù)挖掘技術(shù),能夠進(jìn)一步改善數(shù)據(jù)煩瑣導(dǎo)致的數(shù)據(jù)挖掘困難問(wèn)題,促進(jìn)軟件工程的可持續(xù)開(kāi)發(fā)。 同時(shí),數(shù)據(jù)挖掘技術(shù)在程序代碼中的應(yīng)用有助于提高程序代碼的可重復(fù)性,在故障檢測(cè)的應(yīng)用中能夠加強(qiáng)兩兩對(duì)比的頻率,進(jìn)一步確保故障檢測(cè)的精確度。 要想有效將數(shù)據(jù)挖掘技術(shù)應(yīng)用于開(kāi)源軟件開(kāi)發(fā),就必須加強(qiáng)開(kāi)源軟件的科學(xué)管理與控制,了解人員組織關(guān)系與版本控制信息,從而有效發(fā)揮項(xiàng)目管理作用。