隨著科學技術(shù)的發(fā)展,大數(shù)據(jù)在人工智能領(lǐng)域起著越來越重要的作用,基于大數(shù)據(jù)平臺的數(shù)據(jù)分析與挖掘已經(jīng)成為各科研單位的研究熱點。本文通過對大數(shù)據(jù)的發(fā)展、算法分析以及平臺設(shè)計進行探究,對大數(shù)據(jù)平臺的應(yīng)用進行了展望,力求為智能化技術(shù)的發(fā)展提供創(chuàng)新的思路。
【關(guān)鍵詞】大數(shù)據(jù) 人工智能 算法設(shè)計
1 大數(shù)據(jù)的發(fā)展概述
大數(shù)據(jù)指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)包括海量的數(shù)據(jù)信息與高強度的數(shù)據(jù)處理能力,大數(shù)據(jù)是相對于傳統(tǒng)數(shù)據(jù)處理應(yīng)用程序來說,不足以處理大型、復雜的數(shù)據(jù)集的新型處理模式,包括分析、捕獲、數(shù)據(jù)整理、搜索、共享、存儲、傳輸、可視化查詢、更新和信息管理。大數(shù)據(jù)通常僅指使用預測分析、用戶行為分析或某些其他高級數(shù)據(jù)的分析方法,這些方法從數(shù)據(jù)中提取價值,很少涉及特定大小的數(shù)據(jù)集。數(shù)據(jù)集分析可以發(fā)現(xiàn)新的聯(lián)系與信息??茖W家、企業(yè)高管、醫(yī)學從業(yè)者、廣告和政府都定期在互聯(lián)網(wǎng)搜集大數(shù)據(jù),這些數(shù)據(jù)在金融、城市信息學和商業(yè)信息學等領(lǐng)域更為重要??茖W家在電子科學工作中遇到了很多需要處理海量數(shù)據(jù)的問題,涉及氣象學、基因組學、復雜物理模擬、生物學和環(huán)境研究等。大數(shù)據(jù)包括文本、圖像、音頻、視頻,它通過數(shù)據(jù)融合可以完成未來數(shù)據(jù)的機器學習,大數(shù)據(jù)通常是數(shù)字交互的無成本的產(chǎn)品。越來越成熟的概念更清楚地描述了大數(shù)據(jù)和人工智能之間的區(qū)別,人工智能使用具有高信息密度的數(shù)據(jù)的描述性統(tǒng)計來測量事物、檢測趨勢等。大數(shù)據(jù)使用歸納統(tǒng)計和來自非線性系統(tǒng)識別的概念,從具有低信息密度的大量數(shù)據(jù)集中推斷出法則,例如回歸、非線性關(guān)系和因果效應(yīng),以揭示關(guān)系和依賴性或者進行結(jié)果和行為的預測。
2 大數(shù)據(jù)技術(shù)中的算法分析
2.1 神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)系統(tǒng)是由眾多的神經(jīng)元可調(diào)的連接權(quán)值連接而成,具有大規(guī)模并行處理、分布式信息存儲、良好的自組織自學習能力等特點。神經(jīng)網(wǎng)絡(luò)是一種計算方法,基于神經(jīng)單元的大集合,解決由軸突連接的生物神經(jīng)元的大群集的問題。 每個神經(jīng)單元與許多其他神經(jīng)單元連接,并且可以對所連接的神經(jīng)單元的激活狀態(tài)影響中實施抑制。每個單獨的神經(jīng)單元可以具有將所有其輸入的值組合在一起的求和功能。在每個連接和單元本身上可以存在閾值函數(shù)或限制函數(shù),使得信號在傳播到其他神經(jīng)元之前必須超過極限。這些系統(tǒng)是自學習和訓練的,而不是明確編程的,并且在傳統(tǒng)計算機程序中難以表達的,這種方案在特征檢測領(lǐng)域中效果很好。神經(jīng)網(wǎng)絡(luò)的目標是以與人類大腦相同的方式解決問題,現(xiàn)代神經(jīng)網(wǎng)絡(luò)項目通常使用幾千到幾百萬個神經(jīng)單元和數(shù)百萬的連接, 這比人類大腦的復雜性還要少幾個數(shù)量級,更接近于蠕蟲的計算能力。 為了訓練它們,通常發(fā)生幾千次交互循環(huán)。 神經(jīng)網(wǎng)絡(luò)已被用于解決使用普通的基于規(guī)則的編程難以解決的各種各樣的任務(wù),如智能化學習。歷史上,神經(jīng)網(wǎng)絡(luò)模型的使用向高級人工智能的方向移動,其特征在于包含在具有一些動力系統(tǒng)的認知模型的參數(shù)中的知識。
2.2 灰色關(guān)聯(lián)度分析
灰色關(guān)聯(lián)分析方法,是根據(jù)因素之間發(fā)展趨勢的相似或相異程度,來進行歸納和評價,作為衡量因素間關(guān)聯(lián)程度的一種方法?;疑P(guān)聯(lián)度分析使用特定的信息概念。它定義沒有信息為黑色的情況以及具有完美信息為白色的情況,這些理想化的情況都不會出現(xiàn)在現(xiàn)實世界的問題中。事實上,這些過渡階段的情況被描述為灰色。因此,灰色系統(tǒng)意味著其中部分信息是已知的并且部分信息是未知的系統(tǒng)。根據(jù)這個定義,信息質(zhì)量形成從信息的缺乏到完整信息的存在過渡過程。由于不確定性總是存在,灰色分析可以得出一系列關(guān)于解決方案的清晰陳述。在一個極端情況下,這種方案無解,在另一個極端情況下,具有完美信息的系統(tǒng)具有獨特的解決方案。在中間情況中,灰色系統(tǒng)將給出各種優(yōu)化的解決方案?;疑治鲈噲D找到最好的解決方案,提供了確定一個好的解決方案的技術(shù)來解決現(xiàn)實世界的問題。
3 大數(shù)據(jù)平臺的設(shè)計
3.1 平臺層
大數(shù)據(jù)分布式存儲系統(tǒng):研究大規(guī)模、非結(jié)構(gòu)化數(shù)據(jù)的存儲問題,突破大數(shù)據(jù)的存儲、管理和高效訪問關(guān)鍵技術(shù),當前需要構(gòu)建至少 PB 級存儲能力的大數(shù)據(jù)平臺才能滿足一般的科研和應(yīng)用需求。
分布式數(shù)據(jù)挖掘運行時系統(tǒng):突破 MapReduce 技術(shù)的局限,研究有效支持迭代、遞歸、層次及集成機制的海量數(shù)據(jù)挖掘編程模型和運行時系統(tǒng),構(gòu)建大數(shù)據(jù)運行時系統(tǒng)。
3.2 功能層
高可擴展性大數(shù)據(jù)挖掘算法:基于云計算的分布式大數(shù)據(jù)處理與挖掘算法,構(gòu)建高可擴展的大數(shù)據(jù)處理與挖掘算法庫,實現(xiàn) TB 級數(shù)據(jù)的建模能力。
分布式工作流引擎:基于云計算的分布式工作流調(diào)度、負載均衡技術(shù),構(gòu)建高效分布式工作流執(zhí)行引擎。
交互式可視化分析技術(shù):啟發(fā)式、人機交互、可視化數(shù)據(jù)挖掘新技術(shù),實現(xiàn)大數(shù)據(jù)挖掘的高度人機交互功能。
3.3 服務(wù)層
基于 Web 的大數(shù)據(jù)挖掘技術(shù):Web 的大數(shù)據(jù)挖掘方法和流程,實現(xiàn)易于使用的基于 Web 的大數(shù)據(jù)挖掘技術(shù),構(gòu)建基于 Web 的大數(shù)據(jù)分析環(huán)境。
基于Open API 的大數(shù)據(jù)挖掘技術(shù):Open API 的大數(shù)據(jù)挖掘方法,研究大數(shù)據(jù)挖掘開放接口、開放流程,構(gòu)建基于 Open API 的大數(shù)據(jù)分析模式。
4 大數(shù)據(jù)算法的應(yīng)用分析
4.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是發(fā)現(xiàn)大數(shù)據(jù)數(shù)據(jù)規(guī)律的計算過程,涉及人工智能、機器學習、統(tǒng)計和數(shù)據(jù)庫系統(tǒng)結(jié)合的方法,它是一個跨學科的計算機科學子領(lǐng)域。數(shù)據(jù)挖掘過程的總體目標是從數(shù)據(jù)集中提取信息并將其轉(zhuǎn)換為可以理解的結(jié)構(gòu)以供進一步使用。除了原始數(shù)據(jù)分析外,它涉及數(shù)據(jù)庫和數(shù)據(jù)管理方面、數(shù)據(jù)預處理、模型和推理、復雜性考慮、結(jié)構(gòu)整合處理、可視化和在線更新。數(shù)據(jù)挖掘是一個熱門的領(lǐng)域,并且經(jīng)常應(yīng)用于各種形式的大規(guī)模數(shù)據(jù)或信息處理,主要包括收集、提取、存儲、分析和統(tǒng)計以及計算機決策支持系統(tǒng)的應(yīng)用,包括人工智能、機器學習和商業(yè)智能。實際的數(shù)據(jù)挖掘任務(wù)是大量數(shù)據(jù)的自動或半自動分析,從而提取先前未知的數(shù)據(jù)存在模式,例如聚類分析、異常數(shù)據(jù)檢測和關(guān)聯(lián)規(guī)則挖掘、順序模式分析等,這通常涉及使用諸如數(shù)據(jù)索引的數(shù)據(jù)庫技術(shù)。數(shù)據(jù)收集、數(shù)據(jù)準備或結(jié)果解釋和報告都不是數(shù)據(jù)挖掘步驟的一部分,但是作為附加步驟屬于整個數(shù)據(jù)挖掘過程。數(shù)據(jù)挖掘、數(shù)據(jù)捕獲和數(shù)據(jù)窺探是指使用數(shù)據(jù)挖掘方法對較大數(shù)據(jù)集的部分進行抽樣分析。雖然這些數(shù)據(jù)集太小,不足以進行可靠的統(tǒng)計推斷以得出更多有價值的信息。然而,這些方法可以用于創(chuàng)建新的假設(shè),以測試更大的數(shù)據(jù)群體。
4.2 機器學習
機器學習是計算機科學的子領(lǐng)域,它使計算機能夠?qū)W習而不用明確編程。從模式識別和計算學習理論在人工智能的研究演變而來,機器學習探索學習對數(shù)據(jù)進行預測算法的研究和構(gòu)建,這樣的算法克服了嚴格的靜態(tài)程序指令數(shù)據(jù)驅(qū)動的預測或決策,通過從樣本輸入來建立一個模型。機器學習在一系列計算任務(wù)中使用,其中有著明確算法的設(shè)計和編程是不可行的,比如垃圾郵件過濾、檢測網(wǎng)絡(luò)入侵者或惡意內(nèi)部人員、光學字符識別、搜索引擎和計算機視覺,這些方面都沒有明確的算法表示。機器學習與計算統(tǒng)計密切相關(guān),并且經(jīng)常與計算統(tǒng)計重疊,計算統(tǒng)計也集中在通過使用計算機的預測中。它與數(shù)學優(yōu)化有著緊密的聯(lián)系,它將方法、理論和應(yīng)用領(lǐng)域傳遞到現(xiàn)場。機器學習有時與數(shù)據(jù)挖掘相結(jié)合,后者的子領(lǐng)域更側(cè)重于探索性數(shù)據(jù)分析。機器學習也可以是全自動化的,用來學習和建立各種實體的行為預測,然后用于發(fā)現(xiàn)有價值的異常情況。在數(shù)據(jù)分析領(lǐng)域,機器學習是一種用于設(shè)計適合預測的復雜模型和算法的方法,在商業(yè)應(yīng)用中,這被稱為預測分析。這些分析模型允許研究人員、數(shù)據(jù)科學家、工程師和分析師通過學習數(shù)據(jù)中的歷史關(guān)系和趨勢來產(chǎn)生可靠的、可重復的決策和結(jié)果并揭示隱藏的規(guī)律。
5 總結(jié)與展望
大數(shù)據(jù)技術(shù)算法的創(chuàng)新是一條光明而曲折的路,在這條路上會出現(xiàn)很多難題與挑戰(zhàn),這個任務(wù)長期而又艱巨,需要結(jié)合實際經(jīng)驗,不斷地進行總結(jié)歸納。為實現(xiàn)自身的長遠發(fā)展而進行大膽革新,利用創(chuàng)新思維進行現(xiàn)代化建設(shè),從而大踏步地走向智能化的大數(shù)據(jù)發(fā)展目標。
參考文獻
[1]陳曉,趙晶玲.大數(shù)據(jù)處理中混合型聚類算法的研究與實現(xiàn)[J].信息網(wǎng)絡(luò)安全,2015(04).
[2]楊婷婷,林昌露,劉憶寧,張勝元.基于多方排序協(xié)議的安全電子投票方案[J].計算機系統(tǒng)應(yīng)用,2015(08).
[3]文坤,廖瑛,楊雅君.帶有空間機械臂的航天器系統(tǒng)慣性參數(shù)辨識[J].飛行器測控學報,2015(04).
[4]何鋒,谷鎖林,陳彥輝.基于編輯距離相似度的文本校驗技術(shù)研究與應(yīng)用[J].飛行器測控學報,2015(04).
[5]黃冬梅,杜艷玲,賀琪.混合云存儲中海洋大數(shù)據(jù)遷移算法的研究[J].計算機研究與發(fā)展,2014(01).
[6]孔凡新,劉麗.云環(huán)境下的隱私保護密文排序查詢[J].計算機工程與設(shè)計,2014(01).
[7]何清,李寧,羅文娟,史忠植.大數(shù)據(jù)下的機器學習算法綜述[J].模式識別與人工智能,2014(04).
[8]程芳權(quán),彭智勇,宋偉,王書林,崔一輝.云環(huán)境下一種隱私保護的高效密文排序查詢方法[J].計算機學報,2012(11).
[9]王茜,楊正寬.一種基于加權(quán)KNN的大數(shù)據(jù)集下離群檢測算法[J].計算機科學,2011(10).
[10]陳書讓.超大數(shù)據(jù)量的快速排序法[J]. 物探化探計算技術(shù),2000(04).
作者簡介
李躍(1979-),男,黑龍江省大慶市人。研究生學歷?,F(xiàn)為大慶師范學院講師。
作者單位
大慶師范學院 黑龍江省大慶市 163712