国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

Hadoop+GPU大數(shù)據(jù)平臺(tái)架構(gòu)可行性分析

2020-04-10 10:58:09曾貞
現(xiàn)代信息科技 2020年1期
關(guān)鍵詞:中職計(jì)算機(jī)

摘? 要:在信息化高速發(fā)展的時(shí)代,上海市中職計(jì)算機(jī)類(lèi)課程開(kāi)設(shè)與時(shí)俱進(jìn),各中職校計(jì)算機(jī)類(lèi)教學(xué)資源日新月異,但由于缺乏統(tǒng)一資源庫(kù),每個(gè)學(xué)校的教學(xué)資源包括教學(xué)案例、音視頻等數(shù)據(jù)不能共享,只能單獨(dú)存放在獨(dú)立數(shù)據(jù)庫(kù)里。研究旨在分析Hadoop+GPU的大數(shù)據(jù)平臺(tái)架構(gòu)可行性應(yīng)用,即集中存儲(chǔ)和挖掘上海市中職計(jì)算機(jī)課程資源。此構(gòu)架旨在匯總并挖掘中職計(jì)算機(jī)類(lèi)課程資源,做到資源共享、教學(xué)資源充分利用,可以多層次多維度建立挖掘聯(lián)系。

關(guān)鍵詞:中職計(jì)算機(jī);Hadoop+GPU;大數(shù)據(jù)平臺(tái)架構(gòu);可行性應(yīng)用

中圖分類(lèi)號(hào):TP311.13? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)01-0066-03

Abstract:In the era of rapid development of information technology,computer courses in secondary vocational schools in Shanghai are advancing with the times,and computer teaching resources in each vocational school are changing with each passing day. However,due to the lack of a unified resource database,the teaching resources of each school include teaching cases,audio and video data cannot be shared and can only be stored in an independent database. The research aims to analyze the feasibility application of the big data platform architecture of Hadoop+GPU,that is,to centrally store and mine the resources of computer courses in secondary vocational schools in Shanghai. This framework aims to aggregate and mine secondary computer course resources,share resources,make full use of teaching resources,and establish mining connections at multiple levels and dimensions.

Keywords:secondary vocational computer;Hadoop+GPU;big data platform architecture;feasibility application

0? 引? 言

在計(jì)算機(jī)技術(shù)飛速發(fā)展的今天,上海市中職計(jì)算機(jī)課程開(kāi)設(shè)的日益繁多,各中職校計(jì)算機(jī)類(lèi)教學(xué)資源也與日俱增,但每個(gè)學(xué)校的教學(xué)資源包括課件、教學(xué)案例、音視頻等結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都是獨(dú)立存在的。這么多的計(jì)算機(jī)類(lèi)教學(xué)資源如果能被集中載入一個(gè)大數(shù)據(jù)平臺(tái)并分門(mén)別類(lèi)地存儲(chǔ),形成數(shù)據(jù)集市,并進(jìn)行數(shù)據(jù)挖掘,將會(huì)大大提高中職計(jì)算機(jī)類(lèi)教學(xué)資源的使用度,迸發(fā)出更多的創(chuàng)新思維和創(chuàng)新想法。本文探討的就是上海市中職計(jì)算機(jī)類(lèi)課程資源Hadoop+GPU的大數(shù)據(jù)平臺(tái)架構(gòu)可行性應(yīng)用分析。

1? 構(gòu)建Hadoop+GPU大數(shù)據(jù)平臺(tái)的作用分析

構(gòu)建Hadoop+GPU的大數(shù)據(jù)平臺(tái)的作用主要有以下兩點(diǎn)。

1.1? 收集和存儲(chǔ)

上海市中職計(jì)算機(jī)類(lèi)教學(xué)資源數(shù)據(jù)的收集和存儲(chǔ),包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)就是各中職校各系統(tǒng)數(shù)據(jù)庫(kù)中積累的各種計(jì)算機(jī)課程數(shù)據(jù),比如教案、學(xué)生分?jǐn)?shù)等;非結(jié)構(gòu)化的數(shù)據(jù)包括各類(lèi)音頻、視頻、動(dòng)畫(huà)、圖像等。

1.2? 分門(mén)別類(lèi)貼好標(biāo)簽建檔整理

平臺(tái)存儲(chǔ)完海量數(shù)據(jù)后,可以從不同緯度不同角度建立數(shù)據(jù)集市。比如從學(xué)生視角、教師視角、學(xué)科視角來(lái)分類(lèi)切片建成數(shù)據(jù)集市,在不同大數(shù)據(jù)需求分析時(shí)可以快速整合。

Hadoop+GPU的大數(shù)據(jù)平臺(tái)架構(gòu)可以集中挖掘上海市中職計(jì)算機(jī)課程資源,并深入挖掘各資源間的聯(lián)系,做到教學(xué)資源充分利用,起到1+1>2的良好效果。

2? Hadoop+GPU整體平臺(tái)架構(gòu)概述

2.1? 平臺(tái)邏輯架構(gòu)

Hadoop+GPU的大數(shù)據(jù)平臺(tái)架構(gòu)邏輯包含以下幾個(gè)組成部分,邏輯架構(gòu)圖如圖1所示。

2.1.1? 外圍系統(tǒng)

大數(shù)據(jù)平臺(tái)對(duì)接的上海市中職計(jì)算機(jī)類(lèi)課程資源外圍系統(tǒng)包括各中職校計(jì)算機(jī)課程教學(xué)課件系統(tǒng)、音視頻系統(tǒng)、圖像資料系統(tǒng)等。

2.1.2? Hadoop集群

用來(lái)處理大數(shù)據(jù)平臺(tái)的所有計(jì)算機(jī)課程類(lèi)資源數(shù)據(jù)遷移的工作,并且作為歷史數(shù)據(jù)的存儲(chǔ),其優(yōu)點(diǎn)在于保證了各中職校計(jì)算機(jī)類(lèi)教學(xué)資源數(shù)據(jù)的安全性,一式三份的文件塊備份,Apache Hadoop的另一個(gè)優(yōu)點(diǎn)就是部署簡(jiǎn)單,容易操作。

2.1.3? 文件服務(wù)器

用來(lái)存儲(chǔ)Hadoop集群加工完成的各中職校計(jì)算機(jī)類(lèi)教學(xué)資源結(jié)果數(shù)據(jù),每一份數(shù)據(jù)都包括一個(gè)數(shù)據(jù)的標(biāo)志文件,該文件記錄了表數(shù)據(jù)的行數(shù)以及存儲(chǔ)的大小等信息,如果下游系統(tǒng)需要數(shù)據(jù),則統(tǒng)一到文件服務(wù)器上獲取,保證了統(tǒng)一的數(shù)據(jù)出口。

2.2? Hadoop節(jié)點(diǎn)架構(gòu)概述

Apache Hadoop是一款支持?jǐn)?shù)據(jù)密集型分布式應(yīng)用并以Apache 2.0許可協(xié)議發(fā)布的開(kāi)源軟件框架。支持在商品硬件構(gòu)建的大型集群上運(yùn)行的應(yīng)用程序。Hadoop是根據(jù)Google公司發(fā)表的MapReduce和Google檔案系統(tǒng)的論文自行實(shí)作而成。

Hadoop框架透明地為應(yīng)用提供可靠性和數(shù)據(jù)移動(dòng),實(shí)現(xiàn)了名為MapReduce的編程范式:應(yīng)用程序被分割成許多小部分,而每個(gè)部分都能在集群中的任意節(jié)點(diǎn)上執(zhí)行或重新執(zhí)行。此外,Hadoop還提供了分布式文件系統(tǒng),用以存儲(chǔ)所有計(jì)算節(jié)點(diǎn)的數(shù)據(jù),這為整個(gè)集群帶來(lái)了非常高的帶寬。MapReduce和分布式文件系統(tǒng)的設(shè)計(jì),使得整個(gè)框架能夠自動(dòng)處理節(jié)點(diǎn)故障,能使應(yīng)用程序與成千上萬(wàn)的獨(dú)立計(jì)算的電腦和PB級(jí)的數(shù)據(jù)很好地存儲(chǔ)、查詢(xún)和分析計(jì)算機(jī)課程類(lèi)資源數(shù)據(jù)。

2.2.1? Hadoop在整體架構(gòu)中的功能

(1)數(shù)據(jù)存儲(chǔ)。Apache Hadoop的底層HDFS分布式文件系統(tǒng)用來(lái)存儲(chǔ)上海市中職計(jì)算機(jī)類(lèi)課程資源外圍系統(tǒng)的增量數(shù)據(jù)和歷史數(shù)據(jù);

(2)數(shù)據(jù)加工。數(shù)據(jù)倉(cāng)庫(kù)移植的所有程序,包括SQL、Shell和存儲(chǔ)過(guò)程的程序加工都是通過(guò)Hadoop來(lái)進(jìn)行加工的;

(3)邏輯架構(gòu)。Hadoop架構(gòu)的內(nèi)部邏輯架構(gòu)如圖2所示。

2.2.2? 各組件的功能描述

(1)NameNode。Hadoop集群的心臟,保存著所有計(jì)算機(jī)課程類(lèi)資源數(shù)據(jù)的元數(shù)據(jù)序列結(jié)構(gòu),并且管理所有節(jié)點(diǎn)的運(yùn)行狀態(tài),接收DataNode的心跳,判斷節(jié)點(diǎn)是否運(yùn)行正常;

(2)Secondary NameNode。輔助名稱(chēng)節(jié)點(diǎn),或者檢查點(diǎn)節(jié)點(diǎn),是監(jiān)控HDFS狀態(tài)的輔助后臺(tái)程序,可以保存名稱(chēng)節(jié)點(diǎn)的副本,故每個(gè)集群都有一個(gè),與NameNode進(jìn)行通訊,定期保存HDFS元數(shù)據(jù)快照;

(3)DataNode。數(shù)據(jù)節(jié)點(diǎn),每臺(tái)從服務(wù)器節(jié)點(diǎn)都運(yùn)行一個(gè),負(fù)責(zé)把HDFS數(shù)據(jù)塊讀、寫(xiě)到本地文件系統(tǒng);

(4)JobTracker。作業(yè)跟蹤器,運(yùn)行到主節(jié)點(diǎn)(Name Node)上的一個(gè)很重要的進(jìn)程,是MapReduce體系的調(diào)度器。用于處理作業(yè)(用戶(hù)提交的代碼)的后臺(tái)程序,決定有哪些文件參與作業(yè)的處理,然后把作業(yè)切割成為一個(gè)個(gè)的小task,并分配到所需要的數(shù)據(jù)所在的子節(jié)點(diǎn)。

(5)TaskTracker。任務(wù)跟蹤器,MapReduce體系的最后一個(gè)后臺(tái)進(jìn)程,位于每個(gè)slave節(jié)點(diǎn)上,與DataNode結(jié)合(代碼與數(shù)據(jù)一起的原則),管理各自節(jié)點(diǎn)上的Task(由JobTracker分配),每個(gè)節(jié)點(diǎn)只有一個(gè)TaskTracker,但一個(gè)TaskTracker可以啟動(dòng)多個(gè)JVM,用于并行執(zhí)行Map任務(wù)或Reduce任務(wù),它與JobTracker交互通信,可以告知JobTracker子任務(wù)完成情況,是集群不可或缺的組成部分。

2.3? 對(duì)外服務(wù)

平臺(tái)對(duì)接的外圍系統(tǒng)可以通過(guò)JDBC或者ODBC鏈接文件服務(wù)器,根據(jù)表數(shù)據(jù)的標(biāo)志文件,獲取文件服務(wù)器上的數(shù)據(jù)文件,F(xiàn)TP到下游系統(tǒng),供給前臺(tái)功能查詢(xún)。

2.4? 整體數(shù)據(jù)流程

根據(jù)大數(shù)據(jù)平臺(tái)的需求概述,計(jì)算機(jī)課程類(lèi)資源數(shù)據(jù)的生命周期分為:捕獲數(shù)據(jù)、數(shù)據(jù)的存儲(chǔ)加工、數(shù)據(jù)提供服務(wù)三大塊。

2.4.1? 捕獲數(shù)據(jù)

外圍系統(tǒng)數(shù)據(jù)經(jīng)過(guò)CDC或者DS工具,將表級(jí)的增量數(shù)據(jù)獲取到文件服務(wù)器上,Hadoop集群根據(jù)每個(gè)表的標(biāo)志文件獲取數(shù)據(jù),并將增量的數(shù)據(jù)文件裝載到Hadoop-Hive的數(shù)據(jù)庫(kù)里,并且進(jìn)行數(shù)據(jù)文件的基本校驗(yàn),捕獲數(shù)據(jù)圖如圖3所示。

2.4.2? 數(shù)據(jù)存儲(chǔ)加工

計(jì)算機(jī)課程類(lèi)資源數(shù)據(jù)的整體加工是在Hadoop集群中進(jìn)行的,具體的加工是依賴(lài)于Hive的批處理作業(yè)的功能來(lái)實(shí)現(xiàn)整體大數(shù)據(jù)平臺(tái)的作業(yè)開(kāi)發(fā),包括以下幾點(diǎn):

(1)HDFS數(shù)據(jù)存儲(chǔ)。HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng),適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問(wèn),非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用;

(2)ZooKeeper。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶(hù);

(3)YARN。Apache Hadoop YARN(Yet Another Resource Negotiator,另一種資源協(xié)調(diào)者)是一種新的Hadoop資源管理器,是一個(gè)通用資源管理系統(tǒng),可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度以及數(shù)據(jù)共享;

(4)MapReduce。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1 TB)的并行運(yùn)算;

(5)Hive。Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供簡(jiǎn)單的SQL查詢(xún)功能,可以將SQL語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。

2.4.3? 數(shù)據(jù)提供服務(wù)

整體計(jì)算機(jī)課程類(lèi)資源數(shù)據(jù)的對(duì)外服務(wù)流程數(shù)據(jù)提供服務(wù)圖如圖4所示,Hadoop集群通過(guò)Hive加工完成的數(shù)據(jù),通過(guò)FTP將數(shù)據(jù)以文本文件的格式存放到文件服務(wù)器中,下游系統(tǒng)根據(jù)各自的業(yè)務(wù)需要,通過(guò)判斷文件服務(wù)器上表的標(biāo)志文件進(jìn)行數(shù)據(jù)的獲取,這樣就可以將數(shù)據(jù)服務(wù)統(tǒng)一化、格式統(tǒng)一化、服務(wù)標(biāo)準(zhǔn)統(tǒng)一化。

3? 結(jié)? 論

上海市中職計(jì)算機(jī)類(lèi)課程資源Hadoop+GPU的大數(shù)據(jù)平臺(tái)架構(gòu)非常具有可行性,海量的計(jì)算機(jī)類(lèi)教學(xué)資源能被集中載入平臺(tái)存儲(chǔ),形成數(shù)據(jù)集市,可以進(jìn)行深度的數(shù)據(jù)挖掘,會(huì)大大提高中職計(jì)算機(jī)類(lèi)教學(xué)資源的使用度。

在Hadoop+GPU的大數(shù)據(jù)平臺(tái)上可以形成各種維度的數(shù)據(jù)檢索資料庫(kù),可以對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析,通過(guò)大數(shù)據(jù)抓取、數(shù)據(jù)挖掘、數(shù)據(jù)建模等技術(shù),通過(guò)時(shí)間維度,課程質(zhì)量維度等可以做課程教學(xué)質(zhì)量評(píng)估、學(xué)生受歡迎程度等各種科研分析。

參考文獻(xiàn):

[1] 劉彬斌,李柏章,周磊,等.Hadoop+Spark大數(shù)據(jù)技術(shù)(微課版) [M].北京:清華大學(xué)出版社,2018:1-30.

[2] 黃東軍.Hadoop大數(shù)據(jù)實(shí)戰(zhàn)權(quán)威指南 [M].北京:電子工業(yè)出版社,2017:1-10.

[3] 山姆·阿拉帕蒂.Hadoop專(zhuān)家:管理、調(diào)優(yōu)與Spark |YARN|HDFS安全 [M].北京:電子工業(yè)出版社,2019:5-10.

[4] 楊力.Hadoop大數(shù)據(jù)開(kāi)發(fā)實(shí)戰(zhàn) [M].北京:人民郵電出版社,2019:1-20.

作者簡(jiǎn)介:曾貞(1982.06-),女,漢族,江西玉山人,講師,碩士,研究方向:新媒體大數(shù)據(jù)。

猜你喜歡
中職計(jì)算機(jī)
分層教學(xué)法在中職計(jì)算機(jī)教學(xué)中的應(yīng)用
微課模式下中職計(jì)算機(jī)基礎(chǔ)課程教學(xué)的生成之道
微課在中職計(jì)算機(jī)基礎(chǔ)教學(xué)中的應(yīng)用
論創(chuàng)新教育與職校計(jì)算機(jī)教學(xué)
淺談如何提高中職學(xué)生學(xué)習(xí)《計(jì)算機(jī)應(yīng)用基礎(chǔ)》的興趣
淺議中職計(jì)算機(jī)教學(xué)“準(zhǔn)、精、特、趣”的四大追求
考試周刊(2016年85期)2016-11-11 01:56:12
德江县| 瑞安市| 蓝田县| 金乡县| 孙吴县| 青田县| 龙泉市| 高尔夫| 玉屏| 仁怀市| 华容县| 青阳县| 巫溪县| 东乌珠穆沁旗| 报价| 德化县| 宜良县| 海门市| 西华县| 麻栗坡县| 行唐县| 乌拉特中旗| 桂阳县| 中江县| 剑阁县| 理塘县| 仪陇县| 兰考县| 鹤岗市| 抚顺县| 富蕴县| 屯门区| 册亨县| 长春市| 湘西| 呈贡县| 紫云| 云林县| 浙江省| 民县| 望谟县|