国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

互聯(lián)網(wǎng)數(shù)據(jù)在高校大數(shù)據(jù)平臺中的應用研究

2019-04-10 07:01高顯俊黃儒樂
科技資訊 2019年36期
關鍵詞:大數(shù)據(jù)

高顯俊 黃儒樂

摘 ?要:互聯(lián)網(wǎng)數(shù)據(jù)是高校大數(shù)據(jù)平臺應用的重要數(shù)據(jù)來源,該文主要闡述了高校大數(shù)據(jù)平臺的技術架構,并在此基礎上提出了互聯(lián)網(wǎng)數(shù)據(jù)的重要價值,分析了高校大數(shù)據(jù)應用中專業(yè)數(shù)據(jù)、資訊數(shù)據(jù)和網(wǎng)絡輿情數(shù)據(jù)三大主要互聯(lián)網(wǎng)數(shù)據(jù)構成,并對應用模式和應用場景進行了研究。提出并闡述了學科大數(shù)據(jù)分析、網(wǎng)絡輿情監(jiān)測、情報大數(shù)據(jù)分析、校友大數(shù)據(jù)分析等高?;ヂ?lián)網(wǎng)數(shù)據(jù)大數(shù)據(jù)應用場景。

關鍵詞:大數(shù)據(jù) ?互聯(lián)網(wǎng)數(shù)據(jù) ?高校大數(shù)據(jù)平臺

中圖分類號:TP311 ? 文獻標識碼:A 文章編號:1672-3791(2019)12(c)-0012-03

當前,國家高度重視大數(shù)據(jù)及其應用的發(fā)展,高校作為人才培養(yǎng)和科學研究的前沿陣地,紛紛積極開展高校大數(shù)據(jù)平臺的建設與實踐?;ヂ?lián)網(wǎng)數(shù)據(jù)作為海量數(shù)據(jù)的重要來源,其在高校大數(shù)據(jù)平臺中的應用價值日益凸顯,研究并深入實踐基于互聯(lián)網(wǎng)數(shù)據(jù)的高校大數(shù)據(jù)應用具有現(xiàn)實意義。

1 ?高校大數(shù)據(jù)平臺概述

高校大數(shù)據(jù)平臺是實現(xiàn)數(shù)據(jù)采集、關聯(lián)融合、深度分析、判別預測、場景應用的基礎[1]。其體系架構一般分為4層:數(shù)據(jù)來源層、數(shù)據(jù)采集層、大數(shù)據(jù)核心層、數(shù)據(jù)應用層。

1.1 數(shù)據(jù)來源層

高校大數(shù)據(jù)平臺的數(shù)據(jù)來源主要包括校內業(yè)務數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)、網(wǎng)絡流量數(shù)據(jù)、設備運行數(shù)據(jù)4種類型的數(shù)據(jù)。

(1)校內業(yè)務數(shù)據(jù)。是由校內各種業(yè)務系統(tǒng)產(chǎn)生的數(shù)據(jù),如教務系統(tǒng)中的課程、成績數(shù)據(jù),教學平臺中的學習行為數(shù)據(jù),一卡通系統(tǒng)中的消費數(shù)據(jù),科研管理系統(tǒng)中的項目、經(jīng)費、成果數(shù)據(jù)等,校內業(yè)務數(shù)據(jù)主要是結果狀態(tài)數(shù)據(jù),數(shù)據(jù)形態(tài)上以結構化數(shù)據(jù)為主,數(shù)據(jù)量不太大,適合統(tǒng)計分析得到直接的結論。

(2)互聯(lián)網(wǎng)數(shù)據(jù)。來自于互聯(lián)網(wǎng)的和學校相關的數(shù)據(jù),比如專利檢索數(shù)據(jù)、論文收錄數(shù)據(jù)、網(wǎng)絡輿情數(shù)據(jù)等,包括結構化數(shù)據(jù)和非結構化數(shù)據(jù),尤其是海量的非結構化數(shù)據(jù),是真正意義上的大數(shù)據(jù),需要用到科學計算、NLP等技術來處理和分析。

(3)網(wǎng)絡流量數(shù)據(jù)。包括校內用戶訪問互聯(lián)網(wǎng)、校外訪問校內以及校園網(wǎng)內部之間的網(wǎng)絡流量數(shù)據(jù),流量數(shù)據(jù)量大,但數(shù)據(jù)結構簡單。用戶的上網(wǎng)流量數(shù)據(jù)一般用于上網(wǎng)行為審計與分析,后兩者一般用于系統(tǒng)服務評價和網(wǎng)絡安全分析。

(4)設備運行數(shù)據(jù)。指服務器、交換機、路由器等設備的運行數(shù)據(jù)和日志數(shù)據(jù),也包括中間件、數(shù)據(jù)庫、Web服務的運行數(shù)據(jù)。一般用于IT運維健康度分析、自動化運維、網(wǎng)絡安全等分析。

1.2 數(shù)據(jù)采集層

對來自不同數(shù)據(jù)源的數(shù)據(jù)進行采集、抽取、清洗、轉換。常見的采集方式有3種:(1)傳統(tǒng)的ETL離線采集適合校內業(yè)務系統(tǒng)數(shù)據(jù)采集;(2)分布式實時采集使用流處理方式,能滿足每秒數(shù)百兆的日志數(shù)據(jù)采集,如ELK或者Splunk等;(3)網(wǎng)頁爬蟲采集適合互聯(lián)網(wǎng)信息的采集,包括網(wǎng)頁、數(shù)據(jù)、圖片和文件等。數(shù)據(jù)采集的過程中數(shù)據(jù)質量管理很重要,需要對數(shù)據(jù)進行全過程治理以確保數(shù)據(jù)質量和可靠性。

1.3 大數(shù)據(jù)核心層

大數(shù)據(jù)核心層實現(xiàn)大數(shù)據(jù)的數(shù)據(jù)存儲、資源調度、數(shù)據(jù)計算等功能。數(shù)據(jù)存儲方面,提供HDFS分布式文件系統(tǒng)、Hbase布式列簇存儲、分布式Mysql集群、內存數(shù)據(jù)庫、ElasticSearch分布式搜索數(shù)據(jù)庫等多種存儲系統(tǒng),以支撐各類數(shù)據(jù)的存儲和訪問需求。資源調度方面,通過Apache Hadoop YARN提供Hadoop資源管理,可為上層應用提供統(tǒng)一的資源管理和調度,通過Kubernetes等提供自動化部署、大規(guī)??缮炜s、應用容器化管理。在數(shù)據(jù)計算方面,提供流計算平臺、數(shù)據(jù)挖掘流程模板庫、極其算法庫等計算工具,實現(xiàn)多維特征分析、分布式科學計算、可視化模型構建等。

1.4 數(shù)據(jù)應用層

基于大數(shù)據(jù)核心層提供的數(shù)據(jù)分析能力,對采集到的數(shù)據(jù)進行業(yè)務場景化應用,目前國內高校的大數(shù)據(jù)應用還在起步階段,主要集中在學工分析與服務、學科分析與服務、師生用戶畫像分析、領導駕駛艙等應用領域。

2 ?高校大數(shù)據(jù)平臺下的互聯(lián)網(wǎng)數(shù)據(jù)主要構成

互聯(lián)網(wǎng)數(shù)據(jù)作為高校大數(shù)據(jù)平臺的重要數(shù)據(jù)源之一,是對校內業(yè)務數(shù)據(jù)的重要補充。其具有數(shù)據(jù)量大、更新快、形態(tài)豐富(結構化和非結構化)等特點,目前可用于高校大數(shù)據(jù)分析應用的互聯(lián)網(wǎng)數(shù)據(jù)主要分為專業(yè)數(shù)據(jù)、資訊數(shù)據(jù)、網(wǎng)絡輿情數(shù)據(jù)三大類。

2.1 專業(yè)數(shù)據(jù)

(1)科研數(shù)據(jù)。

主要包括專利數(shù)據(jù)和論文數(shù)據(jù),專利數(shù)據(jù)可使用國家知識產(chǎn)權局專利檢索數(shù)據(jù)和德溫特專利檢索數(shù)據(jù)等,論文數(shù)據(jù)主要來源于SCI、EI、Scopus、PubMed、CSCD、CSSCI以及知網(wǎng)、萬方、維普等數(shù)據(jù)庫,一些科研項目統(tǒng)計數(shù)據(jù)也可以在互聯(lián)網(wǎng)中獲取,如國家自然科學基金和國家人文社科基金的科研項目信息等。

(2)人才數(shù)據(jù)。

通過各類行業(yè)部門網(wǎng)站、高校網(wǎng)站、年鑒等渠道可以采集到全國高校院士數(shù)據(jù)、碩博導師數(shù)據(jù)以及獲得各類人才榮譽稱號的人才數(shù)據(jù),如千人計劃、青年千人計劃、萬人計劃、長江學者、國家杰青、國家優(yōu)青、青年拔尖人才等,另外,愛思唯爾(Elsevier)發(fā)布的中國高被引學者榜單也可以作為人才數(shù)據(jù)的補充。

(3)行業(yè)基礎數(shù)據(jù)。

其包括一些開放的或提供局部應用的行業(yè)基礎數(shù)據(jù),如全國高?;A信息數(shù)據(jù)、學科評估數(shù)據(jù)、本科評估數(shù)據(jù)、高基表數(shù)據(jù)等。

2.2 資訊數(shù)據(jù)

資訊數(shù)據(jù)是互聯(lián)網(wǎng)上最具海量特征的數(shù)據(jù),主要由非結構化數(shù)據(jù)組成。對于高校而言,學校的發(fā)展與行業(yè)、社會是密不可分的,來自于教育主管部門、科研主管部門、其他高校、科研院所、生源地、企業(yè)、校友、學者動態(tài)等資訊信息是學校發(fā)展的重要情報信息來源,采集這些信息并進行合理的分析以及面向業(yè)務場景的應用,具有重要意義。

2.3 網(wǎng)絡輿情數(shù)據(jù)

網(wǎng)絡輿情數(shù)據(jù)是一種特殊的互聯(lián)網(wǎng)資訊數(shù)據(jù),其數(shù)據(jù)來源包括網(wǎng)絡新聞媒體、網(wǎng)絡論壇、百度貼吧、博客、微博、微信公眾號、文章評論、網(wǎng)絡視頻等。

3 ?高校大數(shù)據(jù)平臺下的互聯(lián)網(wǎng)數(shù)據(jù)應用模式

3.1 數(shù)據(jù)采集原則

互聯(lián)網(wǎng)數(shù)據(jù)采集是在高校大數(shù)據(jù)平臺中開展互聯(lián)網(wǎng)數(shù)據(jù)融合應用的重要前提,數(shù)據(jù)采集的數(shù)量、質量直接決定后期數(shù)據(jù)應用的有效性和可靠性。面對海量的互聯(lián)網(wǎng)數(shù)據(jù),到底應該采集哪些數(shù)據(jù)是擺在我們眼前的難題。根據(jù)目前可用于高校大數(shù)據(jù)分析應用的互聯(lián)網(wǎng)數(shù)據(jù)的特點,科研成果數(shù)據(jù)等專業(yè)數(shù)據(jù)比較好界定,互聯(lián)網(wǎng)資訊數(shù)據(jù)、網(wǎng)絡輿情數(shù)據(jù)的來源廣泛、數(shù)據(jù)量大,在數(shù)據(jù)采集時可以考慮如下幾個方面的原則。

(1)“與我相關”。采集的數(shù)據(jù)是屬于我的(學校、師生);提到我的(新聞、評論等),與我的業(yè)務發(fā)展相關的。

(2)“有價值”。采集的數(shù)據(jù)能描述學校的狀態(tài),能描述學校相關的機構或者人員的狀態(tài),能描述和學校相關的資源的情況。

(3)“最新的”。采集的數(shù)據(jù)要盡量具有良好的時效性、動態(tài)性。

(4)“準確的”。采集的數(shù)據(jù)其內容要盡可能準確,并且可以準確匹配和準確分類。

(5)“核心敏感的”。采集的數(shù)據(jù)與學校核心業(yè)務相關、痛點需求相關,或者是負面的,如網(wǎng)絡輿情、安全事件等。

(6)“最大加工可能性”。采集的數(shù)據(jù)在可量化度上、可分析度上應具有良好的加工性。

(7)“最大采集效率”。數(shù)據(jù)采集盡量能采用全自動采集、半自動采集方式來實現(xiàn),提高采集效率。

3.2 數(shù)據(jù)采集技術手段

目前面向高校大數(shù)據(jù)應用的互聯(lián)網(wǎng)數(shù)據(jù)只有少量專業(yè)數(shù)據(jù)可以通過數(shù)據(jù)API接口的方式進行采集,大部分互聯(lián)網(wǎng)數(shù)據(jù)只能通過網(wǎng)絡爬取的方式采集。網(wǎng)絡爬蟲是依照一定規(guī)則主動抓取網(wǎng)頁的程序[2],目前,網(wǎng)絡爬蟲技術已經(jīng)非常成熟,廣泛應用于互聯(lián)網(wǎng)信息抓取,在建立面向高校大數(shù)據(jù)應用的互聯(lián)網(wǎng)數(shù)據(jù)爬取系統(tǒng)時,需要注意如下幾個方面的問題。

(1)爬取能力問題?;ヂ?lián)網(wǎng)數(shù)據(jù)有開放型網(wǎng)頁、Web系統(tǒng)等多種來源,針對論文、專利等來源于系統(tǒng)查詢的數(shù)據(jù),需要綜合使用通用網(wǎng)絡爬蟲、聚焦網(wǎng)絡爬蟲、深度網(wǎng)絡爬蟲等技術,實現(xiàn)數(shù)據(jù)的準確爬取;針對資訊數(shù)據(jù)、網(wǎng)絡輿情數(shù)據(jù)則需要建立科學合理的高校行業(yè)詞庫,便于信息的準確匹配。在爬取性能上,由于數(shù)據(jù)的動態(tài)性和實時性要求較高,需要采用分布式網(wǎng)絡爬蟲架構,結合增量爬取技術,提高爬取性能。

(2)數(shù)據(jù)處理問題。根據(jù)不同數(shù)據(jù)類型采取不同的數(shù)據(jù)處理方式。專利論文等專業(yè)數(shù)據(jù)以及行業(yè)基礎數(shù)據(jù)爬取后需進行結構化處理,并按照適合高校數(shù)據(jù)應用的數(shù)據(jù)標準進行清洗、轉換、去重等;資訊數(shù)據(jù)和輿情數(shù)據(jù)則需要利用自然語言處理技術進行語義分析、情感分析、關鍵字提取等,基于非結構化的原始數(shù)據(jù)建立起結構化的標簽數(shù)據(jù),便于后期的數(shù)據(jù)應用。

(3)數(shù)據(jù)存儲問題?;ヂ?lián)網(wǎng)數(shù)據(jù)經(jīng)處理后一部分轉化為結構化數(shù)據(jù)存儲,如專利、論文等數(shù)據(jù);而互聯(lián)網(wǎng)資訊數(shù)據(jù)和網(wǎng)絡輿情數(shù)據(jù)則使用結構化存儲和非結構化存儲相結合。

3.3 數(shù)據(jù)應用服務對象

互聯(lián)網(wǎng)數(shù)據(jù)在高校中的應用服務對象包括對內服務和對外服務。對內服務對象包括校領導、管理部門、學院、教師、學生;對外服務對象包括高校上級管理部門、生源基地、考生、家長、就業(yè)單位、社會公眾等。根據(jù)不同互聯(lián)網(wǎng)數(shù)據(jù)的價值和不同服務對象的需求進行應用設計和匹配。

4 ?高校大數(shù)據(jù)平臺下的互聯(lián)網(wǎng)數(shù)據(jù)應用場景

互聯(lián)網(wǎng)數(shù)據(jù)可以應用到很多高校大數(shù)據(jù)服務場景,既可以獨立應用,也可以和業(yè)務數(shù)據(jù)融合應用,下面就幾個應用場景舉例進行簡單闡述。

4.1 學科大數(shù)據(jù)分析

以服務雙一流學科建設為核心出發(fā)點,建立學科大數(shù)據(jù)應用數(shù)據(jù)標準,通過采集互聯(lián)網(wǎng)中全球專利數(shù)據(jù)、文獻數(shù)據(jù)、人才數(shù)據(jù)、高等教育指標數(shù)據(jù)、高校和科研機構數(shù)據(jù)、頂級學術會議數(shù)據(jù),并與學校內部業(yè)務數(shù)據(jù)進行融合,實現(xiàn)學科建設數(shù)據(jù)的深度分析與挖掘,為雙一流學科建設的項目管理、目標管理、績效管理提供支撐,形成深度的、動態(tài)的學科發(fā)展大數(shù)據(jù)報告,并對發(fā)展趨勢進行預測,對風險隱患進行預警。

4.2 網(wǎng)絡輿情監(jiān)測

網(wǎng)絡輿情是針對社會熱點、大眾生活等問題,由新聞媒體或者個人在互聯(lián)網(wǎng)上表達的言論、建議或情緒,是社會輿論在網(wǎng)絡上的一種特殊表現(xiàn)形式[3]。基于大數(shù)據(jù)思維對網(wǎng)絡輿情數(shù)據(jù)進行采集、分析、語義分析、情感判斷是網(wǎng)絡輿情監(jiān)測平臺新的發(fā)展趨勢。通過分布式網(wǎng)絡爬蟲對高校相關的、分布于論壇、貼吧、微博、博客、新聞等不同載體中的網(wǎng)絡輿情數(shù)據(jù)進行采集,并建立具有高校行業(yè)特點的語義詞庫和數(shù)據(jù)分析模型,形成網(wǎng)絡輿情的自動收集、處理、分析、研判、預警全流程服務。

4.3 情報大數(shù)據(jù)分析

互聯(lián)網(wǎng)數(shù)據(jù)中存在大量和高校自身、競爭對手以及教育行業(yè)相關的資訊數(shù)據(jù),這些數(shù)據(jù)是高校發(fā)展和決策的重要情報數(shù)據(jù)來源,通過實時采集和適當處理可以形成服務高校發(fā)展的情報大數(shù)據(jù)平臺。利用情報大數(shù)據(jù)實現(xiàn)“知己、知彼、知行業(yè)”的目標,知己是知自己、知本質,知彼是知對手、知動態(tài),知行業(yè)是知環(huán)境、知風向。通過對來自互聯(lián)網(wǎng)上的高校發(fā)展情報數(shù)據(jù)的自動采集、聚合、分類、場景化分析,如行業(yè)全景、媒體聲譽指數(shù)、學者動態(tài)、學科動態(tài)等,實現(xiàn)對高校戰(zhàn)略決策的支撐作用。

4.4 校友大數(shù)據(jù)分析

校友是高校發(fā)展的寶貴資源,了解校友動態(tài)是挖掘校友資源、精準服務的前提。校友大數(shù)據(jù)有兩大數(shù)據(jù)來源,一是校友在校學習期間的數(shù)據(jù),這方面的數(shù)據(jù)量級小、時間跨度短;二是數(shù)據(jù)則來自于校友畢業(yè)后在互聯(lián)網(wǎng)上可公開采集到的各類數(shù)據(jù),如人事任免、企業(yè)信息、上市公開信息、論文、專利、高端論壇、學術報告、新聞報道等海量的、動態(tài)的、跨越長時間周期的數(shù)據(jù)?;谶@些數(shù)據(jù)建立校友大數(shù)據(jù)分析平臺,可以動態(tài)地、精準地挖掘到高價值校友,為學校發(fā)展儲備資源,為校友之間的互助、合作搭建橋梁和紐帶。

5 ?結語

隨著互聯(lián)網(wǎng)數(shù)據(jù)的日益增加以及互聯(lián)網(wǎng)數(shù)據(jù)采集與處理技術的不斷成熟,開展基于互聯(lián)網(wǎng)數(shù)據(jù)的高校大數(shù)據(jù)應用日趨成熟?;ヂ?lián)網(wǎng)數(shù)據(jù)采集需遵循數(shù)據(jù)關聯(lián)性、價值度、新鮮度、準確性、可加工性以及數(shù)據(jù)采集效率等原則,分布式網(wǎng)絡爬蟲、定制化數(shù)據(jù)處理、多樣化數(shù)據(jù)存儲是關鍵技術點。從校內外不同服務對象的需求特點出發(fā),互聯(lián)網(wǎng)數(shù)據(jù)可以應用到很多服務場景,在學科大數(shù)據(jù)、網(wǎng)絡輿情監(jiān)測、情報大數(shù)據(jù)、校友大數(shù)據(jù)等領域能夠發(fā)揮重要作用。

參考文獻

[1] 仲兆滿,施珺,管燕,等.高校教育大數(shù)據(jù)平臺的架構設計[J].教育現(xiàn)代化,2019,6(46):37-39,43.

[2] 劉金江,陳余良.主題網(wǎng)絡爬蟲研究綜述[J].計算機應用研究,2007,24(10):26-29,47.

[3] 姜春起.網(wǎng)絡輿情監(jiān)測系統(tǒng)應用問題研究[D].吉林大學,2017.

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
大數(shù)據(jù)時代新聞的新變化探究
淺談大數(shù)據(jù)在出版業(yè)的應用
“互聯(lián)網(wǎng)+”對傳統(tǒng)圖書出版的影響和推動作用
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉型思路
基于大數(shù)據(jù)背景下的智慧城市建設研究
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
尚志市| 黄大仙区| 罗山县| 卢氏县| 巴林右旗| 红桥区| 贺州市| 静乐县| 崇阳县| 抚顺县| 南昌市| 冷水江市| 游戏| 屏南县| 西畴县| 海晏县| 武川县| 仙居县| 安陆市| 长汀县| 嫩江县| 育儿| 壤塘县| 安阳市| 行唐县| 化州市| 垣曲县| 田林县| 扬州市| 清镇市| 来安县| 会宁县| 丘北县| 桐庐县| 始兴县| 大埔区| 马鞍山市| 武汉市| 天长市| 宁国市| 江都市|