曹潔 崔霄
摘要:新工科是基于國家戰(zhàn)略發(fā)展新需求、國際競爭新形勢、立德樹人新要求而提出的我國工程教育改革方向,是對工科學科建設的優(yōu)化再造和內容升級,新工科的建設和發(fā)展有重要的意義。面向新工科,當前誰能更好地處理、分析數據,誰就能真正搶得時代的先機。研究數據分析課程的內容設置,能很好地培養(yǎng)學生的創(chuàng)新能力與邏輯思維能力。本研究基于當前數據分析最重要的編程語言Python,從數據結構特點、學生已有的編程基礎、數據來源的多樣性、數據分析流程、數據分析實戰(zhàn)等五個方面探討Pvthon數據分析課程教學內容。
關鍵詞:新工科;Python;知識體系;數據分析;教學內容
近年,以物聯(lián)網、云計算、大數據、移動互聯(lián)網、人工智能、區(qū)塊鏈等為代表的新一代信息技術深刻地影響了人類社會的發(fā)展,高等教育領域也不例外。新一代信息技術也在改變著傳統(tǒng)高等工程教育的實現方式和教育內容,并促使新工科的產生和發(fā)展。
一、新工科是工科教育發(fā)展的必然
工科是指應用科學原理,結合生產實踐所積累的技術經驗而發(fā)展起來的學科,主要特征有三:一是依據一定的科學技術原理,二是造出人工物(機器),三是解決實際問題。傳統(tǒng)工科教育過分強調課程的工程性,忽視了對學生人文素質等方面的培養(yǎng),同時傳統(tǒng)工科的課程設置不太合理,培養(yǎng)出來的學生很難適應新的社會發(fā)展要求。高校亟需新的工科教育教學理念,來培養(yǎng)具有創(chuàng)新能力的新興工程技術人才。
2017年12月,國務院辦公廳《關于深化產教融合的若干意見》提出,“適應新一輪科技革命和產業(yè)變革及新經濟發(fā)展,促進學科專業(yè)交叉融合,加快推進新工科建設”。新工科是基于國家戰(zhàn)略發(fā)展新需求、國際競爭新形勢、立德樹人新要求而提出的我國工程教育改革方向,是對工科學科建設的優(yōu)化再造和內容升級,也是對未來工科學生培養(yǎng)目標、培養(yǎng)方式、培養(yǎng)內容的探索。新興的工科人才需要具備三大素質和特點:一是他們不僅要在某一學科上研究精深,其知識結構還應具有“多學科交叉融合”的特征:二是他們不僅能夠運用所掌握的知識解決現有的問題,還應具備學習新知識、新技術以應對未來發(fā)展出現的新難題的能力,并能對未來技術和產業(yè)發(fā)展起到積極的引領作用:三是他們不僅要有精湛的技術,還要熟悉經濟、社會和管理等知識,即具有良好的人文素養(yǎng)。因而,研究適應新一輪科技革命和產業(yè)變革及新經濟發(fā)展的工科課程知識體系是當前新工科建設的重要內容。
二、Python數據分析課程
當今世界對信息技術的依賴程度日漸加深,每天都會產生和存儲海量的數據。面對海量數據,誰能更好地處理、分析數據,誰就能真正搶得時代的先機。對數據的分析已經成為了企業(yè)、政府非常重要且迫切的需求。Python程序設計語言是一種解釋型、面向對象、動態(tài)數據類型的高級程序設計語言,具有開源、簡潔易讀、快速上手、多場景應用等優(yōu)點。Python程序設計語言在數據分析與挖掘領域中的地位非常突出,已經當仁不讓地成為數據分析人員的一把“利器”。數據分析人員用適當的數學模型對收集來的大量數據進行行業(yè)應用分析,以求最大化地開發(fā)數據背后隱藏的價值,充分發(fā)揮數據的預測指導功能。其目的在于把隱沒在雜亂無章的數據中的有用信息集中、萃取和提煉出來。工科不同學科之間差異很大,不同學科對數據分析的內容及能力要求差別也很大。在此,筆者主要以工科中軟件工程學科為例,基于當前數據分析最流行的Python程序設計語言來探討數據分析的知識體系以及具體應用的實現,以期為新工科數據分析課程建設提供一種參考。
三、面向新工科的Python數據分析課程內容
不同的人對數據分析有不同的定義,常見的定義有:從大量數據中提取出想要的信息就是數據分析:有針對性地搜集、加工、整理數據,并采用統(tǒng)計、數據挖掘技術分析和解釋數據等就是數據分析:基于行業(yè)目的,有目的地搜集、整理、加工和分析數據,提煉有價值的信息就是數據分析。綜合上述定義,筆者認為數據分析是用適當的數據整合方法對收集來的大量數據進行整合,為從中發(fā)現因果關系、內部聯(lián)系和業(yè)務規(guī)律而對數據加以詳細研究和概括總結的過程。筆者具體地將Python數據分析課程分為五部分教學內容,下面分別論述。
第一部分,新工科要求課程內容要有利于培養(yǎng)學生的創(chuàng)新能力和工程實踐能力。數據分析是隨著大數據技術、云計算技術、移動互聯(lián)網、Web2.0技術的發(fā)展以及類型多樣的海量數據的涌現而出現的一門技術,要求學生明確數據分析與大數據處理、大數據存儲、云計算、移動互聯(lián)網等技術之間的關系,了解大數據的數據結構特點。當前比較常見的數據結構有結構化數據、半結構化數據、非結構化數據、列式數據等,學生要深刻理解數據結構的特點及價值所在,要在這個基礎上創(chuàng)新數據分析的方法,而不僅僅是掌握傳統(tǒng)的數據挖掘、數據倉庫等技術。
第二部分,課程以Python程序設計語言的學習為數據分析技術提供支撐。但對軟件工程學科的學生來說,他們已經具備了基本的程序設計能力,因而教師只需簡要介紹Python程序設計語言的特點、Python安裝方法、編寫python代碼的方式等內容,而要重點介紹python的基本數據類型,如number(數值)、string(字符串)、list(列表)、tuple(元組)、dictionary(字典)、set(集合)的操作命令。之后,教師會向學生講授Pvthon程序控制結構、函數、類、正則表達式、文件與文件夾、數據可視化等知識。
第三部分,由于數據來源的多樣性、數據模式的多樣性,教師要向學生介紹Python各種類型數據庫的的常用操作。課程重點在于教師基于連接的數據庫特點及相應的數據存儲模式特點開展數據分析的創(chuàng)新性應用,從而讓學生綜合掌握Pvthon數據存儲的相關知識。因此,該門課程也需引入python語言來開發(fā)數據存儲的實際系統(tǒng)。課程教師會系統(tǒng)介紹python操作Mysql數據庫、MongoDB數據庫Pvthon操作、SQLite數據庫、Redis數據庫的常用方法。
第四部分,課程將以數據分析的流程為重點。數據質量分析主要包括缺失值分析、異常值分析、一致性分析和數據特征分析;數據預處理主要包括講解數據清洗、數據集成、數據規(guī)范化、數據離散化、數據規(guī)約和數據降維。在數據分析方法方面,教師重點講解相似性和相異性的度量以及分類分析方法、回歸分析方法、聚類分析方法。值得注意的是,數據質量分析是數據分析中數據準備過程的重要環(huán)節(jié),是數據預處理的前提,也是數據分析結論有效性和準確性的基礎。沒有高質量的可信數據,構建的數據分析模型將是“空中樓閣”。數據質量分析的關鍵任務是檢查原始數據中是否存在臟數據。所謂臟數據,一般是指不符合行業(yè)應用要求、不能直接進行相應分析的數據,具體包括缺失值、異常值、不一致的值、重復數據及含有特殊符號的數據,其主要表現形式為數據缺失、數據重復、數據錯誤、數據不可用等。
同時,數據分析工作始終是以數據為中心開展的,分類、聚類、回歸、關聯(lián)分析以及可視化等工作的順利進行完全是建立在良好的數據輸入的基礎之上的。采集到的原始數據通常來自多個異構數據源,數據在準確性、完整性和一致性等方面存在一些問題。在數據分析和數據挖掘之前,教師要讓學生明確,首先要做的就是對數據進行預處理,處理數據中的臟數據,提高數據分析的準確性和有效性。數據預處理有多種方法,如數據清洗、數據集成、數據規(guī)范化、數據離散化、數據規(guī)約等。
第五部分,教師要講解數據分析實戰(zhàn)。筆者在這里選取文本情感分析(具體內容主要包括:電商手機評論數據的采集、中文分詞方法、文本的關鍵詞提取、中文文本情感傾向分析、主題模型和運用LDA主題模型對電商手機評論進行主題分析等)作為案例,這是因為在購買商品時消費者希望通過其他用戶發(fā)表的評論來確定是否應該購買。同時,許多商家也希望通過用戶評論來及時了解產品的優(yōu)缺點及用戶滿意度。文本情感分析技術可自動地從海量評論語料中挖掘有用信息,并對這些信息進行組織和分類,然后直觀展示給用戶和商家。此外,通過大眾輿論導向分析,政府部門可以了解公眾對熱門事件的情感傾向,從而掌握大眾輿論導向,為政府制定相關政策提供一定支持等。