基于先導課的本科機器學習教學方法

2020-07-31 10:47:00王婧

計算機教育 2020年7期

王婧

（淮北師范大學計算機科學與技術(shù)學院，安徽淮北 235000）

0 引言

當前人工智能技術(shù)環(huán)境優(yōu)越，具有智能家居、推薦系統(tǒng)、語義識別等廣泛應(yīng)用場景。機器學習作為該技術(shù)的基礎(chǔ)與核心內(nèi)容，前沿性和實用性極高，是計算機技術(shù)專業(yè)、應(yīng)用數(shù)學等專業(yè)的熱門方向，能夠為學生的深造或就業(yè)提供助力。目前，機器學習課程常見于各大平臺的網(wǎng)絡(luò)特色課、研究生專業(yè)課的課程系統(tǒng)中。

部分高校將機器學習的課程設(shè)置在本科學習階段。然而，機器學習課程具有內(nèi)容體系性差、方法龐雜、理論知識層次高、課程難度大以及實操要求高等特征。此外，各高校學生的基礎(chǔ)水平參差不齊，學校課程設(shè)置情況不一，課程的教學背景大相徑庭。因此，根據(jù)教學情況設(shè)計教學內(nèi)容是必要的。機器學習方法眾多，方法之間的相關(guān)性和連接關(guān)系較少，根據(jù)學生的先導課內(nèi)容和教學資源設(shè)計課程內(nèi)容是可行的。以專題項目的模式進行教學，一方面可以加強設(shè)計部分，靈活平衡學生的學習能力水平、先導課水平、認知水平不一的問題，另一方面可以將一個項目的完整流程呈現(xiàn)出來，讓學生對數(shù)據(jù)科學的整體有一個判斷和了解。

1 機器學習教育背景

機器學習方法是數(shù)學學院、計算機學院以及新興人工智能學院于大數(shù)據(jù)相關(guān)專業(yè)培養(yǎng)方案中設(shè)置的課程。課程前期要求學生對人工智能、概率統(tǒng)計、計算復雜性理論、控制論、信息論等學科知識有所了解，以便組建數(shù)據(jù)科學知識結(jié)構(gòu)，進而理解模型。因此，為了給學生打下良好的課程學習基礎(chǔ)，學校通常在大學二年級之前開設(shè)機器學習課程的先導課。機器學習先導課來源眾多，普通學生沒有精力獨自完成全部內(nèi)容，需要在實體課堂和相互討論中完成系統(tǒng)的學習。另外，由于機器學習方法不依賴單種編程語言，教師可以根據(jù)學校機房的條件組建符合機器學習實操環(huán)境的實驗室。因此，單純從學校教育環(huán)境方面來看，機器學習的本科教育具有打基礎(chǔ)、可實踐的特征。

另外，考察社會環(huán)境中的機器學習資源，部分學習平臺能夠整合針對特定項目的學習材料，材料涵蓋教程、視頻、源代碼和商用學習產(chǎn)品。相較其他前沿科技學習環(huán)境，機器學習的網(wǎng)絡(luò)資源相對趨于成熟。截至2019 年12 月，中國大學MOOC 國家精品在線學習平臺有564 599 人次關(guān)注機器學習相關(guān)課程和將近300 個神經(jīng)網(wǎng)絡(luò)課程項目。知乎平臺的機器學習專欄有106 萬人次關(guān)注，4 萬問答，1 000 精華內(nèi)容。CSDN（Chinese Software Developer Network）平臺有448 個機器學習相關(guān)的學院組織，單個學院組織的最高學習量達到10 萬人次。此外，還有專業(yè)技術(shù)專家和教師做知識分享，比如微軟人工智能學院專家尹成分享的Sicikit-Learn，中國地質(zhì)大學、浙江大學等分享的完整課程。從材料內(nèi)容上來看，網(wǎng)絡(luò)具有成為當代大學生獲取機器學習相關(guān)知識可靠渠道的條件。

由于社會上的資源是面向大眾的，因此網(wǎng)絡(luò)課程有如下幾個缺點：①學生學習習慣偏向課堂和書本教學，不熟悉網(wǎng)絡(luò)學習模式，學習效率低下；②網(wǎng)絡(luò)課程門檻低，主講人水平不一；③主講人工作背景不一，學生難以從海量的課程中選擇適合自己基礎(chǔ)的課程。因此，為學生量身打造的大學課程仍然承擔著機器學習基礎(chǔ)知識教育的主要任務(wù)。

2 教學手段分析

文獻[3]提出以案例驅(qū)動或者問題導向的教學方法，這種方法的出發(fā)點是好的，但是沒有注意到，以實際問題為出發(fā)點的課程內(nèi)容會更加復雜。因為機器學習算法具有強大的靈活性，一個問題有多種處理方法，且方法往往對應(yīng)不同的先導知識領(lǐng)域，這要求學生有較高的學習水平。而且，這種情況降低了學生理解完整知識點的可能性。以發(fā)現(xiàn)關(guān)聯(lián)規(guī)則類的項目為例，圖1 列舉了關(guān)聯(lián)規(guī)則中幾個方法的先行課和對應(yīng)的核心知識點。各分圖之間并無交叉項，如果對類別的問題設(shè)計進行全面系統(tǒng)的講解，需要準備2～3 個課時的專題。這些課時需要分別介紹圖中的知識點，由于教學重點過于分散，且其中的神經(jīng)網(wǎng)絡(luò)方法還可以用于異常檢測類型的問題，如果再次拿出神經(jīng)網(wǎng)絡(luò)方法的知識點作為專題，反而會重復課時，造成課時浪費的問題。否則，只能打亂問題導向的結(jié)構(gòu)，仍然按照一個方法一個小專題，單個小專題花費1～2 個課時的順序結(jié)構(gòu)進行講述。

圖1 關(guān)聯(lián)規(guī)則中方法的核心內(nèi)容與先導課結(jié)構(gòu)

文獻[4]提出根據(jù)基礎(chǔ)流程結(jié)構(gòu)增刪知識點的課程設(shè)計方案。該方案將重點分散在理論教學和項目練習兩個部分。在課程學時有限、學生水平有限的前提下，將大量的時間放在項目實踐上會引發(fā)學生自主延長自學時間，也無法保證學生能夠自行夯實機器學習的基礎(chǔ)理論。另外，在大多高校課時有限、本科生水平有限的情況下，單個項目的訓練周期過長、練習的項目數(shù)量過少，無法令學生的實踐能力產(chǎn)生質(zhì)變。這與最初設(shè)計靈活教學架構(gòu)的目標相背馳。

綜合以上討論，靈活化的教學內(nèi)容設(shè)計只適合學習能力強、課時時間長的高校學生，大部分高校的學生反而不適應(yīng)這種方案。因此，普通高校的本科機器學習教育最重要的是要為學生提供系統(tǒng)完善的課堂內(nèi)容，保證基礎(chǔ)教育的完善。

3 教學設(shè)計

3.1 基于先導課的理論設(shè)計方法

從學校課程設(shè)置的特點來看，機器學習的教學內(nèi)容包含理論教學和實驗教學的部分。該課程的理論龐雜且獨立。各個學習方法在模型準備和模型評價部分的方法較為統(tǒng)一，可以進行集中教學，然而在模型訓練方面的知識點相互獨立，并且知識點對應(yīng)的先行課往往來源于不同課程，這種特性加重了理論教學環(huán)節(jié)困難程度，也會影響學生對機器學習的興趣，因此為了減少不必要的理論阻力，教師有必要根據(jù)學生對于先導課的掌握安排學習順序。本次選取聚類、單變量決策樹、支持向量機和神經(jīng)網(wǎng)絡(luò)，將其需要的先行知識點列為表1。

表1 機器學習方法與先導課關(guān)系

根據(jù)表1 討論課程的內(nèi)容安排順序。聚類作為一種易于理解的算法，可以作為教學內(nèi)容的第一個專題。由于在建立模型的過程中不需要先導課，在做專題時可以連帶加入樣本空間、數(shù)據(jù)清理、降維、交叉驗證、歸納偏好、泛化能力等普適性基礎(chǔ)概念術(shù)語，由此展示一個完整機器學習處理數(shù)據(jù)的流程，為學生形成全局觀。接下來可以專注于各個模型建立的方法，根據(jù)學生先導課的上課進度，先安排上過先導課，或者對應(yīng)知識點只應(yīng)用到先導課基礎(chǔ)概念的部分。比如單變量決策樹模型，其生成邏輯和思考選擇邏輯類似，在這個階段只需要講解信息熵的知識點，后續(xù)內(nèi)容都易于理解。支持向量機、神經(jīng)網(wǎng)絡(luò)都涉及最優(yōu)化和概率論的較多重要知識點。由于一般的計算機學院不會在教學編排過程中考慮最優(yōu)化作為必修課，因此只能在課堂補充相關(guān)知識，比如最優(yōu)化基礎(chǔ)模型、正則化概念、約束設(shè)置問題。此外，概率論作為各大理工學院的基礎(chǔ)課，為神經(jīng)網(wǎng)絡(luò)和支持向量機的教學提供了良好的條件。由于機器學習是應(yīng)用性質(zhì)較強的學科，為了鞏固學生的理解，仍然需要在課前集中從先驗概率和后驗概率在數(shù)據(jù)統(tǒng)計中的作用、貝葉斯理論在估計數(shù)據(jù)中的作用等應(yīng)用角度集中講述。

3.2 基于理論課的實驗設(shè)計方法

機器學習是一個理論緊密聯(lián)系實踐的學科。然而，僅僅以實現(xiàn)某個算法為目標的實驗教學對學生實戰(zhàn)能力鍛煉的提高程度有限。在互聯(lián)網(wǎng)開源代碼和Python 強大庫的影響下，最大的阻礙是，如果實驗題庫不及時更新，學生更傾向于拷貝代碼而非自主思考。比如在學習過聚類的基礎(chǔ)步驟之后，學生對聚類的算法形成大體的了解。在實驗過程中，直接調(diào)用Python 的scikit-learn就可以直接得到聚類函數(shù)，之后只需要了解如何調(diào)參，就可以讓學習者初步使用聚類方法。在這種情況下，如果不加以干擾，在學習聚類算法的道路上，有極大比例的學生止步于此，不能形成更深入地理解。這就導致之后再次遇到這個應(yīng)用場景時，學生對應(yīng)用的細節(jié)把控能力較弱。所以在實驗教學加大設(shè)計而非驗證的實驗比例，并為學生指出算法的改進方向是有必要的。

圖2 實驗設(shè)計流程

固定實驗設(shè)計流程如圖2 所示。主題分成A、B、C、D 等4 個流程，分別是數(shù)據(jù)預處理、數(shù)據(jù)集劃分、訓練模型、模型分析與反饋。其中A和B 兩個部分的知識點雜亂無章，對經(jīng)驗依賴性強。A 流程接觸最初的數(shù)據(jù)集，大小有數(shù)十G 以上，人工分析比較困難。這時候可以通過Pandas和 NumPy 庫來實現(xiàn)求最大最小值、修改字段、條件選擇、構(gòu)建數(shù)據(jù)框架、清理分散的亂碼字段的任務(wù)。數(shù)據(jù)清理的方式?jīng)Q定了模型的精度和泛化能力，這是實訓過程中最考察設(shè)計能力的一環(huán)。然而教程中的數(shù)據(jù)多是干凈數(shù)據(jù)，A 也是最容易忽略的一環(huán)。

數(shù)據(jù)清理完成后，就要面對根據(jù)數(shù)據(jù)類型選擇模型的任務(wù)。如在西瓜數(shù)據(jù)集3.0 中，樣本中有離散值和連續(xù)值兩種屬性。首先，可以選擇映射規(guī)則，將離散值轉(zhuǎn)化成連續(xù)值，進而選取適合連續(xù)值的模型。其次，也可以選擇多變量的決策樹算法。最后，可以采用按照數(shù)據(jù)類型分別建模的方法，并通過集成學習的方法得出結(jié)論。教師應(yīng)在這一環(huán)節(jié)充分體現(xiàn)機器學習算法實驗的設(shè)計性，為學生打開思路，以一個問題或者數(shù)據(jù)集為實驗對象而不是以某個方法為練習對象。

4 效果評價方法

為了證明設(shè)計內(nèi)容的有效性，設(shè)計一組對比實驗。目前，設(shè)計有2 組學生，第1 組的9 人基于機器學習教程的順序?qū)W習理論，并將教程中的數(shù)據(jù)作為實驗對象；第2 組的9 人根據(jù)文中提出的順序進行理論學習，理論學習結(jié)束后，再以原始數(shù)據(jù)集為實驗對象做練習。

為了測試學生的學習水平，設(shè)計如下考核：首先，由課堂小測的平均分得到理論成績。然后，根據(jù)每次實驗題結(jié)果的精度進行打分，得到每位同學的實驗成績。最后，在期末考試時，由教師從MINST 數(shù)據(jù)集設(shè)題，要求學生描述解決問題的思路，并給出驗證集的輸出結(jié)果。教師判斷思路是否完善，并根據(jù)驗證集的正確率給出綜合考核分數(shù)。

為了體現(xiàn)同一水平學生在不同教學思路下的成果，本文按照4-3-3 比例加權(quán)計算得到最終成績，并根據(jù)最終成績分數(shù)對學生進行升序排序，編號越靠后越優(yōu)秀。然后將1、2 組成績歸納到同一張雷達圖中，得到結(jié)果如圖3 所示，用灰色和黑色分別表示兩組學生的成績。

圖3 兩組學生成績的雷達圖

由圖3 可見：①第2 組的第1、2 位學生（較差）表現(xiàn)優(yōu)于第1 組，說明本文提出的教學方法能夠明顯提升22%差生的學習能力；②從第6位學生起，學生差距不明顯，表明較優(yōu)秀的學生對教學方法的敏感度不高。

5 結(jié) 語

以往對于機器學習方法的分類大都是基于數(shù)據(jù)和模型的性質(zhì)，如樣本是否有標簽、模型是否為線性可分等，這些分類方法固然對讀者產(chǎn)生框架層面的幫助，但對未接觸過機器學習及相關(guān)先導課的學生來說，是在用未了解的概念來規(guī)劃未了解的概念，對數(shù)據(jù)項目的流程和細節(jié)把控不牢。

從先導課知識出發(fā)，總體將機器學習算法歸納成數(shù)據(jù)處理基礎(chǔ)+部分先導知識格式的框架，能夠讓學生對機器學習理論的交叉性和實驗部分的靈活性有深入的理解。另外，這種框架還方便學生按照先導課知識點對自己的預備知識系統(tǒng)查漏補缺，減輕自學的負擔，更能體現(xiàn)大學教學中教師“教”和學生“學”的有機結(jié)合，提高了機器學習課程在大學環(huán)境的適應(yīng)力。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡