張劉敏
自從2006年深度學(xué)習(xí)理論的突破帶來了人工智能發(fā)展的第三次浪潮以來,各國都逐漸開始將人工智能列為重要發(fā)展戰(zhàn)略。由于人工智能技術(shù)的迅猛發(fā)展,伴隨而來的是人工智能領(lǐng)域?qū)τ诓煌愋腿斯ぶ悄苋瞬判枨蟮募ぴ觥?/p>
日本在2019年發(fā)布的《AI戰(zhàn)略2019》中提出人工智能領(lǐng)域從小學(xué)到大學(xué)甚至是專家教育多個(gè)層次教學(xué)的相關(guān)內(nèi)容,針對(duì)不同階段的人工智能學(xué)習(xí)制定了不同的要求以及評(píng)判標(biāo)準(zhǔn),對(duì)開設(shè)人工智能的高校采取MDASH體系認(rèn)證,實(shí)行“動(dòng)態(tài)名單制”,五年有效期。2020年、2021年以及2022年每一年針對(duì)不同的形勢(shì)做出相應(yīng)調(diào)整,發(fā)布最新的AI戰(zhàn)略文件。實(shí)時(shí)更新戰(zhàn)略文件的舉措在一定程度上有利于保證教育質(zhì)量,促使高校及時(shí)了解最新的市場(chǎng)需求從而更新教學(xué)方案,使得人才培養(yǎng)方案更加貼近社會(huì)發(fā)展。
而在中國,根據(jù)2022年1月教育部網(wǎng)站公布的備案結(jié)果顯示,截至2021年全國458所高職院校成功申報(bào)人工智能技術(shù)應(yīng)用專業(yè),440所本科院校申報(bào)了人工智能專業(yè)。但是與日本在高校人工智能專業(yè)采取的動(dòng)態(tài)名單制相比,國內(nèi)對(duì)于人工智能專業(yè)在高校中的細(xì)分不是非常明顯,本科院校與高職院校關(guān)于人工智能的教學(xué)標(biāo)準(zhǔn)沒有統(tǒng)一的標(biāo)準(zhǔn)與區(qū)分度,而且教學(xué)方案也沒有根據(jù)市場(chǎng)需求及時(shí)進(jìn)行更新。
因此,對(duì)于高職院校的學(xué)生來說,市面上大部分人工智能課本具有涉及面廣、理論性過強(qiáng)等準(zhǔn)入門檻,無論是線上課程還是線下的授課,教師在整個(gè)教學(xué)過程中以理論性知識(shí)為主,例如,概率論、神經(jīng)網(wǎng)絡(luò)的推導(dǎo)等等,這就不符合國家對(duì)于高職院校培養(yǎng)高素質(zhì)技術(shù)技能人才的培養(yǎng)要求。
如何讓人工智能課程與高職院校的教學(xué)更好地結(jié)合是本文的研究重點(diǎn),本文結(jié)合筆者的教學(xué)經(jīng)驗(yàn),根據(jù)國家發(fā)布的人工智能訓(xùn)練師的要求,再以實(shí)踐教學(xué)促進(jìn)人工智能課程的教育教學(xué)管理,激發(fā)學(xué)生的學(xué)習(xí)動(dòng)力,培養(yǎng)學(xué)生做好人工智能領(lǐng)域中的前期準(zhǔn)備工作,提高學(xué)生們?cè)谌斯ゎI(lǐng)域中的競(jìng)爭(zhēng)力。
1 人工智能課程教學(xué)中存在的問題
1.1 高職院校生源多元化
高職院校的學(xué)生具有多元化的特點(diǎn),現(xiàn)階段高職院校的招生方式各種各樣,有普高統(tǒng)招、五年制高職、對(duì)口單招、中職注冊(cè)等等各種形式的招生方式。生源的多元化直接導(dǎo)致每類學(xué)生的知識(shí)體系以及主觀能動(dòng)性的不同,課程設(shè)計(jì)的難度也大大增加。
例如,在主觀能動(dòng)性上大部分普高統(tǒng)招的學(xué)生會(huì)優(yōu)于一部分中職注冊(cè)的學(xué)生,會(huì)主動(dòng)學(xué)習(xí)一些偏向理論性的東西。在知識(shí)體系方面,普高統(tǒng)招學(xué)生比較偏向理論主義,對(duì)于數(shù)理統(tǒng)計(jì)的理解好于中職注冊(cè)的學(xué)生,但是中職注冊(cè)學(xué)生的實(shí)踐能力也高于普高統(tǒng)招的學(xué)生,更偏向?qū)嵺`主義。兩種思維方式的不同也會(huì)要求教師在進(jìn)行課程設(shè)計(jì)的時(shí)候需要理論聯(lián)合實(shí)踐,實(shí)時(shí)了解學(xué)生的學(xué)習(xí)進(jìn)度,做出相應(yīng)的調(diào)整。
1.2 高職院校學(xué)生數(shù)學(xué)基礎(chǔ)薄弱
目前主流的人工智能課程主要集中在機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)的推導(dǎo)等,這類知識(shí)需要比較好的數(shù)學(xué)基礎(chǔ)知識(shí),培養(yǎng)的人才主要面向人工智能頂層算法設(shè)計(jì),而高職院校的學(xué)生就業(yè)主要是面向人工智能應(yīng)用層面,因此,教育的過程中需要考慮到學(xué)生的知識(shí)面。
研究生、本科院校的學(xué)生與高職院校的學(xué)生在知識(shí)儲(chǔ)備以及面向的職業(yè)需求各不相同,想要在高職院校中開展人工智能課程教育,應(yīng)當(dāng)充分了解學(xué)生的基礎(chǔ)知識(shí)以及特點(diǎn),對(duì)接企業(yè)或是學(xué)術(shù)界的實(shí)際需求,以學(xué)生為主體,從應(yīng)用型人才要求入手,制訂符合實(shí)際需求的人工智能課程教學(xué)方案,培養(yǎng)高素質(zhì)技術(shù)技能人才。
1.3 教學(xué)實(shí)訓(xùn)基礎(chǔ)條件缺乏
深度學(xué)習(xí)是人工智能掀起第三次浪潮的主要原因,而早在2017年谷歌和卡內(nèi)基梅隆大學(xué)聯(lián)合發(fā)文表示深度學(xué)習(xí)在視覺問題上取得成功的原因:一是大規(guī)模標(biāo)記數(shù)據(jù)的可用性;二是高速增長的算力。最近比較火的chatGPT模型也更進(jìn)一步證明了對(duì)于人工智能來說大規(guī)模語料對(duì)于自然語言處理的重要性。但是對(duì)于高職院校來說想要在實(shí)訓(xùn)課程中實(shí)現(xiàn)深度學(xué)習(xí),無論是大規(guī)模有標(biāo)簽的數(shù)據(jù)還是用于深度學(xué)習(xí)模型訓(xùn)練的算力都無法滿足,無法進(jìn)行實(shí)踐操作嚴(yán)重阻礙了學(xué)生對(duì)人工智能模型進(jìn)行理解,不利于高職院校進(jìn)行人工智能課程的設(shè)計(jì)開發(fā)。
2 人工智能訓(xùn)練師在人工智能實(shí)踐教學(xué)中的實(shí)現(xiàn)
由于文字相對(duì)于音頻以及視頻資料來說比較容易獲取以及標(biāo)注,因此人工智能課程設(shè)計(jì)中人工智能的案例主體選取自然語言處理,主要選取自然語言處理相關(guān)研究方向的數(shù)據(jù)進(jìn)行數(shù)據(jù)處理、數(shù)據(jù)標(biāo)注以及文本分類實(shí)踐。而且由于模型訓(xùn)練對(duì)于理論知識(shí)以及算力要求的苛刻性,考慮到高職學(xué)生的理論體系和未來就業(yè)前景,本文將人工智能訓(xùn)練師作為課程目標(biāo),選取其中的數(shù)據(jù)清洗和數(shù)據(jù)標(biāo)注作為課程的重難點(diǎn),不僅符合人工智能發(fā)展規(guī)律,適應(yīng)市場(chǎng)以及學(xué)術(shù)界的發(fā)展需求,同時(shí)也符合高職院校學(xué)生未來就業(yè)的要求。
本文根據(jù)2021版人工智能訓(xùn)練師的國家職業(yè)技能標(biāo)準(zhǔn)要求,從數(shù)據(jù)采集和數(shù)據(jù)處理出發(fā),根據(jù)微博社區(qū)管理中心公布的謠言進(jìn)行數(shù)據(jù)采集,并參照《CED: Credible Early Detection of Social Media Rumors》語料庫標(biāo)注模式進(jìn)行數(shù)據(jù)標(biāo)注,最后,利用pytorch框架中的封裝函數(shù),在已有的微博謠言語料庫上使用簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類實(shí)踐,激發(fā)學(xué)生對(duì)于人工智能的學(xué)習(xí)興趣,了解人工智能的應(yīng)用方式。
2.1 數(shù)據(jù)采集和數(shù)據(jù)處理
(1)文本種類選擇
社交媒體的飛速發(fā)展帶來了信息量的暴增,使得虛假信息泛濫,這些往往會(huì)引發(fā)諸多不安的因素,給經(jīng)濟(jì)以及社會(huì)帶來不好的影響。謠言止于智者,人工智能可以通過訓(xùn)練好的模型進(jìn)行謠言的初步篩選,將謠言扼殺于搖籃之中,有利于維護(hù)社會(huì)安穩(wěn),促進(jìn)國民身心的健康發(fā)展,符合中國特色社會(huì)主義核心價(jià)值觀。
基于以上原因,筆者將謠言檢測(cè)作為課程的實(shí)踐目標(biāo)。微博作為目前國內(nèi)主流的社交平臺(tái),不僅僅包含一些報(bào)道性的文章,也包括了一些用戶對(duì)于事件的評(píng)論、用戶當(dāng)下的心情等,因此本文主要選取微博博文作為語料庫資源,不僅文本信息量豐富,可選擇的領(lǐng)域多,同時(shí)也與學(xué)生生活息息相關(guān),提高學(xué)生們學(xué)習(xí)的熱情。
(2)數(shù)據(jù)清洗
數(shù)據(jù)清洗也稱為數(shù)據(jù)預(yù)處理,即將爬蟲獲取的數(shù)據(jù)或者App提供的數(shù)據(jù)整理成固定格式的數(shù)據(jù)集,主要包括刪除重復(fù)值,缺失值處理,一致化處理等。文本數(shù)據(jù)的質(zhì)量決定了人工智能模型的準(zhǔn)確性以及語料庫的可復(fù)用性。
人工智能模型輸入的數(shù)據(jù)一般都具有固定的格式,例如,文本固定長度,標(biāo)簽固定類型等等,經(jīng)過處理后的數(shù)據(jù)易于識(shí)別,可讀性高。因此,無論是爬蟲獲取的數(shù)據(jù)或是微博社區(qū)管理中心公布的數(shù)據(jù)都需要進(jìn)行清洗,將不規(guī)則的數(shù)據(jù)文本改成固定格式文本,提高數(shù)據(jù)文本可閱讀的同時(shí)降低數(shù)據(jù)預(yù)處理的時(shí)間復(fù)雜度,提高語料庫質(zhì)量,便于神經(jīng)網(wǎng)絡(luò)的使用。
數(shù)據(jù)清洗一般調(diào)用Python中的第三方庫進(jìn)行,不僅可以大大降低數(shù)據(jù)處理的時(shí)間,同時(shí)幫助學(xué)生復(fù)習(xí)熟悉Python。Python是人工智能最普遍的代碼語言,不僅可以幫助搭建神經(jīng)網(wǎng)絡(luò),同時(shí)可以進(jìn)行文本或是數(shù)字的預(yù)處理。
2.2 數(shù)據(jù)歸納和數(shù)據(jù)標(biāo)注
數(shù)據(jù)文本的真實(shí)性與事件發(fā)生的時(shí)間、事件的表述者以及事件的評(píng)論者息息相關(guān),因此,在進(jìn)行數(shù)據(jù)標(biāo)注的時(shí)候需要考慮到之后進(jìn)行模型訓(xùn)練所可能涉及到的特征信息,這有利于降低模型擬合的難度,減少算力的使用,提高語料庫質(zhì)量。
(1)標(biāo)注規(guī)則
標(biāo)注文本格式如圖1所示,將獲取的微博謠言按照固定的格式進(jìn)行標(biāo)注,其中“text”表示微博文本信息,“verified”表示標(biāo)簽,“reposts”表示轉(zhuǎn)發(fā)的數(shù)量等,詳細(xì)的標(biāo)注規(guī)則和標(biāo)簽可以使語料庫適用多種自然語言應(yīng)用,例如,謠言檢測(cè)、情感分析、事件可信度等等,提高語料庫質(zhì)量和復(fù)用性。
統(tǒng)一的標(biāo)注格式不僅能夠增加語料的可閱讀性,同時(shí)也有利于數(shù)據(jù)預(yù)處理,降低數(shù)據(jù)預(yù)處理時(shí)代碼復(fù)雜度。其次,標(biāo)注規(guī)則參考《CED: Credible Early Detection of Social Media Rumors》,可以幫助學(xué)生提前了解謠言檢測(cè)的語料庫構(gòu)成,降低學(xué)生進(jìn)行簡(jiǎn)單神經(jīng)網(wǎng)絡(luò)實(shí)踐學(xué)習(xí)的時(shí)間成本。借助已經(jīng)成熟的標(biāo)注規(guī)則可以使得學(xué)生更加了解人工智能需要的語料類型和標(biāo)簽類型,幫助學(xué)生更了解人工智能訓(xùn)練師的要求。
(2)數(shù)據(jù)分類
由于數(shù)據(jù)集保存的形式如圖2所示,所以首先需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,將文本轉(zhuǎn)化成計(jì)算機(jī)可以識(shí)別的二進(jìn)制形式,通常使用python第三方庫。
第一步需要對(duì)微博文本使用jieba進(jìn)行分詞,第二步主要采用Word2Vec模型進(jìn)行詞向量的生成,Gensim開發(fā)了一套工具箱叫作gensim,里面繼承了Word2vec方法,因此,可以直接調(diào)用封裝包里面的函數(shù)進(jìn)行詞向量的生成,生成之后每個(gè)詞都是不同的向量表示,第三步,調(diào)用numpy,將向量轉(zhuǎn)化為模型所需要的矩陣形式,便于進(jìn)行點(diǎn)乘計(jì)算。
雖然對(duì)于高職學(xué)生來說,搭建模型進(jìn)行文本分類實(shí)用性不是非常強(qiáng),但流程的完整性有利于學(xué)生理解標(biāo)準(zhǔn)規(guī)則,便于理解人工智能訓(xùn)練師的要求。數(shù)據(jù)預(yù)處理結(jié)束之后,需要搭建神經(jīng)網(wǎng)絡(luò),本文主要使用通用框架pytorch進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)的搭建。PyTorch是由Facebook開發(fā)和維護(hù)的開源深度學(xué)習(xí)框架,易于學(xué)習(xí),對(duì)接了學(xué)術(shù)界以及工業(yè)界的要求。其中神經(jīng)網(wǎng)絡(luò)主要使用nn.module進(jìn)行封裝,采用基于動(dòng)態(tài)圖的機(jī)制,使網(wǎng)絡(luò)搭建更方便,更靈活,借助第三方框架,不需要具體學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的推導(dǎo)公式,降低了人工智能學(xué)習(xí)門檻,有利于高職院校培養(yǎng)符合國家需求的高素質(zhì)技術(shù)技能人才。
模型搭建成功之后,輸入一個(gè)微博文本之后,模型會(huì)根據(jù)訓(xùn)練數(shù)據(jù)中的一些特征自動(dòng)判斷該微博文本是不是謠言,最后輸出一個(gè)判斷結(jié)果,這也是自然語言處理中文本分類中二分類的一個(gè)簡(jiǎn)單應(yīng)用。
3 核心技術(shù)
3.1 Word2Vec
通過簡(jiǎn)單使用,讓學(xué)生了解詞向量技術(shù)。計(jì)算機(jī)底層都是使用二進(jìn)制進(jìn)行數(shù)據(jù)傳輸?shù)模虼诉M(jìn)行自然語言處理的第一步就是需要將文字轉(zhuǎn)化為計(jì)算機(jī)能夠識(shí)別的語言。語言模型是自然語言處理的基礎(chǔ),語言模型就是計(jì)算一個(gè)句子出現(xiàn)的概率,例如“我”使用[1000]表示“愛”使用[0100]類似詞向量來表示“句子”。
3.2 謠言檢測(cè)模型
本文主要使用Pytorch封裝函數(shù)搭建單層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行謠言檢測(cè),其工作原理是:將微博文本使用word2vec表示之后輸入到卷積神經(jīng)網(wǎng)絡(luò)中,然后使用分類器進(jìn)行二分類任務(wù),辨別該微博文本是不是謠言。
教師在教學(xué)過程中可以通過謠言檢測(cè)的具體示例來講解自然語言處理的流程,并幫助學(xué)生了解深度學(xué)習(xí)部分理論知識(shí),有利于學(xué)生理解數(shù)據(jù)、標(biāo)簽等標(biāo)注的規(guī)則。
4 結(jié)語
根據(jù)人工智能訓(xùn)練師的要求,本文引入了謠言檢測(cè)的案例教學(xué)方法來進(jìn)行人工智能課程的講授。該案例教學(xué)能夠讓學(xué)生以更加直觀的方式了解整個(gè)人工智能的流程,有利于幫助學(xué)生對(duì)于數(shù)據(jù)清洗和數(shù)據(jù)標(biāo)注的理解,激發(fā)學(xué)生的興趣,使其能夠達(dá)到人工智能訓(xùn)練師中關(guān)于數(shù)據(jù)標(biāo)注等的要求,有效避免了因理論教學(xué)晦澀難懂導(dǎo)致學(xué)生產(chǎn)生畏難情緒的問題。該案例中語料庫貼近生活,整個(gè)流程簡(jiǎn)單易懂,涉及的技術(shù)與課堂教育教學(xué)管理相結(jié)合,能夠讓學(xué)生了解自然語言處理的步驟,降低人工智能訓(xùn)練師的準(zhǔn)入門檻。因此,將實(shí)際案例引入人工智能課程實(shí)踐教學(xué)關(guān)注力中,不僅可以提高教學(xué)質(zhì)量,也可以讓學(xué)生找到學(xué)習(xí)方向,了解目前市場(chǎng)上的需求,做到與時(shí)俱進(jìn)。
(作者單位:蘇州農(nóng)業(yè)職業(yè)技術(shù)學(xué)院)