摘要:本文介紹了不寫Python代碼訓(xùn)練AI模型的技術(shù)細(xì)節(jié)和開發(fā)AI項目的具體流程,這種AI項目開發(fā)方式對學(xué)生的編程能力要求較低,為義務(wù)教育學(xué)段實施AI教育提供了新的思路。
關(guān)鍵詞:EasyTrain;XEduHub;AI模型訓(xùn)練
中圖分類號:G434 文獻(xiàn)標(biāo)識碼:A 論文編號:1674-2117(2024)13-0090-03
生活中的大量真實問題,往往需要自主訓(xùn)練個性化的模型來解決。這種利用自己訓(xùn)練的模型而開發(fā)的AI項目,筆者稱之為“個性化”AI項目,畢竟現(xiàn)有AI模型提供的往往是“通用”能力,如任何一個圖像分類模型都無法識別我家寵物和鄰居家寵物的區(qū)別。之前開發(fā)“個性化”AI項目對學(xué)生的Python能力要求較高,學(xué)有余力的中學(xué)生才會試著去探究。但近幾年由于相關(guān)工具的出現(xiàn),訓(xùn)練AI模型的技術(shù)門檻越來越低,現(xiàn)在哪怕不會寫Python代碼,也能借助Mind+來開發(fā)“個性化”AI項目。
自主訓(xùn)練AI模型解決問題的流程分析
開發(fā)“個性化”AI項目大致可分為模型訓(xùn)練和模型應(yīng)用兩個環(huán)節(jié)。模型訓(xùn)練是指從收集數(shù)據(jù)開始,先搭建合適的算法然后訓(xùn)練,最終得到具備某種能力的模型。模型應(yīng)用則是將訓(xùn)練好的模型部署到實際場景中,解決真實問題。要讓一個AI模型“變成”一個AI應(yīng)用系統(tǒng),要么將模型放在某個已經(jīng)編寫好的程序中,要么結(jié)合某種編程語言,將模型集成到各種程序中。如圖1所示,一個要解決真實問題的個性化AI項目,需要收集數(shù)據(jù)并自主訓(xùn)練AI模型,成為數(shù)據(jù)處理環(huán)節(jié)的核心模塊。
要實現(xiàn)不編寫Python開發(fā)“個性化”AI項目,顯然需要具備兩方面的條件:其一是借助不編寫Python代碼的模型訓(xùn)練工具,收集數(shù)據(jù)并訓(xùn)練個性化的AI模型;其二是將這一模型整合到圖形化編程工具中去,形成一個AI應(yīng)用。目前,這兩個條件都已經(jīng)達(dá)到,前者可以借助EasyTrain結(jié)合XEdu來實現(xiàn),后者可以借助XEduHub結(jié)合Mind+來實現(xiàn)。
借助EasyTrain訓(xùn)練個性化AI模型
模型訓(xùn)練工作大致可以分為數(shù)據(jù)準(zhǔn)備、模型搭建、模型訓(xùn)練、模型評估等核心環(huán)節(jié),如圖2所示。從工作流程可以看出,訓(xùn)練AI模型的難度在數(shù)據(jù)準(zhǔn)備和算法搭建環(huán)節(jié),而訓(xùn)練的速度則取決于算力。只要找到合適的工具,訓(xùn)練常見的AI模型并不困難。
對于不熟悉Python代碼的學(xué)生來說,只要安裝了XEdu環(huán)境,即可使用EasyTrain來訓(xùn)練模型(如圖3)。EasyTrain是XEdu項目中“EasyDL”系列工具中的一種。顧名思義,它就是用來做模型訓(xùn)練的小工具。EasyTrain支持MMEdu、BaseNN和BaseML,能夠在網(wǎng)頁點擊鼠標(biāo)生成模型訓(xùn)練代碼,也能夠在網(wǎng)頁端調(diào)用底層環(huán)境訓(xùn)練模型。
EasyTrain位于“XEdu一鍵安裝包”的“EasyDL”文件夾(如圖4),也可以使用命令“pip install easy-xedu”單獨(dú)安裝。EasyTrain在訓(xùn)練啟動時會自動檢查所依賴的Python環(huán)境。如果缺少對應(yīng)環(huán)境,會給出提示(如運(yùn)行BaseML生成的代碼需要安裝BaseML,命令為“pip install BaseML”)。啟動EasyTrain同樣是使用指令來完成,命令為“EasyTrain”。使用EasyTrain雖然不需要寫代碼,但要訓(xùn)練出一個AI模型不僅需要收集相關(guān)數(shù)據(jù),還要了解機(jī)器學(xué)習(xí)的專用名詞,如數(shù)據(jù)集格式、學(xué)習(xí)率(lr)、輪次(epochs)等。BaseML基于Scikit-Learn,BaseNN和MMEdu基于Pytorch開發(fā),使用的關(guān)鍵詞和絕大多數(shù)的教程是一致的。
實際上,只要具備最基本的Python語法知識,就能借助XEdu文檔編寫出訓(xùn)練模型的代碼。XEdu的系列工具訓(xùn)練模型的代碼幾乎都是公式化的,查看EasyTrain生成的代碼就能看出,只需要更換數(shù)據(jù)集地址、算法名稱和部分參數(shù)。當(dāng)然,也可以借助大語言模型來生成訓(xùn)練模型的代碼。
在Mind+上完成個性化模型推理
幾乎每一種AI開發(fā)框架都會有自己特定類型的模型,如PyTorch的模型格式為“.pth”、TensorFlow的模式格式為“.h5”等。為了讓AI模型更容易轉(zhuǎn)化為應(yīng)用軟件,不同的企業(yè)和機(jī)構(gòu)相繼推出了各自的推理工具(也稱推理框架、部署工具)。目前,ONNX Runtime是一個應(yīng)用較為廣泛的推理框架,其模型格式為ONNX。EasyTrian在訓(xùn)練模型的最后階段,都會提醒是否轉(zhuǎn)換為ONNX格式。如果忘記轉(zhuǎn)換,后期也可以用“EasyDL”中的“EasyConvert.bat”來轉(zhuǎn)換。
一般來說,訓(xùn)練模型的工具也會自帶推理功能,如XEdu工具的XEduHub。XEduHub將自主訓(xùn)練的模型推理,稱之為“通用任務(wù)”。“通用任務(wù)”的推理工具、語法和“預(yù)置任務(wù)”一致,也是使用Workflow模塊,只要將“task”名稱改為工具名稱,如“mmedu”“BaseML”等即可,如圖5所示。
XEduHub的通用任務(wù)不僅支持XEdu系列工具訓(xùn)練的模型,還支持其他的ONNX模型(如圖6)。學(xué)習(xí)者可以通過ModelScope(魔搭社區(qū))或者Hugging Face下載自己感興趣的模型,然后通過XEduHub推理。但前提是需要了解這個模型的輸入數(shù)據(jù)格式以及輸出結(jié)果數(shù)據(jù)中代表的意義。
結(jié)語
XEdu的核心設(shè)計理念是將AI模型訓(xùn)練和模型推理工作分離,降低了用AI解決問題的門檻?,F(xiàn)在無代碼訓(xùn)練模型的工具很多,而在大語言模型的支持下,通過合適的提示詞,也能得到直接可用的模型訓(xùn)練代碼。因此,訓(xùn)練常見的AI模型并非中小學(xué)生不可挑戰(zhàn)的難題。而隨著OpenHydra的出現(xiàn),搭建支持算力設(shè)備的訓(xùn)練環(huán)境也會變得越來越簡單。也許過不了多久,互聯(lián)網(wǎng)上就會出現(xiàn)各種用自然語言即可完成所有操作的模型訓(xùn)練工具。
另外,經(jīng)過本文的分析可以發(fā)現(xiàn),無論是AI模型訓(xùn)練還是推理,對編程的要求都越來越低,幾乎沒有難度。但也要明確一點,要實現(xiàn)用AI解決真實問題,AI基礎(chǔ)知識是必備的,如神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)。實際上對中小學(xué)生來說,用AI解決問題的最大難度不在算法和算力上,而在于數(shù)據(jù)——如何根據(jù)需求收集相關(guān)的數(shù)據(jù)。