摘要:本文圍繞具有跨學(xué)科特性的利用人工智能進(jìn)行校園植物觀測(cè)的活動(dòng),探討用于人工智能學(xué)習(xí)的本土對(duì)象的數(shù)據(jù)集構(gòu)建的相關(guān)問題,提出應(yīng)該從學(xué)生日常生活出發(fā),結(jié)合真實(shí)情境,為數(shù)據(jù)采集和分類任務(wù)建立具有一定合理性、真實(shí)性的目標(biāo)框架,可以為分類目標(biāo)限定范圍,分類任務(wù)中的對(duì)象的特征既要有相似性又要有區(qū)分度,可以通過計(jì)算機(jī)視覺庫的自動(dòng)化處理來提高特征數(shù)據(jù)采集和記錄的效率。
關(guān)鍵詞:人工智能;自然觀測(cè);數(shù)據(jù)集
中圖分類號(hào):G434 文獻(xiàn)標(biāo)識(shí)碼:A 論文編號(hào):1674-2117(2024)19-0015-04
用于人工智能教學(xué)的數(shù)據(jù)集可以是人為主動(dòng)生成的,如用攝像頭拍攝手勢(shì)、用加速度傳感器記錄人的運(yùn)動(dòng)狀態(tài)、對(duì)電腦中的涂鴉截屏等,也可以利用機(jī)器學(xué)習(xí)庫生成某些帶有隨機(jī)性的數(shù)據(jù)。更多情況下,數(shù)據(jù)集的數(shù)據(jù)來自真實(shí)環(huán)境中某些對(duì)象的特征,如道路、建筑、動(dòng)物、植物等對(duì)象的某些特征數(shù)據(jù)。對(duì)于具有跨學(xué)科特征的與自然觀測(cè)相關(guān)的實(shí)踐活動(dòng)或自主研究項(xiàng)目,往往希望學(xué)生能夠完整地體驗(yàn)到在自然環(huán)境中采集數(shù)據(jù)、整理數(shù)據(jù)、處理和分析數(shù)據(jù)的過程,其中面臨的一些問題就是應(yīng)當(dāng)采集哪些對(duì)象的數(shù)據(jù)、采集哪一方面特征的數(shù)據(jù)、如何采集數(shù)據(jù)等。
雖然有很多數(shù)據(jù)集采集自真實(shí)世界中的某種自然的對(duì)象,但它們可能距離學(xué)生的生活較遠(yuǎn)。例如,鳶尾花數(shù)據(jù)集(Iris Dataset)是在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中常用的一個(gè)經(jīng)典數(shù)據(jù)集,該數(shù)據(jù)集包含了150個(gè)樣本,分為山鳶尾(Iris-setosa)、變色鳶尾(Iris-versicolor)和維吉尼亞鳶尾(Iris-virginica)三種類別,每類包含50個(gè)樣本,每個(gè)樣本有花萼長度(Sepal Length)、花萼寬度(Sepal Width)、花瓣長度(Petal Length)和花瓣寬度(Petal Width)四個(gè)特征。由于數(shù)據(jù)集結(jié)構(gòu)簡(jiǎn)單且易于理解,常被用作人工智能教學(xué)中的示例或?qū)嶒?yàn)素材??墒?,由于活動(dòng)范圍的限制,筆者尚未親眼見到鳶尾花數(shù)據(jù)集中三種鳶尾中的任意一種,筆者所處的上海市區(qū),常見的是公園中作為園林花卉栽種的路易斯安那鳶尾、西伯利亞鳶尾或日本鳶尾。但這些鳶尾采集數(shù)據(jù)卻存在頗多問題,如:較少有學(xué)校同時(shí)種植多個(gè)品種的鳶尾;鳶尾花雖然花期可能長達(dá)三個(gè)月,但對(duì)于全年的教學(xué)安排來說,可供觀察和記錄數(shù)據(jù)的時(shí)間相對(duì)有限;較少有供學(xué)生自由對(duì)鳶尾花開展測(cè)量的場(chǎng)所;這些種類的鳶尾花的顏色和形態(tài)差異太大,利用機(jī)器學(xué)習(xí)進(jìn)行分類的必要性不足。
因此,本文圍繞具有跨學(xué)科特性的利用人工智能進(jìn)行校園植物觀測(cè)的活動(dòng),來探討構(gòu)建用于人工智能學(xué)習(xí)(而非科學(xué)研究)的本土對(duì)象的數(shù)據(jù)集的相關(guān)問題。為了方便說明問題,本文的討論基于這樣的活動(dòng)過程:首先,安排學(xué)生在校園內(nèi)采集標(biāo)本;其次,將標(biāo)本輸入計(jì)算機(jī),生成數(shù)據(jù)集,繼而由機(jī)器學(xué)習(xí)算法或人工神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練生成分類模型;最后,針對(duì)測(cè)試集的樣本驗(yàn)證分類效果。
數(shù)據(jù)采集
需要結(jié)合教學(xué)情境,為數(shù)據(jù)采集建立具有一定合理性、真實(shí)性的目標(biāo)框架。從學(xué)生日常生活出發(fā)創(chuàng)設(shè)情境,相較專業(yè)的科學(xué)研TEwFPT+8Ym/z7IiEKxo7jw==究的分類,更容易找到具有合理性、真實(shí)性的分類任務(wù)。例如,首先,可以讓學(xué)生仔細(xì)觀察道路兩旁的行道樹,思考如何通過觀察特征來區(qū)分不同的行道樹種類;其次,用現(xiàn)有的人工智能軟件來對(duì)行道樹的種類進(jìn)行區(qū)分;接著,討論人工智能軟件是如何成功進(jìn)行分類的;再次,采集標(biāo)本,記錄數(shù)據(jù),借助生成式人工智能,利用機(jī)器學(xué)習(xí)庫或神經(jīng)網(wǎng)絡(luò)庫,自行架設(shè)機(jī)器學(xué)習(xí)或人工神經(jīng)網(wǎng)絡(luò)模型;最后,用這些模型進(jìn)行分類測(cè)試。
以行道樹為數(shù)據(jù)采集對(duì)象的原因有:①行道樹種類不多,相較極為龐大的植物家族來說,僅對(duì)行道樹分類是一個(gè)相對(duì)可控的分類任務(wù),當(dāng)然可能有其他的分類任務(wù)框架,如分辨校園中的玉蘭科植物、分辨薔薇科植物等,特定范圍的限定,能夠極大地簡(jiǎn)化分類任務(wù)。②獲取行道樹的特征數(shù)據(jù)也較容易。例如,容易采集到樹木的落葉,除了秋季能采集到多種樹木的落葉外,春季也有多種樹木在換葉期,如香樟、女貞、廣玉蘭等,香樟和女貞的樹葉形態(tài)相近但又略有區(qū)別,用來作為機(jī)器學(xué)習(xí)分類任務(wù)的對(duì)象,既為特定情境提供任務(wù)(人可能因?yàn)闃淙~形狀相似而誤認(rèn)),又具有用人工智能解決問題的挑戰(zhàn)性(需要研究如何合理選取特征數(shù)據(jù))。在教學(xué)過程中,可以安排學(xué)生拾取校園中的落葉帶至教室再用攝像頭進(jìn)行記錄,建議在拍攝時(shí)設(shè)置統(tǒng)一的背景,便于后期圖像處理。除了樹葉,不同樹種的樹皮紋理也是一個(gè)可以較為方便獲得的特征。如圖1所示是香樟和女貞這兩種樹木的樹皮圖像數(shù)據(jù)的一部分。
在植物學(xué)中,植物分類主要以植物的花、果實(shí)和種子作為分類依據(jù),且尤其突出花作為分類依據(jù)的作用。原因主要是花、果實(shí)和種子受環(huán)境影響較小,形態(tài)結(jié)構(gòu)相對(duì)穩(wěn)定,在進(jìn)化過程中,花、果實(shí)和種子的形態(tài)結(jié)構(gòu)變化不大,保持了相對(duì)的穩(wěn)定性,它們的形態(tài)結(jié)構(gòu)特征能夠反映植物之間的親緣關(guān)系和進(jìn)化關(guān)系;相比之下,植物的莖、葉等器官在生長周期中變化較多,更易受外界環(huán)境的影響,形態(tài)、大小、顏色等方面與植物種類對(duì)應(yīng)關(guān)系不確定,所以不太適合作為植物分類的主要依據(jù)。不過,如果是在校園環(huán)境中實(shí)施利用人工智能進(jìn)行植物分類的活動(dòng),情況就有所不同,因?yàn)樾@中植物的類別總體有限,植物的莖、葉等器官能夠和有限的植物種類建立起對(duì)應(yīng)關(guān)系。而若要對(duì)花進(jìn)行觀測(cè)和數(shù)據(jù)采集,容易受到多方面的限制,如:花的花期是有限的;不同花的開放時(shí)間不同;較難將花單獨(dú)摘取下來記錄數(shù)據(jù),而若不摘取下來,測(cè)量和記錄又比較麻煩;另外,花的形態(tài)更為多樣細(xì)致,數(shù)據(jù)描述更為困難,對(duì)圖片的像素要求高,在后期自行構(gòu)造人工智能分類模型時(shí),可能會(huì)有算力上的壓力。當(dāng)然,可以設(shè)法人為地解決以上困難,如為人工智能教學(xué)建設(shè)一塊專用的植物試驗(yàn)田。
圖像處理與數(shù)據(jù)記錄
在教學(xué)過程中,雖然可以人工測(cè)量并記錄特征數(shù)據(jù),但這通常需要花費(fèi)大量時(shí)間,測(cè)量過程也較容易受主觀因素影響,所以,可以利用計(jì)算機(jī)視覺庫(如OpenCV庫)自動(dòng)測(cè)量并獲取特征數(shù)據(jù)。自動(dòng)采集的數(shù)據(jù)可能有偏差,但只要樣本數(shù)量足夠大,記錄得到的特征數(shù)據(jù)仍然是可靠的。
以樹葉為例,可以通過視覺庫獲取特征數(shù)據(jù)——樹葉的顏色、長寬比例、邊緣平滑程度、圖像信息熵等,相關(guān)代碼可以利用生成式人工智能快速編寫完成。例如,為了獲得樹葉的多項(xiàng)特征,可撰寫如下提示語句交由生成式人工智能處理:“讀取當(dāng)前文件夾下所有圖片,選取每張圖片正中間19*19像素區(qū)域,獲取其RGB值,將R值除以G值所得到的數(shù)據(jù)存儲(chǔ)于dataset.csv文件的color字段中;選取圖片背景中的唯一物體,計(jì)算其邊緣平滑程度,將數(shù)據(jù)存儲(chǔ)于dataset.csv文件的edge字段中;計(jì)算該物體長度除以寬度數(shù)據(jù),存儲(chǔ)于dataset.csv文件的shape字段中;根據(jù)文件名首字母判斷物體種類到底是A還是B,存儲(chǔ)于dataset.csv文件的species字段中?!碑?dāng)然,在實(shí)際操作中,需要調(diào)整提示詞以及生成代碼中的閾值參數(shù),以求得較佳效果。如果后續(xù)實(shí)驗(yàn)是利用人工神經(jīng)網(wǎng)絡(luò)構(gòu)造樹葉的分類模型,則需要根據(jù)實(shí)際的算力,將圖像轉(zhuǎn)換成灰度并降低像素值,當(dāng)然,這樣會(huì)面臨顏色信息丟失的問題,可以通過顏色空間轉(zhuǎn)換,或提取顏色信息作為神經(jīng)網(wǎng)絡(luò)的輔助輸入等方法解決問題。
如圖2所示是利用生成式人工智能的代碼,測(cè)量樹葉并獲取相關(guān)數(shù)據(jù)的dataset.csv文件內(nèi)容的局部。其中,第0個(gè)字段表示種類,A代表香樟落葉,B代表女貞落葉;第1個(gè)字段是顏色數(shù)據(jù),表示樹葉紅色成分比上綠色成分的程度;第2個(gè)字段表示樹葉邊緣光滑程度;第3個(gè)字段表示樹葉所占區(qū)域矩形長度和寬度的比例。從數(shù)據(jù)中可以看出,香樟落葉偏紅一些,女貞落葉偏綠一些;香樟落葉邊緣沒有女貞落葉邊緣平滑;香樟落葉比女貞落葉長寬比例更小一些,也就是說,香樟落葉看上去更胖一些。當(dāng)然,這些特征是從樣本數(shù)據(jù)的整體程度上體現(xiàn)出來的,每一片樹葉個(gè)體上的特征有時(shí)候和種類關(guān)聯(lián)性不強(qiáng),但機(jī)器學(xué)習(xí)算法通過處理大量數(shù)據(jù),以及同時(shí)考慮多個(gè)特征的綜合影響,來更準(zhǔn)確地預(yù)測(cè)植物種類。對(duì)于獲取到的樣本數(shù)據(jù),可以采用特定的機(jī)器學(xué)習(xí)算法來生成預(yù)測(cè)模型并進(jìn)行分類測(cè)試,比較容易理解的機(jī)器學(xué)習(xí)算法有K近鄰、樸素貝葉斯、決策樹等。
值得一提的是,現(xiàn)實(shí)世界具有高度的復(fù)雜性,特征數(shù)據(jù)的提取過程必然經(jīng)過高度的抽象,抽象簡(jiǎn)化了計(jì)算過程,但也掩蓋了部分真相。例如,香樟樹葉和女貞樹葉的長寬比例事實(shí)上非常接近,它們的邊緣本來也都相當(dāng)光滑,但在樹葉落下后,香樟樹葉和女貞樹葉分別以不同的方式蜷曲,許多香樟樹葉邊緣容易蜷曲,產(chǎn)生邊緣不光滑的視覺效果,許多女貞樹葉以主葉脈對(duì)稱作整體蜷曲,如果不將樹葉壓平而是自然放置,就產(chǎn)生出瘦長的視覺效果。所以,對(duì)香樟和女貞掉落樹葉進(jìn)行分類,相較于對(duì)摘取樹枝上的樹葉進(jìn)行分類,對(duì)初學(xué)者而言,實(shí)施分類任務(wù)的難度反而降低了。
數(shù)據(jù)集的使用
如果利用生成式人工智能和機(jī)器學(xué)習(xí)庫,那么分類模型的構(gòu)建是相當(dāng)方便的。例如,圖3所示的是用Scikit-learn庫劃分?jǐn)?shù)據(jù)集,并采用K近鄰算法為樹葉數(shù)據(jù)建立分類模型,并對(duì)測(cè)試集進(jìn)行測(cè)試的例子。即便采集的樣本數(shù)量不是特別多,也能夠利用傳統(tǒng)的機(jī)器學(xué)習(xí)算法構(gòu)建分類模型,不過,需要通過人為觀察選擇出適合用于分類模型的特征。若是利用人工神經(jīng)網(wǎng)絡(luò)來進(jìn)行分類,那就不需要人為選取特征,但需要有更多樣本來供神經(jīng)網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí),而且訓(xùn)練耗時(shí)也較長。圖4所示的是用neurolab庫,對(duì)轉(zhuǎn)換為40*30像素灰度的樹皮的圖案,用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行分類訓(xùn)練的Python代碼。
學(xué)生親自采集樣本、測(cè)量樣本、記錄數(shù)據(jù),并利用機(jī)器學(xué)習(xí)算法或人工神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行分類,相比于單純下載和使用數(shù)據(jù)集進(jìn)行人工智能學(xué)習(xí),具有以下幾個(gè)顯著的好處。
①通過親手采集樣本、測(cè)量和記錄數(shù)據(jù)的過程,不僅鍛煉了學(xué)生的觀察力和動(dòng)手能力,還能讓他們了解數(shù)據(jù)處理和分析的基本步驟,在理論知識(shí)與實(shí)踐的結(jié)合中,增強(qiáng)學(xué)習(xí)興趣和記憶深度。
②加深學(xué)生對(duì)真實(shí)世界問題的理解。來自現(xiàn)實(shí)世界的數(shù)據(jù)往往比用于理論學(xué)習(xí)的數(shù)據(jù)更加復(fù)雜和多變。學(xué)生通過處理自己采集的樣本數(shù)據(jù),能更好地理解實(shí)際情況下可能遇到的各種數(shù)據(jù)問題,如數(shù)據(jù)獲得方式、數(shù)據(jù)選取方式等,同時(shí),在實(shí)踐過程中,學(xué)生能建立起與數(shù)據(jù)的更深的情感聯(lián)系。
③引導(dǎo)學(xué)生更加重視現(xiàn)實(shí)中的問題,如環(huán)境保護(hù)和生物多樣性的問題,增強(qiáng)他們的環(huán)保意識(shí)和責(zé)任感。學(xué)生需要對(duì)自己的數(shù)據(jù)負(fù)責(zé),確保數(shù)據(jù)的準(zhǔn)確性和可靠性,這樣有助于培養(yǎng)研究中的科學(xué)精神和嚴(yán)謹(jǐn)態(tài)度。
④活動(dòng)具有跨學(xué)科特性,涉及生物學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等領(lǐng)域的知識(shí)。在任務(wù)實(shí)施過程中,學(xué)生需要將不同學(xué)科的知識(shí)技能進(jìn)行整合。