李四海 李燕
摘要 文章針對(duì)醫(yī)學(xué)數(shù)據(jù)挖掘課程教學(xué)過(guò)程中存在的涉及數(shù)學(xué)學(xué)科知識(shí)較多、理論知識(shí)抽象、教學(xué)難度較大、理論及實(shí)踐教學(xué)資源匱乏等問(wèn)題,按照培養(yǎng)方案,遵循“模塊化、層次化、開(kāi)放性”的原則,通過(guò)構(gòu)建優(yōu)質(zhì)的理論和實(shí)踐教學(xué)資源庫(kù)進(jìn)行全程案例驅(qū)動(dòng)教學(xué),能夠降低理論知識(shí)學(xué)習(xí)難度、強(qiáng)化實(shí)踐教學(xué)環(huán)節(jié)、提高學(xué)生的學(xué)習(xí)興趣、提升課程教學(xué)質(zhì)量、促進(jìn)課程建設(shè)和專業(yè)團(tuán)隊(duì)建設(shè)。分析了教學(xué)資源庫(kù)構(gòu)建的必要性、路徑以及對(duì)培養(yǎng)學(xué)生創(chuàng)新能力的重要意義。
關(guān)鍵詞 數(shù)據(jù)挖掘;教學(xué)資源庫(kù);案例驅(qū)動(dòng);創(chuàng)新能力
中圖分類號(hào):G424文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.16400/j.cnki.kjdk.2023.14.034
數(shù)據(jù)挖掘(Data Mining,DM)又稱知識(shí)發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是目前人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn),數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中發(fā)現(xiàn)隱含的、先前未知的并有潛在價(jià)值的規(guī)律和知識(shí)的過(guò)程。數(shù)據(jù)挖掘主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等[1]。與常規(guī)的數(shù)據(jù)挖掘相比,醫(yī)學(xué)數(shù)據(jù)挖掘有其自身的特點(diǎn),主要表現(xiàn)在挖掘?qū)ο蟮膹V泛性和異質(zhì)性、挖掘算法的魯棒性和高效性、獲取知識(shí)或決策的準(zhǔn)確性和可靠性等[2-3]。在醫(yī)學(xué)數(shù)據(jù)挖掘算法中,決策樹(shù)、貝葉斯網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、關(guān)聯(lián)規(guī)則以及主題模型等在醫(yī)學(xué)輔助診斷、醫(yī)學(xué)影像識(shí)別、醫(yī)學(xué)文本語(yǔ)義分析方面取得了較大的進(jìn)展并展現(xiàn)出獨(dú)特的優(yōu)勢(shì)。
2019年10月中共中央、國(guó)務(wù)院發(fā)布的《關(guān)于促進(jìn)中醫(yī)藥傳承創(chuàng)新發(fā)展的意見(jiàn)》提出了以信息化支撐中醫(yī)藥服務(wù)體系建設(shè),實(shí)施“互聯(lián)網(wǎng)+中醫(yī)藥健康服務(wù)”行動(dòng)。意見(jiàn)的發(fā)布,指明了大數(shù)據(jù)與中醫(yī)藥跨學(xué)科發(fā)展的方向,大數(shù)據(jù)在中醫(yī)大數(shù)據(jù)框架相關(guān)研究、物聯(lián)網(wǎng)傳感器技術(shù)相關(guān)研究、特殊疾病的治療相關(guān)研究及中藥材和制藥領(lǐng)域相關(guān)研究方面將大有可為。2020年8月19日,國(guó)家健康醫(yī)療大數(shù)據(jù)研究院正式成立,標(biāo)志著國(guó)家將進(jìn)一步大力推進(jìn)政府健康醫(yī)療信息系統(tǒng)和公共健康醫(yī)療數(shù)據(jù)互聯(lián)、融合、開(kāi)放、共享。隨著近幾年互聯(lián)網(wǎng)、AI、云計(jì)算、物聯(lián)網(wǎng)等高新技術(shù)的發(fā)展,為中醫(yī)藥發(fā)展注入了活力,也為中醫(yī)藥發(fā)揮更大價(jià)值提供了有力支撐。
醫(yī)學(xué)數(shù)據(jù)挖掘課程是醫(yī)學(xué)信息工程本科專業(yè)開(kāi)設(shè)的一門(mén)重要的專業(yè)方向課程,該課程的開(kāi)設(shè)對(duì)于培養(yǎng)既具有一定的健康醫(yī)療背景知識(shí),又具有扎實(shí)的計(jì)算機(jī)科學(xué)知識(shí)和良好的數(shù)據(jù)分析能力的交叉型應(yīng)用型人才具有重要作用,符合教育部目前提出的“新工科”“新醫(yī)科”的新時(shí)代教育模式改革方向。
通過(guò)對(duì)前期發(fā)放的調(diào)查問(wèn)卷進(jìn)行深入分析,結(jié)合多年的教學(xué)經(jīng)驗(yàn)發(fā)現(xiàn),醫(yī)學(xué)數(shù)據(jù)挖掘課程涉及的數(shù)學(xué)知識(shí)較多、理論知識(shí)理解難度較大,主要原因在于理論和實(shí)踐教學(xué)資源匱乏,特別是滿足教學(xué)要求的實(shí)踐教學(xué)資源較少,針對(duì)性不強(qiáng),沒(méi)有進(jìn)行全程案例驅(qū)動(dòng)教學(xué)。針對(duì)上述問(wèn)題,本文分析了目前醫(yī)學(xué)數(shù)據(jù)挖掘課程教學(xué)中存在的問(wèn)題,構(gòu)建理論和實(shí)踐教學(xué)資源庫(kù)的必要性,列舉了構(gòu)建理論和實(shí)踐教學(xué)資源庫(kù)的主要內(nèi)容,最后提出了構(gòu)建教學(xué)資源庫(kù)的路徑和資源庫(kù)的應(yīng)用方法。
1醫(yī)學(xué)數(shù)據(jù)挖掘課程教學(xué)分析
1.1理論知識(shí)抽象,理解困難,教學(xué)難度較大
醫(yī)學(xué)數(shù)據(jù)挖掘課程涉及的數(shù)學(xué)知識(shí)很多,包括最優(yōu)化理論、高等數(shù)學(xué)中的偏導(dǎo)數(shù)及泰勒展開(kāi),線性代數(shù),矩陣論,概率論與數(shù)理統(tǒng)計(jì)中的貝葉斯公式、參數(shù)估計(jì)等知識(shí)點(diǎn)。這些數(shù)學(xué)知識(shí)點(diǎn)是深入理解數(shù)據(jù)挖掘相關(guān)算法的基礎(chǔ),比如在講解樸素貝葉斯分類時(shí),會(huì)涉及貝葉斯公式,上課過(guò)程中發(fā)現(xiàn)部分學(xué)生并沒(méi)有理解貝葉斯公式的實(shí)質(zhì),導(dǎo)致在學(xué)習(xí)貝葉斯分類算法時(shí)存在困難。
1.2缺乏中醫(yī)藥實(shí)踐教學(xué)資源
由于醫(yī)學(xué)數(shù)據(jù)挖掘主要解決的是中醫(yī)藥領(lǐng)域的具體問(wèn)題,現(xiàn)有的實(shí)踐教學(xué)資源主要存在以下三個(gè)方面的問(wèn)題。一是針對(duì)性不強(qiáng)。例如,目前常用的UCI標(biāo)準(zhǔn)數(shù)據(jù)集缺乏有關(guān)中醫(yī)方劑以及中藥紅外光譜方面的數(shù)據(jù)集。二是數(shù)據(jù)集大多是經(jīng)過(guò)預(yù)處理的標(biāo)準(zhǔn)數(shù)據(jù)集,其主要目的在于測(cè)試比較不同算法的性能。但真實(shí)的數(shù)據(jù)挖掘場(chǎng)景通過(guò)數(shù)據(jù)的獲取、對(duì)數(shù)據(jù)的理解以及數(shù)據(jù)預(yù)處理,直接使用標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘?qū)е聦?shí)踐教學(xué)環(huán)節(jié)缺乏完整性。三是實(shí)踐教學(xué)資源和中醫(yī)藥領(lǐng)域問(wèn)題的交叉融合度不夠,不能很好地體現(xiàn)“新工科、新醫(yī)科”的專業(yè)發(fā)展方向。
2教學(xué)資源庫(kù)構(gòu)建的必要性
2.1優(yōu)選教學(xué)資源
醫(yī)學(xué)數(shù)據(jù)挖掘課程主要講授數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域中的具體應(yīng)用,不論是在教材的選擇還是在內(nèi)容的選取方面,不同的中醫(yī)藥院校著重點(diǎn)都有所不同,因此直接選取經(jīng)典的數(shù)據(jù)挖掘教材并講述全部?jī)?nèi)容并不一定能產(chǎn)生好的教學(xué)效果。主要原因在于經(jīng)典的數(shù)據(jù)挖掘教材更加注重算法原理的介紹,會(huì)涉及比較多的數(shù)學(xué)公式推導(dǎo),并且在算法實(shí)例部分不會(huì)或很少涉及中醫(yī)藥領(lǐng)域的具體問(wèn)題。因此,中醫(yī)醫(yī)院院校的醫(yī)學(xué)數(shù)據(jù)挖掘課程需要對(duì)理論教學(xué)內(nèi)容進(jìn)行優(yōu)化,將更多的關(guān)注點(diǎn)放在中醫(yī)藥領(lǐng)域常用的一些算法上,比如主成分分析、偏最小二乘、關(guān)聯(lián)規(guī)則、主題模型、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)以及層次聚類算法等。同時(shí),增加中醫(yī)藥領(lǐng)域的一些實(shí)踐教學(xué)資源,比如方劑數(shù)據(jù)庫(kù)、紅外光譜數(shù)據(jù)庫(kù)、醫(yī)學(xué)影像數(shù)據(jù)庫(kù)以及脈象和舌象數(shù)據(jù)庫(kù)等,通過(guò)理論和實(shí)踐教學(xué)資源庫(kù)的構(gòu)建,體現(xiàn)中醫(yī)藥院校醫(yī)學(xué)數(shù)據(jù)挖掘課程的特色和優(yōu)勢(shì),提高學(xué)生的學(xué)習(xí)興趣,強(qiáng)化學(xué)生對(duì)理論知識(shí)的理解和掌握。
2.2增強(qiáng)實(shí)踐能力
醫(yī)學(xué)數(shù)據(jù)挖掘是一門(mén)實(shí)踐性很強(qiáng)的課程,教學(xué)的最終目的在于讓學(xué)生具備運(yùn)用相關(guān)算法解決實(shí)際問(wèn)題的能力。然而,傳統(tǒng)的實(shí)踐教學(xué)資源大多是基于一些公開(kāi)的標(biāo)準(zhǔn)數(shù)據(jù)集,如UCI公開(kāi)數(shù)據(jù)集、這些數(shù)據(jù)集大多是經(jīng)過(guò)預(yù)處理的,一般沒(méi)有缺失值、噪聲較小,基本可以直接導(dǎo)入使用,一般只能用于學(xué)生理解和運(yùn)用學(xué)習(xí)的相關(guān)算法,對(duì)鍛煉學(xué)生解決實(shí)際問(wèn)題的能力作用有限。實(shí)際的數(shù)據(jù)挖掘過(guò)程大約70%的工作量在于數(shù)據(jù)預(yù)處理,因此,學(xué)生通過(guò)自己獲取數(shù)據(jù)并進(jìn)行數(shù)據(jù)的清洗、缺失值填充、數(shù)據(jù)的規(guī)范化等有利于學(xué)生對(duì)領(lǐng)域知識(shí)的了解,提高學(xué)生分析和解決實(shí)際問(wèn)題的能力。比如,在構(gòu)建近紅外光譜實(shí)踐教學(xué)資源過(guò)程中,其主要流程就包括中藥材的采集、中藥材近紅外光譜的掃描、光譜預(yù)處理方法等。
2.3培養(yǎng)數(shù)據(jù)思維
科學(xué)思維主要包括理論思維、實(shí)驗(yàn)思維、計(jì)算思維以及數(shù)據(jù)思維。在醫(yī)學(xué)信息工程專業(yè)開(kāi)設(shè)的眾多專業(yè)課程中,高等數(shù)學(xué)、線性代數(shù)、概率論與數(shù)理統(tǒng)計(jì)、離散數(shù)學(xué)的等數(shù)學(xué)類課程主要培養(yǎng)學(xué)生的理論思維;大學(xué)物理課程主要培養(yǎng)學(xué)生的實(shí)驗(yàn)思維;數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)、計(jì)算機(jī)組成原理、Java語(yǔ)言程序設(shè)計(jì)、醫(yī)學(xué)信息學(xué)等課程主要培養(yǎng)學(xué)生的計(jì)算思維,學(xué)生通過(guò)這些課程的學(xué)習(xí)能夠?qū)W會(huì)從計(jì)算機(jī)的角度分析問(wèn)題和解決問(wèn)題,主要包括:迭代、遞歸、分治、編碼、分組、存儲(chǔ)以及并行計(jì)算等。隨著大數(shù)據(jù)和云計(jì)算技術(shù)的快速發(fā)展,進(jìn)一步培養(yǎng)學(xué)生的數(shù)據(jù)思維意識(shí)對(duì)于豐富學(xué)生的科學(xué)思維具有重要作用。通過(guò)構(gòu)建高質(zhì)量的醫(yī)學(xué)數(shù)據(jù)挖掘課程實(shí)踐教學(xué)資源庫(kù),開(kāi)展構(gòu)建醫(yī)學(xué)知識(shí)圖譜、醫(yī)學(xué)輔助診斷、醫(yī)學(xué)模式挖掘等方面的交叉研究,從醫(yī)學(xué)數(shù)據(jù)中挖掘出醫(yī)學(xué)領(lǐng)域的一些重要知識(shí)和規(guī)律,最終實(shí)現(xiàn)對(duì)學(xué)生計(jì)算思維和數(shù)據(jù)思維的培養(yǎng)。
2.4促進(jìn)課程建設(shè)和學(xué)科發(fā)展
課程建設(shè)是專業(yè)建設(shè)和學(xué)科建設(shè)的基礎(chǔ),醫(yī)學(xué)數(shù)據(jù)挖掘課程對(duì)于數(shù)據(jù)結(jié)構(gòu)、概率論與數(shù)理統(tǒng)計(jì)、數(shù)據(jù)庫(kù)原理、Python語(yǔ)言程序設(shè)計(jì)等課程的學(xué)習(xí)具有很好的輻射和帶動(dòng)作用,學(xué)生能夠?qū)⒁延械恼n程知識(shí)很好地運(yùn)用到解決數(shù)據(jù)挖掘的實(shí)際問(wèn)題之中,這對(duì)于課程群的建設(shè)具有重要作用。通過(guò)構(gòu)建理論和實(shí)踐教學(xué)資源庫(kù),有利于推進(jìn)教學(xué)模式的創(chuàng)新和教學(xué)方法的改革,有利于開(kāi)展混合式教學(xué),有利于建設(shè)一流課程,促進(jìn)課程建設(shè)和學(xué)科發(fā)展[4]。
3教學(xué)資源庫(kù)的主要內(nèi)容
3.1課程知識(shí)模塊設(shè)置
醫(yī)學(xué)數(shù)據(jù)挖掘課程涉及的理論和算法很多,對(duì)于如何構(gòu)建教學(xué)資源庫(kù)并沒(méi)有明確的結(jié)論,目前還處于探索中[5]。針對(duì)中醫(yī)藥院校開(kāi)設(shè)的醫(yī)學(xué)數(shù)據(jù)挖掘課程,應(yīng)該強(qiáng)調(diào)數(shù)據(jù)挖掘算法在中醫(yī)藥領(lǐng)域的應(yīng)用。為此要對(duì)理論知識(shí)進(jìn)行梳理和優(yōu)化,將在中醫(yī)藥領(lǐng)域常用的算法以知識(shí)點(diǎn)的方式進(jìn)行模塊化,并構(gòu)建相應(yīng)的理論資源庫(kù)和實(shí)踐教學(xué)資源庫(kù)。將不同的知識(shí)點(diǎn)大致分為三個(gè)模塊:中醫(yī)方劑挖掘、中藥質(zhì)量定量分析和定性評(píng)價(jià)、臨床輔助診斷。課程知識(shí)模塊設(shè)置如表1所示。
3.2理論教學(xué)資源庫(kù)
根據(jù)課程知識(shí)的模塊化設(shè)置,按照“模塊化、層次化、開(kāi)放性”的原則構(gòu)建理論教學(xué)資源庫(kù)。理論資源庫(kù)由三個(gè)部分組成:中國(guó)大學(xué)MOOC中有關(guān)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的課程,由教師遴選推薦;經(jīng)典的數(shù)據(jù)挖掘算法源碼實(shí)現(xiàn),scikit-learn等機(jī)器學(xué)習(xí)庫(kù)的介紹;教師錄制數(shù)據(jù)挖掘?qū)д摬糠值膬?nèi)容,該視頻內(nèi)容包括經(jīng)典書(shū)目介紹、學(xué)習(xí)資源推薦、數(shù)據(jù)挖掘常用算法介紹以及常用的應(yīng)用領(lǐng)域等。理論教學(xué)資源和實(shí)踐教學(xué)資源內(nèi)容如圖1所示。
3.3實(shí)踐教學(xué)資源庫(kù)
實(shí)踐教學(xué)資源自底向上分為三個(gè)層次:驗(yàn)證性資源[6]、醫(yī)學(xué)領(lǐng)域資源和開(kāi)放性資源。驗(yàn)證性資源主要包括常用的UCI標(biāo)準(zhǔn)數(shù)據(jù)集,經(jīng)典教材中用到的超市購(gòu)物數(shù)據(jù)集、西瓜數(shù)據(jù)集和天氣數(shù)據(jù)集等。這些數(shù)據(jù)集一般樣本量和特征數(shù)較少,主要用于理解算法的基本原理,熟悉算法的運(yùn)行過(guò)程。醫(yī)學(xué)領(lǐng)域資源主要包括:玉米和小麥等標(biāo)準(zhǔn)紅外光譜數(shù)據(jù)集、方劑數(shù)據(jù)庫(kù)、胸片的影像數(shù)據(jù)庫(kù)以及生物信息學(xué)領(lǐng)域的基因、蛋白數(shù)據(jù)集。學(xué)生在理解數(shù)據(jù)挖掘算法基本原理的基礎(chǔ)上,在更大規(guī)模和更復(fù)雜數(shù)據(jù)上理解和運(yùn)用數(shù)據(jù)挖掘方法解決實(shí)際問(wèn)題,鍛煉醫(yī)學(xué)信息工程專業(yè)學(xué)生或其他中醫(yī)藥學(xué)專業(yè)研究生理解領(lǐng)域問(wèn)題、預(yù)處理數(shù)據(jù)以及優(yōu)化和改進(jìn)模型的能力[7]。開(kāi)放性資源主要包括采集的當(dāng)歸、黃芪、秦艽、黨參等道地藥材的紅外光譜數(shù)據(jù)集和醫(yī)院的HIS、PACS、LIS等系統(tǒng)產(chǎn)生的數(shù)據(jù)集[8],這涉及數(shù)據(jù)集成、數(shù)據(jù)清洗和預(yù)處理等工作。實(shí)踐性教學(xué)資源庫(kù)都是開(kāi)放性的,需要不斷更新和優(yōu)化。
4教學(xué)資源庫(kù)的構(gòu)建路徑和應(yīng)用
醫(yī)學(xué)數(shù)據(jù)挖掘課程開(kāi)展線上線下混合式教學(xué),教學(xué)平臺(tái)由學(xué)校教育技術(shù)中心提供。其中,線上教學(xué)為學(xué)生提供理論教學(xué)資源和實(shí)踐教學(xué)資源。理論教學(xué)資源主要包括教師遴選的中國(guó)大學(xué)MOOC中的部分優(yōu)質(zhì)教學(xué)資源、教師錄制的醫(yī)學(xué)數(shù)據(jù)挖掘課程簡(jiǎn)介視頻、教師錄制的醫(yī)學(xué)數(shù)據(jù)挖掘數(shù)學(xué)基礎(chǔ)知識(shí)講解視頻等。實(shí)踐教學(xué)資源目前主要包括三個(gè)部分:第一是驗(yàn)證性數(shù)據(jù)集,主要包括鳶尾花數(shù)據(jù)集、天氣數(shù)據(jù)集、超市數(shù)據(jù)集、西瓜數(shù)據(jù)集、闌尾炎數(shù)據(jù)集、中風(fēng)數(shù)據(jù)集等。第二是具有中醫(yī)藥特色的中醫(yī)藥學(xué)數(shù)據(jù)集,包括方劑數(shù)據(jù)庫(kù)、部分道地藥材的紅外光譜數(shù)據(jù)集、部分醫(yī)學(xué)影像數(shù)據(jù)集。第三是與相關(guān)醫(yī)療機(jī)構(gòu)和疾控中心共享的僅用于學(xué)術(shù)研究的一些開(kāi)放性數(shù)據(jù)集,包括從醫(yī)院信息系統(tǒng)導(dǎo)出的各種醫(yī)學(xué)影像數(shù)據(jù)集、臨床診斷數(shù)據(jù)集和各種流行病調(diào)查方面的數(shù)據(jù)集等。實(shí)踐性教學(xué)資源庫(kù)根據(jù)理論教學(xué)內(nèi)容的調(diào)整不斷進(jìn)行更新和優(yōu)化,符合“模塊化、層次化、開(kāi)放性”的構(gòu)建原則。
教學(xué)資源庫(kù)的應(yīng)用按照層次化的原則,在授課過(guò)程中首先使用驗(yàn)證性實(shí)踐教學(xué)資源,目的是使學(xué)生理解算法的基本原理,例如,在講解關(guān)聯(lián)規(guī)則分析時(shí),使用AllElectronics某分店的事務(wù)數(shù)據(jù)集,該數(shù)據(jù)集共有5個(gè)事務(wù),5個(gè)商品項(xiàng)。通過(guò)該數(shù)據(jù)集,學(xué)生能夠非常直觀地理解如何通過(guò)k-1項(xiàng)集的拼接得到候選k項(xiàng)集,如何利用先驗(yàn)知識(shí)對(duì)候選k項(xiàng)集進(jìn)行剪枝,如何根據(jù)預(yù)設(shè)的最小支持度閾值判斷候選k項(xiàng)集是否為頻繁k項(xiàng)集等。在理解算法原理的基礎(chǔ)上,基于Weka等流行的數(shù)據(jù)挖掘平臺(tái)導(dǎo)入該數(shù)據(jù)集[9],由于學(xué)生已經(jīng)理解了相關(guān)算法,因此很容易理解Weka中Apriori算法各個(gè)算法參數(shù)的含義,也清楚參數(shù)的設(shè)置對(duì)挖掘結(jié)果的影響,通過(guò)對(duì)挖掘結(jié)果的驗(yàn)證,學(xué)生已經(jīng)基本熟悉了數(shù)據(jù)挖掘的基本流程。然后使用醫(yī)學(xué)領(lǐng)域的實(shí)踐教學(xué)資源,該教學(xué)資源是冠心病方劑的一些經(jīng)典方劑,學(xué)生可以直接從線上教學(xué)平臺(tái)下載使用,該數(shù)據(jù)集需要進(jìn)行數(shù)據(jù)清洗,數(shù)據(jù)格式轉(zhuǎn)換和數(shù)據(jù)集成,學(xué)生使用關(guān)聯(lián)規(guī)則挖掘算法,挖掘出治療冠心病的常用對(duì)藥。通過(guò)該層次的實(shí)踐環(huán)節(jié),學(xué)生將能夠進(jìn)一步加深對(duì)關(guān)聯(lián)規(guī)則挖掘算法的理解,同時(shí)進(jìn)一步熟悉數(shù)據(jù)挖掘在中醫(yī)藥領(lǐng)域的具體應(yīng)用。
教學(xué)資源庫(kù)的應(yīng)用也要體現(xiàn)開(kāi)放性的原則。例如,在講解CART回歸決策樹(shù)算法時(shí),首先使用驗(yàn)證性實(shí)踐教學(xué)資源,該數(shù)據(jù)集共10個(gè)樣本,一個(gè)特征x,構(gòu)建決策樹(shù)根據(jù)x預(yù)測(cè)y值[10]。借助EXCEL等電子表格軟件,很容易計(jì)算每次分裂后左右子樹(shù)的均方根誤差,并完整復(fù)現(xiàn)二叉樹(shù)的分裂過(guò)程,需要指出的是,決策樹(shù)算法知識(shí)點(diǎn)可以挖掘出很好的課程思政元素[11],比如,從葉子結(jié)點(diǎn)中樣本的個(gè)數(shù)引出個(gè)性與共性的關(guān)系,葉子節(jié)點(diǎn)數(shù)量與模型復(fù)雜度以及模型欠學(xué)習(xí)和過(guò)學(xué)習(xí)的關(guān)系等,引導(dǎo)學(xué)生要正確處理個(gè)性與共性的辯證關(guān)系,樹(shù)立團(tuán)隊(duì)意識(shí),善于融入集體和團(tuán)隊(duì)。在學(xué)生弄懂算法基本原理的基礎(chǔ)上,使用醫(yī)學(xué)領(lǐng)域?qū)嵺`教學(xué)資源中的corn近紅外光譜數(shù)據(jù)集,該數(shù)據(jù)集80個(gè)樣本,700個(gè)波數(shù)特征,預(yù)測(cè)值為moisture、oil、protein、starch等成分含量。學(xué)生可以基于Weka完成該實(shí)踐任務(wù),熟悉數(shù)據(jù)挖掘的基本過(guò)程;也可以基于scikit-learn等基于python的機(jī)器學(xué)習(xí)庫(kù),調(diào)用CART回歸樹(shù)完成該實(shí)踐環(huán)節(jié),進(jìn)一步熟悉sklearn中決策樹(shù)的使用接口,參數(shù)設(shè)置對(duì)決策樹(shù)的復(fù)雜度及預(yù)測(cè)能力的影響。在開(kāi)放性資源的使用部分,學(xué)生通過(guò)參與教師課題,完成當(dāng)歸、秦艽等中藥材的近紅外光譜采集,進(jìn)一步理解近紅外光譜的指紋特性,光譜數(shù)據(jù)中的噪聲來(lái)源及類型,不同預(yù)處理方法對(duì)預(yù)測(cè)結(jié)果的影響等,通過(guò)該實(shí)踐環(huán)節(jié),學(xué)生加深了對(duì)數(shù)據(jù)的理解和認(rèn)識(shí),也進(jìn)一步體會(huì)到數(shù)據(jù)預(yù)處理對(duì)數(shù)據(jù)挖掘的重要性,增強(qiáng)了學(xué)生開(kāi)展交叉研究的能力。
5結(jié)語(yǔ)
隨著中醫(yī)藥信息化的不斷發(fā)展,在中醫(yī)藥大數(shù)據(jù)背景下,醫(yī)學(xué)數(shù)據(jù)挖掘課程的開(kāi)設(shè)對(duì)于醫(yī)學(xué)信息工程專業(yè)及其他中醫(yī)藥學(xué)專業(yè)的研究生都具有重要意義。理論和實(shí)踐教學(xué)資源庫(kù)的構(gòu)建對(duì)于優(yōu)化教學(xué)資源、進(jìn)行全過(guò)程案例驅(qū)動(dòng)教學(xué),構(gòu)建符合OBE理念的人才培養(yǎng)模式、提高學(xué)生的實(shí)踐能力和創(chuàng)新能力具有重要作用,教學(xué)資源庫(kù)的構(gòu)建滿足“模塊化、層次化、開(kāi)放性”的原則,其中的方劑數(shù)據(jù)庫(kù)、光譜數(shù)據(jù)庫(kù)以及影像數(shù)據(jù)集體現(xiàn)了中醫(yī)藥特色。教學(xué)資源庫(kù)的使用既強(qiáng)調(diào)理論知識(shí)的模塊化,更加要重視實(shí)踐環(huán)節(jié)的層次化和開(kāi)放性,只有層層遞進(jìn),逐步提高,才能培養(yǎng)學(xué)生既具有扎實(shí)的理論基礎(chǔ),又具有較強(qiáng)的解決實(shí)際問(wèn)題和開(kāi)展交叉研究的能力。同時(shí),教學(xué)資源庫(kù)也要不斷更新和優(yōu)化,這樣才能不斷滿足醫(yī)學(xué)數(shù)據(jù)挖掘技術(shù)發(fā)展的需要。
基金項(xiàng)目:甘肅中醫(yī)藥大學(xué)教學(xué)研究與教學(xué)改革項(xiàng)目(YB-201812)。
參考文獻(xiàn)
[1]劉銘,呂丹,安永燦.大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].科技導(dǎo)報(bào),2018,36(9):73-83.
[2]秦文哲,陳進(jìn),董力.大數(shù)據(jù)背景下醫(yī)學(xué)數(shù)據(jù)挖掘的研究進(jìn)展及應(yīng)用[J].中國(guó)胸心血管外科臨床雜志,2016,23(1):55-60.
[3]張國(guó)慶,李亦學(xué),王澤峰,等.生物醫(yī)學(xué)大數(shù)據(jù)發(fā)展的新挑戰(zhàn)與趨勢(shì)[J].中國(guó)科學(xué)院院刊,2018,33(8):853-860.
[4]黃嵐.數(shù)據(jù)挖掘課程實(shí)踐教學(xué)資源庫(kù)建設(shè)[J].計(jì)算機(jī)教育,2014(12): 89-92.
[5]安璐,歐孟花,李綱.數(shù)據(jù)挖掘課程的知識(shí)體系構(gòu)建[J].圖書(shū)情報(bào)知識(shí),2016(5):4-12.
[6]潘媛媛,黃道斌,盧小杰,等.醫(yī)學(xué)院校數(shù)據(jù)挖掘?qū)嵺`教學(xué)資源庫(kù)建設(shè)[J].計(jì)算機(jī)教育,2020(7):144-147.
[7]李四海,任真,李燕.中醫(yī)藥院校研究生計(jì)算機(jī)應(yīng)用能力培養(yǎng)的探索與研究[J].甘肅中醫(yī)藥大學(xué)學(xué)報(bào),2017,34(4):105-108.
[8]吳宗友,白昆龍,楊林蕊,等.電子病歷文本挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2021,58(3):513-527.
[9]譚成兵,周湘貞,朱云飛.基于Weka和協(xié)同機(jī)器學(xué)習(xí)技術(shù)的數(shù)據(jù)挖掘方法研究[J].長(zhǎng)春大學(xué)學(xué)報(bào),2020,30(12):5-9.
[10]李航.機(jī)器學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2022.
[11]王倩,何海濤,王巖.“數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)”課程思政建設(shè)的探索與實(shí)踐[J].教學(xué)研究,2022,45(3):75-80.