曹慧芬
摘要醫(yī)學統(tǒng)計學是數(shù)據(jù)收集、整理、分析、解釋和展示的一門學科。在大數(shù)據(jù)背景下,醫(yī)學統(tǒng)計學課程的建設,除了要加強學生對統(tǒng)計學理論知識的理解,更為重要的是培養(yǎng)學生對實際醫(yī)學大數(shù)據(jù)的收集、分析和展示的能力。R語言作為一種重要的程序語言,具有強大的統(tǒng)計分析和數(shù)據(jù)圖形展示能力。本文詳細探討以R語言對開展醫(yī)學統(tǒng)計學實驗設計的優(yōu)勢,加深學生對統(tǒng)計學理論知識的理解以及數(shù)據(jù)分析能力。
關鍵詞 醫(yī)學統(tǒng)計學 大數(shù)據(jù) R語言
中圖分類號:G424文獻標識碼:ADOI:10.16400/j.cnki.kjdk.2021.25.049
Application of R Language in Medical Statistics Teaching Experiment under the Background of Big Data
CAO Huifen
(School of Medicine, Huaqiao University, Xiamen, Fujian 361021)
AbstractMedical statistics is the discipline of data collection, collation, analysis, interpretation, and presentation. In the context of big data, in addition to traditional statistical theory, the more important is to cultivate students’ ability of collecting, analyzing and presenting the medical big data. As an important programming language, R supports almost all statistical analysis methods and graphic presentation. Here, we discuss the advantages of R language in the design of medical statistics experiment in detailed to improve the understanding of statistical theory and practical data analysis skills of students.
Keywordsmedical statistics; big data; R language
0引言
醫(yī)學統(tǒng)計學是一門對數(shù)據(jù)進行收集、整理、分析、解釋和展示的一門學科,[1]作為高等院校醫(yī)學專業(yè)的基礎必修課程,是醫(yī)學科研和實踐的重要工具。然而,由于統(tǒng)計學理論知識概念相對抽象,邏輯性強,公式煩瑣、計算量大,[2]在傳統(tǒng)教學中,多數(shù)醫(yī)學統(tǒng)計學課程以理論驅動,教學過程中多側重強調統(tǒng)計理論知識推導和實驗設計,使得許多醫(yī)學學生對望而生畏,導致學生理論知識不過關,實際動手能力差,無法靈活運用統(tǒng)計學方法解決實際的醫(yī)學研究問題。[3]
與此同時,在當今大數(shù)據(jù)時代,精準醫(yī)療通過對大數(shù)據(jù)的挖掘和篩選,除了為病人能夠提供最優(yōu)的診斷和治療計劃,還能對未來生活方式做出正確的引導。因此面對時代的挑戰(zhàn),作為新時代的醫(yī)生,除了掌握專業(yè)醫(yī)學知識之外,還應具備優(yōu)秀的編程能力和數(shù)據(jù)分析能力。[2, 4]與常用的Excel和SPSS相比,在大數(shù)據(jù)背景下,R語言具有更強的數(shù)據(jù)分析與圖形展示能力,是一種更適合在醫(yī)學專業(yè)本科教學中使用的統(tǒng)計分析軟件。[5, 6]目前,將R軟件應用到醫(yī)學統(tǒng)計學教學中的案例仍然比較少,因此,如何將R軟件應用于大學醫(yī)學統(tǒng)計學教學還需要等多的研究和探索。
1 R軟件在醫(yī)學統(tǒng)計學實驗教學中的優(yōu)勢
R語言是一種新興的統(tǒng)計分析與可視化編程語言,近年來發(fā)展迅速。在醫(yī)學統(tǒng)計教學過程中,它具有以下五大優(yōu)勢:
第一,R軟件作為免費的開源軟件,具有強大的統(tǒng)計分析與數(shù)據(jù)展示功能,而且還可以通過安裝多種軟件包(package)進一步強化其統(tǒng)計與數(shù)據(jù)展示能力。此外,由于其所有代碼公開,用戶可以根據(jù)實際需要,在學習編程技術的基礎上,修改源代碼實現(xiàn)新的功能,為學生提供一個很好的編程能力學習平臺。
第二,R語言語法簡單易學,擁有強大的統(tǒng)計分析包系統(tǒng),在統(tǒng)計分析過程中,即使沒有編程基礎,也能夠完成基本的數(shù)據(jù)統(tǒng)計分析,相較于傳統(tǒng)的Excel,SPSS軟件,能夠更好的激發(fā)學生的統(tǒng)計學習的興趣。
第三,具有免費的集成開發(fā)環(huán)境——Rstudio,以一種新穎的方式為R的集成開發(fā)提供了大多數(shù)需要的特性,界面更加豐富使用,使用更加便捷。在交互學習過程中,降低R語言學習成本,強化學生學習R的興趣。
第四,具有強大的圖形功能,除了基本的畫圖函數(shù)點圖plot、柱形圖barplot、直方圖histogram、餅圖pie等,它還擁有軟件包ggplot2。ggplot2通過把數(shù)據(jù)映射到圖形,引入圖層疊加的概念,在展示數(shù)據(jù)的同時,還可以加入不同統(tǒng)計方法的應用,用圖形的方式展示統(tǒng)計分析結果,具有很強的數(shù)據(jù)展示能力與統(tǒng)計分析的靈活性。
第五,R軟件創(chuàng)造可重復性分析。對于同等類型數(shù)據(jù)的分析過程,可以簡便的移植到不同數(shù)據(jù)應用中去,實現(xiàn)統(tǒng)計分析方法的重復利用,提高分析效率,節(jié)省時間成本。這將更有利于學生系統(tǒng)地學習統(tǒng)計分析方法。
2 R語言在醫(yī)學統(tǒng)計學教學中的優(yōu)勢
基于R語言,將醫(yī)學統(tǒng)計學理論與實際數(shù)據(jù)分析能力有機結合。醫(yī)學統(tǒng)計學是一門理論性較強的課程。但是在大數(shù)據(jù)時代,利用計算機語言快速有效的實現(xiàn)數(shù)據(jù)分析是學生需要掌握的一項基本技能,具有重要的實際應用能力。在教學過程中通過將統(tǒng)計學理論知識與R語言實踐有機結合,一方面有利于培養(yǎng)學生的計算機動手能力,另一方面有利于加深學生對統(tǒng)計理論知識的理解以及實際應用能力。R語言具有強大的統(tǒng)計分析方法功能,醫(yī)學統(tǒng)計學中的各個知識點都可以通過R語言進行實現(xiàn),并且應用方法簡單明了。例如psych包的describe.by函數(shù)能夠計算常用的描述性指標最小值、最大值、均值、方差、極差、偏度、豐度等,一個函數(shù)幾乎完成描述性統(tǒng)計學中的所有內容。一個R統(tǒng)計函數(shù)往往包含了多個統(tǒng)計學知識點,如果學生對R軟件應用函數(shù)過度依賴,不理解統(tǒng)計分析過程,會導致其無法正確解釋R軟件分析結果,從而無法理解實際數(shù)據(jù)的統(tǒng)計學意義。因此在實驗設計上,需巧妙地將統(tǒng)計學理論知識與R實踐相結合,并著重強調不同R語言統(tǒng)計分析過程中涉及的統(tǒng)計理論知識,以及函數(shù)應用的前提條件,便于學生理解、掌握統(tǒng)計學知識要點。
采用真實的熱點醫(yī)學大數(shù)據(jù)分析問題,拓展學生統(tǒng)計分析能力。在大數(shù)據(jù)背景下,醫(yī)學統(tǒng)計學的核心目的是培養(yǎng)醫(yī)學學生處理數(shù)據(jù)的能力,因此在教學過程中,以學生為主,從實際醫(yī)學數(shù)據(jù)出發(fā),通過對原始的醫(yī)學大數(shù)據(jù)分析案例,讓學生逐步掌握不同結構,不同數(shù)據(jù)量的數(shù)據(jù)處理技術與思想。[7]在實驗過程中針對同一醫(yī)學數(shù)據(jù),提出不同角度的研究問題,并利用R語言的統(tǒng)計分析方法進行一一回答,加深學生對統(tǒng)計理論知識的了解,激發(fā)學生的學習主動性,不僅有利于培養(yǎng)學生的統(tǒng)計方法應用能力,還有利于提高學生的對大數(shù)據(jù)的統(tǒng)計思維能力。
圖表繪制,提升統(tǒng)計學教學的趣味性與應用性。醫(yī)學統(tǒng)計學著重與培養(yǎng)學生的醫(yī)學數(shù)據(jù)的整理、分析、推斷和展示的能力。在實際統(tǒng)計分析里,科學作圖不僅能直觀展示出數(shù)據(jù)的多種描述型特征,還能有效的體現(xiàn)統(tǒng)計分析過程與結果,幫助人們深入了解數(shù)據(jù),是數(shù)據(jù)分析過程中不可或缺的一部分。然而,在多數(shù)統(tǒng)計實驗教學過程中,圖表繪制由于種種原因而被忽視。因此,在傳統(tǒng)醫(yī)學統(tǒng)計學數(shù)據(jù)分析的基礎上,利用R軟件強大的圖形繪制能力,我們加入醫(yī)學數(shù)據(jù)圖形繪制實驗。在數(shù)據(jù)的可視化過程中,通過展示不同類型數(shù)據(jù)不同類型的圖形展示結果,有效加深學生對數(shù)據(jù)以及統(tǒng)計分析方法理論的理解,增加統(tǒng)計學教學的趣味性與實際應用能力,拓展其數(shù)據(jù)展示技能。
3圍繞R語言實施醫(yī)學統(tǒng)計學教學內容
根據(jù)臨床學時的特點,結合大數(shù)據(jù)背景下,提出以下三個實驗教學模塊:
3.1描述統(tǒng)計分析模塊
描述性統(tǒng)計分析是對通過計算數(shù)據(jù)的集中趨勢、分散程度以及頻率分布等,了解數(shù)據(jù)的分布特征,實現(xiàn)數(shù)據(jù)最基本的認知過程。例如,常用的數(shù)據(jù)中心描述指標均值、中位數(shù)、眾數(shù),數(shù)據(jù)離散程度指標極差、方差、標準差以及數(shù)據(jù)分布形狀指標偏度和豐度等。數(shù)據(jù)的收集和描述統(tǒng)計是醫(yī)學統(tǒng)計學中最基本的實踐技能,其目的是讓學生通過計算機語言R,實現(xiàn)對數(shù)據(jù)的收集、整理和描述。在教學過程中,圍繞R語言,設計不同類型的數(shù)據(jù)文件,如txt、excel、csv等,實現(xiàn)不同類型數(shù)據(jù)讀取,并應用R中的統(tǒng)計描述函數(shù)summary、var、describe.by,計算數(shù)據(jù)的均值、方差、偏度、豐度等,實現(xiàn)對數(shù)據(jù)的中心、離散以及分布情況的描述,讓學生直觀的感受到R語言對數(shù)據(jù)描述的簡便性與有效性。與常用的SPSS方法以及excel軟件相比,雖然R語言需要編程過程,但是其對數(shù)據(jù)操作靈活性高,拓展性強。在課程前期開始此實驗教學,可以吸引學生積極主動學習R語言,對R語言的統(tǒng)計分析方法有一個整體認知。
3.2推斷統(tǒng)計模塊
統(tǒng)計推斷是研究通過樣本推斷總體數(shù)量特征的方法,主要包含參數(shù)估計和假設檢驗兩大部分。推斷統(tǒng)計模塊主要是讓學生在互聯(lián)網(wǎng)時代,在熟悉不同的統(tǒng)計方法原理的基礎上,能夠熟練使用計算機語言R對理論知識進行分析應用與有效計算,真正做到學以致用。結合實際的臨床數(shù)據(jù),如不同時期的中國不同地區(qū)、多種癌癥的發(fā)病數(shù)據(jù),通過對其提出不同角度的問題,實現(xiàn)利用R語言對發(fā)病率的點估計與區(qū)間估計,對兩個地區(qū)的發(fā)病率的T-檢驗、對多個地區(qū)發(fā)病率的方差分析、對不同癌癥與不同地區(qū)關聯(lián)分析的卡方檢驗等。在熟悉數(shù)據(jù)的基礎上,引導學生提出統(tǒng)計問題,并利用R語言實現(xiàn)是實際問題的統(tǒng)計推斷方法,T檢驗、F檢驗、方差分析aov、卡方檢驗以及相關性檢驗cor.test的應用等,增強學生的統(tǒng)計思維能力與動手能力。
3.3數(shù)據(jù)展示模塊
數(shù)據(jù)展示是實際醫(yī)學統(tǒng)計分析應用中非常重要的一個環(huán)節(jié),直觀、有效、漂亮的圖表不僅能幫助人們對分析結果的了解,而且還能提高人們對其研究的興趣程度。大數(shù)據(jù)時代,實際統(tǒng)計分析結果匯報是一個重要環(huán)節(jié),好的圖表展示可以做到事半功倍的效果。然而,數(shù)據(jù)展示環(huán)節(jié)常常在醫(yī)學統(tǒng)計學教學中被忽視。R語言有很強的圖標展示功能,除了基礎畫圖函數(shù),還有一個很好的獨立的繪圖系統(tǒng)ggplot2,具有圖形映射、圖層疊加以及范圍控制,坐標系轉化、分面等特征,能夠高效地將數(shù)據(jù)映射到圖形上,將不同形狀的圖形作為圖層,方便數(shù)據(jù)的疊加展示,從而有效的展示數(shù)據(jù)結構與分布特征。本實驗在介紹ggplot2基本語法的基礎上,并通過ggplot2對模塊2中癌癥數(shù)據(jù)的展示,實現(xiàn)快速繪制不同類型的圖片,如點圖、柱形圖、直方圖、箱型圖等。此外,該實驗還將鼓勵學生查找自己感興趣的醫(yī)學數(shù)據(jù),利用ggplot2中geom_point、geom_line、geom_boxplot、geom_bar和geom_histgram等功能不同類型圖形的繪制,加深學生對R語言繪圖功能的印象,并培養(yǎng)學生自主學習R繪圖方法的興趣。
4 R語言在醫(yī)學統(tǒng)計學實驗教學中的局限性
R軟件在生命科學研究中得到廣泛應用,但是目前尚未廣泛應用于醫(yī)學統(tǒng)計學實驗教學中。雖然它有良好的統(tǒng)計分析與繪圖能力優(yōu)勢,但是應用于課堂教學時,仍有以下幾點困難需要克服。
首先,雖然R語言是一個容易入門編程語言,但是其基本語法、數(shù)據(jù)結構和函數(shù)編寫等,對于沒有編程經(jīng)驗的臨床學生而言,仍然是需要花時間去練習熟悉,因此需要一定的前期時間投入。
其次,R語言包含了非常豐富的統(tǒng)計分析軟件包,應用方法便捷,導致一部分學生對應用軟件過分依賴而忽視其統(tǒng)計分析原理。從而造成,當R統(tǒng)計方法說明文檔對原始數(shù)據(jù)指示不明的情況,容易發(fā)生統(tǒng)計分析方法的誤用情況。
最后,設計相應的R語言統(tǒng)計實驗,需要結合統(tǒng)計學課堂內容與R語言的優(yōu)勢,引入實際的臨床數(shù)據(jù),引導學生用R語言去解決實際的臨床統(tǒng)計問題,實驗過程難度較大,但是該方法可以發(fā)揮R語言的統(tǒng)計方法和圖表繪制的能力,更好的培養(yǎng)精準醫(yī)療時代的醫(yī)學接班人。
5總結與展望
R語言由于其強大的統(tǒng)計分析與圖形繪制能力,已經(jīng)逐漸成為生命科學研究中重要的統(tǒng)計計算語言,將R語言應用于醫(yī)學統(tǒng)計學實驗教學中,具有一定的可能性。目前,我們設置的醫(yī)學統(tǒng)計學實驗除了傳統(tǒng)的數(shù)據(jù)描述與統(tǒng)計推斷內容的R語言實踐過程外,還新增了圖形繪制部分,加深學生的數(shù)據(jù)展示意識,將有效提升大數(shù)據(jù)時代核心競爭力之一的分析結果匯報能力。在實驗過程中,采用實際的醫(yī)學數(shù)據(jù)進行統(tǒng)計分析,增加了課程的內容的豐富性與實驗教學的創(chuàng)新性,推進了醫(yī)學統(tǒng)計學教學的進一步發(fā)展。
參考文獻
[1]傅德印.關于統(tǒng)計學定義的考察與思考.蘭州商學院學報,2000(01).
[2]李俊鋒.大數(shù)據(jù)背景下的統(tǒng)計學發(fā)展方向分析.中外企業(yè)家,2020(05).
[3]李智明.淺談大數(shù)據(jù)時代統(tǒng)計學的挑戰(zhàn)與機遇.教育教學論壇,2020(13).
[4]何星鋼,黃激珊.大數(shù)據(jù)背景下統(tǒng)計學人才培養(yǎng)模式與課程體系研究.興義民族師范學院學報,2020(03).
[5]張哲,張豪.淺談R語言在生物統(tǒng)計學教學中的應用.教育教學論壇,2013(27).
[6]Villanueva, R.A.M. and Z.J. Chen, ggplot2: Elegant Graphics for DataAnalysis,2nd edition. Measurement-InterdisciplinaryResearch and Perspectives, 2019.17(3):p.160-167.
[7]張春曉,陳曦.統(tǒng)計學在大數(shù)據(jù)時代的發(fā)展方向及趨勢探討.現(xiàn)代商業(yè),2018(35).