蔣旭東,楊莉,舒啟江,劉紅杏,張美娜,趙林波
(云南中醫(yī)藥大學信息學院,昆明云南 650500)
隨著大數(shù)據(jù)和人工智能時代的到來[1],“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)的浪潮已經(jīng)勢不可擋,全面深化高等醫(yī)學院校創(chuàng)新創(chuàng)業(yè)教育改革勢在必行[2]。教育部等多個部門聯(lián)合舉辦的“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽能夠為高校創(chuàng)新創(chuàng)業(yè)教育改革提供新的載體[3]。大賽作品涉及各個行業(yè)、各個領域,國家對中醫(yī)藥信息化極其重視,中醫(yī)藥院校便是中醫(yī)藥信息化改革的重要陣地,各高校需要總結大賽經(jīng)驗,有針對性地培養(yǎng)中醫(yī)藥院校學生的“雙創(chuàng)”能力,不斷明確高校大學生創(chuàng)新創(chuàng)業(yè)的發(fā)展方向,促使中醫(yī)藥創(chuàng)新創(chuàng)業(yè)得以改革和發(fā)展。
“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽自創(chuàng)辦以來,全國高校、事業(yè)單位、個人都積極報名參加,每年都有越來越多的團隊參加比賽,同時針對比賽的相關研究也日益增加,關注度也日益提高。 目前關于國內(nèi)“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽的相關研究報告越來越多,研究的問題主要集中在以下幾個方面: 一是集中在“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽的人才培養(yǎng)、教育模式和思路的研究,通過對創(chuàng)新創(chuàng)業(yè)大賽的分析總結,對高等醫(yī)學院校大學生創(chuàng)新創(chuàng)業(yè)能力培養(yǎng)進行探究[4];針對四屆“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽參與情況的分析,提出構建高職院校“以賽促教、以賽促學”創(chuàng)新創(chuàng)業(yè)教學模式的建議[5]。 二是集中在比賽團隊建設方面的研究。 針對大賽中存在的問題,探討大學生創(chuàng)新創(chuàng)業(yè)大賽項目的團隊建設[6];從互聯(lián)網(wǎng)背景、大學生創(chuàng)新創(chuàng)業(yè)的優(yōu)勢和存在的問題等方面,對大學生創(chuàng)業(yè)團隊建設進行簡要的分析,為大學生團隊創(chuàng)業(yè)建設提供思路[7]。 三是集中在比賽的意義和作用的研究,通過對四屆創(chuàng)新創(chuàng)業(yè)大賽及國內(nèi)外創(chuàng)新創(chuàng)業(yè)教育狀況的分析,歸納“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽在創(chuàng)業(yè)實踐及創(chuàng)新創(chuàng)業(yè)教育實踐中的作用,提出“教學—科研—競賽—創(chuàng)新—就業(yè)”的良性循環(huán)模式[8]。
在全國大力發(fā)展中醫(yī)藥信息化的背景下,針對“互聯(lián)網(wǎng)+” 創(chuàng)新創(chuàng)業(yè)大賽的探討和研究越來越受到重視,國內(nèi)外通過針對創(chuàng)新創(chuàng)業(yè)大賽的分析來對高等中醫(yī)藥院校的人才培養(yǎng)路徑和創(chuàng)新創(chuàng)業(yè)教育的研究越來越多,但是這些研究都只是通過研究創(chuàng)新創(chuàng)業(yè)大賽的特點和問題,探討大學生的創(chuàng)新創(chuàng)業(yè)教育體系和團隊建設存在的不足,并提出相應的解決措施等。幾乎還沒有人對創(chuàng)新創(chuàng)業(yè)大賽作品進行研究而總結其發(fā)展方向,中醫(yī)藥方面的更是沒有。 本文主要通過對創(chuàng)新創(chuàng)業(yè)大賽中中醫(yī)相關獲獎作品進行分析,探討中醫(yī)藥創(chuàng)新創(chuàng)業(yè)大賽的發(fā)展方向以及項目團隊人數(shù)的合理性,并為高等中醫(yī)藥院校大學生“雙創(chuàng)”能力的培養(yǎng)提供策略。
中文分詞,一種把文本信息進行切分的基礎環(huán)節(jié),在文本挖掘中應用非常多,最常用的基于規(guī)則分詞的方法是最大正向匹配算法,該方法用于詞庫建立。本文將歷屆獲獎“互聯(lián)網(wǎng)+”創(chuàng)新創(chuàng)業(yè)項目題目作為文本,進行分詞,并建立中醫(yī)項目分詞庫。
文本挖掘(Text Mining)是抽取有效、新穎、有用、可理解的、散布在大規(guī)模文本庫中的有價值知識,進而利用這些知識更好地整合信息的過程,往往處理一些非結構化的文本數(shù)據(jù),其研究逐步形成數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計三大領域,應用非常廣泛。本文應用文本挖掘技術來分析歷屆獲獎“互聯(lián)網(wǎng)+”創(chuàng)新創(chuàng)業(yè)項目題目的醫(yī)學、中醫(yī)項目信息。
Jieba 分詞庫技術,該庫是支持Python 語言的第三方庫,支持三種分詞模式:精確模式、全模式和搜索引擎模式。
TF-IDF 模型是一個統(tǒng)計方法,用來評估一個詞語對一個文件集或一個語料庫中的一份文件的重要程度。 TF 指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù),IDF 的主要思想是: 如果包含詞條h 的文檔越少,也就是文檔數(shù)p 越小,IDF 越大,則說明詞條h 具有很好的類別區(qū)分能力。 本文利用該模型進行詞語分類和統(tǒng)計。
根據(jù)文本挖掘等相關理論,要完成中醫(yī)藥院校在校大學生“雙創(chuàng)”項目培養(yǎng)策略的分析,必須對大量已收集整理完畢的“雙創(chuàng)”項目進行中文分詞、詞頻統(tǒng)計、可視化分析,基本實現(xiàn)框架如圖1所示:
圖1 文本挖掘框架
文本分詞主要包括原始數(shù)據(jù)格式轉換、分類、篩選所需內(nèi)容等活動,利用Jieba 第三方中文分詞庫及隱馬爾科夫鏈模型[14](HMM)進行中文分詞。 核心算法思想描述如下:
BEGIN:
①令j=0,當前指針pi 指向輸入字串的初始位置;
②計算當前指針pi 到字串末端的字數(shù)(即未被切分字串的長度)n,如果n=1,轉④步,結束算法,否則,令m=w(詞典中最長單詞的字數(shù)),如果n ③從當前pi 起取m 個漢字作為詞qi,判斷: a.如果qi 確實是詞典中的詞,則在qi 后添加一個切分標志,轉c 步; b.如果qi 不是詞典中的詞且qi 的長度大于1,將qi從右端去掉一個字,轉a 步;否則(qi 的長度等于1),在qi 后添加一個切分標志(單字),執(zhí)行c 步; c.根據(jù)qi 的長度修改指針pi 的位置,如果pi 指向字串末端,轉④,否則j=j+1,返回②; ④輸出切分結果。 END 通過TF-IDF 算法進行詞頻統(tǒng)計,實現(xiàn)對文本數(shù)據(jù)自動化處理[15],主要用到Python 的庫,如表1所示。 表1 主要庫表 本文主要利用Python 中的數(shù)據(jù)分析核心庫pandas 來進行統(tǒng)計分析,且采用基于WordCloud 庫的詞云圖顯示文本熱詞。 本文所選取的數(shù)據(jù)是國家級、省級、校級第四屆“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽獲獎名單,國家級獲獎項目包括國際賽道、“紅旅賽道”和主賽道,項目字段有參賽項目名稱、所屬省/市、學校、項目負責人、參賽人員、指導教師及分類,爬取到的數(shù)據(jù)部分展示如表2所示。 表2 中國“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽部分獲獎名單 3.2.1 數(shù)據(jù)預處理步驟 本文的原始數(shù)據(jù)通過以下幾個步驟進行處理,以滿足實驗所需的數(shù)據(jù)要求: (1) 部分原始數(shù)據(jù)是圖片格式的,通過手動方式進行數(shù)據(jù)的錄入,將圖片類型的數(shù)據(jù)選取實驗所需的具體字段,手動輸入到Excel 表格中,輸入完成后進行比對,確保實驗數(shù)據(jù)的誤差降低到最小且不影響數(shù)據(jù)分析的效果。 (2) 按分析需求維度整理數(shù)據(jù),以便使用。 (3) 統(tǒng)一原始數(shù)據(jù)中的數(shù)據(jù)格式,如比賽項目中名字存在英文、繁體、縮寫等情況,會影響分詞效果,分類有誤差,所以必須進行相應處理。將帶英文的數(shù)據(jù)和帶繁體字的數(shù)據(jù),轉換為對應的簡體中文,使其原有意思在最大程度上保持原有的真實性,不能轉換的數(shù)據(jù)進行剔除或直接重新分為一類,確保不改變數(shù)據(jù)本身。 3.2.2 國家、省、校獲獎分析 通過對原始數(shù)據(jù)預處理后的統(tǒng)計分析,形成國家級比賽中各省市獲獎分布、 省級比賽中云南省各高校獲獎分布、 國家級比賽中云南省各高校獲獎分布以及校級比賽中各學院獲獎分布情況。 圖2 國家級比賽中各省市獲獎分布 圖3 省級比賽中云南省各高校獲獎分布 圖4 國家級比賽中云南省各高校獲獎分布 圖5 校級比賽中各學院獲獎分布 從分析結果可以看出:在國家級比賽中,獲獎較多的地區(qū)分別為河南省、陜西省、江西省等省份,而云南省的參賽項目獲獎相對較少;在云南省舉辦的大賽中,昆明理工大學、云南師范大學獲獎項目的數(shù)量最多,云南中醫(yī)藥大學的獲獎項目處于平均水平; 在國家級比賽中,昆明理工大學是獲獎項目最多的; 在校級大賽中,中藥學院獲獎項目最多,針灸推拿康復學院其次,其他專業(yè)的都較少。云南中醫(yī)藥大學在國家級、省級比賽中獲獎數(shù)目都不多,還需進一步加強對學生“雙創(chuàng)”能力、“雙創(chuàng)”項目的培育。 分詞的準確性依靠的是分詞所需要的詞庫,本文實驗利用Python 第三方庫Jieba 進行中文分詞。 3.3.1 詞庫建立 為篩選出與醫(yī)學相關的獲獎項目,建立表3所示詞庫。 表3 詞庫表 3.3.2 各級比賽中與醫(yī)學、中醫(yī)相關項目分析 各級比賽總項目數(shù)量以及篩選出的醫(yī)學相關、中醫(yī)相關項目數(shù)量統(tǒng)計如表4所示。 表4 各級總項目以及醫(yī)學相關、中醫(yī)相關項目數(shù)量統(tǒng)計表 從表4分析結果可以明顯看出: 國家級和省級的獲獎項目中醫(yī)學相關項目較少,中醫(yī)相關項目占比更小。而校級項目中醫(yī)學相關項目都是中醫(yī)相關的,占比也少。依據(jù)詞庫分詞大致篩選出醫(yī)學相關的項目,部分項目如表5所示。 表5 醫(yī)學相關部分項目 醫(yī)學中,西醫(yī)和中醫(yī)部分內(nèi)容相互涵蓋,自動分類界限較模糊,且篩選出來的中醫(yī)相關項目占比不大,因此采用人工手動分類出醫(yī)學項目中中醫(yī)相關項目的數(shù)量,結果如表6所示。 表6 中醫(yī)相關部分項目 3.3.3 詞頻分析 對篩選出來的中醫(yī)相關項目通過Jieba 分詞,并進行詞頻統(tǒng)計,各級詞頻分析如表7所示。 表7 各級比賽獲獎項目中醫(yī)相關詞頻分析表 3.3.4 中醫(yī)相關項目關注點通過詞云方式可視化 利用詞云,將分析得到的中醫(yī)相關項目關注點可視化如圖6所示。 圖6 國家級-省級-校級中醫(yī)相關項目關注點詞云圖 3.3.5 獲獎項目團隊構成分析 通過分析國家級、省級和校級比賽中獲獎團隊構成,為創(chuàng)新創(chuàng)業(yè)項目人員組成提供參考,分析結果如表8所示。 表8 各級比賽獲獎項目成員構成分析表 本文通過對國家級、省級、校級歷年來“互聯(lián)網(wǎng)+”大學生創(chuàng)新創(chuàng)業(yè)大賽獲獎作品進行統(tǒng)計、分析和挖掘,可以看出:目前,“互聯(lián)網(wǎng)+”創(chuàng)新創(chuàng)業(yè)大賽中,醫(yī)藥相關項目主要關注點是中醫(yī)藥、養(yǎng)生、康復、智能、移動等主題。 國家級更多是中藥與互聯(lián)網(wǎng)技術、智能化的融合;而云南省級的關注點主要是中醫(yī)藥,特別是中醫(yī)養(yǎng)生和康復治療;中醫(yī)藥院校級的項目都是和中醫(yī)相關,關注點是中醫(yī)藥學,側重培養(yǎng)優(yōu)秀的醫(yī)學人才。 基于本文的統(tǒng)計、分析和挖掘結果,為中醫(yī)藥院校培育“互聯(lián)網(wǎng)+”創(chuàng)新創(chuàng)業(yè)項目提供以下幾點參考: (1) 培養(yǎng)中醫(yī)藥院校學生運用互聯(lián)網(wǎng)技術、智能技術在中醫(yī)藥領域融合創(chuàng)新的思維、方法和技術。 (2) 優(yōu)化項目團隊配置。 團隊成員專業(yè)配比要合理,相互彌補知識的短板;團隊成員數(shù)要合適,根據(jù)本文的研究,團隊成員數(shù)為5 到9 個最為合適。 (3) 跨領域、跨專業(yè)、跨學校聯(lián)合培育項目。 不同領域、專業(yè)和學校,更容易結合中醫(yī)藥領域需求尋求到好的解決方案。2.2 詞頻統(tǒng)計
2.3 可視化分析
3 實證研究
3.1 數(shù)據(jù)采集
3.2 數(shù)據(jù)預處理
3.3 分詞分析
4 結論與總結