国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)驅動的學校疫情預測模型的構建研究

2021-01-07 07:27:40趙薈宇王琦崔占
中國信息技術教育 2020年24期
關鍵詞:生病神經網(wǎng)絡變量

趙薈宇 王琦 崔占

1.北京師范大學教育學部

2.北京師范大學未來教育高精尖創(chuàng)新中心

3.清華大學附屬小學信息中心

近年來,除極端天氣等原因外,季節(jié)性疫情造成北京市中小學多次區(qū)域性停課。我國中小學校在應對突發(fā)疾病方面缺乏預警能力,除了定期進行疾病防控以外,一般是在疫情出現(xiàn)后才開始消毒清潔,這種滯后的應對方式效果較差,給學校的教學、管理等工作的開展造成困難,不利于相關教育衛(wèi)生資源的合理配置和使用。[1-2]因此,結合相關數(shù)據(jù)建立一套預警模型,為教育資源配置和疫情預警提供有針對性的指導是很有必要的。本文以北京市某小學一年內的數(shù)據(jù)為基礎,利用人工神經網(wǎng)絡(ANN)在目標預測領域的優(yōu)勢,構建學校疫情預測模型,以期為區(qū)域教育信息化、深度學習技術在教育管理領域的應用提供參考模型和實踐指導。

圖1 基于BP神經網(wǎng)絡的學校疫情預測模型

● 研究設計

1.研究思路

前饋神經網(wǎng)絡是最基礎的人工神經網(wǎng)絡,其內核是BP算法。人工神經網(wǎng)絡采用分布式存儲、計算非線性數(shù)據(jù),避免人為因素的參與,并依靠其本身強大的計算能力與學習能力,使研究數(shù)據(jù)經過大量數(shù)據(jù)的訓練后更加接近實際,從而提高了目標預測的精準度。本文利用神經網(wǎng)絡在目標預測領域的優(yōu)勢,對學校疫情預測模型進行構建,如上頁圖1所示。本文首先將原始數(shù)據(jù)進行處理,提取相關的特征變量,導入到設計好的神經網(wǎng)絡中進行訓練和測試。用戶可以對模型輸入指定的特征變量,隨后獲得學校生病人數(shù)的預測結果反饋。

2.數(shù)據(jù)處理

(1)數(shù)據(jù)來源

本文的研究數(shù)據(jù)來源于北京市某所重點小學,時間跨度為2018年2月至2019年6月。該數(shù)據(jù)的學生分布情況,以2019年數(shù)據(jù)為例,包括一年級學生(2018年9月入校)244人,二至五年級學生709人,總計學生953人。原始數(shù)據(jù)2320條。該數(shù)據(jù)主要由學生家長、教師每天填寫并提交到指定平臺,部分數(shù)據(jù)內容如表1所示。

表1

(2)數(shù)據(jù)清洗和預處理

該數(shù)據(jù)的提交平臺于2018年2月投入使用,在初期,存在學生家長、教師對該平臺的熟悉度較差,使用頻率不足的現(xiàn)象。為避免此類原因造成的影響,本文已刪除前兩個月的數(shù)據(jù),保留2018年4月至2019年6月的數(shù)據(jù)作為總數(shù)據(jù)集。由于學生家長、教師誤操作或系統(tǒng)出錯等原因,數(shù)據(jù)中會存在某一學生在某天請假多次的情況,本文按照每天每條數(shù)據(jù)的序號,以最后編輯提交的數(shù)據(jù)為準,剔除多余的重復數(shù)據(jù)。最終,清洗后的數(shù)據(jù)為2264條,其中病假1807條,事假457條。

在神經網(wǎng)絡訓練前,需要將清洗后的數(shù)據(jù)集進行整理。首先,本文按照日期排序,設置起始時間為2018年4月2日,結束時間為2019年6月30日,剔除事假人數(shù),將每天生病人數(shù)進行統(tǒng)計匯總,得出當天學校內學生因病請假的總人數(shù),其中,不足1天的,按當天1人次處理,最終獲得有效數(shù)據(jù)為455條。

目前,呼吸道疾病是影響青少年健康和導致學生缺課的主要原因。[3]本文主要選取10個可能造成青少年呼吸道疾病的外部因素作為變量,如表2所示。

表2

選取的指標主要包括季節(jié)(1~4)、月份(1~12)、是否為假期(0~1)、星期(1~7)、最高溫度、最低溫度、平均溫度、天氣(1~11)、平均風速、空氣質量(1~6)等。其中,天氣指標的11個層級為晴、多云、陰、陣雨、小雨、中雨、大雨、雨夾雪、小雪、霾、揚沙;空氣質量指標的6個層級為優(yōu)、良、輕度污染、中度污染、重度污染、嚴重污染。由于每學年學校總人數(shù)不同,需計算學校每天學生生病率,公式為(Sicked/N)*100%,其中Sicked為當天生病人數(shù),N為當前學校總人數(shù)。

在本文的數(shù)據(jù)集中,有很多變量都屬于類型變量,如Season=1、2、3、4,分別代表四個季節(jié),而在神經網(wǎng)絡的訓練中不能將Season變量直接輸入到神經網(wǎng)絡,這是因為Season的數(shù)值越高并不表示與之對應的信號強度越大。本文的解決方案是將該類型變量的不同數(shù)值用一個“一位熱碼”(One-hot)來編碼,如圖2所示,本文已對表2中的

圖2 將Season變量進行One-Hot編碼Season、Mnth、Vac、Week、Met、Airq等6個變量進行了One-Hot編碼處理,并在剔除序號、日期等不相關特征后,得到該數(shù)據(jù)集的變量特征總數(shù)為45個。

由于數(shù)據(jù)集中每個數(shù)值型變量都是相互獨立的,所以它們的數(shù)值絕對大小與研究問題的本身沒有關系,為了消除數(shù)值大小的差異,本文對每一個數(shù)值型變量進行標準化處理,即讓每個變量的數(shù)值都圍繞著0左右波動。例如,對于平均溫度Atemp這個變量來說,它在整個數(shù)據(jù)集中的平均值為Mean(Atemp),方差為Std(Atemp),如下方公式所示,其目的是將不同的取值范圍的變量設置為讓它們處于一個平等的地位。本文已對Ttemp、Ltemp、Atemp、Wind等4個變量進行了歸一化處理。

3.神經網(wǎng)絡設計

(1)神經網(wǎng)絡的構建

人工神經網(wǎng)絡實際上就是多層復合函數(shù)的鏈式法則,本文采用三層前饋神經網(wǎng)絡,如圖3所示,最左側X=(X1,X2,……,Xn)為輸入向量,中間Z=(Z1,Z2,……,Zt)是隱含層的輸出向量,最右側Y是輸出層的輸出向量,Wi是輸入層至隱含層的權重,Wj是隱含層至輸出層的權重,隱含層初始偏置為a。根據(jù)數(shù)據(jù)集的總特征數(shù),該神經網(wǎng)絡輸入層有45個節(jié)點,即n=45。本文采用1個隱含層的BP網(wǎng)絡來實現(xiàn),其中隱含層節(jié)點數(shù)量t為10,輸出節(jié)點數(shù)為1。

(2)神經網(wǎng)絡的初始化與訓練

由于數(shù)據(jù)量有限,為充分利用有限的數(shù)據(jù)訓練該神經網(wǎng)絡,本文將前430天的數(shù)據(jù)作為訓練集,將后7周(49天)的數(shù)據(jù)作為測試集,設置網(wǎng)絡的學習速率為0.01,將訓練數(shù)據(jù)迭代訓練1000次,設置每次訓練的Batch大小為128。

在神經網(wǎng)絡向前傳輸?shù)倪^程中,先隨機初始化權重和偏置,經過隱含層節(jié)點時選用Sigmoid函數(shù)作為激活函數(shù),將輸出結果加權求和后與真實值比較,并計算誤差,進行反向傳輸和參數(shù)修正。神經網(wǎng)絡的學習主要蘊含在權重和偏置中,從輸出層開始,神經網(wǎng)絡首先對輸出值跟實際值進行比較,將計算誤差的偏導數(shù)反向傳播給隱含層神經元,隱含層神經元利用這個偏導數(shù)進行加權求和,從而調節(jié)隱含層到輸出層之間的連邊權重與偏置,同樣,根據(jù)隱含層神經元的均方誤差,來調節(jié)輸入層到隱含層之間的連邊權重與偏置。

● 實驗結果與啟示

1.實驗結果

(1)神經網(wǎng)絡的損失值

本文將訓練數(shù)據(jù)迭代訓練1000次,并對每100次的損失值(誤差)進行收集,通過Matplotlib進行繪制后,結果如下頁圖4所示。其中,橫坐標代表訓練次數(shù),縱坐標代表損失值??梢姡诿看斡柧氝^后,該神經網(wǎng)絡的損失值均有所下降,大約在第400次訓練以后,損失值降低至0.3以下。本次實驗的最終損失值約為0.2492,表明該神經網(wǎng)絡的訓練是成功的。

(2)神經網(wǎng)絡的預測結果

最后,本文將最后7周(49天)的數(shù)據(jù)進行預測,并通過Matplotlib進行繪制,如下頁圖5所示。其中,實線代表數(shù)據(jù)的真實值,虛線為神經網(wǎng)絡的預測值。可見,該神經網(wǎng)絡可以模擬該學校學生生病人數(shù)的大致趨勢。

觀察圖5可以發(fā)現(xiàn),圖中前兩周神經網(wǎng)絡的預測值低于實際值,而后兩周的預測值高于實際值。在與該學校教師的交流后得知,5月中旬該校正在舉辦為期兩周的足球聯(lián)賽,許多學生在高溫天氣中訓練、比賽、助威,其間的生病人數(shù)明顯多于其他時間段;而6月底正值該校的期末,為了加緊復習,許多學生患病來校學習,這是導致神經網(wǎng)絡預測產生偏差的主要原因。

圖3 BP神經網(wǎng)絡結構圖

圖4 預測模型的損失值曲線

圖5 預測模型預測值與實際值曲線

2.啟示

從以上結果可以看出,基于人工神經網(wǎng)絡實現(xiàn)的預測模型可以預測學校的生病人數(shù)及變化趨勢,教育管理者可針對預測結果提前做好疫情的防控工作,但該神經網(wǎng)絡并不完善,發(fā)現(xiàn)并解決神經網(wǎng)絡存在的問題,對充分發(fā)揮人工智能技術的優(yōu)勢、高效合理地利用教育資源具有積極意義。

(1)數(shù)據(jù)的數(shù)量與質量

數(shù)據(jù)在作為訓練樣本時,其本身的復雜性、多樣性、稀疏性、冗余性和缺失值等將對模型的訓練效果有很大影響。為此,學校、地區(qū)應持續(xù)做好相應疾病類別、數(shù)量、病因等的記錄與保留,而不僅限于記錄病假人數(shù)與事假人數(shù),從而為后續(xù)的研究提供數(shù)據(jù)支撐。

(2)數(shù)據(jù)集的維度

針對學生生病所選取的外部因素指標仍需改善。本文僅列舉了10個外部因素變量,仍有其他導致學生生病的外部因素需要補充。此外,環(huán)境變量、生病人數(shù)也會對神經網(wǎng)絡的預測結果造成影響,這就需要后續(xù)對數(shù)據(jù)集進行修改,并引入LSTM等記憶類算法,對神經網(wǎng)絡進行完善,提高預測的精準度。

(3)其他神經網(wǎng)絡算法

當深度學習模型應用于其他教育問題,遇到類似數(shù)據(jù)量較少的問題時,可以采用遷移學習的方式,將已有的、大批量的數(shù)據(jù)集進行神經網(wǎng)絡的預訓練,通過遷移學習算法對該神經網(wǎng)絡進行再訓練,也可以提高神經網(wǎng)絡預測的精準度。

● 結語

本文從數(shù)據(jù)角度出發(fā),利用已有數(shù)據(jù)對學校學生的生病人數(shù)進行預測,以作案例研究。本文以2018年2月至2019年6月期間北京市某小學每天生病人數(shù)的數(shù)據(jù)為基礎,建立疫情預測模型。從結果來看,預測值與實際值偏差較小、趨勢相近,擬合精度較高。因此,教育管理者可以根據(jù)該模型的輸出結果,做好衛(wèi)生疾病的防控工作,并合理配置相應地區(qū)的教育衛(wèi)生資源。

猜你喜歡
生病神經網(wǎng)絡變量
預防做好 牛生病少
抓住不變量解題
也談分離變量
“生病”的一天
神經網(wǎng)絡抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
生病的快樂
生病真難受
快樂語文(2019年12期)2019-06-12 08:41:56
基于神經網(wǎng)絡的拉矯機控制模型建立
重型機械(2016年1期)2016-03-01 03:42:04
復數(shù)神經網(wǎng)絡在基于WiFi的室內LBS應用
SL(3,3n)和SU(3,3n)的第一Cartan不變量
文水县| 珲春市| 呼图壁县| 通榆县| 攀枝花市| 江油市| 西峡县| 房产| 开江县| 游戏| 林西县| 永兴县| 息烽县| 清原| 喀什市| 汽车| 塔河县| 将乐县| 南安市| 龙井市| 山西省| 万荣县| 白沙| 左权县| 苍梧县| 绥芬河市| 亚东县| 黄梅县| 河西区| 平阳县| 呈贡县| 商城县| 白水县| 昆山市| 博罗县| 五家渠市| 宣城市| 禹城市| 绵竹市| 儋州市| 邵武市|