趙以霞,金昆,鄭曉歡,孔麗華
1. 中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心,北京 100190
2. 中國(guó)科學(xué)院大學(xué),北京 100190
3. 中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心,北京 100190
4. 中國(guó)科學(xué)院,北京 100864
數(shù)據(jù)庫(kù)(集)基本信息簡(jiǎn)介
2011年,新媒體聯(lián)盟(New Media Consortium,NMC)發(fā)布《地平線報(bào)告(高教版)》,預(yù)測(cè)學(xué)習(xí)分析技術(shù)將在4-5年內(nèi)應(yīng)用起來,并將學(xué)習(xí)分析定義為大范圍收集學(xué)生的學(xué)習(xí)數(shù)據(jù)并加以分析,從而評(píng)價(jià)學(xué)生的學(xué)習(xí)進(jìn)度、預(yù)測(cè)其未來的學(xué)習(xí)表現(xiàn),并查找潛在的問題[1]。2011-2019年,旨在促進(jìn)個(gè)性化學(xué)習(xí)的學(xué)習(xí)分析技術(shù)與自適應(yīng)學(xué)習(xí)一直是新媒體聯(lián)盟地平線報(bào)告所預(yù)測(cè)的技術(shù)趨勢(shì)。隨著MOOC(Massive Open Online Courses,大規(guī)模開放在線課程)的發(fā)展,在線學(xué)習(xí)數(shù)據(jù)迅速積累起來,進(jìn)一步推動(dòng)了基于在線學(xué)習(xí)數(shù)據(jù)開展用戶分析。2014年6月,哈佛大學(xué)和麻省理工學(xué)院聯(lián)合發(fā)布了經(jīng)過整理的2012-2013學(xué)年edX平臺(tái)(麻省理工和哈佛大學(xué)于2012年4月聯(lián)手創(chuàng)建的大規(guī)模開放在線課堂平臺(tái),網(wǎng)址www.edx.org/course)16門課程開放數(shù)據(jù)供全球研究者使用[2]。2014年,羅切斯特大學(xué)計(jì)算機(jī)科學(xué)副教授菲利普·郭,針對(duì)edX數(shù)學(xué)和科學(xué)課程的862個(gè)視頻課程,基于12.8萬(wàn)人的690萬(wàn)條視頻在線觀看記錄數(shù)據(jù),開展分析,研究受歡迎的課程媒體形式[3]。為提升專業(yè)技術(shù)人員能力,我國(guó)人力資源和社會(huì)保障部發(fā)布2015年《專業(yè)技術(shù)人員繼續(xù)教育規(guī)定》,對(duì)專業(yè)技術(shù)人員的學(xué)習(xí)時(shí)間提出要求,并明確參加遠(yuǎn)程教育是有效的繼續(xù)教育學(xué)習(xí)方式之一。不同于其他專業(yè)技術(shù)人員,國(guó)家相關(guān)行業(yè)會(huì)提出明確的公需課和專業(yè)課學(xué)習(xí)要求,并組織實(shí)施,自然科學(xué)研究人員的學(xué)習(xí)具有更強(qiáng)的自主性。為此,中國(guó)科學(xué)院專門建設(shè)中國(guó)科學(xué)院繼續(xù)教育網(wǎng),為科研人員提供自主學(xué)習(xí)服務(wù),促進(jìn)知識(shí)更新。本數(shù)據(jù)集是基于2018年中國(guó)科學(xué)院科研人員的學(xué)習(xí)習(xí)慣建立的學(xué)習(xí)數(shù)據(jù),通過分析不同專業(yè)技術(shù)職稱、不同年齡、不同性別、不同工作年限科研人員的在線學(xué)習(xí)時(shí)間點(diǎn)傾向、學(xué)習(xí)內(nèi)容傾向和學(xué)習(xí)時(shí)長(zhǎng)傾向,可以為精準(zhǔn)服務(wù)科研人員在線學(xué)習(xí)奠定基礎(chǔ)。
為獲得科研人員學(xué)習(xí)數(shù)據(jù),本研究構(gòu)建起科研人員專屬的在線學(xué)習(xí)平臺(tái),匯聚各類課程資源,進(jìn)而記錄科研人員在線選學(xué)課程和學(xué)習(xí)時(shí)長(zhǎng)。
為面向中國(guó)科學(xué)院100多個(gè)科研機(jī)構(gòu)的科研人員提供有針對(duì)性的學(xué)習(xí)服務(wù),研發(fā)中國(guó)科學(xué)院繼續(xù)教育網(wǎng),支持各院屬機(jī)構(gòu)組織管理培訓(xùn),發(fā)布資源,管理人員,進(jìn)行統(tǒng)計(jì)分析。科研人員登陸中國(guó)科學(xué)院繼續(xù)教育網(wǎng)可以自主選學(xué)課件,報(bào)名培訓(xùn)班,并圍繞課件、培訓(xùn)班等資源進(jìn)行交流互動(dòng)[4]。
MOOC的發(fā)展,為用戶帶來了大規(guī)模學(xué)習(xí)資源的同時(shí),也會(huì)帶來信息過載問題。中國(guó)科學(xué)院繼續(xù)教育網(wǎng)實(shí)現(xiàn)了自主研發(fā)資源和匯聚外部資源功能,主要由各科研院所自主上傳和匯聚。截至2018年底,共積累3062個(gè)課件資源,包括三分屏課件、視頻課件、微課件、單一文檔(PPT、PDF、WORD等),以及外部?jī)?yōu)質(zhì)資源鏈接。
(1)數(shù)據(jù)收集:中科院繼續(xù)教育網(wǎng)用戶信息由各研究院所維護(hù),本研究利用中科院繼續(xù)教育網(wǎng)的職工在線學(xué)習(xí)統(tǒng)計(jì)功能,直接獲得2018年1月1日至2018年12月31日科研人員在線學(xué)習(xí)數(shù)據(jù)。
(2)數(shù)據(jù)清洗:結(jié)合本研究目的,剔除管理人員、支撐人員、工人等人群的學(xué)習(xí)數(shù)據(jù),最終得到科研人員在線學(xué)習(xí)數(shù)據(jù)集。由于部分院屬單位對(duì)于人員的標(biāo)識(shí)不完整,科研人員屬性值缺失,本文僅保留具有明確的科研人員屬性值且標(biāo)識(shí)專業(yè)技術(shù)職稱的學(xué)習(xí)數(shù)據(jù)。
(3)數(shù)據(jù)處理:由于涉及科研人員的個(gè)人信息,為保護(hù)隱私數(shù)據(jù),本文采用編號(hào)標(biāo)識(shí)科研人員唯一性,并將出生年月和入所工作時(shí)間進(jìn)行計(jì)算,轉(zhuǎn)換為年齡和工作年限予以標(biāo)識(shí)。為進(jìn)一步分析學(xué)習(xí)時(shí)間段特點(diǎn),將數(shù)據(jù)集劃分為12個(gè)時(shí)間段,即每2小時(shí)為1個(gè)時(shí)間段,從0-2時(shí)開始,至22-24時(shí)。
本文最終得到219 472條學(xué)習(xí)數(shù)據(jù),來自10 360名科研人員,其中選學(xué)并學(xué)習(xí)為206 756條,僅選學(xué)并未學(xué)習(xí)有12 716條。206 756條學(xué)習(xí)數(shù)據(jù)由10 245位科研人員產(chǎn)生,學(xué)時(shí)合計(jì)為212 382.74小時(shí)。針對(duì)重點(diǎn)分析學(xué)習(xí)行為,本文重點(diǎn)統(tǒng)計(jì)10 245人的基本信息,其人口統(tǒng)計(jì)特征如下(詳見數(shù)據(jù)集性別、年齡、工作年限、職稱)。10 245名科研人員中,有6846位男性科研工作者,占比66.82%,3399名女性科研工作者,占比33.18%。在線學(xué)習(xí)科研人員年齡方面,31~50歲的科研人員占比78.87%;從事工作年限方面,集中在三個(gè)區(qū)域“1~5年”“6~10年”“11~20年”,共占比89.71%;受訪者專業(yè)技術(shù)職稱方面,初級(jí)占比7.67%,中級(jí)占比41.03%,副高級(jí)占比35.93%;正高級(jí)占比15.36%(詳細(xì)見表1)。
表1 樣本人口統(tǒng)計(jì)基本特征描述
本數(shù)據(jù)集的數(shù)據(jù)存儲(chǔ)于Excel文件的3個(gè)數(shù)據(jù)表單中,“所有選學(xué)數(shù)據(jù)”表單存放10 360名科研人員2018年課件選學(xué)和學(xué)習(xí)相關(guān)數(shù)據(jù),共有219 472條學(xué)習(xí)記錄;“僅選學(xué)未學(xué)”表單存放具有選學(xué)行為、但未開始學(xué)習(xí)的12 716條數(shù)據(jù)記錄;“選學(xué)且學(xué)習(xí)”表單存放選學(xué)且有學(xué)習(xí)行為的206 756條學(xué)習(xí)記錄。這3個(gè)數(shù)據(jù)表單所包含的具體字段名稱、類型及示例見表2。關(guān)于課程時(shí)長(zhǎng)字段數(shù)值,取值范圍在0.05~48之間,平均值為1.27小時(shí)。
表2 所有選學(xué)數(shù)據(jù)內(nèi)容
數(shù)據(jù)集質(zhì)量主要通過系統(tǒng)限定實(shí)現(xiàn),以人工干預(yù)為輔。在設(shè)計(jì)在線學(xué)習(xí)功能時(shí),實(shí)現(xiàn)20分鐘內(nèi)需要答題繼續(xù)記錄學(xué)時(shí),否則中斷記錄;在線學(xué)習(xí)統(tǒng)計(jì)功能,實(shí)現(xiàn)同一課件跨年度重新選學(xué),課件學(xué)習(xí)時(shí)長(zhǎng)小于課件時(shí)長(zhǎng)記錄,限制用戶多個(gè)瀏覽器終端或?yàn)g覽器同時(shí)學(xué)習(xí),并實(shí)現(xiàn)課件繼續(xù)學(xué)習(xí)功能,支持?jǐn)帱c(diǎn)續(xù)學(xué)。
人工干預(yù)方面,主要是對(duì)最終收集的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,剔除人員敏感信息,結(jié)合本文研究目的,分離僅選學(xué)未有學(xué)習(xí)行為和有學(xué)習(xí)行為的數(shù)據(jù)。雖然沒有學(xué)習(xí)行為,但選學(xué)課程到個(gè)人學(xué)習(xí)空間,也代表用戶的一種興趣和需求,因此,本文將此類數(shù)據(jù)保留到了數(shù)據(jù)集中。
本文提供的2018年科研人員在線學(xué)習(xí)數(shù)據(jù)集,通過研究院所維護(hù)保障人員信息的真實(shí)性,并通過設(shè)定系列學(xué)時(shí)計(jì)算規(guī)則控制數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)的可用性和真實(shí)性,可以基于此學(xué)習(xí)數(shù)據(jù)集開展系列學(xué)習(xí)分析工作。
(1)學(xué)習(xí)行為與選學(xué)行為比例分析
學(xué)習(xí)率在選學(xué)中達(dá)到94%,選學(xué)某個(gè)課件但從未點(diǎn)擊開始學(xué)習(xí)的比例為6%,轉(zhuǎn)化率較好,這為在線資源開發(fā)和推送提供依據(jù)(圖1)。
圖1 選學(xué)轉(zhuǎn)化率
(2)不同職稱男女學(xué)習(xí)比例分析
根據(jù)中國(guó)科學(xué)院統(tǒng)計(jì)年鑒,中科院科研人員專業(yè)技術(shù)崗位的男女比例約為2.2∶1。本數(shù)據(jù)集中,具有學(xué)習(xí)行為的男女科研人員比例為2∶1,說明女性在線學(xué)習(xí)積極度略高于男性科研人員。在副高級(jí)選學(xué)人數(shù)中,男女選學(xué)比例與實(shí)際人員數(shù)據(jù)男女統(tǒng)計(jì)比例基本一致;而在初級(jí)、中級(jí)和正高級(jí)的科研人員選學(xué)男女比例中,均顯示女性科研人員在線選學(xué)比男性科研人員更積極一些(圖2)。
圖2 不同性別和職稱學(xué)習(xí)數(shù)據(jù)對(duì)比
(3)不同職稱不同性別人均年累計(jì)學(xué)習(xí)時(shí)長(zhǎng)分析
對(duì)不同職稱級(jí)別的男性和女性科研人員的年累計(jì)學(xué)習(xí)時(shí)長(zhǎng)分別求平均值,可以看出男性科研人員的年累計(jì)學(xué)習(xí)時(shí)長(zhǎng)均高于女性,在正高級(jí)科研人員中,尤為突出。而隨著職稱的提升,科研人員的人均年累計(jì)學(xué)習(xí)數(shù)據(jù)有較為明顯的下降,女性科研人員人均年累計(jì)學(xué)時(shí)從23小時(shí)降低到16小時(shí),而男性科研人員人均年累計(jì)學(xué)時(shí)從23小時(shí)降低到19小時(shí)(圖3)。
圖3 不同性別和職稱人均學(xué)習(xí)時(shí)長(zhǎng)對(duì)比
(4)學(xué)習(xí)時(shí)間段規(guī)律
初級(jí)、中級(jí)、副高級(jí)和正高級(jí)人員的學(xué)習(xí)時(shí)間段呈現(xiàn)較為一致的趨勢(shì),主要集中在上午 10-12時(shí)、14-18時(shí),而18-24時(shí)也是不可忽視的學(xué)習(xí)時(shí)間段,這為后續(xù)精準(zhǔn)推送學(xué)習(xí)資源的時(shí)間提供了參考,使得資源能夠更有效地為科研人員學(xué)習(xí)(圖4)。
圖4 不同職稱人員學(xué)習(xí)時(shí)間段對(duì)比
(5)不同年齡每次學(xué)習(xí)時(shí)長(zhǎng)特點(diǎn)
利用學(xué)習(xí)時(shí)長(zhǎng)數(shù)據(jù)除以學(xué)習(xí)記錄數(shù)據(jù),得到平均每次學(xué)習(xí)時(shí)長(zhǎng),該學(xué)習(xí)時(shí)長(zhǎng)與課件時(shí)長(zhǎng)有較強(qiáng)相關(guān)性。結(jié)合不同年齡和性別進(jìn)行分析,可以看出每次學(xué)習(xí)時(shí)長(zhǎng)數(shù)和年齡、性別無(wú)明顯相關(guān),基本都在1小時(shí)左右(圖5)。對(duì)數(shù)據(jù)進(jìn)行深入分析,可得到更多學(xué)習(xí)規(guī)律。
圖5 不同年齡和性別每次學(xué)習(xí)時(shí)長(zhǎng)對(duì)比
(6)已學(xué)習(xí)課程與未學(xué)習(xí)課程分析
共匯聚3062個(gè)課件資源,1915個(gè)課程被選學(xué),選學(xué)率僅達(dá)到63%,還有1147個(gè)課件從未被選學(xué)。通過分析1915個(gè)課程的特點(diǎn),為后續(xù)研發(fā)課件資源提供支持。
(7)最受歡迎課程分析
按照選學(xué)人次對(duì)課程進(jìn)行排序,選課人數(shù)在1000人以上的課程,共有11個(gè),集中在大數(shù)據(jù)、人工智能、信息技術(shù)等方面,如表3所示。
表3 選學(xué)最多的課程排名
2018年中國(guó)科學(xué)院繼續(xù)教育網(wǎng)科研人員在線學(xué)習(xí)數(shù)據(jù)集以 EXCEL存儲(chǔ),使用者可以通過EXCEL工具或轉(zhuǎn)換格式導(dǎo)入到數(shù)據(jù)庫(kù)進(jìn)行查看、檢索、分析、數(shù)據(jù)挖掘等操作??梢酝ㄟ^關(guān)聯(lián)規(guī)則挖掘課程之間的關(guān)系,構(gòu)建推薦系統(tǒng),在基于學(xué)習(xí)行為分析的個(gè)性推薦方面開展深入研究和應(yīng)用,進(jìn)一步提升中科院繼續(xù)教育網(wǎng)的智能化水平。
致 謝
感謝在中國(guó)科學(xué)院繼續(xù)教育網(wǎng)開發(fā)及資源研發(fā)中貢獻(xiàn)智慧的專家和研發(fā)人員。
中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2019年3期