国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于因果發(fā)現(xiàn)的智慧圖書館兒童分級閱讀智能薦書研究

2023-02-24 00:46:47吳鑫宇
廣西教育學院學報 2023年4期
關鍵詞:書籍分級變量

吳鑫宇

(廣西工商職業(yè)技術學院,廣西 南寧 530008)

分級閱讀的理念由西方的學者提出,經過不斷研究后,成為指導閱讀出版和閱讀教育的重要工具。受發(fā)育規(guī)律影響,在兒童成長的不同階段,兒童的認知能力、語言水平與閱讀能力都不盡相同,其心理發(fā)育具有明顯的年齡特征,閱讀層次也存在明顯的差異性。一些醫(yī)學生不愿意成為兒科醫(yī)生,其原因很大一部分在于兒童無法準確地表達自己的感受,無法直觀地解釋自己的想法,最終導致問診困難,難以對癥下藥。同理,在面對家長與館員的提問時,兒童也難以表達出某本書自己能不能看懂,是不是真的適合自己。館員也常常對此感到困惑,無法給出標準答案,因此在平時的工作中,館員大多是憑自己的經驗為兒童選擇閱讀的文本。如此行為不利于兒童的閱讀與成長,因此,進行兒童分級閱讀的研究勢在必行。

一、研究背景

(一)大數(shù)據(jù)

目前,學界對大數(shù)據(jù)的研究已經十分成熟,各行各業(yè)都開始應用大數(shù)據(jù)技術為其服務,然而大數(shù)據(jù)的定義卻一直沒有一個統(tǒng)一標準。大數(shù)據(jù)是一種數(shù)據(jù)量巨大,數(shù)據(jù)類別繁多,無法在短時間內通過常規(guī)工具來捕捉、管理與處理的特殊的數(shù)據(jù)集,也是一種需要強洞察力、強決策力、高流程優(yōu)化能力的處理模式來處理的海量、高增長率與多樣化的新型信息資產[1]。大數(shù)據(jù)的特點主要是數(shù)據(jù)海量,數(shù)據(jù)類型繁多,處理速度快與價值密度低[2]。目前,大數(shù)據(jù)已經廣泛應用在各個領域各個學科,諸如因果發(fā)現(xiàn)等許多技術都需要大數(shù)據(jù)進行支撐,因此,將大數(shù)據(jù)引入兒童分級研究相當有必要。

(二)因果發(fā)現(xiàn)技術

近年來,因果發(fā)現(xiàn)算法在人工智能、機器學習等領域得到越來越多研究者的關注,并在神經科學、經濟學、基因組學等領域得到了廣泛的應用[3]。其通過觀察一項事物,觀測其變量或是對其中某些變量進行干預,從而發(fā)現(xiàn)其中的因果關系,獲得結論。傳統(tǒng)的機器學習方法僅對已觀察到的數(shù)據(jù)進行數(shù)據(jù)整理與因果推斷,僅僅找出了變量間的相互關系,得到的結果也只是已觀察過情況的總結。當一個未觀察過的情況出現(xiàn)時,該方法便無法準確得出結論。而因果發(fā)現(xiàn)技術則可以在已觀測數(shù)據(jù)與少量甚至未干預過的數(shù)據(jù)中發(fā)現(xiàn)其變量之間的因果關系,推測出未觀測過的情況,推斷出其結果變量的情況。這種學習方法有著很強的泛化能力,能夠游刃有余地應對真實世界中各種復雜的場景,在各個學科中有廣泛的應用前景。該技術在外國已經有較為成熟的研究,但在國內并未得到應有的重視。

目前,因果發(fā)現(xiàn)技術已經在生物信息學、神經科學與遺傳學等領域得到廣泛應用。例如,通過建立基因庫與病人的案例,研究人員可以通過因果發(fā)現(xiàn)來找到基因中存在某些突變的患者在服用蒽環(huán)類藥物時會導致蒽環(huán)類藥物心臟毒性[4]。還有研究者使用該技術通過觀測患者大腦區(qū)域間的變化來研究患者腦部疾病的影響與恢復情況的關系,通過觀察癌癥患者體內的體細胞基因改變與差異表達來發(fā)現(xiàn)導致腫瘤產生的基因之間特定的因果關系[5]等。

(三)兒童分級閱讀

“閱讀分級”指的是讀者可以根據(jù)自身的閱讀能力而選擇不同難度等級的讀物。閱讀分級在歐美國家被廣泛接受,成為一種行之有效的閱讀教學和閱讀出版的指導工具,并在中國香港、臺灣地區(qū)也得到普遍認可。歐美分級閱讀已經產生了一系列意義深遠的閱讀分級標準,如A—Z 分級法、Lexile 分級系統(tǒng)等[6]。分級閱讀作為課堂閱讀教學和課外閱讀延伸,對兒童閱讀起到極大推動作用。兒童處在生理與心理快速發(fā)育的重要階段,閱讀動機與閱讀性質不盡相同,不同年齡、性別間知識結構亦存在差別,甚至不同家庭和地區(qū)的兒童閱讀水平也有明顯差異[7]。因此,將分級閱讀引入兒童閱讀是非常有必要的。

目前,我國已經對兒童的分級閱讀有了較為成熟的分類體系,根據(jù)兒童不同時期的心理特點設立了不同的推薦閱讀書目,其評價標準有身體與動作發(fā)展,認知與智力發(fā)展,語言發(fā)展,情緒、人格與社會發(fā)展等。如接力出版社發(fā)布的《中國兒童分級閱讀參考書目》和《兒童心智發(fā)展與分級閱讀建議》將兒童分級閱讀年齡的分層主要為:0~4 歲,4~6 歲,7~8 歲,9~10 歲,11~12 歲[8]。0~4 歲的兒童注意力短暫,但可以認知基本物體與概念,因此推薦閱讀《小酷和小瑪?shù)恼J知繪本》《嬰兒游戲繪本》。其語言發(fā)展特征主要為喜歡運用聲音玩游戲、開始學習基本的詞匯與語法,建立語言基礎,因此推薦閱讀《噼里啪啦系列叢書》《我爸爸》等。可以看出,不同年齡的兒童閱讀能力是存在差異的,分級閱讀向兒童閱讀提供了循序漸進的上升臺階,為家長與館員指導兒童閱讀提供了有效標準[9]。

二、兒童分級閱讀智能薦書目標下的因果發(fā)現(xiàn)結構模型

(一)數(shù)據(jù)的采集與整理

大數(shù)據(jù)能對人類的科學研究范式產生翻天覆地的影響,圖書館并不缺乏大數(shù)據(jù),并且圖書館也應重視大數(shù)據(jù)的收集工作,并為之所用[10]。數(shù)據(jù)的采集與整理是該模型的最初階段。數(shù)據(jù)采集指圖書館通過各種形式收集讀者的各種資料,作為大數(shù)據(jù)對后面的分析工作做前期鋪墊并經過關聯(lián)和聚合后,采用統(tǒng)一的結構來存儲此類數(shù)據(jù),采集渠道可以通過讀者讀書證、會員卡、讀者圖書館網站賬號信息、問卷調查等進行收集,整理成各種所需數(shù)據(jù)錄入數(shù)據(jù)庫,以供進一步數(shù)據(jù)分析。圖書館應向讀者承諾所收集到的個人隱私完全保密,絕不對外公開。圖書館可根據(jù)算法分析所需的條件向讀者獲取各種必須分析的信息,包括讀者的姓名、年齡、借書記錄、愛好、性別、所處地區(qū)等。

讀者的姓名可以作為收集數(shù)據(jù)的小數(shù)據(jù)集頭標,起到區(qū)分不同數(shù)據(jù)的作用。讀者年齡是兒童分級閱讀的關鍵數(shù)據(jù),用以區(qū)分不同年齡段的讀者。借書記錄則是通過讀者的閱讀習慣與喜好,向讀者提供更加精準的書籍推薦服務。

讀者的愛好、性別、所處地區(qū)則是圖書館用以更加精準地進行讀者畫像的方式。不同性別、不同地區(qū)的讀者其閱讀意愿是有所不同的[11]。由于地區(qū)之間存在經濟、地理條件等差異,不同地區(qū)的人有可能會導致各個區(qū)域的分析產生差異化的結果[12]。例如我國東北、新疆、內蒙古等地區(qū)的人大多直爽豪邁,受地區(qū)的社會背景影響,很有可能導致其喜歡閱讀的書籍有所不同,因此讀者所處的地區(qū)也可以作為分析的標準之一。

數(shù)據(jù)整理指的是圖書館對收集來的數(shù)據(jù)進行匯總后清洗,將其中多余的假數(shù)據(jù)、空數(shù)據(jù)去除,并把有效數(shù)據(jù)篩選出來[13],保證數(shù)據(jù)的可靠性,之后進行整理,按照事先所預設的標準,將各項數(shù)據(jù),分別分成一個個節(jié)點,并經過關聯(lián)和聚合后采用統(tǒng)一的結構來存儲此類數(shù)據(jù)。

在進行圖書推薦時,館員常常與少兒的父母溝通,以了解少兒的偏向書籍與興趣愛好,以準確快速地為他們查找與推薦相關方面的書籍,增強少兒快樂閱讀的體驗[14]。但值得注意的是,由于兒童在書籍的選擇上缺乏主動性,兒童閱讀書籍的選擇一般都受到家長與館員嚴重的干擾。因此,在數(shù)據(jù)的收集階段,館員必須提醒前來圖書館借書的家長充分尊重兒童的閱讀意愿,必要時,館員可以通過引導式的提問向兒童讀者進行詢問,推測出兒童最有可能想要閱讀的書籍,并進行推薦。

(二)數(shù)據(jù)分析

數(shù)據(jù)分析是因果發(fā)現(xiàn)工作中最核心的部分,指的是挖掘數(shù)據(jù)之間隱藏的聯(lián)系。圖書館數(shù)據(jù)庫能夠采集到大量的信息,而這些信息是未經加工過、雜亂無章的信息,因此便需要進行數(shù)據(jù)分析。目的不同,數(shù)據(jù)分析使用的技術也會存在差別,目前數(shù)據(jù)分析常用的技術有云計算、傳感技術等。

1.已采集到數(shù)據(jù)的數(shù)據(jù)特點

(1)無向性:所獲取的數(shù)據(jù)形成的節(jié)點并無固定方向,其父屬性可以變成子屬性,子屬性也可以成為父屬性,且一對成父子屬性的節(jié)點可以互為父子屬性,即互為因果關系。即在該模型中,研究人員可以通過讀者的年齡、借書記錄等各種信息推算出讀者最有可能需要借閱的圖書,以達到智能薦書的目的,也可以通過某書籍被某個年齡的兒童借閱次數(shù)較多,從而推斷出該書籍適合某個年齡段的讀者閱讀,以達到促進分級閱讀的目的。

(2)無時序性:所獲取的數(shù)據(jù)不受時間順序的影響,即數(shù)據(jù)的獲取時間不影響因果聯(lián)系的發(fā)生。即讀者在某個時間段借了某本書,并不會對該讀者現(xiàn)在想要借某本書產生結果上的影響。因此所收集的數(shù)據(jù)存在時間上的差異并不會對程序運算的結果產生影響。

(3)節(jié)點相互獨立:指某個節(jié)點的產生并不會對其他節(jié)點造成影響,也不會對其他單個父-子的因果聯(lián)系造成影響。例如,讀者姓名的不同并不會對其年齡與借書記錄產生任何影響,也不會對程序運算的結果產生影響。因此,不同數(shù)據(jù)集中的節(jié)點是相互獨立的,不會對其他平行鏈條上的父-子節(jié)點產生任何影響。

2.采集數(shù)據(jù)對貝葉斯網絡的影響

貝葉斯網絡(Bayesian Networks)用以表示變量集合的連接概率分布,其由一個有向無環(huán)圖和條件概率組成。它提供了一種自然的表示因果信息的方法,貝葉斯網絡本身各結點是獨立計算的,并沒有輸入和輸出的概念,所以貝葉斯網絡的學習可以自上而下進行推理,也可以從下級結點反過來推理上級結點[15],與采集數(shù)據(jù)的特點一致。在這個因果貝葉斯網絡中的各個變量是網絡中的一個個節(jié)點,節(jié)點間線段相連,并存在條件概率值。該線段表示變量關聯(lián),概率表示關聯(lián)性的大小。

以下是貝葉斯網絡的數(shù)學定義。如表示一個在一個有向無環(huán)圖中,設G=(X,A),X 為節(jié)點集合,A 為節(jié)點直接依賴關系,aij 表示Xi 與Xj 之間的有向連接,Xi←Xj;Θ 是網絡參數(shù)貝葉斯網絡所表示的所有節(jié)點的聯(lián)合概率就可以表示為各節(jié)點條件概率的乘積。

其中當i ?。?,2,…,n)時,π(Xi)表示Xi 的父節(jié)點集。網絡結構G 確定后,節(jié)點間的相關關系也隨之確定。此后,結合網絡參數(shù)Θ,貝葉斯網絡就可以準確地推理出節(jié)點X 的聯(lián)合概率分布。并且,如果節(jié)點間存在條件獨立的性質,貝葉斯網絡的計算效率將比其他計算聯(lián)合概率的方法高得多[16]。

根據(jù)本模型收集數(shù)據(jù)的特點可知,最終建立的模型為無向圖,只含無向邊的圖稱為無向圖。無向邊一般表示對稱關系,比如隨機變量間的相關關系。如在無向圖g=(V,E)中,X、Y、Z是V 的三個互不相交的子集,X、Y 不是空集,若從X 到Y 的每條路徑都經過Z 中的點,則稱X和Y 被Z 分離,記為X⊥Y|Z,并且稱Z 是X 和Y的分離集。因此從{me}到{an}的每條路徑都經過集合{al},因此{me}⊥{an}|{al}。DAG 是指只含有向邊且不含有向環(huán)的圖,其中的有向邊一般表示時序或者因果等非對稱關系,可用來推斷因果關系。因為DAG 模型蘊涵的信息豐富,近幾年來頗受關注,尤其是在人工智能領域[17]。

由于不同數(shù)據(jù)的特性存在差異性,其因果發(fā)現(xiàn)的方法也應存在不同。其可以分為基于時序與非時序的觀察數(shù)據(jù)的因果關系發(fā)現(xiàn)方法兩種。據(jù)上文所述,本項研究的對象同樣是具有非時序性的。基于非時序觀察數(shù)據(jù)的因果關系發(fā)現(xiàn)如下:給定p維變量集V={v1,v2,…,vp}上的m組非時序觀察數(shù)據(jù)X={x1,x2,…,xm},發(fā)現(xiàn)變量{v1,v2,…,vp} 間的因果關系[18][19]。目前,非時序觀察數(shù)據(jù)的因果關系也是領域內的研究熱點,具有更廣的適用范圍。

3.“大P大數(shù)據(jù)”與“大N大數(shù)據(jù)”

隨著技術的進步,為了對大數(shù)據(jù)進行形象化的研究,“大N 大數(shù)據(jù)”和“大P 大數(shù)據(jù)”的概念被提了出來。如設大數(shù)據(jù)為一矩陣,N 為觀測個數(shù),P 為變量個數(shù),便可細分出以上兩種大數(shù)據(jù)。當觀測目標數(shù)量大于變量時,此數(shù)據(jù)類型被稱為“大N大數(shù)據(jù)”。該類數(shù)據(jù)能提升推斷精度,但觀測個數(shù)的多少會對結果產生很大的影響。當個數(shù)過大或過小時,其得出的推算結果往往會偏離。因此,僅僅使用“大N 大數(shù)據(jù)”技術是難以展開因果推斷的。而“大P 大數(shù)據(jù)”的P 指的是某個指定的研究對象中所有的信息,P 即對象本身。在大P 數(shù)據(jù)集中,單個個體的所有信息都能包含在內,例如用戶的家庭背景、社會背景、個人行為偏好等。因此,相較于其他數(shù)據(jù)集,“大P 大數(shù)據(jù)”可增加更多變量,提供更多信息,推理更加有效。實驗中盡管變量的具體有可能少于觀測個數(shù),但卻已經包含了指定觀測對象的全部信息,使得實驗進行的推斷更加全面與準確[20]。

值得注意的是,當利用“大P 大數(shù)據(jù)”進行因果推斷時,其中的變量必須不低于外生可能性的所有變量,即對結果可能產生影響的除了處理后變量的所有變量,這是利用“大P 大數(shù)據(jù)”進行因果推斷有效的前提。因此使用“大P 大數(shù)據(jù)”時,需要研究對象相關的理論進行細致的研究,以設置科學的變量,保證使得變量的范圍能夠包涵單個研究對象足量的信息[21]。

(三)數(shù)據(jù)解釋及可視化

在大數(shù)據(jù)時代,傳統(tǒng)的分析方法往往難以處理龐大且復雜的數(shù)據(jù)關系,因此需要利用可視化技術來輔助研究。圖形化的數(shù)據(jù)相較于抽象的文字是更加具體與形象的,復雜的多維數(shù)據(jù)關系與深層的原因與現(xiàn)象都能夠直觀、簡化地呈現(xiàn)出來,減少了科研人員的工作量,并且在數(shù)據(jù)結果的理解上,能使科研人員與用戶更直觀地閱讀與接受。

四、因果發(fā)現(xiàn)模型在智慧圖書館兒童分級閱讀智能薦書的應用

1.通過因果推斷的兒童閱讀智能書籍推薦

某項研究中的各個屬性之間通常有一定的因果關系。如太陽的周期活動很可能導致了某地的洪水泛濫,因此研究人員可以采用圖模型的形式對這種屬性之間因果關系進行表達。圖模型可以包括兩部分內容,即定性描述與定量描述兩種。定性描述指的是描述屬性之間相互關系的結構,而定量描述指的是描述該屬性與其父親屬性的相關程度的參數(shù)。當圖中各屬性的連線是有向弧并且結構中沒有環(huán)時,該圖模型稱為DAG(directed acyclic graph),有時也稱為因果模型(causal models)。因果模型不僅能表現(xiàn)出不同屬性之間的因果聯(lián)系,還是進行概率推理的有效工具[22]。可以看出,通過因果發(fā)現(xiàn)算法圖書館能夠計算出某本書適合某位兒童讀者的概率,圖書館員可以根據(jù)運算出來的概率結果,向讀者推薦有可能最適合該讀者的書籍,以達到智能薦書的效果,更好地服務讀者。該算法通過大數(shù)據(jù)及節(jié)點間的因果聯(lián)系進行順推,根據(jù)讀者提供的不同信息,如性別、年齡、偏好等,結合其歷史借閱情況,推斷出不同年齡段不同偏好的兒童最有可能借閱的圖書,便可以進行書籍的智能推薦。

如該讀者是第一次使用圖書館,所需信息較少,即前文所述的“大N 大數(shù)據(jù)”,難以進行準確的因果推斷,則根據(jù)其僅有的條件進行大數(shù)據(jù)推斷,即如僅有信息“性別(男)”,則對整個男性兒童讀者進行統(tǒng)計,向其推薦整個男性兒童讀者借閱率最高的書籍。

2.大數(shù)據(jù)在智慧圖書館兒童分級閱讀的因果發(fā)現(xiàn)

同心理過程相比,人工智能算法是具有更高規(guī)范性的。對于所有因果發(fā)現(xiàn)算法,機器學習研究者都在演繹推斷的嚴格意義上證明了它們在正確的輸入下能夠輸出正確的結果[23]。因此,通過因果發(fā)現(xiàn)這類人工智能算法來對兒童閱讀書籍進行分級更規(guī)范,更準確。兒童分級閱讀智能薦書模型是基于大數(shù)據(jù)及節(jié)點間的因果聯(lián)系進行逆推,在保證兒童借書選擇最大程度的主動性上,對不同年齡兒童最受歡迎的圖書情況進行分析,在其中還可以加上各圖書作者、書商對圖書的評價情況與專家對各圖書的評價等作為標準,以增加分級因果推斷的準確性,綜合推斷出不同年齡段的兒童所適合閱讀的書籍,以達到兒童書籍分級的目的,促進我國兒童分級閱讀事業(yè)的發(fā)展。

四、結論

因果發(fā)現(xiàn)是一種準確有效的人工智能概率算法。圖書館可以運用該算法建立智慧圖書館兒童分級閱讀智能薦書模型,將圖書館日常工作中所收集的讀者數(shù)據(jù)作為大數(shù)據(jù)輸入模型,通過概率運算,可以得出兒童讀者最有可能想要閱讀的書籍是哪本、哪本書適合該讀者的概率最大。并且,通過大數(shù)據(jù)計算,還可以對兒童圖書的分級進行計算,分析出各個年齡段兒童所適合閱讀的書籍,促進我國兒童分級閱讀事業(yè)的發(fā)展。

猜你喜歡
書籍分級變量
魯迅與“書籍代購”
抓住不變量解題
也談分離變量
AOS在書籍編寫的應用
書籍
新產經(2018年6期)2018-07-04 00:39:24
分級診療路難行?
分級診療的“分”與“整”
書籍是如何改變我們的
分級診療的強、引、合
“水到渠成”的分級診療
桂林市| 额济纳旗| 蓬安县| 万载县| 休宁县| 科技| 云阳县| 黄梅县| 通渭县| 万载县| 江北区| 晋江市| 廉江市| 洛扎县| 高碑店市| 洪湖市| 临泉县| 东方市| 鹿邑县| 偃师市| 肇源县| 北票市| 新民市| 吉木萨尔县| 福建省| 邳州市| 卢湾区| 汉中市| 乃东县| 郧西县| 四子王旗| 申扎县| 罗源县| 镇雄县| 瑞金市| 米易县| 安国市| 泰兴市| 资兴市| 新宁县| 泸州市|