高群
摘 要? 本文首先簡(jiǎn)述了機(jī)器學(xué)習(xí)的概念以及在人工智能中所處的地位,然后簡(jiǎn)介了常見(jiàn)的機(jī)器學(xué)習(xí)的模型和方法,包括目前熱門(mén)的深度學(xué)習(xí)方法。最后,以輕工信息資源數(shù)據(jù)庫(kù)建設(shè)與服務(wù)的重構(gòu)為例,從資源庫(kù)的重構(gòu)、購(gòu)置與建設(shè)以及服務(wù)這三個(gè)角度,探討了機(jī)器學(xué)習(xí)技術(shù)在其中的作用與應(yīng)用。
關(guān)鍵詞? 人工智能 機(jī)器學(xué)習(xí) 深度學(xué)習(xí) 信息資源數(shù)據(jù)庫(kù) 重構(gòu)
中圖分類(lèi)號(hào) G250.74 文獻(xiàn)標(biāo)識(shí)碼 A 收稿日期 2019-12-03
Abstract In this paper, the basic concept and key role of machine learning is firstly stated, and the commonly used machine learning models and methods are introduced, including the prevalent deep learning techniques. Then, taking the reconstruction of building and service of light industry information resources database as an example, the paper discusses the function and application of machine learning technique from the aspects of reconstruction, design, building and service of database.
Keyword artificial intelligence; machine learning; deep learning; information resources database; reconstruction
一、引言
由于智能算法、大數(shù)據(jù)、計(jì)算機(jī)算力的迅猛發(fā)展,也由于自2010年來(lái),人工智能特別是AlphaGo的出現(xiàn),以及深度學(xué)習(xí)在圖像視頻處理、語(yǔ)音識(shí)別、自然語(yǔ)言處理、機(jī)器人等應(yīng)用領(lǐng)域所取得了突破性進(jìn)展,人工智能在國(guó)內(nèi)乃至國(guó)際上形成了熱潮,正深刻改變和引領(lǐng)著社會(huì)向智能化發(fā)展??梢赃@么說(shuō),人工智能的這次熱潮是由機(jī)器學(xué)習(xí)技術(shù)催生的。近年來(lái),我們圖書(shū)館以我校輕紡特色為面向,自建了輕工信息資源數(shù)據(jù)庫(kù)、輕紡研究生論文資源數(shù)據(jù)庫(kù)等數(shù)種數(shù)據(jù)庫(kù)。人工智能將助推智能圖書(shū)館的建設(shè)與發(fā)展,而機(jī)器學(xué)習(xí)技術(shù)將成為信息資源數(shù)據(jù)庫(kù)建設(shè)與服務(wù)重構(gòu)的抓手和核心技術(shù),未來(lái)人工智能必將發(fā)揮越來(lái)越重要的作用。
二、機(jī)器學(xué)習(xí):模型和方法
眾所周知,機(jī)器學(xué)習(xí)是人工智能的重要分支,其目的是依據(jù)現(xiàn)有數(shù)據(jù),參照和模擬人腦的智能行為或數(shù)學(xué)手段建立或設(shè)計(jì)出數(shù)學(xué)模型,從而實(shí)現(xiàn)對(duì)未來(lái)新數(shù)據(jù)進(jìn)行有效預(yù)測(cè)的過(guò)程。經(jīng)過(guò)數(shù)十年的發(fā)展,目前已出現(xiàn)了數(shù)百種以上的機(jī)器學(xué)習(xí)方法。但真正引起社會(huì)大眾注意的則是圍棋機(jī)器人AlphaGo。本質(zhì)上,AlphaGo是運(yùn)用最新的深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù)[1]。它從數(shù)以萬(wàn)計(jì)的圍棋訓(xùn)練數(shù)據(jù)中學(xué)習(xí)、訓(xùn)練了如何下圍棋,故它是最典型的機(jī)器學(xué)習(xí)技術(shù)的成功應(yīng)用。
機(jī)器學(xué)習(xí)的研究目前呈現(xiàn)出統(tǒng)計(jì)學(xué)、數(shù)學(xué)、信息論、生物神經(jīng)網(wǎng)絡(luò)等多種學(xué)科領(lǐng)域相融合的特點(diǎn),其廣為人知的應(yīng)用領(lǐng)域包括人臉識(shí)別以及生物智能識(shí)別、自然語(yǔ)言處理、數(shù)據(jù)挖掘、智能推薦系統(tǒng)等。圖書(shū)信息資源數(shù)據(jù)庫(kù)建設(shè)是現(xiàn)代圖書(shū)館應(yīng)有的建設(shè)內(nèi)容,它涉及對(duì)現(xiàn)有信息資源的整理、挖掘與再利用[2,3,4,5],從而為讀者提供更為智能便利的服務(wù)。因而,機(jī)器學(xué)習(xí)在圖書(shū)信息資源數(shù)據(jù)庫(kù)建設(shè)中有著不可替代的應(yīng)用,將助推其向智能化強(qiáng)力發(fā)展。為了觀(guān)察和研究機(jī)器學(xué)習(xí)在圖書(shū)信息資源數(shù)據(jù)庫(kù)建設(shè)中的作用,我們首先簡(jiǎn)要地總結(jié)機(jī)器學(xué)習(xí)的模型和方法。
1.監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。按照不同的任務(wù)需求,機(jī)器學(xué)習(xí)模型可大致分為兩大類(lèi),即監(jiān)督學(xué)習(xí)模型和無(wú)監(jiān)督學(xué)習(xí)模型,監(jiān)督學(xué)習(xí)模型要求訓(xùn)練集聚有類(lèi)標(biāo)信息,即給定樣本本身及其他的輸出信息(稱(chēng)為監(jiān)督信息),然后從樣本集及其輸出信息之間學(xué)習(xí)/訓(xùn)練出相應(yīng)的決策模型,用以對(duì)未來(lái)測(cè)試樣本的輸出信息預(yù)測(cè),典型監(jiān)督學(xué)習(xí)模型主要用于分類(lèi)和回歸,無(wú)監(jiān)督學(xué)習(xí)模型僅依據(jù)樣本集本身而挖掘出所需要的結(jié)果,典型的無(wú)監(jiān)督學(xué)習(xí)模型主要用于聚類(lèi)。經(jīng)常地,人們將這兩種模型綜合起來(lái)以解決更復(fù)雜的問(wèn)題。
2.Bayes分類(lèi)器。該學(xué)習(xí)模型以經(jīng)典的概率論中的Bayes公式為基礎(chǔ),根據(jù)某類(lèi)別條件下每個(gè)特征的條件概率和每個(gè)類(lèi)別的先驗(yàn)概率,來(lái)求得某些特征條件下每個(gè)類(lèi)別的條件概率,條件概率最大的類(lèi)別就是其要預(yù)測(cè)的類(lèi)別。近年來(lái),以Bayes概率理論為基礎(chǔ)的Bayes網(wǎng)絡(luò)正受到越來(lái)越多的重視和應(yīng)用,一般地,隱馬爾柯夫模型、極大似然熵原理、EM優(yōu)化算法[6]是其模型求介的基礎(chǔ),并由此拓展出各種新技術(shù)。
3.決策樹(shù)和隨機(jī)森林模型。作為最典型的機(jī)器學(xué)習(xí)模型之一,決策樹(shù)模型[7]是一種利用樹(shù)形結(jié)構(gòu)依據(jù)熵計(jì)算的分類(lèi)模型,一個(gè)決策樹(shù)由樹(shù)的節(jié)點(diǎn)和有向邊構(gòu)成。分類(lèi)時(shí)在決策樹(shù)上的每個(gè)內(nèi)節(jié)點(diǎn)上依據(jù)熵的值進(jìn)行判斷,其結(jié)果得到一個(gè)子節(jié)點(diǎn),直到到達(dá)一個(gè)葉子節(jié)點(diǎn),最著名的算法是Quialan教授的ID3算法。當(dāng)用若干個(gè)決策樹(shù)隨機(jī)組合在一起時(shí),則形成了隨機(jī)森林模型。目前,隨機(jī)森林已得到了廣泛應(yīng)用,典型的算法是Random Forest,簡(jiǎn)稱(chēng)RF方法。
4.支撐向量機(jī)與統(tǒng)計(jì)學(xué)習(xí)。自20世紀(jì)90年代以來(lái),以統(tǒng)計(jì)學(xué)習(xí)技術(shù)為代表的機(jī)器學(xué)習(xí)技術(shù)一直是機(jī)器學(xué)習(xí)的主流研究方向。支撐向量機(jī)[6,7]是統(tǒng)計(jì)學(xué)習(xí)的典型代表,它依據(jù)統(tǒng)計(jì)學(xué)習(xí)中最小風(fēng)險(xiǎn)化原理,將原數(shù)據(jù)空間映射到高維特征空間,運(yùn)用核技巧,構(gòu)造一個(gè)超平面,將不同類(lèi)別的數(shù)據(jù)分割開(kāi)來(lái),以實(shí)現(xiàn)具有泛化能力的分類(lèi)效果。支撐向量機(jī)在文本圖像處理,數(shù)據(jù)挖掘,智能檢索中取得顯著應(yīng)用,支撐向量機(jī)常稱(chēng)為淺度學(xué)習(xí)方法。
5.多任務(wù)、多視角學(xué)習(xí)與遷移學(xué)習(xí)。由于客觀(guān)世界中,存在著大量的同時(shí)完成多個(gè)相關(guān)聯(lián)任務(wù),或從多個(gè)視角觀(guān)察或收集數(shù)據(jù)應(yīng)用場(chǎng)景,故近年來(lái)發(fā)展出了多種任務(wù)、多視角學(xué)習(xí)模型。這些模型充分關(guān)聯(lián)共享信息的利用,以提高每個(gè)任務(wù)的機(jī)器學(xué)習(xí)效果。遷移學(xué)習(xí)目的是利用歷史數(shù)據(jù)或知識(shí)來(lái)幫助提高當(dāng)前相似應(yīng)用場(chǎng)景的分類(lèi)效果。遷移學(xué)習(xí)很好地模擬了人類(lèi)模仿和利用經(jīng)驗(yàn)知識(shí)解決新問(wèn)題的能力,是近年來(lái)非常熱的研究方向,并被譽(yù)為下一代機(jī)器學(xué)習(xí)的前沿技術(shù)。
6.連接主義學(xué)習(xí)與深度學(xué)習(xí)。人工神經(jīng)網(wǎng)絡(luò)一直是機(jī)器學(xué)習(xí)的一個(gè)重要方向,其基本思想是模擬人腦神經(jīng)元行為,構(gòu)造出人工神經(jīng)網(wǎng)絡(luò)模型,以用來(lái)完成對(duì)未知樣本的預(yù)測(cè)。以人工神經(jīng)網(wǎng)絡(luò)、模糊系統(tǒng)、遺傳優(yōu)化[6,7]為基礎(chǔ),甚至形成了計(jì)算智能子學(xué)科。自2010年以來(lái),人們通過(guò)將數(shù)據(jù)的多層表達(dá)與分類(lèi)決策過(guò)程分離,依據(jù)快速的多層數(shù)據(jù)表達(dá)學(xué)習(xí),形成了高達(dá)成千上萬(wàn)層的神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法。深度學(xué)習(xí)[1,7]在圖像分類(lèi)、文本分類(lèi)、語(yǔ)音識(shí)別的高效應(yīng)用中獲得了工業(yè)界的廣泛青睞。典型的工作包括深度置信神經(jīng)網(wǎng)絡(luò)和深度卷積神經(jīng)網(wǎng)絡(luò)及其學(xué)習(xí)方法。
三、基于機(jī)器學(xué)習(xí)的圖書(shū)信息資源數(shù)據(jù)庫(kù)建設(shè)與重構(gòu)
人工智能,特別是深度學(xué)習(xí)為圖書(shū)情報(bào)學(xué)帶來(lái)了新的機(jī)遇和挑戰(zhàn)。無(wú)疑,也為圖書(shū)信息資源數(shù)據(jù)庫(kù)的建設(shè)與重構(gòu)智能注入了新思路、新理念、新功能。我校作為輕工行業(yè)的明珠,數(shù)十年來(lái)的發(fā)展已積累了大量的輕工信息資源。近年來(lái),我們學(xué)校圖書(shū)館圍繞輕工信息資源建設(shè),已自建了不少輕工信息資源數(shù)據(jù)庫(kù),在一定程度上為師生提供了教學(xué)與研究上的便利。但我們也認(rèn)為,有必要運(yùn)用機(jī)器學(xué)習(xí)技術(shù)對(duì)其進(jìn)行智能化的建設(shè)和重構(gòu)。
1.基于機(jī)器學(xué)習(xí)的自有輕工信息資源數(shù)據(jù)庫(kù)的重構(gòu)。近年來(lái),我們陸續(xù)自建了輕工信息資源數(shù)據(jù)庫(kù)、輕紡研究生論文資源等數(shù)種數(shù)據(jù)庫(kù)。應(yīng)該說(shuō),我們目前的輕工信息資源數(shù)據(jù)庫(kù)建設(shè)是圍繞原有輕工信息資源而進(jìn)行的二次梳理和利用。在這個(gè)過(guò)程中,我們認(rèn)為,下一步可以依據(jù)機(jī)器學(xué)習(xí)技術(shù)幫助對(duì)現(xiàn)有信息資源數(shù)據(jù)庫(kù)進(jìn)行智能化建設(shè)。
一方面,首先針對(duì)現(xiàn)有的自建數(shù)據(jù)庫(kù)以及購(gòu)買(mǎi)的電子和紙質(zhì)的輕工信息資源進(jìn)行充分整理,基于輕工領(lǐng)域化的文本數(shù)據(jù),首先構(gòu)造輕工領(lǐng)域的詞匯、術(shù)語(yǔ)和實(shí)體資源,結(jié)合現(xiàn)有各種機(jī)器學(xué)習(xí)模型,特別是支撐向量和深度學(xué)習(xí)方法,實(shí)現(xiàn)對(duì)輕工信息文本的分詞、詞性標(biāo)記、識(shí)別、實(shí)體關(guān)系表達(dá),從而實(shí)現(xiàn)對(duì)輕工信息資源的有效組織、整合與挖掘。然后,通過(guò)淺層句法關(guān)系、深層句法及語(yǔ)義關(guān)系、語(yǔ)義自動(dòng)分析、篇章結(jié)構(gòu)的計(jì)算,從而從現(xiàn)有輕工信息資源的文本中智能地挖掘出詞匯層面、實(shí)體層面、篇章層面等多個(gè)層面(側(cè)面)的知識(shí),以構(gòu)建知識(shí)庫(kù)。最后,利用可視化和虛擬現(xiàn)實(shí)技術(shù),對(duì)我校現(xiàn)有輕工信息資源進(jìn)行活靈活現(xiàn)的展現(xiàn),以輕工信息資源的價(jià)值吸引讀者使用,提高自建輕工信息資源數(shù)據(jù)庫(kù)的服務(wù)水平。
另一方面,我們可以運(yùn)用機(jī)器學(xué)習(xí)技術(shù)對(duì)先有自建輕工信息資源數(shù)據(jù)庫(kù)本身的內(nèi)容進(jìn)行不斷的智能化調(diào)整和優(yōu)化。我們可以運(yùn)用于大數(shù)據(jù)的深度學(xué)習(xí)技術(shù),精準(zhǔn)分析我校輕工學(xué)科的用戶(hù)要求;可以依據(jù)圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理與智能檢索等技術(shù)對(duì)當(dāng)前輕工文獻(xiàn)中的知識(shí)內(nèi)容進(jìn)行不間斷的基于語(yǔ)義的智能標(biāo)引、智能摘要、學(xué)科導(dǎo)航、知識(shí)構(gòu)建等知識(shí)組織,從而對(duì)先有自建數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行動(dòng)態(tài)的綜合評(píng)價(jià),然后根據(jù)評(píng)價(jià)結(jié)果,對(duì)自建數(shù)據(jù)庫(kù)內(nèi)容安排與格式進(jìn)行動(dòng)態(tài)優(yōu)化調(diào)整,以便當(dāng)前這些數(shù)據(jù)庫(kù)能更好地面向我校輕工一流學(xué)科建設(shè)。
2.基于機(jī)器學(xué)習(xí)的輕工信息資源庫(kù)的購(gòu)置與建設(shè)。應(yīng)該說(shuō),我們圖書(shū)館已有的紙質(zhì)信息資源和電子信息資源是自建輕工信息資源數(shù)據(jù)庫(kù)的物質(zhì)基礎(chǔ)。自建的輕工信息資源數(shù)據(jù)庫(kù)是在其基礎(chǔ)上的再組織和開(kāi)發(fā)。當(dāng)前,圖書(shū)館按照信息資源的采購(gòu)、組織和書(shū)庫(kù)管理,與用戶(hù)、出版社、書(shū)商、資源商、電商、物流進(jìn)行業(yè)務(wù)對(duì)接或數(shù)據(jù)共享。我們可以基于大數(shù)據(jù)的深度學(xué)習(xí)技術(shù)精準(zhǔn)分析我校輕工學(xué)科的用戶(hù)要求,從而協(xié)助館員在選購(gòu)各種有效的輕工信息資源,并自動(dòng)完成訂購(gòu)業(yè)務(wù)管理、驗(yàn)收登記、經(jīng)費(fèi)管理等相關(guān)的統(tǒng)計(jì)分析。還可以基于大數(shù)據(jù)的深度學(xué)習(xí)分析技術(shù),探討輕工信息資源的分析和館藏的合理布局。
3.基于機(jī)器學(xué)習(xí)的輕工信息資源數(shù)據(jù)庫(kù)的服務(wù)。一方面,基于我們學(xué)校圖書(shū)館館藏的輕工信息資源以及自建的輕工信息資源數(shù)據(jù)庫(kù)和輕工學(xué)科用戶(hù)大數(shù)據(jù)分析及機(jī)器學(xué)習(xí)的知識(shí)挖掘,精準(zhǔn)策劃和舉辦閱讀推廣、閱讀交流等,提高為師生服務(wù)的質(zhì)量。以讀者為中心,構(gòu)建智能問(wèn)答系統(tǒng),即運(yùn)用機(jī)器學(xué)習(xí)特別是深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)對(duì)提問(wèn)的精準(zhǔn)分類(lèi)和多層面的子句分析,并能根據(jù)現(xiàn)有輕工信息資源以及讀者行為記錄,回答問(wèn)題和智能推介信息資源,從而推動(dòng)面向師生的輕工信息資源服務(wù)向智能化邁進(jìn)。另一方面,自建的輕工信息資源數(shù)據(jù)庫(kù)服務(wù)也要以學(xué)科帶頭人為面向,基于輕工學(xué)科老師的服務(wù)數(shù)據(jù)和個(gè)人需求及行為偏好,有針對(duì)性地建設(shè)和豐富現(xiàn)有信息資源數(shù)據(jù)庫(kù);結(jié)合館藏信息資源,開(kāi)展信息資源整合與集成等個(gè)性化檢索和智能定制與推送等服務(wù),為學(xué)科帶頭人提供特色服務(wù),節(jié)約他們寶貴的時(shí)間,提升服務(wù)的準(zhǔn)確性。
四、結(jié)論
本文初步探討了機(jī)器學(xué)習(xí)在輕工信息資源數(shù)據(jù)庫(kù)建設(shè)與服務(wù)中的應(yīng)用。事實(shí)上,兩者的結(jié)合點(diǎn)還有很多。對(duì)圖書(shū)館工作者來(lái)說(shuō),研究此方面的課題是一項(xiàng)機(jī)遇,也是挑戰(zhàn)。隨著人工智能熱潮的演進(jìn),我們相信機(jī)器學(xué)習(xí)成果在圖書(shū)館學(xué)中的應(yīng)用,將助推圖書(shū)信息資源數(shù)據(jù)庫(kù)的建設(shè)與服務(wù)迅速地向智能化邁進(jìn)。
參考文獻(xiàn)
[1]Lecun Y, Bengio Y, Hinton G, Deep learning. Nature,2015,521 (7553):436-444.
[2]李莘.國(guó)內(nèi)高校圖書(shū)館資源發(fā)現(xiàn)服務(wù)系統(tǒng)的應(yīng)用現(xiàn)狀及比較研究[J].河南圖書(shū)館學(xué)刊,2018,38(6):79-81.
[3]曹樹(shù)金,王志紅.高校圖書(shū)館資源發(fā)現(xiàn)系統(tǒng)創(chuàng)新擴(kuò)散機(jī)制研究[J].圖書(shū)情報(bào)研究,2016(1):23-29.
[4]劉洋.我國(guó)高校圖書(shū)館資源發(fā)現(xiàn)系統(tǒng)現(xiàn)狀調(diào)查:以“985工程”院校為例[J].河北科技圖苑,2016(4):86 -90.
[5]王浩然.面向?qū)W科服務(wù)的高校圖書(shū)館資源發(fā)現(xiàn)系統(tǒng)應(yīng)用研究[J].圖書(shū)館學(xué)刊,2016(8):49-52.
[6]李航.統(tǒng)計(jì)學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.
[7]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.