郝祥軍 顧小清
摘要:在數(shù)據(jù)定義萬物、數(shù)據(jù)量化萬物、數(shù)據(jù)聯(lián)接萬物的人工智能時代,數(shù)據(jù)科學(xué)在大數(shù)據(jù)的推動下取得快速發(fā)展,將目標(biāo)直接指向了如何從數(shù)據(jù)中提取和建構(gòu)知識。數(shù)據(jù)科學(xué)指向的數(shù)據(jù)挖掘與知識創(chuàng)造過程系統(tǒng)描繪出從數(shù)據(jù)到知識發(fā)現(xiàn)的完整流程。本研究試圖從數(shù)據(jù)科學(xué)的視角探尋以數(shù)據(jù)為核心的新知識觀形成,從數(shù)據(jù)與智能技術(shù)帶來的知識生產(chǎn)方式與知識生產(chǎn)要素的變化中嘗試刻畫出重塑的知識觀輪廓,并對“教什么知識”“知識如何教”“如何化知識為素養(yǎng)”三個問題進行探討并做出回答,以尋求教育迎接知識創(chuàng)新人才挑戰(zhàn)的發(fā)展路徑。
關(guān)鍵詞:數(shù)據(jù)科學(xué);人工智能;知識觀;數(shù)據(jù)挖掘;知識創(chuàng)造;知識生產(chǎn);知識教學(xué);教育發(fā)展
中圖分類號:G511? ? ? ?文獻標(biāo)識碼:A? ? ? ? 文章編號:1009-458x(2023)5-0013-11
一、引言
隨著大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等智能技術(shù)的深入發(fā)展,人類社會逐漸從“信息化”轉(zhuǎn)向“智能化”,萬物互聯(lián)成為智能時代的關(guān)鍵特征。這種特征背后的一個假設(shè)就是“萬物皆可數(shù)據(jù)”,人與人之間、人與物之間、物與物之間都可以以數(shù)據(jù)作為紐帶形成聯(lián)接,在平行宇宙中鏡像構(gòu)建出一個數(shù)據(jù)世界。恰如古希臘哲學(xué)家畢達哥拉斯的“數(shù)是萬物本原”的觀點,直接將數(shù)據(jù)視為世界的本體或本質(zhì)去討論(林夏水, 1989)。當(dāng)前,技術(shù)的發(fā)展日新月異,似乎由于數(shù)據(jù)與技術(shù)的推動人類將更接近這一本質(zhì)。例如,以機器學(xué)習(xí)為內(nèi)核的人工智能(Artificial Intelligence, AI)已經(jīng)滲透到社會的各個領(lǐng)域,出現(xiàn)智能社會、智能交通、智能教育、智能醫(yī)療等新的發(fā)展趨勢。人工智能的核心是算法,算法的核心是基于數(shù)據(jù)的機器學(xué)習(xí),以機器學(xué)習(xí)為內(nèi)核的AI在本質(zhì)上也是數(shù)據(jù)驅(qū)動的智能,或稱為“計算智能”。因此,數(shù)據(jù)是AI成功的重要因素,數(shù)據(jù)和智能構(gòu)成一體兩面的關(guān)系(程學(xué)旗 等, 2020)。而數(shù)據(jù)科學(xué)是一種“使數(shù)據(jù)有用”的科學(xué)理論和技術(shù)系統(tǒng),探索將數(shù)據(jù)轉(zhuǎn)化為信息、信息轉(zhuǎn)化為知識、知識轉(zhuǎn)化為決策的機制和方法(Xu, 2021)。正是在數(shù)據(jù)科學(xué)的影響下,科學(xué)的知識發(fā)現(xiàn)與生產(chǎn)從僅追求因果性走向重視相關(guān)性,提出了“科學(xué)始于數(shù)據(jù)”的知識生產(chǎn)新模式,為人類探索世界提供了新的思維范式與方法途徑(黃欣榮, 2014)。那么,在數(shù)據(jù)定義萬物、數(shù)據(jù)量化萬物、數(shù)據(jù)聯(lián)接萬物的人工智能時代,當(dāng)一切皆可用數(shù)據(jù)表征、描述、解釋和預(yù)測時,人們認識世界的方式是否會因此改變?知識創(chuàng)造與生產(chǎn)模式會發(fā)生什么變化?是否會重塑出新的知識觀?教育又該如何應(yīng)對新知識生產(chǎn)模式帶來的人才挑戰(zhàn)?本研究將從數(shù)據(jù)科學(xué)的視角嘗試回答這些問題。
二、數(shù)據(jù)科學(xué)的由來與內(nèi)涵
數(shù)據(jù)科學(xué)由來已久,其內(nèi)涵也歷經(jīng)多次演變,而大數(shù)據(jù)的出現(xiàn)和發(fā)展是推動數(shù)據(jù)科學(xué)形成的最直接、最重要、最核心的動力。據(jù)研究記載(聶淑媛, 2019),數(shù)據(jù)科學(xué)一詞最早于1966年被圖靈獎獲得者丹麥計算機科學(xué)家彼得·諾爾(Peter Naur)提出,意指研究數(shù)據(jù)使用和本質(zhì)的科學(xué);1996年數(shù)據(jù)科學(xué)第一次正式出現(xiàn)在日本神戶召開的第五屆IFCS大會的主題中,大會明確了數(shù)據(jù)科學(xué)的含義,即“數(shù)據(jù)科學(xué)應(yīng)該是統(tǒng)計學(xué)、數(shù)據(jù)、計算機及其相關(guān)方法的綜合交叉,通過數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用等過程與環(huán)節(jié),最終達成利用海量數(shù)據(jù)揭示自然現(xiàn)象和社會本質(zhì)的終極目標(biāo)”。自此,數(shù)據(jù)科學(xué)的概念被提出,但一直未被正式討論;直到本世紀(jì)初大數(shù)據(jù)出現(xiàn),數(shù)據(jù)科學(xué)才重新走進人們的視野。2007年圖靈獎得主美國數(shù)據(jù)庫專家吉姆·格雷(Jim Gray)提出數(shù)據(jù)密集型科學(xué)研究范式(Tolle et al., 2011),該研究范式進一步凸顯數(shù)據(jù)在科學(xué)知識發(fā)現(xiàn)與生產(chǎn)上的價值。發(fā)展至今,數(shù)據(jù)科學(xué)已經(jīng)成為一門強調(diào)如何從數(shù)據(jù)中獲取知識洞見的交叉學(xué)科,主要與統(tǒng)計學(xué)、計算機科學(xué)、機器學(xué)習(xí)等具有千絲萬縷的聯(lián)系。而且,數(shù)據(jù)科學(xué)在金融、商業(yè)、教育、新聞等眾多領(lǐng)域已成功實踐,在“實踐倒逼理論創(chuàng)新”的趨勢下,亟待從數(shù)據(jù)科學(xué)的學(xué)科視角深入挖掘蘊藏在實踐背后的新理念、新方法、新技術(shù)和新理論(朝樂門, 2019)。
那么究竟何為數(shù)據(jù)科學(xué)?中國工程院李國杰院士(2012)從社會學(xué)的角度解釋為,數(shù)據(jù)科學(xué)是關(guān)于大數(shù)據(jù)時代的科學(xué),旨在揭示大數(shù)據(jù)時代的新挑戰(zhàn)、新機遇、新思維和新模式,是大數(shù)據(jù)時代新理論、新方法、新模型、新技術(shù)、新平臺、新工具和新應(yīng)用等組成的一套知識體系。后來,經(jīng)過進一步討論認為,“數(shù)據(jù)科學(xué)是方法論和本體論在數(shù)據(jù)價值實現(xiàn)目標(biāo)下的統(tǒng)一”(程學(xué)旗 等, 2020)。在方法論上,數(shù)據(jù)科學(xué)的內(nèi)涵是“數(shù)據(jù)驅(qū)動科學(xué)發(fā)現(xiàn)”,即延續(xù)了數(shù)據(jù)密集型科學(xué)研究范式中通過數(shù)據(jù)揭示事物本質(zhì)規(guī)律的思想;在本體論上,數(shù)據(jù)科學(xué)是“用科學(xué)方法來研究數(shù)據(jù)”,即強調(diào)了數(shù)據(jù)作為反映自然世界的符號化表征,運用科學(xué)方法來探索數(shù)據(jù)的一般性規(guī)律。而國外學(xué)者對數(shù)據(jù)科學(xué)的認識似乎更加技術(shù)化。普羅沃斯特(Provost)等認為,數(shù)據(jù)科學(xué)是支持和指導(dǎo)從數(shù)據(jù)中原則性地提取信息和知識的一套基本原則,與其最密切相關(guān)的概念是數(shù)據(jù)挖掘(Provost & Fawcett, 2013)。例如,使用分布式計算環(huán)境中的大型多結(jié)構(gòu)數(shù)據(jù)的統(tǒng)計和機器學(xué)習(xí)技術(shù)來識別相關(guān)性和因果關(guān)系,對事件進行分類和預(yù)測等(Das et al., 2015)。馬丁內(nèi)斯(Martinez)等將數(shù)據(jù)科學(xué)定義為計算機科學(xué)、數(shù)學(xué)和統(tǒng)計學(xué)之間的多學(xué)科交叉領(lǐng)域,包括利用科學(xué)方法和技術(shù)從大量結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)中獲取知識和價值(Martinez et al., 2021)。雖然數(shù)據(jù)科學(xué)的定義還未統(tǒng)一,但從眾多概念定義來看,數(shù)據(jù)科學(xué)是研究如何從數(shù)據(jù)中提取和建構(gòu)知識的計算原理、方法和系統(tǒng)的領(lǐng)域,旨在通過數(shù)據(jù)驅(qū)動的方式揭示事物規(guī)律和科學(xué)發(fā)現(xiàn)以解決復(fù)雜的實際問題。
綜上所述,數(shù)據(jù)科學(xué)作為大數(shù)據(jù)技術(shù)推動下的產(chǎn)物,其出現(xiàn)有其必然性和必要性。尤其當(dāng)前處在數(shù)據(jù)驅(qū)動的智能時代,數(shù)據(jù)已經(jīng)上升為生產(chǎn)資料,數(shù)據(jù)科學(xué)則可以為發(fā)掘數(shù)據(jù)效能提供理論方法與技術(shù)支撐,從而增強大數(shù)據(jù)的能力,并將其轉(zhuǎn)化為實際生產(chǎn)力。因此,從知識創(chuàng)造與生產(chǎn)的角度來看,數(shù)據(jù)科學(xué)為數(shù)據(jù)到知識的轉(zhuǎn)變提供了理論指導(dǎo)和技術(shù)路徑。恰如徐(Xu)等總結(jié)的“三個轉(zhuǎn)變、一個實現(xiàn)”,即數(shù)據(jù)科學(xué)的目標(biāo)是實現(xiàn)對現(xiàn)實世界的認識和控制,數(shù)據(jù)科學(xué)的科學(xué)任務(wù)是完成數(shù)據(jù)空間中從數(shù)據(jù)到信息、從信息到知識、從知識到?jīng)Q策的轉(zhuǎn)變(Xu et al., 2021)。因此,數(shù)據(jù)科學(xué)就是探索如何從數(shù)據(jù)到知識轉(zhuǎn)變過程的理論、技術(shù)和應(yīng)用的一套體系,直接以數(shù)據(jù)增值過程指向知識創(chuàng)造,進而實現(xiàn)對以往知識生產(chǎn)流程的再造。
三、數(shù)據(jù)科學(xué)指向的知識創(chuàng)造
數(shù)據(jù)科學(xué)作為一門以數(shù)據(jù)為研究對象的科學(xué),將目標(biāo)指向如何實現(xiàn)從數(shù)據(jù)到信息、從信息到知識、從知識到?jīng)Q策的轉(zhuǎn)變,暗含著一個以數(shù)據(jù)為出發(fā)點的知識創(chuàng)造過程。最早的DIKW金字塔模型形象地詮釋了數(shù)據(jù)(Data)、信息(Information)、知識(Knowledge)和智慧(Wisdom)之間的關(guān)系以及數(shù)據(jù)向上轉(zhuǎn)化的過程(Rowley, 2007)。那么,如何從數(shù)據(jù)到信息,又從信息到知識,從而實現(xiàn)數(shù)據(jù)增值呢?數(shù)據(jù)是物理世界和人類社會活動的數(shù)字記錄,是編碼形式的信息載體,常見的數(shù)據(jù)表達包括表格、圖形、圖像、視頻和文本等多類型;信息是具有語義解釋的數(shù)據(jù),是經(jīng)過一定抽象和處理后對人類有意義和有用的形式的數(shù)據(jù);知識是通過信息的合成、相關(guān)性、演繹和推理獲得的,并且已被驗證為準(zhǔn)確和一般人相信的信息(Xu et al., 2021)。通過數(shù)據(jù)和信息與知識之間的概念關(guān)系可知,數(shù)據(jù)發(fā)揮價值需要經(jīng)過一套完整的增值過程,而這個過程就是數(shù)據(jù)挖掘或知識發(fā)現(xiàn)。
(一)數(shù)據(jù)挖掘過程:數(shù)據(jù)驅(qū)動的知識發(fā)現(xiàn)
由于數(shù)據(jù)庫的大量應(yīng)用,各領(lǐng)域非常關(guān)注如何從數(shù)據(jù)中獲取價值。如果沒有使用適當(dāng)?shù)募夹g(shù)來提取有用的知識,這些數(shù)據(jù)庫中包含的所有價值和豐富的信息都有可能被漠視和浪費。法耶德(Fayyed)等認為,“數(shù)據(jù)庫知識發(fā)現(xiàn)”就是從數(shù)據(jù)中發(fā)現(xiàn)知識的全過程,包括數(shù)據(jù)如何存儲和訪問,算法如何縮放到海量數(shù)據(jù)集并仍然高效運行,結(jié)果如何解釋和可視化等;數(shù)據(jù)挖掘是將適當(dāng)?shù)念A(yù)處理數(shù)據(jù)轉(zhuǎn)化為模式,隨后可以轉(zhuǎn)化為有價值的和可操作的知識(Fayyed et al., 1996)。之后一系列關(guān)于數(shù)據(jù)挖掘的過程模型被提出并應(yīng)用,如KDD(Knowledge Discovery Databases)、 SEMMA(Sample, Explore,Modify, Model, Assess)、CRISP-DM(Cross-Industry Standard Process for Data Mining)(Shafique & Qaiser, 2014)。其中,CRISP-DM過程模型(如圖1所示)作為跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)是目前使用最廣泛的工具,經(jīng)過20多年的發(fā)展,其數(shù)據(jù)挖掘模式仍然適用于今天的數(shù)據(jù)科學(xué)項目;從精確的業(yè)務(wù)目標(biāo)開始,轉(zhuǎn)化為明確的數(shù)據(jù)挖掘任務(wù),最終將“數(shù)據(jù)轉(zhuǎn)化為知識”(Martínez-Plumed et al., 2019)。
業(yè)務(wù)理解:這是數(shù)據(jù)挖掘的第一步,因為最初的數(shù)據(jù)挖掘服務(wù)于商業(yè)應(yīng)用,故此階段側(cè)重于從業(yè)務(wù)角度理解業(yè)務(wù)(知識發(fā)現(xiàn))的目標(biāo)和要求,從而定義數(shù)據(jù)挖掘問題、制定挖掘目標(biāo);在目標(biāo)導(dǎo)向下為整個流程初步擬定計劃,篩選挖掘技術(shù)和工具。
數(shù)據(jù)理解:該階段從最初的數(shù)據(jù)收集開始,然后進行一些數(shù)據(jù)獲取與檢測活動。重點是數(shù)據(jù)收集、數(shù)據(jù)檢測和質(zhì)量驗證,以熟悉數(shù)據(jù)、識別數(shù)據(jù)質(zhì)量問題、形成對數(shù)據(jù)的初步見解或檢測感興趣的子集,進而在洞察數(shù)據(jù)的基礎(chǔ)上生成隱藏信息的假設(shè)。
數(shù)據(jù)準(zhǔn)備:該階段包括從初始數(shù)據(jù)構(gòu)建最終數(shù)據(jù)集所需的所有活動,重點是選擇和準(zhǔn)備最終的數(shù)據(jù)集。這個階段可能包括許多任務(wù)記錄、表和屬性選擇以及數(shù)據(jù)的清理和轉(zhuǎn)換。數(shù)據(jù)準(zhǔn)備工作也可能會重復(fù)執(zhí)行,因為需要對原始數(shù)據(jù)進行反復(fù)清洗、過濾、組織和重構(gòu)等以達到“建?!彪A段的要求,并且要能夠匹配最初的業(yè)務(wù)目標(biāo)與挖掘目標(biāo)。
建模:在該階段,選擇和應(yīng)用各種建模技術(shù),設(shè)置不同的參數(shù),建立不同的模型,并將參數(shù)校準(zhǔn)到最優(yōu)值。針對同一數(shù)據(jù)挖掘問題類型可能有多種技術(shù)方案,有些技術(shù)對數(shù)據(jù)的形式有特定的要求。因此,該階段通常需要返回到數(shù)據(jù)準(zhǔn)備階段,為適應(yīng)建模要求而重新調(diào)整數(shù)據(jù)形式。
評估:重點是對得到的模型進行評估,并決定如何使用挖掘結(jié)果。從數(shù)據(jù)分析的角度來看,該階段似乎已經(jīng)建立了高質(zhì)量的模型。在繼續(xù)進行最終的模型部署之前,應(yīng)更徹底地評估模型并檢查構(gòu)建模型所采取的步驟,以確保它正確地實現(xiàn)了知識發(fā)現(xiàn)目標(biāo),并就未能考慮到的內(nèi)容進行再補充和深化。
部署:重點是確定獲取知識和結(jié)果的使用。這個階段還著重于以用戶可以使用的方式對所獲得的知識進行組織、報告和呈現(xiàn)。
各階段的詳細任務(wù)如表1所示。由于技術(shù)“黑箱”的緣故,其實并非所有人都清楚數(shù)據(jù)是如何從生成到被檢測、清洗和建模,再到被解釋或賦予意義的。該模型清晰地詮釋了以目標(biāo)為導(dǎo)向的數(shù)據(jù)增值的重要環(huán)節(jié)及其相互關(guān)系,交代了從數(shù)據(jù)到信息的轉(zhuǎn)化、再到最終被應(yīng)用于知識產(chǎn)品的流程。這個過程有迭代優(yōu)化的周期:在數(shù)據(jù)理解階段之后,數(shù)據(jù)分析人員往往需要回到業(yè)務(wù)理解中重新考慮最初的知識發(fā)現(xiàn)目標(biāo);在數(shù)據(jù)建模階段之后,需要新的數(shù)據(jù)預(yù)處理來改進衍生數(shù)據(jù)模型,甚至開發(fā)其他數(shù)據(jù)模型;評估階段的調(diào)查結(jié)果還可能需要從第一個階段開始,即業(yè)務(wù)理解,以防模型不支持事先確定的知識發(fā)現(xiàn)目標(biāo)。以此來看,數(shù)據(jù)挖掘是一個從相對明確的業(yè)務(wù)目標(biāo)和數(shù)據(jù)開始的過程,這些目標(biāo)和數(shù)據(jù)已經(jīng)收集并可用于進一步計算處理,這種過程類似于在確定礦物或金屬存在的特定地理位置開采有價值的礦物或金屬:數(shù)據(jù)是礦石,在礦石中發(fā)掘有價值的知識(Martínez-Plumed et al., 2019)。
(二)知識創(chuàng)造過程:人的智慧與數(shù)據(jù)協(xié)同
數(shù)據(jù)挖掘雖然實現(xiàn)了從數(shù)據(jù)中提取有效信息乃至形成知識認知,但其本質(zhì)上還不是真正意義上的知識創(chuàng)造,因為真正的知識創(chuàng)造需要有人的智慧性參與。正如知識創(chuàng)造理論之父野中郁次郎(Nonaka, 1994)提出的知識創(chuàng)造動態(tài)模型,強調(diào)知識的社會化、外在化、組合化和內(nèi)隱化,尤其強調(diào)社會互動有助于擴大和發(fā)展新知識,以及知識是通過默會(隱性)和明確(顯性)知識之間的持續(xù)對話而創(chuàng)造的。這凸顯人的智慧性在知識創(chuàng)造過程中的重要性?;诖?,Nonaka(1994)開發(fā)了組織知識創(chuàng)造過程模型(Organizational Knowledge Creation Process, OKCP)(如圖2所示)。這里的“組織”是指具有共同業(yè)務(wù)目標(biāo)的機構(gòu)或群體。該模型充實了個體與群體之間知識的傳播路徑,強調(diào)了擴大個體知識、為共享知識尋找共同概念(概念化)、將共享知識具體化為具體產(chǎn)品或系統(tǒng)(結(jié)晶化)、評估所使用的產(chǎn)品和知識(論證)以及通過組織傳播概念(知識網(wǎng)絡(luò)化)的重要性。
從該模型的要素來看,首先知識創(chuàng)造的原動力是個體,個體通過直接的“實踐”經(jīng)驗積累隱性知識。隨后,個體在組織內(nèi)部分享和交流經(jīng)驗,并在互動過程中對隱性知識進行概念化和反思,個體的知識就通過這種經(jīng)驗與理性的相互作用而擴大,并結(jié)晶成一個獨特的視角。其次,“論證”是最終聚合和篩選的過程,它決定了組織內(nèi)創(chuàng)造的知識在多大程度上對組織或社會真正有價值。從這個意義上講,論證決定了所創(chuàng)造知識的“質(zhì)量”,并涉及判斷真實性的標(biāo)準(zhǔn)。這符合傳統(tǒng)認識論中對知識的定義,即“知識是證成的真信念”(Knowledge is justified, true beliefs)(斯坦福哲學(xué)百科全書,2020),其強調(diào)的是知識的真實性以及被論證。最后是知識網(wǎng)絡(luò)化。在該階段組織群體已經(jīng)將概念化、結(jié)晶化和論證的概念整合到組織知識庫中,組織知識庫構(gòu)成了一個完整的組織知識網(wǎng)絡(luò);通過已建立的組織或社會愿景和新創(chuàng)建的概念之間相互誘導(dǎo)的互動過程,新的知識被創(chuàng)造出來,最終擴大了個體知識內(nèi)容并更新了個體內(nèi)部知識結(jié)構(gòu)。值得強調(diào)的是,知識創(chuàng)造過程是一個永無止境的循環(huán)過程,它不局限于組織內(nèi)部,包括許多與外部環(huán)境的接口,因為環(huán)境是激勵組織內(nèi)知識創(chuàng)造的持續(xù)來源,比如來自環(huán)境中的社會發(fā)展意圖、混亂與波動、信息冗余等都會引發(fā)組織知識創(chuàng)造。
該模型揭示了從人的經(jīng)驗知識出發(fā)經(jīng)過社會化反思與論證而產(chǎn)生新知識的過程。但大數(shù)據(jù)時代海量數(shù)據(jù)成為知識發(fā)現(xiàn)與創(chuàng)造的新源泉,新的知識創(chuàng)造方式應(yīng)融合數(shù)據(jù)挖掘的理念與方法,并將人的智慧性與技術(shù)的智能化進行融合。為此,海科等人(Haiko et al., 2021)從數(shù)據(jù)科學(xué)的視角整合了CRISP-DM框架與OKCP框架,構(gòu)建了數(shù)據(jù)科學(xué)指向的知識創(chuàng)造過程模型,即數(shù)據(jù)智能和分析的知識創(chuàng)造模型(如圖3所示)。他們認為CRISP-DM框架與OKCP框架剛好形成相輔相成的關(guān)系,能將“利用個人默會知識創(chuàng)建組織知識”和“專注于數(shù)據(jù)挖掘模型的構(gòu)建”的優(yōu)勢結(jié)合,能為數(shù)據(jù)分析師和領(lǐng)域?qū)I(yè)人員之間的知識協(xié)同作用創(chuàng)造空間。
根據(jù)其內(nèi)容介紹,本研究將該過程劃分為三個階段:
第一個階段是業(yè)務(wù)理解與概念化階段。該模型的前兩個活動“擴大個體知識”“分享隱性知識”可以等同于CRISP-DM框架的“業(yè)務(wù)理解”。不同個體通過社會化互動進行經(jīng)驗知識的發(fā)散與聚合,能夠增加組織整體知識和提升不同個體對業(yè)務(wù)內(nèi)容的共同理解。比如,領(lǐng)域?qū)<遗c數(shù)據(jù)分析師的知識背景不同,他們可以在此階段形成數(shù)據(jù)挖掘目標(biāo)的共識。該模型的第三個要素“業(yè)務(wù)概念”(Business concept)是CRISP-DM與OKCP的融合要素,因為“業(yè)務(wù)概念”活動的目的是個體通過互動分享來擴充知識,以增強對業(yè)務(wù)內(nèi)容的理解(這與CRISP-DM的“業(yè)務(wù)理解”一致),從而促進業(yè)務(wù)內(nèi)容的概念化,這為發(fā)展業(yè)務(wù)概念創(chuàng)造了有利條件,而且該階段獲得的業(yè)務(wù)概念將為后續(xù)活動中的“模型創(chuàng)建”提供藍本。
第二個階段是數(shù)據(jù)準(zhǔn)備與建模階段。該階段是進入以數(shù)據(jù)為中心的循環(huán)圈。首先,“數(shù)據(jù)理解”是依據(jù)確定的業(yè)務(wù)概念來確定數(shù)據(jù)的來源與采集方式等。其次,“數(shù)據(jù)準(zhǔn)備”即對數(shù)據(jù)進行清理、篩選和整合,并保證數(shù)據(jù)質(zhì)量(“數(shù)據(jù)理解”“數(shù)據(jù)準(zhǔn)備”是CRISP-DM的關(guān)鍵要素)。再其次,“模型創(chuàng)建”是CRISP-DM“建?!迸cOKCP“結(jié)晶化”的結(jié)合,強調(diào)建立不同的數(shù)據(jù)挖掘模型以及將業(yè)務(wù)目標(biāo)具體化到最終產(chǎn)出的制品。最后,“評估和論證”是兩個框架的第三個結(jié)合點,這里強調(diào)既要測試和驗證數(shù)據(jù),對模型進行評估,也要根據(jù)領(lǐng)域?qū)I(yè)知識為模型提供論證。在數(shù)據(jù)與領(lǐng)域?qū)I(yè)知識的雙重標(biāo)準(zhǔn)下對模型進行評價和論證,將能夠充分判斷模型是否足夠優(yōu)化、是否可以使用、是否還需要改進;若模型需要更多改進,則返回至“業(yè)務(wù)概念”活動尋求獲得有關(guān)業(yè)務(wù)內(nèi)容的新見解,啟動新一輪迭代循環(huán)。
第三個階段是知識生成與模型應(yīng)用階段。該階段包括兩項內(nèi)容:一是OKCP“知識網(wǎng)絡(luò)化”,意在組織內(nèi)進行知識傳播,促進由數(shù)據(jù)挖掘獲得和提煉的新知識與個體知識的重組,以建立新的知識結(jié)構(gòu)或擴充知識內(nèi)容。二是CRISP-DM“部署”,重點是對新知識、新模型的應(yīng)用,應(yīng)向組織成員以及業(yè)務(wù)相關(guān)利益者介紹說明如何使用已經(jīng)建立的知識發(fā)現(xiàn)模型。相對而言,CRISP-DM在以數(shù)據(jù)作為原料的知識發(fā)現(xiàn)方式上更加敏銳,所以選擇將“部署”活動作為模型組成要素,而且在“部署”活動中能夠提供如何在組織中實施應(yīng)用知識發(fā)現(xiàn)模型的策略,以促進有效應(yīng)用該模型來發(fā)現(xiàn)更多新知識。
通過以上數(shù)據(jù)科學(xué)指向的數(shù)據(jù)挖掘與知識創(chuàng)造過程,我們可以知道新的知識創(chuàng)造方式已經(jīng)形成,數(shù)據(jù)也已成為新的知識生產(chǎn)要素。從數(shù)據(jù)到信息,再到知識,這一數(shù)據(jù)增值鏈條闡釋了數(shù)據(jù)科學(xué)指向的知識創(chuàng)造是對大規(guī)模、多樣性的數(shù)據(jù)進行聚集、清洗、挖掘和再生產(chǎn),從而形成一種基于數(shù)據(jù)集與算法邏輯規(guī)則的知識發(fā)現(xiàn)、理解和應(yīng)用。這種以數(shù)據(jù)為主要原料的知識生產(chǎn)過程以及智能化算法與技術(shù)的加持,或許已經(jīng)在顛覆我們以往對知識的認識,促使人們形成新的知識觀。比如在知識主體上,吳飛等(2020)指出“人類的知識生產(chǎn)經(jīng)歷了從傳統(tǒng)的個體思考、專業(yè)組織到算法引導(dǎo)和人機協(xié)同的新階段”,人機協(xié)同的新階段則生動詮釋了人工智能參與知識生產(chǎn)的形態(tài)——人的智慧性與技術(shù)的智能化融合。而且在知識的含義、知識的類型、知識的獲取方式、知識的意義等眾多方面對知識哲學(xué)產(chǎn)生了深刻影響(肖峰, 2020a)。
四、數(shù)據(jù)科學(xué)下新知識觀的形成
數(shù)據(jù)在智能時代的重要性日益凸顯,因為數(shù)據(jù)是實現(xiàn)智能的基礎(chǔ),從這個角度甚至可以狹義地認為人工智能是數(shù)據(jù)科學(xué)的重要分支。從人們認識到與行動相關(guān)的知識對發(fā)展人工智能的重要性開始,專家知識系統(tǒng)、機器學(xué)習(xí)(深度學(xué)習(xí)、強化學(xué)習(xí))等一系列關(guān)于知識工程的技術(shù)或算法接連出現(xiàn)。智能技術(shù)讓機器從大量數(shù)據(jù)集學(xué)習(xí)中形成自己的知識或是由機器感知外部環(huán)境獲取數(shù)據(jù)來發(fā)現(xiàn)知識,逐漸顛覆了人類傳統(tǒng)知識創(chuàng)造依靠經(jīng)驗、認知乃至直覺的方式(顧小清 & 郝祥軍, 2022)。在數(shù)據(jù)與技術(shù)的雙重推動下,人類的科學(xué)知識生產(chǎn)方式與生產(chǎn)要素都發(fā)生了巨大變化。
(一)知識生產(chǎn)方式的變化
認識論是有關(guān)知識的哲學(xué)分支,知識是認識論領(lǐng)域的核心主題,它研究我們所知道的(內(nèi)容)、我們?nèi)绾沃溃ǚ椒ǎ┮约爸酪馕吨裁矗ㄒ饬x)。早期的研究者們大致形成三種知識觀念:一是“唯理論”,代表者有笛卡爾、斯賓諾莎和萊布尼茨等人,他們主張“天賦觀念”是知識的源泉,唯有經(jīng)過人腦的演繹和綜合推理獲得的理性認識才是可靠的知識,因此唯理論推崇演繹法;二是“經(jīng)驗論”,代表人物有貝克萊、休謨和馬赫等,他們認為感知經(jīng)驗是知識的來源,是對客觀世界的直接反映,通過經(jīng)驗歸納和總結(jié)形成知識,因而經(jīng)驗論崇尚歸納法;三是對“唯理論”和“經(jīng)驗論”的綜合,代表人物是康德,其將感知經(jīng)驗作為認知基礎(chǔ),需要通過“天賦”的認知規(guī)則即演繹、歸納和類比等才能形成知識,兩者缺一不可。由此可知,傳統(tǒng)的知識觀強調(diào)經(jīng)驗以及主體認知,夾雜著一定的主觀性。
科學(xué)是知識生產(chǎn)的重要途徑(張康之, 2021)。在近代認識論的演變當(dāng)中,科學(xué)知識生產(chǎn)經(jīng)歷了從“科學(xué)始于觀察”到“科學(xué)始于問題”,再到今天“科學(xué)始于數(shù)據(jù)”的轉(zhuǎn)變。首先,“科學(xué)始于觀察”是現(xiàn)代西方科學(xué)哲學(xué)中邏輯實證主義所秉持的觀點,他們認為觀察包括自然觀察與實驗觀察兩種,任何觀察都代表科學(xué)研究者對于事物對象的客觀認識,是人的感官能夠感知的。在這種觀察感知的基礎(chǔ)上通過歸納方法總結(jié)出科學(xué)知識,可以說深受經(jīng)驗認識論的影響。其次,“科學(xué)始于問題”是證偽主義者波普爾提出的著名觀點(邱仁宗, 2006, p. 51),他認為邏輯實證主義所尊崇的觀察并不具備絕對的客觀性而且是有限的,這種歸納得出的認識深受科學(xué)研究者的背景與理論預(yù)設(shè)影響,因而提倡科學(xué)的邏輯起點應(yīng)始于“問題”,科學(xué)研究者針對現(xiàn)有理論無法解決的“問題”提出各種猜想與假設(shè)并在實驗當(dāng)中驗證(問題→猜想性理論→排除錯誤→新問題)??梢钥闯觯翱茖W(xué)始于問題”的知識生產(chǎn)方式綜合了經(jīng)驗論與唯理論的思想,強調(diào)實驗法對發(fā)現(xiàn)科學(xué)知識的重要性。最后,“科學(xué)始于數(shù)據(jù)”成為大數(shù)據(jù)時代知識生產(chǎn)與科學(xué)發(fā)現(xiàn)的一種新方式(黃欣榮,2014)。時至今日,各類信息媒體或智能工具為人類構(gòu)建了一個數(shù)據(jù)世界,從數(shù)據(jù)中挖掘新知識、新規(guī)律是數(shù)據(jù)科學(xué)“開礦掘金”,實現(xiàn)數(shù)據(jù)到信息、知識的轉(zhuǎn)化增值,指向知識創(chuàng)造與生產(chǎn)的使命。“科學(xué)始于數(shù)據(jù)”的方式就是以規(guī)模巨大、類型多樣的數(shù)據(jù)作為知識生產(chǎn)原料,這將能夠打破傳統(tǒng)以主觀經(jīng)驗為主導(dǎo)的知識生產(chǎn)局限,走向以客觀數(shù)據(jù)為主導(dǎo)的規(guī)律探索與知識發(fā)現(xiàn)。
“科學(xué)始于數(shù)據(jù)”的知識生產(chǎn)方式得益于數(shù)據(jù)量化萬物的思想,哪怕是人類已經(jīng)固化于書本的知識乃至人類的社會化行為都可以被技術(shù)數(shù)字化、符號化為數(shù)據(jù)表達。所以,這里的數(shù)據(jù)不僅僅是指狹義理解中的數(shù)字形式,而是對人類世界一切事物的數(shù)據(jù)化表征,可以是人類原始的行為與經(jīng)驗,也可以是人類已經(jīng)確證或固化于書本的知識,包含表格、圖形、圖像、視頻和文本等多類型、多模態(tài)的數(shù)據(jù)形式,所以數(shù)據(jù)的類型也分為非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化。這種量化的方式使得現(xiàn)在的人工智能機器能夠靈活運用人類知識,比如AlphaGo在機器學(xué)習(xí)算法支持下從預(yù)置的大量人類棋手棋局模板中學(xué)習(xí)圍棋知識實現(xiàn)了人機較量;“微軟小冰”通過學(xué)習(xí)人類已經(jīng)廣泛流傳的詩歌、音樂和美術(shù)等作品實現(xiàn)藝術(shù)創(chuàng)作,甚至舉辦了畫展、出版了個人繪畫作品集,引發(fā)了人類對AI知識產(chǎn)權(quán)主體的倫理探討(曹新明 等, 2020)。正如陳麗(2019)在闡述知識觀變革的動因時指出的,“信息與行為的可量化”使得人類第一次可以運用數(shù)據(jù)科學(xué)方法精準(zhǔn)分析和系統(tǒng)掌握人類行為的規(guī)律。這揭示了數(shù)據(jù)科學(xué)影響下知識生產(chǎn)方式變化的根本原因,即以數(shù)據(jù)作為紐帶形成連接,創(chuàng)建了平行于宇宙的鏡像數(shù)據(jù)世界。同時,這一知識生產(chǎn)方式的變化也從正面詮釋了人類認知的三類進路(董春雨 等, 2018):一是純粹靠人類感知獲得的經(jīng)驗知識;二是以實驗為手段,通過儀器量化來衍生人類感知與經(jīng)驗;三是大數(shù)據(jù)技術(shù)推動“萬物數(shù)據(jù)化”,以“數(shù)據(jù)+算法”獲得一般性規(guī)律。這同樣也揭示了知識形態(tài)的演進過程,即從經(jīng)驗形態(tài)的知識(在感官所能觸及的層次上把握世界)到原理形態(tài)的知識(以普遍公式和系統(tǒng)推理構(gòu)成的演繹體系表達的知識,并通過實驗加以驗證),以及今天有信息技術(shù)支撐的交疊形態(tài)的知識(韓震, 2021)。信息技術(shù)支撐的交疊形態(tài)的知識是以計算科學(xué)來闡釋人類的社會現(xiàn)象與科學(xué)問題,通過大量、多源的數(shù)據(jù)采集、處理、挖掘和分析來構(gòu)建一個與客觀世界平行的鏡像數(shù)據(jù)世界并獲得認識,從而實現(xiàn)大數(shù)據(jù)知識發(fā)現(xiàn)與生產(chǎn)。
(二)知識生產(chǎn)要素的變化
以數(shù)據(jù)為關(guān)鍵原料的知識生產(chǎn)范式的出現(xiàn)與知識形態(tài)的演變,意味著新的認識論或知識觀正在悄然形成。例如,董春雨等(2019)就在大數(shù)據(jù)、機器學(xué)習(xí)科學(xué)應(yīng)用背景下討論了機器認識論的可能性,總結(jié)出以數(shù)據(jù)為基礎(chǔ)的認識論正在從人類中心走向非人類中心。今天處在知識經(jīng)濟時代的重要發(fā)展階段,生產(chǎn)要素的形態(tài)隨著經(jīng)濟發(fā)展不斷變遷。2020年3月30日中共中央、國務(wù)院發(fā)布《關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》,首次將數(shù)據(jù)增列為生產(chǎn)要素,數(shù)據(jù)成為新的生產(chǎn)力。眾所周知,生產(chǎn)力包括勞動者、勞動對象、勞動工具,三者的結(jié)合構(gòu)成生產(chǎn)方式。那么,“科學(xué)始于數(shù)據(jù)”的知識生產(chǎn)方式的形成代表著知識生產(chǎn)要素,即“知識生產(chǎn)主體”“知識生產(chǎn)對象”“知識生產(chǎn)技術(shù)與工具”發(fā)生了重大變化。
1. 知識生產(chǎn)主體,出現(xiàn)人、智能機器和人機協(xié)同三者共生的形態(tài)。人自出生時起就開始與外界產(chǎn)生各種交互而獲得知識,最原始的是通過觀察模仿行為,進而形成認識、創(chuàng)新行為,逐漸適應(yīng)社會生活。這也是現(xiàn)在廣受肯定的具身認知下的知識觀,即“知識是內(nèi)嵌于環(huán)境之中,是認知主體與對象、環(huán)境相互作用的結(jié)果”(范文翔 等, 2020),強調(diào)了“物體—背景—身體”的整體結(jié)構(gòu),體現(xiàn)了“人”作為認知主體的知識建構(gòu)形態(tài)。智能機器也是基于知識的運行結(jié)果,機器最初被“輸入”人類的知識(專家知識系統(tǒng))、模擬人的思維,然后變得能夠自動學(xué)習(xí)或生產(chǎn)(機器學(xué)習(xí))原本需要通過實踐、認知和頓悟才能獲得的知識。智能機器開始能夠參與乃至主導(dǎo)一些人類的知識生產(chǎn)活動,比如大家所熟知的“微軟小冰”,還有我們每天閱讀的新聞資訊也開始轉(zhuǎn)變?yōu)槿藱C協(xié)同編輯甚至機器自動化生成,原有的傳播格局被打破(任瑞娟 等, 2021)。知識創(chuàng)造似乎再也不是人類獨有的智慧專利。盡管目前機器還不能達到人的智能程度,但機器已經(jīng)表現(xiàn)出來的高級智能不容小覷,基于深度學(xué)習(xí)、強化學(xué)習(xí)算法的“自學(xué)習(xí)”過程在人工智能領(lǐng)域已經(jīng)實現(xiàn)。智能化的技術(shù)使得碎片化知識和跨領(lǐng)域知識能夠快速整合與聯(lián)結(jié),知識生產(chǎn)與迭代速率已經(jīng)超乎想象,基于算法規(guī)則的知識生產(chǎn)已經(jīng)在文藝創(chuàng)作、新聞、醫(yī)學(xué)、生物等各類活動當(dāng)中實現(xiàn)。但人和智能機器都有各自的局限,比如人在面對海量數(shù)據(jù)時的處理能力不足,智能機器對數(shù)據(jù)分析結(jié)果的理解力與可解釋性不足,等等。人工智能所能支持的自主知識創(chuàng)造是機器對人類智能理性思維的機械模仿,本質(zhì)上依然欠缺人的社會與情感屬性。正如王鑫等(2018)在探討人工智能的知識觀時指出的,AI已經(jīng)發(fā)展到如何具備人類思維與常識的技術(shù)節(jié)點,需要嘗試修復(fù)機器先天欠缺的“靈魂”,賦予機器常識,促進機器的知識理解、交互、自主學(xué)習(xí)與常識推理能力。對于現(xiàn)在的機器智能水平而言,想要跨越這個技術(shù)節(jié)點,必須人與機器高度協(xié)同。所以,在數(shù)據(jù)成為重要知識生產(chǎn)要素的形勢下,在當(dāng)前乃至未來的知識生產(chǎn)活動中,人、智能機器以及兩者協(xié)同都是可以共同存在的主體形態(tài)(郝祥軍 & 賀雪, 2022)。人的歸人、機器的歸機器,讓人和機器在各自最擅長的領(lǐng)域或環(huán)節(jié)發(fā)揮最大的作用,未來的知識生產(chǎn)分工也將更加明確。
2. 知識生產(chǎn)對象,范圍不斷拓展以及需要進行數(shù)據(jù)化形式轉(zhuǎn)換。在人類以往的知識生產(chǎn)活動中,知識生產(chǎn)主體主要面對的都是自然物理空間與人類社會空間,探索的是人類復(fù)雜的自然科學(xué)與社會科學(xué)問題。但隨著大數(shù)據(jù)時代的到來,信息爆炸與數(shù)據(jù)量暴增,人類開始從數(shù)據(jù)映射的信息空間中挖掘反映自然人類與社會的規(guī)律。人類社會、物理世界、信息空間構(gòu)成了當(dāng)今世界的三元,三者之間相互作用決定了社會發(fā)展呈現(xiàn)出數(shù)字化、網(wǎng)絡(luò)化和智能化的技術(shù)特征(徐宗本, 2019)。因此,知識生產(chǎn)對象相比以往有兩個關(guān)鍵特征。其一,知識生產(chǎn)的資源范圍被拓展。恰如陳麗等(2019)在闡述“互聯(lián)網(wǎng)+教育”背景下所出現(xiàn)的回歸論知識觀時指出,互聯(lián)網(wǎng)的出現(xiàn)正在改變知識的內(nèi)涵、生產(chǎn)方式和傳播方式,為人類創(chuàng)建了繼社會空間、物理空間后的信息空間,呈現(xiàn)出信息貢獻草根化、信息生產(chǎn)眾籌化、聯(lián)結(jié)關(guān)系網(wǎng)絡(luò)化等關(guān)鍵特征,知識不再僅存于單個人的頭腦中,還存在于個體、組織和機器等不同主體組成的網(wǎng)絡(luò)中。而且在知識被生產(chǎn)和被吸收的同時,也會以某種信息形態(tài)在數(shù)據(jù)庫中被存儲下來。在知識生產(chǎn)資源獲取上將不再局限在紙本文獻或組織內(nèi)部,而逐漸延伸到互聯(lián)網(wǎng)、社交媒體和社區(qū)網(wǎng)絡(luò)等內(nèi)容上,實現(xiàn)了跨時空的范圍拓展。對于數(shù)據(jù)科學(xué)下的知識創(chuàng)造而言,存儲于互聯(lián)網(wǎng)中的知識或信息就是一種數(shù)據(jù)形式,可以被特定智能技術(shù)(如語義分析和自然語言處理)進行知識表征和推理。其二,知識生產(chǎn)資料的數(shù)據(jù)化。信息空間的主要成因是客觀世界的量化與數(shù)據(jù)化,在數(shù)字化環(huán)境當(dāng)中人的行為和事物都被智能設(shè)備完整記錄和儲存,數(shù)據(jù)與事物之間形成一種數(shù)據(jù)世界與物理世界的映射關(guān)系。當(dāng)數(shù)據(jù)量化萬物,人類生活空間的一切事物就都可以在數(shù)據(jù)科學(xué)的指導(dǎo)下實現(xiàn)價值挖掘。在AI影響下的認識論中,人借助AI輔助認識時,必須是在對人所面對的世界加以數(shù)據(jù)化后,機器的認識過程才可開啟,所以對于人的認識對象的數(shù)據(jù)化是智能機器在認識對象上的特點,也是前提(肖峰, 2020 b)。王竹立(2019)曾以軟、硬知識為主要劃分標(biāo)志來描述新知識觀,提出了“知識結(jié)構(gòu)由靜態(tài)層級變成動態(tài)網(wǎng)絡(luò)”“軟知識越來越多,硬知識也開始變軟”“知識生產(chǎn)由單純依靠人類變?yōu)槿藱C合作”等變化,恰恰從知識生產(chǎn)主體和知識生產(chǎn)對象層面肯定了智能時代新知識觀的發(fā)展轉(zhuǎn)向。所以,從知識生產(chǎn)對象來看,數(shù)據(jù)科學(xué)影響下知識觀以量化、數(shù)據(jù)化的資料為核心原料,而且在互聯(lián)網(wǎng)和智能技術(shù)塑造的時空中,數(shù)據(jù)化的生產(chǎn)資料范圍逐漸覆蓋到人類社會、物理世界和信息空間三元融合的空間。
3. 知識生產(chǎn)技術(shù)與工具,主要以智能算法為支撐,凸顯相關(guān)性思維。當(dāng)前人工智能技術(shù)發(fā)展日新月異,數(shù)據(jù)挖掘在人工智能和統(tǒng)計分析的推動下取得了較大突破,實現(xiàn)了自動化、智能化知識發(fā)現(xiàn)以及趨勢預(yù)測。尤其機器學(xué)習(xí)的快速發(fā)展,極大提升了數(shù)據(jù)挖掘或數(shù)據(jù)庫中知識發(fā)現(xiàn)的效率與質(zhì)量。亞馬遜首席科學(xué)家李沐(知乎, 2017)認為,成功的機器學(xué)習(xí)應(yīng)包括“數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)的模型、衡量模型好壞的損失函數(shù)和一個調(diào)整模型權(quán)重來最小化損失函數(shù)的算法”四大要素。而這與前文數(shù)據(jù)挖掘過程對“數(shù)據(jù)準(zhǔn)備”“建?!彼岢龅囊蟛恢\而合。知識發(fā)現(xiàn)技術(shù)中基于算法的方法是主要一類,典型的應(yīng)用于知識發(fā)現(xiàn)的算法有貝葉斯網(wǎng)絡(luò)、決策樹、K-means聚類、關(guān)聯(lián)規(guī)則挖掘、聯(lián)機分析處理(On-line Analytical Processing, OLAP)、神經(jīng)網(wǎng)絡(luò)、遺傳算法和模糊分類等。在算法的支持下,知識發(fā)現(xiàn)的知識類型包括分類型、關(guān)聯(lián)型、預(yù)測型和偏差型等。因此,從知識生產(chǎn)的工具來看,大數(shù)據(jù)時代的知識生產(chǎn)技術(shù)與工具轉(zhuǎn)向了以智能算法為支撐的數(shù)據(jù)挖掘。而這種算法支撐下的知識生產(chǎn)凸顯一種思維轉(zhuǎn)變,即從因果轉(zhuǎn)向強調(diào)相關(guān)。因為在萬物皆可數(shù)據(jù)化的條件下,人類越發(fā)趨向于發(fā)掘數(shù)據(jù)規(guī)律,不再追求數(shù)據(jù)之間的因果關(guān)系而追求其相關(guān)關(guān)系(比如沃爾瑪超市的啤酒和尿布的關(guān)系發(fā)現(xiàn))。這是大數(shù)據(jù)作用下的一種認知,即“相關(guān)關(guān)系比因果關(guān)系能更好地了解這個世界”(舍恩伯格 等,2013,p.67)。肖峰(2020 a)在人工智能的知識哲學(xué)研究中以AlphaGo可以下棋但不懂棋理知識為例,也論述到人工智能只是從相關(guān)性分析中統(tǒng)計出一種數(shù)據(jù)意義上的最優(yōu)解,而不會對事物進行因果性的理解和把握來決策。所以,在智能技術(shù)塑造的充滿不確定性的社會中,隨著知識經(jīng)濟的發(fā)展,以物質(zhì)形態(tài)出現(xiàn)的生產(chǎn)要素在產(chǎn)品中的價值比重下降,而越發(fā)注重知識、信息的資源價值,知識生產(chǎn)的方式與思維也隨之改變(張康之, 2021)。而且,今天越來越多的科學(xué)數(shù)據(jù)或信息都長期存儲在可以開放獲取的各類智能系統(tǒng)當(dāng)中,知識的呈現(xiàn)也不再局限于白紙黑字,而更加傾向于選擇數(shù)字化和數(shù)據(jù)化表達。智能技術(shù)對人類世界的感知、建模和分析都在朝著數(shù)據(jù)定義萬物、數(shù)據(jù)量化萬物、數(shù)據(jù)聯(lián)接萬物的方向發(fā)展。這就要求知識生產(chǎn)工作者應(yīng)掌握數(shù)據(jù)挖掘的技能,以勝任現(xiàn)在乃至未來的很多科學(xué)發(fā)現(xiàn)與知識生產(chǎn)工作。
知識是指人在實踐中認識世界和自我的成果,與人的認識和經(jīng)驗、信息和信念等具有密切關(guān)系(潘洪建, 2004, pp. 2-14)。所以,知識也是認識論關(guān)注的核心,知識觀是指人們對知識的基本看法、見解與信念,是人們對知識問題的總體看法。因此,知識觀從人的認識上來看是關(guān)于知識的理論探討,主要圍繞認識的來源、認識發(fā)展的過程以及認識與實踐的關(guān)系等問題(肖峰, 2020 a)。綜上所述,知識生產(chǎn)方式轉(zhuǎn)向以數(shù)據(jù)挖掘為主要選擇,標(biāo)志著人類的知識生產(chǎn)打破了只通過“人在實踐獲得認知”的方式局限,現(xiàn)在機器可以直接模擬人的思維處理海量數(shù)據(jù),自動生產(chǎn)原本需要通過實踐、認知和頓悟才能獲得的知識,以及人可以操作機器來分析那些并非自身實踐的數(shù)據(jù)來獲取認知,這在一定程度上也改變了認識與實踐的關(guān)系。從知識生產(chǎn)的要素變化來看,首先知識不再僅是“人”這一主體認識世界和自我的成果,而是需要機器來處理突破人類極限的海量數(shù)據(jù),走向人機協(xié)同知識創(chuàng)造;其次,機器可以直接越過人類而從數(shù)據(jù)中挖掘知識其實已經(jīng)改變了認識的來源,即知識生產(chǎn)的對象(以前是人通過經(jīng)驗、頓悟和邏輯推理獲得知識,現(xiàn)在傾向于以海量的數(shù)據(jù)作為知識原料);最后,知識生產(chǎn)的過程在技術(shù)提供的便利條件與工具支持下發(fā)生了變化,知識生產(chǎn)速度逐漸得到指數(shù)級提升,進一步加劇了知識生產(chǎn)的量級(顧小清, 2021)。所以,在知識生產(chǎn)方式與要素的變化推動下,知識的內(nèi)涵或許已經(jīng)發(fā)生相應(yīng)的改變,可能不僅僅是人在實踐中認識世界和自我的成果,也逐漸包括了人和機器從鏡像數(shù)據(jù)世界中發(fā)掘和認知現(xiàn)實世界的成果。
五、新知識觀下的教育發(fā)展
知識生產(chǎn)方式與要素的變化暗示著以數(shù)據(jù)為內(nèi)容的新知識觀的形成(顧小清 & 郝祥軍, 2022)。這是處在知識經(jīng)濟時代無法回避的趨勢,數(shù)據(jù)發(fā)展成為生產(chǎn)要素與生產(chǎn)力,已經(jīng)在各類知識生產(chǎn)過程中“誘導(dǎo)”著知識觀的重塑。這推動著人才培養(yǎng)的協(xié)同升級,因為知識生產(chǎn)與人才培養(yǎng)具有場景一致性、主體一致性和目標(biāo)重疊性(馬廷奇 等, 2019)。本研究認為在新知識觀下,培養(yǎng)面向未來的人才,迎接知識創(chuàng)新挑戰(zhàn),有三個問題需要在新的時代背景下探討并回答。
一是教什么知識的問題,應(yīng)嘗試構(gòu)建學(xué)科知識圖譜,發(fā)現(xiàn)學(xué)科知識關(guān)系。目前,知識還是教學(xué)的重點內(nèi)容,教師固守的教學(xué)知識來源主要還是教材。同時,課程標(biāo)準(zhǔn)是教材編寫的主要依據(jù),也在某種程度上規(guī)定著教師教什么知識。即使相關(guān)的課程標(biāo)準(zhǔn)也在不斷更新,教材知識編排似乎還是遵循以往經(jīng)驗主導(dǎo)的邏輯在推進,憑著專家、教師累積的教學(xué)經(jīng)驗與理解來劃定整個學(xué)科知識的范圍。這樣的方式雖然經(jīng)過時間的考量有其合理性,但在知識選擇、編排等方面的科學(xué)性以及知識本身性質(zhì)、特點、價值的客觀性上卻有缺陷。以此來看,教什么知識不是簡單回答教什么具體知識的問題,而是回答什么知識更具價值的問題(季蘋, 2009, p. 3)。這更加證明“教什么知識”是不能僅憑人類經(jīng)驗就能回答的。如今,數(shù)據(jù)科學(xué)在大數(shù)據(jù)與人工智能的推動下為發(fā)現(xiàn)事物規(guī)律提供了重要的理論與方法支撐,其可視化的知識處理方式也使得人類能夠更加直觀地理解隱藏的知識關(guān)系。現(xiàn)在備受推崇的知識圖譜技術(shù),能夠用來分析學(xué)科知識的核心結(jié)構(gòu)與發(fā)展歷史,并通過挖掘分析對學(xué)科與跨學(xué)科知識之間的相互聯(lián)系進行可視化,揭示知識的動態(tài)發(fā)展規(guī)律。所以在數(shù)據(jù)分析的支持下,這將使教學(xué)知識更加具有完整性,從是什么、為什么、價值與意義等方面系統(tǒng)呈現(xiàn)知識的內(nèi)容與結(jié)構(gòu),進而提升知識教學(xué)的深度與廣度。因此,在新知識觀背景下,回答教什么知識的問題則可以運用數(shù)據(jù)科學(xué)的手段對學(xué)科知識進行全面關(guān)聯(lián),發(fā)現(xiàn)潛在規(guī)律,組建學(xué)科結(jié)構(gòu)化的知識庫,搭建學(xué)科與跨學(xué)科的實體或概念以及之間的聯(lián)系,借助知識推理能力把各個知識點聯(lián)系起來,使其以更好的組織形式得到管理,實現(xiàn)領(lǐng)域知識共融。尤其在新課程標(biāo)準(zhǔn)頒布之后,新的教材編寫在即,應(yīng)借助智能算法與數(shù)據(jù)分析技術(shù)構(gòu)建學(xué)科知識圖譜,加強課程標(biāo)準(zhǔn)與學(xué)科教學(xué)的科學(xué)銜接,為大規(guī)模個性化教育實踐提供基礎(chǔ)。
二是知識如何教的問題,應(yīng)協(xié)同教師與數(shù)據(jù)的智慧,促進個性化教育。教學(xué)觀的發(fā)展與知識觀的演進有著內(nèi)在一致性,有什么樣的知識觀就可能導(dǎo)致什么樣的教學(xué)觀(潘洪建, 2004, pp. 31-32)。所以,知識如何教的問題在新的知識觀背景下需要重新思考與回答。在回答這個問題之前,我們應(yīng)注意知識的可傳遞性,要清楚教和學(xué)是兩個過程,若要知識有效傳遞則需要滿足主體的認知態(tài)度一致性、認知目標(biāo)一致性和認知方法一致性(季蘋, 2009,pp. 34-36)。知識的可傳遞性要求知識教學(xué)要注重認知主體的動機和與其個性特征相適配的方法,其潛在內(nèi)涵恰恰指向“因材施教”的個性化教育。因此,關(guān)于知識如何教的問題是現(xiàn)代教學(xué)觀的重要內(nèi)容,應(yīng)在新的時代背景下扎實落實以學(xué)習(xí)者為中心的教育思想,關(guān)注人的全面發(fā)展,利用智能技術(shù)推動個性化教育的落地。數(shù)據(jù)科學(xué)指向的知識創(chuàng)造將人的智慧與數(shù)據(jù)協(xié)同,既體現(xiàn)了人在社會活動中的主體地位,也強調(diào)了數(shù)據(jù)所蘊含的知識價值。同樣,在知識如何教的問題上,應(yīng)協(xié)同教師與數(shù)據(jù)的智慧,教師從以人為本、學(xué)生成長的價值內(nèi)涵出發(fā)做好教學(xué)設(shè)計,同時在智能技術(shù)的賦能下多維度、全過程采集教與學(xué)的數(shù)據(jù),通過數(shù)據(jù)發(fā)現(xiàn)教學(xué)狀態(tài)、反映教學(xué)活動規(guī)律,從而使教師不斷生成對教學(xué)的理解,優(yōu)化教學(xué)實踐。今天的人工智能凸顯數(shù)據(jù)驅(qū)動的智能特征,以數(shù)據(jù)來滿足知識傳遞過程中主體的認知態(tài)度、認知目標(biāo)和認知方法的一致性,具有一定的可行性,因為數(shù)據(jù)驅(qū)動的精準(zhǔn)教學(xué)模式做到了實時記錄、跟蹤和分析學(xué)習(xí)者的學(xué)習(xí)狀態(tài)和行為表現(xiàn),有效促進了教師開展差異化教學(xué)的探索。同時,以自適應(yīng)學(xué)習(xí)技術(shù)和認知圖譜技術(shù)為主要支撐的知識追蹤、學(xué)習(xí)診斷和學(xué)習(xí)推薦也助力個性化學(xué)習(xí)的落地。所以,關(guān)于知識如何教的問題,應(yīng)明確教師與數(shù)據(jù)在教學(xué)實踐中所扮演的功能角色,從以往預(yù)設(shè)性教學(xué)轉(zhuǎn)向生成性教學(xué),使教師的智慧與數(shù)據(jù)驅(qū)動的智能得以協(xié)同,探索滿足學(xué)生個人發(fā)展需要的個性化教育實現(xiàn)路徑。
三是如何化知識為素養(yǎng)的問題,應(yīng)以數(shù)據(jù)科學(xué)的思想和方法指導(dǎo)構(gòu)建知識與素養(yǎng)的關(guān)聯(lián)邏輯。知識經(jīng)濟加劇了知識的開放性,人類再也不需要靠“死記硬背”的方式獲取和應(yīng)用知識,而如何運用知識、創(chuàng)造知識將成為人類需思考的問題。因此,在知識生產(chǎn)方式與生產(chǎn)要素發(fā)生巨大變化的條件下,教育需要發(fā)展的是如何培養(yǎng)學(xué)生的知識創(chuàng)新與應(yīng)用能力。用或者不用,在智能技術(shù)的支持下數(shù)據(jù)或信息都在那,我們可能不再受制于知識生產(chǎn)的原料(數(shù)據(jù)),而漸漸受限于對事物規(guī)律與內(nèi)在本質(zhì)發(fā)現(xiàn)的思維與能力。素養(yǎng)是運用知識和技能解決復(fù)雜問題的能力,核心素養(yǎng)的落地需要處理好知識與素養(yǎng)的關(guān)系,亟須打破傳統(tǒng)知識觀的局限以構(gòu)筑新知識觀下素養(yǎng)生成的知識基礎(chǔ)(張良, 2019)。知識如何轉(zhuǎn)化為素養(yǎng),在前人的智慧中強調(diào)“知行合一”,這正凸顯知識在實踐中的人文性、境域性和價值性,因為素養(yǎng)的“用武之地”在于問題情境(李松林 等, 2020)。因此,新知識觀下的教育發(fā)展應(yīng)重視重構(gòu)知識與實踐的關(guān)系,強調(diào)重建“境域”和發(fā)展“人性”,以在情境中做到知識價值的辯護(葉波, 2021)。有研究以推進知識學(xué)習(xí)走向思維發(fā)展為目標(biāo),強調(diào)以問題為線索的學(xué)科知識圖譜構(gòu)建,通過知識抽取技術(shù)、語義鏈接技術(shù)和可視化技術(shù)來確定知識、問題和能力之間的關(guān)聯(lián)關(guān)系,從而提出遵循“發(fā)現(xiàn)問題—提出問題—分析問題—解決問題”的思維邏輯來組織學(xué)生展開學(xué)習(xí)與探究(范佳榮 等, 2022)。所以,關(guān)于如何化知識為素養(yǎng),還應(yīng)堅持問題實踐的思想,而為了更好地實踐則可借鑒數(shù)據(jù)科學(xué)的思想和方法,分析課程、知識單元、知識點、教學(xué)目標(biāo)、教學(xué)問題之間的多維語義關(guān)系等,挖掘和整合知識與事物、知識與知識、知識與行動、行動與思維之間的關(guān)聯(lián)邏輯,描繪知識、問題與素養(yǎng)三者之間的關(guān)聯(lián)結(jié)構(gòu)以及素養(yǎng)生成的路徑,從而指導(dǎo)以知識通達素養(yǎng)的教學(xué)實踐。
六、結(jié)語
數(shù)據(jù)已經(jīng)成為新的生產(chǎn)要素,是國際知識創(chuàng)新競爭必須緊緊把握的生產(chǎn)力,以數(shù)據(jù)為原料的知識生產(chǎn)是知識經(jīng)濟時代的關(guān)鍵特征。當(dāng)前,社會各界正在享受大數(shù)據(jù)的紅利,數(shù)據(jù)科學(xué)也再次迎來了春天,人工智能也在基于數(shù)據(jù)的機器學(xué)習(xí)下成功迎來新的浪潮,推動著關(guān)于知識的科學(xué)(知識的表示、知識的獲取和知識的應(yīng)用)加速轉(zhuǎn)變,為數(shù)據(jù)轉(zhuǎn)化為信息、信息轉(zhuǎn)化為知識、知識轉(zhuǎn)化為決策的機制和方法提供了新的理論與技術(shù)支撐。但技術(shù)的成熟應(yīng)用是一個不斷發(fā)展的過程,鏡像數(shù)據(jù)世界的打造還需要克服很多現(xiàn)實世界的問題,比如數(shù)據(jù)安全、算法偏見等,更多利弊需要人類自身來權(quán)衡和選擇。尤其在教育的育人實踐上人類更需要遵循以人為本的理念,探索符合人的全面發(fā)展和生命成長的技術(shù)融合教學(xué)的方式。所以,以數(shù)據(jù)為核心的新知識觀雖已在悄然萌芽,但未來還需要更多的討論和實踐,以求更加清晰地刻畫出重塑的知識觀輪廓,同時為教育的人才培養(yǎng)方式調(diào)整提供新的方向。
[參考文獻]
曹新明,& 咸晨旭. (2020). 人工智能作為知識產(chǎn)權(quán)主體的倫理探討. 西北大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),50(1),94-106.
朝樂門. (2019). 大力推進數(shù)據(jù)科學(xué)的理論研究. 計算機科學(xué),46(2),1.
陳麗,逯行,& 鄭勤華. (2019). “互聯(lián)網(wǎng)+教育”的知識觀:知識回歸與知識進化. 中國遠程教育(7),10-18.
程學(xué)旗,梅宏,趙偉,華云生,沈華偉,& 李國杰. (2020). 數(shù)據(jù)科學(xué)與計算智能:內(nèi)涵、范式與機遇. 中國科學(xué)院院刊,35(12),1470-1481.
董春雨,& 薛永紅. (2018). 大數(shù)據(jù)時代個性化知識的認識論價值. 哲學(xué)動態(tài)(1),95-101.
董春雨,& 薛永紅. (2019). 機器認識論何以可能?. 自然辯證法研究,35(8),3-10.
范佳榮,& 鐘紹春. (2022). 學(xué)科知識圖譜研究:由知識學(xué)習(xí)走向思維發(fā)展. 電化教育研究,43(1),32-38.
范文翔,& 趙瑞斌. (2020). 具身認知的知識觀、學(xué)習(xí)觀與教學(xué)觀. 電化教育研究,41(7),21-27.
顧小清. (2021). 當(dāng)現(xiàn)實逼近想象:人工智能時代預(yù)見未來教育研究. 開放教育研究,27(1),4-12.
顧小清,& 郝祥軍. (2022). 從人工智能重塑的知識觀看未來教育. 教育研究,43(9),138-149.
韓震. (2021). 知識形態(tài)演進的歷史邏輯. 中國社會科學(xué)(6),168-185.
郝祥軍,& 賀雪. (2022). AI與人類智能在知識生產(chǎn)中的博弈與融合及其對教育的啟示. 華東師范大學(xué)學(xué)報(教育科學(xué)版),40(9),78-89.
黃欣榮. (2014). 大數(shù)據(jù)對科學(xué)認識論的發(fā)展. 自然辯證法研究,30(9),83-88.
季蘋. (2009). 教什么知識:對教學(xué)的知識論基礎(chǔ)的認識(第1版). 教育科學(xué)出版社.
李松林,& 賀慧. (2020). 整合性:核心素養(yǎng)的知識特性與生成路徑. 教育科學(xué)研究(6),13-17.
林夏水. (1989). 畢達哥拉斯學(xué)派的數(shù)本說. 自然辯證法研究(6),48-58.
馬廷奇,& 李蓉芳. (2019). 知識生產(chǎn)模式轉(zhuǎn)型與人才培養(yǎng)模式創(chuàng)新. 高教發(fā)展與評估,35(5),8-16.
聶淑媛. (2019). 數(shù)據(jù)科學(xué)的發(fā)展與人才培養(yǎng)研究. 統(tǒng)計與信息論壇,34(1),117-122.
潘洪建. (2004). 教學(xué)知識論(第1版). 甘肅教育出版社.
邱仁宗. (2006). 科學(xué)方法與科學(xué)動力學(xué)(第2版). 高等教育出版社.
任瑞娟,王保超,& 趙雅倩. (2021). 演進與動向:人工智能在傳媒領(lǐng)域的應(yīng)用. 新聞與傳播評論,74(2),26-35.
斯坦福哲學(xué)百科全書(Stanford Encyclopedia of Philosophy).(2020-04-11). Epistemology. 斯坦福哲學(xué)百科全書網(wǎng)站. https://plato.stanford.edu/entries/epistemology/#Aca
王鑫,& 沙永鋒. (2018). 從AI到AM:人工智能的知識觀. 新聞與傳播評論,71(6),41-50.
王竹立. (2019). 新知識觀:重塑面向智能時代的教與學(xué). 華東師范大學(xué)學(xué)報(教育科學(xué)版),37(5),38-55.
維克托·舍恩伯格,& 肯尼思·庫克耶. (2013). 大數(shù)據(jù)時代(盛楊燕,周濤 譯). 浙江人民出版社.
吳飛,& 段竺辰. (2020). 從獨思到人機協(xié)作——知識創(chuàng)新模式進階論. 浙江學(xué)刊(5),94-104.
肖峰. (2020a). 人工智能的知識哲學(xué)審思. 求索(1):87-94.
肖峰. (2020b). 人工智能與認識論新問題. 西北師大學(xué)報(社會科學(xué)版),57(5),37-45.
徐宗本. (2019). 數(shù)字化 網(wǎng)絡(luò)化 智能化 把握新一代信息技術(shù)的聚焦點. 網(wǎng)信軍民融合(3),25-27.
葉波. (2021). 化知識為素養(yǎng):現(xiàn)實困境、理論闡釋與教學(xué)實現(xiàn). 中國教育學(xué)刊(8),45-49.
張康之. (2021). 重建相似性思維:風(fēng)險社會中的知識生產(chǎn). 探索與爭鳴(7),121-132,179.
張良. (2019). 核心素養(yǎng)的生成:以知識觀重建為路徑. 教育研究,40(9),65-70.
知乎. (2017-09-06). 機器學(xué)習(xí)的簡介. 知乎網(wǎng)站. https://zhuanlan.zhihu.com/p/29100405
Das, M., Cui, R., Campbell, D. R., Agrawal, G., & Ramnath, R. (2015). Towards methods for systematic research on big data. IEEE International Conference on Big Data. IEEE, 2072-2081.
Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), 27-34.
Haiko, V., & Bulder En, S. V., Cunningham, S., & Janssen, M. (2021). Data science as knowledge creation a framework for synergies between data analysts and domain professionals. Technological Forecasting and Social Change,173(4),1-10.
Li, G., & Cheng, X. (2012). Research status and scientific thinking of big data. Bulletin of Chinese Academy of Sciences, 27(6),647-657.
Martinez, I.,Viles, E., & Olaizola, I. G. (2021). Data science methodologies: Current challenges and future approaches. Big Data Research, 24(3), 1-18.
Martínez-Plumed, F., Contreras-Ochando, L., Ferri, C., Hernández-Orallo, J., Kull, M., Lachiche, N., ... & Flach, P. (2019). CRISP-DM twenty years later: From data mining processes to data science trajectories. IEEE Transactions on Knowledge and Data Engineering, 33(8), 3048-3061.
Nonaka, I. (1994). A dynamic theory of organizational knowledge creation. Organization Science, 5(1), 14-37.
Provost, F., & Fawcett, T. (2013). Data science and its relationship to big data and data-driven decision making. Big Data,1(1),51-59.
Rowley, J. (2007). The wisdom hierarchy: representations of the DIKW hierarchy. Journal of Information Science, 33(2), 163-180.
Shafique, U., & Qaiser, H. (2014). A comparative study of data mining process models(KDD, CRISP-DM and SEMMA). International Journal of Innovation and Scientific Research, 12(1), 217-222.
Tolle, K. M., Tansley, D. S. W., & Hey, A. J. (2011). The fourth paradigm: Data-Intensive scientific discovery. Proceedings of the IEEE, 99(8),1334-1337.
Xu, Z. (2021). Four major tasks of data science. Data Science and Management, (3),1-2.
Xu, Z., Tang, N., Xu, C., & Cheng, X. (2021). Data science: Connotation,methods, technology, and development. Journal of Information Technology and Data Management, 1(1), 32-37.
AI Reshapes the View of Knowledge: Knowledge Creation and Education Development under the Influence of Data Science
Xiangjun Hao and Xiaoqing Gu
Abstract: In the era of artificial intelligence (AI) data defines, quantifies and connects everything. Data science has achieved rapid development driven by big data and directed the goal that how to extract and construct knowledge from data. The process of data mining and knowledge creation systematically depicts the complete process from data to knowledge discovery. The study attempts to explore the formation of a new view of knowledge centered on data from the perspective of data science, and tries to portray the outline of a reshaped view of knowledge from the changes in knowledge production methods and knowledge production factors brought about by data and intelligent technology. Finally, the study provides answers to the three questions of “what knowledge to teach”, “how to teach knowledge”, and “how to turn knowledge into literacy” in order to seek a development path for education to meet the challenges of knowledge innovative talents.
Keywords: data science; artificial intelligence; view of knowledge; data mining; knowledge creation; knowledge production; knowledge teaching; educational development
責(zé)任編輯 劉莉