邱元陽
河南省安陽縣職業(yè)中專qiuyuanyang@126.com
AI在今年的熱度已經很難消退了,尤其是各種生成式AI。而生成式AI離不開訓練模型,大模型在生成式AI的進化中功不可沒。除了需要強大的GPU算力支撐,AI的進步也需要大數據的支撐?!按蟆⒅?、移、云”已經成了信息時代的共生體,可以說,人工智能的潘多拉魔盒,正是大數據打開的。
沒有可靠的大數據,AI的訓練結果可能大打折扣,甚至無法使用。因此,包括ChatGPT在內的AI,都需要對大數據進行排錯和標注。即使是普通的大數據,也同樣需要相應的治理。
在信息交互中,數據已經成為一項資產,但如果沒有數據治理,數據質量差,可能會導致數據不可用,難以進行數據建模,數據將變得沒有價值。在數字化轉型和數字躍遷過程中,大數據治理也就成為一個重要環(huán)節(jié)。
大數據治理是指充分運用大數據、云計算、人工智能等先進技術,實現治理手段的智能化。大數據包括社交數據、機器數據等,海量的數據在應用中可能會存在數據孤島,阻礙數據共享,存在數據風險,以及質量較差的數據和不可靠數據,導致數據價值難以呈現,數據模型不完善,模型復用度低,開發(fā)效率低。大數據治理需要覆蓋數據獲取、處理、存儲等各個環(huán)節(jié),在數據生命周期的各個階段,篩查有關鍵影響的數據元素,檢查和保證數據質量。
大數據治理的目的就是解決在海量數據處理過程中可能出現的數據問題,連接起大數據科學和應用的橋梁。為此,需要構建大數據治理的相關模型,將大數據治理的各個環(huán)節(jié)形成固定化模塊,保證數據治理在各個環(huán)節(jié)都能夠得到有效執(zhí)行,這就是大數據治理框架。在這個框架中,對元數據的處理,又是大數據治理的核心。
元數據(Metadata)是描述數據的數據,主要描述數據屬性,如指示存儲位置、歷史數據、資源查找、文件記錄等。大數據治理需要將大數據與元數據庫進行整合,將大數據術語納入業(yè)務詞庫。例如,從Hadoop中將技術元數據引入元數據庫,管理數據血統(tǒng)(Data Lineage),并在大數據環(huán)境中對分析施加影響。
作為一種新型的信息資源,大數據應用已經滲透到社會生產生活的各個領域,各種業(yè)務系統(tǒng)每天都會形成大量類型復雜的數據,如數字、圖片、視頻等,且處于動態(tài)變化之中。大數據治理主要包括大數據平臺建設、數據安全與隱私保護以及數據資產化管理等,因此它不僅是技術方面的,也是管理方面的,需要技術與安全并重,采取身份認證、消息認證、加密技術、防火墻技術等,來保障數據采集、傳輸、儲存、使用、共享過程中的網絡安全。
大數據治理是一個復雜的過程,并面臨著較高的網絡安全風險,需要運用信息化工具,組織清晰的數據政策和程序、數據字典、數據模型、數據流和數據質量控制等工具和流程來幫助管理和控制大數據環(huán)境,也可能需要使用一些大數據分析工具來處理和分析數據,這些工具可能包括機器學習、數據挖掘和可視化等,治理趨勢也從集中式治理走向分布式自治。
需要清楚的是,大數據并不一定都是單純看得見摸得著的數據,它更多地是以某種形式存在于人際交流之中。各種交互過程,都是數據的交換,都會衍生出大量的數據信息,大數據之大,不是文件巨大,而是數量巨大。數據治理是對存量數據、增量數據管控的過程,大數據的治理,最終也是治人。