導(dǎo)讀
新冠肺炎疫情全球蔓延之勢(shì)不僅影響了人們的生活,更是對(duì)全球各大經(jīng)濟(jì)體產(chǎn)生了巨大沖擊,這場(chǎng)突如其來(lái)的變故迫使所有國(guó)家選擇數(shù)字化轉(zhuǎn)型,為應(yīng)對(duì)這場(chǎng)變故,我國(guó)于2020年3月提出了以大數(shù)據(jù)、人工智能和工業(yè)4.0為核心的“新基建”計(jì)劃,建設(shè)在虛擬空間上的信息高速公路和基礎(chǔ)設(shè)施,2020年4月,“數(shù)據(jù)”作為新型生產(chǎn)要素被寫人中央文件,首次與其他生產(chǎn)要素并列,這標(biāo)志著我國(guó)全社會(huì)數(shù)字化轉(zhuǎn)型的進(jìn)程正在提速,人們普遍意識(shí)到數(shù)據(jù)作為一種戰(zhàn)略資源,正在深刻變革著人們的生活和工作、科技和產(chǎn)業(yè)等方面,將為引領(lǐng)經(jīng)濟(jì)和社會(huì)新常態(tài)提供強(qiáng)有力的支撐。
一方面,各種智能終端和移動(dòng)互聯(lián)網(wǎng)蓬勃發(fā)展,各種各樣的數(shù)據(jù)呈爆炸式增長(zhǎng),致使數(shù)據(jù)的采集、傳輸、存儲(chǔ)、管理、分析和服務(wù)都發(fā)生了翻天覆地的變化,這種變化使得科學(xué)研究在經(jīng)歷了實(shí)驗(yàn)科學(xué)、理論科學(xué)和計(jì)算科學(xué)之后,加快步入數(shù)據(jù)密集型科學(xué)時(shí)代,在這種背景下,我們更需要數(shù)據(jù)科學(xué)與工程相關(guān)的技術(shù)與方法,綜合運(yùn)用統(tǒng)計(jì)、數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法快速、準(zhǔn)確地獲取大數(shù)據(jù)中的有價(jià)值信息,實(shí)現(xiàn)深度理解、敏銳發(fā)現(xiàn)與精準(zhǔn)決策,因此,數(shù)據(jù)科學(xué)與工程學(xué)科是實(shí)施“新基建”計(jì)劃的先進(jìn)生產(chǎn)力之一。
另一方面,由于業(yè)務(wù)不斷變化和日趨復(fù)雜,傳統(tǒng)的信息化建設(shè)導(dǎo)致數(shù)據(jù)“煙囪”林立,表現(xiàn)為數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)統(tǒng)計(jì)口徑各異、數(shù)據(jù)間存在不一致甚至沖突等問題,顯然,數(shù)據(jù)煙囪和孤島的存在難以適配業(yè)務(wù)的演化和發(fā)展,同時(shí)阻礙了數(shù)據(jù)的有效利用和新興業(yè)務(wù)的構(gòu)建,成為“新基建”計(jì)劃推進(jìn)和數(shù)字化轉(zhuǎn)型過(guò)程中的巨大障礙。
數(shù)字中臺(tái)(Data Platform)以數(shù)據(jù)為中心,在數(shù)據(jù)集成(特別是語(yǔ)義集成)的基礎(chǔ)上以服務(wù)的方式提供數(shù)據(jù)的全生命周期管理,為業(yè)務(wù)構(gòu)建提供便利,實(shí)現(xiàn)數(shù)據(jù)對(duì)于應(yīng)用業(yè)務(wù)的價(jià)值,是保障“新基建”計(jì)劃和數(shù)字化轉(zhuǎn)型順利推進(jìn)的先進(jìn)生產(chǎn)力,在互聯(lián)網(wǎng)、零售、制造、金融、教育、社會(huì)治理等領(lǐng)域數(shù)字化轉(zhuǎn)型的過(guò)程中,數(shù)據(jù)中臺(tái)建設(shè)已成為其中最基礎(chǔ)、最關(guān)鍵的一項(xiàng)任務(wù),數(shù)據(jù)中臺(tái)的核心功能是提供統(tǒng)一、便利的數(shù)據(jù)集成、數(shù)據(jù)管理、數(shù)據(jù)分析和數(shù)據(jù)服務(wù)能力,它如同電機(jī)之于交流電,是發(fā)揮數(shù)據(jù)這種新能源動(dòng)力(Power)價(jià)值的核心系統(tǒng),在傳統(tǒng)信息系統(tǒng)中,這一功能是由以數(shù)據(jù)庫(kù)管理系統(tǒng)及以其為基礎(chǔ)的ETL工具、數(shù)據(jù)倉(cāng)庫(kù)和OLAP系統(tǒng)、中間件系統(tǒng)等一系列平臺(tái)、系統(tǒng)和工具共同完成的。
數(shù)據(jù)中臺(tái)建設(shè)一方面需要在分布、多源、異構(gòu)、演化的信息系統(tǒng)中實(shí)現(xiàn)包括數(shù)據(jù)治理、數(shù)據(jù)集成、數(shù)據(jù)管理、數(shù)據(jù)分析與挖掘、數(shù)據(jù)可視化等技術(shù),面臨著傳統(tǒng)數(shù)據(jù)管理中既有的諸多挑戰(zhàn);另一方面,還需要新的數(shù)據(jù)管理和人工智能技術(shù)作為支撐,例如,它需要知識(shí)圖譜支持?jǐn)?shù)據(jù)語(yǔ)義集成和推理等功能,需要數(shù)據(jù)世系(Lineage)支持全流程的數(shù)據(jù)追蹤和審計(jì),更重要的是,數(shù)據(jù)中臺(tái)需要一套新的應(yīng)用建模、系統(tǒng)設(shè)計(jì),以及開放架構(gòu)下開發(fā)與運(yùn)維(DevOps)的方法,數(shù)據(jù)中臺(tái)設(shè)計(jì)、開發(fā)與運(yùn)維方法及其關(guān)鍵核心技術(shù)的研發(fā)對(duì)于發(fā)揮數(shù)據(jù)價(jià)值、“賦能”行業(yè)領(lǐng)域,具有重要意義。
《華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》2020年第5期推出的“數(shù)據(jù)中臺(tái)關(guān)鍵技術(shù)與系統(tǒng)研究”專輯,總結(jié)了國(guó)內(nèi)外數(shù)據(jù)中臺(tái)相關(guān)領(lǐng)域取得的研究成果,探討了數(shù)據(jù)中臺(tái)的系統(tǒng)架構(gòu)、關(guān)鍵技術(shù)、設(shè)計(jì)和開發(fā)與運(yùn)維方法,介紹了重要的數(shù)據(jù)中臺(tái)建設(shè)和應(yīng)用案例,總結(jié)了數(shù)據(jù)中臺(tái)建設(shè)的經(jīng)驗(yàn)與教訓(xùn),并展望了進(jìn)一步的發(fā)展方向,專輯采用邀稿和征稿相結(jié)合的方式組織稿件,所有稿件均通過(guò)了通信評(píng)審,最終確定錄用稿件16篇,并將其分為數(shù)據(jù)系統(tǒng)、數(shù)據(jù)治理、機(jī)器學(xué)習(xí)方法與系統(tǒng)、數(shù)據(jù)語(yǔ)義抽取和數(shù)據(jù)中臺(tái)應(yīng)用5個(gè)專欄。
數(shù)據(jù)系統(tǒng)專欄共錄用3篇論文,這些工作主要探討了分布式數(shù)據(jù)管理系統(tǒng)中的事務(wù)處理優(yōu)化和區(qū)塊鏈系統(tǒng)中智能合約生成等問題,針對(duì)多核主存數(shù)據(jù)庫(kù)的高競(jìng)爭(zhēng)負(fù)載,張舒燕等提出了事先過(guò)濾無(wú)效請(qǐng)求,節(jié)省系統(tǒng)資源、降低鎖競(jìng)爭(zhēng);通過(guò)鎖共享機(jī)制降低寫操作間的鎖競(jìng)爭(zhēng),并實(shí)現(xiàn)了Filmer原型系統(tǒng);通過(guò)大量實(shí)驗(yàn),驗(yàn)證了過(guò)濾和鎖共享可以提高處理高競(jìng)爭(zhēng)負(fù)載的效率,針對(duì)單主云數(shù)據(jù)庫(kù)系統(tǒng)不支持寫操作的動(dòng)態(tài)擴(kuò)展,衛(wèi)孝賢等提出了多主云數(shù)據(jù)庫(kù)系統(tǒng)架構(gòu),基于全局有序的事務(wù)日志,通過(guò)樂觀沖突檢測(cè)技術(shù)實(shí)現(xiàn)沖突事務(wù)的回滾,維持多主云數(shù)據(jù)庫(kù)系統(tǒng)的隔離級(jí)別與一致性;進(jìn)一步,通過(guò)全局有序事務(wù)日志的廣播和回放,將主節(jié)點(diǎn)的修改同步到其余節(jié)點(diǎn),保證了每個(gè)節(jié)點(diǎn)獨(dú)立的服務(wù)能力;并在開源數(shù)據(jù)庫(kù)MySQL上實(shí)現(xiàn)了整套方案,驗(yàn)證了方案的可行性,針對(duì)智能合約開發(fā)缺乏編程友好性,高一琛等提出了一種針對(duì)特定領(lǐng)域智能合約自動(dòng)生成的方法,實(shí)現(xiàn)了對(duì)于智能合約的聚類分析以及交易類智能合約基本函數(shù)代碼的生成,并且采用MFC將生成的代碼和uI控件連接,為用戶提供友好的智能合約編程頁(yè)面,實(shí)現(xiàn)智能合約的自動(dòng)生成,大幅減少了智能合約編程的難度和成本。
數(shù)據(jù)治理是數(shù)字化轉(zhuǎn)型和數(shù)據(jù)中臺(tái)的基礎(chǔ)與核心,該專欄共錄用2篇論文,分別介紹了云存儲(chǔ)系統(tǒng)和雙中臺(tái)雙鏈架構(gòu)中的數(shù)據(jù)安全和隱私保護(hù)問題,針對(duì)云存儲(chǔ)中電力設(shè)備圖像面臨著被攻擊、篡改或丟失等風(fēng)險(xiǎn),張馴等提出了一種適用于云端電力設(shè)備圖像的完整性審計(jì)方案;在圖像切割的基礎(chǔ)上,采用尺度不變特征轉(zhuǎn)換算法提取圖像塊特征,在Merkle哈希樹的節(jié)點(diǎn)上增設(shè)訪問等級(jí)位和更新狀態(tài)位實(shí)現(xiàn)圖像完整性審計(jì);理論分析和實(shí)驗(yàn)結(jié)果表明,在圖像完整性審計(jì)時(shí)具有較低的計(jì)算開銷和較高的審計(jì)效率,并且對(duì)圖像的不完整區(qū)域能夠進(jìn)行準(zhǔn)確定位,針對(duì)雙中臺(tái)雙鏈系統(tǒng)中數(shù)據(jù)共享存在的安全隱患,劉峰等提出了一種交互式協(xié)議來(lái)解決內(nèi)生性數(shù)據(jù)的安全與隱私問題,保證數(shù)據(jù)在上鏈前的傳輸信道中不被篡改。
機(jī)器學(xué)習(xí)方法與系統(tǒng)是數(shù)據(jù)中臺(tái)中獲取數(shù)據(jù)價(jià)值的核心工具,該專欄共錄用2篇論文,分別介紹了基于編碼器一解碼器的圖像描述和深度神經(jīng)網(wǎng)絡(luò)模型壓縮的最新研究進(jìn)展,針對(duì)已有編碼器一解碼器結(jié)構(gòu)處理圖像時(shí)可能遺失細(xì)節(jié)信息以及訓(xùn)練時(shí)間過(guò)長(zhǎng)的問題,王俊豪等提出了包含緊湊的雙線性編碼器和多模態(tài)解碼器的圖像描述方法;在編碼階段,緊湊的雙線性池化用于編碼細(xì)粒度的語(yǔ)義圖像區(qū)域特征;在解碼階段,從細(xì)粒度的區(qū)域目標(biāo)實(shí)體特征和目標(biāo)實(shí)體類別特征中提取多模態(tài)特征,并將其與整體編碼后的特征融合用于解碼語(yǔ)義信息生成描述;在公開數(shù)據(jù)集上的實(shí)驗(yàn)表明,該方法取得了很好的圖像描述效果,針對(duì)目前深度神經(jīng)網(wǎng)絡(luò)模型內(nèi)存消耗高和計(jì)算量大的缺陷,賴葉靜等介紹了4種具有代表性的深度神經(jīng)網(wǎng)絡(luò)壓縮方法:網(wǎng)絡(luò)剪枝、量化、知識(shí)蒸餾和緊湊網(wǎng)絡(luò)設(shè)計(jì);分析了近年來(lái)代表性網(wǎng)絡(luò)壓縮方法的特點(diǎn),總結(jié)了模型壓縮的相關(guān)評(píng)價(jià)標(biāo)準(zhǔn)和未來(lái)研究趨勢(shì)。
數(shù)據(jù)語(yǔ)義抽取是數(shù)據(jù)中臺(tái)區(qū)別于已有數(shù)據(jù)平臺(tái)的典型特征,該專欄共錄用3篇論文,分別綜述了圖頂點(diǎn)表示學(xué)習(xí)、文本語(yǔ)義相似度度量和基于遠(yuǎn)程監(jiān)督的關(guān)系抽取研究進(jìn)展,周曉旭等介紹網(wǎng)絡(luò)頂點(diǎn)表示學(xué)習(xí)的動(dòng)機(jī)及其挑戰(zhàn),從基于分解、基于隨機(jī)游走和基于深度學(xué)習(xí)三大類方法的角度介紹了網(wǎng)絡(luò)頂點(diǎn)表示學(xué)習(xí)的最新研究進(jìn)展,韓程程等介紹了語(yǔ)義文本相似度計(jì)算的最新研究進(jìn)展,主要包括基于字符串、基于統(tǒng)計(jì)、基于知識(shí)庫(kù)和基于深度學(xué)習(xí)的方法;針對(duì)每一類方法,不僅介紹了其中典型的模型和方法,而且深入探討了各類方法的優(yōu)缺點(diǎn),并對(duì)該領(lǐng)域的常用公開數(shù)據(jù)集和評(píng)估指標(biāo)進(jìn)行了整理,最后討論并總結(jié)了該領(lǐng)域未來(lái)可能的研究方向,王嘉寧等介紹遠(yuǎn)程監(jiān)督關(guān)系抽取的概念和形式化描述,從訓(xùn)練數(shù)據(jù)集中存在噪聲、信息匱乏以及非均衡這三個(gè)方面對(duì)比分析相關(guān)方法及其優(yōu)缺點(diǎn),并對(duì)公開數(shù)據(jù)集以及評(píng)測(cè)指標(biāo)進(jìn)行了解釋和對(duì)比分析,最后探討了遠(yuǎn)程監(jiān)督關(guān)系抽取的新挑戰(zhàn)以及未來(lái)發(fā)展趨勢(shì)。
數(shù)據(jù)中臺(tái)打破傳統(tǒng)信息化體系中的數(shù)據(jù)煙囪,可以對(duì)數(shù)據(jù)進(jìn)行分類、整理、加工、處理,使其成為清晰有序、有條理、有脈絡(luò)的可用信息,從而支撐形形色色的應(yīng)用,數(shù)據(jù)中臺(tái)應(yīng)用專欄共錄用6篇論文,陳炳等研究了數(shù)字政府的特征,闡明了政務(wù)中臺(tái)建設(shè)是構(gòu)建數(shù)字政府的重要支撐;結(jié)合上海市“一網(wǎng)通辦”的建設(shè)歷程,介紹了政務(wù)中臺(tái)中業(yè)務(wù)、數(shù)據(jù)、應(yīng)用這三方面的實(shí)踐,任寅姿介紹了一種面向業(yè)務(wù)側(cè)的數(shù)據(jù)資產(chǎn)建設(shè)新方法,支撐數(shù)據(jù)中臺(tái)的資產(chǎn)服務(wù)能力,張國(guó)芳等提出了一種基于自編碼器的異常檢測(cè)算法,實(shí)現(xiàn)大規(guī)模電力系統(tǒng)日線損率數(shù)據(jù)的異常檢測(cè),郭曉哲等提出了一種面向電商領(lǐng)域智能客服的生成一檢索式對(duì)話模型,在真實(shí)對(duì)話數(shù)據(jù)集上的實(shí)驗(yàn)表明,該模型比單一的檢索式或者生成式模型在多輪對(duì)話建模上表現(xiàn)得更為優(yōu)異,徐一文等綜合運(yùn)用傳統(tǒng)手動(dòng)分類特征和交易流水的深度時(shí)序特征,構(gòu)建了聚合支付平臺(tái)上的商戶流失率預(yù)測(cè)模型,李小昌等提出了一種基于自編碼器的深度表征學(xué)習(xí)模型Mean-Attn,用于發(fā)現(xiàn)旅行同伴;在軌跡表征階段,該方法使用低維稠密向量表征、位置編碼技術(shù)和注意力機(jī)制實(shí)現(xiàn)空間和時(shí)間信息的嵌入表示;通過(guò)對(duì)嵌入向量的聚類發(fā)現(xiàn)旅行同伴。
本專輯的出版正值華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院成立四周年之時(shí),謹(jǐn)以此專輯為數(shù)據(jù)科學(xué)與工程學(xué)院賀歲,并對(duì)關(guān)心與支持?jǐn)?shù)據(jù)科學(xué)與工程學(xué)院發(fā)展的各位同仁表示衷心的感謝,最后在專輯出版之際,謹(jǐn)在此衷心感謝提供優(yōu)質(zhì)稿件的各位作者和參與稿件評(píng)審的各位專家學(xué)者,特別感謝華東師范大學(xué)學(xué)報(bào)期刊社自然科學(xué)版編輯部各位老師的辛勤工作和大力支持,正是他們冒著酷暑不辭辛苦地加班工作才讓本專輯得以順利出版,希望本專輯為數(shù)據(jù)中臺(tái)技術(shù)的研發(fā)提供一個(gè)窗口,順利推進(jìn)我國(guó)“新基建”計(jì)劃的實(shí)施和數(shù)字化轉(zhuǎn)型。