數(shù)據(jù)挖掘旨在利用智能數(shù)據(jù)分析技術(shù),從海量數(shù)據(jù)中提取或挖掘潛在的知識(shí)和規(guī)律,為決策任務(wù)提供有效支撐.在大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)挖掘技術(shù)已在工業(yè)、金融、醫(yī)療、教育、交通、媒體等領(lǐng)域取得廣泛應(yīng)用.然而,大數(shù)據(jù)的復(fù)雜多樣性也為數(shù)據(jù)挖掘研究在理論、方法、應(yīng)用等多個(gè)層面提出了新的挑戰(zhàn).
為及時(shí)反映國(guó)內(nèi)同行在數(shù)據(jù)挖掘方面的研究進(jìn)展,促進(jìn)該領(lǐng)域的學(xué)術(shù)交流,并推動(dòng)我國(guó)數(shù)據(jù)挖掘領(lǐng)域的創(chuàng)新發(fā)展,《計(jì)算機(jī)研究與發(fā)展》本次推出“數(shù)據(jù)挖掘前沿進(jìn)展”專題.本專題得到了國(guó)內(nèi)同行的廣泛關(guān)注,經(jīng)公開(kāi)征文共收到投稿65篇,審稿過(guò)程歷經(jīng)2個(gè)月,每篇投稿由數(shù)據(jù)挖掘及相關(guān)領(lǐng)域的2位專家進(jìn)行評(píng)審,3位特約編輯參考初審意見(jiàn)進(jìn)行復(fù)審,最終有10篇優(yōu)秀稿件入選本專題.此外,專題與第九屆中國(guó)數(shù)據(jù)挖掘會(huì)議(CCDM 2022)合作,所有專題錄用稿件在CCDM 2022會(huì)議報(bào)告交流.
首先,基于機(jī)器學(xué)習(xí)的智能數(shù)據(jù)分析技術(shù)是數(shù)據(jù)挖掘研究的基礎(chǔ),同時(shí)也是熱點(diǎn).姜高霞等人的論文“面向回歸任務(wù)的數(shù)值型標(biāo)簽噪聲過(guò)濾算法”證明了針對(duì)回歸任務(wù)中數(shù)值型標(biāo)簽噪聲數(shù)據(jù)的泛化誤差界,由此提出一種可解釋的噪聲過(guò)濾框架,并結(jié)合相對(duì)噪聲估計(jì)方法提出一種具體的相對(duì)噪聲過(guò)濾算法RNF;在標(biāo)準(zhǔn)數(shù)據(jù)集和年齡估計(jì)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明,RNF算法不僅能夠適應(yīng)各類噪聲數(shù)據(jù),而且能夠顯著提升模型泛化能力.梁新彥等人的論文“多粒度融合驅(qū)動(dòng)的超多視圖分類方法”針對(duì)現(xiàn)有融合算子在視圖數(shù)增多時(shí)面臨的諸多挑戰(zhàn),采用由易到難建模視圖特征間關(guān)系的多粒度策略,提出了一種多粒度融合的超多視圖分類方法.劉兆清等人的論文“面向特征繼承性增減的在線分類算法”針對(duì)開(kāi)放動(dòng)態(tài)環(huán)境,提出了一種可處理特征繼承性增減的在線分類算法OFID,從理論上證明了OFID的損失上界,并通過(guò)大量的實(shí)驗(yàn)驗(yàn)證其有效性.任嘉睿等人的論文“基于元圖卷積的異質(zhì)網(wǎng)絡(luò)嵌入學(xué)習(xí)算法”通過(guò)基于元圖的異構(gòu)鄰接矩陣融合多條元路徑上的不同語(yǔ)義的計(jì)算,提出了一種基于元圖卷積的異質(zhì)網(wǎng)絡(luò)嵌入學(xué)習(xí)算法MGCN,能夠挖掘節(jié)點(diǎn)間的高階間接關(guān)系,并降低圖卷積方法的嵌入維數(shù),減少計(jì)算時(shí)間;在公開(kāi)異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集上的實(shí)驗(yàn)表明,MGCN在節(jié)點(diǎn)分類、聚類任務(wù)上能獲得更好的性能且需更少的訓(xùn)練時(shí)間.馬昂等人的論文“基于強(qiáng)化學(xué)習(xí)的知識(shí)圖譜綜述”對(duì)基于強(qiáng)化學(xué)習(xí)的知識(shí)圖譜相關(guān)研究進(jìn)行了全面綜述,介紹了基于強(qiáng)化學(xué)習(xí)的知識(shí)圖譜方法如何應(yīng)用于智能推薦、對(duì)話系統(tǒng)、游戲攻略、生物醫(yī)藥、金融、安全等領(lǐng)域,并對(duì)知識(shí)圖譜與強(qiáng)化學(xué)習(xí)相結(jié)合的未來(lái)發(fā)展方向進(jìn)行了展望.
其次,研究特定類型數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代具有重要意義.魏秀參等人的論文“面向增量分類的多示例學(xué)習(xí)”針對(duì)多示例學(xué)習(xí)下的增量數(shù)據(jù)挖掘任務(wù),提出一種基于注意力機(jī)制和原型分類器映射的多示例增量數(shù)據(jù)挖掘方法,能夠在多示例學(xué)習(xí)下以極低的存儲(chǔ)代價(jià)保留模型的舊知識(shí),有效地進(jìn)行增量數(shù)據(jù)挖掘.武越等人的論文“點(diǎn)云配準(zhǔn)中多維度信息融合的特征挖掘方法”針對(duì)點(diǎn)云配準(zhǔn)任務(wù),提出一種新穎的基于多維度信息融合的特征挖掘網(wǎng)絡(luò),充分挖掘點(diǎn)云中的高維全局和低維局部信息,有效彌補(bǔ)了點(diǎn)云配準(zhǔn)的全局特征提取階段局部特征的缺失;ModelNet40數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,該方法可獲得更高的精度,同時(shí)對(duì)噪聲具有較強(qiáng)的魯棒性.郭正山等人的論文“面向知識(shí)超圖鏈接預(yù)測(cè)的生成對(duì)抗負(fù)采樣方法”針對(duì)知識(shí)超圖鏈接預(yù)測(cè)任務(wù),提出了生成對(duì)抗負(fù)采樣方法HyperGAN,無(wú)需預(yù)訓(xùn)練,通過(guò)對(duì)抗訓(xùn)練生成高質(zhì)量負(fù)樣本以解決“零損失”問(wèn)題,在性能與效率方面均優(yōu)于已有方法.范偉等人的論文“基于時(shí)空Transformer的社交網(wǎng)絡(luò)信息傳播預(yù)測(cè)”針對(duì)社交網(wǎng)絡(luò)信息傳播預(yù)測(cè)任務(wù),提出了一種基于時(shí)空Transformer的新模型STT,首先使用圖卷積網(wǎng)絡(luò)從由社交網(wǎng)絡(luò)圖和動(dòng)態(tài)傳播圖組成的異構(gòu)圖中學(xué)習(xí)用戶的結(jié)構(gòu)特征,然后使用Transformer融合用戶的時(shí)序特征和結(jié)構(gòu)特征,從而進(jìn)行信息傳播預(yù)測(cè).姚麗等人的論文“基于校園上網(wǎng)行為感知的學(xué)生成績(jī)預(yù)測(cè)方法”收集構(gòu)建了一個(gè)同時(shí)包含學(xué)生校園上網(wǎng)行為和成績(jī)數(shù)據(jù)的真實(shí)數(shù)據(jù)集,并通過(guò)分析揭示了兩者之間存在一定的關(guān)聯(lián)性,由此提出一種端到端的雙層自注意力網(wǎng)絡(luò)DEAN,并通過(guò)結(jié)合多任務(wù)學(xué)習(xí)策略解決了面向不同專業(yè)的學(xué)生成績(jī)預(yù)測(cè)問(wèn)題;實(shí)驗(yàn)結(jié)果表明,提出方法DEAN具有更好的預(yù)測(cè)精度.
本專題主要面數(shù)據(jù)挖掘及相關(guān)領(lǐng)域的研究人員,反映了我國(guó)學(xué)者在數(shù)據(jù)挖掘等領(lǐng)域的前沿進(jìn)展.在此,我們要特別感謝《計(jì)算機(jī)研究與發(fā)展》編委會(huì)對(duì)專題工作的指導(dǎo)和幫助,感謝編輯部各位老師在專題征文、論文評(píng)審與意見(jiàn)匯總、論文定稿、修改及出版各個(gè)階段付出的辛勤工作和汗水,感謝專題評(píng)審專家及時(shí)、耐心、細(xì)致的評(píng)審工作.此外,我們還要感謝向本專題踴躍投稿的作者對(duì)《計(jì)算機(jī)研究與發(fā)展》的信任.最后,感謝專題的讀者們,希望本專題能夠?qū)ο嚓P(guān)領(lǐng)域的研究工作有所促進(jìn).