數(shù)據(jù)挖掘旨在利用機(jī)器學(xué)習(xí)等智能數(shù)據(jù)分析技術(shù),發(fā)掘數(shù)據(jù)對(duì)象蘊(yùn)含的知識(shí)與規(guī)律,為任務(wù)決策提供有效支撐.國(guó)務(wù)院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》中明確指出,數(shù)據(jù)挖掘是建立新一代人工智能關(guān)鍵共性技術(shù)體系的基礎(chǔ)支撐.在大數(shù)據(jù)時(shí)代背景下,數(shù)據(jù)挖掘技術(shù)已廣泛應(yīng)用于金融、醫(yī)療、教育、交通、媒體等領(lǐng)域.然而,隨著人工智能、移動(dòng)互聯(lián)網(wǎng)、云計(jì)算等信息技術(shù)的快速發(fā)展,數(shù)據(jù)挖掘研究在理論、方法、應(yīng)用等多個(gè)層面均面臨新的挑戰(zhàn).
為及時(shí)反映國(guó)內(nèi)同行在數(shù)據(jù)挖掘方面的前沿研究成果,《計(jì)算機(jī)研究與發(fā)展》本次推出“數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)”專(zhuān)題,以進(jìn)一步推動(dòng)我國(guó)數(shù)據(jù)挖掘及相關(guān)領(lǐng)域的創(chuàng)新發(fā)展.本專(zhuān)題得到了國(guó)內(nèi)同行的廣泛關(guān)注,經(jīng)公開(kāi)征文共收到投稿74篇.此外,專(zhuān)題組稿與第八屆中國(guó)數(shù)據(jù)挖掘會(huì)議(CCDM 2020)合作,從285篇會(huì)議投稿中遴選出5篇高質(zhì)量論文.特約編輯先后邀請(qǐng)多位數(shù)據(jù)挖掘及相關(guān)領(lǐng)域的專(zhuān)家參與審稿工作,稿件評(píng)審歷經(jīng)4個(gè)月,最終有18篇論文入選本專(zhuān)題.
首先,發(fā)展適于大數(shù)據(jù)特性的數(shù)據(jù)挖掘理論與方法,是大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)研究的基礎(chǔ).
丁成誠(chéng)等人的論文“一種三參數(shù)統(tǒng)一化動(dòng)量方法及其最優(yōu)收斂速率”針對(duì)現(xiàn)有動(dòng)量方法存在的需固定迭代步數(shù)和無(wú)約束等限制,提出了一種含三參數(shù)的統(tǒng)一化動(dòng)量方法TPUM,證明了該方法在求解有約束非光滑凸優(yōu)化問(wèn)題時(shí)具有最優(yōu)的平均收斂速率,并推廣至隨機(jī)情況.王婕婷等人的論文“消除隨機(jī)一致性的支持向量機(jī)分類(lèi)方法”針對(duì)傳統(tǒng)支持向量機(jī)學(xué)習(xí)過(guò)程存在的隨機(jī)一致性問(wèn)題,給出了從準(zhǔn)確度中消除隨機(jī)一致部分的純準(zhǔn)確度指標(biāo),并提出了基于純準(zhǔn)確度指標(biāo)的支持向量機(jī)模型PASVM.賀一笑等人的論文“蒙德里安深度森林”針對(duì)增量場(chǎng)景下構(gòu)建基于不可微模塊的深度模型問(wèn)題,提出了具有逐層處理能力的蒙德里安深度森林,通過(guò)級(jí)聯(lián)森林結(jié)構(gòu)和自適應(yīng)機(jī)制逐層提升預(yù)測(cè)性能.鞠卓亞等人的論文“基于選擇性模式的貝葉斯分類(lèi)算法”針對(duì)如何減弱樸素貝葉斯網(wǎng)絡(luò)中的屬性條件獨(dú)立假設(shè)限制問(wèn)題,將選擇性模式區(qū)分能力引入貝葉斯分類(lèi)算法,結(jié)合特定模式與聚合單層依賴分類(lèi)器從而平衡模式內(nèi)外屬性間的依賴關(guān)系.孟銀鳳等人的論文“線性正則化函數(shù)Logistic模型”面向函數(shù)型數(shù)據(jù)的二分類(lèi)問(wèn)題,通過(guò)對(duì)基于函數(shù)樣例的似然函數(shù)與控制模型復(fù)雜度的正則化項(xiàng)進(jìn)行線性加權(quán)組合,提出了一種線性正則化函數(shù)Logistic模型.夏冬雪等人的論文“基于鄰域多核學(xué)習(xí)的后融合多視圖聚類(lèi)算法”面向基于圖譜理論的多視圖聚類(lèi)問(wèn)題,提出了一種基于鄰域多核學(xué)習(xí)的后融合多視圖聚類(lèi)算法,并給出了相似圖構(gòu)建、多核組合、類(lèi)指示生成矩陣生成的協(xié)同優(yōu)化方案.劉艷芳等人的論文“基于自適應(yīng)鄰域嵌入的無(wú)監(jiān)督特征選擇算法”針對(duì)基于k近鄰的無(wú)監(jiān)督特征選擇方法忽略數(shù)據(jù)分布不均的問(wèn)題,通過(guò)考察樣本的分布稠密程度構(gòu)造樣本相似矩陣,提出了自適應(yīng)鄰域嵌入無(wú)監(jiān)督特征選擇算法ANEFS.
其次,數(shù)據(jù)驅(qū)動(dòng)是數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)的基本特性,研究特定類(lèi)型數(shù)據(jù)挖掘與分析技術(shù)具有重要意義.
鄭憶美等人的論文“一種度修正的屬性網(wǎng)絡(luò)隨機(jī)塊模型”面向?qū)傩跃W(wǎng)絡(luò)社區(qū)檢測(cè)任務(wù),提出了一種基于隨機(jī)塊模型的屬性網(wǎng)絡(luò)社區(qū)檢測(cè)方法,在節(jié)點(diǎn)鏈接生成過(guò)程中引入度修正提升屬性網(wǎng)絡(luò)社區(qū)檢測(cè)性能.陳可佳等人的論文“條件變分時(shí)序圖自編碼器”面向動(dòng)態(tài)網(wǎng)絡(luò)表示學(xué)習(xí)問(wèn)題,提出了一種基于時(shí)序圖卷積和條件變分自編碼器的動(dòng)態(tài)網(wǎng)絡(luò)表示學(xué)習(xí)方法TS-CVGAE,實(shí)現(xiàn)動(dòng)態(tài)網(wǎng)絡(luò)局部結(jié)構(gòu)與時(shí)間演化模式的同步學(xué)習(xí).陳亦琦等人的論文“基于復(fù)合關(guān)系圖卷積的屬性網(wǎng)絡(luò)嵌入方法”針對(duì)無(wú)監(jiān)督屬性網(wǎng)絡(luò)嵌入問(wèn)題,提出了一種考慮屬性網(wǎng)絡(luò)構(gòu)造節(jié)點(diǎn)與其屬性間復(fù)合關(guān)系的圖卷積網(wǎng)絡(luò)模型,從而保留網(wǎng)絡(luò)中豐富的屬性信息.朱穎雯等人的論文“基于隨機(jī)投影的高維數(shù)據(jù)流聚類(lèi)”面向高維數(shù)據(jù)流聚類(lèi)問(wèn)題,通過(guò)結(jié)合隨機(jī)投影與自適應(yīng)諧振理論,提出了一種僅具有線性復(fù)雜度且僅包含單個(gè)魯棒超參數(shù)的高效聚類(lèi)算法RPFART.孫肖依等人的論文“基于列表級(jí)排序的深度生成推薦方法”針對(duì)基于變分自編碼器的推薦方法,在隱式反饋數(shù)據(jù)上為用戶生成個(gè)性化排序推薦列表,提出了一種應(yīng)用列表級(jí)排序?qū)W習(xí)方法的深度生成推薦模型.劉興波等人的論文“基于雙向線性回歸的監(jiān)督離散跨模態(tài)散列方法”針對(duì)跨模態(tài)檢索問(wèn)題,通過(guò)采用雙向映射矩陣描述散列矩陣與標(biāo)簽矩陣關(guān)系,提出了一種保持散列碼與標(biāo)簽語(yǔ)義相關(guān)性的有監(jiān)督離散跨模態(tài)散列方法SDCH.
此外,數(shù)據(jù)挖掘技術(shù)在交通、教育、醫(yī)療、金融等諸多領(lǐng)域具有廣泛的應(yīng)用價(jià)值.
杜圣東等人的論文“一種基于序列到序列時(shí)空注意力學(xué)習(xí)的交通流預(yù)測(cè)模型”針對(duì)城市交通流預(yù)測(cè)問(wèn)題,通過(guò)集成序列到序列深度學(xué)習(xí)結(jié)構(gòu)、卷積LSTM網(wǎng)絡(luò)以及時(shí)空注意力機(jī)制,提出了一種面向多通道多變量序列數(shù)據(jù)的交通流預(yù)測(cè)模型.李夢(mèng)瑩等人的論文“基于雙路注意力機(jī)制的學(xué)生成績(jī)預(yù)測(cè)模型”通過(guò)分析學(xué)生個(gè)體差異性以及不同因素對(duì)學(xué)生成績(jī)的影響程度,提出雙路注意力機(jī)制充分學(xué)習(xí)各屬性特征與成績(jī)間的關(guān)系信息,在提升預(yù)測(cè)性能的同時(shí)具有良好的可解釋性.鄭值等人的論文“基于多源情境協(xié)同感知的藥品推薦”采用主題模型將患者的情境信息表示為情境主題分布,提出了一種整合多源異構(gòu)情境信息的藥品推薦方法,并在真實(shí)電子病歷數(shù)據(jù)集上驗(yàn)證了方法的有效性與魯棒性.陳彥敏等人的論文“基于層級(jí)注意力機(jī)制的互聯(lián)網(wǎng)用戶信用評(píng)估框架”針對(duì)互聯(lián)網(wǎng)用戶信用評(píng)估問(wèn)題,提出了一種基于互聯(lián)網(wǎng)用戶畫(huà)像的層級(jí)注意力機(jī)制信用評(píng)估模型,體現(xiàn)用戶屬性層次結(jié)構(gòu)關(guān)系并挖掘不同粒度屬性的重要程度.林培光等人的論文“SCONV:一種基于情感分析的金融市場(chǎng)趨勢(shì)預(yù)測(cè)方法”通過(guò)融合語(yǔ)義分析與帶卷積的LSTM模型,將原始金融交易數(shù)據(jù)與股民評(píng)價(jià)作為模型輸入,提出了一種基于情感分析的價(jià)格預(yù)測(cè)深度學(xué)習(xí)模型.
本專(zhuān)題主要面向數(shù)據(jù)挖掘及相關(guān)領(lǐng)域的研究人員,反映了我國(guó)學(xué)者在數(shù)據(jù)挖掘等領(lǐng)域研究的前沿進(jìn)展.在此,特別感謝《計(jì)算機(jī)研究與發(fā)展》編委會(huì)對(duì)專(zhuān)題工作的指導(dǎo)和幫助,感謝編輯部各位老師在征稿啟示發(fā)布、論文評(píng)審與意見(jiàn)匯總、論文定稿、修改及出版各個(gè)階段付出的辛勤工作,感謝專(zhuān)題評(píng)審專(zhuān)家及時(shí)、耐心、細(xì)致的評(píng)審工作.此外,我們還要感謝向本專(zhuān)題踴躍投稿的作者對(duì)《計(jì)算機(jī)研究與發(fā)展》的信任.
最后,希望本專(zhuān)題能夠?qū)ο嚓P(guān)領(lǐng)域的研究工作有所裨益.