第七屆國(guó)際數(shù)據(jù)挖掘與應(yīng)用統(tǒng)計(jì)研究會(huì)學(xué)術(shù)綜述
李勇1,陳新華2,朱建平3
(1.重慶工商大學(xué) 輿情研究中心; 2.廣西財(cái)經(jīng)學(xué)院; 3.廈門大學(xué) 數(shù)據(jù)挖掘研究中心)
第七屆國(guó)際數(shù)據(jù)挖掘與應(yīng)用統(tǒng)計(jì)研究會(huì)于2015年7月27-30日在廣西南寧隆重召開。本屆會(huì)議的主題是“大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)方法及應(yīng)用研究”,由國(guó)際數(shù)據(jù)挖掘與應(yīng)用統(tǒng)計(jì)研究會(huì)主辦,廣西財(cái)經(jīng)學(xué)院、廈門大學(xué)數(shù)據(jù)挖掘研究中心、美國(guó)耶魯大學(xué)、臺(tái)北醫(yī)學(xué)大學(xué)和重慶允升科技大數(shù)據(jù)研究中心聯(lián)合承辦,來自于國(guó)內(nèi)外60余所高校、政府和企事業(yè)單位180多位專家學(xué)者蒞臨參加。會(huì)議入選論文46篇,分為大數(shù)據(jù)理論、大數(shù)據(jù)應(yīng)用、統(tǒng)計(jì)理論和應(yīng)用統(tǒng)計(jì)4個(gè)專題進(jìn)行交流討論。
一、大數(shù)據(jù)時(shí)代統(tǒng)計(jì)的機(jī)遇與挑戰(zhàn)
曾五一教授在《大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的挑戰(zhàn)和機(jī)遇》報(bào)告中,梳理了“數(shù)據(jù)”、“大數(shù)據(jù)”和“統(tǒng)計(jì)數(shù)據(jù)”幾個(gè)概念之間的聯(lián)系與區(qū)別,由此指出:大數(shù)據(jù)科學(xué)不等于統(tǒng)計(jì)學(xué)。統(tǒng)計(jì)學(xué)只有在很好地應(yīng)對(duì)大數(shù)據(jù)在思維方式、數(shù)據(jù)規(guī)模和復(fù)雜性等方面帶來的挑戰(zhàn),重新構(gòu)建大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)學(xué),才能抓住大數(shù)據(jù)時(shí)代為統(tǒng)計(jì)學(xué)帶來的新機(jī)遇。
廣西調(diào)查總隊(duì)楊錫虹副總隊(duì)長(zhǎng)從政府?dāng)?shù)據(jù)質(zhì)量、大數(shù)據(jù)有助于政府有效決策以及數(shù)據(jù)安全等方面,闡述了當(dāng)前我國(guó)充分重視大數(shù)據(jù)的發(fā)展和把握這一歷史機(jī)遇的重要性和迫切性。
云南財(cái)經(jīng)大學(xué)張波針對(duì)大數(shù)據(jù)時(shí)代統(tǒng)計(jì)所面臨的機(jī)遇與挑戰(zhàn),提出建設(shè)“數(shù)據(jù)中國(guó)”的一些應(yīng)對(duì)策略。
二、大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)思維和復(fù)雜細(xì)節(jié)
林共進(jìn)教授在《Statistics for Internet of Things》報(bào)告中,探討了后大數(shù)據(jù)時(shí)代(所謂物聯(lián)網(wǎng)世界)應(yīng)具備的統(tǒng)計(jì)思維。認(rèn)為大數(shù)據(jù)“4V”特征中的第4個(gè)V常指Value(價(jià)值)是不可取的,應(yīng)該是Veracity(真實(shí))。統(tǒng)計(jì)應(yīng)主要注重的兩個(gè)方向:探索有意義的問題(Do something matter)和為未定義的問題提供結(jié)構(gòu)性方向(Structure for poorly defined problems)。在后大數(shù)據(jù)時(shí)代,物聯(lián)網(wǎng)將成為大數(shù)據(jù)后的另一波主流,面臨著由互聯(lián)技術(shù)架構(gòu)起來的這個(gè)快、大而復(fù)雜的數(shù)據(jù)世界,我們應(yīng)為統(tǒng)計(jì)這門數(shù)據(jù)科學(xué)該扮演的角色提供一些思考的方向。
馬雙鴿博士在《Big Data:Devil in detail》報(bào)告中指出,在大數(shù)據(jù)研究中小數(shù)據(jù)不存在的一些重要細(xì)節(jié)問題,已嚴(yán)重影響更有效的數(shù)據(jù)分析。其團(tuán)隊(duì)研究了如果用網(wǎng)絡(luò)分析的方法描述變量及樣本之間的復(fù)雜關(guān)系,如何用整合分析的方法解決樣本異質(zhì)性的問題;如何評(píng)估大數(shù)據(jù)分析的優(yōu)越性(相對(duì)于小數(shù)據(jù)分析),以及如何用"切割+整合"的方法解決大數(shù)據(jù)分析中的計(jì)算復(fù)雜化等問題。這些問題的研究將從根本上推進(jìn)大數(shù)據(jù)分析方法的設(shè)計(jì)及在實(shí)際問題中的應(yīng)用。
三、基于大數(shù)據(jù)的模型理論及應(yīng)用
陳建偉教授在《Mixture Transparent composite model for discrete cosine transform(DCT) in signal processing with Big Data》報(bào)告中,構(gòu)建了基于大數(shù)據(jù)信號(hào)處理的離散余弦變換系數(shù)的混合通透合成模型,指出由于指數(shù)衰減速度過快,拉普拉斯和廣義高斯分布對(duì)離散余弦變換系數(shù)中的厚尾現(xiàn)象的建模效果不理想?;赥CM模型,將離散余弦變換系數(shù)的主要部分和尾部分離開,分別使用參數(shù)分布和均勻分布建模,構(gòu)建了一個(gè)基于截尾分布的混合通透合成模型和多段通透合成模型。采取極大似然方法、EM算法和動(dòng)態(tài)規(guī)劃方法進(jìn)行模型參數(shù)估計(jì),運(yùn)用卡方準(zhǔn)則和KL發(fā)散距離準(zhǔn)則對(duì)模型精度進(jìn)行檢驗(yàn),該模型具有更高的效率和精度。
黃名選教授在《基于項(xiàng)權(quán)值變化的完全加權(quán)正負(fù)關(guān)聯(lián)模式挖掘研究》報(bào)告中,提出了兩種基于項(xiàng)權(quán)值變化的完全加權(quán)正負(fù)關(guān)聯(lián)模式挖掘新算法:基于SCPIRCI(Support-Conditional Probability Increment Ratio-Correlation-Interest)和SRCCCI(Support-Relevancy-Correlation Coefficient-Confidence-Interest)評(píng)價(jià)框架的正負(fù)關(guān)聯(lián)模式挖掘,構(gòu)建新的項(xiàng)集剪枝策略,從頻繁項(xiàng)集和負(fù)項(xiàng)集中挖掘完全加權(quán)正負(fù)關(guān)聯(lián)規(guī)則模式,解決了基于項(xiàng)權(quán)值變化的負(fù)關(guān)聯(lián)模式挖掘技術(shù)問題。
江西財(cái)經(jīng)大學(xué)章貴軍和曹正鳳等對(duì)大數(shù)據(jù)的統(tǒng)計(jì)整理工作進(jìn)行了探討。貴州財(cái)經(jīng)大學(xué)吳寧博和楊帆針對(duì)圖書館業(yè)務(wù)數(shù)據(jù)特征改進(jìn)了Apriori算法。天津財(cái)經(jīng)大學(xué)楊貴軍、于洋和孟杰構(gòu)建基于AIC的粗糙集選擇算法結(jié)合誤判率,具有較高的預(yù)測(cè)準(zhǔn)確度。齊魯師范學(xué)院的宋廷山等研究了基于Hadoop的大數(shù)據(jù)描述統(tǒng)計(jì)分析。杭州電子科技大學(xué)付榮等對(duì)大數(shù)據(jù)背景下CPI中自有住房計(jì)價(jià)方法進(jìn)行了探析。
(責(zé)任編輯:杜一哲)
【學(xué)術(shù)動(dòng)態(tài)】