国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識(shí)圖譜的國(guó)外數(shù)據(jù)科學(xué)研究狀況分析

2018-01-16 08:13:47葉文豪王東波
河北科技圖苑 2017年6期
關(guān)鍵詞:可視化領(lǐng)域科學(xué)

葉文豪 王東波

(南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院 江蘇 南京 210095)

1 引言

當(dāng)“大數(shù)據(jù)”一詞取代“信息”成為了一個(gè)新時(shí)代的標(biāo)志[1],大數(shù)據(jù)的重要程度就不言而喻了,而數(shù)據(jù)科學(xué)正是應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)所必須的一門多學(xué)科多技術(shù)融合的新興學(xué)科[2]?!皵?shù)據(jù)科學(xué)”一詞早在20世紀(jì)60年代就已經(jīng)出現(xiàn)[3],但直到20世紀(jì)90年代才開始有它準(zhǔn)確的名稱——“data science”[4]。21世紀(jì)以來,隨著信息產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)開始呈指數(shù)增長(zhǎng),體量大、形式多樣等一些大數(shù)據(jù)的特征為大數(shù)據(jù)的研究和利用帶來了很大的挑戰(zhàn),在這樣的背景下,各個(gè)領(lǐng)域的學(xué)者們紛紛將關(guān)注點(diǎn)轉(zhuǎn)向了數(shù)據(jù)科學(xué),促使數(shù)據(jù)科學(xué)成為了近幾年來國(guó)際上普遍關(guān)注的熱點(diǎn)領(lǐng)域。目前,我國(guó)在數(shù)據(jù)科學(xué)方面的研究方興未艾。王曰芬等學(xué)者在《國(guó)外數(shù)據(jù)科學(xué)研究的回顧與展望》一文中對(duì)國(guó)外數(shù)據(jù)科學(xué)的研究現(xiàn)狀進(jìn)行了計(jì)量分析,在此基礎(chǔ)上歸納總結(jié)了數(shù)據(jù)科學(xué)的內(nèi)涵界定與應(yīng)用方向,最后提出了目前國(guó)外數(shù)據(jù)科學(xué)研究面臨的問題和未來的發(fā)展趨勢(shì),為我國(guó)數(shù)據(jù)科學(xué)研究的發(fā)展提供了參考和借鑒[5]。本文嘗試基于王曰芬等學(xué)者的研究,在Web of Science核心合集數(shù)據(jù)庫(kù)中擴(kuò)充檢索式,對(duì)下載得到的國(guó)外數(shù)據(jù)科學(xué)相關(guān)文獻(xiàn)進(jìn)行更深入的可視化分析,并結(jié)合對(duì)下載到的一些文獻(xiàn)的深入閱讀,分析數(shù)據(jù)科學(xué)研究目前仍面臨的一些問題和挑戰(zhàn)以及其未來的發(fā)展趨勢(shì)。

2 數(shù)據(jù)來源

本文數(shù)據(jù)來源選取Web of Science核心合集數(shù)據(jù)庫(kù)。筆者于2017年2月23日在Web of Science核心合集數(shù)據(jù)庫(kù)中設(shè)置檢索條件如下:檢索式為:“主題:(“data science”) OR 主題:(“data scientist*”)OR主題:(“datafication”),數(shù)據(jù)庫(kù)選擇為:SCI-EXPANDED、 SSCI、 CPCI-S、 CPCI-SSH、 CCR-EXPANDED, IC,時(shí)間跨度=所有年份,共得到861條記錄,涉及時(shí)間范圍1994-2017,其中收錄的最新一篇跟檢索主題相關(guān)的文獻(xiàn)是Snasel V、Nowakova J等人于2017年2月發(fā)表在FUTUREGENERATIONCOMPUTERSYSTEMS-THEINTERNATIONALJOURNALOFESCIENCE期刊上的GeometricalandtopologicalapproachestoBigData一文,匯集了關(guān)于大數(shù)據(jù)的幾何和拓?fù)浞椒ǖ淖钕冗M(jìn)的研究成果[6]。將檢索到的文獻(xiàn)導(dǎo)出引文全記錄,并進(jìn)行各年份文獻(xiàn)量的統(tǒng)計(jì),得到了圖1所示發(fā)文量年份分布圖(考慮到2017年的文獻(xiàn)量還將繼續(xù)增長(zhǎng),所以本文在繪制發(fā)文量年份分布圖時(shí)去除了2017年的數(shù)據(jù))。從圖1中可以看到數(shù)據(jù)科學(xué)相關(guān)文獻(xiàn)數(shù)量年份分布情況,2011年以前各年份論文發(fā)表數(shù)量一直保持在10篇以下,2012年發(fā)文數(shù)量出現(xiàn)拐點(diǎn),進(jìn)入逐年增長(zhǎng)趨勢(shì),并從2014年開始呈現(xiàn)急劇增長(zhǎng),這表明國(guó)外真正對(duì)于數(shù)據(jù)科學(xué)的研究是近幾年才開始興起的,伴隨著大數(shù)據(jù)的研究熱潮,學(xué)者們紛紛開始關(guān)注這樣一門研究數(shù)據(jù)的科學(xué),以期能夠更好地為迎接大數(shù)據(jù)時(shí)代的挑戰(zhàn)提供理論與技術(shù)上的支撐[7]。

通過對(duì)下載的數(shù)據(jù)進(jìn)行文獻(xiàn)來源出版物的統(tǒng)計(jì),發(fā)現(xiàn)本文所檢索到的數(shù)據(jù)科學(xué)主題相關(guān)論文來源于577種期刊,這說明目前國(guó)外對(duì)于數(shù)據(jù)科學(xué)的研究較為零散,尚未形成領(lǐng)域內(nèi)的核心期刊集。本文選取了其中刊文量最多的前十個(gè)刊物繪制了期刊來源分布圖(圖2所示),從圖中可以發(fā)現(xiàn)數(shù)據(jù)科學(xué)相關(guān)論文主要來源于LECTURENOTESINCOMPUTERSCIENCE、STATISTICALANALYSISANDDATAMINING等期刊,這表明國(guó)外對(duì)于數(shù)據(jù)科學(xué)的研究主要還是基于以計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)領(lǐng)域?yàn)橹鲗?dǎo)的數(shù)據(jù)處理方法、工具的探索和研究,還沒有形成相對(duì)獨(dú)立的數(shù)據(jù)科學(xué)領(lǐng)域的核心理論與應(yīng)用支撐,這也是由數(shù)據(jù)科學(xué)本身的多學(xué)科融合性質(zhì)所決定的。

圖1 數(shù)據(jù)科學(xué)研究相關(guān)文獻(xiàn)發(fā)文量年份分布圖

圖2 文獻(xiàn)期刊分布圖

3 可視化分析

筆者在利用CiteSpace軟件對(duì)從Web of Science核心合集數(shù)據(jù)庫(kù)中下載所得數(shù)據(jù)進(jìn)行相關(guān)知識(shí)圖譜的繪制之前,對(duì)CiteSpace軟件的界面進(jìn)行了如下參數(shù)設(shè)置:根據(jù)筆者檢索得到數(shù)據(jù)的時(shí)間覆蓋范圍,選取時(shí)間段為1980-2017,時(shí)間切片為1年,LinkStrength選擇Cosine算法,數(shù)據(jù)抽取對(duì)象選擇Top50,引文數(shù)量(c)、共被引頻次(cc)和共被引系數(shù)(ccv)的閾值選擇為(2,3,15)、(3,3,20)、(3,3,20),具體每年分區(qū)的閾值由線性內(nèi)插值來決定。之后再分別選擇對(duì)應(yīng)的節(jié)點(diǎn)進(jìn)行作者合作網(wǎng)絡(luò)圖譜、機(jī)構(gòu)合作網(wǎng)絡(luò)圖譜、關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜以及文獻(xiàn)共被引網(wǎng)絡(luò)圖譜的繪制,并對(duì)這些圖譜進(jìn)行解讀,從而探析數(shù)據(jù)科學(xué)在國(guó)外的研究現(xiàn)狀。

3.1 作者合作網(wǎng)絡(luò)分析

首先選擇節(jié)點(diǎn)類型為“Author”,利用CiteSpace軟件繪制出作者合作網(wǎng)絡(luò)圖譜。圖譜顯示筆者在Web of Science中下載得到的數(shù)據(jù)科學(xué)相關(guān)的文獻(xiàn)共涉及1 631位作者。但由于作者數(shù)量非常多,網(wǎng)絡(luò)圖譜又非常零散,所以為方便呈現(xiàn),筆者生成了發(fā)文數(shù)在2篇及以上的作者之間的合作網(wǎng)絡(luò)(圖3),圖譜顯示生成了138個(gè)節(jié)點(diǎn)之間的211條連線,其中發(fā)文數(shù)在4篇及以上的作者共有8位(見表1)。這些作者近年來在數(shù)據(jù)科學(xué)領(lǐng)域開展了一系列的研究,通過對(duì)他們的文獻(xiàn)進(jìn)行進(jìn)一步的閱讀,發(fā)現(xiàn)其文獻(xiàn)產(chǎn)出年份都比較新,基本分布在2015年和2016年,但他們的研究方向各有側(cè)重。文獻(xiàn)產(chǎn)出量最高的作者是 Georgia Institute of Technology(喬治亞理工學(xué)院)的Kalidindi SR。Kalidindi SR在數(shù)據(jù)科學(xué)方面的研究方向主要是新興的材料數(shù)據(jù)科學(xué)和信息學(xué)學(xué)科(MDSI,Materials Data Science and Informatics),其數(shù)據(jù)科學(xué)相關(guān)論文中主要探討了材料數(shù)據(jù)的存儲(chǔ)、管理、處理、分析等問題,以便更好地為材料開發(fā)和部署工作提供決策支持[8-11]。另外Leung CK,Vatrapu R,Provost F,Mondal K,Moat HS,Preis T,Hussain A也是產(chǎn)出文獻(xiàn)相對(duì)較多的學(xué)者。Leung CK近幾年來的研究主要體現(xiàn)在頻繁模式挖掘上,其最近的一篇數(shù)據(jù)科學(xué)相關(guān)論文中提出了一種用于頻繁模式大數(shù)據(jù)分析的數(shù)據(jù)科學(xué)模型,在挖掘和分析大數(shù)據(jù)方面具有較高的效率和實(shí)用性[12]。Vatrapu R則主要是對(duì)社

會(huì)數(shù)據(jù)分析方法進(jìn)行了相關(guān)的研究,他們提出了一種稱為社會(huì)集分析的大數(shù)據(jù)分析方法,來彌補(bǔ)在涉及組織、社會(huì)單位的分析時(shí)對(duì)于其社會(huì)媒體影響力的概念化、分析、解釋和預(yù)測(cè)上的局限[13]。其他的作者也分別從理論、方法、應(yīng)用等角度對(duì)數(shù)據(jù)科學(xué)進(jìn)行了相關(guān)的研究。從圖3可以看出,作者合作網(wǎng)絡(luò)整體呈現(xiàn)較為分散的狀態(tài),未形成核心的中間節(jié)點(diǎn),一方面可能是由于數(shù)據(jù)科學(xué)的應(yīng)用領(lǐng)域在不斷擴(kuò)展,彼此之間沒有合作關(guān)系的學(xué)者獨(dú)立進(jìn)行各自領(lǐng)域的數(shù)據(jù)科學(xué)研究,本文建議各個(gè)不同領(lǐng)域的學(xué)者之間加強(qiáng)合作關(guān)系,從而促進(jìn)數(shù)據(jù)科學(xué)在各個(gè)領(lǐng)域更好地融合發(fā)展;另一方面筆者認(rèn)為這也進(jìn)一步證實(shí)了國(guó)外數(shù)據(jù)科學(xué)的研究尚處在初步發(fā)展階段,還未形成領(lǐng)域內(nèi)的核心研究團(tuán)隊(duì)。

表1 發(fā)文數(shù)3篇以上的作者

圖3 作者合作網(wǎng)絡(luò)

3.2 機(jī)構(gòu)合作網(wǎng)絡(luò)分析

選擇節(jié)點(diǎn)類型為“Institution”,利用CiteSpace軟件繪制出機(jī)構(gòu)合作網(wǎng)絡(luò)圖譜(圖4)。圖譜共生成452個(gè)結(jié)點(diǎn)之間的778條連線,其中出現(xiàn)頻次最高的機(jī)構(gòu)是MIT(16篇),近幾年來MIT的計(jì)算機(jī)科學(xué)和人工智能實(shí)驗(yàn)室(MIT CSAIL)對(duì)數(shù)據(jù)科學(xué)展開了大量的研究,并取得了一系列的研究成果。MIT CSAIL的Max Kanter和他的指導(dǎo)老師Kalyan Veeramachaneni等人在2015年設(shè)計(jì)出了Data Science Machine,其突破點(diǎn)在于利用深度特征合成算法實(shí)現(xiàn)了從原始數(shù)據(jù)自動(dòng)導(dǎo)出預(yù)測(cè)模型[14],為數(shù)據(jù)科學(xué)的自動(dòng)化做出了重大貢獻(xiàn)。另外,以MIT CSAIL的Dong Deng和Raul Castro Fernandez為核心的一支國(guó)際化的科研團(tuán)隊(duì)近期發(fā)布了一個(gè)全新的大數(shù)據(jù)分析系統(tǒng)——Data Civilizer[15],該系統(tǒng)旨在幫助分析人員快速找到組織內(nèi)包含其所需相關(guān)信息的不同數(shù)據(jù)集,并且將相關(guān)數(shù)據(jù)集合在一起,以創(chuàng)建新的統(tǒng)一數(shù)據(jù)集,從而整合所需的數(shù)據(jù),為數(shù)據(jù)科學(xué)家簡(jiǎn)化了數(shù)據(jù)的預(yù)處理過程,使其能夠?qū)⒏嗟臅r(shí)間和精力用在分析數(shù)據(jù)上[16],這一項(xiàng)新的研究成果為數(shù)據(jù)處理工具帶來了新的研究方向,將推動(dòng)數(shù)據(jù)科學(xué)更快速地發(fā)展。除MIT之外,Georgia Inst Technol(13篇)、Stanford Univ(13篇)、NYU(13篇)、Univ Washington(13篇)、Harvard Univ(13篇)等高校也較為活躍,筆者在上文提到的文獻(xiàn)產(chǎn)出量最高的作者Kalidindi SR就是Georgia Inst Technol高校職員。另外,現(xiàn)任職于Georgia Inst Technol的C.F.Jeff Wu教授是最早推廣“data science”這一術(shù)語的[17]。近年來,這些高校也都在不斷開展數(shù)據(jù)科學(xué)方面的項(xiàng)目和計(jì)劃,并且也已經(jīng)開始關(guān)注數(shù)據(jù)科學(xué)人才的培養(yǎng)問題,如紐約大學(xué)、斯坦福大學(xué)等就新開設(shè)了數(shù)據(jù)科學(xué)相關(guān)的碩士學(xué)位[18]。從圖4可以看出這些高校之間的合作關(guān)系相對(duì)來說比較密切,這在一定程度上能夠?yàn)檫M(jìn)一步融合各高校的強(qiáng)勢(shì)學(xué)科、促進(jìn)數(shù)據(jù)科學(xué)的快速發(fā)展帶來更廣闊的空間。

圖4 機(jī)構(gòu)合作網(wǎng)絡(luò)

3.3 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析

為了對(duì)數(shù)據(jù)科學(xué)領(lǐng)域的研究熱點(diǎn)進(jìn)行考察分析[19],本文在CiteSpace軟件中選擇“Keyword”節(jié)點(diǎn)類型,利用CiteSpace軟件對(duì)下載文獻(xiàn)中出現(xiàn)頻次大于等于2的關(guān)鍵詞進(jìn)行共詞網(wǎng)絡(luò)分析,得到圖5所示關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)。表2給出了頻次統(tǒng)計(jì)前十的高頻關(guān)鍵詞出現(xiàn)的頻次以及它們的中心性。通過對(duì)這些關(guān)鍵詞進(jìn)行綜合分析,從以下幾個(gè)方面總結(jié)國(guó)外數(shù)據(jù)科學(xué)的研究熱點(diǎn):從研究對(duì)象來看,數(shù)據(jù)科學(xué)的研究對(duì)象是大數(shù)據(jù),王曰芬、謝清楠、宋小康三位學(xué)者在《國(guó)外數(shù)據(jù)科學(xué)研究的回顧與展望》一文中給出了“big data”和“data science”相關(guān)主題的文獻(xiàn)發(fā)文量時(shí)序分析對(duì)比圖[5],對(duì)比分析發(fā)現(xiàn)“data science”和“big data”的發(fā)文量年度分布走勢(shì)基本相似,進(jìn)一步表明了數(shù)據(jù)科學(xué)和大數(shù)據(jù)之間的強(qiáng)關(guān)聯(lián)性,數(shù)據(jù)科學(xué)正是基于大數(shù)據(jù)的出現(xiàn)而成為了研究熱點(diǎn)。從研究方法來看,數(shù)據(jù)科學(xué)的研究方法、技術(shù)主要集中在“machine learning”“model”“system”“data mining”“network”等方面?!癿achine learning”體現(xiàn)了機(jī)器學(xué)習(xí)在數(shù)據(jù)科學(xué)領(lǐng)域的應(yīng)用,機(jī)器學(xué)習(xí)是當(dāng)今增長(zhǎng)最快的技術(shù)領(lǐng)域之一,是人工智能和數(shù)據(jù)科學(xué)的核心。數(shù)據(jù)密集型機(jī)器學(xué)習(xí)方法的采用可以在科學(xué)、技術(shù)和商業(yè)領(lǐng)域得到應(yīng)用,從而為醫(yī)療保健、制造業(yè)、教育、金融建模、警務(wù)和市場(chǎng)營(yíng)銷等多個(gè)領(lǐng)域提供更多決策支持[20]。伴隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)挖掘的誕生,越來越多的機(jī)器學(xué)習(xí)算法得以開發(fā)和實(shí)現(xiàn),并被應(yīng)用到實(shí)際的領(lǐng)域當(dāng)中。Amparo Alonso-Betanzos等人在他們最新發(fā)表的Volume,varietyandvelocityinDataScience一文中總結(jié)了近期關(guān)于數(shù)據(jù)科學(xué)的算法研究[21]。隨著數(shù)據(jù)科學(xué)被應(yīng)用到越來越多的領(lǐng)域,不同領(lǐng)域的學(xué)者也都在不斷探索適合本領(lǐng)域數(shù)據(jù)的特征模型,開發(fā)針對(duì)特定領(lǐng)域的數(shù)據(jù)處理和分析系統(tǒng)。“network”則反映出了數(shù)據(jù)科學(xué)在大數(shù)據(jù)可視化方面的研究。隨著數(shù)據(jù)科學(xué)在決策中的價(jià)值體現(xiàn)越來越突出,怎樣將數(shù)據(jù)分析得到的結(jié)果更好地呈現(xiàn)出來,以便決策者能夠更有效地理解和利用信息就成為了關(guān)鍵問題。目前network是一個(gè)比較普遍的可視化方式,將數(shù)據(jù)之間的關(guān)聯(lián)通過網(wǎng)絡(luò)的形式體現(xiàn)出來。這一方式在表現(xiàn)社交關(guān)系時(shí)非常方便,但如何根據(jù)數(shù)據(jù)本質(zhì)特征設(shè)計(jì)可表達(dá)的幾何空間,如何建立數(shù)據(jù)空間與可表達(dá)的幾何空間

的映照等仍是可視分析的最根本科學(xué)問題[7]。近年來,維數(shù)降低技術(shù)對(duì)于數(shù)據(jù)的可視化起著越來越重要的作用。維度降低技術(shù)與視覺大數(shù)據(jù)之間的聯(lián)系將為對(duì)該領(lǐng)域感興趣的團(tuán)隊(duì)帶來巨大的機(jī)遇和挑戰(zhàn)[6]。從應(yīng)用的角度來看,“management”反映了數(shù)據(jù)科學(xué)在管理方面的應(yīng)用,數(shù)據(jù)科學(xué)能夠更好地幫助企業(yè)進(jìn)行供應(yīng)鏈的管理并且為企業(yè)相關(guān)決策提供支持[22]。通過圖5可以看到,這些關(guān)鍵詞與“data science”的關(guān)聯(lián)程度都比較高,反映了目前對(duì)于數(shù)據(jù)科學(xué)的研究熱點(diǎn)集中體現(xiàn)在數(shù)據(jù)科學(xué)的研究對(duì)象、研究方法和其相關(guān)的應(yīng)用方面。

表2 高頻關(guān)鍵詞

圖5 關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)

3.4 文獻(xiàn)共被引分析

CiteSpace軟件提供的文獻(xiàn)共被引分析可以用來幫助分析相關(guān)領(lǐng)域的知識(shí)基礎(chǔ)及研究前沿[19]。通過CiteSpace軟件中的“Cited Reference”節(jié)點(diǎn)類型,生成了共被引頻次在兩次及以上的文獻(xiàn)共被引網(wǎng)絡(luò),網(wǎng)絡(luò)中包含192個(gè)節(jié)點(diǎn)。對(duì)生成的共被引網(wǎng)絡(luò)進(jìn)行聚類,選擇K命名方式(從施引文獻(xiàn)中抽取indexing terms命名聚類),使用LLR算法對(duì)類標(biāo)簽進(jìn)行抽取,得到了共被引網(wǎng)絡(luò)的聚類圖,圖中共生成了74個(gè)聚類,圖6截取了其中的一部分。從圖6中可以看到“predictive analytics”“social data analysis”“principal component analysis”“financial market”“cloud”等是生成的一些較大聚類的標(biāo)簽詞。在這些聚類標(biāo)識(shí)的基礎(chǔ)上,總結(jié)數(shù)據(jù)科學(xué)領(lǐng)域的研究前沿主要是基于應(yīng)用和技術(shù)方法方面。應(yīng)用方面近年來主要表現(xiàn)在商業(yè)和政府的預(yù)測(cè)分析以及人文社科方面的社會(huì)數(shù)據(jù)分析上。在Bigdata:Thenextfrontierforinnovation,competition,andproductivity一書中,Manyika J等人主要對(duì)大數(shù)據(jù)在商業(yè)和經(jīng)濟(jì)上的價(jià)值進(jìn)行了研究,強(qiáng)調(diào)商業(yè)領(lǐng)袖和政策制定者必須要能夠捕捉到大數(shù)據(jù)帶來的價(jià)值[23],引發(fā)了政府、企業(yè)對(duì)大數(shù)據(jù)的關(guān)注,從而促進(jìn)了數(shù)據(jù)科學(xué)在預(yù)測(cè)分析方面的發(fā)展。預(yù)測(cè)分析正在影響許多不同的領(lǐng)域,從棒球和流行病學(xué)到預(yù)測(cè)和客戶關(guān)系管理。制造商、零售商、軟件公司和顧問正在創(chuàng)造性地發(fā)現(xiàn)使用預(yù)測(cè)分析在供應(yīng)鏈管理和物流中的大數(shù)據(jù)的新應(yīng)用[24]。預(yù)測(cè)分析能夠幫助決策者更好地預(yù)測(cè)未來的形勢(shì),從而制定出更有效的決策,這一點(diǎn)在政府部門和商業(yè)領(lǐng)域有著很大的應(yīng)用價(jià)值,尤其是在企業(yè)當(dāng)中,預(yù)測(cè)分析已經(jīng)逐漸成為了企業(yè)的核心競(jìng)爭(zhēng)力,這也是企業(yè)越來越關(guān)注數(shù)據(jù)科學(xué)的一個(gè)重要原因?!皊ocial data analysis”這一聚類標(biāo)簽詞則反映了近年來數(shù)據(jù)科學(xué)在人文社科方面的應(yīng)用。社會(huì)數(shù)據(jù)的分析在一定程度上能夠?yàn)槿宋纳缈频难芯刻峁┲С?。馬克思曾說過:一個(gè)學(xué)科理論的支撐必須建立在數(shù)學(xué)的基礎(chǔ)之上,但對(duì)于很多的人文社科問題卻沒有辦法從數(shù)學(xué)的角度進(jìn)行解釋和論證,隨著大量社會(huì)數(shù)據(jù)的產(chǎn)生,越來越多的人文社科問題能夠通過數(shù)據(jù)加以解釋[7]。Ouyang Yi等人在其最新的一篇論文中提出了SentiStory,它是一個(gè)多粒度情感分析和事件總結(jié)系統(tǒng),通過對(duì)微博數(shù)據(jù)庫(kù)的相關(guān)數(shù)據(jù)進(jìn)行處理和分析來研究社交媒體數(shù)據(jù),從而從中發(fā)現(xiàn)多維和豐富的信息[25]。而在技術(shù)方法方面,圖6中#5“cloud”聚類的MapReduce:SimpliedDataProcessingonLargeClusters一文中,Dean J等人對(duì)MapReduce進(jìn)行了詳細(xì)的介紹和說明,包括MapReduce的功能和原理等。MapReduce是一個(gè)編程模型,用于處理和生成大型數(shù)據(jù)集,極大地簡(jiǎn)化了大型集群的數(shù)據(jù)處理[26],推動(dòng)了數(shù)據(jù)處理工具的快速發(fā)展。云計(jì)算的主要特點(diǎn)之一就是強(qiáng)調(diào)計(jì)算資源和空間的使用彈性、較少的管理投入和靈活的

圖6文獻(xiàn)共被引網(wǎng)絡(luò)聚類圖

成本[27]。云端的出現(xiàn)為算法的實(shí)現(xiàn)提供了很好的平臺(tái),因此也推動(dòng)了更多的開發(fā)者在數(shù)據(jù)科學(xué)方法(算法)上的創(chuàng)新。這些聚類中的高頻次共被引文獻(xiàn)在一定程度上可以認(rèn)為是數(shù)據(jù)科學(xué)領(lǐng)域的知識(shí)基礎(chǔ),為數(shù)據(jù)科學(xué)的發(fā)展起到了一定的推動(dòng)作用。而這些聚類的標(biāo)簽詞則反映了目前數(shù)據(jù)科學(xué)方面的研究前沿。

4 數(shù)據(jù)科學(xué)研究面臨問題及未來發(fā)展趨勢(shì)

新的科學(xué)范式誕生于數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(DISD),也被稱為大數(shù)據(jù)問題。目前許多領(lǐng)域的科學(xué)研究都涉及到大數(shù)據(jù)問題。一方面,海量的數(shù)據(jù)中隱藏著非常多的有用價(jià)值,能夠?yàn)槠髽I(yè)生產(chǎn)力和科學(xué)進(jìn)步的突破做出重大貢獻(xiàn),目前大數(shù)據(jù)已經(jīng)引起了政府和企業(yè)的極大關(guān)注,未來的商業(yè)生產(chǎn)力和技術(shù)競(jìng)爭(zhēng)將會(huì)融入更多的大數(shù)據(jù)探索。另一方面,大數(shù)據(jù)也面臨著許多的挑戰(zhàn),隨著信息增長(zhǎng)的速度超過摩爾定律,過多的數(shù)據(jù)對(duì)人類造成巨大的困擾,在數(shù)據(jù)收集,數(shù)據(jù)存儲(chǔ),數(shù)據(jù)分析和數(shù)據(jù)可視化等方面仍存在著非常多的挑戰(zhàn)與困難[28]。筆者綜合對(duì)一些相關(guān)文獻(xiàn)的內(nèi)容分析,結(jié)合大數(shù)據(jù)的特征,從以下幾個(gè)方面總結(jié)了數(shù)據(jù)科學(xué)研究目前面臨的問題和挑戰(zhàn):

4.1 數(shù)據(jù)的初步處理

大數(shù)據(jù)的5V特征為數(shù)據(jù)科學(xué)的研究帶來了很大的挑戰(zhàn)。因此,越來越多的學(xué)者開始關(guān)注數(shù)據(jù)的處理方法,以便更好地利用數(shù)據(jù)。在數(shù)據(jù)處理方面,首先要面對(duì)的問題就是數(shù)據(jù)的整合、存儲(chǔ)和管理等數(shù)據(jù)的初步處理。

大數(shù)據(jù)涉及具有多個(gè)獨(dú)立來源的大量、復(fù)雜、不斷增長(zhǎng)的數(shù)據(jù)集[29],這就使得如何選擇最有價(jià)值的來源并有效融合信息成為了數(shù)據(jù)科學(xué)領(lǐng)域的核心問題。Xu WH等人在其最新發(fā)表的一篇論文中就對(duì)這個(gè)問題進(jìn)行了研究,他們首先提出內(nèi)部信任度和外部信任度來估計(jì)多源信息系統(tǒng)中每個(gè)信息源的可靠性,然后構(gòu)建源選擇原則,允許選擇值得和可靠的信息源。此外,通過將每個(gè)對(duì)象的原始信息轉(zhuǎn)換為三角形模糊信息顆粒來構(gòu)建新的信息融合方法,并且研究了該融合過程的一些不確定性度量[30]。整合完數(shù)據(jù)后就要對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和管理。V.Dhar認(rèn)為傳統(tǒng)數(shù)據(jù)庫(kù)的規(guī)模和功能已經(jīng)不能滿足海量數(shù)據(jù)的存儲(chǔ)和管理[31],于是一些新的數(shù)據(jù)管理系統(tǒng)如并行數(shù)據(jù)庫(kù)、網(wǎng)格數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)庫(kù)、云平臺(tái)、可擴(kuò)展數(shù)據(jù)庫(kù)等孕育而生,它們?yōu)榻鉀Q海量數(shù)據(jù)提供了多種選擇[32]。B.Allen等人則提出了服務(wù)型軟件(SaaS)能夠幫助解決大數(shù)據(jù)體量大這一特征帶來的數(shù)據(jù)量的問題,并且他們還介紹了所研發(fā)的一種叫 Globus Online的數(shù)據(jù)管理系統(tǒng)[5],簡(jiǎn)化了研究人員的數(shù)據(jù)傳送,簡(jiǎn)化了研究設(shè)施,其未來還將繼續(xù)擴(kuò)展該系統(tǒng)在數(shù)據(jù)共享方面的功能,促進(jìn)團(tuán)隊(duì)之間的協(xié)調(diào)工作,為大數(shù)據(jù)的管理帶來更大的方便[33]。另外,Mokhtar B等人提出了一種稱為NetMem的分布式網(wǎng)絡(luò)存儲(chǔ)管理系統(tǒng),能夠有效地存儲(chǔ)互聯(lián)網(wǎng)數(shù)據(jù),并在匹配和預(yù)測(cè)過程中提取和利用流量語義[34]。

4.2 數(shù)據(jù)的深度挖掘

大量異構(gòu)數(shù)據(jù),尤其是圖片、視頻、音頻等多樣化數(shù)據(jù)的出現(xiàn),使得人們開始更多地關(guān)注半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),希望能從中挖掘出更多高價(jià)值的信息,但這些數(shù)據(jù)同時(shí)也為數(shù)據(jù)的深度處理增加了難度。這方面的研究主要基于以下幾個(gè)方面:

(1)大數(shù)據(jù)語義理解與分析。大數(shù)據(jù)語義分析技術(shù)將為基于網(wǎng)絡(luò)大數(shù)據(jù)的理解提供關(guān)鍵支持, 是眾多大數(shù)據(jù)應(yīng)用的基礎(chǔ)[35]。這方面主要有兩個(gè)關(guān)鍵的任務(wù):一是大數(shù)據(jù)自然語言識(shí)別,二是非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)發(fā)現(xiàn)、集成技術(shù)。目前在大數(shù)據(jù)的自然語言識(shí)別方面已經(jīng)有了較為成熟的發(fā)展,例如目前百度地圖等在語音識(shí)別方面的技術(shù)已經(jīng)取得了非常好的應(yīng)用效果。而對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的知識(shí)發(fā)現(xiàn),則需要對(duì)圖像、音頻等這些非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行概念識(shí)別,進(jìn)而從中提取出相關(guān)的知識(shí)。近年來,隨著機(jī)器學(xué)習(xí)在數(shù)據(jù)科學(xué)的應(yīng)用,越來越多基于機(jī)器學(xué)習(xí)算法的數(shù)據(jù)處理方法得以實(shí)現(xiàn),為數(shù)據(jù)的處理帶來了很大的幫助。Mokhtar B等人提出了一種綜合LDA和HMM的語義推理的混合智能技術(shù),以提取基于語法和語義相關(guān)性學(xué)習(xí)模式和特征的網(wǎng)絡(luò)語義[34]。另外,很多成熟的理論或技術(shù)被用來構(gòu)建深度學(xué)習(xí)系統(tǒng)。使用深度網(wǎng)絡(luò)構(gòu)建的特征提取和分類算法在圖像識(shí)別和語音識(shí)別中都取得了非常好的成績(jī)。Dean等人采用深度網(wǎng)絡(luò)在大規(guī)模圖像識(shí)別任務(wù)中取得了突破性的進(jìn)展[35]。

(2)異構(gòu)數(shù)據(jù)的關(guān)聯(lián)與融合。隨著微信、微博的普及,大量圖片、視頻、音頻等多模數(shù)據(jù)迅速產(chǎn)生,這就使得實(shí)現(xiàn)異構(gòu)數(shù)據(jù)之間的關(guān)聯(lián)與融合成為了研究的熱點(diǎn)。近年來已經(jīng)能夠?qū)⑽谋?、圖像、視頻等放在一個(gè)框架下去進(jìn)行機(jī)器學(xué)習(xí)[7],但有效性問題仍沒有得到解決。目前在信息融合方面的研究主要是基于不同模式特征的統(tǒng)一表示、相似性度量以及異構(gòu)數(shù)據(jù)的語義關(guān)聯(lián)分析這幾個(gè)方面。在特征表示方面的關(guān)鍵問題是如何將不同形式的數(shù)據(jù)內(nèi)容通過其語義相關(guān)性進(jìn)行統(tǒng)一表示。目前比較常用的是基于子空間的映射技術(shù)。相似度計(jì)算方面主要有兩類:一類是基于圖模型的相似性度量方法;一類是基于學(xué)習(xí)的相似性度量方法。語義關(guān)聯(lián)分析這方面,Jia等人提出了一種隨機(jī)場(chǎng)模型,用來挖掘多媒體對(duì)象之間的關(guān)聯(lián)關(guān)系[35]。C.A.Mattmann則認(rèn)為數(shù)據(jù)處理中更重要的是要為數(shù)據(jù)深度處理和優(yōu)化發(fā)現(xiàn)開發(fā)分享工具,因此,在設(shè)計(jì)分享工具時(shí),需要發(fā)現(xiàn)將不同算法無縫集成到大數(shù)據(jù)架構(gòu)的方法、軟件開發(fā)和歸檔應(yīng)匯集在一個(gè)體系下、數(shù)據(jù)在不同格式之間的讀取可自動(dòng)實(shí)現(xiàn)[5]。

(3)大數(shù)據(jù)的計(jì)算。解決大數(shù)據(jù)問題是一項(xiàng)具有挑戰(zhàn)性和時(shí)間要求的任務(wù),需要大量的計(jì)算基礎(chǔ)設(shè)施來確保成功的數(shù)據(jù)處理和分析[36]。計(jì)算首先要有相應(yīng)的技術(shù)支撐,如相適應(yīng)的硬件技術(shù)、存儲(chǔ)技術(shù)等[7]。GPU的出現(xiàn)為數(shù)據(jù)的并行計(jì)算提供了硬件支持。而MapReduce框架則為大數(shù)據(jù)的處理提供了較好的平臺(tái),但它仍存在著一些問題,因此又有一些新的框架基于其基礎(chǔ)之上被設(shè)計(jì)出,Spark就是其中的一種,可以用來解決MapReduce所不擅長(zhǎng)的迭代計(jì)算和交互式分析。目前也出現(xiàn)了一些針對(duì)分布式處理海量數(shù)據(jù)的具體任務(wù)的計(jì)算框架,它們一般以Hadoop平臺(tái)為基礎(chǔ),提供了許多特定的操作或功能。例如,谷歌開發(fā)的Pregel,可以在通用分布式服務(wù)器上處理PB級(jí)別的圖像數(shù)據(jù),為海量圖數(shù)據(jù)的查詢與匹配提供了支持。研究顯示數(shù)據(jù)挖掘、圖遍歷、有限狀態(tài)機(jī)是并行化未來的熱門方向[35]。

4.3 數(shù)據(jù)的分析與利用

數(shù)據(jù)采集、存儲(chǔ)、管理與深度處理等最終目的是要挖掘出數(shù)據(jù)的價(jià)值,這也是數(shù)據(jù)科學(xué)興起與發(fā)展的根本[5]。筆者從以下幾個(gè)方面總結(jié)了如何對(duì)數(shù)據(jù)進(jìn)行更好地分析與利用:

(1)數(shù)據(jù)的多維分析與可視化呈現(xiàn)。數(shù)據(jù)科學(xué)的研究是為了對(duì)大數(shù)據(jù)進(jìn)行處理和分析,從而從海量異構(gòu)數(shù)據(jù)中獲取有價(jià)值的知識(shí),為決策服務(wù),而決策是多維的,這就需要相關(guān)的分析人員能夠從數(shù)據(jù)的不同維度出發(fā)對(duì)數(shù)據(jù)進(jìn)行分析,然后整合成能夠?yàn)闆Q策提供服務(wù)的信息。但其實(shí)每個(gè)人對(duì)于信息的理解程度和方向都是有所不同的,因此對(duì)于大數(shù)據(jù)問題來說,將全民的智慧集中起來,從不同方面對(duì)數(shù)據(jù)進(jìn)行理解和分析,將會(huì)給大數(shù)據(jù)的利用帶來更大的價(jià)值,而要做到這一點(diǎn),將大量數(shù)據(jù)以可視化方式呈現(xiàn)出來是必不可少的[7]。實(shí)際上“network”的表示就是大數(shù)據(jù)可視化的一種重要表現(xiàn),但對(duì)于許多數(shù)據(jù),靠簡(jiǎn)單的“network”并不能得到很好的體現(xiàn)。數(shù)據(jù)可視化的挑戰(zhàn)主要來自于數(shù)據(jù)的大尺寸和高維度。目前的可視化技術(shù)受到功能性差,可擴(kuò)展性和響應(yīng)時(shí)間差等缺陷的影響[34],我們可能需要重新考慮可視化的方式。此外,可視化的有效性可能受到數(shù)據(jù)源不確定性的挑戰(zhàn)。因此,這就需要更多的學(xué)者對(duì)于數(shù)據(jù)分析結(jié)果的可視化進(jìn)行更深入的研究。

(2)數(shù)據(jù)科學(xué)的應(yīng)用。目前的數(shù)據(jù)科學(xué)在互聯(lián)網(wǎng)、金融等領(lǐng)域有了很好的應(yīng)用效果,伴隨著越來越多領(lǐng)域?qū)Υ髷?shù)據(jù)的關(guān)注,未來數(shù)據(jù)科學(xué)將在更多的領(lǐng)域得到實(shí)踐應(yīng)用,比如將數(shù)據(jù)科學(xué)與物聯(lián)網(wǎng)、人工智能等的結(jié)合,將為人們的生活帶來更大的便捷,智慧城市的建設(shè)理念就是基于此提出來的。Dobre C.等人認(rèn)為智慧城市不僅需要依靠城市基礎(chǔ)設(shè)施中的傳感器,還需要依靠大量能夠自覺感知和整合數(shù)據(jù)的技術(shù)平臺(tái)。他們提出了一個(gè)用于大規(guī)模收集和匯總上下文信息的平臺(tái)——CAPIM,它集成了用于收集位置、用戶簡(jiǎn)檔和特征以及環(huán)境等的服務(wù),在此基礎(chǔ)上,提出了一個(gè)在CAPIM上設(shè)計(jì)的智能交通系統(tǒng)的具體實(shí)現(xiàn)。該應(yīng)用旨在幫助用戶和城市官員更好地了解大城市的交通問題[37]。另外,數(shù)據(jù)科學(xué)在醫(yī)藥領(lǐng)域和人文社科領(lǐng)域的應(yīng)用研究近年來也受到了廣泛的關(guān)注,臨床醫(yī)療相關(guān)的大數(shù)據(jù)和數(shù)據(jù)科學(xué)有可能能夠?yàn)榛颊咛峁└嗟牧私獠r的信息,以及定制針對(duì)患者特定情況的個(gè)性化策略服務(wù)[38]。而人文社科方面,則能夠?qū)ζ湎嚓P(guān)的一些社會(huì)問題的研究從數(shù)據(jù)的角度進(jìn)行解釋。最近對(duì)大型復(fù)雜網(wǎng)絡(luò)及其屬性的研究激增,社會(huì)網(wǎng)絡(luò)的計(jì)算分析已經(jīng)引起了相當(dāng)大的關(guān)注。越來越多的人工智能和數(shù)據(jù)挖掘研究人員認(rèn)為,一個(gè)大型組織(例如,一家公司)可以從其成員之間的非正式社交網(wǎng)絡(luò)的互動(dòng)中受益[39]。雖然數(shù)據(jù)科學(xué)的應(yīng)用能夠帶來這么多的好處,但在對(duì)數(shù)據(jù)科學(xué)進(jìn)行應(yīng)用時(shí)仍需要考慮到一些問題。近年來關(guān)于數(shù)據(jù)科學(xué)應(yīng)用的道德問題開始被一些學(xué)者所關(guān)注,Boyd D等人在CRITICAL QUESTIONS FOR BIG DATA一文中就對(duì)大數(shù)據(jù)崛起所帶來的一系列道德、文化等方面的問題進(jìn)行了討論,激發(fā)人們對(duì)數(shù)據(jù)科學(xué)應(yīng)用的思考[40]。de Montjoye等人則提出了一種動(dòng)態(tài)保護(hù)個(gè)人元數(shù)據(jù)的新方法——openPDS和SafeAnswers,在一定程度上能夠?yàn)閿?shù)據(jù)科學(xué)研究中的數(shù)據(jù)隱私問題提供解決方案[41]。

(3)數(shù)據(jù)科學(xué)人才的培養(yǎng)。數(shù)據(jù)的高價(jià)值分析與利用離不開數(shù)據(jù)科學(xué)人才的作用。數(shù)據(jù)、技術(shù)和人是數(shù)據(jù)科學(xué)的三大支柱。數(shù)據(jù)無處不在,技術(shù)是為了應(yīng)付越來越多的大數(shù)據(jù)問題而積極研發(fā)的,而人是遠(yuǎn)遠(yuǎn)落后于這兩個(gè)要素的[42]。公司已經(jīng)意識(shí)到他們需要聘請(qǐng)數(shù)據(jù)科學(xué)家,學(xué)術(shù)機(jī)構(gòu)正在爭(zhēng)相把數(shù)據(jù)科學(xué)計(jì)劃放在一起,出版物正在將數(shù)據(jù)科學(xué)家推向熱門甚至是“性感”的職業(yè)選擇[43]。雖然數(shù)據(jù)科學(xué)的興起使得數(shù)據(jù)科學(xué)家成為了近年來最熱門的職業(yè),但全球范圍內(nèi)數(shù)據(jù)科學(xué)人才卻是十分短缺的。麥肯錫全球研究所的一份報(bào)告顯示,到2018年,僅美國(guó)就面臨 14萬-19萬數(shù)據(jù)分析專業(yè)技術(shù)人才以及 150萬數(shù)據(jù)分析管理人才缺口[44]。一方面,數(shù)據(jù)科學(xué)人才本身的稀缺性造成了全球范圍內(nèi)數(shù)據(jù)科學(xué)人才的短缺;另一方面,高校對(duì)于數(shù)據(jù)科學(xué)人才的培養(yǎng)與市場(chǎng)對(duì)于數(shù)據(jù)科學(xué)人才的需求存在很大的差距[2],使得真正能適應(yīng)市場(chǎng)需求的數(shù)據(jù)科學(xué)人才十分短缺。不過值得欣慰的是,目前許多高校已經(jīng)開始關(guān)注數(shù)據(jù)科學(xué)人才的培養(yǎng)問題,并且也已經(jīng)陸續(xù)開展了大批數(shù)據(jù)科學(xué)人才培養(yǎng)的計(jì)劃和項(xiàng)目。

5 結(jié)語

通過國(guó)外數(shù)據(jù)科學(xué)相關(guān)文獻(xiàn)的知識(shí)圖譜研究分析,發(fā)現(xiàn)目前國(guó)外在數(shù)據(jù)科學(xué)方面的研究還處在初步發(fā)展階段,尚未形成領(lǐng)域內(nèi)的核心研究團(tuán)隊(duì),并且其在理論、方法、應(yīng)用等方面還有待更進(jìn)一步的完善。但隨著越來越多領(lǐng)域的學(xué)者針對(duì)各自所在領(lǐng)域的現(xiàn)實(shí)問題提出更多的數(shù)據(jù)科學(xué)需求,并展開相關(guān)的研究,可以預(yù)測(cè)未來數(shù)據(jù)科學(xué)將得到更大的發(fā)展,主要體現(xiàn)在對(duì)于數(shù)據(jù)的深度挖掘、可視化呈現(xiàn)及其應(yīng)用方面。伴隨著機(jī)器學(xué)習(xí)算法的實(shí)現(xiàn),目前在數(shù)據(jù)挖掘方面已經(jīng)有了很大的突破,未來將得到更成熟的發(fā)展。而在可視化方面,目前網(wǎng)絡(luò)是最常用的一種方式,但網(wǎng)絡(luò)對(duì)于關(guān)系的呈現(xiàn)仍然存在一定的缺陷,因此,未來在可視化方面的研究還有很大的發(fā)展空間。最后,在數(shù)據(jù)科學(xué)的應(yīng)用方面,將在更多的領(lǐng)域擴(kuò)展,結(jié)合不同領(lǐng)域數(shù)據(jù)的特征,挖掘出針對(duì)特定領(lǐng)域問題的解決方案。目前國(guó)內(nèi)對(duì)于數(shù)據(jù)科學(xué)的關(guān)注度也越來越高,一方面越來越多的學(xué)者開始關(guān)注數(shù)據(jù)科學(xué)的理論和方法研究,另一方面越來越多的學(xué)者也開始關(guān)注數(shù)據(jù)科學(xué)人才的培養(yǎng)問題,并且一些高校也已經(jīng)開始設(shè)置相關(guān)的專業(yè)、開設(shè)相關(guān)的課程,這對(duì)于我國(guó)的數(shù)據(jù)科學(xué)發(fā)展將有很大的推動(dòng)作用。本文希望通過對(duì)國(guó)外的發(fā)展現(xiàn)狀進(jìn)行分析總結(jié),為我國(guó)的數(shù)據(jù)科學(xué)發(fā)展提供參考借鑒,從而幫助更多的學(xué)者展開對(duì)國(guó)內(nèi)數(shù)據(jù)科學(xué)的研究,以解決國(guó)內(nèi)所面臨的一些現(xiàn)實(shí)問題。

[1] 周傲英,錢衛(wèi)寧,王長(zhǎng)波.數(shù)據(jù)科學(xué)與工程:大數(shù)據(jù)時(shí)代的新興交叉學(xué)科[J].大數(shù)據(jù),2015,(2):90-99.

[2] 陳振沖,賀田田.數(shù)據(jù)科學(xué)人才的需求與培養(yǎng)[J].大數(shù)據(jù),2016,2(5):95-106.

[3] Data science[EB/OL].[2017-02-25].https://en.wikipedia.org/wiki/Data_Science.

[4] 劉磊.從數(shù)據(jù)科學(xué)到第四范式:大數(shù)據(jù)研究的科學(xué)淵源[J].廣告大觀:理論版,2016,(2):44-52.

[5] 王曰芬,謝清楠,宋小康,等.國(guó)外數(shù)據(jù)科學(xué)研究的回顧與展望[J].圖書情報(bào)工作,2016,60(14):5-14.

[6] Snasel V,Nowakova J,Xhafa F,et al.Geometrical and topological approaches to Big Data[J].Future Generation Computer Systems,2017,67(2):286-296.

[7] 徐宗本,張維,劉雷,等.“數(shù)據(jù)科學(xué)與大數(shù)據(jù)的科學(xué)原理及發(fā)展前景”——香山科學(xué)會(huì)議第462次學(xué)術(shù)討論會(huì)專家發(fā)言摘登[J].科技促進(jìn)發(fā)展,2014,10(1):66-75.

[8] Kalidindi S R.Data science and cyberinfrastructure: critical enablers for accelerated development of hierarchical materials[J].INTERNATIONAL MATERIALS REVIEWS,2015,60(3):150-168.

[9] Kalidindi S R,Medford A J,Mcdowell DL.Vision for Data and Informatics in the Future Materials Innovation Ecosystem[J].JOM,2016,68(8):2126-2137.

[10] Kalidindi S R,Brough D B,Li SY.Role of materials data science and informatics in accelerated materials innovation[J].MRS BULLETIN,2016,41(8):596-602.

[11] Kalidindi S R,De Graef M. Materials Data Science: Current Status and Future Outlook[J].ANNUAL REVIEW OF MATERIALS RESEARCH,2015,45(2):171-193.

[12] Leung C K,Jiang F,Zhang H,et al.A Data Science Model for Big Data Analytics of Frequent Patterns[C]//2016 IEEE 14TH INTL CONF ON DEPENDABLE, AUTONOMIC AND SECURE COMPUTING, 14TH INTL CONF ON PERVASIVE INTELLIGENCE AND COMPUTING, 2ND INTL CONF ON BIG DATA INTELLIGENCE AND COMPUTING AND CYBER SCIENCE AND TECHNOLOGY CONGRESS(DASC/PICOM/DATACOM/CYBERSC),NEW ZEALAND:Auckland,2016:866-873.

[13] Vatrapu R,Mukkamala RR,Hussain A,et al.Social Set Analysis: A Set Theoretical Approach to Big Data Analytics[J].IEEE ACCESS,2016,(4): 2542-2571.

[14] Kanter J M,Veeramachaneni K.Deep Feature Synthesis: Towards Automating Data Science Endeavors[C]//PROCEEDINGS OF THE 2015 IEEE INTERNATIONAL CONFERENCE ON DATA SCIENCE AND ADVANCED ANALYTICS (IEEE DSAA 2015),FRANCE:PARIS,2015:717-726.

[15] 恒亮.數(shù)據(jù)整理太繁瑣?MIT發(fā)布能化零為整的分析系統(tǒng)[EB/OL].[2017-03-08]. http://www.leiphone.com/news/201701/H7Kntnaqe2nbDe0M.html.

[16] Larry.Hardesty.Taming data[EB/OL].[2017-03-08]. http://news.mit.edu/2017/system-finds-links-related-data-digital-files-quer ying-filtering-0119.

[17] Chipman H A,Joseph V R.A Conversation with Jeff Wu[J].STATISTICAL SCIENCE,2016,31(4):624-636.

[18] 趙柯然.數(shù)據(jù)科學(xué)50年(上)[J].情報(bào)理論與實(shí)踐,2017,(1):145.

[19] 李杰,陳超美.CiteSpace科技文本挖掘及可視化[M]. 北京:首都經(jīng)濟(jì)貿(mào)易大學(xué)出版社,2016.

[20] Jordan MI, Mitchell TM.Machine learning: trends, perspectives,and prospects[J]. Science,2015,(2):255-260.

[21] Alonso-Betanzos A,Gamez JA,Herrera F,et al.Volume, variety and velocity in Data Science[J].KNOWLEDGE-BASED SYSTEMS,2017,117(1):1-2.

[22] Hazen B T,Boone C A, Ezell JD,et al.Data quality for data science, predictive analytics, and big data in supply chain management: An introduction to the problem and suggestions for research and applications[J].INTERNATIONAL JOURNAL OF PRODUCTION ECONOMICS,2014,154(2):72-80.

[23] Manyika J,Chui M,Brown B,et al.Big data: the next frontier for innovation, competition,and productivity[EB/OL].[2017-03-08].http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_for_innovation.

[24] Waller M A,Fawcett S E.Click Here for a Data Scientist: Big Data, Predictive Analytics, and Theory Development in the Era of a Maker Movement Supply Chain[J].JOURNAL OF BUSINESS LOGISTICS,2013,34(4):249-252.

[25] Ouyang Yi,Guo Bin, Zhang Jiafan,et al.SentiStory: multi-grained sentiment analysis and event summarization with crowdsourced social media data[J].PERSONAL AND UBIQUITOUS COMPUTING,2017,21(01):97-111.

[26] Dean J,Ghemawat S.MapReduce: Simplied Data Processing on Large Clusters[J]. Communications of the ACM,2009,48(04):107-113.

[27] Fernandez A,del Rio S,Lopez V,et al.Fernandez AlbertoBig Data with Cloud Computing:an insight on the computing environment, MapReduce, and programming frameworks[J].WILEY INTERDISCIPLINARY REVIEWS-DATA MINING AND KNOWLEDGE DISCOVERY,2014,4(5):380-409.

[28] Chen CLP,Zhang CY.Data-intensive applications, challenges, techniques and technologies: A survey on Big Data[J].INFORMATION SCIENCES,2014,(3):314-347.

[29] Wu Xin-dong,Zhu Xing-quan,Wu Gong-Qing.Mining with Big Data[J].IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING,2014,26(1):97-107.

[30] Xu W H,Yu J H.A novel approach to information fusion in multi-source datasets: A granular computing viewpoint[J].INFORMATION SCIENCES,2017,(3):410-423.

[31] Dhar V. Data Science and Prediction[J].COMMUNICATIONS OF THE ACM,2013,56(12):64-73.

[32] 陸嘉恒.大數(shù)據(jù)挑戰(zhàn)與NoSQL數(shù)據(jù)庫(kù)技術(shù)[EB/OL].[2017-03-16]. http://book.51cto.com/art/201303/386849.htm.

[33] ALLEN B,BRESNAHAN J,CHILDERS L,et al.Software as a service for data scientists[J].Communications of the ACM,2012,55(2):81-88.

[34] Mokhtar B,Eltoweissy M.Big data and semantics management system for computer networks[J].AD HOC NETWORKS,2017,57(SI):32-51.

[35] 唐杰,陳文光.面向大社交數(shù)據(jù)的深度分析與挖掘[J].科學(xué)通報(bào),2015,60(5-6):509-519.

[36] Hashem I A T,Yaqoob I,Anuar NB,et al.The rise of “big data”on cloud computing: Review and open research issues[J].INFORMATION SYSTEMS,2015,47(2):98-115.

[37] Dobre C,Xhafa F.Intelligent services for Big Data science[J].FUTURE GENERATION COMPUTER SYSTEMS-THE INTERNATIONAL JOURNAL OF GRID COMPUTING AND ESCIENCE,2014,37(3):267-281.

[38] Brennan P F,Bakken S.Nursing Needs Big Data and Big Data Needs Nursing[J].JOURNAL OF NURSING SCHOLARSHIP,2015,47(05):477-484.

[39] Liben-Nowell D,Kleinberg J.The link prediction problem for social networks[J].Journal of the Association for Information Science and Technology,2007,58(07):1019-1031.

[40] boyd D,Crawford K.Critical questions for Big Data[J].Information, Communication & Society,2012,15(5):662-679.

[41] de Montjoye Y A, Shmueli E, Wang S S,et al.openPDS: Protecting the Privacy of Metadata through SafeAnswers[J].PLOS ONE,2014,9(7): e98790.

[42] 王迪,王東雨.美國(guó)數(shù)據(jù)科學(xué)課程設(shè)置對(duì)信息素養(yǎng)的影響研究[J].商,2016,(14):200.

[43] PROVOST F,FAWCETT T.Data science and its relationship to big data and data-driven decision making[J].Big data,2013,1(1):51-59.

[44] Davenport T H,Patil DJ.Data Scientist: The Sexiest Job of the 21st Century[J].HARVARD BUSINESS REVIEW,2012,90(1):70-76,128.

[45] Chen C. CiteSpaceⅡ: Detecting and visualizing emerging trends and transient patterns in scientific literature[J]. Journal of the AmericanSociety for Information Science and Technology, 2006, 57(3): 359-377.

猜你喜歡
可視化領(lǐng)域科學(xué)
基于CiteSpace的足三里穴研究可視化分析
基于Power BI的油田注水運(yùn)行動(dòng)態(tài)分析與可視化展示
云南化工(2021年8期)2021-12-21 06:37:54
基于CGAL和OpenGL的海底地形三維可視化
領(lǐng)域·對(duì)峙
青年生活(2019年23期)2019-09-10 12:55:43
“融評(píng)”:黨媒評(píng)論的可視化創(chuàng)新
科學(xué)大爆炸
科學(xué)
科學(xué)拔牙
新常態(tài)下推動(dòng)多層次多領(lǐng)域依法治理初探
肯定與質(zhì)疑:“慕課”在基礎(chǔ)教育領(lǐng)域的應(yīng)用
峨眉山市| 南昌市| 巩义市| 贡觉县| 昌都县| 定安县| 靖江市| 施甸县| 平潭县| 若尔盖县| 黎川县| 调兵山市| 珲春市| 云梦县| 西贡区| 祁阳县| 观塘区| 通道| 酉阳| 松潘县| 凤庆县| 通海县| 民乐县| 温宿县| 商洛市| 临清市| 安丘市| 安远县| 孙吴县| 九龙城区| 海晏县| 扎囊县| 宜章县| 平邑县| 措美县| 白城市| 中山市| 兰西县| 辽源市| 兴城市| 台州市|