国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中國(guó)科學(xué)院院士、北京航空航天大學(xué)校長(zhǎng)懷進(jìn)鵬:關(guān)于新型計(jì)算模式的研究與思考

2015-08-22 08:51
中國(guó)教育網(wǎng)絡(luò) 2015年1期
關(guān)鍵詞:時(shí)代算法研究

中國(guó)全功能接入互聯(lián)網(wǎng)已有20年的歷史,互聯(lián)網(wǎng)在為人們提供便利的同時(shí),也給教育科技的發(fā)展帶來了巨大的益處,并步入了以云計(jì)算和大數(shù)據(jù)為特征的科研信息化時(shí)代。面對(duì)龐大的數(shù)據(jù)信息,如何進(jìn)行數(shù)據(jù)處理,如何進(jìn)行計(jì)算成為大眾關(guān)注的熱點(diǎn)問題。對(duì)此,中國(guó)科學(xué)院院士、北京航空航天大學(xué)校長(zhǎng)懷進(jìn)鵬在近日舉辦的“CERNET第二十一屆學(xué)術(shù)年會(huì)”上發(fā)表的主題演講里做了詳細(xì)分析,并就互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代下新型計(jì)算模式進(jìn)行了探討。

大數(shù)據(jù)出現(xiàn)以前人們只關(guān)心算法,現(xiàn)在則會(huì)有新的挑戰(zhàn)性的問題:原來可近似性的問題,在大數(shù)據(jù)面前就不能近似了。這就需要不僅要考慮到算法近似,還要考慮數(shù)據(jù)近似以及結(jié)果的近似。

互聯(lián)網(wǎng)的轉(zhuǎn)型

根據(jù)吉爾德定律,主干網(wǎng)帶寬每六個(gè)月加一倍,而每比特的費(fèi)用將趨于零。20年來,IT技術(shù)不斷發(fā)展,計(jì)算速度和存儲(chǔ)能量也產(chǎn)生了巨大變化,CPU性能提高了3500倍,但內(nèi)存和硬盤的價(jià)格卻分別下降了45000倍和360萬倍,在此背景下,提供了一個(gè)完全與眾不同并且不斷加速的空間,即寬帶的速度遠(yuǎn)超過摩爾速度時(shí),所有終端計(jì)算都進(jìn)入網(wǎng)絡(luò)計(jì)算,離線進(jìn)入了在線時(shí)代。

互聯(lián)網(wǎng)為人們提供更多更好的服務(wù),隨著互聯(lián)網(wǎng)不斷發(fā)展,特別是在進(jìn)入移動(dòng)互聯(lián)網(wǎng)時(shí)代后,計(jì)算模式和技術(shù)都有了新的變化。如何建立一個(gè)更加開放的環(huán)境,從而使研究和教育更加有效日漸引起人們的關(guān)注。

最近幾年,“大數(shù)據(jù)”頻頻被提及,人們對(duì)其的關(guān)注度也越來越高。數(shù)據(jù)處理一直是計(jì)算機(jī)技術(shù)、信息技術(shù)的一個(gè)重要內(nèi)容。進(jìn)入虛擬計(jì)算這樣一個(gè)新的環(huán)境的時(shí)候,實(shí)際上已經(jīng)表現(xiàn)出向終端到網(wǎng)絡(luò)化、應(yīng)用的智能化和系統(tǒng)管理的虛擬化的發(fā)展。同時(shí),也帶來了不同時(shí)期的變革。

第一次變革來自于PC時(shí)代,按許可證購(gòu)買版權(quán),軟件成為商品。第二次變革就是在互聯(lián)網(wǎng)時(shí)代下,基于互聯(lián)網(wǎng)的信息服務(wù)業(yè)?;ヂ?lián)網(wǎng)給我們帶來了巨大的影響,促進(jìn)了產(chǎn)業(yè)和學(xué)術(shù)的發(fā)展,這兩次重要的變革都對(duì)實(shí)際的應(yīng)用產(chǎn)生了重要的影響,比如CERNET就在發(fā)展推動(dòng)研究和教育中有著不可或缺的巨大歷史貢獻(xiàn)。而第三次變革則不得不思考,云計(jì)算與大數(shù)據(jù)時(shí)代產(chǎn)生的新機(jī)遇。如今進(jìn)入了用戶產(chǎn)生內(nèi)容、移動(dòng)互聯(lián)的新時(shí)代,將有可能出現(xiàn)一種新的機(jī)會(huì)和新的情況。隨著移動(dòng)終端數(shù)量的不斷增長(zhǎng),這些終端所產(chǎn)生的數(shù)據(jù)和內(nèi)容,以及為這樣的內(nèi)容所提供的服務(wù)會(huì)產(chǎn)生一個(gè)新的變化。這種變化不是商業(yè)模式的改變,而是其背后的數(shù)據(jù)分析時(shí)代的到來。未來互聯(lián)網(wǎng)將創(chuàng)造出新的價(jià)值,是否以數(shù)據(jù)與服務(wù)為中心值得期待。如何有效地提供并支撐好數(shù)據(jù)庫,并將其融入到教育事業(yè)中去,也是值得去思考的。

大數(shù)據(jù)帶來新計(jì)算時(shí)代

大數(shù)據(jù)的出現(xiàn),帶來了一定的好處,但也產(chǎn)生了一些問題。2010年,《經(jīng)濟(jì)學(xué)人》雜志做了一個(gè)關(guān)于“Data Deluge(數(shù)據(jù)泛濫)”的專題,指出信息從稀缺走向極大豐富,在帶來便利的同時(shí)也導(dǎo)致大麻煩。例如,銀行的評(píng)估機(jī)構(gòu)擁有大量的數(shù)據(jù),但依然無法預(yù)測(cè)出2008的金融危機(jī)。因此,當(dāng)數(shù)據(jù)泛濫、無處不在時(shí),如何去認(rèn)識(shí)并利用數(shù)據(jù)是需要多加關(guān)注的。當(dāng)然,大數(shù)據(jù)也確實(shí)給人們帶來了很多機(jī)遇,并成功應(yīng)用于傳統(tǒng)醫(yī)學(xué)研究、生物信息、高能物理等領(lǐng)域。

由于大數(shù)據(jù)的產(chǎn)生,谷歌在2008年通過龐大搜索數(shù)據(jù)訓(xùn)練4.5億個(gè)數(shù)學(xué)模型,提前幾周預(yù)測(cè)出H1N1流感在美國(guó)地區(qū)的爆發(fā)和傳播,其準(zhǔn)確的地域覆蓋人群和基本特征都非常明確,這也使得醫(yī)學(xué)專家,特別是醫(yī)療疾控領(lǐng)域?qū)<覍?duì)此刮目相看。另外如阿里巴巴、百度也有很多利用大數(shù)據(jù)分析的有效結(jié)果。因此,隨著互聯(lián)網(wǎng)不斷變化,它已經(jīng)從一個(gè)通訊的平臺(tái)進(jìn)入到計(jì)算的平臺(tái),而這種計(jì)算的平臺(tái)改變了人們現(xiàn)在經(jīng)濟(jì)社會(huì)的生活。

眾所周知,量變是容易把握和認(rèn)識(shí)的,而質(zhì)變則是很難發(fā)現(xiàn)的。對(duì)于未來發(fā)展,大數(shù)據(jù)是不是有科學(xué)價(jià)值,則需要像“盲人摸象”一般,不斷地去探索。通常,科學(xué)研究有三個(gè)模式,分別是理論研究、實(shí)驗(yàn)研究和計(jì)算研究,那么針對(duì)第四種模式——數(shù)據(jù)密集型的科學(xué)發(fā)展正在被人們所認(rèn)識(shí)和利用,一些基于實(shí)驗(yàn)科學(xué)所開展的工作有相當(dāng)一部分源于這種模式。

大數(shù)據(jù)是否會(huì)改變過去的計(jì)算模式?顯而易見,互聯(lián)網(wǎng)的出現(xiàn)改變了人們的交流方式,而大數(shù)據(jù)處理則改變了經(jīng)濟(jì)和社會(huì)方式。

第一,從抽樣向全樣轉(zhuǎn)變。大數(shù)據(jù)具有 4V(volume、velocity、variety、value)特征,即規(guī)模大、變化快、種類雜、價(jià)值密度低。在過去的計(jì)算的模式下,以抽樣、統(tǒng)計(jì)數(shù)學(xué)為主要特征。而在數(shù)據(jù)規(guī)模十倍、一百倍、一千倍變化的時(shí)候,過去的算法并不適用,這就需要全樣的分析。

第二,從精確計(jì)算向非精確計(jì)算轉(zhuǎn)變。過去追求的精確計(jì)算,期望得到準(zhǔn)確的解答。大數(shù)據(jù)下精確性不再是絕對(duì)追求目標(biāo),需對(duì)宏觀趨勢(shì)給出快速預(yù)測(cè),上網(wǎng)的搜索未必得出唯一的內(nèi)容。

第三,從因果向關(guān)聯(lián)轉(zhuǎn)變。過去做科學(xué)研究,不僅要知其然,還要知其所以然。但在大數(shù)據(jù)面前,僅需知其然,無需知其所以然,用于“發(fā)現(xiàn)事實(shí)、預(yù)測(cè)未來” 。

同時(shí),大數(shù)據(jù)的計(jì)算具有相似性(inexact)、增量性(incremental)和歸納性(inductive)的特征,因此,要以這三個(gè)特征為基礎(chǔ)去研究它的算法和復(fù)雜性。研究在如此廣泛的數(shù)據(jù)下,是否會(huì)出現(xiàn)新的計(jì)算模式。

隨著互聯(lián)網(wǎng)的進(jìn)一步應(yīng)用,有可能出現(xiàn)以數(shù)據(jù)科學(xué)和理論為代表的新型計(jì)算模式。數(shù)據(jù)計(jì)算科學(xué)對(duì)計(jì)算理論、數(shù)據(jù)表示和學(xué)習(xí)方法提出新的挑戰(zhàn),這也許是數(shù)據(jù)科學(xué)和技術(shù)的轉(zhuǎn)型。

大數(shù)據(jù)科學(xué)的問題

實(shí)際上,可計(jì)算問題是計(jì)算機(jī)科學(xué)的本質(zhì)問題,而算法是一切計(jì)算問題的核心。公式G=F(X)中,F(xiàn)是算法,那么過去關(guān)于“F”做了哪些工作?70年代以前一直做算法研究,到了70年代發(fā)現(xiàn)有NP問題,而80年代出現(xiàn)了隨機(jī)化算法,90年代發(fā)現(xiàn)近似算法。目前,在大數(shù)據(jù)時(shí)代,計(jì)算復(fù)雜性與算法是否面臨新的問題?

在大數(shù)據(jù)下,傳統(tǒng)認(rèn)為易解問題可能成為“難解”問題。因?yàn)橥ǔUf大數(shù)據(jù)是指算不了的數(shù)據(jù),如采用最快硬盤讀取速度6Gbps,僅線性掃描,1PB數(shù)據(jù)掃描下來需1.9天;1EB數(shù)據(jù)則需5.28年;但是,百度一天處理網(wǎng)頁數(shù)據(jù)超過10PB,把這些數(shù)據(jù)掃描下來則需要19天,所以大數(shù)據(jù)是目前處理不了的數(shù)據(jù)。

大數(shù)據(jù)出現(xiàn)以前人們只關(guān)心算法,現(xiàn)在則會(huì)有新的挑戰(zhàn)性的問題:原來可近似性的問題,在大數(shù)據(jù)面前就不能近似了。這就需要不僅要考慮到算法近似,還要考慮數(shù)據(jù)近似以及結(jié)果的近似。

在大數(shù)據(jù)下的計(jì)算,太小的數(shù)據(jù)無法計(jì)算,數(shù)據(jù)太多則精度不夠。因此需要有新的計(jì)算模型,通過信息計(jì)算的方法,把數(shù)據(jù)以存儲(chǔ)感知為基礎(chǔ),再加上計(jì)算聯(lián)動(dòng)的方式。未來,在這一領(lǐng)域?qū)⒂泻芏嘈碌慕Y(jié)果,如何把多個(gè)資源融合和擴(kuò)大提供服務(wù),也引起學(xué)術(shù)界重視,圖數(shù)據(jù)搜索正在成為新型“社會(huì)搜索”引擎。

此外,通過分析20萬的新浪用戶的7000萬條的微博數(shù)據(jù),發(fā)現(xiàn)憤怒是相關(guān)性最強(qiáng)的情緒,其次是高興、低落和厭惡,這也驗(yàn)證了中國(guó)的一句俗語:“好事不出門,壞事傳千里”。這一發(fā)現(xiàn)結(jié)果也被90多個(gè)國(guó)家的數(shù)百家媒體報(bào)道。

當(dāng)然,在未來的互聯(lián)網(wǎng)這個(gè)大數(shù)據(jù)應(yīng)用當(dāng)中,依然會(huì)面臨的一個(gè)問題就是數(shù)據(jù)安全和系統(tǒng)安全,這是大數(shù)據(jù)研究中非常重要的。數(shù)據(jù)需要開放和透明,某個(gè)人的基本信息是可以開放的,但是作為隱私的數(shù)據(jù)是可以單獨(dú)保留的。

從數(shù)據(jù)科學(xué)到機(jī)器智能

在研究過程中,希望通過無序的數(shù)據(jù)能夠找到它信息的關(guān)聯(lián)圖譜,通過信息圖譜的深度融合和發(fā)掘,能建立起知識(shí)圖譜而不是孤立的事件。通過關(guān)聯(lián)融合形成的知識(shí)圖譜,能對(duì)某一類的問題或現(xiàn)象有一個(gè)判斷和認(rèn)知。例如,在UGC下,是否有可能通過用戶產(chǎn)生的數(shù)據(jù)做出預(yù)測(cè)分析,通過數(shù)據(jù)計(jì)算給人工智能和認(rèn)知科學(xué)帶來一個(gè)新的思考。

目前,主要還是以數(shù)據(jù)科學(xué)研究計(jì)算,通過它來進(jìn)一步延伸進(jìn)行遷移學(xué)習(xí)、自主學(xué)習(xí)等。其目的是形成知識(shí)的關(guān)聯(lián)和構(gòu)造出的復(fù)雜結(jié)構(gòu),能夠?yàn)樯鐣?huì)科學(xué)、傳媒學(xué)、社會(huì)經(jīng)濟(jì)以及互聯(lián)網(wǎng)發(fā)展提供數(shù)據(jù)的支持。

一位管理大師曾說過:“重要的不是趨勢(shì),而是把握趨勢(shì)的轉(zhuǎn)變”。盡管有很多難度,但是對(duì)數(shù)據(jù)的認(rèn)識(shí)還是可以不斷進(jìn)化的。如果可以來利用這樣的樣本規(guī)模,通過不同方式的學(xué)習(xí),使機(jī)器真的開始有學(xué)習(xí)記憶、認(rèn)知,并且能夠具有自主性。那么,看似無序的數(shù)據(jù)分析,卻可能通過認(rèn)識(shí)數(shù)據(jù)的外部功能和構(gòu)造,來形成新的智能研究的方法,這也是一件可以探索的事情。

猜你喜歡
時(shí)代算法研究
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
Travellng thg World Full—time for Rree
EMA伺服控制系統(tǒng)研究
進(jìn)位加法的兩種算法
e時(shí)代
e時(shí)代
e時(shí)代
一種改進(jìn)的整周模糊度去相關(guān)算法