大約在十年前,大數(shù)據(jù)剛剛提出來(lái),那時(shí)候BAT、谷歌、Twitter這樣的大型互聯(lián)網(wǎng)企業(yè),都有一個(gè)很實(shí)際的需求,就是他的用戶數(shù)超過(guò)了1億,數(shù)據(jù)量也非常龐大,那時(shí)候就提出了大數(shù)據(jù)。十年過(guò)去了,大數(shù)據(jù)推廣到現(xiàn)在,已經(jīng)深入到各個(gè)領(lǐng)域。我們的思路就要過(guò)渡到現(xiàn)在解決實(shí)際應(yīng)用的問(wèn)題,也就是數(shù)據(jù)多變化、價(jià)值密度低、數(shù)據(jù)的準(zhǔn)確率低等問(wèn)題,需要在實(shí)際應(yīng)用當(dāng)中提升數(shù)據(jù)的準(zhǔn)確率,才能更好地服務(wù)社會(huì)大眾。
我們神舟軟件是中國(guó)連續(xù)多年的百?gòu)?qiáng)企業(yè),強(qiáng)項(xiàng)就是做產(chǎn)品:第一個(gè)強(qiáng)項(xiàng)就是做工業(yè)大數(shù)據(jù)所需要的工業(yè)信息化產(chǎn)品,從CAD畫(huà)圖到三維造型,再到數(shù)字加工的一整套體系,形成了一整套的產(chǎn)品鏈。第二個(gè)強(qiáng)項(xiàng)就是做數(shù)據(jù)庫(kù)處理。神舟軟件是以做自主產(chǎn)品為基礎(chǔ)和核心的企業(yè)。這些年,我們從數(shù)據(jù)處理方面接觸到政務(wù)應(yīng)用。我們可以看到,政務(wù)已經(jīng)提到云上來(lái)了,很多的數(shù)據(jù)分析處理能力欠缺,相比支線分析,關(guān)聯(lián)分析可能做得相對(duì)少一些,比如要畫(huà)一個(gè)人物的畫(huà)像,除了看他的社保數(shù)據(jù),我們還要看他的交通數(shù)據(jù)、金融數(shù)據(jù)等,這樣才能畫(huà)出整個(gè)人物畫(huà)像。
現(xiàn)在大數(shù)據(jù)應(yīng)用最多的還是垂直行業(yè),這些年我們也做過(guò)垂直行業(yè),也有融合分析,這是我們發(fā)展的重點(diǎn)。另外,現(xiàn)在專業(yè)領(lǐng)域的大數(shù)據(jù)跟移動(dòng)互聯(lián)網(wǎng)結(jié)合得比較多,大部分基于移動(dòng)端提供服務(wù)。大數(shù)據(jù)如果達(dá)到TB級(jí)以上,就需要分布式的技術(shù),也就是大數(shù)據(jù)的組合技術(shù)。另外云的管理、數(shù)據(jù)挖掘分析能力、大數(shù)據(jù)的人才、大數(shù)據(jù)的產(chǎn)品都要跟得上。
從產(chǎn)品現(xiàn)狀來(lái)看,首先我們?cè)诓杉矫媸潜容^齊全的,采集之后還做分析、檢索等,這樣分析就更具體了。因?yàn)槲覀兪亲鐾ㄓ卯a(chǎn)品,會(huì)接觸更多的領(lǐng)域,包括我們做航天發(fā)射的時(shí)候,計(jì)算發(fā)射的整個(gè)軌跡時(shí),要實(shí)時(shí)地畫(huà)出來(lái);做工業(yè)信息化的時(shí)候需要智能地生產(chǎn)。這都是實(shí)時(shí)性比較高的產(chǎn)品。
我們產(chǎn)品都很有特色。在計(jì)算資源,即存儲(chǔ)網(wǎng)絡(luò)和IP網(wǎng)絡(luò)上,我們的特色在于應(yīng)用虛擬化;在做數(shù)據(jù)治理上,我們是從分析需求角度分析數(shù)據(jù),在梳理完數(shù)據(jù)以后,要衡量用哪些手段和工具去分析和處理數(shù)據(jù),再建模型、做方法庫(kù),這些是數(shù)據(jù)治理的要素,我們圍繞著這幾個(gè)要素去構(gòu)建產(chǎn)品線。我們?cè)跇?gòu)建數(shù)據(jù)處理平臺(tái)各個(gè)層次的產(chǎn)品線時(shí),這些產(chǎn)品需要裝在云服務(wù)端,在我們的虛擬化平臺(tái)上,可以很好地實(shí)現(xiàn)本地不留數(shù)據(jù)的處理方式,我們用戶可以用本地不留數(shù)據(jù)的方式來(lái)處理業(yè)務(wù),還要對(duì)前端提供查詢服務(wù),同時(shí)提供準(zhǔn)確、嚴(yán)密的授權(quán)。同時(shí)我們的資產(chǎn)平臺(tái)也能管理用戶的數(shù)據(jù)資產(chǎn)。通過(guò)這幾個(gè)環(huán)節(jié),我們構(gòu)建了一個(gè)基本完整的大數(shù)據(jù)的處理平臺(tái)。
一些大的用戶需要完整的平臺(tái),有的用戶只需要一部分平臺(tái)來(lái)構(gòu)建行業(yè)性的應(yīng)用。我們這個(gè)平臺(tái)的特點(diǎn):第一,我們以自有產(chǎn)品為主,并與經(jīng)典的信息化基本一致,都采用標(biāo)準(zhǔn)的社科語(yǔ)句,能夠?qū)崿F(xiàn)大數(shù)據(jù)分析。我們提供的接口使大數(shù)據(jù)的開(kāi)發(fā)和管理更加簡(jiǎn)便。在上下游的產(chǎn)業(yè)鏈上,我們從硬件、虛擬化、上層的分析到資產(chǎn)管理,形成了一套全生態(tài)的整體方案。另外,我們這個(gè)平臺(tái)可以支撐TB級(jí)的系統(tǒng)。我們的采集平臺(tái)有各種類型的采集工具:數(shù)據(jù)庫(kù)方面,既有通用數(shù)據(jù)庫(kù),也有變形式數(shù)據(jù)庫(kù);在檢索方面,我們?cè)诮鉀QTB級(jí)系統(tǒng)時(shí),需要快速地檢索、分析,傳統(tǒng)的方式就不能滿足要求,我們有自己專利的產(chǎn)品,能夠解決我們?cè)赑B級(jí)數(shù)據(jù)量的快速檢索和分析;在文本類的分析上,我們神軟智匯大數(shù)據(jù)產(chǎn)品是分布式的,通過(guò)類似于集群的提交模式,可以把文本任務(wù)分解到底層的存儲(chǔ)上執(zhí)行,然后獲取結(jié)果,返回到上層應(yīng)用;在數(shù)據(jù)模型上,很多企業(yè)會(huì)用IBM的數(shù)據(jù)挖掘產(chǎn)品,我們自研的產(chǎn)品目前積累的數(shù)據(jù)模型比SPSS(統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案)還要多,SPSS標(biāo)準(zhǔn)的模型是20多個(gè),我們現(xiàn)在積累了40多個(gè)。
我們國(guó)家級(jí)的重大工程,其中一個(gè)工程每天涉及數(shù)據(jù)條數(shù)是2.3萬(wàn)億條,存儲(chǔ)10天,就是23萬(wàn)億的存儲(chǔ)量。2.3萬(wàn)億是個(gè)什么概念,“雙十一”期間淘寶的交易量是1億筆交易,產(chǎn)生的數(shù)據(jù)大概在60~70億條,而我們的系統(tǒng)每天是2.3萬(wàn)億,相當(dāng)于是淘寶的幾百倍。在這么大的數(shù)據(jù)下,用我們的分布式系統(tǒng)實(shí)現(xiàn)了及時(shí)地分析和查詢管理,我們還做了很多這樣的國(guó)家級(jí)工程。另外,我們也做了電信、金融的數(shù)據(jù)分析。我們跟清華合作車聯(lián)網(wǎng),通過(guò)一些實(shí)時(shí)數(shù)據(jù)分析,實(shí)現(xiàn)節(jié)能和智能調(diào)度。我們給新聞出版總署做了文本分析的大數(shù)據(jù)平臺(tái),它的所有報(bào)刊都能夠智能地畫(huà)像、分析。在農(nóng)業(yè)領(lǐng)域涉及大量的數(shù)據(jù)類型,不光是本身的農(nóng)產(chǎn)品價(jià)格,還有自己從300多個(gè)小的批發(fā)市場(chǎng)采集,另外通過(guò)協(xié)調(diào)數(shù)據(jù)、交換數(shù)據(jù)、購(gòu)買(mǎi)數(shù)據(jù)的方式,以及融合本地的氣侯數(shù)據(jù)、氣象數(shù)據(jù),林業(yè)數(shù)據(jù)、水產(chǎn)數(shù)據(jù),將各種各樣的數(shù)據(jù)匯集在一起,形成一個(gè)價(jià)格的分析平臺(tái)。這樣的多數(shù)據(jù)融合,就涉及國(guó)家政策方面的協(xié)調(diào),在系統(tǒng)做完之后,可以體會(huì)到,現(xiàn)在政府對(duì)數(shù)據(jù)還沒(méi)有完全開(kāi)放。沒(méi)有完整的立法,就做不到完全開(kāi)放,加之各個(gè)部門(mén)有自己的服務(wù)范圍,同時(shí)又有數(shù)據(jù)安全、管理權(quán)限的問(wèn)題。