国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺談新媒體監(jiān)管業(yè)務(wù)綜合平臺的建設(shè)

2018-05-10 18:43裴鵬真
數(shù)字通信世界 2018年4期
關(guān)鍵詞:數(shù)據(jù)庫監(jiān)管系統(tǒng)

裴鵬真

(河南省新聞出版廣電局信息網(wǎng)絡(luò)視聽節(jié)目傳播監(jiān)管中心,鄭州 450003)

近年來,中國的互聯(lián)網(wǎng)新媒體技術(shù)總體呈現(xiàn)出快速發(fā)展的態(tài)勢,除了傳統(tǒng)互聯(lián)網(wǎng)網(wǎng)站,尤其尤其是微信、微博、手機(jī)APP,網(wǎng)絡(luò)直播、OTT技術(shù)的迅猛崛起,以及未來幾年即將AR、VR技術(shù)等新穎技術(shù)的大規(guī)模應(yīng)用,在為廣大人民帶來瀏覽視頻方便的同時,也對傳統(tǒng)互聯(lián)網(wǎng)監(jiān)管以監(jiān)控音視頻網(wǎng)站為主的監(jiān)管形式提出了新的挑戰(zhàn)。

據(jù)CNNIC統(tǒng)計,截至2017年6月底,中國網(wǎng)民規(guī)模達(dá)7.51億,我國手機(jī)網(wǎng)民規(guī)模達(dá)7.24億。人們利用休閑、碎片化時間,更進(jìn)一步促進(jìn)了新媒體業(yè)務(wù)傳播發(fā)展。此外,隨著近幾年國產(chǎn)電影、電視劇、微電影等海量節(jié)目的誕生給廣大百姓帶來盛宴的同時,給監(jiān)管部門也帶來了一定的壓力,如何對這些海量視頻節(jié)目進(jìn)行存儲?如何對這些海量視頻節(jié)目進(jìn)行分解、信息提取,形成節(jié)目索引?如何分析視頻節(jié)目,形成視頻比對關(guān)鍵幀?如何從新媒體上抓取傳播的視頻并及時和現(xiàn)有本地視頻庫內(nèi)容進(jìn)行較為及時的對比?從數(shù)據(jù)量和計算速度上來說,都給監(jiān)管部門提出不少壓力。

1 新媒體監(jiān)管業(yè)務(wù)需求

當(dāng)今新媒體傳播方式和傳播手段,無非是將不同的視聽節(jié)目放在了不同平臺,采用了不同的媒體格式和傳播手段,其傳播的內(nèi)容始終沒有變化。在采集環(huán)節(jié)因不同的傳播平臺稍有不同,或是通過定制模板,或是通過暴力破解,或是通過賬號登錄隱身接入輪訓(xùn)節(jié)目,或是通過行政手段強(qiáng)制接入,都是為了最初的原始數(shù)據(jù),而后期分析手段、比對技術(shù)也基本上相當(dāng)。在前端采集、中級分析、后期對比等技術(shù)基本成型,后期改進(jìn)難度較大的情況下,如何將現(xiàn)有已經(jīng)存在、及將來即將建設(shè)的各個業(yè)務(wù)監(jiān)管平臺的統(tǒng)一起來、將海量數(shù)據(jù)整合起來,提高資源利用率,降低運(yùn)營成本,我認(rèn)為是當(dāng)前各省局新媒體監(jiān)管業(yè)務(wù)要考慮的重要問題。

2 大數(shù)據(jù)支撐平臺

現(xiàn)在,1TB的硬盤已然成為當(dāng)下存儲主流,但其硬盤數(shù)據(jù)傳輸速度約100MB/S,讀完整個硬盤中的數(shù)據(jù)至少花費(fèi)2.5個小時,寫入數(shù)據(jù)的速度就更慢了。一個很簡單的減少讀取時間的辦法就是同時從多個硬盤上讀數(shù)據(jù)。試想,如果我們有100個硬盤,每個硬盤存儲1%的數(shù)據(jù),并行讀取,那么不到2分鐘就可以讀完所有1TB數(shù)據(jù)。這就是大數(shù)據(jù)存儲方式的最初考慮的初衷。

現(xiàn)有河南互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng),采用單點(diǎn)關(guān)系型數(shù)據(jù)庫結(jié)構(gòu),用來存儲網(wǎng)站文本信息的空間為2T;采用FCSAN架構(gòu),用于存儲視頻節(jié)目的空間為20T。對于未來新的監(jiān)管業(yè)務(wù)來說,比起文字信息,視聽內(nèi)容所要占用的空間更大,因此對于新媒體監(jiān)管業(yè)務(wù)平臺來說,要考慮容納更多的視頻節(jié)目空間,可能多大到100T,甚至更多。為了適應(yīng)未來高性能數(shù)據(jù)查詢系統(tǒng),僅僅靠提高傳統(tǒng)的關(guān)系型數(shù)據(jù)庫服務(wù)器的性能,已無法達(dá)到高的性價比要求,必須要考慮非關(guān)系型數(shù)據(jù)庫、大數(shù)據(jù)存儲結(jié)構(gòu)等新的存儲技術(shù)。

對于新媒體監(jiān)管業(yè)務(wù)中的視頻節(jié)目來說,分布式存儲是個很好的選擇。大數(shù)據(jù)存儲必須有其適應(yīng)的存儲和計算方式,相比傳統(tǒng)關(guān)系型數(shù)據(jù)庫而言,在存取海量數(shù)據(jù),柔性擴(kuò)展,結(jié)構(gòu)化非結(jié)構(gòu)化存儲方面,大數(shù)據(jù)有著不可比擬的優(yōu)勢。

2.1 Hadoop計算架構(gòu)[1]

根據(jù)現(xiàn)有互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)的及未來新系統(tǒng)的業(yè)務(wù),考慮到Hadoop計算架構(gòu)具有高性能集群計算和存儲能力,且易擴(kuò)展,選擇與Oracle數(shù)據(jù)混搭方式, 優(yōu)勢互補(bǔ),充分發(fā)揮其優(yōu)勢,既可以提升海量數(shù)據(jù)采集時效性,又可確保核心數(shù)據(jù)服務(wù)能力的穩(wěn)定。

Hadoop中心組件是HDFS和MapReduce[2]。Hadoop通過HDFS為用戶提供高容錯性和高伸縮性的海量數(shù)據(jù)的分布式存儲,通過MapReduce為用戶提供邏輯簡單、底層透明的并行處理框架。HDFS具有高容錯性,適合批處理、大數(shù)據(jù)處理,可構(gòu)建在廉價處理機(jī)器上等優(yōu)點(diǎn),在Hadoop平臺上,有很多新的開發(fā)、應(yīng)用、管理工具,可查閱Hadoop生態(tài)圈,既同現(xiàn)有系統(tǒng)在數(shù)據(jù)檢索、存儲上有兼容之處,又可以采用新的技術(shù)開發(fā)新的監(jiān)管業(yè)務(wù)系統(tǒng)。

2.2 整體架構(gòu)

2.2.1 數(shù)據(jù)庫與數(shù)據(jù)倉庫

現(xiàn)有互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng),該系統(tǒng)采用單點(diǎn)Oracle數(shù)據(jù)庫來存儲所有監(jiān)管網(wǎng)站的信息、索引、管理信息、統(tǒng)計報表、日志管理等,而全部視頻節(jié)目及抽取的關(guān)鍵幀采用FCSAN架構(gòu)來存儲。

對于當(dāng)前河南固有的互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)及將來的其他新媒體監(jiān)管業(yè)務(wù)系統(tǒng)(微信、微博、手機(jī)APP,OTT,直播等)可以考慮在Hadoop上進(jìn)行融合。其中有幾個重要的工具可以幫助我們遷移及構(gòu)建新媒體監(jiān)管業(yè)務(wù)綜合平臺。

2.2.2 Hive[3]

它是一個構(gòu)建在Hadoop上的數(shù)據(jù)倉庫框架,它把數(shù)據(jù)組織為表,然后通過一種方式將存儲在HDFS中的數(shù)據(jù)賦予結(jié)構(gòu),Hive會將SQL查詢語句轉(zhuǎn)換為一系列在Hadoop集群上運(yùn)行的MapReduce作業(yè)完成一次集中查詢。其設(shè)計初衷是讓精通SQL技能的分析師能夠?qū)Ψ旁贖DFS上的大規(guī)模數(shù)據(jù)集執(zhí)行集中查詢。對于現(xiàn)有監(jiān)管中心維護(hù)人員來說,在擴(kuò)展及升級本中心系統(tǒng)的同時,Hive不失為一種好的選擇,其多年的SQL語句的維護(hù)技能優(yōu)勢還能繼續(xù)得以發(fā)揮。

2.2.3 Hbase

它是一個在HDFS上開發(fā)的面向列的典型的分布式數(shù)據(jù)庫,非關(guān)系型數(shù)據(jù)庫,提供大規(guī)模伸縮式服務(wù)[4],實(shí)時支持隨機(jī)訪問超大規(guī)模數(shù)據(jù)集。新媒體監(jiān)管業(yè)務(wù)系統(tǒng)本身就擁有超大規(guī)模數(shù)據(jù),以往的關(guān)系型數(shù)據(jù)庫在暴增的視聽數(shù)據(jù)面前,面臨實(shí)時的大規(guī)模查詢,會顯現(xiàn)越來越笨拙,Hbase將為新的數(shù)據(jù)提供新的、更高級、更快的服務(wù)。此外,該數(shù)據(jù)庫本身就有一個典型的應(yīng)用:webtable,一個以網(wǎng)頁為URL為主鍵的表,其中包含爬取頁面和頁面的屬性,webtable非常大,行數(shù)可以達(dá)十億級之級。因此,與新媒體監(jiān)管業(yè)務(wù)系統(tǒng)特別是互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)是一個很好的契合點(diǎn),在建設(shè)綜合平臺選擇分布式數(shù)據(jù)庫時,Hbase無疑是我們的最佳選擇。

2.2.4 Sqoop

它的功能是將將結(jié)構(gòu)化存儲數(shù)據(jù)抽取到hadoop中,用于進(jìn)一步處理,供Hive應(yīng)用,或者更甚者供HBase應(yīng)用。它支持當(dāng)前很多通用關(guān)系型數(shù)據(jù)庫,例如:MySQL、PostgreSql、Oracle、SQLserver和DB2,同時還有一個通用的JDBC連接器。河南互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)中,其龐大的數(shù)據(jù)庫目前是用單臺Oracle來存儲的,如果建設(shè)綜合監(jiān)管平臺,必定將老數(shù)據(jù)遷移至新平添,該工具可以圓滿完成該任務(wù),可以將數(shù)據(jù)據(jù)遷移至Hadoop平臺上或者遷移至分布式數(shù)據(jù)庫Hbase中。

2.2.5 ZooKeeper

ZooKeeper是Hadoop的一個分布式協(xié)調(diào)服務(wù),是Hadoop和Hbase的重要組件。它是一個為分布式應(yīng)用提供一致性服務(wù)的軟件,提供的功能包括:配置維護(hù)、域名服務(wù)、分布式同步、組服務(wù)等。分布式應(yīng)用中主要困難在于寫應(yīng)用可能存在“部分失敗”,當(dāng)一條消息在網(wǎng)絡(luò)中兩個節(jié)點(diǎn)之間傳送時,如果網(wǎng)絡(luò)出現(xiàn)錯誤,發(fā)送者無法知道接收者是否已經(jīng)收到消息。接收者可能在出現(xiàn)網(wǎng)絡(luò)錯誤之前就已經(jīng)收到這條消息,也可能沒有收到,又或者接收的進(jìn)程已經(jīng)死掉。由于“部分失敗”是分布式系統(tǒng)的固有的特征,ZooKeeper可以提供一組工具,使你在構(gòu)建分布式應(yīng)用時能夠?qū)Α安糠质 边M(jìn)行處理,為分布式應(yīng)用服務(wù)保駕護(hù)航。

3 綜合平臺架構(gòu)

新媒體監(jiān)管業(yè)務(wù)綜合監(jiān)管平臺如圖1,包含互聯(lián)網(wǎng)視聽節(jié)目監(jiān)管系統(tǒng)、手機(jī)APP監(jiān)管系統(tǒng)、微信監(jiān)管系統(tǒng)、微博監(jiān)管系統(tǒng)、輿情監(jiān)管系統(tǒng)、網(wǎng)絡(luò)直播監(jiān)管系統(tǒng)、OTT監(jiān)管系統(tǒng)七大監(jiān)管系統(tǒng)和其他日常管理模塊,七大系統(tǒng)數(shù)據(jù)經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)排重、一致性判斷統(tǒng)一集成在Hadoop和HBase集成的數(shù)據(jù)服務(wù)中,達(dá)到數(shù)據(jù)高效、精潔利用。

圖1 新媒體監(jiān)管業(yè)務(wù)綜合平臺圖

該平臺至少具有以下功能:

(1)可靠性,穩(wěn)定性;

(2)強(qiáng)健性,高可用性;

(3)實(shí)用性強(qiáng),易操作,易維護(hù)性;

(4)可擴(kuò)展性、伸縮性強(qiáng);

(5)系統(tǒng)與系統(tǒng)之間松和耦合,系統(tǒng)數(shù)據(jù)冗余率低;

(6)大數(shù)據(jù)存儲擴(kuò)展性強(qiáng);

(7)容災(zāi)能力強(qiáng),故障可隔離性。

4 結(jié)束語

新媒體監(jiān)管業(yè)務(wù)綜合平臺,用于當(dāng)前互聯(lián)網(wǎng)新媒體業(yè)務(wù)的監(jiān)管業(yè)務(wù),既融合有當(dāng)前舊系統(tǒng)已有功能,也也將吸收當(dāng)前互聯(lián)網(wǎng)的最新技術(shù),因此,在設(shè)計初期,必須考慮到新的系統(tǒng)開發(fā)商的集成能力及與舊系統(tǒng)協(xié)商溝通能力,對平臺的設(shè)計、開發(fā)、搭建、遷移及維護(hù)人員也有更高能力的要求。新媒體監(jiān)管業(yè)務(wù)綜合平臺的建設(shè)必將在有效利用硬件資源的同時,整合所有業(yè)務(wù)系統(tǒng)數(shù)據(jù),使得數(shù)據(jù)利用率更高,業(yè)務(wù)質(zhì)量得到進(jìn)一步提升,新媒體的監(jiān)管業(yè)務(wù)模式將更加統(tǒng)一。

參考文獻(xiàn):

[1] Tom White(美)著. 華東師范大學(xué)數(shù)據(jù)科學(xué)與工程學(xué)院(譯) 《Hadoop權(quán)威指南(第三版)》 [2015-1] .

[2] 陳忠義.基于Hadoop的分布式文件系統(tǒng)[J].電子技術(shù)與軟件工程.2017,5[3]:175.

[3] 李春曉,基于Hive的分布式空間數(shù)據(jù)庫的研究與優(yōu)化[C] 河南:河南大學(xué),2015:15-18.

[4] 涂俊英,李志敏云.計算下非結(jié)構(gòu)化大數(shù)據(jù)存儲系統(tǒng)設(shè)計[J].現(xiàn)代電子技術(shù),2018,1[1]:175-176.

猜你喜歡
數(shù)據(jù)庫監(jiān)管系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
基于PowerPC+FPGA顯示系統(tǒng)
綜合監(jiān)管=兜底的網(wǎng)?
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
數(shù)據(jù)庫
監(jiān)管和扶持并行