国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

從紙質(zhì)出版到數(shù)據(jù)庫建設(shè):出版業(yè)轉(zhuǎn)型路徑探究

2016-05-14 04:43喻發(fā)勝張加俊
出版科學(xué) 2016年6期
關(guān)鍵詞:數(shù)據(jù)庫建設(shè)大數(shù)據(jù)

喻發(fā)勝 張加俊

[摘 要] 首先從歷史角度考察紙質(zhì)出版,認(rèn)為就具體形態(tài)而言是以紙為媒介“鐫著于版”“印行于世”的行為,其本質(zhì)是“信息生產(chǎn)與傳播”行為。其次指出互聯(lián)網(wǎng)時代,紙質(zhì)出版的價值猶在,但基于數(shù)據(jù)的生產(chǎn)與傳播為大勢所趨:數(shù)據(jù)庫是面向特定主題,集成的、相對穩(wěn)定的、具有統(tǒng)一格式的、能反映歷史變化的數(shù)據(jù)集合,數(shù)據(jù)庫建設(shè)是將“孤立、靜態(tài)和碎片化”的文本數(shù)據(jù)轉(zhuǎn)化為“關(guān)聯(lián)、動態(tài)和整體性”的結(jié)構(gòu)化數(shù)據(jù)工程。最后,以自然災(zāi)害類突發(fā)事件中的旱災(zāi)數(shù)據(jù)庫建設(shè)為例,探討數(shù)據(jù)庫建設(shè)的意義,介紹數(shù)據(jù)庫建設(shè)的基本步驟,以期為出版業(yè)的轉(zhuǎn)型提供新思路。

[關(guān)鍵詞] 紙質(zhì)出版 數(shù)據(jù)庫建設(shè) 大數(shù)據(jù) 出版業(yè)轉(zhuǎn)型

[中圖分類號] G237 [文獻(xiàn)標(biāo)識碼] A [文章編號] 1009-5853 (2016) 06-0090-04

[Abstract] Paper-based publication uses paper as a medium to “engrave in the wood block for printing” and to “publish to the world”. Its essence lies in the process of information production and communication. In the era of the Internet, the value of paper-based publishing remains apparent, yet the production and communication based on data has become a trend. A database is a data set established for a specific topic, and it integrates relatively stable data in a unified format and reflects certain historical changes. Database development is the attempt to translate the “isolated, static and fragmented” text-data into “related, dynamic and integral” structured data. Using “Natural Disasters: Drought” database as an example, this paper discusses the significance of database establishing, and introduces the basic steps of database setup. In doing so, it provides fresh ideas for the possible transformation approaches for the publishing industry.

[Key words] Paper-based publication Database development Big data Transformation of publishing industry

傳統(tǒng)的紙質(zhì)出版,主要是將文字或圖表印刷在紙介質(zhì)上并向公眾發(fā)行,其生產(chǎn)方式是“物化”復(fù)制的過程,其發(fā)行方式是實(shí)體印刷品基于物理空間的位移過程。隨著互聯(lián)網(wǎng)與大數(shù)據(jù)時代的到來,紙質(zhì)出版的價值猶在,但基于數(shù)據(jù)的生產(chǎn)與傳播已是大勢所趨。對出版業(yè)來說,當(dāng)下不僅要提升傳統(tǒng)的編輯能力和印刷能力,還應(yīng)大力提升對大數(shù)據(jù)的處理能力。出版企業(yè)大都擁有一筆寶貴的財富,即多年經(jīng)編輯加工而成的圖書或音像制品。它們中的大多數(shù)作為非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)“沉睡”在那里,如果仍以“物化”復(fù)制的方式重新刊印,未必能獲取足夠的市場價值;但若將這些數(shù)據(jù)基于特定主題建設(shè)數(shù)據(jù)庫,則可能使其“蘇醒”且價值倍增。本文以“自然災(zāi)害·旱災(zāi)(2001—2010年)數(shù)據(jù)庫”建設(shè)為例,介紹如何對非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,以期為傳統(tǒng)出版業(yè)的轉(zhuǎn)型提供新思路。

1 “出版”的本質(zhì)是“信息的生產(chǎn)與傳播”

隨著以互聯(lián)網(wǎng)為代表的新媒體技術(shù)的廣泛普及,傳統(tǒng)出版業(yè)面臨的困境及轉(zhuǎn)型策略一直是學(xué)界與業(yè)界關(guān)注的焦點(diǎn)。探究出路往往需溯本求源,反思何為“出版”?

“出版”一詞起源何時目前尚無定論。朱光暄認(rèn)為“出版”一詞最早出現(xiàn)于光緒二十八年(公元1902)梁啟超的《敬告我同業(yè)諸君》一文中[1];林穗芳認(rèn)為“出版”一詞19世紀(jì)末借自日語[2];吉少甫認(rèn)為“出版”一詞最早是在梁啟超1899年8月發(fā)表的《自由書》一文中使用的[3];王益認(rèn)為1879年黃遵憲與日本學(xué)者龜谷省軒的“筆談”中最先使用此詞[4];王振鐸認(rèn)為“出版”一詞最早出現(xiàn)在1833年8月1日創(chuàng)辦于廣州的《東西洋考每月統(tǒng)記傳》的編輯序言中[5],等等。盡管“出版”一詞在漢語中的歷史并不悠久,但漢語中表示出版行為的詞匯卻早已有之,如唐宋年間即有“上梓”“梓行”“刊行”“開板”“板印”之說[6]?!掇o源》中表示出版行為的用語有“刊行”“板本”“印板”“鐫印”“雕版”“刊刻”等[7]。分析上述文獻(xiàn),可以發(fā)現(xiàn)“鐫著于版”“印行問世”[8]大體表征“出版”之義。

此外,一些法律條文對何為“出版”也進(jìn)行了界定。日本明治20年(1887年)的《出版條例》規(guī)定:“凡以機(jī)械、化學(xué)或任何其他方法印刷之文書圖畫予以發(fā)售或散布者,均為出版”[9]?!妒澜绨鏅?quán)公約》將“出版”界定為“作品以有形形式復(fù)制,并把復(fù)制件向公眾發(fā)行,使作品能供閱讀或觀賞”[10]。我國北洋政府制定的《出版法》規(guī)定:“用機(jī)械或印版及其他化學(xué)材料印刷之文書圖畫出售或散布者,均為出版”[11]。我國現(xiàn)行《出版管理?xiàng)l例》規(guī)定:“本條例所稱出版活動,包括出版物的出版、印刷或者復(fù)制、進(jìn)口、發(fā)行”[12]等。上述法規(guī)對“出版”的界定雖表述不一,但“印刷”和“發(fā)行”是其共有的特征,二者分別對應(yīng)的是出版過程的生產(chǎn)環(huán)節(jié)與流通環(huán)節(jié),缺其一不能稱之為出版。

綜上,我們認(rèn)為將文字與圖表印刷在紙媒介上并加以發(fā)行只是紙質(zhì)出版的具體形態(tài)。究其本質(zhì),出版是“信息的生產(chǎn)與傳播”行為。在不同的歷史時期、不同的技術(shù)條件下,出版的具體形態(tài)各異,但生產(chǎn)信息、傳播信息的本質(zhì)不變。

互聯(lián)網(wǎng)技術(shù)對傳統(tǒng)的信息生產(chǎn)與信息傳播方式所帶來的變化是顛覆性的?,F(xiàn)今時代對出版企業(yè)而言,提升對數(shù)據(jù)信息的生產(chǎn)能力與處理能力是其轉(zhuǎn)型的重要趨勢之一。其中,需要厘清的一個重要問題是出版業(yè)的“數(shù)字化”轉(zhuǎn)型并不等于“數(shù)據(jù)化”轉(zhuǎn)型?!皵?shù)字化”是將原來基于印刷等生產(chǎn)行為生成的符號轉(zhuǎn)換成用“0”和“1”表示的二進(jìn)制碼[13];或者說,是將模擬數(shù)據(jù)變成計算機(jī)可讀的數(shù)據(jù),從而在傳播介質(zhì)上擺脫了對紙、光盤等有形之物的依賴。而“數(shù)據(jù)化”是“一種把現(xiàn)象轉(zhuǎn)變?yōu)榭芍票矸治龅牧炕问降倪^程”[14]。通俗地講,就是“讓數(shù)據(jù)發(fā)聲”的過程。二者有本質(zhì)的區(qū)別。因此,對于出版業(yè)轉(zhuǎn)型來說,只是將原有出版資源轉(zhuǎn)變?yōu)橛嬎銠C(jī)可讀的數(shù)據(jù)(這些數(shù)據(jù)大多為非結(jié)構(gòu)化、半結(jié)構(gòu)化的)遠(yuǎn)遠(yuǎn)不夠,還必須在此基礎(chǔ)上對這些海量數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理與深度挖掘。這也正是建設(shè)數(shù)據(jù)庫的意義和價值所在。

2 數(shù)據(jù)庫建設(shè)的意義

數(shù)據(jù)庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合[15]。它可以形象地理解為一種格式一致的多元數(shù)據(jù)存儲中心。其數(shù)據(jù)可以來自出版系統(tǒng)、也可以來自媒體報道和政府部門通報等;可以按統(tǒng)一定義的格式被提取出來,再通過清洗、轉(zhuǎn)換、集成,最后百川歸海,加載進(jìn)入數(shù)據(jù)庫[16]。對出版企業(yè)而言,加強(qiáng)數(shù)據(jù)庫的建設(shè)主要有以下幾個方面的意義。

一是重新定義出版行業(yè)的核心競爭力。對于傳統(tǒng)出版行業(yè)而言,其核心競爭力可能是編輯水平、印制能力和發(fā)行能力,但未來出版企業(yè)的核心競爭力之一主要體現(xiàn)在對大數(shù)據(jù)的利用水平上。對大數(shù)據(jù)的利用需要有兩個基本條件:一是擁有龐大的數(shù)據(jù)規(guī)模;二是掌握豐富的數(shù)據(jù)處理資源(包括專業(yè)人才、資金、平臺、數(shù)據(jù)搜集高權(quán)限等)。兩者缺一不可。一般的自媒體和非專業(yè)媒體機(jī)構(gòu)很難同時具備這兩個條件。因此在大數(shù)據(jù)時代傳統(tǒng)出版企業(yè)依然具備巨大的發(fā)展?jié)撃埽簿褪强梢酝ㄟ^大數(shù)據(jù)重構(gòu)自身作為專業(yè)信息生產(chǎn)與傳播機(jī)構(gòu)的核心競爭力。

二是更新出版行業(yè)的資源整合方式。過去出版行業(yè)主要是按書名或書籍涉及的領(lǐng)域進(jìn)行資源整合。這種整合方式是表層的,主要作用是易于檢索,無法對資源進(jìn)行深層次利用。數(shù)據(jù)庫建設(shè)則是按照不同主題制定統(tǒng)一的數(shù)據(jù)指標(biāo),對所有相關(guān)的非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。以 “突發(fā)事件數(shù)據(jù)庫·自然災(zāi)害·旱災(zāi)”(以下簡稱“旱災(zāi)數(shù)據(jù)庫”)為例,就是以“干旱”為主題的數(shù)據(jù)庫,需要采集相應(yīng)時空條件下所有關(guān)于干旱的數(shù)據(jù),并制定統(tǒng)一的數(shù)據(jù)處理標(biāo)準(zhǔn)。例如,對干旱的發(fā)生時間、持續(xù)時間、發(fā)生地點(diǎn)、波及地域、對人員生命財產(chǎn)造成的損失等數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,并將這些數(shù)據(jù)存儲到數(shù)據(jù)庫中,以實(shí)現(xiàn)數(shù)據(jù)資源的持續(xù)利用,在數(shù)據(jù)層面實(shí)現(xiàn)信息資源的“完全燃燒”。

三是創(chuàng)新出版行業(yè)的服務(wù)方式。出版企業(yè)搜集數(shù)年來關(guān)于某類主題的數(shù)據(jù)建立數(shù)據(jù)庫,通過大數(shù)據(jù)挖掘可以清楚地了解到某類事件發(fā)生的地域分布、時間分布、演化過程等總體趨勢,可以與其他數(shù)據(jù)“疊加”進(jìn)行相關(guān)性分析等,并以此為基礎(chǔ)為用戶提供大數(shù)據(jù)服務(wù)。用戶通過對旱災(zāi)數(shù)據(jù)進(jìn)行挖掘分析,得出來的結(jié)論不僅可以為相關(guān)部門的災(zāi)害應(yīng)對提供決策依據(jù),而且可以為廣大農(nóng)民、涉農(nóng)企業(yè)的生產(chǎn)經(jīng)營提供數(shù)據(jù)支持。

3 數(shù)據(jù)庫建設(shè)的步驟

數(shù)據(jù)庫的建設(shè)主要包括數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)結(jié)構(gòu)化處理、數(shù)據(jù)存儲、數(shù)據(jù)挖據(jù)、可視化呈現(xiàn)等步驟。下面以“旱災(zāi)數(shù)據(jù)庫(2001—2010年)”的建設(shè)為例作具體介紹。

數(shù)據(jù)采集。設(shè)計網(wǎng)絡(luò)爬蟲程序,按照設(shè)定的關(guān)鍵詞,自動抓取互聯(lián)網(wǎng)上相關(guān)主題的所有數(shù)據(jù)信息,并按照一定的規(guī)則儲存。就“旱災(zāi)數(shù)據(jù)庫”而言,主要是通過設(shè)定關(guān)鍵詞的方式,對目標(biāo)站點(diǎn)的數(shù)據(jù)信息自動進(jìn)行抓取,并將采集后的數(shù)據(jù)按照相應(yīng)的規(guī)則存儲。

數(shù)據(jù)清洗。對網(wǎng)絡(luò)爬蟲程序采集到的數(shù)據(jù)“去雜”的過程,也就是將與數(shù)據(jù)采集規(guī)則不符的數(shù)據(jù)盡可能去除。對旱災(zāi)來說,凡不屬于對災(zāi)害本體進(jìn)行描述的數(shù)據(jù)、超出事先規(guī)定區(qū)域之外的數(shù)據(jù)等都應(yīng)去除。

數(shù)據(jù)處理。這是對采集的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理的過程。此步驟為數(shù)據(jù)庫建設(shè)的關(guān)鍵步驟,直接影響數(shù)據(jù)挖掘的精確性和數(shù)據(jù)庫價值的大小。具體到“旱災(zāi)數(shù)據(jù)庫”,主要由“本體要素表”“影響損失表”“應(yīng)對措施表”“輿情應(yīng)對表”4個部分構(gòu)成,且各部分都有自己特定的填寫格式。對干旱災(zāi)害的數(shù)據(jù)處理,即將所有的關(guān)于干旱災(zāi)害的時間、地點(diǎn)、等級、影響、應(yīng)急措施、輿情應(yīng)對等根據(jù)各表格的填寫格式,按統(tǒng)一的數(shù)據(jù)指標(biāo)分別填寫到對應(yīng)的表格中。

數(shù)據(jù)存儲。將結(jié)構(gòu)化數(shù)據(jù)加載入庫的過程。對干旱災(zāi)害而言,即統(tǒng)一集成各部分的結(jié)構(gòu)化數(shù)據(jù)表格,搭建“旱災(zāi)數(shù)據(jù)庫”的過程。

數(shù)據(jù)挖掘。曾一度被稱為“基于數(shù)據(jù)庫的知識發(fā)現(xiàn)”(Knowledge discovery in database),是指“有組織有目的地收集數(shù)據(jù),通過分析數(shù)據(jù)使之成為信息,從而在大量數(shù)據(jù)中尋找潛在規(guī)律以形成規(guī)則或知識的技術(shù)”[17]。對于出版行業(yè)而言,大數(shù)據(jù)挖掘的最主要應(yīng)用就是對于不同主題數(shù)據(jù)庫的聯(lián)機(jī)分析和相關(guān)關(guān)系分析[18]。具體到“旱災(zāi)數(shù)據(jù)庫”的數(shù)據(jù)挖掘,一方面要對干旱災(zāi)害的關(guān)鍵要素進(jìn)行處理、呈現(xiàn);另一方面要對災(zāi)害發(fā)生時伴隨發(fā)生的其他現(xiàn)象進(jìn)行相關(guān)性分析。此舉不僅可以使用戶從微觀上把握某一具體災(zāi)害,而且可以從宏觀上對干旱災(zāi)害的時空分布規(guī)律進(jìn)行準(zhǔn)確把握。香港科技大學(xué)龔啟圣教授曾經(jīng)收集過去2000余年中原省份的氣候數(shù)據(jù),包括每年降雨量、旱災(zāi)、水災(zāi),以及北方游牧民族攻打中原的時間和次數(shù)等,并根據(jù)這些數(shù)據(jù)進(jìn)行深入挖掘,結(jié)果發(fā)現(xiàn):任何十年里,多一年旱災(zāi)會使游牧民族在那十年里攻打中原的概率增加26%[19]。

本課題組采集了2001—2010年10年間我國旱災(zāi)的全部數(shù)據(jù),通過大數(shù)據(jù)分析,我們發(fā)現(xiàn)干旱災(zāi)害發(fā)生后往往引發(fā)相應(yīng)的自然類衍生災(zāi)害、公共衛(wèi)生類衍生災(zāi)害和社會安全類衍生災(zāi)害。自然類衍生災(zāi)害主要包括水庫干涸、河流斷流、森林火災(zāi)、蟲災(zāi)、沙塵暴、草場退化、濕地生態(tài)破壞、咸潮和藍(lán)藻等。公共衛(wèi)生類衍生災(zāi)害包括腸道傳染病、呼吸道疾病、皮膚病等,其中干旱災(zāi)害與腸道傳染病集中爆發(fā)的相關(guān)性不易為人們的直觀經(jīng)驗(yàn)所發(fā)覺。大數(shù)據(jù)挖掘顯示出的相關(guān)性,其背后往往存在因果性——干旱災(zāi)害往往會造成河流斷流和水庫干涸,使飲用水源過于集中,一旦水源受污染,便極易造成腸道傳染病的爆發(fā)。此外旱災(zāi)還會引發(fā)社會安全類衍生災(zāi)害,如農(nóng)村村民因搶水械斗、群體上訪和圍攻水管單位等。

可視化呈現(xiàn)??梢暬尸F(xiàn)是指“以圖形、圖像、地圖、動畫等更為生動、易于理解的方式來展現(xiàn)數(shù)據(jù)的大小,詮釋數(shù)據(jù)之間的關(guān)系和發(fā)展的趨勢,以期更好地理解使用數(shù)據(jù)分析的結(jié)果”[20]。就“旱災(zāi)數(shù)據(jù)庫”而言,其可視化呈現(xiàn)至少有3種途徑可資參考:一是時間線,用以展現(xiàn)干旱災(zāi)害在時間維度上的演變;二是數(shù)據(jù)地圖,用以展現(xiàn)干旱災(zāi)情基于地理位置的分布;三是交互性圖表,用以展現(xiàn)干旱災(zāi)害本體及其影響之間的關(guān)聯(lián)性。通過數(shù)據(jù)的可視化呈現(xiàn),能夠使受眾在腦海中迅速形成關(guān)于災(zāi)害及其相關(guān)性的直觀印象,提高人們對干旱災(zāi)害的認(rèn)識能力和預(yù)測預(yù)警能力,將干旱災(zāi)害帶來的損失降到最低程度。

對傳統(tǒng)出版行業(yè)來說,從紙質(zhì)印刷到數(shù)據(jù)庫建設(shè),就信息生產(chǎn)方式而言是一次顛覆性的變革,但這種“顛覆性”會產(chǎn)生巨大的價值。不同專業(yè)背景的出版社可根據(jù)自身的特點(diǎn),建設(shè)不同主題的數(shù)據(jù)庫。例如,衛(wèi)生行業(yè)的出版社可與醫(yī)療行業(yè)聯(lián)合建設(shè)若干涉及人體健康的數(shù)據(jù)庫,教育行業(yè)的出版社可與各類教育機(jī)構(gòu)聯(lián)合建設(shè)若干關(guān)于教育的數(shù)據(jù)庫,如此等等,只要深入挖掘,可謂資源無限、潛力無窮。正如維克托·邁爾-舍恩伯格教授所說,“數(shù)據(jù)就像一個神奇的鉆石礦……它的真實(shí)價值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,絕大部分都隱藏在表面之下。”[21]

注 釋

[1]朱光暄, 薛鐘英, 王益. “出版”探源[J]. 出版發(fā)行研究, 1988(5): 51-53

[2][6][9] 林惠芳. 明確“出版”概念 加強(qiáng)出版學(xué)研究[J]. 出版發(fā)行研究, 1990(6): 13-20

[3]吉少甫. “出版”考(續(xù))[J]. 出版發(fā)行研究, 1991(5): 62-62

[4]王益. “出版”再探源[J].出版發(fā)行研究,1999(6): 8-9

[5][8]王振鐸.“出版”史論[J].出版發(fā)行研究,2006(10): 26-29

[7][10][11]胡國祥.“出版”概念考辨[J]. 武漢大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2008(3): 437-442

[12]徐力.“出版”概念及其在數(shù)字化網(wǎng)絡(luò)環(huán)境下的再認(rèn)識[J]. 出版發(fā)行研究,2012(7): 55-57

[13][14][21]維克托·邁爾一舍恩伯格,等. 大數(shù)據(jù)時代[M]. 杭州:浙江人民出版社,2013 : 104-127

[15][16][20]涂子沛. 大數(shù)據(jù):正在到來的數(shù)據(jù)革命[M].桂林:廣西師范大學(xué)出版社,2012:86-99

[17]譚磊.New Internet:大數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2013 : 23

[18]張振宇,周莉.“大數(shù)據(jù)出版”的理念、方法及發(fā)展路徑[J].出版發(fā)行研究, 2015(1): 14-17

[19]陳志武.量化歷史研究告訴我們什么? [EB/OL].[2013-09-17]. http://www.21ccom.net/articles/sdbb/2013/0914/91965.html

(收稿日期:2016-09-24)

猜你喜歡
數(shù)據(jù)庫建設(shè)大數(shù)據(jù)
淺談大數(shù)據(jù)信息化及數(shù)據(jù)庫建設(shè)
高校圖書館專題數(shù)據(jù)庫結(jié)構(gòu)探析
談美術(shù)學(xué)院圖書館動漫特色數(shù)據(jù)庫的建設(shè)
大數(shù)據(jù)環(huán)境下基于移動客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
數(shù)據(jù)+輿情:南方報業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索
政府公報全文數(shù)據(jù)庫建設(shè)探析
當(dāng)代藝術(shù)檔案的認(rèn)識與收錄方法
松江区| 武穴市| 乐清市| 理塘县| 嘉黎县| 化州市| 宁波市| 新民市| 马公市| 吉安县| 德阳市| 阿克陶县| 盐城市| 墨竹工卡县| 自贡市| 宁晋县| 建瓯市| 个旧市| 洛南县| 林周县| 巫溪县| 浦北县| 临颍县| 丹阳市| 葫芦岛市| 兰溪市| 包头市| 密云县| 会泽县| 平乐县| 津南区| 晋宁县| 高邮市| 贞丰县| 合肥市| 绥阳县| 林甸县| 永城市| 商城县| 涟水县| 右玉县|