游桃琴
(江西省地方志編纂委員會辦公室,江西南昌330008)
大數據思維方式對地方綜合年鑒工作創(chuàng)新的啟示
游桃琴
(江西省地方志編纂委員會辦公室,江西南昌330008)
大數據時代來臨,形成與之相適應的思維方式就成為駕馭大數據和實現(xiàn)其價值的關鍵。地方綜合年鑒為更好地發(fā)揮為國存史,為當代社會服務的作用,就要在思維方式上進行創(chuàng)新,形成總體思維、容錯思維、相關思維、智能思維。
大數據 思維方式 年鑒創(chuàng)新 啟示
2013年被稱為大數據時代元年,大數據已滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為競爭力、創(chuàng)新力和生產力發(fā)展的重要手段。大數據技術,讓所有社會科學領域能夠借由前沿技術的發(fā)展從宏觀群體走向微觀個體。誰能率先實現(xiàn)和占有大數據,誰對大數據的挖掘更為深刻,誰就將搶占未來先機。而這取決于人們對大數據及其潛在價值功能的認知和態(tài)度,也就是說,形成與之相適應的思維方式就成為駕馭大數據和實現(xiàn)其價值的關鍵。建立在大數據平臺上,運用大數據思維方式運作的地方綜合年鑒工作將不僅僅是一項工作,而將成為一項事業(yè)。當然,大數據思維方式離不開大數據的支撐,大數據是大數據思維方式出現(xiàn)的源頭和賴以生存的基礎。從根本上說,大數據思維方式是產生于大數據時代、立足于大數據技術之上的新觀念體系。
何為“大數據”?至今還沒有一個統(tǒng)一的定義。著云臺的分析師團隊認為,“大數據”通常用來形容一個公司創(chuàng)造的大量非結構化或半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和云計算聯(lián)系到一起,因為實時的大型數據分析需要像MapReduce一樣的框架來向數十、數百甚至數千的電腦分配工作。互聯(lián)網行業(yè)認為,“大數據”指的是這樣一種現(xiàn)象:互聯(lián)網公司在日常運營中生成、累積的用戶網絡行為數據。在維克托·邁爾—舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中,“大數據”指不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據進行分析處理。美國互聯(lián)網數據中心認為,“大數據”是通過高速捕捉、發(fā)現(xiàn)/分析,從大容量數據中獲取價值的一種新的技術架構。我國政府還沒直接就“大數據”專有名詞提出來給予政策支持。不過,工信部發(fā)布的物聯(lián)網“十二五”規(guī)劃上,把信息處理技術作為4項關鍵技術創(chuàng)新工程之一被提出來,其中包括海量數據存儲、數據挖掘、圖像視頻智能分析,這都是大數據的重要組成部分。而另外3項關鍵技術創(chuàng)新工程,包括信息感知技術、信息傳輸技術、信息安全技術,也都與“大數據”密切相關。可見,“大數據”是一個寬泛的概念,見仁見智。但也突出了一些共同的東西,即大數據的特點。
(一)大數據的特點
整體性。大數據的資料量規(guī)模龐大到不能用G或T來衡量,無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助決策的資訊。物聯(lián)網、云計算、移動互聯(lián)網、車聯(lián)網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,都在以數據的形式追蹤人們的日常生活,并將這些數據存儲在相應的數據庫中。這些數據庫以某些相關性相聯(lián),構成大數據海量資料量的整體。大數據的技術手段和理念賦予人們在更多領域、更多層次獲取前所未有的信息機會。
多樣性。大數據中數據類型繁多,這種類型的多樣性也讓數據被分為結構化數據和非結構化數據。相對于以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括網絡日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數據對數據的處理能力提出了更高要求。
關聯(lián)性。大數據中所謂的“數據”與“數字”是具有不同內涵的。一個數字背后的背景數據、評論數據、心情數據等全方位界定了該數據的意義。數據能否被賦予新的價值、實現(xiàn)從數字支撐到數據支撐的順利轉化,理解巨量數據的關聯(lián)性是至關重要的。發(fā)掘這些形態(tài)各異、快慢不一的數據流之間的相關性,是大數據做前人之未做、能前人所不能的機會。
開放性。大數據產生速度快、體量龐大,任何單位和個體想壟斷占有都不現(xiàn)實,大數據向所有合法用戶開放。海量數據本身的價值密度較低,但是經過清洗和“提純”的數據價值卻很高。這就造成大數據可以從多角度、多層面進行組合、篩選,為使用者所使用。
(二)大數據的價值
在總數據量相同的情況下,與個別分析獨立的小型數據集相比,將各個小型數據集合并后進行分析可得出許多額外信息和數據關系性,來察覺商業(yè)趨勢、判定研究質量、避免疾病擴散、打擊犯罪或測定實時交通等用途是大型數據集盛行的原因。
預測價值。預測是大數據的核心價值。大數據將為人類的生活創(chuàng)造前所未有的可量化的維度,從而達到對事物發(fā)生的可能性進行預估的目的。美劇《紙牌屋》的走紅,就是一次成功運用大數據預測的結果。Netflix公司基于其3000萬北美用戶觀看視頻時留下的行為數據,預測出“凱文·史派西”“大衛(wèi)·芬奇”和“BBC出品”三種元素結合在一起的電視劇產品將會大火特火,由此大膽在拍攝、發(fā)布方式上做了一系列革新,并對觀眾需求進行了“精確推送”,在美國及40多個國家成為最熱門的在線劇集。類似運用大數據成功預測的案例還有很多。而預測系統(tǒng)之所以受到重視,關鍵就在于他們是建立在海量數據基礎之上的,接收和處理的數據量越龐大,系統(tǒng)糾錯和自我改善的功能就越發(fā)達。在大數據時代日益精密的數字技術條件下,人們的活動、決定、社會關系都能夠被記錄,這些電子蹤跡為分析人類行為提供了思路。人類的行為不再是被視為互不相關、隨意偶然的獨立事件,而是相互依存、相互關聯(lián)的數據網絡中的一部分。
科研價值。在信息流通和信息獲取手段受限的時代,人們解釋未知現(xiàn)象或尋找規(guī)律,往往采用經驗或直覺判斷甚至信奉超自然的神秘力量??茖W研究則往往采取隨機抽樣、問卷調查的方法,并假設這些數據是具有代表性的典型樣本,以期通過最少的數據獲得更多的信息,這本身就存在很多的缺陷。在大數據時代的今天,無處不在的信息感知和采集終端為我們采集了海量的數據,而以云計算為代表的計算技術的不斷進步,為我們提供了強大的計算能力,這就圍繞個人以及組織的行為構建起了一個與物質世界相平行的數字世界。更本質上,它是為我們看待世界提供了一種全新的方法,即決策行為將日益基于數據分析做出,而不是像過去更多憑借經驗和直覺做出。這就使得社會科學研究者能夠在更多領域和更深層次獲得和使用全面而完整的數據,改變從演繹到歸納到提升至理論的思維路徑,顛覆千百年來人類的思維慣性,對人類的認知和與世界交流的方式提出了全新的挑戰(zhàn)。
(一)總體思維
過去采樣是獲取主要數據的手段,大數據時代,隨著數據收集、存儲、分析技術的突破性發(fā)展,更方便、快捷、動態(tài)地獲得研究對象有關的所有數據成為現(xiàn)實。相應地,思維方式也應該從樣本思維轉向總體思維,才能夠更全面、立體、系統(tǒng)地反映研究對象。
(二)容錯思維
小數據時代,對樣本精確度的要求是苛刻的,因為收集信息的有限意味著細微的錯誤會被放大,甚至有可能影響整個結果的準確性。大數據時代,只有5%的數據是結構化且能適用于傳統(tǒng)數據庫的。如果不接受混亂,剩下95%的非結構化數據都無法利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。當擁有海量即時數據時,絕對的精準不再是追求的主要目標,適當忽略微觀層面上的精確度,容許一定程度的錯誤與混雜,反而可以在宏觀層面擁有更好的認知和洞察力。
(三)相關思維
小數據時代,人們往往執(zhí)著于現(xiàn)象背后的因果關系,試圖通過有限樣本數據來剖析其中的內在機理。大數據時代,人們可以通過大數據技術挖掘出事物之間隱蔽的相關關系,獲得更多的認知與洞見,運用這些認知與洞見就可以幫助捕捉現(xiàn)在和預測未來。通過關注線性的相關關系,以及復雜的非線性相關關系,可以看到很多以前不曾注意的聯(lián)系,還可以掌握以前無法理解的復雜技術和社會動態(tài),相關關系甚至可以超越因果關系,成為我們了解世界的更好視角,而且不易受偏見的影響。
(四)智能思維
自進入到信息社會以來,人類社會的自動化、智能化水平得到明顯提升,但始終無法取得突破性進展,機器的思維方式仍屬于線性、簡單、物理的自然思維。但大數據時代的到來,可以為提升機器智能帶來契機,推進機器思維方式由自然思維轉向智能思維。隨著物聯(lián)網、云計算、社會計算、可視技術等的突破發(fā)展,大數據系統(tǒng)也能夠自動地搜索所有相關的數據信息,并讓數據主動“發(fā)聲”,類似“人腦”一樣主動、立體、邏輯地分析數據、做出判斷,從而獲得具有洞察力和新價值的東西,甚至類似于人類的“智慧”。
地方綜合年鑒,是指系統(tǒng)記述本行政區(qū)域自然、政治、經濟、文化、社會等方面情況的年度資料性文獻,屬信息密集型工具書?!度珖胤街臼聵I(yè)發(fā)展規(guī)劃綱要(2015—2020年)》指出,修志編鑒、開發(fā)利用地方志資源……是為國存史的一項重要工作,在……傳承文明、發(fā)展文化、激發(fā)民族自豪感和自信心、推動海內外文化交流合作、提供促進經濟社會發(fā)展的歷史借鑒和智力支持等方面有重要作用。修鑒為用,是年鑒發(fā)揮其作用的唯一途徑,也是年鑒價值的重要體現(xiàn)。把大數據思維方式貫穿整個年鑒工作,是年鑒工作脫胎換骨的變革,必須統(tǒng)籌謀劃、綜合施策。結合地方志工作的實際,著眼大數據思維方式的有效貫徹,把握年鑒工作的階段性特點和重要作用,應著重做好以下幾方面的工作:
(一)建立以大數據整體性為支撐的總體思維
在小數據時代,由于技術條件的限制,人們只能通過把復雜的整體分解為簡單的部分的方法來分析研究事物,并試圖用這些部分來描述整體。而在大數據時代,人們可以利用大數據技術,收集、處理和運用海量數據,實現(xiàn)思維和認知從被迫關注局部向主動關注全局轉變,從更廣的范圍、更高的層次、更深的程度認識事物,形成基于大數據網絡環(huán)境的總體思維。
年鑒工作涉及組稿、供稿、編輯、出版發(fā)行、使用等多個環(huán)節(jié)和要素。結合筆者的工作實踐來看,當前年鑒工作思維割裂的問題比較嚴重。年鑒工作者非常重視組稿、供稿、編輯、出版發(fā)行工作(不贅述),卻忽略了最重要的讀者體驗,幾乎沒有關于讀者體驗的跟蹤和反饋。因為年鑒是紙質的,發(fā)行后不知道誰在看,也不知道他看了哪些內容,看后有什么感想,所以最難以掌握的就是讀者行為。而且,當前年鑒還只是靠內容一個維度影響讀者,黏性較弱,讀者更容易被新媒體全新的閱讀體驗所吸引,閱讀興趣也會隨之發(fā)生轉移。
年鑒工作應當抓住這一歷史機遇,形成“讀者畫像”,通過與各種大數據團隊的融合,知道讀者的興趣所在,并推送一些內容不斷研究讀者,增強讀者黏性。從而扭轉當前年鑒工作編輯忙得熱火朝天,讀者卻“把頭偏向一邊”的自說自話、自娛自樂的現(xiàn)狀,營造供稿者、編輯環(huán)境、編輯、讀者間的良性互動封閉環(huán),充分發(fā)揮年鑒為社會服務的作用。
(二)建立以大數據多樣性為支撐的容錯思維
容錯思維,不是縱容錯誤存在,而是接受不精確的存在,并不斷調整糾偏。在大數據時代,由于技術的進步,人們基本可以做到實時、實地采集、傳輸、處理數據,可以實時準確地把握事物的動態(tài)發(fā)展變化情況,隨時調整決策,糾正錯誤。
從橫向來看,地方綜合年鑒反映本行政區(qū)域內自然、政治、經濟、文化、社會等方面情況,稿件來源廣泛,稿件質量參差不齊,數據統(tǒng)計口徑也不盡相同,可謂名副其實的“眾手成書”。再加上從組稿到使用有很長的時間,涉及多個環(huán)節(jié),存在出錯概率。從縱向來看,年鑒涉及的有些內容跨越多個年份,在記載過程中,可能存在有頭無尾甚至無疾而終的現(xiàn)象。有些內容是以年度為單位持續(xù)開展的,但是有的年份記載、有的年份漏記;有的年份全面記載,有的年份只記了部分。有的事件有記載卻實際沒實施等等。
在信息受限的時代,可能缺乏參照,可能發(fā)現(xiàn)不了問題。但在大數據時代,信息來源廣,更新快,數據分析能力極大提升,年鑒參與者發(fā)現(xiàn)問題的概率上升。這就需要突破年鑒紙質載體的限制,實現(xiàn)信息化和數字化,搭建大數據技術平臺,不斷采集最新數據、更新動態(tài)和進展。跳出汲汲于微觀層面的精確性,反而能獲得宏觀領域更深刻的認知和把握,促使年鑒工作者更加完善每一部年鑒的頂層設計,突出地方綜合年鑒的地方特色和年度特色。
(三)建立以大數據關聯(lián)性為支撐的相關思維
大數據時代,事物各組成要素之間的關系已經不完全是簡單的線性因果關系,而更多的是一種非線性的相關關系。通過分析研究數據變化所反映的事物之間的內在聯(lián)系以及相關關系,可以避免我們的思維方式陷入冗長的因果關系鏈,較為快捷地發(fā)現(xiàn)事物不同要素之間的相互關系和相互影響及相互作用方式,為快捷準確地找到解決復雜問題的方案提供有效的路徑。
年鑒工作要求基本形成黨委領導、政府主持、負責地方志工作的機構(以下簡稱地方志工作機構)組織實施、社會各界廣泛參與的工作體制。當前年鑒工作也確實是在黨委領導、政府主持、地方志機構組織實施下開展工作的。但是社會各界參與度還比較欠缺,從稿件來源來看,還主要是政府各單位和部門,組稿方式主要靠行政手段。由于市場經濟體制下,政府部門不再包攬一切,許多工作轉移到民間組織、中介機構等,單靠政府部門供稿勢必造成年鑒內容的缺項或遺漏,無法反映生動火熱的社會實踐。
拓展組稿渠道,擴大稿件來源,是做好做精年鑒工作的當務之急。因此,在維護原有來稿途徑的同時,我們還可以向社會征集稿件,如向各行業(yè)協(xié)會、各主要企業(yè)、檔案部門、主要媒體等組稿,向一些專家學者或行家里手征稿,甚至還可以及時采集互聯(lián)網、物聯(lián)網、手機、微信、Facebook以及Twitter等產生的海量數據,利用大數據處理技術,對這些海量數據進行分析處理篩選。多視角、全方位地記述社會實踐,能提高年鑒“鑒”的價值,也有利于向讀者推送多方面的相關信息,展示事物的多面性。
(四)建立以大數據開放性為支撐的智能思維
封閉導致混沌,而開放則會帶來生機和活力。大數據的一個鮮明特征就是其開放性。從數據來源來看,大數據時代的數據建設對所有的有效數據保持開放;從數據的使用來看大數據時代的數據向所有的合法用戶保持開放,任何用戶都沒有數據特權。這種開放性為人們的智能思維奠定了基礎,為我們探索掌握現(xiàn)實和未來事物發(fā)展的特點規(guī)律,智慧思考、超前謀劃提供了支撐和條件。
當前,絕大部分省級綜合年鑒都能做到當年編輯當年出版,有些地方甚至在當年編輯的上半年就出版了。小數據時代,各類數據必須要在規(guī)定的某個時間點采集,到某個時間點結束,然后再利用相當長的時間處理采集到的數據,這是很快的速度。但是,大數據時代,這些數據從一出爐,就意味著已經是過時的歷史數據。紙質年鑒更多時候可能從一出版,就決定了其更多的作用是“為國存史”的命運。
為國存史固然是年鑒的重要作用之一,但是年鑒還需要參與當下的社會實踐,為當今時代服務,才能不斷煥發(fā)生機活力。這就需要突破紙質介質的束縛,主動參與大數據時代、擁抱大數據平臺。年鑒擁有強大而成熟的來稿途徑,擁有打破各單位壁壘的數據庫,這是非常寶貴的資源,但條塊分割嚴重。建立相應的保障機制,融合大數據技術,重新分布和整合資源,在兼顧全面的基礎上,打破均衡原則,年鑒資源也可以變成平臺化的產品。平臺化的產品有點像共享經濟,本身并不生產內容,借助別人生產內容分享收益。地方綜合年鑒借助大數據中心技術,把內容提供給第三方,第三方基于內容再生產深入加工還可以創(chuàng)造效益,這也是增加年鑒利用率的一種思考。
大數據時代已經來臨,采集、處理某些特定數據的平臺和技術都已具備,決策的制定不再依賴于直覺或經驗判斷,而是建立在體量龐大的數據基礎上,讓數據智能化、智慧化,年鑒工作只有與時俱進,主動擁抱和融入大數據熱潮,才能不斷煥發(fā)生機和活力,年鑒事業(yè)的大好局面才能順利開展。(責編:樊譽)
Enlightenment about Big Data Thinking Mode to Innovation of Local Comprehensive Yearbook
You Taoqin
游桃琴(1982—),女,江西省地方志編纂委員會辦公室,副主任科員,研究方向為年鑒編纂。