安楠+祝忠明
摘 要:數(shù)據(jù)搜集作為智庫(kù)數(shù)據(jù)價(jià)值鏈的首要環(huán)節(jié),在智庫(kù)研究中承擔(dān)著重要作用。文章選取《2015全球智庫(kù)排名》中具有參考價(jià)值的十余家智庫(kù)機(jī)構(gòu),通過(guò)網(wǎng)絡(luò)調(diào)研和文獻(xiàn)調(diào)研方法總結(jié)歸納了這些國(guó)外智庫(kù)機(jī)構(gòu)的數(shù)據(jù)搜集策略。研究發(fā)現(xiàn)智庫(kù)現(xiàn)有的傳統(tǒng)信息搜集策略和方法已無(wú)法適應(yīng)大數(shù)據(jù)環(huán)境下體量大、更新快、形式多的數(shù)據(jù)特征。結(jié)合當(dāng)前新型搜集技術(shù)的應(yīng)用案例及數(shù)據(jù)價(jià)值鏈理論,研究認(rèn)為實(shí)現(xiàn)數(shù)據(jù)采集自動(dòng)化、制定數(shù)據(jù)采集規(guī)則并構(gòu)建智庫(kù)知識(shí)庫(kù)將資源語(yǔ)義化是大數(shù)據(jù)環(huán)境下智庫(kù)數(shù)據(jù)搜集階段應(yīng)盡快采取的措施。
關(guān)鍵詞:智庫(kù);數(shù)據(jù)搜集;搜集策略;大數(shù)據(jù);數(shù)據(jù)價(jià)值鏈理論
中圖分類(lèi)號(hào):G250.2 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.11968/tsyqb.1003-6938.2017063
Abstract Data collection is the primary link in the value chain of the think tank and it plays an important role in the research of the think tank. This paper first selects more than ten think tanks with reference value in the 2015 Global Go To Think Tank Index Report, then summarizes the data collection strategies of foreign think tank institutions through network research and literature research. It is found that the existing traditional information collection strategies and methods of the think tank cannot adapt to the data characteristics in the big data environment. This paper studies the current application of new acquisition technologies and the data value chain theory and comes to a conclusion that think tanks should take the following measures the data collection as soon as possible: the realization of data acquisition automation, the development of data collection rules and the construction of the think tank knowledge base to process resource semantic.
Key words think tank; data collection; collection strategy;big data; data value chain theory
1 引言
智庫(kù)是公共政策的研究分析和參與機(jī)構(gòu),它們針對(duì)國(guó)內(nèi)、國(guó)際問(wèn)題開(kāi)展政策導(dǎo)向性的研究、分析和咨詢(xún),以使得政策制定者和公眾能夠依據(jù)可靠的信息進(jìn)行決策[1]。 其主要作用是為決策制定者提供及時(shí)、全面、準(zhǔn)確的支持信息,支持信息的范圍、數(shù)量、質(zhì)量、服務(wù)內(nèi)容、服務(wù)方式等都將直接影響到?jīng)Q策制定的效果[2],因此,擁有完善的信息支持機(jī)制是智庫(kù)產(chǎn)生高質(zhì)量決策咨詢(xún)成果的重要保障。
在當(dāng)今大數(shù)據(jù)時(shí)代,人們面臨的最大問(wèn)題不再是信息匱乏,而是如何從海量信息中發(fā)現(xiàn)、提取有價(jià)值的數(shù)據(jù)信息為自己所用。對(duì)新型智庫(kù)而言,若不能及時(shí)從傳統(tǒng)的信息搜集策略中轉(zhuǎn)變,將無(wú)法適應(yīng)體量巨大、形式繁多、更新速度快、價(jià)值密度低的大數(shù)據(jù)特征[3],進(jìn)而影響智庫(kù)政策研究過(guò)程及產(chǎn)出的效率。本文依據(jù)賓大《2015年全球智庫(kù)報(bào)告》的綜合排名及各項(xiàng)領(lǐng)域排名,選取了排名靠前的十余家具有代表性的國(guó)外智庫(kù)作為研究對(duì)象,對(duì)其數(shù)據(jù)采集策略進(jìn)行分析,結(jié)合大數(shù)據(jù)環(huán)境特征,提出新的智庫(kù)信息支持機(jī)制需要完善的方向。
2 國(guó)外智庫(kù)傳統(tǒng)數(shù)據(jù)搜集策略和主要方式
智庫(kù)的功能之一就是依據(jù)現(xiàn)有的資料和數(shù)據(jù)對(duì)未來(lái)形勢(shì)進(jìn)行預(yù)測(cè),對(duì)于一些針對(duì)特定任務(wù)或課題的智庫(kù)項(xiàng)目,如涉及到戰(zhàn)爭(zhēng)形勢(shì)、氣候變化、行為科學(xué)、藥物病理等領(lǐng)域的研究,沒(méi)有完全適用的數(shù)據(jù)或難以獲取到先前的實(shí)驗(yàn)數(shù)據(jù),需要智庫(kù)機(jī)構(gòu)自主開(kāi)展調(diào)查研究或設(shè)計(jì)科學(xué)實(shí)驗(yàn)來(lái)直接采集適用于特定項(xiàng)目的數(shù)據(jù)。通過(guò)調(diào)研總結(jié)發(fā)現(xiàn),國(guó)外智庫(kù)的信息搜集策略可分為直接生產(chǎn)創(chuàng)造和間接搜集獲取兩種途徑(見(jiàn)表1)。其中直接生產(chǎn)創(chuàng)造又分為開(kāi)展調(diào)查研究和設(shè)計(jì)實(shí)施實(shí)驗(yàn)兩種方式,間接搜集獲取又分為自身館藏建設(shè)和合作交流共建兩種方式,自身館藏建設(shè)可進(jìn)一步細(xì)分為搜集公開(kāi)數(shù)據(jù)、購(gòu)買(mǎi)數(shù)據(jù)庫(kù)、自身館藏累積等。
2.1 通過(guò)開(kāi)展調(diào)研獲取數(shù)據(jù)
調(diào)查研究是智庫(kù)機(jī)構(gòu)最常用的數(shù)據(jù)搜集方式之一,智庫(kù)研究人員通常運(yùn)用的傳統(tǒng)調(diào)研方法有文獻(xiàn)調(diào)查法、統(tǒng)計(jì)調(diào)查法、問(wèn)卷調(diào)查法、專(zhuān)家調(diào)查法、訪(fǎng)談?wù){(diào)查法等,其中文獻(xiàn)調(diào)查法因其低成本和易開(kāi)展成為使用頻率最高的方法。在調(diào)查研究過(guò)程中智庫(kù)專(zhuān)家經(jīng)常不拘泥于某種特定方法,而是相互交錯(cuò)、靈活運(yùn)用。
在傳統(tǒng)調(diào)研運(yùn)用中比較典型的有美國(guó)布魯金斯學(xué)會(huì)、胡佛研究所、卡內(nèi)基國(guó)際和平基金會(huì)等老牌智庫(kù)。其中,布魯金斯學(xué)會(huì)是美國(guó)乃至世界最具影響力的智庫(kù)之一,已連續(xù)9年被《全球智庫(kù)報(bào)告》評(píng)選為“全球最佳智庫(kù)”以及“全美最佳智庫(kù)”[4],通過(guò)對(duì)其網(wǎng)站上收錄的研究項(xiàng)目進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),截至目前布魯金斯學(xué)會(huì)已有801項(xiàng)課題的研究報(bào)告、文章、專(zhuān)著是基于各種調(diào)查研究方法完成的,其研究?jī)?nèi)容的范圍和主題是基于開(kāi)放調(diào)查并綜合了300多位學(xué)者代表的不同觀點(diǎn)。調(diào)查研究的范圍包括商業(yè)金融、國(guó)防安全、經(jīng)濟(jì)、教育、能源與環(huán)境等15個(gè)領(lǐng)域,每個(gè)領(lǐng)域主題下又細(xì)分為若干子主題。本文發(fā)現(xiàn)以布魯金斯學(xué)會(huì)為代表的綜合智庫(kù)在其開(kāi)展的調(diào)查研究項(xiàng)目中以統(tǒng)計(jì)調(diào)查法使用的居多,尤其在經(jīng)濟(jì)研究與社會(huì)研究方面,在涉及到人口、經(jīng)濟(jì)增長(zhǎng)、國(guó)民生產(chǎn)力、債務(wù)問(wèn)題、進(jìn)出口貿(mào)易等領(lǐng)域的問(wèn)題時(shí)需要借助大規(guī)模、真實(shí)準(zhǔn)確的數(shù)字來(lái)反映現(xiàn)實(shí)問(wèn)題并以此作為政策調(diào)整的依據(jù)。樣本數(shù)據(jù)量越大越全面自然能越準(zhǔn)確反映總體的情況,在當(dāng)今大數(shù)據(jù)環(huán)境下通過(guò)獲取更全的數(shù)據(jù)樣本并對(duì)其進(jìn)行統(tǒng)計(jì)分析已經(jīng)成為開(kāi)展大規(guī)模研究的主流方法與趨勢(shì)。endprint
此外,為了順應(yīng)全球化發(fā)展要求,擴(kuò)展業(yè)務(wù)范圍擴(kuò)大全球影響力,同時(shí)為了避免語(yǔ)言障礙和文化差異對(duì)研究樣本總體特征的把握造成干擾,實(shí)力雄厚的智庫(kù)往往會(huì)在各地開(kāi)設(shè)分支機(jī)構(gòu),通過(guò)開(kāi)展實(shí)地調(diào)研來(lái)為數(shù)據(jù)搜集提供更便捷可靠的信息來(lái)源。如布魯金斯學(xué)會(huì)在北京、多哈、新德里等城市設(shè)有分支機(jī)構(gòu),為自己搜集有關(guān)信息和情報(bào);卡內(nèi)基國(guó)際和平基金會(huì)除了位于美國(guó)華盛頓的總部外,還在莫斯科、北京、布魯塞爾、貝魯特、新德里分別設(shè)立有政策研究中心,每個(gè)中心分別擁有獨(dú)立的研究主題、項(xiàng)目、專(zhuān)家團(tuán)隊(duì)等,從而在全球建立起自己的數(shù)據(jù)調(diào)研網(wǎng)絡(luò)。以北京的卡內(nèi)基-清華全球政策中心為例,其機(jī)構(gòu)本身就是卡內(nèi)基“亞洲項(xiàng)目”的一部分,該項(xiàng)目旨在為政策制定者提供關(guān)于亞太地區(qū)經(jīng)濟(jì)、安全、政策發(fā)展的清晰準(zhǔn)確的分析,卡內(nèi)基-清華全球政策中心主要負(fù)責(zé)包括國(guó)際經(jīng)濟(jì)貿(mào)易、能源與氣候變化、防止核擴(kuò)散及軍備控制,以及朝鮮、伊朗、南亞、中東地區(qū)的潛在安全威脅,在北京及世界各地的分支機(jī)構(gòu)保障了卡內(nèi)基在對(duì)應(yīng)范圍內(nèi)信息收集的可靠性與便利性。目前,卡內(nèi)基國(guó)際和平基金會(huì)已在全球20多個(gè)國(guó)家擁有超過(guò)100位專(zhuān)家,每個(gè)地區(qū)的學(xué)者均從當(dāng)?shù)剡x拔并用當(dāng)?shù)卣Z(yǔ)言撰寫(xiě)研究報(bào)告,由此在與全世界其他同事合作的過(guò)程中加深各個(gè)機(jī)構(gòu)對(duì)形成當(dāng)前世界范圍內(nèi)各種政策選擇環(huán)境的理解,并提出合情的政策問(wèn)題的解決方法。
2.2 通過(guò)實(shí)施實(shí)驗(yàn)獲取數(shù)據(jù)
除了調(diào)研方式以外,智庫(kù)研究人員有時(shí)需要借助特定的實(shí)驗(yàn)方法和工具圍繞某一課題開(kāi)展科學(xué)實(shí)驗(yàn)以獲取客觀真實(shí)的實(shí)驗(yàn)數(shù)據(jù),通過(guò)實(shí)驗(yàn)方法搜集到的數(shù)據(jù)信息具有直觀、量化等優(yōu)點(diǎn),并可通過(guò)調(diào)整某些參數(shù)來(lái)觀察同一實(shí)驗(yàn)在不同變量條件下的結(jié)果。
某些智庫(kù)研究如涉及到軍事預(yù)測(cè)、行為科學(xué)、藥物病理等具有多種不確定因素和結(jié)果的問(wèn)題時(shí)往往需要借助實(shí)驗(yàn)幫助研究人員排除外界干擾,突出主要因素,模擬研究事物或過(guò)程的發(fā)生,采集到的數(shù)據(jù)中既包括基因序列等通過(guò)實(shí)驗(yàn)設(shè)備獲取的實(shí)驗(yàn)數(shù)據(jù),也有通過(guò)遙感勘測(cè)、傳感器等實(shí)時(shí)觀測(cè)到的數(shù)據(jù),還包括經(jīng)濟(jì)模型、氣象數(shù)據(jù)等通過(guò)實(shí)驗(yàn)?zāi)P瞳@取的模擬數(shù)據(jù)。如美國(guó)蘭德公司在其成立之初主要為美軍提供調(diào)研和情報(bào)分析服務(wù),隨后其業(yè)務(wù)逐步擴(kuò)展。蘭德公司已意識(shí)到按照傳統(tǒng)的學(xué)科背景或政策領(lǐng)域組織科學(xué)能力的方法已不再足以加速創(chuàng)新,在“方法研究中心”板塊下蘭德公司分別展示了多樣化、多學(xué)科的創(chuàng)新方法和分析工具。以“游戲中心”為例,“游戲”可以被認(rèn)為是滿(mǎn)足一定特征的任何互動(dòng)過(guò)程[5],游戲這種戰(zhàn)略分析思路常被蘭德專(zhuān)家在一個(gè)分析過(guò)程中的不同節(jié)點(diǎn)使用來(lái)實(shí)現(xiàn)不同的目標(biāo),在使用游戲方法分析特定課題時(shí),需要通過(guò)反復(fù)建模來(lái)獲取大量實(shí)驗(yàn)數(shù)據(jù)對(duì)現(xiàn)實(shí)情況進(jìn)行模擬仿真,以保證設(shè)計(jì)方案在投入實(shí)際運(yùn)用時(shí)產(chǎn)生最大的效用和最小的誤差。又如,在“不確定性條件下決策制定中心”針對(duì)個(gè)人決策的制定時(shí),蘭德專(zhuān)家運(yùn)用行為學(xué)實(shí)驗(yàn)的方法對(duì)被實(shí)驗(yàn)者從心智模式方面進(jìn)行考察并獲取各項(xiàng)指標(biāo)數(shù)據(jù),以在決策制定過(guò)程中提供直接參考作用??ㄍ醒芯克–ato Institute)經(jīng)常開(kāi)展各種實(shí)驗(yàn)以獲取一手原始信息用于支撐自身的研究。如在研究人類(lèi)文化與習(xí)俗的演變中,卡托研究所選取了17世紀(jì)位于中非的庫(kù)巴王國(guó)的一段歷史事件,并據(jù)此針對(duì)居住在卡南加的居民設(shè)計(jì)了兩個(gè)行為實(shí)驗(yàn)進(jìn)行研究[6]。
2.3 搜集各類(lèi)公開(kāi)數(shù)據(jù)
利用各種信息渠道直接采集各類(lèi)公開(kāi)數(shù)據(jù)是最經(jīng)濟(jì)便捷也是智庫(kù)研究人員最常用到的數(shù)據(jù)搜集方式之一。智庫(kù)最初出現(xiàn)的20世紀(jì)50年代,研究人員主要依靠圖書(shū)、報(bào)紙、期刊、年鑒、檔案等紙質(zhì)印刷出版物進(jìn)行公開(kāi)資料的搜集工作;20世紀(jì)90年代末互聯(lián)網(wǎng)的普及使得各種形式的大量數(shù)字化信息迅速傳播,其中公開(kāi)信息占絕大部分,包括由政府各部門(mén)發(fā)布的國(guó)民經(jīng)濟(jì)數(shù)據(jù)、人口數(shù)據(jù)等官方信息,以及各類(lèi)新聞報(bào)道、天氣數(shù)據(jù)、影視文字等非官方信息,同時(shí)開(kāi)放存取運(yùn)動(dòng)大規(guī)模地興起,科研成果和學(xué)術(shù)信息在互聯(lián)網(wǎng)上的傳播也得到了迅速推動(dòng)與交流,大量科研數(shù)據(jù)不再受到版權(quán)費(fèi)用和獲取權(quán)限的限制,智庫(kù)等咨詢(xún)機(jī)構(gòu)及學(xué)術(shù)機(jī)構(gòu)可以更便捷地獲取到各種類(lèi)型的科研數(shù)據(jù)和學(xué)術(shù)資料。
智庫(kù)在進(jìn)行信息搜集時(shí)往往會(huì)同時(shí)兼顧紙質(zhì)信息源和數(shù)字信息源,尤其是政府部門(mén)及知名機(jī)構(gòu)發(fā)布的權(quán)威性數(shù)據(jù)資源,以保證智庫(kù)研究產(chǎn)出的可靠性。如查塔姆研究所(Chatham House)在開(kāi)展研究時(shí)數(shù)據(jù)信息來(lái)源十分廣泛,其中絕大部分來(lái)自各機(jī)構(gòu)組織和新聞媒體發(fā)布的公開(kāi)信息資源,以其“能源”專(zhuān)題下的一篇研究報(bào)告[7]為例,在研究外交政策對(duì)能源安全、氣候與競(jìng)爭(zhēng)力的影響時(shí),引用了大量研究報(bào)告、新聞報(bào)道、事實(shí)依據(jù)與統(tǒng)計(jì)數(shù)據(jù),其中不乏有歐盟委員會(huì)、歐盟統(tǒng)計(jì)局、歐洲委員會(huì)、歐洲風(fēng)能協(xié)會(huì)等這種國(guó)際權(quán)威組織機(jī)構(gòu),也有牛津大學(xué)這樣的學(xué)術(shù)機(jī)構(gòu),還有能源社區(qū)組織、摩根士丹利公司這種獨(dú)立機(jī)構(gòu)和企業(yè),此外,英國(guó)《衛(wèi)報(bào)》、路透社等媒體機(jī)構(gòu)以及各種會(huì)議論壇的公開(kāi)資料也是智庫(kù)研究人員在研究過(guò)程中的信息來(lái)源。
基于開(kāi)放獲取的便利,學(xué)術(shù)類(lèi)資料也成為智庫(kù)機(jī)構(gòu)信息搜集的主要來(lái)源之一,如卡托研究所的出版物《政策分析》在一項(xiàng)針對(duì)恐怖主義和移民的研究[8]中,除了從洛杉磯時(shí)報(bào)、美國(guó)國(guó)土安全局、審計(jì)局等媒體報(bào)道及權(quán)威機(jī)構(gòu)收集公開(kāi)數(shù)據(jù)外,還引用了如《Terrorism and Political Violence》《International Interactions》《Journal of Economic Perspectives》《Insurance Journal》等學(xué)術(shù)期刊資料,以及蘭德公司的全球恐怖事件數(shù)據(jù)庫(kù)、馬里蘭大學(xué)的全球恐怖主義數(shù)據(jù)庫(kù)(GTD)等機(jī)構(gòu)資料。
2.4 購(gòu)買(mǎi)數(shù)據(jù)庫(kù)獲取數(shù)據(jù)
面向研究領(lǐng)域的特定需求從數(shù)據(jù)提供商購(gòu)買(mǎi)專(zhuān)業(yè)數(shù)據(jù)庫(kù)也是智庫(kù)進(jìn)行數(shù)據(jù)采集的常見(jiàn)方式,尤其對(duì)附屬于高校的學(xué)術(shù)性智庫(kù)機(jī)構(gòu)來(lái)說(shuō),采購(gòu)ProQuest、Springer、IEEE、Elsevier等學(xué)術(shù)型期刊全文數(shù)據(jù)庫(kù)是開(kāi)展研究的必須基礎(chǔ)設(shè)施之一。對(duì)于資金實(shí)力雄厚的智庫(kù),直接采購(gòu)數(shù)據(jù)省去了自主調(diào)研、開(kāi)展實(shí)驗(yàn)和信息采集環(huán)節(jié)的時(shí)間與財(cái)力,可以迅速將精力與資源投入到研究中。endprint
馬普學(xué)會(huì)是由德國(guó)政府資助的全國(guó)性學(xué)術(shù)機(jī)構(gòu),是歐洲國(guó)家級(jí)科研機(jī)構(gòu)的典型代表,無(wú)論從規(guī)模還是研究影響力均位居世界前列。本文通過(guò)對(duì)其各機(jī)構(gòu)職能進(jìn)行調(diào)研表明,馬普學(xué)會(huì)除了主要作為國(guó)家科研機(jī)構(gòu)開(kāi)展研究活動(dòng)外,它還適時(shí)發(fā)揮著科技智庫(kù)的功能。作為國(guó)家智庫(kù),馬普學(xué)會(huì)已連續(xù)多年在《全球智庫(kù)報(bào)告》的科學(xué)技術(shù)領(lǐng)域智庫(kù)中排列第一。馬普學(xué)會(huì)成立的馬普數(shù)字圖書(shū)館(The Max Planck Digital Library,MPDL)為其下80多個(gè)研究所提供科學(xué)信息支持和基于網(wǎng)絡(luò)的學(xué)術(shù)交流,在提供學(xué)術(shù)服務(wù)的同時(shí)為其智庫(kù)職能提供數(shù)據(jù)支持。MPDL的Factual Databases專(zhuān)題數(shù)據(jù)資源下的14個(gè)數(shù)據(jù)庫(kù)提供了大量事實(shí)型數(shù)據(jù),其中8個(gè)社會(huì)經(jīng)濟(jì)數(shù)據(jù)庫(kù)均采用訂購(gòu)獲取的方式采集。此外,馬普學(xué)會(huì)還很重視基礎(chǔ)數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)的長(zhǎng)期積累,以期產(chǎn)生增值效應(yīng),如以數(shù)據(jù)檔案的方式訂閱了國(guó)家報(bào)告,并訂購(gòu)了全球最大的統(tǒng)計(jì)數(shù)據(jù)門(mén)戶(hù)Statista公司的數(shù)據(jù)平臺(tái),Statista擁有超過(guò)來(lái)自18000個(gè)數(shù)據(jù)源的共計(jì)1000000多條數(shù)據(jù),覆蓋600多個(gè)行業(yè),80000多個(gè)主題及10000多項(xiàng)研究。
2.5 機(jī)構(gòu)圖書(shū)館(檔案館)館藏?cái)?shù)據(jù)
對(duì)智庫(kù)來(lái)說(shuō)自身圖書(shū)館(檔案館)在信息的搜集和利用過(guò)程中占有舉足輕重的地位,智庫(kù)圖書(shū)館(檔案館)是智庫(kù)基于組織自身一定量的現(xiàn)有資源而逐漸積累形成的資料收集、整理與存儲(chǔ)機(jī)構(gòu),作為智庫(kù)重要的信息保障機(jī)構(gòu)收藏了豐富的數(shù)據(jù)信息資源,包括期刊、文獻(xiàn)、圖書(shū)專(zhuān)著、檔案、報(bào)紙以及數(shù)字化的數(shù)據(jù)庫(kù)等資料。一個(gè)機(jī)構(gòu)的圖書(shū)館若在某一研究領(lǐng)域的信息資源館藏較為豐富,就意味著該機(jī)構(gòu)對(duì)該研究領(lǐng)域占有了優(yōu)勢(shì)。圖書(shū)館館藏的優(yōu)勢(shì)內(nèi)容一定程度上影響了智庫(kù)在研究課題選擇方向上的偏好;另一方面智庫(kù)在信息資源建設(shè)時(shí)也會(huì)有針對(duì)性地對(duì)優(yōu)勢(shì)領(lǐng)域的信息資源進(jìn)行完善補(bǔ)充和鞏固,以確保其核心競(jìng)爭(zhēng)力。
事實(shí)上,國(guó)外不少知名智庫(kù)的出現(xiàn)最初都是基于對(duì)特定的研究領(lǐng)域和項(xiàng)目的持續(xù)關(guān)注而成立的,且都會(huì)專(zhuān)門(mén)設(shè)立圖書(shū)資料部門(mén)以為專(zhuān)家的決策過(guò)程提供知識(shí)服務(wù)。如蘭德公司就是由于一批美國(guó)科學(xué)家與工程師在二戰(zhàn)期間將運(yùn)籌學(xué)運(yùn)用于作戰(zhàn)取得了重大成績(jī),戰(zhàn)后受到軍方高度重視而決定成立一個(gè)“獨(dú)立的、介于官民之間進(jìn)行客觀分析的研究機(jī)構(gòu)”[9],其特色資源中仍保留了大量與軍事相關(guān)的數(shù)據(jù)與工具;又如美國(guó)總統(tǒng)胡佛創(chuàng)立的胡佛研究所,其建立的初衷是為了收集與第一次世界大戰(zhàn)的形成和發(fā)展有關(guān)的歷史資料和文件,因此在胡佛研究所成立初期它只是一個(gè)專(zhuān)門(mén)的圖書(shū)資料收集中心,直至20世紀(jì)40年代末該研究所才開(kāi)始招募學(xué)者進(jìn)行研究工作。
大部分智庫(kù)都會(huì)圍繞其優(yōu)勢(shì)領(lǐng)域有針對(duì)性地進(jìn)行館藏資源構(gòu)建。日本國(guó)際問(wèn)題研究所JIIA是日本研究國(guó)際問(wèn)題的核心機(jī)構(gòu),旨在通過(guò)對(duì)國(guó)際問(wèn)題的專(zhuān)門(mén)研究,為日本外交政策的制定提供建設(shè)性意見(jiàn),并向公眾傳播國(guó)際關(guān)系的有關(guān)信息。其數(shù)字圖書(shū)館有針對(duì)性地從法治、外交、領(lǐng)土、亞太國(guó)際環(huán)境(中國(guó)及朝鮮半島)幾個(gè)部分開(kāi)展資源建設(shè),為本機(jī)構(gòu)專(zhuān)家在國(guó)際安全保障和地區(qū)問(wèn)題研究?jī)蓚€(gè)研究領(lǐng)域提供信息支撐。
2.6 合作交流與共建數(shù)據(jù)資源
當(dāng)今的國(guó)際政治經(jīng)濟(jì)形勢(shì)日趨復(fù)雜,單靠一家智庫(kù)的研究很難全方位覆蓋各地區(qū)的各類(lèi)重大問(wèn)題,也不符合智庫(kù)的擴(kuò)張需求。因此智庫(kù)依托自身信息資源尋求合作發(fā)展逐漸成為一種新趨勢(shì),一方面可以將資源進(jìn)行整合,進(jìn)一步拓展和深化共同研究領(lǐng)域的項(xiàng)目研究;另一方面可以避免重復(fù)建設(shè)造成資源的浪費(fèi)。比較常見(jiàn)的有聯(lián)合舉辦政策研討會(huì)、政策論壇、開(kāi)展學(xué)習(xí)培訓(xùn)等合作形式,通過(guò)人員交流和開(kāi)放性討論獲得有益的數(shù)據(jù)信息、研究資料、技術(shù)及經(jīng)驗(yàn);還有智庫(kù)通過(guò)與其他權(quán)威機(jī)構(gòu)合作共建數(shù)據(jù)庫(kù),豐富彼此數(shù)據(jù)資源的同時(shí)實(shí)現(xiàn)共贏。如德國(guó)國(guó)際和安全事務(wù)研究所SWP與12家德國(guó)研究機(jī)構(gòu)合作建立了歐洲國(guó)際關(guān)系與地區(qū)研究信息網(wǎng)絡(luò)EINIRAS,并通過(guò)項(xiàng)目合作的形式分別建立了歐洲最大的國(guó)際關(guān)系研究資源庫(kù)“世界事務(wù)在線(xiàn)”(Database World Affairs Online,WAO)、一個(gè)國(guó)際關(guān)系與區(qū)域研究領(lǐng)域的搜索門(mén)戶(hù)IREON,以及包含德、英、法、意、俄、克羅地亞、波蘭、西班牙、捷克9個(gè)歐洲國(guó)家語(yǔ)言的主題詞詞表項(xiàng)目European Thesaurus,它為WAO和IREON的主題索引提供了支持。這種聯(lián)盟化的合作形式和成果不論從機(jī)構(gòu)內(nèi)部還是機(jī)構(gòu)外部都極大提升了數(shù)據(jù)支撐能力,同時(shí)強(qiáng)化了各合作機(jī)構(gòu)的相關(guān)研究領(lǐng)域在國(guó)際上的競(jìng)爭(zhēng)力。
3 大數(shù)據(jù)環(huán)境下智庫(kù)急需新的信息搜集策略
通過(guò)以上調(diào)研可以看出,國(guó)外智庫(kù)的信息搜集策略雖然相對(duì)已比較成熟,有規(guī)范化的流程和完善的分類(lèi)體系,但不足之處在于采集到的資源相對(duì)獨(dú)立,數(shù)據(jù)之間缺少必要的關(guān)聯(lián),對(duì)信息進(jìn)行標(biāo)引和組織需要較多的人工參與,這種半自動(dòng)化的信息支持機(jī)制在體量大、更新快、形式多的大數(shù)據(jù)時(shí)代勢(shì)必會(huì)面臨挑戰(zhàn)。
3.1 智庫(kù)傳統(tǒng)信息搜集策略已無(wú)法適應(yīng)大數(shù)據(jù)環(huán)境
大數(shù)據(jù)下基于數(shù)據(jù)驅(qū)動(dòng)的科研過(guò)程需要更高效的信息支持機(jī)制。21世紀(jì)伴隨著互聯(lián)網(wǎng)、云計(jì)算和社交網(wǎng)絡(luò)的發(fā)展,一切事物皆可數(shù)據(jù)化,大數(shù)據(jù)逐漸在各行各業(yè)滲透,政府、企業(yè)和各類(lèi)機(jī)構(gòu)都能輕易獲得海量數(shù)據(jù),任何信息過(guò)程都開(kāi)始呈現(xiàn)出一種“數(shù)據(jù)驅(qū)動(dòng)”的趨勢(shì)。當(dāng)前全球形勢(shì)瞬息萬(wàn)變,智庫(kù)決策產(chǎn)品具有很強(qiáng)的時(shí)效性,因此智庫(kù)決策研究過(guò)程不僅要求準(zhǔn)確,更強(qiáng)調(diào)大數(shù)據(jù)下對(duì)數(shù)據(jù)搜集及處理的效率,這就要求智庫(kù)必須將非結(jié)構(gòu)化數(shù)據(jù)資源處理成能夠被計(jì)算機(jī)自動(dòng)識(shí)別并處理的“可計(jì)算”數(shù)據(jù),以實(shí)現(xiàn)智庫(kù)研究數(shù)據(jù)搜集、數(shù)據(jù)組織、數(shù)據(jù)分析、數(shù)據(jù)利用流程在計(jì)算機(jī)上的自動(dòng)化,從而迅速、準(zhǔn)確地為決策研究提供數(shù)據(jù)支撐。
通過(guò)調(diào)研可知目前國(guó)外智庫(kù)雖已有較完善的信息搜集策略,但人工參與環(huán)節(jié)較多,整體效率不高,在大數(shù)據(jù)環(huán)境下各種傳統(tǒng)數(shù)據(jù)采集方法的不足逐漸顯露。如調(diào)查研究方式中以文獻(xiàn)調(diào)研法和問(wèn)卷調(diào)研法為例,它們都是智庫(kù)必不可少的信息采集方法,但信息的挖掘能力在包含各種復(fù)雜類(lèi)型的海量數(shù)據(jù)中十分有限,文獻(xiàn)調(diào)研法由于所研究文獻(xiàn)的區(qū)別(如一次、二次文獻(xiàn)加工程度不同或載體不同)導(dǎo)致人為分析全面性和效率上的不足,而問(wèn)卷調(diào)研法在互聯(lián)網(wǎng)環(huán)境下無(wú)法保證準(zhǔn)確有效地反映了受訪(fǎng)者的真實(shí)想法,效度較低,且一旦在后期發(fā)現(xiàn)錯(cuò)誤將很難補(bǔ)救[10]。這些缺陷都會(huì)導(dǎo)致智庫(kù)在分析處理階段出現(xiàn)一定偏差,使智庫(kù)產(chǎn)品存在瑕疵。此外,調(diào)研法和實(shí)驗(yàn)法都需要一定的時(shí)間周期才能獲取信息,在目前智庫(kù)要求對(duì)突發(fā)事件和熱點(diǎn)事件迅速相應(yīng)的趨勢(shì)下略顯被動(dòng)。間接采集策略中購(gòu)買(mǎi)數(shù)據(jù)庫(kù)的方式成本高昂且難以囊括大數(shù)據(jù)下的所有樣本,依靠自身累積或?qū)で蠛献饕泊嬖诤艽蟮木窒扌?,因此利用互?lián)網(wǎng)搜集公開(kāi)數(shù)據(jù)成為絕大部分智庫(kù)獲取信息數(shù)據(jù)的首選途徑。綜上,傳統(tǒng)的數(shù)據(jù)采集方法已無(wú)法適應(yīng)當(dāng)下實(shí)時(shí)更新的大規(guī)模非結(jié)構(gòu)化的大數(shù)據(jù)環(huán)境,數(shù)據(jù)采集效率將大打折扣,同時(shí)數(shù)據(jù)存儲(chǔ)方式也需進(jìn)行相應(yīng)轉(zhuǎn)變,相對(duì)于結(jié)構(gòu)化數(shù)據(jù)可以二維表結(jié)構(gòu)的形式存儲(chǔ)在關(guān)系數(shù)據(jù)庫(kù)中,智庫(kù)采集到的大量非結(jié)構(gòu)化數(shù)據(jù)包括文檔、圖像、聲音、視頻、超媒體等信息難以通過(guò)一般結(jié)構(gòu)化的方式進(jìn)行存儲(chǔ),這也是數(shù)據(jù)采集需事先考慮的問(wèn)題。endprint
3.2 新型搜集技術(shù)的發(fā)展應(yīng)用及相關(guān)實(shí)踐案例
大數(shù)據(jù)時(shí)代背景下需要處理的數(shù)據(jù)量迅速膨脹,谷歌、Facebook、亞馬遜、百度等大型互聯(lián)網(wǎng)企業(yè)作為大數(shù)據(jù)的生產(chǎn)者也是主要使用者,參與研發(fā)并運(yùn)用各種最新的數(shù)據(jù)采集、清洗和挖掘技術(shù)或工具實(shí)現(xiàn)對(duì)大數(shù)據(jù)的自動(dòng)化處理,以擴(kuò)大數(shù)據(jù)處理量,提高數(shù)據(jù)處理效率,如比較常見(jiàn)的WEKA、Rapidminer、Orange等。智庫(kù)可借鑒互聯(lián)網(wǎng)企業(yè)的經(jīng)驗(yàn),運(yùn)用數(shù)據(jù)挖掘、網(wǎng)絡(luò)爬蟲(chóng)、機(jī)器學(xué)習(xí)等先進(jìn)的大數(shù)據(jù)技術(shù)實(shí)現(xiàn)智庫(kù)從信息采集環(huán)節(jié),到信息組織、信息分析一系列流程的自動(dòng)化,逐漸減少不必要的人工參與,從而更迅速地搜集到更全面的數(shù)據(jù)資料,在“數(shù)據(jù)驅(qū)動(dòng)”趨勢(shì)下極大提升智庫(kù)自身的信息處理效率。
機(jī)構(gòu)知識(shí)庫(kù)作為智庫(kù)知識(shí)庫(kù)的一般形式,在國(guó)內(nèi)外已有較多關(guān)于信息采集的理論與技術(shù)研究取得成果并得到了有效應(yīng)用,值得智庫(kù)借鑒。如由麻省理工學(xué)院圖書(shū)館(MIT Libraries)和惠普公司實(shí)驗(yàn)室(Hewlett-Packard Labs)合作研發(fā)的DSpace系統(tǒng)是一個(gè)專(zhuān)門(mén)的數(shù)字資產(chǎn)管理系統(tǒng),便于收集、存儲(chǔ)、保存和發(fā)布數(shù)據(jù),類(lèi)似還有Eprints、OCLC開(kāi)發(fā)的CONTENTdm等,可以在語(yǔ)義層面對(duì)采集到的文檔進(jìn)行元數(shù)據(jù)填充;中國(guó)科學(xué)院蘭州文獻(xiàn)情報(bào)中心也基于DSpace搭建中科院機(jī)構(gòu)知識(shí)庫(kù)平臺(tái)(CAS-IR),對(duì)本機(jī)構(gòu)知識(shí)內(nèi)容進(jìn)行捕獲、轉(zhuǎn)化和傳播,并嘗試?yán)藐P(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)知識(shí)庫(kù)資源的語(yǔ)義擴(kuò)展[11]。然而由于智庫(kù)知識(shí)庫(kù)無(wú)論從服務(wù)對(duì)象、數(shù)據(jù)來(lái)源、資源種類(lèi)還是開(kāi)放程度上都與機(jī)構(gòu)知識(shí)庫(kù)有一定差異,因此在借鑒機(jī)構(gòu)知識(shí)庫(kù)數(shù)據(jù)搜集策略的過(guò)程中應(yīng)留意這些特征。
3.3 大數(shù)據(jù)下智庫(kù)信息搜集策略的建議
智庫(kù)的政策研究過(guò)程實(shí)際上是一個(gè)知識(shí)增值的過(guò)程,每一項(xiàng)活動(dòng)都是這一價(jià)值鏈條上的一個(gè)環(huán)節(jié)。T.Gustafson和D.Fink[12]于2013年提出“大數(shù)據(jù)價(jià)值鏈”的概念,認(rèn)為每條大數(shù)據(jù)價(jià)值鏈簡(jiǎn)化后都至少應(yīng)由4個(gè)基本階段組成:數(shù)據(jù)獲取——數(shù)據(jù)存儲(chǔ)——數(shù)據(jù)分析——數(shù)據(jù)應(yīng)用。基于此,結(jié)合智庫(kù)的一般運(yùn)作流程,本文提出大數(shù)據(jù)環(huán)境下的智庫(kù)數(shù)據(jù)價(jià)值鏈(見(jiàn)圖1),智庫(kù)數(shù)據(jù)價(jià)值鏈反映了在智庫(kù)運(yùn)作的各個(gè)階段圍繞數(shù)據(jù)進(jìn)行的活動(dòng),而大數(shù)據(jù)則為各環(huán)節(jié)提出了要求。智庫(kù)的數(shù)據(jù)采集作為數(shù)據(jù)價(jià)值鏈的首要環(huán)節(jié)承擔(dān)著重要的作用,數(shù)據(jù)采集的質(zhì)量和效率將直接影響到后續(xù)智庫(kù)產(chǎn)品的質(zhì)量和影響力?;诖?,針對(duì)當(dāng)前智庫(kù)在大數(shù)據(jù)時(shí)代背景下的信息搜集策略提出以下建議。
(1)數(shù)據(jù)采集的自動(dòng)化。運(yùn)用當(dāng)前最新數(shù)據(jù)采集技術(shù),實(shí)現(xiàn)智庫(kù)數(shù)據(jù)搜集環(huán)節(jié)的自動(dòng)化。面對(duì)浩瀚的大數(shù)據(jù),傳統(tǒng)通過(guò)人工或半自動(dòng)化的數(shù)據(jù)采集方式已不能滿(mǎn)足智庫(kù)在當(dāng)前國(guó)際形勢(shì)下的研究效率,利用信息技術(shù)將數(shù)據(jù)加工為可供計(jì)算機(jī)自動(dòng)處理的“可計(jì)算資源”已是必然趨勢(shì)。由智庫(kù)數(shù)據(jù)價(jià)值鏈可以看出,數(shù)據(jù)采集是大數(shù)據(jù)下實(shí)現(xiàn)智庫(kù)知識(shí)增值的第一步,通過(guò)信息抽取、網(wǎng)絡(luò)爬蟲(chóng)等技術(shù)自動(dòng)采集互聯(lián)網(wǎng)上的信息,在大數(shù)據(jù)環(huán)境下盡可能多地獲取更全面的數(shù)據(jù)樣本,為智庫(kù)政策研究提供大量的信息源,從而為后續(xù)的信息組織和分析打下基礎(chǔ)。
(2)制定必要的采集規(guī)則。智庫(kù)接觸到的大數(shù)據(jù)來(lái)源除了各類(lèi)數(shù)據(jù)庫(kù)外,還包括合作機(jī)構(gòu)間的共享數(shù)據(jù)、網(wǎng)絡(luò)出版的開(kāi)放數(shù)據(jù)等內(nèi)容。此外,各種傳感器收集數(shù)據(jù)、社交網(wǎng)絡(luò)用戶(hù)數(shù)據(jù)、移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等,凡是滿(mǎn)足開(kāi)展政策研究各領(lǐng)域需求的數(shù)據(jù)信息都成為智庫(kù)采集的對(duì)象。然而鑒于大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量參差不齊,必定會(huì)采集到一部分不合格數(shù)據(jù),所以有必要設(shè)置一定的數(shù)據(jù)采集規(guī)則并按一定標(biāo)準(zhǔn)格式進(jìn)行后續(xù)存儲(chǔ),以確保智庫(kù)采集到的資源將得到有效利用。
(3)構(gòu)建智庫(kù)知識(shí)庫(kù)。根據(jù)國(guó)際數(shù)據(jù)公司IDC的一項(xiàng)調(diào)查報(bào)告中指出,目前企業(yè)中的非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)占到數(shù)據(jù)總量的80%以上,且這些數(shù)據(jù)按照每年60%的速度增長(zhǎng)。智庫(kù)采集到的這些海量復(fù)雜類(lèi)型數(shù)據(jù)必須經(jīng)過(guò)統(tǒng)一處理,進(jìn)行組織存儲(chǔ)后,才能為后續(xù)分析提供“可計(jì)算”資源,即可通過(guò)計(jì)算機(jī)自動(dòng)識(shí)別和處理的信息資源。智庫(kù)知識(shí)庫(kù)是智庫(kù)機(jī)構(gòu)通過(guò)管理手段結(jié)合各種信息技術(shù)對(duì)相關(guān)信息數(shù)據(jù)進(jìn)行組織,形成該智庫(kù)機(jī)構(gòu)所擁有的知識(shí)集合,其主要目標(biāo)是將采集資源語(yǔ)義化,通過(guò)相互關(guān)聯(lián)的知識(shí)片發(fā)現(xiàn)數(shù)據(jù)間的規(guī)律和潛在知識(shí),并據(jù)此為用戶(hù)提供知識(shí)服務(wù)。
4 結(jié)語(yǔ)
本文調(diào)查了國(guó)外十余家具有代表性的智庫(kù)在信息搜集方面的策略與資源建設(shè),通過(guò)分析與總結(jié)可以看出,西方智庫(kù)的數(shù)據(jù)搜集策略雖較為全面,但已無(wú)法適應(yīng)當(dāng)前大數(shù)據(jù)特征的要求。文章提出利用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等技術(shù)工具實(shí)現(xiàn)自動(dòng)采集,并參考機(jī)構(gòu)知識(shí)庫(kù)的成功案例,盡快建立智庫(kù)知識(shí)庫(kù)提升自身數(shù)據(jù)采集和分析能力,使決策參考更具科學(xué)性與前瞻性。
參考文獻(xiàn):
[1] James G.McGann,University of Pennsylvania,2015 Global Go To Think Tank Index Report[EB/OL].[2016-08-10].http://repository.upenn.edu/think_tanks/10/.
[2] 吳育良.國(guó)外智庫(kù)決策信息支持研究及啟示[J].圖書(shū)館理論與實(shí)踐,2015(10):31-35.
[3] 廖球,嚴(yán)揚(yáng)帆,莫崇菊.大數(shù)據(jù)時(shí)代機(jī)構(gòu)自建學(xué)術(shù)數(shù)據(jù)庫(kù)研究[J].圖書(shū)館學(xué)刊,2014(4):34-36.
[4] Wikipedia.Brookings Institution[EB/OL].[2016-08-14].https://en.wikipedia.org/wiki/Brookings_Institution.
[5] Rand Corporation.Methods Centers at RAND[EB/OL].[2016-08-18].http://www.rand.org/capabilities/methods-centers/gaming.html.endprint
[6] Sara Lowes,Nathan Nunn,James A.Robinson,et al.Cato Institute[EB/OL].[2016-09-02].http://www.cato.org/publications/research-briefs-economic-policy/evolution-culture-institutions-evidence-kuba-kingdom.
[7] Thomas Raines,Shane Tomlinson.Chatham House[EB/OL].[2016-09-03].https://www.chathamhouse.org/sites/files/chathamhouse/publications/research/2016-03-31-europe-energy-union-raines-tomlinson.pdf.
[8] Alex Nowrasteh,Cato Institue.Terrorism and Immigration: A Risk Analysis[EB/OL].[2016-09-30].http://www.cato.org/publications/policy-analysis/terrorism-immigration-risk-analysis.
[9] MBA智庫(kù)百科.美國(guó)蘭德公司[EB/OL].[2016-10-01].http://wiki.mbalib.com/wiki/%E5%85%B0%E5%BE%B7.
[10] 王海峰.大數(shù)據(jù)智庫(kù):中國(guó)特色新型智庫(kù)建設(shè)途徑研究[D].上海:華東政法大學(xué),2016.
[11] 王思麗,祝忠明.利用關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)機(jī)構(gòu)知識(shí)庫(kù)的語(yǔ)義擴(kuò)展研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2011(11):17-23.
[12] Gustafson T,F(xiàn)ink D.Winning within the data value chain[J].Strategy & Innovation Newsletter,2013,14(2):1-5.
作者簡(jiǎn)介:安楠(1992-),男,中國(guó)科學(xué)院大學(xué)、中國(guó)科學(xué)院蘭州文獻(xiàn)情報(bào)中心碩士研究生;祝忠明(1969-),男,中國(guó)科學(xué)院蘭州文獻(xiàn)情報(bào)中心研究館員,博士生導(dǎo)師。endprint