鄭新曼 董瑜
關(guān)鍵詞: 科技規(guī)劃; 文本挖掘; 程度詞典; 政策量化分析
DOI:10.3969 / j.issn.1008-0821.2023.09.007
〔中圖分類號〕G203 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821 (2023) 09-0074-11
文本要素的識別、提取與分析是情報學(xué)研究定量化的重要組成部分, 拓展可量化的文本要素類型有助于情報研究向深度和廣度發(fā)展。如科技文獻(xiàn)與政策文本兩類文本要素間的關(guān)聯(lián)研究, 可用于厘清科學(xué)研究與政策制定之間的相互影響[1-2] , 支撐決策科學(xué)化。隨著大數(shù)據(jù)時代數(shù)據(jù)量的急劇增長和數(shù)據(jù)密集型科學(xué)研究范式的興起, 面向大樣本科技文獻(xiàn)文本要素抽取的研究不斷涌現(xiàn)[3] , 核心主題識別[4] 、新興主題探測[5] 等一系列方法探索, 為基于科技文獻(xiàn)的科學(xué)研究脈絡(luò)梳理發(fā)揮了重要作用。同時, 大樣本政策文本分析方法發(fā)展迅速, 按文本量化方式劃分, 可分為政策計量分析、內(nèi)容分析法和效詞分析法3 類[6] 。政策文本量化分析本質(zhì)是從非結(jié)構(gòu)化政策文本中提取并分析結(jié)構(gòu)化的文本要素,以較好地平衡分析深度和分析效率。然而, 目前用于量化分析的政策文本要素如政策主題詞、政策工具等, 以名詞性單詞或短語為主, 對動詞、形容詞等能反映決策者態(tài)度的文本要素利用不足[7] 。有研究表明, 中文科技政策中存在規(guī)范、穩(wěn)定且能反映決策者態(tài)度的程度詞, 結(jié)合由一系列程度詞組成的程度詞典的政策文本量化分析, 能兼顧詞語的語義及強(qiáng)度, 有助于深入挖掘政策文本中有價值的信息[7]。
為進(jìn)一步探索程度詞這一文本要素在中文政策量化研究中的價值, 本文擬開展基于程度詞典的政策文本分析研究, 以期為大樣本政策文本分析方法研究提供新的視角, 為中文語境下的科學(xué)研究與政策制定的關(guān)聯(lián)研究提供方法支撐。
1相關(guān)研究
1.1中文政策文本量化研究
隨著政策文本量化方法的發(fā)展, 近些年國內(nèi)從文本要素角度定量分析中文政策的研究成果逐漸增加, 量化維度從政策發(fā)布時間、發(fā)文機(jī)構(gòu)、效力級別、文種類型等政策文本結(jié)構(gòu)要素[8] , 逐步深入到政策主題詞、關(guān)鍵詞、政策工具等政策文本內(nèi)容要素; 研究對象主要圍繞與國計民生直接相關(guān), 通常具有較長發(fā)展周期的領(lǐng)域政策(如養(yǎng)老產(chǎn)業(yè)、新能源產(chǎn)業(yè)、脫貧攻堅), 以及當(dāng)前經(jīng)濟(jì)社會發(fā)展中的熱點難點問題, 通常是短期內(nèi)涌現(xiàn)大量政策的領(lǐng)域(如鄉(xiāng)村振興、人工智能、科技人才評價、突發(fā)公共衛(wèi)生事件應(yīng)對)等。祝鑫梅等[9] 從高頻詞和主題詞的角度, 分析了1979—2017 年國家層面的標(biāo)準(zhǔn)化政策245 份, 揭示中國標(biāo)準(zhǔn)化政策在不同階段的文本特征。劉亞亞等[10] 通過政策高頻主題詞以及由文本關(guān)鍵詞確定的政策工具, 分析2000 年以來94 份中國大數(shù)據(jù)政策的發(fā)展演化特征。段堯清等[11] 選取了2008—2018年63 份中國政府信息公開政策, 將政策文本段落分為公開主體、公開內(nèi)容、公開渠道和監(jiān)督保障措施4 類內(nèi)容, 并基于各類內(nèi)容的關(guān)鍵詞分析政策演化過程。楊銳等[12] 使用高頻詞識別和關(guān)鍵詞聚類的方法, 對2000—2019 年國家及部委頒布的268 份科研誠信建設(shè)相關(guān)政策文件進(jìn)行分析, 揭示了我國科研誠信政策在不同階段的主題演變趨勢。
綜上, 現(xiàn)有中文政策文本量化研究具有兩個鮮明特征。一是關(guān)注政策文本中的高頻詞、主題詞等名詞性詞語或短語的量化, 抽取相關(guān)要素時往往篩除動詞、形容詞等能反映決策者態(tài)度的文本要素;二是受中文文本挖掘方法與當(dāng)前政策文本可量化的要素所限, 為保證方法有效, 所分析的領(lǐng)域通常需要較多數(shù)量的政策文本。
1.2程度詞典研究現(xiàn)狀
針對當(dāng)前中文政策文本要素挖掘不充分的問題, 有研究引入程度詞的概念, 并進(jìn)行了基于程度詞典的中文政策文本分析方法探索。
程度詞是我國科技政策文本中存在的規(guī)范、穩(wěn)定且能反映決策者態(tài)度的詞匯, 以動詞、形容詞為主, 在語義上具有明顯的強(qiáng)度差異, 能夠體現(xiàn)決策者對任務(wù)部署的輕重緩急或領(lǐng)域發(fā)展的態(tài)度強(qiáng)弱,如“支持” “激勵” “突破”[7] 。其“程度” 特征更多地體現(xiàn)為語義的強(qiáng)弱程度, 即詞語的情感極性較為一致, 但在語義上具有明顯的強(qiáng)度差異, 與情感分析或意見挖掘常用的程度副詞在詞性范圍、語義類型、語體風(fēng)格等方面存在本質(zhì)區(qū)別。有研究通過程度詞典的構(gòu)建與驗證, 證明了詞典法能夠有效地識別、提取和應(yīng)用程度詞, 結(jié)合程度詞典的中文政策文本分析, 兼顧了詞語的語義及強(qiáng)度, 有助于深入挖掘政策文本中有價值的信息。從特征與量化方式看, 程度詞可認(rèn)為是中文科技政策中值得進(jìn)一步挖掘的新文本要素, 引入程度詞典的政策文本分析方法具備高效且深入分析大樣本中文政策文本的潛力。
現(xiàn)有研究在界定程度詞概念、特征的基礎(chǔ)上,利用詞典法進(jìn)行了程度詞識別、提取、應(yīng)用的初步探索, 設(shè)計了含基于專家知識的種子詞選取、基于PMI 算法的領(lǐng)域程度詞擴(kuò)展、基于語義相似度計算的詞匯篩選3 個步驟的詞典構(gòu)建方法以及信度與效度檢驗方法[7] 。為進(jìn)一步檢驗并提升程度詞在中文政策文本分析中的價值, 本文在前期研究的基礎(chǔ)上,開展基于程度詞典優(yōu)化的中文政策文本分析研究。
2程度詞典的優(yōu)化探索
針對當(dāng)前程度詞典詞語數(shù)量較少、程度詞權(quán)重單一的問題, 本文以現(xiàn)有研究中的程度詞典構(gòu)建與驗證方法為基礎(chǔ), 進(jìn)行程度詞典的優(yōu)化研究。首先, 在詞典規(guī)模上, 擬進(jìn)一步擴(kuò)大構(gòu)造詞典的不同領(lǐng)域的政策文本數(shù)量; 其次, 在詞典設(shè)計上, 考慮到設(shè)置合適的詞語權(quán)重有時比構(gòu)建完備、精確的詞典更重要[13] , 擬探索等權(quán)重法以外的程度詞賦權(quán)方式, 豐富權(quán)重設(shè)計。
2.1程度詞的擴(kuò)展
由于程度詞的提出立足于科技政策文本功能定位, 且前期研究中的64 個種子詞來自《“十三五”國家科技創(chuàng)新規(guī)劃》, 為保證擴(kuò)展所得程度詞的有效性, 本文選擇了同時期、同系列的科技政策文本進(jìn)行程度詞的擴(kuò)展。通過中國政府網(wǎng)采集了如《“十三五” 國家戰(zhàn)略性新興產(chǎn)業(yè)發(fā)展規(guī)劃》《“十三五”材料領(lǐng)域科技創(chuàng)新專項規(guī)劃》等不同產(chǎn)業(yè)和領(lǐng)域的“十三五” 國家科技創(chuàng)新專項規(guī)劃30 份。以這31 份國家級科技規(guī)劃文本擴(kuò)展科技政策領(lǐng)域程度詞表。
經(jīng)文本預(yù)處理、基于詞語共現(xiàn)的程度詞擴(kuò)展、基于語義相似度的詞匯篩選, 得到擴(kuò)展后的程度詞592 個。在此基礎(chǔ)上, 邀請專家進(jìn)行兩次間隔1 個月的程度詞篩選, 最終得到376 個詞語。
2.2程度詞的權(quán)重設(shè)計
為了探索中文政策文本分析對于程度詞權(quán)重設(shè)計的需求, 程度詞權(quán)重設(shè)計的研究主要圍繞以下3個問題展開: 一是程度詞程度強(qiáng)弱劃分對政策文本分析有無影響, 即政策文本分析是否需要考慮程度詞程度強(qiáng)弱; 二是如果政策文本分析需要考慮程度詞之間的程度差異, 各程度詞的程度強(qiáng)弱如何區(qū)分; 三是如何使用區(qū)分程度差異的程度詞典(簡稱分級程度詞典)進(jìn)行政策文本量化分析。
盡管不同的程度詞在語義表達(dá)上存在強(qiáng)弱差異, 但這種程度強(qiáng)弱的判斷本身具有主觀性, 難以用數(shù)學(xué)方法進(jìn)行衡量。在現(xiàn)代漢語研究中, 程度副詞的程度量級主要也是依靠語感劃分的[14] 。因此,本文采用兩種方法對程度詞進(jìn)行賦權(quán), 分別是基于專家調(diào)查法的程度詞權(quán)重設(shè)計和等權(quán)重法。專家調(diào)查法的主要思想是圍繞某一主題或問題, 征詢有關(guān)專家或權(quán)威人士的意見和看法, 需要選擇相關(guān)領(lǐng)域具有豐富知識或?qū)嶋H經(jīng)驗的專家在互不知情的隔離狀態(tài)下對問題進(jìn)行判斷、評估[15] 。利用專家調(diào)查法進(jìn)行程度詞權(quán)重設(shè)計, 主要是考慮到政策文本分析高度依賴專家知識和經(jīng)驗。兼顧對結(jié)果可靠性、專家時間和人力成本的考慮, 本文設(shè)計了兩輪專家問卷調(diào)查。使用等權(quán)重法為程度詞賦權(quán), 流程較為簡單, 將所有程度詞設(shè)置為相同的權(quán)值即可, 用于對比程度詞是否需要劃分程度強(qiáng)弱。為便于與前期研究結(jié)果進(jìn)行比較, 使用等權(quán)重法賦權(quán)時, 將程度詞的權(quán)重設(shè)為1。
專家調(diào)查中的第一輪問卷設(shè)計了3 個主要問題, 邀請了來自中國科學(xué)院文獻(xiàn)情報中心的7 位科技政策分析專家進(jìn)行預(yù)測試(Pilot Test)。第一個問題參照現(xiàn)代漢語研究中程度副詞“微、中、高、極” 4 級分類, 設(shè)計了程度詞的量級劃分問題。第二個問題根據(jù)情感分析或意見挖掘中程度副詞權(quán)值的設(shè)計, 將程度詞權(quán)值的取值范圍限定在[0,2],初步設(shè)計了程度詞各量級的權(quán)值, 如“0. 5,1,1.5,2”“0.5,1.5,1.75,2”“0.5,0.75,1.75,2” 等。第三個問題, 選取200個由PMI 算法獲得的高關(guān)聯(lián)度的詞語, 邀請專家判斷各個詞語的程度量級。第二輪問卷以第一輪問卷的結(jié)果以及專家的建議為依據(jù)進(jìn)行了問卷內(nèi)容的增刪, 并邀請了16 位具有豐富的政策解讀或政策撰寫經(jīng)驗的專家, 涵蓋發(fā)改委、科技部、中國科學(xué)院、中國商飛、北京市科委、上海科創(chuàng)辦、中科院科技戰(zhàn)略咨詢研究院、中國科學(xué)技術(shù)戰(zhàn)略發(fā)展研究院、中信所、中科院文獻(xiàn)情報中心等9 家單位。
第二輪專家調(diào)查共回收問卷16 份, 在專家組成方面, 有2 位從事政策撰寫工作、14 位從事政策解讀、分析工作。綜合專家的答題用時與反饋,可知每位專家均對問卷中的題目做出了細(xì)致的選擇和判斷, 這保障了問卷調(diào)查結(jié)果的信度和效度。相較預(yù)測試, 第二輪問卷的問題設(shè)置更合理、專家覆蓋面更廣、詞語數(shù)量更多、結(jié)果更具有代表性。因此, 重點對第二輪問卷結(jié)果進(jìn)行分析。分析結(jié)果涵蓋3 個方面, 首先, 專家一致肯定政策文本中程度詞的存在, 且傾向于將其量級劃分成“微、中、高” 3 級, 并分別賦予“0.5,1,1.5” 的權(quán)值, 僅少數(shù)專家將詞語強(qiáng)弱分為“微、中、高、極” 4 級。其次, 絕大多數(shù)專家認(rèn)為, 科技政策文本挖掘需要考慮詞語語義強(qiáng)弱并劃分程度量級。最后, 統(tǒng)計各個專家對各詞語的程度量級劃分結(jié)果, 得到分級程度詞典。統(tǒng)計時以量級劃分成3 級的問卷結(jié)果為主, 根據(jù)人數(shù)最多的選擇, 確定每個詞語所屬的量級。如遇到4 ∶4 ∶4或6 ∶6 ∶0的情況, 則結(jié)合劃分成4級的專家的選擇, 選擇人數(shù)最多的級別作為該詞語的最終量級。其中, 因為專家意見較為分散而無法確定量級的詞語共有12 個。去掉這些詞, 最終獲得“微” 級詞語125 個(權(quán)值為0 5), “中” 級詞語176 個(權(quán)值為1), “高” 級詞語63 個(權(quán)值為1.5), 這些詞組成了分級程度詞典。同時, 這364個詞也構(gòu)成了等權(quán)重程度詞典。
2.3程度詞典的檢驗
2.3.1信度與效度檢驗
以程度詞在大樣本政策文本中的分布情況作為信度檢驗指標(biāo)。信度檢驗抽樣的政策文本來自中國政府網(wǎng)國務(wù)院政府文件庫的82份政策文件。統(tǒng)計詞典中的程度詞在各政策文本中的分布, 顯示程度詞占政策文本全文詞數(shù)的比例在24%左右, 其中占比在14%~34%的樣本量共77 份, 占總樣本量的94%, 程度詞占比最高的為33%, 占比最低的為12%。而優(yōu)化前的程度詞典占政策文本總詞數(shù)的比例為21%左右[7] 。上述結(jié)果表明優(yōu)化后的程度詞典具有信度。
為檢驗優(yōu)化后的程度詞典是否有效并對比詞典權(quán)重分級和等權(quán)重對政策文本分析效果的影響, 以《北京市“十三五” 時期加強(qiáng)全國科技創(chuàng)新中心建設(shè)規(guī)劃》[16](簡稱“北京市十三五科技規(guī)劃”)及其專家解讀[17] 為案例, 分別基于等權(quán)重程度詞典和分級程度詞典進(jìn)行政策文本分析, 得到程度值前20 的重要段落與專家解讀的主要內(nèi)容的對應(yīng)情況,如表1 所示。結(jié)果表明, 利用兩種程度詞典識別出的重點段落及其章節(jié)分布基本一致, 且與專家解讀能夠較好地對應(yīng), 證明本文構(gòu)建的等權(quán)重程度詞典和分級程度詞典有效。
2.3.2分級程度詞典的優(yōu)勢
經(jīng)觀察, 在段落分值及其排序方面, 分級程度詞典的效果相對優(yōu)于等權(quán)重程度詞典, 前者具有更佳的細(xì)粒度。分級程度詞典能更細(xì)致地揭示同一章節(jié)中各段落的位次關(guān)系, 如在分級和等權(quán)重程度詞典計算結(jié)果中, “支撐京津冀協(xié)同發(fā)展戰(zhàn)略” 重點任務(wù)部分均有6 個段落位居程度值前10, 但段落分值與其排序有差異, 如在分級程度詞典結(jié)果中,段落75 的排名高于段落83, 與等權(quán)重程度詞典結(jié)果相反, 如表2 所示。段落75 的主要內(nèi)容是“優(yōu)化協(xié)同創(chuàng)新格局”, 要求明確京津冀三地的科技創(chuàng)新優(yōu)先領(lǐng)域, 實現(xiàn)合理分工與有序協(xié)作, 促進(jìn)區(qū)域間、產(chǎn)業(yè)間循環(huán)式布局。段落83 的主要內(nèi)容是“開展協(xié)同創(chuàng)新若干試點”, 即開展先行先試政策推廣試點。在針對京津冀區(qū)域協(xié)同發(fā)展的訪談中,京津冀協(xié)同發(fā)展領(lǐng)導(dǎo)小組辦公室負(fù)責(zé)人明確指出優(yōu)化京津冀協(xié)同創(chuàng)新格局的重要性, 提出“優(yōu)化區(qū)域分工和產(chǎn)業(yè)布局” 是推動京津冀協(xié)同發(fā)展指導(dǎo)思想的重點[18] , 這表明了段落75 內(nèi)容的重要程度與分級程度詞典實驗結(jié)果相符。
分級程度詞典可以實現(xiàn)對段落程度值更細(xì)致的區(qū)分, 能避免大量相同程度值段落的出現(xiàn)。在上述案例中, 由于段落同分值, 使用等權(quán)重程度詞典得到的程度值前20 的段落實際有23 段, 如表1 所示,同分值段落數(shù)占全文總段落數(shù)的比例為69.4%;使用分級程度詞典進(jìn)行文本分析時, 這一比例為58.7%。為進(jìn)一步檢驗, 按照相同的步驟分析了《上海市科技創(chuàng)新“十三五” 規(guī)劃》[19] 。相較于等權(quán)重程度詞典, 使用分級程度詞典計算得到的同分值段落的比例減少了12%左右??梢钥闯?, 劃分程度詞量級, 能夠更為細(xì)致地區(qū)分各個段落的程度差異。
3基于分級程度詞典的科技規(guī)劃文本量化分析
本文使用更具優(yōu)勢的分級程度詞典進(jìn)行中文科技政策文本量化研究, 可分為文本預(yù)處理、分詞、程度值計算、高程度值內(nèi)容分析4 個步驟。文本預(yù)處理時, 去掉原文的各級標(biāo)題, 將文本內(nèi)容設(shè)置成段落的形式。接著, 使用Jieba 進(jìn)行分詞、去停用詞(各類標(biāo)點符號)、詞性標(biāo)注, 得到各段落的詞匯。統(tǒng)計段落中各級程度詞的頻次, 并乘以其對應(yīng)的權(quán)值, 最終求和所得的值即為各段落的程度值。程度值越高, 則在一定程度上反映了該段落所含內(nèi)容的重要性、緊迫性和現(xiàn)實性。分析高程度值段落內(nèi)容時, 結(jié)合TextRank算法抽取各段落以名詞為主的前30 個關(guān)鍵詞, 根據(jù)關(guān)鍵詞及其權(quán)重, 繪制詞云圖, 直觀展示重要內(nèi)容, 輔助定性解讀。
3.1樣本選擇
國家級科技規(guī)劃是政府為指導(dǎo)科技研究長遠(yuǎn)發(fā)展而制定的綜合性政策, 具有前瞻性、綱領(lǐng)性、動態(tài)性等特點, 對我國的科學(xué)技術(shù)發(fā)展起到了重要的推動作用[20-21] , 近些年廣受學(xué)界的關(guān)注和探討。其文本內(nèi)容包括形勢與需求、指導(dǎo)思路與發(fā)展目標(biāo)、發(fā)展方向、戰(zhàn)略重點、保障措施等方面, 是決策者科技規(guī)劃理念的具體表現(xiàn)。然而, 當(dāng)前對科技規(guī)劃的研究以定性研究方法為主, 即基于研究者的知識和經(jīng)驗, 以人工閱讀理解的方式揭示文本中蘊(yùn)含的政策意圖[7] , 較少從定量分析的角度探究科技規(guī)劃文本與政策意圖之間的關(guān)聯(lián)。此外, 科技規(guī)劃相對于其他類型政策而言, 具有文本數(shù)量少、篇幅長、內(nèi)容豐富等特點, 可用于檢驗和彰顯程度詞這一文本要素在中文政策文本量化研究中的應(yīng)用價值。
考慮到近20 年來我國科技規(guī)劃制定理念日趨成熟, 規(guī)劃體系更加統(tǒng)一、規(guī)范, 公文撰寫所用的詞語較為穩(wěn)定, 因此, 以我國2000年及之后發(fā)布的4 份國家級五年科技規(guī)劃為實證切入點, 分別是《國民經(jīng)濟(jì)和社會發(fā)展第十個五年計劃科技教育發(fā)展專項規(guī)劃》(簡稱“十五” 科技規(guī)劃)、《國家“十一五” 科學(xué)技術(shù)發(fā)展規(guī)劃》(簡稱“十一五” 科技規(guī)劃)、《國家“十二五” 科學(xué)和技術(shù)發(fā)展規(guī)劃》(簡稱“十二五” 科技規(guī)劃)和《“十三五” 國家科技創(chuàng)新規(guī)劃》(簡稱“十三五” 科技創(chuàng)新規(guī)劃), 覆蓋的時間范圍為2000—2020 年。將規(guī)劃文本中的各文字版專欄調(diào)整為段落的形式, 得到4 份科技規(guī)劃文本數(shù)據(jù)的基本情況, 如表3 所示。從段落數(shù)和總字?jǐn)?shù)可以看出, 從“十五” 到“十三五”, 我國五年科技規(guī)劃的內(nèi)容日益豐富, 體量逐漸增大。
3.2基于程度值的科技規(guī)劃重要段落遴選
由于不同時期規(guī)劃段落數(shù)量差異較大, 為了保障重點分析段落的數(shù)量以及這些段落在各規(guī)劃中的代表性, 本文選取各規(guī)劃文本程度值前10%的段落作為本文分析的重點, 并以程度值前10%的段落作為各規(guī)劃的重要段落。受文本篇幅所限, 以體量最大的“十三五” 科技創(chuàng)新規(guī)劃為例, 展示程度值前10%段落的分布情況。“十三五” 科技創(chuàng)新規(guī)劃中程度值最高的前10%的段落共有22 個, 其中,篇章“增強(qiáng)原始創(chuàng)新能力” 所含段落數(shù)量最多, 共8 段;“構(gòu)筑國家先發(fā)優(yōu)勢” 共7 個段落, 如表4 所示。
參照上述流程和方法, 對其余科技規(guī)劃進(jìn)行分析。“十五” 規(guī)劃文本中程度值最高的前10%的段落共有7 個, 其中篇章“前言” “形勢與現(xiàn)狀” 和“戰(zhàn)略部署與重點任務(wù)” 均有2 個段落?!笆晃濉币?guī)劃中程度值最高的前10%的段落共有15 個, 其中, “重點任務(wù)” 篇章所含段落數(shù)量最多, 有8段; “形勢與需求” 和“保障措施” 分別有3 個段落?!笆濉?科技規(guī)劃中程度值最高的前10%的段落共有16 個, 其中, 篇章“推進(jìn)重點領(lǐng)域核心關(guān)鍵技術(shù)突破” 所含段落數(shù)量最多, 有4 段; “前瞻部署基礎(chǔ)研究和前沿技術(shù)研究” 有3 個段落。
經(jīng)統(tǒng)計, 各科技規(guī)劃文本程度值前10%的段落主要分布在形勢需求與思路目標(biāo)、戰(zhàn)略部署與重點任務(wù)、保障措施等方面的章節(jié), 如表5 所示, 這些章節(jié)也是科技規(guī)劃的重要組成內(nèi)容。因此, 本文從這3 個方面的重點段落切入, 綜合考慮科技規(guī)劃文本特有的體系結(jié)構(gòu)以及段落程度值的高低, 繪制并分析這些段落的關(guān)鍵詞云圖, 得出各科技規(guī)劃的主要關(guān)注點, 在此基礎(chǔ)上, 梳理總結(jié)近20 年來國家級科技規(guī)劃主要關(guān)注點的發(fā)展演變。
3.3科技規(guī)劃主要關(guān)注點分析
基于程度值的國家級科技規(guī)劃主要關(guān)注點的發(fā)展演變分析, 首先分析了我國科技規(guī)劃指導(dǎo)思想的演變歷程, 接著討論了國家級五年科技規(guī)劃引領(lǐng)國家科技發(fā)展的戰(zhàn)略重點, 最后梳理了五年科技規(guī)劃為保障科技發(fā)展階段性目標(biāo)而制定的重點保障措施?;谶@些關(guān)注點的分析, 將有助于對科技規(guī)劃、國家科技創(chuàng)新治理體制以及近20 年中國科技政策發(fā)展重心三者關(guān)聯(lián)性的直觀理解, 顯示出基于程度詞的政策意圖挖掘具有一定的實踐應(yīng)用價值。
3.3.1形勢、需求與思路目標(biāo)
不同時期的國內(nèi)外發(fā)展總體形勢、需求是規(guī)劃提出的背景, 影響著規(guī)劃的整體方向和主線思路。梳理形勢、需求和思路目標(biāo)部分的重點內(nèi)容, 可以了解我國不同時期的指導(dǎo)思想和目標(biāo), 深入把握我國科技創(chuàng)新政策的發(fā)展歷程。
“十五” 科技規(guī)劃提出了落實科教興國戰(zhàn)略,包含4 個相關(guān)的重點段落, 如圖1 所示。其中段落1 明確指出了科技創(chuàng)新在我國經(jīng)濟(jì)發(fā)展、國際競爭中的重要作用, 主要詞匯有經(jīng)濟(jì)與科技、國家、政治經(jīng)濟(jì)、重大突破、國際競爭等。段落2 提出了“十五” 規(guī)劃制定的出發(fā)點和指導(dǎo)思想, 包括推進(jìn)科技與經(jīng)濟(jì)結(jié)合、落實科教興國戰(zhàn)略等, 主要詞匯有科技、關(guān)鍵時期、戰(zhàn)略性、社會與經(jīng)濟(jì)、專項規(guī)劃、科教興國等。段落3 總結(jié)了我國科技發(fā)展已取得的成果和基礎(chǔ), 包含的主要詞匯有技術(shù)、科技、信息化、重大項目等。段落7 指出了我國新時期面臨的挑戰(zhàn), 如錯綜復(fù)雜的形勢、科技創(chuàng)新不足、產(chǎn)業(yè)能力制約等, 關(guān)鍵詞是科技、產(chǎn)業(yè)、經(jīng)濟(jì)、技術(shù)、創(chuàng)新能力、制約等。通過對重點段落的分析, 可以看出“十五” 科技規(guī)劃與國家“十五” 計劃在主線思路上的高度一致性, 均強(qiáng)調(diào)要把發(fā)展作為主題, 通過推進(jìn)科技進(jìn)步, 來推動經(jīng)濟(jì)和社會發(fā)展。
“十一五” 科技規(guī)劃強(qiáng)調(diào)大力推進(jìn)自主創(chuàng)新,努力建設(shè)創(chuàng)新型國家, 涉及4 個重點段落, 如圖2所示。段落2 指出“十一五” 時期面臨的形勢,包括全球化、競爭日趨激烈等, 提出建立創(chuàng)新型國家, 增強(qiáng)國際競爭力, 比較突出的詞匯是科技、國家、經(jīng)濟(jì)、世界、科學(xué)技術(shù)、國際競爭、創(chuàng)新型等。段落3 總結(jié)了我國“十五” 期間的科技發(fā)展和各項任務(wù)的完成情況, 涉及綜合國力與競爭力、產(chǎn)業(yè)創(chuàng)新能力等, 主要詞匯是科技、產(chǎn)業(yè)、創(chuàng)新能力、雜交稻、技術(shù)標(biāo)準(zhǔn)、航天、競爭力、綜合國力等。段落4 從我國經(jīng)濟(jì)社會發(fā)展的角度提出了對科技發(fā)展質(zhì)量和能力的需求, 比較明顯的關(guān)鍵詞是社會、技術(shù)、科學(xué)、經(jīng)濟(jì)社會、全局、農(nóng)村、國防、知識產(chǎn)權(quán)等。段落8 體現(xiàn)了規(guī)劃制定的指導(dǎo)方針, 如建立和諧社會、實施科教興國戰(zhàn)略、加強(qiáng)產(chǎn)學(xué)研合作等, 主要關(guān)鍵詞是科技、戰(zhàn)略、社會主義、產(chǎn)學(xué)研、科教興國、和諧社會等。通過分析, 可知“十一五”科技規(guī)劃的目標(biāo)與“十一五” 規(guī)劃提出的以科學(xué)發(fā)展觀統(tǒng)領(lǐng)經(jīng)濟(jì)社會發(fā)展全局基本一致。
“十二五” 科技規(guī)劃提出要把握重要戰(zhàn)略機(jī)遇期, 提高自主創(chuàng)新能力。該部分包括的重點段落有3 個, 如圖3 所示。段落7 指出我國科技發(fā)展處于重要戰(zhàn)略機(jī)遇期, 比較突出的詞匯是科技、趨勢、機(jī)遇期、戰(zhàn)略、大有作為、世界、經(jīng)濟(jì)社會等。段落9 指出我國的現(xiàn)實問題包括經(jīng)濟(jì)轉(zhuǎn)型、城鎮(zhèn)化等, 以及這些問題對科技創(chuàng)新的迫切需求, 包含的詞匯有經(jīng)濟(jì)、轉(zhuǎn)型、綜合國力、新臺階、瓶頸、制約、城鎮(zhèn)化、市場化、質(zhì)量、體制、結(jié)構(gòu)等。段落14 指出規(guī)劃的思路和目標(biāo), 即科技要惠及民生,主要的關(guān)鍵詞有人民、惠及、群眾、文化素質(zhì)、科學(xué)、普及、科技進(jìn)步、以人為本、民生等。這些內(nèi)容與“十二五” 規(guī)劃強(qiáng)調(diào)要把科技進(jìn)步和創(chuàng)新作為加快轉(zhuǎn)變經(jīng)濟(jì)發(fā)展方式的重要支撐, 把保障和改善民生作為加快轉(zhuǎn)變經(jīng)濟(jì)發(fā)展方式的根本出發(fā)點和落腳點一致。
“十三五” 科技創(chuàng)新規(guī)劃指出要把創(chuàng)新擺在國家發(fā)展全局的核心位置, 深入實施創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略。該部分包括4 個重點段落, 如圖4 所示, 其中段落6 指出“十三五” 時期面臨的新形勢, 如經(jīng)濟(jì)發(fā)展進(jìn)入結(jié)構(gòu)優(yōu)化、動力轉(zhuǎn)換的時期, 迫切需要科技創(chuàng)新突破發(fā)展瓶頸, 關(guān)鍵詞包括科技、迫切需要、經(jīng)濟(jì)、素質(zhì)、國家、市場需求、體制、動力等。段落9、13 明確了未來發(fā)展的基本原則和指導(dǎo)思想。段落13 強(qiáng)調(diào)深化科技體制機(jī)制改革以及建立技術(shù)創(chuàng)新的市場導(dǎo)向機(jī)制, 關(guān)鍵詞有科技、機(jī)制、資源、科技體制、技術(shù)創(chuàng)新、原創(chuàng)、市場導(dǎo)向等。段落9 指出科技創(chuàng)新發(fā)展的指導(dǎo)思想, 包括堅持黨中央的領(lǐng)導(dǎo)、社會主義道路等, 關(guān)鍵詞包括科技、全面、中國、精神、黨中央、創(chuàng)新型、核心、社會主義等。這與“十三五” 規(guī)劃強(qiáng)調(diào)以供給側(cè)結(jié)構(gòu)性改革為主線, 形成引領(lǐng)經(jīng)濟(jì)發(fā)展新常態(tài)的體制機(jī)制和發(fā)展方式的需求一致, 也能夠揭示出探索新型舉國體制, 加強(qiáng)黨對科技創(chuàng)新的集中統(tǒng)一領(lǐng)導(dǎo)這一重要內(nèi)容。
3.3.2戰(zhàn)略部署與重點任務(wù)
國家級科技規(guī)劃不僅引領(lǐng)國家科技發(fā)展的目標(biāo)和方向, 還明確了國家科技發(fā)展的重點任務(wù), 通過引導(dǎo)科技資源向重點科技發(fā)展任務(wù)聚集, 大力提升科技創(chuàng)新能力。戰(zhàn)略部署與重點任務(wù)作為科技規(guī)劃的重要組成部分, 涵蓋重大專項實施、產(chǎn)業(yè)轉(zhuǎn)型升級、重點領(lǐng)域技術(shù)研發(fā)等諸多內(nèi)容。本文以近年來備受關(guān)注的基礎(chǔ)研究為例, 通過程度值與重要段落數(shù)量等文本量化結(jié)果, 將客觀政策文本與主觀政策意圖之間建立起關(guān)聯(lián), 進(jìn)而分析我國政府在不同時期對基礎(chǔ)研究發(fā)展的關(guān)注程度。
圖5 展示了4 份規(guī)劃中涉及基礎(chǔ)研究的重要段落及其程度值的統(tǒng)計情況??梢钥闯觯?隨著時間的推移, 我國對基礎(chǔ)研究發(fā)展的重視程度越來越高?!笆濉?科技規(guī)劃中的重要段落沒有體現(xiàn)出對基礎(chǔ)研究的關(guān)注?!笆晃濉?科技規(guī)劃涉及基礎(chǔ)研究的重要段落有2 段, 程度值總和為59.5 分, 主要關(guān)注了面向國家重大戰(zhàn)略需求的基礎(chǔ)研究?!笆濉?科技規(guī)劃中與基礎(chǔ)研究相關(guān)的段落有3 個,程度值總和為136 分, 主要內(nèi)容包括鼓勵自由探索, 進(jìn)一步提升原始創(chuàng)新能力?!笆濉?科技創(chuàng)新規(guī)劃中涉及基礎(chǔ)研究內(nèi)容的重點段落最多, 有8個, 程度值總和為433.5 分, 充分反映出“十三五” 時期對基礎(chǔ)研究的重視程度, 強(qiáng)調(diào)了增加創(chuàng)新的源頭供給、強(qiáng)化原始創(chuàng)新等。我國科技政策領(lǐng)域?qū)<抑赋觯?中國基礎(chǔ)研究在進(jìn)入21 世紀(jì)以來,尤其是2006 年之后, 呈現(xiàn)突飛猛進(jìn)的態(tài)勢[22] 。這與本文基于文本量化結(jié)果梳理出的演變趨勢能很好地對應(yīng)。
3.3.3保障措施
國家級科技規(guī)劃的有效性主要依靠規(guī)劃是否能得到有效落實、所提出的目標(biāo)是否能夠達(dá)到預(yù)期。保障措施是通過引導(dǎo)資源的合理配置, 以保證規(guī)劃落實的重要途徑。各規(guī)劃文本中遴選出的重要段落都包含保障措施的部分, 可見我國科技規(guī)劃在內(nèi)容編制上具有兼顧頂層設(shè)計和注重實際落實的特征,不僅重視方向、目標(biāo)和重點任務(wù)部署, 也注重規(guī)劃的貫徹落實。
圖6展示了“十五” “十一五” “十二五” “十三五” 科技規(guī)劃重點關(guān)注的具體保障措施及其程度值??梢钥闯觯?科技規(guī)劃中保障措施的整體重要性日益提升, 各個時期重點關(guān)注的具體保障措施有所不同, 呈現(xiàn)多元化的特征?!笆濉?和“十二五”科技規(guī)劃共同關(guān)注了科技投入, “十一五” 和“十三五” 科技規(guī)劃均關(guān)注了技術(shù)標(biāo)準(zhǔn)戰(zhàn)略, 其中“十二五” 科技規(guī)劃還特別關(guān)注了保障基層科技工作發(fā)展的措施, 這與科技部專家強(qiáng)調(diào)的要把基層科技工作擺到“十二五” 科技工作的中心位置[23] 的表述能夠很好地對應(yīng)。
4總結(jié)與展望
本文從當(dāng)前中文政策文本量化分析方法對政策文本要素的挖掘與利用現(xiàn)狀出發(fā), 探索程度詞這一較新的政策文本要素在中文政策量化研究與政策意圖研究中的價值。在現(xiàn)有程度詞典構(gòu)建研究的基礎(chǔ)上, 進(jìn)行了程度詞的擴(kuò)展、分級賦權(quán)等優(yōu)化研究,通過實驗證明優(yōu)化后的分級程度詞典有助于定量揭示政策文本中蘊(yùn)含的政策意圖, 在中文政策文本分析中具有一定的應(yīng)用價值, 拓展了中文政策文本語義挖掘的研究視角。
結(jié)合分級程度詞典的政策文本分析方法具備一定的優(yōu)勢。首先, 不受限于政策文本的數(shù)量和體量, 高效識別政策文本中的重點段落與重點章節(jié)。其次, 關(guān)注并利用中文政策文本的特征, 對其中規(guī)范、穩(wěn)定且能反映決策者態(tài)度的動詞、形容詞等進(jìn)行量化利用, 可以與當(dāng)下以名詞為主的文本挖掘方法有效結(jié)合, 互為補(bǔ)充, 從而更高效且細(xì)粒度地挖掘政策文本語義內(nèi)容。最后, 能較好地服務(wù)于政策文本量化方法研究的目的, 即更好地輔助政策定性解讀。通過對政策文本所蘊(yùn)含政策意圖的定量計算, 有助于研究者從大批量、長篇幅、多主題的政策文本中識別出相對重要的內(nèi)容, 使得其在有限精力的情況下, 能夠從更廣的地域范圍和更長的時間范疇把握政策意圖的一致性和連續(xù)性。此外, 研究者還可以基于所屬領(lǐng)域政策特有的體系結(jié)構(gòu), 結(jié)合多種粒度(如篇章、段落等)和分析方法深入挖掘和分析復(fù)雜、綜合的政策文本, 開展問題導(dǎo)向型的政策研究或?qū)嵺`。
本文還存在一些不足。盡管細(xì)致地劃分程度詞的程度差異有助于更好地發(fā)揮程度詞典的價值, 但這種程度劃分存在主觀性, 高度依賴專家對書面或公文用語的使用經(jīng)驗。有專家指出, 區(qū)分這些詞的程度表達(dá)差異受語感、經(jīng)驗等主觀性因素影響較大, 界定清晰存在一定的難度。考慮到程度詞還蘊(yùn)含支持、引導(dǎo)、鼓勵等語義, 后續(xù)還可結(jié)合公共政策研究的理論, 并邀請更多從事政策撰寫、語言學(xué)研究的專家參與相應(yīng)研究。此外, 結(jié)合多種粒度的政策文本分析具有較大的實際需求, 后續(xù)可以結(jié)合中文自然語言處理中的關(guān)鍵技術(shù), 如句法結(jié)構(gòu)、依存關(guān)系以及深層文法句法等, 加強(qiáng)程度詞與其所在句子中詞匯的關(guān)聯(lián), 進(jìn)一步提升程度詞在中文政策文本量化研究中的應(yīng)用價值。