劉清民 王芳 黃梅銀
關(guān)鍵詞: 新詞發(fā)現(xiàn); 人工智能; 政策分析; 政策演化; 多特征融合算法
DOI:10.3969 / j.issn.1008-0821.2024.06.002
〔中圖分類號〕G350.7; TP18 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821 (2024) 06-0018-15
政策制定是政府實(shí)施社會治理和提供公共服務(wù)的重要手段[1] 。地方政府需要充分理解以往政策并與頂層政策設(shè)計保持一致[2] , 企業(yè)需要即時分析大量政策以支持快速變化的社會和經(jīng)濟(jì)環(huán)境[3] 。政策文件作為公共事務(wù)的反映和行為印跡, 是政策分析的首要選擇[4] 。政策智能化分析可以快速獲取政策關(guān)鍵內(nèi)容[5] , 而要實(shí)現(xiàn)政策的主題分析[6] 、情感分析[7-8] 、知識發(fā)現(xiàn)[9]等, 首先要對文本進(jìn)行分詞。中文分詞經(jīng)歷了基于匹配的詞典分詞、基于標(biāo)注的機(jī)器學(xué)習(xí)和基于理解的深度學(xué)習(xí)3 個階段[10] , 已經(jīng)取得了相當(dāng)?shù)倪M(jìn)展, 但是面對政策領(lǐng)域內(nèi)新詞, 仍存在切分歧義和未登錄詞(Out of Vocabulary)識別問題[11] 。這限制了自動分類、關(guān)鍵詞提取、文本摘要等文本挖掘技術(shù)在政策分析中的應(yīng)用[12] 。
新詞發(fā)現(xiàn)的目的是識別和提取文本中出現(xiàn)的新詞, 不斷完善詞典, 優(yōu)化分詞結(jié)果, 提升政策文本分析效果, 進(jìn)而更好地理解政府調(diào)控方向和思路[13] 。在詞匯學(xué)中, 新詞是指隨著社會環(huán)境的變化而產(chǎn)生的新詞匯[14] 。從詞典的參照角度出發(fā), 新詞可看作是現(xiàn)有詞典沒有收錄的詞語[15] , 也就是“未登錄”到分詞工具所使用的詞典中的詞匯(未登錄詞)[16] 。在本文中, 新詞主要指的是未被分詞算法正確識別或者已有詞庫中未出現(xiàn)過的詞匯, 由一些基本的字詞組合而成[17] , 比如: “云計算” 被分詞工具切分成“云” 和“計算”。新詞給分詞工具帶來了很大挑戰(zhàn), 因為大多數(shù)分詞方法是通過詞典和相應(yīng)的匹配算法實(shí)現(xiàn)的[18] , 只有不斷更新詞典才能保持其檢測新詞的能力, 但更新詞典會消耗時間和資源,并且可能無法識別意外出現(xiàn)的新詞。針對現(xiàn)有新詞發(fā)現(xiàn)算法對領(lǐng)域知識和語義使用不足的問題, 本文提出了融合多特征的新詞發(fā)現(xiàn)算法(Multi-featureFusion, MFF), 一種結(jié)合了詞特征和語義特征的新方法。將運(yùn)用MFF 提取的新詞以詞庫的形式加入到Jieba 分詞系統(tǒng)中, 可以提升文本分詞效果。
政策文本是記載政策意圖和政策過程的客觀憑證[19] , 政策詞匯承載著政策目標(biāo)、意圖和導(dǎo)向, 對政策研究至關(guān)重要。新詞的產(chǎn)生和使用反映了社會的發(fā)展變化和創(chuàng)新, 它們直接體現(xiàn)了社會問題、需求和挑戰(zhàn), 政策制定者通過精確選擇和使用詞匯來傳達(dá)政策的含義和目的。相比于學(xué)術(shù)文獻(xiàn)、網(wǎng)絡(luò)媒體等文本, 政策文本的形成須經(jīng)過逐級嚴(yán)格審核,因此用詞更加準(zhǔn)確、嚴(yán)謹(jǐn)。同時, 政策數(shù)量相對較少, 基于政策文本進(jìn)行新詞發(fā)現(xiàn), 具有成本低、準(zhǔn)確性高、確定性強(qiáng)、價值大等優(yōu)勢, 對于擴(kuò)展領(lǐng)域詞典、開展政策研究具有十分重要的意義。
近年來, 人工智能蓬勃發(fā)展[20] , 涌現(xiàn)出“強(qiáng)化學(xué)習(xí)” “自動駕駛” “智能醫(yī)療” 等新技術(shù)與應(yīng)用[21] , 這些變革給政策制定者和技術(shù)創(chuàng)新者帶來了全新挑戰(zhàn)。人工智能政策文本是一個國家或地區(qū)政策制定者對技術(shù)應(yīng)用、倫理規(guī)范以及社會影響的認(rèn)知和規(guī)劃。借助新詞發(fā)現(xiàn)算法深入研究人工智能政策文本, 可以從新詞的角度審視政策在人工智能創(chuàng)新、延續(xù)和擴(kuò)散方面的作用, 探索政策與技術(shù)發(fā)展的相互關(guān)聯(lián), 揭示政策在不同時期對新技術(shù)和應(yīng)用的關(guān)注點(diǎn), 以及在不斷變化的技術(shù)環(huán)境中應(yīng)對挑戰(zhàn)的方式。為此, 本文選擇人工智能政策文本作為研究對象, 并應(yīng)用MFF 算法, 不僅豐富了政策文本分析的方法, 也為未來人工智能政策研究提供了新的視角和工具支持。
1 相關(guān)工作
1.1 政策文本計算研究
政策文本計算是一種基于計算機(jī)科學(xué)、語言學(xué)和政治學(xué)理論的框架, 旨在進(jìn)行海量政策文本的挖掘和計算分析, 它倡導(dǎo)使用政策編碼、政策概念詞表以及政策與語言之間的映射關(guān)系, 以實(shí)現(xiàn)政策概念的自動識別和處理[22] , 涉及文本數(shù)據(jù)處理、文本內(nèi)容分析和文本挖掘[23] 。政策文本內(nèi)容分析是利用人工或者借助編碼管理工具對政策進(jìn)行概念編碼和信息語義分析, 介于定量和定性之間[24] , 其目的是對政策文本中涉及的主題進(jìn)行深入分析、解釋和預(yù)測, 探索相互關(guān)聯(lián)的發(fā)展趨勢[25] 。其數(shù)據(jù)處理主要依賴研究者的人工提取, 這類計算處理方法能夠處理的政策文本數(shù)據(jù)有限且主題特定[22] 。
基于文本數(shù)據(jù)處理和文本挖掘的政策文本分析, 通常依賴于開源的中文分詞工具。利用分詞后的語料對政策主題、類型、情感等進(jìn)行統(tǒng)計或計量分析, 或應(yīng)用共詞或共現(xiàn)分析政策增長、政策擴(kuò)散、政策變遷[26] 、府際關(guān)系[27] 、政策演進(jìn)[28] 、政策演化[29] 等變化規(guī)律, 或進(jìn)行潛在的語義知識發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、聚類分析[30] 、自動分類[31] 等。開源的中文分詞工具對政策文本適應(yīng)性較差, 對于未登錄詞和新詞的敏感度較低[10] , 難以捕捉領(lǐng)域新興詞匯和新興概念。專業(yè)詞庫的缺失也限制文本挖掘技術(shù)在政策分析的應(yīng)用。針對這些問題, 研究者嘗試了一些應(yīng)對策略。一方面, 在分詞時導(dǎo)入開源或者人工構(gòu)建的領(lǐng)域?qū)僭~庫, 增加分詞工具對政策文本中名詞術(shù)語的識別能力, 改善切分結(jié)果的準(zhǔn)確性[32-34] ; 另一方面, 通過構(gòu)建包含詞匯同義、類別以及詞間關(guān)系的領(lǐng)域主題詞表, 提供領(lǐng)域相關(guān)的語義信息[35] , 從而更準(zhǔn)確地切分政策文本。為了無監(jiān)督地構(gòu)建各種類型的主題詞表, 現(xiàn)有研究主要依據(jù)詞頻、共現(xiàn)等特征從分詞數(shù)據(jù)中提取關(guān)鍵詞[36] , 并通過關(guān)聯(lián)性分析和相似性匹配等方法識別詞語之間的等級關(guān)系[37] 。添加詞庫可以快速適應(yīng)特定領(lǐng)域, 但需要維護(hù)和人工添加更新。構(gòu)建主題詞表可以提供全面的領(lǐng)域詞匯覆蓋, 但目前針對政策領(lǐng)域的主題詞表研究較少。
1.2 新詞發(fā)現(xiàn)算法研究現(xiàn)狀
新詞發(fā)現(xiàn)可以自動識別政策領(lǐng)域的新詞和專有名詞, 擴(kuò)展分詞器的詞庫和政策領(lǐng)域主題詞表, 提高政策文本的分詞效果。王芷筠等[38] 利用互信息和邊界信息熵發(fā)現(xiàn)新詞, 輔以人工補(bǔ)充修正構(gòu)建環(huán)境政策法規(guī)專業(yè)詞庫, 驗證了新詞發(fā)現(xiàn)構(gòu)建詞庫的有效性。張一帆等[12] 通過無監(jiān)督學(xué)習(xí)的方式提升條件隨機(jī)場(CRF)模型領(lǐng)域適應(yīng)性, 并結(jié)合種子詞典、關(guān)鍵詞提取、人工篩選和補(bǔ)充的方式實(shí)現(xiàn)能源政策的新詞發(fā)現(xiàn)。魏偉等[19] 在領(lǐng)域詞典的基礎(chǔ)上,利用信息熵對分詞后的結(jié)果進(jìn)行詞合并, 分別對頻繁詞、熱詞和新詞進(jìn)行概念界定, 揭示了政府工作報告的共性問題、熱點(diǎn)問題和演化規(guī)律。
新詞發(fā)現(xiàn)算法可以分為基于規(guī)則、基于統(tǒng)計和兩者混合3 種?;谝?guī)則的方法一般從語言學(xué)、領(lǐng)域知識出發(fā)[39] , 通過構(gòu)詞特征[40] 、詞性以及詞的形態(tài)特征[41] 構(gòu)造規(guī)則模版來識別新詞。基于規(guī)則發(fā)現(xiàn)的新詞質(zhì)量比較高, 但需要人工瀏覽語料或者結(jié)合領(lǐng)域知識制定規(guī)則, 人工成本較高[39] 。基于統(tǒng)計的新詞發(fā)現(xiàn)算法利用大規(guī)模文本語料庫中的統(tǒng)計信息自動發(fā)現(xiàn)新詞, 通過詞頻[42] 、互信息[43] 、結(jié)合度、自由度[44] 等統(tǒng)計特征進(jìn)行新詞識別。QianY 等[14] 提出了基于詞嵌入的方法(WEBM), 利用詞向量剪枝策略來量化判斷一個高頻詞串是一個新詞的可能性, 在金融、音樂、體育和旅游領(lǐng)域?qū)崿F(xiàn)新詞發(fā)現(xiàn)。受WEBM 啟發(fā), 張樂等[45] 結(jié)合中國知網(wǎng)和漢字筆畫庫訓(xùn)練多語義詞向量(MWEC), 利用多語義詞向量的語義相似度來篩選經(jīng)過熱度和合成性規(guī)則生成的候選詞, 解決語義混淆問題?;诮y(tǒng)計的方法可以自動處理大量語料庫數(shù)據(jù), 發(fā)現(xiàn)規(guī)則方法中未定義的新詞, 可移植性強(qiáng), 但對于少見的詞語或特定領(lǐng)域的新詞表現(xiàn)不佳, 同時需要大的語料庫支撐?;旌戏椒ㄊ菍⒁?guī)則和統(tǒng)計方法結(jié)合起來, 綜合二者的優(yōu)點(diǎn), 既能利用規(guī)則方法的專業(yè)知識, 也能利用統(tǒng)計方法的自動化處理能力[46-48] 。
現(xiàn)有新詞發(fā)現(xiàn)算法取得了一定的效果, 仍存在以下問題: 忽視潛在有價值的數(shù)據(jù)與知識, 在融合領(lǐng)域知識方面存在不足; 大多方法忽略了詞的語義信息, 未對獲取的新詞進(jìn)行語義完整性判斷, 導(dǎo)致提取過多不合理的新詞。同時, 單一特征往往無法全面捕捉詞語的特點(diǎn)和上下文信息, 而通過融合多個特征, 可以更好地捕捉到新詞的潛在特征。
1.3 人工智能政策研究現(xiàn)狀
世界各國(地區(qū))紛紛出臺相關(guān)政策推動人工智能研發(fā)和應(yīng)用[49] 。這些政策的主要目標(biāo)是確保其國在人工智能領(lǐng)域的領(lǐng)導(dǎo)地位, 同時利用這項技術(shù)提高全球競爭力以及解決社會挑戰(zhàn)和發(fā)展需求[50] 。目前, 對于人工智能政策研究多以基于框架的內(nèi)容分析[51-54] 、政策對比分析[55-58] 和政策量化分析[59] 為主, 大多涉及詞頻統(tǒng)計、關(guān)鍵詞提取、政策分類、主題詞挖掘、主題詞相似度計算和編碼內(nèi)容分析等。人工智能是一個極具創(chuàng)新性的領(lǐng)域,新的技術(shù)、應(yīng)用和挑戰(zhàn)不斷涌現(xiàn)[60] , 我國人工智能政策非常注重在技術(shù)研發(fā)、產(chǎn)業(yè)經(jīng)濟(jì)和智能社會等方面的布局[61] 。人工智能政策是一項宏觀復(fù)雜的產(chǎn)業(yè)政策, 需要不斷調(diào)整以適應(yīng)變化[62] , 過程中會產(chǎn)生許多專業(yè)術(shù)語和新詞匯, 需要正確切分才能正確解讀政策文件[63] 。但是, 政策文本分詞在遇到專業(yè)詞匯時容易出現(xiàn)錯誤, 在一定程度上會影響詞頻統(tǒng)計和主題挖掘[64] , 導(dǎo)致研究結(jié)果難以反映政策制定者和實(shí)施者在特定時間和背景下的具體思考及決策過程, 不能很好地體現(xiàn)政策演變。
2 基于新詞發(fā)現(xiàn)的人工智能政策演化分析
本文擬通過新詞發(fā)現(xiàn)算法構(gòu)建人工智能政策詞庫輔助分詞, 基于政策新詞發(fā)現(xiàn)結(jié)果對人工智能政策的創(chuàng)新、延續(xù)和擴(kuò)散進(jìn)行演化分析, 幫助政策受眾及時捕捉行業(yè)發(fā)展方向和政策支持導(dǎo)向, 幫助地方政策制定者及時跟進(jìn)新興領(lǐng)域, 實(shí)現(xiàn)政策創(chuàng)新和針對性發(fā)展。研究流程如圖1 所示, 包括新詞發(fā)現(xiàn)算法和基于新詞發(fā)現(xiàn)的政策演化分析。
2.1 MFF 多特征新詞發(fā)現(xiàn)算法
2.1.1 算法介紹
不斷出現(xiàn)的技術(shù)新詞給中文分詞帶來巨大考驗,影響了分詞的準(zhǔn)確性[65] 。為了更全面地考慮詞匯在不同維度上的特征, 捕捉更豐富的語義信息, 本文提出了一種融合多特征的新詞發(fā)現(xiàn)算法(MFF)。MFF 多特征包含詞的熱度、上下文關(guān)聯(lián)度、語義完整度和KL 融合度, 定義如下:
1) 熱度(Heat, H): 可以用詞頻來表示。詞頻是指某個詞匯在一個文本中出現(xiàn)的頻率, 在一定時間內(nèi)出現(xiàn)的高頻詞匯可能是候選新詞[66] 。
2) 上下文關(guān)聯(lián)度(Contextual Association, CA):同一詞分開的單元在向量表示空間中顯示出高相似性, 當(dāng)相連的子詞在上下文中顯示出高關(guān)聯(lián)度時,可能是潛在的新詞。
3) 語義完整度(Semantic Completeness, SC):對詞的語義完整性進(jìn)行評分, 可以判斷一個詞以及其相似詞能否成為新詞。本文使用Transformer[67]進(jìn)行全局和自注意力循環(huán)序列建模, 借助人工智能文獻(xiàn)中的關(guān)鍵詞和公開的分詞數(shù)據(jù), 對語義完整性判斷算法進(jìn)行訓(xùn)練。
4) KL 融合度(KLFusion, KLF): KL 散度(Kull?back-Leibler Divergence)用于度量兩個概率分布之間的差異[68] , 而KL 融合度則是利用KL 散度對結(jié)合度[69] 和自由度[70] 進(jìn)行聯(lián)合計算, 用以量化詞語的內(nèi)部結(jié)構(gòu)與外部環(huán)境之間的差異, 獲得更魯棒和合理的新詞發(fā)現(xiàn)結(jié)果, 公式如下:
2.1.2 數(shù)據(jù)實(shí)驗
1) 數(shù)據(jù)收集與處理
從政府官網(wǎng)和北大法律信息網(wǎng)(https:/ / www.pkulaw.com/ )選取標(biāo)題含有“人工智能” 的政策文件, 共215 份, 中央級政策為42 項, 占比19%,地方政策173 項, 占比81%。清洗政策文本, 運(yùn)用Jieba 分詞工具進(jìn)行分詞, 形成政策分詞語料集。從語料集中提取500 句作為測試集, 邀請兩名專家閱讀并從中選擇新詞, 作為測試依據(jù)。
2) 政策新詞發(fā)現(xiàn)實(shí)驗
新詞詞庫構(gòu)建流程: ①從經(jīng)過預(yù)處理的政策分詞語料集中篩選出N-gram 詞(N 的范圍是2~3)作為候選新詞; ②統(tǒng)計并計算出MFF 多特征最佳閾值如圖2 所示; ③滿足MFF 多特征閾值的詞作為新詞以構(gòu)建新詞詞庫。
新詞發(fā)現(xiàn)是一個復(fù)雜任務(wù), 不同領(lǐng)域的語言特征、詞匯習(xí)慣以及新詞出現(xiàn)的頻率會影響任務(wù)的難度和算法性能表現(xiàn)。MFF 是無監(jiān)督算法, 為了檢驗MFF 算法在新詞發(fā)現(xiàn)方面的有效性, 選擇平均互信息(PMI)[71] 、鄰接熵(BE)[72] 、WEBM[14] 和MWEC[45] 進(jìn)行比較。其中, PMI 和BE 是兩種流行的無監(jiān)督方法, WEBM 和MWEC 基于語義相似度,性能優(yōu)于CRF 新詞發(fā)現(xiàn)算法, 已在新詞發(fā)現(xiàn)上取得較好效果。針對人工智能政策文本的測試集進(jìn)行了一系列實(shí)驗, 結(jié)果如表1 所示。
在人工智能政策文本的測試集上, MFF 算法的P 值、R 值和F1 值均超過其他先進(jìn)算法, 顯示出算法在準(zhǔn)確捕捉新詞的同時, 可盡可能少地將非新詞誤判為新詞。需要討論的是, 本文新詞發(fā)現(xiàn)算法F1 值接近但未超過80%, 但優(yōu)于其他先進(jìn)算法, 表明MFF 算法綜合利用了熱度、上下文關(guān)聯(lián)度、語義完整度和KL 融合度等多種特征, 可以更全面地捕捉新詞的潛在特征, 提升新詞發(fā)現(xiàn)的質(zhì)量和準(zhǔn)確性。另外, F1 值是綜合Precision 和Recall的指標(biāo), 在評估新詞發(fā)現(xiàn)任務(wù)時受到多種因素的影響, 如測試集的規(guī)模、內(nèi)容以及其中包含的新詞種類和數(shù)量等。已往文獻(xiàn)表明, 新詞發(fā)現(xiàn)算法在不同領(lǐng)域、不同測試集上F1 值在0.4~0.8 之間, 都可以證明算法的有效性[73-77] , 能夠為術(shù)語庫構(gòu)建、領(lǐng)域情感詞典構(gòu)建和輔助分詞提供有力支持。
為了評估MFF 每個特征的有效性, 本文在測試集上進(jìn)行了消融實(shí)驗, 依次去除熱度(H)、上下文關(guān)聯(lián)度(CA)、KL 融合度(KLF)、語義完整度(SC)。表2 列出了不同模型在測試集上的P / R/ F1值, 結(jié)果表明: ①去除任意一個特征都會導(dǎo)致新詞發(fā)現(xiàn)效果的下降, 證明特征融合的必要性和有效性;②去除熱度特征, 新詞發(fā)現(xiàn)效果大幅度下降。低頻新詞的特征不明顯, 難以被挖掘, 這也是未來的研究方向; ③去除上下文關(guān)聯(lián)度特征, 新詞發(fā)現(xiàn)效果大幅度下降, 說明詞向量能捕捉到組合詞之間的語義關(guān)系, 具有更強(qiáng)的語義表示能力; ④去除KL 融合度, 新詞發(fā)現(xiàn)效果下降。通過KL 融合度, 均衡結(jié)合度和自由度, 捕捉詞周圍的關(guān)聯(lián)關(guān)系; ⑤去除語義完整度, 新詞發(fā)現(xiàn)效果下降, 說明領(lǐng)域知識與語義完整性特征的有效性。
3) 多領(lǐng)域新詞發(fā)現(xiàn)實(shí)驗
在評估算法性能時, 考慮到領(lǐng)域差異和測試集的多樣性對F1 值的影響, 通常會對多個不同領(lǐng)域的測試集進(jìn)行評估, 以更全面地了解算法在不同場景下的表現(xiàn), 并且對比不同算法在相同測試集上的表現(xiàn)來進(jìn)行客觀的評估。因此, 將MFF 算法在已有文獻(xiàn)金融、體育、旅游和音樂4 個不同領(lǐng)域數(shù)據(jù)集進(jìn)行實(shí)驗, 并與原文中WEBM、MWEC 算法的結(jié)果進(jìn)行比較, 如表3 所示。
MFF 算法的F1 值在4 個數(shù)據(jù)集上的表現(xiàn)均優(yōu)于WEBM、MWEC 算法, P 值在旅游和音樂數(shù)據(jù)集上略弱于WEBM, R 值在體育數(shù)據(jù)集上略弱于MWEC算法, 證明MFF 算法具備對多領(lǐng)域數(shù)據(jù)集的魯棒性和適用性。
2.2 人工智能政策新詞詞庫
2.2.1 新詞詞庫構(gòu)建
詞匯作為語言的基礎(chǔ)單位, 是分析和理解政策變遷的重要路徑之一[78] 。利用MFF 新詞發(fā)現(xiàn)算法對政策語料集進(jìn)行新詞發(fā)現(xiàn), 構(gòu)建新詞詞庫用以輔助分詞。為提升新詞詞庫構(gòu)建的準(zhǔn)確性, 在新詞發(fā)現(xiàn)結(jié)果的基礎(chǔ)上對無效詞進(jìn)行過濾: ①通過語言規(guī)則剔除不符合構(gòu)詞規(guī)則的新詞詞匯; ②依據(jù)政策領(lǐng)域多重指標(biāo)混合篩選新詞詞匯[35] 。
共獲得846 個人工智能政策新詞, 形成詞庫,如表4 所示。一些新穎和熱門的合成新詞被識別了出來, 如: “元宇宙” “智能云” 等, 反映了人工智能領(lǐng)域的新概念和新主題。一些涉及地點(diǎn)的新詞也被識別, 如: “云上貴州” “之江實(shí)驗室” 等。多數(shù)政策常見的基礎(chǔ)詞, 如“社會治理” “隱私保護(hù)”等, 雖然被識別了出來, 但專業(yè)特征不明顯; 也有少數(shù)詞匯具有明顯的專業(yè)特征, 如: “機(jī)器人系統(tǒng)”“多源數(shù)據(jù)” 等。
從當(dāng)前來看, 部分挖掘出的新詞不再新穎, 但在其最初出現(xiàn)的時候代表了人工智能技術(shù)發(fā)展的前沿領(lǐng)域。由于傳統(tǒng)分詞工具未能準(zhǔn)確切分這些復(fù)合詞, 因而它們?nèi)匀环媳疚膶π略~的定義。將發(fā)現(xiàn)的新詞添加到詞庫, 分析政策文本中的時空特征和時序演變。
2.2.2 分詞結(jié)果對比
利用MFF 算法構(gòu)建新詞詞庫用于輔助分詞,可以進(jìn)一步檢驗MFF 算法的有效性。從人工智能政策語料集中隨機(jī)抽取句子作為測試集, 并進(jìn)行了人工分詞確認(rèn)。分詞效果通過P 值、R 值和F1 值進(jìn)行衡量。如表5 所示, Jieba 代表單獨(dú)采用Jieba分詞, Jieba+MFF 表示將詞庫添加到Jieba 分詞中輔助分詞。相對于單純的Jieba 分詞模型, 添加詞庫輔助分詞能夠顯著提升分詞效果, 準(zhǔn)確率、召回率和F1 值分別提高了22.47%、12.63%、17.89%。值得注意的是, MFF 算法的應(yīng)用使得分詞F1 值達(dá)到了98.16%, 表明MFF 算法對政策分析的積極作用, 可以為政策分析提供可靠的幫助。
以2017年7月8 日國務(wù)院發(fā)布的《新一代人工智能發(fā)展規(guī)劃》中的部分內(nèi)容為例, 未添加詞庫的分詞結(jié)果為: 新一代/ 人工智能/ 在/ 智能/ 制造/ 、/ 智能/ 醫(yī)療/ 、/ 智慧/ 城市/ 、/ 智能/ 農(nóng)業(yè)/ 、/ 國防建設(shè)/ 等/ 領(lǐng)域/ 得到/ 廣泛應(yīng)用/ , / 人工智能/ 核心/ 產(chǎn)業(yè)/ 規(guī)模/ 超過/4 000/ 億元/ , / 帶動/ 相關(guān)/ 產(chǎn)業(yè)/ 規(guī)模/ 超過/5/ 萬億元/ 。
添加詞庫之后的分詞結(jié)果為: 新一代人工智能/在/ 智能制造/ 、/ 智能醫(yī)療/ 、/ 智慧城市/ 、/ 智能農(nóng)業(yè)/ 、/ 國防建設(shè)/ 等/ 領(lǐng)域/ 得到/ 廣泛應(yīng)用/ , / 人工智能/ 核心產(chǎn)業(yè)/ 規(guī)模/ 超過/4000/ 億元/ , / 帶動/相關(guān)/ 產(chǎn)業(yè)/ 規(guī)模/ 超過/5/ 萬億元/ 。
在添加詞庫后, “智能制造” “智能醫(yī)療” “智慧城市” “智能農(nóng)業(yè)” 等人工智能相關(guān)概念被識別了出來, 涉及新興領(lǐng)域、新技術(shù)、新產(chǎn)業(yè)等。通過這些新詞, 可以更好地理解政策文本的主題和重點(diǎn), 幫助政策受眾更好地把握政策方向和內(nèi)容。
2.2.3 基于新詞發(fā)現(xiàn)的政策關(guān)鍵詞對比
關(guān)鍵詞自動抽取技術(shù)用于抽取具有專業(yè)性、能夠反映文檔主題的詞匯或短語[79] 。利用TF-IDF進(jìn)行關(guān)鍵詞提取, 結(jié)果如表6 所示。與未添加新詞詞庫的Jieba 分詞后文本提取結(jié)果相比, 多數(shù)關(guān)鍵詞得到優(yōu)化, 表明新詞發(fā)現(xiàn)技術(shù)有助于提升關(guān)鍵詞提取的全面性和準(zhǔn)確性。
2.3 人工智能政策新詞出現(xiàn)特征
2.3.1 政策新詞出現(xiàn)數(shù)量和頻次
新詞出現(xiàn)個數(shù)可以反映政策的熱度和關(guān)注點(diǎn),所有新詞被提及的平均頻次(所在年份的每個新詞頻次相加/ 所在年份的新詞出現(xiàn)個數(shù))則揭示了新詞在政策文本中的重要程度。如圖3 所示, 2017 年人工智能政策新詞數(shù)量顯著增加, 這可能與政策數(shù)量增長以及2017 年國務(wù)院發(fā)布《新一代人工智能發(fā)展規(guī)劃》有關(guān)。隨后, 新詞數(shù)量逐漸減少, 但依然保持著一定年出現(xiàn)數(shù)量, 說明國家繼續(xù)深化發(fā)展人工智能。新詞平均頻次總體呈現(xiàn)出波動上升的趨勢, 特別是在近幾年, 新詞的平均頻次顯著增加,反映了某些新詞在更為細(xì)分和專業(yè)化的政策文本中使用頻率較高, 被頻繁提及。結(jié)合央地政策數(shù)量來看, 體現(xiàn)出人工智能政策萌芽、急劇增長和平穩(wěn)發(fā)展3 個階段。
新詞數(shù)量和平均頻次之間呈現(xiàn)出一種“反向”關(guān)系。當(dāng)新詞數(shù)量較多時, 所有新詞的平均頻次較低, 表明政策關(guān)注的領(lǐng)域比較廣泛, 試圖全面推進(jìn)不同領(lǐng)域的發(fā)展。當(dāng)新詞個數(shù)較少時, 新詞平均頻次較高, 表明政策將重點(diǎn)放在少數(shù)幾個領(lǐng)域, 有針對性地推動相關(guān)產(chǎn)業(yè)和技術(shù)的發(fā)展, 以實(shí)現(xiàn)更加專業(yè)化和深度化的支持。
2.3.2 政策新詞時序變化
對政策文本中的詞匯進(jìn)行聚類, 可以揭示出政策領(lǐng)域的關(guān)鍵主題和核心概念。首先, 記錄人工智能政策新詞所在的年份; 其次, 使用所在年份的政策語料訓(xùn)練詞向量模型, 將這些新詞轉(zhuǎn)化為詞向量; 最后, 使用k-means 聚類算法對新詞向量進(jìn)行聚類, 得出中心詞和相關(guān)詞, 聚類的主題數(shù)由輪廓系數(shù)(Silhouette Coefficient)和卡林斯基-哈拉巴斯指標(biāo)(Calinski-Harabasz Criterion)確定。結(jié)果如表7 所示。
人工智能政策在不同年份聚焦的中心詞不斷變化。2009—2016 年, 政策中心詞從醫(yī)療領(lǐng)域擴(kuò)展至公共服務(wù)和交通領(lǐng)域, 反映出人工智能技術(shù)的應(yīng)用范圍逐步擴(kuò)大。2017—2019 年, 政策進(jìn)一步關(guān)注人工智能的整體發(fā)展、核心技術(shù)、社會福利和交通旅游等領(lǐng)域, 體現(xiàn)出人工智能的應(yīng)用產(chǎn)業(yè)逐漸多元化。2020 年以后, 政策開始關(guān)注人工智能的標(biāo)準(zhǔn)化、特定區(qū)域推廣、產(chǎn)業(yè)升級以及算力資源等,體現(xiàn)出政策對于技術(shù)規(guī)范、創(chuàng)新生態(tài)和基礎(chǔ)設(shè)施建設(shè)的重視。技術(shù)和應(yīng)用的成熟推動創(chuàng)新體系和標(biāo)準(zhǔn)體系的建設(shè), 政策中出現(xiàn)了“數(shù)字創(chuàng)意” “試驗區(qū)”和“元宇宙” 等新詞, 強(qiáng)調(diào)人工智能在經(jīng)濟(jì)和產(chǎn)業(yè)轉(zhuǎn)型中的重要作用。
2.4 基于新詞的政策演化分析
基于新詞的政策演化是指政策新詞在不同時間和語境中的創(chuàng)新、持續(xù)出現(xiàn)以及在更廣泛領(lǐng)域中的傳播和應(yīng)用的過程。這一概念綜合了新詞的創(chuàng)新性、延續(xù)性和擴(kuò)散性, 包括從初始創(chuàng)造到逐漸被采納并在不同政策文本中持續(xù)發(fā)展的過程。與簡單的變化不同, 基于新詞的政策演化更強(qiáng)調(diào)新詞如何在不同政策文件中的持續(xù)演進(jìn), 進(jìn)而影響和塑造政策制定的語境和方向。
2.4.1 政策新詞創(chuàng)新與延續(xù)
新詞創(chuàng)新是指在某一特定年份出現(xiàn)的新詞, 它代表了當(dāng)時政策關(guān)注的新的概念、技術(shù)或措施。新詞延續(xù)是指新詞重復(fù)出現(xiàn)在政策文本中, 表示新詞所代表的概念或議題在政策實(shí)踐中具有一定的延續(xù)性和影響力, 而非短暫的現(xiàn)象。利用TF-IDF 獲取每一年權(quán)重排名前三的新詞, 記錄出現(xiàn)年以及后續(xù)每一年的頻數(shù), 繪制折線圖如圖4 所示。“輔助診斷” 自從在政策中出現(xiàn)就穩(wěn)定存在, 說明政策一直關(guān)注人工智能技術(shù)在醫(yī)療診斷中的應(yīng)用和發(fā)展?!爸悄芷嚒?“智能終端” 和“智能制造” 等一直受到政策關(guān)注, 在后續(xù)年份中得到進(jìn)一步推動?!霸粕腺F州” “傳輸設(shè)備” 和“復(fù)工復(fù)產(chǎn)” 是在一定的時代背景和政策環(huán)境下產(chǎn)生的新詞, 反映了當(dāng)時的政策重點(diǎn)。盡管在隨后的政策文件中不再出現(xiàn), 不排除其可能仍具有影響力, 可以被視為“隱性延續(xù)”。
人工智能政策中的新詞在不同年份呈現(xiàn)不同的創(chuàng)新與延續(xù)性??傮w而言, 每年都有新詞出現(xiàn), 政策針對特定的社會需求或技術(shù)發(fā)展做出了新的規(guī)劃和調(diào)整。大部分新詞在后續(xù)年份中都有出現(xiàn), 表明政策對這些領(lǐng)域的關(guān)注具有一定的延續(xù)性, 反映了政策制定者對人工智能相關(guān)領(lǐng)域持續(xù)關(guān)注并推動政策應(yīng)用落地。同時, 也有少數(shù)新詞在后續(xù)年份中逐漸減少或不再提及, 反映出政策制定者對人工智能認(rèn)識的深化和注意力的轉(zhuǎn)移。
2.4.2 政策新詞擴(kuò)散
詞級別的分析可以呈現(xiàn)具體的政策知識、信息在不同層級機(jī)構(gòu)之間的擴(kuò)散[80] 。政策新詞在不同地區(qū)和領(lǐng)域中擴(kuò)散, 新的政策知識和信息也隨之傳播。新詞在政策間的流動方向, 可分為自上而下、自下而上和水平3 種。政策新詞擴(kuò)散一方面可以提高政策的認(rèn)知和理解, 促進(jìn)政策的有效實(shí)施; 另一方面, 政策新詞擴(kuò)散的方向和速度也可以反映政策的影響力和受關(guān)注程度, 有助于評估政策的實(shí)施效果和社會反響。采用新詞發(fā)現(xiàn)算法獲取同主題政策新詞, 篩選具有代表性的新詞, 繪制新詞時序圖,從時序和方向兩個維度研究政策新詞擴(kuò)散的過程和特點(diǎn)。以“云計算” 和“智能汽車” 為例進(jìn)行政策新詞擴(kuò)散的研究, 是基于這兩個領(lǐng)域在當(dāng)今社會中的重要性、多層次合作特點(diǎn)以及受到廣泛社會關(guān)注的因素, 這樣的考慮將有助于更全面地理解政策新詞擴(kuò)散的機(jī)制和影響。
智能汽車在政策頒布機(jī)構(gòu)間的擴(kuò)散如圖5 所示。智能汽車最早出現(xiàn)于2016 年國家發(fā)展改革委、科技部、工業(yè)和信息化部、中央網(wǎng)信辦聯(lián)合頒布的《“互聯(lián)網(wǎng)+” 人工智能三年行動實(shí)施方案》。2017年, 智能汽車出現(xiàn)在國務(wù)院頒布實(shí)施的《新一代人工智能發(fā)展規(guī)劃》, 并陸續(xù)擴(kuò)散至其他地方政府頒布的政策文獻(xiàn)中。總體上看, 智能汽車呈現(xiàn)“中央向地方” 的自上而下擴(kuò)散; 同時, 地方政府之間存在著平行擴(kuò)散現(xiàn)象。2017 年, 北京、上海、浙江等地相繼出臺了與智能汽車相關(guān)的政策, 后來陸續(xù)擴(kuò)散到福建、廣西、江蘇等地方政府的政策中; 政策數(shù)量在不同地區(qū)之間存在差異, 部分地區(qū)在智能汽車發(fā)展上展現(xiàn)出更積極和突出的態(tài)勢。
圖6 顯示云計算政策的擴(kuò)散過程。其最早是在2017 年天津市的人工智能政策中提出, 其后擴(kuò)散到中央機(jī)構(gòu)和地方政策, 呈現(xiàn)自下而上和地方平行擴(kuò)散趨勢。這表明在云計算領(lǐng)域的發(fā)展上具有一定的協(xié)同性和一致性, 彼此之間借鑒、學(xué)習(xí)和共同推進(jìn)。在地方政府機(jī)構(gòu)頒布的政策文獻(xiàn)中, 關(guān)注程度和積極性也不盡相同, 上海、浙江等省市對云計算持續(xù)關(guān)注。
2.4.3 政策新詞演化實(shí)例
使用政策新詞流量刻畫政策新詞演化, 由落實(shí)中央政策(與中央政策新詞相同)、地方首創(chuàng)(與中央政策新詞不同)和橫向參考(與發(fā)文較早的其他省市政策新詞相同)3 個維度組成。落實(shí)中央政策反映政策的延續(xù)性和一致性, 地方首創(chuàng)展示政策的創(chuàng)新性和開拓性, 而橫向參考則體現(xiàn)政策制定的學(xué)習(xí)能力和優(yōu)化方向。以“新一代人工智能發(fā)展規(guī)劃”為主題, 選取中央和省市政策如表8 所示, 統(tǒng)計3個維度的新詞數(shù)量, 如圖7 所示。
各省市政策與中央政策新詞相同的數(shù)量較高,這意味著各地在政策制定過程中更加注重對中央政策的遵循, 以確保政策的一致性和統(tǒng)一性。不同的個數(shù)體現(xiàn)了地方的政策創(chuàng)新和個性化調(diào)整。隨著時間的推移, 各省市政策與中央政策新詞不同的個數(shù)逐漸增加, 反映了地方政府推動人工智能發(fā)展策略的靈活性和適應(yīng)性, 為人工智能在各地的應(yīng)用和發(fā)展提供了更具地方特色的路徑和支持。省市政策新詞之間存在借鑒和學(xué)習(xí)的現(xiàn)象, 表明政策創(chuàng)新不僅僅局限于特定地域, 而是被其他地方借鑒和采納,產(chǎn)生政策的擴(kuò)散和創(chuàng)新。
新一代人工智能發(fā)展規(guī)劃政策中新詞的演化揭示了政策垂直擴(kuò)散、水平擴(kuò)散和地方的適應(yīng)性創(chuàng)新等方面的信息。各地政府在政策制定中既注重對中央政策的遵循和落實(shí), 又依據(jù)本地的實(shí)際情況和發(fā)展需求進(jìn)行個性化的調(diào)整和創(chuàng)新, 總體上形成了統(tǒng)一而靈活的人工智能政策體系。同時, 政策擴(kuò)散方向也反映了中央政策的指導(dǎo)作用和地方政府在人工智能發(fā)展中的創(chuàng)新性貢獻(xiàn)。
3 總結(jié)與展望
由于單一特征難以全面捕捉詞匯特征和上下文語義, 本文綜合考慮了熱度、上下文關(guān)聯(lián)度、KL 融合度、語義完整度等多種特征, 提出了一種多特征融合的新詞發(fā)現(xiàn)算法MFF。新詞發(fā)現(xiàn)實(shí)驗證明該算法效果較好, 但在低頻新詞的識別方面仍有待進(jìn)一步提升, 后續(xù)將進(jìn)行重點(diǎn)研究。
在優(yōu)化新詞發(fā)現(xiàn)算法的基礎(chǔ)上, 本文對人工智能政策進(jìn)行了多角度分析。從新詞出現(xiàn)個數(shù)和新詞提及的平均頻次可以窺探人工智能政策在不同時間段對不同領(lǐng)域的關(guān)注程度和戰(zhàn)略轉(zhuǎn)變。受《新一代人工智能發(fā)展規(guī)劃》發(fā)布影響, 新詞出現(xiàn)數(shù)量在2017 年急劇增加。同時, 新詞平均頻次呈現(xiàn)波動上升的趨勢, 尤其近年來增長明顯。結(jié)合政策數(shù)量的變化, 這一趨勢反映了人工智能領(lǐng)域的深化發(fā)展以及國家人工智能持續(xù)的支持和關(guān)注。值得注意的是, 新詞出現(xiàn)個數(shù)與新詞平均頻次之間呈現(xiàn)出一種“反向” 關(guān)系, 折射出人工智能發(fā)展的3 個階段: 初期的萌芽階段、緊隨其后的急劇增長階段, 以及逐漸趨于平穩(wěn)的發(fā)展階段。通過運(yùn)用經(jīng)典的k-means算法對每年的人工智能政策新詞進(jìn)行聚類時序分析, 可以清晰地觀察到人工智能政策關(guān)注主題的演變。這一演變從最初的單一關(guān)注逐步拓展為多元化的關(guān)注領(lǐng)域, 從簡單的發(fā)展態(tài)勢逐步深入到更為復(fù)雜的層面。
新詞的涌現(xiàn)和傳播能夠有效反映政策創(chuàng)新、延續(xù)以及擴(kuò)散的過程, 實(shí)現(xiàn)對人工智能政策的演化分析。大部分政策新詞在后續(xù)年份中持續(xù)出現(xiàn), 表明政策在這些領(lǐng)域具有一定的延續(xù)性。同時, 少數(shù)新詞在后續(xù)年份的政策中逐漸減少或不再出現(xiàn), 可能源于相關(guān)領(lǐng)域的變遷或其轉(zhuǎn)向隱性影響。政策新詞擴(kuò)散反映政策呈現(xiàn)自上而下、自下而上以及水平擴(kuò)散, 與之前學(xué)者以關(guān)鍵詞得出政策擴(kuò)散方向一致[81] 。在同一主題政策下, 各省市的地方政策新詞呈現(xiàn)出顯著的差異, 體現(xiàn)了各地方政策關(guān)注重點(diǎn)的多樣性,與之前的時序分析結(jié)果一致。值得特別關(guān)注的是,大部分省市的政策新詞都源自中央政策, 表明地方政府在落實(shí)中央政策方面付出了不懈努力, 這些新詞以一種自上而下的方式垂直擴(kuò)散開來。隨著時間的推移, 本文觀察到省市政策中創(chuàng)新的新詞逐年增加, 反映出地方政府在人工智能發(fā)展過程中采取了更加靈活的因地制宜策略。此外, 省市政策中還融合了橫向借鑒學(xué)習(xí)而來的新詞, 從而呈現(xiàn)出明顯的水平擴(kuò)散趨勢。未來的研究可以進(jìn)一步深入探討同一地方在不同時間段針對相同主題的政策, 以揭示新詞演變的趨勢和變化。這將有助于更全面地理解地方政策制定的動態(tài)過程, 以及其與中央政策的互動關(guān)系, 從而為地方政府在人工智能領(lǐng)域的決策提供更有深度的洞察。
基于新詞發(fā)現(xiàn)的政策研究為政策分析帶來了新的視角和方法, 有助于更全面地洞察政策的演化和創(chuàng)新, 進(jìn)而擴(kuò)展政策智能化治理的范圍。一方面,對人工智能政策新詞的出現(xiàn)特征進(jìn)行了總結(jié); 另一方面, 從人工智能政策新詞演化的角度分析了央地之間的創(chuàng)新、采納和借鑒現(xiàn)象, 揭示了政策新詞演化過程。然而, 盡管這種量化分析具有一定的優(yōu)勢,但欠缺了深入的定性分析理解, 特別是在解析政策現(xiàn)象的深層背后因素方面。因此, 如何有效地融合定性研究方法, 以增進(jìn)對政策背景、動機(jī)和影響因素的理解, 將成為未來研究的重要方向。