国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

區(qū)塊鏈與企業(yè)網(wǎng)絡國家政策數(shù)據(jù)的可視化分析

2024-06-15 10:13孫國強趙歡王芝芝
經(jīng)濟師 2024年5期
關鍵詞:詞頻分詞云圖

孫國強 趙歡 王芝芝

摘 要:文章采用Python網(wǎng)絡爬蟲技術(shù)在中國政府網(wǎng)采集區(qū)塊鏈與企業(yè)網(wǎng)絡相關數(shù)據(jù),使用Jieba庫實現(xiàn)分詞、去停用詞及高頻詞統(tǒng)計,并繪制高頻詞條形圖,基于TfidfVectorizer庫獲取分詞權(quán)重,實現(xiàn)可視化。通過文本挖掘方式獲取基于區(qū)塊鏈與企業(yè)網(wǎng)絡相關國家政策新聞的關鍵詞,從而整體把握政策核心內(nèi)容與潛在聯(lián)系,為相關人員進一步研究奠定基礎。

關鍵詞:爬蟲 中國政府網(wǎng) 區(qū)塊鏈 企業(yè)網(wǎng)絡 文本挖掘

中圖分類號:F062.4? 文獻標識碼:A

文章編號:1004-4914(2024)05-011-03

一、引言

隨著科學技術(shù)和網(wǎng)絡空間的發(fā)展,作為比特幣的底層技術(shù),區(qū)塊鏈已被廣泛應用到各個領域中,成為當前研究的熱點。區(qū)塊鏈被我國的“十三五”規(guī)劃作為三項重大任務和重點工程之一,而且在國內(nèi),阿里巴巴、騰訊、華為等大型企業(yè)紛紛著手區(qū)塊鏈技術(shù)的應用研究使之落地。盡管區(qū)塊鏈技術(shù)應用領域頗為廣泛,但區(qū)塊鏈和企業(yè)合作網(wǎng)絡結(jié)合起來的研究卻鮮有學者提及并探究其相關影響。企業(yè)發(fā)展一直以來受到融資難、融資貴、融資慢等問題的阻礙和制約,尤其是中小企業(yè)深受影響。正是由于具備過程可信和去中心化的特點,區(qū)塊鏈才能在多利益主體參與的場景下以低成本的方式構(gòu)建信任基礎,目標是重塑社會信用體系。區(qū)塊鏈具有“不可篡改、分布式記賬、智能合約、透明可溯”等技術(shù)屬性,可從根本上解決企業(yè)網(wǎng)絡信息轉(zhuǎn)移和價值交換過程中的搭便車行為,從而降低交易的成本和風險,是解決企業(yè)合作問題的有效手段。本文基于Python語言,在中國政府網(wǎng)爬取基于區(qū)塊鏈和企業(yè)合作網(wǎng)絡這一主題的政策新聞并繪制詞云圖。詞云圖是通過字體的大小凸顯文本中出現(xiàn)頻率較高的關鍵詞,可在頻數(shù)統(tǒng)計的基礎上更加美觀地展示數(shù)據(jù)。通過對國家政策關鍵詞進行數(shù)據(jù)可視化,可以動態(tài)把握趨勢,為學者進一步研究指明方向。

二、國家政策數(shù)據(jù)爬取

(一)相關技術(shù)

re模塊,匹配字符串的模塊,唯python獨有。正則表達式是對字符串進行模糊匹配,提取所需的字符串部分。該模塊基于正則表達式可以實現(xiàn)很多功能,對所有語言通用。

wordcloud庫,是第三方庫,用于展示詞云圖。以詞語為基本單位,詞語的詞頻越高,在詞云圖中顯示越大。

jieba庫,是一款優(yōu)秀的Python第三方中文分詞庫,它的庫語料以人民日報為基礎,冗余度比較低,用于實現(xiàn)分詞,返回中文文本分詞后的列表變量,支持三種分詞模式:精確模式、全模式、搜索引擎模式。精確模式是盡可能把一個句子按照最為可能的分詞結(jié)果最為準確地分割開來,這樣獲得的分詞結(jié)果通常更接近句子原意。本文使用精確分詞模式來對國家政策做文本分析。

(二)網(wǎng)頁源碼抓取

本文通過中國政府網(wǎng)網(wǎng)址進行目標數(shù)據(jù)的爬取。從中國政府網(wǎng)的政策點擊進去,再點高級搜索,然后在搜索欄輸入搜索詞“區(qū)塊鏈與企業(yè)網(wǎng)絡”,就可以發(fā)現(xiàn)有16份中央有關文件和35份國務院文件。將搜索詞“區(qū)塊鏈”替換成與其意思相近的詞語如“智能合約”和“共識機制”。同理,將“企業(yè)網(wǎng)絡”替換成“企業(yè)合作網(wǎng)絡”“經(jīng)濟合作”“產(chǎn)業(yè)聯(lián)盟”“集群”“創(chuàng)新網(wǎng)絡”“供應鏈”“模塊化網(wǎng)絡”與“企業(yè)間合作”。之后將兩類詞語兩兩組合后進行搜索,整理后統(tǒng)計共有444份政策文件。具體情況見表1。

本文目標網(wǎng)址http://sousuo.gov.cn/a.htm?t=zhengce。通過該網(wǎng)址進入政策的高級搜索頁面,輸入搜索詞“區(qū)塊鏈與企業(yè)網(wǎng)絡”。通過分析URL發(fā)現(xiàn)q=后面即為搜索的詞語。相應的網(wǎng)址頁面可借助Python找到,然后就可以抓取網(wǎng)頁源碼,再提取關鍵信息。通過網(wǎng)頁右擊點檢查,就可以看到源代碼,繼而進行相關的一系列操作。

(三)BeautifulSoup解析網(wǎng)頁數(shù)據(jù)

BeautifulSoup模塊用于解析html和xml文檔中的內(nèi)容,相比正則表達式,其更好的利用了html這種結(jié)構(gòu)性文檔的樹狀結(jié)構(gòu),解析起來更加方便。解析的第一步是構(gòu)建一個BeautifulSoup對象,通過點號操作符,可以直接訪問文檔中的特定標簽。本文通過解析代碼,獲取所有p標簽里面的內(nèi)容即可獲取新聞文本。

(四)數(shù)據(jù)處理

Python中迄今為止最好的中文分詞組件是Jieba分詞器,可很好地協(xié)助使用者完成潛在主題發(fā)現(xiàn)和主題詞獲取等任務,特別適用于中文文本分類。故而,本文采用Jieba分詞器進行政策新聞文本數(shù)據(jù)的一系列處理。

首先,通過Pandas庫的read_excel()方法導入爬取下來的鏈接即444個URL;其次,循環(huán)遍歷URL訪問對應內(nèi)容,通過BeautifulSoup中soup.find_all('p')獲取網(wǎng)頁源代碼所有p標簽的內(nèi)容,即所有段落對應的內(nèi)容,同時采用正則表達式進行數(shù)據(jù)清洗,如用re.sub('<.*?>','',paragraphs[i])清洗掉所有‘<>里面的內(nèi)容;再次,將處理后的每篇政策新聞放到一個字符串里面,444篇新聞就是444個字符串,把這些字符串放到一個列表con_list444里面;而后,通過Jieba庫的jieba.cut()方法實現(xiàn)對新聞文本的分詞操作,獲取長度大于等于3且小于等于4的分詞結(jié)果;之后,采用sklearn中的TfidfVectorizer方法獲取分詞權(quán)重;再之后,采用for循環(huán),通過jieba.del_word(word)手動刪除意義不大的詞,如平方公里、符合條件等;最后,通過collections模塊的 Counter()方法獲取top100的關鍵詞及權(quán)重。

三、高頻詞統(tǒng)計與數(shù)據(jù)可視化

完成數(shù)據(jù)采集和數(shù)據(jù)處理后,調(diào)出并應用WordCloud庫和 Jieba庫來實現(xiàn)高頻詞統(tǒng)計和數(shù)據(jù)可視化。同時借助collections模塊中的Counter()方法來實現(xiàn)詞頻統(tǒng)計,分別統(tǒng)計兩個字、三個字和四個字分詞的top20,詞頻統(tǒng)計結(jié)果如表2。

(一)分詞TF—IDF權(quán)重統(tǒng)計

TF—IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。本文對444篇基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡相關主題的政策新聞進行Jieba分詞,然后通過Python采用TF—IDF算法進行分詞的權(quán)重統(tǒng)計,之后將分詞權(quán)重降序排列,剔除停用詞后其結(jié)果如表3。

(二)高頻詞條形圖制作

基于詞頻統(tǒng)計結(jié)果來制作水平條形圖,可以獲得更加明了清晰的詞頻統(tǒng)計效果,讓人耳目一新。接著,調(diào)用matplotlib 模塊的子模塊pyplot的barh()方法來繪制水平條形圖。對三個字和四個字分詞分別繪制詞頻條形圖結(jié)果如圖1和圖2。

(三)WordCloud詞云圖繪制

詞云圖是一種數(shù)據(jù)可視化圖表,視覺沖擊性很強。通過對文本中大量無實際意義的低頻詞匯進行過濾、并對出現(xiàn)頻率較高的“關鍵詞”予以不同顏色和大小進行視覺效果上的突出。本文使用wordcloud庫和imageio融合圖形圖片繪制詞云圖展示444份基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡相關搜索詞的政策新聞文本的關鍵詞。三字以上排名前130的分詞對應的詞云圖繪制結(jié)果如圖3。

四、結(jié)論

基于區(qū)塊鏈與企業(yè)合作網(wǎng)絡相關政策的詞云結(jié)果顯示:綜合來看,相關實踐重在“試驗區(qū)”和“示范區(qū)”;“人工智能”“互聯(lián)網(wǎng)”和“信息化”排列靠前,與當今時代發(fā)展保持一致;“創(chuàng)新”“改革”“制度”“資源”“管理”和“政策”是重要著力方點;“現(xiàn)代化”“服務化”“數(shù)字化”“智能化”“標準化”和“市場化”是重要向;“基礎設施”“公共服務”“生態(tài)環(huán)境”“知識產(chǎn)權(quán)”“自由貿(mào)易”“交通運輸”“網(wǎng)絡安全”“服務平臺”“科技成果”“管理制度”“外商投資”和“科研院所”是硬實力;“技術(shù)”“關鍵技術(shù)”“技術(shù)創(chuàng)新”“核心技術(shù)”和“創(chuàng)新能力”成分說明創(chuàng)新技術(shù)的重要性;“高質(zhì)量”與新時代我國社會的主要矛盾相吻合。

本文通過爬取中國政府網(wǎng)的政策新聞文本,進一步證明了網(wǎng)絡規(guī)則的規(guī)范性。爬蟲可以方便地獲取數(shù)據(jù),擁有廣闊的應用前景。相較于傳統(tǒng)數(shù)據(jù),中國政府網(wǎng)的政策新聞具有更清晰的指向性以及更強的前瞻性,本文通過對政策新聞的文本挖掘來探索隱藏在大量數(shù)據(jù)背后的關鍵詞信息。本實驗結(jié)果顯示,通過爬蟲、正則化數(shù)據(jù)清洗和數(shù)據(jù)可視化等步驟后,獲得的高頻詞條形圖和政策新聞詞云圖結(jié)果較好地呈現(xiàn)了新聞的指向與發(fā)展焦點,這對于把握未來發(fā)展走向具有一定的現(xiàn)實意義。

[基金項目:國家自然科學基金項目“企業(yè)網(wǎng)絡權(quán)力的形成機理、配置效率及其對合作行為的影響研究”(71872014);山西省基礎研究(自由探索)項目“區(qū)塊鏈與戰(zhàn)略性新興產(chǎn)業(yè)集群深度融合研究”(202303021211141)。]

參考文獻:

[1] 王君宇,吳清烈,曹卉宇.國內(nèi)區(qū)塊鏈典型應用研究綜述[J].科技與經(jīng)濟,2019,32(05):1-6.

[2] 王莉,段婷,董珺.區(qū)塊鏈與企業(yè)網(wǎng)絡融合:機遇、挑戰(zhàn)與對策[J].經(jīng)濟問題,2021(04):23-30.

[3] 宋華,楊雨東,陶錚.區(qū)塊鏈在企業(yè)融資中的應用:文獻綜述與知識框架[J].南開管理評論,2022,25(02):34-46.

[4] 曾詩欽,霍如,黃韜,等.區(qū)塊鏈技術(shù)研究綜述:原理、進展與應用[J].通信學報,2020,41(01):134-151.

[5] 李曉娣,原媛,黃魯成.政策工具視角下我國養(yǎng)老產(chǎn)業(yè)政策量化研究[J].情報雜志,2021,40(04):147-154.

[6] 黎曦.基于網(wǎng)絡爬蟲的論壇數(shù)據(jù)分析系統(tǒng)的設計與實現(xiàn)[D].華中科技大學,2019.

[7] 汪言.基于Python的詞云生成及優(yōu)化研究——以“十四五”規(guī)劃為例[J].電腦知識與技術(shù),2021,17(19):23-28.

(作者單位:孫國強,趙歡,山西財經(jīng)大學管理科學與工程學院 山西太原 030006;王芝芝,山西省科技成果轉(zhuǎn)移轉(zhuǎn)化促進與數(shù)據(jù)監(jiān)測中心 山西太原 030001)

[作者簡介:孫國強,博士,山西財經(jīng)大學管理科學與工程學院教授,研究方向為組織創(chuàng)新與網(wǎng)絡治理;趙歡,碩士,研究方向為組織創(chuàng)新與網(wǎng)絡治理;王芝芝,山西省科技成果轉(zhuǎn)移轉(zhuǎn)化促進與數(shù)據(jù)監(jiān)測中心副研究員,研究方向為政府信息化。]

(責編:賈偉)

猜你喜歡
詞頻分詞云圖
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
分詞在英語教學中的妙用
成都云圖控股股份有限公司
結(jié)巴分詞在詞云中的應用
結(jié)巴分詞在詞云中的應用
黃強先生作品《雨后松云圖》
基于TV-L1分解的紅外云圖超分辨率算法
詞頻,一部隱秘的歷史
云圖青石板
云存儲中支持詞頻和用戶喜好的密文模糊檢索