陳一
摘要:為研究國家對知識產權保護的重點關注領域,更好地發(fā)揮知識產權保護在創(chuàng)新和發(fā)展中的重要作用。運用Python對國家知識產權局官網2020年發(fā)布的關于知識產權保護文本進行爬蟲,再運用jieba和wordcloud制作詞云,分析國家對知識產權保護的側重點。
關鍵詞:知識產權保護;Python;爬蟲;詞云
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)19-0118-02
Research on Crawler and Wordcloud of Intellectual Property Protection Text
CHEN Yi
(School of Management and Economics,Kunming University of Science and Technology,Kunming 650000,China)
Abstract: In order to study the key areas of national attention on intellectual property protection, intellectual property protection can play an important role in innovation and development better. Python was used to crawl the text on intellectual property protection published on the official website of the State Intellectual Property Office in 2020, and jieba and wordcloud were used to make word clouds to analyze the state's emphasis on intellectual property protection.
Key words: intellectual property protection; Python; crawler; wordcloud
1引言
2020年我國科技領域多項關鍵技術受到實體清單限制,面對“卡脖子”問題,“科技創(chuàng)新是根,知識產權是魂。”知識產權保護在激勵創(chuàng)新中發(fā)揮著重要作用,為應對復雜的國際格局和全球經濟變革,國家高度重視知識產權保護。中共中央政治局于2020年11月30日就加強我國知識產權保護工作舉行第二十五次集體學習。習近平總書記強調,知識產權保護工作關系國家治理體系和治理能力現代化,關系高質量發(fā)展,關系人民生活幸福,關系國家對外開放大局,關系國家安全。本文選擇國家知識產權局官網(https://www.cnipa.gov.cn/),運用python對2020年關于“知識產權保護”的文本進行爬蟲,并清洗文本數據,然后通過爬取的文本制作詞云,分析國家對知識產權保護的重點關注領域。
2相關技術介紹
Python是一種跨平臺、開源、免費的解釋型高級動態(tài)編程語言。[1] Python語言具有語法簡潔、生態(tài)豐富、多語言集成的特點,近年來得到了迅猛發(fā)展和廣泛運用。
爬蟲,是一個可以自動提取互聯網上特定頁面內容的程序,通過向網站發(fā)起請求,獲取資源后分析并提取有用數據。[2]爬蟲的架構由爬蟲調度端、爬蟲核心模塊和存儲數據三個部分組成,爬蟲調度端是程序的入口,主要負責爬蟲程序的控制;爬蟲核心模塊包括 URL 管理器、網頁下載器和網頁解析器。[3]使用 Python 編寫爬蟲具有優(yōu)勢,Python易于配置的腳本特性,在處理字符時非常靈活,Python還有強大的爬蟲模塊和爬蟲框架,能夠便捷高效地下載網頁。[4]
詞云是對文本中出現頻率較高的“關鍵詞”進行可視化呈現,Python通過jieba庫和 wordcloud庫完成關鍵詞的抽取和詞云生成。[5] “結巴”分詞是一個 Python 中文分詞組件,可以對中文文本進行分詞、詞性標注、關鍵詞抽取等功能,[6]文本分析適合采用精確模式分詞。wordcloud 庫是 python詞云制作的第三方庫。詞云以詞語為基本單位更加直觀和藝術地展示文本,它可以將文本中詞語出現的頻率作為一個參數繪制詞云,而詞云的大小、顏色、形狀等屬性都可以設定。[7]生成詞云需要配置對象參數、加載詞云文本、輸出保存詞云文件三個步驟。[8]
3案例研究
國家知識產權局官網是中國發(fā)布知識產權信息的官方網站,從國家知識產權局官網獲取的關于知識產權保護的信息具有權威性和可靠性。運用Python語言編寫爬蟲程序,從國家知識產權局官網(https://www.cnipa.gov.cn/)上獲取2020年關于知識產權保護的文本,爬蟲的步驟分為四步:第一步,通過request庫的get方法向目標站點服務器發(fā)出請求;第二步,獲得請求響應的內容,返回Response對象;第三步,解析網頁內容;第四步:處理解析出的網頁內容,提取重要的信息,進行格式化輸出并保存。輸出結果利用pandas的duplicated()方法檢查重復的數據,使用drop_duplicates()函數完成去重。通過Python爬蟲獲取2020年國家知識產權局官網發(fā)布的關于知識產權保護的文本信息如圖1所示。
在爬取的2020年國家知識產權局官網發(fā)布的關于知識產權保護的文本信息的基礎上,采用中文分詞庫 jieba 對知識產權保護文本的標題和內容進行行分詞,并使用哈工大停用詞表過濾,再通過 wordcloud 庫用統(tǒng)計出來的高頻詞制作詞云。2020年知識產權保護文本的詞云如圖2所示。
4結論
知識產權保護是國家應對發(fā)展和挑戰(zhàn)的重要戰(zhàn)略部署,通過對2020年國家知識產權局官網發(fā)布的關于知識產權保護的文本信息爬蟲與詞云化,可以分析出國家對于知識產權保護的側重點。要提高知識產權保護工作法治化水平,強化知識產權全鏈條保護,深化知識產權保護工作體制機制改革,推進知識產權領域國際合作和競爭,積極發(fā)揮知識產權保護在促進改革與發(fā)展以及維護國家安全發(fā)面的重要作用。數據技術時代,要充分運用文本挖掘技術對政策進行研究,為科學執(zhí)政提供有利參考。
參考文獻:
[1] 方芳.基于Scrapy框架京東網站筆記本電腦評論數據爬取和分析[J].電腦知識與技術,2020,16(6):7-9.
[2] 張艷,吳玉全.基于Python的網絡數據爬蟲程序設計[J].電腦編程技巧與維護,2020(4):26-27.
[3] 吳永聰.淺談Python爬蟲技術的網頁數據抓取與分析[J].計算機時代,2019(8):94-96.
[4] 翟普.python網絡爬蟲爬取策略對比分析[J].電腦知識與技術,2020,16(1):29-30,34.
[5] 嚴明,鄭昌興.Python環(huán)境下的文本分詞與詞云制作[J].現代計算機(專業(yè)版),2018(34):86-89.
[6] 馮與詰.詞云生成系統(tǒng)的構建[J].通訊世界,2019,26(3):190-192.
[7] 裴麗麗.基于Python語言對電影影評數據爬蟲與詞云制作[J].信息記錄材料,2020,21(5):116-118.
[8] 徐博龍.應用Jieba和Wordcloud庫的詞云設計與優(yōu)化[J].福建電腦,2019,35(6):25-28.
【通聯編輯:王力】