盧寧
摘要:為了更好地開展數(shù)字科學(xué)普及教育,下載更多數(shù)字科學(xué)普及電影的相關(guān)信息和影片資源服務(wù)于數(shù)字科普工作,滿足廣大青少年對科普知識的渴望.文章基于Python語言以在百度上獲取的科普電影片名為文件名新建一個文件夾,以將獲取的影片相關(guān)資料(如科普電影圖片的URL地址)放入新建文件夾為例,介紹了獲取科普電影相關(guān)信息的思路流程和知識要點,為獲取科普電影相關(guān)信息奠定理論基礎(chǔ)、確定操作流程、提供關(guān)鍵代碼,以及為后續(xù)的數(shù)據(jù)分析提供原始資源。
關(guān)鍵詞:數(shù)字科普;科普電影;數(shù)據(jù)獲?。籔ython
中圖法分類號:TP393 文獻(xiàn)標(biāo)識碼:A
1 引言
數(shù)字科普電影是為普及科學(xué)文化知識而特攝,利用數(shù)字電影為傳媒以淺顯、通俗易懂的表現(xiàn)形式讓公眾了解自然科學(xué)和社會科學(xué),從而推廣科技的應(yīng)用、倡導(dǎo)科學(xué)方法、傳播科學(xué)思想、弘揚科學(xué)精神。影片內(nèi)容在解釋自然現(xiàn)象和社會現(xiàn)象時,力求做到深入淺出、形象生動,使觀眾易于接受??破针娪氨憩F(xiàn)范圍極為廣泛———自然科學(xué)、人文科學(xué)均可涉及。數(shù)字科普電影常用于科普場館的科普教育。
2 Python 獲取數(shù)據(jù)的優(yōu)勢
請求模塊、解析模塊豐富成熟, 有著強(qiáng)大的Scrapy 網(wǎng)絡(luò)框架,代碼簡潔,代碼量少。數(shù)據(jù)獲取的方法可采用自動索引、模擬程序,按照一定的規(guī)則自動抓取萬維網(wǎng)信息。該程序或者腳本從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。然后通過對數(shù)據(jù)進(jìn)行處理,得到有價值的數(shù)據(jù),傳統(tǒng)算法從一個或若干初始網(wǎng)頁的URL 開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL 放入隊列,直到滿足系統(tǒng)的一定停止條件。
用Python 語言可以實現(xiàn)如下功能:以在百度上獲取到的各科普電影片名為文件名新建文件夾,在此文件夾下,以各科普電影片名為文件名、以.txt 為擴(kuò)展名建立文本文件,將爬取到的與這部電影有關(guān)的信息(以獲取的此科普電影圖片的URL 地址為例)放入此文本文件中。
3 方法
步驟1 導(dǎo)入本程序要用到的模塊。
在PyCharm 編輯器中編寫程序代碼:import csv # csv 文件格式是一種通用的電子表格和數(shù)據(jù)庫導(dǎo)入導(dǎo)出格式,用此文件存放獲取到的科普影片片名import os # 包含普遍的操作系統(tǒng)功能import re # 正則表達(dá)式用于提取有效的內(nèi)容import requests #網(wǎng)絡(luò)訪問模塊用于得到頁面源代碼步驟2 獲取頁面源代碼。
在百度搜科普電影,如圖1 所示。