基于網(wǎng)絡(luò)爬蟲的少數(shù)民族文學(xué)對外傳播成效研究

2019-05-17 05:40張敏，李野

西南民族大學(xué)學(xué)報（自然科學(xué)版） 2019年2期

張敏，李野

(西南民族大學(xué)外國語學(xué)院，四川成都 610041)

1 背景和現(xiàn)狀

1.1 研究背景和意義

美國學(xué)者H·拉斯維爾在《傳播在社會中的結(jié)構(gòu)與功能》一文中[1]，提出了構(gòu)成傳播過程的五種基本要素，形成了后來人們稱之“五W 模式”過程模式.這五個W 分別是英語中五個疑問代詞的第一個字母，即: Who (誰)、 Says What (說了什么)、 In Which Channel (通過什么渠道)、 To Whom (向誰說)、 With What Effect (有什么效果). 目前為止，對少數(shù)民族文學(xué)對外傳播的研究，往往只注重前面兩個W，也就是注重選擇經(jīng)典的少數(shù)民族文學(xué)作品(Who)，然后花大力氣將其翻譯后對外傳播(Says What). 對后面的三個W(In Which Channel，To Whom，With What Effect)也就是通過何種渠道何種方式對外傳播，對不同地區(qū)不同文化背景和不同宗教背景是否選擇合適的傳播途徑和傳播形式，尤其是傳播效果如何等等這些研究都關(guān)注較少.

目前大家更重視選擇少數(shù)民族文學(xué)作品和注重少數(shù)民族文學(xué)翻譯過程，但是作品在翻譯完成后是否達到預(yù)定的傳播效果，這方面的研究鮮有所見. 如果不了解受眾的反饋信息就會導(dǎo)致自說自話，達不到預(yù)定的目的也無從改進，因此關(guān)于受眾信息反饋需要進一步深入研究.

本文擬通過網(wǎng)絡(luò)爬蟲收集西方主要購書網(wǎng)站和書評網(wǎng)站針對相關(guān)少數(shù)民族文學(xué)作品的評論數(shù)據(jù)，并對這些評論數(shù)據(jù)進行數(shù)據(jù)挖掘和情感分析，以期找到少數(shù)民族文學(xué)對外傳播中的經(jīng)驗和存在的問題.

1.2 問題研究現(xiàn)狀

關(guān)于“少數(shù)民族文學(xué)”外譯相關(guān)研究:魏清光教授[2]指出少數(shù)民族文學(xué)作品對外翻譯的必要性性:少數(shù)民族文學(xué)作品更能代表中國的傳統(tǒng)價值觀，能夠向世界傳遞中國和平發(fā)展的意愿和能力.同時魏教授為如何系統(tǒng)的輸出少數(shù)民族典籍從多個方面進行了規(guī)劃.通過魏教授研究我們可以知道少數(shù)民族文學(xué)對外傳播重點在功能路徑上[3]，雖然向與中國關(guān)系不好的國家傳播中華文化難度較大，但如果能有效對向外譯介中國典籍文化可以起到緩和矛盾、沖突、誤解等的文化功能作用.魏教授這一研究也為本項目明確數(shù)據(jù)調(diào)查對象指明了方向，就是少數(shù)民族典籍對外傳播的主要對象是目前跟我們國家關(guān)系不太好但又在國際有影響力的大國. 比如印度，印度是我們國家的重要鄰居，但也對我們國家充滿的敵意，如果能夠順利推動少數(shù)民族經(jīng)典作品向印度普通民眾推廣，傳遞中華民族和平發(fā)展、互利共贏的理念對增進彼此相互了解和溝通，從而對兩國和平共處起到促進作用.

魏清光教授等[4]明確指出少數(shù)民族文學(xué)對外譯介存在“輸出渠道單一、輸出效能不理想”的問題. 從該文獻可以知道，目前我們的少數(shù)民族文學(xué)對外譯介大多都依賴出版渠道，通過書籍的方式傳播，這種形式過于單一不便于推廣.曾路[5]指出少數(shù)民族文化對外傳播方面除了使用傳統(tǒng)的媒體外，也應(yīng)該通過新媒體技術(shù)“網(wǎng)絡(luò)，數(shù)字化視頻、音頻媒介系統(tǒng)，手機信息服務(wù)，桌面視窗、觸摸媒介”促進少數(shù)民族文化對外傳播.隨著科技的進步，尤其是互聯(lián)網(wǎng)的發(fā)展，新媒體強勢崛起的背景下找到受眾國家民眾普遍使用且接受的傳播形式正是本項目重點解決的問題之一.李敏杰[6]通過模因理論得出了民族典籍外譯經(jīng)歷同化、記憶、表達和傳播四個階段. 同時李教授根據(jù)模因理論指出少數(shù)民族文學(xué)作品對外譯介要注重“研究西方讀者的接受心理和閱讀趣味，了解他們的思想價值觀念、讀譯作的目的、對譯作的評價等”，他同時指出只有譯者做到“知己知彼” ，才能使自己的譯作被他文化中的讀者所接受. 從李教授的研究可以得知，通過一定的方式收集和分析國外讀者態(tài)度和評價、意見和建議對有效推動少數(shù)民族典籍對外傳播非常必要.

關(guān)于網(wǎng)絡(luò)爬蟲相關(guān)研究:網(wǎng)絡(luò)爬蟲又稱網(wǎng)絡(luò)蜘蛛，是指按照某種規(guī)則在網(wǎng)絡(luò)上爬取所需內(nèi)容的腳本程序.眾所周知，每個網(wǎng)頁通常包含其他網(wǎng)頁的入口，網(wǎng)絡(luò)爬蟲則通過一個網(wǎng)址依次進入其他網(wǎng)址獲取所需內(nèi)容.通過網(wǎng)絡(luò)爬蟲分析網(wǎng)絡(luò)數(shù)據(jù)的相關(guān)研究非常多，例如[7]通過Python 編寫爬蟲獲取微博評論，以此發(fā)現(xiàn)輿情演變規(guī)律和潛在風(fēng)險，為輿情引導(dǎo)提供決策支持.隨著移動互聯(lián)網(wǎng)的發(fā)展和普及，如何在移動互聯(lián)網(wǎng)環(huán)境下獲取數(shù)據(jù)也是網(wǎng)絡(luò)爬蟲新的研究領(lǐng)域[8].介紹了一種系統(tǒng)將網(wǎng)絡(luò)爬蟲技術(shù)和數(shù)據(jù)分析以及Android 相結(jié)合起來并利用現(xiàn)有的技術(shù)設(shè)計一種校園輿情分析的系統(tǒng).

2 關(guān)鍵技術(shù)介紹

2.1 基于Python 網(wǎng)絡(luò)爬蟲介紹

Python 是一種開發(fā)語言，在人工智能、數(shù)據(jù)分析、網(wǎng)絡(luò)爬蟲等領(lǐng)域具有其他現(xiàn)有語言不可替代的優(yōu)勢.基于Python 的網(wǎng)絡(luò)爬蟲[9]由調(diào)度器、URL 管理器、下載器、網(wǎng)頁解析器、應(yīng)用程序五個部分組成，具體如圖1 所示. 調(diào)度器是爬蟲程序的中樞系統(tǒng)，主要負責(zé)其他四個部分的工作；URL 管理器包括所有的URL 地址，包括已經(jīng)爬取的地址和未爬取的地址便于調(diào)度器管理哪些地址已經(jīng)爬?。痪W(wǎng)頁下載器是下載未爬取的URL 地址網(wǎng)頁，在Python 中的urllib2 已經(jīng)實現(xiàn)網(wǎng)頁下載器的部分功能；網(wǎng)頁解析器首先網(wǎng)頁下載器下載后得到的網(wǎng)頁字符串進行解析，用戶可以根據(jù)需求提取出相關(guān)信息；各種應(yīng)用是指從網(wǎng)頁中提取的用戶想要數(shù)據(jù)的應(yīng)用程序.

圖1 基于Python 的網(wǎng)絡(luò)爬蟲總體框架Fig.1 The general framework of web crawlers based on python

2.2 核心軟件及其功能介紹

Scrapy 是一個應(yīng)用程序框架，可以實現(xiàn)遍歷爬行網(wǎng)站、分解獲取數(shù)據(jù). 其應(yīng)用非常廣泛，諸如數(shù)據(jù)挖掘、信息處理等等，具體如圖2 所示.

圖2 Scrapy 架構(gòu)圖Fig.2 The structure of Scrapy

Scrapy 執(zhí)行過程由執(zhí)行引擎完成控制，具體過程如下[10]:

①引擎從Spiders 中獲取到最初的要爬取的請求；

②引擎安排請求到調(diào)度器中，并向調(diào)度器請求下一個要爬取的請求；

③調(diào)度器返回下一個要爬取的請求給引擎；

④引擎將上步中得到的請求通過下載器中間件發(fā)送給下載器，這個過程中下載器中間件中的process_request()函數(shù)會被調(diào)用到；

⑤上一步完成后，下載器生成一個該頁面的Response，并將Response 通過下載中間件調(diào)用process_response()函數(shù)，將Response 傳送給引擎；

⑥引擎得到Response 后，通過Spider 中間件調(diào)用process_spider_input()函數(shù)發(fā)送給Spider 處理；

⑦Spider 處理Response 請求，完成后通過Spider中間件返回爬取到Item 及新的請求給引擎；

⑧引擎將上步中Spider 爬取到的Item 給管道，將Spider 處理的請求發(fā)送給調(diào)度器，并向調(diào)度器請求可能存在的下一個要爬取的請求；

⑨重復(fù)執(zhí)行直到調(diào)度器中沒有更多的請求.

區(qū)別于靜態(tài)數(shù)據(jù)，由于本文中涉及到的網(wǎng)絡(luò)留言是動態(tài)數(shù)據(jù)，需要找到一種工具能收集動態(tài)頁面數(shù)據(jù)，Selenium 就是其中較為杰出代表[11]. Selenium 是一個基于瀏覽器的自動化工具，它提供了一種跨平臺、跨瀏覽器的端到端的web 自動化解決方案. Selenium 測試直接運行在瀏覽器中，就像真正的用戶在操作一樣，可以模擬瀏覽器進行網(wǎng)頁加載，網(wǎng)絡(luò)爬蟲工具下使用Selenium 針對動態(tài)頁面非常有效.

在完成數(shù)據(jù)收集后，對數(shù)據(jù)有效分析也是關(guān)鍵問題之一. 本文中收集到的數(shù)據(jù)可以依靠Pandas 工具[12]，pandas 是基于NumPy 的一種工具，Pandas 納入了大量庫和一些標(biāo)準(zhǔn)的數(shù)據(jù)模型，提供了高效地操作大型數(shù)據(jù)集所需的工具.pandas 提供了大量能快速便捷地處理數(shù)據(jù)的函數(shù)和方法. 正是由于pandas 的存在，才能使Python 成為強大而高效的數(shù)據(jù)分析環(huán)境的重要因素之一，本文可以使用Pandas 對網(wǎng)絡(luò)爬蟲收集到的數(shù)據(jù)進行進一步分析和處理.

在完成數(shù)據(jù)收集和分析之后，需要對數(shù)據(jù)進行進一步挖掘[13-14]，例如本文中的評論數(shù)據(jù)，如何判斷該評論是正面還是負面，抑或是中性? 需要對收集到的文本進行情感計算.又由于本文所收集的文本以英文為主，本文中使用Python 中的TextBlob 工具，該工具可以為本文在文本挖掘和分析上提供支撐. TextBlob工具是一個用Python 編寫的開源的文本處理庫.它可以用來執(zhí)行諸多自然語言尤其是英語的處理任務(wù).比如英文詞性標(biāo)注，英文名詞性成分的提取，英文文本情感的分析，英文文本翻譯等等強大功能. 本文中使用TextBlob 對英文進行簡單情感分析，以此來判斷讀者對翻譯文獻的評價和態(tài)度.

TextBlob 主要針對英文，如果要分析中文文本可以使用SnowNLP 工具.該工具與TextBlob 類似，方便處理中文文本的情感分析.

3 主要實施流程

在本節(jié)中，我們將詳細介紹實驗平臺搭建方案和具體實現(xiàn)流程.為下一步具體實施奠定基礎(chǔ). 由于亞馬遜評論詳情頁是動態(tài)加載，本文擬通seleninum 進行模擬用戶行為，爬取，然后用pandas 寫入csv 文件，解決亂碼和無序問題.

3.1 環(huán)境搭建

操作系統(tǒng):Windows10.

開發(fā)環(huán)境:PyCharm Community Edition.

開發(fā)語言:Python2.7、pip 工具.

瀏覽器軟件:Firefox 瀏覽器(版本55. 0)以及Firefox 插件FirePath.

其他工具:selenium 3.7.0，scrapy 1.4.0，并通過pip 工具在scrapy 環(huán)境中安裝selenium.

3.2 數(shù)據(jù)采集

3.2.1 獲取目標(biāo)網(wǎng)址

首先定位到需要分析的書所在網(wǎng)頁，例如亞馬遜網(wǎng)站中著名藏族文學(xué)家阿來創(chuàng)作的《格薩爾王傳》，由著名漢學(xué)家葛浩文翻譯的英文版《The Song of King Gesar》.由于加載評論的頁面被封裝起來，可以使用瀏覽器開發(fā)者工具獲取保存評論的頁面，然后用正則表達式獲取有效數(shù)據(jù)內(nèi)容，去除無用部分.

3.2.2 爬蟲框架的選用

選擇python 的scrapy 模塊爬取，同時需要加載上selenium 工具.具體步驟可以參考2.2 節(jié)所示.

3.3 數(shù)據(jù)處理

3.3.1 數(shù)據(jù)存儲

將爬蟲收集到的數(shù)據(jù)存儲于數(shù)據(jù)庫對后面的數(shù)據(jù)分析和挖掘非常關(guān)鍵，由于本文中采集的數(shù)據(jù)量較少，數(shù)據(jù)庫可以選用mysql.

3.3.2 數(shù)據(jù)清洗

由于網(wǎng)絡(luò)爬蟲收集到各種各樣數(shù)據(jù)，并不一定是想要的，在此步驟需要通過正則表達式將數(shù)據(jù)進行清理，刪除無效數(shù)據(jù)，確保后面數(shù)據(jù)分析和數(shù)據(jù)挖掘的準(zhǔn)確性.

3.3.3 數(shù)據(jù)初步分析

在完成上述步驟后，利用TextBlob 對真實用戶文本數(shù)據(jù)進行挖掘，初步判斷用戶對待各種作品的態(tài)度和評價.

4 總結(jié)

本文將少數(shù)民族文學(xué)作品外譯過程中用戶態(tài)度和評價作為研究目標(biāo).擬通過網(wǎng)絡(luò)爬蟲對國外主要購書網(wǎng)站和書評網(wǎng)站相關(guān)的評論數(shù)據(jù)進行收集，然后對數(shù)據(jù)進行處理后進一步挖掘和情感分析，以期找到少數(shù)民族文學(xué)對外傳播中的經(jīng)驗和存在的問題.本文以亞馬遜網(wǎng)站為例，針對其特點重點介紹該類網(wǎng)站的網(wǎng)絡(luò)爬蟲框架和具體實施步驟，下一步將對具體細節(jié)進一步完善，將收集到的數(shù)據(jù)分析整理后，為少數(shù)民族文學(xué)作品對外譯介過程提供有價值的建議.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡