国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于爬蟲系統(tǒng)的省級公共圖書館微信平臺運(yùn)用調(diào)查

2018-02-09 08:52:05
圖書館論壇 2018年3期
關(guān)鍵詞:閱讀數(shù)爬蟲數(shù)量

謝 輝

0 前言

近年省級公共圖書館(以下簡稱“省館”)紛紛開通微信公眾號服務(wù)平臺(以下簡稱“微信公眾號”),學(xué)者開始研究圖書館微信公眾號運(yùn)營情況。張正等[1]認(rèn)為,微信為擴(kuò)展圖書館服務(wù)范圍、方式和內(nèi)容提供了新途徑。郭春俠等[2]調(diào)查31家省館微信公眾號現(xiàn)狀,指出服務(wù)功能設(shè)置和服務(wù)水平良莠不齊。整體而言,關(guān)于省館微信公眾號的研究側(cè)重于應(yīng)用現(xiàn)狀、功能等方面;而關(guān)于微信公眾號服務(wù)情況及數(shù)據(jù)分析等定量研究較少。為此,本研究采集2016年5月1日至2017年5月1日各省館微信公眾號推送的文章、文章閱讀量、發(fā)布時(shí)間等作為研究數(shù)據(jù),構(gòu)建微信傳播指數(shù)WCI評價(jià)指標(biāo)體系,并針對試驗(yàn)數(shù)據(jù),從宏觀和實(shí)例角度探討省館微信公眾號服務(wù)現(xiàn)狀及存在問題。

1 研究過程

1.1 數(shù)據(jù)源選擇

本研究數(shù)據(jù)來自清博指數(shù)。清博指數(shù)是我國最大的第三方新媒體搜索引擎、微信數(shù)據(jù)庫,其收錄的數(shù)據(jù)包括頭條閱讀量、發(fā)布時(shí)間、總閱讀量、詳細(xì)內(nèi)容、總點(diǎn)贊數(shù)、最多閱讀文章、圖文消息鏈接、當(dāng)日閱讀量、最近一周閱讀量等。依托該平臺,本研究統(tǒng)計(jì)分析各省館微信公眾號推送文章的傳播量、覆蓋度、賬號成熟度和影響力等。

1.2 數(shù)據(jù)收集

1.2.1 爬蟲系統(tǒng)原理及架構(gòu)

網(wǎng)絡(luò)爬蟲(Web Crawler)是一種用于自動(dòng)提取網(wǎng)絡(luò)信息的工具,主要利用C/C++、Java、Python、Perl等程序語言撰寫,自動(dòng)抽取網(wǎng)頁并保存在數(shù)據(jù)庫中,以作為分析或數(shù)據(jù)探勘使用。網(wǎng)絡(luò)爬蟲基本架構(gòu)見圖1[3]:首先提取程序(Fetcher)抓取HTML文件,并將HTML文件內(nèi)容放進(jìn)控制器(Controller)分析;當(dāng)超鏈接被搜尋到后,將被鏈接提取程序抽取出來建立增加新節(jié)點(diǎn)到網(wǎng)絡(luò)爬蟲的工作量中,可視為數(shù)據(jù)結(jié)構(gòu)的隊(duì)列方式;然后將抽取的HTML文件或想獲得的信息通過匯總程序存入數(shù)據(jù)庫,直到網(wǎng)絡(luò)爬蟲工作量內(nèi)沒有要接入的節(jié)點(diǎn)之后結(jié)束。一般而言,網(wǎng)頁搜尋策略方式有4種:IP地址搜尋方法、廣度優(yōu)先、深度優(yōu)先和最佳優(yōu)先策略。

圖1 網(wǎng)絡(luò)爬蟲系統(tǒng)架構(gòu)圖

1.2.2 微信爬蟲系統(tǒng)設(shè)計(jì)

為方便采集各館微信公眾號推送文章及相關(guān)數(shù)據(jù),以Python語言為基礎(chǔ),構(gòu)建微信公眾號爬蟲系統(tǒng),主要步驟:(1)統(tǒng)計(jì)各館微信公眾號開通情況。通過網(wǎng)上搜索查詢和篩選,獲得32個(gè)省館微信公眾號。(2)通過微信公眾號爬蟲系統(tǒng)搜尋2016年5月1日至2017年5月1日32個(gè)館微信公眾號推送的文章、閱讀量、點(diǎn)贊率、鏈接地址等數(shù)據(jù),將其放到非關(guān)系型數(shù)據(jù)庫MongoDB的URL_list集合中進(jìn)行存儲(chǔ),通過爬蟲系統(tǒng)搜尋推送文章的鏈接地址、文章標(biāo)題和內(nèi)容,同樣存儲(chǔ)在URL_list集合中。(3)導(dǎo)出文件。從數(shù)據(jù)庫中導(dǎo)出推送文章鏈接地址和文本內(nèi)容數(shù)據(jù),以URL.CSV和INFO.CSV格式進(jìn)行分析使用。

1.3 數(shù)據(jù)處理

1.3.1 篩選重復(fù)數(shù)據(jù)

利用EXCEL中COUNTIF函數(shù)篩選重復(fù)的文章鏈接地址,將其刪除。浙江省館和云南省館均開通微信訂閱號和服務(wù)號,因此,將其鏈接地址及內(nèi)容數(shù)據(jù)合并在同一個(gè)賬號下。由于URL.CSV文件中有24條被發(fā)布者刪除或內(nèi)容被舉報(bào)而無法查看的記錄數(shù)據(jù),將其進(jìn)行刪除,剩余8065條微信公眾號推送文章的鏈接地址記錄,INFO.CSV文件做相應(yīng)的刪除修改,導(dǎo)出數(shù)據(jù)8065條鏈接地址,包含文本內(nèi)容、標(biāo)題、摘要、點(diǎn)贊數(shù)、推送時(shí)間等數(shù)據(jù)。

1.3.2 基于Tableau的數(shù)據(jù)分析

Tableau是一款可視化數(shù)據(jù)分析產(chǎn)品。本研究將篩選后的數(shù)據(jù)導(dǎo)入Tableau中進(jìn)行分析,結(jié)合WCI對各館微信公眾號推送文章位置、日期、時(shí)間、傳播指數(shù)排名、推送時(shí)間、推送內(nèi)容等指標(biāo)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。部分?jǐn)?shù)據(jù)見圖2。

2 調(diào)查實(shí)踐及結(jié)果分析

2.1 宏觀分析

2.1.1 區(qū)域推送數(shù)量

為直觀地展示各館地理位置及其推送文章情況,利用EXCEL工具將各館微信公眾號推送文章數(shù)量在地圖相應(yīng)位置上進(jìn)行標(biāo)記。從圖3可以看出,江蘇、湖南、黑龍江等省館微信公眾號推送文章數(shù)量最多,分別達(dá)1325篇、1103篇、850篇。分區(qū)域看,東部和南部省館微信公眾號推送文章數(shù)量明顯較西部和北部多,表明各館微信平臺運(yùn)行狀況與當(dāng)?shù)亟?jīng)濟(jì)水平有直接的關(guān)系。

2.1.2 推送時(shí)間的選擇

圖2 各省館公眾號采集數(shù)據(jù)(部分)

圖3 省館微信公眾號文章推送量分布

根據(jù)爬蟲遍歷得到的文章推送日期和數(shù)量,得出各館微信公眾號推送文章數(shù)量隨月份變化情況,見圖4。2016年12月推送最多,可能逢元旦假期,活動(dòng)增多;其次是9月、11月推送較多;10月出現(xiàn)低谷,可能與國慶假期有關(guān),影響微信管理人員推送文章。2016年與2017年上半年和對應(yīng)的下半年相比,上半年微信平臺活躍度不如下半年。2.1.3 時(shí)間選擇

圖4 各省館月均推送數(shù)量

根據(jù)爬蟲搜尋得到各館推送文章及其推送時(shí)間段,以24小時(shí)為橫坐標(biāo),各時(shí)間段所有館推送文章數(shù)量的平均數(shù)作為縱坐標(biāo)軸,數(shù)據(jù)計(jì)算結(jié)果見圖5。由圖5可見,各館0-6點(diǎn)推送文章最少,與工作人員作息保持一致。在上午和下午工作時(shí)間段推送數(shù)量隨時(shí)間推移增多,分別在12時(shí)和17時(shí)達(dá)到高峰。13時(shí)、14時(shí)推送數(shù)量出現(xiàn)低谷,這與午休時(shí)間相符。在晚上時(shí)間段,各館平均推送文章的數(shù)量出現(xiàn)隨時(shí)間推移而遞減趨勢,23時(shí)達(dá)到最低點(diǎn),這和作息時(shí)間相符。

2.2 實(shí)例分析

2.2.1 微信公眾平臺開通現(xiàn)狀

截至2017年5月1日,32家省館全部開通微信平臺且完成認(rèn)證,見表1。其中首都圖書館、天津圖書館、河北省圖書館、黑龍江省圖書館、山東省圖書館、湖南圖書館、浙江圖書館、上海圖書館等8家開通了兩個(gè)微信平臺。山東省圖書館只有一個(gè)公眾號“山東省圖書館資訊平臺”通過認(rèn)證,另一個(gè)公眾號是“山東省圖書館”,顯示尚未認(rèn)證。

表1 省館微信平臺開通情況

圖5 各時(shí)段推送數(shù)量統(tǒng)計(jì)

圖6 省館微信平均閱讀量、平均點(diǎn)贊數(shù)統(tǒng)計(jì)

圖7 省館微信推文數(shù)量統(tǒng)計(jì)

2.2.2 推送文章情況分析

整理分析2016年5月1日至2017年5月1日各館微信公眾號推送文章的數(shù)量、平均閱讀量、平均點(diǎn)贊量(見圖6和圖7)。鑒于數(shù)據(jù)完整及公眾號的穩(wěn)定性、可查詢性等原因,剔除無效的公眾號數(shù)據(jù),本文最終選取了27個(gè)公眾號進(jìn)行研究。推送數(shù)量前4位是湖南圖書館、黑龍江省圖書館、甘肅省圖書館和浙江圖書館,均超過400篇,湖南圖書館更達(dá)到1103篇。各館微信公眾號平均閱讀量是指所有文章閱讀量總和除以文章推送數(shù)量求得的平均值,平均閱讀量超過1000次的包括湖南、湖北和山東3個(gè)省館,湖南圖書館平均閱讀量達(dá)5734次。平均點(diǎn)贊數(shù)是指各館微信公眾號推送文章的點(diǎn)贊總數(shù)除以文章數(shù)量所求得的平均值,湖南、四川、山東、吉林4個(gè)省館推送文章的平均點(diǎn)贊數(shù)最高,均超過1000個(gè),其中湖南圖書館達(dá)5734個(gè)。

2.2.3 推送時(shí)間

選取湖南、四川、黑龍江、甘肅、浙江5個(gè)省館微信平臺服務(wù)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,得到圖8??v坐標(biāo)用于說明各館推送文章時(shí)間段的選擇和平均閱讀量,橫坐標(biāo)為一天內(nèi)各時(shí)段。5家省館微信公眾平臺推送文章均在12時(shí)和15時(shí)達(dá)到高峰,且12時(shí)推送數(shù)量遠(yuǎn)高于其他時(shí)段,其中浙江圖書館12時(shí)推送文章數(shù)量僅次于湖南圖書館,17時(shí)甘肅省圖書館推送文章數(shù)量排名第二。

圖8 各省館各時(shí)段推送文章數(shù)量及閱讀量均值統(tǒng)計(jì)

雖然湖南圖書館將12點(diǎn)作為推送文章的首選時(shí)間段,但平均閱讀量并非處于全天最高峰,全天閱讀最高峰出現(xiàn)在16-20時(shí),說明用戶在下午及晚上時(shí)段的關(guān)注度更高。甘肅省圖書館與黑龍江省圖書館的平均閱讀量均較低,說明微信平臺推送文章數(shù)量與閱讀量并非正相關(guān),但與推送時(shí)間關(guān)系較密切,且閱讀量較大的時(shí)間段集中在下午及晚上時(shí)間段。因此,各館微信管理人員應(yīng)在考慮讀者閱讀時(shí)間選擇的基礎(chǔ)上,提高文章推送效率,選擇更加合適的時(shí)間進(jìn)行推送。

2.2.4 推送內(nèi)容

對湖南、四川、黑龍江、甘肅、浙江等5家省館推送文章的閱讀量進(jìn)行排名,選擇排名前4的文章,排名結(jié)果見表2。

表2 微信號高閱讀量文章統(tǒng)計(jì)

湖南圖書館微信公眾號排名前五的文章閱讀量均遠(yuǎn)高于其他館。其中,排名第一的《父母尚在茍且,你卻炫耀詩和遠(yuǎn)方》閱讀量超過11萬,該文受到如此大的關(guān)注,主因是標(biāo)題和內(nèi)容觸動(dòng)了各年齡段人們的情感;排名第二的《他是買下十套學(xué)區(qū)房卻一天也沒住過的任性買房者,也是一個(gè)你完全想象不到的童話大王》與熱點(diǎn)話題緊密相關(guān);其余文章也與熱門話題相關(guān),閱讀量均超過5萬。

四川省圖書館上榜4篇文章中,3篇與南海軍事熱門話題密切相關(guān)。甘肅省圖書館上榜的4篇文章以心靈雞湯為主,引導(dǎo)人們樂觀向上,這與人們壓力過大,需要給予開導(dǎo)有關(guān)。黑龍江省圖書館和浙江圖書館推送的文章大多為通知、寫作,較少涉及熱點(diǎn)話題,關(guān)注度不高,閱讀量較低。

2.3 微信傳播指數(shù)分析

2.3.1 微信傳播指數(shù)概述

微信傳播指數(shù)(Wechat Communication Index,WCI)由清博新媒體指數(shù)團(tuán)隊(duì)開發(fā),全面反映微信公眾平臺推送文章的覆蓋度、傳播范圍及其影響力,具有權(quán)威性和可靠度。WCI常用指標(biāo)架構(gòu)系統(tǒng)及標(biāo)準(zhǔn)化得分的計(jì)算公式(見圖9)。系統(tǒng)抓取時(shí)間一般為系統(tǒng)每日更新賬號前一天發(fā)布的文章及其閱讀數(shù)。閱讀數(shù)量在每日12:00左右更新,統(tǒng)計(jì)數(shù)據(jù)在每天15左右更新,日榜數(shù)據(jù)采用文章發(fā)布第二天的數(shù)據(jù)進(jìn)行計(jì)算,每天14點(diǎn)左右發(fā)布日榜,周榜數(shù)據(jù)通常為清博指數(shù),設(shè)定周日到周六為一周的統(tǒng)計(jì)周期。頭條總閱讀數(shù)為某賬號當(dāng)期所有頭條文章閱讀數(shù)總和,總閱讀數(shù)為某賬號當(dāng)期所有文章閱讀數(shù)總和。平均閱讀數(shù)為總閱讀數(shù)除以某賬號當(dāng)期發(fā)布文章數(shù),總點(diǎn)贊數(shù)為某賬號當(dāng)期所有文章點(diǎn)贊數(shù)總和,平均點(diǎn)贊數(shù)為總點(diǎn)贊數(shù)除以某賬號當(dāng)期發(fā)布文章數(shù),最大閱讀數(shù)為某賬號當(dāng)期最高閱讀數(shù),最大點(diǎn)贊數(shù)為某賬號當(dāng)期最高點(diǎn)贊數(shù),點(diǎn)贊率為總點(diǎn)贊數(shù)除以總閱讀數(shù)。圖9R為評估時(shí)間段內(nèi)所有文章(n)的閱讀總數(shù);Z為評估時(shí)間段內(nèi)所有文章(n)的點(diǎn)贊總數(shù);d為評估時(shí)間段所含天數(shù)(一般周取7天,月度取30天,年度取365天,其他時(shí)間段以真實(shí)天數(shù)計(jì)算);n為評估時(shí)間段內(nèi)賬號所發(fā)文章數(shù);Rt和Zt為評估時(shí)間段內(nèi)賬號所發(fā)頭條的總閱讀數(shù)和總點(diǎn)贊數(shù);Rmax和Zmax為評估時(shí)間段內(nèi)賬號所發(fā)文章的最高閱讀數(shù)和最高點(diǎn)贊數(shù)。

圖9 WCI通用指標(biāo)體系架構(gòu)及計(jì)分方式

2.3.2 WCI評價(jià)指標(biāo)體系構(gòu)建

為綜合評價(jià)各館微信公眾號整體服務(wù)水平和質(zhì)量,選取2016年5月1日至2017年5月1日的統(tǒng)計(jì)數(shù)據(jù)作為實(shí)驗(yàn)樣本,采用總閱讀數(shù)R、總點(diǎn)贊數(shù)Z、發(fā)布文章數(shù)N、各省館微信平臺當(dāng)期最高閱讀數(shù)Rmax、該賬號最高點(diǎn)贊數(shù)Zmax等作為評價(jià)各館微信公眾平臺綜合服務(wù)水平的指標(biāo)數(shù)據(jù)來源,構(gòu)建微信傳播指數(shù)WCI評價(jià)指標(biāo)體系,詳見圖10。

圖10 微信傳播指數(shù)WCI評價(jià)指標(biāo)體系

借鑒WCI權(quán)重分配標(biāo)準(zhǔn)[8]來確定WCI評價(jià)指標(biāo)體系中的權(quán)重系數(shù),選擇總閱讀數(shù)≥1000、<小于1000兩種情況,確定不同條件下各指標(biāo)權(quán)重系數(shù)(見表3、表4)。

表3 WCI計(jì)算公式(總閱讀數(shù)≥1000)

表4 WCI計(jì)算公式(總閱讀數(shù)<1000)

結(jié)合實(shí)際情況,得出微信傳播指數(shù)WCI的計(jì)算公式。

2.3.3 評價(jià)結(jié)果分析

從表5看出,湖南圖書館微信傳播指數(shù)遠(yuǎn)遠(yuǎn)高于其他館;四川省圖書館、甘肅省圖書館排名第二、第三,且與其剩余館微信傳播指數(shù)相差較大,說明微信平臺服務(wù)水平和質(zhì)量較高。黑龍江省圖書館、浙江圖書館推送文章數(shù)量排名第二、第四,但微信傳播指數(shù)排名第八、第十,排名相對靠后。

3 省館微信平臺建議與應(yīng)用拓展

3.1 均衡分配,維持黏性

各館微信平臺平均推送文章數(shù)量差異較大,其中湖南圖書館以1136篇高居榜首,黑龍江省圖書館、甘肅省圖書館和浙江圖書館均超過500篇,遠(yuǎn)超其他館。通過線下調(diào)研,發(fā)現(xiàn)各館微信運(yùn)用人力資源分配不均衡。統(tǒng)計(jì)分析各館微信平臺推送文章數(shù)量和推送時(shí)間,各館推送數(shù)量最多的月份為2016年12月,其次為9月和11月;上半年推送數(shù)量明顯低于下半年。由于用戶對微信平臺的關(guān)注度主要依賴文章更新以及文章高熱點(diǎn)性,因此應(yīng)重視微信平臺人力資源建設(shè),提升用戶對微信平臺的依賴性。

3.2 善用指數(shù),合理評價(jià)

綜合考量各館微信公眾號推送文章數(shù)量、閱讀數(shù)、點(diǎn)贊數(shù)等各指標(biāo),可知各館微信平臺服務(wù)水平和質(zhì)量存在差異性,說明各館微信平臺運(yùn)行能力良莠不齊,不同館面臨的問題以及急需改進(jìn)的問題均不相同。因此,有必要建立科學(xué)的微信平臺服務(wù)水平評價(jià)指標(biāo)體系,通過評價(jià)結(jié)果來指導(dǎo)各館改進(jìn)微信平臺服務(wù)質(zhì)量。

表5 省館微信WCI統(tǒng)計(jì)

3.3 原創(chuàng)為主,轉(zhuǎn)載為輔

通過對湖南、四川、黑龍江、甘肅、浙江等5家省館微信傳播指數(shù)、文章推送時(shí)間段、推送內(nèi)容等分析發(fā)現(xiàn),獲得讀者閱讀量最多的文章有兩個(gè)共性:實(shí)時(shí)性和原創(chuàng)性。湖南圖書館憑借對熱點(diǎn)、趣聞等信息掌握的實(shí)時(shí)性,吸引大量用戶,奠定微信平臺多項(xiàng)指標(biāo)均穩(wěn)居第一的位置;四川省圖書館憑借對熱點(diǎn)新聞的深入解讀而提升了影響力。因此,各館可發(fā)揮自身優(yōu)勢,加強(qiáng)原創(chuàng)性。

3.4 加大推送頻次,完善平臺功能

各館微信公眾號推送頻次普遍不高,需要提高推送次數(shù),通過完善功能并開通對應(yīng)接收,使訪問者與圖書館管理者實(shí)現(xiàn)實(shí)時(shí)互動(dòng),及時(shí)將書目等信息推送給用戶,通過公眾號對應(yīng)的接口開發(fā)特色程序,包含二維碼圖書在線掃描,實(shí)現(xiàn)圖書查詢和借閱,替代或完成圖書館APP功能。

3.5 擴(kuò)大傳播途徑

對社交網(wǎng)絡(luò)軟件來說,多渠道擴(kuò)大影響是重中之重。圖書館可以將公眾號置于網(wǎng)頁最醒目的地方,或在圖書館大廳、閱覽室設(shè)置微信號二維碼掃描區(qū)域,或在微信公眾號中加強(qiáng)與讀者的互動(dòng),舉辦有獎(jiǎng)?wù)魑暮透偧碱惢顒?dòng),從而提高微信公眾號的影響力。

[1]張正.圖書館微信公眾平臺的構(gòu)建[J].國家圖書館學(xué)刊,2014,23(2):26-31.

[2]郭春俠,李詩琪.國內(nèi)省級公共圖書館微信平臺服務(wù)探析[J].現(xiàn)代情報(bào),2016,36(4):128-133.

[3]石恩名,肖曉軍.基于云平臺的分布式高性能網(wǎng)絡(luò)爬蟲的研究與設(shè)計(jì)[J].電信科學(xué),2017,43(8):180-186.

猜你喜歡
閱讀數(shù)爬蟲數(shù)量
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
科技政務(wù)微信傳播方式與效果研究
——以某省科技微信公眾號為例
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
統(tǒng)一數(shù)量再比較
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
電子測試(2018年1期)2018-04-18 11:53:04
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
頭發(fā)的數(shù)量
我國博物館數(shù)量達(dá)4510家
編讀往來
編讀往來
高唐县| 报价| 万盛区| 堆龙德庆县| 漳浦县| 临城县| 德钦县| 赤城县| 永康市| 徐闻县| 读书| 南靖县| 云南省| 新闻| 修水县| 蒙山县| 萨嘎县| 平罗县| 达尔| 赤城县| 连山| 纳雍县| 茌平县| 阜城县| 塘沽区| 西昌市| 宿州市| 丹寨县| 余江县| 海晏县| 江山市| 道孚县| 府谷县| 盐山县| 大渡口区| 阜新市| 祁东县| 曲松县| 南华县| 曲靖市| 荆州市|