国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互聯(lián)網(wǎng)大數(shù)據(jù)“接地氣”的深度學(xué)習(xí)研究

2019-10-24 07:33謝妤婕孟凡然劉旭東劉鳳海賈國(guó)柱
科技傳播 2019年17期
關(guān)鍵詞:接地氣詞頻分形

謝妤婕,孟凡然,劉旭東,楊 鑫,劉鳳海,賈國(guó)柱

1 概述

“接地氣”在百度百科中解釋為:廣泛接觸老百姓的普通生活,反映最底層普通民眾的愿望、訴求。用大眾的生活習(xí)慣、用語(yǔ)等,而不是脫離了群眾的實(shí)際需求和真實(shí)愿望,而是踏踏實(shí)實(shí)。用來(lái)形容一些政府官員及名人,比較親善大眾。再看近年來(lái),兩起打破常規(guī)的政治選舉事件,跟“接地氣”有著微妙的聯(lián)系。2019 年4 月21 日,作為“政治素人”的喜劇演員澤連斯基利用社交媒體,用喜劇、漫畫(huà)來(lái)調(diào)侃競(jìng)爭(zhēng)對(duì)手,并將普通民眾的訴求、愿望、利益作為自己的競(jìng)選重點(diǎn),拉近與選民的距離,靠著非?!敖拥貧狻钡男蜗蟠螳@全勝,成功當(dāng)選烏克蘭總統(tǒng)。還有諸多實(shí)例都能說(shuō)明“接地氣”與政客、政治領(lǐng)域緊密相關(guān),引起媒體的關(guān)注和報(bào)道。從這些實(shí)例中可以看出,“接地氣”,本身帶有一種感情色彩。另外,從百度指數(shù)來(lái)看,“接地氣”呈現(xiàn)明顯的震蕩趨勢(shì),對(duì)“接地氣”的研究有很大的價(jià)值。

那么我們是否可以通過(guò)研究“接地氣”的相關(guān)數(shù)據(jù),建立一個(gè)關(guān)于“接地氣”的情感分析語(yǔ)料庫(kù),從而輔佐媒體等領(lǐng)域的研究呢?本文將從以下方面來(lái)展開(kāi)對(duì)“接地氣”的研究。大數(shù)據(jù)是互聯(lián)網(wǎng)平臺(tái)產(chǎn)業(yè)的結(jié)晶,利用大數(shù)據(jù)是分析事物客觀規(guī)律的有效途徑。本文選取百度指數(shù)、CNKI 數(shù)據(jù)庫(kù)等數(shù)據(jù)作為數(shù)據(jù)源。在對(duì)數(shù)據(jù)進(jìn)行自然語(yǔ)言分析(NLP)時(shí),發(fā)現(xiàn)“簡(jiǎn)單”和“接地氣”有著很高的相關(guān)性,不過(guò)“簡(jiǎn)單”的百度指數(shù)和“接地氣”的百度指數(shù)這兩列數(shù)據(jù)集是非平穩(wěn)時(shí)間序列,且相關(guān)性復(fù)雜,不能只運(yùn)用簡(jiǎn)單的線性分析。為了得到更可靠的分析,本文選擇了MF-DCCA 對(duì)“簡(jiǎn)單”和“接地氣”進(jìn)行分析,并為進(jìn)一步形成關(guān)于“接地氣”的情感分析語(yǔ)料庫(kù)做了基礎(chǔ)性的工作。

圖1

2 數(shù)據(jù)源與研究方法

2.1 數(shù)據(jù)源

百度指數(shù)是一個(gè)數(shù)據(jù)共享平臺(tái),基于以百度為搜索引擎的海量網(wǎng)民的行為數(shù)據(jù)構(gòu)建,作為研究數(shù)據(jù)具有一定的可信度和普遍性[1]。

CNKI 是中國(guó)影響力大、內(nèi)容全的數(shù)字圖書(shū)館和網(wǎng)絡(luò)資源共享平臺(tái),核心期刊和重要評(píng)價(jià)性數(shù)據(jù)庫(kù)來(lái)源期刊的收錄率達(dá)到99% 以上,其信息內(nèi)容有非常明確的來(lái)源、出處,內(nèi)容可信可靠,可以作為學(xué)術(shù)研究和科學(xué)決策的依據(jù)[2]。

2.1.1 CNKI 數(shù)據(jù)庫(kù)

關(guān)鍵詞選擇“接地氣”,文獻(xiàn)類(lèi)型去除“非工程科技Ⅰ類(lèi)和非工程科技Ⅱ類(lèi)”,從1984—2019 年,共獲得3 700 條文獻(xiàn)數(shù)據(jù)。每一條數(shù)據(jù)記錄主要包括文獻(xiàn)的作者、題目、摘要、關(guān)鍵字和引文等。

如圖2 所示,2010 年前,年平均發(fā)表文獻(xiàn)小于10 篇,2010 年之后整體呈現(xiàn)明顯的上升趨勢(shì),在2014 年達(dá)到頂峰后又開(kāi)始呈現(xiàn)明顯的下降趨勢(shì),并且百度指數(shù)也在2014 年達(dá)到最高點(diǎn)。檢索到的文章主題分布非常廣泛,共15 個(gè),其中“接地氣”主題占比最大達(dá)到80.44%,超過(guò)一半,占比第二的是企業(yè)管理。進(jìn)一步主題可大分為接地氣、政治、管理。整體呈現(xiàn),以接地氣為主導(dǎo),政治、管理為輔的局勢(shì)。研究層次分布廣泛,共18 個(gè),主要在自然科學(xué)和社會(huì)科學(xué)。其中占比最大的是政策研究,達(dá)到33.36%,行業(yè)指導(dǎo)次之24.29%。占比前四均為社會(huì)科學(xué)研究,總占比達(dá)到81.68%,超過(guò)一半。

2.1.2 百度指數(shù)

已在概述中做出說(shuō)明。

2.1.3 爬蟲(chóng)抓取數(shù)據(jù)

使用了八爪魚(yú)采集器抓取以“接地氣”為關(guān)鍵詞的百度新聞標(biāo)題,并對(duì)其進(jìn)行詞頻分析,去掉動(dòng)詞、量詞等,只用名詞和形容詞,最后統(tǒng)計(jì)得出:名詞里詞頻TOP3 是網(wǎng)友、明星、句子;形容詞里詞頻TOP3 是精辟、喜歡、簡(jiǎn)單。

在百度資訊中分別以“接地氣”和詞頻Top5的形容詞組合成接地氣精辟、接地氣喜歡、接地氣簡(jiǎn)單、接地氣真實(shí)、接地氣高大為搜索詞進(jìn)行搜索,得到表1。

表1 2019年4月21日星期日

圖2

結(jié)合以上數(shù)據(jù)分析發(fā)現(xiàn),“接地氣”的百度指數(shù)呈現(xiàn)明顯震蕩狀態(tài),其相關(guān)學(xué)術(shù)研究較少,且與新聞、媒體、傳播等具有一定相關(guān)性。

2.2 研究方法

1)在CNKI 數(shù)據(jù)庫(kù)中以關(guān)鍵詞“接地氣”為關(guān)鍵詞高級(jí)檢索,去除“非工程科技Ⅰ/Ⅱ類(lèi)”,提取研究層次、領(lǐng)域等數(shù)據(jù),繪制成圖,分析其特征。利用八爪魚(yú)采集器抓取以“接地氣”為關(guān)鍵詞的百度新聞標(biāo)題,運(yùn)用NLP 分析、易詞云進(jìn)行詞頻分析畫(huà)圖。提取形容詞詞頻TOP5 數(shù)據(jù),做進(jìn)一步處理。結(jié)合“接地氣”和形容詞詞頻TOP5 的詞匯作為關(guān)鍵詞,在百度搜索引擎中搜索相關(guān)條目。為更深入研究,本文采用MF-DCCA 來(lái)分析“接地氣”和“簡(jiǎn)單”的相關(guān)性。整個(gè)研究方法歸結(jié)為一個(gè)模型,即基于互聯(lián)網(wǎng)大數(shù)據(jù)的深度學(xué)習(xí)的研究。在接下來(lái)的工作中,融入已有情感詞典和相關(guān)語(yǔ)料庫(kù),形成關(guān)于“接地氣”的情感分析語(yǔ)料庫(kù),為新聞,媒體領(lǐng)域的研究做輔助性工作。

圖3 互聯(lián)網(wǎng)大數(shù)據(jù)深度學(xué)習(xí)模型

2)MF-DCCA。1967 年,Mandelbrot 首次提出了分形理論,用分?jǐn)?shù)維度的視角和數(shù)學(xué)方法描述和研究客觀事物。為了研究不同數(shù)據(jù)集的長(zhǎng)期交叉相關(guān)性,Podobnik 和Stanley 提出了去趨勢(shì)交叉相關(guān)性分析法(DCCA),在多個(gè)領(lǐng)域得到了廣泛應(yīng)用。為探究?jī)蓚€(gè)交叉相關(guān)的非平穩(wěn)時(shí)間序列的多重分形特征,Zhou 結(jié)合DCCA 方法和MF-DFA 方法,提出了多重分形去趨勢(shì)交叉相關(guān)性分析法(MF-DCCA),將DCCA 的二階局部趨勢(shì)推廣到了q 階,用于研究?jī)蓚€(gè)同時(shí)發(fā)生的具有自相關(guān)性的非平穩(wěn)序列之間的相關(guān)性及其多重分形特征[3]。

圖4

(1)赫斯特指數(shù)Hxy(q)。根據(jù)圖4 中呈現(xiàn)的曲線來(lái)看,赫斯特指數(shù)Hxy(q)隨q 值的不同而不同,Hxy(q)均不為常數(shù),這表明“接地氣”和“簡(jiǎn)單”交叉相關(guān)性具有多重分形特征。圖5 中可以看出,當(dāng)q=2 時(shí),Hxy(q)=1.066,接近于1,說(shuō)明“接地氣”和“簡(jiǎn)單”兩列時(shí)間序列呈長(zhǎng)程相關(guān)性。

(2)τ(q)圖4 中表明τ(q) 不是 q 的線性函數(shù),所以“接地氣”和“簡(jiǎn)單”兩列時(shí)間序列的交叉相關(guān)性呈多重分形。

(3)波動(dòng)函數(shù)Fq(s)和時(shí)間間隔s。圖4 中顯示了“接地氣”和“簡(jiǎn)單”之間的波動(dòng)函數(shù)隨著時(shí)間標(biāo)度s 的變化而變化的雙對(duì)數(shù)圖。從圖中可以看出,對(duì)于不同的q 值,在一段時(shí)期內(nèi)曲線基本呈現(xiàn)出線性關(guān)系,具有較好的冪律關(guān)系,這也就意味著“接地氣”和“簡(jiǎn)單”之間確實(shí)存在著交叉相關(guān)性。

(4)滑動(dòng)窗口分析。圖4 中小圖為滑動(dòng)窗口分析圖。橫坐標(biāo)為時(shí)間,縱坐標(biāo)為赫斯特指數(shù)。

滑動(dòng)窗口常用于研究?jī)闪袛?shù)據(jù)集相關(guān)性的時(shí)間變化特征,為了更全面地分析“接地氣”和“簡(jiǎn)單”的交叉相關(guān)性,本文采用滑動(dòng)窗口分析方法得到“接地氣”和“簡(jiǎn)單”的交叉相關(guān)性的日度動(dòng)態(tài)變化特征?;瑒?dòng)窗會(huì)隨著窗口長(zhǎng)度的變化而變化,滑動(dòng)窗口過(guò)長(zhǎng),會(huì)導(dǎo)致丟失許多局部信息;而滑動(dòng)窗口過(guò)短,會(huì)導(dǎo)致局部波動(dòng)太劇烈而影響動(dòng)態(tài)趨勢(shì)的觀察[4]。因此,正確選擇滑動(dòng)窗口的長(zhǎng)度對(duì)于滑動(dòng)窗口分析方法至關(guān)重要。為了正確捕獲到全樣本交叉相關(guān)性的動(dòng)態(tài)特點(diǎn),適應(yīng)研究需要將滑動(dòng)窗口分析的窗口期設(shè)定為500 天。從2012 年1 月1 日 到2018 年12 月31 日;設(shè)定q 值為2,去除時(shí)間序列的前500 天,計(jì)算交叉相關(guān)性指數(shù)Hxy(q);然后將樣本向前滾動(dòng)一天,重復(fù)上述步驟直至樣本末端,得到交叉相關(guān)性指數(shù)序列圖。

從圖4 中可以看出,所有赫斯特指數(shù)Hxy(q)均在0.75-1.10 之間,說(shuō)明“接地氣”和“簡(jiǎn)單”兩列時(shí)間序列一直都具有長(zhǎng)程相關(guān)性且呈多重分形特征。

2.3 總結(jié)

通過(guò)多重分形去趨勢(shì)交叉相關(guān)性分析法(MFDCCA)得出的結(jié)果發(fā)現(xiàn)“接地氣”的百度指數(shù)和“簡(jiǎn)單”的百度指數(shù)這兩列時(shí)間序列總是具有長(zhǎng)程相關(guān)性,且呈多重分形特征。

3 研究結(jié)果與分析

1)互聯(lián)網(wǎng)時(shí)代,人們對(duì)于事物的關(guān)注度往往體現(xiàn)在搜索量上。對(duì)于“接地氣”的關(guān)注,自然也可以通過(guò)百度指數(shù)來(lái)反應(yīng)。從“接地氣”的百度指數(shù)可以看出,人們對(duì)于“接地氣”一直有關(guān)注,且其走勢(shì)呈明顯的震蕩趨勢(shì),所蘊(yùn)含的信息豐富,研究?jī)r(jià)值很大。

2)將八爪魚(yú)采集器爬取到的以“接地氣”為關(guān)鍵詞的百度新聞標(biāo)題進(jìn)行分詞。通過(guò)簡(jiǎn)單的NLP 分析可以發(fā)現(xiàn),“接地氣”與“簡(jiǎn)單”“精辟”“真實(shí)”等具有一定的相關(guān)性。并且可以看到,“接地氣”一般用來(lái)表示官員、政客、名人等的親善大眾,是一個(gè)本身帶有情感色彩的詞匯。

3)CNKI 文獻(xiàn)數(shù)據(jù)表明關(guān)于“接地氣”在黨建,政策研究等領(lǐng)域都有相關(guān)研究,但在新聞、傳媒研究甚少,且“接地氣”又和新聞、媒體、傳播等領(lǐng)域具有一定相關(guān)性,因此關(guān)于“接地氣”在新聞、傳媒等領(lǐng)域具有很大的研究?jī)r(jià)值和潛力。

4)通過(guò)多重分形去趨勢(shì)交叉相關(guān)性分析法(MF-DCCA)和滑動(dòng)窗口分析方法研究“接地氣”百度指數(shù)和“簡(jiǎn)單”百度指數(shù)這兩列時(shí)間序列,結(jié)果發(fā)現(xiàn),“接地氣”百度指數(shù)和“簡(jiǎn)單”百度指數(shù)具有總是具有長(zhǎng)程相關(guān)性,且呈多重分形特征,這說(shuō)明,研究“簡(jiǎn)單”對(duì)于研究“接地氣”有一定的意義,對(duì)“接地氣”的研究提供了方向。

5)對(duì)于“接地氣”的數(shù)據(jù)分析和研究,可以進(jìn)一步擴(kuò)展到情感分析領(lǐng)域,建立一個(gè)“接地氣”的情感分析語(yǔ)料庫(kù),從而輔助“接地氣”對(duì)于新聞,傳播,媒體等領(lǐng)域的研究。文章對(duì)于“接地氣”的CNKI 文獻(xiàn)數(shù)據(jù)、百度指數(shù)、爬蟲(chóng)爬取的新聞標(biāo)題的研究,為建立“接地氣”情感分析語(yǔ)料庫(kù)做了一個(gè)基礎(chǔ)性的工作。

猜你喜歡
接地氣詞頻分形
基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
感受分形
分形之美
分形——2018芳草地藝術(shù)節(jié)
分形空間上廣義凸函數(shù)的新Simpson型不等式及應(yīng)用
中水電,在老撾“接地氣”有回報(bào)
詞頻,一部隱秘的歷史
云存儲(chǔ)中支持詞頻和用戶(hù)喜好的密文模糊檢索
以關(guān)鍵詞詞頻法透視《大學(xué)圖書(shū)館學(xué)報(bào)》學(xué)術(shù)研究特色
松原市| 建湖县| 万载县| 偏关县| 尼玛县| 济南市| 新田县| 沧源| 静乐县| 溧水县| 许昌市| 迭部县| 保亭| 博乐市| 焉耆| 靖州| 元江| 桃园市| 鹤庆县| 烟台市| 兴隆县| 从江县| 金华市| 西林县| 沿河| 徐汇区| 宜兰县| 郯城县| 四川省| 四子王旗| 亚东县| 滦平县| 项城市| 梁河县| 曲麻莱县| 密山市| 崇明县| 礼泉县| 海口市| 安吉县| 台北县|