申晨 姜志旺 程冬玲 張紅霞
摘? ?要:情緒指數(shù)是反映社會情緒的重要量化指標(biāo)?;谒阉饕?、社交媒體和網(wǎng)絡(luò)論壇3類數(shù)據(jù),文章提出了一種基于主成分分析的網(wǎng)絡(luò)大數(shù)據(jù)情緒指數(shù)構(gòu)建方法,以證券市場為例,構(gòu)建了證券市場網(wǎng)絡(luò)大數(shù)據(jù)情緒指數(shù)。經(jīng)過與新增投資者數(shù)量進行比對,所構(gòu)建的指數(shù)與之呈現(xiàn)明顯的正相關(guān)關(guān)系,且具有一定前瞻性。
關(guān)鍵詞:情緒指數(shù);大數(shù)據(jù);主成分分析;證券市場
情緒指數(shù)是用來反映全社會或社會特定人群對于某一事物情緒波動的量化指標(biāo)。經(jīng)濟學(xué)中經(jīng)常使用情緒指數(shù)作為刻畫社會情緒的指標(biāo),如采購經(jīng)理人指數(shù)(Purchasing Managers Index,PMI)、中國投資者情緒指數(shù)(China Investors Sentiment Index,CISI)等,并將這些情緒指數(shù)作為進一步研究的依據(jù)。
情緒指數(shù)的構(gòu)建需要遵循一定方法。從數(shù)據(jù)來源來看,傳統(tǒng)的情緒指數(shù)數(shù)據(jù)主要來源于現(xiàn)場調(diào)研和問卷調(diào)研等,受調(diào)查樣本容量和樣本隨機性的限制較大。從指標(biāo)體系的角度來看,傳統(tǒng)的情緒指數(shù)構(gòu)建無論是指標(biāo)來源的選取還是指標(biāo)權(quán)重的確定,都完全依賴于行業(yè)專家的經(jīng)驗。情緒指數(shù)構(gòu)建的優(yōu)劣在很大程度上受限于專家自身的知識和經(jīng)驗水平。
隨著信息技術(shù)的高速發(fā)展,信息傳播的速度和范圍都有了質(zhì)的飛躍。人們越來越多地將網(wǎng)絡(luò)作為表達自身意愿和情緒的場所。因此,在互聯(lián)網(wǎng)上沉淀了大量能夠表征個體和社會情緒的數(shù)據(jù)。這些數(shù)據(jù)無論從量級,還是深度和廣度上都全面超越了傳統(tǒng)的現(xiàn)場調(diào)研和問卷調(diào)研,為構(gòu)建情緒指數(shù)提供了新的數(shù)據(jù)來源。此外,隨著大數(shù)據(jù)技術(shù)和人工智能領(lǐng)域的發(fā)展,數(shù)據(jù)分析的手段也變得更加多樣。利用計算機對海量數(shù)據(jù)進行分析和處理,可以在很大程度上提高數(shù)據(jù)分析的效率和準(zhǔn)確性。
杜偉岸等[1]研究了社交媒體大數(shù)據(jù)及其所反映的投資者情緒與首次公開募股(Initial Public Offering,IPO)抑價之間的關(guān)系,王曉艷[2]構(gòu)建了情緒傳播指數(shù)并研究了情緒傳播指數(shù)與投資市場預(yù)期間的關(guān)系。上述研究在一定程度上為網(wǎng)絡(luò)大數(shù)據(jù)情緒指數(shù)的構(gòu)建奠定了基礎(chǔ),但也存在一些問題:首先,數(shù)據(jù)來源較為單一;其次,從指數(shù)構(gòu)建角度,一些指標(biāo)的選取和權(quán)重系數(shù)的確定主要依賴于人工經(jīng)驗,在效率和準(zhǔn)確性上有所不足。
因此,本文提出一種多種數(shù)據(jù)來源相結(jié)合的、基于主成分分析(Principal Component Analysis,PCA)的情緒指數(shù)構(gòu)建方法。
1? ? 網(wǎng)絡(luò)大數(shù)據(jù)情緒指數(shù)的構(gòu)建步驟
構(gòu)建網(wǎng)絡(luò)大數(shù)據(jù)情緒指數(shù)首先要確定數(shù)據(jù)來源。互聯(lián)網(wǎng)上能夠表征網(wǎng)民情緒的數(shù)據(jù)主要有3類:搜索引擎數(shù)據(jù)、社交媒體數(shù)據(jù)和論壇數(shù)據(jù)。(1)搜索引擎數(shù)據(jù)主要表明一定時間內(nèi),網(wǎng)民對某一熱點的關(guān)注程度。(2)社交媒體數(shù)據(jù)主要是通過計算機提取網(wǎng)民發(fā)布的信息,以便進一步分析。(3)論壇數(shù)據(jù)可以是綜合性論壇,當(dāng)需要研究針對某領(lǐng)域的特定問題時,可以加入相應(yīng)的專業(yè)論壇。如當(dāng)研究證券市場的情緒指數(shù)時,可以加入較有代表性的東方財富網(wǎng)股吧等數(shù)據(jù)。
在確定數(shù)據(jù)來源后,還要進行情緒的識別。在上述數(shù)據(jù)來源中,無論是搜索引擎、社交媒體還是論壇,得到的數(shù)據(jù)都以文本數(shù)據(jù)為主。通過這些文本數(shù)據(jù)不能直接得到投資者情緒的表征,因此,需要對這些數(shù)據(jù)進行處理,目前常用的處理方法如下:
首先,對得到的文本信息利用Python或Matlab等工具進行分詞處理,將整段文字拆分為單詞。
其次,根據(jù)情緒極性詞典,對常見的情緒極性詞進行提取和計算,以獲得作者的情緒極性和程度。情緒極性詞典主要可以分為正向情緒詞和負(fù)向情緒詞兩類,每類情緒詞的程度也有所不同。如典型的正向情緒詞“還行”“較好”“很好”,其程度依次增強。
最后,利用以上獲得的信息,構(gòu)建網(wǎng)絡(luò)大數(shù)據(jù)情緒指數(shù),使用主成分分析法進行指標(biāo)的選取和權(quán)重的確定。使用主成分分析法時,要先計算相關(guān)系數(shù)矩陣,再利用特征值法進行主成分個數(shù)的判斷,同時,生成各個對應(yīng)主成分解釋變量的百分比。該百分比就是選取的每個指標(biāo)對應(yīng)的權(quán)重。利用這些信息,就可以得到網(wǎng)絡(luò)大數(shù)據(jù)情緒指數(shù)。
以上就是網(wǎng)絡(luò)大數(shù)據(jù)情緒指數(shù)的構(gòu)建步驟,具體如圖1所示。
2? ? 網(wǎng)絡(luò)大數(shù)據(jù)情緒指數(shù)的應(yīng)用
以下以證券市場為例,構(gòu)建網(wǎng)絡(luò)大數(shù)據(jù)情緒指數(shù),并分析網(wǎng)絡(luò)情緒與證券市場之間的關(guān)系。按照以上3類數(shù)據(jù)來源的劃分,所采用的數(shù)據(jù)來源于百度搜索、新浪微博和東方財富網(wǎng)股吧。以上數(shù)據(jù)的對應(yīng)時間為2018年7月—2019年6月,共12個月的月度數(shù)據(jù)。對于新浪微博數(shù)據(jù)和東方財富網(wǎng)股吧數(shù)據(jù),按照上述步驟進行數(shù)據(jù)的爬取、分詞處理以及獲取情緒傾向值。對于百度搜索數(shù)據(jù),由于百度已經(jīng)內(nèi)置了反映搜索詞熱度的百度指數(shù),因此,直接使用百度指數(shù)進行下一步計算。接下來使用主成分分析法對以上數(shù)據(jù)進行分析,確定指標(biāo)及權(quán)重,最后,計算得到網(wǎng)絡(luò)大數(shù)據(jù)情緒指數(shù)。指數(shù)值越高,網(wǎng)民對于證券市場的情緒越偏向正向,反之,則越偏向于負(fù)向。
新增投資者數(shù)量是反映市場投資者情緒的重要標(biāo)志。將新增投資者數(shù)量與上述構(gòu)建的證券市場網(wǎng)絡(luò)情緒指數(shù)進行分析,可以驗證所構(gòu)建的指數(shù)是否有效。將中國證券登記結(jié)算有限公司公布的新增投資者數(shù)量月度數(shù)據(jù)與所構(gòu)建的指數(shù)進行對比,如圖2所示??梢钥闯觯瑑烧咧g呈現(xiàn)出明顯的正相關(guān)關(guān)系,且網(wǎng)絡(luò)情緒指數(shù)呈現(xiàn)一定的前瞻性。說明證券市場網(wǎng)絡(luò)情緒指數(shù)的構(gòu)建是有效的。
基金項目:保定市科技局科技支撐計劃項目;項目編號:18ZG022,18ZG025,17ZG032。河北省高等教育教學(xué)改革研究與實踐項目;項目編號:2018GJJG376。
作者簡介:申晨(1988— ),男,河北保定人,講師,碩士;研究方向:數(shù)據(jù)挖掘與大數(shù)據(jù)應(yīng)用。
[參考文獻]
[1]杜偉岸,呂佳玲.社交媒體大數(shù)據(jù)、投資者情緒與IPO抑價[J].北京郵電大學(xué)學(xué)報(社會科學(xué)版),2018(3):59-68.
[2]王曉艷.情緒傳播指數(shù)構(gòu)建與投資市場預(yù)期—基于萬科股票大數(shù)據(jù)的實證研究[J].合肥工業(yè)大學(xué)學(xué)報(社會科學(xué)版),2018(5):11-16.
Abstract:Emotional index is an important quantitative index to reflect social emotion. Based on three kinds of data: search engine, social media and online forum, this paper proposes a method of constructing big data emotion index based on principal component analysis of principal component analysis. Taking the securities market as an example, the big data emotion index of the securities market network is constructed. Compared with the number of new investors, the constructed index has an obvious positive correlation with it, and has a certain forward-looking.
Key words:emotional index; big data; principal component analysis; securities market