李燕
【摘要】巨量投資者情緒詞語義標(biāo)注是構(gòu)建金融輿情情緒詞典的一個難點問題,論文將互聯(lián)網(wǎng)眾包這一分布式解決復(fù)雜問題的新模式引入到大規(guī)模金融情緒語料標(biāo)注及金融情緒詞典構(gòu)建當(dāng)中,以人類群體智慧與計算機技術(shù)相結(jié)合的方式來解決大規(guī)模語料標(biāo)注的難題,建立完善、標(biāo)準(zhǔn)的金融情緒語料人工標(biāo)注資源,為投資者情緒理論研究提供基礎(chǔ)性支撐,彌補目前對互聯(lián)網(wǎng)投資者輿情文本信息進(jìn)行分析處理時所存在的標(biāo)注語料資源匱乏的問題。
【關(guān)鍵詞】投資者情緒? 情緒詞典? 眾包
一、引言
社會化媒體中的文本情感量化分析為行為金融學(xué)領(lǐng)域很多關(guān)鍵性問題提供了愈加重要的研究方式和內(nèi)容,成為投資者情緒研究領(lǐng)域中新的研究點(Graziano,2011;Rees,2012;Chen,2013;Loughran 2013;Huang,2013;C Fu,2015;D Perez-Liston,2016;A Frugier, 2016;D Bathia,2016)。但金融文本是非結(jié)構(gòu)化信息,挖掘其中的情緒傾向及強度需要面向機器的情緒詞典的支持,因此構(gòu)建金融情緒詞典是進(jìn)行金融文本情緒分析的一項相當(dāng)基礎(chǔ)且重要的工作。近年來,情緒詞典的構(gòu)建及擴展研究受到國內(nèi)外大量研究機構(gòu)及學(xué)者的重視,而專業(yè)領(lǐng)域情緒詞典的構(gòu)建工作是當(dāng)前該領(lǐng)域較新的研究點。目前,國內(nèi)對金融領(lǐng)域情緒詞典的相關(guān)研究還較為匱乏。情緒詞典的構(gòu)建需要完成對巨量語料的標(biāo)注,這是困擾研究人員的一個難點問題。近幾年,互聯(lián)網(wǎng)眾包這一分布式解決復(fù)雜問題的新模式逐漸興起,眾包迅速改變了海量數(shù)據(jù)的收集與處理模式,在海量數(shù)據(jù)語義標(biāo)注領(lǐng)域得到日益廣泛的應(yīng)用(Kittur,2008;Russel,2008;Sayeed,2011;Muhammadi,2015;NR Asheghi,2016;J Hu,2016)。
二、文獻(xiàn)綜述
近年來,隨著文本量化分析技術(shù)的快速發(fā)展,社會化媒體文本情感量化分析為行為金融領(lǐng)域很多關(guān)鍵性問題提供了愈加重要的研究方式和內(nèi)容。上市公司信息披露領(lǐng)域文本情感分析的代表性研究:Feldman 等(2008)、Henry 等(2009)、Li(2006,2010)、Demers 等(2011)、Ferris 等(2013)。關(guān)于媒體文章或報道的文本情感分析文獻(xiàn):Tetlock(2007)、Engelberg(2008)、Tetlock(2008)、Sinha(2010)、Carretta(2011)、Rees 和Twedt(2012)、Loughran(2013)、H.Ishijima 等(2015)?;ヂ?lián)網(wǎng)金融文本情緒分析文獻(xiàn):Antweiler(2004), Das 和Chen(2007),Chen和Hwang(2013),F(xiàn)erguson 等(2015),B Dickinson 等(2015),SWK Chan等(2016),Shapiro(2017)。目前,文本情感分析的方法大致有兩種:基于情緒詞典和機器學(xué)習(xí)方法。基于機器學(xué)習(xí)方法的文本情感研究有:樸素貝葉斯(林江豪,2012;陽愛民,2013)、支持向量機(任勇,2011)、最大信息嫡(Jung,2012)和感知器分類法等。但在實際應(yīng)用中若有高質(zhì)量的領(lǐng)域情緒詞典可用,使用簡單快速的算法就能獲得很好的分析效果(張克亮等,2016;王新宇,2016;肖江等,2015)。在國外很多金融學(xué)者使用GI(General Inquirer)詞典來研究投資者情緒,包括:Feldman(2008)、Tetloclc (2008)、 Henry 和Leone (2009)、Doran 等(2010)、Carretta(2011)、Engelberg(2012)、Maks(2012)、Ferris(2013)、B.Dickinson(2015)等。在國內(nèi),朱浩然(2013)構(gòu)造了基于Entropy (TF-IDF-L)關(guān)鍵詞的情緒詞典構(gòu)建算法,然后對金融領(lǐng)域微博文本的情感進(jìn)行了研究。朱艷輝等(2011)基于基礎(chǔ)情緒詞典構(gòu)建了文本情感特征抽取算法。孟雪井等(2106)構(gòu)建了我國投資者行為的關(guān)鍵詞詞庫,利用因子分析法構(gòu)建了滬市投資者情緒指數(shù)。總體而言,與國外相比我國在金融情緒詞典建設(shè)方面的基礎(chǔ)性研究不足,制約了我國在金融文本情感量化方面的研究。
三、基于眾包標(biāo)注的金融情緒詞典構(gòu)建方法
(一)金融領(lǐng)域情緒語料庫建設(shè)的研究思路
金融領(lǐng)域情緒語料庫的建設(shè)是金融情緒詞典構(gòu)建的基礎(chǔ),可以使用互聯(lián)網(wǎng)文本抓爬軟件、開發(fā)Python語言互聯(lián)網(wǎng)文本自動獲取程序及中文分詞軟件(中科院開發(fā)的ICTCLAS、哈工大的自然語言處理平臺IRLAS及N-gram 分詞模型)構(gòu)建金融情緒語料庫。使用互聯(lián)網(wǎng)文本抓爬軟件、Python語言文本程序開發(fā),獲取互聯(lián)網(wǎng)金融博客、財經(jīng)網(wǎng)站(新浪、騰訊、搜狐、網(wǎng)易、和訊、鳳凰網(wǎng)等)專欄評論文章及財經(jīng)新聞評論、上市公司信息披露評論文章,中國證券報、上海證券報和證券時報等媒體的金融文本作為金融情緒語料庫建設(shè)的原始來源。金融博客、專欄評論文章及財經(jīng)新聞評論一般由具有豐富投資經(jīng)驗和扎實理論基礎(chǔ)的專業(yè)投資者、股評分析家、行業(yè)領(lǐng)域?qū)<宜珜懞桶l(fā)布,文本用語規(guī)范,對這類金融文本可以采用中科院開發(fā)的ICTCLAS 及哈工大的自然語言處理平臺LTP 進(jìn)行分詞處理,獲得基礎(chǔ)金融情緒語料庫。投資者在網(wǎng)絡(luò)論壇上發(fā)布的帖子及回帖文本,用語不規(guī)范、多存在歧義性,詞序語序自由度比較高,通常會構(gòu)造一些網(wǎng)絡(luò)流行金融情緒詞語,分詞技術(shù)處理此類Web 金融文本存在一定困難,可采用N-gram 模型,設(shè)置一個大小為N 的滑動窗口,以字節(jié)流對文本進(jìn)行劃分,獲得字節(jié)片段序列g(shù)ram,進(jìn)一步對字節(jié)片段gram 進(jìn)行頻率統(tǒng)計,設(shè)置閾值,將小于閾值的字節(jié)片段gram 過濾掉,剩下的生成gram 列表。將切分后的結(jié)果作為基本的特征項,采用二維滑動窗口將近鄰特征項合并,構(gòu)成新的特征項,從而將更多金融情感詞和一些流行的網(wǎng)絡(luò)詞匯擴展到情感語料庫中。將切分后的結(jié)果作為基本的特征項,采用二維滑動窗口將近鄰特征項合并,構(gòu)成新的特征項,從而將更多金融情感詞和一些流行的網(wǎng)絡(luò)詞匯擴展到情感語料庫中。
(二)金融情緒語料眾包標(biāo)注的任務(wù)管理模型構(gòu)建
眾包標(biāo)注雖具有成本低、效率高的特點,但由于參與眾包標(biāo)注的工作者為數(shù)量巨大的非特定互聯(lián)網(wǎng)人員,受標(biāo)注者專業(yè)背景、工作能力、工作態(tài)度及工作動機等因素影響,導(dǎo)致收集到的標(biāo)注結(jié)果可能存在噪聲甚至錯誤。因此對眾包標(biāo)注質(zhì)量的控制是一個關(guān)鍵問題,具體包括如下幾個方面:
(1)眾包標(biāo)注工作者的動態(tài)選擇方法。眾包標(biāo)注工作者的選擇方法是否恰當(dāng)直接關(guān)系到情緒語料眾包標(biāo)注過程的可靠性,也直接影響到眾包標(biāo)注結(jié)果的質(zhì)量,因此是眾包實施和評估階段需要解決的核心問題,構(gòu)建噪聲數(shù)據(jù)的識別方法,建立噪聲度量指標(biāo),提出噪聲過濾機制,實現(xiàn)對高噪聲數(shù)據(jù)地自動過濾。研究金融情緒語料眾包標(biāo)注的實施過程,結(jié)合海量語料眾包標(biāo)注的眾包情境,分析眾包工作者的動態(tài)篩選過程,并提出工作者篩選機制,設(shè)計相應(yīng)的算法。
(2)眾包標(biāo)注者可信度統(tǒng)計測量模型構(gòu)建。統(tǒng)計眾包標(biāo)注工作者在眾包測試環(huán)節(jié)中的表現(xiàn),給出量化的可信度值,檢測標(biāo)注者是否具備金融領(lǐng)域情緒語料標(biāo)注的專業(yè)能力。
(3)眾包標(biāo)注質(zhì)量評估模型研究。構(gòu)建多眾包標(biāo)注者間標(biāo)注結(jié)果的一致性檢驗?zāi)P停嬎悴煌愋蜆?biāo)注者之間情緒語料標(biāo)注結(jié)果的一致性,檢測出一致類型惡意眾包標(biāo)注者的標(biāo)注結(jié)果。對多眾包標(biāo)注者的標(biāo)注結(jié)果構(gòu)建期望最大值算法,計算語料情緒期望強度值及各標(biāo)注者的誤差率,誤差率用于檢測眾包標(biāo)注者工作的認(rèn)真程度,有效識別出隨機類型惡意眾包工作者(雖然具備專業(yè)能力,但工作不負(fù)責(zé))。
(4)構(gòu)建基于標(biāo)注任務(wù)特征的半監(jiān)督式眾包學(xué)習(xí)算法。對標(biāo)注任務(wù)特征和眾包標(biāo)注結(jié)果這兩類資源進(jìn)行聚類分析,對眾包標(biāo)注者的學(xué)習(xí)過程進(jìn)行建模,構(gòu)建基于標(biāo)注任務(wù)特征的半監(jiān)督式眾包學(xué)習(xí)算法?;谌蝿?wù)特征的半監(jiān)督式眾包學(xué)習(xí)算法可以監(jiān)測眾包標(biāo)注者的標(biāo)注質(zhì)量,工作表現(xiàn)及經(jīng)驗增長等方面的因素,反映眾包標(biāo)注者的客觀標(biāo)注能力。
(三)構(gòu)建多標(biāo)注主體情緒語料眾包標(biāo)注結(jié)果的融合模型
根據(jù)金融情緒語料HIE 標(biāo)注任務(wù)包的特征對任務(wù)包進(jìn)行聚類分析,形成HIT 任務(wù)包簇。利用學(xué)習(xí)算法學(xué)習(xí)到各眾包標(biāo)注者在各HIT 任務(wù)包簇上的標(biāo)注能力、經(jīng)驗知識及標(biāo)注結(jié)果歷史表現(xiàn),確定各眾包標(biāo)注者在各任務(wù)包簇上的標(biāo)注結(jié)果融合權(quán)重值,構(gòu)造多標(biāo)注主體情緒語料標(biāo)注結(jié)果融合模型,對多標(biāo)注者的標(biāo)注結(jié)果進(jìn)行融合,得出情緒語料二元標(biāo)注數(shù)據(jù)(情緒極性,情緒強度值),情緒詞典的存儲格式采用語料庫常用的xml標(biāo)記格式進(jìn)行存儲。
(四)金融情緒語料眾包標(biāo)注的質(zhì)量管理模型構(gòu)建方案
(1)眾包標(biāo)注工作者的動態(tài)選擇及評估方法。基本研究思路是采用分階段動態(tài)評估的方法,動態(tài)監(jiān)測出不合格的眾包標(biāo)注工作者,提升標(biāo)注結(jié)果的整體質(zhì)量。此部分分為兩個方面:一是標(biāo)注的質(zhì)量評估;二是工作者的選擇與評估。首先分別建立兩個不同狀態(tài)的標(biāo)注任務(wù)集合(待標(biāo)注微任務(wù)集;已標(biāo)注微任務(wù)集),每個任務(wù)的目標(biāo)值是未知的;建立眾包工作者池,初始狀態(tài)時每個標(biāo)注者的能力是未知的,都可以參與眾包任務(wù)分配。然后根據(jù)參與眾包任務(wù)的眾包工作者的標(biāo)注情況提取出兩個列表:一個是專家列表,他們能夠提供良好的金融情緒語料標(biāo)注結(jié)果;另一個是淘汰列表,提供低質(zhì)量的標(biāo)注結(jié)果的眾包工作者,將阻止在下個階段分配給其標(biāo)注任務(wù)。對上述眾包標(biāo)注工作者的動態(tài)選擇及評估方法研究中涉及的算法,主要采用算法仿真的手段實現(xiàn),考慮采用Matlab 或者R語音等工具進(jìn)行編程和實現(xiàn)。
(2)標(biāo)注者可信度統(tǒng)計測量模型構(gòu)建方案。每個HIE 金融情緒語料標(biāo)注任務(wù)包包含待標(biāo)注語料(實際需要標(biāo)注者標(biāo)注的語料)和黃金測試標(biāo)注語料(已經(jīng)由金融領(lǐng)域?qū)<覙?biāo)注的語料)。將新眾包標(biāo)注結(jié)果存放在“標(biāo)注結(jié)果表”中,黃金庫語料標(biāo)注結(jié)果存放在“測試結(jié)果表”中。將眾包標(biāo)注獲得的黃金語料的標(biāo)注結(jié)果存放在“篩選標(biāo)準(zhǔn)表”中,用于同金融領(lǐng)域?qū)<业臏y試標(biāo)注結(jié)果進(jìn)行一致性檢測,假若眾包標(biāo)注者的篩選標(biāo)注結(jié)果與測試標(biāo)注結(jié)果的一致性較低(低于設(shè)置的閾值),則視該眾包標(biāo)注者的金融情緒語料標(biāo)注結(jié)果不可信,將其標(biāo)注結(jié)果舍去,從而保證眾包標(biāo)注的質(zhì)量。設(shè)置此項檢測能夠檢驗標(biāo)注者是否有相應(yīng)專業(yè)能力勝任金融情緒語料標(biāo)注工作,對可靠性較差的標(biāo)注者停止提供眾包任務(wù),這樣既控制眾包標(biāo)注成本、提高標(biāo)注效率,同時也排除了部分眾包標(biāo)注結(jié)果噪聲、提升標(biāo)注質(zhì)量。
(3)設(shè)計眾包標(biāo)注質(zhì)量評估模型研究方案。針對眾包標(biāo)注結(jié)果的質(zhì)量控制策略及質(zhì)量評估方法,設(shè)計如下三種方法:設(shè)計隨機類型惡意標(biāo)注者及一致類型惡意標(biāo)注者的判斷標(biāo)準(zhǔn);構(gòu)建多眾包標(biāo)注者間標(biāo)注結(jié)果的一致性檢驗?zāi)P?,計算不同類型?biāo)注者之間情緒語料標(biāo)注結(jié)果的一致性。對多眾包標(biāo)注者的標(biāo)注結(jié)果使用期望最大值算法(EM 算法)估計出語料情緒強度值及各標(biāo)注者的誤差率。誤差率用于檢測眾包標(biāo)注者工作的認(rèn)真程度,有效識別出惡意眾包工作者(雖然具備專業(yè)能力,但工作不負(fù)責(zé))。質(zhì)量控制與評價機制既能檢測出惡意眾包工作者的標(biāo)注結(jié)果,同時也能夠阻止惡意眾包工作者繼續(xù)參與標(biāo)注任務(wù)的分配。
參考文獻(xiàn):
[1]高大良, 劉志峰, 楊曉光. 投資者情緒、平均相關(guān)性與股市收益[J].中國管理科學(xué),2015,23(2): 10-20.
[2]俞紅海, 李心丹, 耿子揚. 投資者情緒、意見分歧與中國股市IPO 之謎[J]. 管理科學(xué)學(xué)報, 2015(03): 78-89.
[3]邵新建, 何明燕, 江萍, 薛熠, 廖靜池. 媒體公關(guān)、投資者情緒與證券發(fā)行定價[J].金融研究,2015(09):190-206.
[4]宋作艷, 趙青青, 亢世勇. 漢語復(fù)合名詞語義信息標(biāo)注詞庫:基于生成詞庫理論[J].中文信息學(xué)報,2015(03): 27-33.
[5]賈君枝,王醒. 基于微數(shù)據(jù)的語義標(biāo)注應(yīng)用研究[J]. 情報理論與實踐, 2016(02):58-62.
基金項目:教育部人文社會科學(xué)基金青年項目(16YJC790052)、湖南省哲學(xué)社會科學(xué)基金項目(14YBA306)資助。