呂建林
(上海工程技術(shù)大學(xué) 管理學(xué)院,上海 20162)
大數(shù)據(jù)技術(shù)的出現(xiàn)和大規(guī)模興起極大程度地改善了人們的生活方式。早在2014年,百度公司構(gòu)建了包含歷年命題數(shù)據(jù)、互聯(lián)網(wǎng)用戶歷年相關(guān)數(shù)據(jù)以及眾多教育機(jī)構(gòu)對于命題方向所作出的預(yù)測數(shù)據(jù)等眾多信息數(shù)據(jù)在內(nèi)的龐大數(shù)據(jù)池,并對數(shù)據(jù)池內(nèi)的所有數(shù)據(jù)進(jìn)行專業(yè)的處理和分析,最終成功預(yù)測命中了當(dāng)年全國十八套高考語文試卷中的十二套的作文題目。而同樣在當(dāng)年,谷歌公司也廣泛收集參加了2014年巴西世界杯決賽階段的三十六支球隊的過往戰(zhàn)績、球員俱樂部表現(xiàn)數(shù)據(jù)以及包含氣候因素、地理因素等信息在內(nèi)的所有可能會對比賽結(jié)果產(chǎn)生影響的數(shù)據(jù),并經(jīng)過對這些數(shù)據(jù)的集中處理和分析,最終成功預(yù)測了當(dāng)屆世界杯的十六強(qiáng)以及八強(qiáng)具體名單。而在股票投資領(lǐng)域,大數(shù)據(jù)技術(shù)的使用更是讓投資者們作出的投資策略更加科學(xué)、合理。
投資者在使用大數(shù)據(jù)技術(shù)對股票投資策略進(jìn)行研究時,數(shù)據(jù)庫所要包含的數(shù)據(jù)可以分為兩類,即非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是類如地理位置、社交行為以及用戶上網(wǎng)行為等還沒有被具體量化的信息數(shù)據(jù),而結(jié)構(gòu)化數(shù)據(jù)指的是已經(jīng)被廣泛用在傳統(tǒng)量化分析的類如市值、GDP、CPI、市場交易量等較為專業(yè)的信息數(shù)據(jù)。
在大數(shù)據(jù)時代,云計算等信息技術(shù)的出現(xiàn)和應(yīng)用為大數(shù)據(jù)技術(shù)在股票投資過程中的應(yīng)用提供了更大的可能性和可行性。投資者們不僅可以相比于以往收集到更廣泛的非結(jié)構(gòu)化數(shù)據(jù),更可以將云計算技術(shù)應(yīng)用在模型建立中。對于已經(jīng)完成的股市走勢圖像,投資者們可以通過云計算技術(shù)把海量的結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)帶入到模型中,從而完成對模型曲線的不斷修正,進(jìn)而深入探索股票市場的更為正確、科學(xué)的投資方向和策略。
在查閱的文獻(xiàn)中,以往專家學(xué)者往往通過理論和實踐相結(jié)合、定性分析和定量分析相結(jié)合的方法進(jìn)行研究。本文運(yùn)用的主要研究方法有以下兩種:
1.文獻(xiàn)分析法:對大數(shù)據(jù)技術(shù)在股市投資中的應(yīng)用現(xiàn)狀以及存在的主要問題作出全面且深入地分析,查閱分析很多以往專家學(xué)者在大數(shù)據(jù)技術(shù)、股市投資策略以及云計算等方面的文章和專著,以此為根據(jù),拓寬研究思維,并提出針對性的解決方案。
2.案例分析法:選取大數(shù)據(jù)技術(shù)為研究對象,其既具有自己的獨(dú)特之處,又能夠在一定程度上促進(jìn)投資者們制定出更加科學(xué)、合理的股票投資策略以及具體方案,所以,以大數(shù)據(jù)技術(shù)為研究對象對于在研究類如云計算、大數(shù)據(jù)庫等前沿信息技術(shù)在股市投資策略制定過程中所發(fā)揮的作用時,在一定程度上是具有借鑒意義的。
大數(shù)據(jù)技術(shù)指的是一種規(guī)模非常大的數(shù)據(jù)集合。這種數(shù)據(jù)集合的規(guī)模大大超出了存在于傳統(tǒng)分析過程中的數(shù)據(jù)范圍,從而使我們在數(shù)據(jù)的收集、存儲以及處理分析等方面具有了更加強(qiáng)大的能力。大數(shù)據(jù)技術(shù)所具有的特征主要有以下四點:第一是數(shù)據(jù)規(guī)模龐大,大大超出了傳統(tǒng)分析過程中所應(yīng)用的數(shù)據(jù)庫;第二是數(shù)據(jù)類型多樣,包含大量的結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù);第三是數(shù)據(jù)流轉(zhuǎn)速度非常之快;第四則是具有較低的價值密度。
隨著云計算時代的來臨,云計算對于大數(shù)據(jù)技術(shù)在股市投資的應(yīng)用過程中所起的作用越來越不容忽視。因為大數(shù)據(jù)技術(shù)本身所具有的數(shù)據(jù)庫龐大、數(shù)據(jù)種類繁多等特征,對于股市策略研究者來講,根本無法只用單臺計算機(jī)對這些海量數(shù)據(jù)進(jìn)行處理,而只能采用分布式架構(gòu),以云存儲、虛擬化以及云計算的分布式數(shù)據(jù)庫和分布式處理技術(shù)等為依托,才能對大數(shù)據(jù)庫內(nèi)的海量數(shù)據(jù)進(jìn)行更加有效的分析。
股票投資指的是個人和企業(yè)用通過其他生產(chǎn)活動或商業(yè)活動所積累的貨幣資金購買股票,從而在承擔(dān)一定風(fēng)險的前提下獲得一定收益的行為。由于在資本市場上,收益往往是和風(fēng)險呈正相關(guān),而股票投資的收益一般由兩部分構(gòu)成,一部分是資本利得,另一部分是收入收益。資本利得指的是個人和機(jī)構(gòu)投資者們的收益因為股票價格有所增長而增多。而收入收益則是指持有股東身份的股票投資者們,在公司進(jìn)行相關(guān)盈利分配時,按照其本身的持股份額,最終所得到的紅利收入和股息收入。
相比于債券投資、銀行定期存款等投資方式,股票投資明顯具有高收益以及高風(fēng)險的特征。而被投資市場所認(rèn)定的理性投資行為一般至少要包括以下五個具體的投資環(huán)節(jié)。第一是根據(jù)國家宏觀政策、全球經(jīng)濟(jì)形勢等因素來確定投資政策,第二是根據(jù)行業(yè)信息以及公司經(jīng)營業(yè)績等進(jìn)行比較具體的股票投資分析,第三是經(jīng)過第一步以及第二步之后所確定的投資策略選定具體的投資組合,第四是預(yù)先評估業(yè)績,第五是通過評估業(yè)績和期望業(yè)績的相比,對投資策略進(jìn)行有效的修正。
早在2014年11月23日,Kensho公司接受了高盛投資銀行的1 500萬美元的投資,而這些錢最終要被用于該公司對于大數(shù)據(jù)分析平臺及存儲系統(tǒng)平臺的建設(shè)中。對于此數(shù)據(jù)存儲、分析平臺,可以大大提高對于大數(shù)據(jù)庫中所包含的海量存儲數(shù)據(jù)的處理分析速度,并且還可以就投資者所提出的各種金融性相關(guān)問題進(jìn)行專業(yè)分析。
在此數(shù)據(jù)分析平臺所對應(yīng)的大數(shù)據(jù)庫中,常規(guī)的結(jié)構(gòu)化數(shù)據(jù)只包含20%,而類似自然事件、科技創(chuàng)新環(huán)境、政策規(guī)定文件以及地理位置等非結(jié)構(gòu)化數(shù)據(jù),則至少包含80%。對于這些非結(jié)構(gòu)化信息數(shù)據(jù),無法直接以數(shù)字的形式進(jìn)行衡量,通常需要計算機(jī)和相關(guān)的數(shù)學(xué)模型進(jìn)行專業(yè)性的轉(zhuǎn)化和處理。
除此之外,高盛投資銀行還聯(lián)合Fortress信貸集團(tuán)在2015年對目前仍處于興起階段但發(fā)展前景蓬勃的小額融資平臺“On Deck Capital”進(jìn)行了整整8 000萬美元的投資。而這家小額融資平臺公司最明顯的經(jīng)營特色就是它是利用其專有的大數(shù)據(jù)收集、存儲及處理分析系統(tǒng)對向其申請小額貸款的中小微企業(yè)進(jìn)行最大程度上的深入分析,然后根據(jù)得出的研究結(jié)論總結(jié)出相關(guān)中小企業(yè)在經(jīng)營業(yè)績、管理成效、行業(yè)前景等方面的表現(xiàn),最后才會做出是否向該企業(yè)進(jìn)行貸款的決定。
隨著時代的進(jìn)步,不管是計算機(jī)對于數(shù)據(jù)處理分析的能力,還是愈加完善的量化模型,都給大數(shù)據(jù)技術(shù)在股票投資中的應(yīng)用提供了更強(qiáng)有力的支撐。首先是用來分析的數(shù)據(jù)信息量得到了一個質(zhì)的提升,從而可以使投資者選擇更多的相關(guān)指標(biāo)來進(jìn)行處理分析,進(jìn)而做出更加準(zhǔn)確的預(yù)測。其次,大大擴(kuò)大了研究人員的分析覆蓋面。對于每一個股票分析員來講,之前只能同時關(guān)注十幾只或幾十只股票,而如今幾乎可以關(guān)注所有股票。當(dāng)然,以大數(shù)據(jù)技術(shù)為基礎(chǔ)的量化投資仍然存在類如同質(zhì)化競爭等不可忽視的問題,因為有越來越多的投資者和機(jī)構(gòu)開始大規(guī)模使用量化投資模型,這導(dǎo)致投資機(jī)構(gòu)所使用的量化投資模型出現(xiàn)雷同的概率越來越大,從而干擾投資者們對股票市場作出最為準(zhǔn)確的預(yù)判。
1.計算機(jī)對用戶情緒理解不準(zhǔn)確
首先,屬于個人情感范圍內(nèi)的用戶情緒很難被轉(zhuǎn)化為具有統(tǒng)一表現(xiàn)形式的計算機(jī)語言,專業(yè)的數(shù)據(jù)處理與分析人員很難通過計算機(jī)、云計算等前沿信息技術(shù)來對用戶情緒、地理位置等非結(jié)構(gòu)化信息進(jìn)行有效的處理與分析。
其次,不同的人有著完全不同的語言表達(dá)習(xí)慣。這就導(dǎo)致可能在信息的傳遞過程出現(xiàn)錯誤,從而導(dǎo)致研究人員根據(jù)錯誤的來源數(shù)據(jù)信息制定出錯誤的投資策略。而且,在人的語言表達(dá)中,經(jīng)常會使用雙關(guān)語、比喻、反語等表達(dá)手法,這種沒有直截了當(dāng)表明數(shù)據(jù)信息意義的方式,很可能會因為目前的計算機(jī)相關(guān)語義、語意分析技術(shù)沒有達(dá)到要求而導(dǎo)致數(shù)據(jù)所反映出來的信息并非其應(yīng)該反映出來的信息,從而造成分析誤差。
2.大數(shù)據(jù)注重相關(guān)性而非因果性
大數(shù)據(jù)技術(shù)之所以可以被用來預(yù)測股票市場走勢以及制定相關(guān)投資策略,是因為其所對應(yīng)的數(shù)據(jù)庫包含幾乎所有股票市場用戶的搜索量以及他們的情緒等結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。但是,股票價格的波動走勢雖然和用戶的類似情緒反應(yīng)以及名稱、關(guān)鍵詞搜索量等信息有較強(qiáng)的相關(guān)關(guān)系,但并不能說明以上兩者之間存在因果關(guān)系。
在大數(shù)據(jù)技術(shù)應(yīng)用的基礎(chǔ)上,與其相應(yīng)的數(shù)據(jù)庫所收集的信息在很大程度上都能保證是和相對應(yīng)的股票分析具有相關(guān)性的。然而,數(shù)學(xué)語言中的相關(guān)性在很多時候只是一種簡單的相關(guān)性,而不會最終被轉(zhuǎn)化為兩種變量之間的因果關(guān)系。這就可能導(dǎo)致與股票投資相關(guān)的數(shù)據(jù)庫所包含的信息數(shù)據(jù)中的一部分是無效的,還可能會在大數(shù)據(jù)技術(shù)具體應(yīng)用過程中產(chǎn)生一定的負(fù)面效應(yīng)。
3.個股分析中難以排除人為制造
分析師通過收集包含多只股票在內(nèi)的股票組合相關(guān)的數(shù)據(jù)信息,對這些信息進(jìn)行分析處理,所得到的分析結(jié)果是具有一定程度參考性的。因為此分析結(jié)果是眾多分析師通過分析股票相對應(yīng)的公司的名稱以及關(guān)鍵詞的搜索量和用戶所表現(xiàn)出來的市場情緒等數(shù)據(jù)信息,才最后得出相應(yīng)的研究結(jié)果。因此,在這其中的一只或幾只股票所對應(yīng)的公司的名稱或關(guān)鍵詞搜索量對于整體市場的走向趨勢的影響是很有限的。但是,如果在對個股進(jìn)行分析時,出現(xiàn)了可對個股分析結(jié)果產(chǎn)生嚴(yán)重影響的人為因素,比如人為地提高該個股所對應(yīng)的公司名稱或關(guān)鍵詞搜索量,將會在很大程度上對個股分析結(jié)果產(chǎn)生影響甚至歪曲。
4.大數(shù)據(jù)本身具有一定的滯后性
大數(shù)據(jù)技術(shù)是通過專業(yè)的研究分析對公司名稱或關(guān)鍵詞和用戶情緒等數(shù)據(jù)信息的集中處理分析從而做出相對準(zhǔn)確的市場走向預(yù)期。但需要注意的是,就市場所能反映出來的公開信息來講,當(dāng)市場上有大量的股票投資者對某一關(guān)鍵詞進(jìn)行集中的搜索時,就足以說明在此時的市場上和此類關(guān)鍵詞直接相關(guān)的主體或事件已達(dá)到了幾乎最大程度的熱度。
真正能夠在股票投資市場上賺到錢的投資者,相比于一般的投資者具有更廣泛的信息來源渠道,這可以保證其更早地獲得前沿市場信息。這些特殊的投資者一般都會掌握許多家上市企業(yè)重要的內(nèi)部信息,并在相互之間對這些前沿市場信息進(jìn)行交換。所以,他們能在普通股市投資者知曉這些信息之前就完成針對相關(guān)股票的市場操作。而當(dāng)一般的股票投資者知曉這些信息時,這些信息已經(jīng)變成市場公開信息,信息所具有的滯后性和時效性就決定了這些一般投資者無法從股票市場上獲取收益。
1.擴(kuò)大數(shù)據(jù)覆蓋范圍。與股票投資相關(guān)數(shù)據(jù)的來源渠道非常多,方式也非常多。常見的有來自于用戶模擬交易數(shù)據(jù)、實際交易數(shù)據(jù)、用戶自選股,也有來自于微博、微信等社交渠道,還有來自于媒體新聞傳播渠道。為了提高大數(shù)據(jù)分析的有效性,需要繼續(xù)拓寬數(shù)據(jù)來源渠道,進(jìn)而擴(kuò)大數(shù)據(jù)覆蓋范圍。
對于大數(shù)據(jù)庫中所包含的數(shù)據(jù)信息,所起到的作用也是多層次的。首先是比較淺層次的對于這些數(shù)據(jù)信息的直接使用,即通過直接觀察數(shù)據(jù)信息庫從而得出結(jié)論;其次是對這些數(shù)據(jù)的深層次處理和應(yīng)用。由羊群效應(yīng)以及股票投資市場所具有的特征可知,當(dāng)我們對從事股票投資的大部分投資者的行為模式進(jìn)行分析時,會發(fā)現(xiàn):如果股票市場上出現(xiàn)了一個影響力較大的新聞事件,大部分投資者都會對其進(jìn)行針對性的搜索和分析,當(dāng)他們把研究結(jié)果付諸于市場實踐時,他們已經(jīng)錯過了市場最佳投資時期,因為大部分?jǐn)?shù)據(jù)信息都是具有滯后性的。所以我們要對用戶進(jìn)行分層化管理,從而甄別出那些能夠通過自己的專業(yè)知識判斷出市場大致走勢的用戶,并分析出這些投資者和一般投資者相比,在關(guān)注信息、瀏覽資訊等方面有沒有特別的渠道。
2.增強(qiáng)數(shù)據(jù)信息質(zhì)量。應(yīng)用于股票投資中的大數(shù)據(jù)技術(shù)所依托的數(shù)據(jù)庫內(nèi)的海量數(shù)據(jù)的收集與分析需要一個具有較強(qiáng)安全性且強(qiáng)力有效的平臺。只有當(dāng)我們具有真實可靠、高效穩(wěn)定的數(shù)據(jù)存儲與處理分析系統(tǒng)時,才能夠從數(shù)據(jù)規(guī)模龐大以及種類繁多的信息數(shù)據(jù)中選擇出真正可以被運(yùn)用于股票投資分析的數(shù)據(jù),才能保證投資分析師運(yùn)用安全的數(shù)據(jù)存儲系統(tǒng)和高效的數(shù)據(jù)處理平臺對大數(shù)據(jù)進(jìn)行相應(yīng)的處理與分析。
1.提高數(shù)據(jù)處理分析人員專業(yè)能力
根據(jù)英國領(lǐng)英雜志所發(fā)布的《2016年中國互聯(lián)網(wǎng)最熱職位人才報告》顯示,在當(dāng)下中國對于蓬勃發(fā)展的互聯(lián)網(wǎng)行業(yè),其所需求最大的六類人才職位中,數(shù)據(jù)分析拔得頭籌。而根據(jù)清華大學(xué)計算機(jī)系的武永衛(wèi)教授2018年所做的專業(yè)學(xué)術(shù)研究,中國目前從事大數(shù)據(jù)技術(shù)相關(guān)職業(yè)的工作人員只有三十余萬,但在未來的三到五年內(nèi),中國在大數(shù)據(jù)技術(shù)方面的人才缺口將會達(dá)到近兩百萬。所以,大數(shù)據(jù)技術(shù)專業(yè)人員的缺少將會導(dǎo)致大數(shù)據(jù)技術(shù)在股票分析中所起到的作用被遏制。
在如此緊急的專業(yè)人才需求情況下,首先,應(yīng)該建立人才培養(yǎng)體系,這樣才能在根本上解決大數(shù)據(jù)技術(shù)專業(yè)人才短缺的問題。其次,應(yīng)該加大對于大數(shù)據(jù)技術(shù)相關(guān)行業(yè)的從業(yè)人員選擇標(biāo)準(zhǔn)的規(guī)范力度。再次,企業(yè)可以利用已有資源,培養(yǎng)專業(yè)的大數(shù)據(jù)技術(shù)型人才,從而有效緩解高端人才極其短缺的困境。最后,可以通過對海外大數(shù)據(jù)專業(yè)人才的引進(jìn)來彌補(bǔ)該類人才的缺口,同時可以加大國際人才市場的流通速度,進(jìn)而加快技術(shù)傳遞速度。
2.改善數(shù)據(jù)處理分析具體流程
首先是數(shù)據(jù)安全方面,不管是大數(shù)據(jù)本身,還是與大數(shù)據(jù)息息相關(guān)的云計算等前沿信息技術(shù),數(shù)據(jù)的安全性保證都是不得不引起重視的處理分析前提。從中長期來說只有在數(shù)據(jù)的安全性有了保障之后,分析師才能更好地承擔(dān)起數(shù)據(jù)安全責(zé)任,也才能促進(jìn)不同的數(shù)據(jù)需求者以及提供者之間開展高效且穩(wěn)定的合作。所以,在數(shù)據(jù)安全性保障方面,不僅要求互聯(lián)網(wǎng)行業(yè)均要為每一個用戶的需求考慮,從而設(shè)計、制定個性化的數(shù)據(jù)存儲方案,也要求數(shù)據(jù)存儲機(jī)構(gòu)或部門運(yùn)用先進(jìn)的數(shù)據(jù)管理系統(tǒng)進(jìn)行數(shù)據(jù)管理,進(jìn)而最大程度保障數(shù)據(jù)安全。
其次是具體過程,應(yīng)該解決三個層次的問題。第一要有好的數(shù)據(jù)源,負(fù)責(zé)大數(shù)據(jù)技術(shù)監(jiān)管的政府部門可以制定統(tǒng)一的數(shù)據(jù)信息收集標(biāo)準(zhǔn),從而在源頭上做到取精華去糟粕,提高后期數(shù)據(jù)存儲以及具體分析處理的效率。第二是技術(shù),不僅包括計算機(jī)硬件系統(tǒng),還包括軟件開發(fā)方面的技術(shù)要求。第三點,當(dāng)投資者制定具體的股票投資策略時,不應(yīng)該僅關(guān)注數(shù)據(jù)本身,還應(yīng)該把這些數(shù)據(jù)所能輻射到的范圍連接起來進(jìn)行具有整體觀念的分析處理。例如當(dāng)把大數(shù)據(jù)技術(shù)應(yīng)用于股票投資領(lǐng)域時,雖然對于信息和數(shù)據(jù)處理分析所得的投資策略報告,投資者不得不考慮,但是又考慮到最終完成投資行為的是交易員,而不是計算機(jī),所以,更應(yīng)該同時把用戶市場情緒等和數(shù)據(jù)有直接相關(guān)關(guān)系因素也考慮在內(nèi)。