摘 要:股票預(yù)測通常被形式化為非線性的時(shí)間序列預(yù)測任務(wù),但很少有研究者試圖通過技術(shù)面數(shù)據(jù)去系統(tǒng)地揭示股票市場內(nèi)在結(jié)構(gòu),例如股票上漲或下跌背后的原因可能是業(yè)務(wù)領(lǐng)域之間的合作或沖突,這些額外信息的增加有助于判斷股票的未來趨勢。為了充分真實(shí)刻畫股票市場的交易狀態(tài),表達(dá)股票之間顯式或隱式的關(guān)系,提出一種基于動態(tài)異構(gòu)網(wǎng)絡(luò)的股價(jià)預(yù)測模型sDHN(stock dynamic heterogeneous network),綜合股票以及所屬行業(yè)和地域,將其建模為動態(tài)異構(gòu)網(wǎng)絡(luò)。該模型在網(wǎng)絡(luò)上引入動態(tài)時(shí)序特征,創(chuàng)新融合股票節(jié)點(diǎn)的四種不同技術(shù)層面的相似性圖,生成富信息異構(gòu)圖,最后聚合不同元路徑中隱含的語義信息生成嵌入,從異構(gòu)圖的角度充分探索股票之間的潛在關(guān)聯(lián)。此外,在三個(gè)真實(shí)世界的股票數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),所提出的模型準(zhǔn)確率比所有基線模型均高出5%~34%,F(xiàn)1-score則高出11.5%~37%,并且在圖解釋上證明了該方法的有效性。
關(guān)鍵詞:股票預(yù)測; 異構(gòu)網(wǎng)絡(luò); 圖相似性
中圖分類號:TP399 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2024)07-028-2126-08
doi:10.19734/j.issn.1001-3695.2023.11.0568
Stock price prediction based on dynamic heterogeneous network
Abstract:Stock prediction is typically a non-linear time series task. However, few researchers attempt to systematically reveal the underlying structure of the stock market through technical data. The interactions of collaboration or conflicts among various business domains can explain the fluctuations in stock. The incorporation of this additional information aids in predicting the future trends of stocks. In order to represent the trading situation of the stock market as realistically as possible and to express the explicit or implicit relationships between stocks, this paper proposed a stock price prediction model sDHN based on a dynamic heterogeneous network, which synthesized the base of the stock and the industry and geographical information, and modeled it as a dynamic heterogeneous network. The model introduced dynamic time series capabilities to the network, and the algorithm creatively combined four different technical levels of similarity graphs of stock nodes to generate a rich information heterogeneous graph. Finally, it aggregated the semantic information hidden in different meta-paths to generate embeddings, exploring the potential correlations among stocks from the perspective of the heterogeneous graph. In addition, experiments on three real-world stock data sets show that the proposed model achieves accuracy improvements of between 5% and 34% over the overall baseline models. The F1-score is higher by approximately 11.5%~37%. It demonstrates through graphical analysis the effectiveness of this approach.
Key words:stock prediction; heterogeneous network; graph similarity
0 引言
隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的快速發(fā)展,數(shù)據(jù)大規(guī)模的涌入和計(jì)算機(jī)技術(shù)的提升為把握復(fù)雜多變的股票市場提供了技術(shù)支撐。股票市場規(guī)模數(shù)量龐大、回報(bào)利潤高的特性使眾多投資者們趨之若鶩,而通過技術(shù)分析出股票的潛在趨勢還需要專業(yè)的技術(shù)分析人員來進(jìn)行指導(dǎo)投資[1,2]。影響股票價(jià)格波動的因素不僅僅是基于股票自身的信息,也與自身所處的行情現(xiàn)狀以及其他外界因素[3,4]有關(guān),而這些因素在現(xiàn)實(shí)生活中往往是迅速變化的。如何通過計(jì)算機(jī)分析大量不同類型的金融數(shù)據(jù),構(gòu)建一種準(zhǔn)確而可靠的預(yù)測模型,一直是股票投資市場上迫切需要解決的一個(gè)難題。
股票漲跌預(yù)測[5]對公司管理者、投資者和股票交易者而言都具有重要的價(jià)值和意義,它不僅能讓投資者獲得收益,而且蘊(yùn)涵著各行各業(yè)的發(fā)展前景,把握行業(yè)的發(fā)展動向。股票市場是非線性的、不確定的、復(fù)雜的黑盒系統(tǒng)[6],從財(cái)務(wù)數(shù)據(jù)中選擇有效的特征是股票預(yù)測問題中常用的處理方法[7]。現(xiàn)有的股票預(yù)測模型大部分從兩個(gè)建模思路進(jìn)行構(gòu)建:一是使用歷史價(jià)格數(shù)據(jù)[8,9] 和技術(shù)指標(biāo)[10,11],使用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型來預(yù)測股票價(jià)格序列;二是在上述的基礎(chǔ)上,加入自然語言處理,在時(shí)序數(shù)據(jù)的基礎(chǔ)上逐漸加入其他可以反映當(dāng)前市場情況的變量,比如說投資者情緒、新聞數(shù)據(jù)等。Yang等人[12]通過隨機(jī)森林算法評估因子特征的重要性,再將其輸入到GRU(gated recurrent unit)中學(xué)習(xí)股票的動態(tài)特征并進(jìn)行預(yù)測。Zhang等人[13]利用中國證券交易所中的股票新聞標(biāo)題數(shù)作為輸入,來預(yù)測第二天股票價(jià)格波動最高的概率。相關(guān)模型取得了一定的效果,但是目前還存在以下問題:
a)采用手工構(gòu)造的限維特征,目前大多數(shù)模型采用的是單純數(shù)字或文本特征,這些特征來自于股票的市場描述或價(jià)格波動,基于這些特征的模型在表示股票價(jià)值變化方面存在局限性,從而導(dǎo)致模型的預(yù)測性能不佳。
b)股票市場具有大規(guī)模,有著難以捕捉的整體聯(lián)動的特性。僅通過個(gè)體特征嵌入可能會較難把握住整體股票行情市場,特別是股票之間的聯(lián)動和價(jià)值一致性趨勢等,不能在單純手工構(gòu)造的限維特征得到體現(xiàn)。
圖1所展示的是英特爾和英偉達(dá)股價(jià)增長趨勢,兩者同屬于半導(dǎo)體產(chǎn)品與設(shè)備的龍頭企業(yè),在同一行業(yè)下,漲跌趨勢幾乎相同;而微軟作為全球軟件服務(wù)行業(yè)的頂尖企業(yè),其漲跌趨勢與英特爾和英偉達(dá)幾乎同起同落,其原因可能是微軟的商業(yè)運(yùn)作需要大量的半導(dǎo)體芯片, 三個(gè)機(jī)構(gòu)之間形成了供給關(guān)系,雖然處于不同行業(yè),但價(jià)格變化之間存在著潛在關(guān)聯(lián)。隨著圖學(xué)習(xí)的應(yīng)用越來越廣泛,新的圖概念的提出為圖的發(fā)展上升了一個(gè)層次。異構(gòu)網(wǎng)絡(luò)[14]在圖深度學(xué)習(xí)上的應(yīng)用也越來越廣泛,在金融領(lǐng)域也同樣具有普適性。
異構(gòu)信息網(wǎng)絡(luò)是由多種類型的節(jié)點(diǎn)或邊組成的復(fù)雜網(wǎng)絡(luò)。股票市場包括來自各種行業(yè)的公司,如計(jì)算機(jī)、金融、能源、醫(yī)療保健等,這些公司的多樣性導(dǎo)致了市場的多元化,而股票市場本身可以看作是一個(gè)具有多元主體以及主體之間關(guān)系信息豐富的復(fù)雜金融網(wǎng)絡(luò),并且通過市場行情反饋出的大量輔助信息也包含潛在的網(wǎng)絡(luò)信息。因此對這種多元多關(guān)系的股票網(wǎng)絡(luò)進(jìn)行動態(tài)異構(gòu)網(wǎng)絡(luò)建模,不僅保留了股票網(wǎng)絡(luò)中主體和關(guān)系特征,并且有效融合了實(shí)時(shí)的行情輔助信息,從而有效緩解了節(jié)點(diǎn)形式單一且缺失信息的問題,并且在一定程度上提高了股票網(wǎng)絡(luò)的可解釋性。基于從股票市場整體和關(guān)聯(lián)分析基礎(chǔ)出發(fā),本文提出了基于動態(tài)異構(gòu)網(wǎng)絡(luò)來構(gòu)建模型,從而實(shí)現(xiàn)有效的股價(jià)預(yù)測,主要貢獻(xiàn)如下:
a)為了捕捉股票市場中價(jià)格的動態(tài)變化趨勢。本文考慮了股票時(shí)序特征,將漲跌趨勢用編碼的方式加入到節(jié)點(diǎn)信息中。
b)構(gòu)建金融相似性圖,考慮到影響不同股票之間潛在的結(jié)構(gòu)因素,為異構(gòu)圖中附加額外金融信息,有效捕獲了動態(tài)股票市場中復(fù)雜的市場行為和結(jié)構(gòu)演化特征。
c)異構(gòu)圖配合元路徑,能夠通過金融尺度特定地進(jìn)行信息傳遞,更好地學(xué)習(xí)股票內(nèi)在的不同異構(gòu)屬性的表示。
早期金融市場的研究者們主要運(yùn)用機(jī)器學(xué)習(xí)模型來擬合股票時(shí)序數(shù)據(jù),隨著深度學(xué)習(xí)[15,16]的廣泛發(fā)展與應(yīng)用,研究者們將注意力轉(zhuǎn)向神經(jīng)網(wǎng)絡(luò)領(lǐng)域。LSTM(long short-term me-mory)在數(shù)據(jù)的處理計(jì)算過程中,更能捕捉到時(shí)間維度中的信息,但機(jī)器學(xué)習(xí)模型仍然被廣泛用于與深度學(xué)習(xí)模型進(jìn)行比較的基準(zhǔn)。根據(jù)筆者調(diào)研,本文主要介紹三種在股票預(yù)測方面使用到的建模思路:從技術(shù)選型來看,一是通過支持向量機(jī)(support vector machine)或者決策樹(decision tree,DT)等單一機(jī)器學(xué)習(xí)方法或者多種機(jī)器學(xué)習(xí)方法混合模型;二是使用自然語言處理后的文本數(shù)據(jù),結(jié)合深度學(xué)習(xí)混合模型進(jìn)行預(yù)測;三是基于圖表示的深度學(xué)習(xí)模型。
Nayak等人[17]使用部分金融數(shù)據(jù)作為特征,采用支持向量機(jī)、Logistic回歸(Logistic regression)和提升樹(Boosting tree)模型對銀行業(yè)、石油、礦產(chǎn)行業(yè)的股票進(jìn)行漲跌預(yù)測。Ji等人[18]在18個(gè)技術(shù)指標(biāo)作為原始特征,提出了基于小波去噪對技術(shù)指標(biāo)進(jìn)行改進(jìn)的兩階段自適應(yīng)特征選擇方法。Song等人[19]使用一種新的SPCA(sparse principal component analysis)主成分分析來聚合情緒相關(guān)變量中的公共信息,并在預(yù)處理中消除了可能大幅改變情緒指數(shù)的常見噪聲分量,能較好地預(yù)測出中國股市實(shí)際的波動性。Fang等人[20]通過最大化自適應(yīng)lasso懲罰對數(shù)似然函數(shù)來選擇對長期股市波動性影響最強(qiáng)的變量,構(gòu)建具有變量選擇功能的GARCH-MIDAS(GARCH with maximizing adaptive-lasso penalty)模型來提高對股市長期波動的預(yù)測能力。
Xu等人[21]提出了一種新的遞歸卷積神經(jīng)網(wǎng)絡(luò)來預(yù)測股票市場的趨勢,該模型可以從股票市場的信息自動捕捉有用的新聞并加入實(shí)體嵌入。Li等人[22]通過分析文本新聞文章學(xué)習(xí)情緒向量,并構(gòu)建了新聞金融領(lǐng)域特定情緒詞典對新聞情緒進(jìn)行了更好的學(xué)習(xí)。Chang等人[23]提出了以專家評論中的情緒價(jià)值作為股價(jià)預(yù)測的基礎(chǔ)。Du等人[24]提出一種具有事件分布的News-Stock嵌入空間,以股票作為對象來獲取各類事件分布,計(jì)算出股票的實(shí)體嵌入,借此降低股票投資組合風(fēng)險(xiǎn)。Lin等人[25]根據(jù)財(cái)經(jīng)新聞對比了四種不同的文本特征表示,分別是TF-IDF(term frequency-inverse document frequency),word2vec(word embeddings),ELMo(embeddings from language model),BERT(bidirectional encoder representations from transformer),用于生成SVM,CNN(convolutional neural network)和LSTM的輸入,使用的時(shí)間維度不同,不同模型的AUC(area under curve)指標(biāo)有明顯差異。
Feng等人[26]通過從文本數(shù)據(jù)中提取股票之間的關(guān)系,構(gòu)建一個(gè)股票圖,使用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行股票收益預(yù)測。 Kim等人[27]提出了一個(gè)基于股票預(yù)測的層次注意網(wǎng)絡(luò)HATS(hierarchical graph attention network for stock),它使用關(guān)系數(shù)據(jù)進(jìn)行股票市場預(yù)測,通過有選擇地聚合不同關(guān)系類型的信息,并將這些信息添加到每個(gè)公司的表示中,被用作具有初始化節(jié)點(diǎn)表示的關(guān)系建模,通過圖分類任務(wù)來預(yù)測個(gè)股價(jià)格和市場指數(shù)的走勢。Ma等人[28]提出了一個(gè)屬性驅(qū)動的模糊超圖網(wǎng)絡(luò)AFHGN(attribute-driven fuzzy hypergraph network),AFHGN通過模糊聚類構(gòu)造關(guān)聯(lián)矩陣,用相似度來表示超邊關(guān)聯(lián)的程度,并在圖卷積中引入了一個(gè)屬性驅(qū)動門來模擬股票在實(shí)際市場中的影響。
隨著網(wǎng)絡(luò)科學(xué)的興起,股票結(jié)構(gòu)可以被建模成復(fù)雜網(wǎng)絡(luò)的形式[29]。對復(fù)雜網(wǎng)絡(luò)的研究可以有效地幫助分析股票市場豐富的特性。上述模型股票預(yù)測領(lǐng)域也取得了部分成果,但是上述模型僅考慮到了對時(shí)序數(shù)據(jù)進(jìn)行計(jì)算,或是僅考慮股票之間的單一結(jié)構(gòu)關(guān)系[30]。由于股票市場通常是具有多種類型的實(shí)體類型和復(fù)雜的邊關(guān)系的一個(gè)系統(tǒng),若是單純地將股票市場視為同質(zhì)網(wǎng)絡(luò),可能會遺漏豐富的潛在信息,導(dǎo)致生成嵌入的單一性。
1 動態(tài)異構(gòu)網(wǎng)絡(luò)股價(jià)預(yù)測模型
股票信息以及交易的過程往往是公開且透明的,在相應(yīng)的各大交易所以及專業(yè)的股票研究投資終端中可直接訪問。本文分別在中國A股市場、美股一級市場NASDAQ和NYSE中篩選股票,股票規(guī)模約9 185條。本文應(yīng)用到的數(shù)據(jù)結(jié)構(gòu)分為股票屬性和行情技術(shù)指標(biāo)兩種。股票屬性主要包括股票代碼、上市地域、所屬證監(jiān)會行業(yè)指數(shù)名稱三種股票靜態(tài)屬性;行情技術(shù)指標(biāo)包括日個(gè)股收盤價(jià)、日個(gè)股交易股數(shù)、日個(gè)股漲跌幅以及日個(gè)股回報(bào)率四種股票動態(tài)技術(shù)指標(biāo)。
具體地,對股票、行業(yè)以及地域三類實(shí)體進(jìn)行異構(gòu)節(jié)點(diǎn)編碼,分別獲得三種實(shí)體中不同子類型的唯一標(biāo)識,編碼符號如表1所示,例如Euclid Math OneIAp16代表的是行業(yè)中的計(jì)算機(jī)行業(yè);異構(gòu)邊的構(gòu)建除了連接地域、行業(yè)等靜態(tài)屬性節(jié)點(diǎn)之外,額外補(bǔ)充通過計(jì)算五種股票動態(tài)技術(shù)指標(biāo),篩選出與該只股票指標(biāo)相關(guān)性最大的另一只股票,豐富異構(gòu)圖中已有的邊信息,詳細(xì)的股票指標(biāo)相關(guān)性計(jì)算見1.2節(jié)。對此,本文通過基于股票屬性和技術(shù)指標(biāo)特征構(gòu)建股票市場動態(tài)異構(gòu)網(wǎng)絡(luò)。
構(gòu)建的股票市場動態(tài)異構(gòu)網(wǎng)絡(luò)的節(jié)點(diǎn)包含了股票市場的交易目標(biāo)和目標(biāo)的特定性質(zhì),邊包含潛在語義信息,基于此,可以通過特定的元路徑集合{0,1,…,P}實(shí)現(xiàn)節(jié)點(diǎn)-邊-節(jié)點(diǎn)之間的消息傳遞,為股票節(jié)點(diǎn)的時(shí)序價(jià)格序列上帶來額外的行情附加信息,生成最終嵌入Z,綜合多方面的信息融合來實(shí)現(xiàn)股票的漲跌預(yù)測。
在股票預(yù)測等金融場景中,異構(gòu)信息網(wǎng)絡(luò)(heterogeneous information network)能夠?qū)Χ嘣串悩?gòu)信息[31]進(jìn)行建模。通過節(jié)點(diǎn)和邊的連接屬性來表示它們之間的關(guān)聯(lián)關(guān)系,將不同類型的實(shí)體和關(guān)系組織成一個(gè)網(wǎng)絡(luò)結(jié)構(gòu),這種網(wǎng)絡(luò)結(jié)構(gòu)可以更好地反映股票等金融實(shí)體之間的復(fù)雜聯(lián)系,包括股票與股票、股票與財(cái)務(wù)指標(biāo)、股票與行業(yè)和地域等信息關(guān)聯(lián)。通過HIN可以賦予節(jié)點(diǎn)和邊不同的金融知識概念,能更全面地捕捉到這些關(guān)系,從而提高股票預(yù)測模型的精度和可解釋性?;诠善笔袌鰟討B(tài)異構(gòu)網(wǎng)絡(luò),本文提出sDHN(stock dynamic heterogeneous network)股票預(yù)測模型,模型整體架構(gòu)由時(shí)間特征信息節(jié)點(diǎn)嵌入、異構(gòu)節(jié)點(diǎn)金融相似性圖、基于注意力的元路徑消息聚合模塊三部分組成。具體來說,首先在異構(gòu)圖中每個(gè)股票節(jié)點(diǎn)中加入時(shí)間信息,生成具有動態(tài)時(shí)間信息的節(jié)點(diǎn)嵌入;再通過不同股票技術(shù)指標(biāo)計(jì)算得出節(jié)點(diǎn)相似性,構(gòu)建節(jié)點(diǎn)金融相似性圖,注入到原金融異構(gòu)圖中,豐富異構(gòu)圖中的信息存儲;最后聚合前兩個(gè)模塊得到的異構(gòu)圖,通過不同元路徑進(jìn)行圖采樣,使用注意力對不同元路徑本身代表的語義消息的重要性進(jìn)行加權(quán),輸入到圖卷積網(wǎng)絡(luò)中完成對股票漲跌的預(yù)測。模型的總體架構(gòu)如圖2所示。
1.1 時(shí)間特征信息節(jié)點(diǎn)嵌入
股票價(jià)格數(shù)據(jù)具有非線性和高波動性的特點(diǎn),從原始股票價(jià)格提取有效信息,學(xué)習(xí)其價(jià)格趨勢特征,這些信息能更好地代表每只股票的歷史價(jià)格信息,降低數(shù)據(jù)的復(fù)雜性。本文以半個(gè)月的時(shí)間間隔下的股票收盤價(jià)作為原始價(jià)格數(shù)據(jù),利用One-Hot的編碼方式對歷史股票價(jià)格數(shù)據(jù)進(jìn)行編碼,以獲得有效的股票價(jià)格趨勢嵌入。
One-Hot編碼是一種常用的數(shù)據(jù)編碼方式,用于將離散的分類特征表示為二進(jìn)制向量,即將每個(gè)分類變量的取值轉(zhuǎn)換為一個(gè)唯一的整數(shù)標(biāo)識,并將其表示為一個(gè)只有一個(gè)元素為1其他元素為0的向量。輸入股票的歷史價(jià)格序列Cst={Cst,Cst+T,Cst+T+1,Cst+T+2,…,Cst+T+n}代表股票每月的收盤價(jià),其中T=15是時(shí)間窗口長度,n={0,1,2,…,23}代表時(shí)間維度。將 Cst與下一時(shí)間間隔 Cst+T進(jìn)行對比,生成隱含歷史趨勢的時(shí)序嵌入 hst={hst,hst+T,hst+T+1…,hst+T+n},hst將輸入到編碼層進(jìn)行One-Hot編碼,將特征進(jìn)行向量化,生成Xs,使得不同時(shí)間段內(nèi)的特征之間通過離散化度量能夠更加方便地進(jìn)行處理。
1.2 異構(gòu)節(jié)點(diǎn)金融相似性圖
在金融領(lǐng)域中的網(wǎng)絡(luò)結(jié)構(gòu)通常是大規(guī)模的無標(biāo)度網(wǎng)絡(luò),即少部分重要的金融機(jī)構(gòu)中體現(xiàn)出影響力較大,而普通的金融機(jī)構(gòu)則擁有少數(shù)連接,這可能會使網(wǎng)絡(luò)中使用的元路徑長度過短,從而導(dǎo)致傳遞信息缺失。公司在圖中表示為節(jié)點(diǎn),其中每個(gè)節(jié)點(diǎn)內(nèi)部都蘊(yùn)涵著豐富的金融屬性,任意兩家公司股票的技術(shù)指標(biāo)之間都可能存在各種相似之處。然而,股票網(wǎng)絡(luò)中有限的規(guī)模和明確的公司相似性暗示的缺乏,可能會限制其整體網(wǎng)絡(luò)的連通性。為了解決這個(gè)問題,本文建立了節(jié)點(diǎn)金融相似性圖,在其異構(gòu)邊中包含了不同金融指標(biāo)之間的相似性關(guān)系,每種相似性關(guān)系的具體含義如表2所示。
為了度量上述金融指標(biāo)下股票的相似程度,本文使用Spearman_rank相關(guān)系數(shù)來計(jì)算股票金融指標(biāo)的相關(guān)性。Spearman_rank相關(guān)系數(shù)通常被用來量化兩列數(shù)據(jù)單調(diào)依賴程度的非參數(shù)指標(biāo),基于兩個(gè)變量的排序順序而不是具體數(shù)值大小來計(jì)算相關(guān)性,適用于非線性關(guān)系或異常值較多的股票市場。首先將原始的金融數(shù)據(jù)當(dāng)日范圍內(nèi)轉(zhuǎn)換成對應(yīng)的等級數(shù)據(jù),根據(jù)前后等級差值的平方和來計(jì)算Spearman_rank相關(guān)系數(shù),具體計(jì)算公式如下:
1.3 基于注意力的元路徑消息聚合模塊
金融動態(tài)異構(gòu)圖中的每個(gè)節(jié)點(diǎn)都包含股票數(shù)據(jù)的時(shí)間信息,僅關(guān)注于時(shí)序信息的股票節(jié)點(diǎn)嵌入不能完全反映市場的復(fù)雜情況,可能會忽視其他行業(yè)或市場因素對該股票的影響。為了學(xué)習(xí)更全面的節(jié)點(diǎn)嵌入,需要聚合不同元路徑隱含的多個(gè)屬性和技術(shù)指標(biāo)層面代表的語義消息。為了解決異構(gòu)圖中元路徑選擇和消息聚合的挑戰(zhàn),本文構(gòu)建了基于注意力的元路徑消息聚合模塊,以自動學(xué)習(xí)不同元路徑的重要性,并將它們包含的語義消息融合到金融場景中。
將最終得到的聚合多維消息的嵌入輸入到預(yù)測層中,將標(biāo)記了股票漲跌的真實(shí)值和預(yù)測值進(jìn)行交叉熵最小化,損失函數(shù)如下:
其中:C為分類器的參數(shù);L是標(biāo)簽類別數(shù);Yl和Zl是已標(biāo)記節(jié)點(diǎn)的標(biāo)簽和嵌入(真實(shí)值和預(yù)測值)。通過反向傳播算法進(jìn)行迭代訓(xùn)練來優(yōu)化所提出的模型。
綜上所述,基于動態(tài)異構(gòu)網(wǎng)絡(luò)的股票預(yù)測模型sDHN中共涉及到3個(gè)模塊算法,提供的偽代碼如下:
算法1 具有時(shí)間特征信息的節(jié)點(diǎn)嵌入算法
算法2 異構(gòu)金融相似性圖框架算法
算法3 基于注意力的元路徑消息聚合算法
2 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
2.1 數(shù)據(jù)集
為了驗(yàn)證sDHN模型在真實(shí)金融網(wǎng)絡(luò)中的性能和準(zhǔn)確度,在全球股市較具有代表性的三個(gè)股票市場數(shù)據(jù)集上進(jìn)行漲跌二分類預(yù)測,包括中國A股、納斯達(dá)克(NASDAQ)和紐約證券交易所(NYSE)公開的股票數(shù)據(jù)。其中所有的股票數(shù)據(jù)均來自中國互聯(lián)網(wǎng)財(cái)經(jīng)資訊門戶東方財(cái)富網(wǎng)旗下的Choice數(shù)據(jù)終端,東方Choice金融終端的數(shù)據(jù)主要來自于權(quán)威的金融市場數(shù)據(jù)提供商和相關(guān)機(jī)構(gòu),包括交易所、金融信息服務(wù)公司以及政府監(jiān)管機(jī)構(gòu)等,這些數(shù)據(jù)源被大部分金融機(jī)構(gòu)、學(xué)術(shù)研究機(jī)構(gòu)和專業(yè)投資者們廣泛認(rèn)可。其中:A股的股票數(shù)量有4 395只,其關(guān)系屬性中的行業(yè)個(gè)數(shù)為31個(gè),地域分布個(gè)數(shù)為32個(gè);NASDAQ數(shù)據(jù)集中的股票數(shù)量為2 569只,行業(yè)個(gè)數(shù)為11個(gè),地域分布個(gè)數(shù)為102個(gè);NYSE中的股票數(shù)量為2 221只,行業(yè)個(gè)數(shù)為11個(gè),地域分布個(gè)數(shù)為121個(gè);日個(gè)股交易股數(shù)相似性、漲跌幅相似性、日收盤價(jià)相似性、日個(gè)股回報(bào)率相似性個(gè)數(shù)分別與股票數(shù)量相等。
三個(gè)數(shù)據(jù)集的時(shí)間跨度均為2022年1月—2022年12月,使用的均為公開數(shù)據(jù),模型以半個(gè)月作為時(shí)間間隔,將2022年1月初至2022年12月中旬間所有的行情數(shù)據(jù)作為訓(xùn)練樣本數(shù)據(jù)集,以2022年12月底的股票收盤價(jià),對比上個(gè)時(shí)間間隔下的股票收盤價(jià),將股票的漲跌趨勢作為預(yù)測標(biāo)簽。
本文基于上述數(shù)據(jù)構(gòu)建動態(tài)異構(gòu)金融網(wǎng)絡(luò)圖,同時(shí)剔除在2022年中一個(gè)月內(nèi)交易數(shù)據(jù)缺失超過10天的股票,目的是減少因異常數(shù)據(jù)導(dǎo)致的交易信息誤判,以最真實(shí)的數(shù)據(jù)還原交易場景。除此之外,由于股票交易中存在休市日,也可能導(dǎo)致某一天的交易數(shù)據(jù)缺失,對此則采取最近鄰的交易數(shù)據(jù)進(jìn)行補(bǔ)充,最大限度地確保數(shù)據(jù)的準(zhǔn)確性和一致性。整個(gè)數(shù)據(jù)集分為三個(gè)部分,其中70%的數(shù)據(jù)用于訓(xùn)練,20%的數(shù)據(jù)用于驗(yàn)證,剩下10%的數(shù)據(jù)用于測試。此外,本文分別對三個(gè)數(shù)據(jù)集中的所有節(jié)點(diǎn)規(guī)定了位置掩碼,確保當(dāng)前節(jié)點(diǎn)只能在隨機(jī)選取后的訓(xùn)練集、驗(yàn)證集、測試集范圍內(nèi)進(jìn)行訓(xùn)練,從而避免了在訓(xùn)練過程中出現(xiàn)數(shù)據(jù)泄露問題。所構(gòu)建的股票異構(gòu)金融網(wǎng)絡(luò)的詳細(xì)信息如表3所示。
2.2 基線模型
為了評估本文sDHN模型的性能,本文與股票價(jià)格預(yù)測中經(jīng)典且廣泛使用的技術(shù)分析、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)模型進(jìn)行對比實(shí)驗(yàn)。具體來說,首先選用了兩個(gè)傳統(tǒng)的股票預(yù)測技術(shù)指標(biāo)作為基線模型:
a)MOM[32]:動量線(momentum)可以視為一段期間內(nèi),股價(jià)漲跌變動的慣性,即使用上一個(gè)收盤價(jià)減去t天前的收盤價(jià),然后將這個(gè)正值或負(fù)值繪制在零線周圍,通過比較零線反映股價(jià)未來走勢。
b)MR[33]:均值回歸(mean reversion)是識別到價(jià)格偏離其歷史平均值過多的情況下,預(yù)測其趨勢會逆轉(zhuǎn)的一種策略。
機(jī)器學(xué)習(xí)中通常將歷史的價(jià)格時(shí)序數(shù)據(jù)作為輸入,訓(xùn)練分類器來預(yù)測股價(jià)的漲跌趨勢。接下來進(jìn)一步對比五種經(jīng)典分類或回歸模型:
c)SVM[34]:支持向量機(jī)是經(jīng)典的機(jī)器學(xué)習(xí)算法,經(jīng)常應(yīng)用于二分類問題,在股票漲跌預(yù)測中同樣適用,其中一類表示漲,另一類表示跌。
d)XGBoost[35]:XGBoost是機(jī)器學(xué)習(xí)領(lǐng)域有效的集成學(xué)習(xí)算法,根據(jù)預(yù)測模型輸出的漲跌標(biāo)簽或概率值來判斷股票的漲跌趨勢。
e)LSTM[36]:使用LSTM(long short-term memory)在股票價(jià)格預(yù)測領(lǐng)域十分流行,因?yàn)長STM引入了記憶單元(memory cell)和遺忘門(forget gate)來記錄和保存時(shí)序數(shù)據(jù)特征,這使得LSTM能夠更好地處理和捕捉時(shí)間序列數(shù)據(jù)中的長期依賴關(guān)系??梢酝ㄟ^價(jià)格預(yù)測與前一天收盤價(jià)進(jìn)行比較,來預(yù)測股票的漲跌。
f)GRU[37]:GRU(gated recurrent unit)和LSTM是RNN(recurrent neural network)常見的兩種變體,由于GRU使用的參數(shù)和門控單元更少,在訓(xùn)練計(jì)算中更加高效。通常是將股票的每日收盤價(jià)作為時(shí)序特征進(jìn)行輸入,來預(yù)測下一個(gè)交易日的收盤價(jià)。
g)Attention[38]:注意力機(jī)制通過賦予股票價(jià)格時(shí)序數(shù)據(jù)在不同時(shí)間步的輸入權(quán)重來動態(tài)地選擇和聚焦于關(guān)鍵信息,將注意力權(quán)重看作是每個(gè)時(shí)間節(jié)點(diǎn)重要性的度量,最后通過計(jì)算加權(quán)和來對股價(jià)整體趨勢進(jìn)行預(yù)測。
此外,本文也對比了其他三種基于股票關(guān)系構(gòu)建圖網(wǎng)絡(luò)的深度學(xué)習(xí)算法:
h)GCN[39]:GCN(graph convolutional network)使用LSTM網(wǎng)絡(luò)對股票的歷史價(jià)格數(shù)據(jù)進(jìn)行編碼,然后將結(jié)果輸入GCN,根據(jù)股票關(guān)系圖進(jìn)行學(xué)習(xí)。
i)TGC[26]:TGC(temporal graph convolution)時(shí)間圖卷積框架通過捕捉動量溢出效應(yīng),并以一種時(shí)間敏感的方式編碼股票關(guān)系,構(gòu)建了一個(gè)基于上市公司的同構(gòu)市場圖,用于預(yù)測股票走勢。
j)STHGCN[40]:時(shí)空超圖卷積(spatiotemporal hypergraph graph convolutional network)通過超圖對股票的行業(yè)歸屬關(guān)系進(jìn)行建模,并引入了門控時(shí)間卷積來捕獲股票價(jià)格特征中的時(shí)間依賴性。
2.3 實(shí)驗(yàn)設(shè)置
本文使用Intel CoreTM i7-6800k的CPU訓(xùn)練環(huán)境進(jìn)行實(shí)驗(yàn),內(nèi)存大小為65 536 MB,Linux操作系統(tǒng)版本號為Ubuntu 5.4.0。
sDHN模型由PyTorch 1.9.0中的DGL模塊實(shí)現(xiàn),對于本文模型,元路徑設(shè)置為16條,長度為2。Adam隨機(jī)初始化參數(shù)并進(jìn)行優(yōu)化,模型訓(xùn)練中需要設(shè)置的超參數(shù)分別有:學(xué)習(xí)率設(shè)置為0.005,注意力頭數(shù)為8,dropout的概率為0.2,批處理大小為100,epoch次數(shù)設(shè)置為150,并使用早停策略,patience設(shè)置為100,即損失在連續(xù)100個(gè)epoch下沒有減少,則停止訓(xùn)練。
2.4 實(shí)驗(yàn)結(jié)果與分析
本文sDHN模型在中國A股市場、NASDAQ和紐約證券交易所三個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分別與2.2節(jié)給出的十種基線模型進(jìn)行對比,結(jié)果如表4所示。實(shí)驗(yàn)結(jié)果表明,本文模型在三個(gè)數(shù)據(jù)集上的表現(xiàn)都優(yōu)于其他模型,在A股數(shù)據(jù)集上,本文模型比其他基線模型在準(zhǔn)確率上高出uTHQxNWygzn1sfvAucEPVBpq98sJkz9NTT2KvfFsm1s=7%~16%,在NASDAQ數(shù)據(jù)集上,準(zhǔn)確率則比其他模型高出10%~34%,而在NYSE數(shù)據(jù)集上,準(zhǔn)確率比其他模型高出5%~21%。這表明僅依托于股票的屬性或是時(shí)序價(jià)格數(shù)據(jù),對價(jià)格預(yù)測的準(zhǔn)確性是有限的,忽略股票之間的潛在聯(lián)系可能會導(dǎo)致價(jià)格評判的片面性,而整體市場的行情影響對股票而言也是極其重要的,本文模型使用的異構(gòu)網(wǎng)絡(luò)為股票間的聯(lián)系提供了額外信息,在圖拓?fù)浣Y(jié)構(gòu)上與股票交易場景也具有較高的適配性,并且也在股票節(jié)點(diǎn)中加入時(shí)序價(jià)格信息,補(bǔ)充了模型的時(shí)間價(jià)格判別能力。從實(shí)驗(yàn)結(jié)果可以看出,與上述基線模型相比,sDHN模型展示出更好的性能,說明金融異構(gòu)網(wǎng)絡(luò)的構(gòu)建在模擬股票預(yù)測場景中起著非常重要的作用。
2.4.1 模型參數(shù)對比
本節(jié)中分別對比在不同參數(shù)設(shè)置下的sDHN模型效能的評估,在A股、NASDAQ和NYSE三個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3所示。
如圖3所示,每個(gè)子圖的x軸代表訓(xùn)練的epoch數(shù),左y軸代表的是模型的F1-score,右y軸代表的是模型的準(zhǔn)確率。圖3分別給出本文模型在3個(gè)數(shù)據(jù)集上不同訓(xùn)練epoch下分類評估指標(biāo)的變化情況。
首先將模型的學(xué)習(xí)率固定為0.005,并設(shè)置epoch∈{5,25,50,75,100,125,150,175,200},由于epoch設(shè)置的不同,包括Acc和F1-score在內(nèi)的指標(biāo)呈現(xiàn)出一定的變化趨勢,其中,圖3(a)(c)中A股的指標(biāo)波動情況比圖3(b)中NASDAQ更加明顯,而且三者的ACC和F1-score的表現(xiàn)呈現(xiàn)出同步上升的趨勢,而且當(dāng)epoch=150時(shí),模型實(shí)現(xiàn)出最好的性能,分別是Acc的0.722 7(A股)、0.863 8(NASDAQ)、0.820 6(NYSE)和F1-score的0.719 4(A股)、0.509 7(NASDAQ)、0.583 1(NYSE)。但是當(dāng)epoch大于150時(shí),模型性能一致處于飽和狀態(tài),在圖3(b)的NASDAQ和圖3(c)的NYSE中F1-score上甚至一度出現(xiàn)下滑狀態(tài),并且隨著模型訓(xùn)練的epoch增加,Acc整體并沒有明顯提高。這一實(shí)驗(yàn)結(jié)果表明,更大的參數(shù)不僅會帶來額外的計(jì)算負(fù)擔(dān),而且也無法確保會帶來更好的性能效果。
需要注意的是,本文選擇epoch=150作為模型的最佳參數(shù),綜合度量了Acc和F1-score的性能表現(xiàn)、計(jì)算成本和過擬合。一般來說,對于股票預(yù)測任務(wù),大部分人可能會更加關(guān)注準(zhǔn)確率的大小,而忽視了F1-score對于正負(fù)樣本的均衡性評估,股票市場獨(dú)有的表現(xiàn)可能會導(dǎo)致極端情況(樣本不均衡)的出現(xiàn),即可能會隨著某個(gè)產(chǎn)業(yè)的興起或是熱度提升,同一時(shí)期內(nèi)出現(xiàn)價(jià)格一邊倒的情況,這可能導(dǎo)致模型學(xué)習(xí)產(chǎn)生偏差性,所以加強(qiáng)對F1-score的重視程度,由圖3(b)可知,當(dāng)epoch=100時(shí),模型的Acc已經(jīng)達(dá)到了峰值,但是相較于epoch=175時(shí)模型的表現(xiàn),F(xiàn)1-score卻減少了2%,而epoch=200的性能與epoch=150的表現(xiàn)一致,然而卻額外增加了50個(gè)epoch的計(jì)算代價(jià),此外,在epoch=175時(shí),模型性能出現(xiàn)了小幅下降的趨勢,所以選擇epoch=150作為模型性能表現(xiàn)的最佳參數(shù)。
2.4.2 元路徑對比
sDHN模型中考慮了金融技術(shù)指標(biāo)的語義級注意力,以元路徑的形式來實(shí)現(xiàn),為了證明不同元路徑對模型性能的影響,本文使用了三種不同形式的元路徑進(jìn)行比較,元路徑詳細(xì)的設(shè)置如表5所示,實(shí)驗(yàn)結(jié)果如圖4所示,其中,x軸代表的是不同訓(xùn)練的epoch數(shù),y軸代表的是在測試集中整體模型的loss變化情況。
可以看到,在圖4(a)~(c)中的loss損失整體呈現(xiàn)下降趨勢,在三個(gè)數(shù)據(jù)集中相比其他的元路徑,meta path_1的loss損失下降最低,即使用matapath_1時(shí),模型的預(yù)測結(jié)果與真實(shí)標(biāo)簽之間的差距最小,相較于matapath_2,matapath_1中的子路徑數(shù)量更多,并且提供雙向的信息反饋,幫助節(jié)點(diǎn)更好地聚合周圍鄰居所提供的表示信息;而相較于matapath_3,兩條元路徑都提供同等的語義信息,但是子路徑的路徑長度不同,matapath_3的路徑長度更長,這會使當(dāng)前節(jié)點(diǎn)獲取到更遠(yuǎn)處的節(jié)點(diǎn)信息,但對于中小型異構(gòu)圖來說,可能導(dǎo)致異構(gòu)圖中符合該條元路徑的子圖數(shù)量減少,進(jìn)而使得訓(xùn)練中節(jié)點(diǎn)獲取到整體信息減少,使得模型性能下降。在圖4(a)~(c)中的matapath_3都出現(xiàn)loss值短暫上升的情況,在這個(gè)階段,模型可能會學(xué)習(xí)到錯(cuò)誤或不理想的權(quán)重組合,導(dǎo)致loss值上升,但隨后呈現(xiàn)下降趨勢,這從側(cè)面反映出訓(xùn)練過程中的patience機(jī)制對模型性能進(jìn)行調(diào)整和優(yōu)化。
2.4.3 相似性熱圖
為了驗(yàn)證sDHN模型中構(gòu)建的金融相似性圖的合理性,本文在三個(gè)不同市場的數(shù)據(jù)集中挑選了6只案例股票作進(jìn)一步分析,實(shí)驗(yàn)結(jié)果如圖5所示,橫縱軸分別是三個(gè)不同市場里的股票代碼,案例股票的詳細(xì)信息如表6所示。
圖5(a)中可以看出,300034.SZ(鋼研高納)和002025.SZ(航天電器)的相關(guān)性系數(shù)為0.90,相同的是600118.SH(中國衛(wèi)星)和601698.SH(中國衛(wèi)通)的相關(guān)性高達(dá)0.96,表明金融相似性圖模塊可以識別出處于不同行業(yè)中的上下游業(yè)務(wù)關(guān)系,圖5(b)中的ADEA.O(Adeia Inc.)和LITE.O(Lumentum Hol-dings Inc.)和圖5(c)的MHO.N(MI 家居)和BLDR.N(Buil-ders FirstSource Inc.)也體現(xiàn)出與圖5(a)類似的性質(zhì),在圖5(a)~(c)中屬于不同行業(yè)且在業(yè)務(wù)上沒有直接關(guān)聯(lián)的股票000006.SZ、AACG.O、ATGE.N(主營業(yè)務(wù)分別為房地產(chǎn)開發(fā)和教育服務(wù)),為其分配的相關(guān)性權(quán)值都較小,這在實(shí)際情況中是較為合理的情況。從而推斷出通過相關(guān)性圖可以有效地挖掘出股票之間潛在的業(yè)務(wù)相關(guān)性,也就是說,圖中的相關(guān)性從認(rèn)知層面上更加理性地推斷出額外信息,而不是簡單的高階關(guān)系,這為預(yù)測模型的圖結(jié)構(gòu)注入更重要的信息。
3 結(jié)束語
本文將股票預(yù)測設(shè)置為二分類問題,以預(yù)測股票的漲跌趨勢。利用現(xiàn)有的股票屬性,從不同屬性的交織中獲取到重要信息是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),基于此,本文構(gòu)建了不同關(guān)系類型的金融異構(gòu)圖來模擬股票之間各種復(fù)雜的關(guān)系,從圖的角度衡量對股價(jià)變化的綜合影響。針對股票的行情信息,本文基于股票市場中經(jīng)典的金融指標(biāo)構(gòu)建了四種新的股票關(guān)系圖,稱為金融相似性圖,該模塊可以有效探索股票之間的市場內(nèi)股票交易信息和收益情況的相似性,捕捉到不同類型股票之間的潛在聯(lián)系,從結(jié)構(gòu)上補(bǔ)充圖中的行情信息;為了在圖中進(jìn)行信息挖掘,實(shí)現(xiàn)有效的信息融合,本文使用元路徑將具有特定的金融技術(shù)指標(biāo)語義傳遞到節(jié)點(diǎn)嵌入中,配合股票的時(shí)序價(jià)格特征并使用GNN來進(jìn)行股票預(yù)測。本文在三個(gè)真實(shí)的股票市場數(shù)據(jù)集中進(jìn)行大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文構(gòu)建的 sDHN模型能緩解由于單只股票關(guān)系圖的稀疏性而導(dǎo)致的有效信息不足的問題;金融相似性圖可以有效學(xué)習(xí)到不同類型股票的業(yè)務(wù)相似性,所以能夠較好地預(yù)測股票趨勢。
在未來,將進(jìn)一步探討、改進(jìn)或擴(kuò)展股票間關(guān)系的、不同的構(gòu)建方法。考慮到股票市場可能會短期快速變化的可能性,可以通過構(gòu)建短期動態(tài)圖來進(jìn)行建模,以提高模型的性能。
參考文獻(xiàn):
[1]Moshirian F, Tian Xuan, Zhang Bohui, et al. Stock market libera-lization and innovation[J]. Journal of Financial Economics, 2021, 139(3): 985-1014.
[2]Gao Yanzi, Wu Jiabing, Feng Zhichao, et al. A new BRB model for technical analysis of the stock market[J]. Intelligent Systems with Applications, 2023, 2023(18): article ID 200198.
[3]Umar M, Mirza N, Rizvi S K A, et al. Asymmetric volatility structure of equity returns: evidence from an emerging market[J]. The Quarterly Review of Economics and Finance, 2023,87: 330-336.
[4]Kehinde T O, Chan F T S, Chung S H. Scientometric review and analysis of recent approaches to stock market forecasting: two decades survey[J]. Expert Systems with Applications, 2023, 213: article ID 119299.
[5]Mintarya L N, Halim J N M, Angie C, et al. Machine learning approaches in stock market prediction: a systematic literature review[J]. Procedia Computer Science, 2023,216: 96-102.
[6]Asgharian H, Christiansen C, Hou A J. The effect of uncertainty on stock market volatility and correlation[J]. Journal of Banking & Finance, 2023, 154: article ID 106929.
[7]Supsermpol P, Thajchayapong S, Chiadamrong N. Predicting financial performance for listed companies in Thailand during the transition period: a class-based approach using logistic regression and random forest algorithm[J]. Journal of Open Innovation: Technology, Market, and Complexity, 2023, 9(3): article ID 100130.
[8]Pang Bowen, Wei Wei, Li Xiang, et al. A representation-learning-based approach to predict stock price trend via dynamic spatiotemporal feature embedding[J]. Engineering Applications of Artificial Intelligence, 2023, 126: article ID 106849.
[9]Jiang Junji, Wu Likang, Zhao Hongke, et al. Forecasting movements of stock time series based on hidden state guided deep learning approach[J]. Information Processing & Management, 2023,60(3): article ID 103328.
[10]Peng Yaohao, Albuquerque P, Kimura H, et al. Feature selection and deep neural networks for stock price direction forecasting using technical analysis indicators[J]. Machine Learning with Applications, 202zcbuDBFRWNn0R6ClK1hA0w==1, 2021(5): article ID 100060.
[11]Stein T. Forecasting the equity premium with frequency-decomposed technical indicators[J]. International Journal of Forecasting, 2024, 40(1): 6-28.
[12]Yang Shuying, Guo Haiming, Li Junguang. CNN-GRUA-FC stock price forecast model based on multi-factor analysis[J]. Journal of Advanced Computational Intelligence and Intelligent Informa-tics, 2022, 26(4): 600-608.
[13]Zhang Daxing, Cai E. Improving stock price forecasting using a large volume of news headline text[J]. Computers, Materials & Con-tinua, 2021,69(3):3931-3943.
[14]Liu Jiawei, Shi Chuan, Yang Cheng, et al. A survey on heteroge-neous information network based recommender systems: concepts, methods, applications and resources[J]. AI Open, 2022, 3: 40-57.
[15]Kanwal A, Lau M, Sebastian N, et al. BiCuDNNLSTM-1dCNN—a hybrid deep learning-based predictive model for stock price prediction[J]. Expert Systems with Applications, 2022, 202: article ID 117123.
[16]Ma Chenyao, Yan Sheng. Deep learning in the Chinese stock market: the role of technical indicators[J]. Finance Research Letters, 2022, 2022(49): article ID 103025.
[17]Nayak A, Pai M, Pai R. Prediction models for Indian stock market[J]. Procedia Computer Science, 2016, 2016(89): 441-449.
[18]Ji Gang, Yu Jingmin, Hu Kai, et al. An adaptive feature selection schema using improved technical indicators for predicting stock price movements[J]. Expert Systems with Applications, 2022, 200: article ID 116941.
[19]Song Guowei, Zhao Tianlong, Wang Suwei, et al. Stock ranking prediction using a graph aggregation network based on stock price and stock relationship information[J]. Information Sciences, 2023, 643: article ID 119236.
[20]Fang Tong, Lee T H, Su Zhi. Predicting the long-term stock market volatility: a GARCH-MIDAS model with variable selection[J]. Journal of Empirical Finance, 2020,58: 36-49.
[21]Xu Bo, Zhang Dongyu, Zhang Shaowu, et al. Stock market trend prediction using recurrent convolutional neural networks[C]//Proc of the 7th CCF International Conference on Natural Language Processing and Chinese Computing. Berlin: Springer, 2018: 166-177.
[22]Li Xiaodong, Wu Pangjing, Wang Wenpeng. Incorporating stock prices and news sentiments for stock market prediction: a case of Hong Kong[J]. Information Processing & Management, 2020, 57(5): article ID 102212.
[23]Chang Zhihao, Zhang Zuping. Judging stock trends according to the sentiments of stock comments in expert forums[J]. Electronics, 2023, 12(3): 722.
[24]Du Xin, Tanaka-Ishii K. Stock portfolio selection balancing variance and tail risk via stock vector representation acquired from price data and texts[J]. Knowledge-Based Systems, 2022, 249: article ID 108917.
[25]Lin Weichao, Tsai C, Chen H. Factors affecting text mining based stock prediction: text feature representations, machine learning mo-dels, and news platforms[J]. Applied Soft Computing, 2022, 130: article ID 109673.
[26]Feng Fuli, He Xiangnan, Wang Xiang, et al. Temporal relational ranking for stock prediction[J]. ACM Trans on Information Systems, 2019, 37(2): 1-30.
[27]Kim R, So H, Jeong M, et al. Hats: a hierarchical graph attention network for stock movement prediction[EB/OL]. (2019-08-07)[2019-11-12]. https://arxiv.org/pdf/1908.07999.pdf.
[28]Ma Xiang, Zhao Tianlong, Guo Qiang, et al. Fuzzy hypergraph network for recommending top-K profitable stocks[J]. Information Sciences, 2022, 613(31): 239-255.
[29]Chen Wei, Hou Xiaoli, Jiang M, et al. Identifying systemically important financial institutions in complex network: a case study of Chinese stock market[J]. Emerging Markets Review, 2022, 50: article ID 100836.
[30]程海陽, 張建新, 孫啟森,等. 基于深度跨模態(tài)信息融合網(wǎng)絡(luò)的股票走勢預(yù)測[J]. 計(jì)算機(jī)科學(xué), 2023,50(5): 128-136. (Cheng Haiyang, Zhang Jianxin, Sun Qisen, et al. Deep cross-model information fusion network for stock trend prediction[J]. Computer Science, 2023, 50(5): 128-136.)
[31]Li Weimin, Liu Lu, Kevin W, et al. Preface of special issue on heterogeneous information network embedding and applications[J]. Future Generation Computer Systems, 2024, 152: 331-332.
[32]Moskowitz J, Ooi H, Pedersen H. Time series momentum[J]. Journal of financial economics, 2012, 104(2): 228-250.
[33]Feng Fuli, Chen Huimin, He Xiangnan, et al. Enhancing stock movement prediction with adversarial training[C]//Proc of the 28th International Joint Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press, 2018: 5843-5849.
[34]周帆, 陳曉蝶, 鐘婷,等. 面向金融科技的深度學(xué)習(xí)技術(shù)綜述[J]. 計(jì)算機(jī)科學(xué), 2022, 49(S2): 20-36. (Zhou Fan, Chen Xiaodie, Zhong Ting, et al. Survey of deep learning technologies for financial technology[J]. Computer Science, 2022, 49(S2): 20-36.)
[35]何泳, 李環(huán). 改進(jìn)的NSGA-Ⅲ-XGBoost算法在股票預(yù)測中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2023, 59(18): 293-300. (He Yong, Li Huan. Application of improved NSGA-Ⅲ-XGBoost algorithm in stock forecasting[J]. Computer Engineering and Applications, 2023, 59(18): 293-300.)
[36]Nelson D, Pereira A, Oliveira R. Stock market’s price movement prediction with LSTM neural networks[C]//Proc of International Joint Conference on Neural Networks. Piscataway,NJ:IEEE Press, 2017: 1419-1426.
[37]Gao Ya, Wang Rong, Zhou Enmin. Stock prediction based on optimized LSTM and GRU models[J]. Scientific Programming, 2021(4): article ID 4055281.
[38]Teng Xiao, Zhang Xiang, Luo Zhigang. Multi-scale local cues and hierarchical attention-based LSTM for stock price trend prediction[J]. Neurocomputing, 2022, 505: 92-100.
[39]Chen Yingmei, Wei Zhongyu, Huang Xuanjing. Incorporating corporation relationship via graph convolutional neural networks for stock price prediction[C]//Proc of the 27th ACM International Conference on Information and Knowledge Management. New York: ACM Press, 2018: 1655-1658.
[40]Sawhney R, Agarwal S, Wadhwa A, et al. Spatiotemporal hypergraph convolution network for stock movement forecasting[C]//Proc of IEEE International Conference on Data Mining. Piscataway,NJ:IEEE Press, 2020: 482-491.