常韜
摘 要 進(jìn)入21世紀(jì)以來,人工智能在工業(yè)、金融、生物醫(yī)藥、科技研究等領(lǐng)域的應(yīng)用越來越廣泛和深入,特別在證券投資交易中獲得了重大進(jìn)步。目前證券分析師和交易員都難以預(yù)測(cè)證券的行情趨勢(shì),而且容易受到情緒影響,越來越多的公司開始使用人工智能來幫助投資決策。本文基于人工智能技術(shù)在國內(nèi)外證券投資領(lǐng)域的應(yīng)用狀況,分析了人工智能在預(yù)測(cè)證券價(jià)格變化方面的理論基礎(chǔ)和技術(shù)優(yōu)勢(shì),提出了使用強(qiáng)化學(xué)習(xí)和智能體來預(yù)測(cè)證券市場的價(jià)格趨勢(shì),得出了強(qiáng)化學(xué)習(xí)在預(yù)測(cè)證券價(jià)格方面優(yōu)于傳統(tǒng)方法的結(jié)論;同時(shí)討論了人工智能交易系統(tǒng)的風(fēng)險(xiǎn)和應(yīng)對(duì)策略;最后對(duì)人工智能交易系統(tǒng)的研究給出了建議。
關(guān)鍵詞 人工智能 強(qiáng)化學(xué)習(xí) 神經(jīng)網(wǎng)絡(luò) 自動(dòng)交易 證券投資
中圖分類號(hào):TP18;F830 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-0745(2021)09-0037-03
1 前言
近年來計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)快速發(fā)展,深刻地影響和改變了人類社會(huì)生產(chǎn)和生活的各個(gè)方面。人工智能是計(jì)算機(jī)領(lǐng)域的技術(shù)至高點(diǎn),很早以前人類就夢(mèng)想著有一天可以制造出能模擬甚至超過人類大腦的機(jī)器,來幫助人類解決遇到的難題,無數(shù)科學(xué)家和工程師為了這個(gè)目標(biāo)而不懈努力,隨著機(jī)器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,這個(gè)目標(biāo)已經(jīng)初步實(shí)現(xiàn),特別在證券投資領(lǐng)域已經(jīng)開始了越來越廣泛的應(yīng)用。人工智能是基于現(xiàn)代計(jì)算機(jī)系統(tǒng)硬件和軟件模擬人的認(rèn)知和推理機(jī)制,利用數(shù)學(xué)理論和方法獲取外界信息,對(duì)信息進(jìn)行自主處理和決策并輸出問題答案的技術(shù)。人工智能綜合了計(jì)算機(jī)科學(xué)、應(yīng)用數(shù)學(xué)、哲學(xué)和生物學(xué),是人類工業(yè)文明和科技工程文明發(fā)展過程中為解決復(fù)雜問題而發(fā)展出來的技術(shù)結(jié)晶。證券市場具有影響因素多、數(shù)據(jù)變化迅速、信息不完全等特點(diǎn),傳統(tǒng)的技術(shù)指標(biāo)和數(shù)據(jù)分析難以預(yù)測(cè)價(jià)格變化。而人工智能技術(shù)中的深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)能夠?qū)?fù)雜無規(guī)律數(shù)據(jù)進(jìn)行自動(dòng)學(xué)習(xí)和自適應(yīng)優(yōu)化。早在上世紀(jì)80年代美林證券就開始研究量化交易,2014年創(chuàng)立的人工智能分析處理引擎Kensho開始逐步取代金融分析師,標(biāo)志著人工智能具備分析預(yù)測(cè)證券市場的能力。
2 人工智能交易系統(tǒng)的優(yōu)點(diǎn)與強(qiáng)化學(xué)習(xí)的運(yùn)用
人工智能交易系統(tǒng)的主要功能是利用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等計(jì)算機(jī)技術(shù)對(duì)大量的歷史交易數(shù)據(jù)進(jìn)行訓(xùn)練建模,通過特定算法發(fā)現(xiàn)隱藏的知識(shí)和規(guī)律,得到一個(gè)能在一定程度上預(yù)測(cè)未來交易行情的模型。人工智能技術(shù)主要包括神經(jīng)網(wǎng)絡(luò)、遺傳算法、模糊算法等。人工智能交易系統(tǒng)能夠自動(dòng)對(duì)資金在各個(gè)股票上進(jìn)行分配,控制風(fēng)險(xiǎn)和收益,由于投資證券的目標(biāo)中既要獲取最大收益又要盡量減少風(fēng)險(xiǎn),而收益與風(fēng)險(xiǎn)是一個(gè)相互矛盾的關(guān)系,為了在能承受的風(fēng)險(xiǎn)下獲取最大收益,可以使用夏普公式來描述:
其中Rp表示投資組合的預(yù)期年化收益率,Rf表示年化無風(fēng)險(xiǎn)利率,σp表示投資組合年化收益率的標(biāo)準(zhǔn)差。夏普比率沒有區(qū)分波動(dòng)的好壞,索提諾比率在夏普比率的基礎(chǔ)上做了改進(jìn),在計(jì)算波動(dòng)率時(shí)采用下行的標(biāo)準(zhǔn)差,因?yàn)樯蠞q的波動(dòng)不是風(fēng)險(xiǎn)。索提諾比率公式如下:
其中Rp表示投資組合的預(yù)期年化收益率,Rf表示年化無風(fēng)險(xiǎn)利率,σt表示投資組合年化收益率下跌的標(biāo)準(zhǔn)差。
2.1 人工智能交易系統(tǒng)的優(yōu)勢(shì)
最近10多年來中國股市經(jīng)歷多次起伏,跌多漲少,據(jù)媒體統(tǒng)計(jì)90%的散戶虧損,能贏利的少之又少。因?yàn)槿巳菀资艿角榫w的影響,患得患失,追漲殺跌,不但無法制定良好的策略而且很難嚴(yán)格執(zhí)行自己的交易策略,因此非常需要一種執(zhí)行力強(qiáng)的機(jī)器智能來幫助設(shè)計(jì)和執(zhí)行交易策略。隨著人工智能技術(shù)的快速發(fā)展,2016年3月谷歌阿爾法狗以4:1的比分戰(zhàn)勝圍棋大師李世石,加速了人工智能技術(shù)在各行各業(yè)的應(yīng)用和推廣[1]。目前人工智能已經(jīng)廣泛應(yīng)用于美國華爾街,2016年高盛已經(jīng)把600多個(gè)交易員減少到個(gè)位數(shù),這充分說明人工智能開始主導(dǎo)證券交易。
人工智能顛覆了傳統(tǒng)的交易模式,完全自動(dòng)化的選股,根據(jù)自主交易策略,全自動(dòng)交易,當(dāng)符合入場條件時(shí)自動(dòng)買入,當(dāng)股票價(jià)格高估時(shí)自動(dòng)賣出,自動(dòng)實(shí)現(xiàn)止盈止損和倉位管理,還能利用各種技術(shù)指標(biāo)和參數(shù)進(jìn)行自動(dòng)分析和決策,能夠以毫秒的時(shí)間間隔進(jìn)行高頻交易。人工智能系統(tǒng)能夠從歷史交易數(shù)據(jù)中進(jìn)行自主學(xué)習(xí),利用學(xué)會(huì)的知識(shí)和數(shù)學(xué)理論對(duì)證券投資過程中的信息不完全問題進(jìn)行判斷決策,得出風(fēng)險(xiǎn)可控前提下收益最大的證券投資組合,并且在交易過程實(shí)踐中不斷的學(xué)習(xí)和試錯(cuò),修改系統(tǒng)本身的參數(shù)和權(quán)重,達(dá)到交易系統(tǒng)神經(jīng)網(wǎng)絡(luò)的最優(yōu)化狀態(tài)。Abe使用從1990年到2016年的MSCI指數(shù)中的319只成分股的月度數(shù)據(jù),分別使用深度神經(jīng)網(wǎng)絡(luò),隨機(jī)森林和支持向量機(jī)預(yù)測(cè)下一個(gè)月的收益率,結(jié)果表明深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)準(zhǔn)確率最高[2]。人工智能神經(jīng)網(wǎng)絡(luò)還能夠?qū)ψC券類型進(jìn)行自主聚類和證券特征的抽取,通過隨機(jī)搜索算法像生物進(jìn)化一樣尋找出最適應(yīng)當(dāng)前證券市場的決策算法,這樣就避免了傳統(tǒng)數(shù)值算法包括牛頓法和共扼算法容易導(dǎo)致的局部最優(yōu)的問題。
2.2 人工智能交易系統(tǒng)依賴的證券理論
1952年,馬科維茨首次提出了馬科維茨理論,在給定風(fēng)險(xiǎn)條件下,通過不同比例分配資金投資多種證券得到最大可能收益的投資方法。從20世紀(jì)30年代以來,金融數(shù)學(xué)得到不斷的發(fā)展,數(shù)學(xué)家們不斷研究尋找各種證券資產(chǎn)的定價(jià)模型,其中比較著名的有布萊克-斯科爾斯期權(quán)定價(jià)公式,該方法已經(jīng)成為金融機(jī)構(gòu)設(shè)計(jì)新的金融產(chǎn)品的重要研究方法。斯蒂芬羅斯的套利理論和美國學(xué)者威廉夏普的資本資產(chǎn)定價(jià)理論也為人工智能交易系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。愛德華索普出版的《戰(zhàn)勝市場》,標(biāo)志著量化交易的開始,利用計(jì)算機(jī)算法和程序從證券市場的歷史記錄中尋找能得到最大收益的多種大概率技術(shù)指標(biāo),減少人類情緒和貪念帶來的影響,從而發(fā)揮計(jì)算機(jī)程序算法的優(yōu)勢(shì)作出最理性的決策。人工智能交易技術(shù)就是在量化交易的基礎(chǔ)上結(jié)合最新的計(jì)算機(jī)深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展而來的。
人工智能是否能夠在一定程序上預(yù)測(cè)證券市場的價(jià)格變化,需要對(duì)證券價(jià)格變化理論進(jìn)行研究。目前關(guān)于證券交易市場漲跌原理的主要理論有以下幾種:隨機(jī)漫步理論,現(xiàn)代資產(chǎn)組合理論,有效市場假說,行為金融學(xué)理論。
以上4個(gè)證券交易市場漲跌理論都從各自的立場對(duì)市場價(jià)格變化作出了一定程序的解釋,但都存在比較明顯的缺陷,無法完全解釋真實(shí)世界的證券價(jià)格變化原因。于是學(xué)者安德魯(Andrew Lo)提出了適應(yīng)性市場假說(adaptive markets hypothesis簡稱AMH),試圖協(xié)調(diào)有效市場假說和行為經(jīng)濟(jì)學(xué)之間的矛盾,比以往理論能更好地解釋市場價(jià)格變化;該理論首次將生物進(jìn)化原理應(yīng)用到證券市場,認(rèn)為市場中的每個(gè)個(gè)體和組織基于贏利進(jìn)行決策,個(gè)體既會(huì)學(xué)習(xí)和適應(yīng)環(huán)境,同時(shí)也會(huì)出錯(cuò),市場中存在競爭,競爭導(dǎo)致適應(yīng)市場變化的個(gè)體能夠生存和發(fā)展,而不能適應(yīng)市場環(huán)境,虧損的個(gè)體被逐漸淘汰,形成一種個(gè)體不斷適應(yīng)市場環(huán)境的動(dòng)態(tài)變化過程。適應(yīng)性市場假說理論比以往理論更好地解釋了證券市場價(jià)格變化的原因,也為把人工智能技術(shù)應(yīng)用到證券投資領(lǐng)域提供了一定的理論依據(jù)。
2.3 強(qiáng)化學(xué)習(xí)與智能體
根據(jù)AMH理論,證券市場中的個(gè)人投資者、基金、機(jī)構(gòu)投資者、投資公司都是以贏利作為唯一目標(biāo),在市場中尋找投資機(jī)會(huì),這些參與者的理性是有限的,有時(shí)會(huì)出現(xiàn)錯(cuò)誤,同時(shí)又在不斷地學(xué)習(xí)和適應(yīng)市場的變化,通過對(duì)市場環(huán)境的感知作出買賣或觀望的決策,市場會(huì)給予判斷正確的參與者一定的獎(jiǎng)勵(lì)(Reward),同時(shí)通過虧損來懲罰判斷錯(cuò)誤的參與者,從而影響市場價(jià)格的不斷變化。通過上述分析很容易聯(lián)想到使用人工智能中的強(qiáng)化學(xué)習(xí)來模擬市場中的參與者的適應(yīng)過程。強(qiáng)化學(xué)習(xí)的原理是:如果智能體(Agent)的一個(gè)行為導(dǎo)致環(huán)境的獎(jiǎng)勵(lì),隨后智能體產(chǎn)生這個(gè)行為的趨勢(shì)就會(huì)增加;相反如果智能體的一個(gè)行為沒有獎(jiǎng)勵(lì)或者受到懲罰,那么產(chǎn)生這個(gè)行為的趨勢(shì)就會(huì)減少;智能體能夠合作和競爭學(xué)習(xí)[3];強(qiáng)化學(xué)習(xí)就的目標(biāo)是學(xué)習(xí)到一個(gè)能夠得到環(huán)境最大獎(jiǎng)勵(lì)的行為策略。
橋水基金創(chuàng)始人在《原則》中提出“投資是一個(gè)不斷反復(fù)的過程,下注有時(shí)會(huì)失敗,學(xué)習(xí)新知識(shí)并重新嘗試,在這個(gè)過程中可以通過反復(fù)試驗(yàn)來改進(jìn)自己的決策”。這種方法非常適合使用人工智能的強(qiáng)化學(xué)習(xí)來模擬。證券市場本質(zhì)上是一個(gè)通過連續(xù)決策尋找贏利的過程,交易策略可以抽象成一個(gè)強(qiáng)化學(xué)習(xí)中的智能體,智能體可以根據(jù)當(dāng)前證券市場的信息和狀態(tài),生成一個(gè)交易的指令,然后發(fā)送到執(zhí)行程序進(jìn)行執(zhí)行操作,經(jīng)過一段時(shí)間后,系統(tǒng)會(huì)根據(jù)當(dāng)前的市場價(jià)格計(jì)算每個(gè)交易的贏虧,從而生成一個(gè)獎(jiǎng)勵(lì)或懲罰值。智能體會(huì)根據(jù)每個(gè)策略得到的獎(jiǎng)勵(lì)值調(diào)整自身的行為,以使自身獲得更多的獎(jiǎng)勵(lì)值。由于智能體決策包含選擇什么證券,何時(shí)買賣以及使用多少金額,這些變量的組合會(huì)非常巨大,因此需要生成多個(gè)智能體并進(jìn)行訓(xùn)練,一般當(dāng)訓(xùn)練超過百萬次時(shí),智能體達(dá)到相對(duì)穩(wěn)定的狀態(tài),經(jīng)常虧損的智能體將被淘汰,經(jīng)常贏利的智能體已經(jīng)學(xué)會(huì)了如何適應(yīng)市場并做出正確的交易策略。這個(gè)贏利最多、生存最久的智能體就是人功智能交易系統(tǒng)所需要的智能體,但是市場是瞬息萬變的,當(dāng)前的最優(yōu)策略,并不代表未來的最優(yōu)策略,所以穩(wěn)定的智能體仍然需要不斷地學(xué)習(xí)和適應(yīng)動(dòng)態(tài)的證券市場。
2.4 強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)
如何設(shè)計(jì)一個(gè)合適的獎(jiǎng)勵(lì)函數(shù)是增加智能體決策能力的關(guān)鍵,獎(jiǎng)勵(lì)函數(shù)實(shí)質(zhì)上就是一個(gè)目標(biāo)函數(shù),智能體使用獎(jiǎng)勵(lì)函數(shù)來判斷自己是否正在向正確的方向進(jìn)化。有兩種設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的方法:第一種是監(jiān)督式的學(xué)習(xí),對(duì)智能體的買入價(jià)格、倉位控制、賣出價(jià)格等進(jìn)行打分,表現(xiàn)好的打高分,表現(xiàn)不好的打低分。理論上可以監(jiān)視訓(xùn)練過程,為每一個(gè)操作打分進(jìn)行獎(jiǎng)勵(lì),但是這種方法工作量極大,無法大規(guī)模使用,而且人類也難以判斷影響證券市場的因素;第二種方法是強(qiáng)化學(xué)習(xí),能夠自動(dòng)嘗試各種操作,不斷調(diào)整參數(shù),進(jìn)行數(shù)百萬次的迭代,以找到獲得最大獎(jiǎng)勵(lì)逼近目標(biāo)的最有效方法。Moody提出的RRL算法就是一種在線的強(qiáng)化學(xué)習(xí)模式,能夠找到隨機(jī)動(dòng)態(tài)規(guī)劃問題的近似解[4]。RRL算法的預(yù)測(cè)模型公式如下:
其中Ft代表在t時(shí)刻的操作(買或賣),向量w是神經(jīng)網(wǎng)絡(luò)的權(quán)重,變量v是閾值,rt代表收益率,rt=ln(pt)-ln(pt-1),用對(duì)數(shù)收益率比價(jià)格差值更能體現(xiàn)變動(dòng)。此預(yù)測(cè)模型在預(yù)測(cè)證券市場的價(jià)格變化方面優(yōu)于以往的模型。
3 人工智能交易系統(tǒng)的組成與應(yīng)用安全
3.1 人工智能交易系統(tǒng)組成結(jié)構(gòu)
在實(shí)際運(yùn)用中人工智能交易系統(tǒng)一般包括以下幾個(gè)部分,用戶需求接口模塊,證券市場綜合信息處理模塊,交易執(zhí)行模塊,投資結(jié)果分析和報(bào)表模塊,和最重要的交易決策模塊。國外的研究表明,人工智能交易系統(tǒng)在預(yù)測(cè)股票市場價(jià)格的變化趨勢(shì)方面已經(jīng)超過了普通的證券分析師,華爾街的許多投行已經(jīng)大規(guī)模運(yùn)用人工智能系統(tǒng)進(jìn)行證券投資,取得了非常不錯(cuò)的成績。
3.2 人工智能交易系統(tǒng)的安全性
為了加強(qiáng)人工智能交易系統(tǒng)的安全性和可靠性,防止資金和機(jī)密數(shù)據(jù)被黑客篡改,可以使用目前最安全可靠的區(qū)塊鏈技術(shù),充分利用區(qū)塊鏈分布式系統(tǒng)的安全性和不可篡改性,把交易數(shù)據(jù)和重要信息存入?yún)^(qū)塊鏈系統(tǒng)中,通過各個(gè)節(jié)點(diǎn)運(yùn)行的一套公開透明的區(qū)塊鏈算法來保障存入數(shù)據(jù)的安全,使得證券交易網(wǎng)絡(luò)中各個(gè)參與實(shí)體能夠相互信任,對(duì)所發(fā)出和接收的信息無法否認(rèn)和修改,任何單個(gè)節(jié)點(diǎn)企圖對(duì)數(shù)據(jù)的修改都是無效的,從而完全保障人工智能交易系統(tǒng)的數(shù)據(jù)安全性,為人工智能自主決策和交易提供信息安全上的保障。
為了保證人工智能交易系統(tǒng)的安全性,防止非授權(quán)的修改和數(shù)據(jù)泄露,企業(yè)級(jí)的人工智能交易系統(tǒng)必須符合3A的安全性標(biāo)準(zhǔn),包括授權(quán)(Uthorization),驗(yàn)證(Authentieation)和審核(Auditing)。任何用戶要想進(jìn)入人工智能交易系統(tǒng),必須經(jīng)過嚴(yán)格注冊(cè)許可的用戶名和密碼,密碼必須保證一定的長度和復(fù)雜性,同時(shí)定期強(qiáng)制更新,防止被破解和撞庫攻擊;同時(shí)設(shè)置一個(gè)每天最大的登錄失敗次數(shù);用戶登錄后還只能有普通的查詢和訪問權(quán)限,如果要訪問機(jī)密信息和對(duì)系統(tǒng)進(jìn)行修改,必須要有管理員的授權(quán)和認(rèn)可,并實(shí)施最小化授權(quán)策略,保障交易系統(tǒng)的安全性;為了更好地保護(hù)人工智能交易,每隔一段時(shí)間還需要通過不可刪除的用戶操作日志對(duì)所有的用戶操作和行為進(jìn)行審計(jì),這樣可以發(fā)現(xiàn)非法訪問和修改的行為,同時(shí)能夠阻止任何潛在的非法企圖,最大限度地保護(hù)人工智能交易系統(tǒng)的數(shù)據(jù)安全和資金安全。
3.3 人工智能交易系統(tǒng)的風(fēng)險(xiǎn)和應(yīng)對(duì)
霍金認(rèn)為發(fā)明人工智能是人類歷史上最好的事情,也可能是最壞的事情。人工智能的關(guān)鍵技術(shù)人工神經(jīng)網(wǎng)絡(luò)幾乎可以模擬任意函數(shù),在不知道未知變量之間依賴關(guān)系的情況下抓取變量之間的非線性關(guān)系得到一個(gè)近似函數(shù)。但是計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò)的處理過程是一個(gè)黑箱,難以對(duì)計(jì)算結(jié)果進(jìn)行解釋和判斷,有可能得到一個(gè)出乎意料的結(jié)果;另外神經(jīng)網(wǎng)絡(luò)往往針對(duì)某一種具體環(huán)境條件進(jìn)行優(yōu)化和適應(yīng),一旦環(huán)境條件發(fā)生大的變化,以往的算法就容易失效,因此人工智能并非完全可靠。人工智能系統(tǒng)如果達(dá)到一定的智能,有可能偏離人類管理者對(duì)于系統(tǒng)的目標(biāo)和期望,由于人工智能交易系統(tǒng)超高速的交易能力,一旦掌握巨量資金的多個(gè)人工智能實(shí)體,為了追求最大收益進(jìn)行零和博弈,可能出現(xiàn)交易規(guī)模越來越大,交易速度越來越快的現(xiàn)象,引起證券市場劇烈震蕩,甚至可能導(dǎo)致交易市場崩潰。任何人工智能系統(tǒng)都不可能是完美的,必然存在其失效的情況和條件;因此為了防止人工智能交易系統(tǒng)的失效可能,必須在極端情況下能夠允許人類管理員接管并獲得系統(tǒng)控制權(quán),也就是說要保證人類管理者有能力和責(zé)任在人工智能交易系統(tǒng)出錯(cuò)時(shí)關(guān)閉系統(tǒng)并接管系統(tǒng)。
4 結(jié)論與建議
本文回顧了人工智能技術(shù)的發(fā)展現(xiàn)狀和應(yīng)用情況,分析了適應(yīng)性市場假說理論解釋強(qiáng)化學(xué)習(xí)智能體對(duì)證券市場價(jià)格變化的預(yù)測(cè)原理,得出了神經(jīng)網(wǎng)絡(luò)和強(qiáng)化學(xué)習(xí)在證券市場價(jià)格預(yù)測(cè)領(lǐng)域比以往的傳統(tǒng)方法有明顯優(yōu)勢(shì)的結(jié)論,提出可以通過3A安全性標(biāo)準(zhǔn)來保障人工智能交易系統(tǒng)的安全性,同時(shí)提出了為避免災(zāi)難當(dāng)系統(tǒng)失效時(shí)允許人工接管的應(yīng)對(duì)方法。
人工智能技術(shù)在證券投資中將會(huì)有更廣泛和深入的應(yīng)用,目前的技術(shù)仍然還有很大的提升空間,未來需要對(duì)神經(jīng)網(wǎng)絡(luò)的模型算法作持續(xù)的改進(jìn)以提高強(qiáng)化學(xué)習(xí)在證券價(jià)格方面的預(yù)測(cè)能力,同時(shí)必須注重增強(qiáng)人工智能交易系統(tǒng)的安全性和風(fēng)險(xiǎn)控制能力。
參考文獻(xiàn):
[1] 薛永紅,王洪鵬.機(jī)器下棋的歷史與啟示——從“深藍(lán)”到AlphaZero[J].科技導(dǎo)報(bào),2019,577(19):89-98.
[2] Abe M, Nakayama H . Deep Learning for Forecasting Stock Returns in the Cross-Section[C]// Papers. arXiv.org,2018:273-284.
[3] 劉全,翟建偉,章宗長,等.深度強(qiáng)化學(xué)習(xí)綜述簡[J].計(jì)算機(jī)學(xué)報(bào),2018(01):1-27.
[4] 梁天新,楊小平,王良,等.基于強(qiáng)化學(xué)習(xí)的金融交易系統(tǒng)研究與發(fā)展[J].軟件學(xué)報(bào),2019,30(03):845-864.