AlphaGo 的學習決策模型是否能用於股票市場的交易？

01-02

如果將alphago的深度學習，價值評估，蒙特卡洛運用在量化交易上會怎樣？

當然能。AlphaGo 的深度學習，至少在原理上並不神秘。

類似 CNN、MCTS 這樣的演算法，連我都已經廣泛使用了——

就靠著這些弱智的「人工智慧」，當年管理了數億規模，24小時全球交易。

運氣好的那幾個月，就像見到了印鈔機。

你可以想像一下，每天深情地凝望著它，體會那種數字翻滾的快感。

說起來，這還是我第一次破產以前的事情……

其實我想表達的是：機器學習始終只是工具。

再犀利的模式識別，不過一個分類器。

而你可能連什麼需要分類，都還沒理解清楚。

我們曾經搭好了一個 MPI 並行系統，然後開始思考：還有什麼可以扔進去算的？

在金融市場上，機器比起人類的優勢，大概有以下幾點：

1）紀律性：不受體力和情緒的影響；

2）執行速度快：常用於高頻/演算法交易，瞬時套利，以及資訊的快速解讀等；

3）運算能力強：比如秒刷數十年的歷史數據，類似於 alphago 每天學習上百萬棋局。

話說回來，無論怎麼人工智慧，大多數 quant 畢生追求的，無非 alpha 而已。

所以說「阿爾法狗」這個名字，還是十分貼切的。

之前寫的匆匆忙忙，再看有很多書寫錯誤，重新編輯一下

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

瀉藥~

這段時間被阿法狗深深得震撼了，在我還從事人工智慧相關研究的時候，還只有機器學習。當深度學習剛剛出現的時候，我還以為只是神經網路疊加而來的又一個名詞噱頭。現在感覺自己迅速落伍，深度學習確實是人工智慧領域的一個極大的突破。之前在使用神經網路和機器學習對付一些「前」人工智慧問題的時候，還需要絞盡腦汁自己去尋找好的feature，現在看來確實已經成為上個時代的人工智慧了。

阿法狗很成功，把小李子虐殘了，但是我認為阿法狗只是工程上的一個突破，在深度學習的理論與工程上找到了解決圍棋問題很好的契合點，驗證了深度學習的強大。而深度學習想要在金融市場交易中獲得同樣的成功，還有非常長遠的路要走。

其一，圍棋是一個封閉系統，是一個完全信息系統，無論是現在的深度學習還是以前的機器學習，都依賴於龐大的樣本訓練，訓練完成之後的樣本外輸入，其本質和可能性要與訓練樣本相同。例如圍棋只能你一步我一步在固定區域內下，所有的規則都是實現就已經約定好的。而金融市場並不是完全信息系統，這一點在很多人的回答中也都提到。也就是很多新的情況，是系統不可預估的，並不是在歷史中存在的，在這種情況下，之前的訓練會失效。做過自動程序化交易的人都知道，如果自己不清楚策略為什麼賺錢，不清楚背後的理論是什麼，是不敢放任其自動交易的。就算深度學習系統經過了長期驗證，也不能保證某些黑天鵝來臨的時候，它能正確的應付，這個幾乎是無法證明的。或許賺了幾年但是幾分鐘就全虧回去了。比如今天第四場小李子終於贏了一局。在下棋中出現bug輸一局無所謂，在交易中出低級bug可能就再也無力翻身了。

其二，阿法狗的paper中提到，人類現有的棋譜在訓練中只佔到了很小的一部分。他們發現如果只用人類現有的棋譜，阿法狗很快會陷入過度優化。因此對於阿法狗的訓練，自己和自己下棋才是訓練集的大部分。這也是為什麼在盤中總是出現一些人類無法理解的下發，認為是阿法狗的失誤。其實阿法狗算得很清楚，因為人類在於圍棋的各種可能性走法其實還只探索了一部分。對應到金融市場，所有的行情、新聞、財報等等，對於這樣一個複雜系統來說，數據量遠遠不夠。但是系統不可能像圍棋那樣自己模擬出行情、新聞和財報等信息。因為圍棋的走法有規矩，而行情並不是隨機生成的數據序列。因此想要完全使用深度學習預測明天大盤的漲跌是不可能的，因為沒有足夠的訓練樣本。

深度學習可能會在無人車，自主機器人領域帶給人類最大的福利，因為這些訓練都是可以完全充分的。而在金融市場，要把目前的量化交易和人工智慧區分開對待。人工智慧或許可以在一些特定的金融領域有所作為，比如對逐筆交易，掛單信息的大量數據進行建模和分析，預測短期的一個概率。隨著工程能力，計算能力等不斷發展，在未來完全使用深度學習進行金融交易也未嘗不可。

答案是肯定的！

無論是炒股還是下圍棋，本質都是從過去的事實中提煉出規則並應用於未來，如果圍棋可以學習炒股也就可以學習。

列舉一下機器人炒股的好處，不累，不睡覺，迅速做出反應，沒有情緒波動，一個成功的交易員本來就是變的越來越機械的執行規則，機器在這一點上已經達到了頂點。

隨著市場的擴張，交易時間延長，人工交易的性價比會低到不可接受。比如當內盤期貨開始夜盤交易後，一般的散戶交易者已經不可能靠人工交易參與市場了，人不可能不睡覺，偶爾可以，長期是不可行的。帶來的結果就是散戶基金化，把錢給某個基金團隊代炒，散戶機構化，上自動化交易，人停機不停。機器人交易不只是一種趨勢，而是一種必然。

看好深度學習在投機市場上的應用，最強大的AI能通吃市場的那一天也就是市場死亡的那一天，不會在有投機的存在，大家都能老實工作了！

擇時（方向）+選股（變數）+倉位（步長）。蒙特卡洛擇時，神經網路選股，機器學習倉位。

市場是參與全體的預期的匯總

無論是量化交易還是傳統交易，都是構成市場總當量的一份子

沒有誰可以決定市場的方向

作為量化交易在演算法和交易策略，反饋速度上更具備優勢

但缺乏對市場的感受和觸摸

市場是有生命的，這是量化交易永遠也無法企及的高度

或者說在很久遠的時間段。

這問題就跟問畫家是不是用筆一樣。。。不要以為用了畢加索的筆你就成了第二個畢加索。。。

深度學習因為參數眾多, 一直都仰仗大量數據去擬合, AlphaGo自己跟自己下棋, 加入隨機就能產生三千萬盤對局的數據, 金融市場跟經濟哪來這麽多數據? 維數高需要的數據量更大, 得有方法降低數據維數, 且要有辦法把大量權重參數刪掉, 不然都是過擬合

當然可以，但是有局限。

CPU,GPU的單核運算速度遠遠超過腦神經元，但是大腦神經元的連接方式遠遠超過現有的人工智慧。這就決定了計算機人工智慧的計算能力遠超過人類，但是人類的思考複雜問題會遠遠優於計算機。

舉個例子，如果當一些指數，比如macd（個人不是很喜歡這個指數，純舉例）走出一種變化，計算機可以通過大量數據支持，總結出這個走勢後期上漲幾率50%，下跌幾率40%，然後，就可以在大量交易的情況下，通過這10%的概率來獲利。

而人類擅長的是查理芒格所推薦的多元思維模型。就是不管波動，只關心股票本身，並且通過經濟周期，貨幣周期，消費心理，公司高管信息，公司的核心競爭力，近期資金情況，等一系列的信息作為輔助來判斷股票是否值得購買。

所以，我個人不推薦作為人類的散戶們做短線，或者通過預測股價走勢來賺錢。除非你的數學功底不錯，並且還有一個性能不錯的計算機幫忙。

當然，巴菲特不推薦所有人通過預測波動賺錢。

應該可以，我之前在做的一部分研究就是非常受限於計算機運算量的問題，因為經常面對一些組合條件的可能性隨便就超過了天河計算機的運算量。

按照蒙特卡洛搜索樹的原理初步試了一下，覺得有好有壞吧，好處是節約大量運行時間和計算成本，結果也還算理想，壞處就是蒙特卡洛啊，蒙特卡洛跟導致當年長期資本公司破產的正態分布是一家啊，做的再好看都解決不了遺漏小概率事件的可能性，這在風控那裡打死都不會讓你通過的，統計規律總結出來的事情風險完全不可控，接下來有時間可能還要再優化，作為興趣吧。

然而始終擔心小概率事件帶來的風險，估計最多也就是做做Research不會上實盤。

再犀利的模式識別，不過一個分類器。
而你可能連什麼需要分類，都還沒理解清楚。

來自 @王不二的回答，解釋了一切

應該是可以的，但是要有真正的專業選手設計機器學習的過程，另外會取得很穩定的收益，但不會有暴利，也做不到次次賺，因為圍棋本質上還是個線性系統，所有的可能性都是已知的，難度在於如何在有限的計算能力下去運算巨量的演算法，其本身是個如何優化計算的過程，而金融市場的價格波動是混沌的，非線性的，其所有可能性是無限的，這和下圍棋還是有本質區別

人機大戰前兩盤結束總比分1:1 這些年，自己都在學巴塞羅那的TIKITAKA的打發。跟電腦+自己AI打了四年。一共有5000場左右，但是自從自己開發出油炸丸子後，計算機學習進步非常明顯。現在計算機的踢法像巴西，沒錯就是巴西。而我像tiki-taka。這兩局AI表現，本人已經拿出全部實力，我的等級分如果是2900,深度學習四年AI大約在2850-2950.

一、護球已經是頂尖職業選手，磁鐵防守對它基本失效。二、機會把握能力基本成神，可以用最快的辦法打出最好的射門。已經超越人類。（第二盤）
三、 AI創新學習了一種新型無慣性過人並且連續通過梯度回歸演算法連續使用，第二盤人機大戰本人吃盡苦頭。本人兩次被它連續過掉三人（含守門員）（第二盤）
四、它已經形成了自己的風格：有點像巴西隊。計算機目前認為巴西隊的風格好。
五、終於看見計算機果斷選擇強行內切射門了！（第二盤首次出現）
六、 AI控制的AC米蘭後防線，呈現非常好的三角站位，首次看見這種站位的效果。每次強突的時候，感覺就是一道牆壁。
七、機會遠多於自己，戰術來講，AI有點像穆里尼奧在指揮。第一盤我用過伊涅斯塔打邊後衛和邊鋒的調整，4-3-3 一度變回4-5-1 後又變回 4-3-3。但是效果不明顯，自己在戰術方面顯得不如AI。
目前總比分：1:1 AI贏得第二局；本人贏得第一局。

http://v.youku.com/v_show/id_XMTYxODI4Nzc5Mg==.html
自己四年前做的深度學習目前已經可以挑戰人類頂尖玩家

深深的恐懼，尤其是很擔心DEEPMIND這種團隊進行交易市場統計套利的轉型，我在實時看了第二盤阿爾法狗執黑37肩沖以後就深深的知道，李世石跪了，因為這步棋完全就是大格局大布局的定勢一步（雖然很多聲音對這步棋的理解是事後復盤才說是好手，如果從外行的角度說，阿爾法狗在兩局中展現的看起來是夯實連連看流，但是請特別注意，阿爾法狗的落子組合完全是均衡分布，子與子間都是235間隔的合理分布，大布局中，都是廣撒網，四處搭，這是降龍十八掌啊，我們看起來人家是土包子蛤蟆功。

說回到如果阿爾法狗的思路做量化行不行，答案是非常行，因為以價格高低剪刀差為交易唯一目標的獲利方式就跟圍棋的獲勝原理是一樣的，只要有盈利，交易形成利潤差額，阿爾法狗這種自我學習系統就能不斷的數據化訓練與決策，統計套利有各種各樣的空間與你賣我買的方式，鎖定盈利價差，進行多市場多產品數據對比獵取，判定相對風險與波動下的風險收益，自我學習的結果就是數據分析-決策判斷-交易執行-利潤獲取，周而復始，我很恐懼我很害怕，沒有壁壘保護的話，未來的金融市場會被這種深度學習的智能系統徹底搞亂。

瀉藥，我門可以從另外一個角度來驗證這個問題！

假設可以代替人類，那麼將會出現什麼？

某一天，一台名叫貝塔狗的人工智慧機器人成功在股票系統裡面實現穩定盈利並超過人類第一投資手，尼古拉斯-封封！資本是逐利的，大量的資金湧入人工智慧系統去開發自己股票投資智能機器人，純手工投資人慘遭滅絕，股票交易市場進去機器人時代，各大公司努力研發自己的機器人！那麼問題來了，既然全是機器人呢！那麼誰賺了，假設大家用的同一個演算法，那麼價格將極少波動，假設演算法不同，那麼市場就會重新進入一個演算法博弈的過程，而設計演算法的，依舊是人，結果還是回到了人類之間的博弈！後面大家突然發現機器人的收益率被尼古拉斯-封封反超了，他竟然在和人工智慧博弈時，重倉無條件買入人工智慧的股票，而機器人在此時執行的卻是賣出操作，尼古拉斯-封封重倉買套的股票由於機器人的勝利，引來了人們的瘋狂，人工智慧的股票大漲，最終尼古拉斯封封，成功大量盈利！

綜上：1:資本是逐利的，你所製造出來的機器人除非有其他人無法複製的能力，你才可以穩定盈利！

2:人性是最不可揣度的，人類的瘋狂和恐懼有時候根本沒有邏輯，機器人有耐心，但是機器人的投資者沒有！

目前還不能，股票市場屬於非完全信息博弈。

在被問到其他遊戲用程序演算法破解時，DeepMind聯合創始人哈薩比斯這麼說：

AlphaGo開發者：人工智慧將如何塑造未來

「我認為圍棋是完全信息博弈的巔峰……此外，其他的遊戲——像無限押注的德州撲克就非常困難。多人比賽會有其他的挑戰，因為它是一個不完全信息博弈。」

當然你可以開發各種各樣的阿爾法雞、阿爾法豬、阿爾法中華田園犬系統做交易，這些系統不行，還有阿爾法佔星八卦系統。開發系統是一回事，能否奏效是另一回事。

順便打聽下，去年A股大跌時，哪些程序化交易系統盈利了？

目前實際意義上的神經網路，AlphaGo本質上是在一個存在未來函數勝率反饋同時時序對應對手行為(回合制)的策略條件下統計所有可能環境下的策略優劣度並相關自身與對手策略的相對決定性選出最優解。細節上會分解策略的步驟並量化策略的關聯性的對應效用(也就是通過蒙特卡洛樹搜索擬合局面評估函數和策略函數、以及機器學習RL形成對數策略)。這個統計歸納成一個庫再通過一個對數據演算法輸出出來。

細節見Nature的論文：http://www.nature.com/nature/journal/v529/n7587/full/nature16961.html

AlphaGo其數據本身就是演算法。那我們下面就討論以神經網路的學習演算法形成交易策略的可行性。

AlphaGo對於圍棋與股票市場的差異主要體現四方面：

一、信息生成機制不同，股票市場中的動因條件是多層次且混沌的。圍棋的相互決定性只對於對手，而股票的相互決定性對於所有市場參與對象

二、對手與對手反饋機制不同，圍棋是回合制完全信息非合作動態博弈，而股票市場是一對多完全信息非合作靜態博弈

三、優劣度評估與局面評估函數的性質類似但方向不同，股票的最終評估對象是收益，而圍棋評估是勝率。且股票的局面有兩個層次，一是個股篩選，二是持倉後策略。兩者組合，就是在市場中不斷交換個股的最高勝率條件的持倉。如果將優劣評估設成以增輻一定偏離值內的符合度，亦或者是動態生成局面下一時序可能局面收益預測的權重，這兩者就是兩個獨立的優劣評估系統。

四、數據原型不同，圍棋只需處理對手數據和局面數據。股票有成交sick，有價格、成交方向數據，極難產生關聯條件。

有空，文末會聊一聊現行有效的」分型「理論過濾混沌信息建立有效條件的應用性。

而對於股票市場時序對應行為(非回合制)的機制：

1.歷史參與者V行為構成市場信息a

2.參與者ABuy觀測市場信息產生交易動機，與參與者ASell發生交易，或ABuy產生

3.A交易影響市場價格，構成市場信息b，使觀測者B產生交易動機

4.觀測者BBuy與BSell發生交易，構成市場信息c

如果說V行為導致了A行為，連續產生了C行為。而V、A、C行為本身存在相互決定性的影響關聯就是一個由人類心理動態構成的混沌系統，是取決於完全不同的動機機制和策略機制而產生的不同頻率的固定方向行為(Buy與Sell)。如果以行為發生邏輯提取條件，那麼到了不同的數據環境，混沌系統又不同了，也就失靈了。

因為決定交易的，市場信息只是誘因，動因是對於市場信息的動機機制而產生的策略。這個混沌系統下，有效的信息極其有限。大量的數據都是垃圾數據。

股票市場的優劣水平計算，是以收益為結果導向，而這種過程是受大量無法產生條件關聯的中間因素干擾的。

從數據原型來講，如果不以對手行為為時序單位，按歷史市場信息來分析：

我曾經做過一個統計模型，一個4日的K線的開盤價、收盤價、最高價、最低價的增輻(Increase.)為參照數組，以5%為允許偏離值。1990年至今3000餘支股票的數據，僅檢測到1個匹配數組。後放低標準，僅檢測開盤價，也檢測到不過6個匹配數組。

AlphaGo本身的數據原型是回合制並只有一個反饋條件的，能夠形成數據關聯特徵的數據以數百萬計。

而股票市場的反饋條件有多少個呢？不知道，這是與市場參與者動機的發生密度決定交易頻率而形成的，這個反饋條件也是一個指數級的數字。

任何模型、策略、邏輯、演算法的基礎，基本邏輯都是構建在條件反射上的，股票市場的複雜度以及無序性無法有效的提取關聯數組條件（這也是為什麼會有原理不明但卻有效的分型理論以及「纏論」的成因）：

AlphaGo的條件可能足夠多，但是是明確且相互對應的。

而股票市場的條件反饋如何構建？股票市場的複雜性已經證明了不能用明確條件來統計提取有效數據擬訂對數據策略。

而如果用一定允許偏離值來抓取數據特徵關聯條件形成策略，上面的舉例已經證明這其中的偏差超出了有效的程度。並且，股票市場上，相同的數組，產生的不同結果也是極其正常的，時序結果也是不同的。

以上

當然能，就是不一定能賺錢。考慮到觀測書受限的，即使是所有變數都有 observation 不是黑箱，但是觀測時間序列的長度保證我們必須把 domain specific 的東西放進去降低 modelling 複雜度

並且整個觀測時間序列還不一定是穩態的，這又是一個麻煩的 complexity

或者你這麼想，如果AlphaGo可以在沒有領域知識的情況下做股票市場，那麼為什麼不能直接沒有物理模型時估計太陽內部的結構呢？

話說，10年前做交易策略編程平台項目的時候，某人說買了巨貴的神經網路硬體，試下來業績還不如簡單的追漲殺跌程序策略。現在應該好很多了吧……

理論上可以，但難度比圍棋只會大不會小。我們假設各種量化模型是簡易版的alphago，為什麼說是簡易版的？因為演算法中的影響因素（x,y,z...)有限。而真要搞個大的，那這個模型就難建了，因為影響因素要擴充很多進去，而且各類因素如何起作用都蠻難量化。比如政治因素。

已知：隨機可導函數f(t).

求:∑Δf(t).

很多回答都提到影響股票的因素太多，而且還不明確。但alphago也不需要理解圍棋啊，只要計算出概率分布即可了。股票也可以學習得到在任一時刻的導數的概率分布，不僅可以學習歷史數據，還可以自己創造數據學習。股票AI不需要理解人類理解的概念。