金融市場計算機化的交易程序是如何根據新聞進行自動交易的?目前這種技術的應用廣泛嗎?


對金融市場不了解,但可以談談計算機如何理解自然語言文本。

1、首先假設前提是*來源可靠*的新聞會直接影響金融交易決策,比如交易員讀到利好消息會引起股價上漲。

2、有一些公司,專門為金融公司提供這類消息,比如bloomberg,消息來源於公開的新聞,也來源於內部資料。

3、這個過程可以被計算機自動化。NLP自然語言處理有一種叫情感分析,sentiment analysis,就是試圖去對文本進行理解,來判斷一句話到底是積極的還是消極的情感。相信很多人聽說過,有研究人員用Twitter的情感分析來預測股票市場指數的,發現兩者波動曲線重合率非常高!而且Twitter上的情感波動一般會提前股市波動幾天。
Twitter Mood Predicts The Stock Market

(Source: Downside Hedge)

在金融領域中,肯定不單單收集文章中的情感偏向,更多維度的特徵會被抽取出來。同時,類別應該會更細化,不僅僅限於「利好」和「非利好」兩個類別,甚至有可能是一個數值概率。由於為了避免假新聞、虛假消息之類的,這類文本分析程序會綜合各個來源的數據,進行綜合分析。當然這次那誰的官方Twitter賬號被盜了,發布假消息,肯定會欺騙到一大批計算機程序…

最後,不管怎樣,機器終究是機器,最終結果只會作為一個參考提供,或者作為眾多決策依據一面的一員。

4、而所謂高頻交易系統,就是股市系統會有一些API介面,可以讓程序自動控制買入賣出。這些API介面是有優先順序之分的。高優先順序的API,可以允許更快的進行買入和賣出,一般這個都是實時毫秒級別的。(花絮,這是我一個朋友告訴我的,他也在做自動股票交易,不過用的是免費的API介面,比那些收費的優先順序低了很多,允許響應時間也會慢很多)

而在這麼快的時間內做決策,必須要靠計算機介入。我猜想應該是機器學習統計模型在這裡發揮作用,綜合當前各種因素,以及剛剛文本分析結果,迅速在毫秒之間作出判斷,自動執行買入賣出。高頻程序交易之新聞掃描程序

因為股市這東西,我雖然不太懂,但是聽說它對新聞反映特別敏感,因此新聞評論一定是一個重要的特徵。


延伸開來,當年贏了美國版開心辭典的IBM Watson問答機器人,現在也被華爾街一些公司買去。Watson能力在於可以自動掃描大規模文本,為指定回答在大規模文本中找到各種明顯的、隱含的線索,以為金融家提供決策支持。
而根據我對Watson的了解,我猜測IBM Watson做的,應該是更長期的風險分析,比如根據報紙報道的一個國家的失業率、GDP情況等各個方面綜合評估這個國家未來半年的投資收益。因為計算機對於人的優勢,可以基於大規模文本數據,得到一些因素之間的隱含聯繫,而誰知道了這些隱藏於表面之下的信息,誰就可以佔得先機!
http://www.bloomberg.com/news/2012-03-05/ibm-s-watson-computer-gets-wall-street-job-one-year-after-jeopardy-win.html


1: 這個是一套正在開發中的,個人並且也是大家都覺得不是特別完善的系統。可以說系統有,歸為Event Driven策略套組內,自動交易,使用DMA介面。

2:有對沖基金用作這個作為主策略,但是效果都不太好,英國的一家如果沒有記錯在MAN下的做過但是業績不好被停了。另外美國的Two Sigma有個組專門做這個的,但是總體還處在研發階段。總覺得是因為不知道如何精確的判斷強弱級別,消息本身篩選,以及辭彙強弱程度大數據挖掘都需要進一步設計。

3: 整個設計的思路大概是:efficient market hypothesis (EMH) 理論上因為消息的出現會影響到整體估值,所以最後做出來大概是一個EMH index,需要和其他不同的index混合使用。或者也叫Expert Model Mining System,具體使用是拿其中的級別評論來做一個量化打分,不同級別對應不同的,就像是………………打到一個分的評級會一個階段反應,另外一個階段會另外一個反應,下面試混用EMH和Volume搜尋後的結構:

然後我們具體可以看到一個對應的是…………

以上來自於論文:Modeling Movements in Oil, Gold, Forex and Market Indices using Search Volume Index and Twitter Sentiments
Tushar Rao (NSIT-Delhi), Saket Srivastava (IIIT-Delhi)


4:各位回答的很多的同志們混淆了自動交易:Automatic trading system 和高頻交易 HFT這兩個不同的交易系統。不做另解釋。這種Event Driven更多是一種自動的,內嵌的應對反應系統,而不是高頻交易系統。下面回答的很多東西也不對,例如HFT的本身以及白宮襲擊的假新聞的反應情況,但是說起來太多了這裡就不展開了

5:我們的消息來源會Bloomberg News Streaming或者路透的News Streaming。我這個電腦上Bloomberg T特別慢我也懶得找指紋輸入器了,就不截圖了。另外,可以不用終端頁面單獨的API就是用來導入News ,有一些專門的信息公司會導入新聞數據

6:再說一次,這個不是HFT,不是一旦導入自動交易就是HFT高頻交易的。不是一上模型就是高頻的。

7:Bloomberg Terminal 一年也沒有上百萬,另外買這個不是因為要看新聞…………輿情收集決策系統是有,但是很多公司並沒有大範圍的使用,只是訂閱了一些簡報,定期看一些中立的機構的分析就好。我個人覺得輿情的噪音和滯後性都是問題。

8:那個高頻交易對新聞解讀,不一定是有一個新聞解讀程序在掃描,有可能是熔斷機制或者Turn-over轉身機制在起作用,或者是在掃描交易量。我找不到Zerohedge的原文了,太老了,但是這種我們一般會調出Spread,就是Bid / Ask price spread的價差圖來看,跟那個新聞裡面的有點像但是又不太一樣,看下單量和變化量。

9:其實有些東西都不用自動交易的,例如系統在後台設置好緊急組合按鈕後,我們Bloomberg的終端一旦刷出帶有閃爍標語的新聞標題讀一下就會做出判斷了。例如那天白宮襲擊很可能幾乎所有人的屏幕上都會瞬間刷出美聯社的消息,但是很快就有個Update*出來。


因為基本上都是自有賬戶在做這種交易,沒有人會透露信息,沒法知道是否廣泛。
但是這種技術從09年開始就有人開始關注,也有過新聞說有人在開發這種技術,所以肯定是在發展的。在自動化交易中目前不是主流,因為分析語言牽扯到模糊處理技術,類似SVM可以做,但是因為新聞少,處理慢,讀錯消息的風險太大,從sharp ratio上面來講很不划算。而且當新聞出來市場急劇變動之初,就可以通過技術指標讀出是否此次變化是新聞所致,而這種直接讀數據的方法比分析語言要準確、快速的多。
最近出來的AP被黑twitter出假消息的事情,很多人說是hft在做,其實hft主要是依靠order flow的不平衡進行arbitrage,將市場相互聯繫。整個下跌到回歸有數分鐘之久,這個時間長度完全足夠手動操作。而最初的變化應該不是自動化交易導致,因為時間太長了。所以看上去,目前對新聞進行操作還不是自動化交易的主流。


謝邀。
有關如何根據新聞,評論,報告,輿論進行自動交易jxitc已經說得很清楚了,本質就是基於語義的文本分析。至於是否大規模應用要分開看。最早期的時候諮詢提供商還沒想到新聞能被這麼用,而且如果不是很規範的格式,要正確分析一段語義、並準確衡量其分量並不是那麼容易的事情,何況大規模文本的分析外加分配權重。退一步說,更有話語權的人或機構寫的東西一定能對市場後續走向起到更大的指導作用?一切都基於假設。即使現在,這個方法也仍然處在實驗階段,比如從那張twitter sentiment analysis的指標圖中,用肉眼也能發現這方法並不那麼靠譜,至少目前階段,真按這類指標做交易不虧成豬頭是很不易的。

另一方面,基於宏觀數據以及公開公司財報等客觀數據的程序化交易很早就普及開了,畢竟客觀的數據沒有任何含糊的成分,可以直接用程序來判斷,如今很多諮詢提供商也提供能直接被程序採用的數據格式,出宏觀數據的時候如何應對不同的數據做買賣決策,如何比他人先成交,在幾分鐘內的劇烈波動性下以何種步驟成交,冷冰冰的程序顯然要比容易受情緒影響的人更有優勢。但這些充其量也只算是大部分演算法交易策略的一個很小的組成部分,並非全部。

這也回答了另一個問題:既然演算法歸根結底也只是人寫的規則,為什麼會有人想用程序而不是更可靠的人來判斷新聞數據的內容並執行交易?理由有兩方面。一,程序能在最短時間內分析人力無法分析的海量資訊,或找出人難以發現的隱藏信息模式。二、程序能在最轉瞬之間對客觀且沒有歧義的信息做出正確的反應。如果不是滿足這兩個需求,那麼基於新聞的演算法交易只是個噱頭。比如有人提到的什麼白宮被襲擊,首先這是單條新聞,信息量簡單明確,其次這條新聞對市場產生的影響,信息的真偽,用程序判斷問題重重,人來處理要可靠得多,在時效性上人也不會有太大滯後,交易員來應對該出的問題一樣會出,交易來源無法判斷,因此歸咎於演算法交易沒有意義。

------------------------------------------

跑題時間:很多答案中提到了高頻交易,這和基於新聞的演算法交易沒直接關係。高頻是一個交易方式的大類,高頻交易的策略更是五花八門,liquidity providing,arbitrage或者類似momentum trading的高頻交易策略都是有的,因此沒什麼必要妖魔化。宏觀上看,高頻交易承擔了以前做市商和場內交易員的功能,為市場提供了更多流動性,另一方面,高頻交易大量快速的擺單撤單行為在一定程度上扭曲了市場的定價,所以其功過也不是那麼容易說得清楚的,如今也有更多機構為了躲避高頻單的影響,選擇在暗盤執行單子。至於某幾次突發性的市場崩盤,雖不能說是高頻交易直接導致,但要徹底洗白也不現實,做市商提供流動性就好好提供,大部分做高頻交易的可沒這義務,不需要他們的時候遍地都是,需要他們的時候集體性下班打醬油晾衣服,一出危險撤得比誰都快。市場若是出點變故,這些流動性主力軍們瞬間消失,留下空空如也的盤面,外加各種被連鎖觸發的機構程序單,要是再激烈點把熔斷價的單子全打透,2010年5月10號的事情自然就會重演了。


看出來之前回復的都沒有實際經驗,這個話題各位最好重視,因為在華爾街,這類的職位幾百萬美金已經是常事兒,有的去年一年就拿到了上千萬美金的工資。各個機構投入都很下本兒。

大數據投資應用和新型的事件驅動策略是在華爾街也比較新的內容,即便對於文藝復興、橋水、高盛這樣的大型機構也算很新。在宏觀對沖和高頻交易都有比較大的發展空間,雖然大部分機構對於其實際應用還缺乏頭緒,但是的確是有廣泛發展前景的一個方向。

與傳統的大部分加入量化的策略不同的是,因為反身性的關係,這類策略不會出現因為使用的市場參與者多了而失效,反而會呈現越來越有效的情況。而且對於我所反感的隨機單和國內日益嚴重的過度套利有抑制作用。此前也徵詢了一些專家和行業裏手的意見,大家普遍在好評的同時支持將其公開。而且我也發現光視頻或者光PPT,本身可能都存在聽不懂看不懂的問題。

新型的事件驅動與大數據投資應用_kuhasu_新浪博客

http://blog.sina.com.cn/s/blog_4b42c4f00101c9j4.html


你說的這種模型有,但直接用於指導交易的很少。一般這種模型只是作為趨勢判斷使用的輿情指數。
因為分析新聞、論壇等需要海量數據挖掘和語意分析。一般來說是通過某些關鍵詞模糊索引來判斷大家對於某個股票或者股票市場整體的情緒特徵,進一步編撰成相關的指數,根據指數的升跌來判斷提前或者同步預判股市的漲跌。
目前這種技術國內有部分券商也做了相似的指數,比如長江證券的輿情指數分析,就是採集多個股票論壇、新聞等進行編撰的。


我是對技術不了解,但對交易還略知一二。

華爾街大量使用的交易技術有兩種,一種就是"高頻交易類",這個不多說。說說第二種,輿情收集和決策系統。

名字可能不準確,因為我畢竟沒用過,但其基本原理就是建立一個龐大的監測體系,涵蓋全世界主要新聞媒體。原來比較傳統的方法是電視,這就是為什麼交易機構幾乎都有主要媒體24小時的電視節目播放,包括Bloomberg這種一年上百萬的終端系統為什麼有人買,就是因為他們對突發情況的報導夠權威夠速度。

而我說的這種系統監測的主要是文字類信息,設定一些判斷指標,具體得問做文字識別和金融工程的人。但這套系統並不完全是自動決策的,只是根據指標給出綜合判斷意見,比如10個指標有8個判斷利好,則給出利好的判斷。

我說的是大方向,很多系統不盡相同,側重點和分析方向也不一樣,這種算是比較簡單和易懂的。


買過也看過bloomberg 的news feed 結果不好用。

IBM Watson 來我們公司的時候我問過他們新聞語言分析。但是他們還沒有這樣的應用。


1、信源可信度;
2、信源傾向性;
2、數據時效性;
3、新聞信噪比;
立場不明,清洗無效,延時滯後,雜波干擾,深入討論演算法到底怎麼搞到底為了啥?顯得自己掌握先進計算工具,還是裝個逼?確信該演算法能比監控基礎數據抽象出的模型更高更快更能賺?
滿屏技術,滿屏代碼,滿屏公式,看得我頭暈腦脹,有用么?有效么?效費比合理么?結果確定么?預期必達么?利潤可稱王么?
本末倒置!
抱歉,我表明立場時,一貫簡單粗暴,就這樣。
別邀我再答,看著生氣。


沒聽說過聽消息的交易系統,通常是根據預設模型或者說技術指標進行買賣的。根據消息決定是否進場往往是人為干涉的結果吧,和系統化交易是南轅北轍,後者只關注價格本身,不關心價格形成的原因。
還是匿了吧@@


程式交易就是根據既定的策略(策略往往是通過對歷史行情的數據進行數據挖掘或者類似的方法得到的)形成模型,然後用程序來控制自動買賣。
策略的本身不重要。由於消息太主觀化,所以根據消息(新聞)來進行自動化買賣也難以實現。但是消息產生的影響卻是可以通過市場的變化有一個客觀的判斷(僅僅是判斷,未來的影響是無法被判斷的,只能假設)。

如果一個消息利空,比如那個黑客的搞笑推特:奧巴馬被襲擊受傷了。
這個消息會引起一部分人的恐慌,他們可能不是程式交易者,但是可能會選擇做空股票。導致股票的下跌。
這個下跌觸發了一部分程式交易員的賣空策略(很大一部分策略是基於趨勢的,賣空行為可能會出發一個基於短期趨勢的策略條件),會進一步的增加市場的賣壓,然後又會觸發一部分程式交易的策略條件,又產生賣壓。。。。。。
這個時候,悲劇就發生了。

其實,就是個蝴蝶效應。尤其在互聯網時代,蝴蝶效應更容易出現。


我畢業論文就是研究的這個,並且針對的是國內市場。

開發的金融文本分類演算法(將金融文本自動分成{看漲、看跌、看平、無觀點}四類)的準確率目前在75%左右。感覺已經很難再提高。


等再過一個星期,把最近的事情忙完了,來詳細回答這個問題。


這種基於文本/新聞/輿情的預測可能比單純基於行情數據的預測靠譜。因為,影響股價的往往是某些關鍵事件。如能先於市場主流發現輿情事件傾向,加上高速演算法交易,就可能有較大的盈利時間窗口。


應該是做不到的,就拿外匯為例吧!智能交易軟體都是通過資深交易員的經驗通過編程把自己的策略寫到程序裡面,通過計算機來實現自動下單,不可能達到實時同步新聞上的消息面,而且現在有很多消息面對外匯來講並不能造成什麼影響,所以也就不存在根據新聞來進行自動交易了


目前各大投行的交易系統還沒有先進到這個地步~更多還是偏重自動化執行~


上面幾位已經提到一些關於根據新聞進行自動化交易的事例,比如基於twitter的情感分析以及bloomberg等,首先說一下做這方面困難:

1. NLP技術在情感分析上技術還沒完全達到商用的地步。目前NLP技術提到的準確率之類的不是在開放域內達到

2. 通過回測可以發現,新聞情感的好壞與股票的漲跌不是簡單的對應關係,股票受限於各種因素影響,有一雙無形的手在控制市場

3. 國內股票市場屬於政策市場。無論你覺得你計算出來因子多麼好,但是還是抵不住國家的一個政策來的影響大

目前大家做產品的出發點是簡單因果邏輯、理論能講通就行,至於市場表現還不是我們所能控制的,新聞情感分析只能作為眾多因素里的一種,至於權重的大小,各位可以根據自己的經驗進行配比。

就拿前幾天美國大選時候的行情說說美股行情,早上美股大跌是因為川普領先,晚上美股大漲又是因為川普當選,出現這樣的原因,就是大家簡單的認為和川普有關,大家都會認為川普做的任何事情就是和行情有關,因為大腦的認知就是基於因果和邏輯關係建立,然而究竟如何又不得而已。如果當時的情景是川普領先時美股大漲,大家又可以根據自己的想當然認為和川普有關,實際情況不得而知。

讀過《黑天鵝》的讀者應該都了解兩個概念:平均斯坦(不會因個例而導致統計數據巨變的統計對象)以及極端斯坦(因個例而導致統計數據巨變的統計對象)。對於無形的手控制的股票市場,可以說是極端斯坦的最形象化的表現。在人們往往認為市場應該會怎麼發展的時候,反而市場反其道而行。

現階段是如何儘可能的得到更好的新聞數據結果(包括拿到更純凈的新聞數據,比如剔除水軍、謠言等人為因素造成的新聞),以及拿著分析出來的新聞數據如何進行交易是需要解決的兩大問題。


為什麼知乎這麼喜歡量化投資和對沖呢??在中國完全沒發展啊?中國都不是強有效市場啊??


就好像你們很崇拜投行和投資機構一樣。
他們工資並不高,好不好。

廣發,光大投行,底薪加獎金20-40萬
天星資本稅後8000,獎金忽略,除非等二年退出。
某地級市國企投資機構,稅前1萬。

完全沒有你們以為的年薪百萬。都是圍城。


一般不會單純的根據新聞進行交易,應該假新聞太多,你懂的。
通常會根據數學模型+交易信號這種類似的組合來實現。
但金融類的消息一般都是大公司先知道,據說華爾街的一些公司在搞高頻交易
但誰都沒見過真正能賺到錢了,市面上的大多都是坑錢的。
原理差不多就是跟你展示一個能幾個月翻番的交易系統,然後騙一幫人來做交易
賺取手續費。能持續盈利的幾乎沒有(概率嘛,算上手續費的話算負和遊戲)。
所以,實際上我對高頻交易是持懷疑態度的,最起碼利潤不會特別離譜。

還是匿了吧


基本上不可能

在華爾街

人們對消息的反應是一種肌肉記憶

這比計算機快得多

所以計算機大多是假的


推薦閱讀:

自然語言處理怎麼最快入門?
截至 2016 年 3 月,機器學習、數據挖掘、計算機視覺等的泡沫有多大?
為什麼 Google 翻譯只重演算法不重語言學的語法結構和規則?
有誰可以解釋下word embedding?
深度學習應用在哪些領域讓你覺得「我去,這也能行!」?

TAG:投資 | 自然語言處理 | 金融 | 程序化交易 | 金融市場 |