從全部報單成交數據中都能挖掘什麼信息?如何加以利用?

每一筆交易買方掛單號、賣方掛單號、成交量、成交價、成交時間(百分之一秒)


按照全部成交數據所得到超高頻數據,理論研究的主要模型包括知情信息模型、存貨模型等,你可以找一些相關論文來查看;

中金股指是按照500ms切片給出Tick切片數據,就是嚴格的離散時間序列分析,可以做相關統計分析來處理,對於Tick的數據可以做一下初步處理

A:原始數據

1) LastPrice

2) BidPrice BidVolume

3) AskPrice AskVolume

4) OpenInterest

5) Volume

6) 成交金額

7) 最高價

8) 最低價

B:一級計算數據

1) 倉差:當前持倉量 - 上一個Tick持倉量

2) 買賣價差: 賣1價 - 買1價

3) 買賣量差: 賣1量 - 買1量

4) 現手: 當前成交量 - 上一個Tick成交量

5) 內盤量:當前Tick.LastPrice &< 上一個Tick的BidPrice對應的量

外盤量:當前Tick.LastPrice &> 上一個Tick的AskPrice對應的量

6) 開倉手數:現手+倉差(針對股指,如果商品則需要除以2)

平倉手數:現手-倉差

7) 成交均價: 成交金額/(現手*300)

8) 價差:當前Tick.LastPrice - 上一個Tick.LastPrice

9) 委託中間價:(買1價+賣1價)/2

10) 買1對數收益率:相鄰兩個買1價的對數差

賣1對數收益率:相鄰兩個買1價的對數差

11)深度:(買1量+賣1量)/2

12)斜率:價差/深度

C: Bar可以統計數據

1)成交量

2)內盤量

外盤量

3)多開量

空平量

空開量

多平量

總買量 = 多開量+空平量

總賣量= 空開量+多平量

開倉量= 多開量+空開量

平倉量=多平量+空平量

4)成交均價

D: 多個Tick和多個Bar數據統計的時間序列

1)均值

2)方差

3)波動率 = 最大值-最小值

這些都是可以分析的計算指標,具體各個指標如何分析,就要建立相關模型來處理了


樓上說的固然是對的,不過太過academic了。

可以挖掘出來的東西不要太多。。。。。

可是,問題來了,如果我知道具體的答案,為什麼要公布在知乎這個公開的平台?題主可能並不會這麼覺得,但這個問題詳細完整答案的價值,說不定可以買下整個知乎。

我大略列了些可以發現的東西,具體如何利用就不說了,大家混口飯吃都不容易。

比如:

- patterns of execution algos;

- client flows;

- accumulation distribution

- spoofing activity

- order latency

- cost basis for major market participants

隨便一個都可以扯出一長篇來,看懂一點就當我免費上課了,沒看懂的也無所謂。


哇,這個太有用了。我來拋個磚, 供@劉健參考

我不做quant,所以在這裡就只講一個最相關的領域:市場微觀結構(market microstucture)

市場微觀結構並不是一個很新的領域,因為它從Kyle(1985)開始,就進入了研究者的視野,加上1987年的美國股市大震蕩,這玩意簡直就是瞬間成為金融學界一顆嶄新的方向

所以說了這麼多,微觀結構到底是啥?我說了不算的話,那麼用Madhavan(2000)的研究來說,就是分為四個部分:

  • 價格形成和發現(Price formation and price discovery)

  • 市場結構與設計(Market structure and design issues)

  • 信息與披露(Information and disclosure)

  • 微觀市場結構理論與其他領域交互(如資產定價、公司金融等)

看到沒有,這簡直就是一個包羅萬象的話題。個人認為,正是因為它包羅萬象,所以國內外直接研究一直不太熱(比起asset pricing而言)。但是就我個人而言,它最為人們所熟知的一面,就是流動性(liquidity)

流動性是什麼,我想我就不再說了。Amihud大神的意見是,快速變現資產而不影響價格的能力。這裡有三個point:快速、變現和不影響,這三個都是理想金融市場假設中最核心的因素。但是現實中沒有這麼理想的市場啊,所以金融學家們說,市場是有摩擦滴!

說了那麼多廢話,和這個題目有半毛錢關係?關係就在於,市場摩擦產生的原因包括交易成本、信息不對稱等一系列因素。我們來逐個分析報單數據能怎麼研究

交易成本的劃分在於顯性成本(如傭金啊、印花稅等)和隱性成本(買賣價差、價格影響等)。買賣價差就是所謂的賣一和買一之間的差價(bid-ask spread),也就是指令簿中最優買價和最優賣價的差別。一般來說,Kyle(1985)的lambda、Roll(1984)的Roll估計量是理論上最為貼切的估計,但是恰恰問題也在於這些估計量太微觀了,無法用現有的觀測數據進行估計

當然,題主給出的數據集並沒有價差的內容,但是有了成交價的時間序列數據,就可以開始估計買賣價差回跳問題(bid-ask bounce),因為微觀結構通常假設成交價就是買賣價差的中點。此外,Amihud在2002年就另闢蹊徑,利用成交價和成交量提出了R2V估計量,也就是單位成交額的收益率。這個用來反映價格影響(也就是,買入一單位的資產會改變多少單位的價格)。

最近,Cohen-Cole et.al(2014)就用交易的數據(和買單號和賣單號類似,假設這裡買單號和賣單號能聯繫起來)來刻畫交易網路,從而採用空間加權(spatial weighted)的方法研究市場與收益之間的聯繫。這也是金融學研究一個很新的方向:網路

大概先說這麼多,有空再來填

============聖誕節更新============

下午就要期末展示了,好緊張

我再來細化一下上面講到的(bid-ask bounce)。題主在評論中提到:

實際上是沒有價差的,買一賣一有價差不會成交,成交價是買賣雙方都答應的,也就是題目說的報單數據,每一筆成交雙方的信息,交易量,交易價,交易時間

回去查了一下資料,「因為微觀結構通常假設成交價就是買賣價差的中點。」這麼說確實不太對,但是用成交價估計價差的做法是有的。那就是鼎鼎大名的Roll價差(Roll, 1984)。他認為成交價服從一個一步Markov過程(因此買單和賣單的概率相等),並且假設成交價P是基礎價格P*的一個上下界,從而導出價差公式:

S=2sqrt{-cov(Delta P_t, Delta P_{t-1})}

所以成交價是可以估計價差的


你可以挖掘到一個道理

股票就是資金推動的


好東西號,太有用了,一份高成功率的交割單與原始行情數據,是不可多得的。

簡單的說點方法,通過數學擬合或指標似合來找出這個交易員的交易手式。更好的是通過數據分析與數據挖掘的方法挖掘到可能比這個交易員更好的交易模式。

僅供參考


推薦閱讀:

如何獲取實時的股票數據?
什麼是次貸?次貸危機又是怎麼導致的?
國際上權威的金融類期刊有那些?
石油價格未來會反彈暴漲,還是持續下跌?
華融資產管理公司是幹嘛的 能否具體介紹一下?

TAG:寬客Quant | 股票 | 金融 | 高頻交易 | 金融工程學 |