一個基於機器學習的打板策略分享（六）: 番外之打臉篇!

轉載請註明出處: https://www.zhihu.com/people/guang-ming-yu-hei-an-22-2/activities

說句老實話,我是真的不想寫這個番外的,尤其寫的還是打臉打到啪啪響的番外.不過本著自己約的炮含淚也要打完的宗旨,當然你也可以理解為一個四十歲男人的偏執.最終還是有了這篇番外篇的誕生.

一個基於機器學習的打板策略分享系列出來後,有不少量化專業人士跟我通過各種渠道進行了交流.在溝通和實踐的過程中,我發現代碼里至少有兩處不當的地方,下面開始打面:

第一下打左邊臉,問題出在這一句:

df_minute_line[obv]=talib.OBV(df_minute_line[abs_close].values,df_minute_line[abs_vol].values)

在本系列的第一篇我引入了所謂的相對於上一交易日收市價的變化價和相對於自由流通股本的成交量百分比意圖將信號標準化,同時引入OBV試圖得出一個價量加權結合的時間序列二維向量.但可能因為OBV的內部實現對交易價格和成交量也做了相對上一時刻的按比例變換(以某時點為基期，逐時點累計每時點上市股票總成交量，若下個時點指數或股票上漲，則基期OBV加上該時點成交量為本時點OBV),因此在拉升觸及漲停的判斷過程中OBV反而令真正漲停的和佯攻漲停的信號非常相似,反而降低了模型的預測準確率.

因此我決定放棄OBV,將價和量分別做信號提取和統一.

第二下打右邊臉,問題出在這三句:

ts_train=to_time_series_dataset(stock_minute_train_data,dtype=np.float32)

where_are_nan = np.isnan(ts_train)

ts_train[where_are_nan] = 0

這裡必須先說明一下開始這麼寫的原因:tslearn要求監督分類輸入的是一個定長數組.對於漲停來說,因為漲停時點是不定的,因此輸入不可能是定長的.那有什麼辦法讓它等長呢?我第一時間想到的就是在數據後面補0.乍看沒有問題,但是在實時預測中,除了漲停外經常會出現跌停或者價格波動不大的誤報信號,歸根結底就是因為補0後連續的若干個0也被當做信號的判斷因素之一.

那咋辦呢?我想到了一個辦法,就是對信號進行重新採樣:

所以我對build_train_data方法做了一些修改:

1)先用小波變換截取信號:

A2,D6,D5,D4=pywt.wavedec(df_minute_temp[abs_close].values, db4,mode=symmetric,level=3)

stock_minute_train_close.append(to_time_series(A2))

2)然後用TimeSeriesResampler 對信號重新採樣為統一長度

tsr_close=TimeSeriesResampler(sz=24)

stock_minute_train_close=tsr_close.fit_transform(stock_minute_train_close)

此刻,作者的臉是這樣的: