如何對選股因子進行量化回測？

引言

上一篇推文《什麼是多因子量化選股模型？》主要介紹了多因子模型產生的理論背景、基本原理和實現步驟，而《【手把手教你】Python量化Fama-French三因子模型》則對國內A股市場的三因子模型進行了實證分析。多因子量化模型研究的對象主要是因子，因此單因子的回測和有效性檢驗是整個多因子模型的重要組成部分。本文結合Python開源包Alphalens，以A股市場真實場景數據，手把手教你對單因子進行量化回測。Alphalens是Quantopian公司（美帝最大的量化回測平台之一，國內幾個基本上都是仿他們家的）三大知名Python開源包之一，其他兩個分別是Zipline（策略回測，一直沒安裝成功）和Pyfolio（策略分析）。Alphalens主要提供因子收益分析、因子IC分析、因子換手分析和事件研究等回測框架，由於簡單易上手和科學穩定等優點，是量化分析師最常用的回測工具包之一。

數據預處理

數據預處理是使用Alphalens做單因子回測的最主要工作，包括獲因子數據，數據歸一化和異常值處理等，將原始數據整理成符合要求的格式後，後面的分析就變得很簡單，基本上都是一行代碼搞掂。本文以市盈率（PE）指標為例，使用tushare的每日指標介面（daily_basic）獲取A股市場3000多隻股票2011-2019年收盤價和市盈率數據，為大家展示如何使用alphalens做單因子的歷史回測。

#先引入後面可能用到的包（package） import alphalens #使用pip安裝即可 import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline

#正常顯示畫圖時出現的中文和負號
from pylab import mpl
mpl.rcParams[font.sans-serif]=[SimHei]
mpl.rcParams[axes.unicode_minus]=False

#還是使用tushare獲取數據
import tushare as ts
token=輸入token
pro=ts.pro_api(token)

#獲取當前交易的股票代碼和名稱
def get_code():
df = pro.stock_basic(exchange=, list_status=L)
#剔除2017年以後上市的新股次新股
df=df[df[list_date].apply(int).values<20170101]
#剔除st股
df=df[-df[name].apply(lambda x:x.startswith(*ST))]
codes=df.ts_code.values
return codes

df=pro.daily_basic(ts_code=get_code()[0],start_date=20110101)
for code in get_code()[1:]:
df1=pro.daily_basic(ts_code=code,start_date=20110101)
df=pd.concat([df,df1])

df_new=df.loc[:,[ts_code,trade_date,close,pe_ttm]]
df_new.loc[:,trade_date]=pd.to_datetime(df_new.trade_date)

#設定雙重重索引的數據格式
df_new=df_new.set_index([trade_date,ts_code])
#根據第一索引排序
df_new=df_new.sort_index()

#查看數據前幾行
df_new.head()

其中，pe_ttm是動態市盈率，是本文重點考察的單因子，數據預處理的第一步是建立以日期、股票代碼的雙重索引，如上表所示。先來看下全市場收盤價和市盈率的描述性統計，市盈率有440萬個觀測值（刪除了市盈率為負的觀測值），均值為206，標準差高達12698，最大值為2653832，而75%分位數才77.3，可見均值受極端值影響很大，有必要對原始數據進行歸一化和縮尾處理。factor_new是處理後的因子數據。prices是收盤價數據（前復權），必須轉化為日期為索引，列名是相應股票代碼或名稱格式的數據形式。