如何对选股因子进行量化回测？

引言

上一篇推文《什么是多因子量化选股模型？》主要介绍了多因子模型产生的理论背景、基本原理和实现步骤，而《【手把手教你】Python量化Fama-French三因子模型》则对国内A股市场的三因子模型进行了实证分析。多因子量化模型研究的对象主要是因子，因此单因子的回测和有效性检验是整个多因子模型的重要组成部分。本文结合Python开源包Alphalens，以A股市场真实场景数据，手把手教你对单因子进行量化回测。Alphalens是Quantopian公司（美帝最大的量化回测平台之一，国内几个基本上都是仿他们家的）三大知名Python开源包之一，其他两个分别是Zipline（策略回测，一直没安装成功）和Pyfolio（策略分析）。Alphalens主要提供因子收益分析、因子IC分析、因子换手分析和事件研究等回测框架，由于简单易上手和科学稳定等优点，是量化分析师最常用的回测工具包之一。

数据预处理

数据预处理是使用Alphalens做单因子回测的最主要工作，包括获因子数据，数据归一化和异常值处理等，将原始数据整理成符合要求的格式后，后面的分析就变得很简单，基本上都是一行代码搞掂。本文以市盈率（PE）指标为例，使用tushare的每日指标介面（daily_basic）获取A股市场3000多只股票2011-2019年收盘价和市盈率数据，为大家展示如何使用alphalens做单因子的历史回测。

#先引入后面可能用到的包（package） import alphalens #使用pip安装即可 import pandas as pd import numpy as np import matplotlib.pyplot as plt %matplotlib inline

#正常显示画图时出现的中文和负号
from pylab import mpl
mpl.rcParams[font.sans-serif]=[SimHei]
mpl.rcParams[axes.unicode_minus]=False

#还是使用tushare获取数据
import tushare as ts
token=输入token
pro=ts.pro_api(token)

#获取当前交易的股票代码和名称
def get_code():
df = pro.stock_basic(exchange=, list_status=L)
#剔除2017年以后上市的新股次新股
df=df[df[list_date].apply(int).values<20170101]
#剔除st股
df=df[-df[name].apply(lambda x:x.startswith(*ST))]
codes=df.ts_code.values
return codes

df=pro.daily_basic(ts_code=get_code()[0],start_date=20110101)
for code in get_code()[1:]:
df1=pro.daily_basic(ts_code=code,start_date=20110101)
df=pd.concat([df,df1])

df_new=df.loc[:,[ts_code,trade_date,close,pe_ttm]]
df_new.loc[:,trade_date]=pd.to_datetime(df_new.trade_date)

#设定双重重索引的数据格式
df_new=df_new.set_index([trade_date,ts_code])
#根据第一索引排序
df_new=df_new.sort_index()

#查看数据前几行
df_new.head()

其中，pe_ttm是动态市盈率，是本文重点考察的单因子，数据预处理的第一步是建立以日期、股票代码的双重索引，如上表所示。先来看下全市场收盘价和市盈率的描述性统计，市盈率有440万个观测值（删除了市盈率为负的观测值），均值为206，标准差高达12698，最大值为2653832，而75%分位数才77.3，可见均值受极端值影响很大，有必要对原始数据进行归一化和缩尾处理。factor_new是处理后的因子数据。prices是收盘价数据（前复权），必须转化为日期为索引，列名是相应股票代码或名称格式的数据形式。