微软开源！世界首个AI 量化投资平台 Qlib 使用教程

内容隐藏

1. 安装

2. 数据准备

3. 运行量化回测流程示例

2020年9月，微软开源了AI量化投资平台Qlib的源代码，随后得到了不少的关注，Qlib的主要优势在于：

1.Python覆盖量化投资全过程，用户无需切换语言；内置许多深度学习算法模型，降低AI算法使用的门槛。

2.内置A股、美股数据接入通道，基于qrun能够自动运行整个工作流程，大大提高开发效率。

3.每个组件都是松耦合可以独立使用，用户能够自行选用某些组件。

Qlib相比于我们之前介绍的backtrader，那功能完善太多。backtrader相当于给你提供一个基本的量化框架，数据、策略、算法，你全部自己搞定。而Qlib则从数据、到策略、到算法都给了你全套的解决方案，你只需要加一点自己的想法，不需要管其他细枝末节的东西就能完成AI量化研究，非常方便。

下面我们就来试一下 Qlib 的安装和运行内置算法策略。

1. 安装

开始之前，你要确保Python和pip已经成功安装在电脑上，如果没有，请访问这篇文章：超详细Python安装指南 (传统) 或 Python数据分析与挖掘好帮手—Anaconda 进行安装，本文建议使用Anaconda。

由于qlib有许多许多依赖，如果你不想安装过程中出现问题，或者引起其他程序的运行问题，建议使用Conda创建一个你的量化投资虚拟环境：

conda create -n my_quant python=3.8

Qlib 仅支持 Python3.7以上的版本且暂不支持 Python3.10. 另外Python 3.9 版本不支持模型性能绘制，因此我选择创建Python3.8版本的虚拟环境。

（安装方式一）pip 安装：

pip install pyqlib

在pip安装的过程中如果遇到任何问题，请搜索引擎解决，如果无法解决，可以尝试下面的源码安装：

（安装方式二）源码安装：

# 提前安装一些依赖
pip install numpy
pip install --upgrade  cython

# clone and install qlib
git clone https://github.com/microsoft/qlib.git && cd qlib
python setup.py install

Windows 机器在安装的时候可能会遇到下面这个问题：

这是因为安装 qlib 的依赖 — tables 时出现了编译错误，原因很多，我选择逃学，因此建议使用 tables 的 wheel 文件进行安装，这样就不需要编译了：

https://www.lfd.uci.edu/~gohlke/pythonlibs/#pytables

在上述网站下载适合你系统的 wheel 文件：

下载完毕后，输入以下命令：

pip install 你的文件路径/tables-3.6.1-cp39-cp39-win_amd64.whl

即可完成 tables 的安装，然后再执行一遍 python setup.py install 即可。

2. 数据准备

由于这套量化开源平台的作者是中国人，所以非常贴心地准备好了A股数据，大家可以输入命令直接下载：

# 1天级别数据
python scripts/get_data.py qlib_data --target_dir ~/.qlib/qlib_data/cn_data --region cn

# 1分钟级别数据
python scripts/get_data.py qlib_data --target_dir ~/.qlib/qlib_data/cn_data_1min --region cn --interval 1min

如果你需要其他分钟级的数据，修改interval即可。

你可以使用crontab定时自动更新数据（来自雅虎财经）:

* * * * 1-5 python <script path> update_data_to_bin --qlib_data_1d_dir <user data dir>

手动更新数据：

python scripts/data_collector/yahoo/collector.py update_data_to_bin --qlib_data_1d_dir <user data dir> --trading_date <start date> --end_date <end date>

3. 运行量化回测流程示例

Qlib 提供了一个名为 qrun 自动运行整个工作流程的工具（包括构建数据集、训练模型、回测和评估）。

你可以按照以下步骤启动自动量化研究工作流程并进行图形报告分析，Quant Research 工作流程：

Qrun 运行 lightgbm 工作流程的配置 workflow_config_lightgbm_Alpha158.yaml 如下所示：

cd examples  # Avoid running program under the directory contains `qlib`
qrun benchmarks/LightGBM/workflow_config_lightgbm_Alpha158.yaml

结果如下：

可以看到这里包括三个统计分析： benchmark return (基准收益) / excess return without cost（除去手续费的超额收益）） / excess return with cost（包含手续费的超额收益）。每个统计分析中都有如下5个参数：

mean: 异常收益的平均值
std: 异常收益的标准差
annualized_return: 年化回报
information_ratio: 信息比率
max_drawdown: 最大回撤

如果你想要自定义这个策略和算法的回测参数，你可以查看 workflow_config_lightgbm_Alpha158.yaml 的内容：

qlib_init:
    provider_uri: "~/.qlib/qlib_data/cn_data"
    region: cn
market: &market csi300
benchmark: &benchmark SH000300
data_handler_config: &data_handler_config
    start_time: 2008-01-01
    end_time: 2020-08-01
    fit_start_time: 2008-01-01
    fit_end_time: 2014-12-31
    instruments: *market
port_analysis_config: &port_analysis_config
    strategy:
        class: TopkDropoutStrategy
        module_path: qlib.contrib.strategy
        kwargs:
            model: <MODEL>
            dataset: <DATASET>
            topk: 50
            n_drop: 5
    backtest:
        start_time: 2017-01-01
        end_time: 2020-08-01
        account: 100000000
        benchmark: *benchmark
        exchange_kwargs:
            limit_threshold: 0.095
            deal_price: close
            open_cost: 0.0005
            close_cost: 0.0015
            min_cost: 5
task:
    model:
        class: LGBModel
        module_path: qlib.contrib.model.gbdt
        kwargs:
            loss: mse
            colsample_bytree: 0.8879
            learning_rate: 0.2
            subsample: 0.8789
            lambda_l1: 205.6999
            lambda_l2: 580.9768
            max_depth: 8
            num_leaves: 210
            num_threads: 20
    dataset:
        class: DatasetH
        module_path: qlib.data.dataset
        kwargs:
            handler:
                class: Alpha158
                module_path: qlib.contrib.data.handler
                kwargs: *data_handler_config
            segments:
                train: [2008-01-01, 2014-12-31]
                valid: [2015-01-01, 2016-12-31]
                test: [2017-01-01, 2020-08-01]
    record: 
        - class: SignalRecord
          module_path: qlib.workflow.record_temp
          kwargs: 
            model: <MODEL>
            dataset: <DATASET>
        - class: SigAnaRecord
          module_path: qlib.workflow.record_temp
          kwargs: 
            ana_long_short: False
            ann_scaler: 252
        - class: PortAnaRecord
          module_path: qlib.workflow.record_temp
          kwargs: 
            config: *port_analysis_config

参数比较多，大家翻译一下应该都能看懂。这里摘取华泰的一个研究报告，里面对参数做了具体的翻译：