Python celery异步快速下载股票数据

# Python实用宝典
# https://pythondict.com
from celery import Celery

# 设置BROKER
BROKER_URL = 'mongodb://127.0.0.1:27017/celery'
# 新建celery任务
app = Celery('my_task', broker=BROKER_URL)

@app.task
def get_stock_daily(start_date, end_date, code):
    """
    Celery任务：获得某股票的日数据

    Args:
        start_date (str): 起始日
        end_date (str): 结束日
        code (str): 指定股票
    """


    # 请求tushare数据，并转化为json格式
    df = pro.daily(ts_code=code, start_date=start_date, end_date=end_date)
    data = json.loads(df.T.to_json()).values()

    # 这里为了保证数据的绝对稳定性，选择一条条创建
    for row in data:
        daily.update({"_id": f"{row['ts_code']}-{row['trade_date']}"}, row, upsert=True)

    print(f"{code}: 插入\更新 完毕 - {start_date} to {end_date}")

2.2 启动worker

在cmd执行以下命令启动celery worker：

python -m celery worker -A tasks --loglevel=info --pool=eventlet

注意，这里使用了–pool=eventlet，是为了让windows机器具有并行运行的能力。

2.3 分发获取指定股票的日数据

遍历一遍股票列表，通过delay调用Celery任务实例，将任务分发给worker：

# Python实用宝典
# https://pythondict.com
from tasks import get_stock_daily

def delay_stock_data(start_date, end_date):
    """
    获得A股所有股票日数据

    Args:
        start_date (str): 起始日
        end_date (str): 结束日
    """

    codes = open('./codes.csv', 'r', encoding='utf-8').readlines()

    # 遍历所有股票ID
    for code in codes:
        get_stock_daily.delay(start_date, end_date, code)

delay_stock_data("20180101", "20200725")

这样，worker就会在后台异步执行这些任务，切换到worker的命令行中，你会看到输出如丝般润滑：

此图像的alt属性为空；文件名为350f1584-5762-4169-adb5-86b6f148aabd

好景不长，不久后你肯定会受到tushare发送回来的CPS限制错误：

Exception: 抱歉，您每分钟最多访问该接口800次，权限的具体详情访问：https://tushare.pro/document/1?doc_id=108。

3.限制访问次数与重试机制

为了解决这个CPS问题，我确实花了不少时间，尝试控制worker频率，无果，最终选择了一个不是办法的办法：

在Tushare报错的时候，捕捉起来，控制其60秒后重试

    # 请求tushare数据，并转化为json格式
    try:
        df = pro.daily(ts_code=code, start_date=start_date, end_date=end_date)
    except Exception as e:
        # 触发普通用户CPS限制，60秒后重试
        print(e)
        get_stock_daily.retry(countdown=60)

简单，但有效。

此外，为了防止网络请求出现问题，导致某个任务丢失，我们还可以在下发任务的时候使用apply_async配置失败重试。默认重试三次：

def delay_stock_data(start_date, end_date):
    """
    获得A股所有股票日数据

    Args:
        start_date (str): 起始日
        end_date (str): 结束日
    """

    codes = open('./codes.csv', 'r', encoding='utf-8').readlines()

    # 遍历所有股票ID
    for code in codes:
        get_stock_daily.apply_async(
            (start_date, end_date, code), retry=True
        )

这样，一个相对健壮的股票数据异步下载器就完成了。

用该方法把A股所有股票下载一遍，应该不会超过5分钟。

如果你给tushare氪了金，没有cps限制，下载时间不会超过1分钟。

目前github上好像缺少这样的项目，因此我将该项目开源到了GitHub上：

https://github.com/Ckend/stock_download_celery

目前仅支持日线数据，欢迎补充。

我们的文章到此就结束啦，如果你喜欢今天的Python 实战教程，请持续关注Python实用宝典。

有任何问题，可以在公众号后台回复：加群，回答相应验证信息，进入互助群询问。

原创不易，希望你能在下面点个赞和在看支持我继续创作，谢谢！

Python实用宝典 (pythondict.com)
不只是一个宝典
欢迎关注公众号：Python实用宝典

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Python celery异步快速下载股票数据

1.准备

2.使用Celery异步下载股票数据

2.1 创建Celery任务实例：

2.2 启动worker

2.3 分发获取指定股票的日数据

3.限制访问次数与重试机制

评论(0)

提示：请文明发言取消回复

排行榜展示

Python 情人节超强技能导出微信聊天记录生成词云

你不得不知道的python超级文献批量搜索下载工具

7行代码 Python热力图可视化分析缺失数据处理

Python 流程图 — 一键转化代码为流程图

Python 优化—算出每条语句执行时间

你的10W块放哪里能赚最多钱？

文章展示

列表理解与地图

使用int的python dataframe pandas drop column

Python中的否定

动态打印一行

对列表中的每对元素进行操作

如何在Jinja2中格式化日期？

Python celery异步快速下载股票数据

1.准备

2.使用Celery异步下载股票数据

2.1 创建Celery任务实例：

2.2 启动worker

2.3 分发获取指定股票的日数据

3.限制访问次数与重试机制

相关文章

评论(0)

提示：请文明发言 取消回复

排行榜展示

文章展示

提示：请文明发言取消回复