Python MySQL与Influxdb对比及迁移方案

最近遇到一个新的应用场景:将MySQL存放的时序数据迁移到influxDB中。

这么做的好处在于:

1.Influxdb 读写速度更快。

写数据对比

读数据对比

2.在磁盘占用率上,Influxdb更低。

3.此外,Influxdb的数据可以使用Chronograf进行实时预览

如果以前是将时序数据存放在MySQL,现在为了获取更好的性能和使用更优的可视化工具,我们需要将数据从MySQL迁移到Influxdb中。

这看起来是一个常见场景,经过我一番查阅,发现了 GreatLakesEnergy/Mysql-to-influxdb 这个项目。

可惜的是,作者是基于Python2进行开发的,而且用了几个非常难搭建的模块。想在Python3中重新使用这个项目比较困难,因此我对它进行了改造,改造后的代码如下:

https://github.com/Ckend/Mysql-to-influxdb

如果你有这样的迁移需求,可以继续看下面的详细教程。

1.准备

开始之前,你要确保Python和pip已经成功安装在电脑上噢,如果没有,请访问这篇文章:超详细Python安装指南 进行安装。如果你用Python的目的是数据分析,可以直接安装Anaconda:Python数据分析与挖掘好帮手—Anaconda

Windows环境下打开Cmd(开始—运行—CMD),苹果系统环境下请打开Terminal(command+空格输入Terminal),准备开始输入命令安装依赖。

当然,我更推荐大家用VSCode编辑器,把本文代码Copy下来,在编辑器下方的终端运行命令安装依赖模块,多舒服的一件事啊:Python 编程的最好搭档—VSCode 详细指南。

下载或Git Clone我修改好的代码:
https://github.com/Ckend/Mysql-to-influxdb

进入该目录后,输入以下命令安装依赖:

pip install -r requirements.txt

看到 Successfully installed xxx 则说明安装成功。

2.迁移配置

在迁移开始前,请在你需要迁移的表里加一个字段 transfered,这个字段用于检测某条数据是否被迁移,默认设为0。一旦迁移完成,这个字段会被设为1.

此外,你需要找到你表里的时间序列字段(time)和分类字段(tag)。

分类字段可能比较难理解,比如说你有一张表记录了每支股票每天的开盘价,那么股票id字段便可理解为一个tag,即下面配置中的siteid_field.

在解压后的目录里新建一个settings.ini, 配置以下信息:

[mysql]
host : mysql host # (本地为127.0.0.1)
port : mysql 端口号 # Default is3306
username : 用户名
password : 密码
db : 数据库
table : 要迁移的表
check_field : 检测字段,默认为0,如果迁移完成,该字段会被设为1
time_field : 时间字段
siteid_field : 分类字段(tag)


[influx]
host : influxdb host # (本地为127.0.0.1)
port : 端口号 # Default:8086
username : 用户名
password : 密码
db : 要迁移进入的数据库

[server]
interval : 5 

配置完上述信息后,执行命令即可开始迁移:

python mysql2influx.py -d -c settings.ini -s

3.迁移是否完成

如何检测迁移任务是否完成,还记得我们刚新增了一个字段 transfered 用于检测某条数据是否被迁移吗?

你只需要在mysql中输入以下sql查询是否还有未被迁移的数据即可:

SELECT count(1) FROM your_table where transfered = 0;

若不为0则说明还有数据未被迁移成功。

不过值得注意的是,迁移脚本里是先进行数据迁移,再回来修改transfered的值。

如果你的数据量非常大,更新MySQL数据有可能会耗时极长,因此查询transfered数量的结果有可能不正确。这点需要特别关注。

我们的文章到此就结束啦,如果你喜欢今天的Python 实战教程,请持续关注Python实用宝典。

有任何问题,可以在公众号后台回复:加群,回答相应验证信息,进入互助群询问。

原创不易,希望你能在下面点个赞和在看支持我继续创作,谢谢!


​Python实用宝典 (pythondict.com)
不只是一个宝典
欢迎关注公众号:Python实用宝典

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注