Tablib是一个Python的第三方数据导出模块,它支持以下文件格式的导出:
- Excel
- JSON
- YAML
- Pandas DataFrames
- HTML
- Jira
- TSV
- ODS
- CSV
- DBF
这个工具能做到的东西,Pandas都能做到,但是有时候Pandas实在是过重了,如果我们只想实现轻量数据的导出,而非上千万级别的数据导出,该工具更能体现它的优势。
1.准备
开始之前,你要确保Python和pip已经成功安装在电脑上,如果没有,请访问这篇文章:超详细Python安装指南 进行安装。
Windows环境下打开Cmd(开始—运行—CMD),苹果系统环境下请打开Terminal(command+空格输入Terminal),准备开始输入命令安装依赖。
当然,我更推荐大家用VSCode编辑器,把本文代码Copy下来,在编辑器下方的终端装依赖模块,多舒服的一件事啊:Python 编程的最好搭档—VSCode 详细指南。
输入以下命令安装本文所需要的依赖模块:
pip install tablib
看到 Successfully installed xxx 则说明安装成功。
2.基本使用
这一块,官方文档已经有详细介绍,这里转载自xin053的翻译与介绍,有部分修改。
创建Dataset对象
import tablib headers = ('first_name', 'last_name') data = [ ('John', 'Adams'), ('George', 'Washington') ] data = tablib.Dataset(*data, headers=headers)
这样相当于构造了一张表:
first_name | last_name |
---|---|
John | Adams |
George | Washington |
其中最重要的就是Dataset
对象,当然该对象的创建也可以不输入参数,直接
data = tablib.Dataset()
创建出一个Dataset
对象,然后通过
data.headers = ['first_name', 'last_name']
设置表头,当然也可以使用
data.headers = ('first_name', 'last_name')
因为不管是用列表还是元组,tablib都会自动帮我们处理好,我们可以通过
data.append(['Henry', 'Ford'])
或者
data.append(('Henry', 'Ford'))
来向表中添加一条记录。
我们可以通过data.dict
来查看目前表中的所有数据:
>>> data.dict [OrderedDict([('First Name', 'John'), ('Last Name', 'Adams')]), OrderedDict([('First Name', 'George'), ('Last Name', 'Washington')]), OrderedDict([('First Name', 'Henry'), ('Last Name', 'Ford')])]
也可以通过print(data)
显示更人性化的输出:
>>> print(data) First Name|Last Name ----------|---------- John |Adams George |Washington Henry |Ford
Dataset属性
data.height
输出当前记录(行)总数data.width
输出当前属性(列)总数
>>> print(data) First Name|Last Name|age ----------|---------|--- John |Adams |90 Henry |Ford |83 >>> data.height 2 >>> data.width 3
常用方法
详情可见官方文档:
https://tablib.readthedocs.io/en/stable/api/#tablib.Dataset.remove_duplicates
lpop()
,lpush(row, tags=[])
,lpush_col(col, header=None)
是对列的相关操作pop()
,rpop()
,rpush(row, tags=[])
,rpush_col(col, header=None)
是对行的相关操作 remove_duplicates()
去除重复的记录 sort(col, reverse=False)
根据列进行排序 subset(rows=None, cols=None)
返回子Dataset wipe()
清空Dataset,包括表头和内容
新增列
>>> data.append_col((90, 67, 83), header='age')
这样表就变成了:
first_name | last_name | age |
---|---|---|
John | Adams | 90 |
George | Washington | 67 |
Henry | Ford | 83 |
>>> print(data) First Name|Last Name |age ----------|----------|--- John |Adams |90 George |Washington|67 Henry |Ford |83
对记录操作
>>> print(data[:2]) [('John', 'Adams', 90), ('George', 'Washington', 67)] >>> print(data[2:]) [('Henry', 'Ford', 83)]
对属性操作
>>> print(data['first_name']) ['John', 'George', 'Henry'] >>> print(data) First Name|Last Name |age ----------|----------|--- John |Adams |90 George |Washington|67 Henry |Ford |83 >>> data.get_col(1) ['Adams', 'Washington', 'Ford']
删除记录
>>> del data[1] >>> print(data) First Name|Last Name|age ----------|---------|--- John |Adams |90 Henry |Ford |83
可见记录也是从0开始索引的
删除记录操作也支持切片
删除属性
del data['Col Name']
导入数据
imported_data = tablib.Dataset().load(open('data.csv').read())
导出数据
csv
>>> data.csv 'First Name,Last Name,age\r\nJohn,Adams,90\r\nHenry,Ford,83\r\n' >>> print(data.csv) First Name,Last Name,age John,Adams,90 Henry,Ford,83 >> f = open('data.csv', 'w', encoding='utf-8') >> f.write(data.csv) >> f.close()
这样便可成功将数据导出为csv文件。
json
>>> data.json '[{"First Name": "John", "Last Name": "Adams", "age": 90}, {"First Name": "Henry", "Last Name": "Ford", "age": 83}]' >>> print(data.json) [{"First Name": "John", "Last Name": "Adams", "age": 90}, {"First Name": "Henry", "Last Name": "Ford", "age": 83}] >> f = open('data.json', 'w', encoding='utf-8') >> f.write(data.json) >> f.close()
yaml
>>> data.yaml '- {First Name: John, Last Name: Adams, age: 90}\n- {First Name: Henry, Last Name: Ford, age: 83}\n' >>> print(data.yaml) - {First Name: John, Last Name: Adams, age: 90} - {First Name: Henry, Last Name: Ford, age: 83} >> f = open('data.yaml', 'w', encoding='utf-8') >> f.write(data.yaml) >> f.close()
excel
>>> with open('people.xls', 'wb') as f: ... f.write(data.xls)
注意要以二进制形式打开文件
dbf
>>> with open('people.dbf', 'wb') as f: ... f.write(data.dbf)
高级使用
动态列
可以将一个函数指定给Dataset对象
import random def random_grade(row): """Returns a random integer for entry.""" return (random.randint(60,100)/100.0) data.append_col(random_grade, header='Grade') >>> data.yaml - {Age: 22, First Name: Kenneth, Grade: 0.6, Last Name: Reitz} - {Age: 20, First Name: Bessie, Grade: 0.75, Last Name: Monke}
函数的参数row
传入的是每一行记录,所以可以根据传入的记录进行更一步的计算:
def guess_gender(row): """Calculates gender of given student data row.""" m_names = ('Kenneth', 'Mike', 'Yuri') f_names = ('Bessie', 'Samantha', 'Heather') name = row[0] if name in m_names: return 'Male' elif name in f_names: return 'Female' else: return 'Unknown' >>> data.yaml - {Age: 22, First Name: Kenneth, Gender: Male, Last Name: Reitz} - {Age: 20, First Name: Bessie, Gender: Female, Last Name: Monke}
tag
可以给记录添加tag,之后通过tag来过滤记录:
students = tablib.Dataset() students.headers = ['first', 'last'] students.rpush(['Kenneth', 'Reitz'], tags=['male', 'technical']) students.rpush(['Bessie', 'Monke'], tags=['female', 'creative']) >>> students.filter(['male']).yaml - {first: Kenneth, Last: Reitz}
3.举个小例子
现在有一个场景,我们需要将一份股票数据csv文件转化为json数据:
你只需要这样操作:
import tablib data = tablib.Dataset().load(open('1.csv').read()) with open('data.json', 'w', encoding='utf-8') as f: f.write(data.json)
即可将其转化为json格式,它的特点在于轻量、简单。Pandas如果用来做这样的转化,则有些大材小用。
我们的文章到此就结束啦,如果你喜欢今天的 Python 教程,请持续关注Python实用宝典。
有任何问题,可以在公众号后台回复:加群,回答相应验证信息,进入互助群询问。
原创不易,希望你能在下面点个赞和在看支持我继续创作,谢谢!
Python实用宝典 ( pythondict.com )
不只是一个宝典
欢迎关注公众号:Python实用宝典