功能：

在一台机器上或跨多台机器进行多GPU培训(数据和模型并行)
在CPU和GPU上实现多种搜索算法的快速生成：
- 波束搜索
- 分束搜索(Vijayakumar et al., 2016)
- 采样(无约束、top-k和top-p/核)
- lexically constrained decoding(Post&Vilar，2018年)
gradient accumulation即使在单个GPU上也能进行大批量小批量培训
mixed precision training(使用更少的GPU内存，培训速度更快NVIDIA tensor cores)
extensible：轻松注册新模型、标准、任务、优化器和学习速率调度器
flexible configuration基于Hydra允许组合使用基于代码、命令行和文件的配置
full parameter and optimizer state sharding
offloading parameters to CPU

我们还提供pre-trained models for translation and language modeling以一种方便的方式torch.hub接口：

en2de = torch.hub.load('pytorch/fairseq', 'transformer.wmt19.en-de.single_model')
en2de.translate('Hello world', beam=5)
# 'Hallo Welt'

请参阅Pych Torch Hub教程，了解translation和RoBERTa有关更多示例，请参阅

要求和安装

PyTorch版本>=1.5.0
Python版本>=3.6
要培训新型号，您还需要NVIDIA图形处理器和NCCL
要安装airseq，请执行以下操作并在当地发展：

git clone https://github.com/pytorch/fairseq
cd fairseq
pip install --editable ./

# on MacOS: # CFLAGS="-stdlib=libc++" pip install --editable ./ # to install the latest stable release (0.10.x) # pip install fairseq

提供更快的培训安装NVIDIAapex库：

git clone https://github.com/NVIDIA/apex
cd apex
pip install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" \
  --global-option="--deprecated_fused_adam" --global-option="--xentropy" \
  --global-option="--fast_multihead_attn" ./

对于大型数据集安装PyArrow：pip install pyarrow
如果您使用Docker，请确保使用以下命令增加共享内存大小--ipc=host或--shm-size作为命令行选项执行以下操作nvidia-docker run

快速入门

这个full documentation包含有关入门、培训新模型以及使用新模型类型和任务扩展airseq的说明

预先训练的模型和示例

我们为下面列出的几个任务提供预先训练的模型和预处理的二进制测试集，以及示例培训和评估命令

Translation：有卷积和变压器两种型号可供选择
Language Modeling：有卷积和变压器两种型号可供选择

我们还提供了更详细的自述文件，以转载特定论文的结果：

加入FIRSEQ社区

推特：https://twitter.com/fairseq
Facebook页面：https://www.facebook.com/groups/fairseq.users
谷歌集团：https://groups.google.com/forum/#!forum/fairseq-users

许可证

airseq(-py)是麻省理工学院授权的。许可证也适用于预先培训的模型

引文

请引述如下：

@inproceedings{ott2019fairseq,
  title = {fairseq: A Fast, Extensible Toolkit for Sequence Modeling},
  author = {Myle Ott and Sergey Edunov and Alexei Baevski and Angela Fan and Sam Gross and Nathan Ng and David Grangier and Michael Auli},
  booktitle = {Proceedings of NAACL-HLT 2019: Demonstrations},
  year = {2019},
}

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Fairseq-用Python编写的Facebook AI Research Sequence-to-Sequence工具包

最新消息：

功能：

要求和安装

快速入门

预先训练的模型和示例

加入FIRSEQ社区

许可证

引文

排行榜展示

Python 情人节超强技能导出微信聊天记录生成词云

你不得不知道的python超级文献批量搜索下载工具

Python 流程图 — 一键转化代码为流程图

7行代码 Python热力图可视化分析缺失数据处理

Python 优化—算出每条语句执行时间

你的10W块放哪里能赚最多钱？

文章展示

Python-‘ASCII’编解码器无法解码字节

TensorFlow中的tf.app.flags的目的是什么？

在Django Rest Framework的响应中包括中介（通过模型）

更改urllib2.urlopen上的用户代理

通过 kwargs将 kwargs参数传递给另一个函数

如何在Python中创建命名空间包？

Fairseq-用Python编写的Facebook AI Research Sequence-to-Sequence工具包

最新消息：

功能：

要求和安装

快速入门

预先训练的模型和示例

加入FIRSEQ社区

许可证

引文

相关文章

排行榜展示

文章展示