网站地址

GitHub页面(国外)：https://ailearning.apachecn.org
Gitee页面(国内)：https://apachecn.gitee.io/ailearning

下载

Docker

docker pull apachecn0/ailearning
docker run -tid -p <port>:80 apachecn0/ailearning
# 访问 http://localhost:{port} 查看文档

PYPI

pip install apachecn-ailearning
apachecn-ailearning <port>
# 访问 http://localhost:{port} 查看文档

NPM

npm install -g ailearning
ailearning <port>
# 访问 http://localhost:{port} 查看文档

组织介绍

合作或侵权，请联系：apachecn@163.com
我们不是apache的官方组织/机构/团体，只是apache技术栈(以及AI)的爱好者！

一种新技术一旦开始流行，你要么坐上压路机，要么成为铺路石.–斯图尔特·布兰德(Stewart Brand)

路线图

入门只看:步骤1=>2=>3，你可以当大牛！
中级补充-资料库：https://github.com/apachecn/ai-roadmap

补充

头条视频汇总：https://www.ixigua.com/home/85684906755
算法刷题：https://www.ixigua.com/pseries/6822642486343631363/
面试求职：https://www.ixigua.com/pseries/6822563009391493636/
机器学习实战：https://www.ixigua.com/pseries/6822816341615968772/
nlp教学视频：https://www.ixigua.com/pseries/6828241431295951373/
AI常用函数说明：https://github.com/apachecn/AiLearning/tree/master/AI常用函数说明.md

1.机器学习-基础

支持版本

版本	支持
3.6.x	❌
2.7.x	✅

注意事项：

机器学习实战:仅仅只是学习，请使用Python 2.7.x版本(3.6.x只是修改了部分)

基本介绍

资料来源：行动中的机器学习(机器学习实战-个人笔记)
统一数据地址：https://github.com/apachecn/data
- 百度云打包地址：https://github.com/apachecn/data/issues/3
书籍下载地址：https://github.com/apachecn/data/tree/master/book
机器学习下载地址：https://github.com/apachecn/data/tree/master/机器学习
深度学习数据地址：https://github.com/apachecn/data/tree/master/深度学习
推荐系统数据地址：https://github.com/apachecn/data/tree/master/推荐系统
视频网站:优酷/bilibili/acun/网易云课堂，可直接在线播放。(最下方有相应链接)
–推荐红色石头：台湾大学林轩田机器学习笔记
–推荐机器学习笔记：https://feisky.xyz/machine-learning

学习文档

模块	章节	类型	负责人(GiHub)	QQ
机器学习实战	第 1 章: 机器学习基础	介绍	@毛红动	1306014226
机器学习实战	第 2 章: KNN 近邻算法	分类	@尤永江	279393323
机器学习实战	第 3 章: 决策树	分类	@景涛	844300439
机器学习实战	第 4 章: 朴素贝叶斯	分类	@wnma3mz @分析	1003324213 244970749
机器学习实战	第 5 章: Logistic回归	分类	@微光同尘	529925688
机器学习实战	第 6 章: SVM 支持向量机	分类	@王德红	934969547
网上组合内容	第 7 章: 集成方法（随机森林和 AdaBoost）	分类	@片刻	529815144
机器学习实战	第 8 章: 回归	回归	@微光同尘	529925688
机器学习实战	第 9 章: 树回归	回归	@微光同尘	529925688
机器学习实战	第 10 章: K-Means 聚类	聚类	@徐昭清	827106588
机器学习实战	第 11 章: 利用 Apriori 算法进行关联分析	频繁项集	@刘海飞	1049498972
机器学习实战	第 12 章: FP-growth 高效发现频繁项集	频繁项集	@程威	842725815
机器学习实战	第 13 章: 利用 PCA 来简化数据	工具	@廖立娟	835670618
机器学习实战	第 14 章: 利用 SVD 来简化数据	工具	@张俊皓	714974242
机器学习实战	第 15 章: 大数据与 MapReduce	工具	@wnma3mz	1003324213
ml项目实战	第 16 章: 推荐系统（已迁移）	项目	推荐系统（迁移后地址）
第一期的总结	2017-04-08: 第一期的总结	总结	总结	529815144

网站视频

知乎问答-爆炸啦-机器学习该怎么入门？

当然我知道，第一句就会被吐槽，因为科班出身的人，不屑的吐了一口唾沫，说傻X，还评论Andrew Ng的视频.

我还知道还有一部分人，看Andrew Ng的视频就是看不懂，那神秘的数学推导，那迷之微笑的英文版的教学，我何尝又不是这样走过来的？？我的心可能比你们都痛，因为我在网上收藏过上10部“机器学习”相关视频，外加国内本土风格的教程：7月+小象等等，我都很难去听懂，直到有一天，被一个百度的高级算法分析师推荐说：“机器学习实战”还不错，通俗易懂，你去试试？？

我试了试，还好我的Python基础和调试能力还不错，基本上代码都调试过一遍，很多高大上的“理论+推导”，在我眼中变成了几个“加减乘除+循环”，我想这不就是像我这样的程序员想要的入门教程么？

很多程序员说机器学习TM太难学了，是的，真TM难学，我想最难的是:没有一本像“机器学习实战”那样的作者愿意以程序员Coding角度去给大家讲解！！

最近几天、GitHub涨了300颗STAR、加群的200人，现在还在不断的增加++，我想大家可能都是感同身受吧！

很多想入门新手就是被忽悠着收藏收藏再收藏，但是最后还是什么都没有学到，也就是“资源收藏家”，也许新手要的就是MachineLearning(机器学习) 学习路线图那就是。没错，我可以给你们的一份，因为我们还通过视频记录下来我们的学习过程.水平当然也有限，不过对于新手入门，绝对没问题，如果你还不会，那算我输！！

视频怎么看？

理论科班出身-建议去学习Andrew Ng的视频(Ng的视频绝对是权威，这个毋庸置疑)
编码能力强-建议看我们的《机器学习实战-教学版》
编码能力弱-建议看我们的《机器学习实战-讨论版》、不过在看理论的时候，看教学版-理论部分；讨论版的废话太多，不过在讲解代码的时候是一行一行讲解的；所以，根据自己的需求，自由的组合.

[免费]数学教学视频-可汗学院入门篇

@于振梓推荐:可汗学院-网易公开课

概率	统计	线性代数
可汗学院(概率)	可汗学院(统计学)	可汗学院(线性代数)

机器学习视频-ApacheCN教学版


AcFun	B站

优酷	网易云课堂

[免费]机器/深度学习视频-吴恩达

机器学习	深度学习
吴恩达机器学习	神经网络和深度学习

2.深度学习

支持版本

版本	支持
3.6.x	✅
2.7.x	❌

入门基础

火炬-教程

–待更新

TensorFlow2.0-教程

–待更新

目录结构：

(切分(分词)

词性标注

命名实体识别

句法分析

wordnet可以被看作是一个同义词词典

词干提取(词干)与词形还原(词汇化)

https://www.biaodianfu.com/nltk.html/amp

TensorFlow2.0学习网址

https://github.com/lyhue1991/eat_tensorflow2_in_30_days

3.自然语言处理

支持版本

版本	支持
3.6.x	✅
2.7.x	❌

学习过程中-内心复杂的变化！

自从学习NLP以后，才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:
  1) 国内: 就好像为了名气，举办工作装逼的会议，就是没有干货，全部都是象征性的PPT介绍，不是针对在做的各位
  2）国外: 就好像是为了推动nlp进步一样，分享者各种干货资料和具体的实现。（特别是: python自然语言处理）
2. 论文的实现: 
  1) 各种高大上的论文实现，却还是没看到一个像样的GitHub项目！（可能我的搜索能力差了点，一直没找到）
  2）国外就不举例了，我看不懂！
3. 开源的框架
  1）国外的开源框架:  tensorflow/pytorch 文档+教程+视频（官方提供）
  2) 国内的开源框架: 额额，还真举例不出来！但是牛逼吹得不比国外差！（MXNet虽然有众多国人参与开发，但不能算是国内开源框架。基于MXNet的动手学深度学习(http://zh.d2l.ai & https://discuss.gluon.ai/t/topic/753)中文教程,已经由沐神(李沐)以及阿斯顿·张讲授录制，公开发布(文档+第一季教程+视频）。)
每一次深入都要去翻墙，每一次深入都要Google，每一次看着国内的说: 哈工大、讯飞、中科大、百度、阿里多牛逼，但是资料还是得国外去找！
有时候真的挺恨的！真的有点瞧不起自己国内的技术环境！

当然谢谢国内很多博客大佬，特别是一些入门的Demo和基本概念。【深入的水平有限，没看懂】

[入门须知]必须了解：https://github.com/apachecn/AiLearning/tree/master/docs/nlp
[入门教程]强烈推荐：火炬自然语言处理：https://github.com/apachecn/NLP-with-PyTorch
巨蟒自然语言处理第二版：https://usyiyi.github.io/nlp-py-2e-zh
推荐一个liuhuanyong大佬整理的nlp全面知识体系：https://liuhuanyong.github.io
开源-词向量库集合：

1.(使用场景(百度公开课)

第一部分入门介绍

1.)自然语言处理入门介绍

第二部分机器翻译

2.)机器翻译

第三部分篇章分析

第四部分单元-语言理解与交互技术

4.)UNIT-语言理解与交互技术

应用领域

中文分词：

构建DAG图
动态规划查找，综合正反向(正向加权反向输出)求得DAG最大概率路径
使用了SBME语料训练了一套HMM+维特比模型，解决未登录词问题

1.文本分类(文本分类)

文本分类是指标记句子或文档，例如电子邮件垃圾邮件分类和情感分析.

下面是一些很好的初学者文本分类数据集.

路透社Newswire主题分类(路透社-21578)。1987年年路透社出现的一系列新闻文件，按类别编制索引。另见RCV1，RCV2和TRC2那就是。
IMDB电影评论情感分类（斯坦福）那就是。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
新闻组电影评论情感分类（康奈尔）那就是。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。

有关更多信息，请参阅帖子：单标签文本分类的数据集那就是。

情感分析

比赛地址：https://www.kaggle.com/c/word2vec-nlp-tutorial

方案一(0.86)：字数+朴素贝叶斯
方案二(0.94)：lda+分类模型(knn/决策树/逻辑回归/svm/xgBoost/随机森林)
- a)决策树效果不是很好，这种连续特征不太适合的
- b)通过参数调整200年个主题，信息量保存效果较优(计算主题)
美国有线电视新闻网(方案三)：word2vec+cnn
- 说实话:没有一个好的机器，是调不出来一个好的结果(：逃

通过AuC来评估模型的效果

2.语言模型(语言建模)

语言建模涉及开发一种统计模型，用于预测句子中的下一个单词或一个单词中的下一个单词.它是语音识别和机器翻译等任务中的前置任务.

它是语音识别和机器翻译等任务中的前置任务.

下面是一些很好的初学者语言建模数据集.

古腾堡项目、一系列免费书籍，可以用纯文本检索各种语言.
还有更多正式的语料库得到了很好的研究；例如：布朗大学现代美国英语标准语料库那就是。大量英语单词样本.谷歌10亿字语料库那就是。

新词发现

中文分词新词发现
Python3利用互信息和左右信息熵的中文分词新词发现
https://github.com/zhanzecheng/Chinese_segment_augment

句子相似度识别

项目地址：https://www.kaggle.com/c/quora-question-pairs
解决方案：word2vec+Bi-GRU

文本纠错

双字母+双音

3.图像字幕(图像字幕)

法师字幕是为给定图像生成文本描述的任务。

下面是一些很好的初学者图像字幕数据集.

上下文中的公共对象（COCO）那就是。包含超过12万张带描述的图像的集合
Flickr 8K那就是。从Flickr.com获取的8千个描述图像的集合。
Flickr 30K那就是。从Flickr.com获取的3万个描述图像的集合。欲了解更多，请看帖子：

探索图像字幕数据集，2016年

4.机器翻译(机器翻译)

机器翻译是将文本从一种语言翻译成另一种语言的任务.

下面是一些很好的初学者机器翻译数据集.

加拿大第36届议会的协调国会议员那就是。成对的英语和法语句子.
欧洲议会诉讼平行语料库1996-2011那就是。句子对一套欧洲语言.有大量标准数据集用于年度机器翻译挑战；看到：

统计机器翻译

机器翻译

编码器+解码器(注意)
参考案例：http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html

5.问答系统(问答)

问答是一项任务，其中提供了一个句子或文本样本，从中提出问题并且必须回答问题.

下面是一些很好的初学者问题回答数据集.

斯坦福问题回答数据集（SQuAD）那就是。回答有关维基百科文章的问题.
Deepmind问题回答语料库那就是。从每日邮报回答有关新闻文章的问题.
亚马逊问答数据那就是。回答有关亚马逊产品的问题.有关更多信息，请参阅帖子：

数据集: 我如何获得问答网站的语料库，如Quora或Yahoo Answers或Stack Overflow来分析答案质量？

6.语音识别(语音识别)

语音识别是将口语的音频转换为人类可读文本的任务.

下面是一些很好的初学者语音识别数据集.

TIMIT声学 – 语音连续语音语料库那就是。不是免费的，但因其广泛使用而上市.口语美国英语和相关的转录.
VoxForge那就是。用于构建用于语音识别的开源数据库的项目.
LibriSpeech ASR语料库那就是。从librivox收集的大量英语有声读物.

7.自动文摘(文档摘要)

文档摘要是创建较大文档的简短有意义描述的任务.

下面是一些很好的初学者文档摘要数据集.

法律案例报告数据集那就是。收集了4000份法律案件及其摘要。
TIPSTER文本摘要评估会议语料库那就是。收集了近200份文件及其摘要。
英语新闻文本的AQUAINT语料库那就是。不是免费的，而是广泛使用的.新闻文章的语料库.欲了解更多信息：

文档理解会议（DUC）任务那就是。在哪里可以找到用于文本摘要的良好数据集？

命名实体识别

BI-LSTM CRF
参考案例：http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html
crf推荐文档：https://www.jianshu.com/p/55755fc649b1

文本摘要

抽取式
word2vec+textank
word2vec推荐文档：https://www.zhihu.com/question/44832436/answer/266068967
TEXTERAK推荐文档：https://blog.csdn.net/BaiHuaXiu123/article/details/77847232

图形图计算[慢慢更新]

数据集：data/nlp/graph
学习资料：电光图片X实战.pdf[文件太大不方便提供，自己百度]

知识图谱

知识图谱，我只认SimmerChan：【知识图谱-给AI装个大脑】
说实话，我是看这博主老哥写的博客长大的，写的真的是深入浅出.我很喜欢，所以就分享给大家，希望你们也喜欢.

进一步阅读

如果您希望更深入，本节提供了其他数据集列表.

贡献者信息

贡献者/负责人/群管理：https://github.com/apachecn/AiLearning/issues/595

欢迎贡献者不断的追加

免责声明-[只供学习参考]

ApacheCN纯粹出于学习目的与个人兴趣翻译本书
ApacheCN保留对此版本译文的署名权及其它相关权利

协议

以各项目协议为准.
ApacheCN账号下没有协议的项目，一律视为CC BY-NC-SA 4.0那就是。

资料来源：

感谢信

最近无意收到群友推送的链接，发现得到大佬高度的认可，并在热心的推广

在此感谢：

量子位：https://www.zhihu.com/question/20472776/answer/691646493
人工智能前沿讲习：https://mp.weixin.qq.com/s/f2dqulxOPkt7k5hqPsydyQ

Python 实用宝典

AiLearning-AiLearning：机器学习-MachineLearning-ML、深度学习-DeepLearning-DL、自然语言处理nlp

网站地址

下载

Docker

PYPI

NPM

组织介绍

路线图

1.机器学习-基础

基本介绍

学习文档

网站视频

2.深度学习

入门基础

火炬-教程

TensorFlow2.0-教程

3.自然语言处理

1.(使用场景(百度公开课)

应用领域

中文分词：

1.文本分类(文本分类)

2.语言模型(语言建模)

3.图像字幕(图像字幕)

4.机器翻译(机器翻译)

5.问答系统(问答)

6.语音识别(语音识别)

7.自动文摘(文档摘要)

图形图计算[慢慢更新]

知识图谱

进一步阅读

贡献者信息

免责声明-[只供学习参考]

协议

资料来源：

感谢信

赞助我们

有趣好用的Python教程