网站地址
- GitHub页面(国外):https://ailearning.apachecn.org
- Gitee页面(国内):https://apachecn.gitee.io/ailearning
下载
Docker
docker pull apachecn0/ailearning
docker run -tid -p <port>:80 apachecn0/ailearning
# 访问 http://localhost:{port} 查看文档
PYPI
pip install apachecn-ailearning
apachecn-ailearning <port>
# 访问 http://localhost:{port} 查看文档
NPM
npm install -g ailearning
ailearning <port>
# 访问 http://localhost:{port} 查看文档
组织介绍
- 合作或侵权,请联系:
apachecn@163.com
- 我们不是apache的官方组织/机构/团体,只是apache技术栈(以及AI)的爱好者!
一种新技术一旦开始流行,你要么坐上压路机,要么成为铺路石.–斯图尔特·布兰德(Stewart Brand)
路线图
- 入门只看:步骤1=>2=>3,你可以当大牛!
- 中级补充-资料库:https://github.com/apachecn/ai-roadmap
补充
- 头条视频汇总:https://www.ixigua.com/home/85684906755
- 算法刷题:https://www.ixigua.com/pseries/6822642486343631363/
- 面试求职:https://www.ixigua.com/pseries/6822563009391493636/
- 机器学习实战:https://www.ixigua.com/pseries/6822816341615968772/
- nlp教学视频:https://www.ixigua.com/pseries/6828241431295951373/
- AI常用函数说明:https://github.com/apachecn/AiLearning/tree/master/AI常用函数说明.md
1.机器学习-基础
支持版本
版本 | 支持 |
---|---|
3.6.x | ❌ |
2.7.x | ✅ |
注意事项:
- 机器学习实战:仅仅只是学习,请使用Python 2.7.x版本(3.6.x只是修改了部分)
基本介绍
- 资料来源:行动中的机器学习(机器学习实战-个人笔记)
- 统一数据地址:https://github.com/apachecn/data
- 书籍下载地址:https://github.com/apachecn/data/tree/master/book
- 机器学习下载地址:https://github.com/apachecn/data/tree/master/机器学习
- 深度学习数据地址:https://github.com/apachecn/data/tree/master/深度学习
- 推荐系统数据地址:https://github.com/apachecn/data/tree/master/推荐系统
- 视频网站:优酷/bilibili/acun/网易云课堂,可直接在线播放。(最下方有相应链接)
- –推荐红色石头:台湾大学林轩田机器学习笔记
- –推荐机器学习笔记:https://feisky.xyz/machine-learning
学习文档
模块 | 章节 | 类型 | 负责人(GiHub) | |
---|---|---|---|---|
机器学习实战 | 第 1 章: 机器学习基础 | 介绍 | @毛红动 | 1306014226 |
机器学习实战 | 第 2 章: KNN 近邻算法 | 分类 | @尤永江 | 279393323 |
机器学习实战 | 第 3 章: 决策树 | 分类 | @景涛 | 844300439 |
机器学习实战 | 第 4 章: 朴素贝叶斯 | 分类 | @wnma3mz @分析 |
1003324213 244970749 |
机器学习实战 | 第 5 章: Logistic回归 | 分类 | @微光同尘 | 529925688 |
机器学习实战 | 第 6 章: SVM 支持向量机 | 分类 | @王德红 | 934969547 |
网上组合内容 | 第 7 章: 集成方法(随机森林和 AdaBoost) | 分类 | @片刻 | 529815144 |
机器学习实战 | 第 8 章: 回归 | 回归 | @微光同尘 | 529925688 |
机器学习实战 | 第 9 章: 树回归 | 回归 | @微光同尘 | 529925688 |
机器学习实战 | 第 10 章: K-Means 聚类 | 聚类 | @徐昭清 | 827106588 |
机器学习实战 | 第 11 章: 利用 Apriori 算法进行关联分析 | 频繁项集 | @刘海飞 | 1049498972 |
机器学习实战 | 第 12 章: FP-growth 高效发现频繁项集 | 频繁项集 | @程威 | 842725815 |
机器学习实战 | 第 13 章: 利用 PCA 来简化数据 | 工具 | @廖立娟 | 835670618 |
机器学习实战 | 第 14 章: 利用 SVD 来简化数据 | 工具 | @张俊皓 | 714974242 |
机器学习实战 | 第 15 章: 大数据与 MapReduce | 工具 | @wnma3mz | 1003324213 |
ml项目实战 | 第 16 章: 推荐系统(已迁移) | 项目 | 推荐系统(迁移后地址) | |
第一期的总结 | 2017-04-08: 第一期的总结 | 总结 | 总结 | 529815144 |
网站视频
当然我知道,第一句就会被吐槽,因为科班出身的人,不屑的吐了一口唾沫,说傻X,还评论Andrew Ng的视频.
我还知道还有一部分人,看Andrew Ng的视频就是看不懂,那神秘的数学推导,那迷之微笑的英文版的教学,我何尝又不是这样走过来的??我的心可能比你们都痛,因为我在网上收藏过上10部“机器学习”相关视频,外加国内本土风格的教程:7月+小象等等,我都很难去听懂,直到有一天,被一个百度的高级算法分析师推荐说:“机器学习实战”还不错,通俗易懂,你去试试??
我试了试,还好我的Python基础和调试能力还不错,基本上代码都调试过一遍,很多高大上的“理论+推导”,在我眼中变成了几个“加减乘除+循环”,我想这不就是像我这样的程序员想要的入门教程么?
很多程序员说机器学习TM太难学了,是的,真TM难学,我想最难的是:没有一本像“机器学习实战”那样的作者愿意以程序员Coding角度去给大家讲解!!
最近几天、GitHub涨了300颗STAR、加群的200人,现在还在不断的增加++,我想大家可能都是感同身受吧!
很多想入门新手就是被忽悠着收藏收藏再收藏,但是最后还是什么都没有学到,也就是“资源收藏家”,也许新手要的就是MachineLearning(机器学习) 学习路线图那就是。没错,我可以给你们的一份,因为我们还通过视频记录下来我们的学习过程.水平当然也有限,不过对于新手入门,绝对没问题,如果你还不会,那算我输!!
视频怎么看?
- 理论科班出身-建议去学习Andrew Ng的视频(Ng的视频绝对是权威,这个毋庸置疑)
- 编码能力强-建议看我们的《机器学习实战-教学版》
- 编码能力弱-建议看我们的《机器学习实战-讨论版》、不过在看理论的时候,看教学版-理论部分;讨论版的废话太多,不过在讲解代码的时候是一行一行讲解的;所以,根据自己的需求,自由的组合.
[免费]数学教学视频-可汗学院入门篇
- @于振梓推荐:可汗学院-网易公开课
概率 | 统计 | 线性代数 |
---|---|---|
可汗学院(概率) | 可汗学院(统计学) | 可汗学院(线性代数) |
机器学习视频-ApacheCN教学版
AcFun | B站 |
优酷 | 网易云课堂 |
[免费]机器/深度学习视频-吴恩达
机器学习 | 深度学习 |
---|---|
吴恩达机器学习 | 神经网络和深度学习 |
2.深度学习
支持版本
版本 | 支持 |
---|---|
3.6.x | ✅ |
2.7.x | ❌ |
入门基础
- 反向传递:https://www.cnblogs.com/charlotte77/p/5629865.html
- CNN原理:http://www.cnblogs.com/charlotte77/p/7759802.html
- RNN原理:https://blog.csdn.net/qq_39422642/article/details/78676567
- LSTM原理:https://blog.csdn.net/weixin_42111770/article/details/80900575
火炬-教程
–待更新
TensorFlow2.0-教程
–待更新
目录结构:
(切分(分词)
词性标注
命名实体识别
句法分析
wordnet可以被看作是一个同义词词典
词干提取(词干)与词形还原(词汇化)
TensorFlow2.0学习网址
3.自然语言处理
支持版本
版本 | 支持 |
---|---|
3.6.x | ✅ |
2.7.x | ❌ |
学习过程中-内心复杂的变化!
自从学习NLP以后,才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:
1) 国内: 就好像为了名气,举办工作装逼的会议,就是没有干货,全部都是象征性的PPT介绍,不是针对在做的各位
2)国外: 就好像是为了推动nlp进步一样,分享者各种干货资料和具体的实现。(特别是: python自然语言处理)
2. 论文的实现:
1) 各种高大上的论文实现,却还是没看到一个像样的GitHub项目!(可能我的搜索能力差了点,一直没找到)
2)国外就不举例了,我看不懂!
3. 开源的框架
1)国外的开源框架: tensorflow/pytorch 文档+教程+视频(官方提供)
2) 国内的开源框架: 额额,还真举例不出来!但是牛逼吹得不比国外差!(MXNet虽然有众多国人参与开发,但不能算是国内开源框架。基于MXNet的动手学深度学习(http://zh.d2l.ai & https://discuss.gluon.ai/t/topic/753)中文教程,已经由沐神(李沐)以及阿斯顿·张讲授录制,公开发布(文档+第一季教程+视频)。)
每一次深入都要去翻墙,每一次深入都要Google,每一次看着国内的说: 哈工大、讯飞、中科大、百度、阿里多牛逼,但是资料还是得国外去找!
有时候真的挺恨的!真的有点瞧不起自己国内的技术环境!
当然谢谢国内很多博客大佬,特别是一些入门的Demo和基本概念。【深入的水平有限,没看懂】
- [入门须知]必须了解:https://github.com/apachecn/AiLearning/tree/master/docs/nlp
- [入门教程]强烈推荐:火炬自然语言处理:https://github.com/apachecn/NLP-with-PyTorch
- 巨蟒自然语言处理第二版:https://usyiyi.github.io/nlp-py-2e-zh
- 推荐一个liuhuanyong大佬整理的nlp全面知识体系:https://liuhuanyong.github.io
- 开源-词向量库集合:
- https://www.cnblogs.com/Darwin2000/p/5786984.html
- https://ai.tencent.com/ailab/nlp/embedding.html
- https://blog.csdn.net/xiezj007/article/details/85073890
- https://github.com/Embedding/Chinese-Word-Vectors
- https://github.com/brightmart/nlp_chinese_corpus
- https://github.com/codemayq/chinese_chatbot_corpus
- https://github.com/candlewill/Dialog_Corpus
1.(使用场景(百度公开课)
第一部分入门介绍
- 1.)自然语言处理入门介绍
第二部分机器翻译
- 2.)机器翻译
第三部分篇章分析
第四部分单元-语言理解与交互技术
应用领域
中文分词:
- 构建DAG图
- 动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径
- 使用了SBME语料训练了一套HMM+维特比模型,解决未登录词问题
1.文本分类(文本分类)
文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析.
下面是一些很好的初学者文本分类数据集.
- 路透社Newswire主题分类(路透社-21578)。1987年年路透社出现的一系列新闻文件,按类别编制索引。另见RCV1,RCV2和TRC2那就是。
- IMDB电影评论情感分类(斯坦福)那就是。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
- 新闻组电影评论情感分类(康奈尔)那就是。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
有关更多信息,请参阅帖子:单标签文本分类的数据集那就是。
情感分析
比赛地址:https://www.kaggle.com/c/word2vec-nlp-tutorial
- 方案一(0.86):字数+朴素贝叶斯
- 方案二(0.94):lda+分类模型(knn/决策树/逻辑回归/svm/xgBoost/随机森林)
- a)决策树效果不是很好,这种连续特征不太适合的
- b)通过参数调整200年个主题,信息量保存效果较优(计算主题)
- 美国有线电视新闻网(方案三):word2vec+cnn
- 说实话:没有一个好的机器,是调不出来一个好的结果(:逃
通过AuC来评估模型的效果
2.语言模型(语言建模)
语言建模涉及开发一种统计模型,用于预测句子中的下一个单词或一个单词中的下一个单词.它是语音识别和机器翻译等任务中的前置任务.
它是语音识别和机器翻译等任务中的前置任务.
下面是一些很好的初学者语言建模数据集.
- 古腾堡项目、一系列免费书籍,可以用纯文本检索各种语言.
- 还有更多正式的语料库得到了很好的研究;例如:布朗大学现代美国英语标准语料库那就是。大量英语单词样本.谷歌10亿字语料库那就是。
新词发现
- 中文分词新词发现
- Python3利用互信息和左右信息熵的中文分词新词发现
- https://github.com/zhanzecheng/Chinese_segment_augment
句子相似度识别
- 项目地址:https://www.kaggle.com/c/quora-question-pairs
- 解决方案:word2vec+Bi-GRU
文本纠错
- 双字母+双音
3.图像字幕(图像字幕)
法师字幕是为给定图像生成文本描述的任务。
下面是一些很好的初学者图像字幕数据集.
- 上下文中的公共对象(COCO)那就是。包含超过12万张带描述的图像的集合
- Flickr 8K那就是。从Flickr.com获取的8千个描述图像的集合。
- Flickr 30K那就是。从Flickr.com获取的3万个描述图像的集合。欲了解更多,请看帖子:
4.机器翻译(机器翻译)
机器翻译是将文本从一种语言翻译成另一种语言的任务.
下面是一些很好的初学者机器翻译数据集.
- 加拿大第36届议会的协调国会议员那就是。成对的英语和法语句子.
- 欧洲议会诉讼平行语料库1996-2011那就是。句子对一套欧洲语言.有大量标准数据集用于年度机器翻译挑战;看到:
机器翻译
- 编码器+解码器(注意)
- 参考案例:http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html
5.问答系统(问答)
问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题.
下面是一些很好的初学者问题回答数据集.
- 斯坦福问题回答数据集(SQuAD)那就是。回答有关维基百科文章的问题.
- Deepmind问题回答语料库那就是。从每日邮报回答有关新闻文章的问题.
- 亚马逊问答数据那就是。回答有关亚马逊产品的问题.有关更多信息,请参阅帖子:
数据集: 我如何获得问答网站的语料库,如Quora或Yahoo Answers或Stack Overflow来分析答案质量?
6.语音识别(语音识别)
语音识别是将口语的音频转换为人类可读文本的任务.
下面是一些很好的初学者语音识别数据集.
- TIMIT声学 – 语音连续语音语料库那就是。不是免费的,但因其广泛使用而上市.口语美国英语和相关的转录.
- VoxForge那就是。用于构建用于语音识别的开源数据库的项目.
- LibriSpeech ASR语料库那就是。从librivox收集的大量英语有声读物.
7.自动文摘(文档摘要)
文档摘要是创建较大文档的简短有意义描述的任务.
下面是一些很好的初学者文档摘要数据集.
- 法律案例报告数据集那就是。收集了4000份法律案件及其摘要。
- TIPSTER文本摘要评估会议语料库那就是。收集了近200份文件及其摘要。
- 英语新闻文本的AQUAINT语料库那就是。不是免费的,而是广泛使用的.新闻文章的语料库.欲了解更多信息:
文档理解会议(DUC)任务那就是。在哪里可以找到用于文本摘要的良好数据集?
命名实体识别
- BI-LSTM CRF
- 参考案例:http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html
- crf推荐文档:https://www.jianshu.com/p/55755fc649b1
文本摘要
- 抽取式
- word2vec+textank
- word2vec推荐文档:https://www.zhihu.com/question/44832436/answer/266068967
- TEXTERAK推荐文档:https://blog.csdn.net/BaiHuaXiu123/article/details/77847232
图形图计算[慢慢更新]
- 数据集:data/nlp/graph
- 学习资料:电光图片X实战.pdf[文件太大不方便提供,自己百度]
知识图谱
- 知识图谱,我只认SimmerChan:【知识图谱-给AI装个大脑】
- 说实话,我是看这博主老哥写的博客长大的,写的真的是深入浅出.我很喜欢,所以就分享给大家,希望你们也喜欢.
进一步阅读
如果您希望更深入,本节提供了其他数据集列表.
- 维基百科研究中使用的文本数据集
- 数据集: 计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?
- 斯坦福统计自然语言处理语料库
- 按字母顺序排列的NLP数据集列表
- 该机构NLTK
- 在DL4J上打开深度学习数据
- NLP数据集
- 国内开放数据集:https://bosonnlp.com/dev/resource
贡献者信息
欢迎贡献者不断的追加
免责声明-[只供学习参考]
- ApacheCN纯粹出于学习目的与个人兴趣翻译本书
- ApacheCN保留对此版本译文的署名权及其它相关权利
协议
- 以各项目协议为准.
- ApacheCN账号下没有协议的项目,一律视为CC BY-NC-SA 4.0那就是。
资料来源:
- [比赛收集平台]:https://github.com/iphysresearch/DataSciComp
- https://github.com/pbharrin/machinelearninginaction
- https://machinelearningmastery.com/datasets-natural-language-processing
感谢信
最近无意收到群友推送的链接,发现得到大佬高度的认可,并在热心的推广
在此感谢:
- 量子位:https://www.zhihu.com/question/20472776/answer/691646493
- 人工智能前沿讲习:https://mp.weixin.qq.com/s/f2dqulxOPkt7k5hqPsydyQ