🎉Life is fantastic🥳!~
“你知道你所有的门都锁上了吗?“–”Riddick“(Riddick的编年史)
创建者@kris
💕网站登录模式
一些爬虫示例程序,以及模拟登陆程序,模拟登陆基于Selenium、有些模拟登录基于js逆向,持续更新,有问题可以直接提交Issues、欢迎提交PR、测试通过可以直接Merge、文中所有程序都是使用python3
编写:-)
关于
模拟登陆基本采用的是直接登录或者使用Selenium+WebDriver的方式,有的网站直接登录难度很大,比如QQ空间,bilibili等如果采用Selenium就相对轻松一些。
虽然在登录的时候采用的是Selenium,为了效率,我们可以在登录过后得到的Cookie维护起来,然后调用请求或者Scrapy等进行数据采集,这样数据采集的速度可以得到保证。
网络驱动程序
已完成
- 虾米音乐
- 微博网页版
- 知乎
- QQZone
- CSDN
- 淘宝-接口修复完成-可用
- CSDN–已重构
- Baidu
- 果壳
- JingDong 模拟登录和自动申请京东试用
- 163mail
- 拉钩
- Bilibili
- 豆瓣
- 豆瓣spider
- Baidu
- 猎聘网
- 微信网页版登录并获取好友列表
- Github
- 爬取图虫相应的图片
- 网易云音乐
- 糗事百科–改为协程版
- 百度贴吧spider
- 百度翻译
目录
- 虾米音乐
- Facebook模拟登录
- 微博网页版模拟登录
- QQZone模拟登录
- CSDN模拟登录–已恢复
- 淘宝爬虫–重构中
- Baidu模拟登录一
- 果壳爬虫程序
- JingDong 模拟登录和自动申请京东试用
- 163mail–已恢复
- 拉钩模拟登录–已失效
- Bilibili模拟登录
- 豆瓣
- Baidu2模拟登录
- 猎聘网模拟登录
- 微信网页版登录并获取好友列表
- Github模拟登录两种解决方案都可行
- 爬取图虫想要的图片
- 网易云音乐downloader
- 糗事百科爬虫
- 淘宝登陆-访问
测试
信息
- 为感谢你们的支持,准备写一套免费爬虫的教程,保证你学会以后可以爬取市面上大部分的网站教程地址
拉取请求提示
- 欢迎大家一起来拉取请求💗
问题
- 关于验证码:本项目所用的方法都没有处理验证码,识别复杂验证码的难度就目前来说,还是比较大的.以我的心得来说,做爬虫最好的方式就是尽量规避验证码.
- 代码失效:由于网站策略或者样式改变,导致代码失效,请给我提问题,如果你已经解决,可以提PR,谢谢!
- 正在对部分代码进行优化..。
- 如果该Repo对大家有帮助,记得STAR哦。
确认
- 感谢以上开发者的支持和贡献.
联系我
- 欢迎反馈!
- 我的电子邮件地址:criselyj@163.com
注意:
- 本项目仅用于学习和交流
欢迎任何人参与和完善:一个人可以走的很快,但是一群人却可以走的更远