Python 免登录微博数据爬虫(仅研究使用)-Python 实用宝典

微博数据是非常有价值的数据，这些数据可以用作我们进行一些系统开发时的数据源，比如前段时间发过的：Python 短文本识别个体是否有自杀倾向，在此文中，我们使用微博绝望树洞的数据，利用SVM做了一个简单的自杀倾向识别模型。

当然，微博数据的应用还不仅如此，如果你大胆详细，大胆猜测，将会有许多可以利用这些数据进行研究的机会。不过，技术是把双刃剑，有好有坏，我不希望各位拿着这个爬虫去做一些违反道德、法律的事情，应用于好的事务，才是技术诞生的初衷。

本文讲的是以用户为单位的爬虫，如果你希望能够定制自己需要的爬虫，请看这篇教程：Python 爬取微博树洞详细教程

1.准备

其实免登录的原理很简单，就是通过手机版的微博绕过其登录验证，大家可以用手机网页打开这个网址，你会发现其实大部分微博在你不登录的情况下都是可见的：
https://m.weibo.cn/u/2075686772

可见即可爬。因此，我们只需要调用这个微博数据的json接口即可获取到数据。不过我们不要一上来就直接撸代码，要善于利用Python开源社区的特点，上网上找相关的现成的成熟轮子，而不是自己动手做一个半成熟版，这样能节省许多时间。

经过一番搜索，我找到了这个免Cookie版的微博爬虫，dataabc开发的：
https://github.com/dataabc/weibo-crawler

其代码思路与我想的差不多，只需要调用json的数据接口即可获取数据：

下载该开源项目，可以上该网页直接Download, 也可以使用git:

git clone https://github.com/dataabc/weibo-crawler.git

如果你两个都不会，没关系，Python实用宝典后台回复 微博采集工具 即可下载。

2.配置采集参数

在开始采集数据前，你需要确保电脑上已经安装了Python，如果没有，请访问这篇文章：超详细Python安装指南进行安装。

安装完Python后，Windows环境下打开Cmd(开始—运行—CMD)，苹果系统环境下请打开Terminal(command+空格输入Terminal).

进入我们刚下载好的文件夹，输入以下命令安装所需要的模块:

pip install -r requirements.txt

看到许多个 Successfully installed xxx 则说明安装成功。

2.1 找到你需要爬的用户ID

点开你希望爬取的用户主页，然后查看此时的url，你会发现有一串数字在链接中，这个就是我们要用到的userID, 复制即可。

如果不是一串数字，可以点开任一条微博评论的页面，这时候上面的链接一定会有串数字，如果还是没有，就上手机版的微博页面找，这种时候就需要耐心和多尝试了。

2.2 修改config.json

获得用户的userID后，需要将ID写入到config.json的user_id_list数组中，如图所示：

其他参数如：
filter：控制爬取范围，值为1代表爬取全部原创微博，值为0代表爬取全部微博（原创+转发）
since_date: 爬取该日期之后的时间
write_mode: 写入的文件格式

下面的分别是：是否下载原创微博图片、是否下载转发微博图片、是否下载原创视频、是否下载转发的视频，如果为1则是，为0则为否。再往后如果你需要写入数据库，还可以配置MySQL或MongoDB的连接参数。

3.开始采集

配置好了以后，采集就很简单了，你只需要用CMD或Terminal进入该文件夹，输入：

python weibo.py

即可进行数据采集。采集结束后，如果你设定的是保存为csv文件，则会在当前文件夹下的weibo文件夹里产生一个名为该微博用户名的数字.csv文件，如：

weibo\阿森纳足球俱乐部\2075686772.csv

这个文件里就是你想要的数据。

该开源模块设计的功能其实非常完善，你看看下面这个列表就知道了。

真的太贴心辣，必须得感谢这位开源作者，如果你喜欢的话，记得上去他的仓库给他点个star哦！

我们的文章到此就结束啦，如果你希望我们今天的Python 教程，请持续关注我们，如果对你有帮助，麻烦在下面点一个赞/在看哦有任何问题都可以在下方留言区留言，我们都会耐心解答的！

Python实用宝典 (pythondict.com)
不只是一个宝典
欢迎关注公众号：Python实用宝典

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Python 免登录微博数据爬虫(仅研究使用)

1.准备

2.配置采集参数

2.1 找到你需要爬的用户ID

2.2 修改config.json

3.开始采集

评论(2)

提示：请文明发言取消回复

排行榜展示

Python 情人节超强技能导出微信聊天记录生成词云

你不得不知道的python超级文献批量搜索下载工具

Python 流程图 — 一键转化代码为流程图

7行代码 Python热力图可视化分析缺失数据处理

Python 优化—算出每条语句执行时间

你的10W块放哪里能赚最多钱？

文章展示

Python的init和self是做什么的？

django模板：包括和扩展

在Python中，如何按已排序的键顺序遍历字典？

漂亮的GitHub个人总览，原来这么容易实现

如何将2D float numpy数组转换为2D int numpy数组？

如何在Mac OS X上为Python 3安装pip？

Python 免登录微博数据爬虫(仅研究使用)

1.准备

2.配置采集参数

2.1 找到你需要爬的用户ID

2.2 修改config.json

3.开始采集

相关文章

评论(2)

提示：请文明发言 取消回复

排行榜展示

文章展示

提示：请文明发言取消回复