爬爬教程之微博用户数据

安装爬爬插件后,当页面 URL 符合如下格式时,会触发微博用户数据的爬取:

'.weibo.com/p/./follow.*'

解释一下,网址要包含 weibo.com/p ,并且要有 follow 字样。没错,这就是微博网页版上用户关注页面。举个例子:

https://weibo.com/p/1005055198415504/follow?from=page_100505&wvr=6&mod=headfollow#place

打开这个/这类页面后,按 Ctrl + R 刷新一下页面,就会看到发现数据的提示。

强调一下,打开微博用户关注或粉丝列表页面后,必须手工刷新一下页面才能爬数。

点击右侧的爬爬页面中的 翻页爬 可以翻页取得数据,这适合大多数场景。如果你要爬的是一个快速涨粉的大 V(比如每秒种都会多几十个粉丝),那么 当页爬 可能对你有帮助,点击后,页面将不断刷新,爬爬就能爬到实时新增的粉丝。

这里要做个说明。由于微博产品的限制,你无法查看用户的所有粉丝列表或关注列表,翻几页之后就会提示无法继续翻页。不幸中的万幸是,如果当前页面上的微博用户是你的粉丝,你就可以无限制地爬完他的关注列表。

爬爬实现的方法是通过在浏览器上打开页面(用户关注/粉丝列表)来采集显示在页面上列表中的微博用户信息。

微博用户关注列表上的用户信息

通过这种方式,可以获得微博用户如下数据:

  • 昵称
  • 关注数
  • 粉丝数
  • 微博数
  • 地址
  • 简介

爬爬还有另外一种方法可以获得更详细的微博用户数据,是从单个用户详情页面,链接大概是这个样子:

https://weibo.com/p/1005052871776645/info?mod=pedit_more

在这个页面上可以采集到更多字段,包括:

  • 性别
  • 注册时间
  • 标签(如果有)
  • 教育信息(如果有)
  • 职业信息(如果有)

这些数据可在爬爬本地数据和 TooBigData 数据平台上查到。另外,原始数据中还会记录用户关系(当前页面用户与列表中用户的关注与被关注关系),但因某些原因没有呈现。

这里说一些额外的话,早期微博用户的数据可以通过微博 API 几乎无限制地获取(甚至包含用户收藏微博数这个相对隐私的数据),后来随着微博数据商业化的推进,几乎所有接口都受到了限制,免费获取数据变得艰难起来。


下载爬爬

数据青年

数据青年

已被程序员界和产品经理界联合除名,喜欢数据、段子和黑科技。

Read More