/ 爬爬

爬爬教程之微信公众号文章数据

目前爬爬插件支持的微信数据有以下几类:

  • 文章内容数据(标题、内容)
  • 文章互动数据(点赞数、评论数、打赏数)
  • 文章评论数据(评论列表,含评论者昵称、头像、内容、点赞数)
  • 文章广告数据(文章底部展示的广告)
  • 文章打赏数据(打赏者头像)

这几类数据的获取接口不同,所对应的爬取方式和难度也不同。内容数据最容易获取,无论从微信里打开文章,还是从搜狗搜索里打开文章,都能获取到;其他四类数据,则需要有微信客户端 pass_ticket 等参数的配合,想要获取这些数据,必须使用专门的方法。

爬爬插件采用的方法如下:

  1. 在电脑上安装旧版本的微信客户端(Mac 需要 2.2.8 或以下,Windows 需要 1.5 以下)
  2. 在电脑微信客户端打开微信文章链接(可以通过文件传输助手从手机发送过来,也可以在微信上直接打开公众号推送的文章)
  3. 打开后,客户端会在 URL 中加上 pass_ticket 等参数,有了这些参数,后四类数据才会展示。以下是一个例子。
https://mp.weixin.qq.com/s?__biz=MzI2MjMxMzMzMQ==&mid=2247485898&idx=1&sn=...&chksm=...&scene=0&key=...&ascene=0&uin=...&devicetype=...&version=12020810&nettype=WIFI&lang=zh_CN&fontScale=100&pass_ticket=...

如果你打开文章时,URL 不是这样的格式,将无法获取后四类数据。

下图是没有后四类数据的效果:

no_data

下图是有后四类数据的效果:

has_data

内容数据包含以下字段:

  • accountId 公众号的微信号
  • author 公众号名称
  • accountDes 公众号简介(功能说明)
  • user_name 公众号原始 id
  • biz 公众号标识
  • mid 文章所在消息编号
  • idx 文章在当次推送中的位置,1 表示头条
  • title 文章标题
  • digest 文章摘要
  • oriUrl 阅读原文链接,若无原文链接则为空
  • copyrightStat 原创标识,1 表示原创,2表示转载,0 表示未标明
  • cover 头图地址
  • url 文章链接
  • ct 文章发布时刻的 UNIX 时间戳
  • date 文章发布日期(东 8 区)
  • time 文章发布时间

互动数据包含以下字段:

  • readCount 阅读数,100001 表示 10万+
  • likeCount 点赞数,100001 表示 10万+
  • commentCount 评论数(留言数)
  • rewardCount 打赏数

评论数据包含以下字段:

  • id 评论 ID
  • nick_name 评论者昵称
  • logo_url 评论者头像
  • create_time 评论创建时间
  • like_num 评论点赞数
  • is_top 是否置顶
  • content 评论内容

打赏数据包含以下字段:

  • 打赏者头像

广告数据包含以下字段:

  • 广告点击跳转 URL
  • 广告曝光监测 URL
  • 应用名称
  • 应用分类
  • 应用介绍
  • 应用地址
  • 公众号 ID
  • ...

下载爬爬

数据青年

数据青年

已被程序员界和产品经理界联合除名,喜欢数据、段子和黑科技。

Read More