写给爬爬的新朋友

2017/12/24

爬爬(曾用名 EasyCralwer)是一个帮助用户采集数据的 Chrome 插件,可在 Chrome 及 Chromium 内核的浏览器中使用,如 QQ 浏览器、360 浏览器、搜狗浏览器等。

网络条件允许的情况下,推荐您从 Chrome Web Store 搜索「爬爬」直接安装;或者,您也可以从 http://toobigdata.com/papa-download/ 下载 CRX 文件安装。

爬爬目前支持的数据类型有:

  • 自媒体数据
    • 微信文章数据
    • 今日头条文章数据
  • 电商数据
    • 京东商品
    • 京东商品评论
    • 天猫商品
    • 天猫商品评论
    • 亚马逊商品
    • 亚马逊商品评论
    • 亚马逊商家后台消息
    • Kickstarter 评论
    • Kickstarter 用户
    • 淘宝众筹数据
    • 大众点评数据
  • 社交网络数据
    • 微博用户信息
    • 微博用户关注
  • 房产数据
    • 链家租房数据
    • 我爱我家租房数据
  • 影视数据
    • 豆瓣电影数据

一、初次使用

视频演示:安装过程

  1. 安装插件并启用
  2. 点击右上角爬爬图标
  3. 使[爬数开关]处于开启状态
  4. 在弹出框中点击右上角 [设置],在下拉框中填写手机号并保存
  5. 若您会使用到微信文章回采功能,建议勾选[定时自动关闭微信文章],并设置回采页面数,需要注意回采页数越大,消耗时间越长,也有一定的机率被微信短暂封号(无法查看公众号历史文章,严重的情况下会看不到阅读点赞数)
  6. 可以随时调整配置,以满足您的需求

二、采集数据

视频演示:采集过程

对于多数类型的数据,爬爬实现了自动化爬数。您只要在爬数再在开关启用状态下,正常浏览网站即可,爬爬会在后台静默采集所支持页面的数据。

然后点击爬爬图标,点击【我的数据】,即可查看已采集的数据。

采集微信数据

视频演示:微信回采

微信阅读点赞及评论数据较为特殊,需要客户端版本的配合。

Windows 版微信支持 1.x,Mac 版支持 2.2.8 及以下。如果是 Windows 电脑,推荐您使用 QQ 浏览器自带的微信也支持

必须在微信客户端中打开微信文章链接,可以是纯文本的链接,也可以是公众号直接推送的图文链接

在打开的微信文章页面中(要求爬数开关开启),顶部应该有采集成功的提示。页面底部还会出现留言、广告、赞赏列表等(这些内容在不使用插件的情况下通常不会显示)

若您要回采微信文章,可在某一篇文章成功采集后,点击插件图标,再点击弹出栏中的[文章回采]

接下来在新的页面中,插件会先获取当前公众号的历史文章列表,继而逐个打开文章链接进行采集。如果您在设置中勾选了[定时自动关闭](回采时建议打开),打开的文章会在 1 分钟后自动关闭

若您进行分钟监测,请先取消[定时自动关闭]。启动分钟监测后,文章大约每分钟刷新一次,自动采集数据。分钟监测最多持续 2 小时,超时后需要重新打开。

四、查看数据

点击插件图标并选择[我的数据]即可查看个人数据,您可以通过下拉菜单切换数据源查看。

当本地存储数据较多时,页面加载会变得缓慢,这时只要点击[清空本页数据]即可。

如采集量较大,建议您适时将页面上表格数据复制粘贴到 Excel 文件中,再清空后继续。

五、订阅更多数据

我们为会员准备了丰富的社交网络等研究数据,欢迎订阅

六、为什么说「高清无码」

因为我们开源,公开所有实现细节。您可以通过自定义,来实现对任何网页类型数据的爬取。

这里大致说一下新增一个数据源的思路:

  1. 在 scripts/config.js 中按格式新增数据源描述
  2. 在 scripts/track 中新增抓取逻辑(原生 JS)

获取更多数据及服务咨询,请关注微信公众号 toobigdata