写给爬爬用户

爬爬是一个帮助用户采集数据的 Chrome 插件,可在 Chrome 及 Chromium 内核的浏览器中使用,如 QQ 浏览器、360 浏览器、搜狗浏览器等。

网络条件允许的情况下,推荐您从 Chrome Web Store 搜索「爬爬」直接安装;或者,您也可以从 http://toobigdata.com/papa-download/ 下载 CRX 文件安装。

爬爬目前支持的数据类型有:

  • 自媒体数据
    • 微信文章数据(文档
    • 今日头条文章数据(文档
  • 电商数据
    • 京东商品(文档
    • 京东商品评论(文档
    • 天猫商品(文档
    • 天猫商品评论(文档
    • 亚马逊商品(文档
    • 亚马逊商品评论(文档
    • Kickstarter 评论(文档
    • Kickstarter 用户(文档
    • 淘宝商品数据(文档
    • 淘宝众筹数据(文档
    • 大众点评数据(文档
  • 社交网络数据
    • 微博用户信息(文档
    • 微博用户关注(文档
    • 抖音视频数据(文档
    • 火山小视频数据(文档
  • 房产数据
    • 链家租房数据(文档
    • 我爱我家租房数据(文档
  • 影视数据
    • 豆瓣电影数据(文档

一、初次使用

视频演示:安装过程

  1. 安装插件并启用
  2. 点击右上角爬爬图标
  3. 使[爬数开关]处于开启状态
  4. 在弹出框中点击右上角 [设置],在下拉框中填写手机号并保存
  5. 若您会使用到微信文章回采功能,建议勾选[定时自动关闭微信文章],并设置回采页面数,需要注意回采页数越大,消耗时间越长,也有一定的机率被微信短暂封号(无法查看公众号历史文章,严重的情况下会看不到阅读点赞数)
  6. 可以随时调整配置,以满足您的需求

二、采集数据

视频演示:采集过程

对于多数类型的数据,爬爬实现了自动化爬数。您只要在爬数再在开关启用状态下,正常浏览网站即可,爬爬会在后台自动静默采集所支持页面的数据。

然后点击爬爬图标,点击【本地数据】,即可查看已采集的数据。

三、查看数据

点击插件图标并选择[我的数据]即可查看个人数据,您可以通过下拉菜单切换数据源查看。

当本地存储数据较多时,页面加载会变得缓慢,这时只要点击[清空本页数据]即可。

如采集量较大,建议您适时将页面上表格数据复制粘贴到 Excel 文件中,再清空后继续。

四、常见问题

  1. 爬爬会在浏览器本地存储一些数据,如果存储数据量过大的话,会使得页面加载变慢,这时可以通过本地数据页面右上角的按钮清空数据
  2. 如果微信数据采集不到,应该是客户端版本的问题,请参照微信数据部分的文档解决

五、更多数据

通过数据共享平台 TooBigData,你可以看到其他用户采集和分享的数据。另外,因为爬爬开源(Github),你可以轻松地定制采集脚本,实现适合自己的采集逻辑。

这里大致说一下新增一个数据源的思路:

  1. 在 scripts/config.js 中按格式新增数据源描述
  2. 在 scripts/track 中新增抓取逻辑(原生 JS),此目录下有个示例文件 demo.js 可供参考

六、意见反馈

如果你在使用过程中遇到问题,或者有什么建议,请发送邮件到 icewent+papa@gmail.com

数据青年

数据青年

已被程序员界和产品经理界联合除名,喜欢数据、段子和黑科技。

Read More