TooBigData 会员通讯第 2 期:我做了一个数据插件和一个数据平台
原创 Wentao Wentao NewMarTech
在小说阅读器中沉浸阅读
Hi,
我是 Wentao。国庆这几天,把过去爬的各种数据以及方法做了个总结,完成了一个小项目。成果有两个,一个是运行在浏览器上的数据爬虫插件,一个是线上数据平台。
前者可以在 Google Web Store 里搜索 EasyCrawler 安装,完全免费;后者还在搭建中,下文中我会放出几张截图。
做这个事情的初衷,简言之,就是为了让大多数人能方便而又低成本地获取数据用来做研究。
我们在日常工作中多多少少需要些各种各样的数据,比如微博火的时候想要微博数据,微信火的时候想要微信数据,后来直播火了大家都关注直播的数据,电影上映了票房几十亿想看看豆瓣上的数据……我们平时会看到很多文章介绍怎样用 Python 或者其他什么语言爬数据,然而写爬虫代码对于普通人的要求还是有点高,我一个运营/一个产品/一个商务/一个文科生,干嘛要我搞这些艰深晦涩的爬虫代码?
所以我想做一个不需要写代码,也不需要分析各个网站接口或者页面内容规则的工具,让用户只要打开页面就可以爬数据,爬完数据就可以快速查看和导出。
如果正好能解决你的需求,你可以从 Chrome 应用商店里安装这个插件体验一下。


浏览器插件用于本地爬数和简单看数。搜索引擎用于搜索爬到的数据。平台设计了一套共享机制,每个用户爬到的数据,除了自己在本地可以看到,还会上传到服务器,经过一套相对复杂的处理流程后,以匿名方式分享给所有会员。需要注意的是,因为浏览器本地存储和计算的局限,服务端的数据要比浏览器插件里看到的多并且深入。
目前插件支持的数据源主要有几类:
- 微信文章,包含阅读点赞评论和打赏以及文章标题作者等基础信息
- 微信文章评论,包含点赞数量
- 豆瓣电影,包含豆瓣评分、评分人数、评分分布、影评数、短评数、提问数等
- 淘宝众筹,包含众筹金额、人数、分档等
- 链家及我爱我家租房,包含房屋价格、位置等
- 京东及天猫商品评论数据
- 大众点评里的店铺数据
如果这里没有包含您想要的数据,您可以申请定制。
这其中,大部分数据源都可以打开网页直接抓取。微信文章的数据比较特殊,在获取数据时,需要携带一个用户的身份信息,这个逻辑我在插件里也做了处理,所以在爬数据时有两个要求,一是微信文章需要从微信桌面客户端点开,二是客户端的版本需要老一些,Mac 版最好在 2.2.8 以下,Windows 版最好在 2.0 以下,如果您用的是 Windows,强烈建议安装 QQ 浏览器,使用浏览器自带的微信,就不用纠结于版本了。
微信数据获取的原理主要是模拟在手机上打开,这样就能看到桌面端被隐藏的阅读点赞数据,打赏列表和评论列表,以及微信广告,甚至投票也可以使用,这些在电脑上默认是没有的。
如果这个插件能帮到您,请毫不犹豫地拿去用,永久免费,这可以满足大部分日常工作中的数据需求,比如想要采集一个微信公众号的历史文章数据,只要几分钟到十几分钟就可以。
如果您想查看更多更全的数据,就要介绍下会员数据平台了。这是个收费服务,成为付费会员即可享用。
数据平台还在整理中,这里贴出几张近照。



前边已经提到过,这个数据平台包含所有浏览器插件用户采集到或者说生成的数据,我们算 UGD,还包括一些 PGD,由我和一些做数据工作的小伙伴有计划地采集,质量会更高一些。
正式的会员价格会在 10 月底放出。具体的价格我还没想好,大约会是一个三到四位数的年费。我会给早期会员一个福利,在 10 月 31 号之前,这个会员价格,只要不低于 200 元,你说多少就多少。如果你能在微信通讯录里找到我,证明我们是好友的话,只要不低于 100 元即可。我会参考大家的出价确定正式价格,可以承诺的一点是一定会比 80% 的出价高。
这是微信收款二维码,感谢支持!付费后,会员将于 11 月初获得平台账号。前 10 位付费的用户可以在正式发布前获得内测账号,早用早享受。


特别提醒,如果你在去年购买过数据会员,可以免费获得会员订阅资格,时长按当时的订单计。
长假结束,开工大吉,祝一切顺利!
暂无评论