微信小课 | 微信文章的去重和匹配
在小说阅读器中沉浸阅读
点上方“内参”订阅我,变身微信大明白!

一篇微信文章可能有好几个 URL,但其实他们都是一篇。今天的分享,郝老师教你怎么分辨,同时告诉你在 Excel 对微信文章匹配和去重的一些小技巧。
每个微信文章都有一个 URL,比如:
http://mp.weixin.qq.com/s?\_\_biz=MjM5ODQ5NzgxNg==&mid=203019998&idx=2&sn=8542f60e2a6342a149022f8ed94ade73&scene=4#wechat\_redirect
这个链接可以看作一篇微信文章的唯一标识。但它也有一些问题:
第一个问题是,它太长了,有些 Excel 公式不支持这么长的字符串。
第二个问题是,两个不一样的 URL,可能表示同一篇文章。比如这个 URL 和上一个 URL 实际上是一样的。
http://mp.weixin.qq.com/s?\_\_biz=MjM5ODQ5NzgxNg==&mid=203019998&idx=2&sn=8542f60e2a6342a149022f8ed94ade73&scene=6#wechat\_redirect
所以 URL 不能用作去重的依据,也不能用作匹配(比如vlookup)的依据。
怎么办呢?
其实,一篇文章的唯一指纹包含三个信息:
- 它是哪个公众号发的,在 URL 中表现为 biz
- 它是哪一条消息发的,在 URL 中表现为 mid(也可能是 appmsgid)
- 它在消息中是第几条,在 URL 中表现为 idx(也可能是 index)
有了这三个信息,就可以唯一确定一篇文章。
在去重或匹配的时候,我们可以将 URL 拆分、重组,得到文章的唯一标识,以作为去重和匹配的依据。
具体的办法可以是:
1. 把文章 URL 粘贴在一列,通过查找替换去除掉这一部分
http://mp.weixin.qq.com/s?\_\_biz=
2. 分列,分隔符是 &
3. 再用查找替换将 mid= , idx= 这些前缀去掉
4. 用 & 操作符连接 biz, mid, idx 这几列,我们就得到了一篇文章的唯一标识
内参
微信号:neineican
给微信小白和大白的内部参考
wx5s.com
暂无评论