营销

微信小课 微信文章的去重和匹配

微信小课 微信文章的去重和匹配

微信小课 | 微信文章的去重和匹配

NewMarTech

在小说阅读器中沉浸阅读

点上方“内参”订阅我,变身微信大明白!

一篇微信文章可能有好几个 URL,但其实他们都是一篇。今天的分享,郝老师教你怎么分辨,同时告诉你在 Excel 对微信文章匹配和去重的一些小技巧。

每个微信文章都有一个 URL,比如:

http://mp.weixin.qq.com/s?\_\_biz=MjM5ODQ5NzgxNg==&mid=203019998&idx=2&sn=8542f60e2a6342a149022f8ed94ade73&scene=4#wechat\_redirect

这个链接可以看作一篇微信文章的唯一标识。但它也有一些问题:

第一个问题是,它太长了,有些 Excel 公式不支持这么长的字符串。

第二个问题是,两个不一样的 URL,可能表示同一篇文章。比如这个 URL 和上一个 URL 实际上是一样的。

http://mp.weixin.qq.com/s?\_\_biz=MjM5ODQ5NzgxNg==&mid=203019998&idx=2&sn=8542f60e2a6342a149022f8ed94ade73&scene=6#wechat\_redirect

所以 URL 不能用作去重的依据,也不能用作匹配(比如vlookup)的依据。

怎么办呢?

其实,一篇文章的唯一指纹包含三个信息:

  1. 它是哪个公众号发的,在 URL 中表现为 biz
  2. 它是哪一条消息发的,在 URL 中表现为 mid(也可能是 appmsgid)
  3. 它在消息中是第几条,在 URL 中表现为 idx(也可能是 index)

有了这三个信息,就可以唯一确定一篇文章。

在去重或匹配的时候,我们可以将 URL 拆分、重组,得到文章的唯一标识,以作为去重和匹配的依据。

具体的办法可以是:

1. 把文章 URL 粘贴在一列,通过查找替换去除掉这一部分

http://mp.weixin.qq.com/s?\_\_biz=

2. 分列,分隔符是 &

3. 再用查找替换将 mid= , idx= 这些前缀去掉

4. 用 & 操作符连接 biz, mid, idx 这几列,我们就得到了一篇文章的唯一标识

内参

微信号:neineican

给微信小白和大白的内部参考

wx5s.com

阅读原文

暂无评论

参与讨论