数据|是如何坑人的?

编辑导语:随着大数据时代的不断升级,数据在我们的生活工作中显得尤为重要,其实在很早之前人类就用数据来进行记录,随着社会的发展,网络时代更需要数据的记录以及支撑。本篇文章中作者从三方面详细的讲述了关于数据的“坑”,一起来看一下吧。
数据|是如何坑人的?
文章插图
开篇直接看案例:现有两个广告素材A和B,要测一下它们谁更能吸引用户转化,评比的指标是转化率。(转化率=转化数/曝光数)
为保证实验公平,它们都设置了相同的预算额度,并且都在中午12点开始投放,然后到了晚上12点同时关闭。
这样跑了半天,两组广告也都基本花完了预算,结果发现:

  • A一共曝光6500次,转化了70个用户,转化率是1.077%;
  • B一共曝光6200次,也转化70个用户,转化率是1.129%;
看到结果后,广告投放师小李就认为:B素材的转化率更高。
这时,营销总监老王却说:到目前为止,我更愿意相信A要高一些。
小李一脸懵逼,问:为啥啊?
老王嘬了一口星巴克,解释道:即使是相同的广告,在不同的时段也会有不同的转化率。一般来说,下午的转化率是低于晚上的,因为大部分人白天都有事情,不太容易被转化,而到了晚上,大家都有空了,所以更容易被转化。
小李又问:你说的对,但跟这次投放实验有啥关系呢?
老王继续说:我刚从后台看了素材的来量情况——A素材下午转化50个,曝光5000次,晚上转化20个,曝光1500次;B素材下午转化20个,曝光2200次,晚上转化50个,曝光4000次。
其实不管是下午还是晚上,A的转化率都是更高的。而你之所以认为B更高,主要是因为B在晚上才跑出了量——它捏的“软柿子”比较多,你就误以为它更厉害…
数据|是如何坑人的?
文章插图
看到这里,可能你还有点懵:是啊,如果拆开来看,确实A更高,但合并看总数的话,又是B更高…
那这到底该怎么看呢?
一、坑1:辛普森悖论上文的现象,就是典型的“辛普森悖论”(Simpson’s Paradox)——在某个条件下的两组数据,分别讨论时都会满足某种性质,可一旦合并考虑,却可能导致相反的结论。
这也是在其他领域的工作中经常会遇到,并且经常会坑人的一个现象。
几乎每一家公司,上司都会让下属把业务层面的各种数据进行汇总,然后呈报给自己,并自以为了解了“总体”的情况。
不过,谷歌的一位数据大牛曾说过:“汇总的数据往往就是一坨屎,没有任何意义。”
为什么这样说?
抛开专业的数学分析,如果用最通俗的语言来解释,我认为就是:20头猪就是20头猪,50颗树就是50颗树,但如果你硬要把它们加起来(20+50=70),这个70是毫无意义的——它能代表什么呢?什么都代表不了。
数据|是如何坑人的?
文章插图
汇总的数据,除了象征性的汇报工作,往往并无其他意义。为什么说是“象征性”的?
因为如果汇报工作是为了指导决策,那很可能就把人带进了坑里。
就像上文广告素材的案例,如果营销总监想偷懒,只看最后的结果,那他很可能就误判了广告素材的优劣。更严重的,甚至会导致后续投放的素材都沿着“坏素材”的方向去优化。
还好他有一定数据分析的基础,避免了这个坑。
所以在真实的情况中,如果一定要就此盖棺定论,确实是A要高一些。(当然更科学的做法是继续实验,并通过加大预算/严控时段,来减少偶然性,以及不同性质的数据占比的差距)