前面给你讲散点图的时候,讲过神枪手谬误,这是一个典型的控制数据范围导致错误的数据结论逻辑 。我们在生活中也很容易遇到这种陷阱,所以我在这里再给你强调一下 。
很多统计结果其实是被操纵的,他们把某些机缘巧合之下比较好的结果的相关数据放到一起,去证明一个不可能的事情,但是如果你再换一组数据,那么你就没有办法证明这个因果关系 。例如曾经在国内炒的火爆的全国牙防组故事就和这样的数据有关 。
在海外也有一些小众的牙膏制造商,为了证明自己的牙膏比其他牙膏有效果,只把好的结果公之于众 。包括很多“伪学术论文”引用的数据,也不是多次统计的结果,而是选取最优的结论给出来 。
所以你在看最终数据分析报告的时候,一定要看它的数据是不是先有枪眼再画靶子,或者先找到满意的结果再给你看统计数据,我们需要的是通过大量的随机样本给出的结果 。
时间长度不足——替代终点问题
还有一些数据在分析和统计的时候,由于时间长度不够,会造成数据统计的结果不准确 。这个在学术上我们叫做“替代终点问题”( surrogate endpoint problem) 。
比如我们要检测某种药物是不是可以延年益寿,这其实就需要投入大量的时间和资金,因为我们必须得等到人们去世以后才能知道他们的寿命 。
所以对于现在各种各样的保健品,如果它的宣传的作用是可以延年益寿的话,那大部分都是收你“智商税”的,因为这种测试非常难以完全实现 。即使服用这些药物的人最后长寿了,那也不能够代表这两种之间存在着因果关系,很有可能只是前面讲到的相关性 。
同理,你看这么多风险投资人在选择创业公司的时候,其实是靠大的方向和辨识团队来进行投资,而不是靠具体某些数据来表明这个创业公司是否靠谱 。因为相对一个创业公司来讲,公司的成立时间太短了,公司的数据不代表趋势,这就是替代终点问题 。
小结
学了这些场景以后,我们回过头来再看看开头的那些问题 。
打篮球真的能让人长高吗?这很有可能是因为长高的人都会去打篮球,而不是打篮球让人长高——因果倒置 。喝咖啡可以长寿?常喝咖啡的人一般都是白领阶级,他们的营养供给更高,所以他们可以长寿,而不是因为咖啡让他们长寿——相关性而非因果关系 。吃不吃早饭其实和你肥不肥胖没有什么关系,运动健康才和你的肥胖有关系——相关性而非因果关系 。爱笑的女孩子通常运气都不会太差?爱笑的女孩其实运气也有差的,最后她就不笑了,事实是因为运气好的女孩她们才会爱笑——因果倒置 。会撒娇的女人更好命?女人好不好命其实与另一半或者周围的人和环境更有关系,而不是和你会不会撒娇有关系——需要找到遗漏的 X 变量 。这节课是我们数据分析基础篇的最后一节课了 。在前面的课程里,我给你讲了非常多的数据统计的方法,你可以很快地把这些数据分析方法应用到自己的工作当中 。今天我们其实是换了个思路,给你主要讲的是数据本身的局限性 。数字相关并不等于因果关系,对于做数据分析和做数据决策来讲,我们更要懂业务才能够去了解真相,不然很容易就被数据忽悠了 。
数据分析就像是一门中西医结合的医学,既要有本章前面给你的这些数据分析办法,也要有接下来的章节会讲到的算法模型和工具 。最终还是需要你这个人像老中医一样,能够对这个业务本质有深刻的理解和把握,才能给出最终正确的结论 。让我们一起持续学习,一起共勉 。
推荐阅读
- 济南3040万二手车市场,济南那个地方可以买到便宜二手车辆
- 高铁动车票提前多少时间订,上海春运可以什么提前多长时间订火车票
- 你知道自己的月亮星座吗 月亮星座查询
- 可以不装踢脚线吗
- 12星座性格小测试 测试自己真正星座
- 分享天猫精灵可以绑定网易云音乐吗。
- 最适合在一起的4个星座配对 星座配对
- 十二星座的专属口红色 十二星座专属口红
- 我来分享荣耀平板V7Pro玩游戏可不可以开90帧。
- 小米手环4可以打电话吗 小米手环4能拨打电话吗