数据挖掘专家,哪些数据分析和数据挖掘的牛人( 四 )


经过几天的评估,Jeff告诉Zayat,他无法帮他找到合适的赛马,相反,Seder几乎是用乞求的口气对Zayat说,“不要卖你的马,就是卖了你的房子,也不要卖你的马!”第二天,赛马第85号以30万美元成交,买主叫Bloodstock,其实Bloodstock就是Zayat本人 。在这次拍卖中,62匹赛马卖出了比85号高的价钱,其中有两匹马超过了100万美元 。3个与之后,85号赛马终于有了自己的名字——American Pharoah 。18月之后,在纽约郊区的一个周六的夜晚,American Pharoah成为了30年来第一匹得到三连冠的赛马 。
图片:摘自网络
那么是什么原因让这个哈佛的毕业生这么有自信选择American Pharoah呢?
Seder从哈佛毕业之后,有继续拿来一个法律和一个商学院的学位 。像大多数有相似背景的人一样,他毕业之后就去了华尔街 。
一天,在公司里他被一张有着辽阔的旷野的油画所吸引,这张油画激起了他内心对乡村生活的向往以及对马的热爱 。第二天,他就辞职搬到了宾夕法尼亚 。选赛马是非常具有挑战性的 。传统的方式认为遗传是最重要的因素 。但是如果我们看看数据,所有年度赛马(每年赛马的最高奖项)的后代,有3/4没有赢得任何主要的赛事 。
当然传统的方式也会看其它的信息,如马跑的姿态 。但关键是没有任何大家都认为有效的标准 。由于又有大量的热钱,使得整个系统变得非常低效 。10年前,一匹两个有史以来最好的赛马的后代,被1千6百万卖出,但只赢了3场比赛,共得到1万美元的奖金 。所以,Seder不想使用任何传统的方法,他只对数据有兴趣 。他对马进行各种的测量,包括鼻孔的大小,心率,肌肉,甚至粪便的重量 。但都没有什么结果 。
直到12年前,他有了突破,他决定去测量内脏的大小,他发现左心室的大小和马的成功非常相关 。他通过对马跑的姿势的数字化处理,发现一些和成功相关的姿态 。他还发现跑一会儿就发出哮声的马,这些马有的会卖出上百万,实际上很少会成功 。通常在1000匹赛马中,只有10匹可以通过Seder的数据标准 。而第85号赛马,它的左心室的大小是99.61%,加上其它的数据,Seder预测它是一匹10万里挑一,甚至百万里挑一的赛马 。
这一次,他是正确的 。
上面这个故事是我在Stephens-Davidowitz, Seth写的《Everybody Lies: Big Data, New Data, and What the Internet Can Tell Us About Who We Really Are》中看到的,有兴趣的同学可以看看 。
而朋友圈前一阵还流传着一篇关于林彪的文章,题目有些标题党《林彪:玩大数据的鼻祖》 。是说在辽沈战役开始后,林彪每天深夜都要值班参谋读出下属各个纵队、师、团用电台报告的当日战况和缴获情况 。林彪的要求很细,俘虏要分清军官和士兵,缴获的枪支,要统计出机枪、长枪、短枪,击毁和缴获尚能使用的汽车,也要分出大小和类别 。一天,他听参谋汇报的时候突然说“停”,问“刚才的念的在胡家窝棚那个战斗的缴获,你们听到了吗?”,在大家一脸茫然的时候他连问了三句:
“为什么那里缴获的短枪与长枪的比例比其它战斗略高?”
“为什么那里缴获和击毁的小车与大车的比例比其它战斗略高?”
“为什么在那里俘虏和击毙的军官与士兵的比例比其它战斗略高?”
他就次判断,那个战斗发生的地方,就是敌人的指挥所 。他命令部队乘胜追击,并且传达下口号“矮胖子,白净脸,金丝眼镜,湖南腔,不要放走廖耀湘!” 。刚刚庆幸脱身的廖耀湘,就这样成了俘虏 。林彪之所以可以做出准确及时的判断,是和他的数据积累和对数据的敏感分不开的,可以迅速在数据中发现异常点 。“数据的积累、数据的挖掘、分析、归纳、整理,是一支优秀团队所必须具备的基本素养,没有它,你永远是匹夫之勇 。”文章在最后这样总结到 。

推荐阅读