AI预测的2018年世界杯为什么不靠谱?


AI预测的2018年世界杯为什么不靠谱?



以下是我们从人工智能未能预测2018年俄罗斯世界杯结果中学到的东西 。
2018年俄罗斯世界杯于7月15日星期日结束 , 法国成为世界冠军 , 紧随其后的是克罗地亚和比利时 。 就像之前的2014年世界杯一样 , 许多研究人员都试图提前预测俄罗斯赛场上的比赛结果 。 今年 , 国际足联2018年世界杯也不例外 , 研究人员和科学家们试图利用人工智能(AI)和统计数据来预测世界杯64场比赛的结果 , 可它有多可靠呢?
在这篇文章中 , 我将谈及人工智能在预测2018年世界杯结果的表现 。 无论你是否是人工智能领域的专家 , 我会尽可能让这篇文章读起来简单易懂 。
预测世界杯结果的方法有很多种 , 一种方法是从团队的能力和获胜的几率上来成对模拟比较所有单场比赛 。 Zeileis , Leitner和Hornik(2018)使用了同样的技术 , 他们预测巴西将以16.6%的概率赢得2018年世界杯 , 紧随其后的是德国(15.8%)和西班牙(12.5%) 。
瑞银集团(UBS)也预测了三支球队的排名 , 但顺序不同 。 他们预测德国(24.0%)是冠军 , 其次是巴西(19.80%)和西班牙(16.1%) 。 该模型的产生基于四项因素:一是Elo评级系统的评分;二是球队在世界杯前的表现;三是球队在之前的世界杯比赛中取得的成绩;四是主场优势 。
该模型通过10000次蒙特卡罗模拟(Monte Carlo simulations)校准来确定球队的获胜概率和最后五场比赛的结果 。
2018年6月8日 , 多特蒙德技术大学(德国)、根特大学(比利时)和慕尼黑工业大学(德国)的四名研究人员(A. Groll et al.等)在arXiv上发布了一篇关于2018年世界杯结果预测的研究论文 。 他们使用是著名的人工智能算法:随机森林(Random Forest)和泊松排名算法(Poisson ranking algorithm) 。 6月14日 , 在俄罗斯与沙特阿拉伯举行的世界杯揭幕战之前 , 这篇文章被发表在网上 。 他们使用了一个数据集 , 该数据集能够涵盖过去四届世界杯(2002-2014)的所有比赛 。 他们预测西班牙将成为冠军 , 紧随其后的是德国和巴西 。 以上三项研究都提及了西班牙、德国和巴西三个顶级团队 , 只是顺序不同 。 他们使用了三种不同的方法、数据和数据特性 , 但预测结果几乎是一样的 。 现在 , 世界杯已经结束了 , 我们可以看到 , 所有这些模型都未能正确预测世界杯的结果 , 也没有任何预测真正发生 。
在这些研究中 , A. Groll et al等人的研究方法是我在这一领域的最爱 。 首先 , 他们使用了一个好的数据源;其次 , 他们考虑了许多训练的特点和参数 。 第三 , 他们采用了随机森林的算法 。 在本文的其余部分中 , 我将讨论其数据特性、错误以及在该领域失败的原因 。
数据特性
A.Groll et al.等人考虑了与团队本身相关的各种特征 , 例如:经济因素(人均GDP、人口);体育因素(ODDSET概率 , 国际足联排名);主场优势(东道主、洲、联盟);球队的结构因素(每支球队成员的最大数量、平均年龄、冠军联赛球员的数量);球队的教练因素(年龄、任期、国籍) 。 总的来说 , 他们为每个队和每届世界杯总结了16个数据特性作为考虑因素 。
分类模型
正如我前面提到的 , 他们使用了“随机森林(Random Forest)”的方法 , 这是人工智能和数据挖掘中众所周知的算法之一 。 该算法以“决策树(Decision Tree)”为基础 , 在许多案例中 , 决策树在数据分类中表现出较高的性能 。 他们还使用泊松模型(Poisson models) , 根据球队当前的能力对团队进行排名 。
预测
在完成了10万次比赛的模拟后 , 预计西班牙将以28.9%的几率成为冠军 , 紧随其后的是德国(26.3%)和巴西(21.9%) 。

推荐阅读