现在,让我们将这个概念扩展到更高的维度 。在数学上添加更多的维度相对容易,但是很难在空间上可视化它们 。如果我们添加第四个维度,则它必须与之前的所有三个维度都正交 。在这样的四维空间中,原点的坐标为(0,0,0,0) 。三维空间中的点(1,1,1)可以在四维空间中具有坐标(1,1,1,0) 。
只要确保正交性,就可以保证坐标的唯一性 。同样地,我们可以有任意数量的维度,所有的数学计算仍然成立 。
考虑前面描述的鸢尾花数据示例 。输入有4个特征:萼片和花瓣的长度和宽度 。由于这4个特征相互独立,所以它们可以看作是正交的 。因此,当使用鸢尾花数据解决问题时,我们实际上是在处理四维输入空间 。
09 维数灾难即使从数学的角度来看,增加任意数量的维度都是可以的,但是仍然存在一个问题 。随着维度的增加,数据的密度呈指数下降 。
例如,如果我们在训练数据中有1000个数据点,并且数据具有3个独有的特征 。假设所有特征的值在1~10之间 。所有这1000个数据点都位于一个大小为101010的立方体中 。因此,密度为1000/1000或每单位立方体1个样本 。如果有5个独有的特征而不是3个,那么数据的密度很快就会下降到每单位5维立方体0.01个样本 。
数据的密度很重要,因为数据的密度越高,找到一个好模型的可能性就越大,模型准确性的置信度就越高 。如果密度很低,则使用该数据的训练模型的置信度就会很低 。因此,尽管高维在数学上是可以接受的,但是人们需要注意维数,以便能够开发出具有高置信度的良好的机器学习模型 。
10 奥卡姆剃刀原理在开发和应用机器学习模型时,总是会遇到多种可能的解决方案和多种可能的方法来获得答案 。很多时候,对于哪种解决方案或哪种方法比其他方法更好,没有任何理论指导 。在这种情况下,奥卡姆剃刀原理的概念(有时也称为简约原则)可以有效地应用 。该原理指出:
一个人不应该做出超过最低需求的假设,或者换句话说,当一个解决方案有多种选择时,最简单的方法就是最好的 。这个原理不完全是一个定理,不能作为一个定量规则或方程来应用 。但是,在现实生活中做出这样的决定时,它是一个强有力的有效的概念指南 。
还需要注意的是,这条规则创建了一种折中的形式,一方面,我们拥有更多复杂性形式的信息,另一方面,我们却拥有更少的简单性形式的信息 。人们不应该过于简单化问题,以致丢失一些核心信息 。奥卡姆剃刀原理的另一个衍生方面是更简单的解决方案往往具有更多的泛化能力 。
11 “没有免费的午餐”定理在设计机器学习系统时,需要注意的另一个有趣的概念来自Wolpert和Macready的论文,其形式是“没有免费的午餐”定理或优化中的NFL定理 。该定理实质上指出:
如果一个算法在某类问题上表现得更好,那么它会以在其他类别的问题上性能下降的形式付出代价 。换句话说,对于所有类型的问题,你都无法拥有单一最佳的解决方案 。这个定理需要更多地作为指导原则而不是定律,因为在所有可能的问题类别中,一个设计良好的算法完全有可能胜过其他设计不太好的算法 。但是,在实际情况下可以从这个定理推断出,我们不能对所有的问题都采用同一个解决方案,并期望它在所有的情况下都能很好地工作 。
12 收益递减规律收益递减规律通常出现在经济和商业场景中 。它指出,随着现有员工人数的增加,增加更多的员工来完成一项工作开始产生越来越少的收益 。
推荐阅读
- 水泥运输合同范本3篇
- 参股360概念股龙头有哪些? 360概念股有哪些
- 共享这个词什么时候出现的 古代也有共享概念吗
- MBA写作中的混淆概念 混淆的意思
- 人工智能识别技术你了解多少? 智能识别技术
- 生活|轻食简餐:健康概念演绎消费新趋势
- 加入适量|为大家分享大家平时很少见,但是符合大部分人口味的营养早餐
- 营养|一日三餐怎么吃才健康?若能符合这4个点,身体或许会好些
- 咸味|“低盐”概念能否复制“低糖”辉煌,成就零食市场下一个千亿梦?
- 分析|12月20日西部创业涨停分析:葡萄酒,快递物流,高铁轨交概念热股