多领域交叉学科,机器学习

机器学习是什么意思?

多领域交叉学科,机器学习


机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科 。学习是人类具有的一种重要智能行为,但究竟什么是机器学习,长期以来却众说纷纭 。社会学家、逻辑学家和心理学家都各有其不同的看法 。那么机器学习到底是什么?直白来说,机器学习就是运用集成运算单元根据人类大脑的学习方式,进行模拟学习的一类学科 。
举个简单的例子,假设今天周一,机器人‘小明’要去上学,下雨了就没法去学校了,那么我们需要让小明知道如果下雨,那么不去上学;如果天晴,那么就去上学 。这事给小明一个训练集(类似于练习题,做一次,错了就给正确答案了,对了更好),经过我们人类事先给好习题和答案,小明能够知道下面这个逻辑:此时学校规定,除非雨大到水位250px才可以不来上学 。
这时小明又要开始判断了 。当雨水不足以阻挡小明去上学,那么问题又来了?小明是该打车去还是坐公交去呢?假如第一标准是八点之前必须到学校,第二标准是尽量不要淋雨,第三标准是花的钱要少 。假设三个标准的权重分别是0.5,0.3,0.2。此时小明要对已经比较复杂的状况进行选择了 。如果小明考虑小明怎么走路才能更有效率,在中途打车时怎么跟司机交流呢?司机不可能只说一句话吧 。
如果小明能应对司机所说的每句话,假设司机一般只说3类话(上车,去哪,多少钱) 。每一类话的表达方式有很多种吧(‘来,上车’、‘小伙子快上来外面有雨’),假设每类话有30种可能,那光跟司机交流的可能话语就有30的3次方中可能,也就是说需要2.7万个谈话练习题(样本)就能保证小明能跟司机完成最基本的交流 。在不断的扩充练习题(训练样本)进行训练学习,机器人“小明”会越来越聪明,这就是机器学习 。
机器学习究竟在学习什么?
多领域交叉学科,机器学习


标准定义:对于一个任务及其表现过程的度量方法,给出特定的算法,能够通过利用经验数据不断提高在该任务上的表现过程的方法,就称为机器学习 。简单定义:举一个简单的例子:出租车司机开车送你从上海到北京,这里“任务”就是是上海到北京,“表现过程”就是上海到北京不同的路,“经验数据”就是每条能走的路 。然后设计出一个算法,构建出的“上海出发往哪条路上开——模型”能通过利用经验数据得出结果到北京速度效果的提高 。
为了实现每次利用经验数据对表现过程的提升,当前最主流的方法就是“误差反向传播法” 。这种方法的核心思想就是:让机器自由去试错,然后根据尝试的结果与样本的真实结果之间的误差反向调整试错策略 。误差较小的尝试要奖励,误差较大的尝试给予惩罚,然后将这个尝试过程一直循环进行下去,直到多学习到的结果在所有样本上的表现达到我们所定义的最优 。
有了“误差反向传播”算法,机器探索从上海到北京的路会越来越多,同时找到最优的路会越来越快,这和老司机在开过很多回这条路后获得最优的选择本质没有区别 。而这里人和机器的差距也会体现出来,当数上海到北京路非常多的时候,人就没办法像机器那样一直进行探路,而对机器的数据处理能力来说,这个数据量可能几分钟就能得出最优选择,当然人能另辟蹊径,新手可以向老司机一路打听,而不用自己一路重复摸索 。

推荐阅读