刘建平Pinard,强化学习( 二 ) _强化

强化学习属于机器学习一种，它的本质是解决连续决策的问题。其中包含四个部分，分别是代理人、环境状态、动作、奖励。因此，强化学习虽然有不同的算法和应用，但是万变不离其宗，都必须确定出来这个四个部分。最让人熟知的莫过于下围棋的AlphaGo了。那么在这种场景中，代理人就是下围棋的机器人，状态是整个棋盘的棋子布局，动作则是下棋的位置，奖励为是否最终赢得了比赛。
1）商品推荐系统和搜索排序中的应用，其目的就要让搜索引擎能够对不同特点的用户作出针对性的排序，并以此带动搜索引导的成交提升，是一个极具挑战性的问题。在这个设定中，可以把搜索引擎看作代理人、把用户看做环境，则商品的搜索问题可以被视为典型的顺序决策问题。而代理人每一次排序策略的选择可以看成一次试错，把用户的反馈和点击成交等作为从环境获得的奖赏。
在这种反复不断地试错过程中，代理人将逐步学习到最优的排序策略，最大化累计奖赏。2）机器人控制应用机器人控制同样也是一个连续时间决策问题。需要在不同的时间节点，以及不同的状态下做出相应的决策，即控制策略。现在已经将强化学习应用于用机械臂抓取特定物体。其中动作是具有多个自由度的机械臂运动方向和大小，状态则是当前机械臂所处的位置，而奖励则设定为成功抓取到指定的物体。
3）自然语言处理和智能对话方面的应用自然语言的对话由于其本身就附带有时序信息，因此可以利用强化学习来解决智能问答场景中的同顾客交流为问题。目前越来越多地厂商推出了使用自然语言对话接口与计算机进行交互的铲平。比如亚马逊的 Alexa、苹果的 Siri、小米的小爱同学和微软的 Cortana（小娜）。这些产品已经在为数百万用户提供服务了。
深度强化学习为什么在实际有些人当中用的比较少？

【刘建平Pinard,强化学习】学习是一件辛苦的事，持续学习就更不用说了。平时的工作和生活中的琐事已近消耗了人们大部分的精力，在工作之余，大家想到的都是如何休息、放松，能够继续投入学习的人毕竟是少数。对知识的渴求也可视为是一种欲望，学海无涯，对知识的汲取永远没有尽头，在知识的海洋中遨游，欲望长期得不到满足，可能会衍生出不了确定感和不安全感，这也是一些人不愿意持续深入学习的原因。

刘建平Pinard,强化学习( 二 )

推荐阅读

2022年郑州购房补贴申请材料有哪些？

什么是珠地网眼纯棉面料

采耳好不好会不会伤害耳朵采耳好不好

产权40年的是什么房

秦始皇修的什么渠

红心猕猴桃怎么催熟最快

盆栽人参果怎么修剪

梦见别人给我买衣服梦见别人给我买衣服是什么意思

蜂蜜的保质期和储存方法

爱的教育好词好句好段摘抄大全

阿斯顿马丁有4座的吗

二手福特F，福特f850是什么年代的车

这个新系统。。。。进了淘宝真好玩儿

我来教你一生相伴115勿扰模式怎么设置

小型挖掘机多少钱一台_60小型挖掘机价格表

奥运火炬为什么不熄灭