刘建平Pinard,强化学习( 二 )


刘建平Pinard,强化学习


强化学习属于机器学习一种,它的本质是解决连续决策的问题 。其中包含四个部分,分别是代理人、环境状态、动作、奖励 。因此,强化学习虽然有不同的算法和应用,但是万变不离其宗,都必须确定出来这个四个部分 。最让人熟知的莫过于下围棋的AlphaGo了 。那么在这种场景中,代理人就是下围棋的机器人,状态是整个棋盘的棋子布局,动作则是下棋的位置,奖励为是否最终赢得了比赛 。
1)商品推荐系统和搜索排序中的应用,其目的就要让搜索引擎能够对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题 。在这个设定中,可以把搜索引擎看作代理人、把用户看做环境,则商品的搜索问题可以被视为典型的顺序决策问题 。而代理人每一次排序策略的选择可以看成一次试错,把用户的反馈和点击成交等作为从环境获得的奖赏 。
在这种反复不断地试错过程中,代理人将逐步学习到最优的排序策略,最大化累计奖赏 。2)机器人控制应用机器人控制同样也是一个连续时间决策问题 。需要在不同的时间节点,以及不同的状态下做出相应的决策,即控制策略 。现在已经将强化学习应用于用机械臂抓取特定物体 。其中动作是具有多个自由度的机械臂运动方向和大小,状态则是当前机械臂所处的位置,而奖励则设定为成功抓取到指定的物体 。
3)自然语言处理和智能对话方面的应用自然语言的对话由于其本身就附带有时序信息,因此可以利用强化学习来解决智能问答场景中的同顾客交流为问题 。目前越来越多地厂商推出了使用自然语言对话接口与计算机进行交互的铲平 。比如亚马逊的 Alexa、苹果的 Siri、小米的小爱同学 和微软的 Cortana(小娜) 。这些产品已经在为数百万用户提供服务了 。
深度强化学习为什么在实际有些人当中用的比较少?
刘建平Pinard,强化学习


【刘建平Pinard,强化学习】学习是一件辛苦的事,持续学习就更不用说了 。平时的工作和生活中的琐事已近消耗了人们大部分的精力,在工作之余,大家想到的都是如何休息、放松,能够继续投入学习的人毕竟是少数 。对知识的渴求也可视为是一种欲望,学海无涯,对知识的汲取永远没有尽头,在知识的海洋中遨游,欲望长期得不到满足,可能会衍生出不了确定感和不安全感,这也是一些人不愿意持续深入学习的原因 。

推荐阅读