刘建平Pinard,强化学习 _强化

强化学习是什么？

强化学习是机器学习的一个范畴，强化学习实际是来源于对生物行为的模仿，那就是反复强化记忆那些未来会带来高收益的动作。可以理解为：如果我们有一个与环境（Environment）交互的智能体（Agent），它能观察环境状态并执行行动（Action）。一旦采取行动，环境状态就会变成一个新的状态，智能体就会收到奖励（reward）（或罚款）。
强化学习的目的是使智能体学习他与环境相互作用的经验，从而选择使得从环境中得到的回报总和最大化的行为。这里举一个将强化学习应用在下棋上的例子：在这个问题中，智能体是下棋的电脑程序，环境则是棋盘的状态和对手。智能体观察棋盘的状态，并采取行动，选择棋盘的某个位置放下棋子。对手也会采取相应的行动，这样棋盘的状态就发生了变化，智能体在根据当前状态，给出其决策……这样反复，直到比赛结束，智能体会胜利（接受奖励）或失败（接受惩罚）。
这样重复的练习成千上万盘之后，起初打得不好的电脑程序，就能够很好地规划和选择出能够赢得比赛的动作。在强化学习中，智能体最初不知道什么行为会导致赢/输，但必须通过探索（Exploration）来随机的选择动作，然后记住它所做的动作的效果，不断改进其策略。探索有助于智能体更多地了解环境，从而避免陷入局部最优。
经过充分的探索后，智能体就可以选择出更优的策略（Policy），这是就是利用（Exploitation）。在强化学习中，智能体是否应该重新使用其中一个好的行为或尝试另一个新的行动（希望能够带来更好的结果）之间总是存在权衡。这里只是给出强化学习的简单直观理解，如果想深入理解强化学习，建议可以阅读以下资料：1.Reinforcement learning: An introduction (经典教材)https://mitpress.mit.edu/books/reinforcement-learning2.David Silver的强化学习公开课（AlphaGo的发明者）3.https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/（一个非常好的中文tutorial）。
如何加强自身学习？

1、先问问自己学习的目标是什么。2、找准方向，精准努力。3、寻找良师益友，共同进步。4、多读书，多观察生活。5、向身边优秀的人看齐，模仿。6、将强项发挥到极致，避开短板。7、每日反省，问问自己今天有什么地方做得好，什么地方不好。8、自律，合理分配自己的时间。9、远离带给你负面影响的人。10、管理好自己的情绪。
什么是深度强化学习？

深度强化学习是深度学习与强化学习的结合，具体来说是结合了深度学习的结构和强化学习的思想，但它的侧重点更多的是在强化学习上，解决的仍然是决策问题，只不过是借助神经网络强大的表征能力去拟合Q表或直接拟合策略以解决状态-动作空间过大或连续状态-动作空间问题。以Atari打砖块游戏为例，球和砖块任意不同的位置都可以相当于一个不同的状态，如此庞大的状态数量使得传统的强化学习不可能给每一个状态对应一个动作，而深度学习端到端的学习能力能够自动提取特征，训练出一个复杂的多层的具有很强表达能力的模型去拟合当前的状态，强化学习再去学会如何根据当前状态执行相应的动作，以获得最大的累计奖惩。
关于强化学习有哪些应用？