深度学习中的强化学习：从DQN到PPO

作者：绝缘体.. 发布： 2018-02-07 08:05 分类：未分类阅读：抢沙发

强化学习 (Reinforcement Learning, RL) 是机器学习的一个重要分支，与监督学习和无监督学习不同，它着重于通过在一个动态环境中试错来学习最优策略，以最大化一个特定的奖励信号。近年来，深度学习方法在强化学习中的应用取得了良好的成果。本文将介绍强化学习在深度学习领域中的进展，特别是从 DQN 到 PPO 的发展历程。

DQN：深度 Q 网络

DQN 是深度学习在强化学习中的重要突破之一，它由 DeepMind 提出。DQN 利用神经网络来估计复杂问题的 Q 值函数，通过优化网络来近似最优策略。DQN 的核心思想是通过经验回放和目标网络来稳定训练过程。

经验回放

传统的强化学习方法通常采用在线学习方式，即每一步都更新网络参数。但这种方式对样本的利用效率较低，容易导致样本的相关性问题。DQN 引入经验回放机制，将智能体的经验存储在一个回放缓冲区中，并从其中随机选择样本进行训练。这样做的好处是样本之间的相关性较小，有利于网络参数的收敛。

目标网络

在 DQN 中，存在两个神经网络：一个被称为“当前网络”(current network)，用于计算行动的 Q 值；另一个是“目标网络”(target network)，用于计算当前状态的最大 Q 值。在每次更新中，通过固定一段时间来更新目标网络，从而提高训练的稳定性。

然而，DQN 也存在一些问题，如训练过程中的不稳定性和样本不平衡等。为了解决这些问题，研究者们提出了一种新的算法：PPO。

PPO：近期优化策略

PPO（Proximal Policy Optimization）是一种基于近期优化策略的算法，由 OpenAI 提出。与 DQN 不同的是，PPO 是一种策略优化方法，而非值函数优化方法。它通过在不断更新策略的同时，控制优化的幅度，避免策略变化过大。

PPO 的核心思想是在每次更新策略时，通过一个限制函数来调整策略。这个函数可以是概率比例修正或者截断修正等。通过限制函数的引入，PPO 可以保证更新后的策略与之前的策略相似，从而提高算法的稳定性。

总结

强化学习在深度学习领域中的发展取得了显著的进展。DQN 通过引入经验回放和目标网络来稳定训练过程。而 PPO 则利用限制函数来控制策略的优化幅度，进一步提高了算法的稳定性。

希望通过本文的介绍，读者能够对深度学习中的强化学习有更深入的了解，并了解 DQN 和 PPO 的工作原理和优劣之处。强化学习仍然是一个活跃的研究领域，未来将会有更多新的算法和方法被提出。

本文来自极简博客，作者：心灵捕手，转载请注明原文链接：深度学习中的强化学习：从DQN到PPO

打赏

本文固定链接: https://www.cxy163.net/archives/9565 | 绝缘体-小明哥的技术博客