演员批评家算法文章草稿

初步文章
Anonymous
 演员批评家算法

Post by Anonymous »

“演员批评家算法”(AC) 是一系列强化学习 (RL) 算法,结合了基于策略和基于值的 RL 算法。它由两个主要组件组成:一个“'''参与者'''”根据策略函数确定要采取哪些操作,以及一个“'''批评者'''”根据价值函数评估这些操作。
AC 算法是现代强化学习中使用的主要算法系列之一。
==概述==

Actor-Critic 方法属于策略梯度方法|策略梯度方法家族,但通过合并价值函数逼近器(批评家)来解决其高方差问题。参与者使用策略函数 \pi(a|s),而批评者估计价值函数 V(s)、动作值 Q 函数 问题(s,a)
,优势函数A(s,a),或其任意组合。

策略优化的目标是找到一些 \theta 来最大化预期的情景奖励 J(\theta):
J(\theta) = \mathbb{E}_{\pi_\theta}[\sum_{t=0}^{T} \gamma^t r_t]
其中
\伽玛
是折扣因子,
r_t
是步骤
的奖励 t

T
是时间范围(可以是无限的)。

策略梯度法的目标是通过梯度下降|梯度上升来优化J(\theta)。

==变体==

* '''Advantage Actor-Critic (A2C)''':使用优势函数而不是 TD 误差。 * '''Asynchronous Advantage Actor-Critic (A3C)''':并行计算|A2C的并行和异步版本。
*“Soft Actor-Critic (SAC)”:结合熵最大化以改进探索。 *“深度确定性策略梯度(DDPG)”:专门用于连续动作空间。 * '''广义优势估计(GAE)''':引入一个超参数
\lambda
在蒙特卡罗返回值之间平滑插值 (
\lambda = 1
,高方差,无偏差)和1步时间差分学习|TD学习(
\lambda = 0
,低方差,高偏差)。可以调整该超参数以选择优势估计中的最佳偏差-方差权衡。它使用 n 步回报的指数衰减平均值
\lambda
是衰减强度。
==另见==
* 强化学习
* 策略梯度法
* 深度强化学习

* * * *
强化学习
机器学习算法
人工智能

Quick Reply

Change Text Case: