不用重参数化技巧的SAC不能直接求梯度的原因使用REINFORCE的方法对策略梯度进行推导使用重参数技巧的SAC使用重参数化技巧的原因

不用重参数化技巧的SAC

不能直接求梯度的原因

SAC算法的目标函数：

\begin{matrix} (1) & J_{π} (ϕ) = E_{s_{t} \sim D, a_{t} \sim π_{ϕ}} [\log_{π_{ϕ}} (a_{t} | s_{t}) - \frac{1}{α} Q_{θ} (s_{t}, a_{t})] \end{matrix}

$\phi$ $a_t\sim \pi_\phi$ $\phi$ $\phi$ 的梯度。

注：策略梯度方法从来都不是直接能拿一个目标函数去自动求梯度，都是先用公式推出一个策略梯度来

使用REINFORCE的方法对策略梯度进行推导

\begin{aligned} (2) & \nabla J_{π} (ϕ) & = E_{s_{t} \sim D} [\nabla_{ϕ} \sum_{a_{t}} π_{ϕ} (a_{t} | s_{t}) (\log_{π_{ϕ}} (a_{t} | s_{t}) - \frac{1}{α} Q_{θ} (s_{t}, a_{t}))] \\ (3) & = E_{s_{t} \sim D} [\sum_{a_{t}} [\nabla_{ϕ} π_{ϕ} (a_{t} | s_{t}) \cdot (\log_{π_{ϕ}} (a_{t} | s_{t}) - \frac{1}{α} Q_{θ} (s_{t}, a_{t})) + π_{ϕ} (a_{t} | s_{t}) \cdot \frac{\nabla_{ϕ} π_{ϕ} (a_{t} | s_{t})}{π_{ϕ} (a_{t} | s_{t})}]] \\ (4) & = E_{s_{t} \sim D} [\sum_{a_{t}} \nabla_{ϕ} π_{ϕ} (a_{t} | s_{t}) \cdot (\log_{π_{ϕ}} (a_{t} | s_{t}) - \frac{1}{α} Q_{θ} (s_{t}, a_{t}) + 1)] \\ (5) & 为了利用 a_{t} \sim π_{ϕ} 采样，再改写 \\ (6) & = E_{s_{t} \sim D} [\sum_{a_{t}} π_{ϕ} (a_{t} | s_{t}) \frac{\nabla_{ϕ} π_{ϕ} (a_{t} | s_{t})}{π_{ϕ} (a_{t} | s_{t})} \cdot (\log_{π_{ϕ}} (a_{t} | s_{t}) - \frac{1}{α} Q_{θ} (s_{t}, a_{t}) + 1)] \\ (7) & = E_{s_{t} \sim D, a_{t} \sim π_{ϕ}} [\nabla \log π_{ϕ} (a_{t} | s_{t}) \cdot (\log_{π_{ϕ}} (a_{t} | s_{t}) - \frac{1}{α} Q_{θ} (s_{t}, a_{t}) + 1)] \end{aligned}

$\sum_{a_t}\nabla_\phi \pi_\phi(a_t|s_t)=\nabla_\phi\sum_{a_t}\pi_\phi(a_t|s_t)=\nabla_\phi 1=0$

也可以将+1换成其他和a无关的量，不会影响梯度，相当于带baseline的梯度算法，例如：

\begin{matrix} (8) & \nabla J_{π} (ϕ) = E_{s_{t} \sim D, a_{t} \sim π_{ϕ}} [\nabla \log π_{ϕ} (a_{t} | s_{t}) \cdot (\log_{π_{ϕ}} (a_{t} | s_{t}) - \frac{1}{α} Q_{θ} (s_{t}, a_{t}) - \frac{1}{α} V_{θ} (s_{t}))] \end{matrix}

经实验，重参数化和非重参数化的方法从性能和运算开销上基本一致，但剪不剪去上边的baseline效果差不少。

使用重参数技巧的SAC

使用重参数化技巧的原因

$\mu$ $\sigma$ $a\sim\mathcal{N}(\mu,\sigma^2)$ $\partial{a}/\partial\mu{}$ $\partial{a}/\partial{\sigma}$ $\xi\sim \mathcal{N}(\mu,\sigma^2)$ $a=\mu+\xi\cdot\sigma$ $\mathcal{N}(\mu,\sigma^2)$ $\mu$ $\sigma$ 可导。

$a_t$ $\mathcal{N}(\mu_\phi(s_t),\sigma_\phi(s_t))$ 中采样的，如果这个高斯分布很扁平的话，会导致梯度估计值方差很大，不利于学习。

因此，可以借鉴VAE中的Reparameterization Trick来减少方差，使学习更稳定。即：

\begin{matrix} (9) & a_{t} = μ_{ϕ} (s_{t}) + ϵ σ_{ϕ} (s_{t}) \end{matrix}