基本思想最大熵学习（MERL）soft value function & Energy based policy原本的RL值函数根据目标函数（3），得到Soft value function(SVF)soft Q function和soft V function的关系：Energy Based Policy (EBP，基于能量的策略模型)soft Q-learning 中的策略评估和策略优化策略评估策略优化soft Q-learning(SQL)存在的问题及解决方法参考资料

基本思想

$\alpha$ 越大，探索性就越强，能让策略尽可能随机，Agent可以更充分地探索状态空间S，避免策略早早落入局部最优点，并且可以探索到多个可行的方案完成指定任务，提高抗干扰能力。

SAC算法优势：基于能量的模型在面对多模态（multimodal）的值函数（ Q(s,a) ）时，具有更强的策略表达能力，而一般的高斯分布只能将决策集中在 Q 值更高的部分，忽略其他次优解。

最大熵学习（MERL）

熵

\begin{matrix} (1) & H (p) = E_{x \sim p} [- \log P (x)] \end{matrix}

标准强化学习算法的目标

\begin{matrix} (2) & π_{s t d}^{*} = a r g max_{π} \sum_{t} E_{(s_{t}, a_{t}) \sim ρ_{π}} [r (s_{t}, a_{t})] ⟶ 找到能收集最多累计收益的策略 \end{matrix}

引入熵最大化的RL算法的目标

π_{m a x E n t r o p y}^{*} = a r g max_{π} \sum_{t} E_{(s_{t}, a_{t}) \sim ρ_{π}} [r (s_{t}, a_{t}) + α H (π (\cdot | s_{t}))] ⟶ 从 概 率 图 模 型 推 出 ， 可 参 考 S V I

思想来源于最大熵方法，好处：模型在匹配观察到的信息时，对未知的假设最少

soft value function & Energy based policy

原本的RL值函数

\begin{matrix} (3) & \begin{matrix} Q^{π} (s, a) = E_{(s_{t}, a_{t}) \sim ρ_{π}} [\sum_{t = 0}^{\infty} γ^{t} \cdot r (s_{t}, a_{t}) | s_{0} = s, a_{0} = a] \\ V^{π} (s) = E_{(s_{t}, a_{t}) \sim ρ_{π}} [\sum_{t = 0}^{\infty} γ^{t} \cdot r (s_{t}, a_{t}) | s_{0} = s] \end{matrix} \end{matrix}

根据目标函数（3），得到Soft value function(SVF)

\begin{matrix} (4) & soft Q function: Q_{s o f t}^{π} (s, a) = E_{(s_{t}, a_{t}) \sim ρ_{π}} [\sum_{t = 0}^{\infty} γ^{t} r (s_{t}, a_{t}) + α \sum_{t = 1}^{\infty} γ^{t} H (π (\cdot | s_{t})) | s_{0} = s, a_{0} = a] \end{matrix}

\begin{matrix} (5) & soft V function: V_{s o f t}^{π} (s) = E_{(s_{t}, a_{t}) \sim ρ_{π}} [\sum_{t = 0}^{\infty} γ^{t} \cdot (r (s_{t}, a_{t}) + α H (π (\cdot | s_{t}))) | s_{0} = s] \end{matrix}

soft Q function和soft V function的关系：

\begin{matrix} (6) & \begin{aligned} Q_{s o f t}^{π} (s, a) & = E_{(s_{t}, a_{t}) \sim ρ_{π}} [\sum_{t = 0}^{\infty} γ^{t} r (s_{t}, a_{t}) + α \sum_{t = 1}^{\infty} γ^{t} H (π (\cdot | s_{t})) | s_{0} = s, a_{0} = a] \\ = E_{(s_{t}, a_{t}) \sim ρ_{π}} [r (s_{0}, a_{0}) + \sum_{t = 1}^{\infty} γ^{t} (r (s_{t}, a_{t}) + α H (π (\cdot | s_{t}))) | s_{0} = s, a_{0} = a] \\ = E_{(s_{t}, a_{t}) \sim ρ_{π}} [r (s_{o}, a_{0}) + γ \cdot V_{s o f t}^{π} (s_{t + 1}) | s_{0} = s, a_{0} = a] \end{aligned} \end{matrix}

\begin{matrix} (7) & \begin{aligned} V_{s o f t}^{π} (s) & = E_{(s_{t}, a_{t}) \sim ρ_{π}} [\sum_{t = 0}^{\infty} γ^{t} \cdot (r (s_{t}, a_{t}) + α H (π (\cdot | s_{t}))) | s_{0} = s] \\ = E_{(s_{t}, a_{t}) \sim ρ_{π}} [\sum_{t = 0}^{\infty} γ^{t} r (s_{t}, a_{t}) + α \sum_{t = 1}^{\infty} γ^{t} H (π (\cdot | s_{t}) + α H (π (\cdot | s_{0}))) | s_{0} = s, a_{0} = a] \\ = E_{a_{t} \sim π} [Q_{s o f t}^{π} (s_{t}, a_{t}) + α \cdot H (π (\cdot | s_{0})) | s_{0} = s] \end{aligned} \end{matrix}

Energy Based Policy (EBP，基于能量的策略模型)

为了适用更复杂的任务，MERL不再是以往的高斯分布形式，使用EBP表示策略：

\begin{matrix} (8) & π (a_{t} | s_{t}) \propto \exp (- ξ (s_{t}, a_{t})) ⟶ ξ 是 能 量 函 数 \end{matrix}

为了让EBP与值函数联系起来，设定

\begin{matrix} (9) & ξ (s_{t}, a_{t}) = - \frac{1}{α} Q_{s o f t} (s_{t}, a_{t}) \end{matrix}

从而有

\begin{matrix} (10) & π (a_{t} | s_{t}) \propto \exp (\frac{1}{α} Q_{s o f t} (s_{t}, a_{t})) \end{matrix}

soft Q-learning 中的策略评估和策略优化

策略评估

SAC中使用（6）（7）进行值迭代

soft Q-learning使用不同的值迭代公式

\begin{matrix} (11) & V_{s o f t} (s) = α \cdot \log \int \exp (\frac{1}{α} Q_{s o f t} (s, a)) d a \end{matrix}

$\log{\int\exp}$ $V(s)=\alpha\cdot softmax \frac{1}{\alpha}Q(s,a)$
解释：
$x_{max}=\max\{x_1,x_2,\cdots ,x_n\}$ $e^{x_{max}} <\sum_{i=1}^n e^{x_i} \le\sum_{i=1}^ne^{x_{max}}=n\cdot e^{x_{max}}$
$\log$ $x_{max}<\log{\sum_{i=1}^n}e^{x_i} \le x_max+\log{n}$
$\log{n}$ 与x无关，故
$x_{m a x} / τ < \log \sum_{i = 1}^{n} e^{x_{i} / τ} \leq x_{m a x} / τ \Rightarrow x_{m a x} < τ \cdot \log \sum_{i = 1}^{n} e^{x_{i} / τ} \leq x_{m a x} + τ \cdot \log n$
$\tau \rightarrow 0$ 时，误差也趋近于0

式（3）可以用策略梯度算法暴力求解，但通过将soft value function和Energy based policy联系起来，可以推出值迭代算法，根据式（3）整理出目标函数，并加入折扣因子：

\begin{matrix} (12) & J (π) = \sum_{t = 0}^{T} γ^{t} E_{(s_{t}, a_{t}) \sim ρ_{π}} [r (s_{t}, a_{t}) + α \cdot H (π (\cdot | s_{t}))] \end{matrix}

$\pi$ ，使J最大化，由易到难，先解J的最后一项（t=T)：

\begin{aligned} J (\cdot | s_{T}) & = a r g max_{π (\cdot | s_{T})} E_{a_{T} \sim π (\cdot | s_{T})} [r (s_{T}, a_{T}) + α \cdot H (π (\cdot | s_{T}))] \\ = a r g max_{π (\cdot | s_{T})} \int [r (s_{T}, a_{T}) - α \cdot \log π (a_{T} | s_{T})] π (a_{T} | s_{T}) d a_{T} \end{aligned}

$\pi(\cdot|s_T)$ 求导，令导数为0，得

$r(s_T,a_T)-\alpha\cdot \log{\pi(a_T|s_T)-\alpha}=0 \Rightarrow \pi(a_T|s_T)=\frac{\exp{\frac{1}{\alpha}r(s_T,a_T)}}{e}$

$\pi(a_T|s_T)$ $\int\pi(a|s_T)da=1$

得到

\begin{aligned} π (a_{T} | s_{T}) & = \frac{\exp \frac{1}{α} r (s_{T}, a_{T})}{\int \exp (\frac{1}{α} r (s_{T}, a_{T})) d a} ⟶ 此 时 Q (s_{t}, a_{t}) = r (s_{T}, a_{T}) ， V (s_{T}) = α \log \int \exp [\frac{1}{α} Q (s_{T}, a)] d a \\ = \frac{\exp \frac{1}{α} Q (s_{t}, a_{T})}{\exp \frac{1}{α} V (s_{t})} \\ = \exp (\frac{1}{α} (Q (s_{T}, a_{T}) - V (S_{T}))) \end{aligned}

$F[y]=\int_a^bL(x,y(x),y'(x))dx$ $\frac{\partial{L}}{\partial{y}}-\frac{\partial}{\partial x}\frac{\partial L}{\partial y'}=0$

进一步推广到通常情况，依然可得：

\begin{matrix} (13) & π (a_{t} | s_{t}) = \exp (\frac{1}{α} (Q (s_{t}, a_{t}) - V (S_{T})) \end{matrix}

得到soft Q-learning得值迭代算法：

$V(s_{T+1})=0$
for t=T to 0:
$Q(s_t,a_t)=r(s_t,a_t)+\gamma E_{p(s_{t+1}|s_t,a_t)}[V(s_{t+1})] \longrightarrow 不是人为控制得，所以用E，而不是max$
$V(s_t)=\alpha \log\int\exp(\frac{1}{\alpha}Q(s_t,a_t))da_t$

策略优化

\begin{matrix} (14) & π_{n e w}^{a_{t} | s_{t}} = \frac{\exp \frac{1}{α} Q_{s o f t}^{π_{o l d}} (s_{t}, a_{t})}{\exp \frac{1}{α} V_{s o f t}^{π_{o l d}} (s_{t})} \end{matrix}

soft Q-learning(SQL)存在的问题及解决方法

策略评估时，根据式（11），对动作求积分，这个操作在连续空间不可能实现
解决方法：采样+importance sampling 以近似V的期望，即：
$V_{s o f t}^{θ} (s) = α \log E_{q_{a^{'}}} [\frac{\exp \frac{1}{α} Q_{s o f t}^{θ} (s_{t}, a^{'})}{q_{a^{'}} (a^{'})}]$
其中，q是用于采样的分布，初期随即均匀采样，后期根据policy采样。
基于能量的模型式难以处理的
$\pi(a_t|s_t)$ $\pi(\cdot|s)$ $\pi(a_t|s_t)$ $a_t$ 即可，而采样的时候因为这个概率分布很难表示而无法采样）
$\pi^{\phi}$ 与EBP的差距:
$J_{π^{ϕ}} (s_{t}) = D_{K L} (π^{ϕ} (\cdot | s_{t}) | | \exp \frac{1}{α} (Q_{s o f t}^{θ} (s_{t}, \cdot) - V_{s o f t}^{θ} (s_{t})))$
SAC中的策略评估和策略优化
策略评估
在SAC中，算法作者放弃了使用softmax来直接求V函数的值（即式11）

方法一：只打算维持一个值函数Q，即式（6）：
$Q_{s o f t}^{π} (s, a) = E_{s^{'} \sim p (s^{'} | s, a), a^{'} \sim π} [r (s, a) + γ (Q_{s o f t}^{π} (s^{'}, a^{'}) + α H (π (\cdot | s^{'})))]$
方法二：同时维持V、Q两个函数，即式（6）（7）
$\begin{matrix} Q_{s o f t}^{π} (s, a) = E_{s^{'} \sim p (s^{'} | s, a)} [r (s, a) + γ \cdot V_{s o f t}^{π} (s^{'})] \\ V_{s o f t}^{π} (s) = E_{a \sim π} [Q_{s o f t}^{π} (s, a) - α \cdot \log π (a | s)] \end{matrix}$
策略优化
$\pi$ 来代替EBP与环境互动。策略优化时让高斯分布尽量靠近EBP。
$\begin{matrix} (15) & π_{n e w} = a r g min_{x \in π} D_{K L} (π (\cdot | s_{t}) | | \frac{\exp (\frac{1}{α} Q_{s o f t}^{π_{o l d}} (s_{t}, \cdot))}{z_{s o f t}^{π_{o l d}} (s_{t})}) \end{matrix}$
$\pi$ 表示可选的策略集合，实际上是带参数的高斯分布。
$\exp{\frac{1}{\alpha}V_{soft}^{\pi_{old}}(s_t)}$ $\pi(s_t)$ 来说，两者都是常数，在实际计算中都可以忽略。同时也因为这个原因，在SAC中不再维护V函数。
作者证明了式15可以像式14一样保证策略的优化。
soft policy iteration
交替执行策略评估和策略优化将收敛到最优的值函数和最优策略
实现
$\begin{matrix} Q_{θ} (s, a) : S \times A \to R \\ π_{ϕ} (\cdot | s) : S \to μ, σ 高斯分布的均值和方差 \end{matrix}$
根据式（6），Q的损失函数：
$\begin{matrix} (16) & J_{Q} (θ) = E_{(s_{t}, a_{t}, s_{t + 1}) \sim D, a_{t + 1} \sim π_{ϕ}} [\frac{1}{2} {(Q_{θ} (s_{t}, a_{t}) - (r (s_{t}, a_{t}) + γ \cdot (Q_{θ} (s_{t + 1}, a_{t + 1}) - α \log π_{ϕ} (a_{t + 1} | s_{t + 1}))))}^{2}] \end{matrix}$
$(s_t,a_t,s_{t+1})$ $a_t$ $\pi_\phi$ 中采集出来的。
$\pi_\phi$ 训练时的损失函数：
$\begin{aligned} J_{π} (ϕ) & = D_{K L} (π_{ϕ} (\cdot | s_{t}) | | \exp (\frac{1}{α} Q_{θ} (s_{t}, \cdot) - \log Z (s_{t}))) \\ = E_{s_{t} \sim D, a_{t} \sim π_{ϕ}} [\log (\frac{π_{ϕ} (a_{t} | s_{t})}{\exp \frac{1}{α} Q_{θ} (s_{t}, a_{t}) - \log Z (s_{t})})] \\ = E_{s_{t} \sim D, a_{t} \sim π_{ϕ}} [\log π_{ϕ} (a_{t} | s_{t}) - \frac{1}{α} Q_{θ} (s_{t}, a_{t}) + \log Z (s_{t})] \end{aligned}$
$s_t$ $a_t$ $\pi_\phi$ 中采样得到。
$a_t\sim\pi_\phi$ ，引入reparameterization技术，有：
$a_{t} = f_{ϕ} (ε_{t}; s_{t}) = f_{ϕ}^{μ} (s_{t}) + ε_{t} ⊙ f_{ϕ}^{σ} (s_{t})$
$\mathcal{N}$ 采样，再把采样值乘以标准差后加上均值。这样就可以认为是从策略高斯分布采样，并且这个采样动作的过程对于策略函数来说是可导的。
$\phi$ 影响，可将其忽略。
最终：
$\begin{matrix} (17) & J_{π} (ϕ) = E_{s_{t} \sim D, ε_{t} \sim N} [α \log π_{ϕ} (f_{ϕ} (ε_{t}; s_{t}) | s_{t}) - Q_{θ} (s_{t}, f_{ϕ} (ε_{t}; s_{t}))] \end{matrix}$
$\mathcal{N}$ 是单位高斯分布
$\alpha$ ，使得SAC更稳定，于是就只保留了Q函数。
tricks in SAC
锦上添花的trick: double Q network,target work
Automating Entropy Adjustment for MERL
$\alpha$ $\alpha$ ，而且这个超参数对性能的影响明显，还好，这个参数可以让SAC自己调节。实现在最优动作不确定的某个状态下，熵的取值应该大一点；而在某个最优动作比较确定的状态下，熵的取值可以小一点。
作者将其构造为一个带约束的优化问题：最大化期望收益的同时，保持策略的熵大于一个阈值。为了自动调整熵正则化项，SAC将强化学习的目标改为一个带约束的优化问题：
$\begin{matrix} (18) & max_{π} E_{π} [\sum_{t = 0}^{\infty} r (s_{t}, a_{t})], s . t . E_{(s_{t}, a_{t}) \sim ρ_{π}} [- \log π_{t} (a_{t} | s_{t})] \geq H_{0} \end{matrix}$
$\mathcal{H}_0$ $\mathcal{H}_0$ 。
$\alpha$ 的优化的损失函数：
$\begin{matrix} (19) & J (α) = E_{a_{t} \sim π_{t}} [- α \log π_{t} (a_{t} | π_{t}) - α H_{0}] \end{matrix}$
$\mathcal{H}_0$ $L(\alpha)$ $\alpha$ $L_\pi(\theta)$ $\mathcal{H}_0$ $L(\alpha)$ $\alpha$ 的值减小，进而使得策略训练时更专注于价值提升。
squashed Gaussian Trick
$u\in(-\infty,+\infty)$ $(-1,1)$ $\mu(u|s)$ $a\in (-1,1)$ $\log(\pi_\psi(a_t|s_t))$ 也要有相应的变换。
$\begin{matrix} a = \tan u \\ \tan^{'} u = 1 - \tan^{2} u \end{matrix}$
有：
$\begin{matrix} (20) & π (a | s) = μ (u | s) | \det (\frac{d a}{d u}) |^{- 1} \Rightarrow \log π (a | s) = \log μ (a | s) - \sum_{i = 1}^{D} \log (1 - \tanh^{2} (u_{i})) \end{matrix}$
其中D是U的维度，det是求行列式。
$2*(\log{2}-\pi_a-softplus(-2\pi_a))$ ，是对Tanh squashing correction公式更加数值稳定的替代。
证明：
$\begin{aligned} \log (1 - \tanh^{2} u) & = \log s e c h^{2} (u) \\ = 2 \log s e c h (u) \\ = 2 \log (\frac{2}{\exp (u_{i}) + \exp (- u_{i})}) \\ = 2 (\log 2 - \log (\exp (u_{i}) + \exp (- u_{i}))) \\ = 2 (\log 2 - \log (\exp u_{i} \cdot (1 + \exp (- 2 u_{i})))) \\ = 2 (\log 2 - u_{i} - \log (1 + \exp (- 2 u_{i}))) \\ = 2 (\log 2 - u_{i} - s o f t p l u s (- 2 u_{i})) \end{aligned}$

算法流程
$\omega_1、\omega_2和\theta$ $Q_{\omega_1}(s,a)和Q_{\omega_2}(s,a)$ $\pi_\theta(s)$
$\omega_1^-\leftarrow \omega_1、\omega_2^-\leftarrow \omega_2和\theta^- \leftarrow\theta$ $Q_{\omega_1^-}(s,a)、Q_{\omega_2^-}(s,a)$ $\pi_{\theta^-}(s)$
初始化经验回放池D
for 序列e=1 to E do:
$s_1$
for 时间步 t=1 to T do:
$a_t=\pi_\theta(s_t)$
$s_{t+1},r_t=env.step(action)$
$s_t,a_t,r_t,s_{t+1}$ ))
for 训练轮次 k=1 to K do:
$\{(s_i,a_i,r_i,s_{i+1})\}_{i=1,\dots,N}$
$y_i=r_i+\gamma\min_{j=1,2}Q_{\omega_j^-}(s_{i+1},a_{i+1})-\alpha\log\pi_\theta(a_{i+1}|s_{i+1}),其中a_{i+1}\sim \pi_\theta(\cdot|s_{i+1})$
$L=\frac{1}{N}\sum_{i=1}^N(y_i-Q_{\omega_j}(s_i,a_i))^2$
$\tilde{a_i}$ ，然后用以下损失函数更新当前Actor网络：
$L_{π} (θ) = \frac{1}{N} \sum_{i = 1}^{N} (α \log π_{θ} (\tilde{a_{i}} | s_{i}) - min_{j = 1, 2} Q_{ω_{j}} (s_{i}, \tilde{a_{i}}))$
$\alpha$
更新目标网络：
$\begin{matrix} ω_{1}^{-} \leftarrow τ ω_{1} + (1 - τ) ω_{1}^{-} \\ ω_{2}^{-} \leftarrow τ ω_{2} + (1 - τ) ω_{2}^{-} \end{matrix}$
end for
end for
end for

参考资料

#Feliks SAC(Soft Actor-Critic)阅读笔记 https://zhuanlan.zhihu.com/p/85003758

张伟楠沈键俞勇《动手学强化学习》人民邮电出版社

Pytorch深度强化学习4. SAC中的Squashed Gaussian Trick - 0xAA的文章 - 知乎 https://zhuanlan.zhihu.com/p/138021330

基本思想

最大熵学习（MERL）

soft value function & Energy based policy

原本的RL值函数

根据目标函数（3），得到Soft value function(SVF)

soft Q function和soft V function的关系：

Energy Based Policy (EBP，基于能量的策略模型)

soft Q-learning 中的策略评估和策略优化

策略评估

策略优化

soft Q-learning(SQL)存在的问题及解决方法

SAC中的策略评估和策略优化

策略评估

策略优化

soft policy iteration

实现

tricks in SAC

Automating Entropy Adjustment for MERL

squashed Gaussian Trick

算法流程

参考资料