一、算法背景二、定义策略评估(policy evaluation)状态值函数(state value function)状态-动作值函数(state-action value function)动作优势函数(advantage action function)三、将新策略的回报表示为旧策略的回报+其他值四、对 $\eta(\widetilde{\pi})$ 近似，获得替代回报函数五、控制 $\pi$ 和 $\widetilde{\pi}$ 之间的散度小于 $\alpha$ ，就能保证回报单调增长六、采取重要性采样，Q函数替代A函数，对算法进一步近似七、对目标函数进行一阶逼近，对约束函数进行二阶逼近八、利用共轭梯度法求解最优更新量1)计算更新步长：2)计算搜索方向九、线性搜索十、TRPO算法流程参考资料

一、算法背景

大部分强化学习算法很难保证单调收敛，这使得即使参数空间中看似很小的差异也会在性能上产生非常大的差异结果，因此一个错误的步骤可能会导致策略性能崩溃。而TRPO通过采取尽可能大的步骤提高性能来更新策略，利用KL散度对新旧策略接近程度进行约束，避免了这种情况。

置信域策略优化算法（Trust Region Policy Optimization,TRPO）是一种基于策略的方法，即先对策略进行参数化，并设计衡量策略质量的指标或目标函数，然后通过梯度上升法来最大化这指标，让策略逼近局部最优。一般的策略梯度算法在沿着策略梯度更新参数时，可能因为步长太大，使策略变差。TRPO在更新参数的时候会先试探权重参数下一步要更新的位置是否失控，如果失控则调整步长，否则视该区域为置信域（Trust Region）,在该区域内能保障策略提升的单调性。

二、定义

策略评估(policy evaluation)

$\pi$ 下产生的一系列状态-动作对的预期累计回报：

\begin{matrix} (1) & \begin{matrix} η (π) = E_{s_{0}, a_{0}, s_{1}, a_{1}, \dots} [\sum_{t = 0}^{\infty} γ^{t} r (s_{t})] \\ 其 中 ， s_{0} 为 环 境 的 初 始 状 态 ， 与 策 略 无 关 ， 由 环 境 自 动 生 成 ， 即 s_{0} \sim ρ (s_{0}) ； \\ a_{t} \sim π (\cdot ∣ s_{t}); s_{t + 1} \sim P (s_{t + 1} ∣ s_{t}, a_{t}); \end{matrix} \end{matrix}

状态值函数(state value function)

\begin{matrix} (2) & V_{π} (s_{t}) = E_{a_{t}, s_{t + 1}, \dots} [\sum_{l = 0}^{\infty} γ^{l} r (s_{t + l})] \end{matrix}

状态-动作值函数(state-action value function)

\begin{matrix} (3) & Q_{π} (s_{t}, a_{t}) = E_{s_{t + 1}, a_{t + 1}, \dots} [\sum_{l = 0}^{\infty} γ^{l} r (s_{t + l})] \end{matrix}

动作优势函数(advantage action function)

即状态s下使用动作a产生的回报与状态s时所有动作产生平均回报的差，衡量某个特定动作相对平均收益的优势

\begin{matrix} (4) & A_{π} (s, a) = Q_{π} (s, a) - V_{π} (s) \end{matrix}

三、将新策略的回报表示为旧策略的回报+其他值

\begin{matrix} (5) & \begin{matrix} η (\tilde{π}) = η (π) + E_{s_{0}, a_{0}, \dots \sim \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} A_{π} (s_{t}, a_{t})] \\ 其 中, s_{0} \sim ρ (s_{0}), a_{t} \sim π (\cdot ∣ s_{t}), s_{t + 1} \sim P (s_{t + 1} ∣ s_{t}, a_{t}) \end{matrix} \end{matrix}

证明：
$\begin{aligned} E_{τ ∣ \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} A_{π} (s_{t}, a_{t})] \\ = E_{τ ∣ \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} [Q_{π} (s_{t}, a_{t}) - V_{π} (s_{t})]] \\ = E_{τ ∣ \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} (r (s_{t}) + γ V_{π} (s_{t + 1}) - V_{π} (s_{t}))] \\ = E_{τ ∣ \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} r (s_{t})] + E_{τ ∣ \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} (γ V_{π} (s_{t + 1}) - V_{π} (s_{t}))] \\ = η (\tilde{π}) + E_{τ ∣ \tilde{π}} [- V_{\tilde{π}} (s_{0}) + γ V_{\tilde{π}} (s_{1}) - γ V_{\tilde{π}} (s_{1}) + γ^{2} V_{\tilde{π}} (s_{2}) + \dots] \\ = η (\tilde{π}) + (- E_{s_{0}} [V_{π} (s_{0})]) ⟶ 此处 s_{0} \sim π 等价于 s_{0} \sim \tilde{π} \\ = η (\tilde{π}) - η (π) \\ 其中： \\ E_{s_{0}} [V_{π} (s_{0})] \\ = E_{s_{0}} [E_{a_{0}, s_{1}, \dots} [\sum_{t = 0}^{\infty} γ^{t} r (s_{0 + t})]] \\ = E_{a_{0}, s_{1}, \dots} [\sum_{t = 0}^{\infty} γ^{t} r (s_{0 + t})] \\ = η (π) \\ 证毕 \end{aligned}$

定义：

\begin{matrix} (6) & ρ_{π} (s) = P (s_{0} = s) + γ P (s_{1} = s) + γ^{2} P (s_{2} = s) + \dots \end{matrix}

$\gamma$ 为1时，可以将其理解为状态的占用度量。

将该定义带入式（5），得到：

\begin{matrix} (7) & η (\tilde{π}) = η (π) + \sum_{s} ρ_{\tilde{π}} (s) \sum_{a} \tilde{π} (a | s) A_{π} (s, a) \end{matrix}

证明：
$\begin{aligned} η (\tilde{π}) & = η (π) + \sum_{t = 0}^{\infty} \sum_{s} P (s_{t} = s | \tilde{π}) \sum_{a} [\tilde{π} (a | s) \cdot γ^{t} \cdot A_{π} (s, a)] \\ = η (π) + \sum_{s} \sum_{t = 0}^{\infty} γ^{t} P (s_{t} = s | \tilde{π}) \sum_{a} [\tilde{π} (a | s) \cdot A_{π} (s, a)] \\ = η (π) + \sum_{s} ρ_{\tilde{π}} (s) \cdot \sum_{a} \tilde{π} (a | s) \cdot A_{π} (s, a) \end{aligned}$

$\eta(\widetilde{\pi})$ 近似，获得替代回报函数

$\rho_{\widetilde{\pi}}(s)$ $\ge$ $\widetilde{\pi}$ 都进行大量采样,也就是盲目地选择一个策略，然后大量采样，看看式（7）第二项是否大于0，这种方法显然是不现实的，而强化学习的目标就是减少采样次数。

$\rho_{\widetilde{\pi}}(s)$ $\rho_{\pi}(s)$ ，定义替换函数：

\begin{matrix} (8) & L_{π} (\tilde{π}) = η (π) + \sum_{s} ρ_{π} (s) \cdot \sum_{a} \tilde{π} (a | s) A_{π} (s, a) \end{matrix}

$\eta(\widetilde{\pi})$ $L_{\pi}(\widetilde{\pi})$ $\widetilde{\pi}$ $\widetilde{\pi}$ $\pi$ $\theta$ $\eta(\widetilde{\pi})$ $L_{\pi}(\widetilde{\pi})$ $\pi_{\theta_{old}}$ 处一阶近似时，即：

\begin{matrix} (9) & \begin{array}{l} L_{π_{θ old}} (π_{θ_{old}}) = η (π_{θ_{old}}) \\ {\nabla_{θ} L_{π_{θ_{old}}} (π_{θ}) |}_{θ = θ_{old}} = {\nabla_{θ} η (π_{θ}) |}_{θ = θ_{old}} \end{array} \end{matrix}

证明：
1）对于式(9)的第一个式子：
$\pi$ $\pi_{old}$ 是一样的，都是指的原来的策略，故：
$η (π_{o l d}) = η (π_{o l d}) + \sum_{s} ρ_{π_{o l d}} (s) \sum_{a} π_{o l d} (a | s) A_{π_{o l d}} (s, a)$
其中,
$\sum_{a} π_{o l d} (a | s) A_{π_{o l d}} (s, a) = 0$
上式等号右边第二项为0，故式（9）第一个式子得证。
$\theta$ 求偏导，得：

$\begin{aligned} \nabla_{θ} η (\tilde{π}) |_{θ = θ_{old}} & = \nabla_{θ} η (π_{π_{θ_{o l d}}}) + \sum_{s} \nabla_{θ} ρ_{\tilde{π}} (s) \sum_{a} \tilde{π} (a | s) A_{π} (s, a) + \sum_{s} ρ_{\tilde{π}} (s) \sum_{a} \nabla \tilde{π} (a | s) A_{π} (s, a) \\ (1) 第一项 η (π_{θ_{o l d}}) 是常数，故 \nabla η (π_{θ_{o l d}}) = 0 \\ (2) 当 \tilde{π} = π_{o l d} 时，即 \tilde{π} 的参数 θ 等于 π_{o l d} 的参数 θ_{o l d} 时， \sum_{a} \tilde{π} (a | s) A_{π} (s, a) = 0 ，故有 \\ = \sum_{s} ρ_{\tilde{π}} (s) \sum_{a} \nabla \tilde{π} (a | s) A_{π} (s, a) \\ 代入 θ = θ_{o l d} ，即 \tilde{π} = π_{o l d} \\ = \sum_{s} ρ_{π_{θ_{o l d}}} (s) \sum_{a} \nabla \tilde{π} (a | s) A_{π_{θ_{o l d}}} (s, a) \end{aligned}$ $\nabla_{θ} L_{π_{θ_{o l d}}} (\tilde{π}) |_{θ = θ_{old}} = 0 + \sum_{s} ρ_{π_{θ_{o l d}}} (s) \sum_{a} \nabla \tilde{π} (a | s) A_{π_{θ_{o l d}}} (s, a) ⟶ 原式第一项 η (π_{θ_{o l d}}) 是常数，故 \nabla η (π_{θ_{o l d}}) = 0$
证毕。

$\eta(\widetilde{\pi})$ $L_{\pi}(\widetilde{\pi})$ $\pi_{\theta_{old}}$ $\pi_{old}$ $\eta$ $\pi_{old}$ 合理的邻域内。

$\pi$ $\widetilde{\pi}$ $\alpha$ ，就能保证回报单调增长

$\eta$ $\pi$ $\widetilde{\pi}$ 不能差太多，否则一阶近似邻域将非常小，导致极其小的步长，会使得训练变慢。

$\eta$ 更新提供明确的下界，即对于策略改进采用以下混合方式时：

\begin{matrix} (10) & π_{n e w} (a | s) = (1 - α) π_{o l d} (a | s) + α π^{'} (a | s) \end{matrix}

$\pi'=arg \min_{\pi'}L_{\pi_{old}}(\pi')$ ，有

\begin{matrix} (11) & η (π_{n e w}) \geq L_{π_{o l d}} - \frac{2 ϵ γ}{(1 - γ)^{2}} α^{2}, ϵ = max_{s} | E_{a \sim \tilde{π} (a | s)} [A_{π} (s, a)] | \end{matrix}

证明：
$\overline{A}(s)$ ：
$\overset{―}{A} (s) = E_{a \sim \tilde{π} (a | s)} [A_{π} (s, a)]$
$\overline{A}(s)$ $\widetilde{\pi}$ 相对于之前策略的改进。
$\overline{A}(s)$ 改写式(7)和(8)，得到：
$\begin{array}{l} η (\tilde{π}) = η (π) + E_{τ \sim \tilde{π}} [\sum_{t = 0}^{\infty} γ^{t} \bar{A} (s_{t})] \\ L_{π} (\tilde{π}) = η (π) + E_{τ \sim π} [\sum_{t = 0}^{\infty} γ^{t} \bar{A} (s_{t})] \end{array}$
$\pi_{new}(a|s)=(1-\alpha)\pi_{old}(a|s)+\alpha \pi^`(a|s)的模式混合，假设新策略\widetilde{\pi}是由\pi_{old}和\pi^`$ $(\pi,\widetilde{\pi})$ $(a,\widetilde{a})$ 。
$\widetilde{a}$ $\alpha$ $\pi_{new}$ $\alpha$ $P(a\neq \widetilde{a}|s)\le\alpha$ 。
于是有：
$\begin{aligned} \overset{―}{A} & = E_{\tilde{a} \sim \tilde{π}} [A_{π} (s, \tilde{a})] ⟶ 定义 \\ = E_{(a, \tilde{a}) \sim (π, \tilde{π})} [A_{π} (s, \tilde{a}) - A_{π} (s, a)] ⟶ E_{a \sim π} A_{π} (s, a) = 0 ，所以这个等号就是减去了 0 \\ = P (a \neq \tilde{a} | s) E_{(a, \tilde{a}) \sim (π, \tilde{π}) | a \neq \tilde{a}} [A_{π} (s, \tilde{a}) - A_{π} (s, a)] ⟶ 当 a = \tilde{a} 时, A_{π} (s, \tilde{a}) - A_{π} (s, a) = 0 \end{aligned}$
于是有：
$\begin{matrix} (12) & | \overset{―}{A} | \leq P (a \neq \tilde{a} | s) (| E_{\tilde{a} \sim \tilde{π}} [A_{π} (s, \tilde{a}) | + | E_{a \sim π} A_{π} (s, a)] |) \leq α \cdot 2 \cdot max_{s, a} | A_{π} (s, a) | \end{matrix}$
$n_t$ $\pi$ $\widetilde{\pi}$ 产生的不同动作的数量，有：
$\begin{matrix} (13) & E_{s_{t} \sim \tilde{π}} [\overset{―}{A} (s_{i})] = P (n_{t} = 0) E_{s_{t} \sim \tilde{π} | n_{t} = 0} [\overset{―}{A} (s_{t})] + P (n_{t} > 0) E_{s_{t} \sim \tilde{π} | n_{t} > 0} [\overset{―}{A} (s_{t})] \end{matrix}$
和
$\begin{matrix} (14) & E_{s_{t} \sim π} [\overset{―}{A} (s_{i})] = P (n_{t} = 0) E_{s_{t} \sim π | n_{t} = 0} [\overset{―}{A} (s_{t})] + P (n_{t} > 0) E_{s_{t} \sim π | n_{t} > 0} [\overset{―}{A} (s_{t})] \end{matrix}$
$n_t=0$ $\pi$ $\widetilde{\pi}$ 动作相同，将到达相同的状态，则有：
$E_{s_{t} \sim \tilde{π} | n_{t} = 0} [\overset{―}{A} (s_{t})] = E_{s_{t} \sim π | n_{t} = 0} [\overset{―}{A} (s_{t})]$
则式（13）减去式（14）有：
$\begin{aligned} | E_{s_{t} \sim \tilde{π} | n_{t} > 0} [\overset{―}{A} (s_{t})] - E_{s_{t} \sim π | n_{t} > 0} [\overset{―}{A} (s_{t})] | & \leq | E_{s_{t} \sim \tilde{π} | n_{t} > 0} [\overset{―}{A} (s_{t})] | + | E_{s_{t} \sim π | n_{t} > 0} [\overset{―}{A} (s_{t})] | ⟶ 使用式 (12) 的结论 \\ \leq 4 α max_{s, a} | A_{π} (s, a) | \end{aligned}$
$P(n_t =0) \ge(1-\alpha)^{t}$ $P(n_t>0) \le 1-(1-\alpha)^t$
于是有：
$\begin{aligned} | E_{s_{t} \sim \tilde{π}} [\overset{―}{A} (s_{i})] - E_{s_{t} \sim π} [\overset{―}{A} (s_{i})] | & = P (n_{t} > 0) | E_{s_{t} \sim \tilde{π} | n_{t} > 0} [\overset{―}{A} (s_{t})] - E_{s_{t} \sim π | n_{t} > 0} [\overset{―}{A} (s_{t})] | \\ \leq (1 - (1 - α)^{t}) \cdot 4 α max_{s, a} | A_{π} (s, a) | \end{aligned}$
从而有：
$\begin{aligned} | η (\tilde{π}) - L_{π} (\tilde{π}) | & = \sum_{t = 0}^{\infty} γ^{t} | E_{τ \sim \tilde{π}} [\overset{―}{A} (s_{t})] - E_{τ \sim π} [\overset{―}{A} (s_{t})] | \\ \leq \sum_{t = 0}^{\infty} γ^{t} \cdot 4 ϵ α (1 - (1 - α)^{t}) ⟶ ϵ = max_{s} | A_{π} (s, a) | 而不是 max_{s} | E_{a \sim \tilde{π} (a | s)} [A_{π} (s, a)] | \\ = 4 ϵ α (\frac{1}{1 - γ} - \frac{1}{1 - γ (1 - α)}) \\ = \frac{4 α^{2} γ ϵ}{(1 - γ) (1 - γ (1 - α))} \\ \leq \frac{4 α^{2} γ ϵ}{(1 - γ)^{2}} \end{aligned}$
证毕。

$L_{\pi}(\widetilde{\pi})$ $\eta(\widetilde{\pi})$ 。

$\alpha$ $\alpha$ 其实表征的是两个策略之间的距离，而策略其实就是概率分布，衡量两个概率分布的相似程度自然而然想到散度，于是使用总方差散度(the Total Variation divergence)。

对于离散的取值，我们有：

\begin{matrix} (15) & \begin{matrix} D_{T V} (p | | q) = \frac{1}{2} \sum_{i} | p_{i} - q_{i} | \\ D_{T V}^{m a x} (π, \tilde{π}) = max_{s} (π (\cdot | s) | | \tilde{π} (\cdot | s)) \end{matrix} \end{matrix}

又有：

\begin{matrix} [D_{T V} (p | | q)]^{2} \leq D_{K L} (p | | q) \\ D_{K L}^{m a x} (π, \tilde{π}) = max_{s} D_{K L} (π (\cdot | s) | | \tilde{π} (\cdot | s)) \end{matrix}

从而有：

\begin{matrix} η (\tilde{π}) \geq L_{π} (\tilde{π}) - C D_{K L}^{m a x} (π, \tilde{π}) \\ where C = \frac{4 ϵ γ}{(1 - γ)^{2}} \end{matrix}

$\pi$ $\widetilde{\pi}$ $\alpha$ $L_{\pi}(\widetilde{\pi})$ $\eta(\widetilde{\pi})$ $L_{\pi}(\widetilde{\pi})$ $\eta(\widetilde{\pi})$ 也在优化。

在保证回报函数单调不减的情况下，求取更新策略的算法：

$\eta$ 不减的近似策略迭代算法
$\pi_0$
$\cdots$ until 收敛 do:
$A_{\pi_i}(s,a)$
求解如下约束问题：
$\pi_{i+1}=arg max_{\pi}(L_{\pi_{i}}(\pi)-\frac{4\epsilon\gamma}{(1-\gamma)^2}D_{KL}^{max}(\pi_i,\pi))$ ,
$\epsilon=\max_{s}|E_{a \thicksim \widetilde{\pi}(a|s) }[A_{\pi}(s,a)]$
$L_{\pi_{i}}(\pi_i)=\eta(\pi_i)+\sum_{s}\rho_{\pi_i}(s)\sum_{a}\pi(a|s)A_{\pi_i}(s,a)$
End for

证明以上算法的有效性：

$M_i(\pi)=L_{\pi_i}(\pi)-CD_{KL}^{max}(\pi_i,\pi)$
$M_i(\pi_i)=L_{\pi_i}(\pi_i)=\eta(\pi_i) \longrightarrow D_{KL}^{max}(\pi_i,\pi_i)=0$
$\pi_{i+1}=arg max_{\pi}(L_{\pi_i}(\pi)-C \cdot D_{KL}^{max}(\pi_i,\pi))$
$\eta(\pi_{i+1}) \ge M_{i+1}(\pi_{i+1})$
$\eta(\pi_{i+1})-\eta(\pi_i) \ge M_i(\pi_{i+1}-M_i(\pi_i))$
$M_i$ $\eta$
证毕。

六、采取重要性采样，Q函数替代A函数，对算法进一步近似

$\max_{\theta}(L_{\theta_{old}}(\theta)-C \cdot D_{KL}^{max}(\theta_{old},\theta))$ ，可以改写为：

\begin{matrix} (16) & \begin{matrix} max_{θ} L_{θ_{o l d}} (θ) \\ subject to D_{K L}^{m a x} (θ_{o l d}, θ) \leq δ \end{matrix} \end{matrix}

但上式的约束太严格，要求状态空间的每一点都维持在KL散度在一定范围内，所以在实际应用中用平均散度来作为最大KL散度的近似，这样就可以使用采样的方法，即：

\begin{matrix} (17) & {\overset{―}{D}}_{K L}^{ρ} (θ_{1}, θ_{2}) := E_{s \sim ρ} [D_{K L} (π_{θ_{1} (\cdot | s)} | | π_{θ_{2} (\cdot | s)})] \end{matrix}

则有：

\begin{matrix} (18) & \begin{matrix} max_{θ} \sum_{s} ρ_{θ_{o l d}} (s) \sum_{a} π_{θ} (a | s) A_{θ_{o l d}} (s, a) \\ subject to {\overset{―}{D}}_{K L}^{ρ_{θ_{o l d}}} (θ_{o l d}, θ) \leq δ \end{matrix} \end{matrix}

$\sum_s\rho_{\theta_{old}}(s)[\cdots]$ $\frac{1}{1-\gamma}E_{s \sim \rho_{\theta_{old}}}[\cdots]$ $\rho$ $\gamma$ $1-\gamma$ $1-\gamma$ $\sum_s\rho(s)=1$ 。

解释：
$\begin{aligned} \sum_{s} ρ_{θ_{o l d}} (s) [\dots] & = \sum_{s} \sum_{t} γ^{t} P (s_{t} | π_{θ_{o l d}}) [\dots] \\ = \sum_{t} γ^{t} \sum_{s} P (s_{t} | π_{θ_{o l d}}) [\dots] \\ \approx \frac{1}{1 - γ} E_{s \sim ρ_{θ_{o l d}}} [\dots] \end{aligned}$

$\sum$ 的策略是按照新的策略，所以得引入重要性采样，用原策略采样得到的轨迹来训练

即：

\begin{matrix} (19) & \sum_{s} π_{θ} (a | s) A_{θ_{o l d}} (s, a) = E_{a \sim π_{θ_{o l d}}} [\frac{π_{θ} (a | s)}{π_{θ_{o l d}} (a | s)} A_{θ_{o l d}} (s, a)] \end{matrix}

再一个优化是用状态-动作价值函数Q(s,a)代替优势函数A(s,a)

解释：
$\begin{aligned} \sum_{a} π_{θ} (a | s) A_{θ_{o l d}} (s, a) & = \sum_{a} π_{θ} (a | s) [Q_{θ_{o l d}} (s) - V_{θ_{o l d}} (s, a)] \\ = \sum_{a} [π_{θ} (a | s) Q_{θ_{o l d}} (s, a)] - V_{θ_{o l d}} (s) \sum_{a} π_{θ} (a | s) \\ = \sum_{a} [π_{θ} (a | s) Q_{θ_{o l d}} (s, a)] - V_{θ_{o l d}} (s) ⟶ V_{θ_{o l d}} (s) 是常数 \end{aligned}$

原论中提到可以用Q替代A，但在代码实现中还是用A来实现的居多，应该是运用了类似Dueling DQN差不多的技巧，以加快训练速度。

最终TRPO的目标转化为转化为：

\begin{matrix} (20) & \begin{matrix} max_{s} E_{s \sim ρ_{θ_{o l d}}, a \sim π_{θ_{o l d}}} [\frac{π_{θ} (a | s)}{π_{θ_{o l d}} (a | s)} Q_{θ_{o l d}} (s, a)] \\ subject to E_{s \sim ρ_{θ_{o l d}}} [D_{K L} (π_{θ_{o l d}} (\cdot | s) | | π_{θ} (\cdot | s))] \leq δ \end{matrix} \end{matrix}

七、对目标函数进行一阶逼近，对约束函数进行二阶逼近

纯理论上的TRPO更新不是最容易使用的，所以实际的TRPO算法进行了一些近似操作以快速获得答案。

1）对目标函数进行一阶逼近

$L_{\theta_{old}}(\theta)=E_{s \sim \rho_{\theta_{old}},a \sim \pi_{\theta_{old}}}[\frac{\pi_{\theta}(a|s)}{\pi_{\theta_{old}}(a|s)}A_{\theta_{old}}(s,a)]$

得到：

\begin{matrix} (21) & min_{θ} - \nabla_{θ} L_{θ_{o l d}} (θ) |_{θ = θ_{o l d}} \cdot (θ - θ_{o l d}) \end{matrix}

解释：
$f(x)=f(a)+f^`(a)(x-a)$
$\theta=\theta_{old}$ 处进行一阶泰勒展开，得到
$L_{θ_{o l d}} (θ) = L_{θ_{o l d}} (θ_{o l d}) + \nabla_{θ} L_{θ_{o l d}} (θ) |_{θ = θ_{o l d}} \cdot (θ - θ_{o l d})$
显然等号第一项为0，最大化一个数等价于最小化它的相反数，且在机器学习中一般习惯于最小化目标函数
故
$max_{s} E_{s \sim ρ_{θ_{o l d}}, a \sim π_{θ_{o l d}}} [\frac{π_{θ} (a | s)}{π_{θ_{o l d}} (a | s)} A_{θ_{o l d}} (s, a)] \Leftrightarrow min_{θ} - (\nabla_{θ} L_{θ_{o l d}} (θ) |_{θ = θ_{o l d}} \cdot (θ - θ_{o l d}))$

2）对约束函数进行二阶逼近

得到：

\begin{matrix} (22) & \begin{matrix} \frac{1}{2} (θ - θ_{o l d})^{T} F (θ_{o l d}) (θ - θ_{o l d}) \leq δ \\ 其 中 F 是 费 舍 尔 信 息 矩 阵 \end{matrix} \end{matrix}

解释：
根据KL散度的定义得：
$\begin{aligned} D_{K L} (π_{θ_{o l d}} (\cdot | s) | | π_{θ} (\cdot | s)) & = \int π_{θ_{o l d}} (\cdot | s) \log \frac{π_{θ_{o l d}} (\cdot | s)}{π_{θ} (\cdot | s)} d x \\ = \int π_{θ_{o l d}} (\cdot | s)) \log π_{θ_{o l d}} (\cdot | s)) d x - \int π_{θ_{o l d}} (\cdot | s)) \log π_{θ} (\cdot | s)) \\ = E_{x \sim π_{θ_{o l d}}} \log π_{θ_{o l d}} - E_{x \sim π_{θ_{o l d}}} \log π_{θ} \end{aligned}$
$D_{KL}$ 进行一阶求导，即：
$\begin{aligned} \nabla_{θ} D_{K L} (π_{θ_{o l d}} (\cdot | s) | | π_{θ} (\cdot | s)) & = - \int π_{θ_{o l d}} (x | s)) \nabla_{θ} \log π_{θ} (x | s)) d x \\ = - \int π_{θ_{o l d}} (x | s) \cdot \frac{\nabla_{θ} π_{θ} (x | s)}{π_{θ (x | s)}} d x ⟶ 代入 θ = θ_{o l d} \\ = - \int \nabla_{θ} π_{θ_{o l d}} (x | s) d x \\ = - \nabla \int π_{θ_{o l d}} (x | s) d x \\ = \nabla 常数 \\ = 0 \end{aligned}$
$D_{KL}$ 进行二阶求导
$\begin{aligned} \nabla_{θ}^{2} D_{K L} (π_{θ_{o l d}} (\cdot | s) | | π_{θ} (\cdot | s)) |_{θ = θ_{o l d}} & = - \int π_{θ_{o l d}} (x | s)) \nabla_{θ}^{2} \log π_{θ} (x | s)) d x |_{θ = θ_{o l d}} ⟶ 记 H = \nabla_{θ}^{2} \log π_{θ} (x | s)) |_{θ = θ_{o l d}} \\ = - \int π_{θ_{o l d}} (x | s) H_{\log π_{θ}} d x |_{θ = θ_{o l d}} \\ = - E_{π_{θ_{o l d}}} [H_{\log π_{θ_{o l d}}}] \\ = F ⟶ 费舍尔信息矩阵 \end{aligned}$
注：
两个重要结论 结论1：Fisher矩阵F是Hessian矩阵H的负期望
$F = - E_{p (x | θ)} [\nabla_{θ} \log p (x | θ) \nabla \log p (x | θ)^{T}] = - E_{p (x | θ)} [H_{\log p (x | θ)}]$
当黑塞矩阵中的被微分的函数是对数函数时，其与费舍尔信息矩阵就相差一个负号
证明：
$F = E_{x \sim p (x, θ)} [\nabla_{θ} \log p (x | θ) \nabla_{θ} \log p (x | θ)^{T}]$ $\begin{aligned} H_{\log p (x | θ)} & = \nabla_{θ} (\nabla_{θ} \log p (x | θ)) \\ = \nabla_{θ} (\frac{\nabla_{θ} p (x | θ)}{p (x | θ)}) \\ = \frac{p (x | θ) \nabla_{θ}^{2} p (x | θ - \nabla_{θ} p (x | θ) \nabla_{θ} p (x | θ)^{T})}{p^{2} (x | θ)} \\ = \frac{\nabla_{θ}^{2} p (x | θ)}{p (x | θ)} - \nabla_{θ} \log p (x | θ) \nabla_{θ} \log p (x | θ)^{T} \end{aligned}$ $\begin{aligned} E_{x \sim p (x, θ)} [H_{\log p (x | θ)}] & = E_{x \sim p (x, θ)} [\frac{\nabla_{θ}^{2} p (x | θ)}{p (x | θ)}] - F \\ = \int \frac{\nabla_{θ}^{2} p (x | θ)}{p (x | θ)} p (x | θ) d x - F \\ = \nabla_{θ}^{2} \int p (x | θ) d x - F \\ = - F \end{aligned}$
结论2：Fisher矩阵F是KL散度的Hessian矩阵H
$D_{KL}$ 的二阶求导结果，即：
$\begin{aligned} K L [p_{θ} | | p_{θ + d}] & \approx K L [p_{θ} | | p_{θ + d}] + (\nabla_{θ^{'}} K L [p_{θ} | | p_{θ^{'}}] |_{θ^{'} = θ})^{T} d + \frac{1}{2} d^{T} F d \\ = K L [p_{θ} | | p_{θ + d}] - E_{p (x | θ)} [\nabla_{θ} \log p (x | θ)]^{T} d + \frac{1}{2} d^{T} F d \\ = \frac{1}{2} d^{T} F d \end{aligned}$
$m(\theta)=E_{s \sim \rho_{\theta_{old}}}[D_{KL}(\pi_{\theta_{old}}(\cdot|s)||\pi_{\theta}(\cdot|s))]$ $m(\theta)在\theta=\theta_{old}$ 处的二阶泰勒展开为：
$\begin{aligned} m (θ) & \approx m (θ_{o l d}) + \nabla_{θ} m (θ) |_{θ = θ_{o l d}} (θ - θ_{o l d}) + \frac{1}{2} (θ - θ_{o l d})^{T} \nabla_{θ}^{2} m (θ) |_{θ = θ_{o l d}} (θ - θ_{o l d}) ⟶ 由前面的推导 \\ = - \frac{1}{2} (θ - θ_{o l d})^{T} E_{s \sim ρ_{θ_{o l d}}} [H_{\log π_{θ_{o l d}}}] (θ - θ_{o l d}) \\ = \frac{1}{2} (θ - θ_{o l d})^{T} E_{s \sim ρ_{θ_{o l d}}} [F_{π_{θ_{o l d}}}] (θ - θ_{o l d}) \end{aligned}$
另一种证明方法：
$\begin{aligned} K L [\log p (x | θ) | \log p (x | θ^{'})] & = \int p (x | θ) \log \frac{\log p (x θ)}{\log p (x | θ^{'})} \\ = E_{x \sim p (x, θ)} [\log p (x | θ)] - E_{x \sim p (x, θ)} [\log p (x | θ^{'})] \end{aligned}$ $\nabla_{θ^{'}} K L [\log p (x | θ) | \log p (x | θ^{'})] = - \nabla_{θ^{'}} E_{x \sim p (x, θ)} [\log p (x | θ^{'})]$ $\begin{aligned} \nabla_{θ^{'}}^{2} K L [\log p (x | θ) | \log p (x | θ^{'})] |_{θ^{'} = θ} & = - \nabla_{θ^{'}}^{2} E_{x \sim p (x, θ)} [\log p (x | θ^{'})] |_{θ^{'} = θ} \\ = - E_{x \sim p (x, θ)} H_{\log p (x | θ)} \\ = F \end{aligned}$

八、利用共轭梯度法求解最优更新量

对式（21）和（22）构造拉格朗日函数，即

\begin{matrix} (23) & L (θ, λ) = - (\nabla_{θ} L_{θ_{o l d}} (θ) |_{θ = θ_{o l d}} \cdot (θ - θ_{o l d})) + λ (\frac{1}{2} (θ - θ_{o l d})^{T} F (θ_{o l d}) (θ - θ_{o l d}) - δ) \end{matrix}

利用KKT条件：

\begin{matrix} (24) & \begin{matrix} \frac{\partial L (θ, λ)}{\partial θ} = - \nabla_{θ} L_{θ_{o l d}} (θ) |_{θ = θ_{o l d}} + λ F (θ_{o l d}) (θ - θ_{o l d}) = 0 \\ λ \geq 0 \\ λ (\frac{1}{2} (θ - θ_{o l d})^{T} F (θ_{o l d}) (θ - θ_{o l d}) - δ) = 0 \\ \frac{1}{2} (θ - θ_{o l d})^{T} F (θ_{o l d}) (θ - θ_{o l d}) - δ \leq 0 \end{matrix} \end{matrix}

$d=\lambda(\theta-\theta_{old})$ $d与\theta-\theta_{old}$ 同向，则d为最优更新量的搜索方向，即满足：

\begin{matrix} (25) & \begin{matrix} F (θ_{o l d}) d = \nabla_{θ} L_{θ_{o l d}} (θ) |_{θ = θ_{o l d}} \\ 或 d = F^{- 1} (θ_{o l d}) \nabla_{θ} L_{θ_{o l d}} (θ) |_{θ = θ_{o l d}} \end{matrix} \end{matrix}

\begin{matrix} (26) & θ = θ_{o l d} + \sqrt{\frac{2 δ}{g^{T} F^{- 1} g}} F^{- 1} g, 其 中 g = - \nabla_{θ} L_{θ_{o l d}} (θ) \end{matrix}

1)计算更新步长：

$\beta$ ，则：

\begin{matrix} (27) & \begin{matrix} δ = \frac{1}{2} (β d^{*})^{T} F (θ_{o l d}) (β d^{*}) \Rightarrow β = \sqrt{\frac{2 δ}{d^{*^{T}} F d^{*}}} ， \\ 其 中 d^{*} = F^{- 1} g, 这 里 d^{*} = - d, g 为 式 （ 26 ） 中 的 g \end{matrix} \end{matrix}

\begin{matrix} (28) & θ_{n e w} = θ_{o l d} + β \cdot d^{*} \end{matrix}

2)计算搜索方向

$O(n^3)$ ，其中n是矩阵大小，所以采用共轭梯度的方法来求解，即将求解线性方程组的问题转化为求解与之等价的二次函数极小值问题，具体如下：

首先构造目标函数：
$\begin{matrix} f (x) = \frac{1}{2} x^{T} A x + b^{T} x, 其中 A = A^{T} 为正定矩阵，其极小值点为 A x = b 的解 \\ 其中 b^{T} = - \nabla_{θ} L_{θ_{o l d}} (θ) |_{θ = θ_{o l d}} = g ⟶ 式 (26) 这种的 g ，和具体算法过程中的 g 没有关系 \\ A = - E_{p (x | θ_{o l d})} [\nabla_{θ} \log p (x | θ) \nabla \log p (x | θ)^{T}] = - E_{p (x | θ_{o l d})} [\nabla_{θ}^{2} D_{K L} (p (x | θ_{o l d}) | | p (x | θ))] = H_{K L_{[} p (x | θ_{o l d}) | | p (x | θ])} = F \end{matrix}$
具体算法过程：
$x^{(0)}$ $\epsilon或最大迭代次数n$ ）
$g^{(0)}=\nabla f(x^{(0)})=Ax^{(0)}+b$ $g^{(0)}=0$ $d^{(0)}=-g^{(0)}$
第三步：for k=0 to n-1 do:
$\alpha_k=-\frac{(g^{(k)})^Td^{k}}{(d^k)^TAd^{k}}$
$x^{(k+1)}=x^{(k)}+\alpha_kd^{(k)}$
$g^{(k+1)}=\nabla f(x^{(k+1)})=Ax^{(k+1)}+b$ $g^{(k+1)}=0$ ，停止迭代
$\beta_k=\frac{(g^{(k+1)})^TAd^{k}}{(d^k)^TAd^{k}}$
$d^{(k+1)}=-g^{(k+1)}+\beta_kd^{(k)}$
End for
$x^{n+1}$

此外：
$Ad^k$ $Ad^k$ 向量：
$H v = \nabla_{θ} ({(\nabla_{θ} (D_{K L}^{v^{π_{θ_{k}}}} (π_{θ_{k}}, π_{θ^{'}})))}^{T}) v = \nabla_{θ} ({(\nabla_{θ} (D_{K L}^{v^{π_{θ_{k}}}} (π_{θ_{k}}, π_{θ^{'}})))}^{T} v)$
$\mathcal{v}$ 点乘后再计算二阶梯度

九、线性搜索

$\pi_{\theta_{new}}$ $\pi_{\theta_{old}}$ 的平均回报，或者KL散度可能没有达到限制条件。所以TRPO在每次迭代的最后进行一次线性搜索，以确保找到满足条件，即找到一个最小的非负整数i，使得：

θ_{k + 1} = θ_{k} + α^{i} \sqrt{\frac{2 δ}{x^{T} F x}} x

$\alpha \in (0,1)$ $\theta_{k+1}$ 满足条件。

十、TRPO算法流程

$\theta$ $\omega$

$\rightarrow$ E do:

$\pi_{\theta_k}$ $\left\{s_1,a_1,r_1,s_2,a_2,r_2,\cdots \right\}$

$A(s_t,a_t)$

计算策略目标函数的梯度g

$x=-F^{-1}g$

$\theta_{k+1}=\theta_k+\alpha^i\sqrt{\left. \frac{2\delta}{x^TFx}\right.}x,其中i \in \left\{1,2,\cdots ,K\right\}$ 为提升策略并满足KL距离限制的最小整数

更新价值网络参数（与Actor-Critic中的更新方法相同）

end for

参考资料

John Schulman Trust Region Policy Optimization

张伟楠沈键俞勇《动手学强化学习》人民邮电出版社

邹伟鬲玲刘昱杓《强化学习》清华大学出版社

作者：Dreammaker 链接：https://zhuanlan.zhihu.com/p/605886935 来源：知乎

机智的王小鹏链接：https://space.bilibili.com/169602174