Apex_RL2:ActorCritic方法实现以及PPO算法
PPO(近端策略优化)是一种无模型(model-freee)、随机的策略梯度算法,属于on-policy(同策略)方法。它通过与环境交互来采样数据,并交替优化一个替代目标函数,避免新策略与旧策略偏离过远。PPO是TRPO的简化版本,截断版本减少了更新策略时的计算量。
论文原文:Proximal Policy Optimization Algorithms
为了实现PPO算法,有几个重要的模型需要实现,其中有
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Attic的博客!