PPO(近端策略优化)是一种无模型(model-freee)、随机的策略梯度算法,属于on-policy(同策略)方法。它通过与环境交互来采样数据,并交替优化一个替代目标函数,避免新策略与旧策略偏离过远。PPO是TRPO的简化版本,截断版本减少了更新策略时的计算量。

论文原文:Proximal Policy Optimization Algorithms

为了实现PPO算法,有几个重要的模型需要实现,其中有