Apex_RL2:ActorCritic方法实现以及PPO算法

发表于2025-05-04|更新于2025-05-25|Apex_RL

PPO（近端策略优化）是一种无模型（model-freee）、随机的策略梯度算法，属于on-policy（同策略）方法。它通过与环境交互来采样数据，并交替优化一个替代目标函数，避免新策略与旧策略偏离过远。PPO是TRPO的简化版本，截断版本减少了更新策略时的计算量。

论文原文：Proximal Policy Optimization Algorithms

为了实现PPO算法，有几个重要的模型需要实现，其中有

文章作者: Attic

文章链接: http://osaerialrobot.top/2025/05/04/Apex_RL/Apex_RL2_AC_PPO/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Attic的博客！

赞助

wechat
alipay

相关推荐

Apex_RL_开发日志1 python第三方库的配置

为了回顾之前的强化学习相关算法内容，我决定开始弄一个强化学习python第三方库同时站在巨人的肩膀上进行开发，这个第三方库的开发参考了几个开源库 skrl rsl_rl stable-baselines3 这篇文章记录了这个第三方库的开发过程github连接：Apex_RL python第三方库开发配置开发python第三方库，首先要配置几个文件现代python第三方库偏向于使用pyproject.toml作为配置文件开发python project参考pypa/sampleproject 参考rsl_rl和sample，首先规划了下文件树 123456789Apex_rl/├── apex_rl/ # 主代码目录（Python包）│ └── __init__.py # 包初始化文件（可包含版本信息）├── tests/ # 单元测试目录├── docs/ # 文档├── README.md # 项目说明├── pyproject.toml ...

Apex_RL更新计划

算法支持算法更新优先级更新进度 PPO TOP1 100% SAC TOP2 0% AMP TOP3 0% DQN 后续 0% MBOM 后续 0% 第三方支持第三方优先级更新进度 isaaclab TOP1 0% pybind11 TOP2 0% wandb TOP3 0% hydra TOP4 0% 催更与反馈邮箱：atticlmr2002@163.com github：https://github.com/Atticlmr/Apex_rl/discussions 碎碎念

数据加载中