Apex_RL_开发日志1 python第三方库的配置

发表于2025-04-30|更新于2025-05-08|Apex_RL

为了回顾之前的强化学习相关算法内容，我决定开始弄一个强化学习python第三方库

同时站在巨人的肩膀上进行开发，这个第三方库的开发参考了几个开源库

这篇文章记录了这个第三方库的开发过程
github连接：Apex_RL

python第三方库开发配置

开发python第三方库，首先要配置几个文件
现代python第三方库偏向于使用pyproject.toml作为配置文件
开发python project参考pypa/sampleproject

参考rsl_rl和sample，首先规划了下文件树

Apex_rl/
├── apex_rl/            # 主代码目录（Python包）
│   └──  __init__.py    # 包初始化文件（可包含版本信息）
├── tests/              # 单元测试目录
├── docs/               # 文档
├── README.md           # 项目说明
├── pyproject.toml      # 构建配置（现代方式，推荐）
├── setup.py            # 旧版配置（目前没有修改）
└── LICENSE             # 开源许可证（BSD-3-Clause）

实现方式规划

目前参考了下几个开源库的实现方式，都使用了向量化环境，都用了gym提供的接口

skrl不仅仅在torch基础上构建，还基于jax库构建了一下rl算法

jax库是一个很高效的深度学习框架，但是资料太少我们先不考虑，目前还是基于torch进行开发

文档生成

docs采用sphinx生成，主题使用furo

sphinx
furo

License

License选择了BSD-3-Clause

版本管理

使用git进行版本管理

目前分为main分支、develop分支、feature/ppo分支，先在feature/ppo分支进行开发，后续合并到main分支

git-branch1

接下来的计划

下阶段目标是

规划项目整体框架
Actor-Critic方法实现
PPO实现(PPO)
VecENV的实现

文章作者: Attic

文章链接: http://osaerialrobot.top/2025/04/30/Apex-RL-blog/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Attic的博客！

赞助

wechat
alipay

相关推荐

Apex_RL2:ActorCritic方法实现以及PPO算法

PPO（近端策略优化）是一种无模型（model-freee）、随机的策略梯度算法，属于on-policy（同策略）方法。它通过与环境交互来采样数据，并交替优化一个替代目标函数，避免新策略与旧策略偏离过远。PPO是TRPO的简化版本，截断版本减少了更新策略时的计算量。论文原文：Proximal Policy Optimization Algorithms 为了实现PPO算法，有几个重要的模型需要实现，其中有

Apex_RL更新计划

算法支持算法更新优先级更新进度 PPO TOP1 100% SAC TOP2 0% AMP TOP3 0% DQN 后续 0% MBOM 后续 0% 第三方支持第三方优先级更新进度 isaaclab TOP1 0% pybind11 TOP2 0% wandb TOP3 0% hydra TOP4 0% 催更与反馈邮箱：atticlmr2002@163.com github：https://github.com/Atticlmr/Apex_rl/discussions 碎碎念

数据加载中