深度学习中的可微分编程技巧
可微分编程技术在仿真中被广泛应用,并在过去几十年机器学习的快速发展中扮演了重要角色,这些方法虽然强大,但仍然存在局限性,首先讨论可微分编程技术怎样加速机器学习。 基于梯度的神经网络优化众所周知,人工神经网络能够快速逼近拟合高维非线性函数,对ANN进行优化时需要借助Loss函数对参数的导数来进行基于梯度的优化。由此诞生了许多可微的仿真环境,以及自动微分求导工具。 符号 $f$ $s$ $\theta$ $l$ 神经网络训练 神经网络的某一层变换 神经网络某一层的输入 这一层的权重矩阵和偏差矩阵 交叉熵损失、L2正则化等等损失函数 强化学习 环境的step函数 状态s 策略网络的参数 环境的reward函数 深度学习的优化器(也许是这么翻译) 优化器的应用(也许是这么翻译) 待优化的神经网络参数 可调整的优化器参数,比如学习率 经过一定数量的优化步骤后,相应任务的神经网络表现评分 离散迭代动力学系统考虑如下离散的动力学系统演化,$s$代表动力学系统的状态,$\theta$是我们的控制变量,$f$为状态转移函数。$$s_{t+1} =...
Apex_RL更新计划
算法支持 算法 更新优先级 更新进度 PPO TOP1 100% SAC TOP2 0% AMP TOP3 0% DQN 后续 0% MBOM 后续 0% 第三方支持 第三方 优先级 更新进度 isaaclab TOP1 0% pybind11 TOP2 0% wandb TOP3 0% hydra TOP4 0% 催更与反馈邮箱:atticlmr2002@163.com github:https://github.com/Atticlmr/Apex_rl/discussions 碎碎念
conda虚拟环境安装与torch配置
conda安装安装完成显卡驱动和CUDA后,推荐安装conda来管理虚拟环境 Ubuntu上建议安装Miniconda 运行如下代码下载Miniconda安装脚本 1wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh #下载Miniconda安装脚本 添加可执行权限 1sudo chmod +x Miniconda3-latest-Linux-x86_64.sh 运行脚本 1sudo ./Miniconda3-latest-Linux-x86_64.sh 跟随脚本的命令一路运行下去就行 需要将自动激活base环境的设置关闭,不然无意识激活了base环境可能给某些项目编译带来麻烦 1conda config --set auto_activate_base false conda基础命令创建和删除环境 123conda env list # 查看环境列表conda create -n <env_name> python=<version> #...
Apex_RL2:ActorCritic方法实现以及PPO算法
PPO(近端策略优化)是一种无模型(model-freee)、随机的策略梯度算法,属于on-policy(同策略)方法。它通过与环境交互来采样数据,并交替优化一个替代目标函数,避免新策略与旧策略偏离过远。PPO是TRPO的简化版本,截断版本减少了更新策略时的计算量。 论文原文:Proximal Policy Optimization Algorithms 为了实现PPO算法,有几个重要的模型需要实现,其中有
Ubuntu深度学习环境配置1:驱动与CUDA安装
安装依赖项1234sudo apt-get update sudo apt-get install g++sudo apt-get install gccsudo apt-get install make 禁用系统自带的nouveau显卡驱动1sudo vim /etc/modprobe.d/blacklist-nouveau.conf 在文件末尾添加以下内容,将nouveau驱动加入黑名单 12blacklist nouveauoptions nouveau modeset=0 输入以下命令使得禁用生效然后重启电脑 12sudo update-initramfs -u #更新系统sudo reboot 重启电脑后输入以下命令无输出则证明禁用生效 1lsmod | grep nouveau 安装Nidia显卡驱动建议使用ppa源进行驱动安装 首先使用以下命令查询推荐的驱动版本 1ubuntu-drivers devices 一般安装recommended的版本 1234sudo add-apt-repository...
Apex_RL_开发日志1 python第三方库的配置
为了回顾之前的强化学习相关算法内容,我决定开始弄一个强化学习python第三方库 同时站在巨人的肩膀上进行开发,这个第三方库的开发参考了几个开源库 skrl rsl_rl stable-baselines3 这篇文章记录了这个第三方库的开发过程github连接:Apex_RL python第三方库开发配置开发python第三方库,首先要配置几个文件现代python第三方库偏向于使用pyproject.toml作为配置文件开发python project参考pypa/sampleproject 参考rsl_rl和sample,首先规划了下文件树 123456789Apex_rl/├── apex_rl/ # 主代码目录(Python包)│ └── __init__.py # 包初始化文件(可包含版本信息)├── tests/ # 单元测试目录├── docs/ # 文档├── README.md # 项目说明├── pyproject.toml ...
IssacSim-IsaacLab安装注意事项
遵循官网的安装指导,在第一次启动isaacsim\isaaclab时往往会遇到不少问题所以撰写了这篇文档 资产加载isaacsim默认的资产加载方式为从amazon云端下载 所以每次开启训练和演示时推荐打开你的魔法软件 当然如果你不使用官方提供的资产进行训练就没有这个问题 如果觉得打开魔法软件很麻烦,有两种方法解决这个问题 首先前往官网下载资产包,总共大概80GBIsaacSim...
IsaacLab URDF转换USD脚本
IsaacLab 官方脚本IsaacLab 内含URDF转换USD脚本在 IsaacLab/scripts/tools/convert_urdf.py 激活环境以后,运行脚本并输入参数 123cd IsaacLab# 激活环境conda activate env_isaaclab 12# 运行脚本并加入argspython scripts/tools/convert_urdf.py /path/to/your/robot.urdf /path/to/your/robot.usd --merge-joints –merge-joints是开启把固定关节合并的功能 记得自行更换’/path/to/your/robot.urdf’和’/path/to/your/robot.usd’两个参数 随后你可以倒入isaacsim查看usd模型 12# 打开isaacsim./isaaclab.sh -s 在下方的GUI里面选择 我这里使用了宇树官方提供的go2w...
Foundationstereo复现实操
需要的显卡资源太多,我这2080ti实在是跑不动辣,有没有好心人资助我一下显卡
hexo butterfly 主题页脚添加备案号
在/yourblogpath/source文件夹下新建一个images文件夹用来存放公安部备案图标然后找到themes/butterfly/layout/includes/footer.pug在文件的末尾添加代码 12345678910// 添加备案号// 与foot.other同级即可 .footer-beian p span a(href="https://beian.miit.gov.cn" target="_blank") 赣ICP备 xxxxx 号 p span img(src="/images/beian.png" alt="公安备案图标" style="vertical-align:middle; width: 20px; height: 20px; margin-right: 5px;") ...