具身智能导论:任务
具身智能导论课程中的任务、Sim-to-Real 与人形机器人控制部分笔记
views
| comments
Lecture 11#
why 机器人仍然使用 PPO
- PPO-Clip 保证了更新保守、训练稳定,
- 而且能吃下大规模并行仿真的数据;虽然样本效率一般,但在仿真环境里可以用数量补。
- 避免了 Q 函数的学习
Sim-to-Real 的 Gap 来源(2024-2025)
- 物理建模不完美
- 接触过于理想化
- 真实电机不够稳定
解决 sim-to-real gap 的办法
- Domain Randomization:仿真环境参数随机化
- Realistic Motor Modeling:考虑电机的各种问题
- Asymmetric Actor-Critic:给 critic 网络全局信息,但是 actor 只有局部观测信息
怎么把人类动作迁移到人形机器人上。 难点叫 Embodiment Gap: 人和机器人的身体结构不同,比如腿长、关节范围、质量分布、脚底形状、自由度都不一样。人类 motion capture 里的动作不能直接拿给机器人执行。
整体流程是: 1. Human Motions 先收集人类动作数据,比如 MoCap。 这些动作可能包括走路、搬箱子、爬障碍、蹲下、转身等。 2. Interaction Mesh Retargeting 把人类动作 retarget 到机器人身上。这里不是简单地让机器人关节角等于人的关节角,而是保留“人和环境/物体的交互关系”。
也就是找一个机器人姿态,使得机器人关键点和人类动作中的关键点关系尽量一致,同时动作要平滑。
约束包括:
- 不能穿模或碰撞:
- 关节角不能超过范围:
- 关节速度不能太快:
- 支撑脚接触点要稳定:
3. Efficient Augmentation 为了让机器人更鲁棒,会对动作和环境做增强。比如换不同物体、不同障碍、不同空间位置。每种增强都重新解一次优化,生成更多机器人可执行的参考轨迹。 4. RL Training 然后用这些 retarget 后的机器人动作作为 reference motion,让 PPO 之类的 RL 算法训练机器人策略。策略不是死记轨迹,而是学会在动力学约束下跟踪这些参考动作,同时保持平衡、控制接触、处理扰动。 5. Zero-Shot Sim 2 Real 最后希望在仿真训练完之后,不再额外真实机器人 fine-tuning,直接部署到真实人形机器人上。这个叫 zero-shot sim-to-real。