EmbodiedAI Start Guide
Published:
具身智能研究入门指南
深度学习基础课程学习
(*课程学习务必做完相关作业,不然等于没学。。。)
斯坦福课程 CS231n: Deep Learning for Computer Vision
跟随FeiFei Li老师的指导能够整体理解计算机视觉深度学习的基本算法、网络模型和训练技巧,务必做完CS231n的作业
伯克利课程 CS185/285: Deep Reinforcement Learning
跟随Sergey Levine老师的指导学习强化学习的知识,很多例子都是在机器人上进行
斯坦福课程 CS229: Machine Learning
跟随马腾宇老师学习机器学习的基础方法和整体理论
机器人基础课程学习
(*课程学习务必做完相关作业,不然等于没学。。。)
西北大学课程 Modern Robotics: Mechanics, Planning, and Control
跟随Kevin Lynch和Frank Park两位老师可以了解机器人学的基本知识,如正逆运动学、动力学、空间变换等
伯克利课程 CS 287: Advanced Robotics
进阶课程,跟随Pieter Abbeel老师学习高等机器人学
机器人仿真平台
(*多玩,多熟悉)
NVIDIA的机器人仿真平台,是目前使用最广泛的机器人仿真平台
使用最广泛的物理引擎,被很多仿真平台(如ISAAC)使用
机器人基础代码库
(*多玩,多熟悉)
具身智能代码库
当你掌握了上面的基础知识后,就可以开始在当前火热的具身智能代码库上进行学习、开发、甚至算法改进: (*当然,如果对自己有自信也可以直接进入到这一环节🐶,遇到不足的地方再返回学习)
Lerobot机器人框架是目前大家做机器人操作使用最多的框架,很多新的算法都是基于这个框架进行开发的。里面已经实现了很多经典算法,如ACT、DiffusionPolicy、Pi系列、GROOT等等,网上也已经有了很多学习文档(官方github已提供一些),可以深入了解当前算法的代码细节,并可以在仿真中进行训练和推理,熟悉之后也可以在上面进行算法改进
StarVLA,也是目前很多人使用的一个机器人代码库,实现了很多最新算法,更新也比较快(虽然问题不少),很多新算法会基于这个代码库里的实现作为baseline,进行改进优化
具身智能经典算法论文
- RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- OpenVLA: An Open-Source Vision-Language-Action Model OpenVLA Closed-Loop Robot Control Policy
- Open X-Embodiment: Robotic Learning Datasets and RT-X Models
- ACT: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Pi系列:
Pi0: A Vision-Language-Action Flow Model for General Robot Control
Pi-0.5: A Vision-Language-Action Model with Open-World Generalization
Pi-0.6: A VLA That Learns From Experience
Pi-0.7: A Steerable Generalist Robotic Foundation Model with Emergent Capabilities
GR系列:
GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation
可参考网上的很多list:list1
