EmbodiedAI Start Guide

less than 1 minute read

Published: May 01, 2026

具身智能研究入门指南

（*课程学习务必做完相关作业，不然等于没学。。。）

斯坦福课程 CS231n: Deep Learning for Computer Vision
跟随FeiFei Li老师的指导能够整体理解计算机视觉深度学习的基本算法、网络模型和训练技巧，务必做完CS231n的作业
伯克利课程 CS185/285: Deep Reinforcement Learning
跟随Sergey Levine老师的指导学习强化学习的知识，很多例子都是在机器人上进行
斯坦福课程 CS229: Machine Learning
跟随马腾宇老师学习机器学习的基础方法和整体理论

（*课程学习务必做完相关作业，不然等于没学。。。）

西北大学课程 Modern Robotics: Mechanics, Planning, and Control
跟随Kevin Lynch和Frank Park两位老师可以了解机器人学的基本知识，如正逆运动学、动力学、空间变换等
伯克利课程 CS 287: Advanced Robotics
进阶课程，跟随Pieter Abbeel老师学习高等机器人学

（*多玩，多熟悉）

（*多玩，多熟悉）

当你掌握了上面的基础知识后，就可以开始在当前火热的具身智能代码库上进行学习、开发、甚至算法改进：（*当然，如果对自己有自信也可以直接进入到这一环节🐶，遇到不足的地方再返回学习）

Lerobot机器人框架是目前大家做机器人操作使用最多的框架，很多新的算法都是基于这个框架进行开发的。里面已经实现了很多经典算法，如ACT、DiffusionPolicy、Pi系列、GROOT等等，网上也已经有了很多学习文档（官方github已提供一些），可以深入了解当前算法的代码细节，并可以在仿真中进行训练和推理，熟悉之后也可以在上面进行算法改进
StarVLA，也是目前很多人使用的一个机器人代码库，实现了很多最新算法，更新也比较快（虽然问题不少），很多新算法会基于这个代码库里的实现作为baseline，进行改进优化

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
OpenVLA: An Open-Source Vision-Language-Action Model OpenVLA Closed-Loop Robot Control Policy
Open X-Embodiment: Robotic Learning Datasets and RT-X Models
ACT: Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Pi系列：
Pi0: A Vision-Language-Action Flow Model for General Robot Control
Pi-0.5: A Vision-Language-Action Model with Open-World Generalization
Pi-0.6: A VLA That Learns From Experience
Pi-0.7: A Steerable Generalist Robotic Foundation Model with Emergent Capabilities
GR系列：
GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation

可参考网上的很多list：list1