工作职责
1. VLA 模型架构设计与预训练:负责设计和优化 VLA 模型架构(如基于 RT-1, RT-2, Octo, PaLM-E 等路线),实现从多模态输入(视觉、文本、传感器数据)到机器人动作(Action Tokens/Trajectory)的端到端生成;探索并改进多模态大模型(VLM/LMM)在机器人控制领域的微调策略(SFT)与对齐技术
2. 具身智能数据引擎构建:构建大规模具身智能数据集,包括由人类遥操作采集的演示数据(Demonstrations)及仿真环境生成的合成数据;设计数据清洗、自动标注及数据增强流程,解决机器人数据稀缺与长尾分布问题
3. 强化学习与模仿学习算法研发:研究并应用模仿学习(Imitation Learning)、离线强化学习(Offline RL)等算法,提升模型在复杂操作任务中的泛化能力与鲁棒性; 利用 Sim-to-Real(虚实迁移)技术,在 Isaac Gym / MuJoCo 等仿真环境中训练策略,并将其部署到真实机器人硬件上
4. 模型部署与推理优化:负责 VLA 模型在边缘端设备(如 Jetson Orin)或云端的推理加速与部署,降低推理延迟,满足机器人实时控制(Real-time Control)的要求
任职资格
教育程度:大学本科
工作经历:
有2~3年具身智能(Embodied AI) 相关项目经验,复现或改进过相关 SOTA 模型(如 Google RT系列, Aloha, VoxPoser 等);熟悉机器人操作系统(ROS/ROS2)及常用仿真平台(Isaac Sim, Gazebo, MuJoCo)
所需专业: 计算机科学、自动化、机器人、人工智能等相关专业硕士及以上学历(博士优先)
专业能力:
1.精通 Python/C++,具有扎实的算法数据结构基础,熟练掌握 PyTorch 或 JAX 深度学习框架
2.大模型/多模态:深入理解 Transformer 架构,熟悉 LLM(Llama, Qwen等)或 VLM(CLIP, ViT, LLaVA等)的训练与微调细节
3.机器人学习:熟悉模仿学习(BC, T-Pots)、强化学习(PPO, CQL, IQL)或机器人运动规划算法
4.计算机视觉:熟悉 3D 视觉、点云处理、视频生成或扩散模型(Diffusion Models)
通识能力:
1.逻辑思维能力
2.责任心强及学习能力强,
3.需要具备沟通协作和一定的抗压能力
4.良好的团队协作精神
语言要求:英语四六级或者同等水平要求