工作职责
1. 负责大规模算力平台规划、模型训推架构设计、核心技术研发,确保高性能、高可用
2. 负责分布式训练任务性能优化,根据需求集成前沿分布式技术
3. 负责算力平台与主流AI框架的适配优化,推动工具链集成
4. 负责分布式训练和推理任务的性能瓶颈分析和调优
5. 负责算力平台核心组件的开发和维护
任职资格
1. 硕士学历,计算机、人工智能、高性能计算或相关专业,3年以上AI平台开发经验
2. 熟练掌握大模型训练流程,掌握分布式训练等关键技术如DP/PP/TP/EP,掌握性能优化技术如Zero等
3. 熟练使用深度学习和分布式框架,DeepSpeed、Megatron等
4. 优秀的跨部门沟通和协作能力
5. 有大规模(千卡以上)分布式训练集群的建设和优化经验优先