工作职责
1. 负责AI算力平台的整体架构设计和核心组件开发,确保对算力、网络、存储等资源的高效管理,参与高性能智算集群建设
2. 负责分布式训练、推理场景中的任务调度、负载均衡、高并发和稳定性保障,制定弹性扩容与容错、容灾方案
3. 负责对底层GPU、RDMA网络等资源的细粒度监控和故障转移
4. 负责对国产GPU资源的纳管和调度
5. 研究并引入前沿技术,如资源调度算法、分布式计算技术等,推动平台技术升级和创新
任职资格
1. 硕士学历,计算机、软件工程、分布式系统或相关专业,5年以上AI平台开发经验
2. 熟悉AI算力平台的核心业务流程,如分布式训练、部署、调度,能够设计开发模型训练、推理、资产管理等模块
3. 熟悉GPU、RDMA网络、高性能存储系统及其相关插件和接口,可进行高效管理、监控、故障转移和恢复
4. 熟悉AI研发流水线,能独立完成设计和开发
5. 熟练掌握K8S等调度工具,高效进行云资源的管理和调度
6. 优秀的跨部门沟通和协作能力
7. 有大规模算力平台建设和优化经验优先