工作职责
1、负责AI模型、工业软件在混合云及边缘环境的高可用容器化部署(Docker/K8s),日常运维;
2、负责建立监控体系(应用/数据/AI服务性能),实时保障生产系统稳定性;
3、快速响应及解决系统故障,制定应急预案,确保制造业务连续性;
4、识别系统瓶颈,实施调优方案;
5、通过脚本/工具实现部署、配置、监控的自动化流程;
6、落实工业环境网络安全规范及等保要求;
7、编写系统运维手册、操作指南、需求分析报告等各类文档,确保系统相关资料完整、规范,便于团队成员查阅与参考;
8、其它运维相关的任务。
任职资格
1、3年以上Linux系统运维经验,精通网络/脚本(Python/Shell);
2、熟练使用K8s、Docker及监控工具(Prometheus/Zabbix等);
3、熟练部署与维护高可用中间件集群,包括 PostgreSQL(主从/Patroni)、Redis(哨兵/Cluster)、MinIO(分布式)、ETCD(集群)、EMQX(节点互联)等,具备集群规划、故障转移及数据一致性保障经验;
4、精通 DevOps 工具链,如:Jenkins/Harbor/GitLab/Nexus/SonarQube/Ansible/Prometheus/Grafana的部署、配置与维护,具备 CI/CD 全流程实施经验;
5、有制造业系统运维经验,参与过AI模型/数据分析平台的生产环境部署;
6、强问题定位能力,7x24高可用系统维护经验;
7、具备良好的沟通能力和团队合作精神,具备较强的逻辑分析能力,能够承受一定的工作压力;
8、有算力集群运维经验优先。