岗位职责:
1、负责业务稳定性,紧急事故处理,后续事故分析与优化,参与系统高可用建设方案设计,推进落地;
2、通过服务治理、服务连续性建设、服务容量管理、故障演练等方法持续提升业务稳定性;
3、负责运维技术难点的攻坚,主导制定运维运营可用性技术规范,识别与控制技术演进过程中的运营风险;
4、负责设计和交付系统稳定性保障解决方案,设计稳定性保障运维工具解决方案。
任职要求:
1、5年以上运维工作经验,有互联网行业相关工作经验优先,对以下领域有深入理解:应用运维、运维服务治理、运维自动化及AIOPS等;
2、掌握主流中间件产品、数据库产品,熟悉主流linuxOS,了解主流服务器、存储、网络设备厂商软硬件功能特性及云原生技术体系;
3、有公有云、混合云相关运维实施经验优先,熟练掌握kubernetes/docker等容器技术和vmware虚拟化技术;
4、熟悉大型互联网平台的架构,熟悉微服务框架、分布式组件、高并发高可用系统,并有丰富的部署实践经验;
5、精通系统故障处理和维稳保障工作,精通Linux、jvm原理机制及调优能力,能熟练排查运维过程中出现的服务、系统、网络故障,有丰富排障经验;
6、对问题有清晰的分析逻辑和全局思维,能够提供创造性的解决思路和方案;
7、有较强的抗压能力,能够并行处理多项工作;
8、有良好的沟通能力,具备很强的组织协调能力、有技术团队领导经验;
9、有ITIL认证,有ITIL体系实践经验,有服务体系化思维。