@
stormscloudy ### 岗位职责
- 负责 Apache Kafka 和 Zookeeper 集群的规划、部署、运维和性能优化,具备 3 年以上相关经验;
- 精通在 AWS EC2 上构建和管理超大规模( 300+ 节点)、高可用的 Kafka 生态系统;
- 具备卓越的故障诊断和问题解决能力,能够快速定位并解决从操作系统、JVM 到 Kafka 集群的复杂问题,确保关键数据管道 99.9% 以上的可用性;
- 能独立制定和实施监控体系,熟悉 Exporter 指标和中间件监控方案;
- 负责 Kafka 、Elasticsearch 的容器化部署和运维,保障系统在容器环境下的稳定性;
- 使用 Terraform 、Ansible 、Python 、Shell scripting 等工具进行自动化和运维编排;
- 精通全链路问题诊断,包括操作系统性能( iostat 、vmstat )、JVM GC 、Kafka 日志、网络排查( tcpdump )、磁盘 I/O 、副本同步和控制器选举等;
- 熟悉生产者、Broker 、消费者常见故障的处理方法,并能配合研发团队排查复杂问题。
### 任职资格
- 本科及以上学历,电脑相关专业优先;
- 7 年以上工作经验,其中 2 年以上专注于中间件运维,重点在 Kafka/Zookeeper 生态;
- 熟悉 AWS 平台( EC2 、EBS 、S3 、VPC 、IAM 、CloudWatch 等),具备实践经验;
- 熟悉大规模分散式系统的部署与优化;
- 熟悉云原生与容器化技术栈,具备自动化运维体系建设经验;
- 具备较强的沟通协作能力、学习能力和抗压能力,能够在复杂业务场景下保障系统稳定性。