崗位職責
? 負責云環境搭建與管理,基于 K8s 部署 Spring Cloud 微服務、 IM / RTC 服務、小程序容器運行環境。
? 構建高可用運維體系:設計 CI/CD 流水線(Jenkins/GitLab CI)、灰度發布方案、監控告警(Prometheus/Grafana)、日志分析(ELK),保障 IM 消息、音視頻通話穩定性。
? 主導高并發容量規劃:壓測,設計彈性伸縮策略,應對百萬級 DAU 流量波動。
? 落地海外合規運維:數據本地化存儲、GDPR 合規審計、安全防護(防火墻 / 滲透測試),解決跨區域網絡延遲問題。
? 管理云基礎設施(K8s、VPC、SLB、Redis、MQ、數據庫、CDN 等),優化穩定性及成本。
? 負責故障排查、事故復盤、SLO/SLA 制定和持續優化,帶領運維 / SRE 團隊推進自動化、平臺化。
任職要求
? 6 年以上運維 / SRE 經驗,精通海外云平臺、Kubernetes、Docker 容器化技術。
? 深入理解分布式系統運維,熟悉 Spring Cloud 微服務、Redis、MQ、數據庫(MySQL/NoSQL)、CDN 等組件的監控與優化。
? 有百萬級 DAU 高并發系統運維經驗,主導過社交 App 或音視頻平臺的穩定性建設,能快速排查海外網絡、服務故障。
? 熟練掌握自動化腳本(Shell/Python)、基礎設施即代碼(Terraform/Ansible),熟悉 SLO/SLA 制定與故障復盤流程。
? 熟練掌握監控與可觀測性工具(Prometheus、Grafana、ELK/EFK、SkyWalking/Jaeger 等)。
? 具備團隊管理能力與跨團隊溝通能力,了解海外合規要求(GDPR)。
加分項
? 英語良好
? 有IM / RTC服務運維經驗;
? 熟悉 Chaos Engineering、SRE 體系(Error Budget);
? 持有阿里云相關認證(如 ACP);
? 有多區域部署與合規運維經驗。