任職要求
1.本科及以上學歷,計算機相關專業,5年以上運維經驗。
2.精通k8s離線私有化部署:具備企業級生產環境落地經驗,熟悉網絡(CNI插件如Calico/Flannel)、存儲(CSI/持久卷方案)、高可用架構(etcd集群、多Master)設計。
3.深入掌握生產運維全鏈路:包括日常巡檢、故障排查、性能優化(資源調度/節點調優)、安全加固(RBAC/網絡策略/Pod安全策略)。
4.自動化開發能力:至少精通Shell/Python/Go中一種開發語言,能編寫高效運維腳本/工具實現自動化管理。
5.監控體系實戰經驗:精通Prometheus+Grafana+AlertManager的搭建與定制,熟悉Exporter開發、指標采集、告警規則配置及可視化優化。
6.熟悉Linux及中間件(Nginx/Redis/Kafka等)的運維與調優。
7.熟悉主流數據庫如:MySQL/Oracle/PG/達夢數據庫,能夠進行數據庫高可用的安裝,熟悉數據庫運維工作。
8.具有良好的溝通能力、團隊協調能力、及文檔編寫能力。
9.熟悉生產應用系統發布上線流程規范,熟悉ITIL體系及ITSM運維服務管理流程。
崗位職責
1.系統部署發布與配置管理?
?主導應用從測試環境到生產環境的全流程部署,管理應用配置參數和環境變量。
維護應用版本控制與依賴管理。
制定發布方案及計劃、制定標準化發布流程、負責生產環境的應用部署、版本發布及回退,負責配置管理、確保配置準確性與一致性。
管理維護IT資源生命周期,及時同步更新CMDB。
2.自動化建設?
搭建開發運維工具鏈(CI/CD流水線)。
維護標準化自動部署工具(如Ansible/Puppet或類似功能商業軟件工具)。
3.穩定性保障?
監控系統健康狀態,基礎監控(CPU/內存/磁盤)、應用監控(JVM/線程池)、業務監控(業務系統關鍵指標/數據分析)。
建立多級告警機制(Prometheus+Alertmanager+Grafana)。
執行容量規劃與擴容操作。
?故障應急響應?,主導故障排查(日志分析→鏈路追蹤→根因定位),輸出故障分析處置報告。
4.安全運維?
制定變更方案及計劃,跟蹤變更結果,維護CMDB。
處理漏洞修復(CVE補丁或版本升級)。
管理訪問權限(RBAC模型、用戶管理)。
審計操作日志(滿足等保要求)。