一、職位概述
我們正在尋找一位兼具開發能力與運維能力的 運維開發工程師(DevOps)。你將參與公司關鍵業務系統的建設、優化與穩定性保障,深入參與 Kubernetes、Linux、Java 服務以及自動化運維工具鏈的整體生命周期。
崗位職責運維方向
- 負責本地自建 Kubernetes 集群運維與管理,包括應用部署、升級、擴縮容及故障處理
- 負責本地和阿里云 Linux 服務器運維,執行日常巡檢、性能優化、安全加固等工作
- 搭建、維護并持續優化 GitLab CICD 流水線
- 建設與維護企業級 全鏈路可觀測體系(監控、日志、鏈路追蹤)
- 確保核心系統的可用性,執行 備份恢復、災備演練 等穩定性保障工作
- 參與工廠應用體系的建設、部署與維護
二、開發方向
- 使用 Python 編寫自動化腳本、運維工具,持續提升運維效率與標準化水平
- 使用 Java 參與公司 Java 項目研發,參與服務功能實現與技術優化
- 負責 Java 服務的故障排查與性能分析:日志分析、線程分析、GC 排查等
- 參與平臺類系統的開發、接口整合與數據處理
- 編寫技術文檔、運維規范、部署說明等技術資料
三、任職要求必備條件
- 熟練掌握 Python,能使用 Python 編寫運維工具或完成數據自動化處理任務
- 熟練掌握 Java, **熟悉 Java 開發生態與工具鏈
- 具備 Java 服務故障排查能力:能通過日志、JVM 指標、線程、GC 等定位問題
- 熟練使用 Linux,能獨立進行系統運維、資源分析與問題診斷
- 熟悉 Kubernetes,了解其架構、常用資源對象、部署方式和故障排查處理方法
四、優先條件(加分項)
- 有 CICD 實施經驗(Jenkins / GitLab CI 等)
- 熟悉 Prometheus / Grafana / Loki / ELK / SkyWalking / Jaeger 等監控告警或可觀測工具
- 了解 Harbor、Helm、ArgoCD、Flux 等云原生工具鏈
- 有數據庫、應用或集群 備份恢復 實施經驗
- 有工業工廠 MES/SCADA/IoT 系統運維經驗
- 有時序數據庫如Influxdb部署和運維經驗
- 有 SRE、DevOps、自動化運維體系建設相關經驗
五、我們希望你是這樣的人
- 具備系統思維與扎實的技術基礎,能獨立解決問題
- 重視協作溝通,能夠在跨團隊中推動問題閉環
- 對穩定性、自動化、可觀測性有強烈追求
- 樂于學習新技術,愿意在云原生和工業數字化場景中持續成長