崗位職責:
1. 作為騰訊云TI-ONE(機器學習平臺)運維工程師,負責保障AI研發平臺的高可用性、安全性與性能優化,支撐大規模機器學習任務的穩定運行。
2. 設計并實施容災方案(如跨可用區部署),定期組織災備演練,確保業務連續性,保障SLA達標。
3. 通過監控工具(如Prometheus、Zabbix)持續優化系統性能,處理CPU/GPU資源瓶頸,提升平臺運行效率。
4. 管理基于Kubernetes的容器化平臺(TKE),優化TI-ONE工作流的任務調度、資源分配和彈性伸縮能力。
5. 實施安全基線檢查、漏洞掃描和日志審計,確保模型數據與代碼庫的安全合規。
任職要求:
1. 本科及以上學歷,計算機相關專業,3年以上云計算/AI平臺運維經驗,具備千臺節點以上大規模集群運維經驗者優先。
2. 熟練掌握騰訊云產品體系(如CVM、COS、TKE、VPC等),熟悉TI-ONE平臺架構。
3. 熟練使用Python/Go/Shell至少一門語言進行自動化腳本開發,實現監控告警自愈、批量操作等自動化場景。
4. 深入理解Linux系統運維、網絡協議及故障排查工具,能夠高效處理緊急故障。
5. 具備較強的客戶服務意識,能高效處理緊急故障,并具備良好的跨團隊溝通協調能力。
優先考慮:
1. 有騰訊TI-ONE平臺交付或駐場運維經驗。
2. 持有騰訊云認證(如TCIP)、Kubernetes相關認證(CKA/CKS)。
3. 熟悉機器學習工作流或大數據組件(如Spark/HDFS)。
4. 具備較強的分析問題和解決問題的能力,能夠獨立處理和解決工作中遇到的技術問題。