【職位描述】
1.基于云原生技術體系(如 Kubernetes、容器等)構建高可用、高擴展性的平臺基礎設施;
2.推進平臺架構演進與工程體系建設,提升模塊解耦性、可維護性與系統穩定性;
3.協同模型訓練、推理服務、資源調度系統等上下游模塊,推動平臺能力持續完善與集成閉環;
4.優化平臺的使用體驗與開發效率,持續提升平臺產品化水平與工程質量。
5.搭建通用workflow數據鏈路平臺,支持業務需求迭代。
【任職要求】
1.熟練掌握 Go/Python 語言,具備扎實的系統開發能力與良好的工程規范;
2.熟悉 Kubernetes 原理與生態體系,具備 CRD、Controller、Operator 等實際開發經驗;
3.有使用或集成 Argo,Kueue、Volcano、Koordinator 等 Kubernetes 調度與資源管理框架經驗,了解隊列管理、GPU 資源隔離、任務調度策略等常見場景者優先;
4.有訓練/推理平臺、機器學習平臺、MLOps ,Workflow工作流系統等相關平臺開發經驗者優先;
5.具備良好的系統設計能力,能獨立承擔模塊設計與編碼落地,推動平臺能力標準化與工程化演進。