崗位職責:
1. 設計并開發離線數據處理流程,包括數據采集、清洗、轉換與加載(ETL),保障數據的準確性與時效性;
2. 使用Python及相關生態工具(如Pandas、NumPy、Dask等)進行大規模數據預處理與跨系統數據同步;
3. 與算法和業務團隊協作,為大小模型訓練任務提供數據支持;
任職要求:
1. 計算機、數學、統計學或相關專業本科及以上學歷,3年以上數據開發任務經驗;
2. 熟練掌握Python編程,深入理解Pandas、NumPy、scikit-learn等數據科學庫的使用 ;
3. 熟悉離線數據處理架構,了解Sqoop、DataX等數據同步工具的典型應用場景 ;
4. 掌握常見的機器學習算法(如分類、聚類、推薦系統)及其數據準備流程 ;
5. 具備較強SQL開發能力,能高效編寫復雜查詢,并對數據質量與一致性有高度敏感;
6. 了解阿里云或其他云平臺數據開發者優先,有Dataworks、Maxcompute、PAI使用經驗者更佳 ;
7. 具備良好的工程習慣、文檔能力和團隊協作意識,能獨立推進數據項目落地。