【職位描述】
1. 負(fù)責(zé)公司全棧AI模型(包括CV模型、大語言模型、多模態(tài)模型)的性能優(yōu)化與部署。
2. 針對(duì)云端(NVIDIA GPU)、邊緣端(NVIDIA Jetson, 華為Atlas)和移動(dòng)端等不同硬件平臺(tái),進(jìn)行高效的模型量化(PTQ/QAT)、剪枝、蒸餾和編譯。
3. 深入研究和應(yīng)用TensorRT, OpenVINO, TVM, ONNX Runtime等高性能推理引擎,開發(fā)和維護(hù)公司統(tǒng)一的推理服務(wù)。
4. 針對(duì)NPU等特定硬件,利用廠商工具鏈(如華為CANN)進(jìn)行深度算子優(yōu)化和模型適配。
5. 與算法工程師(CV和大模型)緊密合作,在模型設(shè)計(jì)和訓(xùn)練階段介入優(yōu)化(Training-Aware Optimization),平衡模型精度與推理速度/能耗。
6. 構(gòu)建和維護(hù)模型性能的Benchmark系統(tǒng),提供精準(zhǔn)的延遲、吞吐量和資源(顯存、功耗)評(píng)估報(bào)告,指導(dǎo)算法選型和資源配置。
【崗位要求】
1. 計(jì)算機(jī)科學(xué)、電子工程、自動(dòng)化等相關(guān)專業(yè),碩士及以上學(xué)歷。
2. 精通Python和C++,具備扎實(shí)的軟件工程和算法基礎(chǔ)。
3. 深入理解深度學(xué)習(xí)模型(特別是CNN和Transformer)的計(jì)算原理和計(jì)算機(jī)體系結(jié)構(gòu)。
4. 具有豐富的模型優(yōu)化經(jīng)驗(yàn),熟練掌握至少一種推理引擎(如TensorRT, TVM)和模型量化技術(shù)。
5. 具有NVIDIA Jetson、華為Atlas或其他嵌入式NPU的實(shí)際部署和優(yōu)化經(jīng)驗(yàn)者優(yōu)先。
6. 具備優(yōu)秀的解決問題能力,能熟練閱讀英文技術(shù)文檔和論文,并快速跟進(jìn)SOTA的部署和優(yōu)化技術(shù)。
7. 有大模型(LLM)量化和部署經(jīng)驗(yàn)者(如vLLM, TensorRT-LLM)優(yōu)先。
【我們提供】
1. 具有競(jìng)爭(zhēng)力的薪酬與股權(quán)激勵(lì)
2. 前沿的技術(shù)方向與充足的算力資源
3. 與頂尖高校及研究機(jī)構(gòu)的合作機(jī)會(huì)
4. 開放包容的技術(shù)氛圍,鼓勵(lì)創(chuàng)新與探索