岗位职责
1. 在公司芯片上部署大模型分布式推理,进行端到端的性能调优测试,实施数据并行/模型并行/流水线并行等并行策略,FlashAttention KVCache等优化手段落地,并且与竞品性能比较分析。
2. 产品上线前后为客户提供持续的技术支持,包括与客户沟通,了解性能需求,提供满足客户需求的性能优化解决方案,提供自研软件栈,编译器以及周边产品的技术支持,使客户能够成功采用公司芯片产品;
3. 快速定位和分析客户所遇问题,并提供最佳解决方案;
岗位要求:
1. 计算机或相关专业,本科三年以上AI领域相关开发经验,硕士一年以上AI领域相关开发经验。
2. 有良好的编程基础与编程习惯,熟悉C/C++/Python,熟悉linux开发环境, 熟悉常见AI框架。
3. 熟悉 Nvidia GPU 体系结构,了解CUDA编程者优先;
4. 熟悉多卡通信和分布式计算的相关知识优先.
5. 熟悉模型量化及 int8 推理加速,熟悉图优化和常见算子的融合相关优先。
6. 团队意识与主动性强,有良好的沟通表达能力