职位描述
1、通过各种虚拟化技术和方法提升 GPU 资源利用率,应用到推广搜、视频理解、语音、NLP等多种场景中;
2、深入分析分布式训练和推理 Workload,从原理和方法上提高团队对 GPU 相关问题的分析解决能力和效率;
3、负责设计实现高效的 GPU 相关性能监控、分析工具,保证大规模 GPU 集群系统的稳定运转;
4、调研分析前沿 GPU 架构,结合RDMA网络、存储系统,指导数据中心分布式 GPU 集群的建设。
职位要求
1、本科及以上学历,计算机相关专业;
2、3年以上相关经验;
3、精通至少一门编程语言,包括但不仅限于:C/C++、 Python、Golang;
4、熟悉 GPU 体系结构,理解 GPU 软件栈,包括:内核态驱动、用户态、固件层,具备 GPU 性能分析的经验;
5、具有机器学习场景的分布式系统级调试、分析经验;
6、有优秀的逻辑分析能力,能够对问题进行合理的抽象和拆分,制定高效的解决方案。