岗位职责:
1.负责依据业务需要,统筹硬件、系统软件、训练框架设计,以实现高效的大规模分布式训练平台;
2.负责训练平台硬件选型和通信拓扑设计;
3,负责海量训练数据存储、缓存、通信等系统软件架构搭建和优化;
4.负责优化训练框架,尽可能高效发挥硬件和系统软件性能;
5.负责开发通用的训练算法,如各类并行方式、优化算法、量化训练等。
任职要求:
1.熟悉计算机体系结构和操作系统,对高性能计算有热情;
2.熟悉分布式深度学习训练平台的原理、软硬件架构和性能优化;
3.熟悉PyTorch、TensorFlow等训练框架的原理、软件架构;
4.熟悉MPI、NCCL等分布式通信软件和juicefs、seaweedfs等高性能分布式文件系统;
5.具有一线互联网或AI公司系统框架架构或开发经验者优先;
6.具有团队管理经验者优先。