momenta

深度学习训练平台架构师(J10980)*

不限北京市,江苏省经验经验不限本科社招

岗位晋升 弹性工作

投递简历 编辑个人简历

岗位职责:

1.负责依据业务需要,统筹硬件、系统软件、训练框架设计,以实现高效的大规模分布式训练平台;

2.负责训练平台硬件选型和通信拓扑设计;

3,负责海量训练数据存储、缓存、通信等系统软件架构搭建和优化;

4.负责优化训练框架,尽可能高效发挥硬件和系统软件性能;

5.负责开发通用的训练算法,如各类并行方式、优化算法、量化训练等。

 

任职要求:
1.熟悉计算机体系结构和操作系统,对高性能计算有热情;

2.熟悉分布式深度学习训练平台的原理、软硬件架构和性能优化;

3.熟悉PyTorch、TensorFlow等训练框架的原理、软件架构;

4.熟悉MPI、NCCL等分布式通信软件和juicefs、seaweedfs等高性能分布式文件系统;

5.具有一线互联网或AI公司系统框架架构或开发经验者优先;

6.具有团队管理经验者优先。

分享:

公司基本信息

所属领域:数据平台

公司规模:150-500人

工作地点:北京

融资情况:B轮