Colossal-AI: A Unified Deep Learning SystemFor Large-Scale Parallel Training【深度模型分布式多核加速】

原文链接

一、摘要

1. 主要针对数据并行操作进行优化 parallel training system,主要针对的部分为

1)data parallelism 数据并行处理

2)pipeline parallelism 流水线并行

3)multiple tensor parallelism 多重张量并行

4)sequence parallelism 序列并行

二、Highlights of Colossal-AI

1. Arsenal of Parallelization Techniques 并行化技术库

1)2D Tensor Parallelism 向量2D化并行处理

主要运用SUMMA matrix multiplication algorithm 矩阵求和运算算法,由于2D的向量在整个pytorch中运用二维tensor储存,所以需要运用矩阵求和运算

SUMMA主要运用切割小块,融入batch,算法概览如下

2) 2.5D和3D的 tensor parallelism

主要比2D多了一个维度P process维度,即流程维度

3)sequence parallelism 序列并行性

主要将长时间序列分割成小子序列,对子序列在不同的处理器进行运算

2. 模型构建

该库的API与pyorch库的API相同

1)模块化

2)可扩展性

三、Architecture 整个项目组成部分

1. registry  注册模型

2. parallel context 并行设置文件

3. layers 用colossal库中的层进行模型构建

4. schedule  程序安排

5. engine 启动器

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
乘风的头像乘风管理团队
上一篇 2022年5月25日
下一篇 2022年5月25日

相关推荐