【2023 · CANN训练营第二季】昇腾AI入门课(Pytorch)

一、昇腾AI基础知识介绍

1.1. 全栈全场景解决方案

课程先介绍了全站全场景的框架(如图)

昇腾计算语言接口AscendCL

AscendCL的优势如下:

  1. 高度抽象:算子编译、加载、执行的API归一,相比每个算子一个API,AscendCL大幅减少API数量,降低复杂度。
  2. 向后兼容:AscendCL具备向后兼容,确保软件升级后,基于旧版本编译的程序依然可以在新版本上运行。
  3. 零感知芯片:一套AscendCL接口可以实现应用代码统一,多款昇腾处理器无差异。

PyTorch模型迁移——三种方法

•手工迁移

•脚本转换工具(msFmkTransplt)

•自动迁移(推荐)

手工迁移——Step1 迁移前的准备

关于分布式:由于NPU上的一些限制,PyTorch需要使用DistributedDataParallel(DDP),若原始代码使用的是DataParallel(DP)则需要修改为DDP,DP相应的一些实现例如torch.cuda.common,则可以替换为torch.distributed相关操作

关于混合精度:由于NPU天然的混合精度属性,我们需要使用apex对原始代码进行修改

手工迁移—— Step2 单P模型迁移

单P代码迁移的主要修改点

– 设备从cuda切换至npu

– torch.cuda. –> torch.npu.

手工迁移—— Step3 多P模型迁移

多P代码迁移的主要修改点

– “nccl” –> “hccl”

PyTorch模型迁移——脚本转换工具迁移

功能介绍

•脚本转换工具根据适配规则,对用户脚本给出修改建议并提供转换功能,大幅度提高了脚本迁移速度,降低了开发者的工作量。

•原脚本需要在GPU环境下且基于python3.7及以上能够跑通。

•脚本转换后的执行逻辑与转换前保持一致。

•此脚本转换工具当前支持PyTorch1.5.0和1.8.1版本的训练脚本转换。

PyTorch模型迁移——自动迁移(推荐)

使用方式——只需要增加一行

•from torch_npu.contrib import transfer_to_npu

AscendCL基础概念解析

Host&Device

Host:指与Device相连接的x86服务器、ARM服务器,会利用Device提供的NN(Neural-Network)计算能力,完成业务。

Device:指安装了芯片的硬件设备,利用PCIe接口与Host侧连接,为Host提供NN计算能力。若存在多个Device,多个Device之间的内存资源不能共享。

典型场景如在服务器上插Atlas300I设备:

将Atals 300I推理卡插入推理服务器(或个人PC)的主机中,此时程序的运行均在CPU侧进行控制,当需要进行专用计算(模型推理等)时,将CPU侧内存数据传输到NPU侧内存中,NPU侧完成专用计算后将数据回传至CPU侧。

CPU+内存所在这一侧,或者说,进程启动的这一侧,收集数据的这一侧,我们称之为“Host”侧;

NPU+Device所在这一侧,或者说,进行专用计算的这一侧,使用数据的这一侧,我们称之为“Device”侧

同步&异步

在AscendCL中当提及“同步&异步”的时候,都是站在调用者、执行者的角度来看的。

同步:当前线程发起一个方法调用,然后阻塞在调用点等待被调用方法执行完毕返回,再继续向下走。

异步:调用者向执行者下发一个任务之后,不等待任务执行完,而是立即返回往下走,暂且不管这个任务是否执行完毕。

把Stream理解为“任务队列”,另一层含义是在队列中任务的执行是保序的,即运行时环境会根据任务下发的顺序依次执行。异步执行需要知道(或者说确保)Stream中的任务都已经执行完毕了,此时需要以下接口确认Stream中任务全部执行完毕,调用这个接口的时候,线程会阻塞在调用点上,等待指定stream中所有任务全部执行完毕才会继续向下进行。

1.2.CANN逻辑框架

CANN是异构计算架构,能够释放其硬件的澎湃性能,也是各种AI框架的核心底层。

华为公司面向计算机视觉、自然语言处理、推荐系统、类机器人等领域量身打造了基于“达芬奇(DaVinci)架构”的昇腾(Ascend)AI处理器,开启了智能之旅。为提升用户开发效率和释放昇腾AI处理器澎湃算力,同步推出针对AI场景的异构计算架构CANN(Compute Architecture for Neural Networks),CANN通过提供多层次的编程接口,以全场景、低门槛、高性能的优势,支持用户快速构建基于Ascend平台的AI应用和业务。

昇腾AI异构计算架构(Compute Architecture for Neural Networks,CANN)总体流程图·,如下图所示。

1.3.PyTorch全景

在线对接适配方案特性及优点:

  • 最大限度的继承PyTorch框架动态图的特性。 最大限度的继承原生PyTorch上的使用方式,用户在移植到昇腾AI处理器设备上时,在开发方式和代码重用方面做到最小的改动。
  • 最大限度的继承PyTorch原生的体系结构保留框架本身出色的特性,比如自动微分、动态分发、Debug、Profiling、Storage共享机制以及设备侧的动态内存管理等。
  • 扩展性好。在打通流程的通路之上,对于新增的网络类型或结构,只需涉及相关计算类算子的开发和实现。框架类算子,反向图建立和实现机制等结构可保持复用。

版权声明:本文为博主作者:你酷起来原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/qq_52841464/article/details/135141694

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
青葱年少的头像青葱年少普通用户
上一篇 2023年12月29日
下一篇 2023年12月29日

相关推荐