NNVM AI框架编译器

阅读原文时间：2022年03月10日阅读：1

NNVM AI框架编译器

深度学习已变得无处不在且不可或缺。看到对在多种平台（例如手机，GPU，IoT设备和专用加速器）上部署深度学习工作负载的需求不断增长。TVM堆栈弥合深度学习框架与面向性能或效率的硬件后端之间的鸿沟。TVM堆栈使为深度学习框架轻松构建端到端编译变得容易。拥有适用于所有框架的统一解决方案更好。

NNVM编译器是一种开放式深度学习编译器，用于将前端框架工作负载直接编译到硬件后端。使用TVM堆栈中的两级中间表示（IR）来构建。可以参考原始的TVM公告，以获取有关TVM堆栈的更多技术细节。借助TVM堆栈，NNVM编译器可以：

在高级图IR中表示并优化常见的深度学习工作负载
转换计算图以最大程度地减少内存利用率，优化数据布局并融合不同硬件后端的计算模式。
提出从前端深度学习框架到裸机硬件的端到端编译管道。

NNVM编译器可以直接从深度学习框架（例如Apache MXNet）中获取模型。支持模型交换格式，例如ONNX和CoreML。ONNX支持使NNVM能够从PyTorch，Caffe2和CNTK编译深度学习模型。CoreML前端支持将CoreML模型部署到非iOS设备。

优化与部署分离

NNVM编译器应用图级和张量级优化，并共同优化它们以获得最佳性能。采用与现有深度学习框架不同的方法，后者将图形优化与部署运行时打包在一起。NNVM编译器采用了编译器的传统知识，将优化与实际部署运行时分开。这种方法提供了实质性的优化，但仍使运行时轻量级。编译后的模块仅取决于最小的TVM运行时，部署在Raspberry Pi或移动设备上时仅需300KB左右。

NNVM编译器仍在积极开发中，可以期待会有更多的改进，但是已经开始看到令人鼓舞的结果。对它的性能进行了基准测试，并在两种典型的硬件配置上将其与Apache MXNet进行了比较：Raspberry PI上的ARM CPU和AWS上的Nvidia GPU。尽管这两款芯片在架构上存在根本差异，但可以使用相同的基础架构，只需要更改每种硬件的调度即可。

Nvidia GPU

GPU基准和调度将NNVM编译器与Apache MXNet与CUDA8和cuDNN7作为Nvidia K80的后端进行了比较。这是一个非常强大的基准，因为Apache MXNet会打开自动调整功能，以从CuDNN中选择最佳内核。使用了MXNet中优化的深度智能内核来优化MobileNet工作负载。

可以看出，NNVM编译器生成的代码胜过K80上的Apache MXNet。这些改进归因于联合图级别和内核级别的优化。值得注意的是，NNVM编译器可自行生成所有优化的GPU内核，而无需依赖诸如CuDNN之类的外部库。

树莓派3b

Rasberry Pi编译堆栈将NNVM编译器与带有OpenBLAS和NNPack的Apache MXNet进行了比较。探索了使MXNet发挥最佳性能的设置：为3x3卷积打开了NNPACK中的Winograd卷积，启用了多线程，并禁用了其他调度程序线程（因此，所有线程都被NNPack使用）。

可以看出，在ResNet18上，NNVM编译器生成的代码快两倍。MobileNet上的差距主要是由于现有CPU DNN库中缺乏深度卷积。NNVM编译器利用直接直接生成有效的ARM代码的优势。

在构建NNVM编译器时，包含以下项目内容。

Theano：可能是最早的深度学习编译器
Halide：TVM使用HalideIR作为数据结构，以简化数学运算和降低 low level lowering.。HalideIR衍生自Halide。当在TVM中实施降低流程the lowering pipeline时，参考了Halide结构。
Loopy：使用整数集分析及其循环转换原语。

手机扫一扫

移动阅读更方便

你可能感兴趣的文章

ChatGPT教我用200行代码写一个简版Vue框架 - OpenTiny

Python 潮流周刊#18：Flask、Streamlit、Polars 的学习教程

为何每个开发者都在谈论Go？

纯干货！一文get昇腾Ascend C编程入门全部知识点

磐舟磐基平台：基于KubeEdge的落地实践

Ascend C保姆级教程：我的第一份Ascend C代码

介绍 SafeCoder 解决方案服务

了解 HarmonyOS

《HelloGitHub》第 87 期

Python潮流周刊#7：我讨厌用 asyncio