news 2026/6/22 4:07:48

【TVM教程】TVM 运行时系统

张小明

前端开发工程师

1.2k 24

TVM 现已更新到 0.21.0 版本，TVM 中文文档已经和新版本对齐。

Apache TVM 是一个深度的深度学习编译框架，适用于 CPU、GPU 和各种机器学习加速芯片。更多 TVM 中文文档可访问 →Apache TVM

TVM 支持多种编程语言用于编译器栈的开发和部署。在本说明中，我们将解释 TVM 运行时的关键组成部分。

VM 的运行时系统需要满足多种看似相互矛盾但又非常关键的需求：

部署（Deployment）：能够在 Python / JavaScript / C++ 等语言中调用已编译的函数。
调试（Debug）：允许用户在 Python 中定义函数，并从已编译的代码中反向调用。
链接（Linking）：需要编写驱动端代码来调用设备端实现（如 CUDA kernel），并且运行时需要能从主机端代码中调用它们。
原型开发（Prototyping）：支持在 Python 中创建 IR Pass，并能从 C++ 后端调用。
接口暴露（Frontend Exposure）：编译器的核心逻辑由 C++ 实现，但必须便捷地暴露给 Python 等前端语言。
实验与部署（Experiment & Deployment）：能够将编译好的函数直接传输并运行在嵌入式设备上。

我们希望能够在任何语言中定义函数并在另一种语言中调用。我们还希望运行时核心尽可能小，以便部署到嵌入式设备上。

PackedFunc

PackedFunc是我们找到的一个简单但优雅的解决方案来解决列出的挑战。一个PackedFunc对象就表示一次函数调用，而调用方和被调用方可以处于不同的语言环境中。

下面的代码块提供了一个 C++ 示例

#include <tvm/ffi/function.h> void MyAdd(ffi::PackedArgs args, ffi::Any* rv) { // automatically convert arguments to desired type. int a = args[0].cast<int>(); int b = args[1].cast<int>(); // automatically assign value return to rv *rv = a + b; } void CallPacked() { PackedFunc myadd = PackedFunc(MyAdd); // get back 3 int c = myadd(1, 2); }

在上面的代码块中，我们定义了一个 PackedFunc MyAdd。它接受两个参数：args表示输入参数，rv表示返回值。该函数是类型擦除的，这意味着函数签名不会限制传入或返回值的类型。在底层，当我们调用一个 PackedFunc 时，它会将输入参数打包成 ffi::PackedArgs 放在栈上，并通过 ffi::Any 获取返回结果。

得益于 C++ 中的模板机制，我们可以像调用普通函数一样调用 PackedFunc。由于其类型擦除的特性，我们可以在诸如 Python 这样的动态语言中调用 PackedFunc，而不需要为每一种新函数类型额外编写 glue 代码。下面的例子展示了如何在 C++ 中注册一个 PackedFunc，并在 Python 中调用它。

// register a global packed function in c++ TVM_FFI_STATIC_INIT_BLOCK() { namespace refl = tvm::ffi::reflection; refl::GlobalDef().def_packed("myadd", MyAdd); }

import tvm myadd = tvm.get_global_func("myadd") # prints 3 print(myadd(1, 2))

PackedFunc 的大部分「魔力」来自ffi::PackedArgs和ffi::Any这两个结构。我们对可传递的类型做了限制，常见的类型包括：

int、float 和 string
PackedFunc 本身
Module，用于表示已编译模块
DLTensor*，用于张量对象交换
TVM Object，用于表示 IR 中的任意对象

这种限制使得实现变得简单，无需序列化。即使实现精简，PackedFunc 在深度学习部署的场景中依然绰绰有余，因为大多数函数只需要处理 DLTensor 或数字。

由于一个 PackedFunc 可以将另一个 PackedFunc 作为参数传递，因此我们可以将 Python 中的函数（转换为 PackedFunc）传递给 C++。

TVM_FFI_STATIC_INIT_BLOCK() { namespace refl = tvm::ffi::reflection; refl::GlobalDef().def_packed("callhello", [](ffi::PackedArgs args, ffi::Any* rv) { ffi::Function f = args[0].cast<ffi::Function>(); f("hello world"); }); }

import tvm def callback(msg): print(msg) # convert to PackedFunc f = tvm.convert(callback) callhello = tvm.get_global_func("callhello") # prints hello world callhello(f)

TVM 提供了一个最小化的 C API minimum C API，它允许我们将 PackedFunc 嵌入到任意语言中。除了 Python 以外，目前还支持 java 和 javascript。这种嵌入式 API 的设计理念与 Lua 很相似，只不过我们并没有创造一门新的语言，而是直接使用了 C++。

关于 PackedFunc 有一个有趣的事实：我们在编译器栈和部署栈中都使用它。

TVM 中所有编译器 Pass 函数都以 PackedFunc 的形式暴露给前端
已编译模块同样以 PackedFunc 的形式返回已生成的函数

为了保持运行时尽可能精简，我们将 IR Object 支持从部署运行时中分离开来。最终生成的运行时大小大约为 200K - 600K，具体取决于包含的运行时驱动模块数量（例如 CUDA）。

调用 PackedFunc 相比普通函数的开销很小，只多做了一些栈上值保存。因此，只要不频繁包装非常小的函数，这样的开销是可以接受的。总的来说，PackedFunc 是 TVM 的通用“胶水层”，我们在编译和部署模块中都大量依赖它。

class IntImmNode : public PrimExprNode { public: /*! \brief the Internal value. */ int64_t value; static void RegisterReflection() { namespace refl = tvm::ffi::reflection; refl::ObjectDef<IntImmNode>().def_ro("value", &IntImmNode::value); } TVM_FFI_DECLARE_OBJECT_INFO_FINAL("ir.IntImm", IntImmNode, PrimExprNode); }; // in cc file TVM_FFI_STATIC_INIT_BLOCK() { IntImmNode::RegisterReflection(); }

RegisterReflection为我们提供了一个反射接口，用于注册对象的成员。我们可以利用这个函数递归地访问并序列化任何语言对象。同时，它也使我们可以在前端语言中轻松访问对象的字段。例如：

import tvm x = tvm.tir.IntImm("int32", 1) # access the value field of IntImmNode print(x.value)

新的Object可以仅在 C++ 中添加而无需修改前端运行时，从而方便扩展编译器栈。需要注意的是，这种机制不是访问成员的最高性能方式，但它是最简单的方法之一。我们发现这种方式非常适合我们的目的：用 Python 进行测试和原型开发，而真正的计算和重工作交由 C++ 完成。

实现细节

PackedFunc 中的每个参数由一个联合体 TVMValue 和一个类型码组成。这样的设计使得动态类型语言可以直接转换到对应类型，而静态类型语言则可以在转换过程中执行运行时类型检查。

与运行时相关的信息

Vulkan Runtime

网站建设 2026/6/15 16:14:33

深度学习毕设项目推荐-基于python的web网页html版通过CNN卷积神经网络对盆栽识别

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

李华

网站建设 2026/6/21 1:31:48

基于SpringBoot协同过滤兼职推荐小程序源码设计与文档

前言基于 Spring Boot 的协同过滤兼职推荐小程序，聚焦灵活就业与兼职市场 “供需精准匹配、高效对接、安全保障” 的核心需求，针对传统兼职市场 “信息不对称、匹配度低、交易风险高” 的痛点，构建覆盖兼职求职者、用工方、平台运营者的全流程…

李华

网站建设 2026/6/19 18:26:26

分时电价环境下用户负荷需求响应分析方法Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室👇 关注我领取海量matlab电子书和数学建模资料 &#x1f34…

李华

网站建设 2026/6/16 3:45:13

“Kindle App中文字体9MB下载失败”

“Kindle App中文字体9MB下载失败” 找了个无广的阅读软件，使用挺顺滑的，就是不知道为什么中文字体无法下载下来，每次都再通知栏尝试下载，每次都显示“Kindle App中文字体9MB下载失败” 后面终于解决，两步即可&#xf…

李华

网站建设 2026/6/18 8:37:17

深度学习毕设项目：基于深度学习的web网页html版通过CNN卷积神经网络对盆栽识别

李华

网站建设 2026/6/16 5:46:25

IT审计师怎么考？CISA证书报考指南

CISA证书报考指南一、报考条件学历与工作经验要求无硬性学历限制，但需满足以下工作经验条件： 本科以下学历：需5年信息系统审计、控制、鉴证或安全相关工作经验。本科学历：需3年相关工作经验。硕士学历或信息系统专业本科&…

李华

PackedFunc​

组件​

远程部署​

TVM 对象与编译器栈​

实现细节​