Warps在并行处理中的角色：优化GPU高性能计算-平芜编程栈

引言

GPU被称为并行处理器，因为它们能够同时执行任务。工作被分割成更小的子任务，由多个处理单元同时执行。一旦完成，这些子任务将被合并以产生最终结果。这些处理单元——包括线程（threads）、线程束（warps）、线程块（thread blocks）、核心（cores）和多处理器（multiprocessors）——共享内存等资源。这种共享增强了它们之间的协作，并提高了GPU的整体效率。

线程束是并行处理的基石。通过将线程分组到一个单一的执行单元中，线程束简化了线程管理，在线程间共享数据和资源，并通过有效的调度来掩盖内存访问延迟。

前提知识

在继续之前，阅读这份“CUDA复习资料”可能会有所帮助。

在本文中，我们将概述线程束如何有助于优化GPU加速应用程序的性能。通过围绕线程束建立直觉，开发者可以实现计算速度和效率的显著提升。

线程束解析

线程块被划分为由32个线程组成的线程束。一个线程束中的所有线程在同一个流式多处理器（Streaming Multiprocessor， SM）上运行。图源自某中心关于GPGPU和加速器趋势的演示。

当一个流式多处理器（SM）被分配了线程块以供执行时，它会将线程细分为线程束。现代GPU架构的线程束大小通常为32个线程。

一个线程块中的线程束数量取决于CUDA程序员配置的线程块大小。例如，如果线程块大小为96个线程，线程束大小为32个线程，那么每个线程块的线程束数量将为 96线程 / 每线程束32线程 = 3个线程束每线程块。

GPU计算与内存架构
在此图中，三个线程块被分配给SM。每个线程块由3个线程束组成。一个线程束包含32个连续的线程。

请注意图中线程的索引方式，从零开始，并在线程块内的线程束之间延续。第一个线程束包含前32个线程（0-31），随后的线程束包含接下来的32个线程（32-63），依此类推。

现在我们已经定义了线程束，让我们退一步看看Flynn分类法，该分类法关注此分类方案如何应用于GPU和线程束级别的线程管理。

GPU：SIMD还是SIMT？

向量化
Flynn分类法根据指令流和数据流对计算机架构进行分类，将其分为四类：SISD、SIMD、MISD和MIMD。GPU通常属于SIMD（单指令多数据）类别，因为它们同时对多个数据点执行相同的操作。

然而，某中心引入了SIMT（单指令多线程）以更好地描述其GPU的线程级并行性。在SIMT架构中，多个线程在不同的数据上执行相同的指令，CUDA编译器和GPU协同工作以同步一个线程束内的线程。这种同步有助于通过确保线程尽可能一致地执行相同指令来最大化效率。

虽然SIMD和SIMT都利用了数据级并行性，但它们的实现方法有所不同。SIMD擅长统一的数据处理，而SIMT则因其动态线程管理和条件执行而提供了更高的灵活性。

线程束调度隐藏延迟

在线程束的语境中，延迟是指一个线程束完成执行一条指令并变得可以处理下一条指令所需的时钟周期数。

来自加州理工学院CS179课程的示意图，W代表线程束，T代表线程。GPU利用线程束调度来隐藏延迟，而CPU则通过上下文切换顺序执行。

当所有线程束调度器在每个时钟周期都有指令可以分派时，就实现了最大利用率。常驻线程束（即在任何给定时刻正在流式多处理器上被主动执行的线程束）的数量直接影响利用率。换句话说，必须有可用的线程束供线程束调度器分派指令。拥有多个常驻线程束允许SM在它们之间切换，有效地隐藏延迟并最大化吞吐量。

程序计数器

程序计数器在每条指令周期递增，以从内存中检索程序序列，指导程序执行的流程。虽然一个线程束中的线程共享一个共同的起始程序地址，但它们维护着独立的程序计数器，允许各个线程自主执行和分支。

来自某中心内部Volta GPU架构（GTC‘17大会）的信息。在Volta架构之前，GPU为一个32线程的线程束使用单一程序计数器。随着Volta微架构的引入，每个线程都有了自己的程序计数器。正如Stephen Jones在其GTC’17演讲中所说：“现在所有这些线程都是完全独立的——如果你将它们组合在一起，它们仍然工作得更好……但如果将它们分开，你也不会束手无策。”

分支处理

独立的程序计数器允许分支处理，这是一种“if-then-else”编程结构，其中指令仅在线程处于活动状态时才被处理。由于当线程束的32个线程汇聚于一条指令时能获得最佳性能，因此建议程序员编写代码，尽量减少线程束内线程走不同路径（即分支发散）的情况。

结论：收尾工作

参考资料

CUDA线程束级原语
CUDA C++编程指南
某中心深度学习性能优化简介
理解并行计算：GPU与CPU的简单解释及CUDA的角色
深度学习GPU性能优化入门
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）