cuda ：对比gpu与cpu运算矩阵-平芜编程栈

1.cpu的运算

对于cpu的运算，我们需要遍历3次，如果A*B=C,A为M*K维，B维K*N维，C为M*N为，则我们首先要遍历P的M维和N维，在遍历K维进行计算：

2.gpu运算

对gpu运算，由于是并行运算，C矩阵的每个数值同时计算，我们的思路是每个线程（thread）处理一个矩阵上的数值，所以线程的坐标可以代表矩阵C的坐标，例如对于矩阵C8*8的矩阵：

我们可以让blockdim为4*4，也就是一个block中有16个线程，则2*2的grid就能算完所有C矩阵上的值，具体我们的核函数如下：

下面我们把cpu的数据传入gpu中进行并行运算：

进行试验：

实验参数：

实验我们进行了5组：有cpu，gpu预热，blocksize=16，blocksize=1，blocksize=32。

实验结果：

显然即便是预热的gpu运算也比cpu快，后面几组可以说明一些问题，gpu_blocksize=1运算的速度最慢，因为同一个block（线程块）中的所有thread（线程）共享一块该block专属的 shared memory；而同一个grid（线程格）中的不同block之间，各自的 shared memory 是相互独立、完全隔离的，所以blocksize=1代表着每个线程都不是共享的，算法只能依赖全局内存，访问速度很慢，而为什么blocksize=32变得就很快了呢？且硬件调度无冗余，GPU 以 32 个线程为 1 个 warp 调度，q所以blocksize=32最快。

优化：数据其实一直都是在gobalmemory中取，其实很慢，我们可以创建sharememory来加快速度。

智能万能抠图新体验｜基于Rembg大模型镜像发丝级去背景

智能万能抠图新体验｜基于Rembg大模型镜像发丝级去背景在图像处理领域，精准、高效、自动化地去除背景一直是设计师、电商运营、内容创作者的核心需求。传统手动抠图耗时费力，而早期AI工具又常受限于识别精度低、边缘模糊、依赖网络服务等问题…

李华

Rembg抠图性能优化：CPU版高效部署参数详解

Rembg抠图性能优化：CPU版高效部署参数详解 1. 智能万能抠图 - Rembg 在图像处理与内容创作领域，自动去背景是一项高频且关键的需求。无论是电商商品图精修、社交媒体素材制作，还是AI生成内容的后处理，精准高效的抠图能力都直接影…

李华

大模型落地全景指南：从微调到企业级部署

一、引言：大模型落地的挑战与机遇随着大语言模型（LLM）技术的快速发展，如何将这些强大的模型有效落地到实际业务场景中，成为企业和开发者面临的核心挑战。大模型落地涉及微调优化、提示工程、多模态集成和企业级部署等多…

李华

Rembg抠图REST API开发：企业级部署方案

Rembg抠图REST API开发：企业级部署方案 1. 引言 1.1 智能万能抠图 - Rembg 在电商、广告设计、内容创作等领域，图像去背景（抠图）是一项高频且关键的任务。传统手动抠图效率低下，而早期基于边缘检测或颜色阈值的自动…

李华

直链解析工具 vs 传统下载：效率提升10倍的秘密

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 开发一个对比测试工具，展示直链解析工具与传统下载方式（如浏览器直接下载）的效率差异。工具需支持用户输入同一文件的两种下载方式，…

李华

MyBatis批量操作：foreach vs 传统方式性能对比

快速体验打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容： 构建一个性能测试平台，对比三种MyBatis批量插入方案的效率：1) 单条语句循环执行 2) foreach批量插入 3) 批处理模式。要求支持MySQL和Oracle数据库&#xf…

李华