矩阵的基本运算：一篇文章带你彻底搞懂这些“数学积木“-平芜编程栈

一、先讲个让我"开窍"的故事

大一刚学线性代数那会儿，我对矩阵充满了恐惧。

不是怕概念，是怕运算。

矩阵加法还好理解——对应位置相加嘛。但到了矩阵乘法，我就懵了。老师在黑板上画了一堆箭头："第一行乘第一列、第一行乘第二列、第二行乘第一列……"我跟着画了一遍，算对了一道题，但心里特别不踏实。

我不明白：为什么矩阵乘法要这么定义？为什么不能像加法一样，对应位置相乘就行？为什么 AB 不等于 BA？这些规则到底是谁规定的、凭什么这么规定？

我带着满脑子疑问去问老师。老师说：“这就是定义，你记住就行。”

我硬记了一个学期。期末考试拿了 90 分，但心里始终别扭——我会"算"矩阵，但不"懂"矩阵。

直到大二，我学了计算机图形学。那门课要用矩阵描述 3D 物体的旋转、缩放、平移。某一天我在调试一段代码，需要让一个立方体"先旋转 30 度，再放大 2 倍"。我写下两个矩阵 R 和 S，然后犹豫了：到底是 RS 还是 SR？

老师在旁边说：“你想想物理意义。物体先经过 R 变换，再经过 S 变换，所以结果是 SR——靠右的矩阵先作用。”

那一瞬间我彻底开窍了。

矩阵乘法的本质，是"变换的复合"。AB 就是"先做 B 这个变换，再做 A 这个变换"。所以 AB 和 BA 当然不一样——“先穿袜子再穿鞋"和"先穿鞋再穿袜子”，结果完全不同。

那一刻，所有矩阵运算的规则，突然都"活"了起来。我不再是机械地按公式计算，而是能看到每个运算背后的几何画面。

今天这篇文章，我就把矩阵的基本运算从最直观的角度讲清楚。我不会只告诉你"怎么算"，更要告诉你"为什么这么算"。读完之后，你会发现：矩阵不是一堆冷冰冰的数字，而是一种有生命、有形状、有动作的数学对象。

走起。

二、先建立直觉：什么是矩阵？

讲运算之前，先理解什么是矩阵。

最朴素的理解：矩阵是一个长方形的数字表格。比如这是一个 2×3 的矩阵（2 行 3 列）：

[[1, 2, 3],
[4, 5, 6]]

但这只是表面。矩阵真正的含义有三种：

视角 1：数据的表格。比如一个班级的成绩表，每行是一个学生，每列是一门课。这是最朴素的理解。

视角 2：向量的组合。矩阵的每一列（或每一行）都是一个向量。一个 m×n 矩阵就是 n 个 m 维列向量的组合。

视角 3：线性变换。这是最深刻的理解。一个矩阵代表一个"操作"——它能把一个向量变成另一个向量。比如旋转矩阵把向量旋转一个角度，缩放矩阵把向量拉长缩短。

这三种视角，对应着矩阵运算的三种"意义"。学矩阵，关键是能在这三种视角之间灵活切换。

三、第一个运算：矩阵加法

矩阵加法是最简单的运算——对应位置相加。

[[1, 2], [3, 4]] + [[5, 6], [7, 8]] = [[6, 8], [10, 12]]

注意一个前提：两个矩阵必须形状相同才能相加。3×2 的矩阵不能和 2×3 的矩阵相加。

几何意义

如果把矩阵看作"向量的组合"，那矩阵加法就是"对应向量相加"。

如果把矩阵看作"变换"，那矩阵加法就是"两个变换的叠加"——但这种叠加在几何上没有特别直观的意义，所以矩阵加法的几何视角不如其他运算重要。

性质

矩阵加法满足你期待的所有性质：

交换律：A + B = B + A
结合律：(A + B) + C = A + (B + C)
有零元：存在零矩阵 O，使 A + O = A
有负元：每个矩阵 A 有相反矩阵 -A，使 A + (-A) = O

加法的性质和普通数字加法完全一样。所以矩阵加法不会给你制造麻烦——它是个"温柔的老好人"。

四、第二个运算：数乘

数乘是矩阵和一个数相乘——把矩阵的每个元素都乘以那个数。

3 × [[1, 2], [3, 4]] = [[3, 6], [9, 12]]

几何意义

如果把矩阵看作"变换"，数乘就是"放大或缩小这个变换的力度"。

举例：缩放矩阵 [[2, 0], [0, 2]] 表示"把所有向量放大 2 倍"。如果你给它乘上 3，得到 [[6, 0], [0, 6]]，就表示"把所有向量放大 6 倍"——变换强度变成了 3 倍。

如果你给它乘上 -1，得到 [[-2, 0], [0, -2]]，就表示"把所有向量放大 2 倍并翻转方向"。

性质

数乘的性质也很正常：

k(A + B) = kA + kB
(k + l)A = kA + lA
(kl)A = k(lA)
1 · A = A

记住一点：数乘是分配的，但乘法的顺序不重要——kA 和 Ak 是一样的。

五、第三个运算（核心）：矩阵乘法

这是矩阵运算的"灵魂"，也是最容易让初学者懵的地方。

规则

设 A 是 m×n 矩阵，B 是 n×p 矩阵，那么 AB 是 m×p 矩阵，其元素是：

(AB)ᵢⱼ = A 的第 i 行 · B 的第 j 列（点积）

注意几个关键点：

第一，A 的列数必须等于 B 的行数，否则乘法没有定义。这是一个硬性约束。

第二，乘出来的矩阵形状是 m×p——继承 A 的行数和 B 的列数。

第三，AB 不等于 BA——矩阵乘法不满足交换律。事实上，有时候 AB 能算 BA 算不了（因为形状不匹配）。

具体计算

举个简单例子：

A = [[1, 2], [3, 4]]
B = [[5, 6], [7, 8]]

AB 的第 (1,1) 位置 = A 的第 1 行 · B 的第 1 列 = 1·5 + 2·7 = 19
AB 的第 (1,2) 位置 = A 的第 1 行 · B 的第 2 列 = 1·6 + 2·8 = 22
AB 的第 (2,1) 位置 = A 的第 2 行 · B 的第 1 列 = 3·5 + 4·7 = 43
AB 的第 (2,2) 位置 = A 的第 2 行 · B 的第 2 列 = 3·6 + 4·8 = 50

所以 AB = [[19, 22], [43, 50]]

算一下 BA：

BA 的第 (1,1) 位置 = B 的第 1 行 · A 的第 1 列 = 5·1 + 6·3 = 23
BA 的第 (1,2) 位置 = B 的第 1 行 · A 的第 2 列 = 5·2 + 6·4 = 34
BA 的第 (2,1) 位置 = B 的第 2 行 · A 的第 1 列 = 7·1 + 8·3 = 31
BA 的第 (2,2) 位置 = B 的第 2 行 · A 的第 2 列 = 7·2 + 8·4 = 46

所以 BA = [[23, 34], [31, 46]]

AB 和 BA 完全不同！

为什么这么定义？

很多人会问：为什么矩阵乘法这么奇怪？为什么不像加法一样对应位置相乘？

答案是：矩阵乘法的本质是"变换的复合"。

想象矩阵 A 和 B 都是线性变换。如果你先用 B 变换一个向量 x，得到 Bx；然后再用 A 变换它，得到 A(Bx)。

A(Bx) 等于 (AB)x——所以矩阵乘法 AB 代表的是"先 B 后 A"这个复合变换。

这就是矩阵乘法这样定义的根本原因。它是为了让矩阵运算和"变换复合"这个几何操作完美对应。

一个让你印象深刻的例子

回到我开头讲的故事。在 3D 图形学里，假设：

R 是"旋转 30 度"的矩阵
S 是"放大 2 倍"的矩阵

如果你想让物体"先旋转再放大"，你应该写 SR——靠右的 R 先作用。

如果你想让物体"先放大再旋转"，你应该写 RS——靠右的 S 先作用。

这两个结果是不一样的！想象一个长方形：

先旋转 30 度，再放大 2 倍：长方形旋转了，然后整体放大
先放大 2 倍，再旋转 30 度：长方形先放大，然后旋转

最终位置可能不同（如果矩阵不是从原点出发的话，结果会差很多）。

这就是为什么 AB ≠ BA——因为变换的顺序很重要。

性质

矩阵乘法满足：

结合律：(AB)C = A(BC)
分配律：A(B + C) = AB + AC，(A + B)C = AC + BC
数乘可以提取：k(AB) = (kA)B = A(kB)

但不满足：

交换律：AB ≠ BA（一般情况下）
消去律：AB = AC 不能推出 B = C（除非 A 可逆）
零因子律：AB = 0 不能推出 A = 0 或 B = 0

这些"不满足"的性质是矩阵运算最容易出错的地方。普通代数的直觉在矩阵世界里经常失效——必须时刻保持警惕。

单位矩阵

单位矩阵 I 是矩阵乘法的"单位元"——对任何矩阵 A，AI = IA = A。

它的样子是：对角线全是 1，其他位置全是 0。比如 3 阶单位矩阵：

[[1, 0, 0],
[0, 1, 0],
[0, 0, 1]]

几何意义：单位矩阵代表"什么都不做"的变换——把每个向量原封不动地返回。这就像数字世界的 1。

六、第四个运算：转置

转置就是把矩阵"翻转"——行变列，列变行。

A = [[1, 2, 3], [4, 5, 6]]
Aᵀ = [[1, 4], [2, 5], [3, 6]]

原本是 2×3 的矩阵，转置后变成 3×2。

几何意义

转置的几何意义比较微妙，不像其他运算那么直观。粗略地说，转置和"内积"有深刻的联系：(Ax) · y = x · (Aᵀy)。这个公式叫做"伴随关系"，是泛函分析的基础。

在欧氏空间里，正交矩阵满足 Aᵀ = A⁻¹——这是转置最重要的应用之一。

性质

转置满足：

(Aᵀ)ᵀ = A（转置两次回到原矩阵）
(A + B)ᵀ = Aᵀ + Bᵀ
(kA)ᵀ = kAᵀ
(AB)ᵀ = BᵀAᵀ（注意顺序反了！）

最后一条非常重要。乘积的转置等于转置的乘积反序。这就像穿衣服——“先穿袜子再穿鞋”，脱的时候必须"先脱鞋再脱袜子"。

对称矩阵和反对称矩阵

如果一个矩阵满足 Aᵀ = A，叫做对称矩阵。比如：

[[1, 2, 3],
[2, 4, 5],
[3, 5, 6]]

对称矩阵有非常好的性质——所有特征值都是实数，并且可以正交对角化。这是谱定理的内容，是量子力学、主成分分析、统计学的核心数学工具。

如果一个矩阵满足 Aᵀ = -A，叫做反对称矩阵。反对称矩阵的对角线元素必须是零。它在物理（如角动量算子）和微分几何（如外微分）中有重要应用。

七、第五个运算：求逆

如果一个方阵 A 存在另一个矩阵 B，使得 AB = BA = I，那 B 就是 A 的逆矩阵，记作 A⁻¹。

几何意义

逆矩阵代表"反向变换"——如果 A 把向量 x 变成 y，那 A⁻¹ 把 y 变回 x。

举例：旋转 30 度的逆是旋转 -30 度。放大 2 倍的逆是缩小 2 倍（即放大 1/2 倍）。

不是所有矩阵都有逆

只有方阵才可能有逆（非方阵的"逆"概念不一样，叫"伪逆"）。

更进一步，只有行列式不为零的方阵才有逆。

为什么？因为行列式为零意味着这个变换"压缩"了空间——把高维压成了低维。压缩后信息丢失了，无法反过来恢复。

比如二维矩阵 [[1, 2], [2, 4]]，行列式 = 0。它把整个二维平面压缩到一条直线上。你无法从那条直线上的一点"反推"出原平面上的点（因为很多点都映射到了同一个点）。

求逆的方法

求 2×2 矩阵的逆很简单：

A = [[a, b], [c, d]]
A⁻¹ = (1/(ad-bc)) · [[d, -b], [-c, a]]

求高阶矩阵的逆有几种方法：

伴随矩阵法：A⁻¹ = (1/det(A)) · adj(A)。理论上漂亮，但计算量大，只适合手算小矩阵。

初等行变换法：把 [A | I] 通过初等行变换化成 [I | A⁻¹]。这是最实用的方法，也是计算机用的方法。

LU 分解、QR 分解等：更高级的数值方法，用于大规模计算。

逆矩阵的性质

(A⁻¹)⁻¹ = A
(AB)⁻¹ = B⁻¹A⁻¹（又是反序！）
(Aᵀ)⁻¹ = (A⁻¹)ᵀ
(kA)⁻¹ = (1/k) · A⁻¹

注意 (AB)⁻¹ = B⁻¹A⁻¹——又是反序。这和转置的规则一样。原因也类似：要"撤销"一个复合变换，必须按相反的顺序撤销。

八、第六个运算：迹

矩阵的迹（trace）是对角线元素之和，记作 tr(A)。

A = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
tr(A) = 1 + 5 + 9 = 15

几何意义

迹是一个不变量——相似矩阵的迹相等。这意味着，迹反映了线性变换本身的某种本质特征，与你选什么基无关。

更深刻地，迹等于所有特征值的和。这是迹的"灵魂"。

性质

tr(A + B) = tr(A) + tr(B)
tr(kA) = k · tr(A)
tr(Aᵀ) = tr(A)
tr(AB) = tr(BA)（即使 AB ≠ BA！）

最后一条非常神奇——AB 和 BA 一般不相等，但它们的迹相等。这是迹最有用的性质，在物理、统计、机器学习中频繁出现。

九、第七个运算：分块矩阵

把一个大矩阵切成几个小块，每块也是一个矩阵——这就是分块矩阵。

举例，一个 4×4 矩阵可以看作 2×2 的"块矩阵"，每个块是 2×2 的小矩阵：

[[A, B],
[C, D]]

其中 A、B、C、D 都是 2×2 矩阵。

为什么分块？

第一，简化计算。某些大矩阵有特殊结构（比如有大块的零），分块后能利用这些结构加速计算。

第二，揭示结构。分块能让你看清矩阵的"组织方式"，找到隐藏的规律。

第三，便于并行。在大规模计算中，分块矩阵可以分给不同的处理器同时计算——这是 GPU 加速、分布式机器学习的基础。

分块矩阵的运算

分块矩阵的运算和普通矩阵几乎一样——只要分块的大小匹配。

分块加法：对应块相加。

分块乘法：和普通矩阵乘法一样，但每个"元素相乘"变成"块矩阵相乘"。

举例：

[[A, B], [C, D]] × [[E, F], [G, H]] = [[AE + BG, AF + BH], [CE + DG, CF + DH]]

形式和 2×2 矩阵乘法一模一样，只是 A、B、…、H 是矩阵而不是数。

这种"自相似"的结构是数学最美的现象之一——同一套规则可以用在不同的层次上。

十、贯穿所有运算的几个"心法"

讲完所有基本运算，分享几个"心法"，帮你真正掌握矩阵运算。

心法 1：永远关注形状

矩阵运算中，形状是第一位的。每次写下一个表达式，先确认形状对不对：

m×n 加 m×n = m×n（加法要求形状相同）
m×n 乘 n×p = m×p（乘法要求"中间"维度相等）
m×n 转置 = n×m

形状不对，运算根本无法进行。形状对了，至少有计算的可能。

养成"先看形状"的习惯，能避免 80% 的低级错误。

心法 2：顺序很重要

矩阵世界没有交换律。AB 和 BA 是两个完全不同的东西。

涉及顺序的几个规则：

(AB)ᵀ = BᵀAᵀ（反序）
(AB)⁻¹ = B⁻¹A⁻¹（反序）
变换复合：(AB)x = A(Bx)（B 先作用）

这些"反序"现象都源于一个共同的几何直觉：撤销/翻转一个复合操作，必须按相反顺序。

心法 3：几何直觉是王道

任何时候算到一个奇怪的结果，回到几何意义问自己：

这个矩阵代表什么变换？
这个乘积代表什么复合？
这个逆代表什么反向操作？

几何直觉是矩阵运算的"灵魂"。光靠代数公式，你永远只是"会算"；有了几何直觉，你才"懂"。

心法 4：特殊矩阵要熟悉

零矩阵、单位矩阵、对角矩阵、对称矩阵、正交矩阵、置换矩阵、初等矩阵——这些特殊矩阵每个都有自己的"个性"和应用场景。熟悉它们的性质，能让你的计算事半功倍。

心法 5：多动手算

矩阵运算的肌肉记忆很重要。看 10 遍不如算 1 遍。建议：每个新概念学完，立刻拿 2×2 和 3×3 的小矩阵实际算一遍。算的过程中，所有抽象概念都会变得具体。

十一、矩阵运算的应用

讲了这么多理论，最后看看矩阵运算在实际中怎么用。

机器学习：神经网络的本质就是矩阵乘法的连续作用。一层神经网络做一次矩阵乘法加上非线性激活，几十层叠加起来就是深度学习。

计算机图形学：3D 物体的旋转、缩放、平移、投影，都是矩阵变换。游戏引擎、CAD 软件、电影特效，底层都是大量的矩阵运算。

搜索引擎：Google 的 PageRank 算法本质上是一个特征向量问题——找出网页之间链接关系矩阵的最大特征向量。

推荐系统：Netflix、淘宝的推荐算法，核心是用户-物品矩阵的低秩分解。

信号处理：傅里叶变换、滤波、压缩都可以用矩阵运算表达。JPEG 图像压缩的本质是 DCT 矩阵变换。

密码学：椭圆曲线密码、Lattice 密码等现代密码体系，都涉及大量矩阵运算。

物理学：量子力学的状态用向量描述，演化用矩阵描述。量子计算的"门"操作就是酉矩阵的作用。

经济学：投入产出分析、马尔可夫链、博弈论，都离不开矩阵运算。

可以说，现代世界的"运行机制"，大部分是用矩阵运算写成的。

十二、收尾：矩阵运算的真正魅力

写到这里，我想说点心里话。

很多人学矩阵运算，留下的印象就是：一堆公式、一堆规则、一堆"为什么这么算"的疑惑。考完试就忘了。

但矩阵运算的真正魅力，不在于"会算"，而在于它打开了一种全新的思维方式。

它让你学会用"变换"的眼光看世界——不是看静态的对象，而是看动态的操作。

它让你学会用"代数"和"几何"双语思考——代数公式背后总有几何画面，几何直觉总能写成代数表达。

它让你学会用"组合"和"结构"的眼光看复杂——任何复杂的对象，都可以分解成简单的组件，然后用规则组合起来。

这些思维方式，比任何具体的运算规则都珍贵。它们是你以后做任何"和数学相关"的工作时，最底层、最通用的能力。

最后送你三句心里话。

第一句，不要怕计算的复杂。矩阵运算看起来复杂，但每个步骤都有清晰的几何意义。理解了意义，再复杂的计算也只是"按部就班"。

第二句，不要满足于"会算"。会算是入门，懂是高手，能用是大师。学每一个运算，都要问自己：它在哪里有用？它解决了什么问题？

第三句，要把矩阵运算用起来。学完矩阵乘法，去写一段代码做图像旋转；学完矩阵求逆，去解一个线性方程组；学完特征值，去做一次主成分分析。用过的知识，才真正属于你。

打开你的笔记本，写两个 3×3 的矩阵，把它们的加法、乘法、转置、逆都算一遍。算完之后你会发现，那些原本枯燥的运算，突然变得有意思了。

你会感受到——矩阵不是冷冰冰的数字表格，它是有生命的数学积木。

而你，正在用这些积木，搭建一个理解世界的新维度。

这就是矩阵运算的真正魅力。

也是数学最迷人的地方。

二、先建立直觉：什么是矩阵？

三、第一个运算：矩阵加法

几何意义

性质

四、第二个运算：数乘

几何意义

性质

五、第三个运算（核心）：矩阵乘法

规则

具体计算

为什么这么定义？

一个让你印象深刻的例子

性质

单位矩阵

六、第四个运算：转置

几何意义

性质

对称矩阵和反对称矩阵

七、第五个运算：求逆

几何意义

不是所有矩阵都有逆

求逆的方法

逆矩阵的性质

八、第六个运算：迹

几何意义

性质

九、第七个运算：分块矩阵

为什么分块？

分块矩阵的运算

十、贯穿所有运算的几个"心法"

心法 1：永远关注形状

心法 2：顺序很重要

心法 3：几何直觉是王道

心法 4：特殊矩阵要熟悉

心法 5：多动手算

十一、矩阵运算的应用

十二、收尾：矩阵运算的真正魅力

2028 全球智能危机：一篇文章带你深度解读这份“AI 启示录“

为OpenClaw配置Taotoken作为后端AI供应商的详细操作指南

蓝桥杯单片机按键进阶：从底层扫描到复杂功能实现

从U-Net到DocUNet：一个图像分割经典架构如何“跨界”解决文档矫正难题？

3步解锁Windows音频潜能：Equalizer APO完全掌控指南

QuPath病理图像分析：从入门到精通的完整实战指南