矩阵乘向量的本质：基底变换与线性组合-平芜编程栈

矩阵乘向量的本质：基底变换与线性组合

在二维平面上，一个点的坐标是 $ (3, 5) $。这看起来再普通不过——但你有没有想过，这个“3”和“5”到底意味着什么？它们之所以成立，是因为我们默认使用了一组特定的方向作为参照：向右的 $ \mathbf{e}_1 = [1, 0]^T $ 和向上的 $ \mathbf{e}_2 = [0, 1]^T $。于是 $ (3,5) $ 实际上是 $ 3\mathbf{e}_1 + 5\mathbf{e}_2 $。

但如果我把这两个方向换成别的呢？比如把“右”变成东北方向，把“上”变成西南方向？同样的系数 $ (3,5) $ 所指向的空间位置就会完全不同。

这正是矩阵乘以向量的核心所在：它不是在改变数字本身，而是在重新定义这些数字所依赖的基础结构——即基底。当你写下 $ A\mathbf{x} $ 的那一刻，你其实是在说：“请用我提供的新方向（矩阵的列），按照原向量的权重（$ \mathbf{x} $ 的分量）来构造一个新的点。”

从行到列：两种视角，一种本质

我们通常学习矩阵乘法是从“行”的角度开始的。给定：

$$
A =
\begin{bmatrix}
a_{11} & a_{12} \
a_{21} & a_{22}
\end{bmatrix}, \quad
\mathbf{x} =
\begin{bmatrix}
x_1 \ x_2
\end{bmatrix}
$$

结果 $ A\mathbf{x} $ 的第一个分量是第一行与 $ \mathbf{x} $ 的点积：$ a_{11}x_1 + a_{12}x_2 $，第二个分量同理。这种计算方式清晰、可编程、易于实现。

但它的几何意义却不够直观。点积告诉我们的是投影关系，而不是空间中的实际移动路径。真正揭示本质的，是从列的角度来看待这个运算。

将矩阵 $ A $ 拆分为两列：
$$
\mathbf{a}1 =
\begin{bmatrix}
a{11} \ a_{21}
\end{bmatrix}, \quad
\mathbf{a}2 =
\begin{bmatrix}
a{12} \ a_{22}
\end{bmatrix}
$$

那么就有：
$$
A\mathbf{x} = x_1 \mathbf{a}_1 + x_2 \mathbf{a}_2
$$

看！这不是什么神秘操作，而是最典型的线性组合。输入向量 $ \mathbf{x} $ 提供了权重，矩阵 $ A $ 提供了被加权的基本构件。

举个例子：
$$
A =
\begin{bmatrix}
2 & -1 \
1 & 3
\end{bmatrix}, \quad
\mathbf{x} =
\begin{bmatrix}
3 \ 5
\end{bmatrix}
\quad \Rightarrow \quad
A\mathbf{x} = 3 \cdot
\begin{bmatrix}
2 \ 1
\end{bmatrix}
+ 5 \cdot
\begin{bmatrix}
-1 \ 3
\end{bmatrix}
=
\begin{bmatrix}
1 \ 18
\end{bmatrix}
$$

输出向量 $ [1, 18]^T $ 就位于由 $ \mathbf{a}_1 $ 和 $ \mathbf{a}_2 $ 张成的平面内——事实上，它是这对向量的一个具体实例化表达。

换句话说，矩阵 $ A $ 定义了一个“生成模板”，而 $ \mathbf{x} $ 决定了在这个模板中选择哪一个具体的输出。

基底变了，世界就变了

现在让我们更进一步：考虑标准基下的向量 $ \mathbf{x} = [x_1, x_2]^T $。它本质上就是：

$$
\mathbf{x} = x_1
\begin{bmatrix}
1 \ 0
\end{bmatrix}
+ x_2
\begin{bmatrix}
0 \ 1
\end{bmatrix}
= x_1 \mathbf{e}_1 + x_2 \mathbf{e}_2
$$

如果我们保留相同的系数 $ x_1, x_2 $，但把基换成了 $ \mathbf{a}_1, \mathbf{a}_2 $，那会发生什么？

答案就是：
$$
\mathbf{y} = x_1 \mathbf{a}_1 + x_2 \mathbf{a}_2 = A\mathbf{x}
$$

所以，矩阵乘法 $ A\mathbf{x} $ 可以理解为：保持坐标数值不变，但将其解释为一组新基下的线性组合。

这就像你在地图上看经纬度 $ (40^\circ N, 116^\circ E) $，如果地球的坐标系突然旋转了，虽然数字没变，但对应的实际地点已经完全不同。矩阵的作用，就是悄悄地替换了整个坐标系统的“朝向”。

因此，矩阵 $ A $ 的每一列，实际上记录了原始基向量变换后的位置：
- 第一列是 $ \mathbf{e}_1 $ 被送到哪里；
- 第二列是 $ \mathbf{e}_2 $ 被送到哪里。

整个变换规则由此完全确定。

具体案例：缩放与旋转

来看看几个经典例子。

缩放变换

$$
A =
\begin{bmatrix}
2 & 0 \
0 & 3
\end{bmatrix}
$$

这意味着：
- $ \mathbf{e}_1 \to (2, 0) $
- $ \mathbf{e}_2 \to (0, 3) $

整个空间被横向拉长2倍，纵向拉伸3倍。所有点都按比例远离原点，但方向关系保持不变。

旋转变换

$$
A =
\begin{bmatrix}
0 & -1 \
1 & 0
\end{bmatrix}
$$

这时：
- $ \mathbf{e}_1 \to (0,1) $
- $ \mathbf{e}_2 \to (-1,0) $

也就是原来的“右”变成了“上”，“上”变成了“左”。这是典型的逆时针90度旋转。

你会发现，无论哪种变换，矩阵的列都在明确告诉你：“旧世界的每个基本方向，现在去了哪里。”

推广到三维：逻辑一致，直觉延续

设：
$$
A =
\begin{bmatrix}
1 & 0 & 0 \
0 & 2 & 1 \
0 & 0 & 1
\end{bmatrix}, \quad
\mathbf{x} =
\begin{bmatrix}
2 \ 3 \ 4
\end{bmatrix}
$$

则：
$$
A\mathbf{x} = 2 \cdot
\begin{bmatrix}
1 \ 0 \ 0
\end{bmatrix}
+ 3 \cdot
\begin{bmatrix}
0 \ 2 \ 0
\end{bmatrix}
+ 4 \cdot
\begin{bmatrix}
0 \ 1 \ 1
\end{bmatrix}
=
\begin{bmatrix}
2 \ 10 \ 4
\end{bmatrix}
$$

这里的三列分别代表标准基 $ \mathbf{e}_1, \mathbf{e}_2, \mathbf{e}_3 $ 经过变换后的新位置。原来的立方体网格可能会扭曲成平行六面体，但线性结构依然保持。

关键在于：无论维度如何变化，矩阵乘向量的本质始终如一——它是对新基方向的一次加权合成。

一般情形：$ m \times n $ 矩阵的映射能力

推广到最一般的情况：设 $ A \in \mathbb{R}^{m \times n} $，$ \mathbf{x} \in \mathbb{R}^n $，则：

$$
A\mathbf{x} = \sum_{i=1}^n x_i \mathbf{a}_i
$$

其中 $ \mathbf{a}_i \in \mathbb{R}^m $ 是 $ A $ 的第 $ i $ 列。

这意味着：
- 输入向量原本属于 $ n $ 维空间；
- 输出落在 $ m $ 维空间中；
- 变换过程是将原来基于 $ n $ 个 $ n $ 维标准基的表示，转换为基于 $ n $ 个 $ m $ 维“新方向”的相同系数组合。

这就解释了为什么矩阵乘法广泛存在于各种空间映射场景中：

降维（如 PCA）：当 $ m < n $，数据被压缩进低维空间；
嵌入（如词向量）：当 $ m > n $，信息被扩展到更高维表示；
全连接层（神经网络）：每一层都在重新定义特征空间的基方向；
图像仿射变换：旋转、剪切、缩放均可通过矩阵乘法实现。

可以说，任何需要“重新组织信息结构”的任务，背后几乎都有矩阵乘法的身影。

一个重要澄清：列不一定构成基底

我们必须指出一点：虽然我们将矩阵的列视为“新基”，但这并不总能满足数学上“基底”的严格定义。

所谓基底，必须满足两个条件：
1. 向量个数等于空间维数；
2. 向量线性无关。

而矩阵 $ A $ 的列可能不满足这些条件。例如：

情况	是否构成基底	说明
$ m = n $，列满秩	✅ 是	构成 $ \mathbb{R}^n $ 的一组新基
$ m = n $，行列式为0	❌ 否	列相关，无法张成全空间
$ m > n $	❌ 否	向量不足 $ m $ 个，不能构成 $ \mathbb{R}^m $ 的基
$ m < n $	❌ 否	即使独立，也无法张成 $ \mathbb{R}^m $