压缩的本质:规律在几何上有形状,在代数上有结构
压缩的本质:规律在几何上有形状,在代数上有结构
压缩不只是把数据变短。
规律本身有形状和结构。
理解一个事物,就是找到它的几何位置,用最简洁的符号封装它。
一、两个缺口:香农熵与柯氏复杂度的困境
压缩理论有两个经典缺口:
第一堵墙:香农熵必须已知概率分布
熵值公式 H = -Σ p(x) log p(x) 假设已知数据分布。
但现实数据从不附赠"真实分布说明书"。
不知道分布,最优编码是空中楼阁。
答案:找分布就是学习。
第二堵墙:柯氏复杂度不可计算
柯氏复杂度定义"最短描述",但这是图灵停机问题——无法写出通用算法。
答案:用可操作的方式逼近。
两个缺口引出两个追问:
| 追问 | 答案 |
|---|---|
| 规律蜷缩在哪里? | 几何:数据流形 |
| 规律如何被符号化封装? | 代数:宏的嵌套 |
二、几何视角:从数据流形到统计流形
数据流形:高维空间中的低维现实
真实世界的高维数据,几乎总是分布在低维流形附近。
例子:
1000×1000像素人脸照片 = 100万维空间中的一个点
但决定脸的因素只有几十个"控制旋钮":脸型、五官、表情、光照。
数据蜷缩在极低维曲面上 → 这个曲面的维度 = 真正的自由度。
流形假设:
- 数据蜷缩在低维流形上
- 噪声垂直于流形
- 内禀维度 d < 观测维度 D → 可压缩
压缩比上限:D/d
估计方法:
- 线性结构:PCA特征值谱
- 非线性流形:基于局部几何信息的方法
三、统计流形:概率分布的黎曼几何
从数据流形到统计流形: