news 2026/5/17 4:49:42

压缩的本质:规律在几何上有形状,在代数上有结构

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
压缩的本质:规律在几何上有形状,在代数上有结构

压缩的本质:规律在几何上有形状,在代数上有结构

压缩的本质:规律在几何上有形状,在代数上有结构

压缩不只是把数据变短。

规律本身有形状和结构。

理解一个事物,就是找到它的几何位置,用最简洁的符号封装它。


一、两个缺口:香农熵与柯氏复杂度的困境

压缩理论有两个经典缺口:

第一堵墙:香农熵必须已知概率分布

熵值公式 H = -Σ p(x) log p(x) 假设已知数据分布。

但现实数据从不附赠"真实分布说明书"。

不知道分布,最优编码是空中楼阁。

答案:找分布就是学习。

第二堵墙:柯氏复杂度不可计算

柯氏复杂度定义"最短描述",但这是图灵停机问题——无法写出通用算法。

答案:用可操作的方式逼近。

两个缺口引出两个追问:

追问答案
规律蜷缩在哪里?几何:数据流形
规律如何被符号化封装?代数:宏的嵌套

二、几何视角:从数据流形到统计流形

数据流形:高维空间中的低维现实

真实世界的高维数据,几乎总是分布在低维流形附近。

例子

1000×1000像素人脸照片 = 100万维空间中的一个点

但决定脸的因素只有几十个"控制旋钮":脸型、五官、表情、光照。

数据蜷缩在极低维曲面上 → 这个曲面的维度 = 真正的自由度。

流形假设

  • 数据蜷缩在低维流形上
  • 噪声垂直于流形
  • 内禀维度 d < 观测维度 D → 可压缩

压缩比上限:D/d

估计方法

  • 线性结构:PCA特征值谱
  • 非线性流形:基于局部几何信息的方法

三、统计流形:概率分布的黎曼几何

从数据流形到统计流形

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/17 4:48:18

基于MLX90640与Python的嵌入式热成像开发实战

1. 项目概述&#xff1a;为嵌入式设备装上“热视觉”在嵌入式开发领域&#xff0c;为设备赋予“视觉”能力早已不是新鲜事&#xff0c;从传统的摄像头到深度传感器&#xff0c;选择众多。但有一种“视觉”能力&#xff0c;能让你的项目穿透黑暗、无视烟雾&#xff0c;直接“看到…

作者头像 李华
网站建设 2026/5/17 4:46:22

Go语言极简Web框架the0:从零构建高性能API服务

1. 项目概述&#xff1a;一个极简主义Web框架的诞生最近在GitHub上闲逛&#xff0c;发现了一个挺有意思的项目&#xff0c;叫the0。它的仓库地址是alexanderwanyoike/the0&#xff0c;光看名字就透着一股极简和实验性的味道。作为一个在Web开发领域摸爬滚打了十多年的老码农&am…

作者头像 李华
网站建设 2026/5/17 4:45:23

构建高质量代码数据池:驱动大模型从生成到可执行验证

1. 项目概述&#xff1a;一个为代码大模型量身定制的数据池如果你最近在尝试用各种代码生成模型&#xff08;比如Codex、StarCoder、DeepSeek Coder&#xff09;来辅助开发&#xff0c;大概率会遇到一个头疼的问题&#xff1a;模型给出的代码片段&#xff0c;乍一看语法正确、逻…

作者头像 李华
网站建设 2026/5/17 4:45:20

Ante语言:现代C++开发者的内存安全与零成本抽象新选择

1. 项目概述&#xff1a;一个为现代C开发者准备的“安全气囊”如果你是一位长期在C项目里摸爬滚打的开发者&#xff0c;看到jfecher/ante这个项目标题&#xff0c;可能会感到一丝好奇和困惑。Ante&#xff1f;这名字听起来不像一个常见的库或框架。简单来说&#xff0c;Ante是一…

作者头像 李华
网站建设 2026/5/17 4:43:21

5分钟精通GPX编辑:零基础打造专业轨迹地图的终极指南

5分钟精通GPX编辑&#xff1a;零基础打造专业轨迹地图的终极指南 【免费下载链接】gpxstudio.github.io The online GPX file editor 项目地址: https://gitcode.com/gh_mirrors/gp/gpxstudio.github.io 还在为复杂的GPS轨迹文件编辑而烦恼吗&#xff1f;每次户外活动后…

作者头像 李华