Pyinstaller打包exe文件过大问题-平芜编程栈

朋友们，你们有没有遇到通过pyinstaller打包的pyqt5嵌入模型权重文件之后过大的情况？

几个G的文件，再怎么压缩也达不到要求。。。分发时会带来不便，因此有几种主要的优化方案可以尝试：

方案一：模型精简与压缩 (核心科研优化)

由于模型文件和相关的PyTorch依赖是体积大的主要原因，这是最有效的减小体积的方法。

模型量化 (Quantization):
- 原理：将模型的权重和/或激活值从标准的 32 位浮点数 (FP32) 转换为 8 位整数 (INT8) 或 16 位浮点数 (FP16)。
- 效果：可以将模型大小减小2 到 4 倍，且对精度影响较小（特别是 INT8 量化）。
- 操作：在 PyTorch 中，可以在训练后进行后训练量化 (Post-Training Quantization)，然后保存量化后的.pth权重文件。
模型剪枝 (Pruning):
- 原理：识别模型中不重要的连接或神经元，并将其移除，使模型变得稀疏。
- 效果：根据剪枝力度，可以显著减小模型大小和计算量，但需要重新微调 (fine-tune)。
模型蒸馏 (Knowledge Distillation):
- 原理：训练一个更小的“学生”模型去模仿一个更大的“教师”模型的输出。
- 效果：用一个更小、更快的模型代替 Vision Transformer 或 AST 模型，最终模型体积会大幅减小。

方案二： PyInstaller 依赖精简 (工程优化)

这需要您对程序依赖有更深的理解，并可能涉及编辑.spec文件。

移除不必要的后端和子模块：
- 像 PyTorch、Librosa 这样的库，会包含大量的后端文件、测试文件和可选的驱动，其中很多在您的最终程序运行时并不会用到。
- 操作：检查build目录中的依赖，并在.spec文件或打包命令中添加excludes参数，手动排除那些与您操作系统或程序逻辑无关的 DLL、测试文件夹、文档等。
强制排除未使用的科学计算库：
- PyInstaller 在分析librosa时，可能会包含整个scipy、sklearn或pandas的巨大依赖。
- 如果您的程序只使用了librosa的核心功能而未直接调用这些库，可以尝试排除它们，但风险较高。
Bash
```
# 示例：尝试排除Scipy中一些大型、不常用的子模块，需要谨慎尝试 pyinstaller ... --exclude-module "scipy.linalg" --exclude-module "scipy.optimize" ...
```

方案三：云端/服务器部署 (分发策略优化)

如果精简模型后体积仍然过大，且分发需求是主要矛盾，可以考虑将计算压力转移到云端。

轻量级客户端：将您的 PyQt 界面打包成一个很小的客户端程序（小于 100MB）。
云端 API：将模型部署到一个云服务器或本地服务器上（例如使用 Flask 或 FastAPI）。
客户端-服务器通信：客户端程序负责采集输入（音频/视频）并将数据发送到服务器，服务器进行推理计算，并将结果（情绪标签、分数等）返回给客户端显示。

总结与建议

模型量化：这是不改变程序结构、对精度影响最小、且减小体积效果最显著的方法。
使用单目录 (-D) 模式：如果您还在使用-F模式，请切换到-D模式，避免将所有内容强行塞入一个存档导致的膨胀和错误。
方案三要求应用程序能够上网。

42、gawk 扩展功能与 awk 语言进化全解析

gawk 扩展功能与 awk 语言进化全解析 1. gawk 扩展功能概述 gawk 提供了丰富的扩展功能，这些扩展能显著增强其处理能力。下面将详细介绍一些常用的扩展功能。 2. 进程等待相关函数 waitpid() ：该函数接收一个数字参数，即要等待的进程 ID，返回值是 waitpid() 系统调用…