深度学习优化算法面临挑战
在深度学习发展中,以随机梯度下降(SGD)和 Adam 为代表的一阶梯度下降方法是基础优化算法。但大语言模型(LLM)时代,传统优化方法面临硬件与系统层面多重瓶颈,如反向传播引起的内存限制(内存墙)、分布式网络中的通信开销(通信墙)以及处理敏感数据时的隐私保护问题(隐私墙)。
联合团队发布长文综述
近日,来自浙江大学 APRIL Lab、复旦大学、上海交大及新加坡国立大学的联合团队发布最新长文综述,系统回顾深度学习优化算法演进轨迹,针对多种模型架构和训练场景对主流优化器进行全面实证评估,为下一代优化方法设计提供实践指南。
深度学习复杂优化环境
模型训练本质是经验风险最小化,在高维空间中,神经网络损失地形是崎岖非凸地带,布满鞍点和局部最优陷阱。SGD 利用随机梯度噪声逃离鞍点,找到平坦极小值。超参数化时代,神经正切核(NTK)理论为过参数化网络优化收敛性质提供理论解释。
优化基元的数学分类
研究团队构建统一数学分类框架,将底层优化基元划分为三类:一阶优化算法(FO)依赖一阶梯度及其派生统计量,综述从 8 个维度改进基础算法;二阶优化算法(SO)通过显式构建曲率信息预处理更新方向,但有严苛应用条件;零阶优化算法(ZO)通过前向函数评估近似梯度方向,缓解显存限制。
现代优化器设计趋势
随着大模型参数规模扩大和应用场景复杂化,现代优化器设计向结合系统架构的工程解决方案演进,包括分布式优化、隐私保护优化和内存高效设计。
标准化基准测试
现有研究缺乏公平跨架构对比测试,研究团队建立标准化评估框架,在视觉任务(ResNet、ViT)和因果语言建模(Llama)上对 23 种优化器进行大规模基准测试,分析不同优化器学习率敏感性、长期训练可扩展性和跨架构泛化能力。
未来研究方向
研究团队指出未来研究方向,一阶方法可转向自动生成架构特定优化器等;二阶方法可结合结构感知自适应与低精度算术等;零阶方法可从精确梯度校正机制汲取灵感。