news 2026/3/1 20:16:57

SGLang AI 金融 π 对(杭州站)回顾:大模型推理的工程实践全景

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
SGLang AI 金融 π 对(杭州站)回顾:大模型推理的工程实践全景

12 月 20 日,SGLang AI 金融 π 对(杭州站)在杭州紫金港美居酒店成功举办。本次 Meetup 由SGLang 与 AtomGit 社区联合发起,聚焦大模型在金融与复杂业务场景下的推理效率问题,吸引了大量来自AI Infra、推理系统、金融科技与系统工程方向的开发者与工程师参与。

活动开场,华为高级项目群总监薛曜为本次 Meetup 做了开场致辞。他表示,非常高兴能在杭州与来自各地的开发者和工程师们相聚,共同探讨大模型在金融与复杂业务场景下的前沿应用。随着 AI 与金融科技的深度融合,推理效率与工程实践的重要性日益凸显,希望大家在本次活动中能收获前沿技术洞察,同时建立更多跨领域的交流与合作。

薛曜 华为高级项目群总监

下一代推理系统,正在被重新设计

随着 DeepSeek-V3、Qwen-Next 等新一代模型,以及 Agent 和混合模型架构越来越普及,传统推理系统的内存与缓存面临挑战。活动第一部分,SGLang 开发者黄章衡带来了一场干货满满的分享——《面向智能体和混合模型的 KVCache 新范式》

并介绍两大创新:

  • HiCache:GPU → 主机 →分布式三级缓存,优化 SparseAttention 分层管理;

  • Hybrid Cache:混合模型缓存,支持 Full Attention、SWA、Mamba 等机制,覆盖主流模型。

黄章衡 SGLang 核心开发者

这场分享让大家直观理解了 Agent 和混合模型时代推理系统的结构性变化,也为后续的技术讨论打下了基础。

直击 RL 训练的工程难题:权重如何快速更新

在强化学习(RL)与大规模推理服务中,模型权重的频繁更新与加载往往是效率的隐形杀手。

SGLang 开发者尚旭春《Checkpoint Engine:加速 SGLang 的权重热更新与冷启动效率》中,拆解了这一长期存在却少被系统讨论的工程问题,介绍了面向 LLM 的轻量级权重更新中间件 Checkpoint Engine,重点分享了基于共享内存(IPC)与 Zero-Copy 的秒级权重热更新机制,以及 Broadcast / P2P 传输模式在多节点场景下对冷启动和弹性扩缩容效率的显著优化,并结合 RL 训练实践,说明了如何有效缩短推理等待时间,为高频 RL 迭代提供了可复用的工程解法。

尚旭春 SGLang 开发者

金融 Agentic RL 的真实工程实践

随后,华为小巧灵突击队工程师荆升航分享了金融 Agentic RL 场景下 SGLang 在强化学习推理中的工程实践,重点围绕确定性计算、多轮对话优化策略,以及weight resharding与内存使用优化。这一议题从真实业务约束出发,展示了 SGLang 在金融 Agentic RL 场景中的可行路径,也让“RL 推理系统如何落地”变得更加具体。

荆升航 华为小巧灵突击队工程师

昇腾上的推理实践:软硬协同的真实路径

在下半场,昇腾高级研发工程师镇亮带来了《SGLang on Ascend:大模型推理高效实践》分享,介绍了SGLang 在昇腾平台上的使用与优化实践,并围绕DeepSeek / Qwen等模型总结了关键推理优化经验,同时分享了SGLang-Diffusion 在昇腾上的探索性实践。从算力平台视角补齐了异构环境下的工程细节,展示了框架与算力协同优化的真实落地路径。

镇亮 昇腾高级研发工程师

框架 × 模型:GLM 生态的协同演进

GLM 技术布道师张昱轩分享了《SGLang 与 GLM 模型的生态建设》。围绕模型规模扩大与 MoE 架构带来的推理挑战,介绍了GLM 在 SGLang 上的高效部署实践、PD 分离等工程方案,以及双方在模型适配与联合研发中的协作过程,包括Slime 开源框架的共建经验。从模型侧视角,展示了框架与模型协同进化的完整过程,也体现了 SGLang 社区对多模型生态的长期投入。

张昱轩 GLM 技术布道师

在高强度的技术分享之外,本次活动也特别设置了多轮互动环节。为到场开发者准备了丰富的抽奖福利与限量社区周边,茶歇与抽奖时间成为开发者之间自由交流的重要节点,不少讨论从台上的议题延伸到台下的实践经验与工程细节。这种将技术讨论与社区互动并行的节奏,正是 SGLang 社区线下活动希望营造的状态——在真实问题中交流,在协作中持续演进。

本次SGLang AI 金融 π 对(杭州站)所呈现的,不只是若干独立的技术议题,而是一条清晰的大模型推理工程演进路径:从缓存与内存体系的重构,到权重更新与强化学习推理效率的提升,再到算力平台与模型生态之间的协同适配。

随着模型规模、结构与应用形态不断演进,推理系统正逐步成为 AI 工程中最具挑战性、也最具价值的基础设施之一。这类问题无法依靠单点方案解决,更依赖持续的工程实践与开放协作。SGLang 社区正是基于这样的共识,通过开源方式连接来自不同领域的开发者、模型厂商与平台方,在真实场景中共同打磨可复用、可扩展的推理能力。每一次分享、每一次讨论,最终都将沉淀为代码、工具与经验,回馈给更广泛的开发者群体。

未来,随着更多模型、硬件与应用场景的加入,SGLang 也将继续与社区一起,推动大模型推理系统向更加高效、灵活与工程化的方向演进。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/22 23:37:55

Solana钓鱼攻击中Owner权限滥用机制与防御体系研究

摘要近年来,随着高性能区块链平台Solana生态的快速扩张,其独特的账户与权限模型在提升交易效率的同时,也引入了新型安全风险。2024年末至2025年初,多起针对Solana用户的钓鱼攻击事件造成数百万美元资产损失,其核心攻击…

作者头像 李华
网站建设 2026/2/28 21:22:53

能源管理系统(开源):打造智能高效的能源管控新模式

温馨提示:文末有资源获取方式~能源系统|能源系统源码|企业能源系统|企业能源系统源码|能源监测系统一、Java 与能源管理系统的邂逅​能源管理系统的核心使命在于实现能源的精细化管控。它通过实时收集各类能源数据,如电力、燃气、水、热能等的消耗情况&a…

作者头像 李华
网站建设 2026/2/20 15:21:07

为什么你的Open-AutoGLM总在静默失败?一文揪出未捕获弹窗元凶

第一章:为什么你的Open-AutoGLM总在静默失败?Open-AutoGLM 作为一个实验性的自动化代码生成框架,其静默失败问题已成为开发者部署过程中的主要痛点。这类问题通常不抛出明确错误日志,导致排查困难。根本原因往往集中在配置加载、依…

作者头像 李华
网站建设 2026/2/27 7:09:42

告别复杂代码:LangFlow让每个人都能轻松玩转LangChain

告别复杂代码:LangFlow让每个人都能轻松玩转LangChain 在大模型浪潮席卷各行各业的今天,越来越多团队希望基于 LLM 构建智能客服、自动化代理或知识问答系统。LangChain 作为最主流的开发框架之一,提供了强大的模块化能力——从提示工程到记忆…

作者头像 李华
网站建设 2026/2/25 23:22:57

告别文献焦虑!百考通AI智能综述:三步构建你的研究基石

在科研道路上,你是否曾面对海量文献感到无从下手?是否曾在开题阶段为梳理领域脉络而耗费数周时间?又是否曾因文献综述的逻辑混乱而影响研究深度?这些困扰,或许是每一位研究者都经历过的“文献阵痛期”。今天&#xff0…

作者头像 李华
网站建设 2026/2/23 20:49:05

多层弹窗自动化处理全攻略,掌握Open-AutoGLM核心算法逻辑

第一章:Open-AutoGLM 多弹窗叠加处理在自动化测试与智能交互场景中,多弹窗叠加是常见的复杂界面状态。Open-AutoGLM 通过语义理解与视觉定位融合机制,实现对嵌套弹窗的精准识别与顺序化处理。弹窗识别策略 Open-AutoGLM 采用分层检测逻辑&…

作者头像 李华