news 2026/6/18 11:27:38

面向LLM智能体工作流并行分支的直接潜在空间合成

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
面向LLM智能体工作流并行分支的直接潜在空间合成

面向LLM智能体工作流并行分支的直接潜在空间合成

来源:arXiv:2606.14672v1
机构:Georgia Institute of Technology, Meta


📖 概述

本文提出了一种名为Parallel-Synthesis Framework的新型框架,旨在解决大型语言模型(LLM)中线性文本接口与现代有向无环图(DAG)并行智能体工作流之间的不匹配问题。传统方法通过序列化文本来合并并行分支的结果,导致冗余计算。该框架允许下游合成器(Synthesizer)直接利用并行工作智能体(Worker Agents)的KV 缓存,从而显著减少时间并提升推理性能。


🛠️ 核心架构与技术组件

该框架的核心在于绕过文本序列化,直接处理潜在空间(Latent Space)中的信息。

1. 目标函数

目标是使基于缓存的合成概率逼近基于文本序列的概率:

Pkv(y∣u,{KVθ(zj∣cj)}j=1m)≈Ptext(y∣u,z1,…,zm)P_{\mathrm{kv}}\left(\mathbf{y}\mid u,\{\mathrm{KV}_{\theta}(z_j|c_j)\}_{j=1}^m\right)\approx P_{\mathrm{text}}\left(\mathbf{y}\mid u,z_1,\ldots,z_m\right)Pkv(yu,{KVθ(zjcj)}j=1m)Ptext(yu,z1,,zm)

2. 关键技术模块

模块功能描述关键技术细节
位置重编码 (Positional Re-encoding)将所有工作智能体的输出对齐到一个共享的后分支 RoPE 位置nnn使用公式 $\tilde{k}_{z,j,r}^{\ell}=R(n+r)R(
缓存映射器 (Cache Mapper)可学习的 MLP,利用工作智能体的元数据(如序列长度、索引sjs_jsj)校准键/值。K^z,jℓ=αK,jℓ(sj)⊙K~z,jℓ+βK,jℓ(sj)\hat{K}_{z,j}^{\ell}=\alpha_{K,j}^{\ell}(s_j)\odot\tilde{K}_{z,j}^{\ell}+\beta_{K,j}^{\ell}(s_j)K^z,j=αK,j(sj)K~z,j+βK,j(sj),实现自适应校准。
合成器 LoRA专为非顺序缓存接口微调的适配器。仅在合成阶段激活,不改变工作智能体侧的执行逻辑(即插即用)。

📚 训练策略

为了防止灾难性遗忘并提升性能,采用了两条互补的后训练轨道(Post-training Tracks),通过加权平均(λ=0.5\lambda=0.5λ=0.5)合并检查点。

轨道 1:并行上下文下的通用适应

  • 目标:教会模型读取和解释并行的 KV 缓存。
  • 数据:
    • 继续预训练 (Continued-pretraining):WildChat, UltraChat, LMSYS-Chat(将多轮对话编码为并行缓存)。
    • 并行任务 SFT:Toucan, DTA-Tool, FLAN, 2WikiMultiHopQA(指令遵循)。

轨道 2:基于文本合成的知识蒸馏

  • 目标:保留对缓存轨迹的推理和判断能力。
  • 数据:通过文本序列化路由合成的 BrowseComp 轨迹,筛选高质量推理轨迹作为监督目标。

📊 实验结果

实验设置:使用 Qwen3-14B 作为骨干模型,在数学、科学问答、代码生成等 9 个数据集上评估。

1. 准确率与性能对比

对比项结果
vs. 文本序列化7/9的数据集上匹配或超越文本序列化方法。在推理密集型任务(如 AIME 2025)中提升显著(46.67% vs 23.33%)。
vs. 多数投票 (Voting)在 8/9 的数据集上优于多数投票,证明其利用了轨迹级信号(中间步骤、证据质量),而不仅仅是最终答案。
vs. RAG 基线APE, CacheBlend, KVLINK 等基线在未训练的情况下表现不佳,而 Parallel-Synthesis 证明了显式后训练的必要性。

2. 效率提升

  • 首字时间 (TTFT) 降低:减少了2.5× – 11×的冗余重新预填充(Re-prefill)开销。

🔬 关键洞察与消融实验

  1. 检查点合并优于顺序微调:顺序应用轨道 1 和轨道 2 会导致能力覆盖(Overwriting)。合并检查点保留了互补优势。
  2. 模块协同效应:Cache Mapper + LoRA的组合效果大于单独使用 LoRA,两者缺一不可。
  3. 轨迹粒度选择:
    • 完整轨迹 (Full Trajectory):准确率最高,延迟最高。
    • 最终输出 (Final Output):准确率-效率的最佳折中方案(默认配置)。
    • 每轮输出 (Each-Turn Output):表现最弱,因缺乏工具观测导致轨迹碎片化。
  4. 推理保留能力:即使没有工作智能体给出正确答案,Parallel-Synthesis 仍能合成有用的部分推理,并在证据冲突时触发额外的工具调用。

📝 总结

本文提出的 Parallel-Synthesis Framework 通过直接潜在空间合成,解决了 LLM 在并行智能体工作流中的效率瓶颈。实验证明,通过显式训练(而非简单的推理时校准)可以实现可靠的并行缓存合成,在大幅减少推理延迟的同时,提升了复杂任务的处理能力。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/17 9:51:48

视觉概念记忆技术:LVLM个性化突破与实践

1. 视觉概念记忆技术解析视觉概念记忆(Visual Concept Memory)是近年来大型视觉语言模型(LVLM)个性化领域的重要突破。这项技术的核心目标是通过构建高效、紧凑的概念表示,使模型能够准确识别和响应特定用户的个性化视…

作者头像 李华
网站建设 2026/6/17 9:49:05

九大网盘直链下载助手终极指南:告别限速,轻松获取真实下载地址

九大网盘直链下载助手终极指南:告别限速,轻松获取真实下载地址 【免费下载链接】Online-disk-direct-link-download-assistant 一个基于 JavaScript 的网盘文件下载地址获取工具。基于【网盘直链下载助手】修改 ,支持 百度网盘 / 阿里云盘 / …

作者头像 李华
网站建设 2026/6/17 9:47:08

智慧树刷课插件终极指南:三分钟实现网课学习自动化

智慧树刷课插件终极指南:三分钟实现网课学习自动化 【免费下载链接】zhihuishu 智慧树刷课插件,自动播放下一集、1.5倍速度、无声 项目地址: https://gitcode.com/gh_mirrors/zh/zhihuishu 还在为智慧树平台冗长的视频课程而烦恼吗?智…

作者头像 李华
网站建设 2026/6/17 9:45:57

QorIQ T系列处理器深度解析:架构、DPAA与电源管理实战

1. 项目概述:为什么我们需要关注QorIQ T系列?如果你在过去十年里折腾过网络设备、基站或者高性能嵌入式控制板,大概率听说过飞思卡尔(现为NXP的一部分)的Power Architecture处理器。从早期的MPC8xx系列到后来的QorIQ P…

作者头像 李华
网站建设 2026/6/17 9:21:42

哔哩下载姬DownKyi:完整开源B站视频处理方案

哔哩下载姬DownKyi:完整开源B站视频处理方案 【免费下载链接】downkyi 哔哩下载姬downkyi,哔哩哔哩网站视频下载工具,支持批量下载,支持8K、HDR、杜比视界,提供工具箱(音视频提取、去水印等)。 …

作者头像 李华