5月5日,在法国巴黎举办的GOSIM Paris 2026大会上,「Open Compute for Agentic AI」技术专场圆满举办。作为本届大会的重要议题之一,本次专场以「Open Compute for Agentic AI」为核心主题,设置了9大核心环节,覆盖FlagOS技术体系、PanEval开源发布、KernelGen 2.0、SGLang技术路线图等全栈硬核内容,并同步启动了面向全球开发者的KernelGen 24小时赏金挑战赛,为全球AI系统开发者搭建了技术交流、实战竞技与生态共建的开放平台。
本次专场由众智FlagOS社区、北京智源人工智能研究院主办,联合Eclipse基金会、UNESCO、LF AI & Data基金会等全球顶级机构重磅打造,聚焦从模型能力走向系统能力的关键跃迁,探索AI应用规模化落地背后的计算范式升级路径。
01FlagOS亮相GOSIM Paris:以开放计算,筑牢智能体AI时代的底层底座
随着大模型能力的持续提升,AI正从“对话工具”逐步演进为具备自主规划与执行能力的Agent系统。多步骤推理、工具调用、复杂任务编排,使得AI系统的运行方式发生本质变化。
这一趋势下,性能瓶颈正从“模型本身”转向“系统与计算基础设施”:推理链条变长,对调度与执行效率提出了更高要求;GPU或多种加速器协同使用,导致资源利用率成为核心问题 ;Kernel级优化、编译与运行时协同,成为性能突破关键 ......在这一背景下,“Open Compute”正在成为新的基础设施方向——通过开放、可组合的方式重构从框架到算子的计算栈,实现性能与灵活性的统一。
FlagOS正是在这一趋势下的系统性探索。
本次专场的开篇分享中,北京智源人工智能研究院副院长兼总工程师林咏华抛出了三个核心问题:Agentic AI需要什么样的计算基础设施?开源社区如何共同构建它?如何在真实世界中评估、治理和部署Agentic系统?她指出,Agentic AI正在重塑计算形态——长上下文推理、多步工具调用、持久化记忆与状态、代码执行与沙箱、真实环境评估、持续推理负载等新范式,使得推理成为智能的运行时。而开放计算的核心价值在于:让AI系统能够运行在单一厂商栈之外的更多芯片之上,让开发者能够为不同工作负载选择合适硬件,让Agentic AI从演示走向真实部署。
林咏华以DeepSeek V4为例,展示了Agentic AI对计算基础设施提出的严峻挑战。DeepSeek V4具备百万Token上下文、MoE架构、工具调用与交错思考等能力,其优化涉及混合注意力、异构KV缓存、FP4/FP8精度等前沿技术。然而,当前仅有少数顶级AI芯片支持FP4/FP8精度,单卡需超80GB显存,且算子与特定硬件后端深度耦合。面对这一困境,FlagOS 2.0交出了答卷:作为面向多芯片时代的统一开源AI系统软件栈,FlagOS通过FlagGems全算子替换、KernelGen快速算子生成、FlagTree/Triton-TLE一次编写跨芯编译、vLLM-plugin-FL多芯片推理集成、FlagCX通信与并行策略、FlagRelease一次发布跨芯运行等核心技术,已将DeepSeek V4、MiniMax M2.7、Qwen3.6、MiniCPM-4-o等模型成功适配至多款AI芯片,实现了从N×M碎片化适配到N+M协作式开放的范式转变。
同时,林咏华宣布KernelGen 24小时赏金挑战赛正式启动,邀请全球开发者共同参与构建开放计算基础设施。“开放模型需要开放计算,开放智能体需要开放基础设施,开放基础设施需要开放协作。”她以此向全球开发者发出共建邀请
02干货议程全回顾:从技术架构到生态治理,解锁AI开放创新的多元路径
本次专场设置了多场重磅分享与开放讨论环节,覆盖AI开源工具链、合规治理、性能优化、社区共建等多个关键维度,为参会者带来了一场AI开放计算的思想盛宴:
构建开源工具链与评估体系
智源研究院开源工程负责人朱其罡介绍了PanEval开源项目。他首先指出当前AI评估面临的严峻挑战:模型能力以每年3.3倍的速度增长,但评估基础设施却呈现碎片化、以英语为中心、无法跟上模型演进的节奏。他强调,评估之于AI如同临床试验之于医学——未经严格测试的系统不应部署。自2022年12月启动基础模型评估研究以来,FlagEval已走过五年历程,累计评估超343个模型,覆盖40余项评估任务、13种评估器类型和4大模型品类,发布了中国首个开源中文大模型排行榜(与HuggingFace合作)、全球首个多语言辩论评估FlagEval-Debate(支持中、英、阿、韩四语),并主导了IEEE P3419大模型评估国际标准。FlagEvalMM多模态评估框架也已被ACL 2025录用。
智源将作为Eclipse基金会PanEval项目的核心共建单位,以社区方式进行建设,采用“双轨同步”治理模式:BAAI轨道保留中文榜单、中文数据集和IEEE标准工作,Eclipse轨道则面向全球提供欧盟AI法案合规、开放治理和Apache 2.0许可的评估框架。该架构实现了三大价值——区域风险隔离、共享核心与本地合规并行、以及通过Eclipse基金会的厂商中立治理确保公信力。PanEval已形成从“定义→服务→评估→评分→报告”的端到端可复现评估流水线,并集成了包含13大类48子类风险标签的视频安全评估套件(Video-SafetyBench),其自动化生成的安全视频与人类判断一致性高达91%。
朱其罡表示,评估信任是一项社区工作,五年的积累只是一个开始,他邀请全球开发者共同参与PanEval的基准共建、工作组加入和生产环境采用,让开源评估成为连接技术创新与真实信任的桥梁。
推动评估走向真实场景部署
联合国教科文组织匈牙利国家委员会的Gábor Soós博士以“连接AI评估与真实部署”为题发表演讲。他指出,当前AI评估存在关键缺口:基准测试能够衡量模型在定义任务上的表现和相对强弱,但无法回答“系统是否能在真实场景中被信任”这一核心问题。真正的部署需要可追溯性、鲁棒性、文档完备性和上下文可靠性,而这些都是现有评估体系未能充分覆盖的维度。他提出,面向公众的AI系统应当在包含制度背景、用户多样性、语义歧义和问责机制的环境中接受评估——我们需要的不仅是评估指标,更是评估环境。
为此,Soós博士引入“基于位置的评估测试方法”(Place-Based Evaluation Testbeds)的概念,并以匈牙利蒂豪尼(Tihany)作为高信任参考环境进行演示。蒂豪尼汇聚了文化景观、多元机构与社区、多语言公众场景,将文化、教育与自然环境融为一体,是理想的真实场景测试床。该测试床采用可治理的部署模式,包含受控检索、策展知识层、AI助手与监督反馈回路,可系统测试系统在面对真实公众约束时的行为表现——不仅检验响应质量,更评估部署就绪度。
Soós博士强调,开源评估体系的下一步不是更好的基准测试,而是真实的场景化测试床,让技术能力与社会信任能够在同一环境中被共同评估。他指出,PanEval与Eclipse基金会等开源评估基础设施将受益于这类高信任真实用例,并邀请社区共同参与这一方向的探索。“如果说数据是21世纪的石油,那么信任就是基础设施能够运转的基础。”
升级算子优化实战工具
BAAI AI系统研究组算法工程师陶健介绍了KernelGen 2.0的最新进展。他介绍,KernelGen是一个面向高性能Triton算子的自动化工具平台,支持多芯片后端。相较于1.0版本的“LLM+定制化工作流”模式,KernelGen 2.0提出了基于code智能体的算子生成优化方案,同时解决了智能体执行长任务时容易目标漂移的问题。
在核心能力上,KernelGen 2.0将芯片支持扩展至六家厂商,覆盖华为昇腾、海光、摩尔线程、沐曦、天数智芯等主流国产AI芯片,额外支持了Triton-TLE扩展,可无缝集成至VS Code、Claude Code、OpenClaw等开发场景。KernelGen 2.0在 KernelGenBench 测试上相比 1.0 版本整体性能提升达到3.59倍。
陶健还介绍了团队构建的KernelGenBench基准测试集,涵盖110个ATen算子、50个cuBLAS算子和50个vLLM算子,测试用例均来自真实LLM推理场景,并支持多款非Nvidia芯片的评估。依托 KernelGen 的自动生成能力,团队已向 FlagOS 社区最大的 Triton 算子库FlagGems贡献了近200个高质量PyTorch算子。在DeepSeek v4模型的FlagOS适配过程中,KernelGen被用于生产级算子生成与自动优化。展望未来,陶健表示团队将持续扩展KernelGenBench对多芯片的支持,并为KernelGen增加多芯片内核级性能分析工具,并通过不断扩充的知识库构建具备自我进化能力的智能体。
随后,陶健现场宣布KernelGen 24小时赏金挑战赛正式启动。
LF开源生态与社区共建经验分享
LF AI & Data基金会董事会主席黄之鹏介绍了基金会的开源生态布局及Omni-AI社区的最新进展。他表示,Omni-AI社区聚焦面向昇腾NPU的推理加速技术,其核心项目Omni-infer通过KV存算分离、连续KV缓冲区、稀疏预取等创新技术,可在长上下文推理场景中降低超80%的HBM内存需求。社区已吸引17名Committer,累计贡献29万行代码,并在国内多座城市成功举办线下Meetup。
在AI Agent领域,Omni-AI社区推出了基于Zig语言开发的轻量级Agent运行时Omni-Claw,以及高性能递归AI Agent框架Omni-RLM。后者通过递归推理引擎和长上下文分割技术,能够将复杂问题分解为多个步骤逐步求解,并支持本地Python执行与沙盒环境双运行模式,实现端到端的可观测与可复现。
此外,黄之鹏还介绍了LF AI & Data基金会旗下的Open Model Initiative多模态SpeedRun系列,包括图像生成赛道ImageGen SpeedRun和轻量级VLM赛道NanoVLM SpeedRun。他同时邀请全球开发者共同参与基准共建,通过定义问题、制定规则、构建基线的方式,协同推动AI开源生态的标准化进程。
SGLang项目路线图与开放讨论
SGLang开发者童心源分享了SGLang项目的最新技术进展与未来规划。他介绍,SGLang是首个在PD分离与专家并行配置下几乎匹配DeepSeek官方性能的开源推理系统。截至2025年5月的数据显示,SGLang实现了每节点5.23万输入tokens/秒的行业领先输入处理速度、每节点2.23万输出tokens/秒的生成吞吐量,相比DeepSeek官方API定价可降低5倍成本,已有超过10个团队成功复现了这些性能突破。目前,SGLang已吸引1000多名贡献者,被60多家机构广泛采用,并在发布首月即有20多家企业将其作为DeepSeek推理引擎的默认选择。
在技术创新方面,童心源重点介绍了SGLang的多项核心能力。SGL Diffusion模块可加速扩散模型的图像与视频生成,在Wan、Hunyuan、Qwen-Image、Flux等模型上实现了1.2至5.9倍的加速效果。SpecForge v0.2是原生集成SGLang的推测解码优化框架,支持Llama 4、DeepSeek、Qwen3 MoE等主流模型,已获得蚂蚁集团、美团等企业的生产部署。此外,Mini-SGLang作为轻量级高性能推理框架,继承了SGLang的核心系统架构。团队还在零开销CPU运行时、EPD分离等方面持续创新,实现了推测解码场景下10%至20%的全方位加速。
此外,童心源公布了SGLang的三大技术方向:一是持续推进各高级功能模块之间的兼容性与可靠性,确保性能最优组合;二是提升易用性,实现跨NVIDIA、AMD、TPU、CPU的便捷安装与大规模部署;三是面向下一代硬件(GB300/GB200、B300/B200、MI350/MI355X、TPU)进行内核级优化,并扩展对扩散模型、全模态模型以及强化学习Rollout API的支持。他邀请全球开发者共同参与SGLang社区建设,推动大模型推理基础设施迈向更高性能与更广硬件覆盖。
在生态圆桌环节,来自全球的AI与基础设施工程师围绕开放计算生态的建设、开发者参与路径、技术落地挑战等话题展开了热烈讨论,为FlagOS及相关开源项目的发展提供了多元视角。
03KernelGen 24小时全球赏金挑战赛启动,3000美元奖金池即将开奖!
本次专场的重磅亮点之一,是由众智 FlagOS 社区重磅开启的KernelGen 24 Hour Bounty Challenge(KernelGen 24 小时全球赏金挑战赛)。这场面向全球 AI 系统开发者的实战竞技,聚焦AI算子优化的核心难题,邀请开发者以开源协作的方式,突破智能体AI计算性能的瓶颈。
活动现场,主办方进行了赛事任务说明与规则解读,为参会开发者讲解了优化方向与获胜策略,并同步开放了答疑交流环节,让参与者提前熟悉赛事机制,赛事获奖结果将在GOSIM Paris 2026闭幕式进行官方颁奖。本次赛事奖金池高达3000美元,实时展示排行榜动态,线上线下双赛道,为全球开发者提供了同台竞技、交流学习的平台。
通过 KernelGen 挑战赛,智源研究院希望汇聚全球开发者的智慧,解决AI内核优化中的共性问题,同时推动FlagOS生态的共建,让更多开发者参与到开放计算技术的创新中来
04共建开放计算新生态,FlagOS 持续赋能智能体 AI 普惠创新
本次FlagOS技术专场不仅是智源研究院面向全球开发者的一次技术分享,更是推动智能体AI开放计算生态建设的重要一步。未来,FlagOS将持续迭代技术架构,完善开源工具链,依托KernelGen挑战赛等活动,吸引更多开发者参与共建,打造开放、协同、普惠的AI计算生态。
我们诚邀全球AI系统开发者、智能体AI从业者加入FlagOS开源社区,共同探索开放计算的更多可能,一起筑牢智能体AI时代的底层技术底座。