news 2026/5/30 14:27:42

LongCat-Flash-Omni:美团的全模态大模型

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
LongCat-Flash-Omni:美团的全模态大模型

在多模态浪潮加速的 2025 年,美团再次交出了一份令人惊艳的答卷。
继 LongCat-Flash-Chat 与 LongCat-Flash-Thinking 之后,LongCat 系列迎来了新成员——LongCat-Flash-Omni

它不仅是美团 LongCat 团队在大语言模型之后的重要升级,更是开源社区首次实现**“全模态覆盖 + 端到端架构 + 大参数高效推理”于一体的模型
Omni 不只是能“看图”“听声”“说话”,它正在让 AI 真正具备**理解世界的多感官能力。

所有相关源码示例、流程图、模型配置与知识库构建技巧,我也将持续更新在Github:AIHub,欢迎关注收藏!

一、从 Flash 到 Omni

LongCat-Flash 系列一直以高效架构和极致响应速度闻名,Omni 则在此基础上,迈出了从单一输入到“全模态协同”的一步。

LongCat-Flash-Omni = 高效架构 + 多模态感知 + 实时语音交互

它集成了视觉、音频、文本和视频等多种输入形式,并通过创新的Shortcut-Connected MoE(ScMoE)架构(含零计算专家),在保持超大参数规模(总参数 5600 亿,激活 270 亿)的同时,实现了毫秒级低延迟的流式交互体验。

这意味着,即使是面对长达数分钟的音视频输入,它依然能做到实时响应与自然交流

二、端到端架构

不同于传统的多模态模型(往往由独立的感知器 + 文本模型拼接而成),LongCat-Flash-Omni 采用了完全端到端的一体化设计

  • 视觉编码器:轻量高效,参数量仅约 6 亿;
  • 音频编解码器:支持语音感知与重建,直接生成自然语音;
  • 核心 LLM:直接处理图像、文本、语音等多模态 token;
  • 流式推理引擎:支持 128K tokens 上下文与 8 分钟音视频交互。

这种设计的关键在于:所有模态都在统一的 token 空间内协同处理,LLM 不再是“后端翻译机”,而是成为多模态信息的中枢处理器

因此,Omni 不仅能“理解视频讲的是什么”,还能在对话中“听懂你的语气”“看懂你的表情”,实现真正的“听、看、说、想”一体化智能。

三、渐进式多模融合

全模态模型的最大难题是——不同模态的数据分布完全不同。Omni 的解决思路是渐进式早期多模融合训练(Progressive Early Fusion)

它把复杂的多模态学习过程分为六个阶段,从语言出发,逐步融入听觉与视觉能力:

  1. 阶段 0:文本预训练—— 奠定语言理解基础;
  2. 阶段 1:语音引入—— 对齐声学表征与语言特征空间;
  3. 阶段 2:图文融合—— 加入大规模图像-文本对齐语料;
  4. 阶段 3:视频理解—— 引入动态视频数据,提升时空推理;
  5. 阶段 4:上下文扩展—— 上下文窗口拓展至 128K tokens;
  6. 阶段 5:语音对齐训练—— 缓解离散 token 信息丢失,提升语音保真度。

这种“逐层注入”策略让 Omni 在保持稳定文本能力的同时,实现了真正的全模态协同,各模态之间不再相互牵制,而是互相增强。

四、性能

在综合评估(Omni-Bench、WorldSense)中,LongCat-Flash-Omni 达到了开源最先进水平(SOTA)。
其单模态与跨模态表现同样亮眼:

不仅如此,Omni 在端到端交互评分中也表现突出,在 250 名用户与 10 名专家评测中,其自然度与流畅度比当前最优开源模型Qwen3-Omni 高出 0.56 分,接近闭源旗舰Gemini-2.5-Pro的实时交互体验。

五、高效推理

Omni 的另一项核心突破,是在 5600 亿参数规模下依然保持毫秒级响应,秘诀在于 ScMoE(Shortcut-Connected Mixture of Experts)架构与“零计算专家”的组合。

  • ScMoE 让模型只激活部分专家(约 270 亿参数),极大降低计算成本;
  • “零计算专家”让路由层可以快速跳过冗余分支,实现流式处理;
  • 结合“分块式音视频特征交织机制”,保证音视频处理的连续性与低延迟。

最终,Omni 成为首个在开源范畴内实现**“大模型 + 实时交互”**的系统。

LongCat-Flash-Omni 的出现标志着一个转折点,AI 不再只是语言专家,而是一个能真正“感知世界”的多模态智能体,它能看图、能听声、能理解语气、能生成语音,并在同一框架下完成跨模态推理。

这不只是一次技术升级,更是世界模型方向的又一次重要跃迁:从理解文字 → 理解感官 → 理解世界。

当 AI 拥有了多模态感知能力,它也就拥有了通向具身智能的感知接口,多模态智能正在从功能叠加走向统一理解。

关于深度学习和大模型相关的知识和前沿技术更新,请关注公众号coting!

📚推荐阅读

LongCat-Flash:美团出手,国产卡上跑出的「闪电级」大模型

美团发力,LongCat-Video发布!

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/20 22:16:43

应用层自定义协议

自定义协议和序列化面向字节流全双工自定义协议序列化IO模块socket封装ServerserviceCalClient完整代码接下来我们实现一个网络计算器功能。自定义协议和序列化 前面我们的UDP套接字编程和TCP套接字编程都实现了应用层,但没有实现协议。是否会疑惑有没有协议有何不…

作者头像 李华
网站建设 2026/5/30 1:52:05

8个AI论文工具,助继续教育学生轻松完成写作!

8个AI论文工具,助继续教育学生轻松完成写作! AI 工具如何让论文写作更高效 在当前的继续教育环境中,学生和科研工作者面临越来越多的写作任务,而传统的写作方式往往耗时耗力。随着 AI 技术的不断进步,AI 工具正逐渐成为…

作者头像 李华
网站建设 2026/5/21 10:17:45

国内仿真云平台哪家强?该如何选择?

在数字化与智能化浪潮的推动下,仿真技术已成为工业设计、科学研究和教育培训等领域的重要工具。随着云计算技术的普及,仿真云平台凭借其弹性计算、高效协作和成本优化等优势,受到越来越多企业与机构的青睐。然而,面对国内市场上众…

作者头像 李华
网站建设 2026/5/21 0:48:45

设备OAuth2令牌过期致认证失败 后来启用自动刷新+双令牌热备

💓 博客主页:塔能物联运维的CSDN主页 目录 物联网运维:当我的扫地机器人开始叛逆 物联网运维的日常崩溃 运维自动化:让扫地机器人学会自愈 真实案例:某次失败的智能马桶维修 我的物联网运维三原则 那些年我们踩过的坑 …

作者头像 李华
网站建设 2026/5/25 21:25:26

文章里用了AI生成图片会被谷歌降权吗?

谷歌并不会单纯因为图片是AI生成而惩罚内容​​,真正触发降权的是错误的使用方式。例如:同一套AI模板反复配图、图片加载过慢拖累用户体验,或图文完全脱节被判定为“低质内容”。本文基于谷歌《网页质量指南》和实际流量数据测试,…

作者头像 李华
网站建设 2026/5/21 10:42:35

GraniStudio:相机采图例程

1.文件运行 导入工程 双击运行桌面GraniStudio.exe。 通过引导界面导入相机采图例程,点击导入按钮。 打开相机采图例程所在路径,选中相机采图.gsp文件,点击打开,完成导入。 2.功能说明 实现海康相机连接以及单次采图显示。 注意…

作者头像 李华