AI大模型能力现状:编程数学强,视觉推理弱
AI大模型的能力在某些方面已超一般人,如编程和数学。消息称,Anthropic内部几乎实现100%的AI编程,Google的Gemini Deep Think在IMO 2025中做出6道题中的5道,达金牌水准。然而,在视觉推理上,即便领先的Gemini 3 Pro,在BabyVision测试中仅达3岁孩童水平。
原因剖析:“思考方式”受限
为何大模型在编程和数学上强,在视觉推理上弱?这是因其“思考方式”存在限制,视觉语言模型 (VLM)需先将视觉输入转化为语言,再进行基于文本的推理,而诸多视觉任务无法用文字精确描述,导致模型视觉推理能力差。
Elorian AI登场:目标冲击视觉AGI
在Google DeepMind工作14年的Andrew Dai,联手苹果资深AI专家Yinfei Yang,创立Elorian AI公司。他们的目标是让模型的视觉推理能力从“儿童级别”提升到“成年级别”,使模型具有在“视觉空间”内原生思考的能力,冲击物理世界的AGI。该公司获Striker Venture Partners、Menlo Ventures以及Altimeter等联合领投的5500万美元早期融资,49 Palms及包括Jeff Dean在内的顶尖AI科学家参投。
联合创始人背景:多模态领域先驱
Andrew Dai是华人,有剑桥计算机本科、爱丁堡机器学习博士学位,博士期间在谷歌实习,2012年加入谷歌,待了14年才创业。他和Quoc V. Le共同撰写的《Semi-supervised Sequence Learning》为GPT诞生奠定基础,《Glam: Efficient scaling of language models with mixture-of-experts》为MoE架构趟开道路。在Google期间,他深度参与大模型训练,2023年负责领导Gemini的数据板块。Yinfei Yang曾在Google Research工作4年,专注多模态表示学习,后加入苹果负责多模态模型研发,其《Scaling up visual and vision-language representation learning with noisy text supervision》推动多模态表示学习发展。联合创始人还包括Seth Neel,他曾是哈佛大学助理教授,是数据和AI领域专家。他们要从底层架构进行范式更新,让AI从基于文本的智能理解升级到基于视觉的智能理解。
视觉推理难题:现有模型的局限
当前AI模型在基于文本任务上表现优秀,但顶尖前沿多模态大模型在基础视觉对齐任务上仍会栽跟头。如将零件装入机械装置这类空间物理任务,小学生能轻松完成,现有多模态大模型却很难。人类大脑中,视觉是思维底层基质,利用视觉和空间推理能力比语言逻辑推理久远。比如教走迷宫,画图比语言描述更易懂;鸟虽无语言,但能靠视觉辨认地理特征实现远程迁徙。这表明视觉是推进机器推理能力的正确演进方向。
创新之路:构建原生多模态模型
若从模型构建之初就将生物学视觉本能刻入AI基因,构建能“同时理解和处理文本、图像、视频和音频”的原生多模态模型,可让模型具有视觉理解能力。Andrew Dai和团队要构建“通感者”,让机器“看懂”世界。他们认为深刻认知“物理世界”是实现下一代机器智能跃升、触达“视觉通用人工智能 (Visual AGI)”的关键。
传统路径缺陷:推理后置的局限
以往有团队尝试此事,Andrew Dai之前所在的Gemini团队已是多模态领域领先团队。但传统多模态模型以VLM为主,逻辑是“两步走”:先将视觉输入转化为语言,再进行基于文本的推理。后置推理有局限,易产生模型幻觉,且很多视觉任务无法用文字精确描述。NanoBanana等视觉生成模型在多模态生成上能力卓越,但生成能力和推理能力不等同,其“思考”依赖语言模型,非原生推理能力。
Elorian AI创新做法:深度融合与数据革新
Elorian AI创始人将多模态训练与专为多模态推理设计的全新架构深度融合,摒弃将图像视为静态输入的传统做法,训练模型直接交互并操作视觉表征去解析结构、关系与物理约束。数据是关键,Andrew Dai表示重视数据质量、混合比例、来源及多样性,在数据层革新,重构推理链路,大规模深度使用合成数据。这些努力将催生能跨越简单视觉“感知”,迈向高阶视觉“推理 ”的全新AI系统。
应用前景:广泛且具潜力
该AI系统可作为视觉推理基础模型,应用领域广泛。在机器人赛道,可成为底层神经中枢,赋予机器人在陌生环境自主作业能力,如处理危险环境安全故障。在灾害管理方面,可分析卫星图像监测和预防森林大火;在工程领域,能精准看懂复杂视觉图纸和系统原理图。
未来展望:2026年见分晓
目前Elorian AI的模型和能力停留在纸面上,计划2026年发布视觉推理领域达SOTA水平的模型,届时可检验成果。视觉推理基础模型若实现,AI能更深度理解物理世界,实现更高层级机器智能,拓展具身智能和AI硬件应用范围。在物理AI领域,中国企业在模型和数据层面更接近世界领先,若凭数据和应用场景优势加快迭代,有机会在各领域领先,跑出世界级企业。