AI大模型编程数学强但视觉推理弱，Elorian AI能否破局实现视觉AGI？-平芜编程栈

AI大模型能力现状：编程数学强，视觉推理弱

AI大模型的能力在某些方面已超一般人，如编程和数学。消息称，Anthropic内部几乎实现100%的AI编程，Google的Gemini Deep Think在IMO 2025中做出6道题中的5道，达金牌水准。然而，在视觉推理上，即便领先的Gemini 3 Pro，在BabyVision测试中仅达3岁孩童水平。

原因剖析：“思考方式”受限

为何大模型在编程和数学上强，在视觉推理上弱？这是因其“思考方式”存在限制，视觉语言模型 (VLM)需先将视觉输入转化为语言，再进行基于文本的推理，而诸多视觉任务无法用文字精确描述，导致模型视觉推理能力差。

Elorian AI登场：目标冲击视觉AGI

在Google DeepMind工作14年的Andrew Dai，联手苹果资深AI专家Yinfei Yang，创立Elorian AI公司。他们的目标是让模型的视觉推理能力从“儿童级别”提升到“成年级别”，使模型具有在“视觉空间”内原生思考的能力，冲击物理世界的AGI。该公司获Striker Venture Partners、Menlo Ventures以及Altimeter等联合领投的5500万美元早期融资，49 Palms及包括Jeff Dean在内的顶尖AI科学家参投。

联合创始人背景：多模态领域先驱

Andrew Dai是华人，有剑桥计算机本科、爱丁堡机器学习博士学位，博士期间在谷歌实习，2012年加入谷歌，待了14年才创业。他和Quoc V. Le共同撰写的《Semi-supervised Sequence Learning》为GPT诞生奠定基础，《Glam: Efficient scaling of language models with mixture-of-experts》为MoE架构趟开道路。在Google期间，他深度参与大模型训练，2023年负责领导Gemini的数据板块。Yinfei Yang曾在Google Research工作4年，专注多模态表示学习，后加入苹果负责多模态模型研发，其《Scaling up visual and vision-language representation learning with noisy text supervision》推动多模态表示学习发展。联合创始人还包括Seth Neel，他曾是哈佛大学助理教授，是数据和AI领域专家。他们要从底层架构进行范式更新，让AI从基于文本的智能理解升级到基于视觉的智能理解。

视觉推理难题：现有模型的局限

当前AI模型在基于文本任务上表现优秀，但顶尖前沿多模态大模型在基础视觉对齐任务上仍会栽跟头。如将零件装入机械装置这类空间物理任务，小学生能轻松完成，现有多模态大模型却很难。人类大脑中，视觉是思维底层基质，利用视觉和空间推理能力比语言逻辑推理久远。比如教走迷宫，画图比语言描述更易懂；鸟虽无语言，但能靠视觉辨认地理特征实现远程迁徙。这表明视觉是推进机器推理能力的正确演进方向。

创新之路：构建原生多模态模型

若从模型构建之初就将生物学视觉本能刻入AI基因，构建能“同时理解和处理文本、图像、视频和音频”的原生多模态模型，可让模型具有视觉理解能力。Andrew Dai和团队要构建“通感者”，让机器“看懂”世界。他们认为深刻认知“物理世界”是实现下一代机器智能跃升、触达“视觉通用人工智能 (Visual AGI)”的关键。

传统路径缺陷：推理后置的局限

以往有团队尝试此事，Andrew Dai之前所在的Gemini团队已是多模态领域领先团队。但传统多模态模型以VLM为主，逻辑是“两步走”：先将视觉输入转化为语言，再进行基于文本的推理。后置推理有局限，易产生模型幻觉，且很多视觉任务无法用文字精确描述。NanoBanana等视觉生成模型在多模态生成上能力卓越，但生成能力和推理能力不等同，其“思考”依赖语言模型，非原生推理能力。

Elorian AI创新做法：深度融合与数据革新

Elorian AI创始人将多模态训练与专为多模态推理设计的全新架构深度融合，摒弃将图像视为静态输入的传统做法，训练模型直接交互并操作视觉表征去解析结构、关系与物理约束。数据是关键，Andrew Dai表示重视数据质量、混合比例、来源及多样性，在数据层革新，重构推理链路，大规模深度使用合成数据。这些努力将催生能跨越简单视觉“感知”，迈向高阶视觉“推理 ”的全新AI系统。

应用前景：广泛且具潜力

该AI系统可作为视觉推理基础模型，应用领域广泛。在机器人赛道，可成为底层神经中枢，赋予机器人在陌生环境自主作业能力，如处理危险环境安全故障。在灾害管理方面，可分析卫星图像监测和预防森林大火；在工程领域，能精准看懂复杂视觉图纸和系统原理图。

未来展望：2026年见分晓

目前Elorian AI的模型和能力停留在纸面上，计划2026年发布视觉推理领域达SOTA水平的模型，届时可检验成果。视觉推理基础模型若实现，AI能更深度理解物理世界，实现更高层级机器智能，拓展具身智能和AI硬件应用范围。在物理AI领域，中国企业在模型和数据层面更接近世界领先，若凭数据和应用场景优势加快迭代，有机会在各领域领先，跑出世界级企业。