Aryabhata-1.0：JEE数学解题新突破，90%正确率！-平芜编程栈

Aryabhata-1.0：JEE数学解题新突破，90%正确率！

【免费下载链接】Aryabhata-1.0项目地址: https://ai.gitcode.com/hf_mirrors/PhysicsWallahAI/Aryabhata-1.0

导语：印度教育科技公司Physics Wallah AI Research推出专为JEE数学考试优化的70亿参数小型语言模型Aryabhata-1.0，在2025年JEE Mains考试中实现90.2%的正确率，以高效计算成本和紧凑模型规模重新定义AI辅助备考范式。

行业现状：随着生成式AI技术在教育领域的深入应用，考试专用大模型正成为新的竞争焦点。据行业报告显示，全球教育AI市场规模预计2025年将突破100亿美元，其中应试辅导类工具增速领先。当前主流数学大模型普遍存在参数规模庞大（多为100亿+）、推理成本高、针对特定考试适应性不足等问题，尤其在印度JEE这类高难度竞争性考试中，通用数学模型的解题准确率普遍低于75%。

产品/模型亮点：Aryabhata-1.0通过创新训练策略实现了"小而精"的突破。该模型基于Qwen2.5-Math-7B基座，融合模型合并、拒绝采样、监督微调(SFT)和可验证奖励强化学习(RLVR)等多阶段训练技术，在仅70亿参数规模下实现了突破性性能。

最引人注目的是其在真实考试场景中的表现：在2025年JEE Mains四月 session的225道数学题测试中达到90.2%的准确率，一月session也达到86%的正确率。这种性能表现甚至超越了部分参数规模更大的通用数学模型。

这张柱状图清晰展示了Aryabhata 1.0与GPT-4o、Qwen2.5-Math-7B等模型在JEE Jan和JEE Apr两个测试集上的准确率对比。黄色和红色柱子分别代表不同月份考试的表现，直观显示出Aryabhata 1.0在专门针对JEE考试优化后的显著优势。对备考学生和教育机构而言，这为选择高效的AI辅助工具提供了数据依据。

除高准确率外，Aryabhata-1.0还具备两大核心优势：一是出色的Token效率，仅需约2K的token窗口即可有效运行，远低于同类模型所需的8K窗口；二是计算成本优势，该模型在单张NVIDIA H100 GPU上即可完成训练，部署成本显著降低。这些特性使其特别适合资源有限的学生群体和教育机构使用。

训练数据方面，模型使用了约13万道来自Physics Wallah专有数据库的高质量数学题解对，通过严格筛选确保与JEE 2019-2024年真题分布高度匹配，形成约10万道问题和35万条高质量思维链(CoT)的训练集，这种高度针对性的数据准备是其考试表现优异的关键因素。

此散点图展示了Aryabhatta 1.0与Gemini 2.5 Flash、GPT-4.1等模型在准确率与Token使用量方面的关系。图中数据点表明，Aryabhatta 1.0在保持高准确率的同时，显著降低了Token消耗，这意味着在实际应用中能提供更快的响应速度和更低的使用成本，对需要大量刷题的JEE考生来说尤为重要。

行业影响：Aryabhata-1.0的推出标志着考试专用AI模型进入实用化阶段。其"小模型、高精准"的设计理念可能引发教育AI领域的技术路线转变，推动更多针对特定考试和学科的垂直优化模型出现。对印度每年超过100万的JEE考生而言，这种高准确率的AI辅助工具不仅能提供即时解题指导，还能通过思维链展示培养解题思路，有效弥补优质教育资源不足的问题。

教育科技企业Physics Wallah通过此模型进一步巩固了其在印度竞争激烈的教育科技市场地位。该模型目前已开源，开发者可通过Hugging Face Transformers或vLLM框架轻松部署，这将加速AI教育应用的创新生态建设。

结论/前瞻：Aryabhata-1.0证明了通过精心设计的训练策略和高质量领域数据，小型语言模型完全可以在特定任务上达到甚至超越通用大模型的性能。随着AI在教育领域的深入应用，我们可以期待：首先，模型能力将从数学扩展到物理、化学等更多学科；其次，应用场景将覆盖JEE Advanced、NEET等更广泛的考试类型；最后，通过持续优化，这类模型将在保持高准确率的同时进一步降低部署门槛，让更多学生受益于AI辅助教育技术。

Physics Wallah已公布Aryabhata 2.0的开发计划，未来将扩展到物理和化学领域，并支持JEE Advanced和NEET考试，这预示着AI应试辅助工具正朝着多学科、全流程的方向发展，有望重塑传统备考方式。

【免费下载链接】Aryabhata-1.0项目地址: https://ai.gitcode.com/hf_mirrors/PhysicsWallahAI/Aryabhata-1.0

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

Jina Embeddings V4：多模态多语言检索强力工具

Jina Embeddings V4：多模态多语言检索强力工具【免费下载链接】jina-embeddings-v4 项目地址: https://ai.gitcode.com/hf_mirrors/jinaai/jina-embeddings-v4 导语：Jina AI推出的Jina Embeddings V4模型重新定义了多模态检索技术，通…

李华

Steam库存管理革命：10分钟掌握批量操作终极技巧

Steam库存管理革命：10分钟掌握批量操作终极技巧【免费下载链接】Steam-Economy-Enhancer 中文版：Enhances the Steam Inventory and Steam Market. 项目地址: https://gitcode.com/gh_mirrors/ste/Steam-Economy-Enhancer 还在为处理堆积如山的S…

李华

Qwen3-30B-A3B：305亿参数AI，思维对话随心切换

Qwen3-30B-A3B：305亿参数AI，思维对话随心切换【免费下载链接】Qwen3-30B-A3B Qwen3-30B-A3B具有以下特点： 类型：因果语言模型训练阶段：预训练和后训练参数数量：总计 305 亿，其中已激活 33 亿…

李华

AndroidGen-GLM-4：零标注让AI玩转安卓应用

AndroidGen-GLM-4：零标注让AI玩转安卓应用【免费下载链接】androidgen-glm-4-9b 项目地址: https://ai.gitcode.com/zai-org/androidgen-glm-4-9b 导语：智谱AI发布开源模型AndroidGen-GLM-4-9B，首次实现大语言模型在无人工标注数据情…

李华

FunASR语音识别集成：与现有工作流无缝对接

FunASR语音识别集成：与现有工作流无缝对接 1. 引言 1.1 业务场景描述在现代企业级应用中，语音识别技术正逐步成为提升人机交互效率、自动化内容处理流程的核心组件。无论是会议纪要生成、客服录音转写，还是视频字幕自动生成，高…

李华

ERNIE 4.5大模型：300B参数MoE架构新体验

ERNIE 4.5大模型：300B参数MoE架构新体验【免费下载链接】ERNIE-4.5-300B-A47B-Base-PT 项目地址: https://ai.gitcode.com/hf_mirrors/baidu/ERNIE-4.5-300B-A47B-Base-PT 导语百度最新发布的ERNIE 4.5大模型凭借300B总参数的MoE（Mixture of …

李华