news 2026/4/11 15:23:31

GLM-4.5-Air-FP8开源:120亿活跃参数智能体基座新选择

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
GLM-4.5-Air-FP8开源:120亿活跃参数智能体基座新选择

GLM-4.5-Air-FP8模型正式开源,以120亿活跃参数的高效设计和FP8量化技术,为智能体应用开发提供了兼顾性能与部署成本的新选择,推动开源大模型在智能体领域的商业化落地。

【免费下载链接】GLM-4.5-Air-FP8GLM-4.5系列模型是专为智能体设计的基座模型。GLM-4.5拥有3550亿总参数和320亿活跃参数,而GLM-4.5-Air采用更紧凑的设计,总参数为1060亿,活跃参数为120亿。GLM-4.5模型统一了推理、编程和智能体能力,以满足智能体应用的复杂需求。项目地址: https://ai.gitcode.com/zai-org/GLM-4.5-Air-FP8

行业现状:智能体时代呼唤高效基座模型

随着大语言模型技术的快速迭代,智能体(Agent)已成为行业发展的重要方向。这类能够自主规划、调用工具并完成复杂任务的AI系统,正在重塑客服、教育、医疗等多个领域的服务形态。然而,当前主流大模型普遍面临"性能-效率"两难:参数量超过千亿的大模型虽能力强劲,但部署成本高昂;轻量级模型虽易于部署,却难以满足智能体所需的复杂推理和工具使用能力。

市场调研显示,2024年全球智能体相关应用融资规模同比增长217%,但超过60%的企业在落地过程中受限于模型部署成本。在此背景下,兼具高性能与部署效率的智能体基座模型成为行业迫切需求。GLM-4.5系列正是在这一背景下推出,其Air-FP8版本通过创新的架构设计和量化技术,试图解决这一行业难题。

模型亮点:高效能与多功能的平衡之道

GLM-4.5-Air-FP8作为专为智能体设计的基座模型,其核心优势体现在三个维度:

创新混合架构设计

该模型采用"1060亿总参数+120亿活跃参数"的混合专家(MoE)架构,在保证模型能力的同时大幅提升计算效率。不同于传统密集型模型,GLM-4.5-Air-FP8仅激活部分专家网络处理输入,使计算资源集中在关键任务上。这种设计使模型在12行业标准基准测试中获得59.8分的优异成绩,接近全尺寸模型的性能表现。

双推理模式与工具使用能力

针对智能体应用场景,模型创新性地提供"思考模式"和"非思考模式"双选项。前者适用于复杂推理和工具调用场景,模型会生成中间思考过程并规划工具使用步骤;后者则针对简单问答,直接输出结果以提升响应速度。这种灵活性使模型能适应从客服对话到数据分析的多样化智能体需求。

FP8量化与部署效率优化

作为系列中的高效部署版本,GLM-4.5-Air-FP8采用FP8量化技术,相比BF16版本模型体积减少50%,显存占用显著降低。根据官方测试数据,在H100 GPU上部署时,FP8版本仅需2张显卡即可运行基础功能,4张显卡即可支持128K上下文长度的全功能推理,硬件门槛大幅降低。这一优化使中小企业也能负担智能体系统的部署成本。

行业影响:降低智能体开发门槛的关键一步

GLM-4.5-Air-FP8的开源发布将对AI行业产生多维度影响:

在技术层面,该模型验证了"小活跃参数+量化技术"路线在智能体领域的可行性,为后续模型优化提供了参考方向。其混合推理模式的设计思路,也为智能体与工具的协同交互树立了新范式。

商业应用方面,模型的高效部署特性将加速智能体技术的普惠。传统需要数十张高端GPU支撑的智能体系统,现在可在单张H20或两张H100显卡上运行,硬件成本降低70%以上。这使得电商客服、企业知识库、智能数据分析等场景的AI应用落地速度将显著加快。

开源生态角度,GLM-4.5-Air-FP8采用MIT许可证发布,支持商业使用和二次开发,这将吸引大量开发者基于该模型构建垂直领域智能体应用。目前Hugging Face、ModelScope等平台已提供模型下载,vLLM和SGLang等推理框架也完成适配,开发者生态正在快速形成。

结论与前瞻:智能体开发进入"高效能"时代

GLM-4.5-Air-FP8的开源标志着智能体基座模型正式进入"性能-效率"平衡发展的新阶段。120亿活跃参数与FP8量化技术的结合,既突破了轻量级模型能力上限,又解决了大模型部署成本过高的行业难题。

未来,随着模型优化技术的持续进步,我们或将看到更多"小而美"的智能体基座模型出现。而GLM-4.5系列通过开源构建的技术生态,也有望推动智能体开发标准化,使企业能更专注于业务场景创新而非底层技术实现。对于开发者而言,这一模型提供了一个理想的起点,无论是构建企业级智能助手,还是探索教育、医疗等垂直领域的AI应用,都将从中受益。

在AI技术日益强调落地价值的今天,GLM-4.5-Air-FP8的推出无疑为智能体的商业化普及注入了强劲动力,其开源模式也将加速整个行业的创新步伐。

【免费下载链接】GLM-4.5-Air-FP8GLM-4.5系列模型是专为智能体设计的基座模型。GLM-4.5拥有3550亿总参数和320亿活跃参数,而GLM-4.5-Air采用更紧凑的设计,总参数为1060亿,活跃参数为120亿。GLM-4.5模型统一了推理、编程和智能体能力,以满足智能体应用的复杂需求。项目地址: https://ai.gitcode.com/zai-org/GLM-4.5-Air-FP8

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/5 8:43:01

如何快速提升网盘下载效率:LinkSwift终极使用指南

在当今数字化办公时代,网盘已成为我们存储和分享文件的重要工具。然而,面对各大网盘平台的下载限制和复杂流程,你是否感到困扰?LinkSwift网盘下载助手正是为了解决这一痛点而生的强力工具,它能帮你获取网盘文件的直接下…

作者头像 李华
网站建设 2026/4/8 15:34:59

Jasminum插件:中文文献管理的终极解决方案完整指南

作为一名经常处理中文文献的研究者,你是否也曾为Zotero无法准确识别知网文献而头疼?元数据缺失、附件下载失败、引用格式混乱,这些困扰终于有了完美的解决方案!Jasminum插件专为中国学术环境打造,彻底解决了中文文献管…

作者头像 李华
网站建设 2026/4/8 10:53:20

Tar-7B重磅发布:文本对齐解锁视觉AI新范式

Tar-7B重磅发布:文本对齐解锁视觉AI新范式 【免费下载链接】Tar-7B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/Tar-7B 导语 字节跳动团队近日发布的Tar-7B模型,通过创新的文本对齐表征技术,首次实现了视觉理解与…

作者头像 李华
网站建设 2026/4/10 20:52:07

X-Mouse Controls 终极配置指南:打造个性化鼠标操作体验

X-Mouse Controls 终极配置指南:打造个性化鼠标操作体验 【免费下载链接】xmouse-controls Microsoft Windows utility to manage the active window tracking/raising settings. This is known as x-mouse behavior or focus follows mouse on Unix and Linux syst…

作者头像 李华
网站建设 2026/4/9 17:56:52

原神帧率优化终极指南:告别卡顿体验的完整教程

还在为原神PC版60fps限制而苦恼吗?想要在提瓦特大陆的冒险中获得极致流畅的画面表现?本指南将为您提供一套完整的帧率优化解决方案,从问题诊断到效果验证,让您轻松突破性能瓶颈。 【免费下载链接】genshin-fps-unlock unlocks the…

作者头像 李华
网站建设 2026/3/31 14:47:14

小红书种草文写作:女性创业者如何用CosyVoice3做自媒体

女性创业者如何用 CosyVoice3 打造高感染力的小红书种草内容 在小红书这样的内容平台上,一个真诚、有温度的声音往往比华丽的剪辑更能打动人心。尤其是对女性创业者而言,讲述自己的品牌故事、产品理念和创业心路时,声音不仅是信息的载体&…

作者头像 李华