引言
【免费下载链接】GLM-Z1-9B-0414项目地址: https://ai.gitcode.com/zai-org/GLM-Z1-9B-0414
GLM模型家族再添开源新成员——GLM-4-32B-0414系列,该系列模型具备320亿参数规模,性能可与OpenAI的GPT系列及DeepSeek的V3/R1系列相媲美,并支持便捷的本地部署特性。其中,GLM-4-32B-Base-0414基座模型基于15万亿高质量数据进行预训练,涵盖海量推理型合成数据,为后续强化学习扩展奠定坚实基础。在后训练阶段,除针对对话场景进行人类偏好对齐外,团队还通过拒绝采样、强化学习等技术增强模型在指令遵循、工程代码及函数调用等方面的表现,强化智能体任务所需的基础能力。GLM-4-32B-0414在工程代码编写、制品生成、函数调用、检索式问答及报告生成等领域均取得优异成绩,部分基准测试甚至可与GPT-4o、DeepSeek-V3-0324(6710亿参数)等更大规模模型一较高下。
GLM-Z1-32B-0414是一款具备深度思考能力的推理模型。该模型在GLM-4-32B-0414基础上,通过冷启动扩展强化学习技术,针对数学、代码及逻辑类任务进行专项训练而成。相较于基座模型,其数学能力及复杂任务解决能力得到显著提升。训练过程中引入基于 pairwise 排序反馈的通用强化学习,进一步增强模型的综合性能。
GLM-Z1-Rumination-32B-0414则是对标OpenAI Deep Research的反刍式深度推理模型。与常规深度思考模型不同,该反刍模型通过更长时间的深度推理过程解决开放性复杂问题(如撰写两座城市AI发展对比分析及未来规划报告)。该模型在深度思考过程中集成检索工具以应对复杂任务,并利用多维度规则奖励引导端到端强化学习扩展训练。在研究型写作及复杂检索任务中,Z1-Rumination展现出突破性性能提升。
而GLM-Z1-9B-0414堪称本次发布的惊喜之作。团队将上述系列先进技术迁移应用于90亿参数的小体量模型训练,延续GLM家族开源传统。尽管参数规模较小,GLM-Z1-9B-0414在数学推理与通用任务处理方面仍表现卓越,整体性能在同规模开源模型中处于领先水平。尤其在资源受限场景下,该模型实现效率与效能的完美平衡,为追求轻量化部署的用户提供强力选择。
性能评估
为直观展示模型性能表现,以下分别呈现32B系列与9B模型的基准测试结果。
如上图所示,该图表系统展示了GLM-Z1-32B系列模型在各项基准测试中的表现。这一性能对比充分体现了深度强化学习对模型推理能力的提升效果,为研究人员提供了清晰的技术路线参考。
此图聚焦展示GLM-Z1-9B-0414与同规模模型的性能对比。这一数据直观反映了小参数模型通过优化训练策略实现的性能跃升,为开发者选择轻量化部署方案提供关键决策依据。
通过对比可见,尽管GLM-Z1-9B-0414参数规模仅为32B模型的四分之一,但在多项推理任务中保持了令人印象深刻的性能水准,尤其在数学推理和代码生成领域展现出超越同量级模型的竞争力。
模型使用指南
一、采样参数配置
| 参数名称 | 推荐值 | 参数说明 |
|---|---|---|
| temperature | 0.6 | 平衡生成文本的创造性与稳定性 |
| top_p | 0.95 | 采样的累积概率阈值 |
| top_k | 40 | 过滤低频token同时保持输出多样性 |
| max_new_tokens | 30000 | 为思考过程预留充足token空间 |
二、强制思考机制
- 在输入文本首行添加 \n:确保模型在生成回答前进行充分思考
- 使用
chat_template.jinja模板时,系统会自动注入该提示触发思考行为
三、对话历史裁剪策略
- 仅保留最终用户可见回复。
隐藏的思考内容不应保存至对话历史以减少干扰——此机制已在chat_template.jinja中默认实现
四、长上下文处理(YaRN技术)
当输入长度超过8192 tokens时,建议启用YaRN(Rope Scaling)技术
在支持的框架中,可在
config.json添加以下配置片段:"rope_scaling": { "type": "yarn", "factor": 4.0, "original_max_position_embeddings": 32768 }静态YaRN对所有文本统一应用缩放,可能轻微降低短文本性能,建议根据实际需求选择性启用
推理代码示例
使用前请确保transformers库版本≥4.51.3。
from transformers import AutoModelForCausalLM, AutoTokenizer MODEL_PATH = "https://gitcode.com/zai-org/GLM-Z1-9B-0414" tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH) model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto") message = [{"role": "user", "content": "设a、b为正实数,且满足ab = a + b + 3,求a + b的取值范围。"}] inputs = tokenizer.apply_chat_template( message, return_tensors="pt", add_generation_prompt=True, return_dict=True, ).to(model.device) generate_kwargs = { "input_ids": inputs["input_ids"], "attention_mask": inputs["attention_mask"], "max_new_tokens": 4096, "do_sample": False, } out = model.generate(**generate_kwargs) print(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))引用说明
如果您的工作受益于本模型,请考虑引用以下论文:
@misc{glm2024chatglm, title={ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools}, author={Team GLM and Aohan Zeng and Bin Xu and Bowen Wang and Chenhui Zhang and Da Yin and Diego Rojas and Guanyu Feng and Hanlin Zhao and Hanyu Lai and Hao Yu and Hongning Wang and Jiadai Sun and Jiajie Zhang and Jiale Cheng and Jiayi Gui and Jie Tang and Jing Zhang and Juanzi Li and Lei Zhao and Lindong Wu and Lucen Zhong and Mingdao Liu and Minlie Huang and Peng Zhang and Qinkai Zheng and Rui Lu and Shuaiqi Duan and Shudan Zhang and Shulin Cao and Shuxun Yang and Weng Lam Tam and Wenyi Zhao and Xiao Liu and Xiao Xia and Xiaohan Zhang and Xiaotao Gu and Xin Lv and Xinghan Liu and Xinyi Liu and Xinyue Yang and Xixuan Song and Xunkai Zhang and Yifan An and Yifan Xu and Yilin Niu and Yuantao Yang and Yueyan Li and Yushi Bai and Yuxiao Dong and Zehan Qi and Zhaoyu Wang and Zhen Yang and Zhengxiao Du and Zhenyu Hou and Zihan Wang}, year={2024}, eprint={2406.12793}, archivePrefix={arXiv}, primaryClass={id='cs.CL' full_name='Computation and Language' is_active=True alt_name='cmp-lg' in_archive='cs' is_general=False description='Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.'} }技术亮点与未来展望
GLM-Z1-9B-0414的推出,标志着开源模型在小参数规模下实现深度推理能力的重要突破。其核心优势在于:通过创新的强化学习策略与任务适配训练,在90亿参数级别实现了传统模型需百倍参数才能达到的推理效果。这种"小而精"的技术路线,不仅降低了AI技术的应用门槛,更为边缘计算、嵌入式设备等资源受限场景提供了高性能解决方案。
未来,团队将持续优化反刍推理机制,探索多模态深度融合路径,并进一步压缩模型体积以适应移动端部署需求。GLM-Z1-9B-0414的开源释放,旨在推动AI推理技术的普及进程,让更多开发者能够基于这一高效能模型构建创新应用,共同探索通用人工智能的轻量化实现路径。
【免费下载链接】GLM-Z1-9B-0414项目地址: https://ai.gitcode.com/zai-org/GLM-Z1-9B-0414
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考