news 2026/1/20 4:01:44

【AI炸场】2025年大模型年度总结!DeepSeek-R1、Qwen3、Z-Image,小白也能起飞!✈️

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【AI炸场】2025年大模型年度总结!DeepSeek-R1、Qwen3、Z-Image,小白也能起飞!✈️

回望2025

一年快结束了。

在这里回顾一下2025年发布的那些大模型。

我没有按月份或者日期整理,而是以模型用处进行分类。

每个月发布的大模型很多,这份榜单仅涵盖了其中一小部分。

排名不分先后,仅供大家参考。

LLM (大语言模型)

Qwen3

阿里千问团队开源的文本大语言模型,有各种尺寸。

作为底座最合适,据官方数据,Qwen系列衍生模型数量超过10万个(数据可能还在往上涨)。

Qwen团队发了一个2025的视频总结,记录了Qwen团队整年的开源。

VibeThinker-1.5B-WEB

微博开源1.5B小参数模型,支持数学和编程任务。

基于测试目的可以使用,在生产上还是弱了点。

毕竟参数量在这。

DeepSeek-R1

DeepSeek团队开源,王炸模型,在各界掀起AI大模型热。

算是划时代的作品,特别是低成本,高效率。

给DeepSeek团队点赞。

猜一下,这次不会又年前发DeepSeek-R2吧?

OpenAI-GPT-OSS

真正的OpenAI->Qwen.

虚假的OpenAI->OpenAI.

更像是被Qwen和DeepSeek打的没招了,然后被迫放出来的。

效果还行,开源的这款模型,相比DeepSeek和Qwen还是弱了点。

QwQ-32B

Qwen团队的第一个推理模型。

效果还可以,但时间上感觉是紧急训练、开源,来应对DeepSeek的。

毕竟DeepSeek那会太火了(可能Qwen团队也没想到DeepSeek会这么火)。

VLM (视觉语言模型)

Open-AutoGLM

智谱大好人,最近x包手机很火。

有了这个模型,你可以制作自己的x包手机。

但安全性更上一层楼。

特别需要提醒的是,部分应用会检测AI操作。

可能会导致账号被退出、封号等风险。

GLM-4.6V-Flash

GLM-4.1V的升级,小尺寸,效果提升明显。

消费级显卡就可以部署。

Glyph

智谱开源的视觉语言模型。

采用了创新的方式,将长文本转为图片然后进行推理。

体验之后,效果可以。

Qwen3-VL

Qwen团队开源的视觉语言模型。

在视觉方面效果比较稳,特定领域没测试过。

MiMo-Embodied

小米开源视觉大语言模型,任务规划、可操作性预测和空间理解能力出众。

在路径追踪、定位上经过了大量训练。

看模型卡,是在Qwen2.5-VL上微调的。

Intern-S1-mini

多模态大模型,时间有点久,记不得效果如何了(大模型层出不穷,更新的太快了)。

MiniCPM-V-4

面壁智能开源的视觉大语言模型,效果可以。

参数量很小,只有4B,适合消费级显卡本地部署。

文生图/图生图/图片编辑

FLUX.2-dev

图片编辑最佳之选。

除了需要英文提示词之外,其余没多大缺点。

Z-Image

阿里开源的文生图大模型,文生图效果很能打。

图片编辑暂时没开源(开源时间未知)。

参数量只有6B,但效果比Qwen-Image好很多。

目前国内文生图开源模型最佳选择。

HunyuanImage-2.1

腾讯混元的文生图大模型,参数量略大,实测效果一般。

Qwen-Image-Edit

图片编辑效果还行,最近发布了2511,可以试一下。

但Z-Image的编辑模型开源之后,可能会被比下去。

Qwen-Image

长江前浪。

更推荐用Z-Image(当然,Z-Image没开源之前,Qwen-Image效果还可以)。

视频生成

LongCat-Video

美团龙猫团队开源的视频生成模型。

尺寸大,效果一般。

Wan2.2-Animate-14B/Wan2.2-S2V-14B/Wan-T2V

阿里万相团队开源的视频生成模型。

效果超棒,就是有个愿望。

啥时候能开源一下wan-2.6?

TTS/文本转语音/语音相关

Fun-CosyVoice3

阿里开源的,效果一般的TTS大模型。

没用过的别用。

Fun-Audio-Chat

阿里开源的实时语音对话模型,效果可以。

除了部署比较麻烦,暂时没发现其他缺点。

Fun-ASR-Nano-2512

阿里开源,效果还行。

语音转文字大模型。

GLM-ASR

智谱开源的语音识别大模型。

效果还可以。

GLM-TTS

智谱开源的文本转语音大模型。

效果还可以。

VoxCPM-1.5

目前效果最好的TTS大模型。

提供语音样本自动转文字,生成结果的开始部分伪音问题依然存在。

零样本克隆能力一绝,值得尝试。

缺点是情感控制能力一般,仅支持单人。

我认为年度最佳TTS大模型(已加入kfc豪华套餐,哈哈)。

Step-Audio-EditX

阶跃星辰开源TTS大模型,支持方言和多种情感,音频编辑功能强大,表现力丰富。

没用过可以试一下。

SoulX-Podcast

支持多人对话,方言的TTS大语言模型。

Index-TTS2

B站开源的TTS大语言模型,情感控制能力很强,支持方言。

VibeVoice

微软开源TTS,支持4人对话,最长生成96分钟语音,7.5Hz超低帧率运行。

最搞笑的是,开源一段时间之后,微软觉得不对劲,把Github仓库删了(后来社区重新提供了支持)。

MOSS-TTSD

MOSS-TTSD超强TTS大模型,中英双语高表现力对话语音生成,支持零样本多说话人。

第一次体验的TTS大语言模型,零样本克隆能力欠佳。

MiMo-Audio

小米音频理解生成对话大模型,上下文感知语音生成,逼真声音克隆。

体验过,但忘了。

OCR/文档理解/文字识别

PaddleOCR-VL

百度开源的文字识别OCR模型,目前效果最佳。

就是,可以放开飞桨,拥抱一下transformers吗?

飞桨的部署堪称灾难级别,需要很长时间。

在transformers下面效果不行,但在飞桨下面效果很好(生产级必须使用飞桨)。

年度最佳OCR模型,实至名归。

Hunyuan-OCR

腾讯混元OCR文字识别大模型,1B轻量化参数,支持100+语言。

体验之后效果一般,有刷榜碰瓷记录。

DeepSeek-OCR

创新方式进行OCR,但整体效果略逊于PaddleOCR-VL。

没体验过可以试一下。

3D生成

Hunyuan3D-2.1

腾讯混元3D生成模型,国内3D一哥。

效果超棒,部署起来有点麻烦。

行外人,只是用来娱乐。

嵌入/向量模型

Qwen3-Embedding

Qwen团队开源的嵌入模型。

效果还行,暂时没应用场景。

多模态/全模态

Qwen3-Omni

Qwen团队开源的多模态模型。

各方面能力均衡,实时流式响应。

安全审核

Qwen3Guard

Qwen团队安全审核模型,三级严重性分类,支持119种语言。

生产级需要上大尺寸的,效果更好。

测试学习可以小尺寸。

小尺寸有个问题,没法过滤拼音形式的敏感词。

翻译

Hunyuan-MT

腾讯混元最强翻译模型,覆盖38种语言互译。

最近刚发布了MT-1.5,1.8B实测下来效果可以,适合本地或者移动设备部署。

字节之前发过一个Seed-X,没体验过,不好评价。

医疗

Baichuan-M2

百川开源的医疗大模型,文本对话,效果还可以。

Lingshu

阿里开源的医疗大模型,支持文本和图片。

32B基本可以用于生产。

勉强算是年度最佳医疗开源大模型。

编程

2025开源了很多编程类的大模型。

比如GLM-4.7,MiniMax-M2.1,Qwen3-Code等等。

但这些模型,无法用于本地部署。

比较合适的使用方式,是使用官方的IDE或者命令行工具。

在命令行工具,可选项有qwen-code,iflow,这两个都是阿里的(不知道为什么他们要搞两个)。

qwen-code是使用的Qwen自己的模型,iflow可以选择多种模型。

ide方面,字节有trae,阿里有灵码和Qoder,腾讯有CodeBuddy。

选择自己喜欢的方式就好。

总结

整个2025,各种大模型层出不穷。

对于普通用户来说,影响比较大的莫过于DeepSeek-R1开源。

完全影响了对AI的认知,使用。

后续的Qwen-Image,Z-Image,对文生图方面的影响也比较大。

让我觉得比较惊艳的是TTS领域,各种TTS大模型像雨后春笋一样冒出来。

OCR领域,PaddleOCR-VL效果最佳。

展望2026,纯文本语言模型的发展空间似乎没那么大。

是不是该卷多模态,TTS,OCR,图片处理了?

期待2026年,国内各厂商能带来更精彩的作品,让我们为AI的发展贡献自己的力量。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包

  • ✅ 从零到一的 AI 学习路径图
  • ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
  • ✅ 百度/阿里专家闭门录播课
  • ✅ 大模型当下最新行业报告
  • ✅ 真实大厂面试真题
  • ✅ 2025 最新岗位需求图谱

所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》下方扫码获取~

① 全套AI大模型应用开发视频教程

(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线

作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档

学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题

面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余

以上资料如何领取?

为什么大家都在学大模型?

最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。

风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!

这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

以上全套大模型资料如何领取?

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/20 1:32:02

Uncle小说PC版终极指南:从零开始打造你的私人数字图书馆

还在为找不到想读的小说而四处奔波吗?Uncle小说PC版就像一位贴心的图书管理员,帮你把全网小说资源整理得井井有条。无论你是上班休息、深夜阅读还是通勤阅读,这款工具都能让你的阅读生活变得轻松又高效。 【免费下载链接】uncle-novel &#…

作者头像 李华
网站建设 2026/1/16 23:39:12

TikTokDownload:解锁抖音音频提取的实用技巧

你是否曾经被抖音视频中的背景音乐深深吸引,想要单独保存却苦于没有合适工具?或者需要批量下载创作者主页的所有配乐用于个人收藏?TikTokDownload项目为你提供了完美的解决方案,让你轻松提取高质量音频文件。 【免费下载链接】Tik…

作者头像 李华
网站建设 2026/1/17 9:40:16

硬盘的 【随机读写】【顺序读写】什么意思?

顺序读写 “搬运整个大文件”随机读写 “找文件” “处理零散数据”举例(通俗的情况下):拷贝、粘贴 一个大文件: ———— 顺序读写执行一个exe程序后,程序读取多个dll、多媒体资源来绘制:——————…

作者头像 李华
网站建设 2026/1/17 5:20:39

雀魂AI助手Akagi:5分钟快速部署智能麻将分析系统

雀魂AI助手Akagi:5分钟快速部署智能麻将分析系统 【免费下载链接】Akagi A helper client for Majsoul 项目地址: https://gitcode.com/gh_mirrors/ak/Akagi 在麻将竞技中,精准的决策往往决定了胜负走向。Akagi作为一款专为雀魂游戏设计的智能辅助…

作者头像 李华
网站建设 2026/1/17 6:41:06

程序员节趣味玩法:用‘机器猫’声线读写代码注释

程序员节趣味玩法:用“机器猫”声线读写代码注释 在程序员节这一天,与其重复敲下千篇一律的 print("Hello, World!"),不如来点更有趣的——让“机器猫”亲自为你朗读代码注释。你没听错,就是那个蓝胖子,用他…

作者头像 李华
网站建设 2026/1/17 14:18:34

VMTK血管建模工具包:掌握医学影像处理的终极指南

VMTK血管建模工具包:掌握医学影像处理的终极指南 【免费下载链接】vmtk the Vascular Modeling Toolkit 项目地址: https://gitcode.com/gh_mirrors/vm/vmtk 你是否曾面对复杂的医学影像数据束手无策?想要从CT或MRI扫描中提取精确的血管结构&…

作者头像 李华