news 2026/4/17 17:40:11

大语言模型综合排行榜 26-02-01图片本周排名前10的模型为:Gemini 3 ProGPT-5.2Gemini 3 FlashClaude Opus 4.5GPT

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大语言模型综合排行榜 26-02-01图片本周排名前10的模型为:Gemini 3 ProGPT-5.2Gemini 3 FlashClaude Opus 4.5GPT

大语言模型综合排行榜 26-02-01

原创 网球玩的人 老网的博客2026年2月1日 16:25加拿大

本周排名前10的模型为:

Gemini 3 Pro

GPT-5.2

Gemini 3 Flash

Claude Opus 4.5

GPT-5.1

Kimi-K2.5

GPT-5

DeepSeek v3.2

GLM-4.7

GPT-5.1 Mini

简介:

本表格汇总了常用大语言模型在主流评测排行榜上的表现。评测范围涵盖:

人类偏好(文字和视觉),知识与推理,数学能力,代码能力,长文本推理,和指令遵循能力。

在整合各项评测结果的基础上,计算出综合排名。

更新:

本次排名,Kimi-K2.5模型首次加入榜单。它没有特别出彩的表现,但综合实力均衡,且比Kimi-K2有明显提升,跻身第六。

artifical analysis边的数据更新了Qwen 3 max的推理模型的结果。比起非推理模型,整体能力大幅提升。

除了gpt-4.5,本榜单所有模型皆为推理模型。推理能力基本上是顶尖模型的标配了。

总结:

综合实力最强:Gemini 3 Pro

国内最强模型:Kimi-K2.5/DeepSeek v3.2/GLM-4.7

最强开源模型:Kimi-K2.5/DeepSeek v3.2/GLM-4.7

最强代码模型:Gemini 3 Pro/GPT-5.2/Claude Opus 4.5

本项目仓库:

https://github.com/Tennisatw/LLM-Leaderboard

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/17 0:02:02

ERNIE-4.5-0.3B-PT入门必看:从部署到调用的完整流程

ERNIE-4.5-0.3B-PT入门必看:从部署到调用的完整流程 1. 为什么选这个镜像?轻量高效,开箱即用 你是不是也遇到过这些问题:想试试国产大模型,但动辄几十GB显存要求让人望而却步;想快速验证一个文本生成想法&a…

作者头像 李华
网站建设 2026/4/13 2:31:29

Chord视觉定位模型部署教程:Supervisor进程守护+自动重启+日志轮转配置

Chord视觉定位模型部署教程:Supervisor进程守护自动重启日志轮转配置 1. 项目概述 Chord是一款基于Qwen2.5-VL多模态大模型的视觉定位服务,能够通过自然语言指令精确定位图像中的目标对象。本教程将详细介绍如何部署该服务,并配置Superviso…

作者头像 李华
网站建设 2026/4/17 5:53:54

从安装到使用:CLAP音频分类镜像完整操作手册

从安装到使用:CLAP音频分类镜像完整操作手册 你是否遇到过这样的场景:一段现场录制的环境音,想快速判断是施工噪音、鸟鸣还是警报声,却要先找专业工具、装依赖、写代码?又或者,正在开发一款智能听障辅助Ap…

作者头像 李华
网站建设 2026/4/16 12:19:49

AI绘画新体验:Z-Image Turbo一键生成惊艳作品

AI绘画新体验:Z-Image Turbo一键生成惊艳作品 1. 开箱即用的极速画板:为什么这次真的不一样? 你有没有过这样的经历: 花半小时调参数、等显存不爆、防黑图、修提示词,最后生成一张图——结果边缘发灰、手长了六根、天…

作者头像 李华
网站建设 2026/4/17 1:35:42

EagleEye部署教程:Kubernetes集群中弹性扩缩容EagleEye推理服务

EagleEye部署教程:Kubernetes集群中弹性扩缩容EagleEye推理服务 1. 为什么需要在K8s里跑EagleEye? 你有没有遇到过这样的情况:白天监控摄像头突然涌入大量视频流,检测请求暴增三倍,GPU显存直接飙到98%,服…

作者头像 李华