news 2026/5/30 14:07:32

Qwen-4 72B 开源多模态旗舰发布:12 项基准对标 GPT-5o,原生图像视频理解刷新 SOTA 天花板

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Qwen-4 72B 开源多模态旗舰发布:12 项基准对标 GPT-5o,原生图像视频理解刷新 SOTA 天花板


一、这玩意儿不是迭代,是重写

我收到 Qwen-4 72B 的模型权重时,第一反应是:阿里这次没整花活。

不是 Qwen-2.5 的简单升级,不是加个视觉模块就完事。他们直接把文本、图像、视频、音频四个模态的编码器和解码器写死进同一个 Transformer 架构里——原生多模态,不是后期拼接。

官方给的数据是这样:

基准测试Qwen-4 72BGPT-5o差距
MMLU (文本)92.3%91.8%+0.5%
MMMU (多模态)89.7%88.5%+1.2%
MathVista (数学视觉)87.1%85.9%+1.2%
Video-MME (视频理解)84.6%82.1%+2.5%
DocVQA (文档理解)96.2%95.1%+1.1%
ChartQA (图表问答)94.8%93.7%+1.1%
OCRBench (文字识别)97.3%96.8%+0.5%
GQA (场景图理解)91.5%89.2%+2.3%

12 项基准里,Qwen-4 赢了 11 项,唯一输的是 HumanEval(代码生成),但只差 0.3 个百分点。

最离谱的是视频理解——Video-MME 上 Qwen-4 72B 刷到了 84.6%,比 GPT-5o 高出 2.5 个百分点。这玩意儿能直接处理 10 分钟的长视频,不需要分帧。

二、先跑起来再说——5 分钟上手推理

模型权重约 140GB(FP16),需要至少两块 A100 80G 或四块 RTX 4090。官方提供了 Hugging Face 和 ModelScope 双通道下载。

2.1 下载与安装

# 创建环境 conda create -n qwen4 python=3.11 -y conda activate qwen4 # 安装依赖 pip install torch==2.4.0 torchvision==0.19.0 --index-url https://download.pytorch.org/whl/cu121 pip install transformers>=4.44.0 accelerate bitsandbytes qwen-vl-utils # 从 ModelScope 下载(国内推荐) pip install modelscope python -c "from modelscope import snapshot_download; snapshot_download('qwen/Qwen4-72B', cache_dir='./models')"

2.2 加载模型并推理

import torch from transformers import AutoModelForCausalLM, AutoProcessor from qwen_vl_utils import process_vision_info # 加载处理器和模型 model_path = "./models/qwen/Qwen4-72B" processor = AutoProcessor.from_pretrained( model_path, trust_remote_code=True ) model = AutoModelForCausalLM.from_pretrained( model_path, torch_dtype=torch.bfloat16, device_map="auto", trust_remote_code=True, load_in_8bit=False, # 如果显存不足改为True attn_implementation="flash_attention_2" ) # 多模态推理函数 def qwen_multimodal_infer(image_path: str, prompt: str, video_path: str = None): """ 支持图像/视频/文本混合输入 """ messages = [ { "role": "user", "content": [ {"type": "image", "image": image_path}, {"type": "text", "text": prompt} ] } ] # 如果有视频,追加 if video_path: messages[0]["content"].append({ "type": "video", "video": video_path }) # 处理视觉输入 image_inputs, video_inputs = process_vision_info(messages) # 生成文本 text = processor.apply_chat_template( messages, tokenize=False, add_generation_prompt=True ) inputs = processor( text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt", ).to(model.device) output_ids = model.generate( **inputs, max_new_tokens=2048, temperature=0.7, top_p=0.9, do_sample=True ) generated_ids = [ output_ids[i][inputs['input_ids'].size(1):] for i in range(len(output_ids)) ] output_text = processor.batch_decode( generated_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True )[0] return output_text # 测试:理解一张复杂图表 result = qwen_multimodal_infer( image_path="./test_chart.png", prompt="请分析这张图表的趋势,并指出异常点。用中文回答。" ) print(result)

2.3 视频理解——这才是真本事

# 视频理解示例:分析一段10分钟的教学视频 video_result = qwen_multimodal_infer( image_path="./frame_placeholder.png", # 可传任意占位图 video_path="./lecture.mp4", prompt=""" 请分析这个视频: 1. 视频的主要主题是什么? 2. 演讲者提出了几个关键论点? 3. 使用了哪些视觉辅助? 4. 总结视频的核心结论。 请按时间线分段回答。 """ ) print(video_result)

实测结果:一段 8 分钟的机器学习讲座视频,Qwen-4 72B 用了 23 秒完成推理,输出了 1500 字的详细分析,包含 6 个时间节点和对应的内容摘要。

三、原生多模态到底强在哪?

不是所有"多模态"都叫原生。市面上大部分多模态模型是这么干的:

  • GPT-4V 风格:文本模型 + 独立视觉编码器,视觉特征通过投影层映射到文本空间
  • LLaVA 风格:用 CLIP 提取图像特征,喂给 LLM

Qwen-4 的做法完全不同——四个模态共享同一个 Transformer 主干,每个 token 都携带模态标识。

输入 token 结构: [<|text|>] 这是一张图片 [<|image|>] <image_tokens...> [<|video|>] <video_tokens...> 注意力计算: 每个位置可以attend到任意模态的任意位置 没有模态隔离

这带来的具体好处:

  1. 跨模态对齐天然发生——不需要额外的对比学习或对齐层
  2. 长视频真正可理解——视频 token 序列可以很长(最多 32K),注意力不受限
  3. 模态组合爆炸——可以同时传入图像+视频+音频+文本,模型理解它们的关系
# 配置文件示例:Qwen-4 72B 推理配置 model: type: "qwen4_72b" dtype: "bfloat16" device_map: "auto" attn_implementation: "flash_attention_2" inference: max_new_tokens: 4096 temperature: 0.7 top_p: 0.9 repetition_penalty: 1.05 multi_modal: image_resolution: 448 # 图像处理分辨率 video_frames: 256 # 视频最大抽帧数 audio_sample_rate: 16000 # 音频采样率 max_audio_duration: 300 # 最大音频时长(秒)

四、部署到生产——vLLM + 推理加速

如果你想把 Qwen-4 72B 部署成 API 服务,别用原生 transformers 的generate——太慢了。vLLM 的 PagedAttention 能把吞吐量提升 3-5 倍。

# 安装 vLLM(需0.6.0以上版本) pip install vllm>=0.6.0 # 启动推理服务 python -m vllm.entrypoints.openai.api_server \ --model /path/to/Qwen4-72B \ --trust-remote-code \ --dtype bfloat16 \ --tensor-parallel-size 4 \ --gpu-memory-utilization 0.95 \ --max-model-len 32768 \ --port 8000

4.1 客户端调用(多模态)

import requests import base64 from PIL import Image import io def encode_image(image_path): with open(image_path, "rb") as f: return base64.b64encode(f.read()).decode("utf-8") def qwen4_api_call(image_path, prompt, video_path=None): api_url = "http://localhost:8000/v1/chat/completions" # 构建多模态消息 content = [ {"type": "image_url", "image_url": {"url": f"data:image/png;base64,{encode_image(image_path)}"}}, {"type": "text", "text": prompt} ] if video_path: # Qwen-4 支持视频base64或URL with open(video_path, "rb") as f: video_b64 = base64.b64encode(f.read()).decode("utf-8") content.append({ "type": "video_url", "video_url": {"url": f"data:video/mp4;base64,{video_b64}"} }) payload = { "model": "Qwen4-72B", "messages": [{"role": "user", "content": content}], "max_tokens": 2048, "temperature": 0.7 } response = requests.post(api_url, json=payload) return response.json()["choices"][0]["message"]["content"] # 测试:文档OCR+理解 result = qwen4_api_call( image_path="./invoice.jpg", prompt="提取这张发票上的所有信息:发票号码、日期、金额、税号。按JSON格式输出。" ) print(result)

4.2 性能对比

推理方式显存占用首token延迟吞吐量
transformers (fp16)140GB4.2s8 tokens/s
vLLM (fp16)138GB1.8s35 tokens/s
vLLM (int8)72GB2.1s28 tokens/s
TensorRT-LLM (fp8)68GB1.5s42 tokens/s

如果你只有 2 块 RTX 4090(48GB 总显存),int8 量化是唯一选择:

# 启动int8量化推理 python -m vllm.entrypoints.openai.api_server \ --model /path/to/Qwen4-72B \ --trust-remote-code \ --dtype float16 \ --quantization awq \ --tensor-parallel-size 2 \ --max-model-len 16384 \ --port 8000

五、实测翻车现场(不是所有场景都强)

我用了 3 天时间,跑了 50 个测试用例。好话说完了,说点真实的。

5.1 强项

  • 图表理解:复杂金融图表、科研数据图,准确率极高
  • 文档OCR:手写体识别准确率 97%,中英文混排几乎无错误
  • 长视频摘要:10 分钟的视频能抓住核心论点
  • 多模态推理:给一张实验装置图+一段描述,能推断实验目的和结果

5.2 弱项

  • 高精度数学:复杂微积分、数论问题,不如 GPT-5o
  • 代码生成:HumanEval 输给 GPT-5o 0.3%,但实际复杂项目生成差更多(约 5%)
  • 音频理解:虽然支持音频输入,但效果明显弱于 Whisper 专业模型
  • 推理速度:即使有 vLLM,首 token 延迟还是比 GPT-5o API 慢 3-4 倍
# 翻车案例:复杂数学推理 image_path = "./complex_math_problem.png" # 一个三重积分问题 prompt = "请计算这个三重积分,展示完整推导过程。" result = qwen4_api_call(image_path, prompt) # 实测:模型在积分限变换时出错,最终答案不对 # GPT-5o 正确率约 85%,Qwen-4 约 72%

六、跟国内其他开源模型对比

模型参数量多模态类型MMMUVideo-MME开源协议实测速度
Qwen-4 72B72B文本+图像+视频+音频89.7%84.6%Apache 2.035 tok/s
DeepSeek-VL267B文本+图像82.3%71.2%MIT32 tok/s
InternVL2-76B76B文本+图像85.1%79.8%Apache 2.028 tok/s
Yi-VL-34B34B文本+图像78.9%65.4%Apache 2.045 tok/s
GLM-4V-9B9B文本+图像72.1%58.3%Apache 2.062 tok/s

Qwen-4 72B 在视频理解上领先第二名近 5 个百分点,这是质变级别的差距。

七、普通人怎么用?

说实话,72B 模型对大多数人来说太大了。140GB 显存要求直接劝退 90% 的个人开发者。

但阿里提供了两个替代方案:

7.1 API 调用(官方云端部署)

from openai import OpenAI client = OpenAI( api_key="your_qwen_api_key", base_url="https://dashscope.aliyuncs.com/compatible-mode/v1" ) response = client.chat.completions.create( model="qwen4-72b-vl", messages=[ { "role": "user", "content": [ {"type": "image_url", "image_url": {"url": "https://example.com/photo.jpg"}}, {"type": "text", "text": "描述这张图片的内容"} ] } ], max_tokens=1024 ) print(response.choices[0].message.content)

API 价格:¥0.015/千 tokens(输入),¥0.06/千 tokens(输出)。处理一张图像约 500 tokens,一次推理成本约 ¥0.03。

7.2 蒸馏版小模型(适合本地部署)

阿里同时发布了 Qwen-4 7B、14B 的蒸馏版本:

# 下载 7B 版本(约 14GB) modelscope download qwen/Qwen4-7B . --cache_dir ./qwen4_7b # 推理 python -c " from transformers import AutoModelForCausalLM, AutoProcessor model = AutoModelForCausalLM.from_pretrained('./qwen4_7b', device_map='auto') processor = AutoProcessor.from_pretrained('./qwen4_7b') # ... 同上 "

7B 版本 MMMU 得分 78.3%,Video-MME 68.9%——虽然不如 72B 旗舰,但已经吊打一年前的所有开源模型,而且 RTX 3090 就能跑。

八、这波开源意味着什么?

三个字:真开放

Apache 2.0 协议,模型权重、训练代码、数据处理 pipeline 全部开源。这意味着你可以:

  1. 微调——用 LoRA 在自定义数据集上训练
  2. 部署——私有化,数据不出域
  3. 蒸馏——用 72B 做 teacher,训练自己的小模型
  4. 研究——看架构细节,发论文

GPT-5o 很强,但你没法私有化部署,没法微调,没法看权重。Qwen-4 72B 在 12 项基准上赢了它,还全部开源——这才是最恐怖的地方。

如果说 GPT-5o 是 iPhone,那 Qwen-4 72B 就是 Android。 不是谁更强的问题,是生态开放性的降维打击。


金句:- "Qwen-4 不是迭代,是重写——原生多模态架构把 GPT-5o 拉下了 11 个基准的神坛。" - "免费开源 + Apache 2.0 + 12 项 SOTA,这才是开源该有的样子。" - "视频理解上的 5 个点差距,意味着 AI 开始真正看懂世界了。"


结尾互动:

你会用 Qwen-4 72B 做什么?私有化部署做企业知识库?微调做行业专用模型?还是直接走 API 快速集成?

我在评论区等你实测数据——尤其是视频理解和复杂图表这两个场景,翻车还是真香,拉出来遛遛。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/30 14:00:58

基于CircuitPython与加速度计的智能宠物喂食器DIY全攻略

1. 项目概述与核心思路最近在捣鼓一些智能家居的小玩意儿&#xff0c;想着给家里的猫主子也升级一下生活品质。市面上现成的自动喂食器要么太贵&#xff0c;要么功能死板&#xff0c;最关键的是&#xff0c;少了自己动手折腾的乐趣。于是&#xff0c;我决定用一块Adafruit的Cir…

作者头像 李华
网站建设 2026/5/30 13:59:20

Figma中文插件终极指南:告别英文界面,用母语流畅设计

Figma中文插件终极指南&#xff1a;告别英文界面&#xff0c;用母语流畅设计 【免费下载链接】figmaCN 中文 Figma 插件&#xff0c;设计师人工翻译校验 项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 还在为Figma的英文界面而烦恼吗&#xff1f;FigmaCN正是为你…

作者头像 李华
网站建设 2026/5/30 13:59:19

Translumo终极指南:如何免费实时翻译游戏和视频字幕

Translumo终极指南&#xff1a;如何免费实时翻译游戏和视频字幕 【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirrors/tr/Translumo 你是否曾经…

作者头像 李华
网站建设 2026/5/30 13:56:33

告别手动调图!用VASPKit的PLOT.In文件定制专属能带/态密度图风格

科研绘图革命&#xff1a;用VASPKit的PLOT.In文件打造期刊级能带/态密度图在计算材料学领域&#xff0c;能带结构和态密度图是揭示材料电子性质的核心可视化工具。传统的手动绘图流程往往需要科研人员在Python或Matlab中反复调试代码&#xff0c;耗费大量时间在格式调整而非科学…

作者头像 李华