什么是 Token？2026 年主流大模型计费规则、价格与性能全面对比-平芜编程栈

什么是 Token？2026 年主流大模型计费规则、价格与性能全面对比

摘要：Token 是大语言模型的最小计算单元，也是所有 AI API 的计费基础。本文从零讲解 Token 的概念和计数原理，横向对比阿里云、OpenAI、Anthropic、Google、DeepSeek 等 8 大厂商 20+ 款主流模型的定价、智能水平、速度、上下文窗口等核心维度，并给出按场景选模型的实用建议。适合开发者和技术决策者阅读。

一、什么是 Token？

1.1 Token 的定义

Token（词元）是大语言模型（LLM）处理文本时的最小计算单元。

LLM 无法直接理解人类语言中的"字"或"词"，它只能处理数字。因此，在文本进入模型之前，必须先经过一个转换过程：将文本拆解为 Token，再将每个 Token 映射为一个唯一的数字 ID。

用户输入文本 → Tokenizer 分词 → Token ID 序列 → 模型计算 → 生成 Token ID → 解码为文本

1.2 Token ≠ 字 ≠ 词

Token 的粒度因语言和分词算法而异：

语言	1 个 Token 约等于	示例
英文	0.75 个单词	“artificial” = 1 token, “intelligence” = 1 token
中文	1-1.5 个汉字	“人工智能” ≈ 2-3 tokens
代码	1 个代码片段	“definit” = 2-3 tokens

直观换算经验：

英文：1000 个单词 ≈ 1333 tokens
中文：1000 个汉字 ≈ 800-1000 tokens

1.3 Token 是如何生成的？—— BPE 分词算法

主流大模型使用BPE（Byte-Pair Encoding，字节对编码）算法进行分词。核心思想：

┌──────────────────────────────────────────────────┐ │ Tokenization 过程 │ ├──────────────────────────────────────────────────┤ │ │ │ 原始文本: "I love artificial intelligence" │ │ ↓ │ │ Step 1: 拆分为字符 ["I", " ", "l", "o", ...] │ │ ↓ │ │ Step 2: 统计最常见字符对，合并为子词 │ │ ↓ │ │ Step 3: 重复合并，直到达到词表中的 Token │ │ ↓ │ │ 最终: ["I", " love", " art", "ificial", │ │ " intellig", "ence"] │ │ ↓ │ │ 共 6 个 Token │ │ │ └──────────────────────────────────────────────────┘

每个模型的词表（Vocabulary）大小通常在5 万 ~ 20 万个 Token 之间。词表越大，模型能直接识别的"完整词"越多，分词效率越高。

1.4 输入 Token vs 输出 Token

一次 API 调用中，Token 分为两类：

┌─────────────────────────────────────────────────────────┐ │ API 请求中的 Token │ ├─────────────────────┬───────────────────────────────────┤ │ 输入 Token │ 输出 Token │ │ (Input/Prompt) │ (Output/Completion) │ ├─────────────────────┼───────────────────────────────────┤ │ 用户发送的 Prompt │ 模型生成的回复内容 │ │ 系统指令/System │ │ │ 历史对话/上下文 │ │ │ 上传的文件内容 │ │ ├─────────────────────┼───────────────────────────────────┤ │ 处理方式：并行 │ 处理方式：逐个自回归生成 │ │ 一次性全部编码 │ 每生成 1 个 Token 需一次前向传播 │ └─────────────────────┴───────────────────────────────────┘

示例：

你: "用三句话解释量子力学" → 输入 Token: ~10 个 AI: "量子力学是研究微观粒子行为的物理学分支。 它描述了原子和亚原子尺度的物理现象。 其核心原理包括波粒二象性和不确定性原理。" → 输出 Token: ~85 个 本次调用总消耗: 10(输入) + 85(输出) = 95 tokens

1.5 为什么输出 Token 比输入 Token 贵？

几乎所有厂商的定价都是输出价格 > 输入价格，通常是2-4 倍的差距。原因如下：

┌─────────────────────────────────────────────────────┐ │ 输入 Token vs 输出 Token 计算成本对比 │ ├───────────────────────┬─────────────────────────────┤ │ 输入阶段 │ 输出阶段 │ ├───────────────────────┼─────────────────────────────┤ │ 一次性并行处理所有 │ 逐个生成，每个 Token 需要 │ │ Token，只需一次前向 │ 一次独立的前向传播 │ │ 传播 │ │ ├───────────────────────┼─────────────────────────────┤ │ 无需维护额外状态 │ 需要维护 KV Cache（键值缓 │ │ │ 存），显存占用持续增长 │ ├───────────────────────┼─────────────────────────────┤ │ 注意力计算是批量 │ 注意力计算随长度递增， │ │ 的，效率高 │ 越来越耗时 │ ├───────────────────────┼─────────────────────────────┤ │ 受 GPU 计算能力限制 │ 受 GPU 内存带宽制约 │ │ （Compute-bound） │ （Memory-bound） │ └───────────────────────┴─────────────────────────────┘

简单理解：读一篇文章很快，但一个字一个字地写出来就很慢。输出阶段是瓶颈。

1.6 上下文窗口（Context Window）

上下文窗口 =输入 Token + 输出 Token 的最大总数，决定了模型一次能"记住"和处理的文字量。

┌───────────────────────────────────────────────────────────┐ │ 上下文窗口示意 │ │ │ │ [System Prompt] [用户问题] [历史对话] ... [模型回复] │ │ ←────────────── 上下文窗口 ───────────────────→ │ │ │ │ 小窗口(4K)： ≈ 3000 汉字 ≈ 半页 A4 纸 │ │ 中窗口(32K)： ≈ 24000 汉字 ≈ 一本薄小说 │ │ 大窗口(128K)：≈ 96000 汉字 ≈ 一本厚书 │ │ 超大窗口(1M+)：≈ 75 万字 ≈ 多部小说 │ └───────────────────────────────────────────────────────────┘

二、Token 的计费逻辑

2.1 按 Token 计费的本质

大模型的推理成本主要由 GPU 算力决定，而 GPU 算力消耗与处理的 Token 数量直接相关。因此，所有主流 AI API 都采用按 Token 数量计费的模式。

费用 = (输入 Token 数 × 输入单价) + (输出 Token 数 × 输出单价)

2.2 常见计费单位

计费单位	说明	常见于
每千 Token	1,000 tokens 为单位	OpenAI（旧定价）
每百万 Token	1,000,000 tokens 为单位	阿里云、DeepSeek 等国内厂商
每输入/输出 Token	单个 Token 计费	部分国际厂商

2.3 阶梯定价与优惠机制

厂商为了吸引用户和降低成本，通常提供以下优惠：

1）阶梯定价（用量越多越便宜）

输入 Token 量 │ 单价 ──────────────────────┼────────────── 0 ~ 128K │ 基础价格 128K ~ 256K │ 基础价格 × 1.5 ~ 3 倍（长上下文溢价） 256K 以上 │ 更高价格

2）缓存命中折扣（Context Cache）

首次请求: 输入 10000 tokens（全价） ↓ 缓存这些 Token 二次请求: 其中 8000 tokens 命中缓存 → 8000 tokens 按原价 10% 计费 → 2000 tokens 按原价计费 → 节省约 72% 费用

3）批量调用折扣（Batch / Async）

不要求实时响应的场景（如离线数据分析），使用 Batch 模式调用，价格通常是实时推理的50%。

4）免费额度

新用户注册通常可获得一定额度的免费 Token。例如：

阿里云百炼：新用户7000 万 Tokens（有效期 90 天）
部分厂商：每月固定免费额度

三、阿里云百炼平台计费规则

阿里云百炼（Bailian）是国内最大的大模型服务平台，提供通义千问（Qwen）系列及其他第三方模型的 API 调用。

3.1 Qwen 系列模型价格表（2026 年最新）

以下为实时推理标准价格（单位：元 / 百万 Token）：

┌──────────────┬──────────┬──────────┬────────────┬──────────────┐ │ 模型 │ 输入价格 │ 输出价格 │ 上下文窗口 │ 定位 │ ├──────────────┼──────────┼──────────┼────────────┼──────────────┤ │ Qwen-Max │ 2.40 元 │ 9.60 元 │ 128K │ 旗舰，最强智能 │ │ Qwen-Plus │ 0.80 元 │ 2.00 元 │ 128K │ 均衡，性价比 │ │ Qwen-Flash │ 0.00 元 │ 0.00 元 │ 32K │ 轻量，免费 │ │ Qwen-Turbo │ 0.35 元 │ 0.70 元 │ 128K │ 快速，低成本 │ ├──────────────┼──────────┼──────────┼────────────┼──────────────┤ │ Qwen3-Max │ 2.50 元 │ 10.00 元 │ 32K │ 特定版本 │ │ (短窗口版) │ │ │ │ │ │ Qwen3-Max │ 7.00 元 │ 28.00 元 │ 128K-252K │ 长上下文版 │ │ (长窗口版) │ │ │ │ │ └──────────────┴──────────┴──────────┴────────────┴──────────────┘

3.2 长上下文阶梯定价

当请求的上下文超过标准窗口时，价格会上涨：

Qwen3-Max 阶梯定价： ┌─────────────────────┬──────────┬──────────┐ │ 上下文长度 │ 输入价格 │ 输出价格 │ ├─────────────────────┼──────────┼──────────┤ │ 0 < Len ≤ 32K │ 2.50 元 │ 10.00 元 │ │ 32K < Len ≤ 128K │ 2.40 元 │ 9.60 元 │ │ 128K < Len ≤ 252K │ 7.00 元 │ 28.00 元 │ └─────────────────────┴──────────┴──────────┘

注意：长上下文（>128K）的价格是标准价格的约 3 倍，这是因为处理超长文本需要更多的 GPU 显存和计算资源。

3.3 缓存与批量调用优惠

┌──────────────────────────────────────────────────┐ │ 阿里云百炼优惠机制 │ ├──────────────────┬───────────────────────────────┤ │ 上下文缓存命中 │ 缓存部分输入 Token ≈ 原价 10% │ ├──────────────────┼───────────────────────────────┤ │ Batch 批量调用 │ 实时推理价格的 50%（半价） │ ├──────────────────┼───────────────────────────────┤ │ 新用户免费额度 │ 7000 万 Tokens（90 天有效） │ └──────────────────┴───────────────────────────────┘

3.4 百炼计费示例

场景 1：日常对话

输入: "帮我写一段 Python 的快速排序代码" (15 tokens) 输出: 代码 + 解释 (~200 tokens) 费用: 15/1M × 2.40 + 200/1M × 9.60 = 0.000036 + 0.00192 ≈ 0.002 元

场景 2：长文档分析

输入: 上传一篇 50000 tokens 的技术文档 (50K tokens) 输出: 摘要 + 分析 (~2000 tokens) 费用: 50000/1M × 2.40 + 2000/1M × 9.60 = 0.12 + 0.0192 ≈ 0.14 元

四、全平台主流模型价格对比

4.1 各厂商主力模型定价

以下价格统一换算为人民币/百万 Token（汇率按 1 USD ≈ 7.2 CNY 估算，2026 年 4 月参考）：

┌─────────────────────────┬──────────────┬──────────────┬────────────┐ │ 模型 │ 输入价格 │ 输出价格 │ 上下文窗口 │ │ │ (元/百万) │ (元/百万) │ │ ├─────────────────────────┼──────────────┼──────────────┼────────────┤ │ 【Anthropic】 │ │ Claude Opus 4.6 │ 36.00 │ 180.00 │ 200K │ │ Claude Sonnet 4.6 │ 21.60 │ 108.00 │ 200K │ │ Claude Haiku 4.5 │ 7.20 │ 25.20 │ 200K │ ├─────────────────────────┼──────────────┼──────────────┼────────────┤ │ 【OpenAI】 │ │ GPT-5.4 │ 18.00 │ 72.00 │ 128K │ │ GPT-4.1 │ 14.40 │ 72.00 │ 64K │ │ GPT-4o │ 18.00 │ 36.00 │ 128K │ ├─────────────────────────┼──────────────┼──────────────┼────────────┤ │ 【Google】 │ │ Gemini 3 Pro │ 25.20 │ 108.00 │ 64K │ │ Gemini 2.5 Flash │ 1.08 │ 3.60 │ 256K │ │ Gemini 2.0 Flash │ 2.16 │ 4.32 │ 128K │ ├─────────────────────────┼──────────────┼──────────────┼────────────┤ │ 【阿里云/通义】 │ │ Qwen-Max │ 2.40 │ 9.60 │ 128K │ │ Qwen-Plus │ 0.80 │ 2.00 │ 128K │ │ Qwen-Flash │ 免费 │ 免费 │ 32K │ │ Qwen-Turbo │ 0.35 │ 0.70 │ 128K │ ├─────────────────────────┼──────────────┼──────────────┼────────────┤ │ 【DeepSeek】 │ │ DeepSeek-V3 │ 1.44 │ 2.16 │ 128K │ │ DeepSeek-R1 │ 2.88 │ 8.64 │ 128K │ └─────────────────────────┴──────────────┴──────────────┴────────────┘

4.2 价格对比柱状图（输入 Token 价格，元/百万）

Claude Opus 4.6 ████████████████████████████████████████ 36.00 Gemini 3 Pro ██████████████████████████████ 25.20 Claude Sonnet 4.6 █████████████████████████ 21.60 GPT-5.4 ██████████████████████ 18.00 GPT-4o ██████████████████████ 18.00 GPT-4.1 ██████████████████ 14.40 DeepSeek-R1 ████████████████████████ 8.64(输出) DeepSeek-V3 █████████████ 2.16(输出) Qwen-Max ██████████ 9.60(输出) Gemini 2.5 Flash ████ 3.60(输出) Qwen-Plus ████ 2.00(输出) Gemini 2.0 Flash █████ 4.32(输出) Qwen-Turbo █ 0.70(输出) Qwen-Flash ░░░ 免费

4.3 性价比排名（输出价格从低到高）

┌──────┬────────────────────┬──────────────┬──────────┐ │ 排名 │ 模型 │ 输出价格 │ 性价比 │ │ │ │ (元/百万) │ 评分 │ ├──────┼────────────────────┼──────────────┼──────────┤ │ 1 │ Qwen-Flash │ 免费 │ ★★★★★ │ │ 2 │ Qwen-Turbo │ 0.70 │ ★★★★★ │ │ 3 │ Qwen-Plus │ 2.00 │ ★★★★☆ │ │ 4 │ Gemini 2.5 Flash │ 3.60 │ ★★★★☆ │ │ 5 │ DeepSeek-V3 │ 2.16 │ ★★★★☆ │ │ 6 │ Qwen-Max │ 9.60 │ ★★★★☆ │ │ 7 │ GPT-4o │ 36.00 │ ★★★☆☆ │ │ 8 │ Gemini 2.0 Flash │ 4.32 │ ★★★★☆ │ │ 9 │ Claude Sonnet 4.6 │ 108.00 │ ★★★☆☆ │ │ 10 │ Claude Opus 4.6 │ 180.00 │ ★★☆☆☆ │ └──────┴────────────────────┴──────────────┴──────────┘

关键发现：

国产模型价格优势明显：Qwen-Plus 的输出价格仅为 Claude Sonnet 4.6 的1.8%，GPT-4o 的5.5%
DeepSeek 是国际模型中的价格屠夫：输出价格仅为 GPT 系列的5-10%
免费额度：Qwen-Flash 目前免费，适合低预算项目
最贵模型：Claude Opus 4.6 输出价格 180 元/百万 Token，是 Qwen-Plus 的90 倍

五、模型能力维度排名

5.1 智能水平排名（综合基准分数）

以下为 2026 年公开的 benchmark 数据汇总（满分 100）：

┌──────┬──────────────────┬───────┬───────┬───────┬─────────┐ │ 排名 │ 模型 │ MMLU │GPQA │HumanEval│ 综合分 │ │ │ │ (通用) │(科学) │(编程) │ │ ├──────┼──────────────────┼───────┼───────┼───────┼─────────┤ │ 1 │ Claude Opus 4.6 │ 91.2 │ 84.5 │ 94.3 │ 90.0 │ │ 2 │ GPT-5.4 │ 90.8 │ 83.1 │ 93.7 │ 89.2 │ │ 3 │ Gemini 3 Pro │ 89.5 │ 82.8 │ 92.1 │ 88.1 │ │ 4 │ Claude Sonnet 4.6│ 88.3 │ 80.2 │ 91.5 │ 86.7 │ │ 5 │ Qwen-Max │ 86.5 │ 76.8 │ 88.2 │ 83.8 │ │ 6 │ GPT-4.1 │ 87.1 │ 77.5 │ 89.0 │ 84.5 │ │ 7 │ DeepSeek-R1 │ 85.2 │ 75.3 │ 87.6 │ 82.7 │ │ 8 │ Gemini 2.5 Flash │ 82.4 │ 71.2 │ 84.5 │ 79.4 │ │ 9 │ Qwen-Plus │ 80.1 │ 68.5 │ 82.3 │ 77.0 │ │ 10 │ DeepSeek-V3 │ 78.6 │ 65.8 │ 80.1 │ 74.8 │ │ 11 │ GPT-4o │ 83.5 │ 72.1 │ 85.7 │ 80.4 │ │ 12 │ Qwen-Turbo │ 74.2 │ 60.3 │ 75.8 │ 70.1 │ └──────┴──────────────────┴───────┴───────┴───────┴─────────┘

说明：

MMLU：大规模多任务语言理解，衡量通用知识
GPQA：研究生级问答，衡量科学推理能力
HumanEval：编程能力基准，衡量代码生成质量

5.2 智能水平 vs 价格散点图

智能分数 95 │ * Opus 4.6 │ * GPT-5.4 90 │ * Gemini 3 Pro │ * Sonnet 4.6 85 │ * Qwen-Max * GPT-4.1 │ 80 │* DeepSeek-R1 * GPT-4o │ * Gemini 2.5 Flash 75 │ * Qwen-Plus │ * DeepSeek-V3 70 │ * Qwen-Turbo │ * Qwen-Flash(免费) 65 │ └─────┬─────┬─────┬─────┬─────┬─────┬───── 0.1 1 5 10 30 100 200 输出价格（元/百万Token，对数轴） → 左上角区域 = 高智能 + 低价格 = 最佳性价比

5.3 上下文窗口排名

┌──────┬──────────────────┬──────────────┬──────────────────┐ │ 排名 │ 模型 │ 最大上下文 │ 相当于多少汉字 │ ├──────┼──────────────────┼──────────────┼──────────────────┤ │ 1 │ Gemini 2.5 Flash │ 256K │ ~19 万字 │ │ 2 │ Claude Opus 4.6 │ 200K │ ~15 万字 │ │ 2 │ Claude Sonnet 4.6│ 200K │ ~15 万字 │ │ 2 │ Claude Haiku 4.5 │ 200K │ ~15 万字 │ │ 4 │ Qwen-Max/Plus │ 128K │ ~9.6 万字 │ │ 4 │ GPT-5.4 │ 128K │ ~9.6 万字 │ │ 4 │ GPT-4o │ 128K │ ~9.6 万字 │ │ 4 │ GPT-4.1 │ 64K │ ~4.8 万字 │ │ 4 │ Gemini 3 Pro │ 64K │ ~4.8 万字 │ │ 7 │ DeepSeek 系列 │ 128K │ ~9.6 万字 │ │ 8 │ Qwen-Flash │ 32K │ ~2.4 万字 │ │ 8 │ Qwen-Turbo │ 128K │ ~9.6 万字 │ └──────┴──────────────────┴──────────────┴──────────────────┘

5.4 速度排名（首字延迟 TTFT + 吞吐率）

┌──────┬──────────────────┬──────────────┬───────────────┬───────┐ │ 排名 │ 模型 │ 首字延迟 │ 生成速度 │ 评级 │ │ │ │ (TTFT) │ (tokens/sec) │ │ ├──────┼──────────────────┼──────────────┼───────────────┼───────┤ │ 1 │ Qwen-Flash │ < 0.1s │ > 1000 │ 极快 │ │ 2 │ Qwen-Turbo │ < 0.2s │ 500-800 │ 极快 │ │ 3 │ Gemini 2.5 Flash │ < 0.2s │ 400-600 │ 极快 │ │ 4 │ Qwen-Plus │ < 0.3s │ 300-500 │ 很快 │ │ 5 │ DeepSeek-V3 │ < 0.3s │ 250-400 │ 很快 │ │ 6 │ Gemini 2.0 Flash │ < 0.3s │ 300-450 │ 很快 │ │ 7 │ GPT-4o │ < 0.5s │ 150-250 │ 快 │ │ 8 │ Qwen-Max │ < 0.5s │ 150-250 │ 快 │ │ 9 │ Claude Sonnet 4.6│ < 0.6s │ 100-200 │ 中等 │ │ 10 │ GPT-5.4 │ < 0.5s │ 100-180 │ 中等 │ │ 11 │ DeepSeek-R1 │ < 1.0s │ 80-150 │ 较慢 │ │ 12 │ Claude Opus 4.6 │ < 0.8s │ 50-100 │ 较慢 │ │ 13 │ Gemini 3 Pro │ < 0.7s │ 60-120 │ 较慢 │ └──────┴──────────────────┴──────────────┴───────────────┴───────┘

速度说明：

TTFT（Time To First Token）：从发送请求到收到第一个 Token 的时间，影响"响应速度"感知
生成速度：每秒生成的 Token 数，影响长回复的等待时间
推理模型（如 DeepSeek-R1）因为需要"思考"过程，TTFT 和生成速度都较慢

5.5 多模态能力对比

┌──────────────────┬──────┬──────┬──────┬──────┬──────────┐ │ 模型 │ 文本 │ 图片 │ 音频 │ 视频 │ 代码执行 │ ├──────────────────┼──────┼──────┼──────┼──────┼──────────┤ │ Claude Opus 4.6 │ ✅ │ ✅ │ ✅ │ ✅ │ ❌ │ │ Claude Sonnet 4.6 │ ✅ │ ✅ │ ✅ │ ✅ │ ❌ │ │ GPT-5.4 │ ✅ │ ✅ │ ✅ │ ❌ │ ✅ │ │ GPT-4o │ ✅ │ ✅ │ ✅ │ ✅ │ ✅ │ │ Gemini 3 Pro │ ✅ │ ✅ │ ✅ │ ✅ │ ✅ │ │ Gemini 2.5 Flash │ ✅ │ ✅ │ ✅ │ ✅ │ ✅ │ │ Qwen-Max │ ✅ │ ✅ │ ❌ │ ❌ │ ❌ │ │ Qwen-Plus │ ✅ │ ✅ │ ❌ │ ❌ │ ❌ │ │ DeepSeek-V3 │ ✅ │ ❌ │ ❌ │ ❌ │ ❌ │ │ DeepSeek-R1 │ ✅ │ ❌ │ ❌ │ ❌ │ ❌ │ └──────────────────┴──────┴──────┴──────┴──────┴──────────┘

5.6 编程能力排名

┌──────┬──────────────────┬──────────┬──────────┬────────────┐ │ 排名 │ 模型 │ HumanEval│ SWE-bench│ 编程评级 │ │ │ │ (%) │ (%) │ │ ├──────┼──────────────────┼──────────┼──────────┼────────────┤ │ 1 │ Claude Opus 4.6 │ 94.3 │ 71.2 │ ★★★★★ │ │ 2 │ GPT-5.4 │ 93.7 │ 69.8 │ ★★★★★ │ │ 3 │ GPT-4.1 │ 89.0 │ 63.5 │ ★★★★☆ │ │ 4 │ Claude Sonnet 4.6│ 91.5 │ 65.1 │ ★★★★☆ │ │ 5 │ Gemini 3 Pro │ 92.1 │ 66.3 │ ★★★★☆ │ │ 6 │ Qwen-Max │ 88.2 │ 58.7 │ ★★★★☆ │ │ 7 │ DeepSeek-R1 │ 87.6 │ 57.2 │ ★★★★☆ │ │ 8 │ GPT-4o │ 85.7 │ 55.3 │ ★★★★☆ │ │ 9 │ Gemini 2.5 Flash │ 84.5 │ 52.1 │ ★★★☆☆ │ │ 10 │ DeepSeek-V3 │ 80.1 │ 45.6 │ ★★★☆☆ │ │ 11 │ Qwen-Plus │ 82.3 │ 48.3 │ ★★★☆☆ │ │ 12 │ Qwen-Turbo │ 75.8 │ 35.2 │ ★★☆☆☆ │ └──────┴──────────────────┴──────────┴──────────┴────────────┘

SWE-bench：衡量模型解决真实 GitHub Issue 的能力，更贴近实际开发场景。

5.7 综合评分矩阵

各维度满分 10 分，综合排名： ┌──────────────────┬──────┬──────┬──────┬──────┬────────┐ │ 模型 │ 智能 │ 速度 │ 价格 │ 多模 │ 综合分 │ │ │ 水平 │ │ 优势 │ 态 │ │ ├──────────────────┼──────┼──────┼──────┼──────┼────────┤ │ Claude Opus 4.6 │ 9.5 │ 4.0 │ 2.0 │ 9.0 │ 6.1 │ │ GPT-5.4 │ 9.3 │ 5.0 │ 3.0 │ 8.0 │ 6.3 │ │ Gemini 3 Pro │ 9.0 │ 4.5 │ 2.5 │ 9.5 │ 6.4 │ │ Claude Sonnet 4.6│ 8.8 │ 5.5 │ 3.5 │ 9.0 │ 6.7 │ │ Qwen-Max │ 8.5 │ 6.0 │ 8.5 │ 5.0 │ 7.0 │ │ GPT-4o │ 8.2 │ 6.5 │ 4.0 │ 9.0 │ 6.9 │ │ DeepSeek-R1 │ 8.4 │ 4.0 │ 7.0 │ 2.0 │ 5.4 │ │ Gemini 2.5 Flash │ 8.0 │ 7.5 │ 8.0 │ 9.5 │ 8.3 │ │ Qwen-Plus │ 7.8 │ 7.0 │ 9.5 │ 5.0 │ 7.3 │ │ DeepSeek-V3 │ 7.5 │ 7.0 │ 9.0 │ 2.0 │ 6.4 │ │ Qwen-Turbo │ 7.0 │ 9.0 │ 9.8 │ 5.0 │ 7.7 │ │ Qwen-Flash │ 6.0 │ 9.5 │ 10.0 │ 3.0 │ 7.1 │ └──────────────────┴──────┴──────┴──────┴──────┴────────┘ 价格优势评分 = 10 - log₁₀(输出价格/0.01)

六、如何选择适合自己的模型？

6.1 按场景推荐

┌───────────────────┬─────────────────────────────────────────────┐ │ 场景 │ 推荐模型 │ ├───────────────────┼─────────────────────────────────────────────┤ │ 日常问答/客服 │ Qwen-Plus（便宜 + 快 + 够用） │ │ │ Qwen-Flash（免费，适合低成本客服机器人） │ ├───────────────────┼─────────────────────────────────────────────┤ │ 编程辅助/代码生成 │ Claude Sonnet 4.6（编程能力最强） │ │ │ GPT-5.4（代码生成 + 代码执行一体） │ │ │ Qwen-Max（国内平替，性价比高） │ ├───────────────────┼─────────────────────────────────────────────┤ │ 长文档分析/摘要 │ Gemini 2.5 Flash（256K 窗口 + 快速） │ │ │ Claude Opus 4.6（200K 窗口 + 深度理解） │ │ │ Qwen-Max（128K 窗口 + 国内数据合规） │ ├───────────────────┼─────────────────────────────────────────────┤ │ 高并发 API 服务 │ Qwen-Turbo（极快 + 极便宜） │ │ │ Gemini 2.0 Flash（快速 + 稳定） │ │ │ DeepSeek-V3（快速 + 国际最低廉） │ ├───────────────────┼─────────────────────────────────────────────┤ │ 科学推理/研究 │ Claude Opus 4.6（GPQA 最高 84.5） │ │ │ Gemini 3 Pro（科学能力强劲） │ │ │ DeepSeek-R1（推理模型，适合数学/逻辑） │ ├───────────────────┼─────────────────────────────────────────────┤ │ 多模态（图片/视频）│ Gemini 2.5 Flash（全模态 + 快速 + 便宜） │ │ │ Claude Sonnet 4.6（全模态 + 强理解） │ │ │ GPT-4o（全模态 + 代码执行） │ ├───────────────────┼─────────────────────────────────────────────┤ │ 极致智能/不差钱 │ Claude Opus 4.6（当前最强） │ │ │ GPT-5.4（综合顶尖） │ └───────────────────┴─────────────────────────────────────────────┘

6.2 按预算推荐

月预算 < 100 元： → Qwen-Flash（免费） → Qwen-Turbo（约 0.70 元/百万输出 Token） 月预算 100-1000 元： → Qwen-Plus（日常使用绰绰有余） → DeepSeek-V3（需要国际模型时选它） → Gemini 2.5 Flash（需要大窗口时） 月预算 1000-10000 元： → Qwen-Max（国内最强智能） → Claude Sonnet 4.6（需要编程/多模态时） → GPT-4.1（需要 OpenAI 生态时） 月预算 > 10000 元： → Claude Opus 4.6（极致智能） → GPT-5.4（极致智能 + 代码执行） → Gemini 3 Pro（多模态 + 强智能）

6.3 省钱技巧总结

┌──────┬─────────────────────────────────────────────┬────────────┐ │ 技巧 │ 具体做法 │ 节省比例 │ ├──────┼─────────────────────────────────────────────┼────────────┤ │ 1 │ 开启上下文缓存（Context Cache） │ 60-80% │ │ 2 │ 非实时场景使用 Batch 调用 │ 50% │ │ 3 │ 压缩 Prompt，删除冗余内容 │ 20-40% │ │ 4 │ 用便宜模型做预处理，贵模型做最终输出 │ 30-50% │ │ 5 │ 利用新用户免费额度 │ 初期免费 │ │ 6 │ 长任务先用小窗口模型缩小范围 │ 20-30% │ │ 7 │ 设置 max_tokens 限制，防止模型输出过长 │ 10-30% │ │ 8 │ 复用系统 Prompt，利用缓存命中 │ 60-80% │ └──────┴─────────────────────────────────────────────┴────────────┘

最推荐的组合策略（技巧 1 + 4）：

用户请求 ↓ [Qwen-Turbo] 分类 + 简单问题直接回答（便宜，0.35 元/M） ↓ 复杂问题 → [Qwen-Max] 深度分析和生成（智能，2.40/9.60 元/M） ↓ 回复缓存 → 下次同类请求直接返回缓存结果（命中部分 10% 价格） 预期节省：40-60%

6.4 常见踩坑提醒

⚠️ 坑 1：Token 数 ≠ 字数 同一个 Prompt 在不同模型的 Token 数可能差异 20-40% → 估算费用时，先用自己的实际 Token 数测一次 ⚠️ 坑 2：隐藏费用 部分模型的 Embedding 调用、图片处理单独收费 → 使用前确认所有收费项目 ⚠️ 坑 3：长上下文溢价 超过标准窗口后价格翻倍（3-4 倍） → 先裁剪无关内容，控制输入在标准窗口内 ⚠️ 坑 4：推理模型"思考"过程也收费 DeepSeek-R1 等推理模型会输出思考过程，Token 量大增 → 设置输出长度上限，或改用非推理模式 ⚠️ 坑 5：免费额度过期 新用户免费额度通常 90 天后失效 → 不要依赖免费额度做长期项目 ⚠️ 坑 6：国际模型汇率波动 美元定价，人民币实际支付受汇率影响 → 预算规划时预留 5-10% 汇率波动空间

七、FAQ 常见问题

Q1：Token 和字数怎么换算？

英文：1 Token ≈ 0.75 个英文单词

中文：1 Token ≈ 1-1.5 个汉字（取决于分词器）

快速估算：

英文字数 ÷ 4 × 3 ≈ Token 数 中文字数 × 0.7 ~ 1.0 ≈ Token 数

💡 建议：使用各厂商提供的 Token 计算器工具获取准确数字。阿里云百炼控制台、OpenAI Playground 都有内置的 Token 计数功能。

Q2：如何准确计算我的请求消耗了多少 Token？

API 响应中通常包含usage字段：

{"usage":{"prompt_tokens":15,"completion_tokens":85,"total_tokens":100}}

prompt_tokens= 输入 Token 数
completion_tokens= 输出 Token 数
total_tokens= 总计

Q3：为什么同样的 Prompt 在不同模型 Token 数不一样？

因为每个模型的Tokenizer（分词器）不同：

Prompt: "I'm using artificial intelligence" GPT 的 Tokenizer: ["I'm", " using", " art", "ificial", " intellig", "ence"] = 6 tokens Claude 的 Tokenizer: ["I'm", " using", " artificial", " intelligence"] = 4 tokens Qwen 的 Tokenizer: ["I", "'", "m", " using", "artificial", "intelligence"] = 6 tokens

词表越大、分词策略越优的模型，Token 数通常越少。

Q4：如何节省 Token 费用？

Top 5 省钱策略：

开启上下文缓存：重复使用的系统 Prompt 和历史对话会被缓存，命中部分仅收 10%
精简 Prompt：删除冗余描述、去掉不需要的示例
设置 max_tokens：限制模型最大输出长度
用便宜模型做预处理：先用 Qwen-Turbo 做分类/过滤，只对复杂问题调用 Qwen-Max
Batch 模式调用：离线数据分析等非实时场景，使用 Batch 调用享受半价

Q5：免费 Token 用完后会自动扣费吗？

阿里云百炼：免费额度用完后，如果账户有余额且已开通后付费，会自动按量计费。如果未开通后付费，API 调用会返回错误。

建议：设置费用告警，避免意外超额消费。

Q6：我应该选哪个模型作为默认模型？

如果只选一个：

国内开发：Qwen-Plus —— 价格便宜、速度够快、智能水平满足 80% 场景
国际开发：Gemini 2.5 Flash —— 大窗口、速度快、价格中等
不差钱追求质量：Claude Sonnet 4.6 —— 编程和多模态能力一流

附录：快速参考卡片

一句话总结各模型

Claude Opus 4.6 → 当前最强智能，但价格最贵，适合不差钱的场景 GPT-5.4 → 综合顶尖水平，代码执行是独有优势 Gemini 3 Pro → 多模态能力最强，Google 生态整合好 Qwen-Max → 国内最强智能，价格只有国际模型的 1/10 Qwen-Plus → 性价比之王，日常开发首选 Qwen-Flash → 免费！低预算项目/测试/原型开发 DeepSeek-V3 → 国际模型价格屠夫，开源可本地部署 DeepSeek-R1 → 推理能力强，适合数学/逻辑场景

汇率参考

1 USD ≈ 7.2 CNY（2026 年 4 月）

数据来源

阿里云百炼官方定价：help.aliyun.com/zh/model-studio/model-pricing
OpenAI 定价：openai.com/api/pricing
Anthropic 定价：docs.anthropic.com/en/docs/about-claude/models
Google Gemini 定价：ai.google.dev/pricing
DeepSeek 定价：platform.deepseek.com
Benchmark 数据：Vellum AI / Siliconflow / llm-stats.com 等公开排行榜

声明：本文价格和性能数据截至 2026 年 4 月。各厂商可能随时调整定价，请以官方最新公告为准。Benchmark 分数来源于公开排行榜汇总，不同测试环境可能有差异。