news 2026/6/1 14:09:16

不同编程语言里,特殊字符、空格、换行 对 Token 数量的影响 + 正确处理方法

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
不同编程语言里,特殊字符、空格、换行 对 Token 数量的影响 + 正确处理方法

直接用最常用的 4 种语言(Python / JS / Go / Java)给你讲清楚:空格、换行、标点、emoji、特殊符号都会占 Token,不同语言处理规则完全一致!


一、先记住核心规则(所有语言都一样)

不管用什么语言,tiktoken 分词规则统一

  1. 空格→ 算 Token
  2. 换行\n→ 算 Token
  3. 中英文标点,。!?#@%…&*→ 都算 Token
  4. emoji🎉🍢🔥 → 1 个 emoji = 1~3 Token
  5. 连续空格→ 会合并,但依然占少量 Token
  6. 制表符\t→ 算 Token

一句话:只要你肉眼能看到的符号,AI 都要算 Token!


二、每种语言的正确处理方式(直接复制运行)

我给你写可运行代码,包含:

  • 空格
  • 换行
  • 标点
  • emoji
  • 特殊字符

1. Python(最常用)

python

运行

import tiktoken enc = tiktoken.get_encoding("cl100k_base") text = "今天撸串 🍢 快乐!\n烟火人间…" tokens = enc.encode(text) print("Token 数量:", len(tokens)) # 会包含空格、emoji、标点、换行

处理多余空格 / 换行(减少 Token)

python

运行

import re text = "今天撸串 🍢\n\n快乐!" clean_text = re.sub(r'\s+', ' ', text).strip() # 合并空格+删除换行

2. JavaScript / Node.js

js

import { get_encoding } from "@dqbd/tiktoken"; const enc = get_encoding("cl100k_base"); const text = "今天撸串 🍢 快乐!\n烟火人间…"; const tokens = enc.encode(text); console.log("Token 数量:", tokens.length);

清理空格换行

js

const clean_text = text.replace(/\s+/g, " ").trim();

3. Go

go

运行

package main import "github.com/pkoukk/tiktoken-go" func main() { enc, _ := tiktoken.GetEncoding("cl100k_base") text := "今天撸串 🍢 快乐!\n烟火人间…" tokens := enc.Encode(text, nil, nil) println(len(tokens)) }

清理空格换行

go

运行

import "strings" clean := strings.Join(strings.Fields(text), " ")

4. Java

java

运行

import com.knuddels.jtokkit.api.Encoding; Encoding enc = EncodingFactory.defaultEncoding(); String text = "今天撸串 🍢 快乐!\n烟火人间…"; int count = enc.countTokens(text);

清理空格换行

java

运行

String clean = text.replaceAll("\\s+", " ").trim();

三、关键结论(所有语言通用)

1. 影响 Token 数量的符号

  • 空格
  • 换行
  • 标点
  • emoji
  • 特殊符号# $ % & * ( )
  • 制表符

2. 不影响 Token 的操作

  • 大小写(不额外增加)
  • 中文简体 / 繁体(正常计算)

3. 减少 Token 的统一方法(所有语言都能用)

plaintext

1. 合并连续空格 2. 删除多余换行 3. 删除不必要的标点、符号 4. 去掉不必要的 emoji
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/1 14:07:01

数字万用表系统性自检与安全使用全指南:从原理到实战避坑

1. 万用表:电子工程师的“听诊器”与“手术刀”在电子电路的世界里,无论是调试一块新设计的PCB,还是维修一台罢工的家电,你手边最不可或缺的工具,往往不是最昂贵的示波器或逻辑分析仪,而是一块看起来平平无…

作者头像 李华
网站建设 2026/6/1 14:03:23

初代Xbox内部高清改造:THS7316驱动分量输出与音频一体化方案

1. 项目概述:为初代Xbox注入高清灵魂如果你和我一样,是个对老主机有执念的玩家,手头那台初代Xbox(俗称“大黑盒”)肯定承载了不少回忆。但把它接到现在的4K电视上,那画面简直是一场灾难——要么是模糊的480…

作者头像 李华
网站建设 2026/6/1 14:02:07

终极指南:3步让魔兽争霸3在现代电脑上流畅运行

终极指南:3步让魔兽争霸3在现代电脑上流畅运行 【免费下载链接】WarcraftHelper Warcraft III Helper , support 1.20e, 1.24e, 1.26a, 1.27a, 1.27b 项目地址: https://gitcode.com/gh_mirrors/wa/WarcraftHelper 还在为魔兽争霸3在现代电脑上卡顿、闪退、帧…

作者头像 李华
网站建设 2026/6/1 13:55:57

抖音批量下载工具:5分钟掌握高效内容采集技巧

抖音批量下载工具:5分钟掌握高效内容采集技巧 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallback support. 抖音…

作者头像 李华