news 2026/7/3 22:04:34

一个Token的旅行

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
一个Token的旅行

我们从最日常的体验开始。当你和ChatGPT、Claude这些大模型对话时,背后计费的基础单位,叫Token;当你登录网站时生成的认证字符串,叫Token;你在区块链钱包里持有的各种数字资产,也常被统称为Token。同一个词,穿行在人工智能、网络安全和金融科技之间,但它背后有一个共通的内核——“代表某种事物的最小符号单元”

下面我们把这个概念层层剥开,重点放在当下最火热的AI领域,同时也兼顾其他场景,让你一口气看清楚它的全貌。


一、AI 与大语言模型中的 Token:让机器“读懂”语言的最小积木

这是目前最高频的语境。在自然语言处理(NLP)和生成式AI中,Token 是模型理解和生成文本的基本处理单位

1. 什么是 Token?——它不一定是整个单词

你输入的一句话,不会直接被送进模型,而是先被“切碎”成一个个 Token。

  • 一个 Token 可以是一个完整的单词,比如"apple"

  • 可以是单词的一部分(子词),比如"un"+"happiness"

  • 可以是一个标点符号,比如"!""。"

  • 甚至是一个空格,在某些分词器中也会被当作独立 Token(不过现代模型多采用更先进的子词算法,不会直接给空格分配单一Token)。

举个例子:“我喜欢学习自然语言处理。” 可能被切分为:

["我", "喜欢", "学习", "自然", "语言", "处理", "。"]

而英文"Tokenization is fun."则可能变成:

["Token", "ization", " is", " fun", "."]

注意" is"前面带了一个空格,这样算法能区分词首和词中的形式,保证还原文本时不会粘在一起。

2. 分词(Tokenization)——怎么切?

这个过程就叫分词。常用的算法是字节对编码(BPE)WordPiece。它们从字符级开始,不断合并高频出现的字符对,最终形成一个包含完整单词和常见词根的“词汇表”。

  • 优点:既能处理已知词汇,也能用子词拼接出从未见过的生僻词或新造词。比如"GPT4"可能会被切成["G", "PT", "4"]或者["GPT", "4"],取决于训练语料。

  • 每个 Token 在词汇表中都有一个唯一的整数 ID。模型不认识文字,只认识数字,所以Token → ID是把人类语言转化为数学计算的关键一步。

3. Token 的数字生命:从 ID 到嵌入

有了 ID 之后,模型会查表把它映射成一个高维向量——这就是著名的词嵌入(Embedding)。每个 Token 的向量承载了语义、语法和上下文信息。之后,Transformer架构利用自注意力机制,在整个Token序列中捕捉它们之间的复杂关系。

4. 为什么 Token 对我们如此重要?
  • 计费单位:几乎所有大模型API(OpenAI、Anthropic等)都按Token收费。输入和输出的Token数量直接决定成本。一个粗略的换算:英文中 1 Token ≈ 0.75 个单词,中文 1 个汉字大致是 1~2 个 Token(取决于分词方式)。

  • 上下文窗口:模型一次能“记住”的Token总数有限,比如 128k、200k 个Token。超过这个窗口,模型就会“忘记”开头的内容。所以Token也是衡量模型记忆力的标尺。

  • 速度与性能:生成的Token越多,响应越慢。模型架构本质上就是在做“下一个Token预测”——每步输出概率最高的下一个Token。

5. 中英文 Token 的差异

中文天然不靠空格分词,所以同样的意思,中英文的Token数量可能差别巨大。例如:

中文:“人工智能” → 可能 2 个 Token(“人工”“智能”)
英文:“Artificial Intelligence” → 通常 2 个 Token(“Artificial”, “ Intelligence”)
但一段复杂中文往往比英文消耗更多Token,因为汉字更密集,且分词后可能每个字都是一个Token。这也意味着用中文调用大模型可能稍贵一些。


二、区块链与加密货币中的 Token:数字世界的价值凭证

跳出AI,在区块链世界里,Token指基于已有公链(如以太坊)发行的加密数字资产,是一种“代币”或“通证”。

  • 与原生币的区别:以太坊的原生币是 ETH,它用于支付燃料费、维护网络安全。而Token是通过智能合约创造出来的新资产,比如 USDC、UNI、LINK。

  • Token 的多种形态

    • 同质化代币(Fungible Token):每个Token一模一样,可以互换,就像硬币。常见标准 ERC-20。应用有稳定币(USDT)、治理代币(赋予投票权)。

    • 非同质化代币(NFT):每个Token独一无二,无法互换,标准如 ERC-721。用于数字艺术品、游戏道具、身份标识等。

    • 灵魂绑定代币(SBT):不可转移的Token,用来绑定个人身份、学历、声誉等社会关系。

  • Token 的本质是智能合约里的一个账本记录。它赋予持有者某种权利——可能是项目收益权、产品使用权、社区投票权,或者仅仅是承载着一种社区文化认同。


三、网络安全与身份认证中的 Token:你身份的“临时通行证”

在计算机安全领域,Token是一种用于验证身份和授权的信息载体,常翻译为“令牌”。

1. 硬件令牌与软件令牌

传统的银行U盾、RSA SecurID 就是硬件令牌,它每60秒生成一个一次性密码,用于双因素认证。现在手机App(谷歌验证器、微软Authenticator)充当软件令牌,原理相同。

2. 访问令牌(Access Token)

当你用微信账号登录第三方网站时,微信会颁发一个Access Token给那个网站。这个Token是一个字符串,包含了你授权给该网站的权限范围和有效期。网站拿着它去请求你的头像、昵称,但看不到密码。最常见的是OAuth 2.0 框架

3. JSON Web Token (JWT)

这是一种轻量级的自包含令牌,结构为头部.负载.签名,直接嵌入了用户信息(如用户ID、角色)和过期时间。服务器无需查询数据库,只需验证签名就能确认身份,广泛用于API认证和单点登录。

eyJhbGciOiJIUzI1NiJ9. eyJ1c2VySWQiOjEyMzQ1LCJleHAiOjE2OTAwMDAwMDB9. 4B0lE-...
4. 会话令牌(Session Token)

传统的Web应用中,用户登录后服务器生成一个随机字符串存入Cookie,它就是会话Token。后续请求携带它,服务器就能认出你是已登录用户。它与JWT不同,通常需要一个中心化的会话存储。

在这些场景里,Token 就是一个“替身”——它代替你的密码、代替你的身份,在系统间安全传递信任。


四、Token 在其他领域的回响

这个词的覆盖面极广,再补充几个有意思的含义:

  • 语言学/符号学:Token 是某个类型(Type)的具体实例。比如“花”这个字,在“花开花落花满天”里出现了3次,就有3个“花”的Token,但只有1个Type。这影响了语料库统计中的“形符/类符比”。

  • 经济学/行为心理学:“代币经济”(Token Economy)常用于行为矫正,例如孩子表现好给一个小贴纸,集满换奖励。贴纸就是一种Token,作为条件强化物。

  • 传统游戏:游戏厅的代币(游戏币),现实世界里一枚金属或塑料小圆片,也是Token。

  • 编程与编译原理:在词法分析阶段,源代码被分割成一个个Token(关键字、标识符、运算符等)。这是编译器理解程序结构的第一步,逻辑上和AI的分词异曲同工。


结语:理解 Token,就看你怎么“切”世界

如果把所有使用场景串起来,Token 的共性就是:将复杂事物抽象为可操作、可传递、可计量的符号单元

  • 在AI中,语言被切分为 Token,才能进入数学世界。

  • 在区块链中,资产和权益被编码为 Token,才能自由流转。

  • 在安全认证中,身份和权限被封装为 Token,才能安全地临时授信。

所以,下次你听到“token”,不妨先在脑中问一句:“这到底是在切分文字,发行资产,还是签发一张数字通行证?” 领域不同,但“代表者”这一灵魂,始终如一。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/3 22:02:37

掌握图像转3D模型:ImageToSTL实现智能立体照片打印

掌握图像转3D模型:ImageToSTL实现智能立体照片打印 【免费下载链接】ImageToSTL This tool allows you to easily convert any image into a 3D print-ready STL model. The surface of the model will display the image when illuminated from the left side. 项…

作者头像 李华
网站建设 2026/7/3 21:53:52

论文通关利器!好用的AI论文软件,成稿速度破纪录

作为一名刚完成毕业论文的过来人,我太懂写论文的痛苦了 —— 选题迷茫、文献浩如烟海、框架混乱、熬夜改稿、查重降重反复折腾... 直到我发现了这套 AI 写作工具组合,简直是论文写作的 "开挂神器",效率直接拉满,原本 3 …

作者头像 李华
网站建设 2026/7/3 21:52:38

5分钟实战指南:用m4s-converter无损转换B站缓存视频

5分钟实战指南:用m4s-converter无损转换B站缓存视频 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter 还在为B站缓存视频无法在其他设备…

作者头像 李华
网站建设 2026/7/3 21:51:59

13DOF传感器与PIC18F47K42微控制器的定位系统设计

1. 13DOF传感器与PIC18F47K42微控制器的定位系统概述在嵌入式系统开发领域,精确的定位与导航功能已成为各类智能设备的核心需求。13DOF(13自由度)传感器模块结合PIC18F47K42微控制器构建的解决方案,正在为工业自动化、消费电子和机…

作者头像 李华
网站建设 2026/7/3 21:41:55

LDAP未授权访问漏洞:原理、验证与安全加固实战指南

1. 项目概述:当LDAP门户洞开时最近在内部安全巡检和外部渗透测试项目中,LDAP未授权访问这个“老熟人”又频频现身。它不像那些利用复杂逻辑缺陷的0day漏洞那样引人注目,但杀伤力却一点不弱。简单来说,这就好比你把公司所有员工的通…

作者头像 李华
网站建设 2026/7/3 21:32:27

如何突破浏览器限制:3大创新技术让资源嗅探更高效

如何突破浏览器限制:3大创新技术让资源嗅探更高效 【免费下载链接】cat-catch 猫抓 浏览器资源嗅探扩展 / cat-catch Browser Resource Sniffing Extension 项目地址: https://gitcode.com/GitHub_Trending/ca/cat-catch 猫抓Cat-Catch作为一款浏览器资源嗅探…

作者头像 李华