news 2026/4/25 18:15:43

【DataWhale组队学习】DIY-LLM Task1分词器

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【DataWhale组队学习】DIY-LLM Task1分词器

原文链接

0. 引言:为什么要学分词器

分词器常被视为LLM的一部分,但它其实有独立的训练生命周期。

Tokenizer本质上是将原始文本转换为模型可处理的离散符号序列的组件,它可以决定模型看到世界的基本粒度:是字符、单词、子词,还是字节片段,而这个粒度的选择会进一步影响序列长度、OOV、词表的规模还有训练效率等。

显然模型并不能直接处理文字,模型的上下文也并不是无限的,那么一个好的合适的Tokenizer便是影响模型效果甚至是否可用十分重要的因素。所以我们需要学习Tokenizer,了解其基本训练流程、种类和主要的评价指标。

1. 分词器的整体训练流程

  1. 准备语料
  2. 初始化基础单元
  3. 统计并迭代更新
  4. 输出产物并用于编码与解码

​​​​

分词器训练是一个有如上四个步骤的完整流程。

不同分词算法的差异,将主要体现在“初始单元如何选”、“相邻片段如何合并”、“何时停止迭代”这三个问题上。

2. 预处理

Tokenizer的输入并不是原始文本本身,而是经过清洗、脱敏、预分词后得到的可统计序列。后续所有BPE、WordPiece、Unigram的统计学习,都是建立在这个输入之上。

2.1 数据脱敏

  • 高确定性规则先处理,如手机号、邮箱;
  • 中确定性规则再处理,如地址关键词;
  • 低确定性规则最后兜底,如姓名模板;
  • NER,即命名实体识别(Named Entity Recognition,NER)技术,则补充语义级脱敏。

脱敏不仅仅是出于隐私保护考虑,更是在降低高熵、低复用的信息对统计学习的干扰,有利于下面分词过程和模型的稳定性。

2.2 多语言语料

应该根据模型目标能力设定合适的采样策略,避免词表被高频的语言(英文/中文)主导,会挤占低频语言"merge"的机会,加剧token碎片化。

2.3 预分词

预分词的主要任务是将原始文本切分成可统计、可合并的基础单元,例如字符、字节或Unicode片段。

常见策略:

  • 基于空格和标点的切分
  • 按Unicode类别划分
  • 字节级切分

并不是所有的分词器都需要显式进行预分词。例如基于SentencePiece的分词器将标准化和预分词逻辑内置,因此无需在外部额外执行预分词步骤。

3. 常见分词器的原理与优缺点

3.1 字符级

原理:将文本拆解为最小的字符单位即单个字符。
优点:词表小(英文26个字母,中文几千个汉字)、无OOV(任何词都是字符组成的)。
缺点:序列太长、语义稀疏(单个字符一般不具什么语义,需要更深的网络来组合出语义)。
适用场景:中文等无空格语言、低资源小语种、短文本对话。

3.2 字节级

原理:在UTF-8编码中,英文字母占1个字节,汉字占3个字节,直接对二进制字节进行操作。
优点:基础词表固定为256,天然覆盖所有字符和emoji,无OOV。
缺点:压缩率恒为1(一个字节就对应一个token),无压缩能力。
适用场景:多语言混合、生僻字、特殊字符。

3.3 词级

原理:深度学习早期(如RNN时代)最主流的方法。基于空格(英文)或分词算法(中文)将文本切成有独立语义的“词”。
优点:语义完整、token数少。
缺点:词表爆炸(语言中词很多),OOV严重(人名、新造词等)、中文分词容易产生歧义。
适用场景:语法规则规范、词汇固定的领域,如:新闻、公文、正规书面语。

3.4 BPE

原理:目前LLM最主流的分词算法,统计相邻字符对出现的频率,迭代地将最频繁出现的字符对合并成一个新的Token。
优点:在字符级和词级之间取得平衡,通过统计学习得到高频子词。
缺点:训练过程更复杂,需要迭代统计和合并。
适用场景:目前主流。

4. BPE核心逻辑

BPE(Byte Pair Encoding)是一种基于频率统计的贪心合并算法,是在字符级过细和词级过粗之间寻找平衡。其核心思想如3.4所说,非常简单。

BPE不是一次统计,然后一直合并,而是一个不断循环的过程:

  1. 定义初始基础单元
  2. 统计所有相邻pair的频率
  3. 找到最高频pair
  4. 合并为新token
  5. 用新token重写语料
  6. 重复直到达到目标词表大小或继续合并收益很小为止

因此,BPE的本质可以理解为一种数据驱动压缩:让高频同现的片段逐渐变成更长更稳定的子词单元,从而减少token数量,同时降低OOV。

5. DeepSeek 分词器细节:为什么字节级 BPE 要借助 latin1

DeepSeek风格tokenizer的一个关键工程点,是在字节级BPE中使用latin-1做了中间编解码。

原因在于BPE训练实现需要把字节按“字符”来操作,因为BPE完全不管你是不是一个完整的字而是字节片段高频同现就合并,所以一些中文的token的字节数可能不是3的倍数(一个汉字3个字节),压根就不是正常的中文词组,如果使用UTF-8解码,汉字、emoji等多字节字符的字节序列会因不完整而导致信息丢失。

而latin-1可以把0–255的每个字节值机械地映射为一个Unicode字符,并且这个映射是可逆的,这样就可以直接拿这些字符去操作,之后再反向还原。

所以:

  • UTF-8负责把原始文本变成字节流
  • latin1负责把字节流映射成“字符”
  • BPE再在这个壳上做pair合并
    使用latin1的目的,是为了确保任意字节序列都能完整、可逆地参与BPE训练与编码过程。

6. 压缩率、OOV 与效率评估

6.1 压缩率

压缩率可以理解为:同样一段文本,被编码后是否足够紧凑。
常用的口径是:

原始UTF-8字节长度 / token数量

token 越少,通常说明压缩率越高,表示效率越好。

字节级分词器的压缩率恒为1,而BPE的优势在于能够通过学习高频片段减少token数量,实现数据驱动压缩。

6.2 OOV

OOV是当LLM模型在处理新的、实际应用的文本时,如果遇到一个词汇表中没有的Token,那么这个Token就被视为一个OOV。

  • 词级分词器最容易出现OOV,因为新词、人名等词一旦不在词表中,就只能映射成<UNK>

  • 字符级和字节级天然没有OOV,因为任何文本都能拆成字符或字节

  • 字节级BPE进一步通过“合并token→字节token→<unk>”的回退链增强了鲁棒性,从以下代码中可以体现:

    defencode_chunk(self,chunk:str)->List[str]:""" 对一个预分词做BPE编码: - 转字节token - 逐步应用merges - 处理OOV:未知token拆回字节或标记为<unk> """......# OOV token拆回字节out=[]fortintokens:iftinself.token2id:out.append(t)else:# 拆分成字节token,如果字节token也不在词表 → <unk>out.extend([chifchinself.token2idelseself.unk_tokenforchint])returnout

6.3 效率评估指标

训练完成后,应关注这些指标:

  • 平均token数
  • 最大长度分布
  • 碎片化程度
  • 跨语言token平衡度

这些指标会直接影响模型的上下文利用率、训练显存开销和推理速度。

7. 理解与反思

Tokenizer本身并不理解语义,它更像一个基于统计规律和工程约束来构建离散输入空间的模块。真正的“语言理解”发生在后续Transformer中,但显然更合理的token划分,会直接影响模型训练的稳定性、上下文窗口的利用率以及处理多语言和特殊字符的能力。

我认为最有价值的并不只是BPE的合并逻辑,而是它背后的工程问题:如何处理多字节字符,如何保证编码可逆,如何处理OOV,如何平衡压缩率与跨语言能力,以及如何进行版本管理和回归测试保证训练与推理的一致性。

最后提出的思考也很有启发性:tokenizer不一定只是静态前处理模块,可以与更动态的选择机制结合,例如借鉴MoE的思想,在不同任务之间自适应选择更合适的表示方式;或者通过某些机制使训练好的分词器仍能在下游任务中动态优化;还可以利用强化学习等方法让分词器能从少量样本中学习最合适的token划分方式。

最后又回到开头,Tokenizer并不是一个附属小模块,而是连接原始文本与大模型训练之间的重要桥梁。

8. 关键代码解析

原文“2.3.2 DeepSeek分词器的处理逻辑”下面关于训练BPE的代码很值得一看,但是并不需要摸清每一行的细节,重要的是这些函数如何组成完整的流水线。

pretokenize
作用:先按正则把文本切成chunk。
意义:避免整句直接进入BPE,减少无意义的跨块合并。

build_corpus
作用:把每个chunk转成UTF-8字节序列,再进一步转成可操作token序列。
意义:构建BPE训练使用的底层语料。

pair_freq
作用:统计整个语料中所有相邻token pair的频率。
意义:决定当前最值得合并的方向。

merge_pair
作用:把指定pair在token序列中替换成新token。
意义:完成一轮合并,并重写语料。

train_bpe
作用:把“统计→选最高频 pair→合并→重写语料”串成完整训练循环。
意义:这是BPE的核心训练过程。

encode_chunk
作用:对单个chunk应用已学到的merges规则进行编码。
意义:除了正常合并外,它还体现了工程上的OOV处理逻辑:如果合并后的token不在词表中,先拆回字节token,再不行才退化到<unk>

所以从代码层面看,BPE的核心不只是贪心合并,而是一条可训练、可编码、可逆、可解码的闭环。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/25 18:15:39

文件被占用无法删除?5招轻松解决

删除文件/文件夹提示在另一程序打开&#xff1f;几个快速解决方法 是不是经常都遇到这种&#xff0c;想要删除一个文件或者文件夹的时候&#xff0c;系统突然弹出提示“文件正在被另一程序使用”&#xff0c;或者“已在某个程序中打开”&#xff0c;导致无法删除。看似很难其实…

作者头像 李华
网站建设 2026/4/25 18:13:37

RAG系统中LLM微调策略与实战指南

1. RAG与LLM微调的核心关系解析检索增强生成&#xff08;RAG&#xff09;系统近年来已成为连接大语言模型&#xff08;LLMs&#xff09;与外部知识库的主流架构。但在实际应用中&#xff0c;现成的预训练LLM往往无法完美适配特定领域的检索结果&#xff0c;这就引出了对LLM进行…

作者头像 李华
网站建设 2026/4/25 18:13:36

终极指南:libiec61850 - 电力自动化领域的开源IEC 61850协议栈

终极指南&#xff1a;libiec61850 - 电力自动化领域的开源IEC 61850协议栈 【免费下载链接】libiec61850 Official repository for libIEC61850, the open-source library for the IEC 61850 protocols 项目地址: https://gitcode.com/gh_mirrors/li/libiec61850 libiec…

作者头像 李华
网站建设 2026/4/25 18:12:01

避坑+自救:智能仓储物流项目烂尾的6个典型场景,附复活实战思路

作者&#xff1a;制造业智能仓储物流集成专家-宽海智能软硬一体化解决方案&#xff1a;维修保养-升级改造-烂尾盘活-项目新建WMS-WCS-PLC-AGV-CTU-堆垛机-输送设备-穿梭车-机器人-SCADA-数字孪生-TMS-MES引言智能仓储物流立库项目&#xff0c;动辄数千万元的投资。一旦烂尾&…

作者头像 李华