news 2026/7/4 17:30:17

大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大语言模型 bpe算法 后面对接的是 one-hot吗 nn.Embedding

不是。
BPE 结束后,模型拿到的已经是整数序列(token id),下一跳直接就是nn.Embedding(即可训练的稠密向量),根本不会再走 one-hot。流程如下:

  1. 文本 → BPE 分词 → [token₁, token₂, …]
  2. token → 查表(vocab_size × hidden_dim 的矩阵)→ [e₁, e₂, …]
  3. 后续 Transformer 层在稠密向量上运算。

one-hot 只在教学推导里出现(维度 = vocab_size,1 个 1 其余 0),用来写公式
output = one_hot @ Embedding_matrix
实际代码里直接用embedding(idx)查表,效率更高、内存更省。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/29 5:01:59

Java毕设项目推荐-基于java+springboot的体育用品购物商城系统基于springboot的运动用品商城系统【附源码+文档,调试定制服务】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/30 11:37:11

智能体异常处理与恢复:从实验室到生产环境的通关秘籍

智能体的异常处理与恢复是确保其从实验室走向生产环境的关键机制。该体系通过"预防-检测-处理-恢复-优化"的全流程弹性设计,实现精准故障检测、分级错误处理和自我修复能力。与MCP协议、目标设定和监控协同,构建智能体的"免疫系统"&…

作者头像 李华
网站建设 2026/6/28 23:13:21

AI绘画2024年趋势分析:NewBie-image-Exp0.1开源模型+弹性GPU部署

AI绘画2024年趋势分析:NewBie-image-Exp0.1开源模型弹性GPU部署 1. 为什么2024年动漫生成正迎来“轻量化高质量”拐点 过去几年,AI绘画圈一直被两类模型主导:一类是动辄十几亿参数、需要A100/H100才能跑起来的“巨无霸”,另一类…

作者头像 李华
网站建设 2026/6/29 18:12:15

python111-学生在线报名考试管理系统vue3

目录 项目概述核心功能技术栈实现要点应用场景 开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 项目概述 Python111-学生在线报名考试管理系统是一个基于Vue3前端框架和Python后端技术构建…

作者头像 李华
网站建设 2026/7/3 18:04:14

python149-共享经济背景下校园闲置物品交易平台vue3

目录共享经济背景下校园闲置物品交易平台(Vue3)摘要平台背景与意义技术架构与核心功能创新点与优势应用场景与展望开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!共享…

作者头像 李华