news 2026/4/18 3:33:43

2026年1月14日学习计划

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
2026年1月14日学习计划

文章目录

  • 本周计划
  • GPT-2 BPE匹配规则

本周计划

  1. 学透BPE算法,动手构建,优化2部分 1 更新算法 2 多线程训练
    为什么去空格
    优化更新函数
    优化多线程计算
    GPT-2 官方实现 https://github.com/openai/gpt-2/blob/master/src/encoder.py
  2. 收尾happy_llm,小批量训练tokenizer
  3. 小参数预训练happy_llm 目标:能够对话 看到loss收敛
  4. 开始minimind的学习,快过预训练,尽快开始SFT和强化学习。
  5. 周三:今天必须开始看李宏毅强化学习课!

GPT-2 BPE匹配规则

importregexasre GPT2_PATTERN=r"""'(?:[sdmt]|ll|ve|re)| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+"""compiled_pattern=re.compile(GPT2_PATTERN,re.UNICODE)pretokenized=[]forsegmentindoc_segments:ifnotsegment.strip():continuepre_tokens=compiled_pattern.findall(segment)print(f"pretokens:{pre_tokens}")# breakforptinpre_tokens:ifnotpt.strip():continue# byte_seq = tuple(pt) #.encode("utf-8"))# pt = pt.strip()byte_seq=tuple(char.encode("utf-8")forcharinpt)# 此步直接将单词拆分成数字序列pretokenized.append(byte_seq)returnpretokenized

当我打印出来pre_token才发现,每个单词前面都有一个空格 ater’, ’ to’, ’ make’, ’ it’, ’ nice’, ’ and’, ’ bubbly’, ‘.’, ’ He’, ’ relaxed’, ’ again’, ’ and’, ’ felt’, ’ all’, ’ the’, ’ worries’, ’ wash’, ’ away’, ‘.’, ‘\n’, ‘The’, ’ king’, ’ was’, ’ so’, ’ happy’, ’ that’, ’ he’, ’ had’, ’ been’, ’ able’, ’ to’, ’ clean’, ’ up’, ’ the’, ’ mess’, ’ he’, ’ had’, ’ made’, ’ and’, ’ enjoy’, ’ a’, ’ nice’, ’ soak’, ‘.’, ’ He’, ’ dried’, ’ off’, ’ and’, ’ wrapped’, ’ himself’, ’ up’, ’ in’, ’ a’, ’ big’, ’ towel’, ‘.’, ’ Then’, ‘,’, ’ the’, ’ king’, ’ wen这是因为我使用了GPT-2的pattern进行切分的对吗?GPT-2如此做的更深层次原因是什么呢

二、核心优化方向 2:多线程 / 多进程并行(针对独立序列)
你的判断是对的:每个预分词后的序列(如单个单词 / 短语)的合并逻辑完全独立,因此可以并行处理。但注意:
❌ 合并规则(选最高频best_pair)是全局的,必须单线程确定;
✅ 合并best_pair到各序列的过程(_merge_byte_pair)、统计各序列内的字节对频次,均可并行。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 8:57:29

Flutter for OpenHarmony移动数据使用监管助手App实战 - 启动屏实现

Flutter for OpenHarmony移动数据使用监管助手App实战 - 启动屏实现 启动屏是用户打开App后看到的第一个画面,虽然只停留几秒钟,但它承担着品牌展示和初始化加载的双重任务。一个设计得当的启动屏能给用户留下良好的第一印象,同时为后台数据加…

作者头像 李华
网站建设 2026/4/17 12:29:58

项目管理的三角挑战:时间、成本、质量的平衡之道

01项目管理三角难题概述 在项目管理过程中,我们常常面临时间、成本、质量三者之间的平衡问题。工期紧迫可能导致项目质量不达理想状态;预算超支时,为了节约成本可能不得不缩减项目内容;而资源限制又使得项目进度不得不延后。尽管…

作者头像 李华
网站建设 2026/4/18 8:10:56

2.Java实现电子签名的两种工具

📝 Java实现PDF在线盖章签字和签名 | 解锁文档处理新姿势 🚀 大家好呀~✨ 我是雪碧聊技术,今天给大家带来一篇超实用的技术干货!🌟 如果你正在为 PDF文档的电子签名 而烦恼,或者想在自己的项目中…

作者头像 李华
网站建设 2026/4/17 17:08:27

企业微信 RPA 外部群自动化实战:5 大技术瓶颈与解决方案

前言 在实验室跑通一个 RPA 脚本很容易,但在生产环境中管理成百上千个外部群,你会遇到 UI 漂移、消息堆积、风控拦截等一系列“深水区”问题。本文不谈虚的概念,直接分享 5 个核心痛点及其对应的工程化解决方案。 ​ QiWe开放平台提供了后台…

作者头像 李华
网站建设 2026/4/17 3:55:41

学Simulink--基础储能管理场景实例:基于Simulink的储能SOC均衡控制策略仿真

目录 手把手教你学Simulink 一、引言:为什么储能系统需要“SOC均衡”? 二、系统整体架构 控制层级: 三、理论基础:SOC 均衡策略 1. 被动均衡(Passive) 2. 主动均衡(Active) 四、Simulink 建模全流程 步骤1:多簇电池模型 步骤2:主功率指令与总电流计算 步骤…

作者头像 李华
网站建设 2026/4/17 22:29:11

2026制造业突围战:ERP和MES系统集成成为降本增效关键抓手

2026年,制造业与零售电商的核心痛点仍是系统割裂与数据孤岛。超过80%的企业在集成阶段受阻,中国76%的中型企业使用超过5种管理系统,其中ERP与MES的数据割裂导致63%的企业决策延迟,平均造成420万元年损失。实现两系统集成&#xff…

作者头像 李华