千帆平台目前不支持用户自助上传自定义词表（vocabulary）进行训练 Post-pretrain 阶段 SFT都不支持-平芜编程栈

是的，千帆平台目前不支持用户自助上传自定义词表（vocabulary）进行训练。

固定词表：基于选定的基座模型（如 ERNIE、Llama、Baichuan 等）进行增量训练，必须使用模型原有的词表，不可修改
不扩词表机制：千帆明确说明"精调过程不会扩词表"，即使您的语料中包含大量未登录词（OOV），模型也会用子词（subword）或字符组合来编码，而不会添加新词到词表

同样基于选定基座模型的固定词表，不支持词表修改。

如果确实有自定义词表需求（如特殊领域符号、多语言混合、专业缩写等），可考虑：

方案	操作方式	适用场景
本地修改后上传	在本地完成词表扩展和继续预训练，再将训练好的模型上传到千帆进行推理或进一步微调	有强算力资源，需深度定制
多轮 Post-pretrain	如果术语量不大，可通过大量高质量语料让模型充分学习这些术语的上下文表示	术语量 < 1万，有充足语料
特殊字符编码	用现有词表的子词组合表示特殊符号（如将"α"编码为"a" + “l” + “p” + “h” + “a”）	符号数量少，可接受长度增加
联系商务	通过百度商务渠道洽谈定制化训练需求	企业级大规模定制

如果您的领域包含大量专业术语：

首选方案：直接准备包含这些术语的高质量纯文本语料（Post-pretrain 格式），让模型通过上下文学习术语语义。实践证明，只要语料充分（建议 10 亿 tokens 以上），模型无需扩词表也能很好地理解和生成专业术语
次选方案：若术语编码效率是关键（如需要极短上下文），建议在本地使用sentencepiece或transformers训练自定义 tokenizer，完成初步预训练后，再将模型上传到千帆平台进行 SFT 或部署

简单来说：千帆只提供"在固定词表上训练"的服务，如需改词表，需在本地完成。

ChatGLM3-6B本地极速部署：5分钟搭建零延迟智能对话系统 1. 为什么你需要一个“真本地”的智能对话系统？ 你有没有遇到过这些情况？ 在写代码时想快速查一个Python异步语法，却要等API响应两秒，思路直接断掉&#xff1…

李华

小白必看：用YOLOv12镜像轻松实现智能监控检测你有没有遇到过这样的场景？ 深夜值班的安防室里，监控屏幕密密麻麻，人眼盯得发酸却还是漏掉关键画面； 工厂产线上，质检员反复比对零件图像，效率低、…

李华

Clawdbot快速部署：Qwen3:32B网关服务启动命令clawdbot onboard详解 Clawdbot 是一个统一的 AI 代理网关与管理平台，旨在为开发者提供一个直观的界面来构建、部署和监控自主 AI 代理。通过集成的聊天界面、多模型支持和强大的扩展系统，Clawdb…

李华

MedGemma-X实战教程：如何用bash脚本实现GPU资源自动巡检与告警 1. 为什么需要GPU巡检脚本——从“突然卡顿”到“提前预警” 你有没有遇到过这样的情况： 早上刚打开MedGemma-X准备做几例胸部X光分析，界面卡在加载状态； 刷新日志…

李华

Clawdbot整合Qwen3:32B部署案例：高校AI教学平台中多学生Agent沙箱环境搭建 1. 为什么高校AI教学需要专属的Agent沙箱环境在高校AI课程教学中，学生常常面临几个现实难题：模型访问权限分散、每次调用都要写重复代码、不同学生间资源互相干扰…

李华

MusePublic艺术创作引擎入门：快速掌握高清人像生成秘诀 1. 为什么艺术人像需要专属引擎？ 你有没有试过用通用文生图模型生成一张真正打动人的时尚人像？可能遇到过这些情况：人物姿态僵硬、光影平淡如手机直出、背景杂乱抢了主角风…

李华