news 2026/2/15 3:55:50

大模型微调实战:5个关键步骤,从零构建高效微调数据集!

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
大模型微调实战:5个关键步骤,从零构建高效微调数据集!

想让大语言模型(LLM)变得更聪明、更贴合你的需求?那就得靠微调(fine-tuning)!而微调的关键在于一个精心准备的数据集。

本文将带你一步步了解如何创建和准备一个适合LLM微调的数据集,特别聚焦于如何使用Unsloth来简化这个过程。无论你是想让模型学会写代码、做总结,还是扮演某个角色,这篇指南都能帮你理清思路,少走弯路。

我们会从数据集的基本概念讲起,逐步深入到数据格式、收集、处理,以及如何用Unsloth高效应用数据集。每个部分都配有清晰的代码示例和实际操作建议,确保你能看懂、会用!

什么是数据集?为什么它这么重要?


简单来说,LLM的数据集就是一堆用来训练模型的数据集合。这些数据可以是网页文本、书籍内容、对话记录,甚至是专门为某个任务设计的指令。数据集的作用是让模型学会理解和生成符合你期望的输出。

但光有数据还不够,数据得经过“加工”才能被模型“消化”。这就涉及分词(tokenization),也就是把文本拆成一个个小单元(比如单词、子词或字符),然后转成模型能理解的数字表示(嵌入)。一个好的数据集不仅要内容丰富,还要格式规范,这样模型才能高效学习。

在微调中,数据集的格式通常有以下几种:

  • 原始语料:比如从维基百科抓取的纯文本,适合继续预训练(CPT)。
  • 指令格式:包含任务指令、输入和期望输出,适合监督微调(SFT)。
  • 对话格式:模拟用户和AI的多次对话,适合打造聊天机器人。
  • RLHF格式:对话加上人类或模型的评分,用于强化学习(RL)。

接下来,我们会详细拆解如何根据你的目标选择和准备数据集。

第一步:明确目标,选对数据


在动手收集数据之前,你得先问自己几个问题:

    1. 数据集的目的是啥?是想让模型学会写代码、做文本总结,还是扮演某个特定角色(比如客服或医生)?
    1. 输出风格是什么?比如,你想要JSON格式的输出,还是纯文本?语言是中文、英文,还是其他?
    1. 数据从哪来?是用现成的CSV文件,还是从网上爬取?或者需要自己生成?

明确这些问题能帮你有的放矢。比如,如果你想让模型学会医疗领域的问答,那可以从Hugging Face找医疗相关的数据集,或者用维基百科的医学条目。如果目标是打造一个中文客服机器人,那就需要收集大量的中文对话数据,可能还得加上一些合成数据来丰富多样性。

数据来源建议

  • Hugging Face:提供海量开源数据集,覆盖各种任务和语言。
  • 各类百科:适合语言学习或知识密集型任务。
  • 合成数据:可以用大模型(比如Llama 3.3)生成数据,但要确保质量高、内容相关。

第二步:选择合适的格式


数据集的格式直接影响模型的训练效果。以下是几种常见格式的介绍和代码示例,帮你快速上手。

1. 原始语料(Raw Corpus)

适合继续预训练,数据就是纯文本,没有特定结构。模型通过这种格式学习语言的自然流动。

{ "text": "北京烤鸭是一道传统的中国菜肴,以其酥脆的皮和嫩滑的肉闻名。制作过程包括将鸭子腌制、风干,然后在特制的烤炉中烤制。传统的北京烤鸭通常搭配薄饼、甜面酱和葱丝食用……" }
2. 指令格式(Alpaca风格)

适合单轮任务,比如让模型根据指令生成特定输出。格式包含指令、输入(可选)和输出。

{ "instruction": "将以下句子翻译成英文。", "input": "今天是星期五,天气很好。", "output": "Today is Friday, and the weather is nice." }
3. 对话格式(ShareGPT风格)

适合多轮对话场景,模拟用户和AI的交互。格式记录了“谁说啥”。

{ "conversations": [ { "from": "human", "value": "能教我做北京烤鸭吗?" }, { "from": "gpt", "value": "当然可以!想学传统的做法还是简化的?" }, { "from": "human", "value": "传统的吧!" }, { "from": "gpt", "value": "好的,传统北京烤鸭需要鸭子、麦芽糖、薄饼等材料。先把鸭子腌制……" } ] }
4. ChatML格式(Hugging Face默认)

这是目前最常用的对话格式,结构简洁,适合多轮对话。

{ "messages": [ { "role": "user", "content": "1+1等于多少?" }, { "role": "assistant", "content": "等于2!" } ] }
小贴士
  • • 如果你的数据是ShareGPT格式,但模型需要ChatML格式,可以用Unsloth的standardize_sharegpt函数转换。
  • • 选择格式时,优先考虑你的任务类型:单轮任务用Alpaca,多轮对话用ChatML或ShareGPT。

第三步:用Unsloth格式化数据集


Unsloth是一个高效的微调工具,它提供了强大的聊天模板(chat template)功能,能帮你快速把数据集处理成模型能用的格式。以下是具体步骤:

1. 查看支持的模板

Unsloth支持多种模板,比如chatmlllama-3gemma-3等。先检查有哪些可用:

from unsloth.chat_templates import CHAT_TEMPLATES print(list(CHAT_TEMPLATES.keys()))

输出可能是:

['chatml', 'llama-3', 'gemma-3', 'mistral', ...]
2. 应用聊天模板

选择合适的模板,应用到你的分词器(tokenizer)上。比如用gemma-3模板:

from unsloth.chat_templates import get_chat_template tokenizer = get_chat_template( tokenizer, chat_template="gemma-3" )
3. 定义格式化函数

这个函数会把你的数据集中的每条数据应用上聊天模板:

def formatting_prompts_func(examples): convos = examples["conversations"] texts = [tokenizer.apply_chat_template(convo, tokenize=False, add_generation_prompt=False) for convo in convos] return {"text": texts}
4. 加载并处理数据集

假设你用Hugging Face的一个数据集,比如FineTome-100k

from datasets import load_dataset from unsloth.chat_templates import standardize_sharegpt # 加载数据集 dataset = load_dataset("mlabonne/FineTome-100k", split="train") # 如果是ShareGPT格式,转换为ChatML dataset = standardize_sharegpt(dataset) # 应用格式化函数 dataset = dataset.map(formatting_prompts_func, batched=True)

完成这四步,你的.dataset就准备好用于微调了!

第四步:生成合成数据(可选)

如果你的数据集不够大,或者想增加多样性,可以用大模型生成合成数据。比如用Llama 3.3生成对话或指令数据。以下是一些实用提示:

合成数据的目标
  • 生成全新数据:从头创建数据,或者基于现有数据扩展。
  • 增加多样性:避免模型过拟合,让输出更通用。
  • 格式化数据:自动把数据整理成你需要的格式(比如ChatML)。
示例提示
    1. 基于现有数据集生成对话
    根据我提供的对话示例,生成更多符合同样结构和主题的对话。
    1. 无数据集时生成数据
    生成10条关于可口可乐的产品评论,分为正面、负面和中立。
    1. 格式化无结构数据
    将我的数据集整理成ChatML格式,用于微调。然后生成5条同主题的合成数据。
注意事项
  • 检查质量:生成的合成数据可能有噪声,建议人工检查或用脚本过滤低质量内容。
  • 保持平衡:确保数据集在主题、风格、语言等方面均衡,避免模型偏向某类数据。

第五步:特殊场景——视觉微调


如果你的目标是微调一个视觉语言模型(VLM),比如让模型分析X光片,数据集需要包含图像和文本。以下是一个医疗影像数据集(ROCO)的处理示例:

数据集示例

ROCO数据集包含X光片、CT扫描等影像,每张图片有专家写的描述:

Dataset({ features: ['image', 'image_id', 'caption', 'cui'], num_rows: 1978 })

示例数据:

  • 图片:一张X光片
  • 描述:全景X光片显示右侧后上颌骨有溶骨性病变,伴有上颌窦底吸收(箭头指示)。
格式化视觉数据

视觉微调的数据格式需要包含文本指令和图像:

instruction = "你是放射科专家,准确描述这张图片的内容。" def convert_to_conversation(sample): conversation = [ { "role": "user", "content": [ {"type": "text", "text": instruction}, {"type": "image", "image": sample["image"]} ] }, { "role": "assistant", "content": [ {"type": "text", "text": sample["caption"]} ] } ] return {"messages": conversation} # 转换数据集 converted_dataset = [convert_to_conversation(sample) for sample in dataset]

转换后的数据示例:

{ "messages": [ { "role": "user", "content": [ {"type": "text", "text": "你是放射科专家,准确描述这张图片的内容。"}, {"type": "image", "image": "<PIL.PngImagePlugin.PngImageFile>"} ] }, { "role": "assistant", "content": [ {"type": "text", "text": "全景X光片显示右侧后上颌骨有溶骨性病变,伴有上颌窦底吸收(箭头指示)。"} ] } ] }

常见问题解答


数据集需要多大?

至少100条数据才能看到初步效果,1000条以上会更好。数据质量比数量更重要,建议清洗数据,去掉无关或低质量内容。如果数据不够,可以用Hugging Face的通用数据集(如ShareGPT)补充,或者生成合成数据。

怎么处理多列数据?

像Titanic数据集这样有多列的数据(年龄、票价、舱位等),需要“合并”成一个提示。Unsloth的to_sharegpt函数可以自动处理:

from unsloth import to_sharegpt dataset = to_sharegpt( dataset, merged_prompt="乘客信息:[[年龄:{age}。]][[票价:{fare}。]][[登船地:{embarked}。]]", output_column_name="survived" )
想让模型学会推理怎么办?

如果目标是推理能力,答案部分需要包含思维链(chain-of-thought)过程,详细描述推导步骤。比如:

{ "instruction": "计算1+1+1。", "output": "让我们一步步计算:1+1=2,2+1=3。所以答案是3。" }

总结:从零到一打造你的数据集


打造一个高效的微调数据集并不复杂,关键是明确目标、选对格式、用好工具。Unsloth的聊天模板和格式化函数能大大简化流程,让你专注于数据质量和任务设计。无论是文本任务还是视觉任务,遵循这五个步骤,你就能准备好一个让模型“听话”的数据集:

    1. 明确目标和数据来源。
    1. 选择合适的格式(Alpaca、ChatML等)。
    1. 用Unsloth格式化数据集。
    1. (可选)生成合成数据增加多样性。
    1. 对于视觉任务,正确处理图像和文本。

希望这篇指南能帮你顺利迈出微调的第一步!

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过30%。

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01教学内容

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例:带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

vx扫描下方二维码即可
【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:

04视频和书籍PDF合集

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)

05行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!

0690+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)

07 deepseek部署包+技巧大全

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

【附赠一节免费的直播讲座,技术大佬带你学习大模型的相关知识、学习思路、就业前景以及怎么结合当前的工作发展方向等,欢迎大家~】

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/2/13 11:47:40

什么是大模型?90%的人都分不清“大模型”和“大语言模型”

一、大模型到底是什么&#xff1f; “大模型”&#xff08;Foundation Model&#xff09;是指基于海量数据训练出来的通用人工智能模型。它们是拥有庞大的参数规模&#xff0c;通常达到百亿、千亿级别&#xff0c;具备强大的泛化能力&#xff0c;能够适应多种任务&#xff0c;并…

作者头像 李华
网站建设 2026/2/13 16:19:06

MIPI 接口详解

MIPI&#xff08;Mobile Industry Processor Interface&#xff0c;移动产业处理器接口&#xff09;是由 MIPI 联盟制定的高速串行接口标准&#xff0c;核心目标是为移动设备&#xff08;手机、平板&#xff09;及嵌入式系统提供低功耗、高带宽、标准化的外设连接方案&#xff…

作者头像 李华
网站建设 2026/2/10 23:06:56

AI开发-python-langchain框架(1-11 返回枚举-格式解析器)

跟上一篇内容一样&#xff0c;这次我们来看如何限定大模型返回的结果值是枚举类型的。 先看代码&#xff1a; # 导入必要的模块 from langchain.prompts import PromptTemplate # 用于创建和管理提示模板 from langchain_openai import ChatOpenAI # 用…

作者头像 李华
网站建设 2026/2/13 14:45:21

2026 AI红队测试工具全景指南:攻防演进、技术标杆与未来布局

在生成式AI从技术落地走向规模化商用的2026年&#xff0c;大语言模型、多模态代理、AI原生应用已深度渗透金融、医疗、政企、互联网等核心领域&#xff0c;AI系统的安全漏洞从“技术隐患”升级为“业务风险”。AI红队测试作为模拟攻击者视角、系统性挖掘AI全生命周期安全缺陷的…

作者头像 李华
网站建设 2026/2/11 19:37:15

高性能内存分配器Hakozuna发布,性能对标主流

hakozuna (hz3) - 一款新发布的内存分配器 ✅ 性能与 mimalloc/tcmalloc 相竞争 ✅ 在多线程远程释放场景下性能提升 28% ✅ 通过 PTAG32 元数据查找实现 O(1) 复杂度的释放路径 &#x1f4c4; 论文: https://doi.org/10.5281/zenodo.18305953 &#x1f4bb; 代码: https://git…

作者头像 李华