20个大模型本体概念，产品经理必备收藏，轻松掌握AI产品决策！-平芜编程栈

本文介绍了20个大模型本体概念，帮助产品经理在AI产品决策中不再依赖模糊判断。文章涵盖了模型分类、开源与闭源模型、本地与云端部署、基础模型与对话模型等重要概念，并深入探讨了推理模型、Token计算、上下文窗口、幻觉现象、Temperature设置、System Prompt等关键要素。此外，还介绍了预训练、SFT、RLHF、量化、参数量、基准评测和涌现能力等重要概念。通过理解这些概念，产品经理能够在选型、功能设计和成本估算等环节做出更精准的决策，提升AI产品的竞争力。

1、模型的分类

产品经理在规划AI功能时，直觉反应往往是调个大模型API就完事了。但实际到了技术评审，你会发现处理文字、图片、语音、视频需要的是完全不同的模型。

大模型处理的信息类型被称为模态。不同模态对应不同类型的模型，这是产品选型的起点。

LLM，也叫纯文本语言模型，只处理文本输入和文本输出。GPT-5.4对话、Claude问答均属此类。绝大多数产品中调用的API是LLM。

多模态模型同时处理文本和图片，部分支持视频和音频。GPT-5.4、Gemini 3.1、Claude 4.6 Sonnet是多模态模型。产品中需要识别图片内容、分析截图或处理文档扫描件，必须调用多模态模型，纯文本LLM无法接收图片输入。

文生图模型接受文本输入，输出图片。Stable Diffusion、DALL-E 3、Midjourney属此类。这是与LLM完全独立的模型类型，底层架构不同，不能混用API。

语音模型分三类。TTS是文字转语音，ASR是语音转文字，S2S是端到端语音对话。产品中的语音交互功能通常需要单独集成这类模型，LLM本身不处理音频。

视频生成模型接受文字或图片输入，生成视频。Sora、可灵、即梦属此类。当前生成延迟高、帧率和分辨率有限制，商业化产品中使用场景集中在内容创作方向。

老王的经验是，一个需要同时处理文字、图片、语音的产品，意味着至少三套模型接入方案。三套接入复杂度和三套计费逻辑，规划阶段如果没有识别出来，工期预估一定出错。

2、开源&闭源模型

做选型评估时，第一个要回答的问题是数据能不能出公司。这个问题的答案直接决定你走闭源还是开源路线。

闭源模型的权重不对外公开，通过API访问，按调用量计费。GPT-4系列、Claude 3系列、Gemini Ultra属此类。数据经API传输，会经过第三方服务器处理。适合快速上线的场景，无需自行维护模型基础设施。

开源模型的权重公开发布，可下载到本地服务器运行。Llama 3、Qwen 2.5、DeepSeek-V2属此类。数据不离开自有基础设施，满足数据不出境的合规要求。需要团队自行维护GPU算力，运维成本由自己承担。

两者的核心差异不是模型能力，是数据控制权和成本结构。闭源模型的使用成本随调用量线性增长，开源模型的成本集中在GPU采购和运维，边际成本低。金融、医疗、政务类产品多数选择开源自部署路线，根本原因是监管层对数据出境有明确限制。

还有一种中间态叫开源不开权重，代码和架构公开，但模型权重受商业许可约束，不能自由商用。选型时需要仔细阅读license文件，不能只看GitHub上的开源标签。

评估选型方案前，先跟法务确认数据合规边界，这一步决定了后面所有技术方案的可选范围。

3、模型本地&云端部署

方案评审阶段，部署位置是绕不开的问题。部署在哪，直接决定了成本结构、延迟水平和数据安全等级。

云端部署是模型运行在云服务商的服务器上，产品通过网络API调用。延迟受网络条件影响，通常100ms到2秒不等。按Token数量或API调用次数计费。这是当前绝大多数AI产品的接入方式，上手成本最低。

端侧部署是模型运行在用户的设备上，比如手机芯片、PC的NPU。数据不通过网络传输，延迟低，无网络也能运行。受设备算力限制，能运行的模型参数量通常在7B以下。苹果的Apple Intelligence、手机厂商的端侧AI功能均属此类。

私有化部署是企业采购或租用GPU服务器，在自有机房或私有云上运行开源模型。数据不出内网，满足最严格的合规要求，但GPU采购和运维成本高。

三种部署方式的决策维度是成本、延迟、数据安全三者的权衡。方案评审阶段你必须先排好这三个维度的优先级顺序，再选择部署方案。把架构决策完全交给工程团队，会导致后期因合规问题推倒重来。

4、基础模型 vs 对话模型

这是最容易混淆的概念对，混淆后直接导致选型方向出错。

基础模型（Base Model）仅经过大规模语料预训练，学到的能力是根据上下文预测下一个词。这类模型不具备遵循指令的能力，直接输入帮我写一份邮件，输出是按照训练数据里的概率分布续写文字，不一定产出邮件格式内容。基础模型不适合直接面向最终用户。

对话模型（Chat/Instruct Model）在基础模型之上，经过指令微调和RLHF对齐（这两个概念后面展开），具备理解和遵循用户指令的能力。GPT-4-turbo、Claude 3 Opus、Qwen-72B-Instruct均是对话版本。调用API时选择的版本后缀通常是 -instruct、-chat 或 -turbo，对应的就是对话模型。

你通过API调用的几乎全部是对话模型。基础模型更多用于需要最大化生成多样性的场景，比如生成训练数据、创意实验。看模型文档时，直接跳到对话版本的章节即可。

5、推理模型

同样一个复杂分析任务，普通对话模型经常漏掉关键逻辑，推理模型的准确率明显更高，但API账单也跟着翻了好几倍。

推理模型是2024年以来出现的新范式，与普通对话模型存在本质区别。普通对话模型在接收用户输入后直接生成回复。推理模型在生成最终回复前，会执行一段内部的逐步思考过程，这个过程通常以隐藏的思维链形式存在，对用户不可见，但计入Token消耗。

代表性模型有OpenAI的o1和o3系列，Anthropic的Claude 3.7 Sonnet扩展思考模式，阿里的Qwen3系列。

数学计算、逻辑推理、代码生成、复杂分析类任务，推理模型的准确率显著高于普通对话模型。定性的文字类任务（摘要、改写、翻译），普通对话模型够用，用推理模型只是增加延迟和成本。

老王判断，你的核心决策点是用户的任务是否需要多步骤推导。客服问答不需要推理模型，合同风险分析需要推理模型。这个判断不做清楚，产品成本模型就会出现结构性错误。

6、Token

System Prompt明明不长，但每次API调用费用就是居高不下。问题可能出在Token的计算方式上。

Token是大模型处理文本的最小单位，不等于字或词。英文中，一个Token平均对应约0.75个单词。中文中，一个汉字通常对应1到2个Token，具体取决于分词器。处理同样信息密度的文本，中文消耗的Token数量高于英文，成本更高，这个差异在高频调用场景下累积效果显著。

Token对你有两个直接影响。

第一个是计费。主流大模型API按输入Token和输出Token分开计费，输出Token通常比输入Token更贵。写一个功能的System Prompt，加上用户输入，再加上模型回复，三者合计的Token数量决定单次调用成本。System Prompt过长（超过3000 Token）时，每次调用都会重复计费这部分，高频场景下累计成本不可忽视。

第二个是内容限制。模型的上下文窗口限制了单次能处理的Token总量（见概念7）。长文档处理时，文档内容必须被切分为不超过上下文窗口的片段分批处理，这是产品架构设计的硬约束。

⚠️ Token · 单次成本基线

上线前先算清楚单次调用的Token消耗，System Prompt + 平均用户输入 + 平均输出，三项乘以单价，这就是你的单次成本基线。

7、Context Window

用户上传一份50页的PDF要求总结，模型只总结了前10页。不是模型偷懒，是Context Window不够了。

Context Window是模型在单次推理中能同时处理的最大Token数量，包括输入和输出的总和。这个参数直接决定产品能做什么。

当Context Window是4K Token时，模型大约能处理3000字中文文本。128K Token时能处理约10万字。当前部分模型已达到1M Token的上下文长度，对应约75万字的处理能力。

产品中的典型约束场景，用户上传长文档要求摘要，超过Context Window的内容会被截断，模型看不到。长对话中，历史消息超出Context Window后，模型开始遗忘早期内容。代码库分析时，Context Window限制了能同时分析的代码文件数量。

更大的Context Window通常意味着更高的单次API费用，因为推理计算量与输入Token数成正比。设计功能时先明确典型场景下的Token规模，据此选择合适的模型版本，而不是默认选最大上下文的版本再考虑成本。

8、Hallucination

模型生成的内容读起来很专业，引用了数据源和出处，但一查发现数据源根本不存在。这就是幻觉。

Hallucination是模型生成听起来合理但实际上错误或虚构内容的现象。这不是模型的诚信问题，是模型生成机制的固有特性。模型的生成过程是基于统计概率预测下一个Token，没有验证机制核查生成内容是否符合事实。

幻觉的高风险场景集中在三类，生成具体数字（引用来源、统计数据、金额），生成人名和职位信息（可能混淆不同人物的属性），描述近期事件（模型有知识截止日期，截止日期后的事件模型不具备）。

降低幻觉的产品设计方向有三个。要求模型在回复中标注信息来源。通过检索系统提供原始文档作为上下文，让模型基于文档回答而非依赖训练数据。在输出后增加事实验证步骤。

🔴 幻觉 · 产品兜底

老王的判断是，幻觉无法完全消除。你的工作是识别高风险场景并在产品设计中建立兜底机制，而不是假设模型输出都是正确的。没有兜底机制的AI产品，在C端规模化运营后必然出现严重的用户信任危机。

9、Temperature

同一个Prompt调了三次，三次结果完全不一样，下游系统解析全报错。问题不在Prompt，在Temperature设高了。

Temperature是控制模型生成随机性的参数，通常取值范围在0到1之间，部分模型支持到2。

设为0或接近0时，模型在生成时倾向于选择概率最高的Token，输出结果高度稳定，多次调用相同输入通常得到相同或相近的输出。

设为较高值（0.7到1.0以上）时，模型在生成时给低概率的Token分配更高采样权重，输出结果更多样，多次调用相同输入会得到不同结果。

需要精确、一致输出的场景（数据抽取、格式化输出、代码生成），选择低Temperature（0到0.2）。需要创意多样性的场景（文案生成、内容创作、头脑风暴），选择中到高Temperature（0.7到1.0）。

Temperature设置错误是很多产品早期体验问题的直接原因。低Temperature的创意产品会显得刻板重复，高Temperature的数据提取产品会输出不稳定的字段值。上线前先根据业务场景确定Temperature值，写进配置文档。

10、System Prompt

想让模型只回答产品相关的问题，不聊别的。System Prompt是最直接的控制手段，不需要改代码就能改变模型行为。

System Prompt是在用户输入之前发送给模型的隐藏指令，用于定义模型的角色、行为规范和输出格式。

System Prompt可以定义的内容包括输出语言（强制用中文回复）、回复格式（必须用JSON格式输出）、角色身份、行为边界（不回答产品功能范围以外的问题）、输出长度限制（回复控制在200字以内）。

三个工程约束你必须了解。

System Prompt计入输入Token，每次调用都会重复计费这部分Token，System Prompt越长，每次API成本越高。

用户输入可以尝试覆盖System Prompt中的指令（Prompt注入攻击），产品需要设计防御机制，尤其是面向公众开放的场景。

模型对System Prompt的遵循不是100%，部分情况下模型仍会偏离指令，产品需要有后处理校验逻辑，不能假设模型一定按System Prompt输出。

💡 System Prompt · 上线前验证

老王建议，写完System Prompt后拿10条真实用户输入跑一遍，验证模型是不是真的按要求输出。不跑测试直接上线，后面出的问题全是低级错误。

11、Chain-of-Thought

多步骤的数学题直接问模型，模型倾向于压缩中间步骤直接跳到答案，错误率偏高。

Chain-of-Thought（CoT）的做法是在Prompt里加一句请一步步思考或先列出推理步骤再给出结论，引导模型显式输出每一步推导过程。中间步骤写出来之后，最终答案的准确率通常有显著提升。

效果在推理密度高的任务上最明显，比如数学计算、逻辑推断、代码调试、多条件判断。简单的分类或提取任务不需要CoT，加了只是增加输出Token数量和延迟。

推理模型（概念5）可以理解为内置了CoT机制，模型自动执行思维链推理，不需要Prompt中手动引导。如果产品已用推理模型，再加一步步思考只是浪费Token。

12、Few-Shot

描述了半天输出格式，模型就是不按要求来。与其写更长的格式说明，不如直接给两三个例子。

Few-Shot是在Prompt中提供几个输入-输出示例，引导模型按照示例格式和逻辑处理新的输入。在System Prompt或用户消息中提供2到5组示例，随后提供需要处理的新输入。模型通过模式匹配，按照示例的格式产出结果。

Few-Shot在三类场景效果明显。需要特定输出格式但格式描述复杂时，用示例代替冗长的格式说明。需要模型遵循特定分类标准时（比如将用户反馈按内部标准分类），示例比文字描述更精确。需要保持输出风格一致时，提供风格样本。

Few-Shot会消耗额外的输入Token。示例内容越长、示例数量越多，Token消耗越高。高频调用场景下需要在效果和成本之间找平衡点，通常2到3个示例是性价比最高的数量。

13、Zero-Shot

拿到一个新任务，第一反应是要不要先写几个示例。大多数情况下，不需要。

Zero-Shot是不提供任何示例，直接描述任务要求让模型完成任务的方式。当前主流大模型（GPT-4系列、Claude 3系列、Gemini 1.5系列）在Zero-Shot条件下的指令理解能力已相当强，大量常规任务（摘要、翻译、分类、提取）不需要示例就能完成。

设计Prompt时先用Zero-Shot试效果，如果输出格式或质量不满足要求，再引入Few-Shot。不要默认加入大量示例，因为示例会增加Token消耗和推理延迟。

Zero-Shot效果差的时候，优先检查任务描述是否足够精确，而不是立即堆砌示例。模糊的任务描述在Zero-Shot条件下会导致模型理解偏差，这时候问题在描述，不在方法。

14、Pre-training

模型对最近两个月发生的事情一无所知，问了就编，这是预训练数据有截止日期导致的。

Pre-training（预训练）是大模型建立基础能力的阶段，也是成本最高的阶段。预训练的过程是在数以万亿计的文本数据上（网页、书籍、论文、代码等），通过预测下一个Token的任务持续训练模型权重。模型在这个过程中未直接学习任何特定任务，但获得了语言规律、事实知识、推理能力和世界常识的隐式表达。

预训练对你有两个直接影响。

预训练数据有时间范围，通常滞后当前时间6到18个月。2024年Q4发布的模型，训练数据截止时间可能是2024年Q1到Q2。截止日期之后的事件和知识模型不具备，这是幻觉的高发场景之一。产品中涉及时效性信息的功能，需要通过检索系统补充最新数据，不能依赖模型的内置知识。

不同厂商在预训练数据规模、质量和训练策略上的差异，决定了模型的基础能力水平。这是不同模型在Benchmark上表现差异的根本原因，不是单纯的参数量差异。

老王建议，产品功能涉及时效性信息时，默认加检索系统补充最新数据，不要指望模型自带的知识能覆盖你的业务场景。

15、SFT

通用对话模型在垂直领域总是输出不精确的术语，或者格式不符合内部规范。这时候可以考虑用领域数据做一次SFT。

SFT（Supervised Fine-Tuning，监督微调）是在预训练模型基础上，用人工标注的指令-回复数据对进行有监督训练，使模型具备遵循指令的能力。这是从基础模型到对话模型的关键步骤。

SFT的训练数据是格式化的问答对，输入是用户指令，输出是高质量的期望回复，由人工书写或筛选。通过SFT，模型学会了什么样的输入对应什么样的输出格式，从而能够遵循指令产出符合预期的结果。

对你来说有两个应用场景。

使用厂商提供的对话模型时，厂商已完成SFT，通过API调用的就是SFT后的版本，无需关注训练过程。

定制化微调是当通用对话模型不能满足产品特定领域的需求时（垂直领域术语、特定输出格式、企业内部规范），用领域数据进行二次SFT。这需要至少数千条高质量的标注数据，以及GPU算力支持，启动成本不低。决策前先评估Prompt工程能不能达到类似效果，能的话就不要上微调。

16、RLHF

同样是开源模型，有的回复安全、有帮助，有的动不动就输出不该输出的内容。这个差异的核心来源就是RLHF。

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是在SFT基础上，通过人类偏好反馈进一步优化模型输出质量的训练方法。

SFT让模型学会生成合理的回复，但无法准确区分哪个回复更好。RLHF的作用是，在多个可能的回复中，引导模型持续生成更符合人类偏好的输出。

训练流程是标注人员对模型生成的多个回复进行排序，这个排序数据用于训练一个奖励模型（Reward Model），再用奖励模型的信号通过强化学习优化原始模型的生成策略。

理解RLHF的实际价值在于，它解释了为什么不同厂商的模型在安全限制和回复风格上存在明显差异。这是不同的标注标准和偏好设计的结果，不是模型能力差异造成的。选型时如果发现某个模型太保守或太激进，根源在RLHF阶段的标注偏好设定。

17 、Quantization

部署一个大参数模型需要的GPU显存动辄几百GB，硬件预算直接爆掉。Quantization是把硬件成本砍下来的核心手段。

Quantization（量化）是通过降低模型权重的数值精度来减少模型存储空间和推理计算量的技术。模型权重默认以16位浮点数（FP16）存储。量化将精度降低到8位整数（INT8）甚至4位整数（INT4），存储空间和计算量随之减少。

对你的直接影响体现在三个方面。

成本方面，INT4量化后的模型相比FP16版本，推理使用的GPU显存减少约75%，在相同硬件上可以部署更大参数量的模型，或者处理更多并发请求。

质量方面，量化会引入精度损失。INT4量化的模型在某些任务上的准确率低于FP16版本，具体损失因任务类型和量化算法而异。

速度方面，量化后的推理速度通常更快，延迟降低对实时交互类产品有价值。

老王建议，选型时先跑一轮业务场景测试，确认精度损失在可接受范围内再决定用哪个量化级别。不能默认量化版本与原版质量相同。

18 、Parameter Count

对比两个模型，一个7B一个70B，直觉告诉你70B更强。大多数情况下是对的，但不绝对。

Parameter Count（参数量）是模型中可训练权重的总数量，通常以十亿（Billion，B）为单位，如7B、70B、405B。

有三个反直觉的认知。

更大不等于更好。在同等训练质量下，更大的参数量通常意味着更强的能力，但训练数据质量、微调策略、架构设计同样决定模型能力。一个经过高质量数据精炼训练的7B模型，在特定任务上可以超过粗糙训练的70B模型。

参数量决定部署成本。70B参数的模型在FP16精度下需要约140GB显存，需要2张A100。405B参数模型需要约810GB显存，硬件成本显著提升。评估私有化部署方案时，必须将参数量与GPU成本对应。

参数量与API定价正相关。主流大模型API定价按模型版本分层，更大参数量的版本每百万Token的费用更高。

早期规划阶段就把参数量和API定价的关系纳入成本模型，选型时先从小模型试起，能满足业务需求就不上大模型。

19 、Benchmark

厂商宣传MMLU得分92.3%，超越GPT-4，看起来很强。但Benchmark得分高不等于你的业务场景好用。

Benchmark（基准评测）是用于衡量大模型能力的标准化测试集，选型时需要参考但不能只看这个。

MMLU覆盖57个学科的知识问答，包括数学、历史、法律、医学等，评估模型的知识广度和理解能力。

MATH是高中到竞赛级别的数学题，评估模型的数学推理能力。准确率低于60%的模型在数学密集型任务中不适合作为主力模型。

HumanEval是编程任务评测，评估代码生成的功能正确率。

MMLU-Pro和SimpleQA分别针对专业场景知识和事实准确性。

老王的经验是，最可靠的选型方法是用你的实际业务数据构造测试集，在候选模型上实测，以业务任务的准确率作为选型依据。厂商Benchmark可能存在测试集污染，只看官方榜单排名会踩坑。

20 、Emergent Ability

小模型跑不动的多步骤推理任务，换了个大一号的模型，同样的任务突然就能做了。这不是玄学，是涌现。

Emergent Ability（涌现能力）是指大模型在参数量或训练数据规模达到某个阈值后，突然具备之前没有的能力，且该能力无法从更小规模的模型线性外推。

这个概念解释了为什么模型升级有时体验到能力的质变，而不是量变。多步骤数学推理在部分模型规模阈值以下准确率接近随机，超过阈值后准确率迅速提升。代码调试、复杂逻辑判断、跨语言理解等任务均在不同规模节点上出现类似现象。

对你的应用价值是，当升级到更大规模的模型时，可能解锁之前无法实现的产品功能。小模型跑不动的任务，换大模型试一次是有数据支撑的策略。

涌现的边界是，并非所有任务都存在明确的涌现阈值，也不是所有升级都能带来涌现效果。小模型做不到的事，先换大模型试一轮，成了就上，不成再找别的方案。

那么如何学习大模型 AI ？

对于刚入门大模型的小白，或是想转型/进阶的程序员来说，最头疼的就是找不到系统、全面的学习资源，要么零散不成体系，要么收费高昂，白白浪费时间走弯路。今天就给大家精心整理了一份全面且免费的AI大模型学习资源包，覆盖从入门到实战、从理论到面试的全流程，所有资料均已整理完毕，免费分享给各位！

核心包含：AI大模型全套系统化学习路线图（小白可直接照做）、精品学习书籍+电子文档、干货视频教程、可直接上手的实战项目+源码、2026大厂面试真题题库，一站式解决你的学习痛点，不用再到处搜集拼凑！

👇👇扫码免费领取全部内容👇👇

1、大模型系统化学习路线

学习大模型，方向比努力更重要！很多小白入门就陷入“盲目看视频、乱刷资料”的误区，最后越学越懵。这里给大家整理的这份学习路线，是结合2026年大模型行业趋势和新手学习规律设计的，最科学、最系统，从零基础到精通，每一步都有明确指引，帮你节省80%的无效学习时间，少走弯路、高效进阶。

2、大模型学习书籍&文档

理论是实战的根基，尤其是对于程序员来说，想要真正吃透大模型原理，离不开优质的书籍和文档支撑。本次整理的书籍和电子文档，均由大模型领域顶尖专家、大厂技术大咖撰写，涵盖基础入门、核心原理、进阶技巧等内容，语言通俗易懂，既有理论深度，又贴合实战场景，小白能看懂，程序员能进阶，为后续实战和面试打下坚实基础。

3、AI大模型最新行业报告

无论是小白了解行业、规划学习方向，还是程序员转型、拓展业务边界，都需要紧跟行业趋势。本次整理的2026最新大模型行业报告，针对互联网、金融、医疗、工业等多个主流行业，系统调研了大模型的应用现状、发展趋势、现存问题及潜在机会，帮你清晰了解哪些行业更适合大模型落地，哪些技术方向值得重点深耕，避免盲目学习，精准对接行业需求。值得一提的是，报告还包含了多模态、AI Agent等前沿方向的发展分析，助力大家把握技术风口。

4、大模型项目实战&配套源码

对于程序员和想落地能力的小白来说，“光说不练假把式”，只有动手实战，才能真正巩固所学知识，将理论转化为实际能力。本次整理的实战项目，涵盖基础应用、进阶开发、多场景落地等类型，每个项目都附带完整源码和详细教程，从简单的ChatPDF搭建，到复杂的RAG系统开发、大模型部署，难度由浅入深，小白可逐步上手，程序员可直接参考优化，既能练手提升技术，又能丰富简历，为求职和职业发展加分。

5、大模型大厂面试真题

2026年大模型面试已从单纯考察原理，转向侧重技术落地和业务结合的综合考察，很多程序员和新手因为缺乏针对性准备，明明技术不错，却在面试中失利。为此，我精心整理了各大厂最新大模型面试真题题库，涵盖基础原理、Prompt工程、RAG系统、模型微调、部署优化等核心考点，不仅有真题，还附带详细解题思路和行业踩坑经验，帮你精准把握面试重点，提前做好准备，面试时从容应对、游刃有余。

6、四阶段精细化学习规划（附时间节点，可直接照做）

结合上述资源，给大家整理了一份可直接落地的四阶段学习规划，总时长约2个月，小白可循序渐进，程序员可根据自身基础调整节奏，高效掌握大模型核心能力，快速实现从“入门”到“能落地、能面试”的跨越。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗？

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理，现任上海殷泊信息科技CEO，其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证，服务航天科工、国家电网等1000+企业，以第一作者在IEEE Transactions发表论文50+篇，获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目，无论你是小白还是有些技术基础的技术人员，这份资料都绝对能帮助你提升薪资待遇，转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

20个大模型本体概念，产品经理必备收藏，轻松掌握AI产品决策！