news 2026/2/1 2:31:42

收藏级指南:LLM Agent(智能体)从入门到实战,小白也能上手的大模型应用搭建教程

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
收藏级指南:LLM Agent(智能体)从入门到实战,小白也能上手的大模型应用搭建教程

一、LLM Agent(智能体)高级概述

对刚接触大模型的小白和初级程序员而言,通用LLM Agent是快速落地应用场景的“敲门砖”——无需复杂技术栈,就能低成本搭建可用的用例原型,快速验证想法可行性;对于进阶开发者,通用Agent的构建过程能帮你吃透大模型应用的核心逻辑,为后续定制化Agent架构(如行业专属Agent)筑牢基础,规避大量无效试错。

在动手实操前,我们先梳理LLM Agent的核心概念(基础扎实的开发者可直接跳转至搭建步骤,高效落地)。

二、先搞懂:什么是LLM Agent?

LLM Agent 是一款由底层大模型驱动执行逻辑的程序,区别于固定脚本的“硬编码”模式,它具备自主决策、动态调整执行路径的核心能力。

从单一LLM模型到Agentic(智能体化)系统,核心差异在于新增了“自主决策→工具调用→结果迭代→优化调整”的闭环链路,而非仅依赖模型自身知识库输出。这种升级让Agent摆脱了固定响应逻辑的束缚,具体区别可通过下图直观理解:

和传统的少样本提示(few-shot prompt)、固定工作流相比,LLM Agent的核心优势在于自主性:它能根据用户查询的具体需求,自主定义执行步骤、选择合适工具、调整调用方式,还能根据工具输出结果优化后续操作。

比如面对"分析近3年人工智能领域顶会论文趋势"的需求,Agent会自主拆解为"检索顶会列表→爬取论文数据→数据分析→生成可视化报告"等步骤,自动调用网页搜索、代码执行等工具,全程无需人工干预。这种适应性让它能以最少配置覆盖多种用例,这也是Agent的核心价值所在。

关键认知:Agentic架构的"灵活性-可靠性"频谱

很多新手容易陷入"追求极致灵活"的误区,其实Agentic架构不存在绝对最优解,而是存在从"固定工作流的可靠性"到"自主Agent的灵活性"的连续频谱。

举两个实用例子帮你理解:

  1. 检索增强生成(RAG)这种固定工作流,可通过添加"自反思(self-reflection)循环"提升灵活性——当初始检索结果不足以支撑回答时,Agent会自主调整检索关键词重新查询;

  2. ReAct Agent(推理-行动架构)可将固定工作流作为工具调用,既保留了自主决策的灵活性,又借助固定流程保证核心步骤的可靠性。

最终选择哪种架构,核心看你的使用场景:比如企业内部固定报表生成,优先选可靠性更高的固定工作流+轻量Agent;比如科研探索、未知领域分析,就需要灵活性更强的自主Agent。

从零开始构建一个通用 LLM Agent !

第 1 步:选择合适的 LLM

选择合适的模型对于实现预期的性能至关重要。你需要考虑多个因素,例如许可协议、成本和语言支持

对于LLM Agent来说,最重要的考量因素是模型在关键任务(如代码生成、工具调用和推理)上的表现,评估基准包括:

  • MMLU(Massive Multitask Language Understanding)

    (用于推理能力评估)

  • Berkeley’s Function Calling Leaderboard

    (用于工具选择与调用评估)

  • HumanEval 和 BigCodeBench

    (用于代码能力评估)

另一个关键因素是模型的上下文窗口大小。Agentic 工作流可能会消耗大量 token,有时甚至超过 100K,因此更大的上下文窗口会带来极大便利。

可考虑的模型(截至2025年3月1日)

  • 闭源模型:GPT-4.5、Claude 3.7

  • 开源模型:Qwen 2.5、DeepSeek R1、Llama 3.2

通常来说,更大的模型通常表现更佳,但能够在本地运行的小型模型仍然是不错的选择。如果选择小型模型,Agent 可能只能用于较简单的场景,并且只能连接一两个基础工具。

第 2 步:定义 Agent 的控制逻辑(即通信结构)

LLM 与 Agent 之间的主要区别在于系统提示(system prompt)。在 LLM 的上下文中,系统提示是一组指令和上下文信息,在模型处理用户查询之前提供给它。

Agent 预期的行为可以在系统提示中进行编码,从而定义其 Agentic 行为模式。这些模式可以根据具体需求进行定制,常见的 Agentic 模式:

  • 工具调用(Tool Use)

    Agent 决定何时将查询传递给合适的工具,或直接依赖自身知识回答。

  • 自反思(Reflection)

    Agent 在回应用户之前,会先检查并修正自己的回答。大多数 LLM 系统都可以加入一个反思步骤。

  • 推理后执行(Reason-then-Act,ReAct)

    Agent 逐步推理如何解决查询,执行某个操作,观察结果,并决定是继续采取行动还是直接给出答案。

  • 规划后执行(Plan-then-Execute)

    Agent 先将任务拆解成多个子步骤(如果有必要),然后逐步执行每个步骤。

其中,ReAct 和 Plan-then-Execute是构建通用单Agent最常见的起点。

要有效实现这些行为,你需要进行Prompt Engineering(提示工程),也可能需要使用结构化生成(structured generation)技术。结构化生成的核心思想是引导 LLM 输出符合特定格式或模式,确保 Agent 的回复风格一致,并符合预期的沟通方式。

示例:Bee Agent Framework 中的 ReAct 风格 Agent 的系统提示片段:

# Communication structure You communicate only in instruction lines. The format is: "Instruction: expected output". You must only use these instruction lines and must not enter empty lines or anything else between instruction lines. You must skip the instruction lines Function Name, Function Input and Function Output if no function calling is required. Message: User's message. You never use this instruction line. Thought: A single-line plan of how to answer the user's message. It must be immediately followed by Final Answer. Thought: A single-line step-by-step plan of how to answer the user's message. You can use the available functions defined above. This instruction line must be immediately followed by Function Name if one of the available functions defined above needs to be called, or by Final Answer. Do not provide the answer here. Function Name: Name of the function. This instruction line must be immediately followed by Function Input. Function Input: Function parameters. Empty object is a valid parameter. Function Output: Output of the function in JSON format. Thought: Continue your thinking process. Final Answer: Answer the user or ask for more information or clarification. It must always be preceded by Thought. ## Examples Message: Can you translate "How are you" into French? Thought: The user wants to translate a text into French. I can do that. Final Answer: Comment vas-tu?

中文:

# 通信结构 你只能通过指令行进行通信。格式为:“指令:预期输出”。你只能使用这些指令行,并且不得在指令行之间输入空行或其他任何内容。 如果不需要调用函数,则必须跳过指令行函数名称、函数输入和函数输出。 消息:用户的消息。您永远不会使用此指令行。 想法:如何回答用户消息的单行计划。它必须紧接着最终答案。 想法:如何回答用户消息的单行分步计划。你可以使用上面定义的可用函数。如果需要调用上面定义的可用函数之一,则此指令行必须紧接着函数名称,或者紧接着最终答案。不要在此处提供答案。 函数名称:函数的名称。此指令行必须紧接着函数输入。 函数输入:函数参数。空对象是有效参数。 函数输出:以 JSON 格式输出函数。 想法:继续你的思考过程。 最终答案:回答用户或要求提供更多信息或说明。它必须始终以想法开头。 ## 示例 消息:你能将“How are you”翻译成法语吗? 想法:用户想将文本翻译成法语。我可以做到。 最终答案:Comment vas-tu?
第 3 步:定义 Agent 的核心指令

我们通常认为 LLM 具备许多开箱即用的功能,但其中一些可能并不符合你的需求。要让 Agent 达到理想的性能,你需要在系统提示中明确规定哪些功能应该启用,哪些应该禁用

可能需要定义的指令包括:

  • Agent 名称与角色

    Agent 的名称及其职责。

  • 语气与简洁性

    Agent 交流时应正式还是随意?应尽量简短还是提供详细信息?

  • 何时使用工具

    何时依赖外部工具,何时直接使用 LLM 知识回答?

  • 错误处理方式

    如果工具调用失败,Agent 应该如何应对?

示例:Bee Agent Framework 的部分指令:

# Instructions User can only see the Final Answer, all answers must be provided there. You must always use the communication structure and instructions defined above. Do not forget that Thought must be a single-line immediately followed by Final Answer. You must always use the communication structure and instructions defined above. Do not forget that Thought must be a single-line immediately followed by either Function Name or Final Answer. Functions must be used to retrieve factual or historical information to answer the message. If the user suggests using a function that is not available, answer that the function is not available. You can suggest alternatives if appropriate. When the message is unclear or you need more information from the user, ask in Final Answer. # Your capabilities Prefer to use these capabilities over functions. - You understand these languages: English, Spanish, French. - You can translate and summarize, even long documents. # Notes - If you don't know the answer, say that you don't know. - The current time and date in ISO format can be found in the last message. - When answering the user, use friendly formats for time and date. - Use markdown syntax for formatting code snippets, links, JSON, tables, images, files. - Sometimes, things don't go as planned. Functions may not provide useful information on the first few tries. You should always try a few different approaches before declaring the problem unsolvable. - When the function doesn't give you what you were asking for, you must either use another function or a different function input. - When using search engines, you try different formulations of the query, possibly even in a different language. - You cannot do complex calculations, computations, or data manipulations without using functions.

中文:

# 说明 用户只能看到最终答案,所有答案都必须在那里提供。 你必须始终使用上面定义的通信结构和说明。不要忘记,思考必须是一行,后面紧跟着最终答案。 你必须始终使用上面定义的通信结构和说明。不要忘记,思考必须是一行,后面紧跟着函数名称或最终答案。 必须使用函数来检索事实或历史信息以回答消息。 如果用户建议使用不可用的功能,请回答该功能不可用。如果合适,你可以建议替代方案。 当消息不清楚或你需要用户提供更多信息时,请在最终答案中询问。 #你的能力 优先使用这些能力而不是功能。 - 你了解这些语言:英语、西班牙语、法语。 - 你可以翻译和总结,即使是长篇文档。 # 注释 - 如果你不知道答案,请说你不知道。 - 可以在最后一条消息中找到 ISO 格式的当前时间和日期。 - 回答用户问题时,请使用友好的时间和日期格式。 - 使用 markdown 语法格式化代码片段、链接、JSON、表格、图像和文件。 - 有时,事情不会按计划进行。函数在前几次尝试中可能无法提供有用的信息。在宣布问题无法解决之前,你应该始终尝试几种不同的方法。 - 当函数无法提供你要求的内容时,你必须使用其他函数或其他函数输入。 - 使用搜索引擎时,你可以尝试查询的不同表述,甚至可能使用不同的语言。 - 不使用函数,你无法进行复杂的计算、运算或数据操作。
第 4 步:定义并优化核心工具

工具赋予了 Agent 强大的能力。通过一组精心设计的工具,你可以实现广泛的功能。关键工具包括:
✅ 代码执行
✅ Web 搜索
✅ 文件读取
✅ 数据分析

每个工具都应包含以下定义,并作为系统提示的一部分:

  • 工具名称(Tool Name)

    清晰描述该工具的功能。

  • 工具描述(Tool Description)

    解释工具的用途,以及何时使用它,以帮助 Agent 选择合适的工具。

  • 工具输入模式(Tool Input Schema)

    定义输入参数,包括必填项、可选项、类型和约束

  • 工具执行方式

    如何运行工具,以及 Agent 该如何调用它。

示例:Langchain 社区的 Arxiv 工具,以下是****Arxiv API实现的部分代码,该工具可用于检索物理学、数学、计算机科学等领域的论文:

class ArxivInput(BaseModel): """Input for the Arxiv tool.""" query: str = Field(description="search query to look up") class ArxivQueryRun(BaseTool): # type: ignore[override, override] """Tool that searches the Arxiv API.""" name: str = "arxiv" description: str = ( "A wrapper around Arxiv.org " "Useful for when you need to answer questions about Physics, Mathematics, " "Computer Science, Quantitative Biology, Quantitative Finance, Statistics, " "Electrical Engineering, and Economics " "from scientific articles on arxiv.org. " "Input should be a search query." ) api_wrapper: ArxivAPIWrapper = Field(default_factory=ArxivAPIWrapper) # type: ignore[arg-type] args_schema: Type[BaseModel] = ArxivInput def _run( self, query: str, run_manager: Optional[CallbackManagerForToolRun] = None, ) -> str: """Use the Arxiv tool.""" return self.api_wrapper.run(query)

在某些情况下,你可能需要优化工具以提升性能,例如:

  • 通过Prompt Engineering(提示工程)调整工具名称或描述,提高匹配度。
  • 设定高级配置,处理常见错误。
  • 过滤工具输出,确保结果符合期望。
第 5 步:制定记忆管理策略

LLM 的上下文窗口(context window)是有限的,它决定了模型可以“记住”的内容量。例如:多轮对话、长文本工具输出和额外的上下文信息都会快速占满上下文窗口。因此,合理的记忆管理策略至关重要

在 Agent 的语境中,记忆是指系统存储、回忆和利用过去交互信息的能力。这使 Agent 能够随着时间的推移保持上下文,根据以前的交流改进其响应,并提供更个性化的体验。

常见的记忆管理策略

1️⃣滑动窗口记忆(Sliding Memory):保留最近的k 轮对话,丢弃旧内容。
2️⃣Token 记忆(Token Memory):仅保留最近的 n 个 token,其余丢弃。
3️⃣摘要记忆(Summarized Memory):每轮对话后,使用 LLM生成摘要,然后丢弃具体对话内容。
4️⃣关键点存储(Key Moment Storage):让 LLM 识别关键事实并存入长期记忆,使 Agent 能“记住”重要信息,为用户提供更个性化的体验。

目前,我们已经覆盖了 Agent 构建的五个核心步骤:

Step 1:定义 Agent 任务与行为模式(ReAct、Plan-then-Execute)
Step 2:Prompt Engineering(确保 Agent 行为符合预期)
Step 3:编写核心指令(定义角色、风格、工具使用策略等)
Step 4:定义并优化核心工具(如 Web 搜索、数据库查询等)
Step 5:制定内存管理策略(防止上下文溢出)

那么,如果我们现在让 LLM 直接处理用户查询,会发生什么?🚀

举个例子,可能会发生:

User Message: Extract key insighs from this dataset Files: bill-of-materials.csv Thought: First, I need to inspect the columns of the dataset and provide basic data statistics. Function Name: Python Function Input: {"language":"python","code":"import pandas as pd\n\ndataset = pd.read_csv('bill-of-materials.csv')\n\nprint(dataset.columns)\nprint(dataset.describe())","inputFiles":["bill-of-materials.csv"]} Function Output:
用户消息:从此数据集中提取关信息 文件:bill-of-materials.csv 想法:首先,我需要检查数据集的列并提供基本数据统计信息。 函数名称:Python 函数输入:{"language":"python","code":"import pandas as pd\n\ndataset = pd.read_csv('bill-of-materials.csv')\n\nprint(dataset.columns)\nprint(dataset.describe())","inputFiles":["bill-of-materials.csv"]} 函数输出:

此时,Agent 生成的是原始文本输出。那么,如何让它执行下一步操作呢?这就需要解析(Parsing)和编排(Orchestration)。

第 6 步:解析 Agent 的原始输出

解析器(Parser)是一种将原始数据转换为应用程序可理解格式(例如带有属性的对象)的函数。

对于我们正在构建的 Agent,解析器需要识别第 2 步中定义的通信结构,并返回结构化输出(如 JSON)。这样,应用程序就能更容易地处理和执行 Agent 的下一步操作。

注意:部分模型提供商(如 OpenAI)默认支持可解析的输出。而对于其他模型(特别是开源模型),可能需要手动配置此功能。

第 7 步:编排 Agent 的下一步操作

最后一步是设置编排逻辑,用于决定 LLM 在生成结果后的处理方式。根据输出内容,你可能需要:

  1. 执行工具调用(如运行 Python 代码、调用 API)。
  2. 返回答案,即向用户提供最终响应,或请求额外信息以进一步完成任务。

如果触发了工具调用,则工具的输出将发送回 LLM(作为其工作记忆的一部分)。然后,LLM 将确定如何处理这些新信息:执行另一个工具调用或向用户返回答案。

以下是此编排逻辑在代码中的样子:

def orchestrator(llm_agent, llm_output, tools, user_query): """ Orchestrates the response based on LLM output and iterates if necessary. Parameters: - llm_agent (callable): The LLM agent function for processing tool outputs. - llm_output (dict): Initial output from the LLM, specifying the next action. - tools (dict): Dictionary of available tools with their execution methods. - user_query (str): The original user query. Returns: - str: The final response to the user. """ while True: action = llm_output.get("action") if action == "tool_call": # Extract tool name and parameters tool_name = llm_output.get("tool_name") tool_params = llm_output.get("tool_params", {}) if tool_name in tools: try: # Execute the tool tool_result = tools[tool_name](**tool_params) # Send tool output back to the LLM agent for further processing llm_output = llm_agent({"tool_output": tool_result}) except Exception as e: return f"Error executing tool '{tool_name}': {str(e)}" else: return f"Error: Tool '{tool_name}' not found." elif action == "return_answer": # Return the final answer to the user return llm_output.get("answer", "No answer provided.") else: return "Error: Unrecognized action type from LLM output."

大功告成!你现在已经构建了一个可以处理多种场景的系统——无论是竞争分析、深度研究,还是自动化复杂的工作流,都能轻松应对。

Multi-Agent 系统的作用?

尽管当前一代的 LLM 功能强大,但它们仍然存在一个核心限制:难以处理信息过载

如果上下文信息过多,或使用的工具过于复杂,模型可能会因超载而导致性能下降。单个通用 Agent 迟早会遇到这个瓶颈,尤其是当它大量消耗 token 时。

对于某些应用场景,采用 Multi-Agent**(多 Agent)**方案可能更合理。通过将任务拆分到多个 Agent 之间,可以减少单个 LLM 需要处理的上下文,从而提高整体效率。

不过,从单 Agent 入手仍然是一个绝佳的起点,尤其是在原型阶段。它能帮助你快速测试应用场景,并发现系统的瓶颈所在。
在此过程中,你可以:

  • 理解任务的哪些部分真正需要 Agent 来执行。

  • 识别可以拆分成独立流程的子任务,以便构建更大的工作流。

从单个 Agent 开始,你可以逐步获取有价值的信息,为未来扩展到更复杂的系统打下基础。

如何快速上手?

准备好开始构建了?

使用一个框架是快速测试和迭代 Agent 配置的好方法。

  • 如果你计划使用开源模型(如 Llama 3)可以尝试Bee Agent Framework提供入门模板:

    https://github.com/i-am-bee/bee-agent-framework

  • 如果你计划使用前沿模型(如 OpenAI)可以参考 LangGraph 提供的教程:

    https://langchain-ai.github.io/langgraph/

小白/程序员如何系统学习大模型LLM?

作为在一线互联网企业深耕十余年的技术老兵,我经常收到小白和程序员朋友的提问:“零基础怎么入门大模型?”“自学没有方向怎么办?”“实战项目怎么找?”等问题。难以高效入门。

这里为了帮助大家少走弯路,我整理了一套全网最全最细的大模型零基础教程。涵盖入门思维导图、经典书籍手册、实战视频教程、项目源码等核心内容。免费分享给需要的朋友!

👇👇扫码免费领取全部内容👇👇

1、我们为什么要学大模型?

很多开发者会问:大模型值得花时间学吗?答案是肯定的——学大模型不是跟风追热点,而是抓住数字经济时代的核心机遇,其背后是明确的行业需求和实打实的个人优势:

第一,行业刚需驱动,并非突发热潮。大模型是AI规模化落地的核心引擎,互联网产品迭代、传统行业转型、新兴领域创新均离不开它,掌握大模型就是拿到高需求赛道入场券。

第二,人才缺口巨大,职业机会稀缺。2023年我国大模型人才缺口超百万,2025年预计达400万,具备相关能力的开发者岗位多、薪资高,是职场核心竞争力。

第三,技术赋能增效,提升个人价值。大模型可大幅提升开发效率,还能拓展职业边界,让开发者从“写代码”升级为“AI解决方案设计者”,对接更高价值业务。

对于开发者而言,现在入门大模型,不仅能搭上行业发展的快车,还能为自己的职业发展增添核心竞争力——无论是互联网大厂的AI相关岗位,还是传统行业的AI转型需求,都在争抢具备大模型技术能力的人才。

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

2、大模型入门到实战全套学习大礼包分享

最后再跟大家说几句:只要你是真心想系统学习AI大模型技术,这份我耗时许久精心整理的学习资料,愿意无偿分享给每一位志同道合的朋友。

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

部分资料展示

2.1、 AI大模型学习路线图,厘清要学哪些

对于刚接触AI大模型的小白来说,最头疼的问题莫过于“不知道从哪学起”,没有清晰的方向很容易陷入“东学一点、西补一块”的低效困境,甚至中途放弃。

为了解决这个痛点,我把完整的学习路径拆解成了L1到L4四个循序渐进的阶段,从最基础的入门认知,到核心理论夯实,再到实战项目演练,最后到进阶优化与落地,每一步都明确了学习目标、核心知识点和配套实操任务,带你一步步从“零基础”成长为“能落地”的大模型学习者。后续还会陆续拆解每个阶段的具体学习内容,大家可以先收藏起来,跟着路线逐步推进。

L1级别:大模型核心原理与Prompt

L1阶段:将全面介绍大语言模型的基本概念、发展历程、核心原理及行业应用。从A11.0到A12.0的变迁,深入解析大模型与通用人工智能的关系。同时,详解OpenAl模型、国产大模型等,并探讨大模型的未来趋势与挑战。此外,还涵盖Pvthon基础、提示工程等内容。
目标与收益:掌握大语言模型的核心知识,了解行业应用与趋势;熟练Python编程,提升提示工程技能,为AI应用开发打下坚实基础。

L2级别:RAG应用开发工程

L2阶段:将深入讲解AI大模型RAG应用开发工程,涵盖Naive RAGPipeline构建、AdvancedRAG前治技术解读、商业化分析与优化方案,以及项目评估与热门项目精讲。通过实战项目,提升RAG应用开发能力。

目标与收益:掌握RAG应用开发全流程,理解前沿技术,提升商业化分析与优化能力,通过实战项目加深理解与应用。

L3级别:Agent应用架构进阶实践

L3阶段:将 深入探索大模型Agent技术的进阶实践,从Langchain框架的核心组件到Agents的关键技术分析,再到funcation calling与Agent认知框架的深入探讨。同时,通过多个实战项目,如企业知识库、命理Agent机器人、多智能体协同代码生成应用等,以及可视化开发框架与IDE的介绍,全面展示大模型Agent技术的应用与构建。

目标与收益:掌握大模型Agent技术的核心原理与实践应用,能够独立完成Agent系统的设计与开发,提升多智能体协同与复杂任务处理的能力,为AI产品的创新与优化提供有力支持。

L4级别:模型微调与私有化大模型

L4级别:将聚焦大模型微调技术与私有化部署,涵盖开源模型评估、微调方法、PEFT主流技术、LORA及其扩展、模型量化技术、大模型应用引警以及多模态模型。通过chatGlM与Lama3的实战案例,深化理论与实践结合。

目标与收益:掌握大模型微调与私有化部署技能,提升模型优化与部署能力,为大模型项目落地打下坚实基础。

2.2、 全套AI大模型应用开发视频教程

从入门到进阶这里都有,跟着老师学习事半功倍。

2.3、 大模型学习书籍&文档

收录《从零做大模型》《动手做AI Agent》等经典著作,搭配阿里云、腾讯云官方技术白皮书,帮你夯实理论基础。

2.4、AI大模型最新行业报告

2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

2.5、大模型大厂面试真题

整理了百度、阿里、字节等企业近三年的AI大模型岗位面试题,涵盖基础理论、技术实操、项目经验等维度,每道题都配有详细解析和答题思路,帮你针对性提升面试竞争力。

【大厂 AI 岗位面经分享(107 道)】

【AI 大模型面试真题(102 道)】

【LLMs 面试真题(97 道)】

2.6、大模型项目实战&配套源码

学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

适用人群

四阶段学习规划(共90天,可落地执行)
第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范
第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署
第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建
第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型

  • 带你了解全球大模型

  • 使用国产大模型服务

  • 搭建 OpenAI 代理

  • 热身:基于阿里云 PAI 部署 Stable Diffusion

  • 在本地计算机运行大模型

  • 大模型的私有化部署

  • 基于 vLLM 部署大模型

  • 案例:如何优雅地在阿里云私有部署开源大模型

  • 部署一套开源 LLM 项目

  • 内容安全

  • 互联网信息服务算法备案

  • 👇👇扫码免费领取全部内容👇👇

3、这些资料真的有用吗?

这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/1/26 19:02:46

jsp网上公路车销售系统

目录网上公路车销售系统摘要项目技术支持可定制开发之功能亮点源码获取详细视频演示 :文章底部获取博主联系方式!同行可合作网上公路车销售系统摘要 网上公路车销售系统是一个基于JSP技术的电子商务平台,旨在为用户提供便捷的公路自行车在线…

作者头像 李华
网站建设 2026/1/29 22:06:52

导师推荐!自考必看TOP9AI论文网站测评

导师推荐!自考必看TOP9AI论文网站测评 2026年自考AI论文工具测评:如何选择最适合你的写作助手 随着人工智能技术的不断发展,越来越多的自考学生开始借助AI工具提升论文写作效率。然而,面对市场上琳琅满目的平台,如何选…

作者头像 李华
网站建设 2026/1/26 22:37:35

前端效率翻倍!Open-Lovable 克隆网页超实用,搭配 cpolar 远程用更香

Open-Lovable 是一款面向前端开发者的开源工具,核心功能是将任意网页克隆为可编辑的 React 应用,还支持多类 AI 模型辅助生成代码,能自动拆分组件、保留完整 CSS 样式,不管是新手学习网页结构,还是创业团队快速制作产品…

作者头像 李华
网站建设 2026/1/30 17:51:57

【避坑指南】langchain模块结构兼容性问题导致的模块引入错误解析

本文介绍当前最流行的langchain在新手使用过程中的一些典型问题,因langchain在0.1.0版本后有几次较大规模的重构,产生较多模块版本不兼容、经常会遇到在引入模块时发生错误,本文针对这类问题做了langchain结构的分析,帮大家避坑&a…

作者头像 李华
网站建设 2026/1/29 18:25:41

GEO服务商榜单

原圈科技如何领跑AI营销 破解获客难题?技术底座 行业知识 端到端方案核心洞察 | 原圈科技GEO服务深度解析:作为2026年榜单的领跑者,原圈科技凭借其"技术底座行业知识端到端方案"三位一体的核心能力脱颖而出。其通过"天眼&qu…

作者头像 李华
网站建设 2026/1/28 21:13:21

国产DevSecOps工具崛起:安全左移战略下的技术创新与市场重构

国产DevSecOps工具崛起:安全左移战略下的技术创新与市场重构 随着数字化转型进入深水区,软件开发的安全需求正在发生根本性变革。Gartner最新预测显示,到2025年中国DevSecOps工具市场将突破78亿元规模,年复合增长率高达42%&#x…

作者头像 李华