本文分享了作者三年内学习与实践大模型的心路历程,从最初的向量检索到搭建Agent平台,再到垂类场景应用,见证了行业从概念炒作到工程落地的转变。文章强调数据质量、模型理解业务链路的重要性,并指出随着模型能力提升,Agent平台的治理问题日益凸显。作者认为,大模型并非魔法,而是让不可能变可能的重要工具,工程师的投票最终决定了哪些技术能真正落地。
一、初识:对话框里的好奇
2023 年初,我第一次在对话框里输入指令时,并没有意识到这会彻底改变我的职业轨迹。那时我主要从事业务系统的开发维护工作,每天面对的是接口设计、数据流转和业务逻辑。面对 ChatGPT 这种能够理解复杂意图、甚至能写代码的系统,我最初的感受更多是好奇:这个“黑盒”到底能如何接入我熟悉的业务系统?
二、2023:从 LangChain 到向量库
后来 LangChain 的流行,给了我们这群开发者一个切入点。
那时候,大家都在探索如何让模型“读懂”公司的内部文档。我也从零开始学习向量检索相关的东西。2023 年年中,我在公司环境里搭了一些基础服务(开源的向量数据库),试图解决模型在专业领域知识缺失的问题。那时候还没有系统学习 RAG,只是因为框架里用到了这些东西,就一点点跟着补。
在那个阶段,我参加了一场 AIGC 应用大会。会场里几乎所有人都在讨论“助手”——知识库助手、办公助手。虽然大家对未来充满期待,但落到产品形态上,大多还停留在简单的问答层面。这也挺符合 2023 年的行业状态:ChatGPT 把大模型带到了大众面前,GPT-4 提高了大家对模型能力的想象,OpenAI 的插件、function calling、Assistants API 又让开发者看到模型接工具的可能性。AutoGPT 也在那一年火了一阵子,大家第一次开始认真讨论 Agent。但在大多数公司里,真正能落地的,还是问答、摘要、知识库这一类场景。
三、数据质量:比模型更重要的瓶颈
做知识库的过程中,我发现模型的能力上限往往被数据质量所限制。当时模型上下文没有现在这么长,多模态能力也没现在这么强。PDF 里的表格、图片,模型根本看不懂。为了让模型理解复杂版式,我们投入了大量精力在文档清洗上,要做切块,要做混合检索,还要借助 OCR 处理图片和表格。当时还记得 MinerU 这类 PDF 解析工具很火,因为大家都卡在类似的问题上。那时候我才明白:模型再强大,如果输入的信息是混乱的,输出的结果也必然不可靠。
四、代码检测:模型看不懂业务链路
我们还尝试过利用大模型进行代码质量检测。当时主要依靠 Prompt 工程,通过少样本学习让模型识别潜在的问题。为了让模型拿到更多信息,还调研了一些程序分析技术。但实际效果并不理想,误报率极高。模型往往能指出语法层面的风险,却无法理解复杂的业务链路。例如,它会提示某处存在空指针风险,却不知道前置逻辑已经完全规避了这种可能——业务代码链路很长,空值根本不会流转到这个逻辑中。对熟悉业务的人来说,这不是问题;对模型来说,它看到的只是局部代码。这件事让我第一次清楚地意识到:模型能力和任务能力不是一回事。前者是模型在 benchmark 上能做到什么,后者是在你的具体业务环境里能做到什么。中间的差距,就是工程要填的。
五、2024:搭建 Agent 平台
进入 2024 年,行业开始频繁提及 Agent(智能体)的概念。我们也开始正式搭建内部的 Agent 平台。
那时行业也在变。Gemini 1.5 把长上下文推到很高的位置,Claude 3、GPT-4o 让多模态和实时交互变得更直观。到了 2024 年下半年,o1、Computer Use、MCP 这些东西陆续出来,Agent 的讨论明显多了起来。
但在我们真正做平台的时候,完全自主规划的 Agent 在工程上还很难落地,目标漂移和重复执行是常态。因此,我们选择了工作流编排的路径:通过意图识别、工具广场和逻辑指令,人为地为模型设定执行边界。平台架子本身不算特别难,因为那时候大家的思路大体类似。真正麻烦的是细节:模型什么时候该调用工具,工具失败了怎么办,中间结果怎么判断,用户什么时候介入,这些问题每一个都要处理。这样做虽然不酷,但至少不会在半夜接到报警电话。现在回头看,那个阶段的 Agent 更像是“人在外面帮模型搭轨道”。
六、UI 自动化:理想与现实的落差
期间,我们还在 UI 自动化方向做过一些探索,试图让模型自动操作网页。理想的场景是,用户只需下达指令,模型就能自动完成复杂的网页交互。刚开始会觉得方向很自然,但实际做起来,问题很多。网页状态不稳定,元素会变,反爬检测,页面会弹窗,登录态会过期,业务系统还有很多非标准交互。人操作网页的时候,很多动作是凭经验顺手完成的;但让系统自动做,每一个“顺手”都可能变成异常分支。最后这个方向没能很好推广,主要原因不是技术一点都做不了,而是用户使用成本太高。用户要理解自动化的边界,要在失败时知道怎么处理,这就很难。
这也让我后来在看到 Anthropic 发布 Computer Use、OpenAI 发布 Operator、Google 做 Gemini Computer Use 时,产生了很多共鸣。GUI Agent 这条路不是没人想过,只是它真的很难。界面是给人用的,系统要稳定地操作它,中间差了很多环境不确定性。GUI Agent 的真正难点,往往不在于点击动作本身,而在于对动态环境的适应能力。
七、垂类场景:从平台到业务
2024 年底,我转入另一个团队负责一个垂类场景的 Agent 应用。
这一年的工作变得更加贴近业务。做平台时,更多是在搭能力;做垂类应用时,更多是在看业务效果:优化模型,加一些工程技巧,再加兜底策略,然后通过实验验证效果。技术没有特别酷,甚至很多地方还挺朴素,但只要指标能往前走,就是有价值的。
DeepSeek-R1 发布时,尽管其推理能力令人惊艳,行业里讨论得也很热,但在我们自己的场景里,还要考虑资源和实时性。公司这类模型资源不够,算力配额根本跟不上,一些原本实时处理的场景,最后只能改成离线处理。还有一些对响应速度要求极高的环节,我们直接使用了简单的正则判定逻辑。这种做法虽然看起来不够“智能”,但效果能满足要求,延迟也低。做业务久了之后,越来越能接受这种事情:不是所有问题都必须交给大模型。有些地方规则就够了,有些地方缓存就够了,有些地方离线处理更合适。
八、AI Coding:从失败到突破
2025 年初,AI Coding 的成熟给了我很大的触动。
其实 2024 年初我就试过用 AI 写前端,当时也想用 AI 写一些自己想做的小东西,但模型输出质量不太稳定,我自己又不懂前端,最后没有成功。一年后再用 Cursor,感受完全不一样。模型的代码能力、工具的上下文管理、编辑器里的交互方式,都成熟了很多。我用它实现了一些憋了很久的小想法,还顺手写了篇公众号文章。没想到那篇文章反响超出预期,阅读量达到了我之前的很多倍。
这件事对我来说挺有意思。一年前同样的想法,我做不出来;一年后,工具和模型都往前走了一步,事情就变得可行了。后来 Claude Code、Codex 这些编码 Agent 继续往前发展,我也越来越理解为什么代码场景会是 Agent 最早成熟的方向之一。代码任务天然有反馈:改完能不能编译,测试能不能过,改动能不能 review,出了问题能不能回滚,这些都很明确。相比之下,浏览器 Agent、办公 Agent、通用 Agent 的结果就更难判断。
九、2026:从编排到治理
2026 年初,我又继续做 Agent 平台开发。
现在对 Agent 平台有一个明显的感知:平台里的流程编排变少了——那些写死在图里的逻辑,越来越多地被模型自主判断替代。这不是偶然,是模型推理能力和工具调用能力到了某个阈值后,自然发生的变化。这不是说工作流编排没有价值了,而是模型能力确实变强了。推理模型、工具调用、长上下文、MCP 这些能力叠在一起之后,模型能承担的部分变多了。
但这并不意味着系统变简单了。恰恰相反,编排少了,意味着你失去了一层显式的控制手段。取而代之的,是需要更多地考虑:模型有没有拿到它不该拿的权限?它在某个节点上做了一个决策,我能不能审计到?它失败了,系统知不知道?它的调用成本和资源消耗,有没有预算上限?这些问题在编排时代被结构吸收了,进入自主决策时代之后,它们浮出来,变成了治理问题。
十、热度与留存:工程师的投票
2026 年初,OpenClaw 火过一阵。大家又开始幻想着 Agent 能统治世界,新概念会带来想象力。但没过几个月,热度慢慢下去,大家的重心又回到了 Claude Code 和 Codex 上。这个过程也挺正常的。不是新概念不好,而是工程师最终会用脚投票:真正能留下来的,往往还是那些能进入日常工作流、能反复使用、结果能验收的工具。
结语:三年后的冷静
今天已经是 2026 年 5 月。回顾这三年多,我从最初的向量服务调试,到搭建内部平台,再到垂类场景的实验验证,再到现在看着编排减少、治理增加,心态已经从最初的兴奋转变为现在的冷静。
如果把这几年串起来看,我自己的工作轨迹其实很普通:从知识库开始,到代码分析,到平台搭建,到 UI 自动化,再到垂类应用,再到现在重新看平台的演进。但它刚好和大模型的发展节奏叠在一起。
2023 年,大家还在摸索怎么把大模型接进应用里,所以 LangChain、RAG、向量检索很重要。2024 年,模型上下文变长,多模态能力增强,Agent 平台开始变多,但很多场景仍然依赖编排和人工兜底。2025 年,推理模型和垂直 Agent 集中出现,代码 Agent、研究 Agent、浏览器 Agent 都开始有了更清晰的产品形态。到了 2026 年,讨论重点慢慢从“Agent 能不能做事”变成“Agent 怎么被管理”。权限、成本、审计、失败恢复,这些工程问题变得越来越重要。
我写这些不是为了证明自己踩中了哪一波趋势,也不是想总结出什么行业定律。更多只是记录一下这几年自己的工作经历,以及这些经历刚好如何映照了大模型和 Agent 的发展。
有时候回头看,会觉得这几年变化很快。2023 年还在调检索服务和 Prompt,2024 年开始搭平台,2025 年用 Cursor 写代码,2026 年大家已经在讨论 Agent 的治理和长期运行。但真正落到每天的工作里,变化又没那么戏剧化。很多时候还是在处理文档质量、误报、延迟、成本、兜底、用户使用成本这些问题。
大模型确实越来越强了,Agent 也确实越来越像一个能干活的系统。但在工程现场,它们从来不是什么魔法。它们只是让很多原来不可能的事,慢慢变成“可以试试”;再从“可以试试”,变成“也许能上线”;最后才可能变成“可以长期运行”。
这大概就是我这几年最大的感受。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2026 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要《AI大模型入门+进阶学习资源包》,下方扫码获取~
① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)
② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
以上资料如何领取?
为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!
不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!
这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。