*一、前言:AI Agent火爆登场!*
要说今年上半年科技圈的“网红”,AI Agent(人工智能代理)绝对算一个!笔者最近也紧跟潮流,对这玩意儿进行了深入研究,还用智能体开发平台搞了几个有意思的Agent。今天就来跟大家分享一下,笔者对AI Agent的“独家”理解!
*二、揭秘AI Agent:不只是“程序猿”的“新宠”*
AI Agent,也就是人工智能体,可不是一般的“机器人”哦!它能感知周围环境,还能自己思考、做决定、采取行动,简直就是个“智能小超人”!简单来说,它就是一个基于大语言模型,能通过独立思考、调用各种工具,一步步完成你给它的任务的计算机程序!
是不是有点懵?AI Agent、LLM、RAG……这些“黑话”到底啥关系?别急,咱们先来对比一下LLM和RAG,保准你一下子就明白AI Agent是啥!
*1、LLM:语言界的“推理大师”*
LLM(大语言模型)可是个“学霸”,它通过海量文本数据的训练,掌握了自然语言的“独门秘籍”。它不仅能生成流畅的文本,还能深入理解文本含义,处理各种文本任务,比如写摘要、回答问题、翻译等等。简单来说,LLM就是语言逻辑推理的“扛把子”,像ChatGPT、文心一言、通义千问这些“网红”都是LLM的杰出代表!
不过,LLM的知识都是提前训练好的,时效性嘛……就有点“落伍”了。而且,它学习的知识大多是公开的、标准化的,难免有些“局限性”。
为了解决LLM知识有限的问题,就需要把外部知识“喂”给它,让它好好学习、天天向上,然后再把学到的东西表达出来。这时候,RAG技术就闪亮登场了!
*2、RAG:给LLM“开小灶”的“神器”*
RAG(检索增强生成)可不是一般的技术,它能把外部信息检索和大型语言模型的生成能力结合起来,专门处理那些复杂的信息查询和生成任务。在大模型时代,RAG 通过加入外部数据(比如本地知识库、实时数据等)来增强 AI 模型的检索和生成能力,让信息查询和生成的结果更准确、更靠谱!举个例子:文心一言的插件服务,就能把实时或者私有的知识“喂”给LLM。
总结一下,RAG就是一种技术,作用于LLM,目的是让输出结果更准确。
*3、AI Agent、LLM、RAG: “铁三角”关系大揭秘!*
如果把AI Agent比作一个“智能小超人”,那么LLM就是它的“超级大脑”!
AI Agent 会利用 LLM 的推理能力,把复杂的问题拆解成一个个小问题,然后安排好这些小问题的处理顺序,先解决哪个,再解决哪个。接着,它会按照顺序,调用 LLM、 RAG 或者其他外部工具,来逐个解决这些小问题,直到把最初的大问题搞定!
*三、AI Agent的“骨架”:四大核心组件*
前面说了,LLM是AI Agent的“大脑”,但光有“大脑”可不行,还得有“神经感官系统”和“四肢”才能完成复杂的任务。这就引出了AI Agent的四大核心组件:
▲由LLM驱动的智能体系统
如上图所示,Agent由4个关键部分组成,分别是:规划(Planning)、记忆(Memory)、工具使用(Tools)、行动(Action)
*1、规划(Planning): “运筹帷幄”的“军师”*
“规划”就是AI Agent的“思维模式”,它负责“出谋划策”。如果用人来类比,当接到一个任务时,我们的“思维模式”可能是这样的:
首先,我们会思考怎样才能完成这个任务。
然后,我们会把任务拆解成几个小任务,一步步来完成。
接着,我们会评估一下手头有什么工具,能帮助我们更快更好地完成任务。
在执行任务的过程中,我们会不断反思和改进,调整策略,力求完美。
执行过程中思考任务何时可以叫停。
我们可以通过 LLM 提示工程(Prompt),给AI Agent“植入”这种“思维模式”。比如,在编写Prompt的时候,用上ReAct、CoT这些推理模式,引导LLM把复杂的任务拆解成多个步骤,一步步思考和解决,这样输出的结果就会更准确!
*2、记忆(Memory): “过目不忘”的“备忘录”*
记忆是啥?当我们思考这个问题的时候,其实我们的大脑已经在“调用”记忆了!记忆就是大脑存储、保留和回忆信息的能力。
AI Agent也模仿了人类的记忆机制,分成了两种:
短期记忆:就像我们平时对话的上下文,这些信息会被暂时储存起来,方便进行多轮对话,任务完成后就会被清空。
长期记忆:那些需要长时间保留的信息,比如用户的个人信息、业务数据等等,通常会用向量数据库来存储和快速检索。
*3、工具使用(Tools): “十八般武艺”样样精通*
AI Agent能感知环境、做决策、执行任务,都离不开“神经感官系统”的帮助,“工具”就扮演了这个角色。AI Agent通过工具从周围环境获取信息(感知),经过LLM处理后,再使用工具来完成任务(执行)。
所以,我们需要给AI Agent配备各种各样的工具,还要教会它怎么使用这些工具。比如:
通过调用软件系统不同应用模块的API,获取指定的业务信息,以及执行业务操作的权限。
通过调用外部的插件工具,来获得LLM原本不具备的能力,比如:文心的Chat files插件能解析文档,扣子的ByteArtist插件能生成图片等等。
这里就用到了前面提到的RAG技术!
▲扣子平台的插件商城
*4、行动(Action): “雷厉风行”的“执行者”*
AI Agent会根据规划和记忆来执行具体的行动,这可能包括与外部世界互动,或者通过调用工具来完成一个动作。简单来说,行动就是把一个输入(Input)任务变成最终输出(Output)的过程。
比如:实体AI机器人完成一个“鼓掌”的动作;或者在软件系统中,AI助手帮你创建一个待办任务。
▲Cyberdog2完成“鼓掌”任务
四、AI Agent实战案例: 订餐小助手
为了让大家更好地理解AI Agent,笔者举个生活中的小例子:假设你需要和朋友在附近吃饭,想让AI Agent帮你预订餐厅。
Agent会先把你提出的任务进行拆解,比如:
*第1步: “你在哪儿?”(获取当前位置)*
推理1: 我现在不知道你在哪儿,也不知道你附近有哪些餐厅。
行动1: 调用地图工具(Tools),获取你当前的位置。
结果1: 得到你附近的餐厅列表。
*第2步: “你想吃啥?”(确定餐厅)*
推理2: 要确定预订哪家餐厅,我需要知道你喜欢吃什么,以及其他信息(比如吃饭时间、几个人一起吃)。
行动2: 从记忆(Memory)中找到你的饮食偏好、人数、时间等信息。
结果2: 确定最适合你的餐厅。
*第3步: “搞定!”(预订餐厅)*
推理3: 根据结果2,看看我有没有预订餐厅的工具。
行动3: 使用相关的插件工具,进行餐厅预订(Action)。
结果3: 任务完成!
五、AI Agent赋能To B产品: 场景化应用
了解了AI Agent的基本原理,我们就可以把这套“黑科技”应用到To B产品的功能设计中,让AI来帮你完成搭建报表、创建任务、生成工作报告等等。这里,笔者就以【生成工作报告】为例,分享一下自己的思路:
在CRM系统中,写工作报告(周报、月报)可是个“老大难”问题,费时费力。一般来说,这个过程可以分为几个阶段:
*1、手动阶段: “人工”智能*
刚开始,员工写工作报告得“吭哧吭哧”干好几步:
第一步:通过各种方法整理汇报周期内联系了哪些客户,商机进展如何,哪些客户成交了,成交了多少业绩等等。
第二步:把这些零散的信息整理成汇报格式(比如:内容+当前进度+预期等等)。
第三步:选择汇报人,提交报告。
这个过程中,员工大部分时间都花在了收集和整理信息上,简直是“时间刺客”!
▲手动阶段写工作周报
*2、Copilot阶段: “智能”助手初现*
有了LLM的加持,员工写工作报告就能省去整理信息和撰写报告的步骤了。
这时候,只需要把报告要求告诉LLM,LLM就能根据零散的数据信息自动生成工作报告。如果提问中没有汇报人等信息,LLM还会通过多轮对话来“刨根问底”。
*3、Agent阶段: “全自动”智能体*
到了Agent阶段,我们就可以基于智能体的基础框架,打造一个【工作报告智能体】:
规划(Planning): 在编写Prompt的时候,让LLM把“生成工作报告”任务拆解成获取基础数据—整理输出报告—选择汇报人—执行提交四步。
工具使用(Tools): 由于LLM无法直接获取私有化的知识,我们可以通过RAG技术,接入数据中心API来获取客户联系、流转、成交等详细数据;还可以接入工作报告应用的API,获得“填写”和“提交”的权限。
记忆(Memory): 把员工以往的汇报内容进行分析,提炼出汇报风格、内容格式、汇报周期、汇报人等信息,作为长期记忆存储起来,供撰写报告时使用。
行动(Action): 基于工作报告应用开放的执行权限,等LLM生成工作报告后,自动执行提交操作,完成任务。
▲工作报告智能体框架
有了这个“神器”,员工只需要给Agent下达写工作报告的任务(可以设置定时任务或者手动触发),Agent就能自动完成数据采集、报告撰写、选择汇报人、报告提交等一系列操作,简直不要太方便!
▲工作报告智能体demo
六、总结: AI Agent,To B软件的“未来之星”
如果把“To B软件的AI化”比作汽车自动驾驶技术的发展,那么2023年LLM的推出,就相当于把To B软件应用的自动化程度从L1阶段提升到了L2阶段;而AI Agent的到来,则让自动化程度更上一层楼,从L2阶段升级到了L4阶段。
▲人类与AI协同的三种模式
随着AI Agent自主性的不断增强,它将会逐渐取代越来越多的重复性工作。但从To B软件的角度来看,AI最终要解决的核心问题仍然是“降本增效”。
所以,作为产品经理,在提升自己AI能力的同时,也要不断提高自己对产品所在行业的业务理解能力。毕竟,如果找不到核心应用场景,再先进的工具也只是“摆设”。
如何学习AGI大模型?
作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
因篇幅有限,仅展示部分资料,需要点击下方链接即可前往获取