news 2026/3/26 22:11:09

决策十年演进

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
决策十年演进

决策(Decision Making)的十年(2015–2025),是从“基于规则的启发式系统”向“具备常识推理与端到端协同的智能代理(AI Agent)”演进的十年。

这十年间,决策逻辑从人类编写的“If-Then”硬编码,跨越到了能够处理海量不确定性、并在复杂物理世界中实时自我演化的“神经网络直觉”。


一、 核心演进的三大阶段

1. 专家系统与概率建模期 (2015–2018) —— “规则的边界”
  • 核心特征:依赖决策树马尔可夫决策过程 (MDP)和手工定义的启发式算法。
  • 技术逻辑:工程师将行业经验转化为复杂的逻辑判断流。
  • 里程碑:AlphaGo (2016)击败李世石。虽然它使用了深度学习,但核心仍是基于蒙特卡洛树搜索(MCTS)的启发式搜索,侧重于有限博弈空间的极致解。
  • 痛点:面对非结构化、无法穷举规则的现实世界(如开放道路驾驶),传统决策模型显得极度“呆板”。
2. 强化学习与行为克隆期 (2019–2022) —— “黑盒式的反应”
  • 核心特征:深度强化学习 (Deep RL)模仿学习 (IL)

  • 技术跨越:

  • 端到端尝试:决策不再是拆解后的逻辑步骤,而是通过数百万次仿真训练出的“直觉”。

  • 博弈智能:机器人学会了在复杂社交场景下(如并线抢道)的非对称博弈。

  • 状态:决策系统在特定领域(如自动驾驶、自动交易)表现出超越人类的反应速度,但缺乏“可解释性”,常被称为黑盒。

3. 2025 大模型驱动与端到端协同时代 —— “具备常识的推理”
  • 2025 现状:
  • VLA (视觉-语言-动作) 模型:2025 年的决策系统(如RT-3)具备了语义理解能力。当接收到指令“安全地穿过人群”时,决策不再只是避障,而是包含了对人类行为意图的社会性理解。
  • 扩散策略 (Diffusion Policy):解决了多目标决策的平滑性,使得决策输出从“跳变”转向“流式连续”,大幅提升了机器人的动作拟合度。
  • eBPF 内核级决策拦截:在工业和军事级应用中,SE 利用eBPF在内核层建立“安全围栏”。一旦 AI 决策输出超出了物理安全边界(如超速、碰撞预警),内核会在微秒内强行修正。

二、 决策核心维度十年对比表

维度2015 (传统算法)2025 (大模型 Agent)核心跨越点
逻辑基础人工定义规则 (Hard-coded)自监督学习 + 逻辑推理从“执行指令”到“理解意图”
实时性毫秒级 (计算密集)微秒级 (eBPF 加速/端侧推理)响应速度从软件级进入内核级
确定性确定性输出 (容易卡死)概率分布与自愈调整解决了长尾场景下的决策失效问题
交互深度忽略环境反馈的单向执行感知-决策-动作闭环 (Closed-loop)实现了对动态环境的实时共振
系统底座用户态框架eBPF 实时审计 + 硬件虚拟化确保了高风险决策的物理安全性

三、 2025 年的技术巅峰:eBPF 与“可信决策”

在 2025 年,决策的演进重心在于如何将**“强大的推理力”转化为“安全的执行力”**:

  1. eBPF 驱动的决策卫兵 (Policy Guard):
    由于 2025 年的端到端大模型偶尔会产生“幻觉(Hallucination)”,在自动驾驶或手术机器人等关键场景中,系统集成商利用eBPF
  • 零时延校验:eBPF 在 Linux 内核层实时审计模型输出的指令包。如果决策指令违背了物理守则(如反向行驶),eBPF 直接重写包头或阻断指令,实现了内核级的“防火墙”。
  1. 世界模型 (World Models) 预判:
    2025 年的决策引擎内置了一个“微缩宇宙”。在执行具体动作前,它会在 HBM3e 驱动的超算空间中进行 10,000 次“脑内模拟”,评估每种决策的风险成本。
  2. 长窗口上下文决策:
    现在的决策不再是“一帧一断”。利用百万级上下文窗口(Context Window),决策系统能记住 5 分钟前的异常声响,并将其关联到当前的漏油决策中,实现了具备“记忆力”的逻辑分析。

四、 总结:从“逻辑题”到“生存本能”

过去十年的演进,是将决策从一个**“基于静态地图的计算过程”重塑为“能够实时理解物理常识、评估社会风险并具备自我纠错能力的智能代理”**。

  • 2015 年:你在纠结如何写出完美的 If-Else 来处理十字路口转弯。
  • 2025 年:你在利用 eBPF 审计下的多模态大模型,让机器人在嘈杂的集市中优雅地穿行,并能预判小孩踢球过街的概率。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/3/26 14:18:17

大模型十年演进

大模型(Large Language Models, LLMs) 的十年(2015–2025),是从“特定任务的神经翻译”向“具备自我进化能力的通用人工智能(AGI)”跨越的十年。 这十年见证了“规模定律(Scaling L…

作者头像 李华
网站建设 2026/3/21 10:30:10

基于空间视频智能解析的防护作业区人员统计与工服分类一体化技术方案

基于空间视频智能解析的 防护作业区人员统计与工服分类一体化技术方案 (融合三维实时重构的空间级安全感知体系) 一、项目背景与问题本质 在危化品作业区、应急处置现场、封闭式工业生产区域等高风险、高不确定性场景中,人员安全始终是安全…

作者头像 李华
网站建设 2026/3/25 6:34:57

滚珠丝杠十年演进

滚珠丝杠(Ball Screw) 的十年(2015–2025),是从“通用精密传动”向“智能、高负载、微型化关节核心”进化的十年。 作为将旋转运动转化为直线运动的高效执行元件,滚珠丝杠这十年在材料工艺、集成化程度以及…

作者头像 李华
网站建设 2026/3/21 13:14:22

写论文软件哪个好?实测戳破3大谎言,虎贲等考AI凭真实感封神

毕业季的图书馆里,一半人在为论文熬夜,一半人在为选 AI 工具纠结。“写论文软件哪个好” 的搜索量飙升,可市面上工具鱼龙混杂:有的宣称 “秒出初稿”,却藏着大量虚构文献;有的标榜 “数据支撑”&#xff0c…

作者头像 李华