news 2026/5/30 18:36:27

清华唐杰:发了长微博,最近的AI感悟

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
清华唐杰:发了长微博,最近的AI感悟

Datawhale干货

作者:唐杰,清华大学教授,智谱AI首席科学家

最近有一些感悟,分享一下,希望对大家有用。

以下为其感悟原文:

一、关于scaling基座模型

预训练使得大模型已经掌握世界常识知识,并且具备简单推理能力。

更多数据、更大参数和更饱和的计算仍然是scaling基座模型最高效的办法。

二、关于激活对齐和增强推理能力

激活对齐和增强推理能力,尤其是激活更全面的长尾能力是保证模型效果的另一关键,通用benchmark的出现一方面评测了模型通用效果,但也可能使得很多模型过拟合。

真实场景下是如何让模型更快、更好的对齐长尾的真实场景,增强实际体感。

mid和post training使得更多场景的快速对齐和强推理能力成为可能。

三、关于Agent

agent是模型能力扩展的一个里程碑,也是体现ai模型进入人类真实(虚拟/物理)世界的关键。

没有agent能力,大模型将停留在(理论学习)阶段,就类似一个人不断学习,哪怕学习到博士,也只是知识积累,还没有转化为生产力。

原来的agent是通过模型应用来实现,现在模型已经可以直接将agent数据集成到训练过程,增强了模型的通用性,其实难题还是不同agent环境的泛化和迁移并不是那么容易,因此最简单办法也只有不断增加不同agent环境的数据和针对不同环境的强化学习。

四、关于模型记忆

实现模型记忆成为一个必须做的事情,这也是一个模型应用到真实环境必须有的能力。

人类记忆分为短期(前额叶)、中期(海马体)、长期(分布式大脑皮层)、人类历史(wiki或史书)四个阶段。

大模型如何实现不同阶段的记忆是个关键,context、rag、模型参数可能分别对应了人类的不同记忆阶段,但如何实现是个关键,一种办法是压缩记忆,简单存在context,如果大模型可以支持足够长的context,那基本有可能实现短中长期的记忆。

但如何迭代模型知识,更改模型参数这还是个难题。

五、关于在线学习与自我评估

在线学习与自我评估。

有了记忆机理,在线学习成为一个重点,目前的大模型定时重新训练,这有几个问题:

  • 模型无法真正的自我迭代,但模型的自学习自迭代一定会是下一个阶段必然具有的能力;

  • 重新训练还比较浪费,同时也会丢掉很多交互数据。

因此如何实现在线学习是个关键,自我评估是在线学习的一个关键点,要想模型自我学习,模型首先要知道自己对还是不对,如果知道了(哪怕概率知道)模型就知道了优化目标,能够自我改进。

因此构建模型自我评价机制是个难题。

这也可能是下一个scaling范式。

continual learning/real time learning/online learning?

六、关于模型研发和应用结合

最后,大模型的发展越来越端到端,不可避免的要把模型研发和模型应用结合起来。

ai模型应用的第一性不应该是创造新的app,他的本质是agi替代人类工作,因此研发替代不同工种的ai是应用的关键。

chat部分替代了搜索,部分其实融合了情感交互。

明年将是ai替代不同工种的爆发年。

七、关于多模态和具身

写在最后的是多模态和具身。

多模态肯定是个未来也很有前景,当下的问题是多模态不大能帮助到agi的智能上界,而通用agi的智能上界到底在哪儿还不知道。

可能最有效的方式还是分开发展,文本、多模态、多模态生成。

当然适度的探索这三者的结合肯定能发现一些很不一样的能力,这需要勇气和雄厚的资本支持。

同理,如果看懂了agent就知道具身的痛在哪里了,太难通用了(也不一定),但至少少样本去激活通用具身能力基本不可能。

那怎么办呢,采数据,或者合成数据,都不是那么容易,也贵。

但反之一旦数据规模上去了,通用能力出来了自然会形成门槛。

当然这只是智能方面的难题,对于具身,机器人本身也是个问题,不稳定,故障频繁都限制了具身智能的发展。

2026年这些都将取得长足进步。

八、关于领域大模型和大模型应用

也讨论一下领域大模型和大模型应用。

我一直认为领域大模型就是个伪命题,都agi了哪有什么domain-specific agi……

但,agi还没实现,领域模型会长时间存在(多长,不好说,ai发展实在太快了)

领域模型的存在本质上是应用企业不愿意在ai企业面前认输,希望构建领域know how的护城河,不希望ai入侵,希望把ai驯化为工具。

而ai的本质是海啸,走到哪里都将一切卷了进去,一定有一些领域公司走出护城河,自然就卷进了agi的世界。

简而言之,领域的数据、流程、agent数据慢慢的都会进入主模型。

而大模型的应用也要回到第一性原理,ai不需要创建新的应用。

ai的本质是模拟人或者代替人或者帮助人实现人类的某些必须要做到事(某些工种)。

可能就是两种,一种就是ai化以前的软件,原来需要人参与的改成ai,另一种就是创造对齐人类某个工种的ai软件,替代人类工作。

所以大模型应用需要帮助到人、创造新的价值。

如果做一个ai软件没人用,不能产生价值,那这个ai软件肯定没有生命力。

参考链接:
https://weibo.com/2126427211/5247011059141988


一起“赞”三连

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/23 19:42:12

PaddlePaddle镜像能否用于自动驾驶感知模块开发?

PaddlePaddle镜像在自动驾驶感知模块开发中的可行性与实践 在智能驾驶技术加速落地的今天,感知系统的研发效率与部署灵活性正成为决定产品迭代速度的关键因素。一辆L3级以上的自动驾驶汽车每秒需处理来自多个摄像头、雷达等传感器的海量数据,而背后支撑这…

作者头像 李华
网站建设 2026/5/29 4:09:17

Docker快速搭建ES集群:ES安装实战案例

用 Docker 三分钟搭建一个高可用 Elasticsearch 集群你有没有遇到过这种情况:想本地搭个 ES 集群做测试,结果光是配置 Java 环境、下载 tar 包、改elasticsearch.yml就折腾了一下午?更别提节点发现失败、内存溢出、版本不兼容这些“经典”问题…

作者头像 李华
网站建设 2026/5/22 8:46:46

FFmpeg终极指南:快速掌握视频格式转换技巧

还在为不同设备不兼容的视频格式而烦恼吗?想要在手机、电脑、平板之间无缝播放视频文件?今天我来分享一个超级实用的视频处理工具FFmpeg,让你轻松搞定各种视频格式转换问题,彻底告别播放器不兼容的困扰! 【免费下载链接…

作者头像 李华
网站建设 2026/5/30 16:52:11

提示工程架构师进阶:灰度发布与A_B测试结合的实战策略

提示工程架构师进阶:灰度发布与A/B测试结合的实战策略 关键词 提示工程、灰度发布、A/B测试、LLM应用迭代、数据驱动决策、用户体验优化、Feature Flag 摘要 当你花费数周优化了一个LLM提示——比如把客服机器人的回复从"机械解答"改成"共情式引…

作者头像 李华
网站建设 2026/5/26 9:37:55

嘉冰数字化协助中企出海业务拓展-出海数字化最佳实践路线

[有需要提供此类服务的甲方IT,请评论区留言】1. 总部模版组织结构和编码主数据管理总账框架及币种集团科目和报表口径流程模板(O2C/P2P)定价架构和税务控制收付和资金内控和权限集成和接口管理隐私和证书管理2. 会计准则会计准则基线国家科目…

作者头像 李华
网站建设 2026/5/30 5:09:11

液氮恒温器在科研领域的具体应用有哪些

液氮恒温器在科研中应用广泛,核心是提供稳定的低温环境(通常77K,即-196℃),用于研究材料在低温下的独特性质。以下是主要应用领域:在凝聚态物理研究中,液氮温区是许多高温超导体(如钇…

作者头像 李华