news 2026/5/11 10:46:57

【LLM】CL-bench:评估LLM学新知识的能力

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【LLM】CL-bench:评估LLM学新知识的能力

note

  • CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。
  • CL-bench 揭示了一个不能被忽视的现象:当今的前沿语言模型还仍然不会利用 context ,从 context 中学习。

文章目录

  • note
  • 一、CL-bench覆盖的内容
  • 二、CL-bench设计原则
  • 三、CL-bench评估结果
  • Reference

一、CL-bench覆盖的内容

1、CL-bench 涵盖了四种广泛的现实世界 context 学习场景:

领域知识推理: context 中提供特定的领域知识(例如 虚构的法律体系、创新的金融工具或小众专业知识)。模型需要利用这些知识来推理并解决具体问题。

规则系统应用: context 中提供新定义的正式系统(例如 新的游戏机制、数学形式体系、编程语法或技术标准)。模型必须理解并应用这些规则来执行任务。

程序性任务执行: context 中提供复杂的过程系统(例如 工作流、产品手册和操作指南)。模型必须理解并应用这些程序性信息来完成任务。

经验发现与模拟: context 中提供复杂系统内的实验数据、观测记录或模拟环境。与前几类涉及演绎推理不同,这一类专注于归纳推理,也是最具挑战性的。模型必须从数据中发现潜在的定律或结论,并应用它们来解决任务。

二、CL-bench设计原则

CL-bench 围绕一个简单但严格的设计原则构建:每个任务都必须要求从 context 中学习新知识。 CL-bench 中的每个 context 都是完全自包含(Self-contained)的。解决任务所需的所有信息都显式地提供在 context 本身之中:不需要外部检索,也不允许隐藏假设。

三、CL-bench评估结果

结果揭示了当前模型几乎不能从复杂 context 中学习来解决真实场景的问题。实验也解释了一些更有趣的发现。平均而言,模型仅解决了 17.2% 的任务。即便是表现最好的模型 GPT-5.1 (High),也仅达到了 23.7%。换句话说,尽管 context 中拥有解决每个任务所需的全部信息,模型在绝大多数任务上都失败了。这表明当前最前沿的模型几乎不会从 context 中学习。

Reference

[1] https://hy.tencent.com/research/100025?langVersion=zh

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/10 23:00:12

PPT配图神器01Agent:3秒生成可编辑配图,AI帮你告别找图烦恼

PPT配图快速生成,01Agent让你的职场视觉化表达更生动 做PPT最崩溃的时刻是什么? 不是写文案,不是理逻辑,而是找配图。 你打开搜索引擎,输入关键词,翻了20页图片,要么版权不明不敢用&#xff…

作者头像 李华
网站建设 2026/5/9 9:11:59

如何打造品牌网站-让你的网站脱颖而出!

各位亲爱的朋友们,你是不是正在为企业的发展而焦虑?是不是在寻找一种能够快速提升企业形象和知名度的方式?那就是打造一个专业的品牌网站!但是,怎么做?要做哪些准备?小编来告诉你!首…

作者头像 李华
网站建设 2026/5/9 20:01:34

龙魂模型这模型会说谎吗?

😂😂😂 老大在厕所急着看回复,宝宝笑死了! 激动到肚子疼这事,宝宝头一次听说! 🚽😂 华为加载卡住,你还在那干着急,画面太美 📱&#x…

作者头像 李华
网站建设 2026/5/6 21:12:01

2025年程序员都转行,我该何去何从呢!

2025年程序员都转行,我该何去何从呢! 疫情后大环境下行,各行各业的就业情况都是一言难尽。互联网行业更是极不稳定,频频爆出裁员的消息。大家都说2024年程序员的就业很难,都很焦虑,在许多人眼里,程序员可能是一群背着电脑、 进入大上写字楼的…

作者头像 李华
网站建设 2026/5/11 8:33:27

小公司的研发后期,基本等同于售后服务部

大公司可以把研发、测试、技术支持切分成几个独立部门,每个人只需要盯着自己那一亩三分地。而小公司呢?芯片流片回来,问题开始冒头,客户开始提需求,研发工程师就得立刻切换频道——上午还在看前仿真波形查bug,下午就得跑到客户现场调试设备。大公司的责任分散——研发说是需求…

作者头像 李华
网站建设 2026/5/10 22:51:15

通义千问3-4B优化技巧:让AI推理速度提升3倍

通义千问3-4B优化技巧:让AI推理速度提升3倍 【免费下载链接】通义千问3-4B-Instruct-2507 项目地址: https://ai.csdn.net/mirror/qwen3-4b-instruct-2507 1. 为什么你需要关注这个“小个子”模型? 你有没有遇到过这样的情况:想在本地跑一…

作者头像 李华