别再用单选评测骗自己了！Amazon新论文揭示了大模型在多选题中的3种系统性偏差-平芜编程栈

很多人以为LLMs最难的是奥数题、是高考压轴题，但真实业务里最容易翻车的，其实是“多选题”。因为现实世界几乎没有“唯一正确答案”的舒适区：内容安全往往同时触发多条规则，医疗场景要处理并发症和多重风险，法律检索要命中多条要件与法条，新闻事件也天然是多标签。单选题只需要押中一个，多选题却要求你把所有正确项都选全，还要克制自己别乱猜——这才是生产系统真正需要的能力。这就是论文《SATA-Bench: Select All That Apply Benchmark for Multiple Choice Questions》想解决的问题专门测模型在多选里的可靠性

论文 https://arxiv.org/pdf/2506.00643
数据 https://huggingface.co/datasets/sata-bench/sata-bench
代码 https://github.com/sata-bench/sata-bench

论文结果指出LLMs压根不会做多选题即便是很强的模型，在 SATA-Bench 上也并不稳，完全选对所有答案的可能性甚至不超过50%。模型解释得像专家，最后输出却总是瞎猜。你在业务里那种熟悉的不稳定性，在多选题里会被系统性地放大：有的题它明明理解了，但它只敢选一两个，导致关键点漏掉；有的题它其实不确定，却选择“多选就多选”式的凑数，把边缘项也塞进去，误报瞬间爆炸。你以为这是随机波动，但 SATA-Bench 直接告诉你：这不是偶然，这是偏差。

一道简单的医学分类语言模型却给出五花八门的答案。盲目相信语言模型可能会造成严重医学事故

论文总结出三种偏差第一类偏差，是选择偏差：模型会对某些选项位置、措辞或形式天然偏爱或厌恶，哪怕内容没变，换个顺序结果就漂。第二类偏差，是数量偏差：模型会系统性低估或高估正确答案的数量——胆小的模型宁可少选也不多选，导致召回差；嘴硬的模型不确定也要多选，导致精度掉。在32个模型中只有2个模型没有少选。第三类偏差最危险，叫猜测偏差：当模型没有足够证据时，它仍倾向“装懂”，把不确定当正确输出，这在安全、医疗、法律场景里，往往就是事故的起点。

那些表现更好的模型往往更喜欢瞎猜（高False Positive Rate）

SATA-Bench 不只是给你一个排行榜，它更像一份体检报告：通过文中提出的10个测量指标，你能看清模型究竟是“漏得多”还是“乱得多”，从而决定你该做的是阈值校准、提示词结构调整、解码策略约束，还是干脆换模型。很多团队评测时最痛苦的一点是：分数掉了但不知道为什么掉；SATA-Bench 的价值在于，它把“为什么掉”拆成可观察的机制，让优化不再靠玄学。

SATA-Bench 论文里还提出的一种多选题解码策略（Choice Funnel）：它把“选答案”做成一个逐步收缩的过程——先在选项集合里加入一个辅助选项“None of the above（都不选/没有更多正确项）”，然后每一轮让模型只根据去偏后的首 token 概率在当前选项中挑出最可能的那个选项，把它加入预测集合并从候选集中移除；如此迭代，直到出现两种停止条件之一：模型选中了 “None of the above”，或下一候选的概率低于预设的置信阈值（相当于早停）。这个设计用“迭代 + 早停”来动态决定该选多少个答案（缓解 count bias），用 token debiasing 来减轻选项/位置等带来的系统性偏好（缓解 selection bias），并且推理成本通常随“真实答案数”增长而不是随“选项总数”增长，所以比把每个选项都做一次 yes/no 二分类更省。这个解码策略能够将小模型在多选题的正确率成倍提升。

如果你也在做 LLM 评测或多标签业务，我建议你用 SATA-Bench 做一次快速体检：你会很快知道你的模型到底是漏选型还是乱选型。如果你想提升你的模型在多标签任务上的表现，不妨试试Choice Funnel。

Markdown表格对齐技巧：Miniconda-Python3.10中pandas输出美化方案

Markdown表格对齐技巧：Miniconda-Python3.10中pandas输出美化方案在撰写技术文档、实验报告或项目复盘时，你是否曾遇到这样的尴尬？精心分析的数据结果，一粘贴到 Markdown 文档里，表格就“散架”了——列宽错乱、数字没…

李华

Token去重算法优化：Miniconda-Python3.10提升大模型输入效率

Token去重算法优化：Miniconda-Python3.10提升大模型输入效率在大语言模型（LLM）训练日益复杂的今天，一个常被忽视却至关重要的环节正悄然影响着模型表现——输入Token的质量。我们往往把注意力集中在模型架构、参数规模和训练策略…

李华

CCS20实战入门：第一个工程搭建示例

从零开始搭建第一个CCS20工程：手把手带你点亮F28379D的LED 你有没有过这样的经历？下载完TI最新的Code Composer Studio（简称CCS），双击打开，面对一片深色界面和十几个弹窗选项，突然不知道下一步该…

李华

将Jupyter转为HTML网页发布：Miniconda-Python3.10中nbconvert使用教程

将 Jupyter Notebook 转为 HTML 网页发布：基于 Miniconda-Python3.10 的完整实践在数据科学和人工智能项目中，我们常常面临这样一个现实：分析过程写得清晰流畅、图表丰富直观的 Jupyter Notebook，却无法直接发给产品经理或客户查…

李华

嵌入式screen驱动开发实战案例详解

从零构建稳定高效的嵌入式显示驱动：TFT-LCD实战开发全解析你有没有遇到过这样的场景？硬件接好了，代码烧进去了，但屏幕就是不亮——黑屏、花屏、闪屏轮番上演。调试几天后才发现，问题出在那几十行看似简单的“初始化序列…

李华

面向工业自动化的Keil5破解环境搭建从零实现

手把手教你搭建工业级Keil5开发环境：从零开始，不踩坑你有没有遇到过这样的情况？正在调试一个复杂的电机控制算法，代码刚写到一半，突然编译失败，弹出一条红色警告：*** ERROR L250: CODE SIZE LIM…

李华