模型评测人工复核：自动分数高，也要抽样看答案-平芜编程栈

模型评测人工复核：自动分数高，也要抽样看答案

一、自动评测会漏掉细节

大模型评测越来越依赖自动指标和 LLM Judge。它们能提高效率，但自动分数高不代表答案真的可用。事实错误、语气不合适、引用错位、细节遗漏、过度自信，都可能被分数掩盖。一个医疗咨询模型的自动评分达到 4.8/5，人工抽查却发现有 10% 的回答在药物剂量上给出了过时建议。自动评分只看语义流畅度，对事实准确性完全无感知。

模型评测需要人工复核，尤其是上线前。

二、抽样要有策略

flowchart TD A[评测结果] --> B[高分样本] A --> C[低分样本] A --> D[分歧样本] A --> E[关键业务样本]

不要只看低分样本。高分样本也可能存在隐蔽问题，分歧样本能暴露评测规则不稳定，关键业务样本决定上线风险。

human_review_sampling: high_score: 20 low_score: 20 judge_disagreement: 30 business_critical: all

抽样策略决定你能看到什么问题。如果只看低分样本，你会错过高分中的隐蔽问题；如果只看高分样本，你会低估系统能力缺陷。四类抽样并行，才能把真假问题都暴露出来。

三、复核表要结构化

人工复核不能只写“感觉还行”。要按维度打标：事实正确、指令遵循、完整性、安全性、可读性、引用可靠。

review_form: factuality: pass_fail instruction_following: score_1_5 completeness: score_1_5 citation_correct: pass_fail

结构化复核结果可以反向校准自动评测。

四、复核要反馈给评测系统

人工发现自动分数偏高，就要分析原因：Judge 提示词太宽、参考答案不完整、评分维度缺失，还是样本本身有歧义。

calibration_action: update_judge_prompt: optional update_rubric: optional relabel_case: optional

人工复核不是为了替代自动评测，而是让自动评测更可信。

最后，复核成本要可控。高风险任务多复核，低风险任务少复核。不同任务设置不同抽样率，比全量人工更现实。

但要提前定好抽样比例的决策规则：风险等级、上次复核发现的缺陷率、业务变更频率，都应该影响抽样量。一成不变的抽样规则，要么对低风险任务过度投入，要么在高风险阶段漏检问题。

人工复核还要控制一致性。两个复核者对同一答案的判断如果差异很大，说明评分标准不清。可以抽取一部分样本做双人复核，计算一致率。

review_consistency: double_review_rate: 0.1 disagreement_review: required rubric_update_when_low_agreement: true

复核者也需要看到必要上下文。只给模型答案，不给用户问题、检索证据和评分标准，很容易误判。复核界面要把这些信息放在一起。

还要记录复核耗时。某类样本耗时很长，可能说明任务定义复杂或评分标准模糊。评测体系也要被优化。

最后，人工复核结果不要只用于上线决策，也要沉淀成新评测样本和 Judge 校准数据。

复核样本要避免泄露到训练或提示词示例中。如果复核集后来被用来调 Prompt，再继续用它评测，就会高估效果。评测资产要有用途标签。

review_case_usage: can_train: false can_prompt_example: false can_eval: true

人工复核还应该保留争议记录。有争议的样本往往说明任务边界不清，比简单对错样本更能推动评测标准成熟。

最后，复核结论要和上线门槛绑定。例如事实错误率超过 1% 阻断上线，引用错误率超过 3% 进入修复队列。

五、总结

模型评测人工复核要按策略抽样，使用结构化复核表，并把结果反向校准自动评测。

自动分数高，也要抽样看答案。上线质量不能只信一个数字。

RDiscount性能优化：7个技巧提升你的Markdown渲染速度

RDiscount性能优化：7个技巧提升你的Markdown渲染速度【免费下载链接】rdiscount Discount (For Ruby) Implementation of John Grubers Markdown 项目地址: https://gitcode.com/gh_mirrors/rd/rdiscount RDiscount作为Ruby生态中高性能的Markdown解析器&am…

李华

CANN/cannbot-skills: CANNBot-Insight 可观测工具

CANNBot-Insight 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。项目地址: https://gitcode.com/cann/cannbot-skills LLM 编码 Agent 的 Session 级可观测工具。辅助长上下…

李华

Rain安全与资源管理：CPU、内存、GPU资源调度的完整解决方案

Rain安全与资源管理：CPU、内存、GPU资源调度的完整解决方案【免费下载链接】rain Framework for large distributed pipelines 项目地址: https://gitcode.com/gh_mirrors/rain/rain Rain作为一个开源分布式计算框架，为大规模任务流水线处理提供…

李华

DeepForge完全指南：现代深度学习开发环境如何重塑AI工作流？

DeepForge完全指南：现代深度学习开发环境如何重塑AI工作流？ 【免费下载链接】deepforge A modern development environment for deep learning 项目地址: https://gitcode.com/gh_mirrors/de/deepforge 在当今AI技术飞速发展的时代，深…

李华

LTC6904与MSP432实现高精度方波脉冲生成方案

1. 项目概述：高精度方波脉冲生成方案在嵌入式系统开发中，精确的时序控制往往决定着项目的成败。LTC6904这款低功耗可编程振荡器与MSP432P401R微控制器的组合，为需要精确方波脉冲的应用场景提供了优雅的解决方案。我曾在一个工业自动化项目中采…

李华

Vue-Croppa自定义样式：打造个性化图片裁剪界面的完整指南

Vue-Croppa自定义样式：打造个性化图片裁剪界面的完整指南【免费下载链接】vue-croppa A simple straightforward customizable mobile-friendly image cropper for Vue 2.0. 项目地址: https://gitcode.com/gh_mirrors/vu/vue-croppa Vue-Croppa是一款专为V…

李华