news 2026/7/5 18:25:11

模型评测人工复核:自动分数高,也要抽样看答案

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
模型评测人工复核:自动分数高,也要抽样看答案

模型评测人工复核:自动分数高,也要抽样看答案

一、自动评测会漏掉细节

大模型评测越来越依赖自动指标和 LLM Judge。它们能提高效率,但自动分数高不代表答案真的可用。事实错误、语气不合适、引用错位、细节遗漏、过度自信,都可能被分数掩盖。一个医疗咨询模型的自动评分达到 4.8/5,人工抽查却发现有 10% 的回答在药物剂量上给出了过时建议。自动评分只看语义流畅度,对事实准确性完全无感知。

模型评测需要人工复核,尤其是上线前。

二、抽样要有策略

flowchart TD A[评测结果] --> B[高分样本] A --> C[低分样本] A --> D[分歧样本] A --> E[关键业务样本]

不要只看低分样本。高分样本也可能存在隐蔽问题,分歧样本能暴露评测规则不稳定,关键业务样本决定上线风险。

human_review_sampling: high_score: 20 low_score: 20 judge_disagreement: 30 business_critical: all

抽样策略决定你能看到什么问题。如果只看低分样本,你会错过高分中的隐蔽问题;如果只看高分样本,你会低估系统能力缺陷。四类抽样并行,才能把真假问题都暴露出来。

三、复核表要结构化

人工复核不能只写“感觉还行”。要按维度打标:事实正确、指令遵循、完整性、安全性、可读性、引用可靠。

review_form: factuality: pass_fail instruction_following: score_1_5 completeness: score_1_5 citation_correct: pass_fail

结构化复核结果可以反向校准自动评测。

四、复核要反馈给评测系统

人工发现自动分数偏高,就要分析原因:Judge 提示词太宽、参考答案不完整、评分维度缺失,还是样本本身有歧义。

calibration_action: update_judge_prompt: optional update_rubric: optional relabel_case: optional

人工复核不是为了替代自动评测,而是让自动评测更可信。

最后,复核成本要可控。高风险任务多复核,低风险任务少复核。不同任务设置不同抽样率,比全量人工更现实。

但要提前定好抽样比例的决策规则:风险等级、上次复核发现的缺陷率、业务变更频率,都应该影响抽样量。一成不变的抽样规则,要么对低风险任务过度投入,要么在高风险阶段漏检问题。

人工复核还要控制一致性。两个复核者对同一答案的判断如果差异很大,说明评分标准不清。可以抽取一部分样本做双人复核,计算一致率。

review_consistency: double_review_rate: 0.1 disagreement_review: required rubric_update_when_low_agreement: true

复核者也需要看到必要上下文。只给模型答案,不给用户问题、检索证据和评分标准,很容易误判。复核界面要把这些信息放在一起。

还要记录复核耗时。某类样本耗时很长,可能说明任务定义复杂或评分标准模糊。评测体系也要被优化。

最后,人工复核结果不要只用于上线决策,也要沉淀成新评测样本和 Judge 校准数据。

复核样本要避免泄露到训练或提示词示例中。如果复核集后来被用来调 Prompt,再继续用它评测,就会高估效果。评测资产要有用途标签。

review_case_usage: can_train: false can_prompt_example: false can_eval: true

人工复核还应该保留争议记录。有争议的样本往往说明任务边界不清,比简单对错样本更能推动评测标准成熟。

最后,复核结论要和上线门槛绑定。例如事实错误率超过 1% 阻断上线,引用错误率超过 3% 进入修复队列。

五、总结

模型评测人工复核要按策略抽样,使用结构化复核表,并把结果反向校准自动评测。

自动分数高,也要抽样看答案。上线质量不能只信一个数字。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/7/5 18:24:36

RDiscount性能优化:7个技巧提升你的Markdown渲染速度

RDiscount性能优化:7个技巧提升你的Markdown渲染速度 【免费下载链接】rdiscount Discount (For Ruby) Implementation of John Grubers Markdown 项目地址: https://gitcode.com/gh_mirrors/rd/rdiscount RDiscount作为Ruby生态中高性能的Markdown解析器&am…

作者头像 李华
网站建设 2026/7/5 18:24:18

CANN/cannbot-skills: CANNBot-Insight 可观测工具

CANNBot-Insight 【免费下载链接】cannbot-skills CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体,本仓库为其提供可复用的 Skills 模块。 项目地址: https://gitcode.com/cann/cannbot-skills LLM 编码 Agent 的 Session 级可观测工具。辅助长上下…

作者头像 李华
网站建设 2026/7/5 18:23:48

Rain安全与资源管理:CPU、内存、GPU资源调度的完整解决方案

Rain安全与资源管理:CPU、内存、GPU资源调度的完整解决方案 【免费下载链接】rain Framework for large distributed pipelines 项目地址: https://gitcode.com/gh_mirrors/rain/rain Rain作为一个开源分布式计算框架,为大规模任务流水线处理提供…

作者头像 李华
网站建设 2026/7/5 18:22:15

DeepForge完全指南:现代深度学习开发环境如何重塑AI工作流?

DeepForge完全指南:现代深度学习开发环境如何重塑AI工作流? 【免费下载链接】deepforge A modern development environment for deep learning 项目地址: https://gitcode.com/gh_mirrors/de/deepforge 在当今AI技术飞速发展的时代,深…

作者头像 李华
网站建设 2026/7/5 18:20:48

LTC6904与MSP432实现高精度方波脉冲生成方案

1. 项目概述:高精度方波脉冲生成方案在嵌入式系统开发中,精确的时序控制往往决定着项目的成败。LTC6904这款低功耗可编程振荡器与MSP432P401R微控制器的组合,为需要精确方波脉冲的应用场景提供了优雅的解决方案。我曾在一个工业自动化项目中采…

作者头像 李华
网站建设 2026/7/5 18:19:52

Vue-Croppa自定义样式:打造个性化图片裁剪界面的完整指南

Vue-Croppa自定义样式:打造个性化图片裁剪界面的完整指南 【免费下载链接】vue-croppa A simple straightforward customizable mobile-friendly image cropper for Vue 2.0. 项目地址: https://gitcode.com/gh_mirrors/vu/vue-croppa Vue-Croppa是一款专为V…

作者头像 李华