模型评测人工复核:自动分数高,也要抽样看答案
一、自动评测会漏掉细节
大模型评测越来越依赖自动指标和 LLM Judge。它们能提高效率,但自动分数高不代表答案真的可用。事实错误、语气不合适、引用错位、细节遗漏、过度自信,都可能被分数掩盖。一个医疗咨询模型的自动评分达到 4.8/5,人工抽查却发现有 10% 的回答在药物剂量上给出了过时建议。自动评分只看语义流畅度,对事实准确性完全无感知。
模型评测需要人工复核,尤其是上线前。
二、抽样要有策略
flowchart TD A[评测结果] --> B[高分样本] A --> C[低分样本] A --> D[分歧样本] A --> E[关键业务样本]不要只看低分样本。高分样本也可能存在隐蔽问题,分歧样本能暴露评测规则不稳定,关键业务样本决定上线风险。
human_review_sampling: high_score: 20 low_score: 20 judge_disagreement: 30 business_critical: all抽样策略决定你能看到什么问题。如果只看低分样本,你会错过高分中的隐蔽问题;如果只看高分样本,你会低估系统能力缺陷。四类抽样并行,才能把真假问题都暴露出来。
三、复核表要结构化
人工复核不能只写“感觉还行”。要按维度打标:事实正确、指令遵循、完整性、安全性、可读性、引用可靠。
review_form: factuality: pass_fail instruction_following: score_1_5 completeness: score_1_5 citation_correct: pass_fail结构化复核结果可以反向校准自动评测。
四、复核要反馈给评测系统
人工发现自动分数偏高,就要分析原因:Judge 提示词太宽、参考答案不完整、评分维度缺失,还是样本本身有歧义。
calibration_action: update_judge_prompt: optional update_rubric: optional relabel_case: optional人工复核不是为了替代自动评测,而是让自动评测更可信。
最后,复核成本要可控。高风险任务多复核,低风险任务少复核。不同任务设置不同抽样率,比全量人工更现实。
但要提前定好抽样比例的决策规则:风险等级、上次复核发现的缺陷率、业务变更频率,都应该影响抽样量。一成不变的抽样规则,要么对低风险任务过度投入,要么在高风险阶段漏检问题。
人工复核还要控制一致性。两个复核者对同一答案的判断如果差异很大,说明评分标准不清。可以抽取一部分样本做双人复核,计算一致率。
review_consistency: double_review_rate: 0.1 disagreement_review: required rubric_update_when_low_agreement: true复核者也需要看到必要上下文。只给模型答案,不给用户问题、检索证据和评分标准,很容易误判。复核界面要把这些信息放在一起。
还要记录复核耗时。某类样本耗时很长,可能说明任务定义复杂或评分标准模糊。评测体系也要被优化。
最后,人工复核结果不要只用于上线决策,也要沉淀成新评测样本和 Judge 校准数据。
复核样本要避免泄露到训练或提示词示例中。如果复核集后来被用来调 Prompt,再继续用它评测,就会高估效果。评测资产要有用途标签。
review_case_usage: can_train: false can_prompt_example: false can_eval: true人工复核还应该保留争议记录。有争议的样本往往说明任务边界不清,比简单对错样本更能推动评测标准成熟。
最后,复核结论要和上线门槛绑定。例如事实错误率超过 1% 阻断上线,引用错误率超过 3% 进入修复队列。
五、总结
模型评测人工复核要按策略抽样,使用结构化复核表,并把结果反向校准自动评测。
自动分数高,也要抽样看答案。上线质量不能只信一个数字。