news 2026/6/10 12:35:43

在有真实标签 (Ground Truth) 的情况下,常用的指标有哪些?聚类指标有哪些?

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
在有真实标签 (Ground Truth) 的情况下,常用的指标有哪些?聚类指标有哪些?

一、有监督情况下,常用的指标有哪些?

在有真实标签 (Ground Truth)的情况下,常用的指标如下

以下是你可以计算的指标,按从基础到进阶的顺序排列:

1. 基础分类指标 (Basic Classification Metrics)

这是最常用的一组指标,用于衡量分选结果的“准”与“全”。

  • 准确率 (Accuracy)

    • 定义:分选正确的脉冲数占总脉冲数的比例。

    • 公式:$ \frac{TP + TN}{Total} $

    • 意义:全局指标,但在样本不均衡(比如某个雷达发了1万个脉冲,另一个只发了100个)时会失真。

  • 精确率 (Precision / 查准率)

    • 定义:预测为雷达A的脉冲中,真正属于雷达A的比例。

    • 公式:$ P = \frac{TP}{TP + FP} $

    • 雷达含义“虚警率”的反面。精确率低意味着把很多别的信号(噪声或其他雷达)错分给了这个雷达。

  • 召回率 (Recall / 查全率 / PD)

    • 定义:本来属于雷达A的脉冲中,被成功找出来的比例。在雷达领域常称为发现概率 (Probability of Detection, PD)

    • 公式:$ R = \frac{TP}{TP + FN} $

    • 雷达含义“漏警率”的反面。召回率低意味着丢了很多该雷达的脉冲。

  • F1-Score

    • 定义:精确率和召回率的调和平均数。

    • 公式:$ 2 \times \frac{P \times R}{P + R} $

    • 意义:综合考量虚警和漏警,是一个比较公正的单值指标。

2. 雷达专用指标 (Radar Specific Metrics)

针对信号分选任务特有的业务指标。

  • 漏警率 (Miss Rate)

    • 公式:$ 1 - Recall $

    • 意义:有多少个脉冲没被分选出来(或者被丢弃到“未知/噪声”类里了)。

  • 错分率 (Error Sorting Rate)

    • 定义:本来是雷达A的脉冲,被错误地分给了雷达B的比例。

    • 意义:衡量算法处理“参数重叠”或“多义性”的能力。

  • 虚假辐射源产生率 (Ghost Emitter Rate)

    • 定义:算法报告发现了“雷达X”,但实际上环境中根本没有雷达X。

    • 场景:常见于聚类算法(如SDIF, CDIF)将多部雷达的谐波或交错脉冲误判为一部新雷达。

4. 混淆矩阵 (Confusion Matrix)

这不是一个单一的数字,而是一个表格,是分析错误的神器

  • :真实标签 (Radar 1, Radar 2, ...)

  • :预测结果 (Radar 1, Radar 2, ..., Unknown)

  • 用途:一眼看出Radar 1经常被错分成Radar 5(说明这两部雷达参数太像了,或者算法在那个参数区间有缺陷)。

二、聚类指标有哪些?

在聚类任务中,常见的评价指标有:纯度(Purity)、兰德系数(Rand Index, RI)、F值(F-score)和调整兰德系数(Adjusted Rand Index,ARI)。同时,这四种评价指标也是聚类相关论文中出现得最多的评价方法。

如果你使用的是无监督学习(如K-Means, DBSCAN)进行分选,然后用标签来验证,这些指标很有用:

  • 调整兰德指数 (Adjusted Rand Index, ARI)

    • 范围:[-1, 1],越接近1越好。

    • 意义:衡量你的分选结果(聚类簇)和真实标签的吻合程度,且消除了随机运气的影响。

  • 互信息 (Mutual Information, MI / NMI)

    • 意义:衡量预测结果包含了多少关于真实标签的信息量。

其他的无监督指标详情参考链接:https://zhuanlan.zhihu.com/p/343667804

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 11:19:26

告别肉眼看日志!Python + Isolation Forest 实现服务器日志异常检测

摘要: 你是否还在深夜对着几百兆的 Nginx 或系统日志发愁?本文将带你通过 Python 使用无监督学习算法(孤立森林),自动识别日志中的异常流量和潜在攻击,让运维监控从“基于规则”走向“基于算法”。 前言 在…

作者头像 李华
网站建设 2026/6/5 14:28:59

灵遁者意识流诗歌4首:跳舞的铅笔

462、跳舞的铅笔——灵遁者铅笔站在桌子上,它穿上了紫色的舞鞋, 跳起了慢舞,在空无一人的房间里。 它的尖端指向天花板,笔芯和木质的身体交错, 像一颗旋转的陀螺,但无论如何转动, 都无法找回重力…

作者头像 李华
网站建设 2026/5/20 21:07:33

leetcode 困难题 778. Swim in Rising Water 水位上升的泳池中游泳

Problem: 778. Swim in Rising Water 水位上升的泳池中游泳 解题过程 深度优先搜索&#xff0c; 记忆化搜索&#xff0c;找到每条路径的最大值&#xff0c;然后拿到所有路径最大值当中的最小值&#xff0c;记忆化搜索的key是(tmpMX << 20) (x << 10) y;&#xff…

作者头像 李华
网站建设 2026/6/10 20:18:31

决策树 (Decision Tree):像“猜猜看”游戏一样的AI算法

不用担心自己没有基础&#xff0c;我们不谈复杂的数学公式&#xff0c;只用最直白的大白话和生活中的例子&#xff0c;带你通过这篇博客轻松搞懂什么是“决策树”。1. 什么是决策树&#xff1f; 想象一下&#xff0c;你在玩一个“猜猜看”的游戏&#xff08;或者像“阿基纳多”…

作者头像 李华
网站建设 2026/6/10 17:54:49

【Open-AutoGLM深度解析】:掌握这4个技巧,轻松驾驭AI自动化插件

第一章&#xff1a;Open-AutoGLM插件的核心功能与应用场景Open-AutoGLM是一款专为大语言模型自动化任务设计的开源插件&#xff0c;旨在提升自然语言处理流程的智能化与可扩展性。该插件通过标准化接口集成多种GLM系列模型&#xff0c;支持动态推理、上下文感知任务调度以及多轮…

作者头像 李华
网站建设 2026/6/9 18:06:01

学长亲荐9个AI论文工具,本科生搞定毕业论文!

学长亲荐9个AI论文工具&#xff0c;本科生搞定毕业论文&#xff01; AI 工具如何帮你轻松应对论文写作难题 在当今学术环境中&#xff0c;AI 工具正逐渐成为大学生们不可或缺的得力助手。无论是撰写开题报告、整理文献资料&#xff0c;还是进行论文降重&#xff0c;AI 技术都能…

作者头像 李华