news 2026/4/15 10:46:19

机器学习中的熵

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习中的熵

摘要:本文探讨了熵在机器学习中的应用,重点介绍了其在决策树算法中的作用。熵用于衡量数据集的纯度或随机性,通过香农熵公式计算。决策树利用熵选择最优分割点,以生成同质性更强的子集。文章还提供了Python实现示例,使用鸢尾花数据集演示熵的计算过程,得出初始熵值为1.585,反映了三个类别的分布随机性。熵的概念源于热力学,现已成为机器学习中重要的数据分割指标。

目录

机器学习中的熵

熵的计算方法

示例计算

熵在决策树中的应用

Python 实现熵的计算

代码实现

代码说明

运行结果


机器学习中的熵

熵源于热力学,后被应用于信息论、统计学和机器学习等多个领域。在机器学习中,熵用于衡量数据集的纯度或随机性,尤其在决策树算法中,用于确定数据分割方式,以生成同质性更强的子集。本文将介绍机器学习中的熵、其特性及 Python 实现。

熵被定义为系统混乱度或随机性的度量。在决策树中,熵用于衡量节点的纯度:若一个节点中的所有样本都属于同一类别,则该节点为 “纯节点”,熵值为 0;若样本均匀分布在多个类别中,则节点纯度低、熵值高。

熵的计算方法

计算熵需先确定数据集中每个类别的概率。设 p(i) 为样本属于第 i 类的概率,若数据集包含 k 个类别,则系统的总熵(记为 H(S))按香农熵公式计算:

示例计算

假设有一个含 100 个样本的数据集,其中 60 个属于 A 类,40 个属于 B 类。则 A 类概率为 0.6,B 类概率为 0.4,数据集的熵为:

熵在决策树中的应用

决策树算法中,熵的核心作用是选择 “最优分割点”—— 目标是找到能使分割后子集总熵最低的分割方式,从而让子集的同质性最强。

具体流程如下:

1.计算整个数据集的初始熵 H(S);

2.针对每个特征(如 X1、X2)的所有可能分割方式,计算分割后的加权熵:

  • 对特征 X1 分割:
  • 对特征 X2 分割:

其中,p1​,p2​,p3​,p4​ 为各子集的样本占比,H(S1),H(S2),H(S3),H(S4) 为各子集的熵;

3.选择总熵最低的分割方式

生成决策树的子节点;

4.递归重复上述过程,直至所有节点为纯节点或满足停止条件。

Python 实现熵的计算

以下结合 scikit-learn 的 “鸢尾花(iris)数据集”,演示熵的计算过程:

代码实现

from sklearn.datasets import load_iris import numpy as np # 加载鸢尾花数据集 iris = load_iris() # 提取特征数据和标签(标签表示花的类别) X = iris.data y = iris.target # 定义熵计算函数 def entropy(y): n = len(y) # 样本总数 # 统计每个类别的样本数量 _, counts = np.unique(y, return_counts=True) # 计算每个类别的概率(占比) probs = counts / n # 按香农熵公式计算熵 return -np.sum(probs * np.log2(probs)) # 计算鸢尾花数据集标签的熵 target_entropy = entropy(y) # 输出结果(保留3位小数) print(f"标签熵值: {target_entropy:.3f}")

代码说明

  1. 加载数据集:使用load_iris()加载鸢尾花数据集,包含 3 个类别、150 个样本;
  2. 熵计算函数entropy(y)
    • 统计标签中每个类别的样本数量;
    • 计算每个类别的概率(占比);
    • 代入香农熵公式计算总熵;
  3. 输出结果:计算并打印数据集标签的熵值。

运行结果

执行上述代码后,输出如下:

plaintext

标签熵值: 1.585

该结果表明,鸢尾花数据集的初始熵为 1.585,反映了数据集中 3 个类别的分布随机性。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 10:48:13

能耗管理平台和能源管理平台有什么区别?哪家好用?

在“双碳”目标深入推进、企业降本增效需求日益迫切的当下,数字化能源管控工具已成为各行各业的必备品。但很多企业在选型时,常会混淆“能耗管理平台”和“能源管理平台”两个概念,甚至将二者等同看待,最终导致所选系统无法匹配自…

作者头像 李华
网站建设 2026/4/5 11:17:04

2026别错过!9个AI论文软件测评:自考毕业论文写作必备工具推荐

2026年,随着AI技术在学术领域的不断深入,越来越多的自考学生开始依赖智能写作工具来提升论文撰写效率。然而,面对市场上种类繁多的AI论文软件,如何选择真正适合自己需求的产品成为一大难题。本文基于2026年的实际使用数据与用户反…

作者头像 李华
网站建设 2026/3/27 1:58:10

基于PLC的注塑机控制系统设计与调试

基于PLC的注塑机控制系统设计与调试 第一章 系统设计目标与核心需求 基于PLC的注塑机控制系统以“精准控压、时序可控、工艺可配、安全可靠”为核心设计目标,依托PLC工业级逻辑控制与抗干扰优势,突破传统注塑机继电器控制精度低、故障率高、工艺调整繁琐…

作者头像 李华
网站建设 2026/4/8 8:24:50

基于Linux远程视频传输系统

基于Linux的远程视频传输系统设计 第一章 系统设计目标与核心需求 基于Linux的远程视频传输系统以“低延迟、高稳定、跨终端、易部署”为核心设计目标,依托Linux系统开源、高定制化、多线程调度优势,突破传统视频传输系统兼容性差、延迟高、资源占用大的…

作者头像 李华
网站建设 2026/4/13 15:21:39

‌打造高转化测试工具评测内容:YouTube/TikTok运营实战指南

‌一、测试工具评测内容的黄金公式‌ ‌“3秒钩子 真实痛点 工具实测 一键转化”‌ 是软件测试从业者最易共鸣、平台算法最偏爱的内容结构。 这不是普通的产品介绍,而是‌技术决策的可视化推演‌。你的视频不是在“卖工具”,而是在帮同行‌省下3天调试…

作者头像 李华
网站建设 2026/4/12 17:56:34

网络安全入门到进阶:完整学习路线与实战指南

网络安全入门到进阶:完整学习路线与实战指南 在数字化浪潮下,网络安全已成为企业与个人的“刚需能力”,无论是政企单位的安全防护、互联网公司的渗透测试,还是日常的个人信息保护,都离不开网安技术的支撑。但网安领域…

作者头像 李华