news 2026/5/25 16:01:46

机器学习 —— 关联规则

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习 —— 关联规则

摘要:关联规则挖掘是机器学习中用于发现数据集中项目间关联关系的技术,主要应用于购物篮分析等领域。该方法通过支持度和置信度指标衡量规则强度,其中支持度反映规则普遍性,置信度表示规则可靠性。使用Python的mlxtend库可实现关联规则挖掘,包括数据编码、Apriori算法查找频繁项集和生成关联规则等步骤。该技术可应用于医疗、金融等多个领域,帮助从大型数据集中提取有价值的模式。核心概念包括前件、后件、频繁项集等,Apriori算法是其经典实现方法之一。

目录

机器学习 —— 关联规则

示例

输出结果

频繁项集输出:

关联规则输出:

术语说明


机器学习 —— 关联规则

关联规则挖掘(Association Rule Mining)是机器学习中的一种技术,用于从大型数据集中发现有价值的模式。这些模式以关联规则的形式呈现,代表数据集中不同项目或属性之间的关联关系。关联规则挖掘最常见的应用场景是购物篮分析(Market Basket Analysis),其目的是识别出经常被一起购买的商品。

关联规则由前件(antecedents)集合和后件(consequents)集合组成。前件代表规则适用所需满足的条件或存在的项目,后件则代表与前件相关联的结果或可能出现的项目。关联规则的强度通过两个指标衡量:支持度(support)和置信度(confidence)。支持度是数据集中同时包含前件和后件的交易占比;置信度是在包含前件的交易中,同时包含后件的交易占比。

示例

在 Python 中,mlxtend库提供了多个用于关联规则挖掘的函数。以下是使用mlxtend中的apriori函数实现关联规则挖掘的示例代码:

# 导入所需库 import pandas as pd from mlxtend.preprocessing import TransactionEncoder from mlxtend.frequent_patterns import apriori, association_rules # 创建样本数据集(购物交易记录) data = [ ['牛奶', '面包', '黄油'], ['牛奶', '面包'], ['牛奶', '黄油'], ['面包', '黄油'], ['牛奶', '面包', '黄油', '奶酪'], ['牛奶', '奶酪'] ] # 对数据集进行编码 te = TransactionEncoder() te_ary = te.fit(data).transform(data) # 拟合并转换数据 df = pd.DataFrame(te_ary, columns=te.columns_) # 构建编码后的DataFrame # 使用Apriori算法查找频繁项集 frequent_itemsets = apriori(df, min_support=0.5, use_colnames=True) # 生成关联规则(以置信度为指标,最小阈值设为0.5) rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=0.5) # 输出结果 print("频繁项集:") print(frequent_itemsets) print("\n关联规则:") print(rules)

在上述示例中,我们首先创建了一个购物交易样本数据集,然后通过mlxtendTransactionEncoder对数据进行编码处理。接着使用apriori函数查找最小支持度为 0.5 的频繁项集(Frequent Itemsets),最后通过association_rules函数生成最小置信度为 0.5 的关联规则。

apriori函数接收两个核心参数:编码后的数据集和最小支持度阈值。use_colnames参数设为True时,将使用原始项目名称(如 “牛奶”“面包”)作为列名,而非布尔值(True/False)。association_rules函数接收三个关键参数:频繁项集、评估指标(本示例使用置信度)和最小阈值(本示例设为 0.5)。

输出结果

上述代码的输出将包含频繁项集和生成的关联规则。频繁项集代表数据集中经常同时出现的项目组合,关联规则则代表频繁项集中各项目之间的关联关系。

频繁项集输出:

supportitemsets
0.666667(面包)
0.666667(黄油)
0.833333(牛奶)
0.500000(面包,黄油)
0.500000(面包,牛奶)
0.500000(黄油,牛奶)

关联规则输出:

antecedentsconsequentsantecedent supportconsequent supportsupportconfidenceliftleverageconvictionzhangs_metric
(面包)(黄油)0.6666670.6666670.50.751.1250.0555561.3333330.333333
(黄油)(面包)0.6666670.6666670.50.751.1250.0555561.3333330.333333
(面包)(牛奶)0.6666670.8333330.50.750.900-0.0555560.666667-0.250000
(牛奶)(面包)0.8333330.6666670.50.600.900-0.0555560.833333-0.400000
(黄油)(牛奶)0.6666670.8333330.50.750.900-0.0555560.666667-0.250000
(牛奶)(黄油)0.8333330.6666670.50.600.900-0.0555560.833333-0.400000

关联规则挖掘是一种功能强大的技术,可应用于多种类型的数据集。除了常用于购物篮分析以识别共同购买的商品外,它还能应用于医疗保健、金融、社交媒体等多个领域。借助mlxtend等 Python 库,我们可以轻松实现关联规则挖掘,并从大型数据集中提取有价值的洞察。

术语说明

  1. 关联规则(Association Rule):描述数据集中项目之间关联关系的规则,形式为 “前件→后件”。
  2. 前件(Antecedent):规则的前提条件,即触发规则的项目集合(如 “购买面包”)。
  3. 后件(Consequent):规则的结果,即与前件相关联的项目集合(如 “购买黄油”)。
  4. 支持度(Support):数据集中同时包含前件和后件的交易比例,反映规则的普遍程度。
  5. 置信度(Confidence):包含前件的交易中同时包含后件的比例,反映规则的可靠程度。
  6. 频繁项集(Frequent Itemset):支持度达到或超过最小支持度阈值的项目组合。
  7. Apriori 算法:关联规则挖掘中用于查找频繁项集的经典算法,核心思想是 “频繁项集的子集必为频繁项集”。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/20 15:09:06

超声波深度测量仪设计与实现

超声波深度测量仪设计与实现 一、设计背景与意义 超声波深度测量在水文监测、工业液位控制、水产养殖、污水处理等领域具有不可替代的作用。传统深度测量方法(如浮标法、机械探测法)存在操作复杂、测量滞后、易受环境干扰等问题,现有超声波…

作者头像 李华
网站建设 2026/5/20 10:44:07

【Redis持久化核心】AOF/RDB通俗详解+多场景对比

在讲核心内容前,先定一个前提:Redis是纯内存数据库,数据都存在内存里,一旦Redis重启/服务器断电,内存数据会直接消失。持久化就是Redis把内存数据“存到硬盘文件里”的操作,目的是重启后能恢复数据&#xf…

作者头像 李华
网站建设 2026/5/20 12:17:07

贡嘎山下的蓝色冰川,藏着海螺沟的旷世温柔

海螺沟位于四川省甘孜藏族自治州,其核心特点是同一区域内冰川、原始森林、温泉与雪山的罕见共存,形成了强烈而独特的视觉与地理反差。景区发源于贡嘎雪山东坡,主沟纵深超过30公里。现代海洋性冰川是这里的首要地质特征,巨大的冰舌…

作者头像 李华
网站建设 2026/5/23 4:56:30

django+Pythonuniapp的心理咨询信息系统APP小程序

文章目录技术栈与架构设计核心功能模块数据安全与合规性能优化策略部署与扩展性典型代码片段(Django示例)系统设计与实现的思路主要技术与实现手段源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!技术栈与架构设计 …

作者头像 李华
网站建设 2026/5/20 17:59:06

每天一个Linux命令_tar

tar 是 Tape Archive(磁带归档)的缩写 tar用来压缩和解压文件。tar本身不具有压缩功能。他是调用压缩功能实现的 打包(不压缩):tar -cf 归档名.tar 源文件/目录 tar -cf testdir.tar testdir 解压(不压…

作者头像 李华
网站建设 2026/5/20 10:44:20

生成式AI催生GEO优化,如何成为其内容权威信源?

生成式人工智能技术迅猛发展之际,一个叫GEO优化的全新概念于数字内容领域暗暗兴起。这种优化策略可不是传统搜索引擎优化即SEO的简单扩展,而是专门按照生成式AI的内容分发逻辑予以设定的一整套系统性办法。为理解GEO优化,就得从生成式AI的工作…

作者头像 李华