Day 21 常见聚类算法-平芜编程栈

@浙大疏锦行

知识点
1.聚类的指标
2.聚类常见算法:kmeans聚类、dbscan聚类、层次聚类
3.三种算法对应的流程

作业：把心脏病数据进行聚类处理

一.kmeans聚类处理结果：

这里我选择K=4，结果如下：

能很明显看出来区分度不足，ai建议换成2试一试，结果如下：

能看出来比4好点，但是也不是很好，可能跟心脏病数据是带标签的分类数据（本身是 “健康 / 患病” 的二分类），但 KMeans 是 “无监督聚类”以及这个数据的特征之间天然区分度不算高有关。

二.dbscan聚类

16条有效参数生成的，结果为最优eps: 0.8, 最优min_samples: 2.0

结果还是很差，可能与eps小有关，我调整成1.2/1.5都试了试，效果也不显著，结果差不多

三.层次聚类

能看出来这个结果是当前尝试的算法中最有效的，但受数据本身特征限制，簇的紧凑度和分离度无法达到完全清晰”的程度。

层次聚类树状图直观呈现了心脏病数据集样本的簇合并过程，纵坐标代表簇间合并差异度（值越小表明簇间相似度越高），横坐标对应不同阶段的簇分组；底部小簇因相似度高优先合并，随纵坐标升高逐步形成中簇、大簇，合并差异度持续增大，而顶部最大差异处的切分结果与此前选定的 n=2 聚类数一致，进一步验证了该聚类数在心脏病数据无监督分组中的合理性。

批量导入文档技巧：节省时间的实用方法

批量导入文档技巧：节省时间的实用方法在企业知识管理或个人数字资产日益增长的今天，一个常见的挑战浮现出来：如何让AI真正“读懂”我们手头成百上千份PDF、Word文档和Markdown笔记？很多团队尝试过搭建智能问答系统，但…

李华

AI和效率压力？现代数据中心的新技术解决方案

AI模型的训练与推理需要巨大的计算资源，这直接推高了能源消耗与冷却需求。当前，全球数据中心约占全球电力消耗的1%至2%，而高盛预计，到本十年末，这一比例可能上升至4%……AI时代的数据中心挑战随着人工智能的持续发展与…

李华

医疗文档处理新思路：借助anything-llm实现病历问答

医疗文档处理新思路：借助 Anything-LLM 实现病历问答在医院信息科的某个深夜，一位年轻医生正为第二天的疑难病例讨论做准备。他需要从过去三年的心内科出院记录中找出所有使用华法林且发生过轻微出血事件的老年患者——这项任务本该只需几分钟&#xff…

李华

高校图书馆智能化升级：学生自助查询论文系统

高校图书馆智能化升级：学生自助查询论文系统在高校科研节奏日益加快的今天，一个常见的场景是：研究生小张为了撰写文献综述，在图书馆数据库中输入关键词反复检索，却始终无法精准定位到所需的核心观点。他不得不下载十几…

李华

Kgateway 实战指南：轻量级 Kubernetes 流量管理与生产落地

Kgateway 是一个面向未来、轻量高效的 Kubernetes 网关解决方案，本指南将从核心概念、特性优势、生产实践到对比分析全面解读 Kgateway。一、什么是 Kgateway？ Kgateway 是一个开源的 Kubernetes 入口网关和 API 网关，它的核心设计理念是完全遵循 Kubernetes Gateway API…

李华

image2lcd单色图像转换：超详细版处理流程解析

如何用 image2lcd 精准转换单色图像？一个嵌入式工程师的实战笔记最近在做一个基于 STM32 的工业控制面板项目，客户坚持要用一块 128x64 的单色 OLED 屏显示 Logo 和状态图标。这本不是什么难事，但当我把设计好的 PNG 图标导入 image2lcd 工…

李华