@浙大疏锦行
知识点
1.聚类的指标
2.聚类常见算法:kmeans聚类、dbscan聚类、层次聚类
3.三种算法对应的流程
作业:把心脏病数据进行聚类处理
一.kmeans聚类处理结果:
这里我选择K=4,结果如下:
能很明显看出来区分度不足,ai建议换成2试一试,结果如下:
能看出来比4好点,但是也不是很好,可能跟心脏病数据是带标签的分类数据(本身是 “健康 / 患病” 的二分类),但 KMeans 是 “无监督聚类”以及这个数据的特征之间天然区分度不算高有关。
二.dbscan聚类
16条有效参数生成的,结果为最优eps: 0.8, 最优min_samples: 2.0
结果还是很差,可能与eps小有关,我调整成1.2/1.5都试了试,效果也不显著,结果差不多
三.层次聚类
能看出来这个结果是当前尝试的算法中最有效的,但受数据本身特征限制,簇的紧凑度和分离度无法达到 完全清晰”的程度。
层次聚类树状图直观呈现了心脏病数据集样本的簇合并过程,纵坐标代表簇间合并差异度(值越小表明簇间相似度越高),横坐标对应不同阶段的簇分组;底部小簇因相似度高优先合并,随纵坐标升高逐步形成中簇、大簇,合并差异度持续增大,而顶部最大差异处的切分结果与此前选定的 n=2 聚类数一致,进一步验证了该聚类数在心脏病数据无监督分组中的合理性。