机器学习中的无监督学习与神经网络技术
一、无监督学习中的聚类技术
1.1 聚类的概念与算法
在机器学习里,聚类是一种无监督任务,旨在将相似的实例聚集在一起。相似性的概念取决于具体的任务,例如在某些情况下,距离相近的两个实例会被视为相似;而在其他情况下,只要属于同一个密集群体,即使实例之间距离较远,也会被认为是相似的。常见的聚类算法有 K-Means、DBSCAN、凝聚聚类、BIRCH、Mean - Shift、亲和传播和谱聚类等。
1.2 聚类算法的应用
聚类算法的主要应用包括数据分析、客户细分、推荐系统、搜索引擎、图像分割、半监督学习、降维、异常检测和新奇性检测等。
1.3 确定 K-Means 聚类数的方法
1.3.1 肘部法则
肘部法则是在使用 K - Means 时选择聚类数的简单技术。具体操作是:绘制惯性(每个实例到其最近质心的均方距离)与聚类数的函数关系图,找到曲线中惯性不再快速下降的点(即“肘部”),这个点对应的聚类数通常接近最优聚类数。
1.3.2 轮廓系数法
另一种方法是绘制轮廓分数与聚类数的函数关系图。通常会出现一个峰值,最优聚类数一般就在峰值附近。轮廓分数是所有实例的平均轮廓系数,该系数的取值范围从 +1(实例很好地处于其所在聚类中,且远离其他聚类)到 -1(实例非常接近另一个聚类)。还可以绘制轮廓图进行更深入的分析。
1.4 标签传播技术
给数据集打标签既昂贵又耗时,所以通常会有大量未标记的实例,而标记的实例较少。标签传播技术是将标记实例的部分(或全部)标签复制到相似的未标记