- 没有老师,机器怎么学?
监督学习像有标准答案的习题册,无监督学习则像一堆没整理的乐高零件——让AI自己找出结构、分组或规律。
🧩 生活类比:
你拿到一堆从未见过的水果(形状、颜色、大小都不同),虽然没有标签,但你能自然地把红色的放一起、圆形的放一起。这就是无监督聚类。
- 两大核心任务
聚类:将相似的样本自动归为一组(不知道组的意义,但组内有共性)
降维:将高维数据压缩到低维,同时保留主要信息(用于可视化或提速)
- K-Means聚类:最经典的聚类算法
原理(4步循环)
随机选K个点作为初始“中心”
每个样本归属最近的中心,形成K个簇
重新计算每个簇的中心(均值)
重复2-3直到中心不再变化
📊 图示理解:
就像在操场上放K个旗子,所有同学站到离自己最近的旗子旁,然后旗子移动到人群中心,再重新站队…最终形成稳定群体。
代码示例:客户分群
fromsklearn.clusterimportKMeansimportnumpyasnp# 假设有100个客户的年消费额和购物频率X=np.random.rand(100,2)# 实际会用真实数据kmeans=KMeans(n_clusters=3,random_state=0)kmeans.fit(X)labels=kmeans.labels_# 每个客户属于哪个群centers=kmeans.cluster_centers_# 各群中心点- 降维与PCA:把三维物体拍成二维照片
为什么需要降维?
100个特征的数据无法画图,且计算慢。PCA能找到最重要的几个“主成分”。
PCA的直观理解:
找一条直线(一维)或一个平面(二维),让所有数据点到它的投影距离平方和最小,也就是“信息损失最小”。
fromsklearn.decompositionimportPCA pca=PCA(n_components=2)# 降到2维X_reduced=pca.fit_transform(X_high_dim)- 无监督学习的经典应用
领域 应用 算法
电商 用户分群(精准营销) K-Means, DBSCAN
异常检测 信用卡欺诈识别 孤立森林
推荐系统 物品协同过滤 矩阵分解(PCA变体)
基因分析 发现亚型疾病 层次聚类
小结
无监督学习在标签昂贵或数据未知结构的场景中价值巨大。它让AI具备“观察、归纳、发现模式”的能力。下一篇我们将进入“强化学习”,看看AI如何通过试错成为游戏高手。
下一篇预告:《强化学习:像训练小狗一样,让AI自己学会走路》