将样本划分为由类似的对象组成的多个类的过程。

K-means++算法(简单)

Untitled

Untitled

聚类个数k值的确定(多尝试);数据量纲不一样(标准化)

系统(层次)聚类(常用)

通过各种方法找到其中的共性;

用图形估计聚类数量:肘部法则excel

Untitled

聚类谱系图SPSS

样品间常用距离5 指标间常用距离2 类之间常用距离5

Untitled

DBSCAN(只有两个指标且要画散点图)

聚类前不需要预先指定聚类的个数,生成的簇的个数不定(和数据有关)

要求聚类空间中的一定区域内所包含对象(点或其他空间对象)的数目不小于某一给定阈值

数据密度足够大、聚类形状任意、处理孤立点/异常数据

MATLAB代码直达处:

DBSCAN Clustering Algorithm