层次聚类
聚类:聚类是一种无监督的学习算法。 集群是指聚合数据点的组,因为它们之间存在某些相似性。 聚类算法对数据点进行分组,而不引用已知或标记的结果。 聚类算法通常有两种,即K-means聚类和层次聚类。在本教程中,我们将理解和实现层次聚类。 层次聚类: 这是一种无监督的聚类算法,可以采用自上而下或自下而上的方法对数据点进行聚类。可以通过树状层次结构直观地理解层次结构群集的工作原理,即,如何在子文件夹中组织不同的文件,在子文件夹中组织文件夹的方式。基于它们的方法,此算法有两个基本区别。 聚集层次聚类-遵循自下而上的方法 可分割的层次聚类-遵循从上到下的方法 在本教程中,我们将专注于聚集层次聚类。 聚集层次聚类: 在这种技术中,最初,每个数据点被当作一个单独的簇。然后,基于彼此之间的相似性,在每次迭代时将相似的聚类合并在一起。该算法一直运行到找到一个群集或定义数量的群集为止。 该算法如何工作? 该算法的工作步骤如下 步骤1:使每个数据点成为一个单点群集。形成N个簇。 步骤2:选取两个最接近的数据点并将它们设为一个簇。形成N-1个簇。 步骤3:选取两个最接近的群集,并将它们设为一个群集。形成N-2个簇 步骤4:重复步骤3,直到只有一个...