分类

层次聚类

聚类:聚类是一种无监督的学习算法。 集群是指聚合数据点的组,因为它们之间存在某些相似性。 聚类算法对数据点进行分组,而不引用已知或标记的结果。 聚类算法通常有两种,即K-means聚类和层次聚类。在本教程中,我们将理解和实现层次聚类。 层次聚类: 这是一种无监督的聚类算法,可以采用自上而下或自下而上的方法对数据点进行聚类。可以通过树状层次结构直观地理解层次结构群集的工作原理,即,如何在子文件夹中组织不同的文件,在子文件夹中组织文件夹的方式。基于它们的方法,此算法有两个基本区别。 聚集层次聚类-遵循自下而上的方法 可分割的层次聚类-遵循从上到下的方法 在本教程中,我们将专注于聚集层次聚类。 聚集层次聚类: 在这种技术中,最初,每个数据点被当作一个单独的簇。然后,基于彼此之间的相似性,在每次迭代时将相似的聚类合并在一起。该算法一直运行到找到一个群集或定义数量的群集为止。 该算法如何工作? 该算法的工作步骤如下 步骤1:使每个数据点成为一个单点群集。形成N个簇。 步骤2:选取两个最接近的数据点并将它们设为一个簇。形成N-1个簇。 步骤3:选取两个最接近的群集,并将它们设为一个群集。形成N-2个簇 步骤4:重复步骤3,直到只有一个...

K均值聚类

聚类:聚类是一种无监督的学习算法。集群是指聚合数据点的组,因为它们之间存在某些相似性。 聚类算法对数据点进行分组,而不引用已知或标记的结果。 聚类算法通常有两种,即K-means聚类和层次聚类。 在本教程中,我们将了解和实现其中最简单的一种-K-means聚类。 K均值聚类算法将数据点分类为预定义数量的组K,其中每个数据点均属于具有最均值的组或聚类。数据点基于其特征的相似性进行聚类。该算法以迭代的方式将每个数据点分配给K个组之一,以使该组的质心(即簇的中心)与数据点之间的距离(即Euclidian或Manhattan)较小。该算法产生了K个最大可能不同的不同簇。   该算法如何工作: K-均值聚类采用迭代方法来执行聚类任务。该算法的工作步骤如下: 步骤1:选择簇数K。 第2步:在任意K点选择质心(不一定从我们的数据集中)。 步骤3:根据欧式距离或曼哈顿距离,将每个数据点分配给最近的质心。形成K个簇。 步骤4:计算并放置每个群集的新质心。 步骤5.将每个数据点重新分配给新的最近的质心。如果发生任何重新分配,请转到步骤4。 如果质心已经稳定,这意味着将不会创建或优化聚类,这意味着不会发生新的数据点重新分配或算法达到了定义的迭代...

评估分类模型性能

通过这篇文章,您将了解用于评估分类模型的不同指标。 基础知识:错误肯定和错误否定  假设您的分类模型根据各种特征预测一个人患癌症的可能性。这里的结果是二进制的,是或否。这意味着该人是否患有癌症。很简单 好吧,由于您的模型每次都不是绝对正确的(它不能提供100%的准确性),因此会误判某些事件,从而导致错误的结果。如果您的模型预测该人患有癌症,但实际上却没有,那么结果就是”假阳性”或” I型错误”。另一方面,如果该人确实患有癌症,但您的模型预测为否,则这是假阴性或II型错误。  这里的红点是实际结果,灰点是预测结果。假阳性错误的影响不如假阴性错误。例如,如果模型预测该人没有癌症,而该人实际患癌症,则其影响将大于告诉该人患有癌症的预测,而实际上却没有。 混淆矩阵: 混淆矩阵是评估分类模型性能的最常用指标。它显示了与实际结果(目标值)相比,模型做出的正确和不正确预测的数量。它是一个NxN矩阵,其中N是目标类别的数量。即用于预测的标签数。它显示了NxN网格中的假阳性(FP)和假阴性(FN)的数量。 这里 TP =真阳性,实际和预测结果均为阳性 FP =假阳性,预测结果为真,但目标值为假...