非监督学习

降维

考虑使用具有数百个特征的数据集。直观地,您可以在可视化数据集或使用数据集训练模型时理解必须处理的困难。这是由于尺寸所致,因为更多的特征会导致尺寸更大。而且,更高的维度不适合可视化数据集以更直观地了解问题。 过度拟合将是与高尺寸有关的另一个问题。这是因为许多功能都以某种方式与某种时尚相关。因此,大多数功能都是多余的。例如,如果必须预测降雨和湿度是两个要素的天气,则可以看到其中两个以某种方式相互关联。为了避免过度拟合,您需要减少特征以获取更好的预测精度。 这是降维技术发挥作用的地方。这只是在减少功能集的尺寸。使用此技术,您可以在大量功能中找到一小部分最具影响力的功能。有了这套主要功能,您就可以轻松,准确地运行预测算法。 为什么我们需要降维技术? 使用较少的维数,减少了存储数据所需的空间 由于尺寸较小,培训时间也加快了 诸如决策树和SVM之类的某些算法在较大尺寸下表现不佳。因此,我们需要更少的尺寸来获得这些模型的更高准确性。 它消除了由于数据集中高度相关的特征而发生的多重共线性问题。 它降低了可视化数据的复杂性。如您所知,在2D模式下,绘图比在3D形式下更为直观。 有两种不同的降维技术: 特征选择方法 特征提取方法 特征选择方法...

线性判别分析

简介 线性判别分析(LDA):线性判别分析(LDA)是一种降维技术,用于分离与因变量相关的最佳类。这使其成为一种监督算法。在PCA中,我们不考虑因变量。因此,这是PCA和LDA算法之间的基本区别。 如果有n个自变量,则LDA算法将提取p <= n个新的自变量,这些新变量将大多数因变量分类。 Python中的 LDA  LDA实际上是一种非常简单且流行的算法。在本教程中,我们将与Logistic回归算法一起实现该算法。对于此任务,我们将使用UCI机器学习存储库中著名的” Wine.csv”数据集。我们的数据集版本包含13个代表葡萄酒各个方面的自变量,以及一个因变量,代表基于特定特征的三种类型的葡萄酒购买者。现在,我们将实现LDA以将自变量的数量减少到预定义的值(即两个)。 您可以从此处下载整个数据集。 首先,我们将导入一些基本库。 # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd 然后,我们将导入数据集并制作特征矩阵和因变量矢量。 # Importing...

内核主成分分析

内核主成分分析(Kernel PCA):主成分分析(PCA)是一种流行的工具,用于线性可分离数据集的降维和特征提取。但是,如果数据集不是线性可分离的,则需要应用内核PCA算法。它与PCA相似,不同之处在于它使用一种内核技巧将非线性特征映射到更高的维度,然后提取与PCA相同的主要成分。 Python中的内核PCA:在本教程中,我们将在非线性数据集上实现内核PCA以及Logistic回归算法。对于此任务,我们将使用” Social_Network_Ads.csv” 数据集。在数据集中,要素与因变量具有非线性相关性。因此,我们必须应用内核PCA来提取自变量。让我们来看看该数据集。                                                                  您可以从此处下载整个数据集。 首先,让我们导入基本库 import numpy as np import matplotlib.pyplot as plt import pandas as pd 导入数据集 dataset = pd.read_csv(‘Social_Network_Ads.csv’)...

主成分分析

主成分分析(PCA):主 成分分析或主成分分析是一种流行的降维技术,它通过提取方差最大的特征来减少特征或自变量的数量。这意味着它将找到独立变量之间的相关性并计算它们的方差,然后选择具有最高方差的那些特征。 如果数据集包含n个变量,则PCA将提取m <= n个自变量,这说明了数据集的最大方差。这是一种无监督算法,因为它可以提取特征,而与因变量无关。 Python中的  PCA :实际上,PCA是一种非常简单且流行的算法。在本教程中,我们将与 Logistic回归  算法一起实现该算法。对于此任务,我们将使用UCI机器学习存储库中著名的” Wine.csv” 数据集。我们的数据集版本包含十三种代表葡萄酒各个方面的自变量,以及一个因变量,代表基于特定特征的三种类型的葡萄酒购买者。现在,我们将实现PCA,以将自变量的数量减少到一个定义的值(即两个)。 您可以从此处下载整个数据集。 首先,我们导入基本库。 #Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd 现在,让...