降维

降维

考虑使用具有数百个特征的数据集。直观地,您可以在可视化数据集或使用数据集训练模型时理解必须处理的困难。这是由于尺寸所致,因为更多的特征会导致尺寸更大。而且,更高的维度不适合可视化数据集以更直观地了解问题。 过度拟合将是与高尺寸有关的另一个问题。这是因为许多功能都以某种方式与某种时尚相关。因此,大多数功能都是多余的。例如,如果必须预测降雨和湿度是两个要素的天气,则可以看到其中两个以某种方式相互关联。为了避免过度拟合,您需要减少特征以获取更好的预测精度。 这是降维技术发挥作用的地方。这只是在减少功能集的尺寸。使用此技术,您可以在大量功能中找到一小部分最具影响力的功能。有了这套主要功能,您就可以轻松,准确地运行预测算法。 为什么我们需要降维技术? 使用较少的维数,减少了存储数据所需的空间 由于尺寸较小,培训时间也加快了 诸如决策树和SVM之类的某些算法在较大尺寸下表现不佳。因此,我们需要更少的尺寸来获得这些模型的更高准确性。 它消除了由于数据集中高度相关的特征而发生的多重共线性问题。 它降低了可视化数据的复杂性。如您所知,在2D模式下,绘图比在3D形式下更为直观。 有两种不同的降维技术: 特征选择方法 特征提取方法 特征选择方法...

线性判别分析

简介 线性判别分析(LDA):线性判别分析(LDA)是一种降维技术,用于分离与因变量相关的最佳类。这使其成为一种监督算法。在PCA中,我们不考虑因变量。因此,这是PCA和LDA算法之间的基本区别。 如果有n个自变量,则LDA算法将提取p <= n个新的自变量,这些新变量将大多数因变量分类。 Python中的 LDA  LDA实际上是一种非常简单且流行的算法。在本教程中,我们将与Logistic回归算法一起实现该算法。对于此任务,我们将使用UCI机器学习存储库中著名的” Wine.csv”数据集。我们的数据集版本包含13个代表葡萄酒各个方面的自变量,以及一个因变量,代表基于特定特征的三种类型的葡萄酒购买者。现在,我们将实现LDA以将自变量的数量减少到预定义的值(即两个)。 您可以从此处下载整个数据集。 首先,我们将导入一些基本库。 # Importing the libraries import numpy as np import matplotlib.pyplot as plt import pandas as pd 然后,我们将导入数据集并制作特征矩阵和因变量矢量。 # Importing...