关于主分量分析函数

函数 > 数据分析 > 主分量分析 > 关于主分量分析函数

关于主分量分析函数

PTC Mathcad 提供了若干可执行主分量分析 (PCA) 的函数：

• Nipals、Nipals2 - 执行 PCA。

关于主分量分析

找到包含大量相关或多余变量的数据集并不罕见。这不仅会导致数据分析的计算效率低下，还会导致数值问题 (例如在矩阵求逆步骤中)。在这种情况下，需要一种可将数据压缩为少数正交变量的方法。有一组可实现上述操作的方法，它们被共同称为因子分析法。这些方法中最基本的就是 PCA，它可将数据压缩为其最主要的因子。

PCA 取 n 维数据空间并定义一组新的正交轴 (即新变量)，这些轴可使用最理想的方式描述数据的方差。第一个新变量描述可能变化的最大量 (即最大方差)，第二个新变量描述其余变化的最大量及其他内容，从这个意义上讲，新的变量是最理想的。这些新变量被称为数据集的主分量。

在启动变量互相依存或相关的数据集中，更高的主分量接近于零 (通常仅为噪声)，可以忽略不计。潜在的正交 (不相关的) 变量被称为潜在变量，需要对数据进行描述的数字是数据的秩。

NIPALS 与 SVD

对于许多数据集， svd 函数可用于计算其分数和输入，但结果通常不令人满意：

• 若利用奇异值分解 (SVD)，则必须计算所有分数，即使不需要较高的分数。这样，对于大型及超冗余数据集，SVD 的计算效率将非常低下，而且有可能会失败。

• svd 函数要求数据矩阵中的列数大于行数。如果测量多于变量，会出现问题。

NIPALS (非线性迭代偏最小二乘) 算法可逐阶计算分数和输入，并可避免上述问题。这种算法在数字上非常稳定，并可用于任何大小的数据集。它仅计算所需数量的主分量。