關於主元件分析函數

函數 > 數據分析 > 主元件分析 > 關於主元件分析函數

關於主元件分析函數

PTC Mathcad 中提供數個可執行主成份分析 (PCA) 的函數：

• Nipals、Nipals2 - 執行 PCA。

• scores、loadings、PCAeigenvals、PCAvariance - 從 Nipals 與 Nipals2 的輸出萃取資料。

關於主元件分析

通常會找到具有大量相關變數或多餘變數的數據集。如此不僅會導致數據分析中的運算沒有效率，還可能會導致數值發生問題 (例如矩陣逆轉步距發生問題)。這類情況需要使用您可將資料壓縮為較少量之正交變數的方法。有一組方法可執行此項操作，合稱為因素分析法。這些方法的最基本是 PCA，該分析會將收據壓縮到其最主要的因素。

PCA 採用 n 維數據空間，並定義一組新的正交軸 (亦即新變數)，以最佳方式描述數據中的變數。這些新變數之所以理想，是因為第一個變數描述可能的最大變異量 (亦即最大變異數)，第二個變數描述剩餘的最大變異量，依此類推。這些稱為數據集的主元件。

在起始變數互相依存或相關的數據集中，愈高的主元件會愈接近零 (通常只是雜訊)，因此可予以捨棄。基礎正交 (不相關) 變數稱為潛在變數，而用於描述數據所需的數目會是數據的順位。

NIPALS 與 SVD

在許多數據集中，可使用 svd 函數計算分數與影響力，但一般不建議此方式：

• 若是使用奇異值分解 (SVD)，則必須計算所有分數，即使不需要較高的分數亦然。由於 SVD 是大型且非常冗長的數據集，因此運算會沒有效率且可能失敗。

• svd 函數要求數據矩陣的欄數要大於列數。若是量測多於變數，則會產生問題。

NIPALS (非線性疊代偏最小平方法，Nonlinear Iterative Partial Least Squares) 演算法會反覆計算分數與影響力，因此避免這些問題。它不僅在數值上很穩定，且可用於任何大小的數據集。其僅會計算所需數目的主元件。