關於主元件分析函數
PTC Mathcad 中提供數個可執行主成份分析 (PCA) 的函數:
關於主元件分析
通常會找到具有大量相關變數或多餘變數的數據集。如此不僅會導致數據分析中的運算沒有效率,還可能會導致數值發生問題 (例如矩陣逆轉步距發生問題)。這類情況需要使用您可將資料壓縮為較少量之正交變數的方法。有一組方法可執行此項操作,合稱為因素分析法。這些方法的最基本是 PCA,該分析會將收據壓縮到其最主要的因素。
PCA 採用 n 維數據空間,並定義一組新的正交軸 (亦即新變數),以最佳方式描述數據中的變數。這些新變數之所以理想,是因為第一個變數描述可能的最大變異量 (亦即最大變異數),第二個變數描述剩餘的最大變異量,依此類推。這些稱為數據集的主元件。
在起始變數互相依存或相關的數據集中,愈高的主元件會愈接近零 (通常只是雜訊),因此可予以捨棄。基礎正交 (不相關) 變數稱為潛在變數,而用於描述數據所需的數目會是數據的順位。
NIPALS 與 SVD
在許多數據集中,可使用
svd 函數計算分數與影響力,但一般不建議此方式:
• 若是使用奇異值分解 (SVD),則必須計算所有分數,即使不需要較高的分數亦然。由於 SVD 是大型且非常冗長的數據集,因此運算會沒有效率且可能失敗。
•
svd 函數要求數據矩陣的欄數要大於列數。若是量測多於變數,則會產生問題。
NIPALS (非線性疊代偏最小平方法,Nonlinear Iterative Partial Least Squares) 演算法會反覆計算分數與影響力,因此避免這些問題。它不僅在數值上很穩定,且可用於任何大小的數據集。其僅會計算所需數目的主元件。