Funzioni per l'analisi dei componenti principali

Non è raro trovare insiemi di dati con un numero elevato di variabili correlate o ridondanti. Questo non solo causa inefficienza di calcolo nell'analisi dei dati, ma può anche provocare problemi numerici, ad esempio nelle procedure di inversione di una matrice. In questi casi è necessario un metodo per la compressione dei dati in un numero minore di variabili ortogonali. A tale scopo è disponibile un gruppo di metodi denominati collettivamente metodi di analisi dei fattori. Il più importante di questi metodi è l'analisi dei componenti principali, che consente di comprimere i dati nei principali fattori dominanti.

L'analisi dei componenti principali prende uno spazio dati a n dimensioni e definisce un nuovo insieme di assi ortogonali, ovvero nuove variabili, che descrivano la varianza dei dati nel modo ottimale. Le nuove variabili sono ottimali nel senso che la prima descrive il numero massimo di variazioni possibili, ovvero la varianza massima, la seconda descrive il numero massimo di variazioni rimanenti, e così via. Questi sono detti componenti principali dell'insieme di dati.

Negli insiemi di dati in cui le variabili iniziali sono interdipendenti o correlate, i componenti principali più alti sono vicini allo zero (di solito semplice rumore) e possono essere eliminati. Le variabili ortogonali, non correlate, sottostanti sono dette variabili latenti e il numero necessario per descrivere i dati rappresenta il rango dei dati.

Per molti insiemi di dati è possibile utilizzare la funzione svd per calcolare punteggi e carichi. In generale, tuttavia, questa operazione è da evitare.

• Con la scomposizione nei singoli valori si devono calcolare tutti i punteggi, anche se i più alti non sono necessari. Per gli insiemi di dati di grandi dimensioni e ad elevata ridondanza, la SVD è quindi inefficiente dal punto di vista del calcolo e può fallire.

• La funzione svd richiede che il numero di colonne nella matrice di dati sia maggiore del numero di righe. Se sono presenti più misure che variabili, ciò costituisce un problema.

L'algoritmo NIPALS (Nonlinear Iterative Partial Least Squares) calcola i punteggi e i carichi in modo iterativo evitando che si verifichino questi problemi. Numericamente è molto stabile e funziona con insiemi di dati di qualsiasi dimensione. Calcola solo il numero desiderato di componenti principali.