Acerca de las funciones de análisis de componentes principales

No es extraño encontrar conjuntos de datos con gran cantidad de variables correlacionadas o redundantes. No solo provoca ineficacia computacional en el análisis de datos, sino también problemas numéricos (p. ej. en los pasos de inversión de matrices). Lo que se necesita en estos casos es un método para comprimir los datos en un menor número de variables ortogonales. Hay un grupo de métodos para ello, conocidos en su conjunto como métodos de análisis de factores. De entre ellos, el fundamental es el método PCA, que comprime los datos a sus factores dominantes.

El PCA toma un espacio de datos de dimensión n y define un conjunto de ejes ortogonales (p. ej. variables nuevas) para describir la varianza en los datos. Las nuevas variables son óptimas porque la primera describe la cantidad máxima de variación posible (es decir, la varianza máxima), la segunda describe la cantidad máxima de variación restante, etc. Son los principales componentes del conjunto de datos.

En los conjuntos de datos con variables iniciales interdependientes o correlacionadas, los componentes principales superiores están cerca de cero (normalmente solo ruido) y se pueden descartar. Las variables subyacentes ortogonales (no correlacionadas) se conocen como variables latentes, y el número necesario para describir los datos es el rango de los datos.

En el caso de muchos conjuntos de datos, la función svd se puede utilizar para calcular puntuaciones y cargas, pero en general no es deseable:

• Con la descomposición en valores singulares (SVD), se deben calcular todas las puntuaciones, aunque no se necesiten las más altas. En el caso de los conjuntos de datos grandes o muy redundantes, la SVD es por lo tanto ineficaz computacionalmente y podría fallar.

• La función svd requiere que el número de columnas en la matriz de datos sea mayor que el número de filas. Esto es un problema si hay más medidas que variables.

El algoritmo NIPALS (mínimos cuadrados parciales iterativos no lineales) calcula las puntuaciones y las cargas iterativamente y evita estos problemas. Es muy estable numéricamente y funciona con conjuntos de datos de cualquier tamaño. Solo calcula el número deseado de componentes principales.