Funktionen für die Hauptkomponentenanalyse

Es ist nicht unüblich, dass Datensätze zahlreiche korrelierte oder redundante Variablen aufweisen. Dies führt nicht nur zu mangelnder Recheneffizienz in Datenanalysen, sondern kann auch numerische Probleme hervorrufen (z.B. bei den Invertierungsschritten einer Matrix). In diesen Fällen ist eine Methode erforderlich, mit der Sie die Daten in eine geringere Anzahl von orthogonalen Variablen komprimieren können. Hierfür steht eine Reihe von Methoden zur Verfügung, die unter dem Oberbegriff Faktorenanalyse zusammengefasst werden. Die Hauptkomponentenanalyse stellt die grundlegendste dieser Methoden dar und komprimiert die Daten zu ihren dominantesten Faktoren.

Bei der Hauptkomponentenanalyse wird ein n-dimensionaler Datenraum vorgegeben und dann ein neuer Satz orthogonaler Achsen (d.h. neue Variablen) definiert, die die Abweichung der Daten optimal beschreiben. Die neuen Variablen sind in dem Sinne optimal, dass die erste die größtmögliche Variation (d.h. die maximale Varianz) beschreibt, die zweite die größtmögliche verbleibende Variation beschreibt usw. Die Variablen werden als Hauptkomponenten des Datensatzes bezeichnet.

In Datensätzen mit unabhängigen oder korrelierten Anfangsvariablen liegen die höheren Hauptkomponenten nahe null (meist nur Rauschen) und können übergangen werden. Die zugrunde liegenden, orthogonalen (nicht korrelierten) Variablen werden als latente Variablen, und die zum Beschreiben der Daten erforderlich Zahl wird als Rang der Daten bezeichnet.

Bei vielen Datensätzen kann die Funktion svd eingesetzt werden, um Punktwerte und Gewichtungen zu berechnen, aber in der Regel ist dies unerwünscht:

• Bei der Singulärwertzerlegung müssen alle Punktwerte berechnet werden, obwohl die höheren nicht erforderlich sind. Bei großen Datensätzen mit hoher Redundanz ist die Singulärwertzerlegung daher aus Sicht der Berechnung ineffizient und kann fehlschlagen.

• Die Funktion svd erfordert, dass die Anzahl der Spalten in der Datenmatrix höher ist als die Anzahl der Zeilen. Dies kann zu Problemen führen, wenn mehr Messwerte als Variablen vorliegen.

Der NIPALS (Nonlinear Iterative Partial Least Squares)-Algorithmus berechnet die Punktwerte und Gewichtungen iterativ und vermeidet so diese Probleme. Der Algorithmus ist numerisch sehr stabil und funktioniert mit Datensätzen beliebiger Größe. Er berechnet lediglich die gewünschte Anzahl von Hauptkomponenten.