Funktionen > Statistische Versuchsplanung > Regressionsanalyse > Beispiel: Ermitteln einflussreicher Beobachtungen
Beispiel: Ermitteln einflussreicher Beobachtungen
Verwenden Sie die Funktion polyfitstat, um die Beobachtungen zu testen, die zum Erzeugen einer multivariaten Polynomregression verwendet wurden.
1. Definieren Sie eine Matrix, die Probenwerte enthält, die bei 20 gesunden Personen zwischen 25 und 34 Jahren gemessen wurden.
Zum Kopieren dieses Ausdrucks klicken
Die Spalten der Matrix stellen die Dicke der Haut am Trizeps, Oberschenkelumfang beziehungsweise Körperfett der 20 Personen dar.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
2. Verwenden Sie die Funktionen rows und cols, um die Anzahl der Zeilen und Spalten zu berechnen.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
3. Verwenden Sie die Funktion augment, um die Matrix BM als die ersten beiden Spalten der Matrix festzulegen. Verwenden Sie diese Messungen, um den Körperfettanteil der einzelnen Personen vorherzusagen.
Zum Kopieren dieses Ausdrucks klicken
4. Rufen Sie polyfitstat auf, um das Experiment mit einer Regression erster Ordnung zu modellieren und die Regressionsstatistik zu berechnen.
Zum Kopieren dieses Ausdrucks klicken
5. Zeigen Sie die Regressionskoeffizientenmatrix an, die Zeile 7 der Ausgabe von P entnommen werden kann.
Zum Kopieren dieses Ausdrucks klicken
6. Berechnen Sie die Regressionskoeffizienten mit der Matrixberechnung.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Die Regressionskoeffizienten entsprechen der folgenden Gleichung:
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
7. Verwenden Sie die Regressionsgleichung, um die vorhergesagte Menge an Körperfett zu berechnen. Vergleichen Sie diese Werte mit dem gemessenen Körperfett.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
8. Verwenden Sie die Funktion submatrix, um die Modellstatistiken darzustellen, die in den ersten Zeilen der Ausgabematrix P enthalten ist.
Zum Kopieren dieses Ausdrucks klicken
Bei der ersten Statistik handelt es sich um die Standardabweichung der Regression.
Zum Kopieren dieses Ausdrucks klicken
9. Zeigen Sie die Modelldiagnose an, die der letzten verschachtelten Matrix der Ausgabematrix P entnommen werden kann.
Zum Kopieren dieses Ausdrucks klicken
Der beobachtete und der vorhergesagte Wert entsprechen den im 7. Schritt angezeigten Werten. Die Restgrößen sind die Differenz zwischen den beobachteten und den vorhergesagten Werten:
10. Berechnen Sie die Restgrößen bzw. die Differenz zwischen den beobachteten und den vorhergesagten Werten.
Zum Kopieren dieses Ausdrucks klicken
11. Verwenden Sie die Funktion diag, um die Einflusswerte oder die diagonalen Werte der Matrix H zu berechnen.
Zum Kopieren dieses Ausdrucks klicken
12. Berechnen Sie die Student-verteilten Restgrößen.
Zum Kopieren dieses Ausdrucks klicken
Die externen Student-verteilten Reste (R-Student) werden unten berechnet. Die Konstante p entspricht der Anzahl an Koeffizienten, die für die Regression berechnet wurde, und S2 ist ein Schätzwert für s2, der auf dem Datensatz basiert, aus dem die i-te Beobachtung entfernt wurde.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
13. Verwenden Sie den Cook-Abstand, um den gesamten Einfluss eines gelöschten Punkts auf eine lineare Regression zu messen.
Zum Kopieren dieses Ausdrucks klicken
14. Berechnen Sie die Differenz zwischen den vorausgesagten Werten, wenn alle Beobachtungen in die Passform eingeschlossen werden, und den vorausgesagten Werten, wenn die i-te Beobachtung weggelassen wird.
Zum Kopieren dieses Ausdrucks klicken
15. Verwenden Sie die Funktionen augment und stack, um die oben genannten Statistiken anzuzeigen.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
16. Verwenden Sie die Funktionen max und qt, um den größten R-Student-Wert im Datensatz zu ermitteln. Entscheiden Sie mithilfe des Bonferroni-Tests, ob es sich bei der entsprechenden Beobachtung um einen Ausreißer handelt.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Der größte R-Student-Wert ist kleiner als der Bonferroni-Test, was darauf hinweist, dass es sich bei der entsprechenden Beobachtung um keinen Ausreißer handelt.
17. Ermitteln Sie den maximalen DFFITS-Wert.
Zum Kopieren dieses Ausdrucks klicken
Der Wert ist größer als 1, aber er liegt nah genug an 1, sodass die entsprechende Beobachtung nicht unbedingt einflussreich ist.
18. Erzeugen Sie einen Index Influence-Plot, um die Cook-Abstände für die Durchläufe grafisch darzustellen.
Zum Kopieren dieses Ausdrucks klicken
Beobachtung run2 ist die einflussreichste Beobachtung des Datensatzes. Die in Schritt 10 identifizierte Beobachtung für run12 ist auch einflussreich, aber viel weniger als die für run2.
Verweis
Referenz: Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W., Applied Linear Statistical Models, 4. Ausgabe, McGraw-Hill/Irwin, Boston, 1996, Seite 375
War dies hilfreich?