Funktionen > Datenanalyse > Kurvenanpassung > Beispiel: Lineare Regression
Beispiel: Lineare Regression
Ermitteln Sie mithilfe der Funktionen polyfitc, line, slope und intercept die Kleinste-Quadrate-Mittelwertgerade durch einen Satz von x-y-Daten. Berechnen Sie mithilfe der Funktion stderr den Fehler in angepassten Parametern. Berechnen Sie die Vertrauensgrenzen um die Mittelwertgerade und bilden Sie Konfidenzintervalle.
Mittelwertgerade
Erzeugen Sie eine lineare Funktion, um zu schätzen, wie lange es dauert, verschiedene Entfernungen zurückzulegen.
1. Definieren Sie einen Satz von Entfernungen in Kilometern und die Zeitdauer in Minuten, die es dauert, diese Entfernungen mit dem Auto zurückzulegen.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
2. Definieren Sie eine eindimensionale lineare Regressionsgleichung.
Zum Kopieren dieses Ausdrucks klicken
3. Rufen Sie polyfitc auf, um die Koeffizienten von Regression a und b zu berechnen.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Die Koeffizienten sind derart, dass die Differenz zwischen den Werten in T und den durch die Regressionsgleichung f berechneten Werten für jeden x-Wert minimal ist. Sie können dies überprüfen, indem Sie die Summe der Quadrate mithilfe eines Lösungsblocks und der Funktion minimize minimieren:
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
4. Definieren Sie die Mittelwertgerade, die die Summe der Quadrate der Entfernungen zwischen den einzelnen Punkten und der Geraden minimiert.
Zum Kopieren dieses Ausdrucks klicken
Sie sollten nur für Werte, die den ursprünglich gemessenen Daten nahe kommen, eine parametrisierte Gleichung für eine lineare Regression oder einen anderen Typ von Regression verwenden. Anhand der Mittelwertgeraden für die obigen Daten lässt sich vorhersagen, dass eine Entfernung von 0 Meilen innerhalb der folgenden Zeitspanne zurückgelegt werden kann:
Zum Kopieren dieses Ausdrucks klicken
Dies ist unsinnig, wenn die gemessene Zeitspanne nur die Fahrzeit bei einer konstanten Geschwindigkeit darstellt. Diese Art von Ergebnis kann manchmal ein bestimmtes physisches Phänomen darstellen. In diesem Fall kann die Zeitdauer, die zum Fahren von null Meilen erforderlich ist, als durchschnittliche Wartezeit an Ampeln interpretiert werden.
5. Stellen Sie die Datenpunkte und die Mittelwertgerade grafisch dar.
Zum Kopieren dieses Ausdrucks klicken
Alternative Methoden zur Berechnung von Steigung und Achsenabschnitt
Steigung und Achsenabschnitt der Mittelwertgeraden lassen sich auf verschiedene Arten berechnen. Die Funktion line kombiniert beispielsweise die Funktionen slope und intercept. Weitere Methoden beinhalten Matrizenberechnungen oder statistische Beziehungen.
1. Rufen Sie die Funktionen intercept und slope auf.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
2. Rufen Sie die Funktion line auf.
Zum Kopieren dieses Ausdrucks klicken
3. Verwenden Sie die Matrix-Berechnung, indem Sie die Funktion augment verwenden.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
4. Nutzen Sie statistische Beziehungen, indem Sie die Funktionen stdev, corr, mean und slope verwenden.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
5. Zeigen Sie mithilfe eines Diagramms an, dass die Kleinste-Quadrate-Linie stets durch den Punkt (mean(X), mean(T)) verläuft:
Zum Kopieren dieses Ausdrucks klicken
Standardfehler
Berechnen Sie den Standardfehler der Schätzung (auch Standardfehler genannt), um zu messen, wie gut die obige lineare Anpassung ist. Berechnen Sie auch den Standardfehler der Steigung und des Achsenabschnitts.
1. Definieren Sie die Freiheitsgrade (die Anzahl von Datenpunkten minus die Anzahl von angepassten Parametern).
Zum Kopieren dieses Ausdrucks klicken
2. Rufen Sie die Funktion stderr auf, um den Standardfehler der Schätzung für die oben definierte Mittelwertgerade zu berechnen.
Zum Kopieren dieses Ausdrucks klicken
Dies ist die Quadratwurzel des mittleren quadratischen Fehlers bzw. σ2.
Zum Kopieren dieses Ausdrucks klicken
3. Vergleichen Sie den berechneten Standardfehler mit dem von der Funktion polyfitstat zurückgegebenen Standardfehler.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
4. Berechnen Sie die Standardfehler für Steigung und Achsenabschnitt.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
5. Wiederholen Sie die obige Berechnung mit der Matrix-Berechnung.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
6. Verwenden Sie die Funktion augment, um zu zeigen, dass die Standardfehler für jeden Regressionskoeffizienten in der von der Funktion polyfitc zurückgegebenen Matrix aufgezeichnet werden.
Zum Kopieren dieses Ausdrucks klicken
Konfidenzintervalle für die einzelnen Koeffizienten
Bilden Sie unter Verwendung der obigen Schätzungen sowie der Perzentilpunkte der studentschen t-Verteilung ein Konfidenzintervall für die Schätzungen von Steigung und Achsenabschnitt.
1. Definieren Sie das Signifikanzniveau für ein Konfidenzintervall von 98%, und berechnen Sie den t-Faktor mit der Funktion qt.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
2. Berechnen Sie die Vertrauensgrenzen für die Steigung.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Es besteht eine Wahrscheinlichkeit von 98%, dass der Wert für die Steigung zwischen SL und SU liegt.
3. Berechnen Sie die Vertrauensgrenzen für den Achsenabschnitt.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Der breite Bereich dieses Werts spiegelt die breite Streuung der Daten wider.
4. Rufen Sie die Funktion confidence auf, um die Schritte 1 bis 3 zu wiederholen.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Die Funktion confidence gibt in der ersten Spalte die Breiten des Konfidenzintervalls und in der zweiten Spalte den t-Faktor aus. Wenn Sie die Breiten durch den t-Faktor dividieren, erhalten Sie die Standardfehler beider Parameter.
Zum Kopieren dieses Ausdrucks klicken
5. Zur Ermittlung der Vertrauensgrenzen können Sie die Breite dem betreffenden Parameter hinzufügen bzw. davon abziehen:
Zum Kopieren dieses Ausdrucks klicken
6. Verwenden Sie die Funktion augment, um zu zeigen, dass die Standardfehler für jeden Regressionskoeffizienten in der von der Funktion polyfitc zurückgegebenen Matrix aufgezeichnet werden.
Zum Kopieren dieses Ausdrucks klicken
Konfidenzintervalle für die Regression
1. Verwenden Sie die Funktionen length und mean, um ein Konfidenzintervall für die Regression selbst zu berechnen.
Zum Kopieren dieses Ausdrucks klicken
2. Verwenden Sie die obige Funktion, um das Konfidenzintervall für einen vorausgesagten x-Wert zu berechnen:
Zum Kopieren dieses Ausdrucks klicken
3. Verwenden Sie die Matrizenberechnung:
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
4. Plotten Sie die Daten, die Linie der Bestapproximation und das Konfidenzintervall für den gesamten Regressionsbereich.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Der Vertrauensbereich für vorhergesagte Werte weist nahe der Mitte der gemessenen Werte einen Bauch auf. Dies ist so, weil die zur Berechnung der Regression verwendeten Formeln auf dem Mittelwert basieren und daher die Werte, die näher am Mittelwert der Daten vorhergesagt wurden, genauer sind.
5. Berechnen Sie die Vertrauensgrenzen für die gemessenen Werte. Diese Grenzen unterscheiden sich leicht von den Grenzen für vorhergesagte Werte.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
6. Verwenden Sie die Matrizenberechnung:
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
7. Plotten Sie die Vertrauensgrenzwerte als Fehlerspurkurve.
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
Zum Kopieren dieses Ausdrucks klicken
* 
Sie können diese Graphen als eine Form der Ausreißererkennung nutzen, wobei gemessene Werte, die nicht innerhalb dieser Konfidenzintervalle liegen, auf einen Ausreißer hinweisen.
War dies hilfreich?