Ermitteln Sie mithilfe der Funktionen polyfitc, line, slope und intercept die Kleinste-Quadrate-Mittelwertgerade durch einen Satz von x-y-Daten. Berechnen Sie mithilfe der Funktion stderr den Fehler in angepassten Parametern. Berechnen Sie die Vertrauensgrenzen um die Mittelwertgerade und bilden Sie Konfidenzintervalle.
Mittelwertgerade
Erzeugen Sie eine lineare Funktion, um zu schätzen, wie lange es dauert, verschiedene Entfernungen zurückzulegen.
1. Definieren Sie einen Satz von Entfernungen in Kilometern und die Zeitdauer in Minuten, die es dauert, diese Entfernungen mit dem Auto zurückzulegen.
2. Definieren Sie eine eindimensionale lineare Regressionsgleichung.
3. Rufen Sie polyfitc auf, um die Koeffizienten von Regression a und b zu berechnen.
Die Koeffizienten sind derart, dass die Differenz zwischen den Werten in T und den durch die Regressionsgleichung f berechneten Werten für jeden x-Wert minimal ist. Sie können dies überprüfen, indem Sie die Summe der Quadrate mithilfe eines Lösungsblocks und der Funktion minimize minimieren:
4. Definieren Sie die Mittelwertgerade, die die Summe der Quadrate der Entfernungen zwischen den einzelnen Punkten und der Geraden minimiert.
Sie sollten nur für Werte, die den ursprünglich gemessenen Daten nahe kommen, eine parametrisierte Gleichung für eine lineare Regression oder einen anderen Typ von Regression verwenden. Anhand der Mittelwertgeraden für die obigen Daten lässt sich vorhersagen, dass eine Entfernung von 0 Meilen innerhalb der folgenden Zeitspanne zurückgelegt werden kann:
Dies ist unsinnig, wenn die gemessene Zeitspanne nur die Fahrzeit bei einer konstanten Geschwindigkeit darstellt. Diese Art von Ergebnis kann manchmal ein bestimmtes physisches Phänomen darstellen. In diesem Fall kann die Zeitdauer, die zum Fahren von null Meilen erforderlich ist, als durchschnittliche Wartezeit an Ampeln interpretiert werden.
5. Stellen Sie die Datenpunkte und die Mittelwertgerade grafisch dar.
Alternative Methoden zur Berechnung von Steigung und Achsenabschnitt
Steigung und Achsenabschnitt der Mittelwertgeraden lassen sich auf verschiedene Arten berechnen. Die Funktion line kombiniert beispielsweise die Funktionen slope und intercept. Weitere Methoden beinhalten Matrizenberechnungen oder statistische Beziehungen.
1. Rufen Sie die Funktionen intercept und slope auf.
2. Rufen Sie die Funktion line auf.
3. Verwenden Sie die Matrix-Berechnung, indem Sie die Funktion augment verwenden.
4. Nutzen Sie statistische Beziehungen, indem Sie die Funktionen stdev, corr, mean und slope verwenden.
5. Zeigen Sie mithilfe eines Diagramms an, dass die Kleinste-Quadrate-Linie stets durch den Punkt (mean(X), mean(T)) verläuft:
Standardfehler
Berechnen Sie den Standardfehler der Schätzung (auch Standardfehler genannt), um zu messen, wie gut die obige lineare Anpassung ist. Berechnen Sie auch den Standardfehler der Steigung und des Achsenabschnitts.
1. Definieren Sie die Freiheitsgrade (die Anzahl von Datenpunkten minus die Anzahl von angepassten Parametern).
2. Rufen Sie die Funktion stderr auf, um den Standardfehler der Schätzung für die oben definierte Mittelwertgerade zu berechnen.
Dies ist die Quadratwurzel des mittleren quadratischen Fehlers bzw. σ2.
3. Vergleichen Sie den berechneten Standardfehler mit dem von der Funktion polyfitstat zurückgegebenen Standardfehler.
4. Berechnen Sie die Standardfehler für Steigung und Achsenabschnitt.
5. Wiederholen Sie die obige Berechnung mit der Matrix-Berechnung.
6. Verwenden Sie die Funktion augment, um zu zeigen, dass die Standardfehler für jeden Regressionskoeffizienten in der von der Funktion polyfitc zurückgegebenen Matrix aufgezeichnet werden.
Konfidenzintervalle für die einzelnen Koeffizienten
Bilden Sie unter Verwendung der obigen Schätzungen sowie der Perzentilpunkte der studentschen t-Verteilung ein Konfidenzintervall für die Schätzungen von Steigung und Achsenabschnitt.
1. Definieren Sie das Signifikanzniveau für ein Konfidenzintervall von 98%, und berechnen Sie den t-Faktor mit der Funktion qt.
2. Berechnen Sie die Vertrauensgrenzen für die Steigung.
Es besteht eine Wahrscheinlichkeit von 98%, dass der Wert für die Steigung zwischen SL und SU liegt.
3. Berechnen Sie die Vertrauensgrenzen für den Achsenabschnitt.
Der breite Bereich dieses Werts spiegelt die breite Streuung der Daten wider.
4. Rufen Sie die Funktion confidence auf, um die Schritte 1 bis 3 zu wiederholen.
Die Funktion confidence gibt in der ersten Spalte die Breiten des Konfidenzintervalls und in der zweiten Spalte den t-Faktor aus. Wenn Sie die Breiten durch den t-Faktor dividieren, erhalten Sie die Standardfehler beider Parameter.
5. Zur Ermittlung der Vertrauensgrenzen können Sie die Breite dem betreffenden Parameter hinzufügen bzw. davon abziehen:
6. Verwenden Sie die Funktion augment, um zu zeigen, dass die Standardfehler für jeden Regressionskoeffizienten in der von der Funktion polyfitc zurückgegebenen Matrix aufgezeichnet werden.
Konfidenzintervalle für die Regression
1. Verwenden Sie die Funktionen length und mean, um ein Konfidenzintervall für die Regression selbst zu berechnen.
2. Verwenden Sie die obige Funktion, um das Konfidenzintervall für einen vorausgesagten x-Wert zu berechnen:
3. Verwenden Sie die Matrizenberechnung:
4. Plotten Sie die Daten, die Linie der Bestapproximation und das Konfidenzintervall für den gesamten Regressionsbereich.
Der Vertrauensbereich für vorhergesagte Werte weist nahe der Mitte der gemessenen Werte einen Bauch auf. Dies ist so, weil die zur Berechnung der Regression verwendeten Formeln auf dem Mittelwert basieren und daher die Werte, die näher am Mittelwert der Daten vorhergesagt wurden, genauer sind.
5. Berechnen Sie die Vertrauensgrenzen für die gemessenen Werte. Diese Grenzen unterscheiden sich leicht von den Grenzen für vorhergesagte Werte.
6. Verwenden Sie die Matrizenberechnung:
7. Plotten Sie die Vertrauensgrenzwerte als Fehlerspurkurve.
Sie können diese Graphen als eine Form der Ausreißererkennung nutzen, wobei gemessene Werte, die nicht innerhalb dieser Konfidenzintervalle liegen, auf einen Ausreißer hinweisen.