Utilizzare le funzioni
polyfitc,
line, slope e
intercept per trovare la linea dei minimi quadrati di best fit tramite un insieme di dati x-y. Utilizzare la funzione
stderr per calcolare l'errore nei parametri adattati. Calcolare i limiti di confidenza intorno alla linea di best fit e formare gli intervalli di confidenza.
Linea di best fit
Creare una funzione lineare per stimare il tempo necessario per percorrere diverse distanze.
1. Definire un insieme di distanze in miglia e il tempo in minuti necessario per percorrerle.
2. Definire un'equazione della regressione lineare monovariabile.
3. Chiamare polyfitc per calcolare i coefficienti di regressione a e b.
I coefficienti fanno sì che la differenza tra i valori in T e i valori calcolati dall'equazione di regressione f sia un valore minimo per ogni valore x. È possibile verificare questo comportamento utilizzando un blocco di soluzione e la funzione
minimize per minimizzare la somma dei quadrati:
4. Definire la linea di best fit che minimizza la somma dei quadrati delle distanze da ogni punto alla linea.
È consigliabile utilizzare un'equazione parametrizzata da una regressione lineare o di qualsiasi altro tipo solo per valori prossimi ai dati osservati originali. La linea di best fit per i dati precedenti prevede che per percorrere una distanza di 0 miglia sarà necessario il tempo indicato di seguito.
Questa indicazione non ha senso se il tempo misurato è esclusivamente il tempo di percorrenza a una velocità costante. Questo tipo di risultato può talvolta rappresentare un particolare fenomeno fisico. In questo caso, il tempo necessario per percorrere zero miglia può essere interpretato come tempo medio di attesa ai semafori.
5. Tracciare il grafico dei punti dati e della linea di best fit.
Metodi alternativi per calcolare il coefficiente angolare e l'intercetta
Esistono diversi metodi per calcolare il coefficiente angolare e l'intercetta per la linea di best fit. La funzione line, ad esempio, combina le funzioni slope e intercept. Tra gli altri metodi vi sono i calcoli di matrici o le relazioni statistiche.
1. Chiamare le funzioni intercept e slope.
2. Chiamare la funzione line.
3. Utilizzare il calcolo di una matrice tramite la funzione
augment.
4. Utilizzare relazioni statistiche tramite le funzioni
stdev,
corr,
mean e slope.
5. Utilizzare un grafico per mostrare che la linea dei minimi quadrati passa sempre attraverso il punto (mean(X), mean(T)):
Errori standard
Calcolare l'errore standard nella stima, denominato anche solo errore standard, per verificare la bontà dell'adattamento lineare precedente. Calcolare inoltre l'errore nel coefficiente angolare e nell'intercetta.
1. Definire i gradi di libertà (numero di punti dati meno il numero di parametri adattati).
2. Chiamare la funzione stderr per calcolare l'errore standard nella stima per la linea di best fit definita in precedenza.
Di seguito viene illustrata la radice quadrata dell'errore quadratico medio oppure σ2.
3. Confrontare l'errore standard calcolato con l'errore standard restituito dalla funzione
polyfitstat.
4. Calcolare gli errori standard nel coefficiente angolare e nell'intercetta.
5. Ripetere il calcolo precedente utilizzando il calcolo di una matrice.
6. Utilizzare la funzione augment per mostrare che gli errori standard per ogni coefficiente di regressione vengono registrati nella matrice restituita dalla funzione polyfitc.
Intervalli di confidenza per ogni coefficiente
Utilizzare le stime indicate in precedenza, insieme ai punti percentile dalla distribuzione t di Student, per formare un intervallo di confidenza per le stime del coefficiente angolare e dell'intercetta.
1. Definire il livello di significatività per un intervallo di confidenza del 98% e utilizzare la funzione
qt per calcolare il fattore t.
2. Calcolare i limiti di confidenza per il coefficiente angolare.
Esiste una probabilità del 98% che il valore del coefficiente angolare effettivo sia compreso tra SL e SU.
3. Calcolare i limiti di confidenza per l'intercetta.
L'ampio intervallo in questo valore riflette il livello elevato di dispersione nei dati.
4. Chiamare la funzione
confidence per ripetere i passaggi da 1 a 3.
La funzione confidence restituisce l'ampiezza dell'intervallo di confidenza nella relativa prima colonna e il fattore t nella seconda colonna. Quando si dividono le ampiezze per il fattore t, si ottengono di nuovo gli errori standard in entrambi i parametri.
5. Per individuare i limiti di confidenza, aggiungere l'ampiezza al parametro pertinente oppure sottrarla da tale parametro:
6. Utilizzare la funzione augment per mostrare che gli errori standard per ogni coefficiente di regressione vengono registrati nella matrice restituita dalla funzione polyfitc.
Intervalli di confidenza per la regressione
1. Utilizzare le funzioni
length e mean per calcolare un intervallo di confidenza per la regressione stessa.
2. Utilizzare la funzione precedente per calcolare l'intervallo di confidenza per qualsiasi valore x previsto:
3. Utilizzare il calcolo della matrice indicato di seguito.
4. Tracciare il grafico dei dati, della linea di best fit e dell'intervallo di confidenza per l'intera regione di regressione.
La regione di confidenza per i valori previsti ha una strozzatura in prossimità del centro dei valori misurati. Poiché, infatti, le formule utilizzate per calcolare la regressione lineare sono basate sulla media, i valori previsti più vicini alla media dei dati sono più accurati.
5. Calcolare i limiti di confidenza sui valori misurati. Tali limiti sono leggermente diversi dai limiti per i valori previsti.
6. Utilizzare il calcolo della matrice indicato di seguito.
7. Tracciare il grafico dei limiti di confidenza come traccia di tipo errore.
È possibile utilizzare i grafici come forma di rilevamento degli outlier, in cui i valori misurati non compresi negli intervalli di confidenza indicano un outlier.