Funzioni > Analisi dati > Curve fitting > Esempio: regressione lineare
  
Esempio: regressione lineare
Utilizzare le funzioni polyfitc, line, slope e intercept per trovare la linea dei minimi quadrati di best fit tramite un insieme di dati x-y. Utilizzare la funzione stderr per calcolare l'errore nei parametri adattati. Calcolare i limiti di confidenza intorno alla linea di best fit e formare gli intervalli di confidenza.
Linea di best fit
Creare una funzione lineare per stimare il tempo necessario per percorrere diverse distanze.
1. Definire un insieme di distanze in miglia e il tempo in minuti necessario per percorrerle.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
2. Definire un'equazione della regressione lineare monovariabile.
Fare clic per copiare questa espressione
3. Chiamare polyfitc per calcolare i coefficienti di regressione a e b.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
I coefficienti fanno sì che la differenza tra i valori in T e i valori calcolati dall'equazione di regressione f sia un valore minimo per ogni valore x. È possibile verificare questo comportamento utilizzando un blocco di soluzione e la funzione minimize per minimizzare la somma dei quadrati:
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
4. Definire la linea di best fit che minimizza la somma dei quadrati delle distanze da ogni punto alla linea.
Fare clic per copiare questa espressione
È consigliabile utilizzare un'equazione parametrizzata da una regressione lineare o di qualsiasi altro tipo solo per valori prossimi ai dati osservati originali. La linea di best fit per i dati precedenti prevede che per percorrere una distanza di 0 miglia sarà necessario il tempo indicato di seguito.
Fare clic per copiare questa espressione
Questa indicazione non ha senso se il tempo misurato è esclusivamente il tempo di percorrenza a una velocità costante. Questo tipo di risultato può talvolta rappresentare un particolare fenomeno fisico. In questo caso, il tempo necessario per percorrere zero miglia può essere interpretato come tempo medio di attesa ai semafori.
5. Tracciare il grafico dei punti dati e della linea di best fit.
Fare clic per copiare questa espressione
Metodi alternativi per calcolare il coefficiente angolare e l'intercetta
Esistono diversi metodi per calcolare il coefficiente angolare e l'intercetta per la linea di best fit. La funzione line, ad esempio, combina le funzioni slope e intercept. Tra gli altri metodi vi sono i calcoli di matrici o le relazioni statistiche.
1. Chiamare le funzioni intercept e slope.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
2. Chiamare la funzione line.
Fare clic per copiare questa espressione
3. Utilizzare il calcolo di una matrice tramite la funzione augment.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
4. Utilizzare relazioni statistiche tramite le funzioni stdev, corr, mean e slope.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
5. Utilizzare un grafico per mostrare che la linea dei minimi quadrati passa sempre attraverso il punto (mean(X), mean(T)):
Fare clic per copiare questa espressione
Errori standard
Calcolare l'errore standard nella stima, denominato anche solo errore standard, per verificare la bontà dell'adattamento lineare precedente. Calcolare inoltre l'errore nel coefficiente angolare e nell'intercetta.
1. Definire i gradi di libertà (numero di punti dati meno il numero di parametri adattati).
Fare clic per copiare questa espressione
2. Chiamare la funzione stderr per calcolare l'errore standard nella stima per la linea di best fit definita in precedenza.
Fare clic per copiare questa espressione
Di seguito viene illustrata la radice quadrata dell'errore quadratico medio oppure σ2.
Fare clic per copiare questa espressione
3. Confrontare l'errore standard calcolato con l'errore standard restituito dalla funzione polyfitstat.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
4. Calcolare gli errori standard nel coefficiente angolare e nell'intercetta.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
5. Ripetere il calcolo precedente utilizzando il calcolo di una matrice.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
6. Utilizzare la funzione augment per mostrare che gli errori standard per ogni coefficiente di regressione vengono registrati nella matrice restituita dalla funzione polyfitc.
Fare clic per copiare questa espressione
Intervalli di confidenza per ogni coefficiente
Utilizzare le stime indicate in precedenza, insieme ai punti percentile dalla distribuzione t di Student, per formare un intervallo di confidenza per le stime del coefficiente angolare e dell'intercetta.
1. Definire il livello di significatività per un intervallo di confidenza del 98% e utilizzare la funzione qt per calcolare il fattore t.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
2. Calcolare i limiti di confidenza per il coefficiente angolare.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Esiste una probabilità del 98% che il valore del coefficiente angolare effettivo sia compreso tra SL e SU.
3. Calcolare i limiti di confidenza per l'intercetta.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
L'ampio intervallo in questo valore riflette il livello elevato di dispersione nei dati.
4. Chiamare la funzione confidence per ripetere i passaggi da 1 a 3.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
La funzione confidence restituisce l'ampiezza dell'intervallo di confidenza nella relativa prima colonna e il fattore t nella seconda colonna. Quando si dividono le ampiezze per il fattore t, si ottengono di nuovo gli errori standard in entrambi i parametri.
Fare clic per copiare questa espressione
5. Per individuare i limiti di confidenza, aggiungere l'ampiezza al parametro pertinente oppure sottrarla da tale parametro:
Fare clic per copiare questa espressione
6. Utilizzare la funzione augment per mostrare che gli errori standard per ogni coefficiente di regressione vengono registrati nella matrice restituita dalla funzione polyfitc.
Fare clic per copiare questa espressione
Intervalli di confidenza per la regressione
1. Utilizzare le funzioni length e mean per calcolare un intervallo di confidenza per la regressione stessa.
Fare clic per copiare questa espressione
2. Utilizzare la funzione precedente per calcolare l'intervallo di confidenza per qualsiasi valore x previsto:
Fare clic per copiare questa espressione
3. Utilizzare il calcolo della matrice indicato di seguito.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
4. Tracciare il grafico dei dati, della linea di best fit e dell'intervallo di confidenza per l'intera regione di regressione.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
La regione di confidenza per i valori previsti ha una strozzatura in prossimità del centro dei valori misurati. Poiché, infatti, le formule utilizzate per calcolare la regressione lineare sono basate sulla media, i valori previsti più vicini alla media dei dati sono più accurati.
5. Calcolare i limiti di confidenza sui valori misurati. Tali limiti sono leggermente diversi dai limiti per i valori previsti.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
6. Utilizzare il calcolo della matrice indicato di seguito.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
7. Tracciare il grafico dei limiti di confidenza come traccia di tipo errore.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
* 
È possibile utilizzare i grafici come forma di rilevamento degli outlier, in cui i valori misurati non compresi negli intervalli di confidenza indicano un outlier.