Calcolare i residui di un insieme di dati per controllare se l'insieme è distribuito linearmente. Prima di utilizzare il modello di regressione per la predizione, controllare che i presupposti del modello lineare siano stati soddisfatti:
• Gli errori non devono essere correlati.
• Per ogni determinato valore di X, gli errori devono essere distribuiti normalmente con una media di zero e una varianza costante.
Residui standardizzati
Per interpretare la grandezza relativa dei residui, è possibile standardizzarli. È necessario dividere i residui per una stima della deviazione standard di errore.
1. Definire l'insieme di dati seguente:
2. Tracciare un grafico dell'insieme di dati.
I dati sembrano lineari. Questo è confermato dal coefficiente di correlazione, che è vicino a 1:
3. Definire la linea di best fit:
4. Sottrarre i valori di fit dai valori misurati.
5. Dividere i residui per l'errore standard della stima.
Residui studentizzati
I residui studentizzati, o residui standardizzati regolati, costituiscono un'altra stima utilizzata di frequente per l'errore standard. La stima regola la distanza tra ogni valore di x e la media di x.
1. Calcolare la distanza tra i valori e la media.
2. Definire la deviazione standard calcolata per ogni residuo.
3. Definire i residui studentizzati:
I residui studentizzati sono più precisi di quelli standardizzati, poiché rendono conto di tutte le differenze punto a punto nella varianza di errore. Ciononostante, i valori dei residui sono in genere molto simili:
4. Chiamare polyfitstat Visualizzare la matrice secondaria della diagnostica di osservazione che contiene i residui studentizzati.
Controllo della linearità
Controllare che l'insieme Data sia correlato linearmente. Creare un esempio di contatore utilizzando un campione casuale con una relazione curvilinea. Se i dati sono correlati linearmente e gli errori sono distribuiti normalmente, i grafici della dispersione non includono alcuna serie distinguibile. I punti sono dispersi in modo casuale intorno alla media di errore ipotizzata di zero.
1. Tracciare il grafico dei residui rispetto ai valori x e ai valori y previsti.
La mancanza di una serie dei residui indica che i dati sono correlati linearmente.
2. Generare un campione casuale di punti con una relazione quadratica.
3. Tracciare un grafico della grandezza relativa dei valori residui.
La serie quadratica nei dati si riflette nel grafico della dispersione dei residui. Questi dati non sono correlati linearmente.
Controllo delle varianze di errore costanti
Nell'insieme Data non è stata rilevata alcuna serie nelle varianze di errore. Creare un esempio di contatore in cui i dati appaiono lineari ma le varianze di errore non sono distribuite normalmente e un grafico della dispersione dei residui mostra una dispersione crescente o decrescente da sinistra a destra.
1. Generare un campione casuale di punti con dispersione crescente da sinistra a destra.
2. Calcolare una linea di best fit. Tracciare il grafico dell'insieme di dati casuale e della funzione di fit.
Il coefficiente di correlazione vicino a 1 indica che i dati sono correlati linearmente:
3. Tracciare un grafico della grandezza relativa dei valori residui.
Il grafico della dispersione dei residui non appare distribuito in modo casuale. I punti nel grafico del residuo sono dispersi in modo crescente da sinistra a destra.
Controllo della correlazione degli errori
È possibile controllare se i termini di errore adiacenti nel modello di regressione lineare sono correlati utilizzando la statistica di Durbin-Watson.
Calcolare la statistica di Durbin-Watson per l'insieme Data:
I valori della statistica di Durbin-Watson sono compresi tra 0 e 4. Se i termini adiacenti non sono correlati, il valore di Durbin-Watson è vicino a 2. Valori di Durbin-Watson minori di 2 indicano correlazioni adiacenti positive e valori maggiori di 2 indicano correlazioni negative.
La statistica di Durbin-Watson è utilizzata nel calcolo di B-spline dei minimi quadrati. Sfortunatamente, la statistica di Durbin-Watson non consente di rilevare correlazioni di ordine superiore (non adiacenti). Questi tipi di correlazioni non si verificano comunemente senza una correlazione tra errori adiacenti.
La statistica di Durbin-Watson è una delle statistiche restituite da polyfitstat:
Controllo della normalità
Controllare se l'insieme Data è distribuito normalmente creando un grafico normale dei residui standardizzati.
Il grafico normale è simile a una linea retta. Gli errori sono pertanto approssimativamente distribuiti normalmente. Poiché i grafici normali possono essere sensibili ad altre violazioni dei presupposti, ad esempio quando le varianze di errore non sono uguali, è consigliabile controllare la normalità per ultima.