Esempio: identificazione delle osservazioni significative
Utilizzare la funzione polyfitstat per verificare le osservazioni utilizzate per creare una regressione polinomiale multivariata.
1. Definire una matrice contenente esempi presi da 20 individui in salute di età compresa tra 25 e 34 anni.
Le colonne della matrice rappresentano rispettivamente lo spessore della pelle del tricipite, la circonferenza delle cosce e il grasso corporeo per ciascuno dei 20 individui.
2. Utilizzare le funzioni rows e cols per calcolare il numero di righe e di colonne.
3. Utilizzare la funzione augment per definire la matrice BM come le prime due colonne della matrice. Utilizzare tali misure per predire la quantità di grasso negli individui.
4. Chiamare polyfitstat per modellare l'esperimento tramite una regressione di primo ordine e calcolare la statistica di regressione.
5. Visualizzare la matrice dei coefficienti di regressione disponibile nella riga 7 della matrice di output P.
6. Calcolare i coefficienti di regressione utilizzando il calcolo di una matrice.
I coefficienti di regressione si adattano all'equazione indicata di seguito.
7. Utilizzare l'equazione di regressione per calcolare la quantità prevista di grasso corporeo. Confrontare questi valori con la quantità di grasso corporeo misurato.
8. Utilizzare la funzione submatrix per visualizzare le statistiche del modello trovate nelle prime righe della matrice di output P.
La prima statistica corrisponde alla deviazione standard per la regressione.
9. Visualizzare la diagnostica del modello disponibile nell'ultima matrice annidata della matrice di output P.
I valori osservati e previsti corrispondono ai valori visualizzati nel passo 7. I residui rappresentano la differenza tra i valori osservati e quelli previsti:
10. Calcolare i residui, ovvero la differenza tra i valori osservati e quelli previsti.
11. Utilizzare la funzione diag per calcolare i valori di leverage, o valori diagonali, della matrice H.
12. Calcolare i residui studentizzati.
I residui studentizzati esternamente, o R-Student, vengono calcolati di seguito. La costante p è il numero di coefficienti calcolati per la regressione e S2 è una stima di s2 basata su un insieme di dati in cui viene rimossa la -esima osservazione.
13. Utilizzare la distanza di Cook per misurare l'influenza complessiva di un punto eliminato in una regressione lineare.
14. Calcolare la differenza tra i valori previsti quando tutte le osservazioni sono incluse nel fit e i valori previsti quando viene omessa la -esima osservazione.
15. Utilizzare le funzioni augment e stack per visualizzare le statistiche precedenti.
16. Utilizzare le funzioni max e qt per determinare il valore R-Student maggiore nell'insieme di dati. Utilizzare il test di Bonferroni per stabilire se l'osservazione corrispondente è un outlier.
Il valore R-Student maggiore è minore del test di Bonferroni, a indicare che l'osservazione corrispondente non è un outlier.
17. Determinare il valore DFFITS massimo.
Il valore è maggiore di 1, ma è sufficientemente vicino a 1 per far sì che l'osservazione corrispondente non sia necessariamente influente.
18. Creare un grafico dell'influenza dell'indice tracciando il grafico delle distanze di Cook rispetto alle esecuzioni.
L'osservazione per run2 è l'osservazione più influente dell'insieme di dati. L'osservazione per run12 identificata nel passo 10 è influente ma a un livello decisamente meno rispetto a quella per run2.
Riferimenti
Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W., Applied Linear Statistical Models, 4th ed., McGraw-Hill/Irwin, Boston, 1996, pp. 375