Funzioni > Pianificazione degli esperimenti > Analisi della regressione > Esempio: identificazione delle osservazioni significative
Esempio: identificazione delle osservazioni significative
Utilizzare la funzione polyfitstat per verificare le osservazioni utilizzate per creare una regressione polinomiale multivariata.
1. Definire una matrice contenente esempi presi da 20 individui in salute di età compresa tra 25 e 34 anni.
Fare clic per copiare questa espressione
Le colonne della matrice rappresentano rispettivamente lo spessore della pelle del tricipite, la circonferenza delle cosce e il grasso corporeo per ciascuno dei 20 individui.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
2. Utilizzare le funzioni rows e cols per calcolare il numero di righe e di colonne.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
3. Utilizzare la funzione augment per definire la matrice BM come le prime due colonne della matrice. Utilizzare tali misure per predire la quantità di grasso negli individui.
Fare clic per copiare questa espressione
4. Chiamare polyfitstat per modellare l'esperimento tramite una regressione di primo ordine e calcolare la statistica di regressione.
Fare clic per copiare questa espressione
5. Visualizzare la matrice dei coefficienti di regressione disponibile nella riga 7 della matrice di output P.
Fare clic per copiare questa espressione
6. Calcolare i coefficienti di regressione utilizzando il calcolo di una matrice.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
I coefficienti di regressione si adattano all'equazione indicata di seguito.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
7. Utilizzare l'equazione di regressione per calcolare la quantità prevista di grasso corporeo. Confrontare questi valori con la quantità di grasso corporeo misurato.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
8. Utilizzare la funzione submatrix per visualizzare le statistiche del modello trovate nelle prime righe della matrice di output P.
Fare clic per copiare questa espressione
La prima statistica corrisponde alla deviazione standard per la regressione.
Fare clic per copiare questa espressione
9. Visualizzare la diagnostica del modello disponibile nell'ultima matrice annidata della matrice di output P.
Fare clic per copiare questa espressione
I valori osservati e previsti corrispondono ai valori visualizzati nel passo 7. I residui rappresentano la differenza tra i valori osservati e quelli previsti:
10. Calcolare i residui, ovvero la differenza tra i valori osservati e quelli previsti.
Fare clic per copiare questa espressione
11. Utilizzare la funzione diag per calcolare i valori di leverage, o valori diagonali, della matrice H.
Fare clic per copiare questa espressione
12. Calcolare i residui studentizzati.
Fare clic per copiare questa espressione
I residui studentizzati esternamente, o R-Student, vengono calcolati di seguito. La costante p è il numero di coefficienti calcolati per la regressione e S2 è una stima di s2 basata su un insieme di dati in cui viene rimossa la -esima osservazione.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
13. Utilizzare la distanza di Cook per misurare l'influenza complessiva di un punto eliminato in una regressione lineare.
Fare clic per copiare questa espressione
14. Calcolare la differenza tra i valori previsti quando tutte le osservazioni sono incluse nel fit e i valori previsti quando viene omessa la -esima osservazione.
Fare clic per copiare questa espressione
15. Utilizzare le funzioni augment e stack per visualizzare le statistiche precedenti.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
16. Utilizzare le funzioni max e qt per determinare il valore R-Student maggiore nell'insieme di dati. Utilizzare il test di Bonferroni per stabilire se l'osservazione corrispondente è un outlier.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Il valore R-Student maggiore è minore del test di Bonferroni, a indicare che l'osservazione corrispondente non è un outlier.
17. Determinare il valore DFFITS massimo.
Fare clic per copiare questa espressione
Il valore è maggiore di 1, ma è sufficientemente vicino a 1 per far sì che l'osservazione corrispondente non sia necessariamente influente.
18. Creare un grafico dell'influenza dell'indice tracciando il grafico delle distanze di Cook rispetto alle esecuzioni.
Fare clic per copiare questa espressione
L'osservazione per run2 è l'osservazione più influente dell'insieme di dati. L'osservazione per run12 identificata nel passo 10 è influente ma a un livello decisamente meno rispetto a quella per run2.
Riferimenti
Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W., Applied Linear Statistical Models, 4th ed., McGraw-Hill/Irwin, Boston, 1996, pp. 375
È stato utile?