Fonctions > Plan d'expériences > Analyse de régression > Exemple : Identification d'observations influentes
  
Exemple : Identification d'observations influentes
Utilisez la fonction polyfitstat pour tester les observations utilisées pour créer une régression polynomiale multivariée.
1. Définissez une matrice contenant des échantillons de 20 individus en bonne santé entre 25 et 34 ans.
Cliquez pour copier cette expression
Les colonnes de la matrice représentent l'épaisseur cutanée du triceps, la circonférence de la cuisse et la proportion de graisse dans le corps, respectivement, pour chacune des 20 personnes.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
2. Utilisez les fonctions rows et cols pour calculer le nombre de lignes et de colonnes.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
3. Utilisez la fonction pour définir la matrice BMaugment comme les deux premières colonnes de la matrice. Utilisez ces mesures pour prédire la quantité de graisse chez les individus.
Cliquez pour copier cette expression
4. Appelez la fonction polyfitstat pour modéliser l'expérience à l'aide d'une régression d'ordre 1 et calculer les statistiques de régression.
Cliquez pour copier cette expression
5. Affichez la matrice des coefficients de régression figurant à la ligne 7 de la matrice de sortie P.
Cliquez pour copier cette expression
6. Calculez les coefficients de régression à l'aide du calcul matriciel.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Les coefficients de régression satisfont à l'équation suivante :
Cliquez pour copier cette expression
Cliquez pour copier cette expression
7. Utilisez l'équation de régression pour calculer la quantité prédite de réserves lipidiques de l'organisme. Comparez ces valeurs à la quantité de réserves lipidiques de l'organisme mesurée.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
8. Utilisez la fonction submatrix pour afficher les statistiques de modèle trouvées dans les premières lignes de la matrice de sortie P.
Cliquez pour copier cette expression
La première statistique est l'écart-type de la régression.
Cliquez pour copier cette expression
9. Affichez les diagnostics du modèle figurant dans la dernière matrice imbriquée de la matrice de sortie P.
Cliquez pour copier cette expression
Les valeurs observées et prédites correspondent aux valeurs affichées à l'étape 7. Les résiduels représentent la différence entre les valeurs observées et les valeurs prédites :
10. Calculez les résiduels, soit la différence entre les valeurs observées et les valeurs prédites.
Cliquez pour copier cette expression
11. Utilisez la fonction diag pour calculer les valeurs d'influence, ou valeurs diagonales, de la matrice H.
Cliquez pour copier cette expression
12. Calculez les résiduels de Student.
Cliquez pour copier cette expression
Les résiduels de Student externes, ou R de Student, sont calculés ci-dessous. La constante p est le nombre de coefficients calculés pour la régression et S2 est une estimation de s2 basée sur un jeu de données où l'observation d'ordre ième a été supprimée.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
13. Utilisez la distance de Cook pour mesurer l'influence générale d'un point supprimé sur une régression linéaire.
Cliquez pour copier cette expression
14. Calculez la différence entre les valeurs prévues lorsque toutes les observations sont incluses dans les valeurs prévues et ajustées lorsque l'observation ième est omise.
Cliquez pour copier cette expression
15. Utilisez les fonctions augment et stack pour afficher les statistiques précédentes.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
16. Utilisez les fonctions max et qt pour déterminer la plus grande valeur Student R du jeu de données. Utilisez le test de Bonferroni pour décider si l'observation correspondante est une valeur extrême.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
La plus grande valeur R de Student est plus petite que le test de Bonferroni, ce qui indique que l'observation correspondante n'est pas une valeur extrême.
17. Déterminez la valeur DFFITS maximum.
Cliquez pour copier cette expression
La valeur est supérieure à 1, mais elle est suffisamment proche de 1 pour que l'on puisse dire que l'observation correspondante n'est pas une observation influente.
18. Créez un tracé d'influence d'indice en traçant les distances de Cook pour les différentes exécutions.
Cliquez pour copier cette expression
L'observation de run2 n'est pas l'observation la plus influente du jeu de données. L'observation de run12 identifiée à l'étape 10 est également influente, mais de façon très inférieure à celle de run2.
Référence
Référence : Neter, J., Kutner, M.H., Nachtsheim, C.J., Wasserman, W., Applied Linear Statistical Models, 4th ed., McGraw-Hill/Irwin, Boston, 1996, pp. 375