Fonctions > Plan d'expériences > Analyse de régression > Exemple : Analyse résiduelle
  
Exemple : Analyse résiduelle
Calculez les résiduels d'un jeu de données afin de vérifier si ce jeu est linéairement distribué. Avant d'utiliser le modèle de régression pour la prédiction, vérifiez que les hypothèses du modèle linéaire sont satisfaites :
Les erreurs doivent être non corrélées.
Pour toute valeur donnée de X, les erreurs doivent être distribuées normalement avec une moyenne égale à zéro et une variance constante.
Résiduels standardisés
Pour interpréter l'amplitude relative des résiduels, vous pouvez les standardiser. Vous devez diviser les résiduels par une estimation de l'écart-type de l'erreur.
1. Définissez le jeu de données suivant :
Cliquez pour copier cette expression
2. Tracez le jeu de données.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Les données semblent être linéaires. Cela est confirmé par le coefficient de corrélation qui est proche de 1 :
Cliquez pour copier cette expression
3. Définissez la droite de meilleure approximation :
Cliquez pour copier cette expression
4. Soustrayez les valeurs d'ajustement des valeurs mesurées.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
5. Divisez les résiduels par l'erreur type de l'estimation.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Résiduels de Student
Les résiduels de Student, ou résiduels standardisés ajustés, sont une autre estimation fréquemment utilisée de l'erreur type. Cette estimation est une approximation de la distance entre chaque valeur de x et la moyenne de x.
1. Calculez la distance entre les valeurs et la moyenne.
Cliquez pour copier cette expression
2. Définissez l'écart-type obtenu pour chaque résiduel.
Cliquez pour copier cette expression
3. Définissez les résiduels de Student :
Cliquez pour copier cette expression
Les résiduels de Student sont plus précis que les résiduels standardisés, car ils tiennent compte des différences de point à point dans la variance d'erreur. Néanmoins, les résiduels ont généralement des valeurs proches les unes des autres :
Cliquez pour copier cette expression
Cliquez pour copier cette expression
4. Appelez polyfitstat. Affichez la sous-matrice des diagnostics d'observation contenant les résiduels de Student.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Vérification de la linéarité
Vérifiez que l'ensemble Data présente une relation linéaire. Créez un contre-exemple en utilisant un échantillon aléatoire présentant une dépendance curviligne. Si les données sont linéairement réparties et que les erreurs sont distribuées normalement, les nuages de points ne présentent pas de motif discernable. Les points sont dispersés de manière aléatoire suite à l'hypothèse de moyenne d'erreur égale à zéro.
1. Tracez les résiduels en fonction des valeurs x et des valeurs y prédites.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
L'absence de motif des résiduels indique que les données sont linéairement réparties.
2. Générez un échantillon aléatoire de points présentant une relation quadratique.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
3. Représentez graphiquement l'amplitude relative des résiduels.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Le motif quadratique des données se reflète dans le nuage de points résiduel. Ces données ne présentent pas une relation linéaire.
Recherche de variances d'erreur constantes
Aucun motif dans les variances d'erreur n'a été détecté dans l'ensemble Data. Créez un contre-exemple dans lequel les données sont linéaires mais où les variances d'erreur ne sont pas distribuées normalement. Dans ce cas, un nuage de points des résiduels montre une dispersion croissante ou décroissante de la gauche vers la droite.
1. Générez un échantillon aléatoire de points présentant une dispersion croissante de la gauche vers la droite.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
2. Calculez la droite de meilleure approximation. Tracez le jeu de données aléatoires et la fonction d'approximation.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Le coefficient de corrélation proche de 1 indique que les données sont linéairement réparties :
Cliquez pour copier cette expression
3. Représentez graphiquement l'amplitude relative des résiduels.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Le nuage de points des résiduels ne présente pas une distribution aléatoire. Les points du tracé résiduel présentent une dispersion croissante de la gauche vers la droite.
Vérification de la corrélation des erreurs
Vous pouvez vérifier si les termes d'erreurs adjacents dans le modèle de régression linéaire sont corrélés en utilisant la statistique de Durbin-Watson.
Calculez la statistique de Durbin-Watson pour l'ensemble Data :
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Les valeurs de la statistique de Durbin-Watson sont comprises entre 0 et 4. Si les termes adjacents ne sont pas corrélés, la valeur de Durbin-Watson est proche de 2. Des valeurs de Durbin-Watson inférieures à 2 indiquent des corrélations adjacentes positives et des valeurs supérieures à 2 indiquent des corrélations négatives.
La statistique de Durbin-Watson est utilisée dans le calcul des B-splines par moindres carrés. Malheureusement, la statistique de Durbin-Watson ne peut pas détecter de corrélations (non adjacentes) d'ordre plus élevé. Ces types de corrélations ne se produisent généralement pas sans une corrélation entre les erreurs adjacentes.
La statistique de Durbin-Watson est l'une des statistiques renvoyée par polyfitstat :
Cliquez pour copier cette expression
Vérification de la normalité
Vérifiez si l'ensemble Data est distribué normalement en créant un tracé normal des résiduels standardisés.
Cliquez pour copier cette expression
Cliquez pour copier cette expression
Le tracé normal ressemble à une ligne droite. Les erreurs sont par conséquent approximativement réparties normalement. Les tracés normaux pouvant être sensibles au non-respect d'autres hypothèses, par exemple lorsque les variances d'erreur ne sont pas égales, il est préférable de vérifier la normalité en dernier.