Calcule los residuales de un conjunto de datos para verificar si el conjunto está distribuido de manera lineal. Antes de utilizar el modelo de regresión para la predicción, verifique que se cumplen los supuestos del modelo lineal:
• Los errores no pueden estar correlacionados.
• Para cualquier valor dado de X, los errores deberían estar distribuidos normalmente con una media de cero y una varianza constante.
Residuales estandarizados
Para interpretar la magnitud relativa de los residuales, estandarícelos. Debe dividir los residuales por un cálculo aproximado de la desviación estándar de error.
1. Defina el siguiente conjunto de datos:
2. Trace el conjunto de datos.
Los datos parecen lineales. Esto se confirma si el coeficiente de correlación es cercano a 1:
3. Defina la línea de trayectoria de ajuste:
4. Reste los valores de ajuste de los valores medidos.
5. Divida los residuales por el error estándar del cálculo aproximado.
Residuales estudentizados
Los residuales estudentizados, o residuales estandarizados ajustados, son otro cálculo aproximado utilizado con frecuencia para el error estándar. Este cálculo aproximado compensa la distancia entre cada valor de x y la media de x.
1. Calcule la distancia entre los valores y la media.
2. Defina la desviación estándar equilibrada para cada residual.
3. Defina los residuales estudentizados:
Los residuales estudentizados son más precisos que los residuales estandarizados, ya que representan las diferencias de punto a punto en la varianza de error. Sin embargo, los residuales suelen tener valores cercanos:
4. Llame a polyfitstat. Muestre la submatriz de los diagnósticos de observación que contiene los residuales estudentizados.
Comprobación de la linealidad
Verifique que el conjunto de Data tiene una relación lineal. Cree un ejemplo opuesto con una muestra aleatoria que tenga una relación curvilínea. Si los datos tienen una relación lineal y los errores están distribuidos normalmente, los gráficos de dispersión no presentarán ningún patrón discernible. Los puntos están dispersos aleatoriamente alrededor de la media de error cero hipotética.
1. Trace los residuales con respecto a los valores x y a los valores y previstos.
La ausencia de patrón de los residuales indica que los datos tienen una relación lineal.
2. Genere una muestra aleatoria de puntos que tengan una relación cuadrática.
3. Trace la magnitud relativa de los residuales.
El patrón cuadrático de los datos se refleja en el gráfico de dispersión de los residuales. Estos datos no tienen una relación lineal.
Verificación de varianzas de error constantes
No se ha detectado ningún patrón en las varianzas de error del conjunto de Data. Cree un ejemplo de contador en el que los datos sean lineales pero las varianzas de error no estén distribuidas normalmente, y un gráfico de dispersión de los residuales muestra una distribución creciente o decreciente de izquierda a derecha.
1. Genere una muestra aleatoria de puntos cada vez más dispersos de izquierda a derecha.
2. Calcule una línea de trayectoria de ajuste. Trace el conjunto de datos aleatorio y la función de ajuste.
El coeficiente de correlación cercano a 1 que indica que los datos tienen una relación lineal:
3. Trace la magnitud relativa de los residuales.
El gráfico de dispersión de los residuales no parece distribuido aleatoriamente. Los puntos del gráfico de residuales están cada vez más dispersos de izquierda a derecha.
Verificación de la correlación de errores
Verifique si los términos de error adyacentes del modelo de regresión lineal están correlacionados mediante la estadística de Durbin-Watson.
Calcule la estadística de Durbin-Watson para el conjunto de Data:
Los valores de la estadística de Durbin-Watson van de 0 a 4. Si los términos adyacentes no están correlacionados, el valor de Durbin-Watson será próximo a 2. Los valores de Durbin-Watson menores que 2 indican correlaciones adyacentes positivas y los valores mayores que 2, correlaciones negativas.
La estadística de Durbin-Watson se utiliza en el cálculo de las B-splines de mínimos cuadrados. Lamentablemente, la estadística de Durbin-Watson no puede detectar correlaciones de orden superior (no adyacentes). Estos tipos de correlación no suelen producirse si no hay una correlación entre errores adyacentes.
La estadística de Durbin-Watson es una de las estadísticas devueltas por polyfitstat:
Verificación de la normalidad
Verifique si el conjunto de Data está distribuido normalmente mediante la creación de un gráfico normal de los residuales estandarizados.
El gráfico normal parece una línea recta. Por lo tanto, los errores están distribuidos normalmente de forma aproximada. Los gráficos normales pueden ser objeto de otras infracciones por suposición (por ejemplo, cuando las varianzas de error no son iguales), por lo que es recomendable verificar la normalidad en último lugar.