関数 > 実験計画 > 回帰分析 > 例: 残差分析
  
例: 残差分析
データセットの残差を計算し、そのデータセットが線形に分布しているかどうかを調べます。回帰モデルを使用して予測を行う前に、線形モデルが次の条件を満たしているかどうかを調べます。
誤差が相関していない。
X の任意の値について、誤差は平均値がゼロで分散が一定の正規分布に従っている。
標準化残差
残差の相対的な大きさを判断するため、残差を標準化できます。これには、残差を誤差の標準偏差の推定値で割ります。
1. 次のデータセットを定義します。
クリックしてこの式をコピー
2. データセットをプロットします。
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
データは線形に見えます。このことは、次に示すように相関係数が 1 に近いことによって確認できます。
クリックしてこの式をコピー
3. 最良適合の直線を定義します。
クリックしてこの式をコピー
4. 測定値から適合値を引きます。
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
5. 残差を標準誤差の推定値で割ります。
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
スチューデント化残差
スチューデント化残差 (調整済み標準化残差) は、頻繁に使用されるもう一つの標準誤差推定値です。この推定値では、x の各値と x の平均値の間の距離が調整されています。
1. 値と平均値の間の距離を計算します。
クリックしてこの式をコピー
2. 残差ごとのてこ比を適用した標準偏差を定義します。
クリックしてこの式をコピー
3. スチューデント化残差を次のように定義します。
クリックしてこの式をコピー
スチューデント化残差は、誤差分散におけるあらゆる点と点の差を表すので、標準化残差よりも正確です。しかし、通常はどちらの残差も近い値になります。
クリックしてこの式をコピー
クリックしてこの式をコピー
4. polyfitstatを呼び出します。スチューデント化残差が格納されている、観測診断の部分行列を表示します。
クリックしてこの式をコピー
クリックしてこの式をコピー
線形性のチェック
データセット Data に線形関係があるかどうかを調べます。曲線関係があるランダムサンプルを使用して、反例を作成します。データに線形関係があり、誤差が正規分布に従っている場合、散布図で特定のパターンは確認できません。点は仮定の誤差の平均値であるゼロを中心にランダムに分散しています。
1. 残差を x の値および y の予測値に対してプロットします。
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
残差に特定のパターンがないことから、このデータには線形関係があることがわかります。
2. 2 次関係がある点のランダムなサンプルを生成します。
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
3. 残差の相対的な大きさをプロットします。
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
データの 2 次パターンが残差の散布図に反映されています。このデータには線形関係がありません。
誤差分散が一定であるかどうかのチェック
データセット Data では誤差分散のパターンは見つかりませんでした。データは線形に見えるが誤差分散は正規分布でない反例を作成します。残差の散布図では、左から右に分布が広がるか狭まっています。
1. 左から右に広がる点のランダムなサンプルを生成します。
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
2. 最良適合の直線を計算します。ランダムデータセットと適合関数をプロットします。
クリックしてこの式をコピー
クリックしてこの式をコピー
相関係数が 1 に近いので、このデータには線形関係があります。
クリックしてこの式をコピー
3. 残差の相対的な大きさをプロットします。
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
残差の散布図はランダムに分布していません。残差の散布図で点は左から右に広がっています。
誤差の相関のチェック
Durbin-Watson 統計量を使用して、線形回帰モデル内の隣接する誤差項が相関しているかどうかを調べることができます。
データセット Data について Durbin-Watson 統計量を計算します。
クリックしてこの式をコピー
クリックしてこの式をコピー
Durbin-Watson 統計量の値の範囲は 0 から 4 です。隣接する項が相関していない場合、Durbin-Watson の値は 2 に近くなります。Durbin-Watson の値が 2 未満の場合、隣接する項に正の相関関係があり、値が 2 より大きい場合、負の相関関係があります。
Durbin-Watson 統計量は最小二乗法による B スプラインの計算で使用されます。残念ながら、Durbin-Watson 統計量では高次の (隣接していない) 相関関係を検出することはできません。一般的には、このような相関関係は隣接する誤差項間に相関関係がない場合には発生しません。
Durbin-Watson 統計量は polyfitstat によって返される統計量の 1 つです。
クリックしてこの式をコピー
正規性のチェック
標準化残差の正規グラフを作成することで、データセット Data が正規分布になっているかどうかを確認します。
クリックしてこの式をコピー
クリックしてこの式をコピー
正規グラフでデータがほぼ直線状に表示されています。したがって、誤差はほぼ正規分布になっています。誤差分散が等しくないなど、その他の前提条件が満たされていない場合、正規グラフはその影響を受けることがあるので、正規性のチェックは最後に行うのがよいでしょう。