関数 > データ解析 > 外れ値と NaN > 例: 外れ値の検出
例: 外れ値の検出
GrubbsGrubbsClassicThreeSigmaboxplot関数を使用して、3 種類の外れ値検出方法によって外れ値を検出します。
1. 熱流を表すベクトルを定義します。
クリックしてこの式をコピー
2. データとデータの平均値をプロットします。
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
外れ値候補を見つけるには散布図が便利ですが、値が 1 つだけ大きく外れていないかぎり、検出が容易でないことがあります。定量的なスケールを用いて、どの点が外れ値であるかを調べることができます。
3. 有意水準を定義します。
クリックしてこの式をコピー
4. Grubbs 関数を呼び出して、データセット内の外れ値を検出します。
クリックしてこの式をコピー
1 列目には、外れ値として検出された各点 (検定統計量が Grubbs 検定統計量より大きい点) の添字が格納されています。
クリックしてこの式をコピー
クリックしてこの式をコピー
2 列目には、各外れ値の検定統計量 (平均からの外れ値の距離を絶対値で表したもの) が格納されています。
クリックしてこの式をコピー
3 列目には、Grubbs 検定統計量からの各外れ値の検定統計量の距離が格納されています。
クリックしてこの式をコピー
5. GrubbsClassic を呼び出して、外れ値となる可能性が最も高い点を見つけます。
クリックしてこの式をコピー
外れ値になる可能性が最も高いのは添字の値が 19 の点です。これらの列の意味は、Grubbs 関数によって返される行列の意味と同じです。
6. ThreeSigma 関数を呼び出して、3 シグマ領域から外れているデータ点を検出します。
クリックしてこの式をコピー
Grubbs 関数と同様に、1 列目には外れ値の添字が格納され、2 列目には外れ値の検定統計量が格納されています。
各データ点の検定統計量が 3 より大きくなっています。
ThreeSigma で外れ値が検出されない場合、外れ値である可能性が最も高い点が返されます。
7. boxplot 関数を呼び出して、四分位範囲法に従って外れ値を検出し、箱髭図を作成して外れ値を表示します。
クリックしてこの式をコピー
クリックしてこの式をコピー
四分位範囲法では 4 つの外れ値が検出されました。
関数をデータに適合させた後で残差解析を使用して外れ値を検出することもできます。
これは役に立ちましたか?