関数 > データ解析 > 外れ値と NaN > 例: Grubbs 法による外れ値の検出
例: Grubbs 法による外れ値の検出
Grubbs 検定統計量
Grubbs関数で使用される Grubbs 検定統計量を計算し、外れ値を検出します。Grubbs 検定統計量を外れ値の検定統計量と比較します。
1. 熱流の実験データセットを定義してプロットします。
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
クリックしてこの式をコピー
2. 自由度 N - 2、有意水準 alpha/(2N) のスチューデントの t 分布の臨界値を定義します。
クリックしてこの式をコピー
* 
関数qtはスチューデントの t 分布の逆累積確率密度を計算します。
3. Grubbs 検定統計量をαの関数として定義します。
クリックしてこの式をコピー
4. 90% の信頼水準のときの有意水準を定義します。
クリックしてこの式をコピー
5. Grubbs 関数を呼び出して外れ値を検出します。
クリックしてこの式をコピー
Grubbs 関数は入力として行列をとることができ、その場合、配列内の外れ値の場所を示す添字のペアが入れ子配列として返ります。
6. Grubbs 検定統計量を外れ値の検定統計量と比較します。
クリックしてこの式をコピー
2 つの外れ値の検定統計量は Grubbs 検定統計量を上回っています。複数の添字が返った場合でも、すべての候補が必ずしも外れ値になるわけではありません。これは、候補を 1 つ除去すると、それに従って臨界値と検定統計量が変わるためです。どちらも N によって左右されます。
Grubbs 検定ではデータが正規分布であると見なされるので、データが正規分布に従っていることを確認しておくとよいでしょう。たとえば、事前に正規確率グラフなどで確認できます。
GrubbsClassic
GrubbsClassic関数を使用して、データセット内の外れ値になる可能性が最も高い点を検出します。
1. 上記のデータセットで最大となる検定統計量を計算します。
クリックしてこの式をコピー
2. 98% の信頼区間のαを定義します。
クリックしてこの式をコピー
3. Grubbs 検定統計量を Gmax と比較します。
クリックしてこの式をコピー
クリックしてこの式をコピー
この有意水準では外れ値が検出されません。
4. GrubbsClassic 関数を呼び出します。
クリックしてこの式をコピー
GrubbsClassic によって返る点は外れ値ではありませんが、外れ値となる可能性が最も高いデータ点です。
外れ値検出の限界確率
特別な関数rootを使用して、外れ値が検出される限界確率を計算します。
クリックしてこの式をコピー
αが α_limit より大きい場合、つまり信頼区間が (1 - α_limit) より小さい場合に外れ値が検出されます。
クリックしてこの式をコピー
これは上記の結果と一貫しています。98% の信頼区間では外れ値が検出されませんでしたが、90% の信頼区間では 2 つの外れ値が検出されました。
これは役に立ちましたか?