함수 > 데이터 분석 > 이상치 및 NaN > 예제: 이상치 검출을 위한 그럽스 방법
예제: 이상치 검출을 위한 그럽스 방법
그럽스 검사 통계값
이상치를 검출하기 위해 Grubbs 함수에 사용되는 그럽스(Grubbs) 검사 통계값을 계산합니다. 그럽스 검사 통계값을 이상치의 검사 통계값과 비교합니다.
1. 열 흐름 실험을 설명하는 데이터 집합을 정의하고 도표화합니다.
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
2. 자유도를 N - 2로 하고 유의 수준을 alpha/(2N)로 하여 스튜던트의 t 분포에 대한 임계치를 정의합니다.
이 식을 복사하려면 클릭
* 
qt 함수는 스튜던트의 t 분포에 대한 역 누적 확률 밀도를 구하는 데 사용됩니다.
3. 그럽스 검사 통계값을 알파의 함수로 정의합니다.
이 식을 복사하려면 클릭
4. 신뢰 수준 90%에 대한 유의 수준을 정의합니다.
이 식을 복사하려면 클릭
5. Grubbs 함수를 호출하여 이상치를 검출합니다.
이 식을 복사하려면 클릭
Grubbs 함수에는 행렬을 입력으로 사용할 수 있습니다. 행렬을 사용하는 경우 이 함수는 배열에서의 이상치 위치를 중첩된 지수 쌍으로 반환합니다.
6. 그럽스 검사 통계값을 이상치의 검사 통계값과 비교합니다.
이 식을 복사하려면 클릭
이상치 두 개의 검사 통계값이 그럽스 검사 통계값보다 큽니다. 지수가 여러 개 반환된다고 해서 모든 후보값이 이상치라는 의미는 아닙니다. 후보값을 제거하면 임계치와 검사 통계값이 달라지기 때문입니다. 두 이상치는 모두 N에 종속되어 있습니다.
그럽스 검사에서는 데이터의 정규화를 전제로 하기 때문에 데이터가 정규 분포를 따르는지 확인해 볼 필요가 있습니다. 예를 들어 작업을 계속 진행하기 전에 정규 확률 도표 같은 시각적 검사 방법을 사용할 수 있습니다.
GrubbsClassic
GrubbsClassic 함수를 사용하여 데이터 집합에서 이상치일 가능성이 가장 높은 점을 찾습니다.
1. 위의 데이터 집합에 대해 가장 큰 검사 통계값을 계산합니다.
이 식을 복사하려면 클릭
2. 98% 신뢰 구간에 대한 알파를 정의합니다.
이 식을 복사하려면 클릭
3. 그럽스 검사 통계값을 Gmax와 비교합니다.
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
이 유의 수준에서는 이상치가 검출되지 않습니다.
4. GrubbsClassic 함수를 호출합니다.
이 식을 복사하려면 클릭
GrubbsClassic으로 구한 점이 이상치는 아니지만 이 데이터 점이 이상치일 가능성이 매우 높은 것 또한 사실입니다.
이상치 검출의 극한 확률
특수 구문 root를 사용하여 이상치가 검출되는 극한 확률을 계산합니다.
이 식을 복사하려면 클릭
알파가 α_limit보다 큰 경우, 즉 신뢰 구간이 (1 - α_limit)보다 작은 경우 이상치가 검출됩니다.
이 식을 복사하려면 클릭
이는 앞서 확인한 결과와 일치합니다. 98% 신뢰 구간에서는 이상치가 검출되지 않았지만 90% 신뢰 구간에서는 이상치 두 개가 검출되었습니다.
도움이 되셨나요?