함수 > 데이터 분석 > 이상치 및 NaN > 예제: 이상치 검출
예제: 이상치 검출
Grubbs, GrubbsClassic, ThreeSigmaboxplot 함수를 사용하여 이상치를 찾습니다. 이상치를 검출하는 데는 서로 다른 세 가지 방법이 사용됩니다.
1. 열 흐름을 설명하는 벡터를 정의합니다.
이 식을 복사하려면 클릭
2. 데이터와 데이터의 평균을 도표화합니다.
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
이상치일 가능성이 있는 지점을 찾아내는 데는 산점도가 유용한 것이 사실이지만, 다른 데이터로부터 크게 벗어나 있고 매우 드물게 발생하는 이상치가 아니라면 이를 검출하기가 어려울 수 있습니다. 어떤 점이 이상치인지 판별하기 위해 양적 측정 기준을 계산할 수 있습니다.
3. 유의 수준을 정의합니다.
이 식을 복사하려면 클릭
4. Grubbs 함수를 호출하여 데이터 집합의 이상치를 식별합니다.
이 식을 복사하려면 클릭
첫째 열은 이상치로 확인된 각 점의 지수를 나타냅니다. 이상치로 확인된 점이란 해당 검사 통계값이 그럽스(Grubbs) 검사 통계값을 초과하는 점을 말합니다.
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
둘째 열은 각 이상치의 검사 통계값을 나타냅니다. 이는 평균과 이상치 사이의 거리를 절대값으로 표시한 것입니다.
이 식을 복사하려면 클릭
셋째 열은 그럽스 검사 통계값과 각 이상치의 검사 통계값 사이의 거리를 나타냅니다.
이 식을 복사하려면 클릭
5. GrubbsClassic을 호출하여 이상치일 가능성이 가장 높은 점 하나를 찾습니다.
이 식을 복사하려면 클릭
지수 값이 19인 점이 이상치일 가능성이 가장 높은 것으로 나타났습니다. 열은 Grubbs 함수로 구한 행렬의 열과 같은 의미를 갖습니다.
6. ThreeSigma 함수를 호출하여 3시그마 영역 밖에 있는 데이터 점을 찾습니다.
이 식을 복사하려면 클릭
Grubbs 함수의 경우와 마찬가지로 첫째 열은 이상치의 지수를, 둘째 열은 이상치의 검사 통계값을 나타냅니다.
이 데이터 점 각각의 검사 통계값은 3보다 큽니다.
ThreeSigma는 이상치를 하나도 검출하지 못한 경우 이상치에 가장 가까운 점을 반환합니다.
7. boxplot 함수를 호출하여 사분위수 범위 방법에 따라 이상치를 검출하고 상자 도표를 만들어 이상치를 표시합니다.
이 식을 복사하려면 클릭
이 식을 복사하려면 클릭
사분위수 범위 방법을 사용하여 이상치 네 개가 검출되었습니다.
잉여 분석을 통해 데이터를 함수에 맞춘 다음 이상치를 검출할 수도 있습니다.
도움이 되셨나요?