Esempio: metodo di Grubbs per il rilevamento di outlier
Statistica del test di Grubbs
Calcolare la statistica del test di Grubbs, utilizzata dalla funzione
Grubbs, per rilevare gli outlier. Confrontare la statistica del test di Grubbs con la statistica del test degli outlier.
1. Definire un insieme di dati che descriva un esperimento di flusso di calore e tracciarne il grafico.
2. Definire il valore critico della distribuzione t di Student con N - 2 gradi di libertà e un livello di significatività pari a alpha/(2N).
La funzione
qt calcola la densità di probabilità cumulativa inversa della distribuzione t di Student.
3. Definire la statistica del test di Grubbs come funzione di alfa.
4. Definire il livello di significatività per un livello di confidenza del 90%.
5. Chiamare la funzione Grubbs per rilevare gli outlier.
La funzione Grubbs può accettare una matrice come input. In questo caso, restituisce coppie annidate di indici per le posizioni degli outlier negli array.
6. Confrontare la statistica del test di Grubbs con le statistiche dei test degli outlier.
I due outlier hanno una statistica del test maggiore della statistica del test di Grubbs. Anche se viene restituito più di un indice, ciò non significa che tutti i candidati devono essere outlier. Ciò è dovuto al fatto che il valore critico e la statistica del test cambiano se viene rimosso un candidato. Entrambi dipendono da N.
Poiché il test di Grubbs presume che i dati siano normali, è consigliabile verificare che i dati seguano una distribuzione normale. È ad esempio possibile utilizzare un test virtuale come il grafico di probabilità normale prima di procedere.
GrubbsClassic
Utilizzare la funzione
GrubbsClassic per trovare il punto che più probabilmente è un outlier in un insieme di dati.
1. Calcolare la statistica del test, massima per l'insieme di dati indicata in precedenza.
2. Definire alfa per un intervallo di confidenza del 98%.
3. Confrontare la statistica del test di Grubbs con Gmax.
A questo livello di significatività non viene rilevato alcun outlier.
4. Chiamare la funzione GrubbsClassic.
Il punto restituito da GrubbsClassic non è un outlier, ma è il punto dati che più probabilmente è un outlier.
Probabilità limite del rilevamento di outlier
Utilizzare il costrutto speciale
root per calcolare la probabilità limite a cui vengono rilevati gli outlier.
Gli outlier vengono rilevati quando alfa è maggiore di α_limit o, in altri termini, quando l'intervallo di confidenza è minore di (1 - α_limit), come indicato di seguito.
Si tratta di un comportamento coerente con le scoperte precedenti. Nessun outlier è stato rilevato per un intervallo di confidenza del 98%, ma sono stati rilevati due outlier per un intervallo di confidenza del 90%.