Valori anomali - statistica statistica

Transcript

Valori anomali - statistica statistica
Valori estremi e valori anomali (caso univariato)
Si definiscono valori estremi i valori più grandi o più piccoli di una distribuzione. In senso più
generale, l’espressione significa i valori prossimi alla coda di una distribuzione.
Con valori anomali (in inglese, outlier) ci si riferisce invece ai valori estremi di una distribuzione
che si caratterizzano per essere estremamente elevati o estremamente bassi rispetto al resto della
distribuzione e che rappresentano perciò casi isolati rispetto al resto della distribuzione.
In generale, per stabilire se un valore è estremo o anomalo, si fa riferimento alle misure di sintesi
della posizione e di dispersione.
Distanza dalla media Tale criterio fa riferimento alla cosiddetta disuguaglianza di Tchebycheff. In
base a tale disuguaglianza, per un carattere X con media µ e scarto quadratico medio σ si ha:
Freq (|X - µ| < kσ) > 1 -
1
k2
In termini “pratici” si ha che, qualunque sia la distribuzione di X:
almeno il 75% delle osservazioni su X sono contenute nell’intervallo µ - 2σ; µ + 2σ
almeno l’89% delle osservazioni su X sono contenute nell’intervallo µ - 3σ; µ + 3σ
Utilizzando tale risultato, vengono considerati come possibili valori anomali quei valori che si
discostano dalla media (aritmetica) per più di 3 volte lo scarto quadratico medio.
Ovviamente, in ogni caso è necessario considerare la distribuzione nella sua interezza, e vedere se i
punteggi troppo alti o troppo bassi rappresentano casi isolati dal resto della distribuzione.
Distanza dai quartili. Un secondo criterio per stabilire quali sono i valori estremi fa riferimento al
range interquartile, dato dalla differenza tra terzo e primo quartile, cioè l’ampiezza dell’intervallo
entro cui cade il 50% delle osservazioni che occupano le posizioni centrali nella serie ordinata dei
dati (quindi le osservazioni “meno anomale”).
Viene considerato valore estremo un valore con
scostamento positivo dal terzo quartile superiore
a 1.5 volte il range interquartile o,
simmetricamente, un valore con scostamento
negativo dal primo quartile superiore (in valore
assoluto) a 1.5 volte il range interquartile.
Viene invece considerato valore anomalo un
valore con scostamento (positivo) dal terzo
quartile o (negativo) dal primo quartile
superiore a 3 volte il range interquartile.
In SPSS i valori estremi e anomali vengono
evidenziati rispettivamente con un cerchio e con
un asterisco come nella figura di fianco.
I valori anomali possono influenzare molti indicatori, come la media o la deviazione standard. Essi
possono anche influenzare gli indici di associazione tra le variabili come il coefficiente di
correlazione di Pearson.
In presenza di casi anomali che influenzano i risultati delle analisi è possibile utilizzare delle misure
di sintesi che risultano meno influenzate dalla presenza di tali valori. Ad esempio, la mediana
spesso può risultare più affidabile della media. Sono inoltre disponibili alcune misure di sintesi che
risultano “robuste” alla presenza di tali valori, come ad esempio la media troncata che viene
calcolata eliminando il 5% dei casi con punteggi più elevati e più bassi.
[Media, mediana, media troncata per distribuzioni asimmetriche]
In alcuni casi si può essere tentati di procedure alla rimozione di valori anomali che risultano
influenti, ovvero che hanno un impatto eccessivo sulle misure di sintesi che si vogliono considerare
(ad esempio la media, o il coefficiente di correlazione lineare). Tuttavia tale modo di procedere non
è sempre prudente, a meno che non si siano identificati i motivi che rendono un’osservazione
anomala e non si possa supporre che essa possa essere esclusa dall’analisi in quanto non coerente
con il collettivo di riferimento. Negli altri casi, non è sensato procedere alla rimozione delle
osservazioni anomale.
Supponiamo ad esempio che si stia studiando il reddito di una determinata classe lavorativa e che si
osservi un reddito eccezionalmente elevato rispetto agli altri. Se, in base alle informazioni a nostra
disposizione, siamo in grado di concludere che un reddito così elevato è spiegato dal fatto che
l’individuo in questione lavora in un’azienda molto particolare, o ha una mansione molto
particolare, di modo che non è omogeneo con il resto del collettivo, può essere sensato rimuovere
l’osservazione. Se invece redditi elevati sono rari ma possibili nel collettivo considerato,
rimuovendo l’osservazione anomala impoveriamo i risultati dell’indagine statistica, in quanto
escludiamo dall’analisi un determinato segmento di popolazione.