Media, mediana, media troncata per distribuzioni asimmetriche Ogni

Transcript

Media, mediana, media troncata per distribuzioni asimmetriche Ogni
Media, mediana, media troncata per distribuzioni asimmetriche
Ogni qual volta vogliamo avere delle informazioni sulla forma di una distribuzione, ovvero sulla
sua simmetria o asimmetria, possiamo sfruttare strumenti diversi, sia grafici che non.
Il box plot, ad esempio, ci dà un’idea sia del range in cui è concentrato il 50% delle osservazioni
che occupano i valori centrali della distribuzione, che delle “code” della distribuzione. Una coda
particolarmente lunga a destra come nella figura sottostante ci farà pensare che la distribuzione è
asimmetrica a destra. Informazioni analoghe si possono ottenere confrontando la mediana con la
media interquartile (media tra il primo e il terzo quartile): la distribuzione si dice obliqua a destra se
la mediana risulta più piccola rispetto alla media interquartile, e obliqua a sinistra se invece è la
media interquartile a precedere la mediana.
BOX-WHISKER PLOT 1
350
300
Massimo
250
3° Quartile
200
Mediana
150
Variabile X
Valore Indice
72
Minimo
104
1° Quartile
128
Mediana
160
3° Quartile
286
Massimo
132
Media interquartile
1° Quartile
100
Minimo
50
0
Variabile X
Quando vogliamo sintetizzare una distribuzione molto asimmetrica con una misura di tendenza
centrale, dobbiamo tenere conto del fatto che la media, la misura di sintesi più comunemente
utilizzata è una misura non robusta. Ciò significa che la media è un indicatore sensibile ai valori
estremi della distribuzione, e verrà quindi “attratta” da essi.
In questo caso, quindi, la media sarà influenzata dai valori che si trovano sulla “coda” (destra o
sinistra) della distribuzione, quindi risulterà una sintesi poco efficace della massa di dati “più
tipici”.
Quando vogliamo utilizzare una misura di sintesi che descriva adeguatamente i dati più tipici,
conviene allora utilizzarne una meno sensibile ai valori anomali. La più nota è la mediana, il valore
che occupa la posizione centrale nella serie ordinata dei dati (o, anche, che viene preceduta e seguita
dallo stesso numero di osservazioni nella serie ordinata dei dati).
Un’altra possibilità è costituita dalla cosiddetta media troncata. Questa è la media della
distribuzione troncata ad una soglia fissata, di solito, al 5%, e non è altro se non la media calcolata
sul 95% delle osservazioni che occupano i valori centrali della distribuzione. Di fatto, nel calcolo
della media, si trascura una parte residuale della distribuzione, dove i valori sono più estremi.
Ovviamente, se la distribuzione è obliqua a destra, la mediana e la media troncata risulteranno
inferiori alla media. Relazione opposta legherà le misure nel caso di distribuzione obliqua a sinistra.
Naturalmente, le differenze tra le misure di sintesi vanno valutate utilizzando un termine di
paragone. La stessa differenza tra media e la mediana, ad esempio, va valutata tenendo conto del
campo di variazione del carattere. Se il campo di variazione è molto esteso, la differenza tra media e
mediana può essere giudicata come “relativamente” piccola. Al contrario, quando il campo di
variazione è contenuto, anche una piccola differenza tra media e mediana può essere giudicata
“relativamente” grande.