Media, mediana, media troncata per distribuzioni asimmetriche Ogni
Transcript
Media, mediana, media troncata per distribuzioni asimmetriche Ogni
Media, mediana, media troncata per distribuzioni asimmetriche Ogni qual volta vogliamo avere delle informazioni sulla forma di una distribuzione, ovvero sulla sua simmetria o asimmetria, possiamo sfruttare strumenti diversi, sia grafici che non. Il box plot, ad esempio, ci dà un’idea sia del range in cui è concentrato il 50% delle osservazioni che occupano i valori centrali della distribuzione, che delle “code” della distribuzione. Una coda particolarmente lunga a destra come nella figura sottostante ci farà pensare che la distribuzione è asimmetrica a destra. Informazioni analoghe si possono ottenere confrontando la mediana con la media interquartile (media tra il primo e il terzo quartile): la distribuzione si dice obliqua a destra se la mediana risulta più piccola rispetto alla media interquartile, e obliqua a sinistra se invece è la media interquartile a precedere la mediana. BOX-WHISKER PLOT 1 350 300 Massimo 250 3° Quartile 200 Mediana 150 Variabile X Valore Indice 72 Minimo 104 1° Quartile 128 Mediana 160 3° Quartile 286 Massimo 132 Media interquartile 1° Quartile 100 Minimo 50 0 Variabile X Quando vogliamo sintetizzare una distribuzione molto asimmetrica con una misura di tendenza centrale, dobbiamo tenere conto del fatto che la media, la misura di sintesi più comunemente utilizzata è una misura non robusta. Ciò significa che la media è un indicatore sensibile ai valori estremi della distribuzione, e verrà quindi “attratta” da essi. In questo caso, quindi, la media sarà influenzata dai valori che si trovano sulla “coda” (destra o sinistra) della distribuzione, quindi risulterà una sintesi poco efficace della massa di dati “più tipici”. Quando vogliamo utilizzare una misura di sintesi che descriva adeguatamente i dati più tipici, conviene allora utilizzarne una meno sensibile ai valori anomali. La più nota è la mediana, il valore che occupa la posizione centrale nella serie ordinata dei dati (o, anche, che viene preceduta e seguita dallo stesso numero di osservazioni nella serie ordinata dei dati). Un’altra possibilità è costituita dalla cosiddetta media troncata. Questa è la media della distribuzione troncata ad una soglia fissata, di solito, al 5%, e non è altro se non la media calcolata sul 95% delle osservazioni che occupano i valori centrali della distribuzione. Di fatto, nel calcolo della media, si trascura una parte residuale della distribuzione, dove i valori sono più estremi. Ovviamente, se la distribuzione è obliqua a destra, la mediana e la media troncata risulteranno inferiori alla media. Relazione opposta legherà le misure nel caso di distribuzione obliqua a sinistra. Naturalmente, le differenze tra le misure di sintesi vanno valutate utilizzando un termine di paragone. La stessa differenza tra media e la mediana, ad esempio, va valutata tenendo conto del campo di variazione del carattere. Se il campo di variazione è molto esteso, la differenza tra media e mediana può essere giudicata come “relativamente” piccola. Al contrario, quando il campo di variazione è contenuto, anche una piccola differenza tra media e mediana può essere giudicata “relativamente” grande.