Box plot: una rappresentazione sintetica della distribuzione Il box

Transcript

Box plot: una rappresentazione sintetica della distribuzione Il box
Box plot: una rappresentazione sintetica della distribuzione
Il box plot o diagramma a scatola e baffi, è un grafico, relativo a caratteri quantitativi - ottenuto a
partire dai 5 numeri di sintesi [minimo, 1° quartile (Q1), mediana, 3° quartile (Q3), massimo] - che
descrive le caratteristiche salienti della distribuzione. Si ottiene riportando su un asse verticale
(oppure orizzontale) i 5 numeri di sintesi. La scatola del box plot ha come estremi inferiore e
superiore rispettivamente Q1 e Q3. La mediana divide la scatola in due parti. I baffi si ottengono
congiungendo Q1 al minimo e Q3 al massimo. In alcuni grafici (ad esempio, quello ottenuto con
SPSS) il baffo ha lunghezza pari a 1.5 volte l’altezza della scatola, data dalla distanza tra Q3 e Q1 –
detto anche range interquartile; ovviamente è inferiore se il massimo valore osservato dista da Q3
meno di 1.5 volte il range interquartile.
Confrontando tra loro le lunghezze dei due baffi (che rappresentano le distanze tra Q1 e il minimo e
tra Q3 e il massimo) e le altezze dei due rettangoli che costituiscono la scatola (che rappresentano le
distanze tra Q1 e mediana e tra mediana e Q3) si ottengono informazioni sulla simmetria della
distribuzione: questa è tanto più simmetrica quanto le lunghezze dei baffi risultano simili tra loro e
le altezze dei due rettangoli risultano simili tra loro.
I baffi mettono inoltre in evidenza la presenza di eventuali outliers (osservazioni eccezionali)
[Valori estremi e outliers].
Per rappresentare una distribuzione in modo sintetico, il box plot è un’ottima possibilità: con poche
informazioni, si riesce a comprendere la sua forma, simmetrica o asimmetrica che sia.
Ad esempio, in questa figura notiamo che il box plot evidenzia efficacemente l’asimmetria della
distribuzione del carattere.
50
45
0.07
40
0.06
35
30
25
0.05
Massimo
3° Quartile
0.04
Mediana
0.03
1° Quartile
20
Minimo
0.02
15
0.01
10
0
5
Variabile X
0
Da notare inoltre, che il box plot dà una rappresentazione univoca della distribuzione, a differenza
dell’istogramma che può dare rappresentazioni diverse a seconda degli estremi delle classi scelte.
Ad esempio, nella pagina di seguito sono riportati 3 istogrammi relativi ad uno stesso carattere, ma
ottenuti scegliendo un numero differente di classi di diversa ampiezza.
Il box plot relativo alla distribuzione, però, non varia.
0.009
0.012
0.008
0.007
Densità
D e n s i tà
0.01
0.008
0.006
0.006
0.005
0.004
0.003
0.004
0.002
0.002
0.001
0
0
X
X
350
300
0.01
250
Densità
0.008
Massimo
200
0.006
3° Quartile
Mediana
0.004
150
0.002
100
0
50
1° Quartile
Minimo
Variabile X
0