S4_variabilità-eterogeneità - Università degli Studi della Basilicata

Transcript

S4_variabilità-eterogeneità - Università degli Studi della Basilicata
Indici di variabilità ed
eterogeneità
Corso di STATISTICA
Prof. Roberta Siciliano
Ordinario di Statistica, Università di Napoli Federico II
Professore supplente, Università della Basilicata
a.a. 2011/2012
Prof. Roberta Siciliano
Statistica
1
Obiettivi dell’unità didattica
•  Definire i concetti di base sulla variabilità ed eterogeneità
•  Richiamare l’attenzione su alcune proprietà della varianza
Contenuti
• 
• 
Indici di variabilità
–  Campo di variazione
–  Varianza, Scarto quadratico medio, Devianza
–  Coefficiente di variazione
–  Differenza interquartile
Indici di eterogeneità
–  Indice del Gini
–  Indice di entropia
Prof. Roberta Siciliano
Statistica
2
1
Generalità sulla variabilità
•  La variabilità è espressione dell’attitudine di
un carattere quantitativo ad assumere
diverse modalità
•  L’uso congiunto di indici di posizione ed
indici di variabilità permette di
comprendere la dispersione dei dati rispetto
alla centralità della distribuzione
•  Variabilità assoluta e relativa
Prof. Roberta Siciliano
Statistica
3
Variabilità e Dispersione
Consideriamo il seguente esempio di tre studenti
che hanno superato ciascuno tre esami:
È facile vedere che se calcoliamo il voto
medio e quello mediano per ciascun studente
esso è pari a 24
Prof. Roberta Siciliano
Statistica
4
2
Variabilità e Dispersione (cont.)
Possiamo dire che i tre studenti hanno uno stesso
comportamento agli esami?
Dall’esempio risulta evidente che da soli gli
indici di posizione non riescono a svelare
esaustivamente il “segreto” delle
distribuzioni!!
Prof. Roberta Siciliano
Statistica
5
Caratteristiche di un indice di variabilità
•  Assume valori maggiori o uguali a zero
•  E’ pari a zero quando il carattere si presenta con
una sola modalità distinta (assenza di variabilità)
•  E’ invariante (ossia non modifica il suo valore)
quando si aggiunge una costante a ciascun valore
della distribuzione
•  Assume valori crescenti all’aumentare della
variabilità
Prof. Roberta Siciliano
Statistica
6
3
Campo di variazione
V = max(X) − min(X) = x( N ) − x(1)
E’ un indice di variabilità assoluta
€
Prof. Roberta Siciliano
Statistica
7
Varianza
N
2
1
2
σ = ∑ ( x l − µ)
N l =1
K
2
1
2
σ = ∑ ( x i − µ) n i
N i=1
E’ un indice di variabilità assoluta
Prof. Roberta Siciliano
€
Statistica
8
4
Caratteristiche principali
•  È una media
•  Vale sempre che:
2
0 ≤σ ≤ ∞
Prof. Roberta Siciliano
Statistica
9
€
Consideriamo la distribuzione massimizzante la
variabilità
Ipotizziamo (come caso limite) che nella nostra
distribuzione abbiamo N-1 unità distinte con
modalità pari a 0 ed una sola unità con modalità
pari all’intero ammontare del carattere, ossia
Nµ
perché
1 N
µ = ∑ xl
N l =1
Tale assunzione presuppone che il carattere quantitativo
sia additivo e trasferibile, ossia è ipotizzabile distribuire
in maniera diversa l’ammontare complessivo del carattere
(i.e., il reddito, il numero di addetti, etc.)
€
Prof. Roberta Siciliano
€
Statistica
10
5
Determiniamo il massimo della varianza
Allora abbiamo:
σ
2
=
1
(0 − µ) 2 (N −1) + (Nµ − µ) 2 ] =
[
N
1 2
µ (N −1) + µ 2 (N −1) 2 ] =
[
N
1
= [ µ 2 (N −1)(1+ N −1)] =
N
1
= Nµ 2 (N −1) = µ 2 (N −1)
N
=
Prof. Roberta Siciliano
MAX
Statistica
11
€
La varianza può essere anche scritta come ….
σ
€
σ
2
2
N
N
2
1
1
= ∑ ( x l − µ) = ∑ x l2 − µ 2
N l =1
N l =1
2
1 N
1 N 2
= ∑ ( x l − µ) = ∑ ( x l − 2x l µ + µ 2 ) =
N l =1
N l =1
1 N 2
1 N
1
= ∑ x l − 2 µ ∑ x l + Nµ 2 =
N l =1
N l =1
N
1 N 2
1 N 2
2
2
= ∑ x l − 2µ + µ = ∑ x l − µ 2
N l =1
N l =1
Prof. Roberta Siciliano
Statistica
12
€
6
Scarto Quadratico Medio
σ=
2
1 N
∑ ( x − µ)
N l =1 l
σ=
2
1 K
x
−
µ
ni
(
)
∑
i
N i=1
E’ un indice di variabilità assoluta
€
Prof. Roberta Siciliano
Statistica
13
Perché è utile lo s.q.m.
Il problema principale della varianza è che
è espressa nell’unità di misura del fenomeno
al quadrato!!!!
Lo scarto quadratico medio risolve questo
problema!!!!
Prof. Roberta Siciliano
Statistica
14
7
Coefficiente di Variazione
σ
CV =
µ
E’ un indice di variabilità relativa
€
Prof. Roberta Siciliano
Statistica
15
Determiniamo il massimo del coefficiente di
variazione nell’ipotesi di distribuzione
massimizzante la variabilità
Sappiamo che:
0 ≤ σ 2 ≤ µ 2 (N −1) ⇒ 0 ≤ σ ≤ µ N −1
0≤
€
σ
≤ N −1
µ
€
€
Prof. Roberta Siciliano
Statistica
16
8
Coefficiente di Variazione
normalizzato
CVnorm
CV
=
N −1
con 0 ≤ CVN ≤ 1
E’ un indice normalizzato
€
€
Prof. Roberta Siciliano
Statistica
17
Proprietà della varianza
Consideriamo una variabile X e consideriamo la seguente
trasformazione lineare:
abbiamo che:
σY2 = β 2σX2
Prof. Roberta Siciliano
Statistica
18
€
9
Proprietà della varianza
Consideriamo una variabile X e consideriamo la seguente
trasformazione lineare:
Y = βX + α
abbiamo che:
σY2 = β 2σX2
€ ossia, aggiungendo o sottraendo una costante fissa a ciascun
termine della distribuzione non modifica la variabilità della
distribuzione stessa
Prof. Roberta Siciliano
Statistica
19
€
Altri indici di variabilità
Median Absolute Deviation (MAD)
[
(
MAD = 1.8426 median x l − Me l = 1,...,N
)]
Differenza Interquartile
D = Q3 − Q1
€
Prof. Roberta Siciliano
Statistica
20
€
10
Eterogeneità e omogeneità
•  Indici di eterogeneità o di omogeneità
possono essere calcolati per dati qualitativi
e quantitativi quantitativi operando
unicamente sulle frequenze.
•  Eterogeneità per dati qualitativi: mutabilità
•  Omogeneità per dati quantitativi:
concentrazione
Prof. Roberta Siciliano
Statistica
21
Omogeneità vs. eterogeneità
•  Massima omogeneità:
tutte le unità presentano
la stessa modalità di X
f i* = 1
fi = 0 i ≠ i *
fi =
1
K
i = 1,…,K
•  Massima eterogeneità:
le unità si distribuiscono
uniformemente tra
€
le K modalità distinte di X
Prof. Roberta Siciliano
€Statistica
22
11
L’indice di eterogeneità di Gini
K
H = 1 − ∑ f i2
i=1
•  In presenza di massima omogeneità
•  In presenza di massima eterogeneità
€
H max
⎛ 1 ⎞ 2
⎛ 1 ⎞ K −1
= 1 − ∑ f i = 1 − ∑⎜ ⎟ = 1 − K ⎜ 2 ⎟ =
⎝ K ⎠
⎝ K ⎠
K
2
Prof. Roberta Siciliano
Statistica
23
€
L’indice “normalizzato” di Gini
1 − ∑ fi
H
H norm =
=
K −1
H max
K
con 0 ≤ H norm ≤ 1
€
Prof. Roberta Siciliano
Statistica
2
24
12
Indice di Entropia di Shannon
H S = −∑ f i log( f i )
Indice normalizzato di Entropia di Shannon
H S norm =
€
Prof. Roberta Siciliano
−∑ f i log( f i )
log(K )
Statistica
25
€
13