S4_variabilità-eterogeneità - Università degli Studi della Basilicata

Transcript

Indici di variabilità ed
eterogeneità
Corso di STATISTICA
Prof. Roberta Siciliano
Ordinario di Statistica, Università di Napoli Federico II
Professore supplente, Università della Basilicata
a.a. 2011/2012
Statistica
1
Obiettivi dell’unità didattica
•  Definire i concetti di base sulla variabilità ed eterogeneità
•  Richiamare l’attenzione su alcune proprietà della varianza
Contenuti
• 
• 
Indici di variabilità
–  Campo di variazione
–  Varianza, Scarto quadratico medio, Devianza
–  Coefficiente di variazione
–  Differenza interquartile
Indici di eterogeneità
–  Indice del Gini
–  Indice di entropia
Statistica
2
1
Generalità sulla variabilità
•  La variabilità è espressione dell’attitudine di
un carattere quantitativo ad assumere
diverse modalità
•  L’uso congiunto di indici di posizione ed
indici di variabilità permette di
comprendere la dispersione dei dati rispetto
alla centralità della distribuzione
•  Variabilità assoluta e relativa
Statistica
3
Variabilità e Dispersione
Consideriamo il seguente esempio di tre studenti
che hanno superato ciascuno tre esami:
È facile vedere che se calcoliamo il voto
medio e quello mediano per ciascun studente
esso è pari a 24
Statistica
4
2
Variabilità e Dispersione (cont.)
Possiamo dire che i tre studenti hanno uno stesso
comportamento agli esami?
Dall’esempio risulta evidente che da soli gli
indici di posizione non riescono a svelare
esaustivamente il “segreto” delle
distribuzioni!!
Statistica
5
Caratteristiche di un indice di variabilità
•  Assume valori maggiori o uguali a zero
•  E’ pari a zero quando il carattere si presenta con
una sola modalità distinta (assenza di variabilità)
•  E’ invariante (ossia non modifica il suo valore)
quando si aggiunge una costante a ciascun valore
della distribuzione
•  Assume valori crescenti all’aumentare della
variabilità
Statistica
6
3
Campo di variazione
V = max(X) − min(X) = x( N ) − x(1)
E’ un indice di variabilità assoluta
€
Statistica
7
Varianza
N
2
1
2
σ = ∑ ( x l − µ)
N l =1
K
2
1
2
σ = ∑ ( x i − µ) n i
N i=1
€
Statistica
8
4
Caratteristiche principali
•  È una media
•  Vale sempre che:
2
0 ≤σ ≤ ∞
Statistica
9
€
Consideriamo la distribuzione massimizzante la
variabilità
Ipotizziamo (come caso limite) che nella nostra
distribuzione abbiamo N-1 unità distinte con
modalità pari a 0 ed una sola unità con modalità
pari all’intero ammontare del carattere, ossia
Nµ
perché
1 N
µ = ∑ xl
N l =1
Tale assunzione presuppone che il carattere quantitativo
sia additivo e trasferibile, ossia è ipotizzabile distribuire
in maniera diversa l’ammontare complessivo del carattere
(i.e., il reddito, il numero di addetti, etc.)
€
€
Statistica
10
5
Determiniamo il massimo della varianza
Allora abbiamo:
σ
2
=
1
(0 − µ) 2 (N −1) + (Nµ − µ) 2 ] =
[
N
1 2
µ (N −1) + µ 2 (N −1) 2 ] =
[
N
1
= [ µ 2 (N −1)(1+ N −1)] =
N
1
= Nµ 2 (N −1) = µ 2 (N −1)
N
=
MAX
Statistica
11
€
La varianza può essere anche scritta come ….
σ
€
σ
2
2
N
N
2
1
1
= ∑ ( x l − µ) = ∑ x l2 − µ 2
N l =1
N l =1
2
1 N
1 N 2
= ∑ ( x l − µ) = ∑ ( x l − 2x l µ + µ 2 ) =
N l =1
N l =1
1 N 2
1 N
1
= ∑ x l − 2 µ ∑ x l + Nµ 2 =
N l =1
N l =1
N
1 N 2
1 N 2
2
2
= ∑ x l − 2µ + µ = ∑ x l − µ 2
N l =1
N l =1
Statistica
12
€
6
Scarto Quadratico Medio
σ=
2
1 N
∑ ( x − µ)
N l =1 l
σ=
2
1 K
x
−
µ
ni
(
)
∑
i
N i=1
€
Statistica
13
Perché è utile lo s.q.m.
Il problema principale della varianza è che
è espressa nell’unità di misura del fenomeno
al quadrato!!!!
Lo scarto quadratico medio risolve questo
problema!!!!
Statistica
14
7
Coefficiente di Variazione
σ
CV =
µ
E’ un indice di variabilità relativa
€
Statistica
15
Determiniamo il massimo del coefficiente di
variazione nell’ipotesi di distribuzione
massimizzante la variabilità
Sappiamo che:
0 ≤ σ 2 ≤ µ 2 (N −1) ⇒ 0 ≤ σ ≤ µ N −1
0≤
€
σ
≤ N −1
µ
€
€
Statistica
16
8
Coefficiente di Variazione
normalizzato
CVnorm
CV
=
N −1
con 0 ≤ CVN ≤ 1
E’ un indice normalizzato
€
€
Statistica
17
Proprietà della varianza
Consideriamo una variabile X e consideriamo la seguente
trasformazione lineare:
abbiamo che:
σY2 = β 2σX2
Statistica
18
€
9
Proprietà della varianza
Consideriamo una variabile X e consideriamo la seguente
trasformazione lineare:
Y = βX + α
abbiamo che:
σY2 = β 2σX2
€ ossia, aggiungendo o sottraendo una costante fissa a ciascun
termine della distribuzione non modifica la variabilità della
distribuzione stessa
Statistica
19
€
Altri indici di variabilità
Median Absolute Deviation (MAD)
[
(
MAD = 1.8426 median x l − Me l = 1,...,N
)]
Differenza Interquartile
D = Q3 − Q1
€
Statistica
20
€
10
Eterogeneità e omogeneità
•  Indici di eterogeneità o di omogeneità
possono essere calcolati per dati qualitativi
e quantitativi quantitativi operando
unicamente sulle frequenze.
•  Eterogeneità per dati qualitativi: mutabilità
•  Omogeneità per dati quantitativi:
concentrazione
Statistica
21
Omogeneità vs. eterogeneità
•  Massima omogeneità:
tutte le unità presentano
la stessa modalità di X
f i* = 1
fi = 0 i ≠ i *
fi =
1
K
i = 1,…,K
•  Massima eterogeneità:
le unità si distribuiscono
uniformemente tra
€
le K modalità distinte di X
€Statistica
22
11
L’indice di eterogeneità di Gini
K
H = 1 − ∑ f i2
i=1
•  In presenza di massima omogeneità
•  In presenza di massima eterogeneità
€
H max
⎛ 1 ⎞ 2
⎛ 1 ⎞ K −1
= 1 − ∑ f i = 1 − ∑⎜ ⎟ = 1 − K ⎜ 2 ⎟ =
⎝ K ⎠
⎝ K ⎠
K
2
Statistica
23
€
L’indice “normalizzato” di Gini
1 − ∑ fi
H
H norm =
=
K −1
H max
K
con 0 ≤ H norm ≤ 1
€
Statistica
2
24
12
Indice di Entropia di Shannon
H S = −∑ f i log( f i )
Indice normalizzato di Entropia di Shannon
H S norm =
€
−∑ f i log( f i )
log(K )
Statistica
25
€
13

S4_variabilità-eterogeneità - Università degli Studi della Basilicata

Transcript

Documenti analoghi

CV Roberta Toniolo

Palazzo della Borsa

tab. 1. Test di Cochran tè/assenza: socializzazione

Le distribuzioni statistiche Obiettivi dell`unità didattica

metodi quantitativi per le decisioni aziendali

Nasce in Cattolica il Laboratorio di Statistica Applicata alle decisioni

“preziosi” in asta al credito siciliano sostengono la

locandina - Centro Culturale San Paolo

S9_modelli di probabilità - Università degli Studi della Basilicata

IRAA theatre: non aprite quella porta

IL CARRETTO SICILIANO - Agrigento incoming

Un petalo rosa per non dimenticare