Statistica 1 A.A. 2015/2016

Transcript

Statistica 1 A.A. 2015/2016
Corso di Laurea in
“Economia e Finanza”
Statistica 1
A.A. 2015/2016
(8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione)
Prof. Luigi Augugliaro
1 / 81
La variabilità: esiste la Statistica perché il mondo è vario
Introduzione
Nell’immaginario popolare la Statistica è spesso associata alla famosa poesia di
Trilussa:
. . . te tocca un pollo all’anno e, se
non entra nelle spese tue t’entra ne
la statistica lo stesso perch’é c’è un
antro che ne magna due . . .
Trilussa aveva ragione: la media aritmetica tra 0 (polli mangiati dal protagonista
della poesia) e 2 (polli mangiati all’antro della poesia) è proprio 1!
L’esempio precedente mostra che esistono situazioni in cui la media aritmetica
fornisce informazioni che contraddicono la realtà.
2 / 81
Di seguito vengono riportati i redditi medi mensili rilevati su cinque famiglie residenti
al Nord, su cinque famiglie residenti al Centro e su cinque famiglie residenti al Sud.
Nord
Centro
Sud
1199.999
1198.620
1186.200
1199.994
1193.720
1137.200
1200.000
1199.620
1196.200
1200.003
1203.020
1230.200
1200.004
1205.020
1250.200
Sulla base della descrizione del fenomeno, possiamo utilizzare le medie secondo
Chisini per sintetizzare i dati; dato che il fenomeno ha natura additiva si ricava che
possiamo utilizzare la media aritmetica semplice:
x̄n =
6000
6000
6000
= 1200 x̄c =
= 1200 x̄s =
= 1200
5
5
5
3 / 81
Il livello di rappresentatività di una media
L’esempio precedente mostra che i tre campioni (Nord, Centro e Sud) sono indistinguibili
mediante l’utilizzo della sola misura di tendenza centrale.
In questo caso ha senso chiedersi se x̄ sintetizza in ugual modo i campioni considerati. A
tal fine consideriamo i quadrati degli scarti tra i valori osservati e le medie calcolate:
Nord
Centro
Sud
0.000001
1.904400
190.440000
0.000036
39.438400
3943.840000
(xi − x̄)2
0.000000
0.144400
14.440000
0.000009
9.120400
912.040000
0.000016
25.200400
2520.040000
L’esempio precedente mostra che la misura di tendenza centrale utilizzata è un’ottima
misura di sintesi quando studiamo i redditi delle famiglie residenti al nord; in questo caso
i valori rilevati sono molto vicini alla propria media aritmetica semplice.
Quando consideriamo i campioni provenienti dal centro e dal sud, si osserva che la capacità
di sintesi della media aritmetica semplice si riduce (i valori osservati si allontanano dalla
propria misura di tendenza centrale).
4 / 81
Definizione
La variabilità esprime la tendenza delle unità statistiche ad assumere diverse
modalità del carattere.
Le costanti sintetiche sviluppate per misurare la variabilità prendono il nome di
indici di variabilità. Gli indici di variabilità si dividono in due grosse categorie:
indici di variabilità assoluta;
indici di variabilità relativa;
5 / 81
Gli indici di variabilità assoluta
Tutti gli indici di variabilità assoluta soddisfano le seguenti proprietà:
i. risultano nulli se e solo se tutti gli xi sono uguali fra loro;
ii. assumono valori positivi se i valori xi risultano diversi fra di loro. I valori degli
indici risultano tanto più elevati quanto più elevata è la variabilità fra le xi ;
iii. ogni indice risulta invariante per traslazione: il valore fornito dall’indice non
cambia se si aggiunge una costante a ciascun xi ;
iv. la misura di variabilità è espressa nella stessa unità di misura dei valori xi .
6 / 81
Gli indici di variazione
Gli indici di variazione trovano applicazione quando la serie statistica deriva da
osservazioni fatte su n unità statistiche distinte.
In questo contesto le medie di riferimento traggono origine dalla definizione di
Chisini e dalla natura del fenomeno oggetto di studio.
Se si assume che il fenomeno ha natura additiva, la famiglia di indici a cui si
perviene ha espressione
r Pn
m
m
i=1 |xi − x̄a |
Vm =
,
(1)
n
dove m è una quantità maggiore di zero. Gli indici che si ricavano dall’espressione
(1) al variare del parametro m prendono il nome di indici di variazione.
7 / 81
Per m = 1, dalla generica espressione
r Pn
Vm =
m
i=1
|xi − x̄a |m
,
n
si ricava l’indice di variazione
Pn
V1 =
i=1
|xi − x̄a |
n
il quale prende il nome di scostamento o scarto semplice medio dalla media.
L’indice V1 misura di quanto in media semplice i valori xi si scostano dalla media
aritmetica semplice.
8 / 81
Per m = 2, dalla generica espressione
r Pn
Vm =
m
i=1
|xi − x̄a |m
,
n
si ricava l’indice di variazione
r Pn
V2 =
i=1 (xi
− x̄a )2
n
il quale prende il nome di scarto quadratico medio (o deviazione standard). L’indice V2 misura di quanto in media quadratica quadratica i valori xi si scostano dalla
media aritmetica semplice.
9 / 81
Il quadrato dell’indice V2 , ovvero:
V22 =
Pn
i=1 (xi
− x̄a )2
n
è noto in letteratura come varianza.
Benché la varianza non sia un indice di variabilità, dato che è espressa nel quadrato
dell’unità di misura dei dati, essa svolge un ruolo centrale nella costruzione di diverse
metodologie statistiche sia descrittive che inferenziali.
Il numeratore della varianza, ovvero
Devx =
n
X
(xi − x̄a )2
i=1
prende il nome di devianza.
10 / 81
Di seguito vengono riportati i redditi mensili rilevati su 10 famiglie.
1496.84
1501.07
1498.34
1501.01
1497.19
1492.57
1500.36
1500.80
1501.06
1502.03
Calcolare gli indici di variazione per m uguale ad 1 e 2.
11 / 81
Per facilitare il calcolo degli indici richiesti consideriamo la seguente tabella.
xi
1496.84
1501.07
1498.34
1501.01
1497.19
1492.57
1500.36
1500.80
1501.06
1502.03
14991.27
xi − x̄a
-2.29
1.94
-0.79
1.88
-1.94
-6.56
1.23
1.67
1.93
2.90
|xi − x̄a |
2.29
1.94
0.79
1.88
1.94
6.56
1.23
1.67
1.93
2.90
23.14
(xi − x̄a )2
5.23
3.78
0.62
3.55
3.75
42.99
1.52
2.80
3.74
8.43
76.40
Da cui si ricava che il reddito medio mensile è pari a 1499.127. Gli indici di variazione
sono uguali a
V1
V2
=
23.14/10 = 2.314 (scostamento semplice medio dalla media)
p
76.40/10 = 2.76 (scarto quadratico medio)
=
12 / 81
La relazione che segue consente di ottenere una formula utile per il calcolo dello
scarto quadratico medio.
Consideriamo la varianza:
Pn
(xi − x̄a )2
2
V2 = i=1
n
=
" n
#
1 X 2
2
(xi + x̄a − 2xi x̄a ) =
n
i=1
=
=
=
1
=
n
1
n
1
n
n
X
xi2
i=1
n
X
i=1
n
X
i=1
xi2
+
n
X
x̄a2
−
i=1
+
nx̄a2
− 2x̄a
n
X
!
2xi x̄a
i=1
n
X
xi
!
=
i=1
!
xi2
+
nx̄a2
−
2nx̄a2
Pn
=
2
i=1 xi
n
− x̄a2 .
La formula precedente prende il nome di formula ridotta per il calcolo della
varianza.
13 / 81
Applicando la formula ridotta per il calcolo della varianza si ricava
xi
1496.84
1501.07
1498.34
1501.01
1497.19
1492.57
1500.36
1500.80
1501.06
1502.03
14991.27
xi2
2240529.99
2253211.14
2245022.76
2253031.02
2241577.90
2227765.20
2251080.13
2252400.64
2253181.12
2256094.12
22473894.02
quindi
x̄a
V2
14991.27
= 1499.127
r 10
22473894.02
=
− 1499.1272 = 2.76
10
=
14 / 81
La formula degli indici di variazione
r Pn
Vm =
m
i=1
|xi − x̄a |m
n
viene applicata quando si dispone di una serie statistica di valori. Quando si
dispone solamente della distribuzione di frequenze in classi, si ricorre alla sua
versione ponderata:
v
r Pn
u n
c − x̄ |m n
uX
|x
m
a
i
i=1 i
m
Vm =
= t
|xic − x̄a |m fi
n
i=1
dove xic sono i valori centrali delle classi, ni sono le frequenze assolute e x̄a è la
media aritmetica ponderata.
Osservazione: in questo caso la formula ridotta della varianza diventa
Pn
(x c )2 ni
2
− x̄a2 .
V2 = i=1 i
n
dove x̄a è la media aritmetica ponderata.
15 / 81
Esempio: il 22 gennaio 2015, l’ISTAT ha reso noti i dati relativi al fatturato
dell’industria per l’anno 2013. Di seguito è riportata la distribuzione di frequenze
del fatturato rilevato su un campione di 56 aziende.
Fatturato
50 a 60
60 a 70
70 a 80
80 a 90
90 a 100
Tot.
Calcolare la più adeguata misura di tendenza
ni
5
9
13
22
7
56
centra e di variabilità.
16 / 81
Dato che i dati sono rilevati su 53 aziende differenti, utilizzeremo l’approccio secondo Chisini per la scelta della misura di tendenza centrale. In questo caso calcoleremo la media aritmetica ponderata e valuteremo la variabilità tramite lo scarto
quadratico medio.
Consideriamo la seguente tabella
Fatturato
50 a 60
60 a 70
70 a 80
80 a 90
90 a 100
Tot.
ni
5
9
13
22
7
56
xic
55
65
75
85
95
xic · ni
275
585
975
1870
665
4370
(xic )2
3025
4225
5625
7225
9025
(xic )2 · ni
15125
38025
73125
158950
63175
348400
da cui si ricava
x̄a
V2
4370
= 78.04
r56
√
348400
=
− 78.042 = 131.19 = 11.45
56
=
17 / 81
Gli indici di dispersione
Gli indici di dispersione fanno riferimento a dati che derivano da misure ripetute
della stessa grandezza incognita X e quindi affetti da errore.
Sotto ipotesi di additività della componente erratica (i ) il modello
xi = X + i ,
consente di definite la migliore combinazione dei dati, denotata con x̄p−1 , che
minimizza la funzione di perdita dell’informazione. La quantità x̄p−1 viene definita
media decisionale.
18 / 81
In presenza di dati derivanti da misure ripetute (dati omogenei), la variabilità dei dati
può essere misurata mediante uno degli indici appartenenti alla famiglia parametrica
degli indici di dispersione
r Pn
|xi − x̄p−1 |p
,
(2)
n
dove il parametro p > 0 dipende dalla natura probabilistica degli errori accidentali.
σp =
p
i=1
19 / 81
Osservazione
E’ importante osservare che, benché la formula degli indici di dispersione, ovvero
r Pn
p
p
i=1 |xi − x̄p−1 |
,
σp =
n
sia molto simile alla formula degli indici di variazione
r Pn
m
m
i=1 |xi − x̄a |
,
Vm =
n
esiste una differenza sostanziale tra di loro: nella formula degli indici di dispersione
la scelta del parametro p influenza anche la scelta del valore medio (x̄p−1 ); negli
indici di variazione la media aritmetica semplice (x̄a ) è sempre utilizzare come valore
medio indipendentemente dal valore del parametro m.
20 / 81
Indice di dispersione
r Pn
p
p
i=1 |xi − x̄p−1 |
σp =
n
Indice di variazione
r Pn
m
m
i=1 |xi − x̄a |
Vm =
,
n
Per p = 1 si ricava l’indice di
dispersione
Pn
|xi − x̄0 |
σ1 = i=1
n
Per m = 1 si ricava l’indice di
variazione
Pn
|xi − x̄a |
V1 = i=1
n
il quale prende il nome di scostamento o scarto semplice medio
dalla mediana. L’indice σ1 misura di quanto in media semplice
i valori xi si scostano dal valore
mediano.
il quale prende il nome di scostamento o scarto semplice medio
dalla media. L’indice V1 misura di quanto in media semplice i
valori xi si scostano dalla media
aritmetica semplice.
21 / 81
Indice di dispersione
r Pn
p
p
i=1 |xi − x̄p−1 |
σp =
n
Indice di variazione
r Pn
m
m
i=1 |xi − x̄a |
Vm =
,
n
Per p = 2 si ricava l’indice di
dispersione
r Pn
2
i=1 (xi − x̄1 )
σ2 =
n
Per m = 2 si ricava l’indice di
variazione
r Pn
2
i=1 (xi − x̄a )
V2 =
n
il quale prende il nome di scarto
quadratico medio (o deviazione
standard). L’indice σ2 misura di
quanto in media quadratica quadratica i valori xi si scostano dalla
media aritmetica semplice.
il quale prende il nome di scarto
quadratico medio (o deviazione
standard). L’indice V2 misura di
quanto in media quadratica quadratica i valori xi si scostano dalla
media aritmetica semplice.
Note: dato il ruolo centrale dello scarto quadratico medio e della varianza, si è
soliti semplificare la notazione utilizzando i simboli σ e σ 2 .
22 / 81
Quando p → +∞, dalla formula
r Pn
σp =
p
i=1
|xi − x̄p−1 |p
n
si ricava
x(n) − x(1)
2
il quale prende il nome di semi-intervallo di variazione.
σ∞ =
In letteratura l’indice
2σ∞ = x(n) − x(1)
prende il nome di intervallo di variazione e costituisce un indice di variabilità
assoluta parziale spesso impiegato per ottenere una valutazione approssimata della
variabilità.
23 / 81
La seguente tabella riporta 15 misure sperimentali rilevate in un punto di un circuito
elettrico tramite voltmetro digitale.
4.073
4.630
5.426
4.192
4.990
5.538
4.296
5.011
6.011
4.492
5.099
6.291
4.514
5.185
6.839
Misurare la variabilità dei dati riportati in tabella attraverso l’utilizzo degli indici di
dispersione definiti per p = 1, 2 e per p → +∞.
24 / 81
Per poter calcolare gli indici di dispersione richiesti è necessario calcolare le medie
decisionali corrispondenti a p = 1, 2 e p → +∞.
Dopo aver ordinato i dati in ordine crescente
4.073
4.630
5.426
4.192
4.990
5.538
4.296
5.011
6.011
4.492
5.099
6.291
4.514
5.185
6.839
si ricavano le seguenti medie decisionali
x̄0
=
5.011
x̄1
=
x̄∞
=
5.106
x(15) + x(1)
= 5.456
2
25 / 81
xi
4.073
4.192
4.296
4.492
4.514
4.630
4.990
5.011
5.099
5.185
5.426
5.538
6.011
6.291
6.839
76.587
xi2
16.589
17.573
18.456
20.178
20.376
21.437
24.900
25.110
26.000
26.884
29.441
30.669
36.132
39.577
46.772
400.094
xi − x̄0
-0.938
-0.819
-0.715
-0.519
-0.497
-0.381
-0.020
0.000
0.089
0.174
0.415
0.527
1.000
1.280
1.829
1.424
|xi − x̄0 |
0.938
0.819
0.715
0.519
0.497
0.381
0.020
0.000
0.089
0.174
0.415
0.527
1.000
1.280
1.829
9.202
26 / 81
Mediante l’utilizzo dei dati riportati nella tabella precedente si ricava:
Pn
p=1
x̄0 = 5.011
p=2
x̄1 = 5.106
p → +∞
x̄∞ = 5.456
|xi − x̄0 |
9.202
=
= 0.613 Volt
n
15
r Pn
r
2
400.094
i=1 xi
σ2 =
− x̄02 =
− 5.1062 = 0.777 Volt
n
15
x(15) − x(1)
σ∞ =
= 1.383 Volt
2
σ1 =
i=1
27 / 81
In molte applicazioni non si dispone della serie originale dei dati, ma soltanto della
distribuzione di frequenze in classi. In questo caso l’espressione (2) viene sostituita
con
r Pn
σp =
p
c
i=1 |xi
− x̄p−1
n
|p n
i
v
u n
uX
p
=t
|xic − x̄p−1 |p fi ,
i=1
dove xic è il valore centrale della classe i-esima, ni è la corrispondente frequenza
assoluta e x̄p−1 è la media decisionale.
28 / 81
Esempio
Di seguito viene riportata la distribuzione di frequenza in classi ottenuta mediante un campione di 50 misurazioni sperimentali relative alle resistenze elettrice di
isolamento.
X
40 a 44
44 a 48
48 a 52
52 a 56
56 a 60
Totale
ni
2
10
25
11
2
50
Assumendo che gli errori seguano una distribuzione gaussiana, calcolare il più
opportuno indice di dispersione.
29 / 81
Assumendo che gli errori seguano una distribuzione gaussiana, il più opportuno
indice di dispersione è lo scarto quadratico medio.
X
40 a 44
44 a 48
48 a 52
52 a 56
56 a 60
Totale
xic
42
46
50
54
58
(xic )2
1764
2116
2500
2916
3364
ni
2
10
25
11
2
50
xic · ni
84
460
1250
594
116
2504
(xic )2 · ni
3528
21160
62500
32076
6728
125992
Utilizzando i dati in tabella si ricava che
x̄1
σ2
2504
= 50.08
r50
125992
=
− 50.082 = 3.44
50
=
30 / 81
Proprietà della varianza
Teorema
Sia x1 , x2 , . . . xn una serie statistica di dati e consideriamo la trasformata lineare
yi = α + βxi , con i = 1, 2, . . . , n. Indichiamo con σx2 la varianza calcolata sul primo
campione. Denotata con σy2 la varianza calcolata sui valori
y1 , y2 , . . . , yn ,
si dimostra che
σy2 = β 2 σx2 .
Dimostrazione
σy2
Pn
=
=
=
Pn
2
2
(yi − ȳa )
[α + βxi − (α + β x̄a )]
= i=1
=
n
n
Pn
P
n
2
[β(xi − x̄a )]2
i=1 (βxi − β x̄a )
= i=1
n
Pn n
2
(x
−
x̄
)
i
a
β 2 i=1
= β 2 σx2 .
n
i=1
31 / 81
Esempio: nel 2009 il prezzo di un determinato bene, denotato con X, è stato
caratterizzato da uno scarto quadratico medio pari a 56.76 euro. Sapendo che il
tasso di cambio Euro/Dollaro (USA) è 1.2283 (un euro equivale a 1.2283$) il
candidato calcoli lo scarto quadratico medio del prezzo del bene X valutato in
dollari.
Soluzione
Utilizzando il teorema si ricava che α = 0 , β = 1.2283 quindi lo scarto quadratico
medio del prezzo del bene X valutato in dollari è ottenuto mediante la formula
σy = |β|σx quindi σy = 1.2283 · 56.76 = 69.71831.
32 / 81
Il precedente teorema consente di dimostrare la proprietà di invarianza per traslazione dello scarto quadratico medio (proprietà iii. degli indici di variabilità
assoluta).
Corollario
Sia x1 , x2 , . . . xn una serie statistica di dati. Se si aggiunge una costante α ai valori
rilevati lo scarto quadratico medio non varia.
Dimostrazione
Aggiungere una costante α ai valori osservati è equivalente a definire la traslazione
yi = α + xi .
Dal teorema precedente si ricava che
σy = σx ,
dato che il parametro β è uguale ad 1.
33 / 81
Indici di diversità
Se consideriamo una variabile quantitativa di tipo discreto, derivante da enumerazioni, non ha senso logico calcolare le differenze di ciascun valore xi da una
media decisionale o da una media secondo il Chisini.
In questo caso risulta più conveniente valutare la variabilità dei valori osservati
mediante una opportuna media delle diversità fra i singoli valori, senza far ricorso
a valori medi di riferimento.
Gli indici statistici proposti per valutare la variabilità delle variabili quantitative
discrete sono chiamati indici di diversità.
34 / 81
Esempio: la tabella che segue riporta il numero di unità difettose prodotte da un
processo produttivo nel primo semestre dell’anno 2010.
8
1
3
5
6
9
35 / 81
Dato che il concetto di diversità si fonda sul confronto dei singoli valori, consideriamo la
seguente tabella.
N. guasti
1
3
5
6
8
9
1
0
2
4
5
7
8
3
2
0
2
3
5
6
N. guasti
5 6
4 5
2 3
0 1
1 0
3 2
4 3
8
7
5
3
2
0
1
9
8
6
4
3
1
0
La tabella precedente riporta il valore assoluto della differenza di tutte le possibili coppie
di valori osservati, ovvero |xi − xj |, con i 6= j. Sulla base dei precedenti valori, un primo
indici mediante il quale valutare la diversità è definito come media dei valori in tabella,
ovvero:
2 · 56
= 3.11 Differenza semplice media con ripetizione
R ∆1 =
62
Osservando che gli elementi sulla diagonale principale sono nulli, possiamo quantificare la
variabilità tramite la seguente formula
∆1 =
2 · 56
2 · 56
=
= 3.73
62 − 6
6(6 − 1)
Differenza semplice media senza ripetizione
36 / 81
In formule i due indici calcolati in precedenza, ovvero la differenza semplice media
con ripetizione e senza ripetizione, possono essere scritti nel seguente modo:
Pn
R ∆1
=
i,j=1
|xi − xj |
n2
i,j=1 |xi − xj |
Pn
∆1
=
n(n − 1)
E’ da notare che, per la simmetria della matrice di tutte le possibili difference in
coppie fra gli n valori osservati e per il fatto che la diagonale principale è composta
da valori nulli, il calcolo del numeratore degli indici precedenti può essere riscritto
nel seguente modo
n
X
X
|xi − xj | = 2
|xi − xj |
i,j=1
i<j
il quale consente di dimezzare il calcolo di tutte le possibile coppie.
37 / 81
La differenza semplice media con ripetizione e senza ripetizione sono casi particolari
di due famigli di indici di diversità:
Pn
R ∆m
=
i,j=1
=
!1/m
n2
Pn
∆m
|xi − xj |m
i,j=1
|xi − xj |m
n(n − 1)
,
(3)
,
(4)
!1/m
dove m > 0. La famiglia di indici di diversità definita tramite la formula (3) prende
il nome di differenza media potenziata di ordine m con ripetizione, mentre la
famiglia di indici definiti tramite la formula (4) prende il nome di differenza media
potenziata di ordine m senza ripetizione.
Note: Fra gli innumerevoli indici che si possono definire al variare del parametro m,
gli unici che vengono comunemente impiegati in pratica sono quelli corrispondenti
a m = 1.
38 / 81
L’esempio visto in precedenza mostrava il calcolo degli indici R ∆1 e ∆1 utilizzando una
serie di valori. Quando si dispone di una distribuzione di frequenze, la procedura mostrata
in precedenza si modifica al fine di tener conto delle frequenze assolute.
Esempio: di seguito si riportata la distribuzione di frequenze della variabile “numero di
unità difettose” prodotte da un processo produttivo nel primo semestre dell’anno 2010.
x
1
3
6
7
Totale
ni
1
2
2
1
6
Da cui si ricavano le matrici
N. guasti
1
3
6
7
N.
1
·
·
·
·
guasti
3 6
2 5
· 3
·
·
·
·
7
6
4
1
·
|xi − xj |ni · nj
1
3
6
7
|xi
1
·
·
·
·
− xj |ni · nj
3
6 7
4 10 6
· 12 8
·
· 2
·
·
·
39 / 81
Utilizzando la matrice
|xi − xj |ni · nj
1
3
6
7
|xi
1
·
·
·
·
− xj |ni · nj
3
6 7
4 10 6
· 12 8
·
· 2
·
· ·
si ricava che
R ∆1
=
∆1
=
2 · 42
= 2.33
62
2 · 42
= 2.8
6·5
40 / 81
Quando si lavora con una distribuzione di frequenze le formule (3) e (4), utilizzate
per il calcolo della differenza media potenziata di ordine m con e senza ripetizione,
vengono modificate nel seguente modo:
Pn
R ∆m
=
i,j=1
=
!1/m
,
n2
Pn
∆m
|xi − xj |m ni nj
i,j=1
|xi − xj |m ni nj
n(n − 1)
!1/m
.
Quando m è uguale ad 1 si ricava:
Pn
i,j=1 |xi − xj |ni nj
=
, Differenza semplice media con ripetizione
R ∆1
n2
Pn
i,j=1 |xi − xj |ni nj
∆1 =
. Differenza semplice media senza ripetizione
n(n − 1)
41 / 81
Esempio: il direttore di un centro di ricerca e sviluppo di un’azienda produttrice di
accessori per smartphone è interessato a valutare la performance di un nuovo tipo
di batteria. A tal fine è stata rilevata la variabile numero di ricariche settimanali.
Di seguito si riporta la distribuzione di frequenze ottenuta.
Ricariche
6
7
8
9
10
Tot.
ni
14
29
16
24
32
115
Valutare la variabilità tramite i più adeguati indici statistici.
42 / 81
Per valutare la variabilità della variabile numero di ricariche settimanali utilizziamo
gli indici R ∆1 e ∆1 . A tal fine costruiamo la tabella
ni
14
29
16
24
ni
X
6
7
8
9
14
6
·
·
·
·
29
7
406
·
·
·
16
8
448
464
·
·
24
9
1008
1392
384
·
32
10
1792
2784
1024
768
Dalla tabella precedente si ricava:
R ∆1
=
∆1
=
2 · 10470
= 1.58 (differenza semplice media con ripetizione)
1152
2 · 10470
= 1.60 (differenza semplice media senza ripetizione)
115 · 114
43 / 81
Esempio: Una delle problematiche più sentite nel mondo del commercio elettronico
è la sicurezza nelle modalità di pagamento. Al fine di evitare il furto di informazioni e
dei dati personali del venditore e del cliente, i siti di commercio elettronico utilizzano
livelli di crittografia elevati. Di seguito è riportata la distribuzione di frequenze della
variabile “numero mensile di furti di dati”.
X
0
1
2
3
4
5
Tot.
ni
5
8
9
8
4
2
36
Valutare la variabilità tramite i più adeguati indici statistici.
44 / 81
Per valutare la variabilità della variabile numero di ricariche settimanali utilizziamo
gli indici R ∆1 e ∆1 . A tal fine costruiamo la tabella
ni
5
8
9
8
4
ni
X
0
1
2
3
4
5
0
·
·
·
·
·
8
1
40
·
·
·
·
9
2
90
72
·
·
·
8
3
120
128
72
·
·
4
4
80
96
72
32
·
2
5
50
64
54
32
8
Dalla tabella precedente si ricava:
R ∆1
=
∆1
=
2 · 1010
= 1.59
362
2 · 1010
= 1.60
36 · 35
(differenza semplice media con ripetizione)
(differenza semplice media senza ripetizione)
45 / 81
Gli esempi precedenti mostrano che il calcolo degli indici di diversità si complica al
crescere della dimensione della matrice con tutte le possibili differenze a coppie. La
formula di De Finetti-Paciello consente il calcolo del numeratore degli indici R ∆1 e
∆1 senza ricorrere all’utilizzo della tabella.
Consideriamo la seguente distribuzione di frequenza.
xi
2
6
7
9
12
Totale
ni
3
5
6
4
2
20
46 / 81
Il calcolo della formula di De Finetti-Paciello si fonda sull’utilizzo delle frequenze
assolute cumulate. Consideriamo la seguente tabella.
xi
2
6
7
9
12
Totale
ni
3
5
6
4
2
20
nic
3
8
14
18
20
n − nic
20 − 3 = 17
20 − 8 = 12
20 − 14 = 6
20 − 18 = 2
nic (n − nic )
3 × 17 = 51
8 × 12 = 96
14 × 6 = 84
18 × 2 = 36
x(i+1) − x(i)
6−2=4
7−6=1
9−7=2
12 − 9 = 3
nic (n − nic )(x(i+1) − x(i) )
51 × 4 = 204
96 × 1 = 96
82 × 2 = 168
36 × 3 = 108
576
Utilizzando i dati riportati in tabella la formula di De Finetti-Paciello fornisce i
seguenti risultati
R ∆1
=
∆1
=
Pk−1
nic (n − nic )(x(i+1) − x(i) )
2 · 576
=
= 2.88
2
n
202
Pk−1 c
2 · i=1 ni (n − nic )(x(i+1) − x(i) )
2 · 576
=
= 3.03
n(n − 1)
20 · 19
2·
i=1
47 / 81
Esempio: Il direttore di un supermercato è interessato a valutare la distribuzione
del numero di prodotti giornalmente rubati. Di seguito si riporta la distribuzione di
frequenza ottenuta dopo 53 giorni lavorativi.
N. Prodotti
1
2
3
4
5
6
Totale
ni
4
7
8
8
11
15
53
Valutare la variabilità tramite i più adeguati indici statistici.
48 / 81
Per calcolare la differenza semplice media con e senza ripetizione, utilizziamo la
formula di De Finetti-Paciello. Consideriamo la seguente tabella.
xi
1
2
3
4
5
6
Totale
ni
4
7
8
8
11
15
53
nic
4
11
19
27
38
53
n − nic
49
42
34
26
15
nic (n − nic )
196
462
646
702
570
2576
Dato che le differenze x(i+1) − x(i) sono tutte uguali al valore 1, le ultime due
colonne possono essere omesse.
Utilizzando i dati riportati in tabella otteniamo i seguenti risultati
Pk−1
2 · i=1 nic (n − nic )(x(i+1) − x(i) )
2 · 2576
∆
=
=
= 1.83
R 1
n2
532
Pk−1
2 · i=1 nic (n − nic )(x(i+1) − x(i) )
2 · 2576
∆1 =
=
= 1.87
n(n − 1)
53 · 52
49 / 81
Indici di eterogeneità
Gli indici di variabilità fin qui presentati possono essere utilizzati solo per variabili
quantitative.
Definizione
L’eterogeneità misura la variabilità delle frequenze relative fi senza coinvolgere le
modalità del carattere in esame.
Se tutte le unità statistiche sono portatrici della medesima modalità del carattere
oggetto dello studio, diremo che l’eterogeneità è nulla o siamo in presenza di
massima concentrazione.
x
x1
x2
..
.
n
n1
0
..
.
f
1
0
..
.
f2
1
0
..
.
xk−1
xk
Totale
0
0
n
0
0
1
0
0
1
50 / 81
Se tutte le unità statistiche sono ripartite uniformemente fra le k modalità del
carattere, allora l’eterogeneità è massima o siamo in presenza di concentrazione
nulla:
x
x1
x2
..
.
n
n/k
n/k
..
.
f
1/k
1/k
..
.
f2
1/k 2
1/k 2
..
.
xk−1
xk
Totale
n/k
n/k
n
1/k
1/k
1
1/k 2
1/k 2
1/k
51 / 81
Per valutare l’eterogeneità di una distribuzione, utilizzeremo l’indice proposto da
Gini
k
X
0
eterogeneità nulla
G =1−
fi 2 =
1 − k1 = k−1
massima
eterogeneità
k
i=1
La versione normalizzata dell’indice di Gini è ottenuta rapportando l’indice G al suo
massimo valore
k
G0 =
G.
k −1
52 / 81
Esempio: supponiamo di aver rilevato su un gruppo di soggetti, separatamente
per i due sessi, il titolo di studio. Si vuole confrontare l’eterogeneità delle due
distribuzioni.
Femmine
xi
ni
fi
Lic. Media 2 0.17
Maturità
7 0.58
Laurea
3 0.25
Totale
12 1.00
Si ricava che G = 1 − 0.043 = 0.57 e G 0 =
kG
k−1
=
fi 2
0.03
0.34
0.06
0.43
3·0.57
3−1
= 0.85.
53 / 81
xi
Lic. Media
Maturità
Laurea
Totale
Uomini
ni
fi
4 0.27
6 0.40
5 0.33
15 1.00
fi 2
0.0729
0.1600
0.1089
0.3418
da cui si ricava che
G
=
0
=
G
1 − 0.3418 = 0.6582
kG
3 · 0.6582
=
= 0.9873
k −1
3−1
Si deduce che la distribuzione dei maschi è più eterogenea.
54 / 81
Gli indici di variabilità relativa
In molte applicazioni è utile confrontare la variabilità di due o più serie di valori.
In questo caso gli indici di variabilità assoluta, studiati nelle pagine precedenti, non
possono essere applicati per due ordini di motivi:
gli indici di variabilità assoluta sono espressi nella stessa unità di misura dei
dati quindi non consentono confronti fra serie di valori con diversa unità di
misura;
anche se le serie considerate sono espresse nella stessa unità di misura, possono
essere caratterizzate da un diverso ordine medio di grandezza.
In questi casi è necessario considerare gli indici di variabilità relativa. Gli indici di
variabilità relativa sono dei numeri puri, ossia numeri privi di unità di misura.
55 / 81
I coefficienti di variazione
Gli indici di variazione
r Pn
|xi − x̄a |m
,
n
trovano applicazione quando la serie statistica deriva da osservazioni fatte su n
unità statistiche distinte (approccio secondo Chisini).
Vm =
m
i=1
Per rimuovere gli effetti derivanti dall’unità di misura dei dati e dall’ordine medio di
grandezza del fenomeno, si rapporta l’indice Vm al valore assoluto del corrispondente
valore medio, ovvero:
Vm
.
(5)
|x̄a |
La famiglia di coefficienti definita in precedenza prende il nome di coefficiente di
variazione. La quantità (5) è un numero puro (indice adimensionale) dato che
numeratore e denominatore sono espressi nella stessa unità di misura dei dati.
56 / 81
Nelle applicazione il parametro m è usualmente uguale a 2; in questo caso il
coefficiente ricavato dalla formula (5) è il seguente
CV =
V2
|x̄a |
il quale è talmente importante da prendere il nome dell’intera famiglia di coefficienti,
ovvero coefficiente di variazione.
Note: nelle applicazioni si è soliti riportare il coefficiente di variazione CV moltiplicato per 100, ma questo può portare in errore nella valutazione del valore ottenuto. CV è una misura relativa alla media e la sola valutazione sensata è come
percentuale della media.
57 / 81
Esempio. Un’azienda di credito ha ripartito un campione di 143 dei propri clienti
in due categorie definite solvente e insolvente. La tabella seguente riporta la
distribuzione dei finanziamenti concessi dall’azienda di credito in funzione delle due
categorie considerate.
Finanziamenti
1.0 a 1.5
1.5 a 2.0
2.0 a 2.5
2.5 a 3.0
3.0 a 3.5
Tot.
Tipologia
Solvente Insolvente
ni
ni
2
25
10
13
18
7
29
2
36
1
95
48
Il candidato confronti la distribuzione di frequenze dei clienti di tipo solvente con
quella di tipo insolvente mediante le più opportune misure di tendenza centrale e
di variabilità.
58 / 81
Sulla base della descrizione del fenomeno in esame si deduce che la più opportuna
misura di tendenza centrale è la media definita secondo Chisini; dato che il fenomeno in esame ha natura additiva utilizzeremo la media aritmetica ponderata per
confrontare le due distribuzioni. Per confrontare le due distribuzioni in termini di
variabilità utilizzeremo il coefficiente di variazione.
Consideriamo i clienti di tipo solvente e quindi la tabella
xic
1.25
1.75
2.25
2.75
3.25
Tot.
ni
2
10
18
29
36
95
xic · ni
2.50
17.50
40.50
79.75
117.00
257.25
(xic )2
1.5625
3.0625
5.0625
7.5625
10.5625
(xic )2 · ni
3.1250
30.6250
91.1250
219.3125
380.2500
724.4375
da cui si ricava che
257.25
x̄s =
= 2.71 σs =
95
r
724.4375
− 2.712 = 0.53
95
e
CVs =
0.53
= 0.20
2.71
59 / 81
Consideriamo i clienti di tipo insolvente e quindi la tabella
xic
1.25
1.75
2.25
2.75
3.25
Tot.
xic · ni
31.25
22.75
15.75
5.50
3.25
78.50
ni
25
13
7
2
1
48
(xic )2
1.5625
3.0625
5.0625
7.5625
10.5625
(xic )2 · ni
39.0625
39.8125
35.4375
15.1250
10.5625
140
da cui si ricava che
78.50
x̄i =
= 1.64 σi =
48
r
140
− 1.642 = 0.48
48
e
CVi =
0.48
= 0.29
1.64
Conclusioni.
Sulla base dei risultati ottenuti si ricava che il livello medio dei finanziamenti concessi ai
clienti di tipo solvente è maggiore rispetto a quello concesso ai clienti di tipo insolvente.
Il confronto dei due coefficienti di variazione mostra che la distribuzione dei finanziamenti
concessi ai clienti di tipo solvente è leggermente meno variabile di quella dei clienti di
tipo insolvente; nel primo caso la variabilità dei finanziamenti concessi è uguale al 20%
dei finanziamenti medi, mentre aumenta al 29% quando si considerano clienti di tipo
insolvente.
60 / 81
I coefficienti di dispersione
Gli indici di dispersione
r Pn
σp =
p
i=1
|xi − x̄p−1 |p
,
n
trovano applicazione quando la serie statistica deriva da osservazioni ripetute fatte
sullo stesso oggetto/soggetto (approccio secondo medie decisionali).
Per rimuovere gli effetti derivanti dall’unità di misura dei dati e dall’ordine medio di grandezza del fenomeno, si rapporta l’indice σp al valore assoluto della
corrispondente media decisionale, ovvero:
σp
.
|x̄p−1 |
(6)
La famiglia di coefficienti definita in precedenza prende il nome di coefficiente di
dispersione. La quantità (6) è un numero puro (indice adimensionale) dato che
numeratore e denominatore sono espressi nella stessa unità di misura dei dati.
61 / 81
I coefficienti di diversità
Per definire gli indici di variabilità relativa per le variabili quantitative discrete,
la logica che si segue è quella di rapportare l’indice ∆1 (o R ∆1 ) al suo valore
massimo teorico. Si dimostra che il valore più grande che può assumere la differenza
semplice media senza ripetizione è uguale a 2x̄a , da cui si ricava quello che è noto
in letteratura come coefficiente di diversità semplice media senza ripetizione:
∆1
∆1
=
.
max ∆1
2x̄a
(7)
Note: dato che il coefficiente (7) è definito rapportando il numeratore al suo
massimo teorico, esso viene interpretato come percentuale della variabilità totale.
Nel caso in cui si decide di lavorare con l’indice R ∆1 , la corrispondente versione
normalizzata può essere ottenuta dalla relazione:
Pn
Pn
n
n
i,j=1 |xi − xj |
i,j=1 |xi − xj |
∆1 =
=
=
R ∆1
n(n − 1)
n−1
n2
n−1
62 / 81
Esempio: Il direttore di un supermercato è interessato a valutare la distribuzione
del numero di prodotti giornalmente rubati. Di seguito si riporta la distribuzione di
frequenza ottenuta dopo 53 giorni lavorativi.
N. Prodotti
1
2
3
4
5
6
Totale
ni
4
7
8
8
11
15
53
Valutare la variabilità tramite i più adeguati indici statistici.
63 / 81
Per calcolare la differenza semplice media con e senza ripetizione, utilizziamo la
formula di De Finetti-Paciello. Consideriamo la seguente tabella.
X
1
2
3
4
5
6
Totale
ni
4
7
8
8
11
15
53
xi n i
4
14
24
32
55
90
219
nic
4
11
19
27
38
53
n − nic
49
42
34
26
15
nic (n − nic )
196
462
646
702
570
2576
Utilizzando i dati riportati in tabella otteniamo i seguenti risultati
x̄a =
219
= 4.13;
53
∆1 = 1.87;
∆1
= 0.23.
2x̄a
Il coefficiente di diversità semplice medio senza ripetizione mostra che la
variabilità della variabile numero di prodotti giornalmente rubati è il 23% della
massima variabilità raggiungibile.
64 / 81
La concentrazione
La concentrazione di un carattere X deriva dalla possibilità di “trasferire” l’ammontare del fenomeno da un’unità statistica ad un altra, avvicinandosi o allontanandosi
dalla situazione di equidistribuzione dell’ammontare complessivo del carattere. In
tal caso il carattere viene definito trasferibile.
Per esempio, sapendo che in Italia, nel 2011, l’ammontare dei redditi da lavoro
dipendente era di 654836 milioni di euro, possiamo essere interessati a sapere come
questo ammontare fosse ripartito fra le diverse famiglie italiane. Se la maggior
parte dell’ammontare del reddito era detenuto da poche famiglie possiamo dire che
il reddito era concentrato, al contrario se ogni famiglia deteneva la stessa quantità
di reddito possiamo dire che questo era equidistribuito tra le famiglie.
Il problema è definire un indice che fornisca informazioni in merito alla vicinanza
alla situazione di perfetta concentrazione o di perfetta equisistribuzione.
65 / 81
Supponiamo di considerare il reddito annuo di 8 individui percepito nel 2010. La
seguente tabella riporta i valori rilevati:
22900.94
24617.35
23782.56
22369.54
20311.44
20785.09
23596.39
21237.88
dai valori precedenti si ricava che il reddito complessivo è uguale a
179601.2 e che il reddito medio è x̄ = 22450.15.
Pn
i=1 xi
=
Definizione
Diremo che il carattere quantitativo trasferibile X è equidistribuito quando
l’ammontare complessivo del carattere è ripartito equamente tra le n unità
statistiche.
Con riferimento all’esempio precedente
22450.15
22450.15
22450.15
22450.15
22450.15
22450.15
22450.15
22450.15
66 / 81
Definizione
Diremo che il carattere quantitativo trasferibile X è concentrato quando l’ammontare complessivo del carattere è posseduto solamente da una sola unità
statistica.
Con riferimento all’esempio precedente si ricava:
179601.2
0.0
0.0
0.0
0.0
0.0
0.0
0.0
Note: La concentrazione del carattere evidenzia in modo più efficace e più interpretabile la variabilità dei caratteri trasferibili. La corrispondenza con il concetto di
variabilità è immediato: se non esiste concentrazione (situazione di perfetta equidistribuzione) allora la variabilità è nulla, diversamente se la concentrazione è massima
allora anche la variabilità sara massima.
67 / 81
Consideriamo un carattere quantitativo trasferibile X , osservato su un collettivo di
n unità statistiche ed ordiniamo in senso non decrescente i valori osservati; in altri
termini consideriamo la sequenza ordinata
x(1) ≤ x(2) ≤ . . . x(n) .
Indichiamo con:
Ai = x(1) + x(2) + . . . x(i) l’ammontare di carattere posseduto dalle i unità più
povere (An è l’ammontare complessivo del carattere);
Qi = Ai /An la frazione di carattere posseduto dalle i unità più povere;
Fi = i/n la frequenza relativa cumulata delle prime i unità.
Note. Le quantità Qi ed Fi forniscono informazioni in merito alla concentrazione.
Se si è nel caso in cui l’ammontare del carattere X è equidistribuito fra le n unità
statistiche si ha che, per ogni i, Qi = Fi poiché come ogni unità è un n-esimo
dell’intero collettivo anche il suo ammontare è un n-esimo dell’ammontare totale;
Se invece si è nel caso di massima concentrazione, tutte le Qi , esclusa Qn che è
necessariamente uguale ad 1, valgono zero. In tutte le situazioni intermedie vale la
relazione che Fi ≥ Qi .
68 / 81
Considerando le differenze (Fi − Qi ), queste saranno tutte uguali a zero nel caso di
equidistribuzione, tutte uguali ad Fi ( escluso il caso i = n per il quale la differenza è
zero) nel caso di massima concentrazione e tutte non negative nei casi intermedi di
concentrazione. Le osservazioni precedenti conducono alla definizione del seguente
indice:
n
n−1
X
X
C=
(Fi − Qi ) =
(Fi − Qi ).
i=1
i=1
Note. La sommatoria arriva fino al termine (n − 1)-esimo, poiché l’n-esima differenza è sempre uguale a 0 essendo Qn = Fn = 1.
69 / 81
L’indice C assume i seguenti valori estremi
(
0
C = Pn−1
i=1
Fi
in condizione di perfetta equidistribuzione dato che Fi = Qi ;
in condizione di massima concentrazione dato che Qi = 0
Per trasformare l’indice C in un indice di concentrazione relativo, variabile tra 0
ed 1, basterà dividerlo per il suo valore massimo. Con tale operazione si ottiene
l’indice di concentrazione chiamato rapporto di concentrazione del Gini:
Pn−1
Pn−1
Qi
C
i=1 (Fi − Qi )
R = Pn−1 =
= 1 − Pi=1
.
Pn−1
n−1
i=1 Fi
i=1 Fi
i=1 Fi
Osservando che
n−1
X
i=1
Fi =
n−1
n−1
X
i
1X
1 n(n − 1)
n−1
=
i=
=
,
n
n
n
2
2
i=1
i=1
si ricava che l’indice R può essere calcolato come
Pn−1
Qi
R = 1 − 2 i=1
.
n−1
70 / 81
Con riferimento all’esempio precedente si ricava
x(i)
20311.44
20785.09
21237.88
22369.54
22900.94
23596.39
23782.56
24617.35
Tot.
Ai
20311.44
41096.53
62334.41
84703.95
107604.89
131201.28
154983.84
179601.19
Qi
0.11
0.23
0.35
0.47
0.60
0.73
0.86
3.35
da cui si ricava che
3.35
= 0.04
7
ovvero siamo in presenza di quasi perfetta equidistribuzione del reddito (minima
concentrazione) tra le otto unità considerate.
R =1−2
71 / 81
Esempio. Di seguito vengono riportati gli introiti pubblicitari (in milioni) ottenuti
a fine anno dalle nove emittenti radiofoniche di una determinata nazione.
Emittente
Emittente
Emittente
Emittente
Emittente
Emittente
Emittente
Emittente
Emittente
Emittente
1
2
3
4
5
6
7
8
9
Introiti
339
461
697
1320
1524
1798
1857
1889
1994
Valutare la concentrazione tramite il rapporto di concentrazione del Gini.
72 / 81
Per calcolare l’indice R, consideriamo la seguente tabella:
Emittente
Emittente
Emittente
Emittente
Emittente
Emittente
Emittente
Emittente
Emittente
Emittente
Tot.
1
2
3
4
5
6
7
8
9
Introiti
339
461
697
1320
1524
1798
1857
1889
1994
11879
Ai
339
800
1497
2817
4341
6139
7996
9885
Qi
0.03
0.07
0.13
0.24
0.37
0.52
0.67
0.83
2.85
da cui si ricava
2.85
= 0.287.
8
Il rapporto di concentrazione del Gini (R = 0.287) mostra che l’ammontare complessivo degli introiti pubblicitari (pari a 11879) è abbastanza ben equidistribuito
tra le diverse emittenti.
R =1−2
73 / 81
Associato al rapporto di concentrazione del Gini vi è un interessante grafico chiamato spezzata di regressione o curva di Lorenz, dal nome del primo autore che
ne ha proposto l’impiego.
Il grafico è ottenuto costruendo un grafico cartesiano dove in ascissa riportiamo i
valori Fi e in ordinata i valori Qi .
Definizione
Si definisce spezzata do concentrazione o curva di Lorenz la poligonale congiungente
le n coppie di valori (Fi , Qi ).
Note. Dato che per ogni coppia (Fi , Qi ) in generale si ottiene che Fi ≥ Qi si
deduce che la curva di Lorenz giace sotto la bisettrice del primo-terzo quadrante.
Osserviamo inoltre che ogni Qi ed Fi è compreso tra 0 ed 1.
74 / 81
1.0
0.8
0.6
Qi
0.4
0.2
Qi
0.00
0.03
0.07
0.13
0.24
0.37
0.52
0.67
0.83
1.00
0.0
Fi
0.00
0.11
0.22
0.33
0.44
0.56
0.67
0.78
0.89
1.00
0.0
0.2
0.4
0.6
0.8
1.0
Fi
La linea continua è la poligonale congiungente le coppie di valori (Fi , Qi ) ovvero la
spezzata di Lorenz.
75 / 81
1.0
0.8
0.6
Qi
0.4
0.2
Qi
0.00
0.03
0.07
0.13
0.24
0.37
0.52
0.67
0.83
1.00
0.0
Fi
0.00
0.11
0.22
0.33
0.44
0.56
0.67
0.78
0.89
1.00
0.0
0.2
0.4
0.6
0.8
1.0
Fi
Il segmento tratteggiato congiungente i punti di coordinate (0, 0) e (1, 1) prende il
nome di retta di equidistribuzione e descrive l’andamento delle coppie (Fi , Qi ) in
caso di perfetta equidistribuzione dell’ammontare complessivo del carattere.
76 / 81
1.0
0.8
0.6
Qi
0.4
0.2
Qi
0.00
0.03
0.07
0.13
0.24
0.37
0.52
0.67
0.83
1.00
0.0
Fi
0.00
0.11
0.22
0.33
0.44
0.56
0.67
0.78
0.89
1.00
0.0
0.2
0.4
0.6
0.8
1.0
Fi
L’area compresa tra la curva di Lorenz e la retta di equidistribuzione è chiamata
area di concentrazione. Nel caso di equidistribuzione l’area di concentrazione è
nulla dato che la retta di equidistribuzione e la spezzata di Lorenz coincidono.
77 / 81
1.0
0.8
0.6
Qi
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
Fi
Quando ci troviamo in condizione di massima concentrazione, allora Qi = Fi = 0
per i = 1, . . . , n − 1 mentre Qn = Fn = 1. Graficamente l’area di concentrazione è
uguale all’are del triangolo rettangolo mostrato nel grafico. E’ facile vedere che, in
questo caso, l’area di concentrazione è pari ad 1/2.
78 / 81
Si dimostra che il rapporto di concentrazione del Gini è approssimativamente uguale al
rapporto tra l’area di concentrazione e la massima area di concentrazione, ovvero
R
≈
=
area di concentrazione
area di concentrazione
=
=
massima area di concentrazione
1/2
2 area di concentrazione.
La relazione precedente è utilizzata per approssimare il rapporto di concentrazione del Gini
quando si lavora con una distribuzione di frequenze in classi.
Applicando la formula per area dei trapezi per il calcolo dell’area di concentrazione si ricava
l’approssimazione:
k−1
X
(Fi+1 − Fi )(Qi + Qi+1 )
R0 = 1 −
i=0
dove
i. k è il numero di classi;
ii. Fi =
iii. Qi =
nic
sono le frequenze relative cumulate;
n
Pi
c
c
j=1 xi ni
Pk
c n e xi è il valore centrale dell’i-esima
x
j=1 i i
classe;
Note: il calcolo dell’indice precedente può essere semplificato osservando che Fi+1 − Fi =
fi = ni /n, ovvero la frequenza relativa dell’i-esima classe.
79 / 81
Esempio: di seguito è riportata la distribuzione di frequenza dei redditi mensili
rilevati su un campione di 100 famiglie.
classi
1.0 a 1.5
1.5 a 2.0
2.0 a 2.5
2.5 a 3.0
3.0 a 3.5
Tot.
ni
40
20
20
13
7
100
Calcolare il rapporto di concentrazione del Gini.
80 / 81
Per calcolare il rapporto di concentrazione del Gini consideriamo la seguente tabella:
xic
1.25
1.75
2.25
2.75
3.25
Tot.
ni
40
20
20
13
7
100
xic ni
50.00
35.00
45.00
35.75
22.75
188.50
Pi
c
j=1 xi ni
50.00
85.00
130.00
165.75
188.50
Qi
0.27
0.45
0.69
0.88
1.00
Qi + Qi+1
0.27
0.72
1.14
1.57
1.88
ni (Qi + Qi+1 )
10.80
9.00
22.80
20.41
13.16
76.17
da cui si ricava
Pk−1
ni (Qi + Qi+1 )
= 0.24.
n
Il rapporto di concentrazione del Gini (R 0 = 0.24) mostra che il reddito complessivo
mensile delle 100 famiglie è quasi perfettamente equidistribuito tra le 100 famiglie.
0
R =1−
i=0
81 / 81