Proprietà della media, differenza interquartile, eterogeneità, indici di

Transcript

Proprietà della media, differenza interquartile, eterogeneità, indici di
Università di Cassino
Corso di Statistica 1
Esercitazione del 29/10/2007
Dott. Alfonso Piscitelli
Esercizio 1
Il seguente data set riporta la rilevazione di alcuni caratteri su un collettivo di 20
soggetti.
Soggetto
Sesso
Età
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
M
F
F
M
F
F
M
M
F
F
F
M
F
F
M
F
F
F
M
M
22
18
34
42
50
12
46
72
27
48
35
84
21
44
56
58
37
16
73
64
Reddito
(Migliaia
di € )
0,7
0,2
1,6
2,5
3,2
0,1
3,8
1,3
1,2
1,7
1,9
0,8
0,4
1,8
1,9
3,2
2,1
0,1
1,6
2,2
Titolo di
studio
Diploma
Lic. Media
Diploma
Laurea
Diploma
Lic. Elementare
Lic. Media
Nessun Titolo
Laurea
Lic. Media
Laurea
Nessun Titolo
Diploma
Diploma
Lic. Media
Lic. Media
Diploma
Lic. Media
Lic. Elementare
Lic. Elementare
Nucleo
familiare
Statura
(cm)
3
4
2
5
3
4
4
2
3
5
1
1
5
4
2
3
1
4
2
3
173
168
165
180
163
160
177
164
158
170
167
159
174
164
177
172
166
160
170
184
Colore
degli
occhi
NERO
MARRONE
MARRONE
NERO
AZZURRO
NERO
MARRONE
VERDE
AZZURRO
NERO
NERO
MARRONE
AZZURRO
VERDE
NERO
NERO
MARRONE
MARRONE
AZZURRO
VERDE
a) Costruire la distribuzione di frequenza per il carattere Età suddividendo la
distribuzione in 4 classi equiampie e determinare il valore del secondo decile,
del settantesimo e novantesimo percentile.
b) Costruire la distribuzione doppia di frequenza per i caratteri Sesso e Età,
utilizzando per questo ultimo carattere la suddivisione in classi operata
precedentemente. Verificare la proprietà associativa della media.
c) Determinare la differenza interquartile per il carattere Nucleo familiare a
partire sia dalla successione di valori sia dalla distribuzione di frequenze.
d) Si calcoli l’indice di Eterogeneità di Gini per il carattere Colore degli occhi.
e) Determinare l’indice di dispersione D per il carattere Titolo di studio.
Soluzioni
a) La distribuzione in classi di frequenza del carattere Età, è:
Età
di
ni
12|-30
30|-48
48|-66
66|-|84
Tot:
18
18
18
18
6
6
0,3
0,3
6 12
0,3
0,6
5 17 0,25 0,85
3 20 0,15
1,0
20
1
Ni
fi
Fi
Prima di passare al calcolo del terzo decile, per dati in classi, bisogna evidenziare
la classe in cui è presente il secondo decile. La classe del secondo decile è quella
associata alla prima frequenza cumulata relativa che supera il valore di 0,20.
Classe D2=12|-30 [in cui il valore della x associato alla prima frequenza
.
relativa cumulata è maggiore di 0,20].
Quindi, il secondo decile sarà:
∑ ni (2) − N
d −1
D2 = ld + 10
dd
nd
dove:
ld =limite inferiore della classe del secondo decile;
⇒
N d −1 =frequenza cumulata associata alla classe precedente a quella del secondo
decile;
nd =frequenza assoluta della classe del secondo decile;
d d =ampiezza della classe del secondo decile;
4−0
D2 = 12 +
18 = 12 + 12 = 24
6
Le classi del settantesimo e del novantesimo percentile, si individuano in
corrispondenza delle rispettive frequenze cumulate relative. Avremo quindi che:
⇒
⇒
.
Classe C70=48|-66 [valore della x associato alla prima frequenza relativa
cumulata maggiore di 0,70].
.
Classe C90=66|-|84 [valore della x associato alla prima frequenza relativa
cumulata maggiore di 0,90].
Quindi, il settantesimo percentile sarà:
∑n
i
C70 = lC 70 + 100
(70) − NC 70−1
nC 70
dC 70
dove:
lC70 =limite inferiore della classe C70;
N C70 −1 =frequenza cumulata associata alla classe precedente a quella di C70;
nC70 =frequenza assoluta della classe C70;
d C70 =ampiezza della classe C70;
C70 = 48 +
14 − 12
18 = 48 + 7, 2 = 55, 2
5
Quindi, il novantesimo percentile sarà:
∑n
i
C90 = lC 90 + 100
(90) − N C 90−1
dC 90
nC 90
dove:
lC90 =limite inferiore della classe C90;
N C90 −1 =frequenza cumulata associata alla classe precedente a quella di C90;
nC90 =frequenza assoluta della classe C90;
d C90 =ampiezza della classe C90;
C90 = 66 +
18 − 17
18 = 66 + 6 = 72
3
b) Per rappresentare la distribuzione doppia di frequenze dei due caratteri Sesso
e Età (suddiviso in classi) è necessario costruirsi una tabella a doppia entrata
che ha per righe le due modalità della variabile Sesso {Maschio, Femmina} e
per colonne le 4 classi in cui è stata suddivisa la variabile Età {12|-30; 30|48; 48|-66; 66|-|84 }.
Si precisa che la stessa informazione si avrebbe da una tabella che ha per righe le
classi della variabile Età e per colonne le modalità della variabile Sesso.
La distribuzione doppia di frequenza delle due variabili è:
Maschio
Femmina
Tot:
12|-30
1
5
6
30|-48
2
4
6
48|-66
2
3
5
66|-|84
3
0
3
Tot:
8
12
20
In questa tabella, il calcolo della media aritmetica della variabile Età sarà:
µ=
1
N
C
∑x
c
i
∗ ni
i =1
Ricordando che i valori centrali delle classi sono rispettivamente: 21; 39; 57; 75.
µ=
(21 * 6) + (39 * 6) + (57 * 5) + (75 * 3) 870
=
= 43,5
20
20
Per poter verificare la proprietà associativa della media bisogna ricorrere alle
distribuzioni di frequenza condizionate. Le due distribuzioni di frequenza
condizionate della variabile Età sono:
Maschio
12|-30
1
30|-48
2
48|-66
2
66|-|84
3
Tot:
8
Femmina
12|-30
5
30|-48
4
48|-66
3
66|-|84
0
Tot:
12
Per ognuna delle tabelle si calcola la media della distribuzione condizionata delle
variabile Età rispetto alle variabile Sesso:
µ Età|M =
( 21*1) + (39 * 2) + (57 * 2) + (75 * 3) 438
=
= 54,75
8
8
L’Età media dei Maschi è 54,75
µ Età|F =
(21* 5) + (39 * 4) + (57 * 3) + (75 * 0) 432
=
= 36
12
12
L’Età media delle Femmine Maschi è 36
La proprietà associativa della Media afferma che la media delle medie
condizionate ponderata per la numerosità del gruppo è uguale alla media
generale. Essa è verificata dalla seguente uguaglianza:
G
∑µ ∗n
∑n
i
i =1
i
dove G= numero di gruppi.
i
=µ
Nel nostro caso G=2 e la media delle medie condizionate è:
2
∑µ ∗n
µ=
∑n
i
i =1
i
=
i
c)
La successione dei valori ordinati in senso non decrescente e la
corrispondente distribuzione di frequenza della variabile Nucleo familiare
sono le seguenti:
Soggetto Posizione
11
12
17
3
8
15
19
1
5
9
16
20
2
6
7
14
18
4
10
13
(54,57 * 8) + (36 * 12) 870
=
= 43,5
20
20
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Nucleo
familiare
1
1
1
2
2
2
2
3
3
3
3
3
4
4
4
4
4
5
5
5
Nucleo familiare
1
2
3
4
5
ni
3
4
5
5
3
Tot: 20
fi
Fi
0,15
0,2
0,25
0,25
0,15
1
0,15
0,35
0,60
0,85
1
Il primo quartile corrisponde a quel valore del carattere X che lascia alla sua
sinistra il 25% delle osservazioni e alla sua destra il 75%.
Il terzo quartile corrisponde a quel valore del carattere X che lascia alla sua
sinistra il 75% delle osservazioni e alla sua destra il rimanente 25%.
XN +XN
Q1 =
4
4
2
+1
=
X5 + X6 2 + 2
=
=2
2
2
X
3*
Q3 =
N
4
+X
3*
N'
+1
4
2
=
X 15 + X 16 4 + 4
=
=4
2
2
Nel caso delle distribuzioni di frequenza semplice, invece, i quartili vengono
individuati facendo riferimento alle frequenze cumulate o alle frequenze relative
cumulate. In questo caso:
.
il primo quartile è quel valore della x associato alla prima frequenza
relativa cumulata maggiore di 0,25. [Q1=2]
.
il terzo quartile è quel valore della x associato alla prima frequenza
relativa cumulata maggiore di 0,75. [Q3=4].
⇒
⇒
Si definisce differenza interquartile la differenza tra il terzo e il primo quartile.
IQR= Q3 - Q1 = 4-2=2
Questa quantità contiene il 50% “centrale” delle osservazioni.
d) Nel caso di variabili qualitative la variabilità del carattere è espressa in
termini di mutabilità, definita come l’attitudine di un carattere ad assumere
differenti modalità qualitative.
Quando tutte le unità statistiche assumono la stessa modalità, si ha una perfetta
omogeneità. (minima eterogeneità)
Quando le modalità del carattere hanno tutte la stessa frequenza assoluta o
relativa, si ha la massima disomogeneità.
L’Eterogeneità misura la variabilità delle frequenze delle k modalità del
carattere.
L’Indice di Eterogeneità (G) di Gini si basa sulle frequenze relative.
k
G = 1 − ∑ fi2
i =1
Si tratta di un indice relativo che varia tra
0 ≤ G ≤ 1−
1
k
G=0 si ha la minima eterogeneità.
1
G = 1− si ha la massima eterogeneità.
k
La distribuzione di frequenza della variabile Colore degli occhi è:
Colore degli occhi
n
Nero
7
0,35
Marrone
Azzurro
6
4
0,3
Verde
3
Tot:
i
20
f
i
0,2
0,15
1
Colore degli occhi
f
(f )2
0,35
0,3
0,1225
0,09
0,2
0,04
0,15
1
0,0225
0,275
i
Nero
Marrone
Azzurro
Verde
Tot:
i
Quindi G sarà:
k
G = 1 − ∑ f i 2 = 1 − 0, 275 = 0 ,725
i =1
Volendo normalizzare G si divide il valore ottenuto per il suo massimo 1− 1
k
ottenendo così G*
G⋅k
=0,9667
k −1
Si può dire che siamo molto vicini al caso di massima eterogeneità.
G* =
e) Per poter effettuare il calcolo dell’indice di dispersione D per il carattere Titolo
di studio, bisogna partire dalla distribuzione di frequenze
Titolo di studio
ni
fi
Fi
Nessun Titolo
2 0,10 0,10
3 0,15 0,25
Lic. Media
6 0,30 0,55
Diploma
6 0,30 0,85
Laurea
3 0,15
1
Tot: 20
1
L’indice di dispersione D, a differenza di altri indici di omogeneità /
eterogeneità utilizzati per le variabili qualitative nominali, consente di utilizzare
l’ulteriore informazione detenuta dalle variabili qualitative ordinali, ovvero la
possibilità di ordinarne le modalità.
Lic. Elementare
k −1
D = 2∑ Fi (1 − Fi )
i =1
Titolo di studio
Nessun Titolo
Lic. Elementare
Lic. Media
Diploma
Laurea
ni
2
3
6
6
3
Tot: 20
fi
Fi
0,10
0,15
0,30
0,30
0,15
1
0,10
0,25
0,55
0,85
1
(1- Fi)
0,90
0,75
0,45
0,15
0
Fi *(1- Fi)
0,0900
0,1875
0,2475
0,1275
0,6525
D=2*0,6525=1,305
Sapendo che il valore massimo che può assumere l’indice nel caso di numerosità
pari è:
DMAX =
K −1 5 −1
=
=2
2
2
è possibile calcolare l’indice D normalizzato tra [0 - 1].
D[0−1] =
D
1,305
=
= 0, 6525
DMAX
2