Esercitazione 7

Transcript

Esercitazione 7
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Esercitazione 7
Indipendenza
Statistica
Indici di
connessione
Il coefficiente
di correlazione
lineare
Alfonso Iodice D’Enza
[email protected]
Dipendenza in
variabili miste
Università degli studi di Cassino
A. Iodice ()
Esercitazione 7
Statistica
1 / 41
Outline
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
1
Relazioni tra variabili
2
Indipendenza
3
Indici di connessione
4
Il coefficiente di correlazione lineare
5
Dipendenza in variabili miste
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
2 / 41
Misura del legame
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Data una variabile doppia (X, Y ), la misura del legame che
caratterizza le componenti X ed Y si definisce
connessione se X e Y sono mutabili
Il coefficiente
di correlazione
lineare
correlazione se X e Y sono variabili
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
3 / 41
Interdipendenza e dipendenza
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Se le componenti di una variabile doppia (X, Y ) oggetto di studio
rivestono lo stesso ruolo ai fini dell’analisi si studia l’interdipendenza
tra X e Y . Se si vuole studiare, invece, l’andamento della variabile Y
rispetto ad X, si farà riferimento alla dipendenza di Y da X.
Y si definisce variabile dipendente
Dipendenza in
variabili miste
X si definisce variabile indipendente
A. Iodice ()
Esercitazione 7
Statistica
4 / 41
Frequenze condizionate
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
5 / 41
Frequenze condizionate
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
6 / 41
Frequenze relative condizionate
Esercitazione
7
A. Iodice
Relazioni tra
variabili
La distribuzione delle frequenze
relative condizionate della variabile
A (k modalità) rispetto alla
j−sima modalità della variabile B
(h modalità) si ottiene dividendo
ciascun elemento dell’j−ma
colonna (frequenza assoluta) per il
rispettivo totale di di colonna
nij /n.j per i = 1, . . . , k.
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
7 / 41
Frequenze relative condizionate
Esercitazione
7
A. Iodice
Relazioni tra
variabili
La distribuzione delle frequenze
relative condizionate della variabile
B (h modalità) rispetto alla
i−sima modalità della variabile A
(k modalità) si ottiene dividendo
ciascun elemento dell’i−ma riga
(frequenza assoluta) per il
rispettivo totale di riga nij /ni. per
j = 1, . . . , h.
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
8 / 41
Esempio di tabella a doppia entrata
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Si consideri di aver registrato il colore degli occhi e quello dei capelli
di un collettivo di 592 persone. I risultati sono raccolti nella seguente
tabella
Indici di
connessione
occhi/capelli
nero
azzurro
marrone
verde
T ot
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
neri
68
20
15
5
108
castani
119
84
54
29
286
Esercitazione 7
rossi
26
17
14
14
71
biondi
7
94
10
16
127
T ot
220
215
93
64
592
Statistica
9 / 41
Distribuzioni relative condizionate
Esercitazione
7
A. Iodice
Frequenze condizionate della variabile capelli rispetto alle modalità della variabile
occhi
occhi/capelli
Relazioni tra
variabili
nero
azzurro
marrone
verde
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
neri
0.309
0.093
0.161
0.078
castani
0.541
0.391
0.581
0.453
rossi
0.118
0.079
0.151
0.219
biondi
0.032
0.437
0.108
0.250
T ot
1
1
1
1
Frequenze condizionate della variabile occhi rispetto alle modalità della variabile
capelli
Dipendenza in
variabili miste
occhi/capelli
nero
azzurro
marrone
verde
T ot
A. Iodice ()
neri
0.630
0.185
0.139
0.046
1
castani
0.416
0.294
0.189
0.101
1
Esercitazione 7
rossi
0.366
0.239
0.197
0.197
1
biondi
0.055
0.740
0.079
0.126
1
Statistica
10 / 41
Indipendenza
Esercitazione
7
A. Iodice
Indipendenza e distribuzioni condizionate
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Le componenti di una variabile doppia (X, Y ) sono indipendenti se le
distribuzioni di frequenze relative condizionate Y |X e X|Y sono
costanti.
Formalmente dovrà risultare per Y |X
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
ni2
ni3
nih
ni1
=
=
= ... =
n.1
n.2
n.3
n.h
e per X|Y
A. Iodice ()
n1j
n2j
n3j
nkj
=
=
= ... =
n1.
n2.
n3.
nk.
Esercitazione 7
Statistica
11 / 41
Indipendenza
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Si supponga che nel precedente esempio sia stata osservata la
seguente distribuzione doppia.
Indipendenza
Indici di
connessione
occhi/capelli
nero
azzurro
marrone
verde
T ot
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
neri
40
39
17
12
108
castani
106
104
45
31
286
Esercitazione 7
rossi
26
26
11
8
71
biondi
47
46
20
14
127
T ot
220
215
93
64
592
Statistica
12 / 41
Indipendenza
Esercitazione
7
In questo caso le frequenze condizionate della variabile capelli rispetto alle
modalità della variabile occhi
A. Iodice
occhi/capelli
Relazioni tra
variabili
nero
azzurro
marrone
verde
T ot
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
neri
0.182
0.182
0.182
0.182
0.182
castani
0.483
0.483
0.483
0.483
0.483
rossi
0.120
0.120
0.120
0.120
0.120
biondi
0.215
0.215
0.215
0.215
0.215
T ot
1
1
1
1
1
Mentre le frequenze condizionate della variabile occhi rispetto alle modalità della
variabile capelli
occhi/capelli
nero
azzurro
marrone
verde
T ot
A. Iodice ()
neri
0.372
0.363
0.157
0.108
1
castani
0.372
0.363
0.157
0.108
1
Esercitazione 7
rossi
0.372
0.363
0.157
0.108
1
biondi
0.372
0.363
0.157
0.108
1
T ot
0.372
0.363
0.157
0.108
1
Statistica
13 / 41
Indipendenza
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Se le componenti di una variabile doppia (X, Y ) sono indipendenti
(le distribuzioni di frequenze relative condizionate Y |X e X|Y sono
costanti), allora vale la seguente relazione
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
n̂ij =
ni. n.j
n..
con i = 1, . . . , k; j = 1, . . . , h
Pertanto, data una distribuzione doppia di frequenze, il legame tra le
due componenti (mutabile) varierà tra una situazione di indipendenza
(assenza di legame) e un qualche grado di connessione
A. Iodice ()
Esercitazione 7
Statistica
14 / 41
Indice quadratico di connessione (X 2 )
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Gli indici per la misura della connessioni sono basati sulle differenze
tra le frequenze osservate sul collettivo nij e le frequenze teoriche
n̂ij , che si osserverebbero sul collettivo se le mutabili considerate
fossero indipendenti.
Indice quadratico di connessione (X 2 ) è dato dalla seguente relazione
Il coefficiente
di correlazione
lineare
X2 =
k X
h
X
(nij − n̂ij )2
n̂ij
i=1 j=1
Dipendenza in
variabili miste
in caso di indipendenza, essendo nij = n̂ij , risulta X 2 = 0
il massimo valore dell’indice è dato dalla seguente espressione:
n × min(k − 1, h − 1)
A. Iodice ()
Esercitazione 7
Statistica
15 / 41
Indice quadratico di connessione (X 2 )
Esercitazione
7
A. Iodice
Per calcolare l’indice quadratico di connessione che caratterizza le variabili coloreocchi e colorecapelli,
con distribuzione congiunta di frequenze
Relazioni tra
variabili
Indipendenza
nij :
Indici di
connessione
Il coefficiente
di correlazione
lineare
occhi/capelli
nero
azzurro
marrone
verde
neri
68
20
15
5
castani
119
84
54
29
rossi
26
17
14
14
biondi
7
94
10
16
T ot
220
215
93
64
T ot
108
286
71
127
592
si deve calcolare la distribuzione di frequenze che si osserverebbero in caso di indipendenza
Dipendenza in
variabili miste
n̂ij :
A. Iodice ()
occhi/capelli
nero
azzurro
marrone
verde
neri
40.135
39.223
16.966
11.676
castani
106.284
103.868
44.929
30.919
rossi
26.385
25.785
11.154
7.676
biondi
47.196
46.123
19.951
13.730
T ot
220
215
93
64
T ot
108
286
71
127
592
Esercitazione 7
Statistica
16 / 41
Indice quadratico di connessione (X 2 )
Esercitazione
7
A. Iodice
Relazioni tra
variabili
“
”2
nij −n̂ij
Indipendenza
n̂ij
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
:
occhi/capelli
nero
azzurro
marrone
verde
neri
19.346
9.421
0.228
3.817
castani
1.521
3.800
1.831
0.119
rossi
0.006
2.993
0.726
5.211
biondi
34.234
49.697
4.963
0.375
L’indice X 2 è dato dunque dalla somma degli elementi in tabella
X
2
=
k X
h
X
(nij − n̂ij )2
i=1 j=1
n̂ij
= 19.346 + 1.521 + 0.006 + 34.234 + 9.421 + 3.800 + 2.993+
+ 49.697 + 0.228 + 1.831 + 0.726 + 4.963 + 3.817 + 0.119 + 5.211 + 0.375 = 138.29
A. Iodice ()
Esercitazione 7
Statistica
17 / 41
Indice ν di Cramer
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
avendo definito n × min(k − 1, h − 1) come valore massimo
che X 2 può assumere, è possibile ottenere una versione
normalizzata dell’indice di connessione. Viene definito indice ν
di Cramer.
s
X2
ν=
n × min(k − 1, h − 1)
con k e h numero di modalità delle componenti della mutabile
doppia.
L’indice è normalizzato, quindi 0 ≤ ν ≤ 1.
A. Iodice ()
Esercitazione 7
Statistica
18 / 41
Indice ν di Cramer
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Con riferimento ai dati dell’esercizio, si ha che X 2 = 138.29,
n = 592, h = 4 e k = 4
s
s
X2
138.29
=
= 0.28
ν=
n × min(k − 1, h − 1)
592 × min(3, 3)
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
19 / 41
Misura del legame
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Nel caso di variabili quantitative preferibile utilizzare una misura del legame che
coinvolga, oltre le frequenze, anche le modalità (numeriche) delle variabili.
Le componenti della variabile doppia X e Y possono essere caratterizzate da
diversa posizione e variabilità, risulta in genere che
Indici di
connessione
Il coefficiente
di correlazione
lineare
µx 6= µy e σx 6= σy
Volendo misurare le variazioni congiunte delle modalità di X ed Y , si fa
riferimento alla versione standardizzata delle variabili, data da
Dipendenza in
variabili miste
Zx =
X − µx
Y − µy
e Zy =
σx
σy
questo per escludere dalla misura del legame gli effetti della differente media e
varianza (essendo µx 6= µy e σx 6= σy )
A. Iodice ()
Esercitazione 7
Statistica
20 / 41
Il coefficiente di correlazione lineare di Pearson ρ
Esercitazione
7
A. Iodice
Relazioni tra
variabili
L’indice corrispondente alla media aritmetica del prodotto delle modalità
standardizzate delle variabili si definisce coefficiente di correlazione lineare di
Pearson ρ ed dato da
Indipendenza
ρxy =
Indici di
connessione
Il coefficiente
di correlazione
lineare
«
n
n „
1 X xi − µx
yi − µy
1X
(zx,i zy,i ) =
×
n i=1
n i=1
σx
σy
Con piccole trasformazioni si ottiene la presente formalizzazione
Dipendenza in
variabili miste
ρxy =
1
n
Pn
i=1 (xi
− µx )(yi − µy )
σx σy
=
σxy
σx σy
La quantità al numeratore si definisce covarianza: essa corrisponde alla media del
prodotto degli scarti delle modalità di X e Y dalle rispettive medie. La covarianza
misura la contenporanea variazione di X e Y con riferimento alle loro medie.
A. Iodice ()
Esercitazione 7
Statistica
21 / 41
Proprietà del coefficiente di correlazione
Esercitazione
7
A. Iodice
se X e Y sono indipendenti, allora ρxy = 0 (NON vale il
contrario)
Relazioni tra
variabili
Indipendenza
se ρxy = 1, allora Y = α + βX (ovvero Y una
trasformazione lineare di X )
Indici di
connessione
Il coefficiente
di correlazione
lineare
se ρxy = −1, allora Y = α − βX (ovvero Y una
trasformazione lineare di X )
Dipendenza in
variabili miste
ρxy = ρyx
ρxx = 0
A. Iodice ()
Esercitazione 7
Statistica
22 / 41
Il coefficiente di correlazione lineare di Pearson ρ
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Esercizio
Si considerino i voti riportati da n = 8 studenti negli esami di
matematica e statistica.
Indipendenza
1
2
3
4
5
6
7
8
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
matematica(xi )
24
27
30
26
29
18
21
22
statistica(yi )
23
28
30
27
30
20
20
25
Si misuri il legame lineare che caratterizza le due variabili
A. Iodice ()
Esercitazione 7
Statistica
23 / 41
Il coefficiente di correlazione lineare di Pearson ρ
Esercitazione
7
A. Iodice
Svolgimento
É necessario calcolare le medie aritmetiche µ e gli scarti quadratici medi σ
Il voto medio ottenuto dagli studenti all’esame di matematica è
P8
i=1 xi
n
Relazioni tra
variabili
µm =
Indipendenza
Il voto medio ottenuto dagli studenti all’esame di statistica è µs =
= 197
= 24.625
8
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
1
2
3
4
5
6
7
8
xi
24
27
30
26
29
18
21
22
yi
23
28
30
27
30
20
20
25
T ot
197
203
xi − µx
-0.62
2.38
5.38
1.38
4.38
-6.62
-3.62
-2.62
yi − µy
-2.38
2.62
4.62
1.62
4.62
-5.38
-5.38
-0.38
sP
8
i=1
scarti quadratici medi: σm =
σs =
A. Iodice ()
8
i=1
(yi − µy )2
5.64
6.89
21.39
2.64
21.39
28.89
28.89
0.14
119.875
115.875
(xi − µm )2
Esercitazione 7
(yi − µs )2
n
= 203
= 25.375
8
(xi − µx )2
0.39
5.64
28.89
1.89
19.14
43.89
13.14
6.89
n
sP
P8
i=1 yi
n
s
=
s
=
119.875
8
115.875
8
= 3.87
= 3.805
Statistica
24 / 41
Il coefficiente di correlazione lineare di Pearson ρ
Esercitazione
7
A. Iodice
Svolgimento
Per calcolare il coefficiente di correlazione lineare resta da calcolare la covarianza, ovvero la media aritmetica
del prodotto degli scarti dalla media.
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
1
2
3
4
5
6
7
8
xi
24.00
27.00
30.00
26.00
29.00
18.00
21.00
22.00
yi
23.00
28.00
30.00
27.00
30.00
20.00
20.00
25.00
T ot
197
203
La covarianza è
P8
σms =
i=1
xi − µx
-0.62
2.38
5.38
1.38
4.38
-6.62
-3.62
-2.62
yi − µ y
-2.38
2.62
4.62
1.62
4.62
-5.38
-5.38
-0.38
(xi − µx ) × (yi − µy )
1.48
6.23
24.86
2.23
20.23
35.61
19.48
0.98
111.125
(xi − µm )(yi − µs )
n
=
111.125
8
= 13.89
É ora possibile calcolare il coefficiente di correlazione dato da
ρms =
A. Iodice ()
σms
σ m σs
=
13.89
3.87 × 3.805
Esercitazione 7
= 0.943
Statistica
25 / 41
Metodo alternativo per il calcolo di ρ
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Da un punto di vista computazionale risulta conveniente l’utilizzo della seguente
formulazione alternativa del coefficiente diPcorrelazione
Pn lineare ρ basata sulle
n
somme delle modalità delle componenti ( P
i ), sulle somme dei
i=1
i=1 xi ,
Py
n
2
2
quadrati delle modalità delle P
componenti ( n
i=1 (yi ) ), sulla somma
i=1 (xi ) ,
x
y
)
dei prodotti tra le modalità ( n
i=1 i i
ρ= q
Dipendenza in
variabili miste
A. Iodice ()
P
Pn
xi yi − n
i=1 yi
i=1 xi
ˆPn
˜2
ˆPn
˜2
Pn
Pn
2
2
(n i=1 (xi ) −
i=1 xi )(n
i=1 (yi ) −
i=1 yi )
n
Pn
i=1
Esercitazione 7
Statistica
26 / 41
Metodo alternativo per il calcolo di ρ
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
1
2
3
4
5
6
7
8
xi
24
27
30
26
29
18
21
22
P
x = 197
yi
23
28
30
27
30
20
20
25
P
y = 203
x2i
576
729
900
676
841
324
441
484
P 2
x = 4971
yi2
529
784
900
729
900
400
400
625
P 2
y = 5267
xi yi
552
756
900
702
870
360
420
550
P
xy = 5110
Dipendenza in
variabili miste
Pn
P
Pn
n n
i=1 xi
i=1 yi
i=1 xi yi −
ρ= q P
ˆPn
˜2
ˆPn
˜2 =
Pn
n
2
2
(n i=1 (xi ) −
i=1 xi )(n
i=1 (yi ) −
i=1 yi )
8 × 5110 − (197 × 203)
= p
= 0.943
(8 × 4971 − (197)2 ) × (8 × 5267 − (203)2 )
A. Iodice ()
Esercitazione 7
Statistica
27 / 41
Coefficiente di correlazione: esempi di casi limite
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
28 / 41
Coefficiente di correlazione: esempi di casi limite
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
28 / 41
Coefficiente di correlazione: esempi di casi limite
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
28 / 41
Coefficiente di correlazione: esempi di casi limite
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
28 / 41
Connessione in media
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Data una distibuzione doppia di un carattere misto (X, Y ), si dir che la
componente Y indipendente in media da X se al variare delle modalità di X le
medie condizionate di X rimangono costanti (vale il viceversa).
Il fatto che Y sia indipendente in media da X non implica che sia vero il contrario
(come invece accade per l’indipendenza in distribuzione).
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
29 / 41
Connessione in media
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Data una distibuzione doppia di un carattere misto (X, Y ), si dir che la
componente Y indipendente in media da X se al variare delle modalità di X le
medie condizionate di X rimangono costanti (vale il viceversa).
Il fatto che Y sia indipendente in media da X non implica che sia vero il contrario
(come invece accade per l’indipendenza in distribuzione).
Indici di
connessione
µy = y =
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
h
1 X
yj n.j
n j=1
Rappresenta la media di Y e si ottiene considerando la distribuzione marginale di
Y.
h
1 X
y i = y|xi =
yj nij
ni. j=1
Rappresenta la media di Y condizionata alla i − ma modalità della variabile X.
A. Iodice ()
Esercitazione 7
Statistica
29 / 41
Decomposizione della devianza
Esercitazione
7
A. Iodice
Ricordando che la devianza il numeratore della varianza...
Relazioni tra
variabili
Devy =
Indipendenza
k X
h
X
(yj − y)2 nij =
i=1 j=1
Indici di
connessione
=
Il coefficiente
di correlazione
lineare
k X
h
X
(yj − y i + y i − y)2 nij =
i=1 j=1
=
Dipendenza in
variabili miste
k X
h
X
(yj − y i )2 nij +
i=1 j=1
+2
k X
h
X
k X
h
X
(y i − y)2 nij +
i=1 j=1
(yj − y i )(y i − y)nij
i=1 j=1
A. Iodice ()
Esercitazione 7
Statistica
30 / 41
Decomposizione della devianza
Esercitazione
7
A. Iodice
Relazioni tra
variabili
=
Indipendenza
k
X
2
4
+2
Il coefficiente
di correlazione
lineare
k
X
i=1
Dipendenza in
variabili miste
=
k
X
3
(yj − y i )2 nij 5 +
j=1
i=1
Indici di
connessione
h
X
k
X
(y i − y)2 ni. +
i=1
(yj − y i )
h
X
(y i − y)nij =
j=1
[Dev(Y | X = xi )] +
i=1
k
X
(y i − y)2 ni. =
i=1
= Dev(W ) + Dev(B)
A. Iodice ()
Esercitazione 7
Statistica
30 / 41
Decomposizione della devianza
Esercitazione
7
A. Iodice
Relazioni tra
variabili
=
Indipendenza
k
X
2
4
+2
Il coefficiente
di correlazione
lineare
k
X
i=1
Dipendenza in
variabili miste
=
k
X
3
(yj − y i )2 nij 5 +
j=1
i=1
Indici di
connessione
h
X
k
X
(y i − y)2 ni. +
i=1
(yj − y i )
h
X
(y i − y)nij =
j=1
[Dev(Y | X = xi )] +
i=1
k
X
(y i − y)2 ni. =
i=1
= Dev(W ) + Dev(B)
A. Iodice ()
Esercitazione 7
Statistica
30 / 41
Decomposizione della devianza
Esercitazione
7
A. Iodice
Relazioni tra
variabili
=
Indipendenza
k
X
2
4
+2
Il coefficiente
di correlazione
lineare
k
X
i=1
Dipendenza in
variabili miste
=
k
X
3
(yj − y i )2 nij 5 +
j=1
i=1
Indici di
connessione
h
X
k
X
(y i − y)2 ni. +
i=1
(yj − y i )
h
X
(y i − y)nij =
j=1
[Dev(Y | X = xi )] +
i=1
k
X
(y i − y)2 ni. =
i=1
= Dev(W ) + Dev(B)
A. Iodice ()
Esercitazione 7
Statistica
30 / 41
Decomposizione della devianza
Esercitazione
7
A. Iodice
Relazioni tra
variabili
=
Indipendenza
k
X
2
4
+2
Il coefficiente
di correlazione
lineare
k
X
i=1
Dipendenza in
variabili miste
=
k
X
3
(yj − y i )2 nij 5 +
j=1
i=1
Indici di
connessione
h
X
k
X
(y i − y)2 ni. +
i=1
(yj − y i )
h
X
(y i − y)nij =
j=1
[Dev(Y | X = xi )] +
i=1
k
X
(y i − y)2 ni. =
i=1
= Dev(W ) + Dev(B)
A. Iodice ()
Esercitazione 7
Statistica
30 / 41
Rapporto di correlazione di Pearson (η 2 )
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Dev(W ) rappresenta la varianza all’interno dei gruppi definiti dalle modalità di
X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità
delle medie condizionate rispetto alla media generale.
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
31 / 41
Rapporto di correlazione di Pearson (η 2 )
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dev(W ) rappresenta la varianza all’interno dei gruppi definiti dalle modalità di
X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità
delle medie condizionate rispetto alla media generale.
Se Y indipendente in media da X, allora le medie condizionate y i saranno tutte
costanti, la variabilità ad esse associate sar uguale a zero. In particolare risulter
Dev(B) = 0 quindi
Dev(Y ) = Dev(W ) + 0
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
31 / 41
Rapporto di correlazione di Pearson (η 2 )
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
Dev(W ) rappresenta la varianza all’interno dei gruppi definiti dalle modalità di
X. Dev(B) rappresenta invece la variabilità tra i gruppi: ovvero la variabilità
delle medie condizionate rispetto alla media generale.
Se Y indipendente in media da X, allora le medie condizionate y i saranno tutte
costanti, la variabilità ad esse associate sar uguale a zero. In particolare risulter
Dev(B) = 0 quindi
Dev(Y ) = Dev(W ) + 0
Quindi, per quantificare la dipendenza in media di Y da X occorre un indice
basato su Dev(B).
Dev(B)
η2 =
Dev(Y )
A. Iodice ()
Esercitazione 7
Statistica
31 / 41
Calcolo del rapporto di correlazione
Esercitazione
7
Il nido del cuculo
A. Iodice
Relazioni tra
variabili
Il cuculo è un uccello caratterizzato da una particolare abitudine: depone le uova nei nidi di altri uccelli, e
lascia dunque che siano altre specie a covarle. Ovviamente, il tutto funziona se la dimensione delle uova nel
nido ospite sono compatibili con quelle del nido ospitante. In alcuni territori, il cuculo depone le uova in nidi
di scricciolo, in altri sceglie nidi di pettirosso.
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
Si consideri di aver osservato la lunghezza di n1 = 15 uova di cuculo ritrovate in nidi di scricciolo e
n2 = 16 uova di cuculo ritrovate in nidi di pettirosso. Si vuole verificare se la lunghezza delle uova dipende
in media dal tipo di nido in cui vengono deposte.
A. Iodice ()
Esercitazione 7
Statistica
32 / 41
Calcolo del rapporto di correlazione
Esercitazione
7
Scricciolo
Pettirosso
Sia S la lunghezza delle uova di cuculo nei nidi
di scricciolo
Sia P la lunghezza delle uova di cuculo nei nidi
di pettirosso
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
33 / 41
Calcolo del rapporto di correlazione
Esercitazione
7
A. Iodice
Confronto tra le distribuzioni
Un primo confronto grafico via box plot tra le due distribuzioni mostra che le uova deposte in nidi di
pettirosso hanno una lunghezza maggiore di quelle deposte in nidi di scricciolo.
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
34 / 41
Calcolo del rapporto di correlazione
Esercitazione
7
A. Iodice
Confronto tra le distribuzioni
Un ulteriore confronto grafico tra le due distribuzioni consiste in un diagramma per punti: sono riportate
graficamente le medie condizionate, mentre la media generale ı̈¿ 1
rappresentata dalla linea orizzontale.
2
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
35 / 41
Calcolo del rapporto di correlazione
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Si indica con µX = 21.875 la lunghezza media delle
n = n1 + n2 uova complessivamente considerate. Le medie
condizionate al nido in cui le uova sono state deposte sono
rispettivamente µX|S = 21.13 e µX|P = 22.57. La devianza
delle medie condizionate rispetto alla media generale è dunque
devb = (21.13−21.875)2 ×15+(22.57−21.875)2 ×16 = 16.165
mentre la devianza complessiva è data da
Dipendenza in
variabili miste
devtot = (19.85 − 21.875)2 + (20.05 − 21.875)2 +
+ . . . + (23.25 − 21.875)2 + (23.85 − 21.875)2 = 30.94
η2 =
A. Iodice ()
16.165
devb
=
= 0.522
devtot
30.94
Esercitazione 7
Statistica
36 / 41
Calcolo del rapporto di correlazione: valori in classi
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Si consideri l’esempio della variabile doppia reddito/grado di
anzianità
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Dipendenza in
variabili miste
A. Iodice ()
Esercitazione 7
Statistica
37 / 41
Calcolo del rapporto di correlazione
Esercitazione
7
A. Iodice
Relazioni tra
variabili
Indipendenza
Indici di
connessione
Il coefficiente
di correlazione
lineare
Ai fini del calcolo del rapporto di correlazione necessario
calcolare la devianza totale della variabile Dev(Y ) e la
devianza tra le classi Dev(B) (ovvero la devianza tra le medie
condizionate Y | X = xi , i = 1, 2, . . . , k e la media globale).
Dunque
1
(12.5 × 32) + (17.5 × 26)+
103
+ (22.5 × 39) + (27.5 × 6) = 14.9
Dipendenza in
variabili miste
µ(Y ) =
A. Iodice ()
Esercitazione 7
Statistica
38 / 41
Calcolo del rapporto di correlazione
Esercitazione
7
A. Iodice
1
(12.5 × 0) + (17.5 × 7)+
46
+ (22.5 × 34) + (27.5 × 5) = 22.28
µ(Y | xi = N ord) =
Relazioni tra
variabili
Indipendenza
Indici di
connessione
1
(12.5 × 1) + (17.5 × 18)+
25
+ (22.5 × 5) + (27.5 × 1) = 18.7
Il coefficiente
di correlazione
lineare
µ(Y | xi = Centro) =
Dipendenza in
variabili miste
1
(12.5 × 31) + (17.5 × 1)+
32
+ (22.5 × 0) + (27.5 × 0) = 12.66
µ(Y | xi = Sud) =
A. Iodice ()
Esercitazione 7
Statistica
39 / 41
Calcolo del rapporto di correlazione
Esercitazione
7
A. Iodice
Relazioni tra
variabili
dev(Y ) = (12.5 − 14.9)2 × 32 + (17.5 − 14.9)2 × 26+
Indipendenza
+ (22.5 − 14.9)2 × 39 + (27.5 − 14.9)2 × 6 = 3565.3
Indici di
connessione
Il coefficiente
di correlazione
lineare
dev(B) = (22.28 − 14.9)2 × 46 + (18.7 − 14.9)2 × 25+
+ (12.66 − 14.9)2 × 32 = 3026.9
Dipendenza in
variabili miste
η2 =
A. Iodice ()
3026.9
dev(B)
=
= 0.849
dev(Y )
3565.3
Esercitazione 7
Statistica
40 / 41