X - life and fitness

Transcript

X - life and fitness
Corso di laurea in Scienze Motorie
Corso di Statistica
Docente: Dott.ssa Immacolata
Scancarello
Lezione 9: Covarianza e correlazione
1
Altri tipi di dipendenza
L’indice Chi-quadro presentato nella lezione precedente stabilisce il
grado di dipendenza assoluta di due caratteri.
Altri tipi di dipendenza
dipendenza parametrica
dipendenza funzionale
2
Dipendenza parametrica
L’indipendenza assoluta è una condizione forte: tutte le distribuzioni
condizionate relative devono essere uguali.
Condizione meno forte: invarianza di un solo parametro (es. media)
rispetto alle distribuzioni condizionate
Modello più diffuso: dipendenza in media
3
Dipendenza in media
≠
Dipendenza assoluta: tra variabili di tipo qualsiasi
Dipendenza in media: tra variabili quantitative
Indipendenza in media: se M(Y|xi)=M(Y) per ogni xi allora Y è
indipendente in media da X. Se M(X|yj)=M(X) per ogni yj allora X è
indipendente in media da Y.
M sta per media aritmetica
4
Dipendenza in media
Esempio
M(freq. | età = 26) =
Età
Frequenza cardiaca
a riposo
26
27
28
31
Totale
62
2
0
0
0
2
64
0
1
0
0
1
65
2
0
0
0
2
66
2
0
0
0
2
68
2
1
0
0
3
71
0
2
0
1
3
72
0
1
0
0
1
73
0
0
3
1
4
76
0
0
0
1
1
78
0
1
0
0
1
79
0
0
0
1
1
80
0
0
0
1
1
81
0
1
0
2
3
Totale
8
7
3
7
62 ⋅ 2 + 65 ⋅ 2 + 66 ⋅ 2 + 68 ⋅ 2
= 65,25
8
M(freq. | età = 27) = 72,14
M(freq. | età = 28) = 73
M(freq. | età = 31) = 77,28
M(frequenza) =
65,25 + 72,14 + 73 + 77,28
= 11,50
25
C’è una dipendenza in media
della frequenza dall’età
25
5
Dipendenza in media
Caso di indipendenza in media dell’età/Y dalla frequenza cardiaca/X
(distribuzioni parziali di Y tutte con media pari a 27)
32
31
Età
30
29
28
27
26
25
60
65
70
75
80
85
Frequenza cardiaca
6
Indice di Pearson
Per misurare la dipendenza in media si ricorre al rapporto di
correlazione o all’indice eta quadrato di Pearson.
Per definirlo abbiamo bisogno del concetto di devianza. La devianza
di una variabile Y rispetto all’altra variabile X si può scomporre in
devianza interna ed esterna.
2
Devianza totale:∑ ( y j − M (Y )) n. j
Devianza interna: ∑ Dev (Y / x i )
2
Devianza esterna: ∑ (M (Y ) − M (Y | x i ) n i .
7
Indice di Pearson
2
∑ (M (Y ) − M (Y | x i ) n i . Dev .Esterna
2
ηY / X =
=
=
Dev (Y )
Dev .Totale
= 1−
∑ Dev (Y | x i )
Dev .Interna
= 1−
Dev (Y )
Dev .Totale
Se la devianza esterna di Y è nulla, esiste un’indipendenza in media
di Y da X: η2Y/X = 0
Se la devianza interna di Y è nulla, esiste una dipendenza in media
massima di Y da X: η2Y/X = 1
8
Indice di Pearson
2
(
M
(
X
)
−
M
(
X
|
y
)
n. j Dev .Esterna
∑
j
2
ηX
=
=
=
/Y
Dev ( X )
Dev .Totale
∑ Dev ( X | y j )
Dev .Interna
= 1−
= 1−
Dev ( X )
Dev .Totale
Se la devianza esterna di X è nulla, esiste un’indipendenza in media
di X da Y: η2X/Y = 0
Se la devianza interna di X è nulla, esiste una dipendenza in media
massima di X da Y: η2X/Y = 1
9
Indice di Pearson
Tornando al nostro esempio, si calcolano le devianze parziali come
segue:
Dev (freq. | età = 26) =
(62 − 65,25)2 ⋅ 2 + (65 − 65,25) 2 ⋅ 2 + (66 − 65,25)2 ⋅ 2 + (68 − 65,25)2 ⋅ 2 = 37,5
Dev (freq. | età = 27) = 198,85
Dev (freq. | età = 28) = 0
Dev (freq. | età = 31) = 97,42
La devianza interna è pari alla somma delle devianze parziali:
Dev .Interna = 37,5 + 198,8571 + 0 + 97,42857 = 333,78
La devianza esterna si calcola in base alla definizione come segue:
Dev .Esterna = (65,25 - 11,50) 2 * 8 + (72,14 - 11,50) 2 * 7 +
+ (73 - 11,50) 2 * 3 + (77,28 - 11,50) 2 * 7 = 90475,04
10
Indice di Pearson
A questo punto, per il calcolo dell’indice di Pearson manca il valore
della devianza totale:
Dev .Totale = Dev .Interna + Dev .Esterna = 333,78 + 90475,04 = 90808,83
L’indice di Pearson vale:
η Frequenza|Età =
90475,04
333,78
= 1−
= 0,99
90808,83
90808,83
che significa che l’età influenza in media molto la frequenza cardiaca
11
Dipendenza funzionale
Nello studio della dipendenza tra caratteri, ha un interesse statistico
stabilire quale forma funzionale ha la dipendenza.
Dipendenza lineare
(per caratteri quantitativi)
12
Dipendenza lineare
Consideriamo un diagramma di dispersione in cui l’origine degli assi sia
stata traslata sul baricentro. Classifichiamo le coordinate dei punti nei 4
quadranti.
Segno
Algebrico
xi
yi
I
+
+
II
-
+
III
-
-
Quadrante IV
+
-
13
Codevianza
Prende il nome di codevianza tra X e Y, la somma dei prodotti xiyi e sintetizza
la distribuzione dei punti nei quattro quadranti.
>0 prevalgono i punti del I e III quadrante
caratteri concordanti
n
∑ xi y i
i =1
=0 punti uniformementi distribuiti nei quattro
quadranti
dipendenza nulla
<0 prevalgono i punti del II e IV quadrante
caratteri discordanti
La codevianza dipende dalla numerosità del campione e dalle unità di misura
14
Coefficiente di correlazione
Passo 1: Eliminazione della dipendenza dalla numerosità del campione
Si divide la codevianza per la dimensione campionaria.
n
∑ xi y i
Covarianza
Cov ( X ,Y ) = σ XY = i = 1
n
Passo 2: Eliminazione della dipendenza dalle unità di misura
Si divide la covarianza per gli scostamenti quadratici medi delle due variabili
n
∑ xi y i
Coefficiente di
correlazione lineare
di Bravais-Pearson:
n
∑ xi y i
i =1
σ XY
r =
=
σ XσY
n
=
n
n
i =1
i =1
2
2
∑ xi ∑ y i
n
i =1
n
n
i =1
i =1
2
2
∑ xi ∑ y i
n
15
Coefficiente di correlazione
Proprietà
−1≤ r ≤ 1
1 La relazione tra X e Y è lineare e concorde

r = 0 X e Y sono indipendenti o la relazione non è lineare
− 1 La relazione tra X e Y è lineare e discorde

16
Esempio
X
Y
6,35
121
6,74
107
6,2
125
5,96
125
5,38
150
5,71
140
5,41
168
5,54
160
6,08
143
5,96
117
5,79
140
5,87
130
6,02
125
170
165
160
155
150
145
140
135
130
125
120
115
110
105
100
5
5,5
6
6,5
7
17
Esempio
X
Y
6,35
121
6,74
107
6,2
125
5,96
125
5,38
150
5,71
140
5,41
168
5,54
160
6,08
143
5,96
117
5,79
140
5,87
130
6,02
125
Codevianza = -68,4846
n
∑ xi y i
Cov ( X ,Y ) = σ XY = i =1
n
σ X = 0,36
= -5,268
σ Y = 16,82
r =
− 5,268
= −0,86
0,36 ⋅ 16,82
18
Regressione
170
165
160
155
150
145
140
135
130
125
120
115
110
105
100
5
5,5
6
6,5
7
19
Parametri della retta di regressione
Equazione della retta di regressione
Y = b0 + b1 X
dove:
_
_
b0 = y + b1 x
Codev ( X ,Y )
b1 =
Dev ( X )
20
Calcolo della retta di regressione
_
_
x = 5,92 y = 134,69
σ xy = −5,268, Dev (X) = 1,73
Codev(X, Y) = n ⋅ σ xy = 13 ⋅ ( −5,268) = −68,48
b1 =
Codev ( X ,Y ) − 68,48
=
= −39,49
Dev ( X )
1,73
_
_
b0 = y − b1 x = 134,69 − ( −39,49) ⋅ 5,92 = 368,5
21
Retta di regressione
170
165
160
155
150
145
140
135
130
125
120
115
110
105
100
y=-39,49x+368,67
5
5,5
6
6,5
7
22