X - life and fitness
Transcript
X - life and fitness
Corso di laurea in Scienze Motorie Corso di Statistica Docente: Dott.ssa Immacolata Scancarello Lezione 9: Covarianza e correlazione 1 Altri tipi di dipendenza L’indice Chi-quadro presentato nella lezione precedente stabilisce il grado di dipendenza assoluta di due caratteri. Altri tipi di dipendenza dipendenza parametrica dipendenza funzionale 2 Dipendenza parametrica L’indipendenza assoluta è una condizione forte: tutte le distribuzioni condizionate relative devono essere uguali. Condizione meno forte: invarianza di un solo parametro (es. media) rispetto alle distribuzioni condizionate Modello più diffuso: dipendenza in media 3 Dipendenza in media ≠ Dipendenza assoluta: tra variabili di tipo qualsiasi Dipendenza in media: tra variabili quantitative Indipendenza in media: se M(Y|xi)=M(Y) per ogni xi allora Y è indipendente in media da X. Se M(X|yj)=M(X) per ogni yj allora X è indipendente in media da Y. M sta per media aritmetica 4 Dipendenza in media Esempio M(freq. | età = 26) = Età Frequenza cardiaca a riposo 26 27 28 31 Totale 62 2 0 0 0 2 64 0 1 0 0 1 65 2 0 0 0 2 66 2 0 0 0 2 68 2 1 0 0 3 71 0 2 0 1 3 72 0 1 0 0 1 73 0 0 3 1 4 76 0 0 0 1 1 78 0 1 0 0 1 79 0 0 0 1 1 80 0 0 0 1 1 81 0 1 0 2 3 Totale 8 7 3 7 62 ⋅ 2 + 65 ⋅ 2 + 66 ⋅ 2 + 68 ⋅ 2 = 65,25 8 M(freq. | età = 27) = 72,14 M(freq. | età = 28) = 73 M(freq. | età = 31) = 77,28 M(frequenza) = 65,25 + 72,14 + 73 + 77,28 = 11,50 25 C’è una dipendenza in media della frequenza dall’età 25 5 Dipendenza in media Caso di indipendenza in media dell’età/Y dalla frequenza cardiaca/X (distribuzioni parziali di Y tutte con media pari a 27) 32 31 Età 30 29 28 27 26 25 60 65 70 75 80 85 Frequenza cardiaca 6 Indice di Pearson Per misurare la dipendenza in media si ricorre al rapporto di correlazione o all’indice eta quadrato di Pearson. Per definirlo abbiamo bisogno del concetto di devianza. La devianza di una variabile Y rispetto all’altra variabile X si può scomporre in devianza interna ed esterna. 2 Devianza totale:∑ ( y j − M (Y )) n. j Devianza interna: ∑ Dev (Y / x i ) 2 Devianza esterna: ∑ (M (Y ) − M (Y | x i ) n i . 7 Indice di Pearson 2 ∑ (M (Y ) − M (Y | x i ) n i . Dev .Esterna 2 ηY / X = = = Dev (Y ) Dev .Totale = 1− ∑ Dev (Y | x i ) Dev .Interna = 1− Dev (Y ) Dev .Totale Se la devianza esterna di Y è nulla, esiste un’indipendenza in media di Y da X: η2Y/X = 0 Se la devianza interna di Y è nulla, esiste una dipendenza in media massima di Y da X: η2Y/X = 1 8 Indice di Pearson 2 ( M ( X ) − M ( X | y ) n. j Dev .Esterna ∑ j 2 ηX = = = /Y Dev ( X ) Dev .Totale ∑ Dev ( X | y j ) Dev .Interna = 1− = 1− Dev ( X ) Dev .Totale Se la devianza esterna di X è nulla, esiste un’indipendenza in media di X da Y: η2X/Y = 0 Se la devianza interna di X è nulla, esiste una dipendenza in media massima di X da Y: η2X/Y = 1 9 Indice di Pearson Tornando al nostro esempio, si calcolano le devianze parziali come segue: Dev (freq. | età = 26) = (62 − 65,25)2 ⋅ 2 + (65 − 65,25) 2 ⋅ 2 + (66 − 65,25)2 ⋅ 2 + (68 − 65,25)2 ⋅ 2 = 37,5 Dev (freq. | età = 27) = 198,85 Dev (freq. | età = 28) = 0 Dev (freq. | età = 31) = 97,42 La devianza interna è pari alla somma delle devianze parziali: Dev .Interna = 37,5 + 198,8571 + 0 + 97,42857 = 333,78 La devianza esterna si calcola in base alla definizione come segue: Dev .Esterna = (65,25 - 11,50) 2 * 8 + (72,14 - 11,50) 2 * 7 + + (73 - 11,50) 2 * 3 + (77,28 - 11,50) 2 * 7 = 90475,04 10 Indice di Pearson A questo punto, per il calcolo dell’indice di Pearson manca il valore della devianza totale: Dev .Totale = Dev .Interna + Dev .Esterna = 333,78 + 90475,04 = 90808,83 L’indice di Pearson vale: η Frequenza|Età = 90475,04 333,78 = 1− = 0,99 90808,83 90808,83 che significa che l’età influenza in media molto la frequenza cardiaca 11 Dipendenza funzionale Nello studio della dipendenza tra caratteri, ha un interesse statistico stabilire quale forma funzionale ha la dipendenza. Dipendenza lineare (per caratteri quantitativi) 12 Dipendenza lineare Consideriamo un diagramma di dispersione in cui l’origine degli assi sia stata traslata sul baricentro. Classifichiamo le coordinate dei punti nei 4 quadranti. Segno Algebrico xi yi I + + II - + III - - Quadrante IV + - 13 Codevianza Prende il nome di codevianza tra X e Y, la somma dei prodotti xiyi e sintetizza la distribuzione dei punti nei quattro quadranti. >0 prevalgono i punti del I e III quadrante caratteri concordanti n ∑ xi y i i =1 =0 punti uniformementi distribuiti nei quattro quadranti dipendenza nulla <0 prevalgono i punti del II e IV quadrante caratteri discordanti La codevianza dipende dalla numerosità del campione e dalle unità di misura 14 Coefficiente di correlazione Passo 1: Eliminazione della dipendenza dalla numerosità del campione Si divide la codevianza per la dimensione campionaria. n ∑ xi y i Covarianza Cov ( X ,Y ) = σ XY = i = 1 n Passo 2: Eliminazione della dipendenza dalle unità di misura Si divide la covarianza per gli scostamenti quadratici medi delle due variabili n ∑ xi y i Coefficiente di correlazione lineare di Bravais-Pearson: n ∑ xi y i i =1 σ XY r = = σ XσY n = n n i =1 i =1 2 2 ∑ xi ∑ y i n i =1 n n i =1 i =1 2 2 ∑ xi ∑ y i n 15 Coefficiente di correlazione Proprietà −1≤ r ≤ 1 1 La relazione tra X e Y è lineare e concorde r = 0 X e Y sono indipendenti o la relazione non è lineare − 1 La relazione tra X e Y è lineare e discorde 16 Esempio X Y 6,35 121 6,74 107 6,2 125 5,96 125 5,38 150 5,71 140 5,41 168 5,54 160 6,08 143 5,96 117 5,79 140 5,87 130 6,02 125 170 165 160 155 150 145 140 135 130 125 120 115 110 105 100 5 5,5 6 6,5 7 17 Esempio X Y 6,35 121 6,74 107 6,2 125 5,96 125 5,38 150 5,71 140 5,41 168 5,54 160 6,08 143 5,96 117 5,79 140 5,87 130 6,02 125 Codevianza = -68,4846 n ∑ xi y i Cov ( X ,Y ) = σ XY = i =1 n σ X = 0,36 = -5,268 σ Y = 16,82 r = − 5,268 = −0,86 0,36 ⋅ 16,82 18 Regressione 170 165 160 155 150 145 140 135 130 125 120 115 110 105 100 5 5,5 6 6,5 7 19 Parametri della retta di regressione Equazione della retta di regressione Y = b0 + b1 X dove: _ _ b0 = y + b1 x Codev ( X ,Y ) b1 = Dev ( X ) 20 Calcolo della retta di regressione _ _ x = 5,92 y = 134,69 σ xy = −5,268, Dev (X) = 1,73 Codev(X, Y) = n ⋅ σ xy = 13 ⋅ ( −5,268) = −68,48 b1 = Codev ( X ,Y ) − 68,48 = = −39,49 Dev ( X ) 1,73 _ _ b0 = y − b1 x = 134,69 − ( −39,49) ⋅ 5,92 = 368,5 21 Retta di regressione 170 165 160 155 150 145 140 135 130 125 120 115 110 105 100 y=-39,49x+368,67 5 5,5 6 6,5 7 22