Appunti di statistica bivariata
Transcript
Appunti di statistica bivariata
Appunti di statistica bivariata - Studio della connessione (P.U.marzo ‘96) 1) C C ik C ik 0 ik i k i k Dimostrazione: La connessione studia il legame esistente fra due MUTABILI STATISTICHE X e Y, riportanti ATTRIBUTI di CARATTERI QUALITATIVI. Esempio: Su una indagine fatta su 4.000 matrimoni sono stati rilevati stato civile della sposa (mutabile X) e stato civile dello sposo (mutabile Y). Y \ X Celibi Vedovi Divorziati Totale Nubili Vedove Divorziate Totale 3.400 80 20 3.500 110 200 10 320 90 24 66 180 3.600 304 96 4.000 Struttura generica di una tabella a doppia entrata: Y\X Y1 Y2 ... Yk ... Yq Totale X1 n11 n12 ... n1k ... n1q n10 X2 n21 n22 ... n2k ... n2q n20 ... ... ... ... ... ... ... ... Xi ni1 ni2 ... nik ... niq ni0 ... ... ... ... ... ... ... ... Xp np1 np2 ... npk ... npq np0 Totale n01 n02 n ok n i 0 n Definiamo come n ik 2) C i ik 2n k NB: In realtà l’uguaglianza con 2n si verifica solo nei seguenti casi: tutti gli elementi di una riga (o colonna) uguali a 0 tutti gli elementi della tabella uguali a 0 entrambi sono casi non reali per cui, in pratica, la seconda proprietà è C i 2n ik k Un indice che studia la connessione dovrà riassumere tutte le contingenze. La semplice media aritmetica delle contingenze, tenendo conto della proprietà 1, vale sempre 0 e non è dunque un indice significativo. Per evitare che contingenze positive e contingenze negative si bilancino annullandosi nella somma, vengono elaborati due indici che operano sui valori assoluti delle contingenze e sui quadrati. Indice di contingenza media di Mortara I1 n0k C i ik k 2n in base a quanto detto precedentemente possiamo dedurre che n0q n INDIPENDENZA: Le due variabili (o mutabili) X e Y sono indipendenti se si verifica: n ik n n n n ( n ik n ik ) n ik i 0 0 k n 0 k 0 k n i 0 n 0 k 0 k n 0 n n i n i i i i, k n ok n i 0 la frequenza TEORICA, ovvero la frequenza che si avrebbe n 0 I1 1 1 1 max I 1 min(1 ;1 ) e, in particolare, se p=q=m (tabella p q 1 quadrata) max I1 1 m si può dimostrare che NB: Si parla di massima connessione di due caratteri quando ad una modalità xi di X è associata UN’UNICA modalità yk del carattere Y; ciò significa che: n ik 0 e n ij 0 j i . La perfetta dipendenza di X da Y non implica la perfetta in ipotesi di indipendenza. dipendenza di Y da X. Ciò può verificarsi solo in una tabella quadrata con tutti i termini diversi da 0 solo nella diagonale principale, ovvero: La CONNESSIONE viene misurata in base alla distanza esistente fra frequenze rilevate assolute (nik) e frequenze teoriche ( n ik ). Indice “Chi quadrato” del Pearson Si definisce CONTINGENZA la differenza fra frequenza rilevata e frequenza teorica: n ii 0 n ik 0 e 2 i C ik n ik n ik Una tabella di contingenza è una tabella a doppia entrata contenente tutte le contingenze (Cik). Una tabella di contingenza gode delle seguenti proprietà: k C 2ik n ik con i k 0 2 max 2 max 2 min[ n( p 1), n(q 1)] 2 e, in caso di tabelle quadrate, dove p=q=m max n( m 1) dove Coefficiente di contingenza del Pearson E’ un indice che ha lo scopo di ricondurre il “chi quadrato” in un intervallo [0;1]. n Y \ X Senza titolo 2 C in particolare, 0 C1 2 C max 1 1 dove m è la dimensione comune (il numero di righe o di m colonne) di una tabella a doppia entrata quadrata. Il massimo non può dunque essere esattamente 1 ma si avvicina a 1 quando m è molto grande. Gli indici quadratici sono da preferire a quello del Mortara (valori assoluti) per due motivi: 1. Il valore assoluto è una operazione matematicamente scomoda da trattare 2. Il quadrato enfatizza maggiormente le contingenze grandi Svolgimento dell’esempio iniziale: Tabella delle frequenze teoriche: Y \ X Celibi Vedovi Divorziati Totale Nubili Vedove Divorziate Totale 3.150 266 84 3.500 288 24,32 7,68 320 162 13,68 4,32 180 3.600 304 96 4.000 Tabella delle CONTINGENZE: Y \ X Celibi Vedovi Divorziati Totale Nubili Vedove Divorziate Totale 250 -186 -64 0 -178 175,68 2,32 0 -72 10,32 61,68 0 0 0 0 0 I1 0,125 max I1 0,67 2 2.498,87 max 2 8.000 I c 0,6276 max I c 0,82 Relazione fra una VARIABILE ed una MUTABILE Esempio: Su una indagine fatta su 650 persone sono stati rilevati titolo di studio (mutabile X) e durata della ricerca del lavoro in anni (variabile Y). Licenza elementare 4 26 25 50 105 0-|0,5 0,5-|1 1-|2 2-|4 Totale 4 61 62 108 235 Licenza Diploma Laurea Totale media media superiore 26 20 30 84 75 56 10 228 40 22 5 154 9 12 5 184 150 110 50 650 Per studiare questo tipo di legame vengono calcolate le medie condizionate della variabile Y ( yi ); in ipotesi di indipendenza tali medie risulteranno uguali fra loro ed uguali alla media complessiva della Y. Indice di connessione (eta) del Pearson ( y y ) ( y y ) 2 i n 0i i k 2 nk0 y i y 0 1 k Tale indice vale 0 in presenza di indipendenza (si annullerebbero tutti i termini del numeratore), 1 in presenza di massimo legame, che si verifica solo in tabelle quadrate con tutti gli elementi nulli ad eccezione di quelli sulla diagonale; in questo caso le medie condizionate coinciderebbero con i valori della variabile. Sviluppo dell’esempio Y \ X y Senza tit. Lic.elem. Lic.med. Diploma Laurea Totale 0,25 4 4 26 20 30 84 0-|0,5 0,75 26 61 75 56 10 228 0,5-|1 1,5 25 62 40 22 5 154 1-|2 3 50 108 9 12 5 184 2-|4 105 235 150 110 50 650 Totale yi 1,98 1,97 0,998 1,06 0,75 ( yi y)2 n0i ( yi y ) 2 n k 0 24,192 51,912 37,8 21,296 28,125 163,3255 131,25 128,25 0 414 0,49 673,5