Appunti di statistica bivariata

Transcript

Appunti di statistica bivariata
Appunti di statistica bivariata - Studio della connessione
(P.U.marzo ‘96)
1)
C
  C ik    C ik  0
ik
i
k
i
k
Dimostrazione:
La connessione studia il legame esistente fra due MUTABILI STATISTICHE X e Y, riportanti
ATTRIBUTI di CARATTERI QUALITATIVI.
Esempio:
Su una indagine fatta su 4.000 matrimoni sono stati rilevati stato civile della sposa (mutabile X)
e stato civile dello sposo (mutabile Y).
Y \ X
Celibi
Vedovi
Divorziati
Totale
Nubili Vedove Divorziate Totale
3.400
80
20
3.500
110
200
10
320
90
24
66
180
3.600
304
96
4.000
Struttura generica di una tabella a doppia entrata:
Y\X
Y1
Y2
...
Yk
...
Yq
Totale
X1
n11
n12
...
n1k
...
n1q
n10
X2
n21
n22
...
n2k
...
n2q
n20
...
...
...
...
...
...
...
...
Xi
ni1
ni2
...
nik
...
niq
ni0
...
...
...
...
...
...
...
...
Xp
np1
np2
...
npk
...
npq
np0
Totale
n01
n02
n ok  n i 0
n
Definiamo come
n ik 
2)
 C
i
ik
 2n
k
NB: In realtà l’uguaglianza con 2n si verifica solo nei seguenti casi:
 tutti gli elementi di una riga (o colonna) uguali a 0
 tutti gli elementi della tabella uguali a 0
entrambi sono casi non reali per cui, in pratica, la seconda proprietà è
 C
i
 2n
ik
k
Un indice che studia la connessione dovrà riassumere tutte le contingenze. La semplice media
aritmetica delle contingenze, tenendo conto della proprietà 1, vale sempre 0 e non è dunque un
indice significativo. Per evitare che contingenze positive e contingenze negative si bilancino
annullandosi nella somma, vengono elaborati due indici che operano sui valori assoluti delle
contingenze e sui quadrati.
Indice di contingenza media di Mortara
I1 
n0k
 C
i
ik
k
2n
in base a quanto detto precedentemente possiamo dedurre che
n0q
n
INDIPENDENZA: Le due variabili (o mutabili) X e Y sono indipendenti se si verifica:
n ik 
n n
n
n
 ( n ik  n ik )  n ik   i 0 0 k  n 0 k  0 k  n i 0  n 0 k  0 k n  0
n
n i
n
i
i
i
i, k
n ok  n i 0
la frequenza TEORICA, ovvero la frequenza che si avrebbe
n
0  I1  1
1
1
max I 1  min(1  ;1  ) e, in particolare, se p=q=m (tabella
p
q
1
quadrata) max I1  1 
m
si può dimostrare che
NB: Si parla di massima connessione di due caratteri quando ad una modalità xi di X è
associata UN’UNICA modalità yk del carattere Y; ciò significa che:
n ik  0 e n ij  0 j  i . La perfetta dipendenza di X da Y non implica la perfetta
in ipotesi di indipendenza.
dipendenza di Y da X. Ciò può verificarsi solo in una tabella quadrata con tutti i termini diversi
da 0 solo nella diagonale principale, ovvero:
La CONNESSIONE viene misurata in base alla distanza esistente fra frequenze rilevate
assolute (nik) e frequenze teoriche ( n ik ).
Indice “Chi quadrato” del Pearson
Si definisce CONTINGENZA la differenza fra frequenza rilevata e frequenza teorica:
n ii  0
n ik  0
e
2  
i
C ik  n ik  n ik
Una tabella di contingenza è una tabella a doppia entrata contenente tutte le
contingenze (Cik).
Una tabella di contingenza gode delle seguenti proprietà:
k
C 2ik
n ik
con i  k
0   2  max  2
max  2  min[ n( p  1), n(q  1)]
2
e, in caso di tabelle quadrate, dove p=q=m max   n( m  1)
dove
Coefficiente di contingenza del Pearson
E’ un indice che ha lo scopo di ricondurre il “chi quadrato” in un intervallo [0;1].

 n
Y \ X
Senza
titolo
2
C
in particolare,
0 C1
2
C max  1 
1
dove m è la dimensione comune (il numero di righe o di
m
colonne) di una tabella a doppia entrata quadrata. Il massimo non può dunque essere
esattamente 1 ma si avvicina a 1 quando m è molto grande.
Gli indici quadratici sono da preferire a quello del Mortara (valori assoluti) per due motivi:
1. Il valore assoluto è una operazione matematicamente scomoda da trattare
2. Il quadrato enfatizza maggiormente le contingenze grandi
Svolgimento dell’esempio iniziale:
Tabella delle frequenze teoriche:
Y \ X
Celibi
Vedovi
Divorziati
Totale
Nubili Vedove Divorziate Totale
3.150
266
84
3.500
288
24,32
7,68
320
162
13,68
4,32
180
3.600
304
96
4.000
Tabella delle CONTINGENZE:
Y \ X
Celibi
Vedovi
Divorziati
Totale
Nubili Vedove Divorziate Totale
250
-186
-64
0
-178
175,68
2,32
0
-72
10,32
61,68
0
0
0
0
0
I1  0,125 max I1  0,67
 2  2.498,87 max  2  8.000
I c  0,6276 max I c  0,82
Relazione fra una VARIABILE ed una MUTABILE
Esempio:
Su una indagine fatta su 650 persone sono stati rilevati titolo di studio (mutabile X) e durata
della ricerca del lavoro in anni (variabile Y).
Licenza
elementare
4
26
25
50
105
0-|0,5
0,5-|1
1-|2
2-|4
Totale
4
61
62
108
235
Licenza Diploma Laurea Totale
media
media
superiore
26
20
30
84
75
56
10
228
40
22
5
154
9
12
5
184
150
110
50
650
Per studiare questo tipo di legame vengono calcolate le medie condizionate della variabile Y
( yi ); in ipotesi di indipendenza tali medie risulteranno uguali fra loro ed uguali alla media
complessiva della Y.
Indice di connessione
 (eta) del Pearson
( y  y )
( y  y )
2
i

 n 0i
i
k
2
 nk0

y i
y
0 1
k
Tale indice vale 0 in presenza di indipendenza (si annullerebbero tutti i termini del numeratore),
1 in presenza di massimo legame, che si verifica solo in tabelle quadrate con tutti gli elementi
nulli ad eccezione di quelli sulla diagonale; in questo caso le medie condizionate
coinciderebbero con i valori della variabile.
Sviluppo dell’esempio
Y \ X
y
Senza tit. Lic.elem. Lic.med. Diploma
Laurea Totale
0,25
4
4
26
20
30
84
0-|0,5
0,75
26
61
75
56
10
228
0,5-|1
1,5
25
62
40
22
5
154
1-|2
3
50
108
9
12
5
184
2-|4
105
235
150
110
50
650
Totale
yi
1,98
1,97
0,998
1,06
0,75
( yi  y)2  n0i
( yi  y ) 2  n k 0
24,192
51,912
37,8
21,296
28,125
163,3255
131,25
128,25
0
414
  0,49
673,5