Statistica 1 AA 2015/2016 - Dipartimento di Scienze Statistiche e

Transcript

Statistica 1 AA 2015/2016 - Dipartimento di Scienze Statistiche e
Corso di Laurea in
“Economia e Finanza”
Statistica 1
A.A. 2015/2016
(8 CFU, corrispondenti a 48 ore di lezione frontale e 24 ore di esercitazione)
Prof. Luigi Augugliaro
1 / 31
Analisi dell’associazione tra due caratteri
Misura dell’associazione tra due caratteri qualitativi ordinabili.
Gli indici introdotti consentono di analizzare l’associazione tra due caratteri qualunque sia la loro scala di misura. Se la tabella si riferisce a due caratteri qualitativi
ordinati è possibile costruire degli indici che, oltre a misurare l’intensità dell’associazione, ne misurano anche il verso. Ossia, misurano anche se alle modalità di ordine
più elevato di un carattere corrispondono più frequentemente le modalità più basse
o più alte dell’altro carattere.
2 / 31
Esempio. Un gruppo di studiosi è interessato a valutare la relazione esistente tra l’attitudine alla
matematica e l’attitudine all’informatica. La seguente tabella riporta la distribuzione doppia di
frequenza ottenuta utilizzando un campione di 250 studenti.
Attitudine
all’informatica
bassa
media
alta
Tot.
Attitudine alla matematica
bassa
media
alta
78
9
3
8
43
9
7
16
77
93
68
89
Tot.
90
60
100
250
La distribuzione doppia di frequenza mostra che a modalità basse del carattere “attitudine alla
matematica” corrispondono più frequentemente modalità basse del carattere “attitudine all’informtica”.
3 / 31
In generale, poiché le modalità dei due caratteri sono ordinabili possono sussistere fra loro due tipo
diversi di relazione: relazione diretta (chiamata anche concordanza) relazione indiretta (chiamata
anche discordanza).
Definizione
Diremo che vi è concordanza tra due caratteri ordinati X e Y (o siamo in presenza di una relazione
diretta) quando a modalità basse del carattere X corrispondono più frequentemente modalità basse
del carattere Y , mentre a modalità alte del carattere X corrispondono più frequentemente modalità
alte del carattere Y .
Di seguito è riportata la distribuzione doppia di frequenze caratterizzata da perfetta concordanza
Attitudine
all’informatica
bassa
media
alta
Tot.
Attitudine alla matematica
bassa
media
alta
78
0
0
0
43
0
0
0
77
78
43
77
Tot.
78
43
77
198
4 / 31
In generale, poiché le modalità dei due caratteri sono ordinabili possono sussistere fra loro due tipo
diversi di relazione: relazione diretta (chiamata anche concordanza) relazione indiretta (chiamata
anche discordanza).
Definizione
Diremo che vi è discordanza tra due caratteri ordinati X e Y (o siamo in presenza di una relazione
inversa) quando a modalità basse del carattere X corrispondono più frequentemente modalità alte
del carattere Y , mentre a modalità alte del carattere X corrispondono più frequentemente modalità
basse del carattere Y .
Di seguito è riportata la distribuzione doppia di frequenze caratterizzata da perfetta discordanza
Attitudine
all’informatica
bassa
media
alta
Tot.
Attitudine alla matematica
bassa
media
alta
0
0
78
0
43
0
77
0
0
77
43
78
Tot.
78
43
77
198
5 / 31
Gli indici utilizzati per lo studio del tipo di relazione che intercorre tra due caratteri ordinati X
e Y , trovano fondamento teorico nel concetto di coppia di unità concordanti e coppia di unità
discordanti.
Sia u una unità su cui sono state rilevate le modalità xi e yj e sia u 0 una unità su cui sono state
rilevate le modalità xi0 e yj0 .
Diremo che la coppia di unità (u, u 0 ) è concordante se
xi < xi0 e yj < yj0
oppure
xi > xi0 e yj > yj0
Diremo che la coppia di unità (u, u 0 ) è discordante se
xi < xi0 e yj > yj0
oppure
xi > xi0 e yj < yj0
6 / 31
Data una distribuzione doppia di frequenza, indichiamo con Ns il numero totale di coppie di
unità concordanti e con Nd il numero totale di coppie discordanti.
Un primo indice proposto in letteratura per lo studio dell’associazione tra due caratteri ordinati
X e Y è l’indice Gamma di Goodman e Kruskal, definito come
γ=
Ns − Nd
.
Ns + Nd
Note. L’indice γ assume valori all’interno dell’intervallo [−1, 1]; assume valori positivi quando
siamo in presenza di una relazione diretta (concordanza) mentre assume valori negativi quando
siamo in presenza di una relazione inversa (discordanza).
γ = 1 se e solo se Nd = 0 mentre γ = −1 se e solo se Ns = 0.
L’indice γ misura la riduzione dell’errore che si commette nel prevedere come una coppia di unità
si ordina rispetto alle modalità di un carattere, quando si conosce come queste si ordinano
rispetto alle modalità dell’altro carattere.
7 / 31
Dalla definizione discende che per il calcolo dell’indice γ è necessario calcolare Ns e Nd .
Con riferimento alla tabella
Attitudine
all’informatica
bassa
media
alta
Tot.
Attitudine alla matematica
bassa
media
alta
78
9
3
8
43
9
7
16
77
93
68
89
Tot.
90
60
100
250
il numero totale di coppie di unità concordanti Ns è ottenuto mediante la seguente rappresentazione
tabellare
Dalla
bassa
bassa
media
media
cella
bassa
media
bassa
media
Numero di coppie
78 · (43 + 9 + 16 + 77)
9 · (9 + 77)
8 · (16 + 77)
43 · 77
Ns
Tot.
11310
774
744
3311
16139
8 / 31
Con riferimento alla tabella
Attitudine
all’informatica
bassa
media
alta
Tot.
Attitudine alla matematica
bassa
media
alta
78
9
3
8
43
9
7
16
77
93
68
89
Tot.
90
60
100
250
il numero totale di coppie di unità discordanti Nd è ottenuto mediante la seguente rappresentazione
tabellare
Dalla cella
bassa
alta
bassa
media
media
alta
media
media
Numero di coppie
3 · (8 + 43 + 7 + 16)
9 · (8 + 7)
9 · (7 + 16)
43 · 7
Nd
Tot.
222
135
207
301
865
9 / 31
Sulla base dei risultati precedenti si ricava che
γ=
16139 − 865
Ns − Nd
=
= 0.9
Ns + Nd
16139 + 865
L’indice γ mostra un elevato grado di concordanza tra i due carattere; al crescere
delle modalità del carattere “attitudine all’informatica” migliorano i risultati forniti
dal test sull’attitudine alla matematica, e viceversa.
Una limitazione dell’indice γ di Goodman e Kuskal risiede nella mancata considerazione delle coppie per cui le modalità di uno dei due caratteri rimangono
costanti.
10 / 31
Data una distribuzione doppia di frequenza, indichiamo con TX il numero di
coppie di unità, che rispetto al carattere X , presentano uguale modalità.
Indichiamo con TY il numero di coppie di unità, che rispetto al carattere Y ,
presentano uguale modalità.
Sulla base dell’utilizzo delle quantità TX e TY , Kendall propose il seguente indice
τb = p
Ns − Nd
(Ns + Nd + TX )(Ns + Nd + TY )
L’indice τb di Kendall varia tra -1 e 1 e assume valori estremi sono quando i due
caratteri hanno lo stesso numero di modalità, ovvero la distribuzione doppia di
frequenze è quadrata.
Quando la distribuzione doppia di frequenza è quadrata si preferisce utilizzare
l’indice τb rispetto all’indice γ poiché utilizza maggiori informazioni.
11 / 31
Con riferimento alla tabella
Attitudine
all’informatica
bassa
media
alta
Tot.
Attitudine alla matematica
bassa
media
alta
78
9
3
8
43
9
7
16
77
93
68
89
Tot.
90
60
100
250
il numero di coppie appaiate rispetto al carattere “attitudine alla matematica” è ottenuto
attraverso la seguente tabella
Attitudine alla matematica
bassa
media
alta
Numero di coppie
78 · (8 + 7) + 8 · 7
9 · (43 + 16) + 43 · 16
3 · (9 + 77) + 9 · 77
TY
Tot.
1226
1219
951
3396
12 / 31
Con riferimento alla tabella
Attitudine
all’informatica
bassa
media
alta
Tot.
Attitudine alla matematica
bassa
media
alta
78
9
3
8
43
9
7
16
77
93
68
89
Tot.
90
60
100
250
il numero di coppie appaiate rispetto al carattere “attitudine al fumo” è ottenuto attraverso la
seguente tabella
attitudine all’informatica
bassa
media
alta
Numero di coppie
78 · (9 + 3) + 9 · 3
8 · (43 + 9) + 43 · 9
7 · (16 + 77) + 16 · 77
TX
Tot.
963
803
1883
3649
13 / 31
Sulla base dei risultati precedenti si ricava
τb
Ns − Nd
=
=
p
=
(Ns + Nd + TX )(Ns + Nd + TY )
16139 − 865
p
(16139 + 865 + 3396)(16139 + 865 + 3649)
= 0.744
Il valore ottenuto conferma le precedenti conclusioni fornite dall’indice γ.
14 / 31
L’indice γ di Goodman e Kruskal e l’indice τ di Kendall trovano giustificazione teorica all’interno
di un approccio simmetrico, ovvero i due caratteri studiati si trovano sullo stesso piano logico; in
altri termini non esiste un carattere dipendente e un carattere indipendente.
Quando si è interessati ad un analisi asimmetrica, ovvero i due caratteri ordinabili considerati
non si trovano sullo stesso piano logico, l’indice utilizzato è l’indice d di Sommer.
Definizione
Se il carattere Y è considerato dipendente dal carattere X allora l’indice d di Sommer è definito
nel seguente modo
Ns − Nd
dY =
.
Ns + Nd + TY
Definizione
Se il carattere X è considerato dipendente dal carattere Y allora l’indice d di Sommer è definito
nel seguente modo
Ns − Nd
.
dX =
Ns + Nd + TX
15 / 31
Esempio. Un gruppo di studiosi è interessato a valutare la relazione esistente tra attitudine al
fumo e i risultati di un test sulla capacità respiratoria. La seguente tabella riporta la distribuzione
doppia di frequenza.
Attitudine
al fumo
mai fumato
ex fumatore
fumatore
Tot.
Normale
78
8
7
93
Esito Test
Intermedio
9
43
16
68
Irregolare
3
9
77
89
Tot.
90
60
100
250
Con riferimento alla distribuzione doppia di frequenza è naturale studiare la dipendenza della
variabile “esito test” dalla variabile “attitudine al fumo”. Sulla base dei risultati ottenuti in
precedenza si ricava che l’indice dY di Sommer assume il seguente valore
dY =
Ns − Nd
16139 − 865
=
= 0.749
N s + N d + TY
16139 + 865 + 3396
16 / 31
Indici di cograduazione
Esempio. Un gruppo di 5 studenti, denotati con le lettere A, B, . . . , E , è stato valutato mediante un indicatore delle loro abilità matematiche e mediante un indicatore
delle loro abilità musicali. Di seguito riportiamo i risultati ottenuti.
Tabella dei punteggi
Studenti
Matematica
Musica
A
9
3
B
3
8
C
7
1
D
8
7
E
2
6
Obiettivo della nostra analisi è stabilire se esiste una relazione tra le due graduatorie
e misurare l’intensità dell’eventuale relazione.
17 / 31
Definizione
Definiamo rango la posizione ottenuta dall’unità dopo aver riordinato le unità in
senso decrescente o crescente.
Tabella dei punteggi
Studenti
Matematica
Musica
A
9
3
B
3
8
C
7
1
D
8
7
E
2
6
D
2
2
E
5
3
Tabella dei ranghi
Studenti
Matematica
Musica
A
1
4
B
4
1
C
3
5
18 / 31
Per rispondere alla precedente domanda è necessario costruire un indice che goda delle seguenti
proprietà:
i. assume valore +1 quando siamo in presenza di perfetta concordanza tra le due graduatorie;
la seguente tabella è un esempio di perfetta concordanza tra due graduatorie
Studenti
Matematica
Musica
A
1
1
B
4
4
C
3
3
D
2
2
E
5
5
ii. assume valore -1 quando siamo in presenza di perfetta discordanza tra le due graduatorie;
la seguente tabella è un esempio di perfetta discordanza tra due graduatorie
Studenti
Matematica
Musica
A
1
5
B
4
2
C
3
3
D
2
4
E
5
1
iii. nelle situazioni intermedie assume valori compresi tra -1 e 1. Il valore 0 indica perfetta
indipendeza.
19 / 31
La costruzione dell’indice richiesto è basata sulla seguente procedura; consideriamo la prima
possibile coppia di studenti, ovvero (A, B).
Studenti
Matematica
Musica
A
1
4
B
4
1
C
3
5
D
2
2
E
5
3
Con riferimento alla prima graduatoria (matematica), osserviamo i ranghi 1 e 4. Poiché i due ranghi
presentano lo stesso ordinamento dei numeri naturali, assegniamo valore +1. Con riferimento alla
seconda graduatoria (musica), la coppia (A, B) presenta ranghi 4 e 1. Poiché non è soddisfatto
l’ordinameto dei numeri naturali assegniamo valore -1. Il punteggio complessivo assegnato alla
coppia (A, B) è ottenuto tramite il prodotto dei precedenti valori, ovvero -1.
20 / 31
Ripetendo quanto appena fatto per tutte le
Coppie
(A, B)
(A, C )
(A, D)
(A, E )
(B, C )
(B, D)
(B, E )
(C , D)
(C , E )
(D, E )
Tot.
5
2
=
Matematica
+1
+1
+1
+1
-1
-1
+1
-1
+1
+1
4·5
2
= 10 coppie si ottiene la seguente tabella
Musica
-1
+1
-1
-1
+1
+1
+1
-1
-1
+1
Score
-1
+1
-1
-1
-1
-1
+1
+1
-1
+1
-2
21 / 31
Per costruire un indice che assume valori compresi tra -1 e +1 è sufficiente notare
che la colonna “Score” può assumere valore massimo uguale al numero di tutte le
possibili coppie, ovvero 10, mentre può assumere valore minimo uguale a -10. La
quantità
−2
= −0.2
τ=
10
Il valore ottenuto mostra la presenza di una bassa discordanza tra le due graduatorie.
In generale, indicato con s il totale della colonna Score e con n il numero di unità,
l’indice τ calcolato precedentemente assume la seguente espressione:
τ=
s
n
2
=
2s
.
n(n − 1)
L’indice precedente è noto in letteratura come indice τ di Kendall.
22 / 31
Sebbene la procedura precedente consenta di comprendere la logica sottostante l’indice τ di
Kendall, non è utilizzabile nelle applicazione in particolare quando n è elevato.
Una procedura più semplice per il calcolo dell’indice τ di Kendall si basa sulle seguenti fasi:
i. Si dispone la prima graduatori secondo l’ordine naturale e si lavora solamente sulla nuova
disposizione della seconda graduatoria, ovvero
Studenti
Matematica
Musica
A
1
4
D
2
2
C
3
5
B
4
1
E
5
3
ii. Si procede come fatto in precedenza lavorando solamente sulla seconda graduatoria riordinata; si ottiene la tabella
Unità
A
D
C
B
s
Musica
-1+1-1-1
+1-1+1
-1-1
+1
Tot.
-2
+1
-2
+1
-2
da cui si ricava τ =
−2
10
= −0.2
23 / 31
La tabella che segue riporta l’ordine di arrivo di 5 atleti, indicati con A, B, . . . , E in
due differenti gare:
Studenti
1◦ gara
2◦ gara
A
3
5
B
1
2
C
5
3
D
2
1
E
4
4
Valutare il gradi di concordanza.
24 / 31
i. Disponiamo la prima graduatori secondo l’ordine naturale
Studenti
1◦ gara
2◦ gara
B
1
2
D
2
1
A
3
5
E
4
4
C
5
3
ii. Dalla seguente tabella
Unità
B
D
A
E
s
si ricava che τ =
2
10
Musica
-1+1+1+1
+1+1+1
-1-1
-1
Tot.
+2
+3
-2
-1
+2
= 0.2.
25 / 31
Un secondo indice usualmente utilizzato per valutare l’intensità della relazione
esistente tra due graduatorie è il coefficiente ρ di Spearman
Pn
6 i=1 di2
ρ=1−
n(n2 − 1)
dove di è la differenza tra i ranghi delle due graduatorie dell’i-esima unità.
Il coefficiente ρ di Spearman assume valori all’interno dell’intervallo [−1, +1]; in
particolare
i. il coefficiente ρ assume valore -1 quando si è in presenza di perfetta discordanza;
ii. il coefficiente ρ assume valore +1 quando si è in presenza di perfetta concordanza;
iii. il coefficiente ρ assume valore 0 quando si è in presenza di perfetta indipendenza.
26 / 31
Supponiamo di aver rilevato su un insieme di 10 soggetti i due caratteri “attività sportiva” e
“autocontrollo” e supponiamo che i due carattari siano misurati su scala di livello ordinale.
Unità
u1
u2
u3
u4
u5
u6
u7
u8
u9
u10
Att. Sport.
20
17
16
11
9
8
6
5
4
1
Autoc.
16
19
15
18
10
6
7
4
3
2
Misurare il livello di concordanza tra le due graduatorie.
27 / 31
Il calcolo del coeffeciente ρ di Spearman si basa sulla seguente tabella
Unità
u1
u2
u3
u4
u5
u6
u7
u8
u9
u10
Tot.
Att. Sport.
20
17
16
11
9
8
6
5
4
1
Rango
1
2
3
4
5
6
7
8
9
10
Autoc
16
19
15
18
10
6
7
4
3
2
Rango
3
1
4
2
5
7
6
8
9
10
di
-2
1
-1
2
0
-1
1
0
0
0
di2
4
1
1
4
0
1
1
0
0
0
12
Sulla base dei precedenti risultati si ricava
P
6 ni=1 di2
6 · 12
ρ=1−
=1−
= 0.93
n(n2 − 1)
10 · (100 − 1)
Il valore ottenuto mostra la presenza di un elevato grado di concordanza tra le due graduatorie;
si deduce che l’attività sportiva migliora l’autocontrollo.
28 / 31
Consideriamo adesso il calcolo dell’indice τ di Kendall. Sulla base della seguente tabella
Unità
u1
u2
u3
u4
u5
u6
u7
u8
u9
Autoc
-1+1-1+1+1+1+1+1+1
+1+1+1+1+1+1+1+1
-1+1+1+1+1+1+1
+1+1+1+1+1+1
+1+1+1+1+1
-1+1+1+1
+1+1+1
+1+1
+1
s
Tot.
5
8
5
6
5
2
3
2
1
37
si ricava
2s
2 · 37
=
= 0.82
n(n − 1)
10 · 9
il quale conferma la presenza di un elevato grado di concordanza tra le due graduatorie.
τ =
I due coefficienti τ e ρ assumono lo stesso valore soltanto quando vi è perfetta concordanza o
discordanza tra le due graduatorie; in generale τ < ρ poiché è basato sul quadrato delle differenze
tra i ranghi.
29 / 31
Supponiamo di aver rilevato su un insieme di 10 soggetti i due caratteri “attività sportiva” e
“autocontrollo” e supponiamo che i due carattari siano misurati su scala di livello ordinale.
Unità
u1
u2
u3
u4
u5
u6
u7
u8
u9
u10
Att. Sport.
20
17
16
11
8
8
6
5
5
1
Autoc.
16
19
15
18
6
10
7
4
3
2
Misurare il livello di concordanza tra le due graduatorie.
30 / 31
Osserviamo che in questo caso alle unità u5 e u6 è attribuito lo stesso punteggio, ovvero 8; in
questo caso si attribuisce alle due unità rango dato dalla media dei ranghi.
Unità
u1
u2
u3
u4
u5
u6
u7
u8
u9
u10
Tot.
Att. Sport.
20
17
16
11
8
8
6
5
5
1
Rango
1
2
3
4
5,5
5,5
7
8,5
8,5
10
Autoc
16
19
15
18
6
10
7
4
3
2
Rango
3
1
4
2
7
5
6
8
9
10
di
-2
1
-1
2
-1,5
-0,5
1
0,5
-0,5
0
di2
4
1
1
4
2,25
0,25
1
0,25
0,25
0
14
Sulla base dei precedenti risultati si ricava
P
6 ni=1 di2
6 · 14
ρ=1−
=1−
= 0.9
n(n2 − 1)
10 · (100 − 1)
Il valore ottenuto mostra la presenza di un elevato grado di concordanza tra le due graduatorie; si
deduce che l’attività sportiva migliora l’autocontrollo.
31 / 31