Test del Chi

Transcript

Test del Chi
Il test (o i test) del Chi-quadrato (2)
 I dati: numerosità di osservazioni che cadono all’interno di determinate categorie
 Prima di tutto, è un test per confrontare proporzioni
 Esempio: confronto tra numero semi lisci e rugosi osservati in nella discendenza di una pianta
eterozigote autofecondata
 DATI: 59 semi lisci e 14 semi rugosi
o p = 59/73 = 0.808
 Ci si chiede di verificare l’ipotesi nulla che la proporzione di semi lisci, 0, sia 0.75
 Ci ricorda qualcosa?
 Sappiamo già affrontare questo problema con un semplice test z !
H0 : = 0
H1 :   0
z calc 
p 0
0.808  0.750

 1.1488
 0 1   0 
0.750.25
73
n
 Però questa analisi si può affrontare anche con il test del chi-quadrato, calcolando sulle
numerosità (non sulle proporzioni) la statistica

2
calc
(Osservati  Attesi ) 2
(O  A) 2


Attesi
A
 Osservati sono le numerosità osservate
 Attesi sono le numerosità attese se fosse vera l’ipotesi nulla
 La sommatoria è per tutte le categorie (2 in questo caso, semi lisci e semi rugosi)
 Come per il test z, questo test è valido se le numerosità attese nelle 2 categorie sono maggiori
o uguali a 5
Nell’esempio
o Valori attesi di semi lisci, su un totale di 73 semi, è pari a 0.75*73 = 54.75
o Valori attesi di semi rugosi, su un totale di 73 semi, è pari a 0.25*73 = 18.25
o I valori attesi possono avere numeri decimali: sono medie di tante repliche ipotetiche di
un esperimento sotto H0
o Il totale dei valori attesi deve essere pari al numero totale di osservazioni!
 Per le verifica della significatività, ci servono i valori critici di una distribuzione teorica nuova,
quella del 2 .
 Infatti si può dimostrare che se è vera l’ipotesi nulla (= 0), allora la distribuzione della
statistica (2calc) segue una distribuzione teorica nota, quella del 2 appunto, con un numero di
gradi di libertà pari al numero di categorie indipendenti
 gdl: numero di pezzettini di informazione indipendente oppure numero di pezzettini di
informazione meno il numero di parametri stimati dai dati per calcolare gli attesi
 In questo caso, c'è soltanto 1 gdl, e lo posso dimostrare in due modi:
o esiste solo una classe indipendente (la numerosità nell'altra la posso calcolare per
differenza dal totale)
o se alle due classi di partenza tolgo una singola quantità che proviene dai dati e che mi
serve per calcolare i valori attesi (il totale di osservazioni) ottengo 1.
La distribuzione del 2
 Tante curve a seconda dei gradi di libertà
 Il valore medio è uguale a il numero di gradi di libertà
 Il 2 è sempre positivo (si calcola con un quadrato al numeratore)
 Varia tra 0 e +infinito
Estratto da tabella del Chi-quadrato
I valori interni alla tabella corrispondono ai valori critici riferiti alla coda di destra, ovvero ai valori alla
cui destra cade la frazione della curva riportata nella prima riga. Per esempio, con 2 gradi di libertà, il
5% della distribuzione ha valori superiori a 5.991. Si tratta quindi di una tabella delle aree a una
coda.
df
1
2
3
4
5
10
20
21
22
23
24
25
30
40
50
0.995
0.000
0.010
0.072
0.207
0.412
2.156
7.434
8.034
8.643
9.260
9.886
10.520
13.787
20.707
27.991
0.99
0.000
0.020
0.115
0.297
0.554
2.558
8.260
8.897
9.542
10.196
10.856
11.524
14.953
22.164
29.707
0.975
0.001
0.051
0.216
0.484
0.831
3.247
9.591
10.283
10.982
11.689
12.401
13.120
16.791
24.433
32.357
0.95
0.004
0.103
0.352
0.711
1.145
3.940
10.851
11.591
12.338
13.091
13.848
14.611
18.493
26.509
34.764
0.90
0.016
0.211
0.584
1.064
1.610
4.865
12.443
13.240
14.041
14.848
15.659
16.473
20.599
29.051
37.689
0.10
2.706
4.605
6.251
7.779
9.236
15.987
28.412
29.615
30.813
32.007
33.196
34.382
40.256
51.805
63.167
0.05
3.841
5.991
7.815
9.488
11.070
18.307
31.410
32.671
33.924
35.172
36.415
37.652
43.773
55.758
67.505
0.025
5.024
7.378
9.348
11.143
12.833
20.483
34.170
35.479
36.781
38.076
39.364
40.646
46.979
59.342
71.420
0.01
6.635
9.210
11.345
13.277
15.086
23.209
37.566
38.932
40.289
41.638
42.980
44.314
50.892
63.691
76.154
0.005
7.879
10.597
12.838
14.860
16.750
25.188
39.997
41.401
42.796
44.181
45.559
46.928
53.672
66.766
79.490
 Riprendiamo l’esempio dei semi lisci e rugosi

2
calc
2
2


59  54.75
14  18.25


 A parità di gdl, valori grandi del
entrambe le direzioni
54.75
18.25
 1.3196
2
 calc
sono indice di allontanamento dall’ipotesi nulla, in
Tutte e due le deviazioni dall’ipotesi nulla ( > 0 e  < 0) determineranno una deviazione verso
valori grandi 2 ,ossia verso la coda destra della distribuzione attesa quando è vera l'ipotesi nulla.
Le ipotesi sono definite in maniera bidirezionale,
ma se utilizziamo la statistica del 2 dobbiamo usarla ad una coda!
 Quindi il valore di Chi quadrato calcolato

2
 calc
 1.3196
 non è significativo per α = 0.05, visto che è inferiore al valore critico di 3.841
 La conclusione è ovviamente identica a quella ottenuta con il test z
Ma quindi a cosa serve questo test se avevamo già z?
La generalizzazione del test del Chi-quadrato come test “goodness of fit”
 Il test che abbiamo visto per i piselli di Mendel si può considerare il caso più semplice di una
categoria di test definiti “test di bontà dell’adattamento di una distribuzione empirica ad una
distribuzione teorica”, o più semplicemente “goodness of fit tests”
Le proporzioni osservate si confrontano con quelle previste da un modello teorico
Il modello teorico è da considerarsi l’ipotesi nulla
 Nel caso dei piselli lisci e rugosi, esistevano solo due categorie e solo una proporzione prevista
(l’altra era determinata automaticamente). Questa situazione si può però estendere ad un
numero maggiore di categorie.
 Per esempio, nella verifica della trasmissione di due geni indipendenti durante la trasmissione
mendeliana in un incrocio di un doppio eterozigote
Assunzione del test (generalizzazione quando ci sono più di 2 categorie)
 Non più del 20% delle classi deve avere una numerosità attesa <5 (e nessuna classe deve
avere numerosità attesa <1)
 Se cio’ non si verifica, una soluzione è quella di raggruppare alcune classi
Esempio
 La proporzione di semi che possiedono le caratteristiche CS, Cs, cS e cs dopo
l'autofecondazione di piante eterozigoti a due geni è prevista, nel caso di geni indipendenti, nel
rapporto 9:3:3:1.
 Verificare questa distribuzione teorica attesa su un campione di 1000 semi che hanno dato la
seguente distribuzione osservata
CS
720
Cs
23
cS
20
cs
237
 Calcolo le numerosità ( = frequenze assolute) attese
CS
Cs
cS
cs
562,5 187,5 187,5 62,5
 Calcolo il valore dei 4 elementi che devono essere sommati per ottenere il
44,1 144,3
 La somma porta a
2
calc
 825.3
149,6 487,2
2
 calc
 Il calore critico della distribuzione teorica del chi-quadrato con 3 gradi di libertà è 7.81 (con =
0.05)
 Quindi, la deviazione è altamente significativa ed è possibile respingere l'ipotesi nulla di
adeguamento alla distribuzione teorica prevista (le proporzioni osservate si discostano
significativamente da quelle attese
 Probabilmente i due geni sono localizzati in posizioni vicine sullo stesso cromosoma
Un esempio
Verificare con il test appropriato se la distribuzione osservata si adatta a quella attesa.
Altri esempi
 Dispersione di semi con legge quadratica inversa
 Efficacia trappole per la cattura di uccelli
 Verifica se i dati osservati in un campione seguono una distribuzione teorica normale
Vediamo quest’ultimo esempio
La distribuzione di frequenza del peso in chilogrammi di frutta prodotta da 81 piante è riportato nella
seguente tabella:
Intervalli
ni
48.5-49.5
49.5-50.5
50.5-51.5
51.5-52.5
52.5-53.5
53.5-54.5
54.5-55.5
55.5-56.5
56.5-57.5
57.5-58.5
4
7
9
10
15
11
10
8
5
2
 Vogliamo testare l'ipotesi nulla che questi dati siano estratti da una popolazione in cui la
variabile "peso di frutta prodotta da un albero" ha una distribuzione gaussiana.
 Si deve cioè verificare se i dati osservati sono compatibili con un modello distributivo normale.
L'ipotesi nulla è che lo siano, l'ipotesi alternativa è che non lo siano.
 Come sempre, se l'ipotesi nulla non verrà rifiutata, non potremmo dire con certezza che i dati
provengono da una popolazione con distribuzione gaussiana della variabile, ma solo sono
compatibili con questa ipotesi.
 Per testare questa ipotesi, dobbiamo utilizzare (dopo aver calcolato media e varianza dei dati
osservati) la distribuzione normale per calcolare le numerosità attese in ciascuna classe. Poi il
test del chi-quadrato verrà utilizzato per confrontare le numerosità osservate con quelle attese
 Le numerosità attese vengono calcolate sulla base della distribuzione teorica gaussiana che ha
la stessa media e la stessa deviazione standard calcolati a partire dai dati osservati
 Per il calcolo delle numerosità attese, avrò ovviamente bisogno della normale standardizzata, e
quindi dovrò standardizzare i limiti delle classi
 Attenzione alle classi estreme e alla determinazione dei gradi di libertà da utilizzare per definire
la distribuzione nulla appropriata
Nel caso riportato, possiamo calcolare che
media = 52.25
varianza = 5.26
dev. St. = 2.29
 A questo punto procedo con la standardizzazione dei limiti superori, il calcolo delle aree a
sinistra di questi limiti, il calcolo delle aree relative a ciascun intervallo, e quindi al calcolo delle
numerosità attese
Limite
superiore
Limite
superiore
stadardizz.
Area a
sinistra del
limite sup.
Area
corrispondente
all'intervallo
Numerosità
attese
49.50
50.50
51.50
52.50
53.50
54.50
55.50
56.50
57.50
58.50
-1.63
-1.20
-0.76
-0.33
0.11
0.55
0.98
1.42
1.85
2.29
0.0516
0.1151
0.2236
0.3707
0.5438
0.7088
0.8365
0.9222
0.9678
1.0000
0.0516
0.0635
0.1086
0.1471
0.1731
0.1650
0.1276
0.0857
0.0456
0.0322
4.18
5.15
8.79
11.91
14.02
13.37
10.34
6.94
3.70
2.60
1.0000
81.00
Totali
 Ora calcolo la statistica test del chi-quadrato
OSSERVATI
4
7
9
10
15
11
10
8
5
2
ATTESI
4.18
5.15
8.79
11.91
14.02
13.37
10.34
6.94
3.7
2.6
(O-A)^2/A
0.01
0.66
0.01
0.31
0.07
0.42
0.01
0.16
0.46
0.14
2
calc
 2.24
2
critico
, 7 gdl, 0.05  14.07
CONCLUSIONE:
Non ci sono forti evidenze per rifiutare il modello teorico gaussiano. La distribuzione di frequenza
empirica (dei dati osservati) è compatibile con una distribuzione teorica gaussiana