Test del Chi
Transcript
Test del Chi
Il test (o i test) del Chi-quadrato (2) I dati: numerosità di osservazioni che cadono all’interno di determinate categorie Prima di tutto, è un test per confrontare proporzioni Esempio: confronto tra numero semi lisci e rugosi osservati in nella discendenza di una pianta eterozigote autofecondata DATI: 59 semi lisci e 14 semi rugosi o p = 59/73 = 0.808 Ci si chiede di verificare l’ipotesi nulla che la proporzione di semi lisci, 0, sia 0.75 Ci ricorda qualcosa? Sappiamo già affrontare questo problema con un semplice test z ! H0 : = 0 H1 : 0 z calc p 0 0.808 0.750 1.1488 0 1 0 0.750.25 73 n Però questa analisi si può affrontare anche con il test del chi-quadrato, calcolando sulle numerosità (non sulle proporzioni) la statistica 2 calc (Osservati Attesi ) 2 (O A) 2 Attesi A Osservati sono le numerosità osservate Attesi sono le numerosità attese se fosse vera l’ipotesi nulla La sommatoria è per tutte le categorie (2 in questo caso, semi lisci e semi rugosi) Come per il test z, questo test è valido se le numerosità attese nelle 2 categorie sono maggiori o uguali a 5 Nell’esempio o Valori attesi di semi lisci, su un totale di 73 semi, è pari a 0.75*73 = 54.75 o Valori attesi di semi rugosi, su un totale di 73 semi, è pari a 0.25*73 = 18.25 o I valori attesi possono avere numeri decimali: sono medie di tante repliche ipotetiche di un esperimento sotto H0 o Il totale dei valori attesi deve essere pari al numero totale di osservazioni! Per le verifica della significatività, ci servono i valori critici di una distribuzione teorica nuova, quella del 2 . Infatti si può dimostrare che se è vera l’ipotesi nulla (= 0), allora la distribuzione della statistica (2calc) segue una distribuzione teorica nota, quella del 2 appunto, con un numero di gradi di libertà pari al numero di categorie indipendenti gdl: numero di pezzettini di informazione indipendente oppure numero di pezzettini di informazione meno il numero di parametri stimati dai dati per calcolare gli attesi In questo caso, c'è soltanto 1 gdl, e lo posso dimostrare in due modi: o esiste solo una classe indipendente (la numerosità nell'altra la posso calcolare per differenza dal totale) o se alle due classi di partenza tolgo una singola quantità che proviene dai dati e che mi serve per calcolare i valori attesi (il totale di osservazioni) ottengo 1. La distribuzione del 2 Tante curve a seconda dei gradi di libertà Il valore medio è uguale a il numero di gradi di libertà Il 2 è sempre positivo (si calcola con un quadrato al numeratore) Varia tra 0 e +infinito Estratto da tabella del Chi-quadrato I valori interni alla tabella corrispondono ai valori critici riferiti alla coda di destra, ovvero ai valori alla cui destra cade la frazione della curva riportata nella prima riga. Per esempio, con 2 gradi di libertà, il 5% della distribuzione ha valori superiori a 5.991. Si tratta quindi di una tabella delle aree a una coda. df 1 2 3 4 5 10 20 21 22 23 24 25 30 40 50 0.995 0.000 0.010 0.072 0.207 0.412 2.156 7.434 8.034 8.643 9.260 9.886 10.520 13.787 20.707 27.991 0.99 0.000 0.020 0.115 0.297 0.554 2.558 8.260 8.897 9.542 10.196 10.856 11.524 14.953 22.164 29.707 0.975 0.001 0.051 0.216 0.484 0.831 3.247 9.591 10.283 10.982 11.689 12.401 13.120 16.791 24.433 32.357 0.95 0.004 0.103 0.352 0.711 1.145 3.940 10.851 11.591 12.338 13.091 13.848 14.611 18.493 26.509 34.764 0.90 0.016 0.211 0.584 1.064 1.610 4.865 12.443 13.240 14.041 14.848 15.659 16.473 20.599 29.051 37.689 0.10 2.706 4.605 6.251 7.779 9.236 15.987 28.412 29.615 30.813 32.007 33.196 34.382 40.256 51.805 63.167 0.05 3.841 5.991 7.815 9.488 11.070 18.307 31.410 32.671 33.924 35.172 36.415 37.652 43.773 55.758 67.505 0.025 5.024 7.378 9.348 11.143 12.833 20.483 34.170 35.479 36.781 38.076 39.364 40.646 46.979 59.342 71.420 0.01 6.635 9.210 11.345 13.277 15.086 23.209 37.566 38.932 40.289 41.638 42.980 44.314 50.892 63.691 76.154 0.005 7.879 10.597 12.838 14.860 16.750 25.188 39.997 41.401 42.796 44.181 45.559 46.928 53.672 66.766 79.490 Riprendiamo l’esempio dei semi lisci e rugosi 2 calc 2 2 59 54.75 14 18.25 A parità di gdl, valori grandi del entrambe le direzioni 54.75 18.25 1.3196 2 calc sono indice di allontanamento dall’ipotesi nulla, in Tutte e due le deviazioni dall’ipotesi nulla ( > 0 e < 0) determineranno una deviazione verso valori grandi 2 ,ossia verso la coda destra della distribuzione attesa quando è vera l'ipotesi nulla. Le ipotesi sono definite in maniera bidirezionale, ma se utilizziamo la statistica del 2 dobbiamo usarla ad una coda! Quindi il valore di Chi quadrato calcolato 2 calc 1.3196 non è significativo per α = 0.05, visto che è inferiore al valore critico di 3.841 La conclusione è ovviamente identica a quella ottenuta con il test z Ma quindi a cosa serve questo test se avevamo già z? La generalizzazione del test del Chi-quadrato come test “goodness of fit” Il test che abbiamo visto per i piselli di Mendel si può considerare il caso più semplice di una categoria di test definiti “test di bontà dell’adattamento di una distribuzione empirica ad una distribuzione teorica”, o più semplicemente “goodness of fit tests” Le proporzioni osservate si confrontano con quelle previste da un modello teorico Il modello teorico è da considerarsi l’ipotesi nulla Nel caso dei piselli lisci e rugosi, esistevano solo due categorie e solo una proporzione prevista (l’altra era determinata automaticamente). Questa situazione si può però estendere ad un numero maggiore di categorie. Per esempio, nella verifica della trasmissione di due geni indipendenti durante la trasmissione mendeliana in un incrocio di un doppio eterozigote Assunzione del test (generalizzazione quando ci sono più di 2 categorie) Non più del 20% delle classi deve avere una numerosità attesa <5 (e nessuna classe deve avere numerosità attesa <1) Se cio’ non si verifica, una soluzione è quella di raggruppare alcune classi Esempio La proporzione di semi che possiedono le caratteristiche CS, Cs, cS e cs dopo l'autofecondazione di piante eterozigoti a due geni è prevista, nel caso di geni indipendenti, nel rapporto 9:3:3:1. Verificare questa distribuzione teorica attesa su un campione di 1000 semi che hanno dato la seguente distribuzione osservata CS 720 Cs 23 cS 20 cs 237 Calcolo le numerosità ( = frequenze assolute) attese CS Cs cS cs 562,5 187,5 187,5 62,5 Calcolo il valore dei 4 elementi che devono essere sommati per ottenere il 44,1 144,3 La somma porta a 2 calc 825.3 149,6 487,2 2 calc Il calore critico della distribuzione teorica del chi-quadrato con 3 gradi di libertà è 7.81 (con = 0.05) Quindi, la deviazione è altamente significativa ed è possibile respingere l'ipotesi nulla di adeguamento alla distribuzione teorica prevista (le proporzioni osservate si discostano significativamente da quelle attese Probabilmente i due geni sono localizzati in posizioni vicine sullo stesso cromosoma Un esempio Verificare con il test appropriato se la distribuzione osservata si adatta a quella attesa. Altri esempi Dispersione di semi con legge quadratica inversa Efficacia trappole per la cattura di uccelli Verifica se i dati osservati in un campione seguono una distribuzione teorica normale Vediamo quest’ultimo esempio La distribuzione di frequenza del peso in chilogrammi di frutta prodotta da 81 piante è riportato nella seguente tabella: Intervalli ni 48.5-49.5 49.5-50.5 50.5-51.5 51.5-52.5 52.5-53.5 53.5-54.5 54.5-55.5 55.5-56.5 56.5-57.5 57.5-58.5 4 7 9 10 15 11 10 8 5 2 Vogliamo testare l'ipotesi nulla che questi dati siano estratti da una popolazione in cui la variabile "peso di frutta prodotta da un albero" ha una distribuzione gaussiana. Si deve cioè verificare se i dati osservati sono compatibili con un modello distributivo normale. L'ipotesi nulla è che lo siano, l'ipotesi alternativa è che non lo siano. Come sempre, se l'ipotesi nulla non verrà rifiutata, non potremmo dire con certezza che i dati provengono da una popolazione con distribuzione gaussiana della variabile, ma solo sono compatibili con questa ipotesi. Per testare questa ipotesi, dobbiamo utilizzare (dopo aver calcolato media e varianza dei dati osservati) la distribuzione normale per calcolare le numerosità attese in ciascuna classe. Poi il test del chi-quadrato verrà utilizzato per confrontare le numerosità osservate con quelle attese Le numerosità attese vengono calcolate sulla base della distribuzione teorica gaussiana che ha la stessa media e la stessa deviazione standard calcolati a partire dai dati osservati Per il calcolo delle numerosità attese, avrò ovviamente bisogno della normale standardizzata, e quindi dovrò standardizzare i limiti delle classi Attenzione alle classi estreme e alla determinazione dei gradi di libertà da utilizzare per definire la distribuzione nulla appropriata Nel caso riportato, possiamo calcolare che media = 52.25 varianza = 5.26 dev. St. = 2.29 A questo punto procedo con la standardizzazione dei limiti superori, il calcolo delle aree a sinistra di questi limiti, il calcolo delle aree relative a ciascun intervallo, e quindi al calcolo delle numerosità attese Limite superiore Limite superiore stadardizz. Area a sinistra del limite sup. Area corrispondente all'intervallo Numerosità attese 49.50 50.50 51.50 52.50 53.50 54.50 55.50 56.50 57.50 58.50 -1.63 -1.20 -0.76 -0.33 0.11 0.55 0.98 1.42 1.85 2.29 0.0516 0.1151 0.2236 0.3707 0.5438 0.7088 0.8365 0.9222 0.9678 1.0000 0.0516 0.0635 0.1086 0.1471 0.1731 0.1650 0.1276 0.0857 0.0456 0.0322 4.18 5.15 8.79 11.91 14.02 13.37 10.34 6.94 3.70 2.60 1.0000 81.00 Totali Ora calcolo la statistica test del chi-quadrato OSSERVATI 4 7 9 10 15 11 10 8 5 2 ATTESI 4.18 5.15 8.79 11.91 14.02 13.37 10.34 6.94 3.7 2.6 (O-A)^2/A 0.01 0.66 0.01 0.31 0.07 0.42 0.01 0.16 0.46 0.14 2 calc 2.24 2 critico , 7 gdl, 0.05 14.07 CONCLUSIONE: Non ci sono forti evidenze per rifiutare il modello teorico gaussiano. La distribuzione di frequenza empirica (dei dati osservati) è compatibile con una distribuzione teorica gaussiana