Slides 15

Transcript

Slides 15
IL CONFRONTO TRA LE VARIANZE DI DUE POPOLAZIONI

Perchè confrontare le varianze stimate in due campioni?
Torniamo all'esempio dei frinosomi
 Per poter applicare il test t avevamo detto che le varianze, e quindi le deviazioni standard, nelle
due popolazioni (frinosomi vivi e frinosomi uccisi) devono essere uguali. Adesso vediamo
come testare questa ipotesi

Le ipotesi nulla e alternativa possono essere formalizzate come segue

Come abbiamo sempre fatto in tutti i test statistici, dobbiamo trovare una statistica test la cui
distribuzione teorica è nota quando è vera l'ipotesi nulla
o Per esempio, per testare l'ipotesi nulla di uguaglianza tra due medie usavamo le
statistiche test z o t, le cui distribuzioni nulle sono note in certe condizioni
o Oppure, per testare se una proporzione si discosta da un valore previsto, e non si poteva
usare il chi-quadrato o z, avevamo usato come statistica test il numero di individui con la
caratteristica di interesse, la cui distribuzione nulla è la distribuzione binomiale
 Nel caso di due varianze, la statistica test è il rapporto tra le varianze nel campione
Fcalc

s12
 2
s2
Se è vera l'ipotesi nulla che le due varianze nelle popolazioni sono uguali, e se la variabile
segue una distribuzione normale in entrambe le popolazioni, il rapporto tra due varianze
campionarie segue la distribuzione nulla di Fisher, detta anche distribuzione F (o F di Fisher)

La distribuzione teorica F:
o E' continua
o Varia tra zero e infinito
o Dipende dai gradi di libertà del numeratore (gdl1 = n1-1) e quelli del denominatore (gdl2 =
n2-1)
o E' circa centrata sul valore 1
o Ci permette di definire le regioni di accettazione/rifiuto o il P-value per il nostro test sulle
varianze
Tabella della distribuzione F a una coda con α = 0.01
Le colonne identificano i gdl al numeratore. Le righe i gdl al denominatore.
I numeri interni alla tabella identificano i valori della statistica F che separano,
alla loro destra, l’1% dell’area distributiva.
Attenzione! La struttura di questa tabella è diversa da tutte quelle viste finora (ci sono due gradi di
libertà da conoscere in ogni analisi, e c'e' una tabella per ogni valore di P)
 Praticamente, visto che la distribuzione F è asimmetrica, e le tabelle dei valori critici riportati in
tabella si riferiscono al lato destro della distribuzione, conviene sempre mettere a numeratore nel
calcolo di F dai dati (Fcalc) la varianza maggiore
 Il valore F critico con 9 e 8 gradi di libertà (9 al numeratore e 8 al denominatore), con  = 0.05 e
quindi /2 = 0.025, è pari a 4.36
o Non ci sono evidenze per rifiutare l'ipotesi nulla
o Le varianze calcolate dai campioni sono compatibili con l'ipotesi nulla che i campioni
provengano da popolazioni con varianze uguali
o Se dovessi confrontare le medie dei due campioni, il test t sarebbe appropriato

Il calcolo del P-value richiede un computer
o Oppure, almeno per approssimarlo e definire un intervallo in cui cade, tante tabelle
ognuna per diversi valori di probabilità
Esempio con i frinosomi: le varianze erano significativamente diverse?
L'ANALISI DELLA VARIANZA (ANOVA)
L'ANOVA è un metodo molto potente e flessibile
per valutare le medie di più di due popolazioni con una singola analisi
 E' quindi un metodo per studiare variabili quantitative
 Attenzione! L'ipotesi nulla riguarda medie, ma viene testata confrontando varianze
Un esempio con dati sperimentali: la variabile altezza viene misurata in individui suddivisi in 4
gruppi; i gruppi sono sottoposti a diversi trattamenti per il fattore ph
Un esempio con dati osservazionali: la variabile peso viene misurata in individui che provengono da
4 gruppi; i 4 gruppi differiscono per il fattore origine geografica
Ipotesi nulla e alternativa nell'ANOVA

Ovviamente l'ANOVA si applica nello stesso modo a 2,3,4,5,...k gruppi
o Per k = 2, equivale a svolgere un test t
Un esempio di dati nel caso di H0 vera
Un esempio di dati nel caso di H1 vera
Attenzione! Sull'asse delle X ci sono 4 "posizioni" che indicano i 4 gruppi;
sull'asse delle Y c'e' la variabile studiata

Prima di vedere come si procede nell'ANOVA, vediamo perchè svolgere un'ANOVA
 Per esempio, con 3 popolazioni da confrontare (per esempio, tre livelli di pH) non potrei
semplicemente fare 3 test t? O con 4 popolazioni 6 test t?
o Come si calcola il numero di test a coppie?

No, perchè
1. Sembra logico prima di tutto testare l'ipotesi nulla che prevede che tutti i gruppi siano uguali
2. Non posso semplicemente fare tanti test t perchè aumenterebbe molto l'errore complessivo
di primo tipo
Il problema dei test multipli e l'errore complessivo di primo tipo
 Se scegliamo in un singolo test un livello di significatività , sappiamo che esiste una probabilità
 di rifiutare un'ipotesi nulla vera (errore di primo tipo)
 Questo significa anche che se facciamo 100 test nei quali l'ipotesi nulla è sempre vera, 5 volte
(mediamente) la rifiutiamo erroneamente
 Qual'è la probabilità che facendo c test di ipotesi nulle vere almeno uno risulti significativo per
puro effetto del caso?
o Se l'ipotesi nulla è vera, la probabilità che un test singolo non porti al suo rifiuto è pari a (1è il livello di protezione in un singolo test
o Se l'ipotesi nulla è vera, la probabilità che non venga mai rifiutata in c test è pari a (1-)c
 Sono eventi indipendenti e vale la regola del prodotto delle probabilità
o Quindi, 1-(1-)c è la probabilità che cerchiamo: la probabilità che uno o più dei c test (cioè,
almeno uno) sia significativo anche se l'ipotesi nulla è sempre vera

Gli esempi citati sono casi ANOVA unifattoriale e univariata
o C'era un fattore (per esempio, pH) e una variabile (per esempio, altezza)

L'ANOVA può anche essere multifattoriale (più fattori) e/o multivariata (più variabili)
o Vedremo alcuni cenni di analisi bifattoriale univariata alla fine del corso