LE ASSUNZIONI DELL`ANOVA

Transcript

LE ASSUNZIONI DELL`ANOVA
LE ASSUNZIONI DELL'ANOVA
Sono le assunzioni del test t, ma estese a tutti i gruppi:
o La variabile deve avere una distribuzione normale in tutte le popolazioni corrispondenti ai
gruppi campionati
o Le varianze in tutte le popolazioni corrispondenti ai gruppi campionati deve essere uguale
Ovviamente, come sempre, per ciascun gruppo il campione deve rappresentare un insieme di
misure estratte a caso dalla corrispondente popolazione
E' necessario verificare che queste assunzioni vengano soddisfatte
Fortunatamente però, l'ANOVA è un'analisi piuttosto robusta a violazioni di queste assunzioni,
soprattutto se i campioni hanno circa le stesse numerosità
COSA FARE QUANDO F E' SIGNIFICATIVO (P<α
α) IN UNA ANOVA?
E' necessario verificare quali gruppi siano diversi da quali altri
Confronti a coppie ma con specifiche accortezze per fare in modo che l'errore complessivo di
primo tipo non superi il livello α prestabilito (in genere 0.05)
I confronti a coppie possono essere pianificati o non pianificati
Confronti pianificati: bisogna decidere prima dell'esperimento un numero limitato di
confronti a coppie a cui si è particolarmente interessati
o Per esempio, nel caso dello studio sul jet lag, prima dell'esperimento si era soprattutto
interessati al confronto tra controlli e il gruppo sottoposto a luce al ginocchio
o In questi casi, i pochi confronti a coppie da svolgere sono praticamente dei test t (la
differenza sta nel fatto che si usa MSE al posto della varianza comune e i gradi di libertà di
MSE)
Confronti non pianificati: l'interesse non ricade su specifici confronti, ma si è interessati a
svolgerli tutti [il numero totale di confronti a coppie è pari a k(k-1)/2]
o Qui il problema dell'errore complessivo di primo tipo è più serio
o Ci sono metodi, come quello di Tukey-Kramer, per calcolare se ogni confronto è
significativo (senza incrementare l'errore complessivo di primo tipo) e per visualizzare i
risultati
Esempio di visualizzazione dei risultati nel caso di confronti non pianificati
Ci sono 5 gruppi (per esempio, 5 località diverse), e in ogni località viene misurato un indicatore
di biodiversità (la variabile alla quale si è interessati) in 20 campioni casuali (per esempio, 20
aree di 1 metro quadro, 20 prelievi d’acqua, oppure 20 volumi uguali di sedimento)
o In totale, sono disponibili quindi 20 misurazioni della variabile
La tabella riporta le medie dei gruppi (in ordine crescente) e una lettera che permette di capire
quale gruppo è diverso da quale altro. Lo stesso si può rappresentate con linee al di sotto un
istogramma
I gruppi con la almeno un lettera in comune non hanno una biodiversità media
significativamente diversa
ACCENNI DI ANOVA MULTIFATTORIALE
La tecnica dell’ANOVA può essere estesa all’analisi di un numero maggiore di fattori
La variabile analizzata è sempre una sola (si tratta comunque di una ANOVA univariata), ma il
numero di fattori che distinguono i diversi campioni è maggiore di 1
Si parla in questi casi di ANOVA univariata multifattoriale
Esempio
Partiamo da un esempio di ANOVA univariata unifattoriale
o Si vuole studiare se diversi terreni di coltura determinano una diversa produzione di una
proteina da parte di colture cellulari
La tipologia del terreno è quindi il primo fattore, che chiamiamo fattore A, che può
assumere per esempio quattro livelli (1, 2, 3 e 4), corrispondenti a quattro diversi terreni
Per ogni terreno vengono analizzate per esempio 12 colture cellulari, e per ognuna di
queste viene misurata la quantità di proteina prodotta (la variabile analizzata) alla fine
dell’esperimento
o Fino a qui, questo è un classico esempio di ANOVA con 1 fattore (ANOVA unifattoriale), 4
gruppi, e 48 osservazioni in tutto della variabile
Supponiamo ora di voler considerare anche un secondo fattore che riteniamo abbia una certa
influenza sulla produzione della proteina analizzata, per esempio il fattore temperatura
o A questo punto, ciascuno dei gruppi costituito da 12 colture viene suddiviso in tre gruppi di 4
colture, ognuno dei quali verrà lasciato crescere a una temperatura diversa
Per esempio, supponiamo che i tre raggruppamenti del secondo fattore siano
temperatura bassa, temperatura media, e temperatura alta
Questo è un esempio di ANOVA con due fattori, e possiamo pensare ai dati di questa analisi
come ad un tabella dove
o le righe identificano il primo fattore (Fattore A, per esempio il terreno di coltura)
il fattore A ha 4 livelli
o le colonne identificano il secondo fattore (Fattore B, per esempio la temperatura)
il fattore B ha 3 livelli
In questa tabella 4x3, ogni casella rappresenta un singolo gruppo di 4 osservazioni. Ognuno dei
12 gruppi ha subito un trattamento diverso (casella in alto a sinistra: terreno 1 + temperatura
bassa; casella in alto in centro: terreno 1 + temperatura media; casella in alto a destra: terreno 1 +
temperatura alta; casella nella seconda linea a sinistra: terreno 2 + temperatura bassa; ................;
casella in basso a destra: terreno 4 + temperatura alta)
Fattore B (temperatura)
1
2
Fattore A
(terreno di
cultura)
3
4
1
2
3
y111
y112
y113
y114
y211
y212
y213
y214
y311
y312
y313
y314
y411
y412
y413
y414
y121
y122
y123
y124
y221
y222
y223
y224
y321
y322
y323
y324
y421
y422
y423
y424
y131
y132
y133
y134
y231
y232
y233
y234
y331
y332
y333
y334
y431
y432
y433
y434
[ogni valore deve necessariamente avere tre indici:
il primo indica la riga, il secondo la colonna, il terzo la singola osservazione]
Le osservazioni totali sono 4x3x4= 48. Per ciascuno dei 12 gruppi posso calcolare una media
Posso sintetizzare le 12 medie nella tabella
Fattore B (temperatura)
1
2
3
1
Fattore A
(terreno di
coltura)
2
3
4
y 11
y 21
y 31
y 41
y 12
y 22
y 32
y 42
y 13
y 23
y 33
y 43
[ogni media deve necessariamente avere due indici:
il primo indica la riga e il secondo la colonna]
L'ANOVA a due fattori ci permette di capire:
o se esiste un effetto principale del tipo di terreno di coltura sulla produzione proteica
o se esiste un effetto principale della temperatura sulla produzione proteica
o se esiste un’interazione tra i due fattori, ovvero se gli effetti dei due fattori non sono
indipendenti (c’e’ interazione) oppure sono indipendenti (non c’e’ interazione)
L'ANOVA a due fattori porterà quindi al calcolo di tre statistiche F, ognuna delle quali utile a
testare un'ipotesi nulla diversa: sul fattore A, sul fattore B, e sull'interazione
Le tre ipotesi nulle che vengono testate nell’ANOVA a due fattori
Le prime due ipotesi nulle sono:
o Prima ipotesi nulla: le 4 medie della variabile in 4 popolazioni con 4 terreni diversi (senza
considerare la temperatura, e quindi mettendo assieme, per ogni riga, le tre colonne) sono
uguali
o Seconda ipotesi nulla: le 3 medie della variabile in 3 popolazioni caratterizzate da 3
temperature diverse (senza considerare il tipo di terreno, e quindi mettendo assieme, per
ogni colonna, le quattro righe) sono uguali
Ma l'ANOVA multifattoriale permette di capire e testare statisticamente una cosa molto
importante: l'interazione tra fattori
o La terza ipotesi nulla che viene testata nell’ANOVA a due fattori è quella di assenza di
interazione
o Si ha interazione tra i fattori quando l’effetto di un fattore sulla variabile dipende dagli altri
fattori; molto spesso in biologia i fattori interagiscono nel determinare una risposta
o Se per esempio la temperatura alta favorisce la crescita delle colture nel terreno A, ma la
sfavorisce (o non la favorisce) nelle colture con terreno B, significa che c'e' interazione tra i
fattori: l'effetto di un fattore non è indipendente da quale gruppo viene considerato per l'altro
fattore
Esempio numerico di ANOVA a due fattori senza interazione
Supponiamo che la tabelle delle medie per ciascuno dei 12 gruppi sia la seguente:
Fattore A
(terreno di
coltura)
1
2
3
4
Fattore B (temperatura)
1
2
3
5.2
6.5
8.3
5.8
6.8
8.6
7
8.5
10.2
11.5
14.1
16.8
Visualizziamo graficamente queste medie in un sistema di assi cartesiani dove i valori che
assumono le medie sono riportati, logicamente, sull’asse delle Y
Attenzione! Le considerazioni che seguono sono puramente basate sull’osservazione e la
descrizione delle medie. Solo dopo il calcolo dei valori di F, dell’identificazione di valori critici in
tabella, e della definizione delle regioni di accettazione/rifiuto o del P-value,
queste considerazioni assumerebbero un valore statistico inferenziale
Nel grafico che segue, l’asse delle X identifica un fattore, il fattore A
Riportiamo inizialmente le medie per il livello 1 del fattore B, ossia le diverse medie osservate al
livello 1 del fattore temperatura (bassa temperatura) per i 4 tipi di terreno di coltura
14
12
10
8
6
4
2
0
1
2
3
4
Fattore A
Questo grafico indica che a basse temperature la produzione proteica tende ad aumentare
passando dal terreno 1 al terreno 4
Cosa succede a temperature medie? E a temperature alte? E come possiamo rappresentare
graficamente anche le medie a queste temperature?
o Utilizziamo un simbolo diverso per ogni livello del fattore B
Valori medi di prod. proteica
18
16
14
12
10
8
6
4
2
0
Temperatura 1 (bassa)
Temperatura 2 (media)
Temperatura 3(alta)
1
2
3
4
Fattore A
Cosa indica questo grafico delle medie?
1. la produzione proteica media aumenta passando dal terreno 1 al terreno 4 in maniera molto
simile a tutte e tre le temperature analizzate (le tre spezzate hanno andamenti simili)
2. la produzione proteica aumenta passando dalla temperatura bassa a quella alta in maniera
molto simile con tutti e 4 i terreni di coltura considerati (i tre simboli sono a distanze simili e
nello stesso ordine in tutti e 4 i terreni)
Il grafico quindi suggerisce anche un’altra cosa molto importante:
o la produzione proteica varia tra terreni diversi e a temperature diverse ma il modo in cui
varia la produzione proteica tra terreni non dipende dalla temperatura; questo equivale anche
a dire che il modo in cui varia la produzione proteica con la temperatura non dipende dal
terreno
Questo è un esempio tipico di ANOVA a due fattori in cui i fattori hanno un effetto
principale ma non interagiscono tra loro: non esiste interazione tre i due fattori
Nella rappresentazione grafica delle medie, l’assenza di interazione si traduce con una serie di
spezzate parallele o quasi parallele
L’assenza di interazione porta anche a poter esprimere i risultati ottenuti in maniera semplice
o Nel nostro caso, la conclusione potrebbe essere espressa (per ora, ripetiamo, solo in forma
descrittiva visto che non abbiamo fatto nessuna analisi statistica inferenziale) come:
La produzione proteica aumenta passando dal terreno 1 al terreno 4, e anche
all’aumentare della temperatura
Se molte delle medie calcolate nei 12 gruppi avessero errori standard molto alti, è evidente che
dovrei essere molto prudente nelle conclusioni basate solo sull’analisi del grafico delle medie.
Valori medi di prod. proteica
Altro esempio di ANOVA a due fattori senza interazione
10
9
8
7
6
5
4
3
2
1
0
Temperatura 1 (bassa)
Temperatura 2 (media)
Temperatura 3(alta)
1
2
3
4
Fattore A
Le spezzate sono circa parallele (quindi, assenza di interazione), ma in questo caso solo il fattore
B sembra avere un effetto principale
I risultati potrebbero essere espressi semplicemente come
o la produzione proteica è costante con i diversi terreni, ma aumenta all’aumentare della
temperatura
Esempio di ANOVA a due fattori con interazione forte
Valori medi di prod. proteica
Nella rappresentazione grafica delle medie, la presenza di interazione porta ad avere spezzate
che non sono parallele, o addirittura si intersecano
18
16
14
12
10
Temperatura 1 (bassa)
Temperatura 2 (media)
Temperatura 3(alta)
8
6
4
2
0
1
2
3
4
Fattore A
E’ evidente cosa si intenda per interazione in questo caso
o L’effetto sulla produzione proteica dei diversi terreni é diverso a temperature diverse
Ad alte temperature i diversi terreni non sembrano avere un grosso effetto
A basse temperature sembra invece che i terreni 3 e 4 siano più produttivi
A temperature intermedie sembra che ci sia un decremento nella produzione proteica
passando dal terreno 1 al terreno 4
Nell’esempio precedente, i fattori hanno una forte interazione: l’effetto di un fattore sulla variabile
analizzata sembra dipendere dall’altro fattore
Il fatto che ci sia interazione può rendere meno chiaro un risultato nel quale viene trovata
l’assenza di effetti principali (quelli dovuti ad ogni fattore senza considerare l’altro); si vedano le
figure alla fine di questo file
Anche le conclusioni che possiamo trarre richiedono maggiore attenzione in presenza di
interazione: non é infatti possibile dire come nei casi precedenti in maniera semplice qual’é
l’effetto di un fattore, visto che tale effetto può non essere vero per tutti i livelli dell’altro fattore
Nel grafico alla pagina precedente, se le impressioni fossero confermate dall’analisi statistica,
potremmo dire qualcosa del genere:
i terreni 3 e 4 sono più produttivi, e quindi da preferire, solamente alle basse
temperature, mentre gli stessi terreni sono i meno produttivi a temperature intermedie;
inoltre, avendo a disposizione solo il terreno 1 o il terreno 2, le alte temperature
sembrano le piú efficaci
In altre parole, i risultati sono molto più complessi da capire e anche da descrivere in presenza di
interazione
Esempio di ANOVA a due fattori con interazione debole
Valori medi di prod. proteica
Attenzione, l'interazione può esistere anche in forma più sottile e meno evidente
35
Temperatura 1 (bassa)
30
Temperatura 2 (media)
Temperatura 3(alta)
25
20
15
10
5
0
1
2
3
4
Fattore A
In questo caso, i due effetti principali (dei due fattori) sono evidenti (produzione proteica aumenta
passando dal terreno 1 al 4, e con la temperatura), ma c'é comunque un certo grado di
interazione
ANOVA a due fattori porta al calcolo di tre statistiche F
Fino ad ora abbiamo visto come le medie per ciascuna combinazione possono essere utilizzate
graficamente per capire qualcosa sull’effetto dei fattori e sulla loro interazione
o Questa era però solo statistica descrittiva!
Come già accennato, L'ANOVA a due vie viene svolta attraverso il calcolo di tre statistiche F:
o FA-calc : serve per testare l'ipotesi nulla che il fattore A (per esempio, terreno di coltura) non
abbia un effetto principale sulla variabile analizzata (per esempio, la produzione proteica)
o FB-calc : serve per testare l'ipotesi nulla che il fattore B (per esempio, la temperatura) non
abbia un effetto principale sulla variabile analizzata (per esempio, la produzione proteica)
o FAB-calc : serve per testare l'ipotesi nulla che i fattori A e B non interagiscano (ovvero, l'ipotesi
nulla di assenza di interazione, o, nella rappresentazione grafica, l’ipotesi nulla che le
spezzate siano parallele).
Ognuna delle tre statistiche andrà confrontata con il suo corrispondente valore critico (che
dipenderà dai gradi libertà di ciascuna statistica)
ATTENZIONE! Se c'e' interazione, FA-calc e/o FB-calc possono risultare non significativi (P<α)
anche se i fattori determinano un effetto (non omogeneo) sulla variabile analizzata
Vediamo alcuni risultati ipotetici che si potrebbero ottenere studiando come varia la velocità ad
imparare un certo tipo di esercizio (variabile) in un gruppo di scoiattoli classificati per l'ambiente da
cui provengono (fattore A, foresta o parco pubblico) e per la specie a cui appartengono (fattore B,
Sciurus carolinensis o Sciurus vulgaris). Assumiamo che ci siano solo due ambienti e due specie
(4 gruppi)
Nelle figure che seguono, quindi, il fattore A è Environment, il fattore B è Species (colore rosso e
rombo per Sciurus carolinensis e colore blu e pallino per Sciurus vulgaris), e la variabile “velocità
ad imparare un certo esercizio” è indicata come Trait Measure
Dai grafici possiamo ipotizzare che, se il numero di individui in ciascun gruppo non è troppo
basso, i valori di F significativi risulterebbero:
A) Nessuno
B) FB
C) FA
D) FA-B (nessun effetto principale)
E) FB e FA-B
F) FA e FA-B
G) FA, FB e FA-B
ESEMPIO: l’impatto degli organismi erbivori e dell’altezza
nell’area intertidale sulla copertura algale
Per ogni gruppo, sono stati analizzati 16 plot
[64 osservazioni in tutto, 63 gdl totali, 15x4=60 gdl dell’MSE, qui indicato come Residuo]