LE ASSUNZIONI DELL`ANOVA
Transcript
LE ASSUNZIONI DELL`ANOVA
LE ASSUNZIONI DELL'ANOVA Sono le assunzioni del test t, ma estese a tutti i gruppi: o La variabile deve avere una distribuzione normale in tutte le popolazioni corrispondenti ai gruppi campionati o Le varianze in tutte le popolazioni corrispondenti ai gruppi campionati deve essere uguale Ovviamente, come sempre, per ciascun gruppo il campione deve rappresentare un insieme di misure estratte a caso dalla corrispondente popolazione E' necessario verificare che queste assunzioni vengano soddisfatte Fortunatamente però, l'ANOVA è un'analisi piuttosto robusta a violazioni di queste assunzioni, soprattutto se i campioni hanno circa le stesse numerosità COSA FARE QUANDO F E' SIGNIFICATIVO (P<α α) IN UNA ANOVA? E' necessario verificare quali gruppi siano diversi da quali altri Confronti a coppie ma con specifiche accortezze per fare in modo che l'errore complessivo di primo tipo non superi il livello α prestabilito (in genere 0.05) I confronti a coppie possono essere pianificati o non pianificati Confronti pianificati: bisogna decidere prima dell'esperimento un numero limitato di confronti a coppie a cui si è particolarmente interessati o Per esempio, nel caso dello studio sul jet lag, prima dell'esperimento si era soprattutto interessati al confronto tra controlli e il gruppo sottoposto a luce al ginocchio o In questi casi, i pochi confronti a coppie da svolgere sono praticamente dei test t (la differenza sta nel fatto che si usa MSE al posto della varianza comune e i gradi di libertà di MSE) Confronti non pianificati: l'interesse non ricade su specifici confronti, ma si è interessati a svolgerli tutti [il numero totale di confronti a coppie è pari a k(k-1)/2] o Qui il problema dell'errore complessivo di primo tipo è più serio o Ci sono metodi, come quello di Tukey-Kramer, per calcolare se ogni confronto è significativo (senza incrementare l'errore complessivo di primo tipo) e per visualizzare i risultati Esempio di visualizzazione dei risultati nel caso di confronti non pianificati Ci sono 5 gruppi (per esempio, 5 località diverse), e in ogni località viene misurato un indicatore di biodiversità (la variabile alla quale si è interessati) in 20 campioni casuali (per esempio, 20 aree di 1 metro quadro, 20 prelievi d’acqua, oppure 20 volumi uguali di sedimento) o In totale, sono disponibili quindi 20 misurazioni della variabile La tabella riporta le medie dei gruppi (in ordine crescente) e una lettera che permette di capire quale gruppo è diverso da quale altro. Lo stesso si può rappresentate con linee al di sotto un istogramma I gruppi con la almeno un lettera in comune non hanno una biodiversità media significativamente diversa ACCENNI DI ANOVA MULTIFATTORIALE La tecnica dell’ANOVA può essere estesa all’analisi di un numero maggiore di fattori La variabile analizzata è sempre una sola (si tratta comunque di una ANOVA univariata), ma il numero di fattori che distinguono i diversi campioni è maggiore di 1 Si parla in questi casi di ANOVA univariata multifattoriale Esempio Partiamo da un esempio di ANOVA univariata unifattoriale o Si vuole studiare se diversi terreni di coltura determinano una diversa produzione di una proteina da parte di colture cellulari La tipologia del terreno è quindi il primo fattore, che chiamiamo fattore A, che può assumere per esempio quattro livelli (1, 2, 3 e 4), corrispondenti a quattro diversi terreni Per ogni terreno vengono analizzate per esempio 12 colture cellulari, e per ognuna di queste viene misurata la quantità di proteina prodotta (la variabile analizzata) alla fine dell’esperimento o Fino a qui, questo è un classico esempio di ANOVA con 1 fattore (ANOVA unifattoriale), 4 gruppi, e 48 osservazioni in tutto della variabile Supponiamo ora di voler considerare anche un secondo fattore che riteniamo abbia una certa influenza sulla produzione della proteina analizzata, per esempio il fattore temperatura o A questo punto, ciascuno dei gruppi costituito da 12 colture viene suddiviso in tre gruppi di 4 colture, ognuno dei quali verrà lasciato crescere a una temperatura diversa Per esempio, supponiamo che i tre raggruppamenti del secondo fattore siano temperatura bassa, temperatura media, e temperatura alta Questo è un esempio di ANOVA con due fattori, e possiamo pensare ai dati di questa analisi come ad un tabella dove o le righe identificano il primo fattore (Fattore A, per esempio il terreno di coltura) il fattore A ha 4 livelli o le colonne identificano il secondo fattore (Fattore B, per esempio la temperatura) il fattore B ha 3 livelli In questa tabella 4x3, ogni casella rappresenta un singolo gruppo di 4 osservazioni. Ognuno dei 12 gruppi ha subito un trattamento diverso (casella in alto a sinistra: terreno 1 + temperatura bassa; casella in alto in centro: terreno 1 + temperatura media; casella in alto a destra: terreno 1 + temperatura alta; casella nella seconda linea a sinistra: terreno 2 + temperatura bassa; ................; casella in basso a destra: terreno 4 + temperatura alta) Fattore B (temperatura) 1 2 Fattore A (terreno di cultura) 3 4 1 2 3 y111 y112 y113 y114 y211 y212 y213 y214 y311 y312 y313 y314 y411 y412 y413 y414 y121 y122 y123 y124 y221 y222 y223 y224 y321 y322 y323 y324 y421 y422 y423 y424 y131 y132 y133 y134 y231 y232 y233 y234 y331 y332 y333 y334 y431 y432 y433 y434 [ogni valore deve necessariamente avere tre indici: il primo indica la riga, il secondo la colonna, il terzo la singola osservazione] Le osservazioni totali sono 4x3x4= 48. Per ciascuno dei 12 gruppi posso calcolare una media Posso sintetizzare le 12 medie nella tabella Fattore B (temperatura) 1 2 3 1 Fattore A (terreno di coltura) 2 3 4 y 11 y 21 y 31 y 41 y 12 y 22 y 32 y 42 y 13 y 23 y 33 y 43 [ogni media deve necessariamente avere due indici: il primo indica la riga e il secondo la colonna] L'ANOVA a due fattori ci permette di capire: o se esiste un effetto principale del tipo di terreno di coltura sulla produzione proteica o se esiste un effetto principale della temperatura sulla produzione proteica o se esiste un’interazione tra i due fattori, ovvero se gli effetti dei due fattori non sono indipendenti (c’e’ interazione) oppure sono indipendenti (non c’e’ interazione) L'ANOVA a due fattori porterà quindi al calcolo di tre statistiche F, ognuna delle quali utile a testare un'ipotesi nulla diversa: sul fattore A, sul fattore B, e sull'interazione Le tre ipotesi nulle che vengono testate nell’ANOVA a due fattori Le prime due ipotesi nulle sono: o Prima ipotesi nulla: le 4 medie della variabile in 4 popolazioni con 4 terreni diversi (senza considerare la temperatura, e quindi mettendo assieme, per ogni riga, le tre colonne) sono uguali o Seconda ipotesi nulla: le 3 medie della variabile in 3 popolazioni caratterizzate da 3 temperature diverse (senza considerare il tipo di terreno, e quindi mettendo assieme, per ogni colonna, le quattro righe) sono uguali Ma l'ANOVA multifattoriale permette di capire e testare statisticamente una cosa molto importante: l'interazione tra fattori o La terza ipotesi nulla che viene testata nell’ANOVA a due fattori è quella di assenza di interazione o Si ha interazione tra i fattori quando l’effetto di un fattore sulla variabile dipende dagli altri fattori; molto spesso in biologia i fattori interagiscono nel determinare una risposta o Se per esempio la temperatura alta favorisce la crescita delle colture nel terreno A, ma la sfavorisce (o non la favorisce) nelle colture con terreno B, significa che c'e' interazione tra i fattori: l'effetto di un fattore non è indipendente da quale gruppo viene considerato per l'altro fattore Esempio numerico di ANOVA a due fattori senza interazione Supponiamo che la tabelle delle medie per ciascuno dei 12 gruppi sia la seguente: Fattore A (terreno di coltura) 1 2 3 4 Fattore B (temperatura) 1 2 3 5.2 6.5 8.3 5.8 6.8 8.6 7 8.5 10.2 11.5 14.1 16.8 Visualizziamo graficamente queste medie in un sistema di assi cartesiani dove i valori che assumono le medie sono riportati, logicamente, sull’asse delle Y Attenzione! Le considerazioni che seguono sono puramente basate sull’osservazione e la descrizione delle medie. Solo dopo il calcolo dei valori di F, dell’identificazione di valori critici in tabella, e della definizione delle regioni di accettazione/rifiuto o del P-value, queste considerazioni assumerebbero un valore statistico inferenziale Nel grafico che segue, l’asse delle X identifica un fattore, il fattore A Riportiamo inizialmente le medie per il livello 1 del fattore B, ossia le diverse medie osservate al livello 1 del fattore temperatura (bassa temperatura) per i 4 tipi di terreno di coltura 14 12 10 8 6 4 2 0 1 2 3 4 Fattore A Questo grafico indica che a basse temperature la produzione proteica tende ad aumentare passando dal terreno 1 al terreno 4 Cosa succede a temperature medie? E a temperature alte? E come possiamo rappresentare graficamente anche le medie a queste temperature? o Utilizziamo un simbolo diverso per ogni livello del fattore B Valori medi di prod. proteica 18 16 14 12 10 8 6 4 2 0 Temperatura 1 (bassa) Temperatura 2 (media) Temperatura 3(alta) 1 2 3 4 Fattore A Cosa indica questo grafico delle medie? 1. la produzione proteica media aumenta passando dal terreno 1 al terreno 4 in maniera molto simile a tutte e tre le temperature analizzate (le tre spezzate hanno andamenti simili) 2. la produzione proteica aumenta passando dalla temperatura bassa a quella alta in maniera molto simile con tutti e 4 i terreni di coltura considerati (i tre simboli sono a distanze simili e nello stesso ordine in tutti e 4 i terreni) Il grafico quindi suggerisce anche un’altra cosa molto importante: o la produzione proteica varia tra terreni diversi e a temperature diverse ma il modo in cui varia la produzione proteica tra terreni non dipende dalla temperatura; questo equivale anche a dire che il modo in cui varia la produzione proteica con la temperatura non dipende dal terreno Questo è un esempio tipico di ANOVA a due fattori in cui i fattori hanno un effetto principale ma non interagiscono tra loro: non esiste interazione tre i due fattori Nella rappresentazione grafica delle medie, l’assenza di interazione si traduce con una serie di spezzate parallele o quasi parallele L’assenza di interazione porta anche a poter esprimere i risultati ottenuti in maniera semplice o Nel nostro caso, la conclusione potrebbe essere espressa (per ora, ripetiamo, solo in forma descrittiva visto che non abbiamo fatto nessuna analisi statistica inferenziale) come: La produzione proteica aumenta passando dal terreno 1 al terreno 4, e anche all’aumentare della temperatura Se molte delle medie calcolate nei 12 gruppi avessero errori standard molto alti, è evidente che dovrei essere molto prudente nelle conclusioni basate solo sull’analisi del grafico delle medie. Valori medi di prod. proteica Altro esempio di ANOVA a due fattori senza interazione 10 9 8 7 6 5 4 3 2 1 0 Temperatura 1 (bassa) Temperatura 2 (media) Temperatura 3(alta) 1 2 3 4 Fattore A Le spezzate sono circa parallele (quindi, assenza di interazione), ma in questo caso solo il fattore B sembra avere un effetto principale I risultati potrebbero essere espressi semplicemente come o la produzione proteica è costante con i diversi terreni, ma aumenta all’aumentare della temperatura Esempio di ANOVA a due fattori con interazione forte Valori medi di prod. proteica Nella rappresentazione grafica delle medie, la presenza di interazione porta ad avere spezzate che non sono parallele, o addirittura si intersecano 18 16 14 12 10 Temperatura 1 (bassa) Temperatura 2 (media) Temperatura 3(alta) 8 6 4 2 0 1 2 3 4 Fattore A E’ evidente cosa si intenda per interazione in questo caso o L’effetto sulla produzione proteica dei diversi terreni é diverso a temperature diverse Ad alte temperature i diversi terreni non sembrano avere un grosso effetto A basse temperature sembra invece che i terreni 3 e 4 siano più produttivi A temperature intermedie sembra che ci sia un decremento nella produzione proteica passando dal terreno 1 al terreno 4 Nell’esempio precedente, i fattori hanno una forte interazione: l’effetto di un fattore sulla variabile analizzata sembra dipendere dall’altro fattore Il fatto che ci sia interazione può rendere meno chiaro un risultato nel quale viene trovata l’assenza di effetti principali (quelli dovuti ad ogni fattore senza considerare l’altro); si vedano le figure alla fine di questo file Anche le conclusioni che possiamo trarre richiedono maggiore attenzione in presenza di interazione: non é infatti possibile dire come nei casi precedenti in maniera semplice qual’é l’effetto di un fattore, visto che tale effetto può non essere vero per tutti i livelli dell’altro fattore Nel grafico alla pagina precedente, se le impressioni fossero confermate dall’analisi statistica, potremmo dire qualcosa del genere: i terreni 3 e 4 sono più produttivi, e quindi da preferire, solamente alle basse temperature, mentre gli stessi terreni sono i meno produttivi a temperature intermedie; inoltre, avendo a disposizione solo il terreno 1 o il terreno 2, le alte temperature sembrano le piú efficaci In altre parole, i risultati sono molto più complessi da capire e anche da descrivere in presenza di interazione Esempio di ANOVA a due fattori con interazione debole Valori medi di prod. proteica Attenzione, l'interazione può esistere anche in forma più sottile e meno evidente 35 Temperatura 1 (bassa) 30 Temperatura 2 (media) Temperatura 3(alta) 25 20 15 10 5 0 1 2 3 4 Fattore A In questo caso, i due effetti principali (dei due fattori) sono evidenti (produzione proteica aumenta passando dal terreno 1 al 4, e con la temperatura), ma c'é comunque un certo grado di interazione ANOVA a due fattori porta al calcolo di tre statistiche F Fino ad ora abbiamo visto come le medie per ciascuna combinazione possono essere utilizzate graficamente per capire qualcosa sull’effetto dei fattori e sulla loro interazione o Questa era però solo statistica descrittiva! Come già accennato, L'ANOVA a due vie viene svolta attraverso il calcolo di tre statistiche F: o FA-calc : serve per testare l'ipotesi nulla che il fattore A (per esempio, terreno di coltura) non abbia un effetto principale sulla variabile analizzata (per esempio, la produzione proteica) o FB-calc : serve per testare l'ipotesi nulla che il fattore B (per esempio, la temperatura) non abbia un effetto principale sulla variabile analizzata (per esempio, la produzione proteica) o FAB-calc : serve per testare l'ipotesi nulla che i fattori A e B non interagiscano (ovvero, l'ipotesi nulla di assenza di interazione, o, nella rappresentazione grafica, l’ipotesi nulla che le spezzate siano parallele). Ognuna delle tre statistiche andrà confrontata con il suo corrispondente valore critico (che dipenderà dai gradi libertà di ciascuna statistica) ATTENZIONE! Se c'e' interazione, FA-calc e/o FB-calc possono risultare non significativi (P<α) anche se i fattori determinano un effetto (non omogeneo) sulla variabile analizzata Vediamo alcuni risultati ipotetici che si potrebbero ottenere studiando come varia la velocità ad imparare un certo tipo di esercizio (variabile) in un gruppo di scoiattoli classificati per l'ambiente da cui provengono (fattore A, foresta o parco pubblico) e per la specie a cui appartengono (fattore B, Sciurus carolinensis o Sciurus vulgaris). Assumiamo che ci siano solo due ambienti e due specie (4 gruppi) Nelle figure che seguono, quindi, il fattore A è Environment, il fattore B è Species (colore rosso e rombo per Sciurus carolinensis e colore blu e pallino per Sciurus vulgaris), e la variabile “velocità ad imparare un certo esercizio” è indicata come Trait Measure Dai grafici possiamo ipotizzare che, se il numero di individui in ciascun gruppo non è troppo basso, i valori di F significativi risulterebbero: A) Nessuno B) FB C) FA D) FA-B (nessun effetto principale) E) FB e FA-B F) FA e FA-B G) FA, FB e FA-B ESEMPIO: l’impatto degli organismi erbivori e dell’altezza nell’area intertidale sulla copertura algale Per ogni gruppo, sono stati analizzati 16 plot [64 osservazioni in tutto, 63 gdl totali, 15x4=60 gdl dell’MSE, qui indicato come Residuo]