ANOVA gerarchica (hierarchic or nested anova)

Transcript

ANOVA gerarchica (hierarchic or nested anova)
CAPITOLO 5 – ANALISI DELLA VARIANZA GERARCHICA E
BIFATTORIALE
5.1. ANOVA gerarchica (hierarchic or nested anova)
Si applica a quei casi in cui un gruppo è suddiviso in due o più sottogruppi scelti a caso.
Se il gruppo iniziale è anch’esso costituito a caso si parla di “Modello II” altrimenti di “Modello
misto”. Questo tipo di analisi si può considerare una estensione di quella monofattoriale in cui sia
necessario introdurre una più fine analisi dei dati per poterli interpretare. In genetica quantitativa
spesso si analizzano i caratteri di “n” animali che derivano da madri (Mi) diverse, ciascuna delle
quali a sua volta è stata accoppiata con maschi diversi (Pj). La variabilità morfotipica osservata nei
vari individui dipende quindi da tre livelli di variazione annidati uno dentro l'altro: 1°livello la
variabilità genetica tra padri, 2° quella delle madri che si accoppiano con un determinato maschio, e
3° quella tra i discendenti di una stessa coppia.
P1
Ma
(na)
Mb
(nb)
P2
Mc
(nc)
Md
(nd)
Me
(ne)
Mf
(nf)
In indagini faunistiche, quando si voglia considerare la distribuzione sul territorio di determinati
animali (o piante), si scelgono alcune località rappresentative, all'interno delle quali si considerano
delle aree di campionamento distribuite a caso. In questi due esempi possiamo trovarci in un
modello II o misto a seconda che il primo livello sia scelto a caso oppure no, ovvero se i maschi o
le località fanno parte di un campione casuale di un pool di possibili maschi o località, oppure se il
nostro interesse era focalizzato in modo particolare solo su quei maschi o su quelle località.
Analogamente in zootecnia quando, per esempio, tre metodologie di allevamento di conigli
vengono messe a confronto sulla base dell'incremento ponderale osservato su un certo numero n di
animali appartenenti a tre nidiate scelte a caso tra quelle allevate con ciascuna metodologia. (vedi
Camussi pag 195)
Anche questo tipo di analisi può essere rappresentato con una funzione lineare utilizzando la solita
simbologia (lettere maiuscole latine, per fattori casuali, lettere greche per fattori fissi) per cui:
Yijk = + Ai + Bj(i)+ ijk
Yijk =  + i + Bj(i)+ijk (Modello misto)
(Modello II) 1
Ritornando all' esempio zootecnico:
Fattore A (fisso) con i = 3 livelli: metodologie
metodologia 1
metodologia 2
metodologia 3
Fattore B (casuale) con j = 3 livelli: nidiate
1
2
3
1
2
3
1
2
3
Repliche (casuale) con k = n livelli: animali
n
n
n
n
n
n
n
n
n
1
Ricordiamo che in un modello II non siamo interessati a valutare le differenze tra le medie dei vari gruppi, ma a
stimare qual è il contributo (in termini di %)dovuto alla presenza di effetti casuali nei vari livelli.
78
Dato che le metodologie sono un fattore sotto controllo delle sperimentatore, (fattore fisso) mentre
le nidiate potrebbero essere state scelte a caso tra quelle presenti in un determinato allevamento,
siamo in un modello misto dove il valore di una data osservazione, Yijk, ovvero: individuo k (da
1 a n), nel sottogruppo j (fattore B, nidiate, con 3 livelli) del gruppo i (fattore A, metodologie, 3
livelli)] dipende da: Yijk =  + i + Bj(i)+ijk
1)  valore della media parametrica
2) ai = deviazione fissa della media del gruppo i dalla media parametrica, dovuta al trattamento
fisso subito dal gruppo i;
3) da una deviazione casuale Bj(i) tra i sottogruppi j (nidiate scelte a caso e pertanto fattore
casuale), annidata negli i trattamenti.;
4) da una deviazione casuale  i j k dell'individuo k nel sottogruppo j del gruppo i (variabilità
individuale o errore)
Si noti che gli ultimi tre termini dovrebbero essere distribuiti normalmente, con media 0 e varianza:
2A,
 2 B A 2. Essendo nidiate tutte diverse tre loro, risulta che la variabilità tra le metodologie
include anche la variabilità tra nidiate: fattore B gererchizzato nei livelli di A, B  A o meglio
Bj(i).
Esempio di Modello II, a due livelli di annidamento della varianza con un ugual numero di
osservazioni nei sottogruppi:
Variazioni fenotipiche relative allo sviluppo delle ali (lunghezza) in 12 pupe (dello stesso sesso) di
zanzare catturate a caso e suddivise in 3 differenti contenitori, ciascuno contenente 4 pupe. Su ogni
pupa sono state fatte 2 misurazioni dello stesso parametro (lunghezza ali).
Gruppi di pupe, a = 3 Pupe dentro ciascun contenitore (sottogruppo) b =
4 Misure ripetute (errore), n = 2
Cage 1
Cage 2
Cage 3
Gruppo , i = 3
1
2
3
4
1 (5) 2 (6)
3 (7)
4 (8)
1 (9) 2 (10)
3 (11)
4 (12) Sottogruppo, j = 4
58,5
77,8
84
70,1 69,8
56
50,7
63,8
56,6
77,8
69,9
62,1 Errore
59,5
80,9
83,6
68,3 69,8 54,5
49,3
65,8
57,5
79,2
69,2
64,5 Misurazioni, k = 2
La variabilità tra i 12 individui dipende da due livelli:
1) varianza tra gli individui che sono stati allevati in contenitori separati (varianza tra
gruppi) dovuta ad una possibile differenza tra i microambienti dei diversi contenitori;
2) varianza tra individui di uno stesso contenitore (varianza dei sottogruppi dentro i
gruppi);
3) varianza all’interno di ciascun individuo (varianza d’errore, dovuta alla misurazione
ripetuta due volte).
Per eseguire pertanto una corretta analisi della varianza presente tra i 12 individui occorre
scorporare i due livelli di variabilità, attraverso una semplice analisi monofattoriale della varianza
eseguita due volte utilizzando una differente ripartizione dei dati. Questa procedura si rende
necessaria perché l’analisi dei dati fatta con excel non prevede l’anova gerarchica 2 .
2
Ovviamente i software di statistica fanno direttamente questo tipo di analisi impostando la giusta sintassi
79
STEP 1. Si considera la totalità degli individui ed il numero di misurazioni eseguite su ciascuno
di essi, senza tenere conto della variabilità dovuta alla loro suddivisione in 3 gruppi (cage) ed in 4
sottogruppi (individui entro ciascun cage); a, gruppi = 12; n, misurazioni = 2.
Gruppi
Conteggio
Somma
Media
devianza
Individuo 1
Individuo 2
Individuo 3
Individuo 4
Individuo 5
Individuo 6
Individuo 7
Individuo 8
Individuo 9
Individuo 10
Individuo 11
Individuo 12
2
2
2
2
2
2
2
2
2
2
2
2
118
158,7
167,6
138,4
139,6
110,5
100
129,6
114,1
157
139,1
126,6
59
79,35
83,8
69,2
69,8
55,25
50
64,8
57,05
78,5
69,55
63,3
0,5
4,805
0,08
1,62
0
1,125
0,98
2
0,405
0,98
0,245
2,88
 =
Varianza
0,5
4,805
0,08
1,62
0
1,125
0,98
2
0,405
0,98
0,245
2,88
15,62
Si verifica se ci sono i prerequisiti per eseguire l’anova:
Test di Cochran, Rn, p = 0,3076; Crit val 0,05 R 2,12 =0,541; varianze omogenee
ANALISI VARIANZA 1 ad un fattore
Origine
variazione
SS
gdl
MS
216,9412
Tra gruppi 2386,353 11
12
1,301667
In gruppi
15,62
Totale
2401,973 23
Valore di
significatività
F
F crit
166,6642
0,000
2,7173286

Tra gruppi = varianza tra i 12 individui, che comunque confonde due fonti di variabilità: i) quella
tra gli individui che formano un sottogruppo (le 4 larve immesse in un determinato contenitore) e
ii) quella tra gli individui dei 3 differenti contenitori.
In gruppi = stima della varianza tra le due misurazioni eseguite su ogni individuo.
Commento: esiste una elevata significatività fenotipica (P<0,001) tra la lunghezza delle ali delle pupe allevate.

STEP 2. Si considera ora i tre contenitori (a, gruppi = 3), ciascuno contenente quattro individui
misurati due volte (n = 8)


Cage 1
58,5
59,5
77,8
80,9
84
83,6
70,1
68,3
Cage 2
69,8
69,8
56
54,5
50,7
49,3
63,8
65,8
Cage 3
56,6
57,5
77,8
79,2
69,9
69,2
62,1
64,5
Gruppi
Cage 1
Cage 2
Cage 3
Conteggio
8
8
8
Somma
582,7
479,7
536,8
Media
Varianza
72,8375 105,94268
59,9625 69,625536
67,1 72,474286
Si verifica se ci sono i prerequisiti per eseguire l’anova:
Test di Cochran, Rn, p = 0,4271; Crit val 0,05 R 8,3 = 0,653; varianze omogenee
80
ad un fattore
ANALISI VARIANZA 2
Origine
variaz.
SS
gdl
MS
F
332,8379 4,0255753
Tra gruppi 665,6758333 2
1736,2975 21
82,68083
In gruppi
Totale
2401,973333 23
Valore
signific.
F crit
0,03312 3,466795
Tra gruppi = varianza dovuta alla possibile differenza tra gli individui dei tre differenti contenitori
(gruppi), che ingloba comunque anche quella tra individui di uno stesso contenitore (sottogruppo).
In gruppi = stima della varianza tra gli individui di un contenitore, che comunque include anche la
varianza d’errore, cioè quella dovuta alle misurazioni ripetute su uno stesso individuo.
Commento: esiste una significatività fenotipica tra la lunghezza delle ali delle pupe allevate nei tre
differenti contenitori.
ANOVA gerarchica
Per ottenere un’analisi della variabilità osservata tra la lunghezza delle ali di tutti gli individui,
bisogna avere un’idea della variabilità annidata nei due livelli, ovvero la variabilità dovuta ai tre
differenti contenitori e quella tra gli individui di uno stesso contenitore
Se consideriamo la variabilità 3 (SS) tra gruppi risultante dalla prima analisi della varianza (Anova
1) ci accorgiamo che essa include due fonti di variazione: quella tra gli individui che formano un
sottogruppo (individui di un contenitore) e quella tra i contenitori. Sottraendo, pertanto, da questa
variabilità quella dovuta alla variabilità tra i contenitori, cioè quella risultante da SS tra gruppi,
della seconda analisi della varianza (Anova 2), otteniamo una nuova misura della variabilità
esistente tra gli individui di un sottogruppo, scevra da altre influenze, detta “SS dei sottogruppi
entro i gruppi” 4 . In questo caso: 2386,353 -665,676 = 1720,677 . Dividendo questa SS per i
rispettivi gradi di libertà, che si ottengono da una analoga sottrazione, 11-2 = 9, otteniamo la
varianza (MS) imputabile ai sottogruppi (individui di uno stesso contenitore) che è 191,186.
Abbiamo ora tutte le informazioni necessarie per impostare la seguente tabella:
Source of variation
Between Groups
(tra contenitori)
Between Subgroups within groups
(tra individui dentro i contenitori)
Within Subgroups (errore tra le
misurazioni di un singolo individuo)
Total
SS
665,6759
1720,6775
15,62
2401,9734
df
2
(a - 1)
9
a(b – 1)
12
ab(n - 1)
23
abn - 1
MS
332,8380
F
1,741 ns
191,1864
146,88 vhs
1,3017
Expected MS
2
2
2
 + n B  A + nb A
 + n B  A
2
2

2
a = numero di gruppi = 3; b = numero di individui in ogni gruppo = 4; n = numero di misurazioni su ogni
individuo = 2.
Dalla composizione della varianza associata alle varie componenti dell’analisi possiamo vedere che:
in un analisi gerarchica della varianza, ogni livello include anche la varianza di quello che lo
precede, pertanto il test di F va fatto utilizando questo valore al denominatore.
Ricordiamo che per eseguire operazioni aritmetiche sulla variabilità bisogna considerare la devianza (SS) in quanto la
varianza non è una grandezza addittiva.
3
4
In alternativa, la varianza tra gli individui di un contenitore, ovvero la “SS dei sottogruppi entro i gruppi”, poteva
essere calcolata sottraendo dalla SS in gruppi dell’ Anova 2, che stima della varianza tra gli individui di un
contenitore ma include anche la varianza d’errore, cioè quella dovuta alle misurazioni ripetute su uno stesso individuo,
la varianza d’errore che si ottiene dalla SS in gruppi dell’ Anova 1. In questo caso (1736,297 – 15,62) = 1720,6775.
I gradi di liberta, df, associati a questa nuova variabilità si ottengono da analoga sottrazione, ovvero: 21 –12 = 9, da cui
MS imputabile ai sottogruppi risulta ancora 191,186.
81
Tenendo conto dei seguenti valori critici di F: F.05 [ 2, 9 ] = 4,26 e F.001 [ 9, 12 ] = 7,48, possiamo
concludere che: c’e una variabilità fenotipica altamente significativa tra gli individui, per quanto
riguarda la lunghezza delle ali, che non dipende dai differenti contenitori (F= 1,741; ns = not
significant) bensì da differenze osservate tra individui all'interno dei singoli contenitori (subgroups,
F= 146,88; vhs = very high significant).
NB. Se il valore di MS dei sottogruppi non fosse risultato significativo si avrebbe potuto sommarlo
con quello dentro i sottogruppi e testare il valore di MS fra gruppi con questo nuovo valore ma, per
adottare questa procedura, bisogna che siano soddisfatte alcune condizioni (Sokal pag. 284).
Nel nostro esempio, essendo un modello II, non siamo interessati a fare nessun altra considerazione
(non ha senso individuare gli individui che differiscono significativamente tra loro, perché non
sapremmo darne alcuna spiegazione), salvo individuare le percentuali di variazione ascrivibili a
ciascun fattore. Vediamo ora di trasformare i dati assoluti della varianza (MS), osservata nei diversi
livelli (expected MS), in valori relativi (%):
Componenti della varianza (Expected MS)
1)
Entro i sottogruppi (errore tra le misurazioni di un singolo individuo,  =
2)
Tra sottogruppi entro i gruppi (tra individui dentro i contenitori): 2 + n 2 B  A = 191,1864, da cui,
2 B  A = (191,1864 - 2) / n , ovvero: (MSsubgr – MSwithin)/n94,9424
3) Tra gruppi (tra contenitori): 2 + n 2 B  A + nb 2A = 332,838, da cui
ovvero: (MSgroup–MSsubgr)/nb = (332,838 -191,1864)/ 2*4 = 17,7064
1,3017 (MS di errore da anova1)
2A = (332,838 - 2 + n 2 B  A) / nb,
Somma delle componenti della varianza = 1,3017 + 17,7064 = 113,9505
% MS Entro i sottogruppi = 1,3017 x 100/ 113,9505 = 1,14
%MS Tra sottogruppi entro i gruppi = 94,9424 x 100/ 113,9505 = 83,32
% MS Tra gruppi = 17,7064 x 100/ 113,9505 = 15,54
da cui:
Risulta pertanto che c'è una elevata percentuale di variabilità (83,3%) dovuta agli individui presenti
nei tre contenitori.
Ovviamente, tutta questa procedura alquanto farraginosa sarebbe stata sviluppata in automatico se si
avesse un software statistico. Ad esempio con SPSS:
var BY cage ind (si indica la variabile, var = lunghezza ali; BY: i gruppi, cage; i sottogruppi, ind=individui)
/RANDOM = cage ind (si indica che i gruppi ed i sottogruppi sono casuali)
/DESIGN = cage ind(cage). (si indica il tipo di anova, ovvero annidata, con i gruppi ed i sottogruppi che
sono annidati nei gruppi)
Tests of Between-Subjects Effects
Dependent Variable: VAR
Source
Intercept
CAGE
IND(CAGE)
Hypothesis
Error
Hypothesis
Error
Hypothesis
Error
Type III
Sum of
Squares
106560,0
665,676
665,676
1720,678
1720,678
15,620
df
1
2
2
9
9
12
Mean
Square
106560,0
332,838a
332,838
191,186b
191,186
1,302c
F
320,156
Sig.
,003
1,741
,230
146,878
,000
a. MS(CAGE)
b. MS(IND(CAGE))
c. MS(Error)
82
Casi più complessi, ma concettualmente identici a quello sopra riportato, sono quelli che
prevedono più livelli di annidamento.
Esempio di Modello misto, a tre livelli con un ugual numero di osservazioni nei sottogruppi:
variazioni del contenuto di glicogeno nel fegato di 6 topi sottoposti a 3 differenti diete.
Le misurazioni sono state ripetute due volte (n = 2) per ciascuno dei tre preparati di fegato (c = 3)
eseguiti su ognuno dei due topi (b = 2) sottoposti ad una delle tre differenti diete alimentari (a = 3).
Essendo il livello più alto di classificazione costituito da gruppi non casuali, ma sottoposti ad un
trattamento fisso (modello I), l’intero modello (dove i sottogruppi devono essere, comunque,
casuali) è di tipo misto.
TAB. 1
Trattamenti a = 3
1
2
3
gruppo
Ratti b = 2
1
2
1
2
sottogruppo
1
2
(3)
(4)
(5)
(6)
Preparazioni,
sottosottogruppo
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
1
2
3
c=3
Misurazioni, n = 2 131 131 136 150 140 160 157 154 147 151 147 162 134 138 135 138 139 134
130 125 142 148 143 150 145 142 153 155 147 152 125 138 136 140 138 127
errore
La variabilità del contenuto di glicogeno (tra gruppi), osservata nei 6 (2t*3d) topi e dovuta alle tre
diete, dipende da tre livelli annidati l'uno dentro l'altro: tra gruppi = 3 diete;
1. variabilità tra i 2 topi di ciascun gruppo (tra sottogruppi dentro gruppi);
2. variabilità tra i 3 preparati di fegato di ciascun topo (tra sottosottogruppi dento sottogruppi );
3. variabilità d’errore all’interno di ciascun preparato (dentro sottosottogruppi) dovuta alle 2
misure ripetute.
(Le frecce indicano che la variabilità di un fattore include anche quella del fattore gerarchizzato)
Il valore di una data osservazione, Yijrk, ovvero: misurazione k (da 1 a 2), nel sottosottogruppo r
(fattore C, preparati, con 3 livelli) del sottogruppo j (fattore B, ratti, 2 livelli), del gruppo i (fattore
A, diete, 3 livelli) dipende da: Yijrk =  + i + Bj(i) + Cr(ji)ijrk
Volendo svolgere questo esempio con l’analisi dei dati di excel, che non prevede analisi di varianza
annidata, occorre eseguire tre analisi monofattoriali separate e poi mettere insieme i dati.
Nella prima anova si analizza la varianza i 18 preparati, ognuno composto dalle due misurazioni
ripetute (6topi * 3 preparati = 18).
ANALISI VARIANZA 1
variazione
SS
2949,222
Tra gruppi
In gruppi
381
Totale
3330,222
gdl
MS
F
signific.
F crit
17 173,48366 8,1960784 2,51E-05 2,232546592
18 21,166667
35
Tra gruppi: varianza del contenuto di glicogeno tra i 18 preparati di fegato, che non discrimina
tra tre fonti di variabilità:
i) quella dovuta alle tre preparazioni in ciascun topo;
ii) quella dovuta ai 2 topi sottoposti alla medesima dieta;
iii) quella dovuta alle 3 diete.
In gruppi: varianza d’errore dovuta alla misurazione ripetuta 2 volte
83
Nella seconda anova si analizza la varianza tra i 6 topi, ciascuno dei quali contiene 6 osservazioni
(3 preparati*2misurazioni).
STEP 2
p1,m1
p1,m2
p2,m1
p2,m2
p3,m1
p3,m2
TAB.2
1
131
130
131
125
136
142
Topi
3
157
145
154
142
147
153
2
150
148
140
143
160
150
4
151
155
147
147
162
152
5
134
125
138
138
135
136
6
138
140
139
138
134
127
ANALISI VARIANZA 2
Variazione
SS
gdl
MS
F
Signific.
F crit
Tra gruppi
2355,222 5 471,04444 14,493675 3,03E-07 2,533553811
In gruppi
975 30
32,5
Totale
3330,222 35
Tra gruppi: varianza del contenuto di glicogeno tra i 6 topi, che non discrimina tra due fonti di
variabilità:
i) quella dovuta ai 2 topi sottoposti alla medesima dieta;
ii) quella dovuta alle 3 diete.
In gruppi: varianza all’interno di ciascun topo data dai 3 preparati (ingloba anche la varianza
d’errore delle 2 misurazioni)
Nella terza anova si analizza la varianza tra le 3 diete, ciascuna delle quali contiene 12
osservazioni (2topi*3 preparati*2misurazioni).
TAB. 3
1
diete
2
t1,p1,m1
131
157
134
t1,p1,m2
t1,p2,m1
130
131
125
136
142
150
148
140
143
160
150
145
154
142
147
153
151
155
147
147
162
152
125
138
138
135
136
138
140
139
138
134
127
STEP 3
dieta
t1,p2,m2
t1,p3,m1
t1,p3,m2
t2,p1,m1
t2,p1,m2
t2,p2,m1
t2,p2,m2
t2,p3,m1
t2,p3,m2
ANALISI VARIANZA 3
Variazione
SS
Tra gruppi 1557,555556
In gruppi
1772,666667
Totale
3330,222222
3
gdl
2
33
35
MS
F
Signific
F crit
778,7778 14,49774 3,03E-05 3,284924
53,71717
Tra gruppi: varianza del contenuto di glicogeno tra le 3 diete, fattore gerarchizzante che ingloba
la varianza dei livelli precedenti.
In gruppi: varianza all’interno di ciascun gruppo di 2 topi (ingloba anche la varianza dovuta ai 3
preparati di ciascun individuo e quella d’errore dovuta alle 2 misurazioni)
84
ANOVA gerarchica
Considerando le fonti di variabilità che sono incluse in ciascuna analisi, abbiamo che:
 se sottraiamo dalla SS tra gruppi della prima anova quella tra gruppi della seconda anova,
otteniamo una nuova misura della variabilità all’interno dei preparati di ciascun topo
(SS tra sottosottogruppi entro i sottogruppi) 5 , scevra da altre influenze: 2949,222 –
2355,222 = 594,00. I gradi di liberta, df, associati a questa nuova variabilità si ottengono da
un analoga sottrazione: 17 – 5 = 12.
 se sottraiamo dalla SS tra gruppi della seconda anova quella tra gruppi della terza anova,
otteniamo una nuova misura della variabilità all’interno di ciascun gruppo di 2 topi (SS
tra sottogruppi entro i gruppi) 6 , scevra da altre influenze: 2355,222 – 1557,556 = 797,667. I
gradi di liberta, df, associati a questa nuova variabilità si ottengono da un analoga
sottrazione: 5 - 2 = 3.
Otteniamo così la seguente tabella dove ogni livello, oltre alla varianza dovuta al proprio effetto,
include la varianza dei sottostanti livelli
Source of variation
Between Groups* (da Anova 3)
(tra diete)
Between Subgroups within groups
(tra topi dentro le diete: An2 – An3)
Between Subsubgroups within
subgroups
(tra preparati dentro i topi: An1 – An2)
Within Subsubgroups (errore tra le
misurazioni di un singolo preparato) (An.1)
Total
SS
1557,556
797,667
594,000
381.000
3330,22
df
2
(a - 1)
3
a(b – 1)
12
ab(p -1)
MS
778,778
F
2,93 ns
265,89
5,37 s
Expected MS
2
2
 + n C  B + n B  A +
2
ncb /a – 1
2
2
2
 + n C  B + n B  A
49,50
2,34 s!
 + n
18
abp(n -1)
35
abpn – 1
21,167
2
2

2
C
 B
2
*La componente aggiunta (dovuta alle diete) 2/a – 1 può essere schematizzata con K2A da cui:
2 + n2C  B + n2B  A + ncb2A

a = numero di gruppi = 3; b = numero di topi in ogni gruppo = 2; p = numero di preparati in ogni topo = 3;
n = numero di misurazioni su ogni individuo = 2.
Valori critici di F:
F.05
[ 12, 18 ]
= 2,34 (F.001
[ 12,18 ]
= 3,37); F.05
[ 3, 12 ]
= 3,49 ( F.001
[ 3, 12 ]
= 5,95 ); F.05
[ 2, 3 ]
= 9,55
Conclusione: c’e una variabilità significativa tra i topi entro i gruppi (le diete) e tra i preparati di
ogni individuo, per quanto riguarda il contenuto di glucosio nel fegato, che non dipende però dalle
differenti diete. 7 Questa analisi suggerisce che, aumentando il numero di topi (ed eventualmente
lavorando su gruppi più omogenei) ed utilizzando preparazioni più standardizate, potrebbe essere
che le diete siano significative (cosa che qui non si osserva per l'elevata variabilità dovuta a questi
due fattori.
Essendo il primo livello un fattore fisso, se la differenza tra diete fosse risultata significativa
avremmo potuto indagare ulteriormente, utilizzando dei test di confronti multipli, ricordando che l'
5
In alternativa possiamo calcolare quest’ultima fonte di variabilità sottraendo dalla SS Within, risultante da
Anova 2, quella osservata in Anova 1: 975,00 – 381,00 = 594,00 con df = 30 – 18 = 12
6
In alternativa possiamo calcolare quest’ultima fonte di variabilità sottraendo dalla SS Within, risultante da
Anova 3, quella osservata in Anova 2: 1772,667 – 975,00 = 797,667 con df = 33 – 30 = 3
7
Se i valori di MS nei due sottogruppi non risultassero significativi si potrebbe sommarli insieme al valore
dentro i sottogruppi e testare il valore di MS fra gruppi con questo nuovo valore ma, per adottare questa
procedura, bisogna che siano soddisfatte alcune condizioni.
85
MS da utilizzare nelle formule è quello su cui è stato determinato il valore di F (ovvero MS tra
sottogruppi dentro i gruppi).
Per i fattori random non siamo, comunque, interessati a stabilire quali sono i livelli (i tropi e/o i
preparati) responsabili delle differenze significative osservate. Potremmo, invece, essere interessati
a stimare le componenti della varianza.
Vediamo ora di trasformare i dati assoluti della varianza (MS), osservata nei fattori di
raggruppamento sottostanti il primo (fattore fisso), in valori relativi:
1) MS Within subsubgroups (errore tra le misurazioni di un singolo preparato) = s2 = 21,1267
2) MS Between Subsubgroups within subgroups (tra preparati dentro i topi) = s2C  B =
MSsubsubgroups – MSwithin/n = (49,50 –21,167) / 2 = 14,16
3) MS Between Subgroups within groups (tra topi dentro diete) = s2B  A = MSsubgroups MSsubsubgroups/np = (265,89 – 49,50) / 6 = 36,06
Somma delle componenti della varianza = 21,167 + 14,16 + 36,06 = 71,387 da cui:
5) % MS Within Subgroups = 21,167 x 100/ 71,89 = 29,651 (letture dentro i preparati)
6) % MS Between Subsubgroups within subgroups = 14,16 x 100/ 71,89 = 19,836 (preparati
dentro i topi)
7) % MS Between Subgroups within groups = 36,06 x 100/ 71,89 = 50,513 (topi dentro diete).
E’ quindi supportato con un valore di varianza relativa il fatto che la fonte maggiore di variabilità è
quella dovuta alle differenze tra i topi, la quale non ci permette di evidenziare eventuali differenze
del contenuto di glicogeno dovuto alle diete.
Se anche il primo livello fosse stato un fattore random (Anova gerarchica di tipo II) allora
bisognava includere anche questo tra le componenti della varianza.
4) Between groups (tra diete) = MSgroups-MSsubgroups/bnp = (778,778 – 265,89)/12 = 42,741
Somma delle componenti della varianza = 21,167 + 14,16 + 36,06 + 42,741 = 114,128 da cui:
5)

7)
8)
MS Within Subgroups % = 21,167 x 100/ 114,27 =
MS Between Subsubgroups within subgroups % = 
MS Between Subgroups within groups % =
MS Between groups % =
18,547
12,407
31,596
37,450
Letture dentro i preparati
Preparati dentro topi
Topi dentro diete
Diete
Anche in questo caso valgono le implicazione associate ai due tipi di anova gerachica. Nel tipo
misto essendo il fattore principale di raggruppamento sotto controllo dello sperimentatore, le
conclusioni non sono generalizzabili. Se il contenuto di glicogeno nel fegato dei topi sottoposti
alle 3 diete fosse risultato significativamente differente, avremmo potuto concludere che quelle
diete, e solo quelle, hanno influenza sull’assunzione di glicogeno. Diversamente, se fossero state
tre diete a scelte a caso tra le tante possibili, anova gerarchica di tipo II, avremmo potuto
concludere che il tipo di dieta, in generale, ha una influenza significativa sull’assunzione di
glicogeno.
L’utilizzo di software statistici appropriati avrebbe semplificato notevolmente questa procedura di
calcolo. Utilizzando SPSS, ad esempio, era sufficiente adottare la seguente impostazione:
Univariate Analysis of Variance THREE NESTED
var BY trattam rats prepar
/RANDOM = rats prepar
/METHOD = SSTYPE(3)
/INTERCEPT = INCLUDE
/CRITERIA = ALPHA(.05)
/DESIGN = trattam rats(trattam) prepar(rats(trattam)) .
86
Tests of Between-Subjects Effects
Dependent Variable: VAR
Source
SPSS
Random = Rats e Prepar; fixed = Trattam
Type III SS
df
MS
Intercept
Hypothesis
Error
Hypothesis
Error
Hypothesis
Error
Hypothesis
Error
TRATTAM
RATS(TRATTAM)
PREPAR(RATS(TRATTAM))
a
728177,78 1
797,66667 3
1557,5556 2
797,66667 3
797,66667 3
594 12
594 12
381 18
MS(RATS(TRATTAM))
728177,78
265,89a
778,778
265,89a
265,89
49,50b
49,50
21,167c
F
2738,65
Sig.
1,54E05
2,93
0,197
5,37
0,0141
2,34 0,00503
b MS(PREPAR(RATS(TRATTAM)))
c MS(Error)
Queste procedure si riferiscono a gruppi caratterizzati da uguale numerosità. L’uso di gruppi
sbilanciati crea ulteriori problemi sia di calcolo sia perché non esiste un test appropriato per
svolgere questa analisi. Il problema sta nel fatto che la componente della varianza dovuta ai
sottogruppi2B  A ha coefficienti diversi, n ≠ n’nel caso che essa faccia parte della varianza tra
gruppi o della varianza tra sottogruppi dentro i gruppi, per cui non c’è un appropriato valore di MS
da utilizzare al denominatore dell’F-test per testare la MS tra gruppi
Source
Between groups (anova 2)
SS
df
MS
Between subgroups within group
F
?
Expected MS
2 + n’2B  A + (nb)02A
2 + n 2B  A
Per risolvere questo problema bisogna utilizzare il metodo di approssimazione proposto da
Satterthwaite che ci consente di calcolare dei particolari valori per i coefficienti dei
componenti della varianza, che vengono usati per trovare un nuovo valore di MSsottogruppi
con cui testare MSgruppi. Questo metodo ha comunque delle limitazioni per cui è utilizzabile
solo se sono soddisfatte due particolari condizioni. Qui non ci addentreremo oltre nello sviluppare
questo tipo di analisi, rimandando chi fosse interessato alla consultazione di testi specialistici (es.:
Sokal e Rohlf, 1995, pg. 292-308).
Pertanto, quando è possibile, è sempre bene evitare questi inconvenienti e lavorare su gruppi
bilanciati.
I modelli misti si usano spesso quando si voglia testare dell'ipotesi utilizzando degli
"accorgimenti" sperimentali. Esempio 8 , se riteniamo che la percentuale di alghe marine
filamentose dipenda dalla densità di ricci di mare presenti nello stesso ambiente, potremmo pensare
ad un esperimento dove si tenga sotto controllo la densità di ricci, ovvero in un certo numero di
aree, esempio 4 aree di 3-4 m2, rimuoviamo tutti i ricci, in altre 4 ne lasciamo una percentuale
ridotta (33%), in altre una maggiore (66%) ed infine individuiamo 4 aree controllo dove lasciamo la
concentrazione naturale (100%). Il numero di alghe potrebbe essere monitorato in 5 quadrati
individuati all'interno di ciascuna area. In questo caso i trattamenti sono un fattore fisso con 4
livelli, le aree sono un fattore random, anch'esso con 4 livelli ed i 5 quadrati presenti in ogni area
8
Esempio tratto da: “Experimental design” (Quinn& Keough, p.209)
87
rappresentano le unità sperimentali (che forniranno anche la varianza d'errore). Dato che le 4 aree
assegnate casualmente ad un dato trattamento sono differenti da quelle di un altro trattamento è
ovvio che la variabilità tra trattamenti include al suo interno anche quella dovuta alle aree, secondo
fattore gerarchizzato (e quindi necessariamente random) nel primo (fattore gerarchizante in questo
caso fisso perché le densità dei ricci sono sotto il controllo dello sperimentatore. Se non avessimo
previsto questa suddivisione dei trattamenti in sottogruppi (aree) non saremmo in grado di valutare
se l'eventuale differenza nel numero delle alghe corrisponde ad un effetto del trattamento o sia
imputabile a fattori ambientali (correnti, microhabitat) che sfuggono al nostro controllo. (In seguito
vedremo come questo problema possa essere affrontato con un altro modello statistico: Anova a
blocchi completamente randomizati).
Area 1, T1
Area 4, T4
Area 1, T3
Area 1, T2
Area 2, T2
Area 2, T3
Area 1, T4
Area 3, T2
Area 4, T1
Area 3, T1
Area 3, T4
Area 4, T2
Area 3, T3
Area 4, T3
Area 2, T4
Area 2, T1
Area 1- 4, T1
0%
0%
0%
0%
0%
Area 1- 4, T2
33%
33%
33%
33%
33%
Area 1- 4, T3
66%
66%
66%
66%
66%
Area 1- 4, T4
100%
100%
100%
100%
100%
88
Trattamenti a = 4; Aree (sottogruppo) b = 4; Quadrati (misure ripetute) n = 5
Aree
Quadrati
media
varianza
Trattamenti
T4 = 100%
T3 = 66%
T2 = 33%
T1 = 0%
1
2
3
4
5
6
7
8
9 10 11
12
13
14 15 16
0
0
0
0
23
0
5
0
0 0
43
40
46
65
0
30
0
0
0
0
17
79
0 56 5 0
8
63
44
55
5
82
0
0
0
0
0
32
0
3
8 0
69
0
41
61
0
70
6
0
4
13
56
51
0
0
0 0
29
71
29
74
0
27
2
0
1
0
46
22
0 41 0 0
39
5
11
55
6
83
1,6 0
1
2,6 28,4
37
1 20 2,6 0 37,6 35,8 34,2 62 2,2 58
6,8 0
3
33,8 509
895
5 707 14 0 492 1057 212 63 9,2 772
La variabilità tra le 16 aree dipende da due fattori:
1)
varianza tra aree che appartengono ai diversi trattamenti (varianza tra gruppi)
2)
varianza tra aree che appartengono allo stesso trattamento (varianza dei sottogruppi
dentro i gruppi)
La variabilità dentro ciascuna area dipende dalle misure ripetute, ovvero i 5 quadrati
(varianza d’errore)
ANOVA 1. Si considera la totalità delle aree ed il numero di osservazioni eseguite su ciascuna di
esse, senza tenere conto della variabilità dovuta ai 4 trattamenti: a, gruppi = 16; n, misurazioni = 5
ANALISI VARIANZA
Origine della
variazione
Tra gruppi
In gruppi
Totale
SS
35671,09
19110,4
54781,49
gdl
15
64
79
MS
F
2378,073 7,964074
298,6
Valore di
significatività
1,05E-09
F crit
1,825587
Sig. < 0,05 altamente significativa
Test di Cochran,
Rn, p = 0,22118
Crit val 0,05
R 5,16 = 0,2419
varianze omogenee (anche se al limite)
Tra gruppi = Varianza tra le 16 aree, che comunque confonde due fonti di variabilità:
i) quella tra le aree che hanno subito uno stesso trattamento e
ii) quella tra le aree che hanno subito trattamenti diversi.
In gruppi = stima della varianza tra le osservazioni eseguite sui 5 quadrati di un'area.
Commento: esiste una differenza significativa tra il numero di alghe nelle 16 aree.
89
ANOVA 2. Si considera ora il campione formato da quattro gruppi (trattamenti), a = 4, ciascuno
contenente 20 quadrati, n = 20
100% 66% 33% 0%
0
23
0
46
0
17
5
44
0
0
8
41
6
56
0
29
2
46
0
11
0
0
0
65
0
79
0
55
0
32
0
61
0
51
0
74
0
22
0
55
0
5
43
0
0
0
8
5
0
0
69
0
4
0
29
0
1
0
39
6
0
0
40
30
0
56
63
82
0
3
0
70
13
0
71
27
0
41
5
83
media
1,3 21,55 19 39,2
varianza 10,12 630,7 660 823
Test di
Cochran,
Rn, p = 0,38752
Crit val 0,05 R 20,4 = 0,42991
varianze omogenee
ANALISI VARIANZA
Origine della
variazione
Tra gruppi
In gruppi
Totale
SS
14429,138
40352,35
54781,488
gdl
3
76
79
MS
F
4809,713 9,058658
530,952
Valore di
significatività
3,36E-05
F crit
2,724946
Sig. < 0,05 altamente significativa
Tra gruppi = Varianza dovuta alla possibile differenza tra i quattro trattamenti (ingloba la varianza
dei successivi raggruppamenti)
In gruppi = stima della varianza tra le aree che hanno subito lo stesso trattamento, che include anche la
varianza d'errore, cioè quella dovuta alle osservazioni ripetute su 5 quadrati.
Commento: esiste una differenza significativa tra il numero di alghe nelle aree soggette ai 4 trattamenti. Questa
conclusione sembrerebbe abbastanza plausibile vista la differenza che esiste tra la densità di alghe dove non sono
stati rimossi i ricci di mare (100%, media = 1,3) e quella dove sono stati completamette eliminati (0% = 39,2).
Andiamo ora a considerare il fatto che i trattamenti, ovvero la rimozione dei ricci di mare ed il
controllo (assenza di rimozione) sono stati eseguiti ciascuno su 4 aree diverse. Questo disegno
sperimentale è motivato dal fatto che se ci fosse un'unica area per trattamento, ci sarebbe rimasto il
dubbio che il risultato osservato potesse dipendere dalla particolari condizioni ambientali di
quell’area e non dal trattamento. In altre parole se l’area 2 dove non è stata eseguita la rimozione
dei ricci di mare (T4) fosse stata l’unica area ad aver subito quel particolare trattamento non
90
avremmo mai potuto sapere se l’assenza di alghe filamentose fosse dovuta ai ricci di mare (la nostra
ipotesi di ricerca che qui vogliamo testare) oppure a particolari condizioni (correnti marine,
nutrienti, illuminazione o altri predatori) che ne hanno impedito la proliferazione. Il fatto che
comunque esistono altre 3 aree sottoposte al medesimo trattamento, ci da un buon margine di
sicurezza, perché è abbastanza improbabile che nel selezionare a caso le aree destinate alla
rimozione dei ricci di mare si sia scelto sempre aree non idonee alla crescita algale, così come è
altrettanto improbabile che le aree dove sono stati completamente rimossi i ricci di mare coincidano
tutte con aree particolarmente idonee alla crescita algale. Avere più aree associate ad un unico
trattamento fa si che nella variabilità dovuta ai trattamenti ci sia inclusa anche la variabilità dovuta
alle diverse aree sottoposte al medesimo trattamento. La corretta analisi statistica che deve essere
quindi utilizzata per analizzare i dati di questo disegno sperimentale è una anova gerarchica, che
può essere ora svolta utilizzando le informazioni delle due anlisi monofattoriali della varianza.
Consideriamo, quindi, la variabilità tra gruppi risultante dalla prima analisi della varianza
(Anova 1) che include due fonti di variazione: quella tra le aree che hanno subito un dato
trattamento e quella tra i trattamenti. Sottraendo, pertanto, da questa variabilità quella dovuta alla
variabilità tra i trattamenti (cioè, quella risultante da SS tra gruppi di Anova 2), otteniamo una
nuova misura della variabilità esistente tra le aree che hanno subito un dato trattamento, scevra da
altre influenze, detta “SS tra sottogruppi dentro i gruppi” . In questo caso: 35671,088 - 14429,14
= 21241,95. I gradi di liberta, df, associati a questa nuova variabilità si ottengono da analoga
sottrazione, ovvero: 15 – 3 = 12. Otteniamo così la seguente tabella:
ANALISI VARIANZA
ANNIDATA
Origine della
variazione
Tra gruppi (tra trattamenti)
Tra sottogruppi dentro i gruppi
(tra le aree di un trattamento)
In gruppi (tra le misurazioni di un
area, quadrati)
Totale
SS
14429,14
21241,95
gdl
3
12
MS
4809,713
1770,163
19110,4
64
298,6
54781,49
79
F
2,717
5,928
Valore di
significatività
0,091
0,000
F crit
3,489
1,9065
Anova 2
Anova 1 - Anova 2
Anova 1
Conclusione: esiste una differenza significativa tra le aree che hanno subito lo stesso
trattamento, ma non fra trattamenti, ovvero la densità delle alghe filamentose marine non
dipende da quella dei ricci di mare, ma da altri fattori ambientali, che qui possiamo solo
ipotizzare, in quanto non abbiamo rilevato alcun parametro ambientale.
Se non avessimo usato questo modello statistico (nested ANOVA, mixed model) saremmo
arrivati ad una conclusione errata, ovvero che c'era un effetto sulla crescita algale dovuto alla
densità dei ricci di mare. Infatti, in assenza di sottogruppi, ovvero delle distinzione tra aree
sottoposte al medesimo trattamento. avremmo eseguito un F test utilizzando al denominatore la
varianza d'errore, cioè quella tra i quadrati da cui F = 9,058658; sig = 3,3624E-05 (vedi anova 2).
La differenza tra le densità di alghe marine osservata nelle diverse aree dipende invece da
particolari condizioni ambientali tra le aree
91
Con un software statistico dedicato, come SPSS, l’analisi sarebbe stata eseguita con un'unica procedura,
dopo aver ovviamente impostato il corretto disegno
SPSS Tests of Between-Subjects Effects
var BY treat patch
(var = numero di alghe; patch = aree)
/RANDOM = patch
/DESIGN = treat patch(treat).
Dependent Variable: ALGAE
Source
Type III SS
df
MS
F
Sig.
Intercept
Hypothesis
32845,51 1 32845,51
18,555083
0,001018
Error
21241,95 12 1770,1625a
TREAT
Hypothesis
14429,14 3 4809,713
2,7171022
0,091262
a
Error
21241,95 12 1770,1625
PATCH (TREAT)
Hypothesis
21241,95 12 1770,163
5,9282066
8,32E-07
b
Error
19110,4 64 298,6
a MS(TREAT * PATCH)
b MS(Error)
Per altri esempi vedere foglio excel “ex lesson 3”.
92
93

Documenti analoghi

Interpretazione del test F (distribuzione F di Fisher)

Interpretazione del test F (distribuzione F di Fisher) L’analisi della varianza è un metodo sviluppato da Fisher, che è fondamentale per l’interpretazione statistica di molti dati biologici ed è alla base di molti disegni sperimentali. L’analisi della ...

Dettagli