Analisi delle varianza ed applicazioni

Transcript

Analisi delle varianza ed applicazioni
ANALISI DELLE VARIANZA
ED APPLICAZIONI
L’analisi della varianza è un insieme di
modelli di analisi introdotti dal grande
statistico inglese Ronald Fisher in cui
la variazione totale presente in un insieme di
dati viene scomposta ed analizzata in diverse
componenti.
ognuna di queste quote di variazione specifica
viene valutata in reciprocamente in rapporto
allo specifico contributo alla variabilità totale.
|------------------------------------------------------------|
variazione totale
|--------------------------|-------------------|--------------|
variazione totale scomposta
Tra gruppi
Entro gruppi
Residua
Applicazioni
L’ANOVA
trova
maggiore
applicazione
in
presenza di dati sperimentali ovvero per valutare
in
maniera
esperimento
comparativa
condotto
gli
secondo
effetti
un
di
un
progetto
chiamato piano sperimentale, experimental design.
L’ANOVA risolve l’ipotesi di ricerca per cui:
la modifica introdotta dallo sperimentatore delle
condizioni di una variabile (variabile trattamento)
?
determina o meno
?
la modifica dei valori di una altra variabile
oggetto dello studio (variabile risposta) .
ovvero
“ valori diversi della variabile trattamento
hanno un effetto significativo non casuale
sulla variazione della variabile risposta ?”
Il
controllo
delle
condizioni
del
piano
sperimentale e la corretta applicazione del test
portano ai risultati valutativi dell’esperimento.
variabile risposta: oggetto dello studio, entità
misurata nei singoli casi che ci si aspetta vari in
funzione della variabile trattamento;
variabile trattamento: soggetto dello studio,
entità usata in dosi o qualità o fattori diversi che
agisce o meno sulla variabile risposta;
unità sperimentale: singola entità- individuoanimale – oggetto misurato, in cui viene effettuato
il trattamento e valutata la risposta-
Esempi
• Variabile risposta: colesterolemia
• Variabile trattamento: trattamento con tipo
A,B, C…di statine
• Unità sperimentale: individui singoli trattati
• Variabile risposta: aumento ponderale
giornaliero in animali zootecnici allevati
• Variabile trattamento: tipi diversi A, B, C, D…
di dieta specifica
• Unità sperimentale: singoli animali allevati
• Variabile risposta: numero batteri di
Streptococcus per unità di omogeneizzato
polmonare
• Variabile trattamento: tipo di antibiotico A (es.
amoxicillina) , B, C, D… + controllo
• Unità sperimentale: individui singoli trattati
Anche condizioni non gestite o direttamente
determinate dallo sperimentatore sono oggetto di
studio della analisi della varianza, avendo
riconosciuto le componenti dell’analisi e verificato
le assunzioni di applicabilità (vedi più avanti),
Esempi
• Variabile risposta: misura della funzionalità
polmonare (volumi residui)
• Variabile trattamento: essere fumatore, ex
fumatore, mai fumatore
• Unità sperimentale: individui singoli trattati
• Variabile risposta: qualità del sonno secondo il
PSQI (Pittsburgh Sleep Quality Index)
• Variabile trattamento: essere depressi, non
depressi, reduci di esperienza traumatica
• Unità sperimentale: individui singoli trattati
• Variabile risposta: peso alla nascita del
neonato
• Variabile trattamento: condizione socioeconomica A, B, C… della madre
• Unità sperimentale: singoli neonati pesati
l’analisi della varianza trova applicazione anche
nella valutazione di studi osservazionali ed
ecologici, anche applicati alle Scienze Naturali,
dove lo sperimentatore non ha introdotto
personalmente
variazioni
nella
variabile
trattamento ma ha riconosciuto e valutato
condizioni naturali “sperimentali” diverse che si
sono verificate nel tempo ed in natura, esempi:
• Variabile risposta: concentrazione di alga
tropicale infestante Caulerpa per m2
• Variabile trattamento: diversa esposizione alle
correnti marine
• Unità sperimentale: unità di area di siti costieri
diversamente esposti alle correnti
ecologia
• Variabile risposta: lunghezza del becco di una
specie di fringuello
• Variabile trattamento: ecotipi della specie
presenti in aree diverse (es. isole –vallate..)
• Unità sperimentale: singoli individui di
fringuello misurati
Zoologia-Genetica
• Variabile risposta: età al menarca delle
giovani femmine alla pubertà
• Variabile trattamento: coorti storiche di nascita
(1900-1910; 1940-1950; 1990-2000; …)
• Unità sperimentale: singole giovani femmine
alla pubertà per coorte storica di nascita
antropologia-demografia
Più specificatamente l’analisi della varianza è
usata per la stima dei parametri e la verifica
delle ipotesi sulle medie della popolazione
anche se si chiama analisi della
varianza
vengono valutate le medie degli effetti dei
trattamenti, attraverso la scomposizione in
varianza
L’ANOVA è inoltre considerata un modello di
studio lineare Y= a+ bX in quanto può essere
schematizzata da:
x= µ + τ+ e
ovvero i valori della variabile risposta x sono
definiti dai valori di una media generale µ (fissa)
più i valori di un trattamento τ (variabili)
considerando anche una componente residua-errore
e dovuta al caso.
MODELLI ANOVA del CORSO
1) analisi della varianza ad una via (anova
one way) che permette la valutazione di una
variabile trattamento sulla variabile risposta.
2) analisi della varianza con piano a blocchi
randomizzato permette di controllare-valutare
una seconda componente che può avere
influenza e fare variare la variabile risposta.
3) analisi della varianza a più vie
repliche
esperimento
con
delle misure (chiamata anche
fattoriale)
che
permette
di
valutare contemporaneamente più variabili di
trattamento sulla variabile risposta e la loro
rispettiva specifica interazione .
ANALISI DELLA VARIANZA AD UNA VIA
Il modello tipico di applicazione dell’analisi della
varianza ad una via è quello di un piano
sperimentale determinato degli effetti di una sola
variabile trattamento sulla variabile risposta
quando si vuole valutare l’ipotesi che tre o più
campioni - trattamenti – gruppi o livelli della
variabile trattamento danno luogo allo stesso
risultato o a risultati diversi.
Il test e analogo al test ipotesi di confronto tra 2
medie (media campione 1-media campione 2), ma
in questo caso i campioni- livelli della variabile
trattamento da confrontare sono più di 2
(media campione 1-2-3-4….).
Non è opportuno procedere con un test ipotesi di
confronto medie a 2 a due per più di 2 trattamenti
in quanto la probabilità di rifiutare l’ipotesi nulla
quando è vera (alfa - errore di prima specie)
aumenta con l’aumentare del numero dei gruppi.
-----------------------------------------------------------Es. effetto della dieta A, B, C, D ( 1 variabile
trattamento espressa in 4 campioni – livelli trattamenti) sulla variazione
di peso in unità
ponderali, Kg.(variabile risposta oggetto di studio)
-------------------------------------------------------------Variazione ponderale di 8 individui per 4 diete
id
1
2
3
4
5
6
7
8
dieta A
3
6
4
-2
2
3
4
5
dieta B
-6
-2
0
2
-1
-2
1
0
dieta C
0
1
-1
2
1
0
2
0
dieta D
6
12
9
7
5
8
9
7
Alle unità sperimentali (soggetti in valutazione)
vengono assegnati i trattamenti diversi
assolutamente a caso, ovvero seguendo piano
completamente randomizzato.
Riferendoci all’esempio intendiamo che le diete
non vengano assegnate seguendo un criterio di
scelta ( es. ai maschi A, alle femmine B, ai giovani
C, agli anziani D ecc) ma ogni dieta possa
potenzialmente essere somministrata ad ogni
possibile categoria.
Il modello * della ANOVA
Rappresentiamo i dati per l’analisi della varianza
ad una via in una tavola con k colonne e n righe
corrispondenti a n valori della variabile risposta X
suddivisi nei k trattamenti
3
X13
X23
X33
…
Xn3
……
……
……
……
…..
n
1
X11
X21
X31
…
Xn1
Trattamento
2
X12
X22
X32
…
Xn2
Totale
Media
T.1
X .1
T.2
X .2
T.3
X .3
T..
X ..
k
X1k
X2k
X3k
…
Xnk
N
T.k
X .k
T..
X .1
ove xij è il simbolo della i-esima osservazione del
j-esimo trattamento, i = 1,2,3…n j= 1,2,3…k;
N = il numero totale di osservazioni
Usiamo questa tabella di dati
per esprimere un modello
* Il modello è una rappresentazione simbolica di un
valore tipico di un insieme di dati e vengono usati
simboli e riferimenti per specificare le componenti e le
relazioni.
• sia µj il simbolo della media di ogni
trattamento –colonna
• sia µ il simbolo della media generale
di tutti i dati
• sia τ (tau) il simbolo dell’effetto trattamento
tale per cui
τj = µj – µ (il valore dell’effetto trattamento
è = alla media del trattamento – la media generale)
• sia e il simbolo della differenza tra il singolo
valore xij e la media µj del trattamento
(ovvero quanto il valore della singola unità
sperimentale si discosta dalla media del trattamento)
questo valore è definito errore, residuo, è ciò
che rimane (in più o in meno) alla variabile
risposta dopo il trattamento per effetto del caso
allora:
xij = µj + eij ma anche come eij = xij - µj
il valore della singola unità sperimentale xij
è = alla media del suo trattamento µj + il residuo eij
e quindi più in dettaglio
xij = µ + τj + eij
il valore della singola unità sperimentale xij
è dato dalla somma:
della media generale µ +
l’effetto trattamento τj +
il residuo individuale eij.
Questa è l’equazione che evidenzia il modello del
nostro studio per cui :
una qualunque osservazione del nostro insieme di
dati è scomponibile in una quota dovuta alla media
generale,
all’effetto
trattamento,
all’errore
residuo. La definizione di queste grandezze rende
possibile
la
misurazione
reciproca
degli
scostamenti (varianze) su cui si basa il calcolo
della statistica RV rapporto di varianze.
Es. Variazione ponderale di 8 individui per 4 diete
id
1
2
3
4
5
6
7
8
Tot
Media
dieta A dieta B dieta C dieta D
3
6
4
-2
2
3
4
5
25
3.125
-6
-2
0
2
-1
-2
1
0
-8
-1.000
0
1
-1
2
1
0
2
0
5
0.625
6
12
9
7
5
8
9
7
63
7.875
N=32
85
2.656
Il valore ad esempio dell’individuo 3 della dieta A
( X 3A) è dato da:
xij = µ + τj + eij
X 3A= media generale + effetto trattamentoA+ componente residua
µ
τj = µ j – µ
eij = xij - µj
X 3A = 2.656 + ( 3.125 – 2.656) + (4-3.125)
X 3A = 2.656 + 0.469 +0.875 = 4
La scomposizione degli effetti in media generale,
effetto trattamento, componente residua rende
possibile la il calcolo della statistica RV rapporto
di varianze.
Il
processo
inferenziale
che
riguarda
esclusivamente il numero k di trattamenti del
nostro studio prende il nome di modello ad effetti
fissi.
Assunzioni
Le assunzioni del modello ad effetti fissi, che
devono essere rispettate o almeno considerate nella
applicazioni della ANOVA sono le seguenti:
• I dati provengono da k campioni casuali
indipendenti, non vi sono sovrapposizioni;
• Le popolazioni di dati da cui i campioni sono
estratti è distribuita normalmente;
• Le popolazioni dei trattamenti hanno
medesima varianza, varianza omogenea.
( ricorda ” INE” : indipendent, normal, equal variance)
Inoltre come conseguenze del modello:
• Gli effetti dei trattamenti danno somma
algebrica = 0 attorno alla media generale
• Gli errori e hanno media = 0, varianza = a
quella dei dati X xij e distribuzione normale
Ipotesi
Le ipotesi nulla H0 e quella alternativa HA
sono così formalizzate:
H0: µ1= µ2= µ3=….. µk i k trattamenti danno la
stessa risposta
HA: non tutte le µk sono uguali, almeno un
trattamento da una risposta media diversa
Test
Il test statistico è rappresentato da un rapporto di
varianze R.V. calcolate dai dati campionari:
varianza tra gruppi - MSA
_______________________________ diviso
varianza entro i gruppi -MSW
la statistica test rapporto di varianze MSA/MSW
segue una distribuzione F quando H0 è vera e le
assunzioni sono rispettate.
La regola di decisione per accettare o rifiutare le
ipotesi sfrutta un valore di F critico definito da:
• livello di significatività alfa (α solitamente = 0.05,
1- α = 0.95)
• gradi di libertà gdl del numeratore (media
quadratica tra i gruppi –MSA)
• gradi di libertà gdl del denominatore (media
quadratica entro i gruppi -MSW).
Ad esempio: per alfa 0.05, 3 gdl al numeratore e 21 gdl al denominatore
F critico = 3.07; --- per alfa 0.05, 2 gdl al numeratore e 15 gdl al
denominatore F critico = 3.68 (vedi tavola distribuzione)
Valori di F maggiori di F critico portano a
rifiutare H0 (e rispettivamente accettare HA)
mentre valori di F inferiori di F critico ne
determinano l’accettazione (e rispettivamente il
rifiuto di HA).
Calcolo del test
I passaggi per determinare il RV della statistica test
si basano sul calcolo della somma degli
scostamenti al quadrato delle osservazioni dalla
loro media, o somma dei quadrati SS,
SST = somma totale dei quadrati,
SSW = somma dei quadrati entro i gruppi
SSA= somma dei quadrati tra i gruppi
Da cui si ricavano le varianze MS…
( somma quadratica media)
MSW ( varianza entro i gruppi ) = SSW/(N-k)
MSA ( varianza tra i gruppi ) = SSA/( k-1)
Che permettono di esprimere il rapporto di
varianze R.V. MSA/MSV che rappresenta la
Statistica Test.
Calcolo di
SST = somma totale dei quadrati
∑
k
J =1
∑ ( xij- x .. )2
nj
i =1
Ovvero la sommatoria al quadrato degli scarti di
tutti i singoli valori dalla media generale, che per
semplificazione si può calcolare come segue
∑
∑ xij2 – (T2../N)
nj
k
J =1
i =1
Ovvero la sommatoria di tutti i singoli valori xij
(osservazione della riga i e colonna j) al quadrato
meno la somma totale generale delle osservazioni
al
quadrato
osservazioni
diviso
il
numero
totale
delle
Es. Variazione ponderale di 8 individui per 4 diete
id
dieta A dieta B dieta C dieta D
1
2
3
4
5
6
7
8
Tot
Media
3
6
4
-2
2
3
4
5
25
3.125
-6
-2
0
2
-1
-2
1
0
-8
-1.000
k
0
1
-1
2
1
0
2
0
5
0.625
nj
2
6
12
9
7
5
8
9
7
63
7.875
N=32
85
2.656
2
SST = ∑J =1 ∑i=1 xij – (T ../N)
2
calcolo xij
id dieta A dieta dieta dieta
B
C
D
1
9
36
0
36
2 36
4
1
144
3 16
0
1
81
4
5
6
4
4
9
4
1
4
4
1
0
49
25
64
7
8
16
25
1
0
4
0
81
49
T2../N =
(85)2/32
T2../N =225.781
2
Somma xij = 709
SST= 709 – 225.781= 483.218
Calcolo di
SSA= somma dei quadrati tra i gruppi
∑
k
J =1
( x .j - x ..)2
Ovvero la sommatoria al quadrato degli scarti di
tutti i valori delle medie dei gruppi-trattamenticolonne
dalla
media
generale,
che
per
semplificazione si può calcolare come segue
∑
k
J =1
(T.j2/nj) – (T2../N)
Ovvero la sommatoria dei totali di trattamento
(colonna) diviso per i rispettivi numeri di
osservazioni (nj) meno la somma totale generale
delle osservazioni al quadrato diviso il numero
totale delle osservazioni
SSA divisa per i rispettivi gradi di libertà gdl (k-1)
determina la media quadratica MSA;
k = anumero di gruppi-trattamenti-colonne.
MSA( varianza tra i gruppi ) = SSA/( k-1)
Es. Variazione ponderale di 8 individui per 4 diete
id
1
2
3
4
5
6
7
8
Tot
Media
dieta A dieta B dieta C dieta D
3
6
4
-2
2
3
4
5
25
3.125
SSA=
-6
-2
0
2
-1
-2
1
0
-8
-1.000
∑
k
J =1
0
1
-1
2
1
0
2
0
5
0.625
6
12
9
7
5
8
9
7
63
7.875
N=32
85
2.656
(T.j2/nj) – (T2../N)
SSA= (252/8 +-82/8 +52/8 +632/8) -852/32
SSA= 78.125 + 8 + 3.125 + 496.125 – 225.781=
SSA= 359.594 da cui
MSA = SSA / gdl (k-1)
k= numero trattamenti-diete-gruppi-colonne= 4, k-1= 3
MSA = 359.594/3 = 119.865
Calcolo di
SSW = somma dei quadrati entro i gruppi-
∑
k
J =1
nj
∑
i =1
( xij- x .j )2
Ovvero la sommatoria al quadrato degli scarti di
tutti i singoli valori dalla media del proprio
gruppo-trattamento-dieta- colonna.
Per semplificazione si ottiene per differenza da
SST e SSA.
SSW= SST- SSA
SSW divisa per i rispettivi gradi di libertà gdl
(N –k) determina la media quadratica MSW
N= numero totale osservazioni
k= numero gruppi-trattamenti-colonne
MSW ( varianza entro i gruppi ) = SSW/(N-k)
--------------------------------------------------------------
Es. Variazione ponderale di 8 individui per 4 diete
id
1
2
3
4
5
6
7
8
Tot
Media
dieta A dieta B dieta C dieta D
3
6
4
-2
2
3
4
5
25
3.125
-6
-2
0
2
-1
-2
1
0
-8
-1.000
0
1
-1
2
1
0
2
0
5
0.625
6
12
9
7
5
8
9
7
63
7.875
N=32
85
2.656
SST= 483.218
SSA= 359.594
SSW= SST- SSA =
483.218 -359.594
= 123.624
Da cui
MSW ( varianza entro i gruppi ) = SSW/(N-k)
N= 32,
k= 4
MSW = 123.624 / ( 32-4) = 4.415
Avendo calcolato le varianza tra gruppi MSA e la
varianza entro gruppi MSW si procede al calcolo
del Rapporto di varianze R.V. Statistica Test
MSA / MSW
che nell’esempio delle 4 diete A B C D x 8
individui è rappresentato da
MSA = 119.865
MSW = 4.415
Rapporto Varianze
R.V. = 119.865 / 4.415 = 27.148
Il valore calcolato viene confrontato con il valore
di F critico per:
alfa= 0.05,
n= gdl del numeratore= gdl (k-1)= 4-1=3
m = gdl del denominatore = (N-k)= 32-4=28
F critico = 2.946
F calcolato > F critico
quindi il test è significativo ovvero accetto HA
per cui non tutte le diete sono uguali, almeno una
dieta da una risposta media diversa.
Tavola riassuntiva per l’analisi della varianza
Fonte di
variazione
Tra i
gruppitrattamenti
Entro i
gruppitrattamenti
Somma dei Gradi di Media quadratica
quadrati
libertà
gdl
SSA
k-1
MSA=SSA/(k-1)
SSW
N-k
MSW=SSW/(n-k)
SST
N-1
Rapporto di
varianze
R.V.
R.V. =
MSA/MSW
Totale
In Excel vedi esempi della struttura dei dati nei
files, ed usare il comando:
Analisi dati Analisi della varianza ad un fattore
Nell’esempio specifico delle 4 diete per 8
individui:
ANALISI VARIANZA
Origine della variazione
SQ
gdl
Tra gruppi
359.593 3
In gruppi
123.625 28
Totale
483.218
MQ
119.864
4.415
F
Valore di significatività
27.148
1.95E-08
31
Somma quadrati
Gradi di libertà
Varianze – scarto quadratico medio
Statistica test
F critico
F crit
2.946
ANALISI VARIANZA CON PIANO DEGLI
ESPERIMENTI A BLOCCHI COMPLETAMENTE
RANDOMIZZATO
(ANALISI A DUE VIE SENZA RIPETIZIONI)
Con
il
piano
degli
esperimenti
a
blocchi
completamente randomizzato è possibile utilizzare
un piano sperimentale che permette di controllare
a priori una fonte di variabilità che può agire
sulla variabile risposta e confondere i risultati della
variabile trattamento.
Il piano degli esperimenti a blocchi completamente
randomizzato è un piano in cui le unità
sperimentali alle quali i trattamenti sono applicati
sono suddivise in gruppi omogenei chiamati
blocchi.
I trattamenti vengono poi assegnati a caso alle
unità sperimentali all’interno di ogni blocco, ogni
trattamento è presente in ogni blocco ed ogni
blocco contiene tutti i trattamenti, il numero delle
unità sperimentali in un blocco è predisposto in
modo da essere uguale al numero dei trattamenti in
studio (o ad un suo multiplo).
Concretamente questo si semplifica in una tabella
con k trattamenti-colonne (una colonna per
trattamento) e n blocchi (una riga per ogni blocco
nel modello senza repliche).
Tratt. 1
Blocco 1
Osservazione
Tratt. 2 Tratt. 3 Tratt.k
……. …….
…….
B 1 T1
Blocco 2
…….
……. …….
…….
Blocco 3
…….
……. …….
…….
Blocco n
…….
……. …….
Osservazione
BnTk
L’obiettivo del piano degli esperimenti a blocchi
completamente randomizzato è quello di isolare e
controllare la quota di variazione attribuibile
alla componente blocchi garantendo che nelle
medie dei trattamenti non è presente alcun effetto
dovuto ai blocchi.
I blocchi devono essere omogenei e se sono ben
formati la variazione residua del modello (errore
quadratico medio) viene ridotto, e quindi il R.V.
aumenta ed è più facile rifiutare l’ipotesi nulla H0.
Qualche esempio di blocchi:
• Negli esperimenti su animali le sottospecie e le
razze possono rispondere in maniera diversa allo
stesso trattamento immettendo una quota di
variabilità aggiuntiva alla variazione totale; è
possibile formare dei blocchi di appartenenza
alla stessa razza e su questi valutare i trattamenti.
•
La componente familiare potrebbe influire
sulla var risposta per lo stesso trattamento e
quindi i blocchi potrebbero essere formati dai
cuccioli della stessa figliata, in tal caso un animale
per cucciolata riceverebbe un trattamento diverso;
• In analisi osservazionali le aree geografiche
diverse (con diverse componenti ambientali o
di fattori di rischio capaci influenzare la var
trattamento) possono essere considerate come
blocchi diversi in cui effettuare e valutate gli
stessi trattamenti;
• L’età diversa delle unità sperimentali può
essere un fattore capace di influenzare i
risultati di una variabile trattamento per
soggetti umani come per animali, la classe
d’età può rappresentare un blocco di unità
sperimentali in cui effettuare e valutate gli
stessi trattamenti;
• Anche
laboratori
differenti
possono
rappresentare blocchi diversi in cui effettuare
gli stessi esperimenti, in modo tale che ogni in
laboratorio (blocco) si effettuino tutte le
sperimentazioni-analisi (trattamenti) e si possa
isolare la componente dovuta al laboratorio
(blocco ) e quella del trattamento;
Una verifica di ipotesi rivolta agli effetti dei
blocchi non viene generalmente fatta sotto
l’assunzione del modello ad effetti fissi perché
l’interesse primario è quello di valutare l’effetto del
trattamento
I blocchi sono introdotti solo per eliminare una
fonte di variabilità estranea e di confondimento.
I blocchi inoltre sono programmati ed ottenuti in
modo non casuale.
Rispetto alla analisi della varianza ad una via la
rappresentazione dei dati in tabella tiene conto
anche numero dei blocchi (righe), del totale e
delle medie dei blocchi
Analisi della varianza a blocchi randomizzati
Trattamenti
Blocchi
1
1
X11
X21
2
X12
3
X13
X22
X23
……
……
Totale
k
X1k
Media
blocchi
T1.
X 1.
X2k
T2.
X 2.
2
……
X31
X32
X33
X3k
T3.
X 3.
3
……
……
……
……
Xn1
Xn2
Xn3
n
……
……
……
……
……
Xnk
Tn.
X n.
T.k
T..
_
….
Totale
T.1
T.2
T.3
…
Media
trattamenti
X .1
X .2
X .3
….
X .k
X ..
Si configura come una analisi della varianza a due
vie senza repliche perché una osservazione viene
classificata secondo due criteri, il blocco ed il
trattamento.
Il modello è rappresentato da
xij = µ +βi+ τj + eij
xij è il simbolo della i-esima osservazione del
j-esimo trattamento,
ove i = 1,2,3…n
e j= 1,2,3…k;
numero totale di osservazioni
N = il
µ il simbolo della media generale
τ j (tau) il simbolo dell’effetto trattamento
(colonna)
βi il simbolo dell’effetto blocco (riga)
eij la componente residua che rimane
eliminata quella dovuto ai blocchi ed ai
trattamenti
Assunzioni
Per le assunzioni valgono quelle dell’analisi della
varianza ad un fattore (vedi prima) a cui si
aggiunge la condizione per cui gli effetti dei
trattamenti e dei blocchi devono essere solo
additivi ovvero senza interazioni, ovvero una
particolare combinazione blocco-trattamento
(es. trattamento 1 -blocco 1 o trattamento 3-blocco 2)
non produce una distorsione con un effetto
maggiore o minore della somma dei singoli effetti
di trattamento e blocco.
Ipotesi
H0: τ1= τ2= τ3=…. τk=0
sono uguali e nulli
gli effetti del trattamento
HA: non tutti le τ j sono uguali, almeno un
trattamento da una risposta media diversa
Calcolo del test
Il calcolo della statistica viene effettuato in questa
sede solo mediante l’ausilio del calcolatore e
pacchetti statistici excel, R o Stata, non vengono
effettuati calcoli manuali.
I passaggi per determinare il RV della statistica test
si basano, come per l’analisi della varianza ad una
via sul calcolo della somma degli scostamenti al
quadrato delle osservazioni dalla loro media, o
somma dei quadrati SS.
Viene qui introdotta una nuova fonte di variabilità
controllata, quella dei blocchi, tale per cui
SST= SSBl + SSTr + SSE
SST= SSBl + SSTr + SSE
Ovvero la somma totale degli scarti dalla media
può essere scomposta in tre componenti, una
dovuta ai blocchi (SSBl) una dovuta ai trattamenti
(SSTr) ed una dovuta alla variazione residuaerrore (SSE).
Queste entità vengono espresse
come varianze o media quadratica degli scarti.
MSTr varianza dovuta a i trattamenti
MSBl
varianza dovuta ai blocchi
MSE
varianza residua errore
rispetto ai rispetto ai gradi di libertà loro specifici.
Il test
è dato dal rapporto di varianze R.V. tra la varianza
trattamenti e la varianza residua
ovvero MSTr / MSE.
E’ inoltre possibile considerare l’effetto dei
blocchi sul modello totale come MSBl / MSE
-------------------------------------------------------------------------------------------------------
questo modello di analisi della varianza quindi sottrae la quota di
variazione dovuta ai blocchi e permette di valutare l’azione dei
trattamenti con maggiore specificità e sensibilità
-------------------------------------------------------------------------------------------------------
Tavola riassuntiva per l’ANOVA a blocchi
Fonte di
variazione
Somma dei Gradi di
quadrati
libertà
gdl
Media
quadratica
Rapporto di
varianze R.V.
R.V. =
MSTr/MSE
Trattamenti
-colonne-
SSTr
k-1
MSTr =
SSTr/(k-1)
Blocchi
-righe-
SSBl
n-1
MSBl=
SSBl/(n-k)
Residuo
-errore-
SSE
(n-1)*(k-1)
MSE=
SSE/(n-1)*( k-1)
Totale
SST
kn-1
la statistica test R.V. segue una distribuzione F
quando H0 è vera e le assunzioni sono rispettate.
La regola di decisione per accettare o rifiutare le
ipotesi sfrutta un valore di F critico definito da:
• livello di significatività alfa (α solitamente =
0.05, 1- α = 0.95)
• gradi di libertà gdl del numeratore (media
quadratica trattamenti- MSTr = k-1)
• gradi di libertà gdl del denominatore (media
quadratica residua - MSE = (n-1)*(n-k))
Ad esempio per alfa 0.05, 3 gdl al numeratore e 21 gdl al
denominatore F critico = 3.07;
per alfa 0.05, 2 gdl al numeratore e 15 gdl al
denominatore F critico = 3.68 (vedi tavola
distribuzione)
Valori di F maggiori di F critico portano a
rifiutare H0 (e rispettivamente accettare HA)
Valori di F inferiori di F critico ne determinano
l’accettazione (e rispettivamente il rifiuto di HA).
In excel vedi esempi della struttura dei dati nei
files, ed usare il comando:
Analisi dati Analisi della varianza a due fattori
senza replica, includere o meno le etichette di riga
e colona e specificare nella dialog box
Esempio esercizio anova2-4.xls
var risposta= tempo in minuti di coagulazione del sangue
var trattamento= quattro farmaci diversi (colonne)
blocchi= singoli individui che hanno fornito il campione di sangue (righe)
unità sperimentale= singole misurazioni per ogni individuo e trattamento (celle)
Soggetto
A
B
C
D
E
F
G
H
I
J
Farmaco
W
X
Y
Z
1.5
1.4
1.8
1.3
2
1.1
1.5
1.5
1.2
1.5
1.8
1.4
1.6
1.2
2.1
1
1.6
1.5
1
1.6
1.7
1.3
1.5
1.2
2.2
1
1.5
1.5
1.3
1.6
1.9
1.5
1.9
1.4
2.3
1.2
1.7
1.7
1.5
1.9
Analisi della Varianza ad una via senza blocchi
Origine della variazione SQ gdl MQ
Tra gruppi
0.363 3 0.121
In gruppi
3.568 36 0.099
Totale
F
Valore di significatività F crit
1.220
0.316
2.866
3.931 39
F calcolato < di F critico non rifiuto Ho,
risultato non significativo.
Analisi della Varianza ad una via con blocchi
randomizzati
Origine della variazione
Blocchi- righe
Trattamenti -Colonne
Residuo-Errore
Totale
SQ
3.341
0.363
0.227
gdl
9
3
27
MQ
F
0.371 44.154
0.121 14.392
0.008
Valore di significatività F crit
7.55E-14
2.250
8.57E-06
2.960
3.931 39
F calcolato > di F critico rifiuto Ho,
risultato significativo.
Controllando la quota di variabilità dovuta a
soggetti diversi il test risulta significativo, ovvero i
farmaci determinano tempi medi diversi di
coagulazione del sangue.
L’ESPERIMENTO FATTORIALE: ANALISI DELLA
VARIANZA A DUE VIE CON REPLICHE
Nella
pratica
della
sperimentazione
capita
frequentemente di essere interessati allo studio
dell’effetto simultaneo di due o più variabili
(variabili trattamento - fattori) su una variabile
oggetto del nostro studio (variabile risposta).
Un esperimento che coinvolge appunto gli effetti di
due o più variabili-fattori simultaneamente prende
il nome di esperimento fattoriale che permette non
solo lo studio dei livelli dei fattori-variabili presi in
maniera individuale, ma anche l’interazione dei
fattori presi simultaneamente e nelle diverse
combinazioni.
Nella pratica sperimentale, come nelle analisi
osservazionali, la presenza di interazioni tra fattori
può condizionare i dati in una molteplicità di modi
a seconda della natura della interazione.
Ad esempio nello studio sugli effetti di un farmaco
(var risposta)
il dosaggio del farmaco
(primo fattore - var trattamento) e
l’età dei pazienti
(secondo fattore - var trattamento)
possono non solo agire individualmente ma anche
nelle diverse combinazioni simultaneamente
( es. dosaggio basso-età giovane, dosaggio medio
età-anziana, dosaggio elevato età giovane ecc….) .
L’esperimento
fattoriale
permette
quindi
di
valutare l’interazione tra i fattori, di risparmiare
tempo ed energia, e di avere un maggior spazio
applicativo nei confronti delle situazioni reali.
I dati possono
essere rappresentati in forma
tabellare con i livelli del fattore A in colonne e
quelli del fattore B in righe con n osservazioni
(repliche ) per ogni combinazione di livelli.
Esempio esercizio anova2-2RR.xls
punteggi sulla maturità emotiva di 27 giovani
maschi classificati secondo l’età ed uso di
marijuana con repliche :
Fattore A ( uso di marijuana)
FATTORE B
(Età)
Mai Occasionalmente Giornalmente
25
18
17
15-19
28
23
24
22
19
19
28
16
18
20-24
32
24
22
30
20
20
25
14
10
25-29
35
16
8
30
15
12
Per ognuno dei livelli dei fattori A e B (variabili
trattamento)
si
viene
a
determinare
una
combinazione AB con n unità sperimentalirepliche
Nell’esempio sopra riportato tre livelli del fattore
A, tre livelli del fattore B, 9 combinazioni diverse
AB ognuna con n= 3 unità sperimentali –repliche)
che rappresentano un trattamento AB diverso.
In questo tipo di sperimento con valutazione delle
interazioni
sono
necessarie
almeno
due
ogni
cella
osservazioni-repliche
per
combinazione
mentre
completamente
dei
fattori,
randomizzato
a
in
quello
blocchi
sufficiente una osservazione per ogni cella.
è
In questo tipo di sperimento con valutazione delle
interazioni
sono
necessarie almeno
due
osservazioni-repliche per ogni cella combinazione
dei fattori, mentre in quello completamente
randomizzato a blocchi è sufficiente una
osservazione per ogni cella.
Il modello è rappresentato da
xijk = µ +αi+ βj + αβij + eijk
Dove xijk è la generica osservazione,
µ il simbolo della media generale,
αi l’effetto del fattore A,
β βj l’effetto del fattore B,
αβij rappresenta l’effetto della interazione tra A e
B, ei jk rappresenta l’errore sperimentale residuo
Assunzioni:
le osservazioni in ognuna delle ab celle costituisce
un campione casuale indipendente, tutte le ab
popolazioni sono distribuite normalmente ed hanno
la medesima varianza. ( INE)
Le ipotesi:
Il modello consente di valutare le seguenti ipotesi:
H0 α : α1 = α 2= … α i = 0 gli effetti del trattamento
A colonna sono uguali e nulli;
HA α: non tutti gli α i = 0
------------------------------------------------H0 β : β1= β 2…. βj = 0 gli effetti del trattamento
B riga sono uguali e nulli;
HA β: non tutti gli βj = 0
--------------------------------------------------H0 α β : α1 β1= α1 β 2… = α β ij = 0 gli effetti della
interazione AB sono uguali e nulli;
HA α β: non tutti gli α β ij = 0
Test
Il test per ognuna delle ipotesi è il R.V. ove al
numeratore viene posto lo scarto quadratico medio
del trattamento A, di quello B, o della interazione
AB, ed al denominatore lo scarto quadratico medio
dell’errore residuo.
La statistica test R.V. segue una distribuzione F
quando H0 è vera e le assunzioni sono rispettate.
Calcolo della statistica test
Analogamente a quanto fatto per precedenti piani
sperimentali dell’analisi della varianza si può
dimostrare che la somma totale dei quadrati degli
scarti della media si può scomporre
nelle sue
componenti:
SST= SSA+SSB+SSAB + SSE
Ovvero la somma totale dei quadrati è uguale alla
somma di quella del trattamento A del trattamento
B della interazione AB e di quella dell’errore
residuo.
Il calcolo delle singole componenti si attua
mediante formule semplificate (vedi Daniel) che
non vengono qui trattate i quanto questo piano
viene da noi esplorato solo mediante pacchetti
statistici di analisi Excel, R, STATA.
------------------------------------------------------------------------------------------------------Tavola riassuntiva per l’analisi della varianza a blocchi
Fonte di
variazione
Somma dei
quadrati
Gradi di
libertà
gdl
Media
quadratica
Trattamento A
-colonneTrattamento B
-righe-
SSA
a-1
MSA = SSA/(a-1)
R.V. =
MSA/MSE
SSB
b-1
MSB=SSB/(b-1)
R.V. =
MSB/MSE
SSAB
(a-1)*(b-1)
Interazione
AB
MSAB=
SSAB/ (a-1)*(b-1)
Residuo
-errore-
SSE
ab*(n-1)
Totale
SST
abn-1
Rapporto di
varianze R.V.
R.V. =
MSAB/MSE
MSE=
SSE/ ab(n-1)
Decisione statistica
La regola di decisione per accettare o rifiutare le
ipotesi sfrutta un valore di F critico definito da:
• livello di significatività alfa (α solitamente =
0.05, 1- α = 0.95)
• gradi di libertà gdl del numeratore
• gradi di libertà gdl del denominatore
Valori di F maggiori di F critico portano a
rifiutare H0 (e rispettivamente accettare HA)
mentre valori di F inferiori di F critico ne
determinano l’accettazione (e rispettivamente il
rifiuto di HA).
Nel caso in cui l’ipotesi H0 di nessuna
interazione
AB
viene
rifiutata
possiamo
concludere che i due fattori A e B interagiscono.
In questo caso l’interesse nei confronti dei fattori
A e B singoli viene subordinata agli effetti delle
interazioni.
Il numero delle osservazioni in ogni cella può non
essere uguale e ciò comporta un diverso numero
dei gradi di libertà per i rispettivi trattamenti e d
interazioni.
Vedi esercizio anova2-2RR.xls
Comando Excel strumenti analisi dati analisi
varianza: a due fattori con replica
includere o meno le etichette di riga e colona e
specificare nella dialog box
Origine della variazione
SQ
Età
Uso di marijuana
Interazione età-uso
residua
116.666
716.666
183.333
166
Totale
gdl
MQ
F
Valore di significativitàF crit
2 58.333 6.325
2 358.33338.855
4 45.833 4.969
18 9.222
0.008
2.94E-07
0.007
3.554
3.554
2.927
1182.667 26
Il risultato del test indica valori significativi
(F calcolato > F critico)
per il fattore età,
quello dell’uso di marijuana
ed anche per la interazione dei due fattori.
Rifiuto le ipotesi H0
L’uso
l’uso di marijuana agisce sulla maturità
emotiva in maniera sinergica con l’età.
L’interesse nei confronti dei fattori età dell’uso di
marijuana viene subordinata agli effetti della
interazione reciproca.