6. La distribuzione F e l`analisi della varianza

Transcript

6. La distribuzione F e l`analisi della varianza
6. La distribuzione F e l’analisi della varianza
6. 1. La distribuzione F
6. 1. 1. Una definizione della statistica F
Per definire la statistica F occorre ritornare al concetto di distribuzione campionaria presentato nel Cap. 3.
Consideriamo una popolazione normalmente distribuita con parametri  e . Scegliamo due numeri interi n1 e n2.
Estraiamo ora due campioni indipendenti di dimensione n1 e n2 (successivamente, e con reimmissione dopo la
formazione del primo), e calcoliamo le corrispondenti varianze s 2 1 e
si dice che le due stime s 2 1 e
calcoliamo il rapporto:
s 2 2 . A causa dell’indipendenza dei due campioni
s 2 2 della varianza parametrica  2 sono indipendenti. Di queste due varianze
F
s 21
s22
(6.1)
Trattandosi di due stime di una medesima varianza è ragionevole pensare che questo rapporto sia vicino ad 1.
Dopo aver reintrodotto gli elementi estratti nella popolazione, procediamo all’estrazione di due nuovi campioni, sempre
2
di dimensione n1 e n2, e calcoliamone ancora le varianze s 2 1 e s 2 . Ancora una volta calcoliamo il rapporto F delle
due varianze. Ripetiamo ancora indefinitamente questa operazione.
Otterremo per questa via una distribuzione di valori della statistica F. L’equazione di questa distribuzione è nota ed è
alla base di tutte le tecniche statistiche che presenteremo in questo capitolo.
Prima di parlare di questa distribuzione è tuttavia importante fare una piccola generalizzazione della definizione data
sopra. Si è fin qui parlato di una popolazione normalmente distribuita con parametri  e ; in realtà questa condizione è
un po’ più restrittiva del necessario: in realtà il campionamento può avvenire anche da due differenti popolazioni,
sempre distribuite normalmente, con medie 1 e 2 differenti ma con la stessa varianza .
La condizione di omogeneità delle varianze è nota col termine di omoschedasticità.
In sintesi, la statistica F è il rapporto di due stime indipendenti della comune varianza di due popolazioni normalmente
distribuite e omoschedastiche.
Sulle tre assunzioni di indipendenza, normalità e omoschedasticità dovremo tornare a discutere a lungo in § 7. 5.,
perché in difetto di una o più di esse tutte le tecniche che descriveremo perdono (o rischiano di perdere) il loro valore.
6. 1. 2. La distribuzione della statistica F
2
La statistica F è calcolata sulla base di due varianze campionarie s 2 1 e s 2 ; i corrispondenti campioni hanno nella
generalità dei casi dimensione n1 e n2 differenti; quindi i gradi di libertà delle due varianze, definiti in § 3. 2. 3. dalla
(3.11), sono in genere due numeri 1 e 2 differenti.
Questi due numeri determinano l’equazione della distribuzione F, che dunque, come la distribuzione t, non ha una sola
curva di distribuzione ma infinite. Anzi, nel caso della distribuzione t avevamo solo un numero ad esprimere i gradi di
libertà della statistica, mentre in questo caso abbiamo sia i gradi di libertà 1 del numeratore che i gradi di libertà 2 del
denominatore.
L’equazione della curva di distribuzione della statistica F è ancora più complicata di quella del t; anche in questo caso
ne diamo una versione semplificata, al solo scopo di rendersi conto della dipendenza dai valori di 1 e 2:
(  2) 2
F 1
f  Y0 
(6.2)
(1  2 ) 2
 1 
1 
F 
 2 
dove
Y0 rappresenta una costante che dipende anch’essa da 1 e 2.
Come per la distribuzione t i gradi di libertà della statistica F sono posti a pedice fra parentesi quadre:
F[
1 , 2
] . Il
primo numero rappresenta per convenzione i gradi di libertà della varianza a numeratore mentre il secondo i gradi di
libertà della varianza a denominatore.
Fig. 6.1 rappresenta diverse curve di distribuzione della variabile F : F[1,1] , F[1, 2 ] , F[1,3] , F[1, 4 ] e F[1,5] . Come si
vede bene dalla figura, a differenza della distribuzione normale e della distribuzione del t, la curva di distribuzione della
statistica F è asimmetrica: nella sua forma più tipica presenta una gobba posta asimmetricamente a sinistra. A destra
presenta un andamento asintotico (si abbassa indefinitamente sull’asse delle ascisse) mentre a destra no.
Questo non è strano se si pensa che la statistica F è un rapporto di due varianze, e quindi è comunque una quantità
positiva: non esistono valori negativi della statistica F.
Fig. 6.1
Come per tutte le curve di distribuzione le aree sotto la curva di distribuzione della statistica F rappresentano delle
probabilità; precisamente: l’area sotto la curva di distribuzione compresa fra due valori a e b rappresenta la probabilità
di ottenere campionando a caso in una popolazione (o in due popolazioni omoschedastiche) un valore di F compreso fra
a e b.
6. 1. 3. Le tavole della distribuzione F a una coda
Anche per la statistica F l’Appendice fornisce l’opportuna tavola dei valori critici. Essendo più frequente l’uso di test a
una coda (per motivi chiariti in § 6. 3. 3.) è più comodo avere tabulati i valori critici appunto ad una coda.
Il fatto di avere due numeri 1 e 2 per i gradi di libertà della statistica, impone di organizzarne i valori critici di F in
righe e colonne. Le colonne sono intestate con i differenti valori dei gradi di libertà 1 del numeratore. Le righe sono
invece intestate con il valore 2 dei gradi di libertà del denominatore.
Ogni colonna è sdoppiata, per raccogliere i valori critici corrispondenti ai gradi di libertà 1 e 2 a livello 0.05 e 0.01.
Non sono riportati i valori critici a livello 0.001.
I valori critici sono quelli che delimitano in ascissa la coda di destra con area pari al livello di significatività  scelto.
Fig. 6.2
Fig. 6.2 aiuterà a comprendere come funziona la Tavola 4. Si tratta della curva di distribuzione F con 6 e 28 gradi di
libertà. Il livello di significatività scelto è 0.05, corrispondente ad una area sotto la coda di destra pari al 5% dell’area
totale, che come in tutte le curve di distribuzione vale 1. Il valore critico che delimita questa coda si scrive F0.05[6, 28] ,
e vale 2.44. Questo valore si trova in colonna 6, riga 28, prima sottocolonna, corrispondente ad =0.05.
Analogamente F0.01[1, 40] vale 7.31, ed equivale al valore di ascissa che delimita la coda di destra con area 0.01 (1%
dell’area totale).
Anche per la statistica F valgono le convenzioni simboliche per la significatività fissate per la statistica t: sono
rappresentate visivamente in Fig. 6.3 (ancora con la distribuzione a 6 e 28 gradi di libertà).
Fig. 6.3
Anche il simbolismo per la significatività della statistica F è conforme a quanto stabilito in generale in § 4. 2. 4.
Rimangono due problemi aperti.
Come comportarsi nel caso di valori di 1 e 2 mancanti sulla Tavola 4? Diciamo che per quanto riguarda 1 la Tavola
4 riporta tutti i valori da 1 fino a 6; questo significa, come vedremo in § 6. 3. 3. formula (6.7), essere coperti per
statistiche che riguardino fino a 7 gruppi diversi di dati trattati contemporaneamente; ce n’è in abbondanza per
qualunque sperimentazione scolastica. Ma, se proprio non dovesse bastare, ci si può comportare analogamente a quanto
suggerito appresso per valori mancanti di 2: se il calcolo è fatto al computer con apposito software il problema non si
pone; in un calcolo manuale occorrerebbe una procedura denominata interpolazione armonica che calcola in modo
approssimato il valore di 2 mancante sulla base dei due valori presenti sulla tavola subito sopra e subito sotto il valore
mancante. C’è tuttavia un modo più sbrigativo, anche se non sempre soddisfacente: quello di riferirsi al valore di 2
presente sulla tavola immediatamente precedente a quello mancante. Se F risulterà significativa rispetto a quel valore
critico lo sarà a maggior ragione rispetto al valore mancante incognito (che è inferiore); analogamente, se F risulterà
non significativa rispetto al valore critico immediatamente successivo a quello mancante, a maggior ragione sarà non
significativa rispetto al valore mancante incognito (che è superiore). Questa semplice tecnica di usare i valori più vicini
disponibili sulla tavola è riferita come uso di valori critici conservativi.
Un ultimo problema. Come comportarsi nel caso (non frequente) di test a due code? Questo è l’esatto rovescio del
problema descritto al termine di § 5. 1. 3.: là avevamo il problema di avere tavole a due code per test a una coda,
mentre qui abbiamo tavole a una coda per un test a due. La soluzione è l’esatto rovescio di quella suggerita in § 5. 1. 3.:
per i valori critici a livello 0.05, 0.01 e 0.001 in un test a due code occorre dimezzare , cercando rispettivamente i
valori critici a livello 0.025, 0.005 e 0.0005 delle tavole a due code. Questo in linea teorica; di fatto purtroppo la Tavola
4 non riporta i valori critici ai livelli 0.025, 0.005 e 0.0005. In pratica dunque noi utilizzeremo, quando sarà necessario,
la tecnica dei valori critici conservativi.
6. 2. Test per l’omogeneità di due varianze
6. 2. 1. Inquadramento del problema
Cominciamo con un esempio.
Un gruppo di docenti di una determinata disciplina affronta il problema dell’omogeneità delle valutazioni scritte. Si
suppone che il ricorso ad una griglia di valutazione comune possa migliorare l’omogeneità delle valutazioni. Per
verificare l’ipotesi sperimentalmente un elaborato viene corretto in modo indipendente da tutti i docenti, ciascuno
secondo una propria griglia di valutazione. Il punteggio grezzo assegnato da ciascun docente viene registrato. Dopo una
discussione si elabora una griglia di valutazione comune, ed un nuovo elaborato viene corretto ancora in modo
indipendente da tutti i docenti, ma questa volta secondo la griglia comune. E’ ingenuo pensare che basti una griglia
comune per arrivare ad un perfetto allineamento delle valutazioni; tuttavia potrebbe essere un passo avanti. Anche i
nuovi punteggi grezzi vengono registrati e confrontati con i primi.
Cosa interessa confrontare? Non certo le medie dei due gruppi di valutazioni: la differenza di medie certificherebbe
eventualmente un differente livello di adeguatezza agli obiettivi da parte dei due elaborati coretti; in questo caso non ci
interessa sapere quale dei due studenti è stato più bravo. Siamo invece interessati al grado di omogeneità delle
valutazioni espresse in termini di punteggio grezzo. Il grado di omogeneità dei punteggi di uno stesso gruppo si misura
con un indice di dispersione, cioè con la varianza (o con la deviazione standard). Ciò che dovremo sottoporre a test è
dunque una differenza di varianze, e non una differenza di medie. Trattandosi di due varianze viene spontaneo ricorrere
alla statistica F.
6. 2. 2. Il test Fmax
Parlando in generale il test Fmax sottopone a test la differenza fra due varianze. Il test presuppone come tutti i test basati
sulla statistica F che le due popolazioni da cui sono tratti i campioni siano normalmente distribuite.
L’ipotesi nulla H0 è quella di omogeneità delle varianze parametriche:
 12   22 .
A seconda che l’ipotesi alternativa H1 sia  1   2 oppure  1   2 abbiamo un test a due code oppure ad una
coda.
Nelle linee generali il test consiste nel calcolare il valore di F secondo la (6.1), e verificare se il valore ottenuto è
significativo oppure no al livello prescelto; come si vede è semplicissimo, ma occorre una precisazione:
è del tutto arbitrario scegliere fra le due varianze disponibili quale mettere a numeratore e quale a denominatore;
tuttavia occorre ricordare che la Tavola 4 si riferisce alle code di destra della distribuzione, corrispondenti ai valori di F
maggiori di 1; se noi ponessimo a numeratore la varianza più piccola, otterremmo un valore di F minore di 1 e quindi
cadremmo nella coda di sinistra della distribuzione per la quale non disponiamo dei valori critici; per questo motivo è
necessario porre a numeratore della (6.1) sempre la varianza più grande, in modo da cadere eventualmente sotto la coda
di destra della distribuzione. Questo spiega il nome assegnato al test.
Si noti che con le statistiche z e t questo problema non sussisteva, a causa della simmetria delle loro distribuzioni.
Invece, come abbiamo già più volte notato, la distribuzione F è asimmetrica.
2
2
2
2
I dettagli di calcolo sono sviluppati nel Box 6.1. che esemplifica il problema prospettato in § 6. 2. 1. I calcoli sono
semplici e lineari.
L’ipotesi alternativa scelta è H1:  1   2 ; ciò implica fortunatamente l’uso di un test ad una coda. Il motivo della
scelta sta nel fatto che abbiamo un ragionevole motivo di credere che la variabilità delle votazioni con una griglia
comune sia ridotta rispetto a quella delle valutazioni con griglie differenti; quindi adottando la griglia comune ci
aspettiamo una varianza non semplicemente differente, ma più precisamente minore.
Si osservi un secondo aspetto interessante. Come si vede dai dati del Box 6.1, i due elaborati esprimono prestazioni
abbastanza differenti: la prima è sicuramente peggiore della seconda; tuttavia il test non tiene in considerazione questa
circostanza, ma solo delle differenti variabilità delle votazioni.
2
2
6. 3. Introduzione all’analisi della varianza o ANOVA
6. 3. 1. Un nuovo approccio alla valutazione della differenza fra gruppi
Il test t per il confronto fra due gruppi indipendenti presentato in § 5. 4. costituisce un buon punto di partenza.
In esso si trattava di valutare se i due gruppi di dati confrontati provengono da popolazioni statistiche con la stessa
media parametrica oppure no.
In questo capitolo il problema è generalizzato ad un numero imprecisato di gruppi, quindi non necessariamente solo
due. Il riferimento alla Parte metodologica è quindi al § 4.2.1. e al § 4.2.2..
Nel t – test il calcolo punta direttamente ad un confronto delle due medie campionarie, come evidenzia immediatamente
la differenza a numeratore della (5.10).
Il nuovo approccio è indiretto ma più sottile. Ecco il ragionamento ridotto all’essenziale.
Abbiamo diversi gruppi di dati, per fissare le idee sia a il numero dei gruppi; per semplificare almeno inizialmente le
cose supponiamo che tutti gli a gruppi abbiano n elementi; vogliamo sapere se le loro a medie parametriche  sono
significativamente differenti una dall’altra. In altre parole ci interessa sapere se i differenti a gruppi provengono da
popolazioni con medie parametriche  differenti oppure no.
Si ipotizza che gli a gruppi di n dati a confronto provengano tutti da una stessa popolazione statistica normalmente
distribuita di media  e varianza 2 (ipotesi nulla H0). Questa ipotesi implica che le medie parametriche di ciascun
gruppo siano uguali a , cioè che non vi siano differenze significative fra le a medie.
Della varianza 2 della popolazione unica ipotizzata si calcolano, sulla base dei dati contenuti negli a gruppi, due stime
indipendenti, basate su due metodi differenti.
La prima stima: calcoliamo la varianza campionaria s2 all’interno di ciascuno degli a gruppi. Delle a varianze così
ottenute calcoliamo la media. Dunque, in sintesi, la prima stima di 2 è la media delle varianze campionarie s2
all’interno di ogni singolo gruppo. Questa stima è chiamata varianza all’interno dei gruppi e indicata col simbolo
(dall’inglese within, all’interno) In formula:
sw
2
s

sw
2
2
(6.3)
a
(si ricordi che abbiamo adottato l’ipotesi semplificatoria che tutti gli a gruppi abbiano n elementi; nel caso generale
che i gruppi abbiano un differente numero di elementi la (6.3) va modificata, per dare un peso maggiore alle varianze
basate su più elementi).
La seconda stima: partiamo dalla relazione (3.2) che esprime l’errore standard della media; elevando a quadrato
otteniamo:
Y 2  2 n
da cui isolando 2 otteniamo:
 2  n  Y 2
Questa relazione indica la strada per arrivare alla seconda stima: essa ci dice che la varianza
data dalla varianza
Y
sua stima campionaria
2
delle medie campionarie moltiplicata per
2
della popolazione è
n . Sostituendo il valore parametrico  Y con la
2
sY otteniamo la seconda stima della varianza  2 ; la chiamiamo varianza fra i gruppi e la
indichiamo col simbolo
2
2
s g ; In formula:
s g  n  sY
2
2
(6.4)
(si ricordi che anche la (6.4) è valida solo nel caso che tutti i gruppi abbiano n elementi, e va sostituita nel caso
generale).
Riassumendo, abbiamo
s w e s g , due stime della varianza stessa varianza  2 . Essendo stime di uno stesso
2
2
parametro i loro valori dovrebbero essere abbastanza simili e quindi il rapporto
F
sg
2
sw
2
(6.5)
dovrebbe essere abbastanza prossimo ad 1.
Prima di procedere occorre una precisazione a proposito della (6.5). Il rapporto fra le due varianze è stato correttamente
chiamato con F, in quanto si tratta effettivamente di due stime indipendenti della varianza comune  (si ricordi che la
statistica F è appunto definita in conclusione del § 6. 1. 1. come rapporto di due varianze indipendenti). L’indipendenza
delle due stime andrebbe in realtà spiegata; qui ci accontenteremo intuitivamente del fatto che le due procedure di stima
seguono logiche differenti.
2
6. 3. 2. Come varia F
Torniamo al rapporto (6.5). Per capire come vari il valore di F a seconda delle circostanze, in Tab. 6.1 riportiamo tre
esempi basati su tre gruppi (quindi a = 3)., che visualizziamo graficamente (attraverso la tecnica illustrata nel Box 1.1,
Parte c) e di cui calcoliamo in parallelo la statistica F secondo la (6.5).
Il primo esempio (colonna di sinistra) ha tre medie uguali a 10 e varianze rispettivamente uguali a 1, 2 e 3; nel secondo
(in colonna centrale) i tre gruppi hanno le stesse varianze dell’esempio di sinistra, ma medie differenti (8, 10 e 12); il
terzo esempio (colonna destra ) ha le stesse medie del secondo, ma varianze maggiori (4, 5 e 6). In tutti i gruppi n = 5.
Dai grafici vediamo subito: nella colonna a sinistra l’uguaglianza delle tre medie, e la loro disuguaglianza nei rimanenti
due casi; ma anche: la stessa variabilità nei primi due esempi e una maggiore variabilità nel terzo (graffe più aperte). Da
un confronto intuitivo fra gli ultimi due grafici notiamo che nell’ultimo la differenza fra le medie pare mitigata rispetto
all’altro da una maggiore variabilità dei dati: cioè sembra che lo stacco netto fra i tre gruppi visibile nel grafico centrale
venga in qualche modo riassorbito, in quello a destra, dalle graffe più aperte.
Y
s2
n
Gr. 1
10
Gr. 2
10
Gr. 3
10
1
5
2
5
3
5
Y  10
02  02  02
2
sY 
0
2
2
2
s g  n  sY  5  0  0
Y
s2
n
Gr. 1
8
Gr. 2
10
Gr. 3
12
1
5
2
5
3
5
Y  10
sY 
2
 2
s g  n  sY
2
s w  1  2  3 3  2
sw  2
F  sg
F  sg
2
2
Y
s2
n
2
2
Gr. 2
10
Gr. 3
12
4
5
5
5
6
5
Y  10
2
2
0 2
4
2
 5  4  20
2
2
sY 
2
 22  0 2  2 2
s g  n  sY
2
2
4
2
 5  4  20
sw  5
2
2
sw  0 2  0
Gr. 1
8
s w  2 0 2  10
F  sg
2
2
sw  2 0 5  4
2
Tab. 6.1
E veniamo ad analizzare i calcoli che concludono Tab. 6.1.
La varianza delle medie
2
2
sY (necessaria per il calcolo di s g ) è ricavata attraverso la (3.7) anziché attraverso la
consueta equivalente computazionale (3.9), in quanto abbiamo numeri interi che non daranno problemi di
arrotondamento, ed il calcolo è più spedito; dunque:
 Y  Y 

2
sY
La media delle medie
2
a 1
2
(6.6)
Y necessaria nel calcolo di sY è scritta nella prima riga.
Confrontiamo i calcoli relativi ai primi due esempi: le varianze (1, 2 e 3) sono le stesse nei due esempi e quindi la
2
varianza all’interno dei gruppi
s w ha lo stesso valore.
Invece la varianza fra i gruppi
s g è nulla nel primo caso (infatti le tre medie sono uguali, quindi hanno varianza nulla)
2
e piuttosto elevata nel secondo (dove infatti le medie si diversificano). Ciò conduce a differenti valori di F: nel primo
caso F = 0, nel secondo F = 10. Quindi abbiamo chiarito che a parità di varianza all’interno dei gruppi F cresce al
crescere della differenza fra le medie.
Ma a cosa serve esattamente la varianza all’interno dei gruppi che sta a denominatore? Ciò è spiegato dal confronto fra
gli ultimi due esempi (quelli nella colonna centrale e destra): le medie dei tre gruppi nei due esempi sono le stesse (8, 10
e 12) e quindi in termini assoluti la differenza fra di esse nell’esempio centrale ed in quello sulla destra è la stessa.
Eppure, si è detto sopra, se relazioniamo i distacchi fra le medie alle relative varianze dobbiamo concludere che
nell’esempio centrale il distacco fra i tre gruppi appare più netto. Ebbene, proprio questa necessità di relazionare la
variabilità delle medie alla variabilità interna ai gruppi suggerisce di rapportare la varianza fra i gruppi
numeratore con la varianza all’interno dei gruppi
2
sg a
2
s w a denominatore. Infatti, se finalmente confrontiamo i valori di F
nel secondo e nel terzo esempio notiamo che in quello centrale F = 10 mentre in quello a destra F = 4.
In sintesi, quella che era la sensazione soggettiva derivata dall’analisi dei tre grafici è confermata dal calcolo dei tre
valori di F: 0 nel caso in cui la differenza fra le medie è nulla, 10 quando lo stacco fra i tre gruppi è massimo, 4 nel caso
in cui tale stacco è mitigato da una maggiore variabilità all’interno dei gruppi.
6. 3. 3. I gradi di libertà e la significatività di F
Resta da chiarire come valutare la significatività della statistica F ora definita. Per questo occorre naturalmente ricorrere
alla Tavola 4 in modo del tutto analogo a quanto siamo abituati a fare con la Tavola 3 della statistica t e la Tavola 2
della statistica z.
Tuttavia per fare questo abbiamo bisogno di sapere quali sono i gradi di libertà della statistica F definita nella (6.5): è
quanto ci accingiamo a chiarire.
Per quanto riguarda la varianza fra i gruppi
2
s g il discorso è presto fatto: essa è calcolata moltiplicando per n la
varianza delle medie che ha
 g  a 1
(6.7)
gradi di libertà, come è facile vedere dalla (6.6); questi sono dunque i gradi di libertà della varianza a numeratore.
Per i gradi di libertà del denominatore
2
s w , il discorso è ancora una volta intuitivo: si tratta di una media di a varianze
campionarie, ciascuna delle quali ha n – 1 gradi di libertà; quindi i gradi di libertà totali della varianza
denominatore sono n – 1 ripetuti a volte:
 w  a  (n  1)
2
sw a
(6.8)
(ancora una volta si presti attenzione al fatto che anche la (6.8) è valida solo nel caso che tutti i gruppi abbiano n
elementi, e va sostituita nel caso generale, contrariamente alla (6.7) che mantiene la sua validità anche nel caso
generale).
Ora abbiamo un ultimo punto da discutere: si tratta di un test a una coda o a due?
Formuliamo l’ipotesi nulla e l’ipotesi alternativa:
 H0: I gruppi sono tratti da popolazioni aventi tutte la stressa media parametrica ;
 H1: I gruppi sono tratti da popolazioni di cui almeno due hanno media parametrica diversa fra loro.
Sul corsivo almeno due torneremo in chiusura di paragrafo. Per ora dobbiamo riflettere sul numero di code del test. Il
fatto che H1 richieda che almeno una media  sia diversa dalle altre e non maggiore potrebbe indurci ad optare per le
due code, ma le cose non stanno a questo modo: si ricordi che la statistica F è sempre positiva, e con gli esempi in Tab.
6.1 abbiamo mostrato chiaramente che una qualunque differenza di medie (senza specificare il verso delle differenze)
innalza sempre il valore di F: la presenza di eventuali differenze fra le medie sposta dunque sempre verso la coda di
destra il valore di F. Per questo motivo il test che stiamo presentando è ad una sola coda.
Ora abbiamo tutti gli elementi per decidere della significatività di F: g e w sono noti; il test è ad una coda; la Tavola 4
è ad una coda; quindi:
dopo aver calcolato la statistica F cerchiamo sulla Tavola 4 il valore critico al livello di significatività  desiderato;
F[ , ] successivamente, se F  F[ , ] allora è significativo a livello  e rifiutiamo l’ipotesi nulla H0, altrimenti
g
w
g
w
no.
Siamo in debito di un’ultima spiegazione, a proposito delle parole in corsivo almeno due nella formulazione di H1
riportata sopra.
L’ipotesi alternativa deve essere una negazione dell’ipotesi nulla; ora, la negazione della proposizione tutte le medie
parametriche sono uguali non è la proposizione tutte le medie parametriche sono diverse, ma più semplicemente
almeno due di esse sono diverse fra loro. Fino a qui sono considerazioni di pura logica. Ma quale è la conseguenza
pratica di tutto ciò? E’ questa:
se F è significativo abbiamo dimostrato che almeno due gruppi sono differenti fra loro, ma quali siano, e se sono solo
due, non è specificato. Per saperlo occorrono dei supplementi di indagine (vedi § 7. 1. 1. e § 7. 1. 2.).
6. 3. 4. L’analisi della varianza o ANOVA a singolo criterio di classificazione: caso particolare per gruppi di
uguale dimensione
Il test che abbiamo finito di descrivere è il primo e il più semplice di una serie articolata e ricchissima di tecniche che
prende il nome di analisi della varianza o ANOVA (acronimo anglosassone di ANalysis Of VAriance).
Più precisamente si tratta di una ANOVA a singolo criterio di classificazione, ed ancora più precisamente abbiamo
trattato il caso particolare in cui i gruppi hanno tutti la stessa dimensione n.
Lo scopo del presente paragrafo è di sintetizzarne la procedura matematica prosciugandola da tutti i commenti e le
spiegazioni.
Il problema è quello di sottoporre a test la differenza fra due o più gruppi di dati.
Preliminarmente, per ciascun gruppo si calcolano media e varianza.
Dopo aver formulato le due ipotesi H0 e H1 in opposizione conformemente a quanto fatto in § 6. 3. 3. si procede al
calcolo di
2
2
s g secondo la (6.4) e di s w secondo la (6.3); si calcola quindi F secondo la (6.5) e dopo averne
individuato i gradi di libertà con la (6.7) e la (6.8) si determina la sua significatività confrontando con gli opportuni
valori critici della Tavola 4. L’ipotesi nulla viene rigettata o mantenuta in conseguenza alla significatività o meno della
statistica F.
Ricordiamo ancora una volta che buona parte delle formule indicate vale solo limitatamente al caso di gruppi con
uguale dimensione, e andranno modificate nel caso generale.
La procedura completa è illustrata nel Box 6.2.: nel corso di una sperimentazione i risultati raggiunti dal gruppo di
controllo C sono confrontati con tre gruppi sperimentali S1, S2 e S3. Si noti che la varianza
2
sY non è stata calcolata con
la (6.6) per evitare la propagazione di errori di arrotondamento; è stata invece utilizzata l’equivalente computazionale
(3.9). Si noti altresì che la Tavola 4 non riporta il valore  w  52 ; assumiamo per F il valore conservativo
corrispondente a  w
 40 , secondo la tecnica dei valori critici conservativi descritta in § 6. 1. 3. L’ANOVA evidenzia
l’esistenza di almeno due gruppi significativamente differenti fra loro. Ma, per sapere quali siano ed interpretare
correttamente l’esito del test occorre un supplemento di indagine (vedi § 7. 1. 1. e § 7. 1. 2.).
6. 3. 5. L’additività delle somme dei quadrati SS e dei gradi di libertà 
E’ ora utile richiamare alla memoria il simbolismo introdotto in § 1. 3. 3., e precisamente la convenzione
y i  Yi  Y
dove yi viene chiamato scarto i – esimo della variata i – esima rispetto alla media, assieme alla convenzione
SS 
y
2
dove il simbolo SS si legge somma dei quadrati (sottintendendo degli scarti).
E’ utile inoltre richiamare alla memoria la formula (1.8) computazionalmente più efficiente per il calcolo di SS, data in
§ 1. 3. 3. e che ormai utilizziamo abitualmente.
Questi richiami permettono di riscrivere la consueta formula per una varianza campionaria
 Y  Y 

2
s
2
n 1
y

2
n 1
nella forma
s2 
SS

(6.9)
Essa dice che ogni varianza può essere espressa sotto forma di rapporto fra la somma dei quadrati SS e i corrispondenti
gradi di libertà .
In una analisi della varianza noi calcoliamo il rapporto fra le due varianze
2
2
s g e s w . Anche queste varianze possono
essere espresse con un rapporto del tipo (6.9). Con una semplice estensione del simbolismo possiamo scrivere:
sg 
2
sw
SS g
g
SS
 w
w
2
(6.10)
Ora siamo interessati a calcolare direttamente SSg e SSw per metterne in luce una importantissima proprietà.
Dalle precedenti (6.10) ricaviamo attraverso un semplice passaggio le seguenti
SS g  s g   g
2
SS w  s w   w
2
(6.11)
che utilizziamo per il calcolo di SSg e SSw relativamente ai dati del Box 6.2. Otteniamo:
SS g  s g   g  459.4762  3  1378.429
2
SS w  s w   w  128.7005  52  6692.426
2
Ora, sempre con i dati del Box 6.2, sviluppiamo un nuovo calcolo: consideriamo un unico gruppo, costituito
dall’unificazione di tutti gli elementi di tutti e quattro i gruppi. Abbiamo quindi un super gruppo di
4  14  56 elementi. Di questo super gruppo calcoliamo la varianza, che per ovvi motivi indicheremo col nome di
varianza totale, e indicheremo ricorrendo al simbolismo
st 
2
SS t
(6.12)
t
Per i gradi di libertà della varianza totale abbiamo il semplice calcolo  t
 56  1  55 .
Per il calcolo di SSt ricorriamo alla formula computazionale (1.8). Per esprimere con una simbologia corretta la somma
a
delle variate Y di tutti i gruppi scriviamo
n
 Y , ad indicare che prima operiamo una somma estesa ad n termini
all’interno di ciascun gruppo, e successivamente sommiamo gli a totali di gruppo in un unico totale generale. Analogo
a
significato ha la scrittura
n
 Y
2
. Dunque, tornando alla somma dei quadrati SSt abbiamo:
a
n
 Y  2148
a
n
 Y
2
 90462
e quindi:
2
 a n 
  Y 


a
n
2148 2


SS t   Y 2 
 90462 
 8070.857
an
4  14
(an è il numero totale di elementi dei quattro gruppi) e
st 
2
SS t
t

8070.857
 146.7429
55
Adesso siamo finalmente in grado di evidenziare una importantissima proprietà dell’analisi della varianza. Si noti che:
SS g  SS w  1378.429  6692.429  8070.858
che, salvo un piccolo errore dovuto ad arrotondamenti nel calcolo, è uguale a SSt. Dunque:
SS g  SS w  SS t
(6.13)
In modo ancora più semplice è immediato verificare che:
 g  w  t
(6.14)
La proprietà della analisi della varianza espressa dalle (9.13) e (9.14) prende il nome di additività della somma dei
quadrati e di additività dei gradi di libertà. In generale si può dimostrare la validità di questa proprietà, che qui
abbiamo semplicemente verificato attraverso un esempio.
Nell’additività dell’ANOVA risiede il significato più profondo del test e la sua eleganza matematica.
In pratica l’ANOVA guarda ai dati con una visione complessiva, e scompone la varianza totale dei dati in due
componenti: quella dovuta alla variazione all’interno dei gruppi e quella dovuta alla variazione fra i gruppi.
Questa affermazione ci ricollega a quello che abbiamo visto con i tre esempi di Tab. 6.1 in § 6. 3. 2.
Si faccia però attenzione ad una cosa importante: la scomposizione della varianza totale nelle due componenti fra i
gruppi e all’interno dei gruppi non è una scomposizione additiva: l’additività sussiste fra le somme dei quadrati SS e fra
i gradi di libertà , ma non fra le varianze; la varianza totale non è la somma delle varianze fra i gruppi e all’interno dei
gruppi. La scomposizione della varianza fra i dati ci ricollega direttamente a quello che abbiamo visto con i tre esempi
di Tab. 6.1 in § 6. 3. 2.
6. 3. 6. La tavola riassuntiva di un’ANOVA a singolo criterio di classificazione
Le considerazioni svolte in § 6. 3. 5. inducono a riassumere i calcoli di un’ANOVA in una tabella standard che
riportiamo di seguito esemplificando con l’esempio del Box 6.2.
Fonti di variazione
SS
MS
F

Fra i gruppi
3 1378.429 459.4762 3.57 *
All’interno dei gruppi
52 6692.429 128.7005
Totale
55 8070.857
Valore critico conservativo: F0.05 [ 3, 40]  3.23
Tab. 6.2
Nella tavola riassuntiva si può usare una convenzione che è utile conoscere, perché ricorre frequentemente in letteratura
e nel software statistico: le varianze s2 vengono spesso chiamate quadrati medi ed indicate col simbolo MS (dall’inglese
Mean Squares) perché sono appunto una sorta di media dei quadrati degli scarti.
Come si nota la tabella evidenzia la scomposizione delle fonti di variazione; correttamente, alla riga della variazione
totale non è riportato il valore della corrispondente varianza, in quanto come si è detto in § 6. 3. 5. non vi è additività fra
le varianze.
Il valore di F è riportato col competente simbolismo riguardo la sua significatività.
Completano la tavola i valori critici di confronto per la statistica F.
Questo modo di riassumere i risultati dell’ANOVA è valido anche nel caso generale che stiamo per affrontare.
6. 4. ANOVA a singolo criterio di classificazione: caso generale
6. 4. 1. Generalizzazione delle procedure di calcolo
La procedura di calcolo descritta nei paragrafi precedenti ha validità solo nel caso in cui tutti gli a gruppi a confronto
hanno esattamente n elementi. Ora ci occuperemo del caso generale in cui ogni gruppo ha un differente numero di
elementi: n1, n2, n3,… na.
In proposito si può dimostrare la seguente formula di calcolo per SSg:
2
 n 
 a n 
Y 
  Y 



a 




SS g  

a
ni
 ni
2
(6.15)
A questo punto l’idea è semplicissima:
calcoliamo al modo consueto SSt e calcoliamo SSg secondo la (6.15); poi, in base alla (6.13) calcoliamo SSw per
differenza. Con gli opportuni valori per i gradi di libertà delle due varianze otteniamo immediatamente la varianza fra i
gruppi MSg, la varianza all’interno dei gruppi MSw, e infine il rapporto F.
E’ meglio dire esplicitamente, anche se scontato, che la procedura generalizzata ora delineata si adatta anche al caso
particolare già trattato di gruppi con la stessa dimensione (e porta naturalmente allo stesso risultato).
6. 4. 2. Passi computazionali
Seguendo una collaudata ed efficace prassi dei testi di statistica per non matematici (vedi R. R. Sokal e F. J. Rohlf,
1982), indichiamo qui una serie di passi computazionali elementari che spezzettano il calcolo descritto in § 6. 4. 1.
Il Box 6. 3 mostra l’applicazione pratica della procedura descritta.
a
1.
a
2.
ni
 Y
(totale generale, cioè somma di tutte le variate Y)
ni
 Y
2
(somma dei quadrati di tutte le variate Y)
3.
 ni 
Y 

a 

 n 
i
2
 a ni 
 Y 




2
4.
(somma di tutte le somme di gruppo elevate a quadrato e divise per la propria dimensione)
a
n
(quadrato del totale generale della quantità 1 diviso per il numero totale di elementi)
i
Sulla base di queste quattro quantità si calcolano poi le somme dei quadrati:
SS t  quantità 2 – quantità 4
SS g  quantità 3 – quantità 4
SS w  SS t  SS g
In particolare si noti che la differenza (quantità 2 – quantità 4) corrisponde all’usuale formula computazionale per il
calcolo di una qualsiasi SS, mentre la differenza (quantità 3 – quantità 4) equivale al calcolo della (6.16). Come
precisato in chiusura di § 6. 4. 1., SSw è calcolato per differenza.
Per i gradi di libertà delle due varianze abbiamo:
 g  a 1
a
 w   ni  1
Quindi, per le due varianze fra i gruppi e all’interno dei gruppi:
MS g 
SS g
g
SS
MS w  w
w
F
MS g
MS w
La procedura completa è applicata nel Box 6.3. Nel Collegio dei Docenti di un istituto scolastico si pone un problema:
fra i nuovi iscritti in prima classe si rilevano atteggiamenti alquanto differenziati circa il livello di affezione scolastica;
in particolare è sentito il problema delle assenze dalle lezioni. Si ipotizza che i differenti atteggiamenti a riguardo siano
in relazione all’istituto scolastico di provenienza. Fra le diverse scuole che costituiscono il bacino di utenza dell’istituto
vengono scelte quelle che si ritengono più rappresentative in un senso o nell’altro. I dati relativi alle assenze in un
medesimo e ben definito periodo scolastico vengono raccolte per ogni studente di ogni scuola sottoposta ad
osservazione. I dati raccolti vengono raggruppati per scuola e sottoposti ad analisi della varianza. Questa mostra
l’esistenza di una differenza significativa fra gli studenti provenienti da almeno due scuole diverse. Ancora una volta,
per sapere quali siano occorre un supplemento di indagine (vedi § 7. 1. 1. e § 7. 1. 2.).
6. 4. 3. Il caso particolare con due gruppi: ANOVA e t – test per gruppi indipendenti
Per concludere accenniamo al nesso che sussiste fra l’ANOVA e il t – test per gruppi indipendenti. In § 6. 3. 1.,
introducendo il discorso sull’analisi della varianza, abbiamo detto che si tratta di una tecnica per risolvere il problema
della differenza fra gruppi nel caso in cui i gruppi siano più di due. Naturalmente anche nel caso di due gruppi è
possibile utilizzare l’analisi della varianza, ma in questo caso il t – test è più comodo, specie se i calcoli sono da fare
manualmente.
Sebbene i due test sembrino profondamente differenti, in realtà il t – test non è altro che un caso particolare
dell’ANOVA: infatti si può dimostrare che con due gruppi il valore della statistica F nell’ANOVA eguaglia il quadrato
della statistica t del t – test per gruppi indipendenti. In simboli la relazione che lega le statistiche t ed F è:
t [ ]  F[ 1 , ]
2
(6.16)
Si noti che in (6.16) F ha un grado di libertà al numeratore, il che appunto si verifica quando i gruppi sono due.
La relazione (6.16) può essere facilmente verificata anche attraverso le tavole dei valori critici delle due statistiche.
A titolo di esempio:
t 0.05 [10]  2.228 2  4.96  F0.05[ 1 , 10]
2
L’equivalenza fra il t – test e l’ANOVA nel caso di due gruppi è verificato nell’esempio del Box 6.4, Parte b.
6. 4. 4. Due formule di calcolo utili
In genere nei resoconti delle sperimentazioni sono riportate solo le tavole riassuntive dei test statistici; in esse mancano
i dati grezzi, che invece sono sintetizzati in forma già aggregata, attraverso il numero
n di elementi, la media Y e la
2
deviazione standard s (o la varianza s ) di ogni gruppo. Per il lettore può essere utile (o per riprova personale, o per un
eventuale supplemento di indagine statistica, o per elaborare confronti con dati analoghi di altri autori o propri) risalire
non tanto ai dati grezzi (cosa impossibile) ma almeno alle due importanti quantità
Y e Y
2
, che , come abbiamo
visto, sono il punto di partenza per ogni elaborazione statistica. In proposito abbiamo due formule.
La prima si deriva banalmente dalla definizione di media:
Y  n  Y
La seconda si deriva dalla formula (3.9) per
Y
2
(6.17)
s2 :
 n  1  s 2   Y  n
2
(6.18)
Un esempio spiega il semplice utilizzo delle due formule nel Box 6.4 Parte a, in cui partendo dai dati aggregati relativi a
due gruppi viene elaborato l’ANOVA.
Box 6.1. Test Fmax per la differenza fra due varianze
Punteggi grezzi assegnati da diversi insegnanti con griglie di valutazione differenti ad un primo elaborato; punteggi
grezzi assegnati dagli stessi insegnanti con griglia di valutazione comune ad un secondo elaborato.
X
Y
Punteggi con
Punteggi con
griglie differenti
la stessa griglia
(primo elaborato) (secondo elaborato)
31
51
48
55
30
53
48
43
31
51
50
48
 12   22
2
2
H1 :  1   2
H0 :
(test ad una coda)
n1  n2  6
1   2  n 1  5
Calcolo le due varianze:
 X  31  48    50  238
 X  31  48    50  9930
 X   X  n 9930  238
2
2
2
2
2
2
sX 

2
n 1
Y  51  55    48  301
Y
2
sY
6
 97.867
 512  552    482  15189
Y  Y 

2
2
2
5
2
n 1
n

15189  3012 6
 17.767
5
Pongo a numeratore la varianza maggiore fra le due:
F
sY
2
sX
2

97.867
 5.508 *
17.767
Dalla Tavola 4 ottengo i valori critici:
F0.05[5,5]  5.05
F0.01[5,5]  7.15
Conclusioni:
il valore di F è significativo a livello 0.05; rifiuto l’ipotesi nulla: l’adozione di una griglia comune ha ridotto la
variabilità delle valutazioni.
Rif.:
§ 6. 2. 2.
Box 6.2. ANOVA a singolo criterio di classificazione; gruppi di uguale dimensione
Punteggi grezzi relativi ad una prova oggettiva somministrata ad un gruppo di controllo C e a tre gruppi sperimentali S1,
S2 e S3.
C
S1
S2
S3
45
34
48
34
34
23
34
56
21
34
47
44
30
21
49
51
35
20
53
65
33
25
55
67
31
34
43
55
47
43
35
21
51
38
45
31
34
39
49
61
41
41
51
30
18
30
39
21
22
29
42
19
47
39
27
37
34.92857
32.14286
44.07143
42.28571
Y
106.2253
s2
58.13187
63.60989
286.8352
n = 14
a=4
H0: I gruppi sono tratti da popolazioni aventi tutte la stressa media parametrica ;
H1: I gruppi sono tratti da popolazioni di cui almeno due hanno media parametrica  diversa fra loro.
Y  153.4286
 Y  5983.541
 Y   Y 
s 
2
2
2
Y
s g  n  sY
2
Y
2
2
5983.541  153.4286 2 4
 32.81973
a 1
3
 14  32.81973  459.4762
a

153.4286
 128.7005
a
4
 g  a 1 4 1 3
sw 
2

 w  a  n  1  4  13  52
F
sg
2
sw
2

459.4762
 3.57 *
128.7005
La Tavola 4 non riporta il valore  w
 52 ; assumiamo per F il valore conservativo corrispondente a  w  40 :
F0.05 [3, 40]  3.23
Conclusioni:
F è significativo a livello 0.05. Respingo l’ipotesi nulla H0: almeno due dei quattro gruppi hanno riportato punteggi con
significative differenze fra loro.
Rif.:
§ 6. 3. 4.
Box 6.3. ANOVA a singolo criterio di classificazione; caso generale
Giorni di assenza dalle lezioni di alunni del primo anno di un istituto scolastico, divisi per scuola di provenienza.
n
Y
Y
Scuola A Scuola B Scuola C Scuola D Scuola E
2
8
3
1
2
3
1
8
3
1
0
0
4
2
2
1
1
3
0
0
4
7
7
5
2
4
9
10
1
3
3
9
2
0
1
3
5
4
4
3
8
7
11
9
5
2
17
29
57
21
7
55
205
379
69
13
a5
H0: I gruppi sono tratti da popolazioni aventi tutte la stressa media parametrica ;
H1: I gruppi sono tratti da popolazioni di cui almeno due hanno media parametrica  diversa fra loro.
1.
2.
a
ni
a
ni
Y  17  29  57  21  7  131
 Y
2
 55  205  379  69  13  721
2
 ni 
 Y 

a 
17 2 29 2 57 2 212 7 2


3. 





 510.4315
ni
8
7
11
9
5
2
 a ni 
  Y 


1312


4.

 429.025
a
8  7  11  9  5
 ni
SS t  quantità 2 – quantità 4  721  429.025  291.975
SS g  quantità 3 – quantità 4 510.4315  429.025  81.4065
SS w  SS t  SS g  291.975  81.4065  210.5685
 g  a 1 5 1 4
a
 w   ni  1  7  6  10  8  4  35
MS g 
SS g
MS w 
SS w
g
w

81.4065
 20.35162
4

210.5685
 6.016243
35
F
MS g
MS w

20.35162
 3.38 *
6.016243
Tavola riassuntiva dell’ANOVA:
Fonti di variazione
Fra i gruppi
All’interno dei gruppi
Totale
Valori critici conservativi:
SS
MS

4
81.4065 20.35162
35 210.5685 6.016243
39 291.9750
F
3.38 *
F0.05 [ 4, 30]  2.69 ; F0.01 [ 4, 40]  3.83
Conclusioni:
F è significativo a livello 0.05. Respingo l’ipotesi nulla H0; le assenze si diversificano secondo le scuole di
provenienza, almeno per due di queste.
Rif.:
§ 6. 4. 2.
Box 6.4. ANOVA a partire da n , Y e s ; equivalenza con il t–test
Dati relativi ai punteggi di una prova oggettiva di due gruppi:
Gruppo 1
Gruppo 2
Y
s
n
34.5
21.5
12.1
9.4
8
12
Parte a
Per il primo gruppo:
Y  n  Y  8  34.5  276
Y  n  1  s  Y 
2
2
2
n  7  12.12  276 2 8  10546.87
Analogamente, per il secondo gruppo abbiamo:
Y  258
Y 6518.96
2
a2
H0: I gruppi sono tratti da popolazioni aventi tutte la stressa media parametrica ;
H1: I gruppi sono tratti da popolazioni con media parametrica  diversa fra loro.
1.
2.
a
ni
a
ni
 Y  276  258  534
 Y
 10546.87  6518.96  17065.83
2
2
 ni 
 Y 

2
2
a 

  276  258  15069
3. 
ni
8
12
2
 a ni 
  Y 


2

  534  14257.8
4.
a
8  12
 ni
SS t  quantità 2 – quantità 4  2808.03
SS g  quantità 3 – quantità 4  811.2
SS w  SS t  SS g  1996.83
 g  a 1  2 1  1
a
 w   ni  1  7  11  18
MS g 
SS g
MS w 
SS w
F
g
w
MS g
MS w
 811.2
 110.935
 7.31239 *
Tavola riassuntiva dell’ANOVA:
Fonti di variazione
Fra i gruppi
All’interno dei gruppi
Totale
Valori critici conservativi:

1
18
19
SS
811.20
1996.83
2808.03
MS
811.20
110.935
F
7.31 *
F0.05 [1, 18]  4.41 ; F0.01 [1, 18]  8.28
Conclusioni:
F è significativo a livello 0.05. Respingo l’ipotesi nulla H0; i punteggi dei due gruppi sono significativamente
differenti.
Parte b
Equivalenza del t–test per gruppi indipendenti
  n1  n2  2  8  12  2  18
t
Y1  Y2
n1  1s1
 n2  1s 2 n1  n2

n1  n2  2
n1  n2
2
2

34.5  12.1
7  12.12  11  9.4 2 8  12

8  12  2
8  12
t 2  2.7041432  7.31239  F
Ciò verifica la relazione (6.16)
Rif.:
Parte a: § 6. 4. 4. e § 6. 4. 2.; Parte b: § 5. 4. 2. e § 6. 4. 3.

13
23.11146
 2.704143 *