Test non parametrici per verificare l`uguaglianza

Transcript

Test non parametrici per verificare l`uguaglianza
Test non parametrici per verificare l’uguaglianza tra due popolazioni
Ricordiamo che una delle ipotesi alla base del test T per verificare l’uguaglianza tra due medie
condizionate (cioè le medie di un certo carattere dipendente in due gruppi indotti dalle modalità di
un carattere detto esplicativo – o fattore) è che la variabile dipendente abbia una distribuzione
normale. Ciò è dovuto al fatto che le medie sono misure di sintesi molto sensibili alla presenza di
valori estremi. Quindi se si vuole verificare se la variabile esplicativa (o fattore) ha un effetto sulla
variabile dipendente può essere più opportuno fare riferimento a sintesi più robuste, che
garantiscono quindi confronti più significativi. [Analisi stratificata: le misure di sintesi].
Prima di trarre conclusioni sui risultati ottenuti utilizzando l’approccio “standard” è quindi
necessario verificare l’ipotesi che la variabile dipendente abbia una distribuzione normale: se questa
viene rifiutata la procedura standard è inadeguata ed è necessario ricorrere a procedure diverse.
Test per la verifica dell’ipotesi di
normalità. Uno dei più famosi test per
questa ipotesi nulla è quello di test di
Kolmogorov-Smirnov. Riportiamo di
fianco un esempio di tale test. Notiamo
che il p-value è molto basso, e l’ipotesi
nulla (secondo la quale la distribuzione
è normale) viene quindi rifiutata.
One-Sample Kolmogorov-Smirnov Test
N
Normal Parameters b
Aumento
474
215,7265
133,08800
,178
,178
-,142
3,884
,000
Mean
Std. Deviation
Absolute
Positive
Negative
Most Extreme
Differences
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
b. Calculated from data.
Nel caso in cui cada l’ipotesi di normalità della distribuzione è opportuno verificare l’uguaglianza
tra le medie ricorrendo a procedure non parametriche. Tali test sono sostanzialmente simili a quelli
utilizzati nell’ANOVA non parametrica.
Non entriamo nei dettagli ma descriviamo solo sinteticamente l’idea su cui si basa il test più
importante, detto test di Wilcoxon-Mann-Whitney. L’idea è quella di considerare i ranghi associati
ad ogni osservazione. Consideriamo per semplicità 10 osservazioni su Y, variabile dipendente e X
variabile esplicativa (categorica).
Y
X
2
1
5
1
7
1
8
1
10
1
6
2
9
2
11
2
13
2
15
2
Associamo ad ogni osservazione su Y il suo rango, cioè la posizione che occupa nella sequenze
ordinata dei dati.
Y (ordinata)
X
Rango
2
1
1
5
1
2
6
2
3
7
1
4
8
1
5
9
2
6
10
1
7
11
2
8
13
2
9
15
2
10
Determiniamo ora la somma dei ranghi relativi alle osservazioni nel primo strato (X = 1) e la
somma dei ranghi relativi alle osservazioni del secondo strato (X = 2).
Somma dei ranghi (X = 1) = (1 + 2 + 4 + 5 + 7) = 19
Somma dei ranghi (X = 2) = (3 + 6 + 8 + 9 + 10) = 36.
L’idea è che se il fattore non è significativo, le distribuzioni condizionate dovrebbero risultate
“confuse” e quindi le somme dei ranghi (o delle opportune medie per tener conto che il numero di
osservazioni può variare da strato a strato) dovrebbero risultare prossime tra loro. Se invece le
distribuzioni sono molto diverse (ad esempio, se X = 1 i valori assunti da Y sono molto più bassi dei
valori assunti nel caso in cui X = 2), tali differenze dovrebbero riflettersi nei ranghi.
A partire da tali quantità viene costruita una statistica test per verificare l’ipotesi nulla che le due
popolazioni condizionate sono identiche tra loro.
Il test descritto non è l’unico, ma non è questa la sede per descrivere anche gli altri.