Test non parametrici per verificare l`uguaglianza
Transcript
Test non parametrici per verificare l`uguaglianza
Test non parametrici per verificare l’uguaglianza tra due popolazioni Ricordiamo che una delle ipotesi alla base del test T per verificare l’uguaglianza tra due medie condizionate (cioè le medie di un certo carattere dipendente in due gruppi indotti dalle modalità di un carattere detto esplicativo – o fattore) è che la variabile dipendente abbia una distribuzione normale. Ciò è dovuto al fatto che le medie sono misure di sintesi molto sensibili alla presenza di valori estremi. Quindi se si vuole verificare se la variabile esplicativa (o fattore) ha un effetto sulla variabile dipendente può essere più opportuno fare riferimento a sintesi più robuste, che garantiscono quindi confronti più significativi. [Analisi stratificata: le misure di sintesi]. Prima di trarre conclusioni sui risultati ottenuti utilizzando l’approccio “standard” è quindi necessario verificare l’ipotesi che la variabile dipendente abbia una distribuzione normale: se questa viene rifiutata la procedura standard è inadeguata ed è necessario ricorrere a procedure diverse. Test per la verifica dell’ipotesi di normalità. Uno dei più famosi test per questa ipotesi nulla è quello di test di Kolmogorov-Smirnov. Riportiamo di fianco un esempio di tale test. Notiamo che il p-value è molto basso, e l’ipotesi nulla (secondo la quale la distribuzione è normale) viene quindi rifiutata. One-Sample Kolmogorov-Smirnov Test N Normal Parameters b Aumento 474 215,7265 133,08800 ,178 ,178 -,142 3,884 ,000 Mean Std. Deviation Absolute Positive Negative Most Extreme Differences Kolmogorov-Smirnov Z Asymp. Sig. (2-tailed) b. Calculated from data. Nel caso in cui cada l’ipotesi di normalità della distribuzione è opportuno verificare l’uguaglianza tra le medie ricorrendo a procedure non parametriche. Tali test sono sostanzialmente simili a quelli utilizzati nell’ANOVA non parametrica. Non entriamo nei dettagli ma descriviamo solo sinteticamente l’idea su cui si basa il test più importante, detto test di Wilcoxon-Mann-Whitney. L’idea è quella di considerare i ranghi associati ad ogni osservazione. Consideriamo per semplicità 10 osservazioni su Y, variabile dipendente e X variabile esplicativa (categorica). Y X 2 1 5 1 7 1 8 1 10 1 6 2 9 2 11 2 13 2 15 2 Associamo ad ogni osservazione su Y il suo rango, cioè la posizione che occupa nella sequenze ordinata dei dati. Y (ordinata) X Rango 2 1 1 5 1 2 6 2 3 7 1 4 8 1 5 9 2 6 10 1 7 11 2 8 13 2 9 15 2 10 Determiniamo ora la somma dei ranghi relativi alle osservazioni nel primo strato (X = 1) e la somma dei ranghi relativi alle osservazioni del secondo strato (X = 2). Somma dei ranghi (X = 1) = (1 + 2 + 4 + 5 + 7) = 19 Somma dei ranghi (X = 2) = (3 + 6 + 8 + 9 + 10) = 36. L’idea è che se il fattore non è significativo, le distribuzioni condizionate dovrebbero risultate “confuse” e quindi le somme dei ranghi (o delle opportune medie per tener conto che il numero di osservazioni può variare da strato a strato) dovrebbero risultare prossime tra loro. Se invece le distribuzioni sono molto diverse (ad esempio, se X = 1 i valori assunti da Y sono molto più bassi dei valori assunti nel caso in cui X = 2), tali differenze dovrebbero riflettersi nei ranghi. A partire da tali quantità viene costruita una statistica test per verificare l’ipotesi nulla che le due popolazioni condizionate sono identiche tra loro. Il test descritto non è l’unico, ma non è questa la sede per descrivere anche gli altri.