Confronto fra due popolazioni attraverso il test T e test - CRA-FLC

Transcript

Confronto fra due popolazioni attraverso il test T e test - CRA-FLC
Nota sull’Analisi .....(2a ed.)
3
Confronto fra due popolazioni
attraverso il test t e test analoghi
Consideriamo in questo capitolo gli esperimenti comprendenti un solo fattore fisso, e nel loro
ambito quelli in cui questo criterio di classificazione abbia due sole varianti o livelli.
Considerata una variabile quantitativa, si intende verificare per le medie delle due popolazioni
l'ipotesi nulla:
H0 : µ 1 = µ 2
All'interno di questa situazione, con riferimento ai due campioni estratti dalle altrettante
popolazioni confrontate, possiamo distinguere i seguenti casi:
1) campioni indipendenti: si tratta di una situazione equivalente a quella dell'analisi della
varianza ad un criterio di classificazione (di seguito indicata come AV-1)
2) campioni associati a coppie: la situazione è stavolta equivalente a quella dell'analisi della
varianza a due criteri di classificazione (AV-2), modello misto, essendo ciascun individuo
assimilabile ad una variante del fattore casuale normalmente indicato come blocco.
La procedura TTEST, oggetto del presente paragrafo, è applicabile solo al primo caso; per il
secondo, si adotta invece l'analisi della varianza come per un comune esperimento in blocchi
randomizzati.
Considerando il primo caso, il test t di Student richiede fra le condizioni per la sua applicazione
l'uguaglianza delle varianze delle due popolazioni. Tale condizione diviene meno vincolante nel
caso che il numero di unità sperimentali per campione sia costante. La relativa ipotesi nulla
H0 : σ1 = σ2 = σ
è verificata attraverso il relativo test F bilaterale (F' test o variance-ratio test), che viene
automaticamente eseguito nell'ambito della procedura TTEST.
Nel caso di varianze disuguali con un numero di unità sperimentali disuguali, occorrerà
ricorrere al test di Welch ovvero di Satterthwaite, oppure al più conservativo test di Cochran.
Il primo di questi due tests è automaticamente incluso nella procedura TTEST, mentre il
secondo va richiesto attraverso un'opzione. Infine, un'ulteriore possibilità nel caso in esame è
rappresentata da una trasformazione dei dati che stabilizzi le varianze.
Tutti i test su indicati richiedono come condizione di applicazione che ciascuna popolazione
abbia una distribuzione normale. Tale condizione diviene però poco rilevante nel caso di unità
sperimentali in numero costante ed è trascurabile per campioni di entità piuttosto consistente
(indicativamente non inferiore alle 30 unità). Nel caso di non normalità e di un numero di unità
sperimentali per campione disuguale e ridotto si dovrà ricorrere a certe trasformazioni di
Confronto fra due popolazioni attraverso il test t e test analoghi
23
Nota sull’Analisi .....(2a ed.)
variabile od infine ad un test non parametrico. I test richiedono infine campioni che siano
casuali ed indipendenti fra loro.
Confronto fra due popolazioni attraverso il test t e test analoghi
24
Nota sull’Analisi .....(2a ed.)
3.1 Campioni indipendenti
L'esempio si riferisce ad un confronto fra due metodi di campionamento del terreno per l'analisi
del contenuto in ossido di potassio. Il primo metodo prevede il prelievo e l'analisi separata di
20 prelievi individuali. Col secondo metodo, si analizzano 10 prelievi medi ottenuti ciascuno
dal raggruppamento di 25 prelievi individuali.
Si vuole stabilire se i due metodi conducano in media a dei risultati equivalenti. Nel corso
dell'analisi si vuole verificare l'ipotesi di normalità delle due popolazioni, essendo gli effettivi
dei due campioni relativamente ridotti.
PROGRAMMA SAS
Il tipo di campionamento ed il contenuto in ossido di potassio sono indicati rispettivamente
dalle due varianti indiv e medio della variabile “prelievo” e dai valori della variabile “oxpotass”.
Attraverso l’opzione NORMAL della procedura UNIVARIATE si verifica l’ipotesi di
normalità; ciò viene eseguito per ogni singola popolazione attraverso l’istruzione BY, il cui
impiego va preceduto, come abbiamo già visto, dalla PROC SORT. Infine viene eseguita la
PROC TTEST, indicante in CLASS la variabile che fornisce il criterio di classificazione. Essa
richiede anche, attraverso l'opzione COCHRAN, l'esecuzione dell'omologo test di uguaglianza
delle medie nel caso, considerato qui a priori molto probabile, che l'ipotesi di uguaglianza delle
due varianze debba essere respinta.
*
* 3.1 TEST T E TEST ANALOGHI - CAMPIONI INDIPENDENTI
*
DAGNELIE (1975) - PAG. 28
*;
DATA esempio;
INPUT prelievo $ oxpotass;
CARDS;
medio .96
medio 1.00
medio 1.04
medio 1.04
medio 1.08
medio 1.08
medio 1.08
medio 1.16
medio 1.20
medio 1.28
indiv .80
indiv .84
indiv .88
indiv .88
indiv .92
indiv .92
indiv 1.00
indiv 1.04
indiv 1.20
indiv 1.24
indiv 1.28
indiv 1.40
indiv 1.48
indiv 1.48
Confronto fra due popolazioni attraverso il test t e test analoghi
25
Nota sull’Analisi .....(2a ed.)
indiv 1.48
indiv 1.52
indiv 1.56
indiv 1.88
indiv 1.92
indiv 2.20
;
PROC SORT;
BY prelievo;
PROC UNIVARIATE NORMAL;
VAR oxpotass;
BY prelievo;
TITLE '3.1 Test t e test analoghi - campioni indipendenti';
TITLE2 'verifica della condizione di normalità delle popolazioni';
PROC TTEST COCHRAN;
CLASS prelievo;
VAR oxpotass;
TITLE2 'esecuzione dei test';
RUN;
OUTPUT SAS
L'output della PROC UNIVARIATE riporta una mole notevole di informazioni, che
commenteremo solo in parte. Il test di normalità di Shapiro-Wilks (Ì) indica, attraverso la sua
statistica W, che per entrambe le popolazioni l'ipotesi di normalità non può essere respinta. In
altri termini l'esistenza desunta dal campione, secondo i parametri di Fisher, di una asimmetria
(Ê) verso sinistra in entrambe le popolazioni (τ1 > 0) e di valori di curtosi (Ë) che
renderebbero la prima popolazione (τ2 < 0) e la seconda (τ2 > 0) rispettivamente meno e più
appiattita rispetto alla curva della distribuzione normale non permette di escludere, per una
probabilità di errore accettabile, che ciascuna popolazione sia normale.
La PROC TTEST indica, attraverso l'elevato valore del test F (Ð), che l'ipotesi di uguaglianza
delle due varianze va respinta. Essendo disuguale il numero di unità sperimentali a disposizione
per campione, solo i primi due dei tre test di uguaglianza delle medie riportati nell'output sono
quindi adeguati, cioè quello di Satterthwaite (nel quale ciò che è indicato come T equivale al
valore u osservato del test di Welch) (Í) e quello di Cochran (Î).
I due test adottabili indicano che i due tipi di prelievo del terreno conducono a misure del
contenuto in ossido di potassio significativamente diverse. Non avremmo ottenuto lo stesso
risultato se, senza tenere conto della diversità delle varianze, avessimo semplicemente
considerato il test di Student (Ï).
3.1 Test t e test analoghi - campioni indipendenti
verifica della condizione di normalità delle popolazioni
------------------------------ PRELIEVO=indiv ------------------------------Variable=OXPOTASS
UNIVARIATE PROCEDURE
Moments
N
Mean
Std Dev
Ê Skewness
USS
20
1.296
0.399241
0.661144
36.6208
Sum Wgts
Sum
Variance
Kurtosis
CSS
20
25.92
0.159394
-0.23408 Ë
3.02848
Confronto fra due popolazioni attraverso il test t e test analoghi
26
Nota sull’Analisi .....(2a ed.)
CV
T:Mean=0
Sgn Rank
Num ^= 0
W:Normal
30.80566
14.51725
105
20
0.923156
Std Mean
Prob>|T|
Prob>|S|
Prob<W
0.089273
0.0001
0.0001
0.1205 Ì
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
2.2
1.5
1.26
0.92
0.8
99%
95%
90%
10%
5%
1%
1.4
0.58
1.48
2.2
2.06
1.9
0.86
0.82
0.8
Extremes
Lowest
0.8(
0.84(
0.88(
0.88(
0.92(
Obs
1)
2)
4)
3)
6)
Highest
1.52(
1.56(
1.88(
1.92(
2.2(
Obs
16)
17)
18)
19)
20)
------------------------------ PRELIEVO=medio ------------------------------UNIVARIATE PROCEDURE
Variable=OXPOTASS
Moments
N
Mean
Std Dev
Ê Skewness
USS
CV
T:Mean=0
Sgn Rank
Num ^= 0
W:Normal
10
1.092
0.09624
0.756263
12.008
8.813227
35.88104
27.5
10
0.940446
Sum Wgts
Sum
Variance
Kurtosis
CSS
Std Mean
Prob>|T|
Prob>|S|
Prob<W
10
10.92
0.009262
0.231289 Ë
0.08336
0.030434
0.0001
0.0020
0.5415 Ì
Quantiles(Def=5)
100%
75%
50%
25%
0%
Max
Q3
Med
Q1
Min
Range
Q3-Q1
Mode
1.28
1.16
1.08
1.04
0.96
99%
95%
90%
10%
5%
1%
0.32
0.12
1.08
1.28
1.28
1.24
0.98
0.96
0.96
Extremes
Lowest
0.96(
1(
1.04(
1.04(
1.08(
Obs
1)
2)
4)
3)
7)
Highest
1.08(
1.08(
1.16(
1.2(
1.28(
Obs
6)
7)
8)
9)
10)
Confronto fra due popolazioni attraverso il test t e test analoghi
27
Nota sull’Analisi .....(2a ed.)
Variable: OXPOTASS
TTEST PROCEDURE
PRELIEVO
N
Mean
Std Dev
Std Error
---------------------------------------------------------------------------indiv
20
1.29600000
0.39924139
0.08927309
medio
10
1.09200000
0.09624044
0.03043390
Variances
T
Method
DF
Prob>|T|
-------------------------------------------------------Unequal
2.1629
Satterthwaite
23.0
0.0412 Í
Cochran
.
0.0452 Î
Equal
1.5800
28.0
0.1253 Ï
For H0: Variances are equal, F' =
17.21
DF = (19,9)
Prob>F' = 0.0001 Ð
Confronto fra due popolazioni attraverso il test t e test analoghi
28