Dal disegno a due campioni indipendenti al confronto per dati appaiati

Transcript

Dal disegno a due campioni indipendenti al confronto per dati appaiati
Dal disegno a due campioni indipendenti al confronto per dati appaiati
Dal disegno a due campioni indipendenti al confronto per dati appaiati
Finora abbiamo assunto che tutte le osservazioni siano indipendenti
o Questa assunzione è indispensabile per poter applicare i test descritti.
Vediamo un esempio di una situazione diversa
Il ricercatore si chiede se il livello medio dell’ ematocrito cambia negli atleti dopo che hanno
svolto una attività fisica intensa, per esempio dopo una competizione
Test t per campioni indipendenti (come per i frinosomi)?
o Confronto due campioni di n atleti ciascuno: un campione viene misurato solo prima della
gara (quadratini gialli nella figura a sinistra), e una campione di altri atleti solo dopo la gara
(quadratini rossi nella figura a sinistra)
o Le osservazioni sarebbero in questo caso 2n, tutte indipendenti perché osservate in 2n
atleti diversi
Questo potrebbe non essere possibile, o potrebbe essere svantaggioso, perché:
o Il numero di atleti disponibili all’esperimento è molto basso
o La variabilità tra atleti è molto alta, e questa variabilità “oscurerebbe” la differenza (primadopo la gara) alla quale sono interessato
Ricorriamo al confronto per dati appaiati
Ogni individuo (unità campionaria) fornisce due osservazioni
Ogni coppia di osservazioni (prima e dopo la gara, per ciascun individuo) ha un fattore in
comune: l’individuo sulla quale è stata rilevata
Se quindi ci sono 2n osservazioni, ma solo n atleti, non possiamo assumere che ci siano 2n
osservazioni indipendenti come se fossero stati 2n atleti.
Le due osservazioni sullo stesso soggetto non sono indipendenti, perché influenzate da fattori
individuali comuni
Per esempio, se un atleta ha normalmente un basso livello di ematocrito, lo avrà anche basso
rispetto agli altri dopo la gara: conoscendo il primo valore posso prevedere in parte il secondo
Non si può parlare di dati indipendenti e non si può applicare il test t di Student come visto nel
precedente capitolo
Altri esempi di dati non indipendenti
Ci si chiede se la concentrazione di ozono media nel mondo varia tra un anno e quello
successivo. Questa variabile viene misurata in n località in 2 anni diversi. Chiaramente non ci
sono 2n dati indipendenti, visto che in ogni coppia di osservazioni (stessa località in due anni
diversi) le caratteristiche della località agiscono probabilmente nella medesima direzione.
Ci si chiede se l’età media dell’uomo e della donna sono diverse in coppie sposate. Anche se
non si tratta degli stessi individui, è ovvio che ci sia una certa dipendenza all’interno di ciascuna
coppia: tendenzialmente infatti sappiamo che in una coppia l’età dell’uomo e della donna
tendono ad essere simili. La coppia è l’unità campionaria
Ci si chiede se il taglio di una foresta influenza il numero di salamandre: definisco un certo
numero di superfici di uguali dimensioni, e le suddivido in due parti. A una parte applico il
trattamento (taglio della foresta) e all’altra no (il disegno all’inizio assume anche una analogia
spaziale…)
Come si svolge il test per dati appaiati?
o Si calcola per ognuna delle coppie di osservazioni appaiate la differenza, e ci si concentra
su questa nuova variabile
Località
Milano
Tokio
Berlino
Roma
Parigi
Ferrara
Bologna
Londra
Stoccolma
Mosca
Palermo
New York
Concentrazione. Concentrazione
1. Anno
2. Anno
400
345
20
8
24
29
95
81
228
204
116
140
65
36
112
75
35
47
45
5
81
65
197
187
Calcoliamo per ogni località la differenza tra primo e secondo anno
Località
Milano
Tokio
Berlino
Roma
Parigi
Ferrara
Bologna
Londra
Stoccolma
Mosca
Palermo
New York
Concentrazione Concentrazione Differenza
tra i 2
anni
1. Anno
2. Anno
400
345
55
20
8
12
24
29
-5
95
81
14
228
204
24
116
140
-24
65
36
29
112
75
37
35
47
-12
45
5
40
81
65
16
197
187
10
A questo punto, da 2n osservazioni non indipendenti si è passati a n osservazioni indipendenti,
ciascuna delle quali influenzata solo dalla variabile, l’anno, alla quale sono interessato
Chiamando d la variabile “differenza tra coppie di osservazioni”, d la media nel campione, e δ il
corrispondente parametro, le ipotesi che si volevano testare
H0 : µ1 = µ2
H1 : µ1 ≠ µ2
diventano
H0 : δ = δ0 =0
H1 : δ ≠ δ0
[Infatti se µ1 = µ2 allora µ1 - µ2 = δ= 0]
Per testare queste ipotesi, adesso, sono disponibili gli strumenti usuali
o le n differenze sono appunto indipendenti
o si tratta di testare se la media della popolazione da cui è stato estratto un campione è
uguale o diverso da una media data
o E quindi applichiamo il test t di Student per un campione, che in questo caso chiamiamo
Test t per dati appaiati.
t calc
d −δ0
d
=
=
sd
sd / n
sd : deviazione standard delle differenze
n il numero di differenze (ossia il numero di coppie di osservazioni)
Nell’esempio numerico appena visto
o la media delle differenze = 16.33
o la varianza delle differenze = 513.7
t calc ==
16.33
= 2.5
22.66 / 12
Quindi, visto che il t critico con α = 0.05 e 11 gdl è 2.20, ed è uguale a 3,11 con α = 0.01, posso
escludere l'ipotesi nulla con una probabilità di sbagliare tra l'1% e il 5% (p-value = 0.029) . Molto
probabilmente la concentrazione media è cambiata da un anno all'altro.
Un test t per campioni indipendenti, a parità di numero di misurazioni, ha un numero maggiore
(doppio) di gradi di libertà
Ma un test t per campioni indipendenti è altamente influenzato dalla variabilità tra osservazioni:
se è molto alta, può mascherare la variabilità alla quale sono interessato
Quindi, se se l’eterogeneità tra le osservazioni è molto grande può convenire accoppiare le
osservazioni. In questo modo
o si considerano solo le differenze tra le coppie di osservazioni (che ci interessano, visto che
quantificano l’effetto che stiamo analizzando)
o si cerca di ridurre il peso delle differenze tra diverse osservazioni all’interno dei due
campioni (che introducono una variabilità dovuta a tanti fattori ai quali non siamo
interessati).
Esempio: scelgo di appaiare prima i dati, e poi svolgo il test per dati appaiati
Si vuole verificare l’efficacia di un fertilizzante sulla quantità di raccolto di mais
Si potrebbero identificare 20 terreni di uguali dimensioni, 10 dei quali da trattare con il
fertilizzante e 10 invece da lasciare non trattati (di controllo)
o Si potrebbe quindi applicare un test t per campioni indipendenti, con 18 gradi di libertà
Ma la differenza tra i raccolti nei diversi terreni, indipendentemente dal trattamento, potrebbe
essere molto ampia
o i suoli sono diversi
o l’esposizione è diversa
o l’impianto di irrigazione non è uguale in tutti i terreni
Potremmo non essere in grado di far emergere la differenza tra terreni trattati e non trattati perché
tale differenza viene mascherata dall’enorme variabilità dovuta a molti altri fattori
Scelgo quindi di appaiare i dati
Si scelgono 10 terreni di eguali dimensioni e si dividono in un due parti uguali
Una metà di ciascun terreno viene trattata con il fertilizzante
o Il fattore comune che non ci interessa (tipo di terreno, esposizione, etc) influisce nello
stesso modo su ciascuna coppia di mezzi terreni
o la differenza osservata in ciascun terreno tra le due metà (trattato e non trattato) è dovuta,
se presente, solo al fattore che ci interessa (che sarebbe così più facilmente identificabile)
Attenzione: coppie di osservazioni devono essere identificate in modo che siano dipendenti (cioè che
abbiano veramente il fattore o i fattori che non ci interessano in comune, altrimenti il risultato di
applicare il test per dati appaiati sarebbe solo quelli di ridurre i gradi di libertà (e quindi il potere del
test).
Test a due code e a una coda
Cosa prevedeva l’ipotesi alternativa nei test visti finora?
H1 : µ ≠ µ 0 OPPURE
H1 : π ≠ π0 OPPURE
H1 : µ1 ≠ µ 2
L’ipotesi alternativa includeva sia la possibilità che π>π0, sia quella che π<π0 (oppure µ > µ 0 e
µ < µ 0, oppure µ1 > µ 2 e µ1 < µ 2)
I test di questo tipo si chiamano a due code (o bilaterali, o non direzionali)
√
La regione di rifiuto è distribuita ugualmente ai due estremi della distribuzione nulla
√
I valori critici delle distribuzioni z o t vengono identificati con la dicitura zα/2 o tα/2
√
Per distribuzioni simmetriche, è sufficiente conoscere un solo valore critico
[Infatti, P(Z> zα/2) = P (Z<- zα/2) e P(T> tα/2) = P (T<- tα/2)]
√
Se si usa il p-value, bisogna determinare la probabilità di osservare una statistica test
estrema come quella calcolata, o più estrema, in entrambe le direzioni
In alcuni casi siamo però in grado di fare delle previsioni più specifiche su quale potrebbe
essere la deviazione eventuale dall’ipotesi nulla
Esempio.
o Test sulla somiglianza padri-figlie. A 18 individui vengono presentati 18 set diversi di tre
fotografie. Ogni set è costituito dalla foto di una ragazza, di suo padre, e di un altro uomo.
Ad ogni individuo viene richiesto di identificare il padre. 13 individuano correttamente il
padre, 5 indicano l’altro uomo. L’ipotesi nulla è π = π0 = 0.5, ovvero non esiste somiglianza
e l’indicazione di un uomo rispetto ad un altro è casuale. L’ipotesi alternativa è che ci sia
somiglianza, e quindi è che π > π0 (ovvero che l’identificazione sia corretta in più del 50%
dei casi). L’ipotesi alternativa π < π0 non ha senso.
L’ipotesi nulla (π = π0) resta invariata.
Cosa cambia da un punto di vista pratico?
o Cambiano le aree di accettazione e rifiuto
o Ci si concentra solo sul lato della distribuzione nulla nel quale una deviazione viene
ritenuta possibile
o Un valore deviante nella direzione opposta viene automaticamente (e sempre) considerata
come una deviazione casuale
o Il valore critico della distribuzione di riferimento va ricercato solo dal lato in cui riteniamo
possibile che si possa osservare una deviazione dall’ipotesi nulla.
Quindi, nel caso del test sulla somiglianza padri-figlie, π è la proporzione di riconoscimenti corretti, e
π0 = 0.5. La proporzione di riconoscimenti corretti nel campione, p, è pari a 13/18 = 0.72
H0 : π = π0
H1 : π > π0
zcalc =
p −π0
0.72 − 0.5
=
= 1.87
0.5(0.5)
π 0 (1 − π 0 )
n
18
5 % of
total
area
0
1.64
In questo caso, quindi, il valore calcolato di z risulta significativo, favorendo così l’ipotesi
alternativa. Il p-value corrispondente è pari a 0.031 (valore non precisissimo visto che il numero
di osservazioni è basso; problemi di “continuità”)
Applicare un test t o z ad una coda significa di fatto ridurre il valore assoluto dei valori critici.
Gradi di libertà
t critico per test a
due code
t critico per test a
una coda
5
10
Infiniti
2.571
2.228
1.960
2.015
1.812
1.645
(Ovviamente, il valore critico per un test a una coda
con α =0.05 è uguale al t critico per un test a due code con α =0.10)
In un test ad una coda è quindi più facile respingere l’ipotesi nulla, l’ipotesi che prudentemente
si assume in partenza e che può essere respinta solo se ci sono forti evidenze in suo sfavore.
Il fatto che sia aumentata la possibilità di favorire l’ipotesi alternativa (l’unica conclusione forte
di un test, quella che generalmente ci interessa di più) ci deriva intuitivamente dal fatto che
all’analisi abbiamo aggiunto a priori (cioè prima di osservare i dati) delle conoscenze sulla
deviazione prevista. I
I test a una coda sono teoricamente più potenti dei test a due code
L’utilizzo di un test con approccio unilaterale deve essere limitato solo a casi in cui sussistono
motivazioni ragionevoli per prevedere una deviazione unidirezionale dall’ipotesi nulla. Nel
dubbio, conviene sempre utilizzare l’approccio bidirezionale
Non è mai possibile decidere se fare un test a una o due code dopo aver calcolato il valore
della statistica (z o t). Questo equivarrebbe ad un imbroglio statistico.