Dal disegno a due campioni indipendenti al confronto per dati appaiati
Transcript
Dal disegno a due campioni indipendenti al confronto per dati appaiati
Dal disegno a due campioni indipendenti al confronto per dati appaiati Dal disegno a due campioni indipendenti al confronto per dati appaiati Finora abbiamo assunto che tutte le osservazioni siano indipendenti o Questa assunzione è indispensabile per poter applicare i test descritti. Vediamo un esempio di una situazione diversa Il ricercatore si chiede se il livello medio dell’ ematocrito cambia negli atleti dopo che hanno svolto una attività fisica intensa, per esempio dopo una competizione Test t per campioni indipendenti (come per i frinosomi)? o Confronto due campioni di n atleti ciascuno: un campione viene misurato solo prima della gara (quadratini gialli nella figura a sinistra), e una campione di altri atleti solo dopo la gara (quadratini rossi nella figura a sinistra) o Le osservazioni sarebbero in questo caso 2n, tutte indipendenti perché osservate in 2n atleti diversi Questo potrebbe non essere possibile, o potrebbe essere svantaggioso, perché: o Il numero di atleti disponibili all’esperimento è molto basso o La variabilità tra atleti è molto alta, e questa variabilità “oscurerebbe” la differenza (primadopo la gara) alla quale sono interessato Ricorriamo al confronto per dati appaiati Ogni individuo (unità campionaria) fornisce due osservazioni Ogni coppia di osservazioni (prima e dopo la gara, per ciascun individuo) ha un fattore in comune: l’individuo sulla quale è stata rilevata Se quindi ci sono 2n osservazioni, ma solo n atleti, non possiamo assumere che ci siano 2n osservazioni indipendenti come se fossero stati 2n atleti. Le due osservazioni sullo stesso soggetto non sono indipendenti, perché influenzate da fattori individuali comuni Per esempio, se un atleta ha normalmente un basso livello di ematocrito, lo avrà anche basso rispetto agli altri dopo la gara: conoscendo il primo valore posso prevedere in parte il secondo Non si può parlare di dati indipendenti e non si può applicare il test t di Student come visto nel precedente capitolo Altri esempi di dati non indipendenti Ci si chiede se la concentrazione di ozono media nel mondo varia tra un anno e quello successivo. Questa variabile viene misurata in n località in 2 anni diversi. Chiaramente non ci sono 2n dati indipendenti, visto che in ogni coppia di osservazioni (stessa località in due anni diversi) le caratteristiche della località agiscono probabilmente nella medesima direzione. Ci si chiede se l’età media dell’uomo e della donna sono diverse in coppie sposate. Anche se non si tratta degli stessi individui, è ovvio che ci sia una certa dipendenza all’interno di ciascuna coppia: tendenzialmente infatti sappiamo che in una coppia l’età dell’uomo e della donna tendono ad essere simili. La coppia è l’unità campionaria Ci si chiede se il taglio di una foresta influenza il numero di salamandre: definisco un certo numero di superfici di uguali dimensioni, e le suddivido in due parti. A una parte applico il trattamento (taglio della foresta) e all’altra no (il disegno all’inizio assume anche una analogia spaziale…) Come si svolge il test per dati appaiati? o Si calcola per ognuna delle coppie di osservazioni appaiate la differenza, e ci si concentra su questa nuova variabile Località Milano Tokio Berlino Roma Parigi Ferrara Bologna Londra Stoccolma Mosca Palermo New York Concentrazione. Concentrazione 1. Anno 2. Anno 400 345 20 8 24 29 95 81 228 204 116 140 65 36 112 75 35 47 45 5 81 65 197 187 Calcoliamo per ogni località la differenza tra primo e secondo anno Località Milano Tokio Berlino Roma Parigi Ferrara Bologna Londra Stoccolma Mosca Palermo New York Concentrazione Concentrazione Differenza tra i 2 anni 1. Anno 2. Anno 400 345 55 20 8 12 24 29 -5 95 81 14 228 204 24 116 140 -24 65 36 29 112 75 37 35 47 -12 45 5 40 81 65 16 197 187 10 A questo punto, da 2n osservazioni non indipendenti si è passati a n osservazioni indipendenti, ciascuna delle quali influenzata solo dalla variabile, l’anno, alla quale sono interessato Chiamando d la variabile “differenza tra coppie di osservazioni”, d la media nel campione, e δ il corrispondente parametro, le ipotesi che si volevano testare H0 : µ1 = µ2 H1 : µ1 ≠ µ2 diventano H0 : δ = δ0 =0 H1 : δ ≠ δ0 [Infatti se µ1 = µ2 allora µ1 - µ2 = δ= 0] Per testare queste ipotesi, adesso, sono disponibili gli strumenti usuali o le n differenze sono appunto indipendenti o si tratta di testare se la media della popolazione da cui è stato estratto un campione è uguale o diverso da una media data o E quindi applichiamo il test t di Student per un campione, che in questo caso chiamiamo Test t per dati appaiati. t calc d −δ0 d = = sd sd / n sd : deviazione standard delle differenze n il numero di differenze (ossia il numero di coppie di osservazioni) Nell’esempio numerico appena visto o la media delle differenze = 16.33 o la varianza delle differenze = 513.7 t calc == 16.33 = 2.5 22.66 / 12 Quindi, visto che il t critico con α = 0.05 e 11 gdl è 2.20, ed è uguale a 3,11 con α = 0.01, posso escludere l'ipotesi nulla con una probabilità di sbagliare tra l'1% e il 5% (p-value = 0.029) . Molto probabilmente la concentrazione media è cambiata da un anno all'altro. Un test t per campioni indipendenti, a parità di numero di misurazioni, ha un numero maggiore (doppio) di gradi di libertà Ma un test t per campioni indipendenti è altamente influenzato dalla variabilità tra osservazioni: se è molto alta, può mascherare la variabilità alla quale sono interessato Quindi, se se l’eterogeneità tra le osservazioni è molto grande può convenire accoppiare le osservazioni. In questo modo o si considerano solo le differenze tra le coppie di osservazioni (che ci interessano, visto che quantificano l’effetto che stiamo analizzando) o si cerca di ridurre il peso delle differenze tra diverse osservazioni all’interno dei due campioni (che introducono una variabilità dovuta a tanti fattori ai quali non siamo interessati). Esempio: scelgo di appaiare prima i dati, e poi svolgo il test per dati appaiati Si vuole verificare l’efficacia di un fertilizzante sulla quantità di raccolto di mais Si potrebbero identificare 20 terreni di uguali dimensioni, 10 dei quali da trattare con il fertilizzante e 10 invece da lasciare non trattati (di controllo) o Si potrebbe quindi applicare un test t per campioni indipendenti, con 18 gradi di libertà Ma la differenza tra i raccolti nei diversi terreni, indipendentemente dal trattamento, potrebbe essere molto ampia o i suoli sono diversi o l’esposizione è diversa o l’impianto di irrigazione non è uguale in tutti i terreni Potremmo non essere in grado di far emergere la differenza tra terreni trattati e non trattati perché tale differenza viene mascherata dall’enorme variabilità dovuta a molti altri fattori Scelgo quindi di appaiare i dati Si scelgono 10 terreni di eguali dimensioni e si dividono in un due parti uguali Una metà di ciascun terreno viene trattata con il fertilizzante o Il fattore comune che non ci interessa (tipo di terreno, esposizione, etc) influisce nello stesso modo su ciascuna coppia di mezzi terreni o la differenza osservata in ciascun terreno tra le due metà (trattato e non trattato) è dovuta, se presente, solo al fattore che ci interessa (che sarebbe così più facilmente identificabile) Attenzione: coppie di osservazioni devono essere identificate in modo che siano dipendenti (cioè che abbiano veramente il fattore o i fattori che non ci interessano in comune, altrimenti il risultato di applicare il test per dati appaiati sarebbe solo quelli di ridurre i gradi di libertà (e quindi il potere del test). Test a due code e a una coda Cosa prevedeva l’ipotesi alternativa nei test visti finora? H1 : µ ≠ µ 0 OPPURE H1 : π ≠ π0 OPPURE H1 : µ1 ≠ µ 2 L’ipotesi alternativa includeva sia la possibilità che π>π0, sia quella che π<π0 (oppure µ > µ 0 e µ < µ 0, oppure µ1 > µ 2 e µ1 < µ 2) I test di questo tipo si chiamano a due code (o bilaterali, o non direzionali) √ La regione di rifiuto è distribuita ugualmente ai due estremi della distribuzione nulla √ I valori critici delle distribuzioni z o t vengono identificati con la dicitura zα/2 o tα/2 √ Per distribuzioni simmetriche, è sufficiente conoscere un solo valore critico [Infatti, P(Z> zα/2) = P (Z<- zα/2) e P(T> tα/2) = P (T<- tα/2)] √ Se si usa il p-value, bisogna determinare la probabilità di osservare una statistica test estrema come quella calcolata, o più estrema, in entrambe le direzioni In alcuni casi siamo però in grado di fare delle previsioni più specifiche su quale potrebbe essere la deviazione eventuale dall’ipotesi nulla Esempio. o Test sulla somiglianza padri-figlie. A 18 individui vengono presentati 18 set diversi di tre fotografie. Ogni set è costituito dalla foto di una ragazza, di suo padre, e di un altro uomo. Ad ogni individuo viene richiesto di identificare il padre. 13 individuano correttamente il padre, 5 indicano l’altro uomo. L’ipotesi nulla è π = π0 = 0.5, ovvero non esiste somiglianza e l’indicazione di un uomo rispetto ad un altro è casuale. L’ipotesi alternativa è che ci sia somiglianza, e quindi è che π > π0 (ovvero che l’identificazione sia corretta in più del 50% dei casi). L’ipotesi alternativa π < π0 non ha senso. L’ipotesi nulla (π = π0) resta invariata. Cosa cambia da un punto di vista pratico? o Cambiano le aree di accettazione e rifiuto o Ci si concentra solo sul lato della distribuzione nulla nel quale una deviazione viene ritenuta possibile o Un valore deviante nella direzione opposta viene automaticamente (e sempre) considerata come una deviazione casuale o Il valore critico della distribuzione di riferimento va ricercato solo dal lato in cui riteniamo possibile che si possa osservare una deviazione dall’ipotesi nulla. Quindi, nel caso del test sulla somiglianza padri-figlie, π è la proporzione di riconoscimenti corretti, e π0 = 0.5. La proporzione di riconoscimenti corretti nel campione, p, è pari a 13/18 = 0.72 H0 : π = π0 H1 : π > π0 zcalc = p −π0 0.72 − 0.5 = = 1.87 0.5(0.5) π 0 (1 − π 0 ) n 18 5 % of total area 0 1.64 In questo caso, quindi, il valore calcolato di z risulta significativo, favorendo così l’ipotesi alternativa. Il p-value corrispondente è pari a 0.031 (valore non precisissimo visto che il numero di osservazioni è basso; problemi di “continuità”) Applicare un test t o z ad una coda significa di fatto ridurre il valore assoluto dei valori critici. Gradi di libertà t critico per test a due code t critico per test a una coda 5 10 Infiniti 2.571 2.228 1.960 2.015 1.812 1.645 (Ovviamente, il valore critico per un test a una coda con α =0.05 è uguale al t critico per un test a due code con α =0.10) In un test ad una coda è quindi più facile respingere l’ipotesi nulla, l’ipotesi che prudentemente si assume in partenza e che può essere respinta solo se ci sono forti evidenze in suo sfavore. Il fatto che sia aumentata la possibilità di favorire l’ipotesi alternativa (l’unica conclusione forte di un test, quella che generalmente ci interessa di più) ci deriva intuitivamente dal fatto che all’analisi abbiamo aggiunto a priori (cioè prima di osservare i dati) delle conoscenze sulla deviazione prevista. I I test a una coda sono teoricamente più potenti dei test a due code L’utilizzo di un test con approccio unilaterale deve essere limitato solo a casi in cui sussistono motivazioni ragionevoli per prevedere una deviazione unidirezionale dall’ipotesi nulla. Nel dubbio, conviene sempre utilizzare l’approccio bidirezionale Non è mai possibile decidere se fare un test a una o due code dopo aver calcolato il valore della statistica (z o t). Questo equivarrebbe ad un imbroglio statistico.