BIOSTATISTICA
Transcript
BIOSTATISTICA
BIOSTATISTICA Corso per le Lauree Magistrali in Scienze Biologiche (LM-6) Silvano Presciuttini Biostatistica 2016-17 S. Presciuttini DATI APPAIATI Biostatistica 2016-17 S. Presciuttini Common statistical tests ● ● The most important statistical tests are listed in the Table. A distinction is always made between: – “categorical or continuous” – “paired or unpaired”“ – “normal and non-normal” Queste tre dicotomie determinano, nel loro complesso, la scelta del test statistico più appropriato in molte situazioni Biostatistica 2016-17 S. Presciuttini Quando si progetta uno studio ● Il “taglio raso” di un bosco influisce sul numero di salamandre per mq? – Due tipi di disegno sperimentale: Campionamento per dati indipendenti: si determina il numero totale di plot in cui saranno contate le salamandre e si assegnano a caso i plot che saranno rasi Campionamento per dati appaiati: si determina il numero totale dei plot che saranno studiati, e in ciascuno di essi la metà della superficie sarà soggetta a taglio raso Biostatistica 2016-17 S. Presciuttini Il disegno per dati appaiati ● ● Il vantaggio del disegno per dati appaiati è di ridurre gli effetti della variabilità dovuta a fattori diversi da quello in esame ● Nel caso dei plot boschivi, i valori ottenuti per per i “mezzi plot” adiacenti non sono indipendenti, poiché ogni plot condivide condizioni ambientali (ad es. il tipo di terreno e la quantità d'acqua e di luce) che possono influenzare la presenza di salamandre ● Quindi l'analisi dei dati deve tenere conto di questa non-indipendenza I disegni per dati appaiati sono generalmente piùpotenti di quelli non appaiati, perché permettono di controllare molte delle differenze tra unità camponarie alle quali non siamo interessati, e che talvolta nascondono gli effetti che si stanno cercando Biostatistica 2016-17 S. Presciuttini Il disegno per dati appaiati ● Si vuole verificare l’efficacia di un fertilizzante sulla quantità di raccolto di mais ● Si potrebbero identificare 20 terreni di uguali dimensioni, 10 dei quali da trattare con il fertilizzante e 10 invece da lasciare non trattati (di controllo) e quindi si potrebbe quindi applicare un test t per campioni indipendenti, con 18 gradi di libertà ● Ma la differenza tra i raccolti nei diversi terreni, indipendentemente dal trattamento, potrebbe essere molto ampia: i suoli sono diversi, l’esposizione è diversa, l’impianto di irrigazione non è uguale in tutti i terreni, ecc. ● Potremmo non essere in grado di far emergere la differenza tra terreni trattati e non trattati perché tale differenza viene mascherata dall’enorme variabilità dovuta a molti altri fattori ● Molto meglio ricorrere ad un disegno con dati appaiati Biostatistica 2016-17 S. Presciuttini Dati necessariamente appaiati ● In certi casi i dati si presentano appaiati per la loro stessa natura ● ● L'esempio più ovvio è quello dei dati cosiddetti auto-appaiati, in cui ogni soggetto viene confrontato con se stesso: in questo modo la variazione che esiste fra soggetti non interferisce con l'effetto del fattore preso in considerazione Se molti fattori sono responsabili dei valori che assume la variabile alla quale siamo interessati, il test per dati appaiati permette di controllarli e ridurre la “mascheratura” che causano sull'effetto del fattore di interesse ● Nel disegno per dati appaiati si cerca di creare contemporaneamente il massimo di omogeneità entro ogni coppia e il massimo di eterogeneità tra le coppie Biostatistica 2016-17 S. Presciuttini Paired data (Motulsky) ● Paired analyses are appropriate in several kinds of experiments: ● When measuring a variable in each subject before and after an intervention (dati auto-appaiati) ● When measuring a variable in sibling or child/parent pairs (dati naturalmente appaiati) ● When recruiting subjects as pairs, matched for variables such as age, neighborhood, or diagnosis. One of the pair receives an intervention; the other receives an alternative treatment (dati artificialmente appaiati). ● When running a laboratory experiment several times, each time with a control and treated preparation handled in parallel (misure ripetute) Biostatistica 2016-17 S. Presciuttini Paired data (Motulsky) ● In general, you should use methods for paired data whenever the value of one subject in the first group is expected to be closer to a particular subject in the second group than with a random subject in the second group ● Ideally, you should decide whether to treat the data as pairs when you design the experiment, before collecting any data. Certainly, you must define the pairs using only information you knew before the experiment was performed ● Generally, if the pairing was effective the CIs will be narrower if the correct methods are used (taking into account pairing) Biostatistica 2016-17 S. Presciuttini Dati appaiati per variabili nominali Lamberto Soliani: http://www.chierici.biz/biblio/statistica%20ambientale.pdf ● Si supponga che ad un gruppo di 19 persone, riuniti per un dibattito, sia stato chiesto se sono favorevoli (+) o contrari (–) all'energia nucleare, annotando la risposta di ognuno all’inizio della riunione ● Si supponga poi che, dopo la proiezione di filmati sull’argomento ed una discussione sui pericoli ed i vantaggi dei diversi modi di produrre energia elettrica, agli stessi individui sia stato chiesto di esprimere ancora il loro parere sulla convenienza delle centrali nucleari ● Si tratta di sapere se, alla fine della serata, vi è stato un cambiamento significativo nella convinzione degli intervistati. Biostatistica 2016-17 S. Presciuttini I risultati dello studio – 4 persone che prima erano favorevoli, lo erano anche dopo (+/+) – 8 persone che prima erano favorevoli, dopo erano contrarie (+/–) – 2 persone che prima erano contrarie, dopo erano favorevoli (–/+) – 5 persone che prima erano contrarie, lo erano anche dopo (–/–) Biostatistica 2016-17 S. Presciuttini Il test di McNemar ● Ad una lettura non attenta, la tabella può sembrare una tabella di contingenza 2x2 ● Attenzione: le tabelle di contingenza 2 x 2 mostrano i dati di due campioni indipendenti e qualsiasi calcolo utilizza tutti e quattro i dati ● Nel caso di dati nominali appaiati, si utilizzano solo i 2 gruppi che hanno cambiato segno e si ignorano gli altri (test di McNemar) – Il test deve verificare se l’esperimento ha indotto significativi cambiamenti di parere nel campione interrogato nei due momenti differenti. Pertanto, si ignorano le persone che sono rimaste della stessa opinione: non forniscono alcuna informazione sull’effetto del dibattito Biostatistica 2016-17 S. Presciuttini Il calcolo del P value ● Se è vera l'ipotesi nulla (H0: il “trattamento” non determina un mutamento significativo), coloro che hanno cambiato la loro risposta dovrebbero aver scelto a caso ● ● Di conseguenza, il numero di coloro che sono passati dal segno positivo a quello negativo dovrebbe essere equivalente al numero di coloro che hanno cambiato nell'altra direzione, dal negativo al positivo La proporzione attesa nei due gruppi è quindi la stessa (0,5), e la significatività dello scostamento si può saggiare col c2 o con il test binomiale ● Con i dati dell’esempio si prendono in considerazione solo le 8 persone che da favorevoli sono divenute contrarie e le 2 persone che da contrarie sono divenute favorevoli Biostatistica 2016-17 S. Presciuttini Dati appaiati per variabile continue ● Un ricercatore si chiede se il livello medio dell’ ematocrito cambia negli atleti dopo che hanno svolto una attività fisica intensa, per esempio dopo una competizione ● Si può procedere al confronto di due campioni di N atleti ciascuno: un campione viene misurato solo prima della gara, e un campione di altri atleti solo dopo la gara ● Le osservazioni sarebbero in questo caso 2N, tutte indipendenti perché osservate in 2N atleti diversi ● Questo potrebbe non essere possibile, o potrebbe essere svantaggioso, perché il numero di atleti disponibili all’esperimento è basso o la variabilità tra atleti è molto alta, e questa oscurerebbe la differenza (prima/dopo la gara) alla quale il ricercatore è interessato Biostatistica 2016-17 S. Presciuttini Dati appaiati ● ● Ogni individuo (unità campionaria) fornisce due osservazioni ● Ogni coppia di osservazioni (prima e dopo la gara, per ciascun individuo) ha un fattore in comune: l’individuo sulla quale è stata rilevata ● Se quindi ci sono 2N osservazioni, ma solo n atleti, non possiamo assumere che ci siano 2N osservazioni indipendenti come se fossero stati 2N atleti Le due osservazioni sullo stesso soggetto non sono indipendenti, perché influenzate da fattori individuali comuni ● ● Per esempio, se un atleta ha normalmente un basso livello di ematocrito, lo avrà anche basso rispetto agli altri dopo la gara: conoscendo il primo valore posso prevedere in parte il secondo Non si può parlare di dati indipendenti e non si può applicare il relativo test t di Student Biostatistica 2016-17 S. Presciuttini Altri esempi di dati non indipendenti ● Confronto fra il peso di un soggetto prima e dopo un ricovero ospedaliero ● Confronto della diversità di specie di pesci in un lago prima e dopo una grave contaminazione ● Studio degli effetti di uno schermo solare applicato su un braccio di ogni soggetto rispetto ad uno schermo nullo applicato all'altro braccio ● Studio degli effetti del fumo di sigaretta in un campione di soggetti, ciascuno dei quali viene confrontato con un non fumatore che ha la stessa età, lo stesso peso e appartiene allo stesso gruppo etnico ● Verifica degli effetti delle condizioni socioeconomiche sulle preferenze alimentari di gemelli allevati in famiglie edottive con condizioni socioeconomiche diverse Biostatistica 2016-17 S. Presciuttini Dati appaiati per variabili continue (Motulsky) ● Se i dati appaiati sono rappresentati da variabili continue (es.: pressione arteriosa degli stessi soggetti prima e dopo un trattamento), si può ricorrere al “test t per dati appaiati” ● For each paired items, calculate the difference between the two ● Calculate the mean and SE of these differences ● Calculate ● ● ● Note that the denominator is the standard error (SE) of the differences. To calculate this value, list all the differences (calculated for each pair) and calculate the standard error of the mean (SEM) The SE of the difference for the paired t test is not the same as the SE of the difference for the unpaired test. If the pairing is effective, this SE of the difference will be smaller in the paired test Determine the P value. The degrees of freedom equal the number of pairs minus one. Biostatistica 2016-17 S. Presciuttini An example of paired t test ● Let's assume that we followed five students and measured their blood pressure in both the first and second years and collected the data ● The mean increase is 8, and the SEM of the increase is 3.74. The t ratio, therefore, equals 2.14. Because there are five subjects, the number of df is four. The two-tailed P value is 0.0993 – If these data had been analyzed by an unpaired two-sample t test, the twotailed P value would have been 0.370. By making repeated measurements on the same subject and using this information in the analysis, the experiment is more powerful and generates a smaller P value Biostatistica 2016-17 S. Presciuttini