BIOSTATISTICA

Transcript

BIOSTATISTICA
BIOSTATISTICA
Corso per le Lauree Magistrali
in Scienze Biologiche (LM-6)
Silvano Presciuttini
Biostatistica 2016-17
S. Presciuttini
DATI APPAIATI
Biostatistica 2016-17
S. Presciuttini
Common statistical tests
●
●
The most important statistical tests
are listed in the Table. A distinction
is always made between:
–
“categorical or continuous”
–
“paired or unpaired”“
–
“normal and non-normal”
Queste tre dicotomie determinano,
nel loro complesso, la scelta del
test statistico più appropriato in
molte situazioni
Biostatistica 2016-17
S. Presciuttini
Quando si progetta uno studio
●
Il “taglio raso” di un bosco influisce sul numero di salamandre per mq?
–
Due tipi di disegno sperimentale:
Campionamento per dati
indipendenti: si determina il
numero totale di plot in cui
saranno contate le salamandre
e si assegnano a caso i plot che
saranno rasi
Campionamento per dati
appaiati: si determina il numero
totale dei plot che saranno
studiati, e in ciascuno di essi la
metà della superficie sarà
soggetta a taglio raso
Biostatistica 2016-17
S. Presciuttini
Il disegno per dati appaiati
●
●
Il vantaggio del disegno per dati appaiati è di ridurre gli effetti della
variabilità dovuta a fattori diversi da quello in esame
●
Nel caso dei plot boschivi, i valori ottenuti per per i “mezzi plot” adiacenti
non sono indipendenti, poiché ogni plot condivide condizioni ambientali
(ad es. il tipo di terreno e la quantità d'acqua e di luce) che possono
influenzare la presenza di salamandre
●
Quindi l'analisi dei dati deve tenere conto di questa non-indipendenza
I disegni per dati appaiati sono generalmente piùpotenti di quelli
non appaiati, perché permettono di controllare molte delle
differenze tra unità camponarie alle quali non siamo interessati, e
che talvolta nascondono gli effetti che si stanno cercando
Biostatistica 2016-17
S. Presciuttini
Il disegno per dati appaiati
●
Si vuole verificare l’efficacia di un fertilizzante sulla quantità di raccolto
di mais
●
Si potrebbero identificare 20 terreni di uguali dimensioni, 10 dei quali da
trattare con il fertilizzante e 10 invece da lasciare non trattati (di controllo)
e quindi si potrebbe quindi applicare un test t per campioni indipendenti,
con 18 gradi di libertà
●
Ma la differenza tra i raccolti nei diversi terreni, indipendentemente dal
trattamento, potrebbe essere molto ampia: i suoli sono diversi,
l’esposizione è diversa, l’impianto di irrigazione non è uguale in tutti i
terreni, ecc.
●
Potremmo non essere in grado di far emergere la differenza tra
terreni trattati e non trattati perché tale differenza viene
mascherata dall’enorme variabilità dovuta a molti altri fattori
●
Molto meglio ricorrere ad un disegno con dati appaiati
Biostatistica 2016-17
S. Presciuttini
Dati necessariamente appaiati
●
In certi casi i dati si presentano appaiati per la loro stessa natura
●
●
L'esempio più ovvio è quello dei dati cosiddetti auto-appaiati, in cui ogni
soggetto viene confrontato con se stesso: in questo modo la variazione che
esiste fra soggetti non interferisce con l'effetto del fattore preso in
considerazione
Se molti fattori sono responsabili dei valori che assume la variabile alla
quale siamo interessati, il test per dati appaiati permette di controllarli e
ridurre la “mascheratura” che causano sull'effetto del fattore di interesse
●
Nel disegno per dati appaiati si cerca di creare contemporaneamente il
massimo di omogeneità entro ogni coppia e il massimo di eterogeneità
tra le coppie
Biostatistica 2016-17
S. Presciuttini
Paired data (Motulsky)
●
Paired analyses are appropriate in several kinds of experiments:
●
When measuring a variable in each subject before and after an intervention
(dati auto-appaiati)
●
When measuring a variable in sibling or child/parent pairs (dati
naturalmente appaiati)
●
When recruiting subjects as pairs, matched for variables such as age,
neighborhood, or diagnosis. One of the pair receives an intervention; the
other receives an alternative treatment (dati artificialmente appaiati).
●
When running a laboratory experiment several times, each time with a
control and treated preparation handled in parallel (misure ripetute)
Biostatistica 2016-17
S. Presciuttini
Paired data (Motulsky)
●
In general, you should use methods for paired data whenever the value
of one subject in the first group is expected to be closer to a particular
subject in the second group than with a random subject in the second
group
●
Ideally, you should decide whether to treat the data as pairs when you
design the experiment, before collecting any data. Certainly, you must
define the pairs using only information you knew before the experiment
was performed
●
Generally, if the pairing was effective the CIs will be narrower if the
correct methods are used (taking into account pairing)
Biostatistica 2016-17
S. Presciuttini
Dati appaiati per variabili nominali
Lamberto Soliani: http://www.chierici.biz/biblio/statistica%20ambientale.pdf
●
Si supponga che ad un gruppo di 19 persone, riuniti per un dibattito, sia
stato chiesto se sono favorevoli (+) o contrari (–) all'energia nucleare,
annotando la risposta di ognuno all’inizio della riunione
●
Si supponga poi che, dopo la proiezione di filmati sull’argomento ed una
discussione sui pericoli ed i vantaggi dei diversi modi di produrre
energia elettrica, agli stessi individui sia stato chiesto di esprimere
ancora il loro parere sulla convenienza delle centrali nucleari
●
Si tratta di sapere se, alla fine della serata, vi è stato un
cambiamento significativo nella convinzione degli intervistati.
Biostatistica 2016-17
S. Presciuttini
I risultati dello studio
–
4 persone che prima erano favorevoli, lo erano anche dopo (+/+)
–
8 persone che prima erano favorevoli, dopo erano contrarie (+/–)
–
2 persone che prima erano contrarie, dopo erano favorevoli (–/+)
–
5 persone che prima erano contrarie, lo erano anche dopo (–/–)
Biostatistica 2016-17
S. Presciuttini
Il test di McNemar
●
Ad una lettura non attenta, la tabella può sembrare una tabella di
contingenza 2x2
●
Attenzione: le tabelle di contingenza 2 x 2 mostrano i dati di due
campioni indipendenti e qualsiasi calcolo utilizza tutti e quattro i dati
●
Nel caso di dati nominali appaiati, si utilizzano solo i 2 gruppi che
hanno cambiato segno e si ignorano gli altri (test di McNemar)
–
Il test deve verificare se l’esperimento ha indotto significativi cambiamenti
di parere nel campione interrogato nei due momenti differenti. Pertanto, si
ignorano le persone che sono rimaste della stessa opinione: non forniscono
alcuna informazione sull’effetto del dibattito
Biostatistica 2016-17
S. Presciuttini
Il calcolo del P value
●
Se è vera l'ipotesi nulla (H0: il “trattamento” non determina un
mutamento significativo), coloro che hanno cambiato la loro risposta
dovrebbero aver scelto a caso
●
●
Di conseguenza, il numero di coloro che sono passati dal segno positivo a
quello negativo dovrebbe essere equivalente al numero di coloro che hanno
cambiato nell'altra direzione, dal negativo al positivo
La proporzione attesa nei due gruppi è quindi la stessa (0,5), e la
significatività dello scostamento si può saggiare col c2 o con il test
binomiale
●
Con i dati dell’esempio si prendono in considerazione solo le 8 persone
che da favorevoli sono divenute contrarie e le 2 persone che da contrarie
sono divenute favorevoli
Biostatistica 2016-17
S. Presciuttini
Dati appaiati per variabile continue
●
Un ricercatore si chiede se il livello medio dell’ ematocrito cambia negli
atleti dopo che hanno svolto una attività fisica intensa, per esempio dopo
una competizione
●
Si può procedere al confronto di due campioni di N atleti ciascuno: un
campione viene misurato solo prima della gara, e un campione di altri atleti
solo dopo la gara
●
Le osservazioni sarebbero in questo caso 2N, tutte indipendenti perché
osservate in 2N atleti diversi
●
Questo potrebbe non essere possibile, o potrebbe essere svantaggioso,
perché il numero di atleti disponibili all’esperimento è basso o la
variabilità tra atleti è molto alta, e questa oscurerebbe la differenza
(prima/dopo la gara) alla quale il ricercatore è interessato
Biostatistica 2016-17
S. Presciuttini
Dati appaiati
●
●
Ogni individuo (unità campionaria) fornisce due osservazioni
●
Ogni coppia di osservazioni (prima e dopo la gara, per ciascun individuo)
ha un fattore in comune: l’individuo sulla quale è stata rilevata
●
Se quindi ci sono 2N osservazioni, ma solo n atleti, non possiamo
assumere che ci siano 2N osservazioni indipendenti come se fossero stati
2N atleti
Le due osservazioni sullo stesso soggetto non sono indipendenti, perché
influenzate da fattori individuali comuni
●
●
Per esempio, se un atleta ha normalmente un basso livello di ematocrito, lo
avrà anche basso rispetto agli altri dopo la gara: conoscendo il primo
valore posso prevedere in parte il secondo
Non si può parlare di dati indipendenti e non si può applicare il relativo
test t di Student
Biostatistica 2016-17
S. Presciuttini
Altri esempi di dati non indipendenti
●
Confronto fra il peso di un soggetto prima e dopo un ricovero
ospedaliero
●
Confronto della diversità di specie di pesci in un lago prima e dopo una
grave contaminazione
●
Studio degli effetti di uno schermo solare applicato su un braccio di ogni
soggetto rispetto ad uno schermo nullo applicato all'altro braccio
●
Studio degli effetti del fumo di sigaretta in un campione di soggetti,
ciascuno dei quali viene confrontato con un non fumatore che ha la
stessa età, lo stesso peso e appartiene allo stesso gruppo etnico
●
Verifica degli effetti delle condizioni socioeconomiche sulle preferenze
alimentari di gemelli allevati in famiglie edottive con condizioni
socioeconomiche diverse
Biostatistica 2016-17
S. Presciuttini
Dati appaiati per variabili continue (Motulsky)
●
Se i dati appaiati sono rappresentati da variabili continue (es.: pressione
arteriosa degli stessi soggetti prima e dopo un trattamento), si può
ricorrere al “test t per dati appaiati”
●
For each paired items, calculate the difference between the two
●
Calculate the mean and SE of these differences
●
Calculate
●
●
●
Note that the denominator is the standard error (SE) of the differences. To
calculate this value, list all the differences (calculated for each pair) and
calculate the standard error of the mean (SEM)
The SE of the difference for the paired t test is not the same as the SE of the
difference for the unpaired test. If the pairing is effective, this SE of the
difference will be smaller in the paired test
Determine the P value. The degrees of freedom equal the number of pairs
minus one.
Biostatistica 2016-17
S. Presciuttini
An example of paired t test
●
Let's assume that we followed five students and measured their blood
pressure in both the first and second years and collected the data
●
The mean increase is 8, and the SEM of the increase is 3.74. The t ratio,
therefore, equals 2.14. Because there are five subjects, the number of df
is four. The two-tailed P value is 0.0993
–
If these data had been analyzed by an unpaired two-sample t test, the twotailed P value would have been 0.370. By making repeated measurements
on the same subject and using this information in the analysis, the
experiment is more powerful and generates a smaller P value
Biostatistica 2016-17
S. Presciuttini