Inferenza statistica II parte

Transcript

Inferenza statistica II parte
Inferenza statistica
II parte
Marcella Montico
Servizio di epidemiologia e biostatistica
Test statistici – II parte
Variabili quantitative
1
Caso 1
Variabile Dipendente = quantitativa
Variabile Indipendente = qualitativa
Esistono due categorie di test:
¾ Test parametrici: si applicano quando la
distribuzione della variabile dipendente
soddisfa alcuni requisiti
¾ Test non parametrici: si applicano
quando non esistono i presupposti per un
test parametrico
2
Requisiti
I.
II.
Distribuzione normale della
variabile dipendente
Omoschedasticità (VD con
varianza omogenea tra i
gruppi)
Esempio
Valutare l’influenza del sesso sul peso alla
nascita nei bambini nati a termine.
A tale scopo raccogliamo i dati alla nascita
di 9062 bambini nati a termine in Friuli
Venezia Giulia.
Peso in gr
M
3452
F
3312
3
1. Verifica normalità
¾ La variabile dipendente (peso alla nascita)
è distribuita normalmente?
z
z
Sì: passo a verificare l’omoschedasticità
No: utilizzo un test non parametrico
0
Density
.001
M
3500
4000
peso alla nascita
4500
5000
F
.001
3000
Density
2500
0
2000
2000
2500
3000
3500
peso alla nascita
4000
4500
5000
4
Distribuzione M e F
10
9
8
7
6
M
F
5
4
3
2
1
0
1,7
2
2,2 2,4 2,6 2,8
3
3,2 3,4 3,6 3,8
4
4,2 4,4 4,6 4,8
5
2. Omoschedasticità
La varianza nei pz trattati con farmaco 1 è
simile a quella dei pz trattati con farmaco 2?
¾Sì: ho omoschedasticità
¾No: ho eteroschedasticità
DS M = 440
DS F = 421
5
Caratteristiche VD
Distribuzione normale
Sì
Omoschedasticità
Sì
No
No
Test parametrico
Test non parametrico
Ulteriore criterio:
relazione tra i gruppi
¾
Dipendenza: più misurazioni sullo stesso
paziente (es: pre-post intervento, evoluzione nel
tempo), appaiamento
Test (parametrico o no) per dati appaiati
¾
Indipendenza: gruppi di soggetti diversi
Test (parametrico o no) per dati non appaiati
6
... ritorniamo all’esempio
Il peso alla nascita si distribisce
normalmente
¾ Le varianze sono simili
¾ I gruppi sono indipendenti
¾
Uso il test t di student per dati non appaiati
risultato
Peso in g
DS
M
3452
440
F
3312
421
p-value
<0.001
Il test è significativo: la differenza di peso tra
i maschi e le femmine non è dovuta al caso
7
T – test per dati appaiati
¾VD distribuita normalmente
¾Omoschedasticità
¾Osservazioni appaiati
z
z
es: livello della pressione arteriosa prima e
dopo l’inizio di una cura
es: confronto del peso alla nascita in coppie
di gemelli
Equivalente non parametrico
¾ Test U di Mann Whitney se gruppi
indipendenti
¾ Test dei ranghi segnati di Wilcoxon se i
gruppi sono dipendenti
8
Analisi della varianza (anova)
Vd: quantitativa
VI: categoriale in 3 o più gruppi
¾
¾
Requisiti: gli stessi che per il test t di
student
¾
I.
II.
III.
Distribuzione normale della VD
Stessa varianza tra i gruppi (omoschedasticit
à)
(omoschedasticità
Verifica dell’
dell’indipendenza dei soggetti
(altrimenti anova a misure ripetute)
Esempio
¾
Confronto nei punteggi riportati a un test da
gruppi di ragazzi:
z
z
z
Soffrono di cefalea tensiva ricorrente
Soffrono occasionalmente di cefalea
Non soffrono di cefalea
Cefalea ricorrente
Cefale occ.
No cefalea
Media
8.6
DS
2.7
p
7.6
2.9
0.027
1.5
2.9
9
VD: distribuzione normale
+ stessa varianza tra i gruppi (omoschedasticità)
V indipendente
Gruppi
Due classi
Più classi
Dipendenti
t-test per dati
Anova a
misure ripetute
appaiati
Indipendenti
t-test dati non
appaiati
Anova
VD: non normale o non omoschedastica)
Gruppi
V indipendente
Dipendenti
Indipendenti
Due classi
Più classi
Test dei ranghi
segnati di Wilcoxon
Test di
Friedman
Test U di Mann
Whitney
Test di
Kruskal Wallis
10
Variabile dipendente = dicotomica
Variabile indipendente = quantitativa
¾ Modello logistico
Es: probabilità di infarto del miocardio in
funzione delle calorie assunte con la dieta
Caso 3
Due variabili quantitative
11
Correlazione lineare
¾ Valuta il legame lineare tra due variabili
senza ipotesi sulla relazione di causa –
effetto (nessuna ipotesi su qual è la
variabile dipendente) – variazione
congiunta
¾ Correlazione di pearson (entrambe le
variabili sono normali)
¾ Correlazione di spearman o di kendal
(variabili “almeno” ordinali)
Regressione lineare
¾ Valuta una relazione di tipo lineare tra una
variabile dipendente (distribuita
normalmente) e una indipendente
quantitativa – causa-effetto
¾ Utile per previsioni
12