Le Variabili - Scuola di Medicina

Transcript

Le Variabili - Scuola di Medicina
Università del Piemonte Orientale
Specializzazioni di area sanitaria
Statistica Medica
Regressione Lineare e Correlazione
Argomenti della lezione
• Determinismo e variabilità
• Correlazione
• Regressione Lineare
• Requisiti e valutazione
Determinismo e Variabilità
Modelli Deterministici
L’approccio scientifico alla
medicina si basa sulla
definizione di modelli
che sono composti da
relazioni e da quantità.
Ad esempio la Compliance
Polmonare:C=∆V/∆P
Esiste tuttavia una
variabilità in relazione
alla legge generale
Variabilità
Per studiare le relazioni esistenti tra variabili si deve
considerare
4,5
a) una compenente deterministica
4
Manuale
Variabile
dipendente
b) una compenete casuale della loro relazione
3,5
Variabilità
Casuale
3
Legge (Modello)
che mette in
relazione la
variabile
indipendente e la
variabile
dipendente
2,5
2
1,5
1,5
2
2,5
VariabileUltrasuoni
indipendente
3
3,5
4
Le Variabili
La statistica lavora su VARIABILI,
VARIABILI ossia su dati che
cambiano valore da un soggetto all’altro.
Ad esempio: Pressione Arteriosa, Altezza, Peso.
Il valore delle variabili viene misurato a livello di ogni
unità statistica (singolo soggetto o aggregato di soggetti).
Le variabili statistiche sono dette “Aleatorie o Casuali”,
infatti ad ogni possibile valore di una variabile è associata
una specifica ed i valori osservati sono considerate come
estratti casualmente da una distribuzione di probabilità.
Modelli Probabilistici
Lo scopo è quello di costruire una rappresentazione
statistica (cioè che quantifichi la variabilità esistente
tra le osservazioni) adeguata per descrive gli aspetti
essenziali del fenomeno che vogliamo studiare.
Modello: descrizione o riproduzione selettiva, più o
meno formalizzata, della realtà. Nel nostro caso è
un equazione matematica.
Ad esempio, peso osservato alla nascita e peso
stimato prima della nascita con l’ecografia.
Esempio (Peso alla nascita)
Soggetto
No.
1
2
3
4
5
6
7
8
.
.
.
44
45
46
Peso
Peso
alla
stimato
nascita Ecografia
2,33
2,95
2,95
2,64
3,57
2,95
3,1
2,48
.
.
.
2,17
2,17
2,79
2,21
2,11
2,32
2,04
2,09
2,25
2,84
2,34
.
.
.
2,61
2,31
2,6
Si possono studiare
(A) la distribuzione del
peso alla nascita di
un neonato,
(B) la distribuzione della
stima del peso alla
nascita di un
neonato (ecografia)
(C) la relazione che
esiste tra A e B.
Esempio (Peso alla nascita)
Diagramma di dispersione
4,5
3,5
3
2,5
Peso (Kg) Nascita
4
2
Peso (Kg) Ecografia
1,5
1,5
2
2,5
3
3,5
4
Esempio (Peso alla nascita)
Regressione (lineare)
4,5
3,5
3
2,5
Peso (Kg) Nascita
4
Retta che mette in
relazione il peso
stimato con
l’ecografia e
quello osservato
alla nascita
2
Peso (Kg) Ecografia
1,5
1,5
2
2,5
3
3,5
4
Esempio (Peso alla nascita)
Variabilità
4,5
3,5
3
2,5
Peso (Kg) Nascita
4
Variabilità
Casuale
Retta che mette in
relazione il peso
stimato con
l’ecografia e
quello osservato
alla nascita
(non “spiegata”
dal modello)
2
Peso (Kg) Ecografia
1,5
1,5
2
2,5
3
3,5
4
Campo di applicazione
Analisi della relazione tra due variabili continue
1) Correlazione Æ Le variabili sono associate?
2) Regressione Æ Come varia il valore di una
variabile in conseguenza del variare di un’altra
variabile? Spiegato dalla componente
deterministica del modello.
3) Variabilità ÆQual’è la variabilità residua non
spiegata dall’equazione lineare?
Correlazione
Correlazione
Dato un insieme di osservazioni definite da
due variabili continue,
valutiamo la forza dell’associazione tra le due
variabili
disegnando il diagramma di dispersione e
calcolando il coefficiente di correlazione.
Diagramma di dispersione
Si disegna riportando i valori delle
osservazioni su un sistema di assi cartesiani,
in cui l’asse x rappresenta una delle due
variabili e l’asse y l’altra variabile.
Il diagramma consente di collocare ogni
osservazione nello spazio definito dai valori
possibili delle due variabili.
Diagramma di dispersione
4,5
La forma della nuvola di punti così ottenuta consente una
valutazione visiva del grado di associazione tra le due variabili
3,5
3
2,5
Peso (Kg) Nascita
4
2
Peso (Kg) Ecografia
1,5
1,5
2
2,5
3
3,5
4
Coefficiente di Pearson (definizione)
Il coefficiente di correlazione di Pearson (r)
consente la valutazione formale del grado di
associazione.
• L’intervallo dei valori possibili di r è: -1 <= r <=1
• Se r = 1 o r = -1 tutti i punti giacciono su una retta
(assenza di variabilità)
• Se il valore è positivo l’associazione è diretta se il
valore è negativo l’associazione è inversa.
Coefficiente di Pearson (formula)
∑ (x
n
r=
i =1
∑ (x
n
i =1
i
i
)(
− x yi − y
−x
)
) ∑ (y − y )
2
n
i =1
2
i
n:numero di osservazioni
xi ; yi: valore della singola osservazione
x ; y : valore medio della variabile indipendente e dipendente
Coefficiente di Pearson (esempio)
36,0
r = 0,15
circonferenza cranica
34,0
32,0
30,0
28,0
26,0
24,0
22,0
20,0
10
15
20
25
30
età materna
35
40
45
Coefficiente di Pearson (esempio)
36,0
r = 0,72
circonferenza cranica
34,0
32,0
30,0
28,0
26,0
24,0
22,0
20,0
19
24
29
34
lunghezza
39
44
49
Esempio (variabili e dati)
Relazione tra
concentrazione
plasmatica
di colesterolo
e
di trigliceridi
1
2
3
4
5
6
7
8
9
10
medie:
Colesterolo Trigliceridi
(x)
(y)
3,45
6,24
3,5
6,18
2,95
5,2
3,77
6,11
3,67
6,36
5,31
5,67
5,1
5,48
7,85
5,67
8,79
9,4
12,3
8,4
5,669
6,471
Esempio (scatterplot)
10
9
trigliceridi
8
7
6
5
4
3
2
1
0
0
2
4
6
8
colesterolo
10
12
14
Esempio (correlazione)
Colesterolo Trigliceri
(x)
di (y)
3,45
3,5
2,95
3,77
3,67
5,31
5,1
7,85
8,79
12,3
6,24
6,18
5,2
6,11
6,36
5,67
5,48
5,67
9,4
8,4
(x − x ) (y − y ) (x − x )* (y − y )
i
-2,459
-2,409
-2,959
-2,139
-2,239
-0,599
-0,809
1,941
2,881
6,391
i
i
i
(x − x) (y − y)
2
i
2
i
-0,493
-0,553
-1,533
-0,623
-0,373
-1,063
-1,253
-1,063
2,667
1,667
1,212287
1,332177
4,536147
1,332597
0,835147
0,636737
1,013677
-2,063283
7,683627
10,653797
6,046681
5,803281
8,755681
4,575321
5,013121
0,358801
0,654481
3,767481
8,300161
40,844881
0,243049
0,305809
2,350089
0,388129
0,139129
1,129969
1,570009
1,129969
7,112889
2,778889
Sommatorie:
26,54411
83,54389
16,46149
Coeff.
Pearson
r=
0,716
Regressione lineare
Regressione lineare
Regressione:
Regressione stima della variazione media
di una variabile dipendente
in funzione
della variazione unitaria
di una variabile indipendente
Lineare:
Lineare la funzione in questo caso è quella che
definisce una retta
Perchè Regressione Lineare?
• La variazione lineare è spesso una
spiegazione adeguata
• Variazioni non lineari diventano tali
dopo una trasformazione matematica di
una delle variabili
• La variazione lineare è un punto di
partenza
Esempio (Peso alla nascita)
4,5
Regressione lineare
3,5
3
2,5
Peso (Kg) Nascita
4
Variabilità
Casuale
Retta che mette
in relazione il
peso stimato
con l’ecografia
e quello
osservato alla
nascita
(non “spiegata”
dal modello)
2
Peso (Kg) Ecografia
1,5
1,5
2
2,5
3
3,5
4
Regressione lineare (variabili)
Possibile
Effetto
(var. dipendente)
Variabile indipendente
Æ possibile causa
Æ sulle ascisse
y
x
Possibile
Causa
(var. dipendente)
Variabile dipendente
Æ possibile effetto
Æ sulle ordinate
Equazione della Retta
Individuare la retta che meglio predice il valore di
y (variabile dipendente), dato il valore di x
(variabile indipendente).
y = a + bx
a: intercetta
b: pendenza (coefficiente angolare)
Come stimiamo i valori dei due coefficienti (a,b)?
Quale Retta?
Media di y
y
La retta che meglio predice y|x
passa per la media di x e di y
Per un punto passano
infinite rette!
Quale retta scegliamo?
Con quale criterio?
Media di x
x
Metodo detto ‘dei minimi quadrati’
y
Residuo (o scarto) = valore y osservato – valore y predetto
valore y osservato
Residuo o scarto
valore y predetto
x
La retta migliore minimizza la somma dei quadrati dei residui
Equazione della Retta
Individuare la retta che meglio predice il valore di y
(variabile dipendente), dato il valore di x (variabile
indipendente).
y = a + bx
a: intercetta
b: pendenza (coefficiente
angolare)
∑ (x − x )(y − y )
b=
∑ (xi − x )
i
i
2
a = y − bx
Esempio (colesterolo e trigliceridi)
(x ) (y ) (x ) (y ) (x − x)
Colester Triglice
−x
i
olo (x) ridi (y)
1
3,45
6,24 -2,219
-0,231
0,512589
i
4,923961
2
3,5
6,18 -2,169
-0,291
0,631179
4,704561
3
2,95
5,2 -2,719
-1,271
3,455849
7,392961
4
3,77
6,11 -1,899
-0,361
0,685539
3,606201
5
3,67
6,36 -1,999
-0,111
0,221889
3,996001
6
5,31
5,67 -0,359
-0,801
0,287559
0,128881
7
5,1
5,48 -0,569
-0,991
0,563879
0,323761
8
7,85
5,67
2,181
-0,801
-1,746981
4,756761
9
8,79
9,4
3,121
2,929
9,141409
9,740641
10
12,3
8,4
6,631
1,929
5,669
6,471
medie:
b=
0,318
a=
4,67
i
−y
−x *
i
i
−y
2
12,791199 43,970161
26,54411
83,54389
Relazione tra Colesterolo e TG
trigliceridi (y)
10
a=4,67
8
b = 0,32
6
4
2
0
0
2
4
6
8
10
12
colesterolo (x)
trigliceridi=4,67 + 0,32* colesterolo
14
IC del coefficiente di regressione
Intervallo di confidenza
coeff. di regressione (b)
CI = b ± tcrit × SE (b)
t ha (n-2) gradi di libertà ed
il valore è scelto in modo
corrispondente all’errore di I
tipo, con test a 2 code
ES (b) =
s
2
∑ (x − x )
2
i
Varianza intorno alla retta di regressione (stima
campionaria)
∑ ( y − yˆ )
2
s =
2
i
n−2
i
Errore standard di b
ES (b) =
s
2
∑ (x − x )
2
i
L’errore standard di b si riduce, a parità di s,
quando la variabilità di x è maggiore !
Relazione tra Colesterolo e TG
trigliceridi (y)
10
a=4,67
8
b = 0,32
IC(95%) = 0,06 -0,57
6
4
2
0
0
2
4
6
8
10
12
colesterolo (x)
trigliceridi=4,67 + 0,32* colesterolo
14
Intervallo di confidenza dei valori predetti
(
1
xi′ − x )
PI = yˆ ± t gl ,α s 1 + +
2
2
n ∑ (xi − x )
2
Relazione alla nascita tra circonferenza cranica e lunghezza
Es. il valore di circonferenza cranica predetto
per un bambino di lunghezza 41 cm è
ŷ
=29,05
IC( ŷ )=
25,47 - 32,63
Intervallo di confidenza dei valori predetti
(
1
xi′ − x )
PI = yˆ ± t gl ,α s 1 + +
2
2
n ∑ (xi − x )
2
La predizione ha un
errore maggiore
allontanandosi dalla
media di x
La predizione ha un errore
minore con un’ampia
variabilità di x
Requisiti ed valutazione
Requisiti dell’analisi di regressione
Il modello lineare è adeguato a rappresentare
la relazione tra x ed y (come variabile casuale)
se vengono rispettati i seguenti assunti.
•Omogeneità della varianza di y|x
(Omoscedasticità)
•Distribuzione normale di y|x
•Linearità della relazione tra x ed y
Verifica delle assunzioni del modello
La verifica delle assunzioni del modello viene
condotta esaminando la distribuzione dei
residui
Residuo (o scarto) = valore y osservato – valore y predetto
valore y osservato
Residuo
valore y predetto
Omoscedasticità (omogeneità della varianza)
Se la varianza è costante per tutta la distribuzione della x,
anche i residui saranno distribuiti in modo uniforme.
Distribuzione uniforme dei residui
Distribuzione non uniforme dei residui
Distribuzione non normale dei residui
Non-linearità
Trasformazioni normalizzanti e linearizzanti
• Radice quadrata
• Logaritmo
• Inversa (meglio se ulteriormente
moltiplicata per -1)
Trasformazioni normalizzanti e linearizzanti
Dati
trasformati
Inversa negativa
Log
Radice
Dati originali
Trasformazioni normalizzanti e linearizzanti
FR
E
Q
U
E
N
C
Y
150
140
130
120
110
100
90
80
70
60
50
40
30
20
10
0
0 2 5
5 0
0 0
7 1
5 0
0 0
0
1
2
5
0
1
5
0
0
1
7
5
0
2
0
0
0
2
2
5
0
2
5
0
0
2
7
5
0
3
0
0
0
3
2
5
0
3
5
0
0
3
7
5
0
4
0
0
0
4
2
5
0
4
5
0
0
4
7
5
0
5
0
0
0
5
2
5
0
5
5
0
0
5
7
5
0
6
0
0
0
6
2
5
0
6
5
0
0
6
7
5
0
7
0
0
0
7
2
5
0
7
5
0
0
7
7
5
0
8
0
0
0
8
2
5
0
8
5
0
0
8
7
5
0
9
0
0
0
9
2
5
0
9
5
0
0
9
7
5
0
1
0
0
0
0
C
O
R
P
U
S
C
OM
ID
P
O
IN
T
FR
E
Q
U
E
N
C
Y
50
40
30
20
10
0
0
.
0
0
00
. .
25
50
01
. .
70
50
11
. .
25
50
12
. .
70
50
22
. .
25
50
23
. .
70
50
33
. .
25
50
34
. .
70
50
44
. .
25
50
45
. .
70
50
55
. .
25
50
56
. .
70
50
66
. .
25
50
L_c
67
. .
70
50
77
. .
25
50
78
. .
70
50
M
I D
P
O
I N
T
88
. .
25
50
89
. .
70
50
99
. .
25
50
91
. 0
7.
50
0
11
00
. .
25
50
11
01
. .
70
50
11
11
. .
25
50
11
12
. .
70
50
11
22
. .
25
50
11
23
. .
70
50
11
33
. .
25
50
11
34
. .
70
50
Valutazione del modello
• R2 : proporzione della varianza che è
spiegata dal modello di regressione
• R2 = (coefficiente di correlazione) ^2
Relazione tra Colesterolo e TG
r =0,716
R2 =0,51
trigliceridi (y)
10
a=4,67
8
b = 0,32
IC(95%) = 0,06 -0,57
6
4
2
0
0
2
4
6
8
10
12
colesterolo (x)
trigliceridi=4,67 + 0,32* colesterolo
14