Lezione 5 - e-Learning

Transcript

Lezione 5 - e-Learning
Capitolo 2
Regressione Lineare
Semplice
Marcello Gallucci
P
S
I
C
O
M
E
T
R
I
A
[email protected]
Lezione: 5
Correlazione
La correlazione indica la pendenza della retta che meglio interpola i punti
La retta ci consente di
rappresentare il legame tra le
due variabili
La retta passerà sempre per
l’origine (variabili
standardizzate)
La retta sarà tanto più piatta
quanto meno è la correlazione
Lezione: 5
Regressione
Questa retta è detta retta di regressione di v su x (o x su v grazie alla
simmetria di r)
In questa retta il
coefficiente di correlazione r
indica la pendenza
Lezione: 5
Legge di relazione: Interpretazione
La correlazione indica il cambiamento atteso in v, al variare di x di
dettaglio
una deviazione standard
Legge di relazione r=0.78
v z =r xv x z
.78
Mi aspetto una scostamento pari
a 78% della dev.std di v
1
Mi muovo di una dev.std.
Lezione: 7
Regressione standardizzata
La correlazione indica il cambiamento atteso usando come unità di misura
porzioni di deviazioni standard
La legge di relazioni sarà quindi
standardizzata
r indica il coefficiente di regressione
di v su x standardizzato
Lezione: 5
Regressione
Consideriamo ora questa ipotetica ricerca: siamo andati in un pub ed abbiamo
contato quanti sorrisi le persone ai tavoli producevano (ogni 10 minuti) e quante
birre avevano bevuto fino a quel momento
10
9
8
7
6
5
4
3
SORRISI
Birre Sorrisi
0
1
1
3
2
4
3
3
4
5
5
6
6
8
7
8
8
9
9
8
10
7
2
1
0
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
Lezione: 5
Regressione standardizzata
Calcoliamo il coefficiente di correlazione e disegnamo la retta sul diagramma
standardizzato
r=.89
1.0
.8
.5
.3
0.0
-.3
-.5
ZSORRISI
Zbirre ZSorrisi
-1.51 -1.771
-1.21 -1.007
-0.9 -0.625
-0.6 -1.007
-0.3 -0.243
0
0.139
0.302 0.903
0.603 0.903
0.905 1.285
1.206 0.903
1.508 0.521
-.8
-1.0
-1.0
-.8
-.5
-.3
0.0
.3
.5
.8
1.0
ZBIRRE
Lezione: 5
Regressione standardizzata
Calcoliamo il coefficiente di correlazione e disegnamo la retta sul diagramma
standardizzato
r=.89
1.0
.8
.5
All’aumentare delle birre di una
deviazione standard, mi aspetto
un incremento dei sorrisi dell’
89% della deviazione standard
dei sorrisi
.3
0.0
-.3
ZSORRISI
-.5
-.8
-1.0
-1.0
-.8
-.5
-.3
0.0
.3
.5
.8
1.0
ZBIRRE
Lezione: 5
Perchè non usare l’unità di misura vere
In questo esempio, liberarci della unità di misura non è
necessariamente conveniente
Potrebbe infatti essere interessante quantificare il cambiamento
atteso in una variabile in termini di unità orginali
Quanti sorrisi in piu’ si fanno ogni birra bevuta?
Lezione: 5
Perché non usare l’unità di misura vere
Vi sono molti casi in cui le unità di misura originali possono aver
senso
Quanto aumenta (in media) il rischio di tumori per ogni sigaretta
fumata al giorno?
Quanto aumenta lo stipendio dei professori ogni anno lavorato? (molto
poco!)
Quanto aumenta il costo di uno spot-minuto per ogni spettatore in piu’?
In generale, il ricercatore può essere interessato al legame fra variabili
sia standardizzato, sia espresso mediante le unità di misura originali
Lezione: 5
Predizione
In generale, quando il nostro scopo non è solo di appurare
un’associazione fra variabili, ma di predire una variabile (che diremo
dipendente) per mezzo di un’altra (che diremo indipendente)
Siamo interessati a quantificare la nostra predizione sia esprimendola
mediante le unità di misura originali, sia al netto di esse
Useremo la regressione non standardizzata
Lezione: 5
Regressione non standardizzata
La regressione non standardizzata identifica la retta interpolante i punti sul
diagramma delle variabili non standardizzate
Birre Sorrisi
0
1
1
3
2
4
3
3
4
5
5
6
6
8
7
8
8
9
9
8
10
7
Lezione: 5
Regressione non standardizzata
La retta di regressione non standardizzata identifica il cambiamento della
variabile dipendente (Y) al variare della variabile indipendente (X)
Birre Sorrisi
0
1
1
3
2
4
3
3
4
5
5
6
6
8
7
8
8
9
9
8
10
7
Lezione: 5
Legge di relazione
Come sarà la legge di relazione di questa retta?
y sorrisi =ab yx x birre
La retta non passerà
necessariamente per
l’origine
Dunque per birre=0, la predizione di
sorrisi non sarà necessariamente 0
y sorrisi =ab yx x birre
Costante: valore atteso di
y quando x è zero
Lezione: 5
Legge di relazione
Come sarà la legge di relazione di questa retta?
y sorrisi =ab yx x birre
La retta avra’ un
coefficiente che indica la
pendenza
y sorrisi =ab yx x birre
Il coefficiente viene detto
coefficiente di regressione
non standardizzato
Lezione: 5
Coefficiente di Regressione NS
Il coefficiente indica la pendenza della retta. Ma cosa vuol dire?
Notiamo che la retta rappresenta i
valori di Y predetti sulla base dei
valori di X
10
9
8
7
Valore predetto di Y per x=8
6
5
4
Valore predetto di Y per x=2
y sorrisi =ab yx x birre
SORRISI
3
2
1
0
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
Lezione: 5
Coefficiente di Regressione NS
Il coefficiente indica la pendenza della retta. Ma cosa vuol dire? Proviamo a
muovere la variabile indipendente di una unità
10
Se abbiamo bevuto birre=0
9
8
y sorrisi =ab yx 0=a
7
6
5
Se abbiamo bevuto birre=1
4
y sorrisi =ab yx 1=ab yx
SORRISI
3
2
1
0
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
Lezione: 5
Coefficiente di Regressione NS
Dunque, muovendo la variabile indipendente di una unità, abbiamo predetto
due valori di Y. Quale cambiamento in Y prediciamo?
10
Cambiamento in x
9
8
Δ x =1−0=1
7
6
5
Cambiamento in y
4
SORRISI
Δ y =b yx a−a=b yx
3
2
1
0
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
Lezione: 5
Coefficiente di Regressione NS
Dunque, il coefficiente rappresenta il cambiamento predetto in Y nel variare
(cambiare) la X di una unità
10
Cambiamento in x
9
8
Δ x =1−0=1
7
6
5
Cambiamento in y
4
SORRISI
Δ y =b yx a−a=b yx
3
2
1
0
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
Lezione: 5
Coefficiente di Regressione NS
Se ci muoviamo di K unità su X, prediremo uno di cambio in Y di K volte b
Valore predetto di Y per x=8
10
9
y sorrisi =ab yx 8
8
7
6
Valore predetto di Y per x=2
5
4
SORRISI
y sorrisi =ab yx 2
3
2
1
0
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
Lezione: 5
Coefficiente di Regressione NS
Calcoliamo il cambiamento
10
In x ci siamo mossi di 6 unità
9
8
Δ x =8−2=6
7
6
5
Cambiamento in y
4
SORRISI
Δ y =8b yx a−2b yx −a=6b yx
3
2
1
0
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
Lezione: 5
Regressione NS
La retta di regressione rappresenta la predizione lineare (o dipendenza lineare)
tra una variabile indipendente ed una dipendente, espressa nelle unità di misura
originali
10
9
8
La retta di regressione richiede due coefficienti
7
6
La costante: il valore predetto di Y quando
5 X=0
4
3
al variare di una unità di X
SORRISI
Il coefficiente di regressione: il cambiamento predetto in Y
2
1
0
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
Lezione: 5
Regressione NS
In buona sostanza, la regressione NS rappresenta la stessa retta espressa dalla
correlazione, solo non standardizzata
standardizzata
Non standardizzata
10
1.0
9
.8
8
.5
7
6
.3
5
0.0
-.3
3
-.5
2
SORRISI
ZSORRISI
4
-.8
1
0
-2
-1.0
-1.0
-.8
-.5
-.3
0.0
.3
.5
.8
1.0
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
ZBIRRE
Lezione: 5
Regressione NS
La retta di regressione potrà dunque essere scritta come
y =ab yx x
Coefficientsa
Model
1
(Constant)
NBEERS
Unstandardized
Coefficients
B
Std. Error
2.091
.684
.709
.116
Standardized
Coefficients
Beta
.898
t
3.057
6.132
y =2 . 09. 70 x
Sig.
.014
.000
10
a. Dependent Variable: SMILES
9
8
b
7
In media, per ogni birra bevuta ci
aspettiamo il .7 sorrisi in piu’
6
5
4
a
Quando non si è bevuta neanche
una birra, ci aspettiamo 2.09 sorrisi
SORRISI
3
2
1
0
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
Lezione: 5
Come si calcola
Se la retta di regressione NS è equivalente alla retta standardizzata, per
ottenerla basterà “ridare” alle variabili le loro scale (cioè le deviazioni standard)
retta standardizzata*
d y
sy
=r xv
dx
sx
retta non standardizzata
d y=r xv
sy
sx
dx
Coefficiente stand.
cov x , y
r xv =
sy sx
Coefficiente non stand.
s y cov x , y 
b yx =r xv =
sx
s 2x
* Ricorda che i punteggi standardizzati si possono esprimere come deviazioni dalla media (d) fratto dev.stan.
Lezione: 5
Calcolo della Costante
Intercetta, cioè il valore atteso di Y quando X=0, si ottiene “ridando” alle
variabili le loro medie
scostamenti
d y=b xy d x
y − M y =b xv  x −M x 
Se X=0
y − M y =−b xy M x
Intercetta
y = M y −b xy M x
Lezione: 5
Regressione NS
In buona sostanza, il coefficiente di regressione non standardizzato dipende
dalla covarianza tra X e Y e dalla varianza di X
b yx =
cov  x , y 
s 2x
L’intercetta dipende dalle medie di X e Y e dal coefficiente di regressione
a= M y−b yx M x
Lezione: 5
Asimmetria
A differenza della correlazione, la retta di regressione non è simmetrica
Regressione Y su X
Regressione X su Y
Coefficiente
b yx =
cov  x , y 
b xy =
s 2x
cov  x , y 
s 2y
Costante
a= M y−b yx M x
a= M x−b xy M y
Lezione: 5
Asimmetria
A differenza della correlazione, la retta di regressione non è simmetrica
Regressione X su Y
Regressione Y su X
10
10
9
9
8
8
7
7
6
6
5
5
4
4
3
3
BIRRE
SORRISI
2
2
1
0
1
0
-2
-2
-1
BIRRE
0
1
2
3
4
5
6
7
8
9
10
y =2 . 09. 70 x
11
-1
0
1
2
3
4
5
6
7
8
9
10
12
SORRISI
x =−1. 411 .13 y
Lezione: 5
Campo di variazione
A differenza della correlazione, i parametri della retta di regressione
(coefficiente e constante) variano da meno infinito a più infinito
Come per la correlazione, il valore di zero indica nessuna relazione fra le
variabili
Lezione: 5
Bonta’ di adattamento
L’ R-quadro viene comunmente usato come indice di bonta’ di adattamento del
modello di regressione ai dati
basso R2
alto R2
All’aumentare dell valore di R2, diminuisce la
dispersione dei punti intorno alla retta, dunque
diminuisce l’errore
Lezione 5
Errori di regressione
Notiamo che la predizione non corrisponde di norma ai valori osservati
y i =ab yx x i
predetti
Discrepanza
osservati-predetti
errore
y i − y i =y i − ab yx x i 
Dunque i valori osservati di Y
possono essere espressi come
somma dei valori predetti e l’errore
y i = ab yx x i  y i − y i 
retta
errore
Lezione 5
Errori di regressione
Proviamo con l’esempio
y =2.09−70 x
retta
5 . 63=2 . 09. 70⋅5
predetto
10
6−5 . 63=. 36
errore
9
8
7
6
5
4
3
6=5.63.36
retta
SORRISI
Birre Sorrisi
0
1
1
3
2
4
3
3
4
5
5
6
6
8
7
8
8
9
9
8
10
7
2
1
0
-2
-1
0
1
2
3
4
5
6
7
8
9
10
11
12
BIRRE
errore
Lezione 5
Quanto e’ grande l’errore di regressione
Calcoliamoci la distanza media tra i punti osservati e la retta
Le distanze si calcolano
mediante le differenze al
quadrato
n
∑
i =1
 yi − y i 
n−1
Discrepanza
osservati-predetti
2
2
=s e
Notiamo che questa e’ una
varianza, che chiameremo
varianza di errore
Lezione 5
Quanto e’ buona la regressione
Se Y e’ funzione della retta e dell’errore, cosi’ sara’ la sua viarianza
Decomponiamo la varianza di Y
2
2
2
s y =s reg s e
La nostra retta sara tanto piu’ buona
quanto sara’ grande la varianza
spiegata dalla regressione
2
sy
2
se
Varianza spiegata
2
s reg
Y
Y
X
2
2
2
s reg =s y −s e
Lezione 5
% di varianza spiegata
Ora possiamo esprimere la bonta’ della regressione come % della varianza di Y
spiegata dalla regressione
2
2
2
s reg s y −s e
=
2
2
sy
sy
2
sy
2
se
Varianza spiegata
Y
Y
2
s reg
X
Ma questa quantita’ noi la
conosciamo gia’!!!
Lezione 5
R2=% di varianza spiegata
Essendo una quantita’ relativa, non dipende dalla grandezza assoluta della
varianza di Y, inclusa varianza uquale a 1
2
se
Y
Y
2
s reg X
Y
Yzz
Dunque questa quantita’ e’
data da R2
Xz
2
2
2
s reg s y −s e
2
=
=R
yx
2
2
sy
sy
In alcuni testi R2 viene chiamato coefficiente di
determinazione
Lezione 5
% di varianza non spiegata
La varianza non spiegata sara’ data dal complemento di R-quadro
2
se
Y
Y
2
s reg X
Dunque questa quantita’ e’
data da 1-R2
Y
Yzz
Xz
2
2
2
s e s y −s reg
2
=
=1−R
yx
2
2
sy
sy
In alcuni testi 1-R2 viene chiamato coefficiente di
alienazione
Lezione 5
Bonta’ di adattamento
L’ R-quadro viene comunmente usato come indice di bonta’ di adattamento del
modello di regressione ai dati
basso R2
alto R2
All’aumentare dell valore di R2, diminuisce la
dispersione dei punti intorno alla retta, dunque
diminuisce l’errore
Lezione 5
R2 e b
La relazione tra R2 e b (coefficiente di reg. non standardizzato) e’ la seguente
Se b e’ diverso da zero, la grandezza di b non dice
nulla della grandezza di R2
Esempio: Stessa pendenza, differenti errori
Lezione 5
R2 e b
La relazione tra R2 e b (coefficiente di reg. non standardizzato) e’ la seguente
Se b e’ uguale a zero (prossimo a zero), R2 sara’ zero
(prossimo a zero)
y =a0 x =M y
R2=0
b=0
Se prediciamo la media (b=0) R2 dovra’ essere 0
Lezione 5
R2 e r
La relazione tra R2 e r (coefficiente correlazione) e’ la seguente
I due coefficienti sono perfettamente associati
2
R =r∗r
±r = R
Piu’ grande e’ r (sia in negativo che in
positivo), maggiore e’ R2
r = R
2
2
−r = R
2
Questa relazione e’ valida solo se abbiamo
una ed una sola variabile indipendente
Lezione 5
Fine
Fine della Lezione V
Lezione: 5