Regressione lineare con un singolo regressore

Transcript

Regressione lineare con un singolo
regressore
Eduardo Rossi2
2
Università di Pavia (Italy)
Marzo 2013
Rossi
Regressione lineare semplice
Econometria - 2013
1 / 45
Outline
1
Introduzione
2
Lo stimatore OLS
3
Esempio
4
Assunzioni OLS
5
Distribuzione campionaria degli stimatori OLS
6
Media e varianza campionaria stimatori OLS
Rossi
Econometria - 2013
2 / 45
Introduzione
Capitolo 4 - Regressione lineare con un singolo
regressore
Il modello di regressione lineare semplice
Lo stimatore dei minimi quadrati ordinari (OLS) e la retta di regressione
campionaria
Misure di bontà della regressione campionaria
Le assunzioni dei minimi quadrati
La distribuzione campionaria dello stimatore OLS
Rossi
Econometria - 2013
3 / 45
Introduzione
La regressione lineare consente di stimare la pendenza della retta di
regressione
La pendenza della retta di regressione è l’effetto atteso su Y di una
variazione unitaria in X.
Il nostro scopo ultimo è quello di stimare l’effetto causale su Y di una
variazione unitaria in X - ma per ora ci limitiamo a considerare il
problema dell’adattamento di una retta ai dati su due variabili Y e X.
Rossi
Econometria - 2013
4 / 45
Introduzione
Il problema dell’inferenza statistica per la regressione lineare è, a livello
generale, identico a quello della stima della media o delle differenze tra medie.
L’inferenza statistica, o econometrica, sulla pendenza comporta:
1
Stima:
Come tracciare una retta attraverso i dati per stimare la pendenza della
regressione?
Risposta: minimi quadrati ordinari (OLS).
Quali sono vantaggi e svantaggi dei minimi quadrati ordinari?
2
Verifica di ipotesi:
Come verificare se la pendenza è zero?
3
Intervalli di confidenza:
Come costruire un intervallo di confidenza per la pendenza?
Rossi
Econometria - 2013
5 / 45
Introduzione
Il modello di regressione lineare
La retta di regressione
TestScore = β0 + β1 STR
Score
β1 = pendenza della retta di regressione = ∆Test
= variazione nel
∆STR
punteggio nei test per una variazione unitaria in STR
Perchè β0 e β1 sono parametri della “popolazione”?
Vorremmo conoscere il valore di β1 .
Non conosciamo β1 , perchè dobbiamo stimarlo utilizzando i dati.
Rossi
Econometria - 2013
6 / 45
Introduzione
Il modello di regressione lineare
Yi = β0 + β1 Xi + ui
i = 1, 2, . . . , n
Abbiamo n osservazioni,(Yi , Xi ), i = 1, 2, . . . , n
X è la variabile indipendente o regressore
Y è la variabile dipendente
β0 = intercetta
β1 = pendenza
ui = errore della regressione
L’errore di regressione è costituito da fattori omessi. In generale questi
fattori omessi sono altri fattori, diversi dalla variabile X, che influenzano
Y. L’errore di regressione include anche l’errore nella misura di Y.
Rossi
Econometria - 2013
7 / 45
Introduzione
Il modello di regressione lineare: esempio
Osservazioni su Y e X (n = 7); la retta di regressione; l’errore di regressione (il
termine d’errore):
Rossi
Econometria - 2013
8 / 45
Lo stimatore OLS
Lo stimatore OLS
Come possiamo stimare β0 e β1 dai dati?
Si ricordi che lo stimatore OLS di µY : Ȳ è
min
m
m
X
(Yi − m)2
i=1
Per analogia, ci concentreremo sullo stimatore dei minimi quadrati (OLS)
”ordinary least squares” dei parametri ignoti β0 e β1 . Lo stimatore OLS è
dato da
m
X
min
(Yi − β0 − β1 Xi )2
β0 ,β1
Rossi
i=1
Econometria - 2013
9 / 45
Lo stimatore OLS
Meccanismo dei minimi quadrati ordinari
La retta di regressione: TestScore = β0 + β1 STR
β1 = ??
Rossi
Econometria - 2013
10 / 45
Lo stimatore OLS
Lo stimatore OLS
Lo stimatore OLS minimizza la differenza quadratica media tra i valori
reali di Yi e la previsione (“valori previsti”) basata sulla retta stimata.
Questo problema di minimizzazione si può risolvere con il calcolo
differenziale (App. 4.2).
Il risultato sono gli stimatori OLS di β0 e β1 .
Rossi
Econometria - 2013
11 / 45
Lo stimatore OLS
Dato:
n 2
X
Yi − β0 − β1 Xi
S(β0 , β1 ) =
i=1
Problema:
{β̂0 , β̂1 } = min S(β0 , β1 )
β0 ,β1
n X
∂S(β0 , β1 )
= −2
Yi − β̂0 − β̂1 Xi = 0
∂β0
i=1
n X
∂S(β0 , β1 )
= −2
Yi − β̂0 − β̂1 Xi Xi = 0
∂β1
i=1
nβ̂0 =
n X
Yi − β̂1 Xi
i=1
n
1 X
Yi − β̂1 Xi = Ȳ − β̂1 X̄
β̂0 =
n i=1
Rossi
Econometria - 2013
12 / 45
Lo stimatore OLS
n X
Yi − (Ȳ − β̂1 X̄) − β̂1 Xi Xi = 0
i=1
n X
Yi − Ȳ − β̂1 (Xi − X̄) Xi = 0
i=1
n X
n X
Yi − Ȳ Xi − β̂1
Xi − X̄ Xi = 0
i=1
n X
i=1
n hX
i
Yi − Ȳ Xi −
Yi − Ȳ X̄
i=1
− β̂1
i=1
n X
Xi − X̄ Xi + β̂1
β̂1
i=1
Rossi
Xi − X̄
Xi − X̄ X̄ = 0
i=1
i=1
n X
n X
2
=
n X
Yi − Ȳ
Xi − X̄
i=1
Econometria - 2013
13 / 45
Lo stimatore OLS
Lo stimatore OLS
Pn
β̂1 =
− X̄)(Yi − Ȳ )
sXY
= 2
2
sX
i (Xi − X̄)
i=1 (Xi
P
β̂0 = Ȳ − β̂1 X̄
Valori previsti
Ŷi = β̂0 + β̂1 Xi
i = 1, 2, . . . , n
Residui:
ûi = Yi − Ŷi = Yi − β̂0 − β̂1 Xi
Rossi
Econometria - 2013
14 / 45
Lo stimatore OLS
Residui
ûi = Yi − Ŷi = Yi − β̂0 − β̂1 Xi
= Yi − (Ȳ − β̂1 X̄) − β̂1 Xi
= (Yi − Ȳ ) − β̂1 (Xi − X̄)
ne segue che
X
ûi =
X
X
(Yi − Ȳ ) − β̂1
(Xi − X̄)
i
i
i
=0
Rossi
Econometria - 2013
15 / 45
Esempio
Applicazione ai dati dei punteggi nei test della
California
Punteggio nei test - Dimensioni delle classi
β̂1 = Pendenza stimata = -2,28
β̂0 = Intercetta stimata = 698,9
\ = 698, 9 − 2, 28 STR
[
Retta di regressione stimata: TestScore
Rossi
Econometria - 2013
16 / 45
Esempio
Interpretazione delle stime di pendenza e intercetta
I distretti con uno studente in più per insegnante in media ottengono
punteggi nei test inferiori di 2,28 punti.
Cioè
∆TestScore
∆STR
= −2, 28.
L’intercetta (letteralmente) significa che, secondo questa retta stimata, i
distretti con zero studenti per insegnante otterrebbero un punteggio nei
test stimato in 698,9. Ma questa interpretazione dell’intercetta non ha
senso - estrapola la linea al di fuori dell’intervallo dei dati - in questo
caso, l’intercetta non ha significato dal punto di vista economico.
Rossi
Econometria - 2013
17 / 45
Esempio
Valori previsti e residui
Uno dei distretti nella banca dati è Antelope, CA, con STR = 19,33 e
TestScore = 657,8
Valore previsto:
ŶAntelope = 698, 9 − 2, 28 × 19, 33 = 654, 8
residuo:
ûAntelope = 657, 8 − 654, 8
Rossi
Econometria - 2013
18 / 45
Esempio
Misure di bontà dell’adattamento
Due statistiche di regressione forniscono misure complementari della
bonta dell’adattamento della regressione ai dati:
L’R2 della regressione misura la frazione della varianza di Y spiegata
da X; è priva di unità e può variare tra zero (nessun adattamento) e uno
(perfetto adattamento);
L’errore standard della regressione (SER) misura la dimensione di
un tipico residuo di regressione nelle unità di Y.
Rossi
Econometria - 2013
19 / 45
Esempio
Risultati della regressione
Dato che
ui = Yi − β̂0 − β̂1 Xi
X
ûi = 0
i
Yi = Ŷi + ûi
X
1
1X
Yi =
Ŷi
n i
n i
¯
Ȳ = Ŷ
Rossi
Econometria - 2013
20 / 45
Esempio
Inoltre, i residui ûi sono ortogonali a Xi
X
Xi ûi = Xi (Yi − β̂0 − β̂1 Xi )
X
Xi ûi =
(Yi − β̂0 − β̂1 Xi )Xi
i
i
=
X
(Yi − (Ȳ − β̂1 X̄) − β̂1 Xi )Xi
=
X
i
(Yi − Ȳ )Xi − β̂1
X
(Xi − X̄)Xi
i
con
i
Pn
(Yi − Ȳ )Xi
β̂1 = Pi=1
(X
i − X̄)Xi
i
X
i
Pn
X
(Yi − Ȳ )Xi X
Xi ûi =
(Yi − Ȳ )Xi − Pi=1
(Xi − X̄)Xi = 0
i (Xi − X̄)Xi
i
i
Rossi
Econometria - 2013
21 / 45
Esempio
TSS = total sum of squares
SSR = sum of squared residuals
ESS = Explained sum of squares
T SS =
X
=
X
(Yi − Ȳi )2 =
X
i
(Yi − Ŷi + Ŷi − Ȳi )2
i
2
(Yi − Ŷi ) +
X
i
(Ŷi − Ȳi )2 + 2
i
= SSR + ESS + 2
X
(Yi − Ŷi )(Ŷi − Ȳi )
i
X
ûi Ŷi = SSR + ESS
i
perché
X
i
ûi Ŷi =
X
ûi (β̂0 + β̂1 Xi )
i
= β̂0
X
i
Rossi
ûi + β̂1
X
ûi Xi = 0
i
Econometria - 2013
22 / 45
Esempio
L’R2 della regressione
L’R2 è la frazione della varianza campionaria di Yi “spiegata” dalla
regressione.
Yi = Ŷi + ûi = stima OLS + residuo OLS
Var camp.(Y ) = Var camp.(Ŷi ) + Var camp.(ûi )
Somma dei quadrati = SS “spiegata” + SS “residua”
Definizione R2 :
R2 =
P
¯
(Ŷi − Ŷ )2
ESS
= Pi
2
T SS
i (Yi − Ȳ )
R2 = 0 significa ESS = 0
R2 = 1 significa ESS = TSS
0 ≤ R2 ≤ 1
Per la regressione con una singola X, R2 coincide con il quadrato del
coefficiente di correlazione tra X e Y.
Rossi
Econometria - 2013
23 / 45
Esempio
L’errore standard della regressione (SER)
Il SER misura la dispersione della distribuzione di u.
È (quasi) la deviazione standard campionaria dei residui OLS:
v
u
n
u 1 X
¯2
SER = t
(ûi − û)
n − 2 i=1
v
u
n
u 1 X
û2
=t
n − 2 i=1 i
La seconda uguaglianza vale perché
n
X
¯= 1
û
ûi = 0
n i=1
Rossi
Econometria - 2013
24 / 45
Esempio
L’errore standard della regressione (SER)
Il SER ha le unità di u, che sono le unità di Y
misura la “dimensione” media del residuo OLS (l’“errore” medio della
retta di regressione OLS)
La radice dell’errore quadratico medio (RMSE, Root Mean Squared Error)
è strettamente legata al SER:
v
u n
u1 X
û2
RM SE = t
n i=1 i
Misura la stessa cosa del SER: la differenza sta nel fattore 1/n anzichè
1/(n − 2).
Rossi
Econometria - 2013
25 / 45
Esempio
Nota tecnica
Perchè dividere per n − 2 anzichè per n − 1?
v
u
n
u 1 X
SER = t
û2
n − 2 i=1 i
La divisione per n − 2 è una correzione dei gradi di libertà - esattamente
come la divisione per n − 1, con la differenza che per il SER sono stati
stimati due parametri β0 e β1 ), mentre in s2Y ne è stato stimato solo uno
µY .
Quando n è grande non importa se si utilizza n, n − 1 o n − 2, anche se la
formula convenzionale utilizza n − 2 quando c’è un singolo regressore.
Rossi
Econometria - 2013
26 / 45
Esempio
Esempio di R2 e SER
R2 = 0, 05
SER = 18, 6
STR spiega soltanto una piccola frazione della variazione nei punteggi nei
test. Ha senso questo? Significa che STR non è una variabile importante?
Rossi
Econometria - 2013
27 / 45
Assunzioni OLS
Quali sono, precisamente, le proprietà della distribuzione campionaria
dello stimatore OLS? Quando lo stimatore sarà non distorto? Qual è la
sua varianza?
Per rispondere a queste domande dobbiamo fare alcune assunzioni sulla
relazione tra Y e X e su come sono ottenute (lo schema di
campionamento)
Queste assunzioni - sono tre - sono note come assunzioni dei minimi
quadrati.
vedi Paragrafo 4.4.
Rossi
Econometria - 2013
28 / 45
Assunzioni OLS
i = 1, 2, . . . , n
La distribuzione di ui condizionata a Xi ha media nulla, cioè
E[ui |Xi ] = 0
ui rappresenta l’influenza che altri fattori hanno sulla relazione tra Yi e
Xi . Quando ui > 0, Yi < E[Yi |Xi ]; ui < 0, Yi > E[Yi |Xi ]. L’assunzione
esclude che i fattori in ui siano correlati con Xi .
Questo implica che β̂1 è non distorto.
{Xi , Yi }, i = 1, . . . , n, sono i.i.d.
Questo è vero se {Xi , Yi } sono ottenuti mediante campionamento casuale
Questo fornisce la distribuzione campionaria di e
Gli outlier in X e/o Y sono rari.
Tecnicamente, X e Y hanno momenti quarti finiti.
Gli outlier possono risultare in valori privi di senso di β̂1 .
Rossi
Econometria - 2013
29 / 45
Assunzioni OLS
Assunzione dei minimi quadrati n. 1
Per ogni dato valore di Xi , la media di ui è zero
E[ui |Xi ] = 0
Rossi
Econometria - 2013
30 / 45
Assunzioni OLS
Minimi quadrati, Assunzione 1
Consideriamo un esperimento controllato casualizzato ideale:
X è assegnato casualmente a persone (studenti assegnati casualmente a
classi di dimensioni diverse; pazienti assegnati casualmente a trattamenti
medici). La casualizzazione è svolta dal computer - senza utilizzare
informazioni sull’individuo.
Poiché X è assegnata casualmente, tutte le altre caratteristiche individuali
- gli aspetti riassunti da ui - sono distribuite indipendentemente da X,
perciò u e X sono indipendenti.
Quindi, in un esperimento controllato casualizzato ideale, E[ui |Xi ] = 0
(cioè vale l’assunzione 1)
In esperimenti reali, o con dati non sperimentali, dovremo riflettere bene
sul fatto che E[ui |Xi = x] = 0 valga o meno.
Rossi
Econometria - 2013
31 / 45
Assunzioni OLS
{Yi , Xi }, i = 1, 2, . . . , n sono i.i.d.
Questo si verifica automaticamente se l’unità (individuo, distretto) è
campionata mediante campionamento casuale semplice:
Le unità sono scelte dalla stessa popolazione, perciò {Xi , Yi } sono
identicamente distribuite per ogni i = 1, 2, . . . , n.
Le unità sono scelte a caso, perciò i valori di {Xi , Yi } per unità diverse
sono indipendentemente distribuite.
I campionamenti non i.i.d. si incontrano principalmente quando si
registrano dati nel tempo per la stessa unità (dati panel e serie temporali).
Rossi
Econometria - 2013
32 / 45
Assunzioni OLS
Gli outlier sono rari
E[Y 4 ] < ∞
E[X 8 ] < ∞
Un outlier è un valore estremo di X o Y
A livello tecnico, se X e Y sono limitate, allora hanno momenti quarti
finiti (i punteggi nei test standardizzati soddisfano questa condizione,
come anche STR, reddito familiare, ecc.)
La sostanza di questa assunzione è che un outlier può influenzare
fortemente i risultati, perciò dobbiamo escludere i valori estremi.
Esaminate i dati! Se avete un outlier, si tratta di un refuso? Non
appartiene al dataset? Perchè è un outlier?
Rossi
Econometria - 2013
33 / 45
Assunzioni OLS
Lo stimatore OLS può essere sensibile a un outlier
Il punto isolato è un outlier in X o Y?
In pratica, gli outlier sono spesso distorsioni dei dati (problemi nella
codifica o nella registrazione). Talvolta sono osservazioni che non
dovrebbero stare nel dataset.
Rossi
Econometria - 2013
34 / 45
(Paragrafo 4.5)
Lo stimatore OLS è calcolato da un campione di dati. Un campione diverso
porta a un valore diverso di β̂1 . Questa è l’origine della “incertezza
campionaria” di β̂1 . Vogliamo:
quantificare l’incertezza campionaria associata a β̂1
usare β̂1 per verificare ipotesi quali β1 = 0.
costruire un intervallo di confidenza per β1 = 0.
Tutti questi punti richiedono di determinare la distribuzione campionaria
dello stimatore OLS. Due passaggi...
Quadro di riferimento probabilistico per la regressione lineare
Distribuzione dello stimatore OLS
Rossi
Econometria - 2013
35 / 45
Quadro di riferimento probabilistico per la regressione
lineare
Il quadro di riferimento probabilistico per la regressione lineare è riepilogato
dalle tre assunzioni dei minimi quadrati.
1
Popolazione
Il gruppo di interesse (esempio: tutti i possibili distretti scolastici)
2
Variabili casuali: Y, X
Esempio: TestScore, STR
3
Distribuzione congiunta di Y, X. Assumiamo:
La funzione di regressione è lineare
E[ui |Xi ] = 0 (prima assunzione dei minimi quadrati)
X, Y hanno momenti quarti finiti non nulli (terza assunzione)
4
La raccolta dei dati mediante campionamento casuale semplice
implica:
{Yi , Xi }, i = 1, 2, . . . , n sono i.i.d. (seconda assunzione).
Rossi
Econometria - 2013
36 / 45
Distribuzione campionaria di β̂1
β̂1 ha una distribuzione campionaria.
Qual è E[β̂1 ]?
Se E[β̂1 ] = β1 , allora lo stimatore OLS è non distorto.
Qual è V ar[β̂1 ]? (misura di incertezza campionaria)
Dobbiamo derivare una formula per poter calcolare l’errore standard di .
Qual è la distribuzione di in piccoli campioni?
E’ molto complessa, in generale.
Qual è la distribuzione di β̂1 in grandi campioni?
In grandi campioni, β̂1 ha distribuzione normale.
Rossi
Econometria - 2013
37 / 45
Media e varianza della distribuzione campionaria di β̂1
Ȳ = β0 + β1 X̄ + ū
Yi − Ȳ = β1 (Xi − X̄) + (ui − ū)
Pn
β̂1 =
− X̄)(Yi − Ȳ )
2
(X
i − X̄)
i
i=1 (Xi
P
Pn
− X̄)(β1 (Xi − X̄) + (ui − ū))
P
2
i (Xi − X̄)
Pn
Pn
(Xi − X̄)(Xi − X̄)
i=1 (ui − ū)(Xi − X̄)
P
= β1 i=1P
+
2
2
i (Xi − X̄)
i (Xi − X̄)
Pn
(ui − ū)(Xi − X̄)
= β1 + i=1P
2
i (Xi − X̄)
Pn
(ui − ū)(Xi − X̄)
β̂1 − β1 = i=1P
2
i (Xi − X̄)
=
Rossi
i=1 (Xi
Econometria - 2013
38 / 45
Media e varianza della distribuzione campionaria di β̂1
Il numeratore:
n
X
(Xi − X̄)(ui − ū) =
i=1
n
n
hX
i
X
(Xi − X̄)ui −
(Xi − X̄) ū
i=1
i=1
n
X
=
(Xi − X̄)ui − 0 ū
i=1
n
X
=
(Xi − X̄)ui
i=1
Segue che
Pn
β̂1 − β1 =
Rossi
− ū)(Xi − X̄)
P
=
2
i (Xi − X̄)
i=1 (ui
Pn
i=1 (Xi − X̄)ui
P
2
i (Xi − X̄)
Econometria - 2013
39 / 45
Media di β̂1
Pn
i=1 (Xi − X̄)ui
P
E[β̂1 ] − β1 = E
2
i (Xi − X̄)
per la legge dei valori attesi iterati:
Pn
i=1 (Xi − X̄)ui
P
|X1 , X2 , . . . , Xn
E[β̂1 ] − β1 = E E
2
i (Xi − X̄)
Pn
i=1 (Xi − X̄)E [ui |X1 , X2 , . . . , Xn ]
P
=E
2
i (Xi − X̄)
=0
per l’Assunzione 1, cioè E [ui |X1 , X2 , . . . , Xn ] = E[ui |Xi ] = 0.
β̂1 è non distorto: E[β̂1 ] = β1 .
Rossi
Econometria - 2013
40 / 45
Varianza di β̂1
β̂1 − β1 =
Pn
i=1 (Xi − X̄)ui
P
=
2
i (Xi − X̄)
1
i vi
n
n−1 2
n sX
P
dove
vi = (Xi − X̄)ui
Se n è grande
2
s2X ≈ σX
e
n−1
n
≈ 1. Quindi
β̂1 − β1 ≈
1
n
P
i
2
σX
vi
dato E[β̂1 ] = β1
V ar[β̂1 − β1 ] = V ar[β̂1 ]
P V ar n1 i vi
V ar[β̂1 ] ≈
2 )2
(σX
Rossi
Econometria - 2013
41 / 45
Varianza di β̂1
"
#
"
#
1X
1X
V ar
vi = V ar
(Xi − X̄)ui
n i
n i
Per l’assunzione 1:
"
E
#
X
i
(Xi − X̄)ui =
X
E (Xi − X̄)ui = 0
i
vi ∼ i.i.d.
V ar (Xi − X̄)ui = E[(Xi − X̄)2 u2i ] = σv2 < ∞
"
#
1X
1
V ar
(Xi − X̄)ui = 2 nσv2 < ∞
n i
n
Rossi
Econometria - 2013
42 / 45
Varianza di β̂1
V ar[β̂1 ] ≈=
1
nV
ar [vi ]
1 σv2
=
2 )2
2 )2
(σX
n (σX
E[β̂1 ] = β1 .
V ar[β̂1 ] è inversamente proporzionale a n.
Rossi
Econometria - 2013
43 / 45
Distribuzione asintotica di β̂1
v̄ =
1X
vi
n i
v̄ soddisfa le condizioni per l’applicazione dei TLC
v̄
√ → N (0, 1)
σv / n
P
P
1
1
vi
vi
β̂1 − β1 = nn−1 i 2 ≈ n i
V
ar[X
s
i]
X
n
V ar[v̄]
[V ar(Xi )]2
1 V ar[vi ]
=
n [V ar(Xi )]2
V ar[β̂1 ] =
Quindi, per n grande, la distribuzione di β̂1
σv2 β̂1 ≈ N β1 ,
2 )2
n(σX
Rossi
Econometria - 2013
44 / 45
Distribuzione asintotica di β̂1
Anche la distribuzione approssimata di β̂0 è gaussiana
V ar[Hi ui ] β̂0 ≈ N β0 ,
n[E(Hi2 )]2
i
h µ
X
Xi
Hi = 1 −
E(Xi2 )
La distrbuzione congiunta di β̂0 e β̂1 è bene approssimata dalla gaussiana
bivariata.
Rossi
Econometria - 2013
45 / 45

Regressione lineare con un singolo regressore

Transcript

Documenti analoghi

Programma - Dipartimento di Economia, Statistica e Finanza

Esercizi del 29/3 1. Il file “tab53 2.dat” nella directory “dati” contiene

Statistica per l`impresa 9 cfu - Esercitazione finale 18 gennaio 2012

ESERCIZI SULLA REGRESSIONE 1) Data la seguente distribuzione

Statistica Matematica - Dipartimento di Matematica

stata: course of statistics

Ads corso SIB 2016 I parte

Lezione n. 9 ( a cura di Simona Cretaro) Modello di regressione

Relazioni statistiche: regressione e correlazione

modelli lineari, regressione