Modello di regressione lineare classico

Transcript

Modello di regressione lineare classico
Università di Pavia
Il modello di regressione lineare classico
Eduardo Rossi
Esempio - Modello keynesiano del consumo
Modello keynesiano del consumo aggregato
Ct = β1 + β2 Yt + εt
c
Eduardo Rossi -
t = 1, . . . , N
Econometria 08
2
Esempio - Modello keynesiano del consumo
Year
GDP
Personal Consumption Expenditure
1982
3081.5
4620.3
1983
3240.6
4803.7
1984
3407.6
5140.1
1985
3566.5
5323.5
1986
3708.7
5487.7
1987
3822.3
5649.5
1988
3972.7
5865.2
1989
4064.6
6062.0
1990
4132.2
6136.3
1991
4105.8
6079.4
1992
4219.8
6244.4
1993
4343.6
6389.6
1994
4486.0
6610.7
1995
4595.3
6742.1
1996
4714.1
6928.4
Tabella 1: Economic Report of the President, 1998
c
Eduardo Rossi -
Econometria 08
3
Consumption
Example - Econometric Model of Consumption
GDP
c
Eduardo Rossi -
Econometria 08
4
Example - Econometric Model of Consumption
I dati sono in termini reali (miliardi di dollari); sono misurati a prezzi
costanti del 1992.


15
88082.9
′


XX=
88082.9 5.24e + 008
(X′ X)
−1

Xy=
′
c
Eduardo Rossi -

=
5.2010095
−0.00087434840
−0.00087434840
1.49e − 007
59461.3
3.54e + 008
Econometria 08




5
Example - Econometric Model of Consumption
Le stime OLS sono:

 
βb1
5.2010095

=
βb2
−0.00087434840
−0.00087434840
1.49e − 007


59461.3
3.54e + 008


βb1 = −184.08
βb2 = 0.7064
La funzione del consumo stimata è:
bt = −184.078 + 0.706Yt
C
c
Eduardo Rossi -
Econometria 08
6
Example - Econometric Model of Consumption
Consumption: actual and fitted values
4800
Actual
Fitted
4600
4400
Consumption
4200
4000
3800
3600
3400
3200
3000
5000
5500
6000
6500
GDP
c
Eduardo Rossi -
Econometria 08
7
Example - Econometric Model of Consumption
Consumption: actual and fitted values
4800
Fitted
Actual
4600
4400
Consumption
4200
4000
3800
3600
3400
3200
3000
1982
c
Eduardo Rossi 1984
-
1986
Econometria 08
1988
1990
1992
1994
1996
8
Example - Econometric Model of Consumption
Per il periodo 1982 − 1996 il coefficiente stimato βb1 (l’inclinazione
della retta di regressione) cioè la la propensione marginale al
consumo è pari a circa 0.70, suggerendo che per il periodo
campionario considerato un aumento del reddito reale di $1 produce,
in media, un aumento di circa 70 centesimi nel consumo reale
Diciamo in media perchè la relazione tra consumo e reddito è
inesatta, non tutti i punti giacciono sulla retta di regressione.
c
Eduardo Rossi -
Econometria 08
9
Ipotesi
Il modello di regressione lineare classico
yt = x′t β + εt
t = 1, . . . , N
y = Xβ + ǫ
Se il modello ha un’intercetta allora una colonna di X è uguale a un
vettore di 1. Per convenzione
 
1
 
 . 
X·1 =  ..  = ι
 
1
c
Eduardo Rossi -
Econometria 08
10
Ipotesi
Nell’analisi di correlazione, l’obiettivo principale è misurare la forza o
il grado di associazione lineare fra due variabili. Il coefficiente di
correlazione misura la forza di questa associazione lineare.
Nell’analisi di regressione c’è un’asimmetria nel modo in cui la
variabile dipendente e le variabili indipendenti sono trattate.
La variabile dipendente viene ipotizzata essere una variabile casuale
cioè con una distribuzione di probabilità.
L’analisi di regressione si occupa della stima e/o della previsione del
valore medio (o della popolazione) della variabile dipendente sulla
base dei valori noti o fissati delle variabili dipendenti.
c
Eduardo Rossi -
Econometria 08
11
Ipotesi
Siamo in grado di ottenere stimatori di β da un campione di dati
quando facciamo un’assunzione restrittiva circa la relazione tra la
variabile non osservabile ǫt con le variabili esplicative xt .
Senza una tale restrizione non siamo in grado di stimare l’effetto
ceteris paribus di βk .
Quando introduciamo l’intercetta β1 nella regressione possiamo
assumere che il valore medio (il valore atteso) di ǫt nella popolazione
sia zero:
E[ǫt ] = 0.
c
Eduardo Rossi -
Econometria 08
12
Ipotesi
L’assunzione cruciale è che il valore medio di ǫt non dipenda dal
valore di xt :
E[ǫt |xt ] = 0
ne segue
E[yt |xt ] = x′t β
la funzione di regressione della popolazione è una funzione lineare di
xt .
c
Eduardo Rossi -
Econometria 08
13
Ipotesi
Geometricamente, una curva di regressione per la popolazione è
semplicemente il luogo delle medie condizionali della variabile
dipendente per i valori fissi delle variabili esplicative.
La parte sistematica
x′t β
la parte non sistematica:
yt − E[yt |xt ]
c
Eduardo Rossi -
Econometria 08
14
Ipotesi
A.1 Il modello è lineare nei parametri.
A.2 I termini di disturbo sono additivi.
A.3 I parametri sono costanti.
A.4 Tutte le variabili rilevanti sono comprese nella X mentre le
grandezze irrilevanti sono comprese nel termine di disturbo.
A.5 Non ci sono variabili omesse.
c
Eduardo Rossi -
Econometria 08
15
Ipotesi
A.6 La X non è stocastica. (In seguito rimuoveremo questa ipotesi).
A.7 La X ha rango colonna pieno, uguale a K.
A.8 Il termine di disturbo è un white noise (rumore bianco)
E[εt ] = 0
media zero
E[ε2t ] = σ 2
E[εt ετ ] = 0
omoschedasticità
t 6= τ assenza di correlazione seriale
In forma matriciale
E[ǫ] = 0
V ar[ǫ] ≡ E[ǫǫ′ ] = σ 2 IN
c
Eduardo Rossi -
Econometria 08
16
Esempio
N =3




 ε1  h
E[ǫǫ′ ] = E 
ε2 

 ε1 ε2 ε3



ε3


2
ε1
ε1 ε2 ε1 ε3


2

= E  ε2 ε1 ε2
ε2 ε3 

ε3 ε1 ε3 ε2 ε23


σ2 0
0


2
2

=  0
=
σ
IN
σ 0 

0
0
σ2
c
Eduardo Rossi -
Econometria 08



i



17
Proprietà stimatore OLS in campioni finiti
Stimatore OLS
b = arg min (y − Xβ)′ (y − Xβ)
β
β
b = (X′ X)−1 X′ y
β
Proprietà
b = (X′ X)−1 X′ y = (X′ X)−1 X′ [Xβ + ǫ]
β
b = β + (X′ X)−1 X′ ǫ
β
b = β + E[(X′ X)−1 X′ ǫ] = β + E[(X′ X)−1 X′ ǫ]
E(β)
b = β + (X′ X)−1 X′ E[ǫ] = β + (X′ X)−1 X′ · 0
E(β)
c
Eduardo Rossi -
Econometria 08
18
Proprietà stimatore OLS
b è uno stimatore corretto (non distorto): E(β)
b =β
1. β
b è:
2. la matrice di varianza e covarianza di β
b − β)(β
b − β)′ ] = E[((X′ X)−1 X′ ǫ)((X′ X)−1 X′ ǫ)′ ]
E[(β
= (X′ X)−1 X′ E[ǫǫ′ ]X(X′ X)−1
= (X′ X)−1 X′ σ 2 IN X(X′ X)−1
= σ 2 (X′ X)−1 X′ X(X′ X)−1
= σ 2 (X′ X)−1
b è BLUE (Best Linear Unbiased
3. Lo stimatore OLS β
Estimator )(Teorema di Gauss-Markov).
c
Eduardo Rossi -
Econometria 08
19
Teorema di Gauss-Markov
Lo stimatore OLS è BLUE nel senso che rispetto ad ogni altro
stimatore lineare (ottenuto attraverso una trasformazione lineare di
y) del tipo
b = Ly
dove L : (K × N )
b
V ar(b) − V ar(β)
è una matrice semidefinita positiva.
c
Eduardo Rossi -
Econometria 08
20
Teorema di Gauss-Markov
Prova: Consideriamo i seguenti stimatori, lineari in y, di β
b = Ly = (A + C)y
b = Ay
β
con C 6= 0, A = (X′ X)−1 X′ .
b = (A + C)y = (A + C)Xβ + (A + C)ǫ
b =
AXβ + CXβ + (A + C)ǫ
ma AX = IK
b = β + CXβ + (A + C)ǫ
c
Eduardo Rossi -
Econometria 08
21
Teorema di Gauss-Markov
E[b] = β + CXβ + (A + C)E[ǫ]
E[b] = β + CXβ
Per la correttezza (non distorsione) di b è sufficiente che
b = (A + C)y
CX
c
Eduardo Rossi = 0
-
Econometria 08
22
Teorema di Gauss-Markov
Ora,
b − β = (A + C)ǫ
V ar[b] ≡ E[(b − β)(b − β)′ ]
= E[(A + C)ǫǫ′ (A + C)′ ]
= (A + C)E[ǫǫ′ ](A + C)′
= (A + C)σ 2 IN (A + C)′
= σ 2 (A + C)(A + C)′
ma
CA′ = CX(X′ X)−1 = 0
perchè CX = 0 per la correttezza (AC′ = 0). Quindi,
V ar[b] = σ 2 (AA′ + CC′ )
c
Eduardo Rossi -
Econometria 08
23
Teorema di Gauss-Markov
b = σ 2 (X′ X)−1 = σ 2 AA′
V ar[β]
V ar[b] = σ 2 [(X′ X)−1 + CC′ ]
b + σ 2 CC′
= V ar[β]
b = σ 2 CC′
V ar[b] − V ar[β]
CC′ è una matrice almeno semidefinita positiva,
α′ (CC′ )α ≥ 0 ∀α
indichiamo con γ ′ ≡ α′ C, per ogni γ è verificato che:
γ ′ γ ≥ 0.
c
Eduardo Rossi -
Econometria 08
24
Teorema di Gauss-Markov
Se C 6= 0 allora almeno un elemento lungo la diagonale principale di
CC′ è diverso da zero
con
b i = σ 2 u′ {CC′ }ui > 0
u′i {V ar[b] − V ar[β]}u
i
ui = [0, . . . , 0, 1, 0, . . . , 0]′
quindi per almeno un i è vero che V ar[bi ] − V ar[βbi ] > 0.
c
Eduardo Rossi -
Econometria 08
25
Coefficiente di Determinazione
Bontà della regressione (Goodness of Fit)
b +b
b +b
y=y
ǫ = Xβ
ǫ
per una singola osservazione:
b + εbt
yt = ybt + εbt = x′t β
Se la regressione contiene l’intercetta:
X
εbt = 0
t
X
yt =
t
t
y = yb
c
Eduardo Rossi X
-
ybt +
X
t
εbt =
Econometria 08
X
t
ybt
26
Coefficiente di Determinazione
Se esprimiamo le variabili in deviazione dalla loro media (variabili
centrate):
yt − y
= ybt − y + εbt
b + εbt
= (xt − x)′ β
= (x2t − x2 )βb2 + (x3t − x3 )βb3 + . . . + (xKt − xK )βbK + εbt
Le variabili centrate sono ortogonali a ι = [1, 1, . . . , 1]′ . Per tutte le
osservazioni:
b + Mιb
Mι y = Mι Xβ
ǫ
Mι ≡ [IN − ι(ι′ ι)−1 ι′ ] = [IN −
c
Eduardo Rossi -
Econometria 08
1 ′
ιι ]
N
27
Coefficiente di Determinazione
1
IN − ιι′ X
N
= X − ι X·1 . . . X·K
= [X·1 . . . X·K ] − ιX·1 . . . ιX·K
= (X·1 − ιX·1 ) . . . (X·K − ιX·K )
1
Mι X·1 = IN − ιι′ X·1 = 0
N
Mι è simmetrica e idempotente
=
Mι X
Mι ′
= Mι
Mι Mι
= Mι
Mιb
ǫ=b
ǫ
data l’ortogonalità con X:
b
ǫ′ Mι X = b
ǫ′ X = 0
c
Eduardo Rossi -
Econometria 08
28
Coefficiente di Determinazione
La Total Sum of Squares (TSS):
X
(yt − y)2 = y′ Mι y
t
=
=
=
b +b
b +b
(Xβ
ǫ)′ Mι (Xβ
ǫ)
′ ′
b
b + 2b
b +b
β X Mι Xβ
ǫ′ Mι Xβ
ǫ′b
ǫ
′ ′
b
b +b
β X Mι Xβ
ǫ′ b
ǫ
′
′
′
b
b
b
b
β
X
M
X
β
ǫ
ǫ
ι
R2 =
=
1
−
y′ Mι y
y′ Mι y
′
b
b è la Explained Sum of Squares (ESS),
• β X′ Mι Xβ
• b
ǫ′b
ǫ è la Sum of Squared Residuals (SSR).
• R2 è il coefficiente di determinazione.
L’R2 è compreso tra 0 e 1 ed è una misura della proporzione della
variabilità in y attribuibile alla variabilità delle variabili esplicative.
c
Eduardo Rossi -
Econometria 08
29
Coefficiente di Determinazione
L’R2 della regressione che usa variabili centrate è chiamato R2
centrato:
b ′ X′ Mι Xβ
b
β
||PX Mι y||2
||MX y||2
2
=
=1−
Rc =
y′ Mι y
||Mι y||2
||Mι y||2
non è influenzato dall’aggiunta di una costante al regredendo.
Quando una regressione non include una costante Rc2 > 1 o Rc2 < 0,
secondo il tipo di calcolo adottato.
c
Eduardo Rossi -
Econometria 08
30
Coefficiente di Determinazione
L’R2 è anche interpretabile come il coefficiente di correlazione
b . Infatti,
multipla y e y
′ ′
b
b
b Mι y
b = β X Mι Xβ
y
′
dato
b
b = Xβ
y
Ora
b = y−b
y
ǫ
b ′ Mι y
b
y
b ′ Mι (y − b
= y
ǫ)
b ′ Mι y − y
b ′ Mιb
= y
ǫ
′ ′
b
b Mι y − β X b
= y
ǫ
′
b ′ Mι y.
= y
c
Eduardo Rossi -
Econometria 08
31
Coefficiente di Determinazione
R
2
=
=
=
=
=
b ′ Mι y
b
y
y′ Mι y
b)
y′ Mι y
(b
y′ Mι y)(b
b)
(y′ Mι y)(b
y′ Mι y
(b
y′ Mι y)2
b)
(y′ Mι y)(b
y′ Mι y
(b
y′ M′ι Mι y)2
b)
(y′ M′ι Mι y)(b
y′ M′ι Mι y
P
[ t (b
yt − yb)(yt − y)]2 /N 2
P
P
2
yt − yb)2 /N
t (yt − y) /N
t (b
b.
questo è il coefficiente di correlazione tra y e i valori stimati y
c
Eduardo Rossi -
Econometria 08
32
Example
Spesa
Reddito
familiare (yt )
familiare (x2t )
70
80
65
100
90
120
95
140
110
160
115
180
120
200
140
220
155
240
150
260
c
Eduardo Rossi -
Econometria 08
33
Esempio
Il modello è
yt = β1 + β2 x2t + εt
t = 1, . . . , 10
βb1 = 24.4545 βb2 = 0.5091
T SS =
10
X
(yt − y)2 = 8890
t=1
SSR =
10
X
t=1
R2 = 1 −
(yt − βb1 − βb2 x2t )2 = 337.2727
SSR
= 0.9621
T SS
Il valore di βb2 , che misura l’inclinazione della retta, mostra che, per il
campione considerato x2t varia tra tra $80 e $260 per settimana,
quando x2 aumenta di $1, l’aumento stimato nella spesa media per il
consumo è di circa 51 centesimi.
c
Eduardo Rossi -
Econometria 08
34
Esempio
Il valore di βb1 , che è l’intercetta della regressione, indica il livello
medio della spesa settimanale per il consumo quando il reddito è
nullo.
c
Eduardo Rossi -
Econometria 08
35
Interpretazione geometrica di R2
Ru2 : R2 non centrato. Dal teorema di Pitagora:
= PX y + (I − PX )y
y
= PX y + MX y
y′ y = y′ PX y + y′ MX y = y′ P′X PX y + y′ M′X MX y
||y||2 = ||PX y||2 + ||MX y||2 = ESS + SSR
Ru2
ESS
||PX y||2
||MX y||2
2
=
=
=
1
−
=
cos
(θ)
2
2
T SS
||y||
||y||
θ è l’angolo fra y e PX y.
c
Eduardo Rossi -
Econometria 08
36
Interpretazione geometrica di R2
Per ogni θ, −1 ≤ cos(θ) ≤ 1 allora 0 ≤ Ru2 ≤ 1.
b R2 = 1.
• Se θ = 0 −→ y = Xβ,
u
• Se θ = π/2 −→ y = b
ǫ, Ru2 = 0.
Ru2 dipende dai dati solo attraverso i residui ed i valori stimati.
• E’ invariante a trasformazioni non singolari dei regressori.
• Il valore di Ru2 è invariante a cambiamenti nella scala di y.
• L’Ru2 non è invariante ai cambiamenti nelle unità che cambiano
l’angolo θ.
c
Eduardo Rossi -
Econometria 08
37
Interpretazione geometrica di R2
Consideriamo un semplice cambiamento di unità di misura,
aggiungiamo una costante α ad ogni elemento di y:
y + αι = Xβ + ǫ
Se assumiano che la matrice includa una costante segue che
PX ι = ι
MX ι = 0
y + αι = PX (y + αι) + MX (y + αι)
= PX y + αι + MX y
2
||P
y
+
αι||
X
Ru2 =
||y + αι||2
c
Eduardo Rossi -
Econometria 08
38
Interpretazione geometrica di R2
Scegliendo un α sufficientemente grande, possiamo aumentare l’Ru2 ed
avvicinarlo ad 1, perchè per ogni α molto grande il termine αι
domina completamente i termini PX y e y nel numeratore e
denominatore.
L’R2 centrato è molto più usato dell’Ru2 . Ru2 non ha senso nelle
regressioni senza un termine costante o di suoi equivalenti in termini
di variabili dummy.
c
Eduardo Rossi -
Econometria 08
39
Interpretazione geometrica di R2
Entrambe le versioni dell’R2 sono una valida misura della bontà della
b Per ogni altro
regressione solo quando le stime sono OLS β.
e che non implichi Xβ
e ⊥ (y − Xβ):
e
stimatore β,
e 2
e
||y − Xβ||
||Xβ||
1−
6
=
2
||y||
||y||2
Se si sceglie di definire R2 nei termini dei residui, usando la prima
delle espressioni, non si può garantire che questa sia positiva e se
e non possiamo garantire che
scegliamo di definirlo in termini di Xβ
sia minore di 1. Quando sono usati altri stimatori diversi dall’OLS
allora dobbiamo essere molto cauti nell’interpretare l’R2 .
c
Eduardo Rossi -
Econometria 08
40
Osservazioni influenti e leverage
Regressione semplice:
y = β1 ι + β2 x + ǫ
I valori stimati appartengono alla retta di regressione:
ybt = βb1 + βb2 xt
t = 1, . . . , N
E’ la coordinata x che dà al punto la sua posizione di alto leverage,
ma è la coordinata y che determina se la posizione di alto leverage è
realmente effettivo risultando in una sostanziale influenza sulla linea
di regressione.
Se una o poche osservazioni in una regressione sono altamente
influenti, nel senso che una loro cancellazione dal campione
b in modo sostanziale, allora dovremo
cambierebbe alcuni elementi di β
analizzare con molta attenzione i dati che stiamo utilizzando.
c
Eduardo Rossi -
Econometria 08
41
Osservazioni influenti e leverage
Per rimuovere l’effetto della t-th osservazione usiamo una variabile
dummy, et , un vettore N × 1 che ha il t-esimo elemento uguale a 1 e
tutti gli altri 0 (vettore di una base naturale). Includendo et come
regressore
y = Xβ + αet + ǫ.
Usando il teorema FWL possiamo affermare che abbiamo le stesse
stime dei parametri e gli stessi residui della regressione di Mt y su
Mt Xβ, dove
Mt = I − et (e′t et )−1 e′t = I − et e′t
Mt y = y − et e′t y = y − yt et
Mt X = X − et e′t X = X − et x′t
dove la t-esima riga di X è rimpiazzata da zeri.
c
Eduardo Rossi -
Econometria 08
42
Osservazioni influenti e leverage
La regressione di Mt y su Mt Xβ fornisce le stesse stime che avremmo
ottenuto se avessimo cancellato la t-esima osservazione.
Questo significa che il modello:
y = Xβ + αet + ǫ
sterilizza l’osservazione t-esima, cioè non entra nel calcolo dello
stimatore OLS di β.
c
Eduardo Rossi -
Econometria 08
43
Osservazioni influenti e leverage
Siano PZ e MZ proiettori ortogonali su e da i sottospazi coperti da
(X, et ). I valori stimati e i residui della regressione:
y = Xβ + αet + ǫ
sono
(t)
b
y = PZ y + MZ y = Xβ + α
bet + MZ y
Premoltiplicando per PX si ottiene
(t)
b
PX y = Xβ + α
bPX et
dove usiamo MZ PX = 0 perchè annulla sia X che et .
c
Eduardo Rossi -
Econometria 08
44
Osservazioni influenti e leverage
b e cosı̀
Ma PX y = Xβ
(t)
b
b = −b
X(β − β)
αPX et
(t)
b
b Con il teorema FWL si
Possiamo calcolare la differenza β − β.
ottiene la stima di α da
y = Xβ + αet + ǫ
è la stessa che si ottiene dalla regressione di MX y su MX et
α
b=
(e′t M′X MX et )−1 e′t M′X MX y
e′t MX y
= ′
et MX et
εbt = e′t MX y è il t-esimo elemento di MX y, i residui dalla regressione
che include tutte le osservazioni.
c
Eduardo Rossi -
Econometria 08
45
Osservazioni influenti e leverage
e′t MX et è l’elemento diagonale t-esimo di MX :
e′t MX et = e′t (I − PX )et = e′t Iet − e′t PX et = 1 − ht
dove ht = e′t PX et . Sostituendo
εbt
α
b=
1 − ht
Premoltiplicando
(t)
b
b = −b
X(β − β)
αPX et
per (X′ X)−1 X′
b (t) − β)
b = −b
(X′ X)−1 X′ X(β
α(X′ X)−1 X′ PX et
b (t) − β
b = −b
β
α(X′ X)−1 X′ et
c
Eduardo Rossi -
Econometria 08
46
Osservazioni influenti e leverage
Sostituendo α
b:
b (t) − β
b = −b
β
α(X′ X)−1 X′ et = −
quando:
εbt
(X′ X)−1 xt
1 − ht
• è grande εbt
• o lo è ht
• o lo sono entrambi, l’effetto della t-esima osservazione su almeno
alcuni elementi di βb è verosimilmente sostanziale. Una tale
osservazione è detta influente.
E’ evidente che l’influenza di un’osservazione dipende sia da εbt che da
ht .
E’ più grande se l’osservazione ha un ampio residuo, che è collegato
alla sua coordinata y.
c
Eduardo Rossi -
Econometria 08
47
Osservazioni influenti e leverage
ht è collegato alla coordinata x di un punto e determina il leverage, o
l’influenza potenziale, della corrispondente osservazione.
Osservazioni con un ampio ht hanno un leverage elevato. Un punto
di leverage non è necessariamente influente ma ha il potenziale per
esserlo.
c
Eduardo Rossi -
Econometria 08
48
Osservazioni influenti e leverage
ht dipende dagli elementi diagonali di PX . Possiamo esprimere ht
come
ht = e′t PX et = ||PX et ||2
allora ht ≥ 0. Poichè ||et || = 1
ht = ||PX et || ≤ ||et ||2
per ogni proiettore ortogonale PX ed ogni vettore y ∈ RN
||PX y|| ≤ ||y||
l’ipotenusa è più lunga di entrambi i lati di un triangolo rettangolo.
Cosı̀
0 ≤ ht ≤ 1
Quando vi è un termine costante, nessuno delle ht può essere minore
di 1/N .
c
Eduardo Rossi -
Econometria 08
49
Osservazioni influenti e leverage
Se X consistesse solo di una costante ι,
e′t Pι et = e′t (ι(ι′ ι)−1 ι′ )et =
1
N
1
ht = ||Pι et || =
N
Se ci sono altri regressori
2
1
= ||Pι et ||2 = ||Pι PX et ||2 ≤ ||PX et ||2 = ht
N
perchè
Pι PX = Pι
dato che ι sta in Col(X), ι = Xe1
Pι = (Xe1 (e′1 X′ Xe1 )−1 e′1 X′ )
c
Eduardo Rossi -
Econometria 08
50
Osservazioni influenti e leverage
= (Xe1 (e′1 X′ Xe1 )−1 e′1 X′ )PX
Pι PX
= (Xe1 (e′1 X′ Xe1 )−1 e′1 X′ )
= Pι
Sebbene ht non possa essere zero in condizioni normali, c’è un caso
speciale nel quale è uguale a 1. Se una colonna di X è la variabile
dummy et :
ht = e′t PX et = e′t et = 1
In una regressione con N osservazioni and K regressori, la media di
ht è uguale a K/N :
N
X
ht =
t=1
c
Eduardo Rossi N
X
e′t PX et = tr(PX ) = tr(X(X′ X)−1 X′ ) = K
t=1
-
Econometria 08
51
Osservazioni influenti e leverage
Quando per una data matrice di regressori, gli elementi diagonali di
PX sono tutti vicini al loro valore medio nessuna osservazione ha
molto leverage. X ha un balanced design.
Se alcuni degli ht > K/N ed altri sono conseguentemente più piccoli,
la X ha un unbalanced design.
La ht tende ad essere più grande per valori dei regressori che sono
lontani dai valori medi del campione.
c
Eduardo Rossi -
Econometria 08
52
Esempio
t
xt
yt
εbt
ht
ht εt /(1 − ht )
1
1
1.5100
2.8800
-0.3570
0.2026
-0.0907
2
1
2.3300
3.6200
-0.6198
0.1049
-0.0726
3
1
3.5700
5.6400
-0.1162
0.5356
-0.1340
4
1
2.1200
3.4300
-0.5530
0.1009
-0.0621
5
1
1.5400
3.2100
-0.0637
0.1936
-0.0153
6
1
1.7100
4.4900
1.0084
0.1507
0.1789
7
1
2.6800
4.5000
-0.1678
0.1559
-0.0310
8
1
2.2500
4.2800
0.1381
0.1010
0.0155
9
1
1.3200
2.9800
-0.0246
0.2686
-0.0090
10
1
2.8000
5.5700
0.7555
0.1862
0.1729
c
Eduardo Rossi -
Econometria 08
53
Esempio


1.390
b


β=
1.223
R2 = 0.7278
Il valore massimo di ht lo si trova per l’osservazione 3, 0.536. E’ più
di 5 volte quello dell’osservazione 4 (il più piccolo) ed è maggiore di
2K/N . Il valore di x2t per l’osservazione 3 è di gran lunga il
maggiore .
L’osservazione 3 non è un punto di leverage estremo (altre due
osservazioni hanno un ht maggiore di 0.2), né è particolarmente
influente.
c
Eduardo Rossi -
Econometria 08
54
Esempio
Introduciamo un errore nella matrice X: l’osservazione 7 è cambiata
accidentalmente da 2.68 a 7.68
t
xt
yt
εbt
ht
ht εt /(1 − ht )
1
1
1.5100
2.8800
-0.9004
0.1432
-0.1504
2
1
2.3300
3.6200
-0.3559
0.1039
-0.0413
3
1
3.5700
5.6400
1.3686
0.1247
0.1949
4
1
2.1200
3.4300
-0.4958
0.1099
-0.0612
5
1
1.5400
3.2100
-0.5775
0.1410
-0.0948
6
1
1.7100
4.4900
0.6619
0.1297
0.0986
7
1
7.6800
4.5000
-0.7512
0.8831
-5.6741
8
1
2.2500
4.2800
0.3232
0.1059
0.0383
9
1
1.3200
2.9800
-0.7551
0.1583
-0.1420
10
1
2.8000
5.5700
1.4821
0.1004
0.1655
c
Eduardo Rossi -
Econometria 08
55
Esempio
Le stime OLS sono


3.420
b


β=
0.238
R2 = 0.1996
h7 = 0.8831 è più di 5 volte più grande delle altre ht ! L’osservazione
7 è un punto con un elevato leverage.
Inoltre ha una notevole influenza h7 ε7 /(1 − h7 ) = −5.6741.
Se ci sono punti con levrage e/o con elevata influenza, allora è meglio
controllare l’accuratezza dei dati per quelle osservazioni per vedere se
rimuovendole dal campione i risultati cambiano in modo apprezzabile.
c
Eduardo Rossi -
Econometria 08
56
Inclusione ed esclusione di osservazioni
Sensitività delle stime OLS all’inclusione o esclusione di osservazioni.
b stima ottenuta con y, X di N osservazioni. La stima con N + 1
β
osservazioni ottenute con l’inclusione di un punto arbitrario (y, x)
aggiunto alle osservazioni iniziale:


y

YN +1 = 
y
XN +1

=
X
x′
X′N +1 XN +1
=


h
X
′
x
i


X
x′

 = X′ X + xx′
′
−1 ′
b
β
=
(X
X
)
XN +1 YN +1
N
+1
N +1
N +1
c
Eduardo Rossi -
Econometria 08
57
Inclusione ed esclusione di osservazioni
′
′ −1
′
b
β
=
(X
X
+
xx
)
(X
y + xy)
N +1
Lemma: Se A e D sono matrici nonsingulari, allora
(A + BDC)−1 = A−1 − A−1 B(D−1 + CA−1 B)−1 CA−1
Ponendo
A
= X′ X
B = x
C = x′
D = 1
c
Eduardo Rossi -
Econometria 08
58
Inclusione ed esclusione di osservazioni
′
′ −1
(X X + xx )
′
= (X X)
−1
(X′ X)−1 xx′ (X′ X)−1
−
1+h
con h = x′ (X′ X)−1 x.
′
−1
′
′
−1
(X
X)
xx
(X
X)
b
β
(X′ X)−1 −
(X′ y + xy)
N +1 =
1+h
′
−1
′
′
−1
(X
X)
xx
(X
X)
xy
b
b
= β−
β+
1+h
1+h
′
b
′
−1 x(y − β x)
b
= β + (X X)
1+h
c
Eduardo Rossi -
Econometria 08
59