Trend e radici unitarie

Transcript

Trend e radici unitarie
Trend e radici unitarie
Matteo Pelagatti
1 giugno 2007
1 Passeggiata aleatoria
Sia Xt , t = 0, 1, . . . un processo definito da
X0 = x0
Xt = δ + Xt−1 + εt .
con εt rumore bianco a varianza σ 2 . Tale processo è detto passeggiata aleatoria
con deriva (RWD da Random Walk with Drift), dove la deriva è rappresentata dal
parametro δ. Se δ = 0 il processo prende il nome di passeggiata aleatoria (RW da
random walk).
È facile vedere che, partendo da t = 0 e proseguendo per sostituzioni, si ha
X0 = x0
X1 = δ + x0 + ε1
X2 = δ + (δ + x0 + ε1 ) + ε2 = 2δ + x0 + ε1 + ε2
X3 = δ + (2δ + x0 + ε1 + ε2 ) + ε3 = x0 + 3δ + ε1 + ε2 + ε3
.........
Xt = x0 + tδ +
t
X
εi .
i=1
Un RWD è quindi dato dalla somma di una retta x0 +δt e di un RW. La retta è un
trend deterministico, nel senso che, conoscendo x0 e δ è perfettamente prevedibile,
il RW è un trend stocastico dato che non è mai perfettamente prevedibile.
In una passeggiata aleatoria il valore iniziale x0 e gli shock εt vengono per sempre “inglobati” nel processo. Infatti operando le stesse sostituzioni in un processo
AR(1) stazionario, cioè con |φ| < 1,
Xt = δ + φXt−1 + εt
otterremmo1
t−1
1 − φt X i
Xt = φ x0 + δ
+
φ εt−i ,
1−φ
t
i=0
1
Si ricordi che
Pt−1
j=0
φj = (1 − φt )/(1 − φ).
1
che al crescere di t tende a “scordare ” l’effetto del valore iniziale x0 e di ogni
shock εt−i sufficientemente remoti nel tempo (per i grande). Per t sufficientemente
grande δ(1 − φt )/(1 − φ) è indistinguibile dalla media del processo AR(1), δ/(1 −
φ).
Il valore atteso, la varianza e l’autocovarianza di un RWD (random walk with
drift) inizializzato dal valore X0 = x0 si ricavano facilmente dalle formule viste
sopra: sia s > t
" t
#
X
εi = x0 + δt
E(Xt ) = x0 + tδ + E
i=1
"
Var(Xt ) = E x0 + tδ +
"
Cov(Xt , Xs ) = E
t
X
#2
εi − x0 − δt
" t
#2
X
=E
εi = tσ 2
i=1
t
X
i=1
εi
s
X
i=1
#
εi = tσ 2 ,
i=1
dove gli ultimi due risultati si ottengono tenendo conto che il white noise è un
processo serialmente incorrelato a media nulla, per cui i valori attesi E(εi εj ) con
i 6= j si annullano e per i = j sono pari a σ 2 .
I momenti di Xt dipendono evidentemente da t e quindi il processo non è
stazionario. Per quanto riguarda il valore atteso, è vero che in assenza di deriva
(δ = 0) esso non dipende dal tempo t, tuttavia il valore iniziale a cui si condiziona
il calcolo modifica il valore atteso permanentemente.
Quando una serie è generata da un trend deterministico sommato ad un
processo ARMA stazionario,
φ(B)(Xt − µ − βt) = θ(B)εt ,
si dice che il processo Xt è stazionario attorno a un trend (trend stationary) o che
ha un trend puramente deterministico.
Quando un processo ARMA ha d ≥ 1 radici unitarie pari a 1, cioè
ϕp+d (B)(Xt − δ) = θq (B)εt
con ϕp+d (B) = φp (B)(1 − B)d si dice integrato di ordine d, indicato con I(d), o
a differenza stazionaria (difference stationary), oppure dotato di trend stocastico.
Un processo I(1) può essere visto come un RW (eventualmente con deriva), ma
guidato da shock stazionari e non necessariamente da un rumore bianco:
Xt = Xt−1 + Zt
con Zt processo ARMA stazionario. In quest’ultima formula stiamo integrando
Zt . Integrando un processo I(1) si ottiene un processo I(2) (e così via):
Yt = Yt−1 + Xt ,
(si dimostri la precedente affermazione mostrando che ∆2 Yt è stazionario).
2
2 Test di radice unitaria
2.1 Il test di Dickey-Fuller
Per partire dal caso più semplice si voglia testare l’ipotesi che una serie storica
sia stata generata da un RW contro l’ipotesi essa provenga da un processo AR(1)
stazionario con media nulla:
H0 : Xt = Xt−1 + εt
H1 : Xt = φXt−1 + εt ,
|φ| < 1.
Dato che quando φ = 1 non esiste varianza marginale (γ(0) = 1/(1−φ2 )), non
possiamo stimare i parametri del processo per mezzo della massima verosimiglianza. Condizionando invece al primo valore X1 = x1 si possono applicare i minimi
quadrati (LS da least square) condizionati (che come abbiamo visto coincidono con
la massima verosimiglianza gaussiana condizionata).
Nel caso autoregressivo la stima LS condizionata ha la classica forma chiusa:
β = (XX)−1 X 0 y
con β = (κ, φ1 , . . . , φp )0 , y = (xp+1 , . . . , xn )0 e

1 xp
xp−1 . . .
1 xp+1
xp . . .

X = .
.
..
..
..
 ..
.
.
x1
x2
..
.





1 xn−1 xn−2 . . . xn−p
In particolare per stimare il coefficiente autoregressivo dell’AR(1) a media zero
usando la serie storica x0 , x1 , . . . , xn si ha
Pn
t=1 Xt Xt−1
φ̂n = P
n
2
t=1 Xt−1
e sostituendovi Xt = φXt−1 + εt si ottiene
Pn
εt Xt−1
φ̂n = φ + Pt=1
.
n
2
t=1 Xt−1
Rammentando i risultati del precedente capitolo, si sa che quando |φ| < 1
√ Pn
¡
¢
√
n t=1 εt Xt−1 d
Pn
→ N 0, (1 − φ2 ) .
n(φ̂n − φ) =
2
t=1 Xt−1
Il fatto che all’avvicinarsi di φ a 1, la varianza di tale distribuzione tenda ad annullarsi è sicuramente un fatto curioso, che suggerisce che quando φ = 1 non è più
√
sufficiente moltiplicare (φ̂n − φ) per n affinché converga (in distribuzione) ad
3
una distribuzione non degenere. Infatti si dimostra che quando φ = 1, lo stimatore è superconsistente, cioè affinche (φ̂n − φ) non converga in distribuzione ad un
punto massa2 è necessario moltiplicarlo per n.
Senza fornire dimostrazioni che vanno al di là degli obiettivi di questo corso, si
noti per esempio che quando Xt è un AR stazionario ed ergodico il denominatore
riscalato per n converge in probabilità alla varianza del processo
Pn
2
t=1 Xt−1 p
→ γ(0);
n
mentre quando φ = 1, si ha
Pn
2
t=1 Xt−1
n
Il valore atteso
E
" n
X
t=1
Pn
=
#
2
Xt−1
= σ2
Pt
2
i=1 εi )
t=1 (
n
n
X
(t − 1) =
t=1
.
(1)
σ 2 (n − 1)n
2
diverge con velocità O(n2 ), e quindi diverge anche la sua versione campionaria
(1). Per fare convergere in distribuzione il denominatore è necessario dividerlo per
n2 , ma la distribuzione cui converge non è standard e né densita, né funzione di
ripartizione sono state mai derivate.
Per quanto riguarda il numeratore, il discorso, pur non essendo complicato, è
più lungo e tedioso per cui diamo solo il risultati finale:
Pn
2
t=1 Xt−1 εt d σ
→
(χ2 − 1)
n
2 1
dove χ21 è una variabile casuale Chi Quadrato con un grado di libertà.
Mettendo insieme i risultati abbiamo che n(φ̂n − 1) si distribuisce come il
rapporto di una Chi Quadrato centrata e riscalata e una distribuzione non standard.
La distribuzione così ottenuta prende il nome di distribuzione di Dickey-Fuller di
primo tipo e i valori critici sono tabulati in diversi testi3
Solitamente, in luogo di stimare il modello Xt = φXt−1 + εt , si sottrae Xt−1
da entrambe le parti dell’uguale e si ottiene
∆Xt = ρXt−1 + εt
dove si è posto ρ = φ − 1. Lo stimatore LS di ρ è identico allo stimatore LS di
φ − 1, ovvero ρ̂n = (φ̂n − 1), delle cui proprietà abbiamo appena parlato.
Il classico test t che si ottiene dividendo ρ̂n per il relativo errore standard
¶1/2
µ
Sn2
se(ρ̂n ) = Pn
2
t=1 Xt−1
2
3
Un punto massa è una distribuzione degenere che mette tutta la probabilità in un punto.
Per esempio Hamilton J.D. (1995) Econometria delle serie storiche, Monduzzi Editore, Milano.
4
con Sn2 stimatore della varianza del rumore bianco
n
Sn2 =
1 X
(∆Xt − ρ̂n Xt−1 )2
n−1
t=1
converge in distribuzione. Anche in questo caso la distribuzione limite è non standard e prende il nome di Dickey-Fuller di secondo tipo ed è tabulata in diversi
testi.
Il caso appena preso in considerazione, cioè RW vs. AR(1) stazionario a media
nulla, è solitamente chiamato Caso 1.
Caso 2.
Quando si vuole testare se i dati sono stati generati da un RW contro un processo
AR(1) stazionario a media arbitraria si stima il modello
∆Xt = κ + ρXt−1 + εt
e si testano le ipotesi
H0 : ρ = 0, κ = 0
H1 : ρ < 0.
La distribuzione del test t relativo a ρ sotto H0 ha distribuzione asintotica non
standard diversa da quella del caso precedente, ed è tabulata in molti testi.
Caso 3.
Quando si vuole testare se i dati sono stati generati da un RWD contro un processo
AR(1) stazionario a media arbitraria si stima il modello
∆Xt = κ + ρXt−1 + εt
e si testano le ipotesi
H0 : ρ = 0, κ 6= 0
H1 : ρ < 0.
La distribuzione del test t relativo a ρ sotto H0 ha distribuzione asintotica normale
standard.
Caso 4.
Quando si vuole testare se i dati sono stati generati da un RWD contro un processo
AR(1) con trend lineare deterministico si stima il modello
∆Xt = κ + δt + ρXt−1 + εt
e si testano le ipotesi
H0 : ρ = 0, κ 6= 0, δ = 0
H1 : ρ < 0, δ 6= 0.
La distribuzione del test t relativo a ρ sotto H0 ha distribuzione asintotica non
standard diversa dalle precedenti, anch’essa tabulata in diversi testi.
5
2.2 Il test di Dickey-Fuller aumentato
Il test di Dickey-Fuller (DF) pone in alternativa due processi dalla dinamica piuttosto limitata: escludendo le componenti deterministiche si confronta un RW contro
un AR(1) stazionario. Sarebbe più utile testare la presenza di una radice unitaria all’interno di un generico ARMA(p, q) o almeno AR(p). Il test DF può essere generalizzato solamente a processi AR(p), che tuttavia per p sufficientemente grande possono approssimare ragionevolmente bene processi ARMA. Il test di
Phillips-Perron (che qui non illustriamo) consente di testare la presenza di una
radice unitaria anche in presenza di dinamiche più generali.
Si ricordi che un processi AR(p) ha (almeno) una radice unitaria quando l’equazione caratteristica φp (z) = 0 è verificata per z = 1, da cui 1 − φ1 − . . . − φp = 0.
Quindi, se si riuscisse a ri-parametrizzare il modello AR(p) in modo da avere un
parametro ρ = φ1 + . . . + φp − 1, si potrebbe costruire un test di significatività per
l’ipotesi ρ = 0.
L’operatore autoregressivo φp (B) = 1 − φ1 B − . . . − φp B p può essere riscritto
come
φp (B) = (1 − φ1 − . . . − φp )B + (1 − α1 B − . . . − αp−1 B p−1 )(1 − B) (2)
infatti svolgendo i conti si ottiene
1+(−α1 −φ1 −. . .−φp )B +(α1 −α2 )B 2 +. . .+(αp−2 −αp−1 )B p−1 +αp−1 B p ,
ed equagliando i termini di medesimo grado:
αp−1 = −φp
αp−2 − αp−1 = −φp−1 ,
αp−2 = −φp−1 − φp
αp−3 − αp−2 = −φp−2 ,
αp−3 = −φp−2 − φp−1 − φp
..................
−α1 − φ1 − . . . − φp = φ1 ,
α1 = −φ1 − . . . − φp .
Scrivendo il processo AR(p) per mezzo della rappresentazione (2) del
polinomio autoregressivo otteniamo
∆Xt = ρXt−1 + α1 ∆Xt−1 + . . . αp−1 ∆Xt−(p−1) + εt
(3)
dove si è posto ρ = φ1 + . . . + φp − 1.
Questo test prende il nome di Dickey-Fuller aumentato (ADF da Augmented
Dickey-Fuller) e può essere generalizzato con la presenza di componenti deterministiche come nei casi del paragrafo precedente. Le distribuzioni asintotiche sono
le medesime dei quattro casi precedenti.
La selezione del numero dei ritardi p viene normalmente fatta per mezzo del
criterio di informazione di Schwarz: si stimano diversi modelli autoregressivi
AR(k), per k = 1, . . . , K, nella forma (3) e si sceglie il valore di k per cui lo Schwarz è minimo. I test t sui coefficienti αi hanno la usuale distribuzione gaussiana
standard.
6
2.3 Test di Phillips-Perron (accenni)
Il test ADF permette di testare la presenza di una radice unitaria all’interno di
un modello puramente autoregressivo. È vero che è possibile approssimare un
qualunque processo stazionario per mezzo di un AR di ordine elevato, ma questo
comporta la stima di un numero elevato di parametri riducendo l’efficienza della
stima e la potenza del test in campioni finiti.
Un’alternativa al test ADF è il Phillips-Perron che mette in competizione
H0 :
∆Xt = ηt
contro
H1 :
∆Xt = ρXt−1 + ηt ,
ρ < 1,
dove ηt è un processo stazionario.
La statistica test di Phillips-Perron origina da una correzione della statistica di
Dickey-Fuller basata sul parametro incognito
2
λ =
∞
X
γ(i),
(4)
i=−∞
dove γ(·) è la funzione di autocovarianza del processo ηt . Il lettore ricorderà
che la media campionaria di osservazioni da un processo stazionario converge in
distribuzione a
√
d
n(X̄n − µ) →
N (0, λ2 )
quando λ2 < ∞.
La varianza λ2 è stimabile per mezzo di
n−1
X
λ̂2 =
κ(i)γ̂(i)
(5)
i=−n+1
dove κ(i) è una funzione detta nucleo (kernel) con le seguenti caratteristiche:
κ(·) : R 7→ [−1, 1],
κ(0) = 1,
κ(x) = κ(−x),
Z ∞
κ2 (x)dx < ∞.
−∞
Il kernel originariamente proposto da Phillips e Perron è quello di Bartlett
¯ ¯
µ ¶ (
1 − ¯ mi ¯ per |i| < m,
i
κ
=
m
0
altrimenti,
dove m è un parametro di troncamento spesso fissato pari a4 m = b4(n/100)2/9 c.
4
bxc è la parte intera di x.
7
2.4 Il test KPSS
Si prenda in considerazione il processo
Xt = δt + µt + ηt
(6)
dove µt è il processo RW
µt = µt−1 + εt
ed ηt è un processo stazionario (non deterministico).
Il processo (6) senza restrizioni sui parametri δ, γη (0) e ση2 è dato dalla somma
di una passeggiata aleatoria µt con deriva δ e di un processo stazionario ηt . Quando
δ = 0 la deriva è nulla. Quando σε2 = 0 l’equazione del RW definisce una costante
e il processo (6) si riduce ad un trend deterministico più un processo stazionario
(trend stationarity). Il test KPSS (dai nomi degli autori Kwiatkowski, Phillips,
Schmidt e Shin) è un test per verificare l’ipotesi nulla
σε2 = 0,
H0 :
cioè l’ipotesi nulla è la stazionarietà del processo (I(0)), mentre quella alternativa
è l’integrazione dello stesso (I(1)).
Per calcolare la statistica test si deve
1. calcolare la regressione ausiliaria delle osservazioni xt su una costante e t,
e ottenere gli errori di regressione campionari et = xt − κ̂ − hatδt (si noti
che se non si ritiene necessario inserire un trend deterministico nel processo,
et = xt − x̄, dove x̄ è la media campionaia);
2. integrare gli errori di regressione
St =
n
X
ei ;
i=1
3. calcolare la statistica
KPSS =
1
n
X
n2 λ̂2
t=1
St2 ,
λ̂2
dove è la stima della varianza asintotica della media campionaria di ηt discussa nel paragrafo precedente. La distribuzione asintotica di tale statistica
è non standard ed è tabulata nell’articolo originale sia per il caso con deriva,
sia per il caso senza trend deterministico.
Se in (6) la varianza σε2 è nulla, e quindi il processo µ si riduce ad una costante,
una volta eliminato il trend deterministico per mezzo della regressione ausiliaria,
l’errore di regressione è stazionario a media nulla, ed il processo St è I(1). Come
si è già visto nel paragrafo sul test DF, per fare convergere ad una v.c. non degenere
la somma dei quadrati di un processo integrato, è necessario dividerlo per n2 . Se
8
invece la varianza σε2 è maggiore di zero, Xt è un processo integrato e gli errori di
regressione sono a loro volta I(1). In questo ultimo caso St è un processo I(2), e
la somma dei quadrati divisa per n2 diverge. Pertanto il test è a una coda (destra).
Avere a disposizione un test di stazionarietà oltre che a test di radice unitaria
è piuttosto utile per robustificare i risultati. Infatti è possibile che l’ipotesi nulla di
un test di radice unitaria non venga rifiutata per scarsa potenza del test. Se il test
KPSS conferma la non stazionarietà del processo, la nostra fiducia nella presenza
di una radice unitaria cresce.
9