Trend e radici unitarie
Transcript
Trend e radici unitarie
Trend e radici unitarie Matteo Pelagatti 1 giugno 2007 1 Passeggiata aleatoria Sia Xt , t = 0, 1, . . . un processo definito da X0 = x0 Xt = δ + Xt−1 + εt . con εt rumore bianco a varianza σ 2 . Tale processo è detto passeggiata aleatoria con deriva (RWD da Random Walk with Drift), dove la deriva è rappresentata dal parametro δ. Se δ = 0 il processo prende il nome di passeggiata aleatoria (RW da random walk). È facile vedere che, partendo da t = 0 e proseguendo per sostituzioni, si ha X0 = x0 X1 = δ + x0 + ε1 X2 = δ + (δ + x0 + ε1 ) + ε2 = 2δ + x0 + ε1 + ε2 X3 = δ + (2δ + x0 + ε1 + ε2 ) + ε3 = x0 + 3δ + ε1 + ε2 + ε3 ......... Xt = x0 + tδ + t X εi . i=1 Un RWD è quindi dato dalla somma di una retta x0 +δt e di un RW. La retta è un trend deterministico, nel senso che, conoscendo x0 e δ è perfettamente prevedibile, il RW è un trend stocastico dato che non è mai perfettamente prevedibile. In una passeggiata aleatoria il valore iniziale x0 e gli shock εt vengono per sempre “inglobati” nel processo. Infatti operando le stesse sostituzioni in un processo AR(1) stazionario, cioè con |φ| < 1, Xt = δ + φXt−1 + εt otterremmo1 t−1 1 − φt X i Xt = φ x0 + δ + φ εt−i , 1−φ t i=0 1 Si ricordi che Pt−1 j=0 φj = (1 − φt )/(1 − φ). 1 che al crescere di t tende a “scordare ” l’effetto del valore iniziale x0 e di ogni shock εt−i sufficientemente remoti nel tempo (per i grande). Per t sufficientemente grande δ(1 − φt )/(1 − φ) è indistinguibile dalla media del processo AR(1), δ/(1 − φ). Il valore atteso, la varianza e l’autocovarianza di un RWD (random walk with drift) inizializzato dal valore X0 = x0 si ricavano facilmente dalle formule viste sopra: sia s > t " t # X εi = x0 + δt E(Xt ) = x0 + tδ + E i=1 " Var(Xt ) = E x0 + tδ + " Cov(Xt , Xs ) = E t X #2 εi − x0 − δt " t #2 X =E εi = tσ 2 i=1 t X i=1 εi s X i=1 # εi = tσ 2 , i=1 dove gli ultimi due risultati si ottengono tenendo conto che il white noise è un processo serialmente incorrelato a media nulla, per cui i valori attesi E(εi εj ) con i 6= j si annullano e per i = j sono pari a σ 2 . I momenti di Xt dipendono evidentemente da t e quindi il processo non è stazionario. Per quanto riguarda il valore atteso, è vero che in assenza di deriva (δ = 0) esso non dipende dal tempo t, tuttavia il valore iniziale a cui si condiziona il calcolo modifica il valore atteso permanentemente. Quando una serie è generata da un trend deterministico sommato ad un processo ARMA stazionario, φ(B)(Xt − µ − βt) = θ(B)εt , si dice che il processo Xt è stazionario attorno a un trend (trend stationary) o che ha un trend puramente deterministico. Quando un processo ARMA ha d ≥ 1 radici unitarie pari a 1, cioè ϕp+d (B)(Xt − δ) = θq (B)εt con ϕp+d (B) = φp (B)(1 − B)d si dice integrato di ordine d, indicato con I(d), o a differenza stazionaria (difference stationary), oppure dotato di trend stocastico. Un processo I(1) può essere visto come un RW (eventualmente con deriva), ma guidato da shock stazionari e non necessariamente da un rumore bianco: Xt = Xt−1 + Zt con Zt processo ARMA stazionario. In quest’ultima formula stiamo integrando Zt . Integrando un processo I(1) si ottiene un processo I(2) (e così via): Yt = Yt−1 + Xt , (si dimostri la precedente affermazione mostrando che ∆2 Yt è stazionario). 2 2 Test di radice unitaria 2.1 Il test di Dickey-Fuller Per partire dal caso più semplice si voglia testare l’ipotesi che una serie storica sia stata generata da un RW contro l’ipotesi essa provenga da un processo AR(1) stazionario con media nulla: H0 : Xt = Xt−1 + εt H1 : Xt = φXt−1 + εt , |φ| < 1. Dato che quando φ = 1 non esiste varianza marginale (γ(0) = 1/(1−φ2 )), non possiamo stimare i parametri del processo per mezzo della massima verosimiglianza. Condizionando invece al primo valore X1 = x1 si possono applicare i minimi quadrati (LS da least square) condizionati (che come abbiamo visto coincidono con la massima verosimiglianza gaussiana condizionata). Nel caso autoregressivo la stima LS condizionata ha la classica forma chiusa: β = (XX)−1 X 0 y con β = (κ, φ1 , . . . , φp )0 , y = (xp+1 , . . . , xn )0 e 1 xp xp−1 . . . 1 xp+1 xp . . . X = . . .. .. .. .. . . x1 x2 .. . 1 xn−1 xn−2 . . . xn−p In particolare per stimare il coefficiente autoregressivo dell’AR(1) a media zero usando la serie storica x0 , x1 , . . . , xn si ha Pn t=1 Xt Xt−1 φ̂n = P n 2 t=1 Xt−1 e sostituendovi Xt = φXt−1 + εt si ottiene Pn εt Xt−1 φ̂n = φ + Pt=1 . n 2 t=1 Xt−1 Rammentando i risultati del precedente capitolo, si sa che quando |φ| < 1 √ Pn ¡ ¢ √ n t=1 εt Xt−1 d Pn → N 0, (1 − φ2 ) . n(φ̂n − φ) = 2 t=1 Xt−1 Il fatto che all’avvicinarsi di φ a 1, la varianza di tale distribuzione tenda ad annullarsi è sicuramente un fatto curioso, che suggerisce che quando φ = 1 non è più √ sufficiente moltiplicare (φ̂n − φ) per n affinché converga (in distribuzione) ad 3 una distribuzione non degenere. Infatti si dimostra che quando φ = 1, lo stimatore è superconsistente, cioè affinche (φ̂n − φ) non converga in distribuzione ad un punto massa2 è necessario moltiplicarlo per n. Senza fornire dimostrazioni che vanno al di là degli obiettivi di questo corso, si noti per esempio che quando Xt è un AR stazionario ed ergodico il denominatore riscalato per n converge in probabilità alla varianza del processo Pn 2 t=1 Xt−1 p → γ(0); n mentre quando φ = 1, si ha Pn 2 t=1 Xt−1 n Il valore atteso E " n X t=1 Pn = # 2 Xt−1 = σ2 Pt 2 i=1 εi ) t=1 ( n n X (t − 1) = t=1 . (1) σ 2 (n − 1)n 2 diverge con velocità O(n2 ), e quindi diverge anche la sua versione campionaria (1). Per fare convergere in distribuzione il denominatore è necessario dividerlo per n2 , ma la distribuzione cui converge non è standard e né densita, né funzione di ripartizione sono state mai derivate. Per quanto riguarda il numeratore, il discorso, pur non essendo complicato, è più lungo e tedioso per cui diamo solo il risultati finale: Pn 2 t=1 Xt−1 εt d σ → (χ2 − 1) n 2 1 dove χ21 è una variabile casuale Chi Quadrato con un grado di libertà. Mettendo insieme i risultati abbiamo che n(φ̂n − 1) si distribuisce come il rapporto di una Chi Quadrato centrata e riscalata e una distribuzione non standard. La distribuzione così ottenuta prende il nome di distribuzione di Dickey-Fuller di primo tipo e i valori critici sono tabulati in diversi testi3 Solitamente, in luogo di stimare il modello Xt = φXt−1 + εt , si sottrae Xt−1 da entrambe le parti dell’uguale e si ottiene ∆Xt = ρXt−1 + εt dove si è posto ρ = φ − 1. Lo stimatore LS di ρ è identico allo stimatore LS di φ − 1, ovvero ρ̂n = (φ̂n − 1), delle cui proprietà abbiamo appena parlato. Il classico test t che si ottiene dividendo ρ̂n per il relativo errore standard ¶1/2 µ Sn2 se(ρ̂n ) = Pn 2 t=1 Xt−1 2 3 Un punto massa è una distribuzione degenere che mette tutta la probabilità in un punto. Per esempio Hamilton J.D. (1995) Econometria delle serie storiche, Monduzzi Editore, Milano. 4 con Sn2 stimatore della varianza del rumore bianco n Sn2 = 1 X (∆Xt − ρ̂n Xt−1 )2 n−1 t=1 converge in distribuzione. Anche in questo caso la distribuzione limite è non standard e prende il nome di Dickey-Fuller di secondo tipo ed è tabulata in diversi testi. Il caso appena preso in considerazione, cioè RW vs. AR(1) stazionario a media nulla, è solitamente chiamato Caso 1. Caso 2. Quando si vuole testare se i dati sono stati generati da un RW contro un processo AR(1) stazionario a media arbitraria si stima il modello ∆Xt = κ + ρXt−1 + εt e si testano le ipotesi H0 : ρ = 0, κ = 0 H1 : ρ < 0. La distribuzione del test t relativo a ρ sotto H0 ha distribuzione asintotica non standard diversa da quella del caso precedente, ed è tabulata in molti testi. Caso 3. Quando si vuole testare se i dati sono stati generati da un RWD contro un processo AR(1) stazionario a media arbitraria si stima il modello ∆Xt = κ + ρXt−1 + εt e si testano le ipotesi H0 : ρ = 0, κ 6= 0 H1 : ρ < 0. La distribuzione del test t relativo a ρ sotto H0 ha distribuzione asintotica normale standard. Caso 4. Quando si vuole testare se i dati sono stati generati da un RWD contro un processo AR(1) con trend lineare deterministico si stima il modello ∆Xt = κ + δt + ρXt−1 + εt e si testano le ipotesi H0 : ρ = 0, κ 6= 0, δ = 0 H1 : ρ < 0, δ 6= 0. La distribuzione del test t relativo a ρ sotto H0 ha distribuzione asintotica non standard diversa dalle precedenti, anch’essa tabulata in diversi testi. 5 2.2 Il test di Dickey-Fuller aumentato Il test di Dickey-Fuller (DF) pone in alternativa due processi dalla dinamica piuttosto limitata: escludendo le componenti deterministiche si confronta un RW contro un AR(1) stazionario. Sarebbe più utile testare la presenza di una radice unitaria all’interno di un generico ARMA(p, q) o almeno AR(p). Il test DF può essere generalizzato solamente a processi AR(p), che tuttavia per p sufficientemente grande possono approssimare ragionevolmente bene processi ARMA. Il test di Phillips-Perron (che qui non illustriamo) consente di testare la presenza di una radice unitaria anche in presenza di dinamiche più generali. Si ricordi che un processi AR(p) ha (almeno) una radice unitaria quando l’equazione caratteristica φp (z) = 0 è verificata per z = 1, da cui 1 − φ1 − . . . − φp = 0. Quindi, se si riuscisse a ri-parametrizzare il modello AR(p) in modo da avere un parametro ρ = φ1 + . . . + φp − 1, si potrebbe costruire un test di significatività per l’ipotesi ρ = 0. L’operatore autoregressivo φp (B) = 1 − φ1 B − . . . − φp B p può essere riscritto come φp (B) = (1 − φ1 − . . . − φp )B + (1 − α1 B − . . . − αp−1 B p−1 )(1 − B) (2) infatti svolgendo i conti si ottiene 1+(−α1 −φ1 −. . .−φp )B +(α1 −α2 )B 2 +. . .+(αp−2 −αp−1 )B p−1 +αp−1 B p , ed equagliando i termini di medesimo grado: αp−1 = −φp αp−2 − αp−1 = −φp−1 , αp−2 = −φp−1 − φp αp−3 − αp−2 = −φp−2 , αp−3 = −φp−2 − φp−1 − φp .................. −α1 − φ1 − . . . − φp = φ1 , α1 = −φ1 − . . . − φp . Scrivendo il processo AR(p) per mezzo della rappresentazione (2) del polinomio autoregressivo otteniamo ∆Xt = ρXt−1 + α1 ∆Xt−1 + . . . αp−1 ∆Xt−(p−1) + εt (3) dove si è posto ρ = φ1 + . . . + φp − 1. Questo test prende il nome di Dickey-Fuller aumentato (ADF da Augmented Dickey-Fuller) e può essere generalizzato con la presenza di componenti deterministiche come nei casi del paragrafo precedente. Le distribuzioni asintotiche sono le medesime dei quattro casi precedenti. La selezione del numero dei ritardi p viene normalmente fatta per mezzo del criterio di informazione di Schwarz: si stimano diversi modelli autoregressivi AR(k), per k = 1, . . . , K, nella forma (3) e si sceglie il valore di k per cui lo Schwarz è minimo. I test t sui coefficienti αi hanno la usuale distribuzione gaussiana standard. 6 2.3 Test di Phillips-Perron (accenni) Il test ADF permette di testare la presenza di una radice unitaria all’interno di un modello puramente autoregressivo. È vero che è possibile approssimare un qualunque processo stazionario per mezzo di un AR di ordine elevato, ma questo comporta la stima di un numero elevato di parametri riducendo l’efficienza della stima e la potenza del test in campioni finiti. Un’alternativa al test ADF è il Phillips-Perron che mette in competizione H0 : ∆Xt = ηt contro H1 : ∆Xt = ρXt−1 + ηt , ρ < 1, dove ηt è un processo stazionario. La statistica test di Phillips-Perron origina da una correzione della statistica di Dickey-Fuller basata sul parametro incognito 2 λ = ∞ X γ(i), (4) i=−∞ dove γ(·) è la funzione di autocovarianza del processo ηt . Il lettore ricorderà che la media campionaria di osservazioni da un processo stazionario converge in distribuzione a √ d n(X̄n − µ) → N (0, λ2 ) quando λ2 < ∞. La varianza λ2 è stimabile per mezzo di n−1 X λ̂2 = κ(i)γ̂(i) (5) i=−n+1 dove κ(i) è una funzione detta nucleo (kernel) con le seguenti caratteristiche: κ(·) : R 7→ [−1, 1], κ(0) = 1, κ(x) = κ(−x), Z ∞ κ2 (x)dx < ∞. −∞ Il kernel originariamente proposto da Phillips e Perron è quello di Bartlett ¯ ¯ µ ¶ ( 1 − ¯ mi ¯ per |i| < m, i κ = m 0 altrimenti, dove m è un parametro di troncamento spesso fissato pari a4 m = b4(n/100)2/9 c. 4 bxc è la parte intera di x. 7 2.4 Il test KPSS Si prenda in considerazione il processo Xt = δt + µt + ηt (6) dove µt è il processo RW µt = µt−1 + εt ed ηt è un processo stazionario (non deterministico). Il processo (6) senza restrizioni sui parametri δ, γη (0) e ση2 è dato dalla somma di una passeggiata aleatoria µt con deriva δ e di un processo stazionario ηt . Quando δ = 0 la deriva è nulla. Quando σε2 = 0 l’equazione del RW definisce una costante e il processo (6) si riduce ad un trend deterministico più un processo stazionario (trend stationarity). Il test KPSS (dai nomi degli autori Kwiatkowski, Phillips, Schmidt e Shin) è un test per verificare l’ipotesi nulla σε2 = 0, H0 : cioè l’ipotesi nulla è la stazionarietà del processo (I(0)), mentre quella alternativa è l’integrazione dello stesso (I(1)). Per calcolare la statistica test si deve 1. calcolare la regressione ausiliaria delle osservazioni xt su una costante e t, e ottenere gli errori di regressione campionari et = xt − κ̂ − hatδt (si noti che se non si ritiene necessario inserire un trend deterministico nel processo, et = xt − x̄, dove x̄ è la media campionaia); 2. integrare gli errori di regressione St = n X ei ; i=1 3. calcolare la statistica KPSS = 1 n X n2 λ̂2 t=1 St2 , λ̂2 dove è la stima della varianza asintotica della media campionaria di ηt discussa nel paragrafo precedente. La distribuzione asintotica di tale statistica è non standard ed è tabulata nell’articolo originale sia per il caso con deriva, sia per il caso senza trend deterministico. Se in (6) la varianza σε2 è nulla, e quindi il processo µ si riduce ad una costante, una volta eliminato il trend deterministico per mezzo della regressione ausiliaria, l’errore di regressione è stazionario a media nulla, ed il processo St è I(1). Come si è già visto nel paragrafo sul test DF, per fare convergere ad una v.c. non degenere la somma dei quadrati di un processo integrato, è necessario dividerlo per n2 . Se 8 invece la varianza σε2 è maggiore di zero, Xt è un processo integrato e gli errori di regressione sono a loro volta I(1). In questo ultimo caso St è un processo I(2), e la somma dei quadrati divisa per n2 diverge. Pertanto il test è a una coda (destra). Avere a disposizione un test di stazionarietà oltre che a test di radice unitaria è piuttosto utile per robustificare i risultati. Infatti è possibile che l’ipotesi nulla di un test di radice unitaria non venga rifiutata per scarsa potenza del test. Se il test KPSS conferma la non stazionarietà del processo, la nostra fiducia nella presenza di una radice unitaria cresce. 9