Copertina D_Crobu
Transcript
Copertina D_Crobu
UNIVERSITA’ DEGLI STUDI DI SASSARI FACOLTA’ DI SCIENZE POLITICHE MASTER IN STATISTICA APPLICATA L’approccio time series per l’analisi e la previsione della disoccupazione sarda Relatore: Prof. Paolo Mattana Tesi di Master di: Dott. Davide Crobu Anno Accademico 2002 - 2003 Indice Premessa ............................................................................................................................ 2 1. Parte teorica: Metodi di analisi delle serie storiche. ...................................................... 6 1.1 Tipi di dati ...............................................................................................................6 1.2 Diversi approcci allo studio delle serie storiche ......................................................8 1.2.1 Approccio classico............................................................................................8 1.2.2 Approccio statistico ........................................................................................10 1.3 Caratteristiche di un processo stocastico ...............................................................15 1.3.1 Stazionarietà ...................................................................................................16 1.3.2 Ergodicità .......................................................................................................21 1.3.3 Invertibilità .....................................................................................................21 1.4 Caratteristiche di una serie temporale: l’autocorrelazione ....................................22 1.4.1 Una rappresentazione grafica dell’autocorrelazione: il correlogramma ........23 1.5 I modelli AR ..........................................................................................................25 1.6 I modelli MA .........................................................................................................27 1.7 I modelli ARMA....................................................................................................28 1.8 I modelli integrati ..................................................................................................29 2. Parte sperimentale: specificazione di un modello autoregressivo applicato al tasso di disoccupazione sardo. ...................................................................................................... 32 2.1 Premessa sulla costruzione del dataset e sulla metodologia..................................32 2.2 Costruzione del modello e ricerca della stazionarietà ...........................................33 2.3 La previsione del tasso di disoccupazione .............................................................44 3 Conclusioni................................................................................................................... 52 Bibliografia ...................................................................................................................... 53 Allegato statistico ............................................................................................................ 55 Premessa Il lavoro di questa tesina nasce da una riflessione maturata durante al frequenza del Master di statistica applicata, ma anche grazie all’esperienza maturata all’interno dell’Agenzia Regionale del Lavoro presso la quale presto servizio da circa 6 anni. Infatti, in tutti questi anni ho portato avanti un lavoro di raccolta di dati dell’economia sarda e, in particolare, relativi al mercato del lavoro sardo. Il lavoro portato avanti in seno al settore dell’Osservatorio del mercato del lavoro è ormai standardizzato e porta alla pubblicazione di un bollettino statistico trimestrale denominato “Trend Lavoro”. Oggi, dopo che si è portato a regime il lavoro, mi sono reso conto che si può e si deve fare di più: capire quali sono le dinamiche e i flussi del mercato del lavoro in un determinato periodo è importante non solo per poter progettare e governare politiche del lavoro efficaci ed efficienti in termini di spesa, ma è importante anche per dare una risposta a chi è coinvolto direttamente nei processi economici, politici e sociali della nostra isola. Nell’ambito del Master ho avuto la possibilità di imparare le tecniche statistiche applicate all’economia, argomenti che rientrano nell’ambito della disciplina denominata econometria, una materia ostica per alcuni aspetti, ma di fondamentale importanza nella formazione di un ricercatore, o una persona che è chiamata a svolgere all’interno della propria organizzazione compiti di analisi di dati socio economici e di valutazione delle politiche. Inizialmente avevo scelto quale argomento da approfondire in sede di tesi la relazione esistente fra l’andamento del prodotto interno lordo regionale (o un’altra variabile simile come, ad esempio, il valore aggiunto) e la crescita occupazionale, dato che, secondo un ragionamento razionale, si sarebbe portati a pensare che esista una relazione diretta fra queste due grandezze. Questo argomento si sposava perfettamente anche con le esigenze da più parti manifestate di fare delle analisi qualitative oltre che quantitative del fenomeno dell’occupazione e della disoccupazione sarda. In realtà, da una rapida analisi dei dati ho notato che le due grandezze non seguono nel tempo un andamento dal quale possano riscontrarsi delle regolarità, pertanto, è molto difficile studiare il comportamento e le cause che muovono una grandezza per poter inferire sull’altra. Infatti, le dimensioni ridotte del prodotto regionale e la dipendenza dello stesso da poche grandi realtà mi hanno fatto capire che stimare una relazione di questo tipo al fine di fare analisi e previsioni sulla variabile dipendente, è molto difficile perché la variazione del prodotto regionale dipende maggiormente da variabili connesse a realtà 2 specifiche di alcuni settori o, addirittura, di alcune aziende e, pertanto, non segue l’andamento del mercato del lavoro, che al contrario ha un andamento più fluido nel tempo. Inoltre, bisogna osservare che: • Il fattore umano potrebbe essere sostituito da altri fattori produttivi. Potrebbe capitare che a seconda della convenienza economica sia possibile sostituire il fattore capitale col fattore umano e, pertanto, sia possibile ottenere lo stesso prodotto con un minor numero di addetti, o un prodotto maggiore con lo stesso numero di addetti; • La produttività del fattore umano non è lo stesso a seconda del settore di attività economica; • La produttività del fattore umano cambia con il trascorrere del tempo. D’altra parte anche la teoria economica non ha elaborato una teoria precisa sulla relazione fra queste due grandezze, anche perchè in letteratura esistono opinioni contrastanti. L’unica regola empirica che è stata riscontrata nella realtà è conosciuta come legge di Okun. L’economista intorno agli anni settanta aveva riscontrato mettendo in relazione i dati del prodotto interno lordo americano con il tasso di disoccupazione che esisteva una relazione inversa fra le due grandezze. In particolare per ridurre il tasso di disoccupazione di 1 punto percentuale occorreva uno shock nella variazione del prodotto interno lordo di almeno il 3%. Okun aveva individuato questa relazione utilizzando i dati americani dalla seconda guerra mondiale agli anni sessanta. Utilizzando i dati di periodi successivi questa regola non è più riscontrabile. Pertanto, la stessa regola è stata messa anche in discussione. Probabilmente l’economia sulla quale Okun aveva individuato la regola dipendeva in maniera forte da settori industriali in cui vi era una certa relazione fra il fattore umano e il prodotto, e, pertanto, per incrementare il prodotto di una nazione occorreva effettivamente un maggior numero di addetti. Nel momento in cui l’innovazione tecnologica introduce nuovi paradigmi produttivi viene a cambiare la struttura dell’economia e la regola individuata da Okun non è più riscontrabile nella realtà. Dopo questa esperienza ho riflettuto con il Prof. Giorgio Garau, docente di statistica economica all’Università di Sassari, il quale mi ha consigliato di lavorare seguendo un’altra strategia. Infatti considerata la difficoltà di costruire un modello che possa spiegare il fenomeno dell’occupazione e della disoccupazione, anche perché i due fenomeni non seguono affatto comportamenti fra loro dipendenti come al contrario si potrebbe pensare, si è pensato di studiare una serie dal punto di vista statistico per poi 3 risalire alla spiegazione economiche che possono aver influito sulla variazione della serie studiata e quindi sull’altra. Quindi, per fare questo ho integrato il programma di studio del master con le tecniche statistiche proprie delle serie temporali. Tali tecniche prescindono dalla teoria economica e sono state utilizzate per la prima volta dagli studiosi Box e Jenkins, dai quali questo approccio prende anche il nome. Tale metodologia è impiegata soprattutto in quei campi di analisi in cui si devono effettuare delle previsioni a breve termine e si vuole prescindere dalle motivazioni di carattere economico che possono aver indotto sulla variabile dipendente. Le motivazioni di tale scelta sono di diversa natura: • Natura economica, connessa, ad esempio, alla molteplicità di fattori che intervengono sulla variabile ed alla difficoltà a reperire gli stessi dati; • Natura statistica, relativamente al fatto che sia difficile individuare o costruire un indicatore che dia informazioni di un certo comportamento, o anche per la semplice scarsità di informazioni. Tutte queste problematiche si presentano soprattutto in campo finanziario dove occorre fare delle stime di previsione sui prezzi di una qualsiasi attività finanziaria, o su un indice rappresentativo di un mercato, al fine della riduzione del rischio di investimento o, semplicemente, a fini speculativi. Tuttavia, creare un modello di funzionamento di un mercato è molto complesso, sia a causa della molteplicità di fattori che intervengono nella formazione del prezzo dell’attività finanziaria, sia per la penuria di informazioni. Pertanto si utilizzano delle tecniche che prescindono dalle determinanti che intervengono sulla formazione del prezzo in quanto si presume che tali determinanti siano incorporati nei prezzi. Quindi, pur consapevoli del fatto che l’approccio delle serie temporali (time series) è nata per risolvere delle problematiche in altri campi di ricerca, ci si è resi conto che le caratteristiche del fenomeno da modellare erano simili a quelle che si presentano in campo finanziario. Pertanto si è scelto di utilizzare le stesse tecniche consapevoli del fatto che le finalità per le quali vengono utilizzate in campo finanziario hanno un maggior senso quando vengono applicate in questo campo di analisi, mentre hanno scarso significato quando vengono applicate al mercato del lavoro con la semplice finalità di prevedere una componente della domanda di lavoro nel breve periodo. Infatti, mentre in campo finanziario effettuare una previsione corretta di un’attività finanziaria potrebbe portare ad un profitto, nessun vantaggio di carattere economico si riesce a trarre dalla esatta previsione del tasso di disoccupazione. 4 Di conseguenza si è ristretto il campo di analisi ad una serie storica, si è trova to un modello che cercasse di spiegare il comportamento della variabile, e successivamente sono state fatte le analisi e le previsioni. Più specificatamente, si è ristretto il campo di analisi alla serie del tasso di disoccupazione, alla quale sono state applicate le tecniche statistiche proprie delle time series, dalle quali è stato poi possibile spiegare alcuni comportamenti e verificare la bontà del modello per fini previsionali di breve termine. Tengo a precisare che questo lavoro va inserito nel contesto dal quale lo stesso nasce, ossia al completamento di un percorso formativo, sicuramente di alto livello, ma non ha assolutamente la presunzione di essere un punto di riferimento in questo campo di ricerca. Colgo l’occasione per ringraziare tutte le persone che hanno contribuito direttamente e indirettamente alla realizzazione di questo lavoro e, in particolare, il direttore dell’Agenzia Regionale del Lavoro, Luciano Uras, l’Assessore regionale del Lavoro, Matteo Luridiana, tutti i professori, e, in particolare Prof. Giorgio Garau e Prof. Paolo Mattana, e i colleghi del Master che mi hanno aiutato lungo tutto questo percorso formativo, sia a risolvere problemi legati alla materia oggetto di studio, sia a superare quei momenti di difficoltà che ben conosce chi fa ricerca in questo campo. Davide Crobu 5 1. Parte teorica: Metodi di analisi delle serie storiche. 1.1 Tipi di dati I dati statistici possono essere di tre tipi: 1. sezionali (cross section); 2. temporali (time series); 3. longitudinali (data panel). I dati sezionali sono delle osservazioni riferite ad un individuo o, più in generale, ad una unità statistica rilevati nello stesso istante di tempo. In questi dati la variabile tempo non ha alcuna rilevanza. Tabella n.1: esempio di data set di tipo cross section Individuo Reddito livello di studio esperienza 1 2 3 4 5 6 7 8 9 10 11 12 11 8 12 16 18 12 12 17 13.580,00 12.587,00 14.780,00 13.564,00 14.985,00 12.458,00 15.849,00 14.457,00 13.398,00 12.598,00 2 22 2 44 7 9 15 5 26 22 I dati temporali invece costituiscono rilevazioni riferite ad un individuo, o ad una entità statistica, effettuate in periodi di tempo definiti ed equidistanti. Nelle serie temporali la variabile osservata viene “agganciata” al tempo in cui viene rilevata. Tabella n.2: esempio di data set di tipo time series Periodo Occupati Gen. '00 Apr. '00 Lug. '00 Ott. '00 Gen. '01 Apr. '01 Lug. '01 Ott. '01 Gen. '02 Apr. '02 Lug. '02 Ott. '02 Gen. '03 Apr.'03 Lug. '03 498 515 524 524 524 525 552 545 546 539 546 541 535 543 562 Persone in cerca di lavoro Persone in Altre Disoccupati cerca di 1^ persone in occup. cerca 65 48 29 56 47 27 53 46 35 51 50 28 57 40 24 50 49 26 52 47 29 55 45 23 58 36 23 61 38 27 51 37 27 61 42 31 62 38 18 55 32 26 43 34 26 6 Totale in cerca 142 130 135 129 120 125 128 122 116 126 116 134 117 114 104 Quando un insieme di caratteristiche riferite a più individui, o a più entità statistiche, sono rilevate in diversi istanti di tempo si realizza una base di dati di tipo longitudinale. Inoltre, si definisce data set l’insieme dei dati memorizzati in forma elettronica relativi ad una indagine o ad un fenomeno osservato. Un esempio di data set longitudinale può essere rappresentato dai dati che scaturiscono dall’indagine condotta dall’Istat sul paniere di beni per il calcolo dell’indice sul costo della vita: l’insieme dei prezzi dei beni che costituiscono il paniere rilevati in un dato istante costituisce una cross section, quando però si considera lo stesso paniere in relazione al tempo si ottiene un data panel. Esiste una differenza importante fra dati sezionali e dati temporali. Infatti, mentre nelle time series assume rilevanza l’ordine imposto dal tempo relativo al momento in cui il fenomeno viene osservato, nelle cross section tale ordine non ha alcuna rilevanza. Cosicché, mentre per questi ultimi è possibile studiare le caratteristiche del data set a prescindere dall’ordine che gli viene dato, nelle time series prima di fare un’analisi descrittiva è fondamentale ordinare i dati in base al tempo. Inoltre, mentre nei dati cross section è immaginabile pensare che i dati osservati siano fra loro indipendenti, nelle time series invece, la variabile osservata ad un dato istante dipende anche dalle osservazioni precedenti, e pertanto, non è possibile assumere che le osservazioni siano fra loro indipendenti. Tale caratteristica è nota come autocovarianza, di cui si dirà in seguito. Gli obiettivi dell’analisi delle serie storiche sono di diversa natura: spesso viene fatta per descrivere un fenomeno o trovare delle spiegazioni attraverso i comportamenti che ha avuto nel passato la variabile oggetto di osservazione; ma viene fatta, sempre più spesso, al fine di effettuare previsioni per il futuro. Infatti, attraverso la comprensione della storia del fenomeno oggetto di osservazione è possibile creare un modello capace di descrivere il comportamento che assume il fenomeno in relazione al tempo e fare affermazioni sulle possibili, o più probabili, realizzazioni che la serie avrà in futuro. Da sempre la previsione ha suscitato nell’uomo un fascino particolare, sia quando questa viene applicato alle scienze fisiche e naturali, sia quando ci si trova nel campo dell’economia, della politica e della finanza, dove risulta ancor più difficile trovare spiegazioni a determinati fenomeni. Determinati fenomeni che in passato risultavano imprevedibili, oggi attraverso l’analisi delle serie storiche e delle relazioni fra diverse variabili è possibile effettuare delle previsioni con un basso margine di errore. Tuttavia, bisogna fare una distinzione fra l’analisi delle serie storiche in senso statistico e la 7 branca della statistica che studia le relazioni fra variabili, cioè all’econometria quando l’oggetto di studio è la materia economica. Infatti, mentre quest’ultima studia le tecniche statistiche relative alle relazioni che esistono fra una certa variabile dipendente (esogena) e una serie di altre variabili indipendenti (endogene ) che hanno una relazione con il fenomeno oggetto di osservazione, l’analisi delle serie storiche studia invece la storia della sola variabile osservata, al fine di trovare un modello teorico di riferimento che sia in grado di generare la serie oggetto di analisi e fare previsioni sulle future realizzazioni della serie. Oggetto di questa trattazione è l’analisi statistica delle serie storiche della domanda di lavoro sarda, in particolare per quanto attiene al tasso di disoccupazione al fine di trovare un modello rappresentativo dell’andamento della variabile e di effettuare delle previsioni a breve termine. Non sono oggetto di questa trattazione lo studio delle variabili che hanno generato l’andamento della disoccupazione e dell’occupazione in Sardegna. 1.2 Diversi approcci allo studio delle serie storiche Le serie storiche possono essere analizzate seguendo due approcci: il primo, cosiddetto classico, consiste nella descrizione delle caratteristiche della serie storica con strumenti propri della statistica, quali medie mobili, regressioni e interpolazioni. Il secondo approccio, più moderno, detto anche stocastico, consiste nella determinazione di un modello teorico di riferimento in grado di generare una serie “simile” a quella oggetto di analisi e di studio e fare inferenza su di essa. Infatti, mentre l’approccio classico ha carattere prevalentemente descrittivo, l’approccio statistico si pone soprattutto finalità di tipo previsionale. Di seguito si analizzeranno i fondamenti teorici di entrambi i metodi focalizzando l’attenzione sull’approccio statistico, oggetto di questa trattazione. 1.2.1 Approccio classico Nell’approccio classico l’analisi della serie storica si realizza attraverso la scomposizione della serie nelle componenti di tendenza, ciclo e stagionalità, e la successiva determinazione delle diversi componenti della serie. Per questo motivo questa metodologia viene spesso denominata anche analisi delle componenti. Nell’approccio classico la previsione si realizza attraverso la determinazione di una funzione matematica (lineare, parabolica, iperbolica, ecc), spesso stimata con il metodo dei minimi quadrati. I valori futuri della serie vengono poi estrapolati dalla funzione matematica ed aggiustati dalle altre componenti di ciclo e stagionalità. Tale metodologia 8 viene usata più per finalità descrittive che non per finalità previsionali in quanto, prevedendo solo la componente di tendenza del fenomeno, non è in grado di pervenire a buone previsioni. Il modello può essere sintetizzato nel seguente modo: x t = ϕ (Tt , Ct , S t , At ) dove x t è la variabile osservata al tempo t, Tt, Ct, St, e At, sono le componenti sistematiche osservate nello stesso istante di tempo. Più in particolare: • Tt rappresenta la componente di trend, cioè la tendenza generale della serie storica, l’andamento di lungo periodo che la variabile oggetto di osservazione ha avuto nell’arco di un tempo molto esteso (in genere cinquant’anni o anche un secolo). • Ct è la componente ciclica, cioè l’alternanza registrata dalla serie nel corso di più anni, in genere in un periodo variabile fra i 5 e i 15-20 anni, a seconda della variabile oggetto di osservazione. • St è la componente stagionale, legata cioè al diverso andamento che registra la serie nel corso di un anno solare, dovuto quindi a cause direttamente connesse al succedersi delle stagioni naturali. • At rappresenta la componente accidentale, o di errore. Mentre le cause della variabilità nel tempo delle componenti di tendenza, di ciclo e di stagionalità sono direttamente connesse al fenomeno oggetto di osservazione, la componente accidentale è spesso dovuta a shock esterni al fenomeno, o ad eventi di natura puramente aleatoria, difficili da prevedere in quanto privi di una certa regolarità nel tempo. Del modello classico sono state proposte varie specificazioni a seconda di come interferiscono le diverse componenti sulla variabile osservata. In particolare, dalla teoria sono stati proposti i seguenti modelli funzionali: 1) modello additivo: x t = Tt + Ct + S t + At 2) modello moltiplicativo: x t = Tt ⋅ C t ⋅ S t ⋅ At che può essere ricondotto attraverso una trasformazione logaritmica al seguente modello: Logxt = LogTt + LogCt + LogS t + LogAt 9 3) modello misto: x t = Tt ⋅ Ct ⋅ S t + At oppure x t = Tt ⋅ C t + S t + At quando il trend e il ciclo vengono attribuite ad un’unica componente. Da notare che nel modello additivo le componenti sono espresse nella stessa unità di misura della variabile osservata e ciascuna determinante è stimata in maniera autonoma e indipendente dalle altre. Il modello moltiplicativo, di solito più usato per la rappresentazione dei fenomeni economici, ha solo la componente di tendenza espressa nell’unità di misura della variabile osservata. Le altre componenti sono rappresentati da coefficienti che amplificano o riducono l’effetto della componente di tendenza a seconda di come vadano ad influire in quel dato istante le componenti cicliche, stagionali ed accidentali. 1.2.2 Approccio statistico Come visto in precedenza nell’approccio statistico l’analisi delle serie temporali avviene attraverso la specificazione di un modello teorico di riferimento che è in grado di generare, in base a dei coefficienti stimati, una serie temporale quanto più possibile vicina a quella oggetto di analisi e previsione. L’analisi e la successiva previsione viene poi effettuata sul modello teorico costruito. L’analisi statistica applicata alle serie di variabili economiche può essere considerata anche come una metodologia capace di modellare una qualsiasi serie a prescindere dalle leggi che la teoria economica ha elaborato. Questa esigenza si presenta in tutti i quegli ambiti di ricerca in cui si è interessati a fare delle previsioni di breve termine di una qualsiasi variabile economica come ad esempio, il PIL, il valore aggiunto, la disoccupazione e l’occupazione, variabili difficilmente modellabili dal punto di vista teorico. Questo approccio risulta essere utile anche in tutti quei contesti in cui sia difficile reperire i dati sulle variabili che spiegano un determinato fenomeno, quando cioè vi è scarsità di informazioni. Non c’è dubbio che l’approccio statistico può sembrare “la via più comoda” da intraprendere ma spesso risulta essere anche la strada più affidabile 1 . Alla base dell’approccio statistico sta la teoria dei processi stocastici, intesi come una sequenza di variabili casuali ordinate nel tempo. Infatti nell’approccio statistico si pone l’obiettivo di capire la natura e le caratteristiche del processo stocastico che genera la serie storica osservata, in altri termini il problema da risolvere è di “risalire dai dati alla 1 R. Golinelli, Analisi statistica delle serie storiche stazionarie, Appunti dalle lezioni, lezione 17, pag.1 10 scatola nera”2 . Per fare questo è necessario studiare il comportamento della variabile osservata per trovare il processo stocastico che più di ogni altro è in grado di generare la serie che si vuole studiare e prevedere. La statistica economica e l’econometria hanno elaborato una serie di modelli stocastici per studiare il comportamento di alcune variabili economiche e finanziarie e sono stati fatti studi e verifiche empiriche sulla capacità di alcuni modelli di descrivere meglio certe variabili. Fra i modelli che la teoria ha elaborato si evidenziano: • i modelli autoregressivi, indicati con la sigla AR. Sono dei modelli univariati caratterizzati cioè dal fatto che il comportamento della variabile osservata yt dipende esclusivamente dai suoi valori passati, a meno di uno shock casuale (et). Questo modello è capace di descrivere e prevedere con un accettabile margine di errore quei fenomeni che hanno un andamento nel tempo approssimabile ad una retta, e anche quelli che presentano delle oscillazioni dovute alla stagionalità. • i modelli a media mobile detti anche mooving everage dallo loro traduzione in lingua inglese, e indicati con la sigla MA. Sono dei processi stocastici univariati caratterizzati dal fatto che il comportamento della variabile osservata e modellata (yt) dipende solo dai valori presenti e passati degli shock che la stessa variabile ha subito nel tempo. Il termine mooving average deriva dal fatto che la variabile yt è una somma ponderata dei valori più recedenti degli shock; • i modelli ARMA nascono dall’unione del modello autoregressivo e a media mobile. Sono quelli più utilizzati su serie temporali che non presentano stagionalità, quindi su serie temporali di dati annuali (ad esempio per le serie del PIL di un paese), sulle quali si devono compiere operazioni di medie mobili e di regressione per raggiungere la stazionarietà della serie, condizione necessaria per fare analisi e previsioni e di cui si parlerà in seguito. In pratica i modelli ARIMA si utilizzano per tutte quelle serie temporali stazionarie intorno a un trend (Trend Stationary, indicati con la sigla TS). • I modelli ARIMA sono altri modelli univariati che presentano sia componenti autoregressive sia a media mobile come i modelli ARMA, ma, a differenza di questi ultimi, la serie di origine sulla quale viene fatta l’analisi è costituit a dalle differenze fra un valore della serie e il precedente. Infatti la lettera I sta “Integrated“ (integrato) per ritornare alla serie originale si deve compiere 2 L. Stanca, Appunti per il corso di econometria B, Aprile 2003, pag.6. 11 l’operazione inversa della differenziazione che è detta integrazione. Per questo motivo si dice anche che i modelli ARIMA sono stazionari in differenza (Difference Stationary, indicati con la sigla DS). • I modelli VAR a differenza dei precedenti sono dei modelli multivariati, dove cioè la variabile che si vuole prevedere dipende, oltre che dalla serie storica della variabile stessa, anche da altre variabili osservate negli stessi istanti di tempo, o relative a un determinato periodo. Nella definizione di modelli complessi, anche di natura economica, capita spesso di studiare dei fenomeni che vengano spiegati da più di una variabile. In questi casi si devono utilizzare dei vettori (da cui deriva l’acronimo della lettera V) di variabili osservate per gli stessi istanti di tempo o relativi ad un periodo. La previsione su una data variabile viene fatta attraverso lo studio contemporaneo di tutte le variabili. In pratica il modello VAR costituisce la generalizzazione multivariata del processo AR. • I modelli a varianza condizionata indicati con la sigla ARCH e GARCH dagli acronimi delle traduzioni di AutoRegressive Conditional Heteroskedasticity, e Generalized AutoRegressive Conditional Heteroskedasticity che vengono utilizzati per lo studio di variabili che presentano una variabilità della varianza con il trascorrere del tempo. Tale caratteristica si presenta soprattutto nelle serie storiche dei rendimenti di attività finanziarie, in cui si deve prevedere il rischio, che è connesso alla varianza, o, come anche si dice in termini finanziari, alla volatilità dell’attività finanziaria. Tali modelli si basano sull’assunto che per istanti di tempo vicini le varianze della serie hanno valori simili, mentre per istanti di tempo lontani tali varianze sono dissimili. Dei modelli AR e MA e delle varie combinazioni ARMA e ARIMA si dirà in seguito, mentre i modelli VAR, ARCH e GARCH non verranno analizzati nel dettaglio in quanto non applicati alla materia oggetto di analisi e di previsione di questa trattazione. L’approccio allo studio delle serie temporali fatto attraverso la determinazione di un modello teorico è detto anche di Box-Jenkins, dai nomi dei due studiosi che per primi ne hanno proposto al metodologia. Tale metodologia consiste nel procedere secondo un percorso individuato dai due studiosi articolato in tre fasi per l’individuazione del modello teorico di riferimento e la successiva stima dei parametri. La prima fase consiste nell’identificazione del modello teorico di riferimento. Ciò si realizza attraverso la trasformazione della serie oggetto di analisi al fine di renderla 12 stazionaria in media, varianza e covarianza, condizione, quest’ultima, necessaria sia per ottenere delle stime dei parametri del modello che rispettino i requisiti della consistenza, correttezza, ed efficienza, sia per poter fare inferenza sul modello stesso. Nelle serie temporali di natura economica una trasformazione che spesso viene fatta consiste nella determinazione del logaritmo dei valori della serie zt=? lnyt, che corrisponde approssimativamente al tasso di variazione del fenomeno: ∆y t ≈ y t − yt −1 yt −1 Successivamente si seleziona il modello teorico sulla base delle funzioni di autocorrelazione globale e parziale della serie trasformata. Per fare questo viene utilizzato uno strumento grafico denominato correlogramma. Dal confronto dei correlogrammi delle autocorrelazione totali e parziali vengono determinati i parametri p e q che definiscono l’ordine e il tipo di processo stocastico teorico che genera quella determinata serie. Più specificatamente, se dal controllo dei correlogrammi risulta: • Il parametro q è pari a 0, mentre il parametro p è un numero maggiore di 0, allora il processo stocastico generatore sarà un AR di ordine p, e si indica con la sigla AR(p). • Il parametro p è pari a 0, mentre il parametro q è un numero maggiore di 0, allora il processo stocastico generatore sarà di tipo MA di ordine q, e si indica con la sigla MA(q). • Sia il parametro p che il parametro q sono maggiori di zero, allora il processo stocastico generatore è di tipo misto e si indica con la sigla ARMA(p,q). Individuato il modello si passa alla seconda fase individuata da Box e Jenkins che consiste nella stima dei parametri del modello. Tale stima avviene con il metodo della massima verosomiglianza che nei processi di tipo autoregressivi, coincide al metodo dei minimi quadrati ottenute dalla regressione dei valori della serie yt sui p valori ritardati. Ad esempio nel caso di un modello AR(1) senza costante il parametro da stimare è dato dalla seguente formula: ∑ y ⋅y ∑ y T φˆ = t t = 2 t −1 T t =2 t −1 Nel caso dei processi MA ed anche in quelli misti, che hanno cioè sia componenti autoregressive sia componenti a media mobile (ARMA), la somma dei quadrati dei 13 residui è non lineare nei parametri ? e la minimizzazione utilizza algoritmi iterativi, non esistendo una soluzione esplicita 3 . Infine la terza fase consiste nella verifica dei parametri attraverso l’applicazione di particolari test di significatività dei parametri del modello determinato e l’analisi dei residui delle stime. In particolare in questa fase si devono verificare tre proprietà: normalità, omoschedasticità e incorrelazione dei residui. Infatti, se i residui delle stime dei parametri si comportano in maniera non normale, o presentano eteroschedasticità, o esiste una correlazione dei residui, le stime sono, a seconda dei casi, distorte, inconsistenti o inefficienti, in pratica non rispettano le proprietà degli stimatori e non sono “B.L.U.E.” (Best, Linear, Unbiased, Estimator). Ottenuta la stima del modello lo stesso può essere utilizzato per le finalità per le quali è stato costruito, ovvero: 1. descrivere il comportamento della serie rispetto al tempo; 2. spiegarne il comportamento rispetto al tempo; 3. fare previsioni delle possibili realizzazioni future della serie attraverso l’estrapolazione dal modello dei valori futuri. L’approccio statistico viene usato soprattutto per quest’ultima finalità poi esso è in grado di pervenire a previsioni più precise, nel senso che si sono dimostrate avere un margine di errore minore delle altre metodologie di scomposizione della serie nelle varie componenti di trend, ciclo e stagionalità. Pertanto, l’approccio statistico è maggiormente utilizzato in quegli ambiti di ricerca in cui si devono effettuare previsioni piuttosto che semplici descrizioni o spiegazioni del fenomeno. 3 T. Proietti, Econometria applicata, appunti ad uso degli studenti, pag. 39. 14 1.3 Caratteristiche di un processo stocastico Come si è visto un processo stocastico dal punto di vista statistico è un insieme di variabili casuali ordinate nel tempo. Per descrivere un processo stocastico è necessario conoscere tutte le distribuzioni congiunte di probabilità delle variabili indicate con x t che compongono il processo stesso, e poiché ciò è molto difficile, si ricorre alla determinazione di alcuni valori sintetici che prendono il nome di momenti del processo aleatorio. Tali momenti sono: 1. la media, indicata con µt, che è pari al valore atteso E(x t); 2. la varianza, V(x t), che è pari a s 2 , che è anche uguale a E(x t - µ)2 ; 3. l’autocovarianza, indicata con ?k che è pari a E[(x t - µ)(x t-k – µ)] dove k è il ritardo o, in inglese, lag. La media è anche detta momento di ordine primo, la varianza e l’autocovarianza sono momenti di ordine secondo. I momenti superiori al secondo, come ad esempio l’asimmetria e la curtosi (momento terzo), non verranno esaminati in questa sede perché non hanno rilevanza per la definizione e le finalità dei modelli stocastici illustrati in questa trattazione. Il fatto che per i processi stocastici sia possibile definire dei momenti è una caratteristica dei processi stocastici in quanto strutture probabilistiche. Quando però si vuole utilizzare queste strutture come base per fare inferenza si pongono due problemi 4 : 1. Se la serie che si osserva, peraltro non nella sua interezza, è una sola realizzazione delle molte possibili, la possibilità di fare inferenza sul processo non può essere data per scontata; infatti non è possibile dire quali caratteristiche della serie osservata sono specifiche della realizzazione osservata e quali invece si presenterebbero osservandone un’altra. 2. Se anche fosse possibile utilizzare una sola realizzazione per fare inferenza sulle caratteristiche del processo, è necessario che esso sia stabile nel tempo, cioè che i suoi connotati (media, varianza, ecc.) non cambino nel tempo, o, per lo meno, nell’intervallo di osservazione. Queste osservazioni fanno sì che di tutti i possibili processi stocastici soltanto su alcuni di essi è possibile fare inferenza, e, quindi, utilizzare un modello teorico al posto di una qualsiasi serie osservata per: 1. descriverne le caratteristiche; 2. spiegarne il comportamento rispetto al tempo; 4 R. Lucchetti, Appunti di analisi delle serie storiche, luglio 2002, pag. 3. 15 3. fare delle estrapolazioni per prevedere le possibile realizzazioni future. I processi stocastici sui quali è possibile fare inferenza sono quelli che presentano le seguenti caratteristiche: 1. stazionarietà; 2. ergodicità; 3. invertibilità. Di tali caratteristiche si dirà in seguito, per il momento è importante sottolineare il fatto che il concetto di stazionarietà non necessariamente implica l’ergodicità, in altri termini è possibile che un processo sia stazionario ma non possedere momenti (non ergodico), così come “la costanza nel tempo dei momenti non implica che le varie marginali abbiano la stessa distribuzione”5 . I due concetti tuttavia coincidono soltanto quando il processo è di tipo gaussiano, cioè quando la distribuzione congiunta di un qualunque sottoinsieme di element i del processo è una normale di Gauss. Poiché l’ipotesi di ergodicità non è testabile attraverso dei test di fiducia, mentre la teoria ha elaborato diversi metodi per testare la stazionarietà di un processo stocastico 6 , in seguito si farà riferimento soltanto ai processi stocastici di tipo gaussiano, perché dall’esito del test sulla stazionarietà si garantiscono entrambe le proprietà. 1.3.1 Stazionarietà Si parla di stazionarietà in due sensi: 1. stazionarietà in senso forte; 2. stazionarietà in senso debole. Un processo stocastico è stazionario in senso forte se la distribuzione congiunta di un insieme di n osservazioni agli istanti t 1 ,. ….,t n è uguale alla distribuzione congiunta delle osservazioni agli istanti t 1+k ,. ….,tn+k . In altri termini, un processo è stazionario in senso forte se le caratteristiche delle distribuzioni di tutte le marginali (media, varianza, covarianza) rimangono costanti al passare del tempo, o, come si dice, sono invarianti. Un processo stocastico si dice stazionario in senso debole se solo i momenti primi e secondi, cioè le medie e le varianze, sono costanti nel tempo, mentre i momenti superiori al secondo possono dipendere dall’ampiezza temporale. In altri termini un processo è stazionario se 7 : 5 R. Lucchetti, op. citata, pag.4. Il test che di norma viene effettuato è il test Dickey e Fuller, di cui si dirà in seguito. 7 F. Giusti O. Vitali, Statistica Economica, Cacucci Editore, Bari, 1990, pag.72. 6 16 1. il valore medio è costante al variare del tempo e il valore atteso E della variabile casuale Xt è pari alla media µ cioè: E(X t )=µ. Tale condizione, detta invarianza in media, implica l’assenza di un trend nella stessa media; 2. la varianza è finita e costante al variare del tempo E(X t-µ)2 =s 2 ; questa è la condizione di omoschedasticità; 3. l’autocovarianza fra Xt e Xt+k dipende soltanto dallo sfasamento temporale o ritardo (lag); k : E( X t − µ ) ⋅ ( X t + k − µ ) = γ ( k ) tale condizione esprime la connessione fra le variabili casuali al variare della loro distanza. Per questo motivo la stazionarietà in senso debole viene anche denominata stazionarietà in covarianza. L’autocovarianza del processo assume un ruolo fondamentale in quanto rappresenta l’indice della relazione lineare che esiste fra un valore del processo al tempo t e gli stessi valori al tempo t+k. Dal punto di vista grafico una serie temprale stazionaria si presenta come nel grafico di Figura 1.1 8 . Figura n.1.1: Esempio di serie stazionaria -.2 0 ,D .2 .4 Esempio di serie stazionaria 1992q3 1995q1 1997q3 tempo 2000q1 2002q3 2005q1 Fonte: Istat – Indagine trimestrale sulle forze di lavoro Dal grafico si deduce anche che una serie temporale è stazionaria quando vi è assenza di trend, e quando non sono presenti anche le altre componenti di ciclo e stagionalità. In 8 Il grafico è stato ottenuto da una serie storica non stazionaria attraverso un procedimento autoregressivo. La serie temporale originale è il tasso di disoccupazione della regione sarda alla quale è stato calcolato il logaritmo e successivamente la differenza fra un termine e il precedente. 17 pratica è stazionaria quando il suo tracciato segue un’andatura irregolare fluttuando intorno ad un valore medio. Il processo stocastico più semplice è il cosiddetto rumore bianco (o white noise). Esso è composto da un numero infinito di variabili casuali e media zero e varianza costante. Un processo white noise non presenta momenti superiori al secondo e sia media che la varianza sono costanti nel tempo, in pratica le variabili casuali non conferiscono al processo alcune memoria di sé 9 . Quanto detto può essere formalizzato nel seguente modo: E (ε t ) = 0 E (ε t2 ) = V (ε t ) = σ 2 ?k=0 per |k|>0 dove E(et), indica il valore atteso del t-esimo elemento della serie, è pari alla media, cioè zero, e il momento secondo, ossia la varianza, è pari a s 2 . Bisogna notare che non esiste sostanziale differenza fra le condizioni che definiscono un processo white noise e le cosiddette ipotesi classiche sul termine di disturbo nel modello OLS, eccezion fatta per l’incorrelazione fra regressori e disturbi, e non si commette alcun errore se si afferma che il disturbo è un white noise incorrelato coi regressori 10 . I processi stocastici stazionari hanno un’importante proprietà che sta alla base della costruzione di tutti i modelli stocastici. Tale proprietà nota come teorema di Wold afferma che un processo stocastico stazionario può essere scomposto in due processi stocastici indipendenti, uno dei quali è linearmente deterministico c(t), mentre l’altro è una sequenza di variabili casuali incorrelate. Quanto detto può essere scritto nel seguente modo: Yt = c (t ) + ε t + ψ 1ε t−1 + ψ 2ε t −2 + .... dove et rappresenta l’errore di previsione ed è pertanto un white noise, mentre il valore c(t), cioè la parte deterministica, corrisponde alla media del processo µ. Per verificare se un processo è di tipo white noise si deve applicare una statistica test sulla serie in oggetto. I test che possono essere utilizzati sono: 1. Il test elaborato da Ljung e Box 2. Il test elaborato da Box e Pierce; 3. Il test di Dickey e Fuller. 9 R. Lucchetti, op. citata, pag.13. R. Lucchetti, op. citata, pag.13 10 18 Il primo test sottopone ad ipotesi nulla che fra i dati della serie non vi sia autocorrelazione. La statistica TL&B è calcolata nel seguente modo: TL & B = n ⋅ n+2 H 2 ⋅ ∑ ρˆ ( h) n − h h=1 Questa statistica si distribuisce secondo una T di Student con H gradi di libertà. Il test viene rifiutato quando la statistica TL&B presenta valori elevati rispetto al corrispondente valore di significatività del test. Pertanto, in questo caso è possibile affermare che esiste autocorrelazione fra i dati e che tale autocorrelazione non è dovuta ad un errore di stima ma è reale. Il tast di Box e Pierce è analogo al precedente, nel senso che si distrib uisce secondo una T si Student e le aree di accettazione e rifiuto sono le medesime. Tuttavia, si differenzia dal test di Ljung e Box per il diverso peso che moltiplica il quadrato di ?(h), che è n anziché n n+2 . Pertanto la formula per il calcolo della statistica è: n−h H TB & P = n ⋅ ∑ ρ̂ ( h) 2 h =1 Poiché la prima statistica converge più rapidamente alla sua distribuzione asintotica è preferibile utilizzare quest’ultimo. Infine, il test elaborato da Dickey e Fuller detto “Dickey-Fuller aumentato”, e indicato con la sigla ADF, permette di sottoporre a test, sotto l’ipotesi nulla, che un processo non sia stazionario, contro l’ipotesi alternativa che il processo sia stazionario. Il test è adatto per le serie temporali in quanto permette di discriminare una serie che presenta un trend da una serie priva di trend. Nell’impostare il test si deve scegliere il numero dei periodi da considerare per verificare la correlazione che la serie presenta con il suo passato. In una serie di dati trimestrali il valore i-esimo della serie potrebbe avere una correlazione con lo stesso periodo di un anno precedente, quindi i-4. Questo per effetto della stagionalità. Pertanto, in una serie di dati trimestrali si consiglia l’utilizzo di un ordine pari a 5. Viceversa in una serie mensile si consiglia di utilizzare un ordine pari a 13. Nel test ADF la variazione della variabile in questione è regredita sul valore ritardato della variabile, sulle variazioni ritardate della variabile, su una costante e su un trend temporale, quando la variabile da ispezionare presenta un trend. Cioè: ∆x t = −θxt −1 + ϕ ( L) ∆xt −1 + d t + u t Dove x è la variabile da testare, d è la parte deterministica contenente la costante ed il trend temporale e u è l’errore. 19 Sottoporre ad ipotesi nulla che la serie non sia stazionaria significa ipotizzare che il parametro θ sia pari a 0. Il test di Dickey e Fuller si distribuisce secondo una T di Student con un numero di gradi di libertà pari al numero delle osservazioni della serie temporale. Se il numero di osservazioni è sufficientemente grande (in genere maggiore di 30) allora la distribuzione è approssimabile ad una normale e la statistica test è una z(t). Se il valore della statistica test è elevato (in valore assoluto) rispetto ai valori critici indicati per le aree di accettazione/rifiuto allora il test rifiuta l’ipotesi nulla che il processo non sia stazionario e, quindi, si deve accettare l’ipotesi contraria, cioè che il processo considerato è stazionario. Non sempre le variabili osservate relative a fenomeni economici e sociali sono stazionarie. Infatti, tali fenomeni presentano quasi sempre un trend. Pertanto, al fine di poterle analizzare è necessario renderle stazionarie tramite alcuni accorgimenti. La stabilizzazione di una serie avviene attraverso la trasformazione funzionale della serie osservata e quindi attraverso l’isolamento delle componente deterministica dalla componente di errore. La trasformazione può essere di diverso tipo: • trasformazione logaritmica; • utilizzo della media mobile della serie; • impiego delle variazioni relative fra un periodo e il precedente al posto del valore assoluto del fenomeno osservato. La trasformazione logaritmica viene utilizzata per stabilizzare una serie in quanto l’operazione produce l’effetto di diminuire la variabilità della serie poiché essa cresce in termini assoluti al crescere del trend. Ad esempio, una variabilità del 5% su valori elevati è maggiore in termini assoluti della stessa percentuale applicata però ai valori bassi della serie. In atri termini, mentre la serie originaria può essere pensata come il risultato moltiplicativo di più componenti la trasformazione logaritmica rende additiva tale relazione al trascorrere del tempo. Anche l’utilizzo delle medie mobili ha un effetto stabilizzante. Infatti l’utilizzo di un valore centrale degli n termini precedenti produce l’effetto di eliminare la variabilità all’interno degli n termini scelti per il calcolo della media. Dal punto di vista grafico il risultato dell’impiego delle medie mobili si traduce in una “smussatura” del tracciato del grafico e uno spostamento della curva verso il centro o verso destra, a seconda che si utilizzino rispettivamente medie mobili centrate o medie mobili degli n termini precedenti. 20 Infine, spesso può essere utile l’utilizzo delle variazioni che il fenomeno osservato subisce nel tempo con un periodo e il precedente, piuttosto che considerare il valore assoluto del fenomeno. Tale trasformazione è alla base di tutti i processi integrati illustrati nel paragrafo 1.8. Queste trasformazioni possono essere utilizzate anche una di seguito all’altro, perché ciascuna trasformazione funzionale risolve un particolare problema: la trasformazione logaritmica rende lineare e costante la varianza della serie, la media mobile “smussa” l’andamento della serie negli n periodi considerati, e infine, considerare le variazioni assolute permette di “appiattire” il trend. Pertanto, viene consigliato dagli esperti anche l’utilizzo combinato delle trasformazioni funzionali. 1.3.2 Ergodicità L’ergodic ità è una proprietà dei processi stocastici che assicura che le medie nel tempo forniscano stime consistenti dei momenti (media, varianza e autocovarianza) del processo stocastico. In sostanza l’ergodicità richiede la “memoria” del processo sia limitata così che osservazioni molto distanti nel tempo siano fra loro non correlati. Tale condizione viene sintetizzato nella seguente proprietà dei processi stocastici che deriva dal teorema ergodico di Slutsky: 1 n ∑ Cov( xt , x t− k ) = 0 n →∞ n k =1 lim Di conseguenza se un processo è ergodico è possibile usare le informazioni contenute nella sua evoluzione nel tempo e fare inferenza sulle caratteristiche. Il “teorema ergodigo” dice appunto che l’osservazione di una serie “abbastanza lunga” è equivalente, ai fini inferenziali, all’osservazione di un gran numero di realizzazioni. Ad esempio, se un processo ergodico ha valore atteso µ, allora la sua media aritmetica nel tempo è uno stimatore consistente di µ, e quindi µ può essere stimato in modo consistente come se si disponesse di molte realizzazioni del processo anziché di una sola 11 . 1.3.3 Invertibilità L’invertibilità è una caratteristica propria dei modelli MA e consiste nella possibilità teorica di esprimere un modello MA con un modello AR di ordine infinito. Pertanto, si può dire che un processo stocastico si dice invertibile se per qualsiasi t, è possibile esprimere il processo come una funzione convergente delle variabili casuali precedenti 11 R. Lucchetti, op. citata, pag.5 21 generate dal processo. Ad esempio un processo MA(1), per semplicità con media nulla, si dice invertibile se 12 : y t = ut + ϑut −1 e u t = yt − ϑ ut −1 Con sostituzioni successive si arriva alla seguente formula: ∞ u t = ∑ ( −ϑ ) ⋅ y t −1 i i =o Tale condizione è verificata se soltanto se | ϑ |<1. In generale è possibile dimostrare che condizione necessaria all’invertibilità di un processo stocastico di ordine q è che le q soluzioni dell’equazione 1 + ϑ1 x + ... + ϑ q x q = 0 siano in modulo maggiori di 1. 1.4 Caratteristiche di una serie temporale: l’autocorrelazione Come visto in precedenza i fenomeni economici e sociali presentano una dipendenza dal tempo in cui sono osservati. Tale caratteristica è detta autocorrelazione per il fatto che i dati rilevati nel presente hanno una dipendenza con il passato. L’autocorrelazione può estendersi al passato più o meno recente. In particolare, se il valore del presente è correlato solo al valore precedente si dice che l’autocorrelazione è di ordine 1. Si parla invece di autocorrelazione di ordine k se il valore presente della serie è correlato con k valori precedenti. Per verificare l’esistenza di autocorrelazione si può procedere in diversi modi: • in maniera grafica: si rappresenta in un diagramma a dispersione il valore della serie al tempo t e al tempo ritardato di un periodo (t-1); se si ottiene una nuvola di punti che si dispone lungo una retta allora esiste correlazione fra il termine al tempo t e il tempo t-1. Se la retta è inclinata positivamente la correlazione è positiva, viceversa, se la retta è inclinata negativamente la correlazione è negativa. • In maniera analitica, si può procedere in due modi: una prima strada consiste nel calcolo degli indici di correlazione sia totale che parziale, e quindi attraverso la verifica dell’ordine di relazione k che la serie presenta con il passato. Un’alternativa della verifica della correlazione consiste nell’effettuare la stima del parametro di una regressione, fra il valore della serie al tempo t e il valore della serie ritardato di un periodo. Se il t-ratio della statistica è superiore a circa 12 G.Masarotto, Analisi delle serie temporali (lucidi delle lezioni), gennaio 2003 22 2, allora esiste una relazione fra il termine della serie al tempo t e i termini della serie ritardati di un periodo. La strada preferibile è la prima, ma possono essere utilizzate entrambe per verificare i risultati ottenuti con la prima. Come si è appena detto l’autocorrelazione può essere di due tipi: • totale; • parziale. L’autocorrelazione totale, indicata con la lettera ? (leggi ro), viene nel seguente modo: ρ (k ) = cov( Z t , Z t + k ) var( Z t ) ⋅ var( Z t +k ) = γ (k ) γ ( 0) dove k è il ritardo temporale, cioè il numero di periodi presi in considerazione per il calcolo dell’indicatore a partire da quello più recedente. L’autocorrelazione parziale, indicata con la lettera p è una misura della relazione lineare che esiste fra il termine del processo al tempo t e il termine del processo al tempo t+k “depurata” dalla correlazione dei valori intermedi del processo. Essa è calcolata con la seguente formula: π (k ) = corr [( Z t | E ( Z t+1 , Z t+ 2 ,.., Z t + k −1 ), ( Z t + k )] − E[ Z t | E ( Z t +1 , Z t+1 ,..Z t + k −1 )] che definisce appunto la correlazione parziale Z(t) e Z(t+k) al netto delle altre variabili intermedie. 1.4.1 Una rappresentazione grafica dell’autocorrelazione: il correlogramma I metodi visti in precedenza per la verifica dell’autocorrelazione presentano il problema di dover calcolare più grafici di dispersione o indici di correlazione per ogni ritardo della serie temporale. Nelle time series esiste un particolare rappresentazione grafica che viene impiegata per visualizzare le autocorrelazioni che la serie presenta con il passato. La rappresentazione grafica viene denominata correlogramma e consiste in un diagramma ad “aste” (detti spike) che contiene in ascissa i ritardi, ordinati dal più recente al più remoto e, in ordinata, i corrispondenti valori di autocorrelazione. Per determinare l’ordine di autocorrelazione che la serie presenta con il passato è necessario vedere quante “aste” consecutive, dalla più recente alla più remota cadono fuori da un’area evidenziata dalle bande di confidenza. L’analisi dei correlogrammi delle autocorrelazioni globali (ACF) e parziali (PAC) è utile anche ai fini dell’individuazione degli ordini p e q dei modelli AR e MA che generano la serie osservata. Infatti in un processo MA di ordine q il correlogramma 23 presenta autocorrelazioni significative fino al ritardo q, mentre la PAC dovrebbe tendere a zero gradualmente. Viceversa in un processo AR di ordine p le stime delle PAC dovrebbero essere significativamente diverse da zero fino al ritardo p, mentre il correlogramma delle ACF presenta autocorrelazioni che vanno a zero gradualmente. Infine, se sia le autocorrelazioni globali che quelle parziali vanno a zero gradualmente si è in presenza di un processo ARMA, e gli ordini delle due componenti vanno identificati di conseguenza 13 . A titolo di esempio si riporta nella figura n.1.2 il correlogramma della serie delle persone in cerca di occupazione in Sardegna su valori trimestrali, per il periodo compreso fra ottobre 1992 e ottobre 2003, con un ritardo di 10 periodi. Figura n.1.2 Correlogramma del tasso di disoccupazione sardo sulla serie trimestrale. Fonte: Istat – Indagine trimestrale sulle forze di lavoro Come si può, notare l’analisi della serie trimestrale delle persone in cerca di occupazione presenta una correlazione con il passato fino a 2 periodi precedenti. Ciò è importante quando si andrà ad impostare un modello stocastico che cerca di prevedere le realizzazioni future della serie dall’analisi delle osservazioni passate. Infine, alcuni software permettono di realizzare anche dei correlogrammi in una forma grafica più stilizzata ma con i valori delle AC, PAC, le statistiche dei test Q e i 13 L. Stanca, op. citata, pag.14. 24 corrispondenti valori di probabilità riferiti a ciascun lag. Sempre a titolo di esempio si riporta un correlogramma analitico riferito stavolta al tasso di disoccupazione sardo. Figura n.1.3 Correlogramma della serie del tasso di disoccupazione in Sardegna. Fonte: Istat – Indagine trimestrale sulle forze di lavoro 1.5 I modelli AR I modelli AR sono dei modelli in cui il valore della serie al tempo t è una funzione lineare di un certo numero p di valori passati, più un errore che non è possibile stimare. Tale errore in precedenza è stato definito rumore bianco o, anche, secondo la terminologia anglosassone, white noise. Il modello può essere scritto nel seguente modo 14 : y t = α 1 y t −1 + .... + α p y t− p + ε t dove (a1 ,.. ap ) è un vettore di parametri costanti. Come si può notare si tratta di un normale modello di regressione lineare in cui la variabile risposta yt è il valore al tempo t del processo, mentre le variabili esplicative sono i valori passati del processo stesso. Il termine et rappresenta l’errore di stima assimilabile al disturbo di un modello di regressione lineare. Il processo AR più semplice è il cosiddetto random walk (passeggiata casuale), dove il parametro p assume valore 1, e, pertanto, viene indicato con sigla AR(1). I processi AR possono essere sia stazionari sia non stazionari, a differenza dei processi MA che sono sempre stazionari. Infatti il random walk è un processo stocastico non stazionario in cui 14 G. Masarotto, Analisi delle serie temporali (lucidi delle lezioni), Padova, gennaio 2003, pag.210. 25 le varianze e le k autocovarianza dipendono dal tempo t. Il modello viene specificato nel seguente modo: y t = αy t −1 + ε t Nelle time series uno strumento molto importante è l’operatore ritardo che applicato ad Yt fornisce il valore della serie ritardato di un periodo Yt-1 : LYt=Yt-1 L’operazione ripetuta n volte per ottenere un ritardo n-esimo sul valore della serie viene indicato con la scrittura Ln , e, quindi si ha che Ln Yt=Yt-n . L’operatore L è lineare nel senso che se due numeri a e b sono costanti, si ha L(ax t+b)=aLx t+b=ax t-1+b. La caratteristica dell’operatore ritardo è che le sue proprietà permettono di manipolarlo algebricamente come se fosse un numero 15 . Questo avviene soprattutto quando si considerano polinomi nell’operatore L, e ciò è utile quando si devono stimare i coefficienti di un modello autoregressivo superiori ad 1. Pertanto la formula del modello generale tramite l’operatore ritardo può essere riscritta nel seguente modo: y t = αLy t + ε t e, quindi, è possibile fare alcune operazioni di raggruppamento, per ottenere la seguente formula: (1 − αL) y t = ε t Per descrivere questo processo è fondamentale determinare i momenti primi e secondi sotto l’ipotesi che il processo sia stazionario, per poi derivare le conseguenze di tale ipotesi. Si supponga quindi che il processo abbia media costante µ. Quest’ipotesi implica che: µ=E(yt)=aE(yt-1 )+E(et)=aµ Questa espressione può essere vera in due casi: 1. quando µ =0, e, in questo caso, l’espressione è vera per qualsiasi valore di a 2. quando a=1 e, in questo caso, l’espressione è vera per qualsiasi valore di µ e la media del processo è indeterminata. In questo caso si dice che il processo presenta una radice unitaria. Se si esclude il secondo caso per cui la media non può essere determinata il processo è stazionario quando la media è nulla. 15 R. Lucchetti, op. citata, pag.9. 26 Analogamente si procede per i momenti secondi: si supponga che la componente erratica del processo et abbia varianza pari a s 2 , se si pone V la varianza di yt e si ipotizza che essa esista e sia costante nel tempo, si avrà che: V = E( yt2 ) = E[(αy t −1 + ε t ) 2 ] = α 2V + σ 2 + 2αE ( y t−1ε t ) Dove l’ultimo addendo è pari a 0 perché combinazione lineare di autocovarianza di un white noise16 (tutte nulle per definizione). Se ne deduce che: V=a2 V+s 2 , che è apri a V = σ2 1−α 2 Tale espressione dice che solo nel caso in cui | a |<1 ha senso parlare di varianza stabile nel tempo. Tale condizione esclude dal novero dei processi AR(1) stazionari, non solo quelli a radice unitaria, ma anche quelli a radice cosiddetta esplosiva 17 . Infine, rimangono da analizzare le autocovarianza: l’autocovarianza di ordine 0 è V; l’autocovarianza di ordine 1 è data da: γ 1 = E ( y t yt −1 ) = E[(α yt −1 + ε t ) y t−1 ] = αV e, in generale, l’autocovarianza di ordine k è data da: γ k = E ( yt y t −k ) = E[(αy t −1 + ε t ) yt − k ] = αγ k −1 e si deduce che σ2 γk = α 1−α 2 k Le autocorrelazioni assumono in questo caso una forma molto semplice: ?k=ak Quanto esposto può essere interpretato nel seguente modo: poiché le autocovarianze esprimo in un certo senso la memoria del processo, le stesse sono tanto più grandi (in valore assoluto), quando tanto più grande è a. Per questo motivo a può essere considerato come un parametro della persistenza della memoria del processo. 1.6 I modelli MA Un processo stocastico si dice a media mobile, e si indica con la sigla MA(q), quando il comportamento di yt dipende solo dai valori presenti e passati degli shock del processo, vale a dire della componente di errore. Pertanto, esso può essere scritto nel seguente modo: yt=et+?1 et-1 + ? 2 et-2+……. ? q et-q o anche: 16 17 R. Lucchetti, op. citata, pag.19. R. Lucchetti, op. citata, pag.19. 27 q y t = ∑ θ i ε t− i = θ ( L )ε t i= o dove ?(L) è un polinomio di ordine q dell’operatore ritardo e et è un white noise. Per descrivere le caratteristiche del modello MA(q) è necessario determinare i momenti primo, secondo e le autocovarianza, come, d’altra parte visto anche per i modelli AR. I momenti di un modello MA sono dati da 18 : media: E(yt)=0 varianza(?0 ): E(y2 t)=s 2 (1+?2 ) autocovarianza di ordine 1(?1 ) E(yt yt-1 )= ? s 2 autocovarianza di ordine superiore ad 1 E(yt yt-k)= 0 se k>q La funzione di autocorrelazione di ordine 1 è pari a : ρ1 = γ1 θσ 2 θ = = 2 2 γ 0 (1 + θ )σ 1+θ 2 Da ciò ne consegue che i modelli MA hanno sempre media nulla e, pertanto, sono sempre stazionari. Questa caratteristiche potrebbe far pensare ad una limitazione dell’applicabilità dei processi MA a fenomeni reali, dato che raramente tali fenomeni oscillano intorno al valore 0. “Tuttavia la limitazione è più apparente che reale, visto che per ogni processo x t per cui E(x t)=µt si può sempre definire un nuovo processo yt=x t - µt a media nulla”19 . Inoltre è possibile affermare che un processo MA(q) è un processo ottenuto come combinazione di diversi elementi di uno stesso white noise che presenta delle caratteristiche di persistenza più pronunciate quanto più alto è il suo ordine. 20 Un processo a media mobile di ordine 1, indicato con la sigla MA(1), è dato da: y t = ε t + θ1ε t−1 e, utilizzando l’operatore ritardo visto nei modelli AR, può essere anche scritto come segue: y t = (1 + θ 1 L)ε t 1.7 I modelli ARMA I modelli ARMA nascono dalla combinazione dei modelli AR e MA e sono caratterizzati dal fatto che il comportamento della variabile risposta yt dipende 18 Per semplicità si omette la dimostrazione. Si veda Giusti F., Vitali O., op. citata, pag.5; oppure R. Lucchetti, op. citata, pag. 13. 19 R. Lucchetti, op. citata, pag.14. 20 R. lucchetti, op. citata, pag. 15. 28 linearmente sia dai suoi valori passati, che dai valori present i e passati degli shock. Analiticamente un processo ARMA(p,q) può essere descritto nel seguente modo: y t = φ1 yt −1 + ... + φ p y t− p + ε t + θ 1ε t −1 + ... + θ qε t −q dove p è l’ordine della componente autoregressiva e q è l’ordine della componente a media mobile. La stessa espressione può essere anche scritta utilizzando l’operatore ritardo nella seguente forma: φ ( L) yt = θ ( L)ε t Poiché i processi MA sono sempre stazionari, la stazionarietà del processo ARMA dipenderà dalla componente AR, mentre l’invertibilità dell’intero processo dipenderà dalla componente a media mobile. Il modello ARMA può rappresentare anche modelli generati dalla sola componete AR o MA per valori pari a zero rispettivamente di q e p. 1.8 I modelli integrati Come visto in precedenza, raramente i fenomeni socio-economici si presentano senza trend. Poiché l’esistenza di un trend implica la non stazionarietà, una serie prima di essere modellata attraverso un processo stocastico AR o MA, deve essere resa stazionaria. I modelli integrati nascono proprio dall’esigenza di analizzare dei dati che presentano delle tendenze. Il trend può essere eliminato facendo semplicemente la differenza fra un termine della serie e il precedente, considerando così le variazioni assolute che la serie subisce nel tempo. A questo punto occorre introdurre la differenza fra dato di flusso e dato di stock. La variabile di flusso è definita come la differenza fra una variabile al tempo t e la stessa variabile al tempo t-1. La variabile di stock invece è il valore assoluto della variabile osservata al tempo t. A titolo di esempio si riporta nel grafico di figura n.1.4 l’andamento delle persone in cerca di occupazione in Sardegna nel periodo compreso fra ottobre ’92 e ottobre ’03. Come si può notare, la variabile osservata mostra un trend a “salire” nel periodo compreso fra ottobre ’92 e gennaio ’00, e un trend a “scendere” a partire da quest’ultimo periodo e l’ultimo dato della serie dell’ottobre ’03. Tuttavia, il trend non è nitido. Infatti, si può notare come all’interno di un anno solare la crescita no n sia lineare ma oscilli intorno ad un valore medio. Questa variabilità è dovuta alla stagionalità e mostra come nel mercato del lavoro le persone che cercano un’occupazione diminuiscono nella stagione estiva e aumentano nella stagione invernale. La spiega zione economica della stagionalità è da ricercare nella struttura occupazionale del mercato del lavoro sardo e nella relazione che esiste fra i diversi 29 settori di attività economica. Infatti, l’economia sarda ha una spiccata vocazione turistica e le attività connesse al turismo (servizi alberghieri, della ristorazione, e dei mezzi di trasporto) si intensificano proprio nel periodo estivo. In questo periodo l’occupazione aumenta e le persone in cerca di occupazione diminuiscono. Il fenomeno è tanto più accentuato quanto più incide l’attività turistica sull’economia del territorio. Figura n.1.4 Andamento delle persone in cerca di occupazione in Sardegna. Andamento delle persone in cerca di occupazione in Sardegna dall'ottobre 1992 all'ottobre 2003 Valori in migliaia di unità 150 140 130 120 110 100 90 80 70 60 ott-92 gen-93 apr-93 lug-93 ott-93 gen-94 apr-94 lug-94 ott-94 gen-95 apr-95 lug-95 ott-95 gen-96 apr-96 lug-96 ott-96 gen-97 apr-97 lug-97 ott-97 gen-98 apr-98 lug-98 ott-98 gen-99 apr-99 lug-99 ott-99 gen-00 apr-00 lug-00 ott-00 gen-01 apr-01 lug-01 ott-01 gen-02 apr-02 lug-02 ott-02 gen-03 apr-03 lug-03 ott-03 50 Fonte: Istat – Indagine trimestrale sulle forze di lavoro Per eliminare il trend di questa serie è possibile calcolare la variazione fra un periodo e il precedente e tracciare l’andamento, come mostrato in figura n.1.5 Come si può notare l’andamento della serie delle differenze assolute è privo di trend, ma perde di informazione, in quanto non si riesce a cogliere quale sia lo stock delle persone in cerca di occupazione, ad esempio, ad ottobre 2003. Dal grafico è possibile notare che le persone in cerca di occupazione sono soltanto aumentate di 7mila unità rispetto al periodo precedente; nel periodo ancora precedente erano diminuite rispetto al periodo precedente; e così via. Se si volesse conoscere lo stock delle persone in cerca di occupazione ad ottobre 2003 occorre conoscere lo stock di occupati ad un determinato periodo e fare le somme algebriche dei diversi periodi intermedi fino ad arrivare all’ultimo periodo. Avendo tale informazione è possibile fare inferenza sulla serie delle 30 variazioni per poi risalire dalle variazioni allo stock di occupati aggiungendo o sottraendo la variazione prevista dal modello. Figura n.1.5 Variazione fra un periodo e il precedente delle persone in cerca di occupazione in Sardegna. Andamento delle variazioni delle persone in cerca di occupazione in Sardegna dall'ottobre 1992 all'ottobre 2003 Valori assoluti in migliaia 40 30 20 10 0 -10 -20 ott-92 gen-93 apr-93 lug-93 ott-93 gen-94 apr-94 lug-94 ott-94 gen-95 apr-95 lug-95 ott-95 gen-96 apr-96 lug-96 ott-96 gen-97 apr-97 lug-97 ott-97 gen-98 apr-98 lug-98 ott-98 gen-99 apr-99 lug-99 ott-99 gen-00 apr-00 lug-00 ott-00 gen-01 apr-01 lug-01 ott-01 gen-02 apr-02 lug-02 ott-02 gen-03 apr-03 lug-03 ott-03 -30 Fonte: Istat – Indagine trimestrale sulle forze di lavoro Un modello in cui si effettuano operazioni di differenza fra un valore e il precedente, si definisce integrato, dall’inglese Integrated, e viene indicato con la lettera I(d). La lettera d indica l’ordine di integrazione, cioè il numero di volte che l’operatore differenza viene applicato alla serie. Potrebbe capitare, infatti che il processo debba essere differenziato più di una volta al fine di renderlo stazionario ed invertibile, premesse necessarie al fine di modellare la serie con un processo stocastico del tipo visto in precedenza. 31 2. Parte sperimentale: specificazione di un modello autoregressivo applicato al tasso di disoccupazione sardo. 2.1 Premessa sulla costruzione del dataset e sulla metodologia Il dataset utilizzato è stato costruito presso l’Osservatorio del mercato del Lavoro dell’Agenzia Regionale del Lavoro della regione Sardegna, che dispone di un archivio delle rilevazioni trimestrali sulle forze di lavoro realizzate dall’Istat dall’ottobre 1992, cioè da quando sono stati introdotti i nuovi criteri di indagine, aggiornato all’ultima indagine disponibile (ottobre 2003). Per eventuali approfondimenti che il lettore vorrà fare su questa materia si riportano le intere tavole Istat in un allegato statistico in calce alla presente trattazione. Per le finalità di questo lavoro sono state estratte dalle tavole Istat le serie delle persone in cerca di occupazione e degli occupati e si è costruito il dataset con le seguenti variabili: 1. anno variabile numerica che indica l’anno di riferimento dell’indagine Istat; 2. trimestre variabile numerica che indica il trimestre; 3. occ variabile numerica relativa al numero di occupati; 4. disocc variabile numerica relativa alle persone in cerca di occupazione; 5. tempo variabile temporale definita nell’elaborazione dei dati per ordinare i dati in relazione al tempo di riferimento 6. locc variabile numerica definita per l’analisi della serie degli occupati e determinata facendo il logaritmo degli occupati. 7. ldisocc variabile numerica definita per l’analisi della serie delle persone in cerca di occupazione e determinata facendo il logaritmo della stessa grandezza. 8. var variabile numerica definita per l’analisi della serie delle persone in cerca di occupazione e determinata facendo la differenza fra un termine della serie e il precedente. 9. unem il tasso di disoccupazione 10. varun la variazione del tasso di disoccupazione rispetto al periodo precedente 32 11. varun4 la variazione del tasso di disoccupazione rispetto allo stesso periodo dell’anno precedente. 12. fdl Forze di lavoro determinate facendo la somma degli occupati e delle persone in cerca di occupazione. Il dataset si compone di 45 osservazioni e il programma utilizzato per le elaborazioni statistiche è Stata, versione n.8, adottato nell’ambito del master di statistica applicata. L’analisi è stata concentrata sulla serie del tasso di disoccupazione e la metodologia utilizzata per l’individuazione del modello è quella proposta da Box e Jenkins. L’intera procedura si articola nelle seguenti fasi: 1. Analisi statistica e grafica della serie del tasso di disoccupazione e delle persone in cerca di occupazione al fine di cogliere trend e stagionalità. 2. Identificazione del modello teorico di riferimento per la quale, è necessario procedere prima alla ricerca della stazionarietà della serie, attraverso l’uso delle tecnic he analizzate nella parte teorica. 3. Individuazione dei parametri di p e q del modello di riferimento attraverso l’analisi delle correlazioni globali e parziali, e dei correlogrammi. 4. Analisi e valutazione del modello per fini previsionali. 2.2 Costruzione del modello e ricerca della stazionarietà Osservando il grafico del tasso di disoccupazione si osserva innanzitutto che la serie presenta un trend inizialmente crescente, con una accelerazione nel 1993. Andamento del tasso di disoccupazione in Sardegna dall'ottobre 1992 all'ottobre 2003 Valori percentuali ott-92 gen-93 apr-93 lug-93 ott-93 gen-94 apr-94 lug-94 ott-94 gen-95 apr-95 lug-95 ott-95 gen-96 apr-96 lug-96 ott-96 gen-97 apr-97 lug-97 ott-97 gen-98 apr-98 lug-98 ott-98 gen-99 apr-99 lug-99 ott-99 gen-00 apr-00 lug-00 ott-00 gen-01 apr-01 lug-01 ott-01 gen-02 apr-02 lug-02 ott-02 gen-03 apr-03 lug-03 ott-03 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 Fonte: Istat – Indagine trimestrale sulle forze di lavoro 33 La crescita del tasso di disoccupazione rallenta nei 2 anni successivi, per poi iniziare a calare dall’aprile 2000 fino all’ultima rilevazione. La serie del tasso di disoccupazione presenta le seguenti caratteristiche: Nu m osserv. Media Varianza Minimo Massimo 45 19.44 1.64 14.63 22.19 Come si è visto in precedenza la presenza di un trend implica l’assenza di stazionarietà, che porta ad un modello in cui le stime non sono “B.L.U.E.”. L’esistenza di una relazione di tipo lineare viene confermata dal diagramma a dispersione fra i punti della serie al tempo t e al tempo t-1. Figura n.2.1 Grafico a dispersione del tasso di disoccupazione al tempo t e al tempo t-1. Tasso di disoccupazione ritardato 1 periodo 14 16 18 20 22 Dispersione del tasso di disoccupazione al tempo t e t-1 14 16 18 Tasso di disoccupazione 20 22 Fonte: Istat – Indagine trimestrale sulle forze di lavoro Anche facendo la regressione lineare fra un termine e il precedente si nota questa relazione. 34 Infatti il p-value associato al coefficiente L1 (ritardo di 1 periodo) della regressione è pari a 0, e il t-ratio è pari a 4.03, molto lontano dal valore 1.96 cui corrisponde una probabilità del 95% di accettazione del test. Quindi si può rifiutare l’ipotesi nulla che “non vi sia alcuna relazione” e, pertanto, esiste una dipendenza del tasso di disoccupazione al tempo t e il tasso di disoccupazione al tempo precedente. Il problema però consiste nel vedere quanto la serie del tasso di disoccupazione ha memoria del suo passato. Lo strumento che si utilizza è il correlogramma che mette in evidenza le correlazioni globali e le correlazioni parziali (dirette) fra un termine della serie e il k termine precedente. Il correlogramma può essere analizzato nella sua forma analitica o grafica. Il correlogramma nella forma analitica riporta nella prima colonna il ritardo, nella seconda e terza colonna i coefficienti di autocorrelazione globale (AC) e parziale (PAC), nella quarta colonna le statistiche dei test Q e nella quinta colonna i corrispondenti valori di probabilità. Nelle altre 2 colonna sono rappresentate le AC e le PAC in una forma grafica più stilizzata. In questo caso si è scelto un numero di lags pari a 20 perché è una regola pratica riscontrata empiricamente che conviene utilizzare un ritardo massimo pari al numero di osservazioni diviso 4 (in questo caso 44/4=11), o fino ad un ritardo massimo ci circa 4-5 anni (in questo caso 5 x 4 = 20). 35 -0.50 Autocorrelations of unem 0.00 0.50 Figura n.2.2: Correlogramma del tasso di disoccupazione fino a 20 periodi. 0 5 10 Lag 15 20 Bartlett's formula for MA(q) 95% confidence bands Dai 2 correlogrammi, si può notare che le AC decrescono lentamente fino ad annullarsi dopo 8 periodi. Questo significa che la memoria del processo è abbastanza persistente. Tuttavia, soltanto i ritardi fino al secondo ordine sono significativi. Infatti, il correlogramma grafico che mostra anche le bande di accettazione/rifiuto dei test di significatività dei ritardi, mostra che la serie del tasso di disoccupazione ha una memoria del processo pari a 2 periodi, poiché solo 2 aste cadono fuori dall’area di accettazione dell’ipotesi nulla che non vi sia relazione fra un termine e il precedente. Pertanto, l’analisi delle autocorrelazioni suggerisce che la serie del tasso di disoccupazione possa essere modellata da un processo stocastico autoregressivo di ordine 2. Tuttavia, tale processo stocastico non è stazionario come dimostra anche il test DickeyFuller e, pertanto, non può essere modellato, perchè in assenza di stazionarietà “non si possono utilizzare i dati campionari per la stima dei momenti primi e secondi perché è come se i dati fossero eterogenei (non sommabili) in quando prodotti nel tempo da diversi processi stocastici”. 21 Applicando il test ADF con le opzioni trend e regress, che permettono di analizzare una serie in presenza di trend e di ottenere anche la stima dei parametri della regressione 21 M.E. Bontempi, La modellazione empirica delle relazioni economiche: applicazioni in Stata7, dispense ad uso degli studenti. 36 associata, si nota che soltanto quando si arriva a considerare soltanto 2 lags i t-ratio associati ai lags sono significativi (poiché il tasso di disoccupazione è rilevato su base trimestrale, quindi con 4 rilevazioni all’anno, la teoria suggerisce di iniziare ad effettuare le stime prendendo in considerazione 4+1 rilevazioni precedenti). 37 La statistica porta ad accettare l’ipotesi nulla che la serie non è stazionaria poiché il valore della statistica test, pari a –3.277, è minore (in valore assoluto) del valore critico che porterebbe a rifiutare il test commettendo un errore del 5%. Tale valore infatti è 3.528. 38 La serie deve essere prima resa stazionaria. Per eliminare il trend è possibile determinare la differenza prima, data da unem(t) – unem(t-1). Num osserv. 44 Media -0.000101 Varianza 1.557808 Minimo -3.524687 Massimo 5.019882 Come si può osservare adesso la media è pari a 0 come lo dimostra anche il grafico di figura 2.3 -4 Differenza 1^ del tasso di disoccupazione -2 0 2 4 6 Figura n.2.3: Andamento delle variazioni del tasso di disoccupazione. 1992q3 1995q1 1997q3 tempo 2000q1 2002q3 2005q1 Fonte: Istat – Indagine trimestrale sulle forze di lavoro Per verificare la stazionarietà della serie si effettua il test ADF che conferma la stazionarietà della serie poiché la statistica test con 1 lag di ritardo è pari a –5.804 che è molto distante da –3.634 che rifiuta l’ipotesi con una probabilità del 99%. 39 Trovata la stazionarietà della serie è possibile passare allo step successivo di stima e verifica dei parametri e rappresentare il comportamento della serie mediante un modello stocastico. Si ricorda che la differenziazione non pone alcun problema poiché è sempre possibile risalire dal valore di flusso al valore di stock applicando a partire dal primo valore della serie gli incrementi o decrementi generati dal modello. Il problema sta nel verificare se gli errori generati dal modello si mantengono stabili nel tempo o al contrario tendono ad aumentare. In altri termini se si presenta eteroschedasticità nei residui. Pertanto bisognerà verificare se con il trascorrere del tempo il modello teorico tende ad allontanarsi dalla serie reale. La stima dei parametri per un modello AR può essere calcolata con il metodo OLS regredendo il termine della serie stazionaria al tempo t con quelle precedenti. Scegliendo un ordine di ritardo pari a 5 si nota come i ritardi superiori al primo non sono significativi e pertanto possono essere omessi. 40 La regressione presenta le seguenti caratteristiche : 1. Uno scarso r-quadro pari a circa il 33%. In pratica il modello che cerca di spiegare la variabilità del tasso di disoccupazione utilizzando la variazione precedente non riesce a spiegare molto. Ma ciò non deve allarmare poiché nei modelli stocastici che prescindono dalla teoria economica l’r-quadro ha poco significato. Per aumentare la significatività è necessario introdurre altre variabili nel modello. Tali variabili devono essere necessariamente di tipo economico visto che il modello statistico non riesce a spiegare molto. Tuttavia si entrerebbe nel campo dei modelli VAR che esulano da questa trattazione e, pertanto, si prende atto di tale risultato per trarre le successive conclusioni. 2. Significatività del coefficiente relativo al ritardo di un periodo. 3. Non significatività del coefficiente relativo alla costante. Si salvano i residui della regressione e si verifica la presenza di eteroschedasticità nei residui. -4 -2 Residuals 0 2 4 Figura n.2.4: Scatter dei residui della regressione. 1992q3 1995q1 1997q3 tempo 2000q1 41 2002q3 2005q1 Graficamente già si può notare che la variabilità dei residui non aumenta con il trascorre del tempo. Comunque per la verifica analitica si effettua il test di eteroschedasticità. Il test sottopone ad ipotesi nulla che la varianza sia costante. Come si può vedere tale ipotesi non può essere rifiutata perché il test non è significativo. Si effettua anche il test per la verifica della forma funzionale. Tale test sottopone ad ipotesi nulla che il modello non ha variabili omesse. Come si può vedere il test non è significativo. Infine, si verifica l’autocorrelazione dei residui sotto l’ipotesi nulla che i residui siano white noise. Pertanto, da tutti i test effettuati risulta che il processo stocastico del tipo trovato, cioè AR(1) 22 sulla serie differenziata del primo ordine, rappresenta un’adeguata specificazione delle variazioni del tasso di disoccupazione sardo e pertanto può essere utilizzato per fare analisi e previsioni. Un modo alternativo molto più rapido per determinare l’ordine p del modello autoregressivo più adatto per la serie oggetto di analisi, consiste nell’ispezionare il correlogramma delle autocorrelazioni parziali. In pratica i ritardi che cadono fuori dall’intervallo di confidenza indicano l’ordine del modello AR da utilizzare. 22 Il modello potrebbe essere anche scritto nella forma ARIMA(1,1,0) riferita però alla serie del tasso di disoccupazione. 42 Figura n.2.5: Grafico PAC delle differenze prime del tasso di disoccupazione. 43 2.3 La previsione del tasso di disoccupazione Il modello trovato può essere scritto nel seguente modo: ∆y t = φ1∆y t−1 + ε t dove il coefficiente F stimato è pari a –0.565. Pertanto il modello diventa: ∆yˆ t = −0.565∆y t−1 + ε t e, quindi, il tasso di disoccupazione viene calcolato sommando la variazione stimata per il periodo t al tasso di disoccupazione registrato nel periodo precedente (t-1): unem = unem t−1 + ∆yˆ t Nel grafico successivo si riporta l’andamento della stima del modello a confronto con la serie effettiva del tasso di disoccupazione. Andamento del tasso di disoccupazione in Sardegna effettivo e previsto dall'ottobre 1992 all'ottobre 2003 e previsioni per primo trimestre 2004 23,0 22,0 21,0 20,0 19,0 18,0 17,0 16,0 15,0 ott-92 gen-93 apr-93 lug-93 ott-93 gen-94 apr-94 lug-94 ott-94 gen-95 apr-95 lug-95 ott-95 gen-96 apr-96 lug-96 ott-96 gen-97 apr-97 lug-97 ott-97 gen-98 apr-98 lug-98 ott-98 gen-99 apr-99 lug-99 ott-99 gen-00 apr-00 lug-00 ott-00 gen-01 apr-01 lug-01 ott-01 gen-02 apr-02 lug-02 ott-02 gen-03 apr-03 lug-03 ott-03 gen-04 14,0 Tasso di disocc Previsioni Come si può osservare anche dalla tabella n.2.1, il modello ha fornito un errore positivo in 22 casi su 43 e, quindi, ha fornito una stima del tasso di disoccupazione minore rispetto a quello che si è effettivamente registrato il trimestre successivo. Viceversa, ha fornito una stima del tasso di disoccupazione maggiore di quello che si è realmente registrato in 21 casi su 43. La media degli errori ovviamente è pari a 0. 44 Tabella 2.1: Andamento del tasso di disoccupazione e previsione. Tasso di Var del tasso Previsione Previsione disocc. di disocc della variaz. del tasso ott-92 4 16.8 gen-93 1 14.6 -2.13 apr-93 2 19.7 5.08 1.21 15.8 lug-93 3 18.1 -1.64 -2.87 16.8 ott-93 4 20.3 2.20 0.93 19.0 gen-94 1 19.5 -0.75 -1.24 19.0 apr-94 2 20.5 0.98 0.43 19.9 lug-94 3 19.8 -0.71 -0.55 19.9 ott-94 4 19.0 -0.77 0.40 20.2 gen-95 1 20.5 1.47 0.43 19.4 apr-95 2 20.2 -0.33 -0.83 19.7 lug-95 3 19.0 -1.12 0.18 20.3 ott-95 4 21.5 2.44 0.63 19.7 gen-96 1 21.0 -0.50 -1.38 20.1 apr-96 2 21.4 0.37 0.28 21.3 lug-96 3 17.8 -3.53 -0.21 21.1 ott-96 4 19.7 1.89 2.00 19.8 gen-97 1 19.7 -0.03 -1.07 18.6 apr-97 2 20.3 0.56 0.01 19.7 lug-97 3 19.4 -0.86 -0.32 19.9 ott-97 4 20.9 1.46 0.49 19.9 gen-98 1 21.3 0.41 -0.83 20.0 apr-98 2 20.5 -0.77 -0.23 21.0 lug-98 3 19.4 -1.09 0.43 20.9 ott-98 4 21.2 1.83 0.62 20.0 gen-99 1 20.9 -0.31 -1.03 20.2 apr-99 2 21.4 0.52 0.18 21.1 lug-99 3 21.3 -0.19 -0.30 21.2 ott-99 4 20.4 -0.88 0.11 21.4 gen-00 1 22.1 1.75 0.50 20.9 apr-00 2 20.2 -1.96 -0.99 21.1 lug-00 3 20.5 0.29 1.11 21.3 ott-00 4 19.8 -0.65 -0.17 20.3 gen-01 1 18.6 -1.17 0.37 20.2 apr-01 2 19.2 0.59 0.66 19.3 lug-01 3 18.8 -0.38 -0.33 18.9 ott-01 4 18.3 -0.58 0.22 19.1 gen-02 1 17.6 -0.70 0.33 18.6 apr-02 2 18.9 1.38 0.39 18.0 lug-02 3 17.5 -1.49 -0.78 18.2 ott-02 4 19.8 2.37 0.84 18.3 gen-03 1 17.9 -1.89 -1.34 18.5 apr-03 2 17.3 -0.65 1.07 19.0 lug-03 3 15.6 -1.70 0.37 17.7 ott-03 4 16.7 1.13 0.96 16.6 gen-04* 1 -0.64 16.1 Fonte: Istat – Indagine trimestrale sulle forze di lavoro. * Previsione Periodo trimestre Il modello ha fornito degli errori elevati nei seguenti periodi: 1. aprile ’93 (24.45%) 2. luglio ’96 (-15.7%) 45 Errori Errore % 3.87 1.23 1.28 0.49 0.55 -0.15 -1.17 1.04 0.51 -1.30 1.81 0.88 0.09 -3.32 -0.10 1.04 0.55 -0.55 0.97 1.24 -0.53 -1.52 1.21 0.72 0.35 0.11 -0.99 1.25 -0.98 -0.82 -0.48 -1.54 -0.07 -0.05 -0.79 -1.02 0.99 -0.71 1.53 -0.55 -1.72 -2.07 0.17 24.45 7.31 6.72 2.58 2.78 -0.78 -5.78 5.34 2.57 -6.39 9.19 4.36 0.40 -15.71 -0.53 5.59 2.79 -2.74 4.91 6.20 -2.54 -7.28 6.06 3.58 1.65 0.50 -4.63 5.98 -4.62 -3.84 -2.39 -7.61 -0.38 -0.26 -4.15 -5.49 5.49 -3.88 8.36 -2.98 -9.04 -11.71 1.02 3. luglio ’03 (-11.7%) Il primo errore (aprile ’93), in cui il modello ha previsto un tasso di disoccupazione inferiore rispetto a quello effettivo, può essere ricondotto a motivazioni di carattere puramente statistico. Infatti, bisogna notare che tale previsione è stata fatta sulla base del trimestre precedente (gennaio ’93) che può essere considerato un dato anomalo (outlier), poichè si ha una inspiegabile riduzione del tasso di disoccupazione in un periodo in cui lo stesso dato cresce. Inoltre non si riscontra nella realtà alcun fenomeno di natura economica che possa avere influito positivamente sul tasso di disoccupazione rilevato nel mese di gennaio 1993. Anzi, lo stesso registra proprio in quel periodo un’accelerazione portandosi a livelli medi del 20% e rimanendovi fino al gennaio del 2000. Quindi è da ritenere che il tasso di disoccupazione del 14.6% registrato nel gennaio del 1993 è connesso con molta probabilità a motivazioni di carattere statistico. Negli altri 2 errori, registrati nelle rilevazioni del mese di luglio ’96 e di luglio ’03, il modello aveva previsto un tasso di disoccupazione maggiore di quello che poi si è effettivamente registrato. Tali errori sono dovuti sia a cause imputabili al modello, sia a cause connesse alla stagionalità del mercato del lavoro sardo che, nel periodo estivo, tendono ad amplificare l’errore. La prima si verifica perché il modello non è in grado di prevedere per due trimestri consecutivi una variazione dello stesso segno. Il modello ha come variabili endogene soltanto la variazione del trimestre precedente e il coefficiente di tale variabile è negativo. Pertanto, quando nel trimestre precedente si registra una variazione negativa il modello prevede una variazione positiva corretta per il coefficiente. Se anche nel trimestre successivo si registra una variazione negativa l’errore del modello aumenta. Questo succede nei periodi in cui il tasso di disoccupazione mostra dei chiari trend in diminuzione (aumento) e quando per due trimestri successivi si registra una variazione dello stesso segno. Per evitare questo inconveniente si dovrebbe estendere il modello inserendo un maggior numero di parametri riferiti a ritardi più remoti, ma si è visto che tali parametri non sono significativi. Pertanto, le soluzioni che si potrebbero adottare sono : 1. rendere stazionaria la serie attraverso altri procedimenti; 2. dividere la serie in due parti e analizzarle separatamente utilizzando due modelli diversi; 3. aumentare il numero di osservazioni. 46 La prima soluzione potrebbe essere utilizzata applicando, per esempio, prima il logaritmo della serie e differenziando più di una volta. La seconda soluzione sarebbe percorribile se si avesse a disposizione una serie più lunga con un maggior numero di rilevazioni, perché 45 osservazioni non ne permettono la divisione. Infine se si disponesse di una serie più estesa si riuscirebbe magari ad avere un numero di parametri maggiori e ottenere delle stime migliori23 . Facendo un’analisi più dettagliata del tasso di disoccupazione degli ultimi 10 anni si possono notare 3 periodi: 1. Un primo periodo in cui il tasso di disoccupazione cresce (ottobre 1993-aprile 1994) 2. Un secondo periodo in cui il tasso di disoccupazione si mantiene sostanzialmente stabile oscillando intorno al valore del 20% (aprile 1994ottobre 2000); 3. Un terzo periodo in cui il tasso di disoccupazione diminuisce (ottobre 2000ottobre 2003) Nel primo periodo l’aumento del tasso di disoccupazione su base annua è accompagnato dalla diminuzione degli occupati. In questo periodo la serie del tasso di disoccupazione registra probabilmente un break strutturale dovuto all’uscita dell’Italia dal sistema monetario europeo avvenuto nel settembre del 1992 24 . Il mercato del lavoro non reagisce mai immediatamente ad uno shock esogeno, ma anzi tende a reagire sempre con un certo ritardo rispetto alla causa. Questo fenomeno è detto isteresi e, dal punto di vista economico, nel mercato del lavoro, è dovuto al sistema delle leggi di protezione del lavoro nelle grandi imprese, le quali non possono procedere al licenziamento per il semplice effetto della contrazione degli ordini e della produzione. 23 In uno studio analogo effettuato nell’ambito del corso di Econometria B del Prof. Luca Stanca da parte di un gruppo di studenti, viene analizzata la serie trimestrale del tasso di disoccupazione italiano dal 1960 al 1998. Il modello che si ricava dall’analisi della serie è un ARIMA(4,2,4), cioè differenziata 2 volte e con 4 componenti autoregressive e a media mobile. AA.VV., Analisi della disoccupazione italiana, Gruppo di lavoro n.5 del corso di Econometria B, Prof. Luca Stanca, 2001. In altri studi sul tasso americano si perviene a dei modelli AR(2) Randall E. Parker, Philip Rothman, The Current Depth of Recession and Unemployment Rate Forecasts, Department of Economics East Carolina University Brewster Building East Carolina University, 1997 Revised 1998. In altri studi effettuati sempre sul tasso di disoccupazione americano si perviene addirittura a dei modelli diversi quali ad esempio, TAR(2;4,2) dove la T sta per threshold (soglia) e ARCH (1,1). A. Amendola, Modelling asymmetries in unemployment rate, Università degli studi di Salerno, Discussion paper 60, lugio 2001. 24 AA.VV., Analisi della disoccupazione italiana, Gruppo di lavoro n.5 del corso di Econometria B, Prof. Luca Stanca, 2001. 47 Pertanto, le grandi aziende hanno assorbito lentamente nel tempo lo shock dovuto all’uscita dell’Italia dal sistema monetario europeo con tutte le conseguenze ad essa connesse. Le piccole imprese invece si sono comportate diversamente: la contrazione delle vendite e del fatturato ha indotto le piccole imprese a licenziare personale dipendente. Ma anche questo fenomeno è avvenuto lentamente ne l tempo e questo spiegherebbe il calo degli occupati che si è registrato su base annua nei trimestri a cavallo fra il 1993 e il 1994 (figura n.2.6). Inoltre, dal lato dell’offerta, ha continuato ad affacciarsi nuova forza lavoro che non trovava collocazione nel mercato che si aggiungeva a quella espulsa dalle aziende in crisi. E questo spiegherebbe l’aumento del tasso di disoccupazione su base annua che si è verificato nel periodo compreso fra ottobre 1993 e luglio 1994 (figura 2.7). Figura n.2.6: Variazione degli occupati rispetto all’anno precedente. Variazione percentuale degli occupati rispetto all'anno precedente 8 6 4 2 0 -2 -4 ott-92 gen-93 apr-93 lug-93 ott-93 gen-94 apr-94 lug-94 ott-94 gen-95 apr-95 lug-95 ott-95 gen-96 apr-96 lug-96 ott-96 gen-97 apr-97 lug-97 ott-97 gen-98 apr-98 lug-98 ott-98 gen-99 apr-99 lug-99 ott-99 gen-00 apr-00 lug-00 ott-00 gen-01 apr-01 lug-01 ott-01 gen-02 apr-02 lug-02 ott-02 gen-03 apr-03 lug-03 ott-03 -6 variazione del tasso di disoccupazione 48 Figura n.2.7: Variazione del tasso di disoccupazione rispetto all’anno precedente. Variazione del tasso di disoccupazione rispetto all'anno precedente 6 5 4 3 2 1 0 -1 -2 -3 ott-92 gen-93 apr-93 lug-93 ott-93 gen-94 apr-94 lug-94 ott-94 gen-95 apr-95 lug-95 ott-95 gen-96 apr-96 lug-96 ott-96 gen-97 apr-97 lug-97 ott-97 gen-98 apr-98 lug-98 ott-98 gen-99 apr-99 lug-99 ott-99 gen-00 apr-00 lug-00 ott-00 gen-01 apr-01 lug-01 ott-01 gen-02 apr-02 lug-02 ott-02 gen-03 apr-03 lug-03 ott-03 -4 variazione del tasso di disoccupazione Fonte: Istat – Indagine trimestrale sulle forze di lavoro Il tasso di disoccupazione fa registrare la variazione record di quasi 5 punti percentuali nel periodo gennaio ’93 – gennaio ’94. Tuttavia tale variazione è amplificata dalla presenza del dato anomalo del gennaio ’93, come spiegato in precedenza. Il dato importante consiste nella persistenza nel tempo della crescita della disoccupazione, che si registra per 4 periodi consecutivi: soltanto nell’ottobre del 1994 il tasso di disoccupazione torna a calare. Comunque, queste variazioni del tasso di disoccupazione sono dovute principalmente a fattori stagionali. L’effettivo inizio del trend discendente del tasso di disoccupazione si è avuto con uno shock registrato nel gennaio 2001: in questo periodo il tasso di disoccupazione fa registrare una variazione su base annua di oltre il 3%, ma ci sono voluti 3 anni affinché il tatto di disoccupazione si riportasse ai valori del 1993. Questo dimostra quanto già riscontrato in numerosi studi sul tasso di disoccupazione americano (S.N. Neftci25 , 1984), nei quali si sono scoperte significative non linearità nelle variazioni del tasso di disoccupazione dal dopoguerra fino agli anni ’80. Questo comportamento non lineare del tasso di disoccupazione comporta delle asimmetrie, nel senso che il tasso di disoccupazione cresce velocemente ne i periodi di recessione 26 e diminuisce lentamente nei periodi di espansione del ciclo economico. 25 Neftci S.N., Are Economic time series aymmetric over the Business Cycles?, Journal of Political Economy,85, 1984, 281-291. 49 La variazione del 3.5% registrata nel gennaio ’01 potrebbe essere spiegata da due eventi di natura politica ed economica che possono aver influenzato positivamente il mercato del lavoro: 1. l’utilizzo della moneta unica in sostituzione delle rispettive monete nazionali negli 11 paesi aderenti all’Unione Economica e Monetaria; 2. l’entrata in vigore di diverse leggi nazionali e regionali dirette ad incentivare le imprese che intendevano assumere personale dipendente con contratto a tempo indeterminato a ad incremento della base occupazionale 27 . Entrambe le cause potrebbero aver influito positivamente se la diminuzione delle persone in cerca di lavoro sia stata accompagnata da un rispettivo aumento dell’occupazione. Infatti i due fenomeni come si potrebbe immaginare non sono correlati. Questo lo dimostra il grafico di figura n.2.8. e la regressione effettuata fra la variazione delle persone in cerca di occupazione e la variazione degli occupati. Se esistesse una relazione fra le due variazioni i punti del grafico dovrebbero disporsi lungo una retta o, per lo meno non essere così dispersi come nel grafico. Inoltre la regressione rifiuta l’ipotesi nulla che fra le due variazioni ci sia una relazione: il t-ratio della regressione (-1.50) è inferiore a -1.96, valore critico che permetterebbe di accettare l’ipotesi di una relazione fra le due variazioni. 26 Nel 1993 il PIL nazionale registrò una variazione negativa dello 0,9% rispetto al prodotto interno lordo del 1992 (dati Istat sul PIL a prezzi costanti del 1995) 27 Si tratta della legge regionale n.36 del 24 dicembre 1998 e l’articolo 7 della l.338/2000, la legge finanziaria per il 2001, che aveva introdotto il sistema del credito d’imposta a favore delle imprese che effettuavano assunzioni ad incremento della base occupazionale. Tali incentivi erano cumulabili con altri benefici eventualmente concessi da altre leggi. 50 Figura n.2.8: Relazione fra la variazione degli occupati e delle persone in cerca di occupazione. -20 Variazione degli occupati -10 0 10 20 30 Relazione fra la variazione degli occupati e dei disoccupati -20 0 20 Variazione dei disoccupati 40 In effetti fra il gennaio 2000 e il gennaio 2001 si registra un incremento degli occupati del 5,1% che corrispondono a circa 26mila unità lavorative. Analizzando nel dettaglio tale aumento si nota che circa 15mila sono nella posizione di dipendente e circa 11mila in una posizione autonoma. Pertanto è da ritenere che il sistema di incentivazione messo in campo dal governo locale e centrale abbia sicuramente influito in maniera positiva il mercato del lavoro ma non sia stata l’unica causa ad avere un effetto positivo sull’occupazione. Una concausa potrebbe essere l’ingresso della moneta unica, che può aver influito sul mercato del lavoro: • in maniera strutturale (aumento degli scambi commerciali nell’area euro e, quindi, aumento della produzione e dell’occupazione) i cui effetti hanno avuto una durata più estesa nel tempo; • in maniera congiunturale (forza lavoro aggiuntiva che è stata richiamata dalle aziende per adeguare il sistema dei mezzi di pagamento e della contabilità dalla lira all’euro) i cui effetti hanno avuto breve durata e limitatamente al periodo di transizione dalla lira all’euro. 51 3 Conclusioni A conclusione di questo lavoro posso affermare che l’approccio time series può essere utilizzato a scopi previsionali del tasso di disoccupazione, ma il modello trovato di tipo ARIMA(1,1,0) non è in grado di fornire una buona stima nei periodi in cui è in atto un evidente trend del tasso di disoccupazione. Se utilizzato a fini previsionali il modello dovrebbe essere integrato con altre variabili di carattere economico o esteso a ritardi più remoti. Inoltre, l’esperienza di questo studio mi ha insegnato che l’approccio time series potrebbe essere impiegato in tutti quei campi di analisi in cui è difficile modellare il funzionamento del fenomeno che si vuole studiare e si vuole pertanto prescindere dalle cause che influenzano la variabile osservata. Tale approccio potrebbe costituire una prima fase di studio del fenomeno che si sta studiando se effettuata con le finalità di analisi e di ricerca dei fattori che possono aver influito sull’andamento della serie oggetto di analisi. Infatti, questo approccio permette di avere una maggiore conoscenza del fenomeno che si sta studiano e di passare alla fase successiva di costruzione di un modello strutturale più complesso. 52 Bibliografia AA.VV., 10° rapporto sull’economia della Sardegna – Analisi strutturale e previsioni 2002-2004, CRENoS – Centro di Ricerche Economiche Nord Sud, Università di Cagliari e Sassari, CUEC, Cagliari, maggio 2003. AA.VV., Analisi della disoccupazione italiana, relazione a cura degli studenti nel corso di econometria B, Università di Milano, Prof. L.Stanca, 2001. AA.VV., Econometria. Volume I, Franco Angeli, Milano, 2000. A. Amendola, Modelling asymmetries in unemployment rate, Università degli studi di Salerno, Discussion paper 60, lugio 2001. Bontempi M.E., La modellazione empirica delle relazioni economiche: applicazioni in Stata7, Dispense delle lezioni, 2003. Box G., Jenkins G.M., Reinsel G., Time Series Analysis: Forecasting & Control (3rd Edition), Prantice Hall, 1994. Chen, J., Do Financial Market Variables Predict Unemployment Rate Fluctuations?, Department of Economics College of Arts & Science East Carolina University, M.S Research Paper, June, 2002. Contini B. (a cura di), Osservatorio sulla mobilità del lavoro in Italia, Il Mulino, Bologna, 2002 Douglas Hamilton J., Time Series Analysis, Princeton Univ Pr., 1994. Giusti F. e Vitali O., Statistica Economica, Cacucci Editore, Bari, 1990. Golan A., Perloff, J.M., Superior Forecasts of the U.S. Unemployment Rate Using a Nonparametric Method, Working Papers, Gennaio 2003. John D. Johnson, An Analysis of strike and Unemployment Rates, 1951-1980, Working Papers. Lucchetti R., Appunti di analisi delle serie storiche, Dispense ad uso degli studenti, luglio 2002. Masarotto G., Analisi delle serie temporali, Lucidi delle lezioni, gennaio 2003. Mikhail O. Eberwein C.J., Handa J., Testing and estimating persistence in Canadian Unemployment, abstract 2003. Piccolo D. e Vitale C., Metodi statistici per l’analisi economica, Il Mulino, Bologna, 1981. Proietti T., Econometria applicata, Dispense ad uso degli studenti. Rapporto Isfol 2001, Federalismo e politiche del lavoro, Franco Angeli, Milano, 2001. 53 Stanca L., Appunti per il corso di econometria B, Dispense ad uso degli studenti, Aprile 2003. Wooldridge J.M. Introductory Econometrics, Thomson South Western, 2002. Randall E. Parker, Philip Rothman, The Current Depth of Recession and Unemployment Rate Forecasts, Department of Economics East Carolina University Brewster Building East Carolina University, 1997 Revised 1998. 54 Allegato statistico Tavole dei dati utilizzati per l’analisi statistica e la previsione. Fonte Istat - Rilevazione trimestrale sulle forze di lavoro. 55