Dati finanziari ad alta frequenza - UniFI - DiSIA

Transcript

Dati finanziari ad alta frequenza - UniFI - DiSIA
Dati finanziari ad
Trattamento e applicazioni
alta frequenza
Massimiliano Cecconi, Marco J. Lombardi
Università degli Studi di Firenze - Dipartimento di Statistica "G. Parenti"
na delle tendenze più moderne della finanza consiste nello studio dei
cosiddetti dati ad alta frequenza, ovvero osservazioni registrate in
tempo reale sui mercati. A differenza degli studi tradizionali, nei quali si tende a considerare dati misurati ad intervalli equispaziati, nel caso dell’alta frequenza si registra ogni singola transazione (e anche richiesta di transazione) che avviene sul mercato. La possibilità di sfruttare questa enorme mole di informazione costituisce un indubbio vantaggio; le applicazioni di stime econometriche ricavate da dati ad altissima frequenza
(ultra-high frequency, Engle [4]) si riflettono su gran parte della moderna teoria finanziaria: dal prezzaggio di opzioni alla previsione della volatilità intragiornaliera, dal
calcolo del Value at Risk alla gestione della liquidità. Tuttavia, l’impiego di tali dati pone delle difficoltà sia per quanto concerne la loro raccolta che il loro trattamento. Difatti, oltre al problema di gestire ed organizzare enormi quantità di osservazioni (si
può anche arrivare ad alcune migliaia di registrazioni nell’arco di una sola giornata
borsistica), si pone quello del trattamento di osservazioni a frequenza irregolare. Una
delle possibilità che sta riscuotendo maggior successo in letteratura consiste nel modellare i tempi che intercorrono tra una transazione e l’altra (le cosiddette durations)
tramite un nuovo processo, introdotto da Engle e Russell [5] e noto con l’acronimo di
modello ACD (Autoregressive Conditional Duration). Tra le motivazioni che hanno
ispirato i due autori vi è la constatazione che la presenza sul mercato di operatori
maggiormente informati di altri si riflette in un tempo medio di attesa tra una transazione e l’altra relativamente breve. Viceversa, tempi di attesa più lunghi sono indice
di una maggiore calma dei mercati, poiché si ritiene che il prezzo corrente sia prossimo al suo valore di equilibrio. Scopo di questo articolo è quello di presentare sinteticamente i dati ad alta frequenza, le problematiche connesse al loro stoccaggio ed
al loro trattamento, e di fornire alcuni spunti sulle possibilità di utilizzo dei dati in
svariati ambiti della moderna teoria finanziaria.
U
Scienza & Business, Anno III, n.9-10, 2001
17
Massimiliano Cecconi, Marco J. Lombardi - Dati finanziari ad alta frequenza
a modernizzazione degli strumenti informatici è spesso venuta a coincidere con
importanti innovazioni nel campo della finanza. Ad esempio, a partire dall’inizio degli anni ‘90, la crescente velocità di elaborazione dei processori ha reso possibile
sviluppare tecniche di analisi che risultavano in precedenza impensabili: tra le altre cose, ad
esempio, si sono potute sviluppare tecniche di prezzaggio per titoli derivati di tipo non standard basate sulla simulazione del prezzo del titolo sottostante.
Una delle ultime conseguenze della rapida espansione della tecnologia hardware è rappresentata dalla possibilità di archiviare e gestire database di dimensioni imponenti grazie alla costante crescita di capienza dei
supporti magnetici e all’introduzione su larga scala (e a
costi contenuti) degli strumenti ottici di lettura/scrittura.
In ambito finanziario, ciò rende possibile studiare l’andamento dei mercati in una prospettiva intragiornaliera, ovvero registrare tutte le transazioni (eseguite o solo richieste) che si rilevano sui terminali degli operatori. In
letteratura, spesso si indicano tali rilevazioni come dati
tick-by-tick o trade-by-trade (Gwilym e Sutcliffe [6]).
Se fino a poco tempo fa le applicazioni si limitavano a
considerare al massimo osservazioni giornaliere, si sta
diffondendo oggi la pratica di sfruttare la massima informazione possibile utilizzando i dati tick-by-tick. Difatti,
utilizzando dati giornalieri, si suole considerare il prezzo
di chiusura come indicativo dell’intera giornata di contrattazioni, ma ciò non è necessariamente vero; tralasciando i movimenti intragiornalieri del prezzo si rischia
pertanto di trascurare informazioni rilevanti ai fini della
stima e della previsione.
Tuttavia, utilizzare questo tipo di dati pone alcuni problemi e rende necessario ricorrere a strumenti parzialmente diversi da quelli tradizionalmente impiegati. Il problema principale consiste nel fatto che le osservazioni
così rilevate non sono necessariamente equispaziate:
tra un’osservazione e l’altra può intercorrere un lasso di
tempo che oscilla da pochissimi secondi a qualche mi-
L
Figura 1
Prezzo del titolo FIAT nel periodo 10/31 luglio 2000 sulla
base di rilevazioni giornaliere
18
Scienza & Business, Anno III, n.9-10, 2001
nuto. Al contrario, è immediatamente evidente che, utilizzando dati giornalieri, tale problema non si pone.
Modalità di raccolta e gestione dei dati
dati ad altissima frequenza sono raccolti e forniti da
organismi di vario tipo, spesso identificabili con l’istituzione che gestisce e regola il singolo mercato nazionale; nel caso italiano, essi sono gestiti direttamente
dalla Borsa Italiana S.p.A. Tali dati si presentano sotto
forma di database in formato ASCII che riporta in ordine:
! data della transazione, nel formato aaaammgg (ad
esempio 20000703 indica il 3 luglio 2000);
! orario della transazione, nel formato hhmmsscc (ad
esempio 11073200 indica le ore 11,7 minuti, 32 secondi);
! prezzo in euro al quale avviene lo scambio;
! volume scambiato;
! controvalore in euro.
I
Una tipica giornata di contrattazioni, sul mercato italiano, supera abbondantemente le 1500 osservazioni. Si
capisce subito come ciò risulti costoso sia dal punto di
vista dello stoccaggio che da quello del trattamento dei
dati: un database di un anno consterebbe di circa
600.000 rilevazioni. Dai grafici che presentiamo possiamo vedere un confronto tra l’andamento giornaliero e
quello tick-by-tick del prezzo del titolo FIAT tra il 10 e il
31 luglio del 2000. Nella Figura 1 riportiamo i prezzi giornalieri di chiusura, mentre nella Figura 2 il grafico delle
quotazioni tick-by-tick. Si osserva che, ovviamente, le
due serie risultano più o meno sovrapponibili, ma che
ad ogni modo la serie ad alta frequenza veicola una
quantità di informazione infinitamente maggiore rispetto
a quella giornaliera.
La non omogeneità dei dati tick-by-tick non risulta molto evidente dalla Figura 2 a causa della enorme quantità di dati a disposizione (29087 osservazioni). Tuttavia,
Figura 2
Prezzo del titolo FIAT nel periodo 10/31 luglio 2000 sulla
base di rilevazioni tick-by-tick
Massimiliano Cecconi, Marco J. Lombardi - Dati finanziari ad alta frequenza
se concentriamo l’attenzione su una frazione della giornata borsistica (ad esempio un’ora), è immediatamente
visibile l’andamento a “salti” della serie dovuto alla diversa frequenza con cui si registrano le transazioni. La Figura 3 illustra quanto descritto per il titolo FIAT nel giorno 10 luglio 2000 tra le 9. 30 e le 10. 30 del mattino; ciascun punto indica una diversa transazione avvenuta nel
periodo considerato.
Se il problema del trattamento dei dati si avverte già
sul mercato italiano, su quello statunitense è infinitamente più grande: non solo le transazioni sono molto
più numerose, ma l’insieme delle informazioni rilevate risulta molto più ampio. Il principale fornitore di dati per il
mercato statunitense è il New York Stock Exchange
(NYSE) stesso, che cura il database TAQ (Trades and
Quotes, [12]). Tale database riporta, oltre alle transazioni che effettivamente hanno luogo (trades), anche le
quotazioni bid e ask, ovvero le proposte di vendita e di
acquisto che non vanno a buon fine (quotes). Nel database TAQ, oltre ai dati relativi al NYSE, sono rilevati anche dati di altri mercati, tra cui il National Association of
Securities Dealers Automated Quotations (NASDAQ),
l’American Stock Exchange (AMEX) e il Chicago Board
Options Exchange (CBOE).
Per dare un’idea della mole che può raggiungere il database TAQ, ne riportiamo, in Figura 4, le dimensioni in
MegaBytes per alcuni mesi di riferimento e solo per pochi titoli azionari del NYSE. Dal grafico si evince che la
frequenza degli scambi sul mercato statunitense è in forte crescita: la dimensione del database presenta difatti
un marcato trend crescente sia per quanto riguarda le
proposte immesse nel circuito telematico che per quanto riguarda le transazioni effettivamente realizzate.
La modellistica tradizionale che si è soliti utilizzare per
l’analisi delle serie storiche finanziarie è stata sviluppata
quando ancora le osservazioni giornaliere rappresentavano il massimo grado di informazione che si potesse riuscire a gestire. Tale modellistica (ci riferiamo in partico-
Figura 3
Prezzo del titolo FIAT tra le 9.30 e le 10.30 del 10 luglio
2000
Figura 4
Dimensione in MegaBytes del database TAQ
lare ai modelli di tipo ARMA-GARCH; si veda, per una
trattazione introduttiva, Hamilton [7]) è quindi applicabile
solo nel caso in cui i dati siano equispaziati e, come abbiamo visto, questo non è il caso delle osservazioni ad
alta frequenza. I primi studi in tale ambito si sono concentrati sul cercare di “recuperare” la modellistica tradizionale trasformando le osservazioni ad alta frequenza
in osservazioni equispaziate. L’idea più naturale in questo senso è quella di registrare i dati a intervalli di tempo
predefiniti: ad esempio ogni minuto, oppure ogni secondo. Questo approccio comporta però alcuni problemi: se
infatti, per quanto riguarda le osservazioni giornaliere, al
termine della giornata di contrattazioni si osserva comunque un singolo prezzo di chiusura, non è detto (specie
per quanto concerne i titoli a minore flottante) che si possa osservare una transazione esattamente ogni minuto (o
addirittura ogni secondo). I dati devono essere quindi trattati in modo da renderli veramente equispaziati.
Vi sono varie modalità di intervento possibili, che illustreremo con un semplice esempio grafico. Supponiamo
che il prezzo di apertura del titolo che vogliamo analizzare sia 100. Desideriamo ricavare, a partire dalle osservazioni tick-by-tick, una serie di osservazioni equispaziate a un minuto. Dopo esattamente un minuto dall’apertura del mercato, si registra la prima transazione a
un prezzo di 101. La seconda transazione, a un prezzo
di 102, avviene 1 minuto e 48 secondi (1,8 minuti) dopo
l’apertura del mercato, e la terza, a un prezzo di 104,
dopo 2 minuti e 36 secondi (2,6 minuti).
La situazione che ci si trova ad affrontare è schematizzata nella Figura 5: a partire dalla prima linea temporale, non equispaziata, dobbiamo costruire la seconda,
“riempiendo” le rilevazioni x0, x1, x2, e così via.
Per quanto riguarda x0, essa ovviamente coincide col
prezzo di apertura; ugualmente, poiché la prima transazione si è verificata esattamente un minuto dopo l’apertura del mercato, x1 coincide col prezzo di tale transazione, ovvero 101. Per quanto riguarda x2, invece, non
disponiamo di un’osservazione corrispondente al termine temporale dei 2 minuti, e dobbiamo quindi procedere
in maniera diversa. Una prima idea può essere quella di
Scienza & Business, Anno III, n.9-10, 2001
19
Massimiliano Cecconi, Marco J. Lombardi - Dati finanziari ad alta frequenza
utilizzare la transazione più vicina ai 2 minuti, in questo
caso 102. Altrimenti, si può considerare la media aritmetica delle osservazioni immediatamente precedente e
seguente ai 2 minuti, ovvero:
x2 = (102 + 104) / 2 = 103.
Un’ulteriore possibilità, più raffinata, è quella di considerare una media ponderata con gli intervalli di tempo
che intercorrono tra le transazioni e il termine dei 2 minuti:
x2 = [102 * (2 - 1,8) + 104 * (2,6 - 2)]
/ [(2 - 1,8) + (2,6 - 2)] = 103,5.
Menzioniamo, infine, la strada dell’interpolazione lineare, consistente nel tracciare una retta per le due
transazioni più prossime a quella “mancante” e prendere
come valore quello appartenente a tale retta in corrispondenza dell’istante considerato. In pratica, ciò si traduce nel risolvere la proporzione
(x2 - 102): (2 - 1,8) = (104 - 102): (2,6 - 1,8),
la cui soluzione rende un valore interpolato per x2 di
102,5.
Ovviamente, nessuna di queste metodologie è intrinsecamente la migliore. La media ponderata è quella che
considera il numero più ampio di fattori, ma non è necessariamente superiore alle altre in termini di risultato.
Quello che vale la pena qui osservare è che procedere
ad accorpare i dati per renderli equispaziati comporta
comunque, per quanto alta possa essere la frequenza di
campionamento, una perdita di informazione. Abbiamo
già rilevato che, disponendo di dati equispaziati, possiamo sfruttare tutta la modellistica preesistente. Tuttavia,
se si aggiunge a questo indubbio vantaggio l’inconveniente relativo alla perdita di informazione, questa strategia può rivelarsi non ottimale a fini di analisi.
L’approccio sperimentale alle serie ad alta
frequenza
cercatore allo scopo di individuarne le proprietà statistiche fondamentali, sulla base di un minimo insieme di
assunzioni sottostanti. Si va dunque alla ricerca di quelle regolarità empiriche che nella letteratura econometrico-finanziaria prevalente vengono definite fatti stilizzati.
Andamento delle funzioni di autocorrelazione, forma della distribuzione campionaria, individuazione di patterns
giornalieri e/o settimanali caratteristici, sono solo alcuni
degli esempi di regolarità empiriche ispezionate in questa fase.
Il secondo passo consiste nell’utilizzare i fatti stilizzati
precedentemente individuati per formulare adeguati modelli matematico-statistici. Occorre notare che per modelli adeguati si intendono formulazioni rigorose in grado di riprodurre le regolarità empiriche osservate, operando in un contesto di tipo essenzialmente “ateorico”,
tipico delle scienze sperimentali, che si pone in contrapposizione all’approccio economico tradizionale dove l’aspetto determinante è costituito dalla verifica empirica di
quelle relazioni teoriche ritenute esplicative del comportamento dei mercati (la cosiddetta microstruttura).
Nell’ultima fase occorre verificare l’adeguatezza del
modello nel riprodurre i fatti stilizzati precedentemente
individuati sui dati. L’obiettivo finale non si limita alla ricerca di un modello puramente descrittivo dell’andamento dei fenomeni analizzati, ma consiste piuttosto
nell’utilizzo di tali formulazioni per ricavare ragionevoli
previsioni sui loro movimenti futuri, integrando nelle applicazioni pratiche questi strumenti con quelli oramai più
consolidati del risk management e del prezzaggio di opzioni.
Come già evidenziato, il metodo sperimentale si contrappone a quello proprio della teoria finanziaria tradizionale utilizzato per comprendere la microstruttura del
mercato e volto ad analizzare la reazione dei mercati finanziari all’insorgere di nuova informazione. La presenza di operatori diversamente informati gioca un ruolo
n ciò che precede abbiamo messo in evidenza come
oggigiorno, chiunque si avvicini ai mercati finanziari
possa disporre di enormi quantità di dati dai quali
estrapolare utili suggerimenti per le proprie decisioni di
investimento e disinvestimento. Tra i problemi maggiori
che si incontrano vi è senz’altro la necessità di operare
un’adeguata sintesi dell’informazione raccolta in modo
da poterla utilizzare al meglio. L’approccio comunemente utilizzato in questo ambito è quello proprio delle
scienze sperimentali (fisica, chimica o biologia), dove i
fenomeni naturali vengono studiati mediante l’ausilio di
strumenti matematici e statistici rigorosi.
L’applicazione del cosiddetto metodo sperimentale ai
dati finanziari ad alta frequenza si esplica in tre fasi fondamentali (Dacorogna et al. [3]). La prima di esse, e forse la più delicata, consiste nell’analizzare da un punto di
vista esplorativo e descrittivo i dati a disposizione del ri-
Figura 5
Costruzione di una serie di osservazioni equispaziate a partire da osservazioni tick-by-tick
I
20
Scienza & Business, Anno III, n.9-10, 2001
Massimiliano Cecconi, Marco J. Lombardi - Dati finanziari ad alta frequenza
chiave nel meccanismo di formazione dei prezzi. In tal senso, uno dei
principali vantaggi dell’applicazione
del metodo sperimentale ai dati ad
alta frequenza consiste nella possibilità di riconciliare i due approcci,
sintetizzando la maggiore informazione disponibile in particolari variabili esplicative da aggiungere ai modelli derivati in stretta aderenza alle
regolarità empiriche osservate.
In ciò che segue daremo un semplice esempio illustrativo di modello
econometrico derivato secondo le linee guida dell’approccio sperimentale ai mercati finanziari e ne metteremo brevemente in evidenza le potenzialità nel riprodurre le regolarità
empiriche osservate su dati reali.
Una rappresentazione formale:
il modello ACD
ome già accennato in precedenza, la moderna teoria finanziaria si basa sulla constatazione che l’unica variabile in
grado di fornire utili suggerimenti
circa la presenza di informazione
superiore nel mercato è rappresentata dalla sequenza delle transazioni. Partendo da una tale assunzione, numerosi sono stati i tentativi di
formalizzare il comportamento degli
operatori di mercato (si veda, ad
esempio, O’Hara [11] per una rassegna di tali modelli). Basti qui ricordare che se da un lato le peculiarità
dei vari modelli consistono nel diver-
C
Figura 6
Durations per il titolo FIAT - gennaio 2000
so punto di vista in base al quale
vengono studiate le sequenze di
transazioni, dall’altro il loro elemento comune è l’individuazione della
presenza di operatori maggiormente informati di altri. Ciò si traduce nel
fatto che la quotazione corrente degli attivi finanziari risulta più o meno
vicina al suo valore di equilibrio a
seconda della frequenza con cui avvengono le transazioni.
La formulazione matematico-statistica più innovativa volta a tale scopo è senz’altro il modello ACD (Autoregressive Conditional Durations)
introdotto da Engle e Russell [5]. Si
tratta di una rappresentazione statistica per dati non equispaziati la cui
finalità è quella di comprendere
quale sarà il tempo medio di attesa
fino alla prossima transazione, in
quanto è proprio dalla previsione di
questo dato che gli operatori aggiorneranno la loro opinione (o probabilità soggettiva) circa la possibilità
che vi sia informazione superiore
nel mercato e che di conseguenza
le quotazioni degli attivi finanziari
siano relativamente lontane dal loro
valore di equilibrio. Riportiamo in Figura 6, a titolo esemplificativo, il grafico delle durations rilevate per il titolo FIAT nel mese di gennaio 2000.
Dal campione sono state escluse le
durations nulle (relative al fatto che
più transazioni si sono verificate nello stesso istante), quelle della fase
di pre-apertura, e le durate tra la prima transazione della giornata e l’ultima della giornata precedente, riducendo il campione a 35777
osservazioni,
contro le 58123
originarie. Come si vede, le
considerazioni
che portano a
ritenere
che
una maggiore
attività di trading si verifichi
nelle prime ore
successive all’apertura ed in
quelle prossime alla chiusura della
giornata borsistica è confermata
dall’andamento sinusoidale delle
durations. I fondamenti di un simile
comportamento si ritrovano nella
constatazione che all’apertura sia
da scontare tutta l’informazione e le
opinioni della notte, mentre in prossimità della chiusura gli operatori
tenderanno a liquidare eventuali posizioni rimaste aperte o a scontare
immediatamente un’aspettativa sulla quotazione alla riapertura.
Senza entrare nei dettagli dei processi ad intensità condizionale, per i
quali si rimanda, fra gli altri, a Lancaster [9], la rappresentazione formale del modello ACD può essere
espressa come segue. Sia xi = ti -ti-1
l’intervallo di tempo espresso in secondi tra due transazioni consecutive (le cosiddette durations) e sia ψi
il valore atteso dell’i-esima duration
condizionato a tutta la storia passata di xi (xi-1 , xi-2 , ... , x1 ). In tal modo il
modello può essere espresso come:
xi = ψi εi
dove εi rappresenta una sequenza
di variabili casuali indipendenti e
identicamente distribuite con funzione di densità di probabilità che deve
essere specificata e media uguale a
1. Da queste semplici assunzioni si
nota come diverse formulazioni del
modello ACD possono essere ricavate semplicemente indicando parametrizzazioni alternative per ψi ed
ipotizzando distribuzioni diverse per
εi . Nel modello originario di Engle e
Russell [5] si assume che le durations condizionali attese dipendano
da q dei loro valori passati e da m ritardi delle durations più un termine
costante:
Il valore numerico dei parametri ω
> 0, α1, …,αm ≥ 0, β1, …,βq ≥ 0, il cui
vincolo di non-negatività si rende
necessario al fine di ottenere stime
non negative per ψi , è determinato
mediante l’applicazione di metodologie statistiche di stima, ed in parti-
Scienza & Business, Anno III, n.9-10, 2001
21
Massimiliano Cecconi, Marco J. Lombardi - Dati finanziari ad alta frequenza
(tra parentesi quadre sotto la stima), la statistica test LB di Ljung e Box [10] per la verifica dell’assenza di correlazione, nonché la
media e la deviazione standard calcolate sui
residui del modello stimato
Sebbene i residui sembrino, almeno in prima approssimazione, in linea con le ipotesi
teoriche formulate sul modello, la parametrizzazione che meglio si adatta ai dati è quella
EACD (1, 2). Negli altri casi, o ci troviamo di
fronte a parametri statisticamente non significativi, oppure la presenza di un valore negativo per α2 nel modello EACD (2, 1) o la non
completa assenza di correlazione nei residui
per il caso EACD (1, 1), li rendono di fatto
meno accettabili del modello EACD (1, 2).
Figura 7
Istogramma sui residui del modello EACD (1, 2) per il titolo FIAT gennaio 2000
colare del metodo della massima verosimiglianza, una
volta che si è specificata la forma della distribuzione di εi
. Nei casi più frequenti nella pratica, si ipotizza una distribuzione esponenziale o di Weibull per εi , dalle quali
derivano rispettivamente i modelli EACD (m, q) e WACD
(m, q). A titolo esemplificativo, si riporta nella Tabella 1
la stima di vari modelli ACD di tipo esponenziale per il titolo FIAT all’interno del campione considerato. Oltre alle
stime dei parametri, riportiamo gli standard error robusti
Tabella 1
Stime di vari modelli EACD per il titolo FIAT - gennaio 2000
22
Scienza & Business, Anno III, n.9-10, 2001
Inoltre, come si evince dalle figure 7 e 8, l’ipotesi di distribuzione esponenziale per i termini di disturbo sembra poter essere adeguata. L’istogramma dei residui osservati (Figura 7), a parte una diversità di scala facilmente eliminabile, riproduce abbastanza fedelmente l’andamento della distribuzione esponenziale (la media e la varianza sono infatti prossime all’unità). Ciò è confermato dallo scatterplot tra i quantili
teorici della distribuzione esponenziale e quelli ricavati
da dalla distribuzione empirica dei residui (Figura 8), dove la disposizione dei punti lungo la bisettrice che passa
per l’origine degli assi ne giustifica l’adozione come ipotesi per la stima dei parametri. Le maggiori diversità rispetto ad una retta si hanno in corrispondenza di pochi
valori elevati per i quali varrebbe la pena dare una spiegazione teorica piuttosto che considerare distribuzioni
alternative (quali la Weibull) che avrebbero l’effetto di
complicare eccessivamente la procedura iterativa di stima. In tal caso, la presenza di pochi valori eccezionalmente grandi può essere dovuta al fatto che la quotazione del momento abbia superato le soglie dell’eccesso di
rialzo o di ribasso, in modo da provocare la sospensione
del titolo FIAT dalle contrattazioni per qualche minuto.
L’inclusione tra i regressori di variabili dummy in grado di
cogliere questi momenti o la ricerca di variabili esplicative aggiuntive potrebbero in parte rimediare a queste
inefficienze del modello.
Infine presentiamo in Figura 9 un confronto grafico tra
le durations reali e quelle stimate col modello EACD (1,
2). Come si vede, il modello è in grado di cogliere quell’andamento sinusoidale di cui si è parlato in precedenza evidenziando un’adeguata discriminazione tra periodi
caratterizzati da durate brevi e periodi nei quali i tempi di
attesa tra una transazione e l’altra sono significativamente più lunghi.
Massimiliano Cecconi, Marco J. Lombardi - Dati finanziari ad alta frequenza
Pur essendo un modello relativamente recente,
si trovano già, in letteratura, numerose applicazioni, anche relative al
mercato italiano. Si è osservato, in particolare,
che tale modello è in grado di riprodurre in maniera adeguata l’andamento
delle transazioni intragiornaliere.
Sono state inoltre proposte numerose estensioni al modello ACD,
con l’obiettivo di migliorarne la performance e di
renderlo adeguato a tratFigura 8
Scatterplot tra quantili stimati e quantili teorici della tare determinate carattedistribuzione esponenziale per il titolo FIAT - gennaio
ristiche empiriche rileva2000
te sui dati reali. In particolare, sono stati introdotti modelli in grado di
catturare le asimmetrie
(Asymmetric ACD, Bauwens e Giot [2]), la memoria lunga (Fractionally
Integrated ACD, Jasiak
[8]) e la non-linearità
(Log ACD, Bauwens e
Giot [1] e Threshold
ACD, Zhang et al. [13]).
Tra gli elementi che più
frenano una maggiore
diffusione della modellistica ACD e, più in generale,
dei dati ad alta freFigura 9
Confronto tra durations reali (linea rossa) e stimate quenza stessi, vi è l’as(linea bianca) per il titolo FIAT - gennaio 2000
senza di software progettato specificamente
per il loro trattamento e
Note conclusive
la loro analisi. Notiamo infatti che, al
di là dell’assenza di pacchetti di stibbiamo presentato somma- ma dei modelli ACD, anche la stessa
riamente i principali problemi raccolta e analisi grafica dei dati è
che si incontrano volendo la- problematica, facendo affidamento
vorare con dati finanziari ad alta fre- sui software di uso comune presso
quenza al posto dei “tradizionali” da- gli operatori del settore, ovviamente
ti giornalieri. Si è visto come tali dati a causa della loro mole.
presentino alcune interessanti pecuRiteniamo che, analogamente a
liarità, in particolare il fatto che non quanto si è verificato in passato per
risultano equispaziati. A tale propo- altri modelli, la spinta decisiva alla
sito, si è introdotto il modello ACD, di loro diffusione possa venire proprio
cui abbiamo mostrato i tratti salienti dall’introduzione di pacchetti softwaed un’esemplificazione su dati reali.
re specifici.
A
Bibliografia
[1] Bauwens, L., Giot, P. (1997). The Logarithmic
ACD Model: An Application to Market Microstructure and NASDAQ. CORE Discussion Paper 9789 : Universitè Catholique de Louvain.
[2] Bauwens, L., Giot, P. (1998). Asymmetric
ACD Models: Introducing Price Information in
ACD Models with A Two State Transition Model. CORE Discussion Paper 9844: Universitè Catholique de Louvain.
[3] Dacorogna, M. M., Gençay, R., Müller, U., Olsen, R. B., Pictet, O.V. (2001). An Introduction
to High-Frequency Finance, San Diego: Academic Press.
[4] Engle, R. F. (2000). The Econometrics of Ultra-High Frequency Data, Econometrica, 66,
pp. 1-22.
[5] Engle, R. F., Russell, J. R. (1998). Autoregressive Conditional Duration: A New Model for Irregularly Spaced Transaction Data, Econometrica, 66, pp. 1127-1162.
[6] Gwilym, O., Sutcliffe, C. (1999). High-Frequency Financial Market Data, London: Risk
Books.
[7] Hamilton, J. D. (1994). Time Series Analysis,
Princeton: Princeton University Press.
[8] Jasiak, J. (1999). Persistence in Intertrade Durations. Manuscript: York University.
[9] Lancaster, T. (1990). The Econometrics
Analysis of Transition Data, Econometric Society Monographs. Cambridge: Cambridge
University Press.
[10] Ljung, G., Box, G. (1979). On a Measure of
Lack of Fit in Time Series Models, Biometrika, 66, pp. 265-270.
[11] O’Hara, M. (1995). Market Microstructure
Theory, Oxford: Basil Blackwell Inc.
[12] TAQ Database, http: //www. nyse. com/marketinfo/marketinfo. html.
[13] Zhang, M. Y., Russell, J. R., Tsay, R. S.
(2001). A Nonlinear Autoregressive Conditional Duration Model with Applications to Financial Transaction Data, Journal of Econometrics, 104, pp. 179-207.
Ringraziamenti
ingraziamo la Borsa Italiana S.p.A.
per averci cortesemente messo a
disposizione i dati ad alta frequenza utilizzati in questo articolo. Un ringraziamento particolare va inoltre al Prof. Giampiero M. Gallo per averci supportato e incoraggiato nel nostro lavoro.
R
Scienza & Business, Anno III, n.9-10, 2001
23
Massimiliano Cecconi, Marco J. Lombardi - Dati finanziari ad alta frequenza
APPROFONDIMENTO: LA DISTRIBUZIONE DI WEIBULL
a distribuzione di Weibull è in genere utilizzata per modellare dati di durata ed ha la peculiarità che la sua hazard function (funzione tasso di guasto) dipende dal parametro di forma k e può risultare crescente, costante o
decrescente, rendendo così la distribuzione assai versatile. L’equazione della
funzione di densità di probabilità è:
L
Figura 10 - Densità di Weibull
per diversi valori del parametro
k, ponendo θ = 1
per t > 0. Il parametro k può assumere valori strettamente positivi e determina, come dice il nome stesso, la
forma della distribuzione. Nel caso in cui k = 1 la distribuzione è detta anche esponenziale, ed ha tasso di guasto costante. In Figura 10 riportiamo il grafico della densità di Weibull per tre diversi valori di k. Il parametro θ,
invece, è detto parametro di scala, e determina l’ampiezza della distribuzione. Ai fini delle stime ACD, il parametro di scala viene spesso fissato a priori pari a uno.
Notizie sugli Autori
MASSIMILIANO CECCONI
assimiliano Cecconi si è laureato a pieni voti con lode
presso la Facoltà di Economia dell’Università degli Studi di Firenze
nell’aprile 2001. Ha discusso una tesi in Econometria dal titolo:
“Modelli econometrici per fenomeni soggetti a smooth transition:
lo studio della volatilità sui mercati finanziari”, supervisionata dal
prof. Giampiero M. Gallo, per la quale la commissione di laurea
ha espresso l'auspicio di pubblicazione. Attualmente è Assegnista di Ricerca presso il Dipartimento di Statistica “G. Parenti” dell’Università di Firenze, dove svolge una ricerca dal titolo “Microstrutture di Mercati Finanziari”. Fa infine parte del gruppo di ricerca FEDRA. I suoi interessi di ricerca riguardano l’econometria
dei mercati finanziari, con particolare attenzione alla microstruttura dei mercati ed allo studio delle serie storiche finanziarie ad
altissima frequenza (tick-by-tick). Si interessa inoltre di modellistica GARCH per lo studio della volatilità, modelli non-lineari per i
mercati finanziari, modelli a transizione liscia, metodi di simulazione, implementazione di routine econometrico-finanziarie.
È contattabile all’indirizzo e-mail: [email protected] o all'URL:
http://www.cecconim.it.
M
MARCO J. LOMBARDI
arco Jacopo Lombardi è nato
a Firenze il 16 giugno 1976.
Dopo il Diploma di Maturità Classica, si è iscritto alla Facoltà di Economia dell’Università degli studi di Firenze e si è laureato col
massimo dei voti e lode il 12 febbraio 2001. La sua tesi in Econometria, supervisionata dal Prof. Giampiero M. Gallo e intitolata
“La previsione della volatilità di attivi finanziari: Processi a memoria lunga e Fractionally Integrated GARCH”, ha ricevuto dalla
commissione l’auspicio di pubblicazione.
Attualmente segue il corso di Dottorato di Ricerca in Statistica
Applicata presso il Dipartimento di Statistica “G. Parenti” dell’Università degli studi di Firenze.
Oltre che ai modelli per dati ad alta frequenza e ai modelli a memoria lunga, è interessato alla programmazione in linguaggio
C/C++, all’analisi spettrale, alle reti neurali e ai metodi numerici
di ottimizzazione.
Lavora presso il Dipartimento di Statistica “G. Parenti” dell’Università degli studi di Firenze (Viale G.B. Morgagni 59 - 50134 Firenze) e può essere contattato all’indirizzo e-mail: [email protected]
o all’URL http://www.ds.unifi.it/~mjl/.
M
FEDRA
l gruppo di ricerca FEDRA (Financial Econometrics and Derivatives Research Associates) si è costituito nel giugno
2001 presso il Dipartimento di Statistica “G. Parenti” dell’Università degli studi di Firenze con l’obiettivo di coordinare e
promuovere l’attività di ricerca del dipartimento nel settore dell’analisi quantitativa dei mercati finanziari.
Il gruppo è diretto da Giampiero M. Gallo ed è attualmente composto da Christian T. Brownlees, Massimiliano Cecconi,
Orazio Di Miscia, Andrea Gigli, Marco J. Lombardi e Barbara Pacini.
Ulteriori informazioni sulle attuali attività del gruppo sono disponibili all’URL: http://www.ds.unifi.it/~fedra/.
I
24
Scienza & Business, Anno III, n.9-10, 2001