Elementi di Risk Management Quantitativo

Transcript

Elementi di Risk Management Quantitativo
Elementi di Risk Management Quantitativo
Marco Bee ([email protected])
Aprile 2006
Indice
1 Introduzione
3
2 Nozioni preliminari
3
2.1
Prezzi e rendimenti . . . . . . . . . . . . . . . . . . . . . . . .
3
2.2
Capitalizzazione
. . . . . . . . . . . . . . . . . . . . . . . . .
5
2.3
Sconto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5
2.4
Il concetto di portafoglio . . . . . . . . . . . . . . . . . . . . .
6
2.5
Il Capital Asset Pricing Model . . . . . . . . . . . . . . . . .
8
2.6
Relazione fra duration modificata e rischio . . . . . . . . . . .
9
2.7
Il moto browniano . . . . . . . . . . . . . . . . . . . . . . . .
10
2.8
Pricing di opzioni: il modello binomiale ad un periodo . . . .
11
2.9
Formula di Black & Scholes . . . . . . . . . . . . . . . . . . .
15
3 Rischio e Misure di Rischio di Mercato
16
3.1
Modelli parametrici . . . . . . . . . . . . . . . . . . . . . . . .
17
3.2
Metodi parametrici per il VaR di portafoglio
. . . . . . . . .
19
3.3
Metodi per la stima della varianza . . . . . . . . . . . . . . .
22
3.4
Volatilità implicita . . . . . . . . . . . . . . . . . . . . . . . .
26
3.5
Backtesting . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
4 Rischio di credito
30
4.1
Rating . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
31
4.2
La distribuzione delle perdite . . . . . . . . . . . . . . . . . .
33
4.3
Il modello di Merton . . . . . . . . . . . . . . . . . . . . . . .
35
1
4.4
La correlazione fra i default . . . . . . . . . . . . . . . . . . .
41
4.5
Il modello a mistura bernoulliana . . . . . . . . . . . . . . . .
43
4.6
Il modello fattoriale . . . . . . . . . . . . . . . . . . . . . . .
45
4.7
Il modello di Vasicek . . . . . . . . . . . . . . . . . . . . . . .
47
4.8
La distribuzione delle perdite per il portafoglio . . . . . . . .
49
4.9
I modelli di portafoglio disponibili sul mercato . . . . . . . .
52
4.10 Distribuzioni di perdita costruite tramite copule
. . . . . . .
62
4.11 Appendice: il modello multifattoriale di MKMV
. . . . . . .
66
5 Riferimenti bibliografici
68
2
1
Introduzione
La disciplina del Risk Management può essere suddivisa in due branche
correlate ma distinte:
1. il risk measurement ha lo scopo di fornire misure quantitative di
rischio individuate tramite la modellazione e la stima delle proprietà
statistiche dei portafogli. Preliminarmente, è spesso necessario utilizzare tecniche di pricing per determinare i prezzi degli strumenti
finanziari;
2. il risk management utilizza tali misure allo scopo di determinare l’allocazione di capitale necessaria all’istituzione finanziaria per coprirsi
dai rischi.
Dal punto di vista quantitativo, le tecniche utilizzate sono di tipo sia
statistico (in quanto i portafogli sono variabili casuali di cui è necessario
stimare i parametri) che matematico (strumenti di matematica finanziaria
per prezzare le attività, metodi di ottimizzazione, ecc.)
Argomenti:
• Strumenti quantitativi di base e misure di rischio;
• Rischi di mercato e operativi;
• Rischio di credito: stima della probabilità di def ault, modelli di portafoglio.
2
2.1
Nozioni preliminari
Prezzi e rendimenti
Sia Pt il prezzo di un’attività finanziaria. La variazione percentuale di prezzo
(rendimento netto) è data da
Rt =
Pt − Pt−1
.
Pt−1
3
Il rendimento lordo è dato da
Rtl =
Pt
.
Pt−1
Infine, il rendimento logaritmico è dato da
µ
¶
Pt
l
rt = ln(Rt ) = ln
= ln(Pt ) − ln(Pt−1 ) = pt − pt−1 .
Pt−1
Teorema 1 Il rendimento logaritmico è un’approssimazione lineare del rendimento netto.
Dimostrazione. Si approssimi la funzione f (x) = ln(x) in un intorno di
x0 = 1 tramite la formula di Taylor troncata al primo termine:
ln(x) = ln(x0 ) + (x − x0 )
1
+ o(x − x0 )2
x0
= (x − 1) + o(x − x0 )2 .
Ponendo x = Pt /Pt−1 e trascurando il resto si ottiene
µ
¶
Pt
Pt
Pt − Pt−1
ln
≈
−1=
.
Pt−1
Pt−1
Pt−1
Teorema 2 Il rendimento logaritmico relativo a n periodi è dato da
rn|0 = ln(Pn /P0 ) = r1|0 + r2|1 + · · · + rn|n−1 .
Dimostrazione. Esercizio.
Perché è conveniente usare i rendimenti logaritmici? Principalmente
per ragioni statistiche: i prezzi sono lognormali se e solo se i rendimenti
logaritmici sono normali. Si supponga infatti che i rendimenti logaritmici
siano normali:
rt = µ + σ²t ,
²t ∼ N (0, 1),
t = 1, . . . , T.
Poiché rt = ln(Pt /Pt−1 ) = ln(Pt )−ln(Pt−1 ), e ponendo per semplicità µ = 0,
abbiamo
pt = pt−1 + σ²t ,
t = 1, . . . , T.
(1)
Quindi pt |pt−1 ∼ N (pt−1 , σ 2 ). Applicando la funzione esponenziale all’equazione (1) si ottiene il modello per l’evoluzione temporale dei prezzi:
ept = ept−1 +σ²t ,
4
vale a dire
Pt = ept−1 · eσ²t
= Pt−1 · eσ²t
t = 1, . . . , T,
(2)
che è una distribuzione lognormale di parametri pt−1 e σ 2 .
2.2
Capitalizzazione
Si supponga di investire x$ per n anni al tasso annuo R, con capitalizzazione
solo alla fine dell’anno. Allora il valore futuro dopo n anni è
F Vn = x(1 + R)n $.
Se la capitalizzazione ha luogo m volte all’anno si ottiene:
¶
µ
R nm
F Vn = x 1 +
$.
m
Quando m → ∞, otteniamo la capitalizzazione continua:
¶
µ
R nm
c
F Vn = lim x 1 +
$ = xeRn $.
m→∞
m
Osservazione. Passando dalla capitalizzazione annuale a quella continua, il
valore futuro (sul medesimo orizzonte temporale) aumenta progressivamente.
2.3
Sconto
Le corrispondenti formule di sconto sono:
F Vn
$;
(1 + R)n
F Vn
¢ $;
x= ¡
R nm
1+ m
x=
x = F Vnc e−Rn $.
5
2.4
Il concetto di portafoglio
Un portafoglio di N attività è costruito come segue. Sia ri,t+1 il rendimento
logaritmico dell’attività i nel periodo [t, t + 1). I pesi delle attività nel
portafoglio sono w = (w1 , . . . , wN )0 . Sia r = (r1 , . . . , rN )0 ; siano inoltre
E(r) = µ;
var(r) = Σ.
Sia rw = w0 r il rendimento del portafoglio. La sua media e varianza sono
def
E(rw ) = w0 µ = µw ;
def
2
.
var(rw ) = w0 Σw = σw
2 ).
Esempio. Sia r ∼ NN (µ, Σ), dove µ = (µ1 , . . . , µN )0 e Σ = diag(σ12 , . . . , σN
P
PN
2 2
Allora rw ∼ N (w0 µ, w0 Σw), ovvero rw ∼ N ( N
i=1 wi µi ,
i=1 wi σi ).
Esempio 1. Il ruolo della correlazione ρ è essenziale nello studio della diversificazione di portafoglio.
Si supponga che αi = 1/N , i = 1, . . . , N , che la PD e la correlazione
siano uniformi: formalmente, Li ∼ Bin(1; π), i = 1, . . . , N ; cov(Li , Lj ) = ρ
(i, j = 1, . . . , N , i 6= j).
Allora la varianza di Lptf = (1/N )

var(Lptf ) =
N
X
1 

N2 
1
N2
i=1 Li
var(Li ) +
i=1
è data da:

N
X

cov(Li , Lj )

i,j=1
i6=j

=
PN

N
N
X
X


π(1
−
π)
+
ρπ(1 − π)


i=1
i,j=1
i6=j
1
[N π(1 − π) + N (N − 1)ρπ(1 − π)]
N2
π(1 − π) (N − 1)ρπ(1 − π)
+
=
N
N
π(1 − π)
ρπ(1 − π)
=
+ ρπ(1 − π) −
,
N
N
=
(3)
dove la (3) discende dal fatto che il numero di elementi di una matrice
quadrata (N × N ) al di fuori della diagonale è pari a N 2 − N .
La varianza del portafoglio è dunque composta da tre addendi. Il primo ed il terzo tendono a zero all’aumentare del numero di controparti; il
6
secondo invece, non dipendendo da N , non può essere ridotto aumentando
le dimensioni del portafoglio. Per questo motivo la quantità ρπ(1 − π) è
definita rischio non diversificabile. In definitiva si ha che
lim (var(Lptf )) = ρπ(1 − π).
N →∞
(4)
Da questo risultato si ricava che, quando le controparti sono correlate, per
quanto si aumenti il numero delle controparti, non si può ridurre la varianza
sotto una certa soglia.
Dalla (4) emerge che la varianza asintotica del portafoglio è uguale a
ρπ(1 − π), che può assumere valori compresi fra −1 e +1. Ne risulterebbe
dunque che la varianza asintotica, quando ρ < 0, è negativa. Questa conseguenza assurda può essere evitata se si impone che la matrice di covarianza
sia definita positiva.
Formalmente, si può dimostrare che, all’aumentare di N , il range di
valori ammissibili per il parametro ρ si restringe. Infatti la (4) è maggiore di
zero per ogni α ∈ RN se e solo se cov(L) = Σ è definita positiva. Quando,
come nel caso presente, Σ è data

1

 ρ

 .
.
Σ=
 .

 ρ

da

ρ
ρ
···
1
..
.
ρ
..
.
···
..
.
ρ ···
1
ρ ρ ···
ρ
ρ







ρ 

1,
ρ
..
.
il valore minimo di ρ per cui è definita positiva cresce al crescere di N . Più
precisamente, è possibile dimostrare il seguente risultato.
Proposizione 1 Sia X un vettore aleatorio N -dimensionale con E(X) = µ
e cov(X) = Σ. Allora Σ è definita positiva (o, equivalentemente, cov(α0 X) =
α0 Σα > 0 ∀α ∈ RN ) se e solo se ρ > −1/(N − 1).
Ne segue che, per esempio, quando N = 2 la matrice è definita positiva per
ρ > −1, quando N = 3 è definita positiva per ρ > −0.5, quando N = 3 è
definita positiva per ρ > −0.3̄, e cosı̀ via.
7
2.5
Il Capital Asset Pricing Model
Il Capital Asset Pricing Model è un modello di equilibrio dei rendimenti
delle attività finanziarie. Si può dimostrare che
¶
µ
σiM
(µM − r);
µi = r +
2
σM
µ
¶
cov(Ri , RM )
E(Ri ) = r +
(µM − r),
var(RM )
(5)
2 sono rispettivamente il
dove r è il tasso di interesse risk-free µM e σM
valore atteso e la varianza del rendimento del portafoglio di mercato, che è
il portafoglio contenente tutte le attività rischiose presenti sul mercato.
Il beta per l’i-esima attività è dato da
βi =
cov(Ri , RM )
,
var(RM )
cosicché il CAPM risulta essere
µi = r + βi (µM − r).
(6)
Sia ora rpi = βi (µM − r); allora il CAPM può essere riscritto come
µi = r + rpi ,
che dà una misura esplicita del premio al rischio.
Il CAPM cambia il nostro concetto di rischio da σi a βi . Per esempio, si
consideri un’attività incorrelata col mercato: il suo beta è uguale a 0, quindi,
anche se la sua volatilità, misurata da σ, è molto alta, il suo rendimento,
in equilibrio, sarà uguale al tasso di interesse risk-free, perché il suo rischio
può essere completamente diversificato. In altre parole, il beta di un’attività
dà una misura del suo rischio non diversificabile. Se σi = σM = 1, allora
βi = cov(Ri , RM ) = ρ nell’esempio 1.
Si noti che l’equazione (6) può essere riscritta come un modello di regressione:
E(Ri |RM ) − r = βi (E(RM ) − r)
Ri − r = βi (RM − r) + ²i ,
dove ²i ∼ N (0, σ²2i ).
8
Risultati.
1. cov(²i , RM ) = 0 [schema della dimostrazione: cov(²i , rM ) = cov(ri −
2 =σ
2
2
βi rM , rM ) = cov(ri , rM ) − βi σM
iM − (σiM /σM )σM ) = 0].
2 +σ 2 ; σ 2 è una misura del rischio sistematico, mentre
2. var(Ri ) = βi2 σM
²i
M
σ²2i è una misura del rischio specifico (o idiosincratico). Quest’ultimo
può essere ridotto (eliminato, asintoticamente) tramite diversificazione, cioè semplicemente aggiungendo altre attività al portafoglio.
3. L’extra rendimento sull’attività i-esima è collegato alla covarianza dei
rendimenti fra l’attività i ed il portafoglio di mercato. Un’attività con
beta uguale ad uno è, in media, rischiosa come il mercato; un’attività
con un beta maggiore di uno è, in media, più rischiosa del mercato;
un’attività con un beta minore di uno è, in media, meno rischiosa del
mercato. In questa sede, “più (meno) rischioso” significa che l’attività
si muove più (meno) del mercato, cioè è un titolo aggressivo (difensivo).
4. La covarianza fra due attività è interamente determinata dai rispettivi
beta:
cov(Ri − r, Rj − r) = cov(Ri , Rj ) = E(Ri Rj ) − E(Ri )E(Rj ) =
= E(βi (RM − r)βj (RM − r)) − βi βj (µM − r)2
= βi βj (E(RM − r)2 − (µM − r)2 ) =
2
= βi βj (E(RM
) − µ2M ) =
2
= βi βj σM
5. Tecnicamente, il CAPM è un modello fattoriale, in cui il fattore è RM .
2.6
Relazione fra duration modificata e rischio
La duration di un titolo obbligazionario è la derivata prima della funzione
prezzo-rendimento; essa è data dalla media ponderata delle scadenze di tutti
i flussi di cassa:
D=
N
X
i=1
t·
F Ct /(1 + y)t
,
P
9
dove F C sono i flussi di cassa (pagamento di cedole e rimborso del nominale)
ed y è il tasso di rendimento effettivo a scadenza. Si definisce duration
modificata la quantità DM = D/(1 + y). Si dimostra che vale la relazione
dP
= −DM · dy.
P
Si ha dunque
dP
= −DM · dy
P
⇒ r ≈ −DM · dy
⇒ σ(r) ≈ DM · σ(dy)
2.7
Il moto browniano
Che ipotesi distribuzionali si adottano in tempo continuo? Normalmente si
ipotizza che il prezzo del sottostante St sia un moto browniano geometrico
dS = µSdt + σSdZ.
Nella formula precedente, Z è un moto browniano standard, definito dalle
seguenti proprietà:
(i) Z0 = 0;
(ii) Zt − Zs ∼ N (0, t − s).
(iii) Zt è funzione continua di t;
(iv) se t0 < t1 < · · · < tn , le v.c. Z0 , Z1 − Z0 , . . . , Zn − Zn−1 sono
indipendenti.
In altre parole, dZ ∼ N (0, dt) e dunque nel discreto si ottiene
Sn − Sn−1
= µ + σ(Zn − Zn−1 ),
Sn−1
da cui si ricava che i rendimenti percentuali sono normali con media nulla e
varianza σ 2 . Si può dimostrare tramite la formula di Ito che
µ
¶
σ2
d ln S = µ −
dt + σdZ.
2
Nel discreto si avrebbe dunque
ln Sn − ln(Sn−1 ) =
µ
¶
σ2
µ−
+ σ(Zn − Zn−1 ).
2
vale a dire
Sn = Sn−1 e
2
µ− σ2
10
+σ(Zn −Zn−1 )
.
2.8
Pricing di opzioni: il modello binomiale ad un periodo
Un’opzione è uno strumento finanziario che dà il diritto di comprare (opzione call) o vendere (opzione put) una quantità stabilita di una attività
finanziaria (il sottostante) ad un prezzo prestabilito K (strike price) alla
scadenza del contratto (opzione europea) o in qualsiasi momento tra l’emissione e la scadenza (opzione americana). Il payof f a scadenza di una call è
dato da max{ST − K, 0}, quello di una put è dato da max{K − ST , 0}. Le
opzioni sono strumenti non lineari, nel senso che il loro prezzo reagisce in
modo non proporzionale ad una variazione del prezzo del sottostante (che
è la “principale” variabile che ne influenza il prezzo) e questa caratteristica
è il motivo per cui prezzare questi strumenti è più difficile e richiede un
approccio diverso rispetto, per esempio, ai bond; il metodo di pricing delle
opzioni è noto come pricing by arbitrage.
Si supponga che esistano sul mercato solo due strumenti: un’azione e
un’opzione call il cui sottostante è l’azione; inoltre è disponibile un conto
corrente il cui rendimento lordo (rendimento lordo risk-free) è indicato con
r (se dunque il rendimento netto è uguale al 5%, r = 1.05). Infine, operiamo
in tempo discreto, con due soli tempi, 0 e 1.
Costruiamo, al tempo 0, un portafoglio ottenuto prendendo a prestito
β0 $ in contanti e comprando α0 azioni del sottostante. Il valore iniziale di
questo portafoglio è dato da
V0 = β0 + α0 S0 .
Il sottostante al tempo T = 1 può assumere due soli prezzi, e la sua
distribuzione di probabilità è di tipo bernoulliano:

uS0
con prob. π
S1 =
gS
con prob. 1 − π,
0 < g < u.
0
Data questa struttura di prezzo per il sottostante, in T = 1 anche l’opzione
può assumere esclusivamente due valori:

Cu = max{uS0 − K, 0}
C1 =
C = max{gS − K, 0}
g
0
11
con prob. π
con prob. 1 − π.
Sulla base di queste sole informazioni, è possibile ricavare il prezzo dell’opzione al tempo 0. A questo scopo, si considerino i due possibili valori del
portafoglio al tempo 1:

V u = uS0 α0 + rβ0
V1 =
V g = gS α + rβ
0 0
con prob. π
con prob. 1 − π.
0
Scegliamo ora α0 e β0 in modo che le due equazioni seguenti siano simultaneamente soddisfatte:

uS0 α0 + rβ0 = Cu
gS α + rβ = C .
0 0
0
(7)
g
Si ricava facilmente
α0∗ =
Cu − Cg def
= ∆,
(u − g)S0
β0∗ =
uCg − gCu
.
(u − g)r
(8)
Dunque il portafoglio costituito, in t = 0, da ∆ quote dell’azione e β0∗ $ ha,
con certezza, lo stesso payof f dell’opzione; ne segue che l’opzione e il portafoglio devono avere lo stesso prezzo al tempo 0. Se cosı̀ non fosse, sarebbe
infatti possibile costruire un arbitraggio, cioè una strategia di trading che
fornisce un profitto privo di rischio. Infatti, si ipotizzi che sia V0 > C0 : in
questo caso un investitore potrebbe acquistare l’opzione e vendere il portafoglio al tempo 0, con un introito pari a V0 − C0 ; al tempo 1 il riacquisto
del portafoglio al prezzo V1 sarebbe esattamente compensato dalla vendita
dell’opzione.
Svolgendo i calcoli (esercizio), si trova che il prezzo dell’opzione al tempo
0 è dato da
C0 = S0 ∆ + β0∗ =
1
r
·µ
r−g
u−g
¶
µ
Cu +
u−r
u−g
1
1
= [π ∗ Cu + (1 − π ∗ )Cg ] = Eπ∗ (C1 ),
r
r
¶
¸
Cg
(9)
dove π ∗ = (r − g)/(u − g). La strategia di copertura (hedging strategy)
corrispondente alle operazioni matematiche descritte in precedenza consiste
nelle seguenti operazioni: si costruisce, al tempo 0, un portafoglio ottenuto
prendendo a prestito β0 $ in contanti, comprando α0 azioni del sottostante e
12
vendendo l’opzione. Dunque, operazioni e relativi cashflow al tempo 0 sono
come segue:


vendo l0 opzione



+C0
prendo a prestito contanti




acquisto azioni
+β0
(10)
−α0 S0 .
La strategia di copertura si conclude al tempo 1 nel modo seguente:


rimborso l0 opzione
−C1



rimborso il prestito




vendo le azioni
−β0 r
(11)
α0 S1 .
Sia nella (10) che nella (11) ovviamente bisogna sostituire i valori ∆ e β0∗ ai
valori α0 e β0 .
Esempio. Siano r = 1, S0 = 10, K = 15,

20
con prob. π
S1 =
7.5
con prob. 1 − π.
Ne segue che

5
C1 =
0
con prob. π
(12)
(13)
con prob. 1 − π.
Dunque, applicando la (8), si ricava ∆ = 0.4, β0∗ = −3$, V0 = −3$ + 0.4 ·
10$ = 1$ e π ∗ = 0.2. Al tempo 0, la strategia di copertura consiste in
vendere l’opzione, il cui prezzo è uguale a V0 (= +1$), prendere a prestito
3$ e comprare 4$ di azioni.
Al tempo 1 ci sono due possibilità:
1. S1 = 20$. L’opzione viene esercitata (−5$); rimborso il prestito (−3$),
vendo le azioni (+0.4 · 20$ = +8$). Bilancio netto: 0$.
2. S1 = 7.5. L’opzione non viene esercitata (0$); rimborso il prestito
(−3$), vendo le azioni (+0.4 · 7.5$ = +3$). Bilancio netto: 0$.
13
Osservazioni.
1. La (9) non dipende dall’avversione al rischio degli investitori, ma solo dal fatto che preferiscano più denaro a meno denaro (questa è
condizione necessaria per eliminare possibilità di arbitraggio);
2. la (9) non dipende dalla probabilità π, che è ignota ma riguardo alla
quale ogni investitore ha una propria opinione; tale opinione è dunque
irrilevante per la determinazione del prezzo;
3. la (9) è il valore atteso scontato del payof f dell’opzione, dove il valore
atteso è calcolato rispetto alla “pseudo probabilità” π ∗ , denominata
probabilità risk-neutral. Rispetto a questa misura di probabilità il
rendimento del portafoglio di replica è uguale al rendimento risk-free
in quanto ha rendimento certo (non dipende dal valore del sottostante
al tempo 1);
4. la distribuzione di probabilità determinata da π ∗ = (r − g)/(u − g)
nel modello binomiale ad un periodo è definita risk-neutral nel senso
seguente. Si verifica (esercizio) che:
Eπ∗ (V1 |V0 ) = rβ0∗ + π ∗ uS0 α0∗ + (1 − π ∗ )gS0 α0∗ = rβ0∗ + rα0∗ S0 = rV0 ,
(14)
dove la penultima uguaglianza si ottiene sviluppando la quantità
π ∗ uS0 α0∗ + (1 − π ∗ )gS0 α0∗ , utilizzando π ∗ = (r − g)/(u − g). La (14)
dice che il rendimento atteso dell’investimento nel portafoglio di replica è uguale al rendimento risk-free; equivalentemente, non c’è premio
al rischio;
5. condizione necessaria affinché π ∗ identifichi una misura di probabilità
è che g ≤ r ≤ u.
Osservazioni. Dal modello binomiale ad un periodo emergono fondamentalmente due messaggi.
1. Una posizione nell’opzione è strettamente equivalente ad una “posizione ∆” nel sottostante; quindi un portafoglio contenente l’opzione
e un’appropriata quantità (∆) del sottostante è localmente privo di
14
rischio (con l’avverbio “localmente” si intende “per piccole variazioni
del prezzo del sottostante”); essendo tale portafoglio privo di rischio,
il suo rendimento deve essere il rendimento risk-free. Un portafoglio di
opzioni e di “posizioni ∆” nei rispettivi sottostanti è detto ∆-neutral.
2. Il prezzo dell’opzione al tempo t < T può essere calcolato scontando
al tasso risk-free il valore atteso del payoff a scadenza calcolato sulla
base della probabilità risk neutral.
2.9
Formula di Black & Scholes
Il prezzo di un’opzione call alla scadenza è dato da CT = max(0, ST − K),
dove K è lo strike price. Al tempo t < T , sulla base dei criteri del pricing
risk-neutral, il prezzo è dato da
Ct = e−r(T −t) Eπ∗ [max(0, ST − K)],
(15)
dove π ∗ è la probabilità risk-neutral e r è il tasso di interesse risk-free.
Analogamente, il prezzo di una put alla scadenza è CT = max(0, K − ST );
al tempo t < T si ottiene:
Ct = e−r(T −t) Eπ∗ [max(0, K − ST )].
Si dimostra che la (15) si può scrivere nella forma
Ct = St Φ(d1 ) − Ke−r(T −t) Φ(d2 ),
dove St è il prezzo dell’azione sottostante, T è la data di scadenza, K è lo
strike price e d1 e d2 sono definiti come segue:
ln(St /K) + (r + σ 2 /2)(T − t)
√
σ T −t
√
ln(St /K) + (r − σ 2 /2)(T − t)
√
d2 =
= d1 − σ T − t.
σ T −t
d1 =
In termini puramente intuitivi, in t < T , St Φ(d1 ) è il valore atteso, calcolato
rispetto alla probabilità risk-neutral, di una v.c. discreta che vale ST se
ST > K e 0 altrimenti. Il termine Φ(d2 ) è invece la probabilità, sempre
risk-neutral, che l’opzione venga esercitata alla scadenza.
15
Si noti che il prezzo Ct di un’opzione è funzione di St , r, σ: Ct = f (St , r, σ).
Inoltre dipende, ma in modo deterministico, dal tempo a scadenza T − t e
dallo strike price K.
Osservazioni. La formula di B&S vale sotto le seguenti ipotesi: (i) la
distribuzione del prezzo è un moto browniano; (ii) il tasso di interesse riskfree e la varianza σ 2 sono costanti; (iii) il mercato è perfetto (cioè le vendite
allo scoperto sono ammesse, il mercato è sempre aperto, i costi di transazione
sono nulli). Vale la pena di sottolineare esplicitamente che la formula è
valida esclusivamente per opzioni di tipo europeo; per le opzioni americane
ed esotiche il prezzo può essere determinato solo tramite metodi numerici,
non in forma chiusa (eccezione: per un’opzione call americana su un’azione
che non paga dividendi l’esercizio anticipato rispetto alla scadenza non è
mai conveniente; quindi il suo prezzo è identico a quello della corrispondente
opzione europea e può essere ottenuto tramite la formula di B&S).
3
Rischio e Misure di Rischio di Mercato
Definizione 1 Rischio finanziario. Si distinguono principalmente tre tipi
di rischio.
1. Rischio di mercato: è il rischio di cambiamento di valore di una posizione finanziaria dovuto a cambiamenti di valore dei sottostanti da cui
la posizione dipende (prezzi di azioni od obbligazioni, tassi di cambio
e di interesse, prezzi di commodity, ecc.)
2. Rischio di credito: è il rischio di non ricevere rimborsi promessi a
fronte di investimenti già effettuati, quali prestiti od obbligazioni, a
causa del fallimento (def ault) della controparte.
3. Rischio operativo: rischio di perdite derivanti da processi o sistemi
interni inadeguati o non andati a buon fine, da errati comportamenti
di persone o da eventi esterni.
Il Valore a Rischio (VaR) è la più usata misura di rischio.
Definizione 2 Il VaR è la massima perdita a cui è soggetto un portafoglio,
con probabilità data, su un orizzonte temporale predefinito.
16
A che cosa serve il VaR?
• Comparazione del rischio di strumenti diversi; misura riassuntiva del
rischio di un portafoglio eterogeneo.
• Determinazione del capitale richiesto: il capitale è un “cuscinetto”,
destinato ad assorbire le perdite; va proporzionato alla rischiosità degli
attivi.
• Limiti all’operatività.
c
RiskMetrics°
è un sistema, sviluppato da JP Morgan, costituito da un
insieme di metodologie e dati per misurare il rischio di mercato. In questo
contesto, per rischio di mercato si intende il cambiamento potenziale di una
posizione derivante da variazioni dei prezzi di mercato.
Si supponga di conoscere la densità frw (rw ) della v.c. rw , ovvero del
Profit & Loss (P&L) del portafoglio, al tempo T . Allora il VaR al tempo T
al livello di confidenza α è il quantile α di tale distribuzione, cioè il numero
V aRα tale che
Z
V aRα
−∞
frw (x)dx = α.
Una misura di rischio alternativa, che gode di proprietà migliori, è l’Expected
Shortfall (ES). Essa è definita come il valore atteso (condizionato) della
distribuzione delle perdite superiori al VaR:
R∞
ESα = E(rw |rw > V aRα ) =
V aRα
xfrw (x)dx
P (rw ≥ V aRα )
.
Altre misure di rischio sono specifiche alla misurazione di determinate
tipologie di rischio: è per esempio il caso della probabilità di def ault, che è
ovviamente pertinente al solo rischio di credito.
In generale la distribuzione della v.c. rw non è nota, quindi è necessario
introdurre ipotesi distribuzionali e stimare i parametri.
3.1
Modelli parametrici
Nelle versioni base impiegano tutti, in misura diversa, l’ipotesi di normalità.
17
Il VaR di una singola posizione. Si supponga rt ∼ N (0, σ 2 ). Allora il
VaR giornaliero è dato da
V aRα = V M · σ · zα ,
dove V M è il valore di mercato della posizione e zα è il quantile α della
normale standard.
Nelle medesime ipotesi, tuttavia, il VaR è normalmente calcolato come
V aRα = V M · δ · σf · zα ,
dove V M è il valore di mercato della posizione, δ è un coefficiente di sensitività al fattore di rischio rilevante per l’attività in questione, σf è la volatilità
del fattore di rischio e zα è il quantile α della normale standard. La scelta
di δ dipende dall’attività.
RiskMetrics pone µ = 0 nella distribuzione dei rendimenti giornalieri.
Infatti su un orizzonte temporale giornaliero µ è molto vicino a zero ⇒
difficile stimarne il segno.
Esempio. Sia
rt = µ + σ²t ,
t = 1, . . . , T,
dove ²t ∼ N (0, 1), µ = −1/1000, σ = 1/1000. Siano le corrispondenti stime
uguali a µ̂ = 1/10000 e σ̂ = 1/1000. Quindi
³
µ´
=
P (rt > 0) = P (µ + σ²t > 0) = P ²t > −
σ
³ µ´
=1−Φ −
.
σ
Con i veri valori di µ e σ si ottiene P (rt > 0) = 1 − Φ(−1) = 0.8413; con i
parametri stimati µ̂ e σ̂, si ha invece P (rt > 0) = 1 − Φ(0.1) = 0.4602.
Anche ponendo µ = 0 non si risolve il problema in modo particolarmente
convincente, in quanto si ottiene P (rt > 0) = 1 − Φ(0) = 0.5, che può essere
un valore molto distante da quello vero.
Esempio. Posizione in BTP decennali, V M = 1000000$, duration modificata pari a 7 anni. Sia α = 0.01; sia inoltre la volatilità del tasso di
rendimento giornaliero dei BTP decennali pari a σ = 0.0015. Allora il VaR
giornaliero è dato da
V aRα = 1000000$ · 7 · 0.0015 · 2.326 = 24423$.
18
Esempio. Posizione in un’azione, V M = 1000000$, volatilità giornaliera
dell’indice di riferimento σM = 0.0061, β = 1.939; sia α = 0.99. Allora il
VaR giornaliero è dato da
V aRα = 1000000$ · 1.939 · 0.0061 · 2.326 = 27512$.
Alternativa: utilizziamo direttamente la volatilità giornaliera dell’azione,
che risulta σ = 0.0193. Dunque:
V aRα = 1000000$ · 0.0193 · 2.326 = 44892$.
Si veda RiskMetrics Technical Document, sez. 6.3.2.2.
Problema: volatilità multiperiodale. Si supponga che rt,t+1 ∼ N (µ, σ 2 ).
Sulla base del teorema 2 si ha rt,t+n ∼ N (µn, σ 2 n). Dunque la volatilità
√
n-periodale è uguale a σ n, cioè si ottiene dalla volatilità uniperiodale (tipicamente giornaliera) moltiplicando per la radice quadrata del tempo (square
root of time rule).
Esempio 1 (continua). Il VaR su un orizzonte temporale di 10 giorni è dato
da
V aRα = 1000000 · 7 · 0.0015 ·
3.2
√
10 · 2.326 = 77232$.
Metodi parametrici per il VaR di portafoglio
In tutti i metodi seguenti la formula di calcolo del V aRα è data da
√
V aRα = zα σw T .
(16)
L’unica differenza riguarda la stima della volatilità dei rendimenti di portafoglio.
2 ); tuttavia
(a) Portfolio-normal method. Si suppone che rw ∼ N (0, σw
NON si assume che i rendimenti delle singole posizioni siano normali. In
p
questo caso, nella (16) si ha σw =
var(rw ) e zα è il quantile α della
normale standard.
Quando è ragionevole supporre che i rendimenti di portafoglio siano normali? Quando il portafoglio è molto frazionato (posizioni “piccole” e approssimativamente indipendenti): per il teorema del limite centrale, il portafoglio
19
è approssimativamente normale. Inoltre, la composizione del portafoglio deve essere approssimativamente costante nel tempo; in caso contrario non ha
senso stimare i parametri tramite dati storici.
Esempio. Portafoglio di N “piccoli” crediti al consumo; ogni posizione è
caratterizzata da un indicatore dell’evento default:

1 con prob. πi ,
Di =
0 con prob. 1 − π ,
i = 1, . . . , N,
i
dove πi ∈ [0, 1]. Interpretazione: Di = 1 se la i-esima controparte è insolvente nell’orizzonte temporale considerato, altrimenti Di = 0. Di ha
distribuzione bernoulliana:
P (Di = x) = πix · (1 − πi )1−x ,
Sia D =
PN
i=1 wi Di /N
x = 0, 1,
i = 1, . . . , N.
il tasso di default del portafoglio. Sotto le ipotesi
wi = 1/N e Di ∼ iid Bin(1; π) potremmo applicare direttamente il teorema
di De Moivre-Laplace. E’ ragionevole utilizzarlo anche se le ipotesi non sono
“interamente” rispettate 1 .
(b) Asset-normal method. In questo caso si assume r ∼ NN (0, Σ). La
differenza rispetto al caso precedente consiste nel fatto che ora nella (16) si
√
ha σw = w0 Σw.
Due problemi. (i) E’ ragionevole ipotizzare la normalità dei rendimenti delle singole posizioni? Dipende dagli strumenti: per esempio la distribuzione dei rendimenti delle opzioni non è simmetrica e quindi nemmeno
normale. (ii) Se il portafoglio è grande, la stima di Σ è dispendiosa in termini computazionali; in particolare, indicando con T il numero di osservazioni,
è richiesto che T > N ; in caso contrario, può accadere che la stima ottenuta
Σ̂ non sia definita positiva, ovvero che esista α ∈ RN tale che α0 Σ̂α < 0;
ma α0 Σ̂α < 0 = var(α0 r) è la stima della varianza del portafoglio α0 r, che
dunque avrebbe varianza stimata negativa, il che è assurdo.
1
Esistono versioni del teorema del limite centrale che non richiedono l’ipotesi di equidi-
stribuzione; l’ipotesi di indipendenza è invece essenziale, ed è importante anche che i wi
siano “approssimativamente” uguali.
20
(c) Delta-normal method. Quando il numero di posizioni è molto maggiore del numero di tassi di mercato che determinano il valore del portafoglio
si può tentare di “ridurre la dimensione del problema” concentrandosi sui
fattori di rischio anziché sulle posizioni di rischio. Sia dunque S il vettore
M -dimensionale (M < N ) contenente i fattori di rischio; sia inoltre δ il vettore (M ×1) delle sensitività degli strumenti in portafoglio rispetto ai fattori
di rischio. Infine si assume la normalità multivariata di S: S ∼ NN (0, ΣS ).
Per fattori di rischio si intendono i tassi di mercato, vale a dire tassi di
interesse, di cambio, di rendimento di indici azionari ecc., ma non tassi calcolati sulla base dei prezzi delle posizioni come nell’approccio Asset-normal.
Poiché si assume la normalità non solo dei tassi di mercato ma anche del
rendimento di portafoglio r(S), implicitamente si assume che le funzioni che
legano i prezzi degli strumenti in portafoglio ai tassi di mercato siano lineari, o almeno siano approssimativamente lineari, vale a dire possano essere
approssimate con sufficiente precisione da un’espansione di Taylor al primo
ordine:
r(S) ≈ θ + δ 0 S,
con δ = ∂r(S)/∂S. Dunque
var(r(S)) ≈ δ 0 ΣS δ.
Esempio. Il VaR di un portafoglio contenente n1 BTP decennali ed n2
azioni italiane può essere calcolato tramite la matrice di covarianza (2 × 2)
contenente varianze e covarianze dei fattori di rischio “tasso di rendimento
dei BTP decennali” e “tasso di rendimento dell’indice S&P MIB”. Quanto al
vettore δ (2 × 2), è dato dalle sensitività medie di ciascun tipo di strumento
rispetto al fattore di rischio: dunque δ1 sarà dato dalla duration media dei
BTP e δ2 dal beta medio delle azioni.
Pregi: riduce la dimensionalità del problema.
Difetti: qualora le funzioni di prezzo non siano lineari, il metodo è appropriato solo su orizzonti temporali molto brevi (tanto più brevi quanto più
non lineari sono le funzioni).
21
3.3
Metodi per la stima della varianza
Fino a questo punto si è ipotizzato che: (i) i rendimenti abbiano distribuzione
normale; (ii) la varianza sia stabile nel tempo. Entrambe le ipotesi sono
piuttosto forti e per rendere più realistici i modelli si è cercato di eliminarle.
Si supponga in primo luogo che la varianza sia time-varying; ciò equivale
a modificare il modello dei rendimenti come segue:
rt = σt ²t ,
t = 1, . . . , T.
In particolare, si ipotizza che la varianza al tempo t dipenda dalla varianza
al tempo t − 1 e dal quadrato del rendimento al tempo t:
2
σt+1
= λσt2 + (1 − λ)rt2 .
Per stimare la volatilità, nell’approccio RiskMetrics si utilizza quindi uno stimatore che dipende dal tempo e viene definito Exponentially Weighted Moving Average (EWMA): la previsione della varianza al tempo t + 1 effettuata
al tempo t è data da
1
2
σ̂t+1|t
= P+∞
i=1
+∞
X
λi−1
λi−1 (rt+1−i − r̄t )2 ,
λ < 1.
(17)
i=1
E’ chiaro che in pratica la serie va troncata: è prassi utilizzare 75 osservazioni, ovvero
2
σ̂t+1|t
= PT
T
X
1
i−1
i=1 λ
dove T = 75 e r̄t = (1/T )
λi−1 (rt+1−i − r̄t )2 ,
λ < 1,
(18)
i=1
PT
i=1 rt+1−i .
Tramite il parametro λ si pesano
di più le osservazioni più recenti. Quando λ = 1 tale formula si riduce alla
varianza campionaria:
2
σ̂t+1|t
=
T
1X
(rt+1−i − r̄t )2 .
T
i=1
RiskMetrics fissa λ = 0.94 e r̄t = 0. Oltre al fatto di essere frutto di una
scelta poco corretta dal punto di vista metodologico (i parametri andrebbero
stimati sulla base dei dati), il valore 0.94 per il parametro λ è in generale
troppo alto (esistono numerose verifiche empiriche in merito).
22
Un vantaggio di questo stimatore è che può essere calcolato (approssimativamente) tramite una formula ricorsiva a mano a mano che si rendono
disponibili ulteriori osservazioni:
2
2
σ̂t+1|t
= λσ̂t|t−1
+ (1 − λ)rt2 .
(19)
Teorema 3 La formula ricorsiva (19) per il calcolo dello stimatore EWMA
tende, per T → ∞, alla formula esatta (17).
Dimostrazione. E’ noto che
+∞
X
|λ|t =
t=0
Allora limT →∞ (1/
2
σ̂t+1|t
PT
i−1 )
i=1 λ
= P∞
1
i−1
i=1 λ
= (1 −
λ)(rt2
1
,
1 − |λ|
|λ| < 1.
= 1 − λ. Si ha dunque
+∞
X
2
λi−1 rt+1−i
i=1
2
2
+ λrt−1
+ λ2 rt−2
+ ···)
2
2
2
= (1 − λ)rt2 + λ(1 − λ)(rt−1
+ λrt−2
+ λ2 rt−3
+ ···)
2
= (1 − λ)rt2 + λσ̂t|t−1
.
Quindi,
lim PT
T →∞
1
i−1
i=0 λ
T
X
2
2
λi−1 rt+1−i
= (1 − λ)rt2 + λσ̂t|t−1
.
i=1
Come la volatilità, anche la covarianza può essere calcolata tramite una
formula EWMA:
σ12 = PT
1
i−1
i=1 λ
T
X
λi−1 (r1,t+1−i − r̄1 )(r2,t+1−i − r̄2 ).
i=1
Tale formula può a sua volta essere espressa in forma ricorsiva (in questo
2
caso λ è posto pari a 0.97): σ12,t+1|t = λσ12,t|t−1
+ (1 − λ)r1t r2t .
Osservazione. La stima della matrice di covarianza ottenuta tramite lo stimatore EWMA applicato ad ogni elemento della matrice ha una caratteristica negativa: non è infatti garantito che sia definita positiva. Indicando con
SE (di dimensione p × p) lo stimatore EWMA della matrice di covarianza
23
0
Σ, può succedere che, per qualche vettore α∗ ∈ Rp , si abbia α∗ SE α∗ < 0.
Ne segue che, indicando con r = (r1 , . . . , rp )0 il vettore dei rendimenti di p
attività finanziarie (dove E(r) = µ e cov(r) = Σ) e con α = (α1 , . . . , αp )0
P
il vettore dei pesi (dove αi ∈ [0, 1] ∀i, pi=1 αi = 1), esiste un portafoglio
0
α∗ R la cui varianza stimata è negativa. Da questo punto di vista è dunque preferibile lo stimatore campionario S (ottenuto con λ = 1), che, sotto
l’ipotesi T > p, fornisce sempre una matrice definita positiva.
Modelli GARCH. A partire dalla loro introduzione ad opera di Robert
Engle nel 1982, i modelli della famiglia ARCH (AutoRegressive Conditional
Heteroskedasticity), poi estesi nella forma GARCH (Generalised AutoRegressive Conditional Heteroskedasticity) hanno avuto una notevole diffusione in
ambito finanziario. Il processo generatore dei dati è:
rt = µ + σt ²t .
I modelli ARCH(q) e GARCH(p, q) sono dati rispettivamente da:
σt2 = α +
σt2 = α +
q
X
i=1
q
X
2
βi rt−i
;
2
βi rt−i
+
i=1
p
X
2
γi σt−i
.
i=1
L’idea che ha portato a tale formulazione è la seguente: osservando il grafico
dei rendimenti di un’attività finanziaria, generalmente si nota che la volatilità tende ad aggregarsi nel tempo. In altre parole, periodi di relativa calma,
in cui cioè i rendimenti si muovono “poco”, e quindi la volatilità è bassa,
si alternano a periodi “turbolenti”, in cui i rendimenti si muovono “molto”.
Ne segue che ha senso ipotizzare che la volatilità al tempo t dipenda dai
rendimenti al tempo t − 1, t − 2, . . . , t − q (modelli ARCH(q)) o, più in generale, non solo dai rendimenti al tempo t − 1, t − 2, . . . , t − q, ma anche dalla
volatilità al tempo t − 1, t − 2, . . . , t − p (modelli GARCH(p, q)).
Nella forma più usata, si ipotizza che il processo generatore dei dati sia
del tipo GARCH(1, 1):
rt = σt ²t ,
2
2
σt2 = α + βrt−1
+ γσt−1
,
24
dove ²t ∼ N (0, 1). I due problemi principali associati ai modelli GARCH
sono i seguenti:
(i) stimare i parametri non è banale perché la funzione di verosimiglianza
va massimizzata numericamente;
(ii) in ambito multivariato i modelli sono molto complicati perché il
numero di parametri cresce esponenzialmente.
Se si assume che la varianza dei rendimenti segua un processo del tipo
GARCH, la distribuzione condizionata della v.c. rt |rt−1 è normale con media
nulla e varianza σt2 , ma la distribuzione non condizionata non è normale: in
particolare, si dimostra che la curtosi della distribuzione non condizionata,
data da
k=
E(rt4 )
> 3,
[var(rt )]2
dove come è noto 3 è la curtosi di una v.c. normale; dunque la distribuzione
non condizionata di rt ha code “più pesanti” della normale.
Si noti che ponendo α = 0 e γ = 1 − β si ottiene la formula ricorsiva per
la volatilità EWMA. In particolare, la soluzione adottata da RiskMetrics si
ottiene con β = 0.94.
Esempio. Previsione della volatilità: si vuole prevedere la volatilità giornaliera dei rendimenti dell’azione Enel e dell’indice Mibtel per il giorno 23
luglio 2005 utilizzando i dati degli ultimi 75 giorni. I risultati sono esposti
nella tabella seguente.
Enel
Mibtel
Volatilità campionaria
0.975%
0.691%
EWMA
0.916%
0.653%
GARCH(1,1)
0.975%
0.578%
Le misure di volatilità calcolate nella tabella sono molto simili fra loro; tipicamente, esse si differenziano in modo consistente quando l’osservazione più
recente è “grande”: in questo caso la volatilità EWMA (e, in misura minore,
la volatilità GARCH) reagiscono rapidamente, aumentando sensibilmente,
mentre la volatilità campionaria reagisce in misura molto minore. Dunque
25
l’impiego della volatilità EWMA tende ad essere preferibile quando si voglia
una misura di volatilità che si adegui rapidamente al mutare delle condizioni
di mercato, mentre la volatilità campionaria è più adatta alle analisi rivolte
al comportamento “medio” nel lungo periodo.
3.4
Volatilità implicita
La volatilità viene normalmente stimata su base storica; tuttavia in alcuni
casi è possibile fare ricorso alla cosiddetta volatilità implicita: ciò accade per
esempio con la formula di Black & Scholes. Nella formula di B&S, infatti,
tutto è noto eccetto Ct e/o σ. Normalmente si calcola su base storica uno
stimatore σ̂ e si ricava il prezzo. Di fatto, tuttavia, è di solito disponibile un
prezzo di mercato CtM ; se il mercato dell’opzione in questione è sufficientemente liquido, tale prezzo può essere considerato attendibile, e si può quindi,
in linea di principio, invertire la formula di B&S in modo da ottenere una
funzione del tipo σ = g(K, St , r, T −t, Ct ) da cui ricavare σ. In pratica non si
riesce ad invertire esplicitamente la formula di B&S (e dunque ad ottenere la
funzione g in forma chiusa), tuttavia il problema è facilmente risolvibile per
via numerica tramite algoritmi iterativi che, senza determinare la funzione
inversa, trovano il valore di σ corrispondente a CtM .
La volatilità implicita è generalmente considerata dai practitioner più
affidabile della volatilità storica; la ragione principale starebbe nel fatto
che la volatilità implicita è considerata, a differenza della volatilità storica, forward-looking. Tuttavia vanno evidenziati alcuni problemi riguardanti
l’utilizzo della volatilità implicita:
(i) è strettamente connessa all’utilizzo di un certo modello parametrico
di pricing delle opzioni (la formula di B&S); se la formula non è corretta, per esempio perché qualcuna delle ipotesi su cui si basa non è
rispettata, la volatilità implicita non è uno stimatore corretto della
volatilità;
(ii) spesso si ritene che la volatilità implicita rifletta più rapidamente degli stimatori ottenuti tramite dati storici i cambiamenti di volatilità
causati da mutate condizioni di mercato; ma se la volatilità non è co-
26
stante, allora certamente la formula di B&S non è valida e quindi non
ha senso ricavarne una volatilità implicita!
(iii) si noti infine che se la formula di B&S valesse, le volatilità implicite
ricavate da opzioni diverse sul medesimo sottostante dovrebbero essere
identiche, il che in pratica non si verifica e dunque qualche ipotesi della
formula di B&S non è rispettata.
In conclusione, sembra opportuno ridimensionare l’importanza della volatilità implicita; se la volatilità è time-varying, è preferibile costruire modelli a volatilità non costante, stimata sulla base di dati storici (GARCH,
volatilità stocastica,...).
Oltre alla varianza non costante nel tempo, il secondo problema concernente la distribuzione di probabilità dei rendimenti riguarda la loro possibile
non normalità. Il problema, noto fin da quando si è cominciato a studiare le proprietà statistiche delle distribuzioni di probabilità dei rendimenti,
consiste nel fatto che la v.c. rt è tipicamente leptocurtica. Esistono numerose metodologie (GARCH, misture di normali, Extreme Value Theory,...)
in grado di adattare ai dati distribuzioni leptocurtiche, che certamente portano a calcolare misure di VaR più precise; a fronte di tale vantaggio, vanno
considerate due difficoltà:
1. la stima dei parametri di tali distribuzioni richiede l’uso di algoritmi
numerici, la cui implementazione può non essere immediata; inoltre,
in generale tali algoritmi richiedono tempi di calcolo lunghi e possono
presentare problemi di convergenza;
2. per il calcolo del VaR è pressoché invariabilmente necessario ricorrere
al metodo Monte Carlo, che causa un ulteriore aggravio computazionale.
3.5
Backtesting
Se la distribuzione ipotizzata approssima bene la vera distribuzione dei rendimenti, ci si aspetta che il VaR calcolato preveda con precisione la frequenza
27
delle perdite che eccedono il VaR. Quindi la più semplice procedura per verificare l’appropriatezza della misura di VaR consiste nel contare il numero di
eccedenze, cioè il numero di volte in cui il rendimento giornaliero osservato è
minore del VaR calcolato. Sia 1{rt <V aRt } (rt ) una variabile aleatoria definita
come segue:

1 se rt < V aRt ;
def
Xt = 1{rt <V aRt } (rt ) =
0 altrimenti.
Se il VaR al livello α è effettivamente il quantile α della distribuzione dei
rendimenti, la variabile aleatoria X assume valore 1 con probabilità α e 0
con probabilità 1 − α. Dunque, X ha distribuzione bernoulliana di parametro α. Poiché la somma di T variabili aleatorie bernoulliane indipendenti
di parametro α ha distribuzione binomiale di parametri (N, α), si ha che
def PT
YT =
t=1 Xt ∼ Bin(T, α). Quindi ci si aspetta di osservare un numero di
eccedenze pari a E(YT ) = T · α. Per esempio, se α = 0.05, in 4 settimane (20
giorni lavorativi) ci si aspetta di osservare T · α = 20 · 0.05 = 1 eccedenza.
Si consideri la variabile aleatoria
ZT = p
YT − T · α
T · α · (1 − α)
Per il teorema del limite centrale, ZT
T →∞
→
.
N (0, 1). Allora per T suffi-
cientemente grande si può costruire il seguente test: si calcola la quantità
p
zT = (yT − T · α)/ T · α · (1 − α). Fissato un livello di significatività β,
si accetta l’ipotesi nulla H0 : “al livello di confidenza α, il modello prevede
correttamente la frequenza delle perdite” se zT < z1−β , dove z1−β è il quantile 1 − β della distribuzione normale standard. Altrimenti si rifiuta l’ipotesi
nulla.
Per l’azione Enel (luglio 2004 - luglio 2005), effettuando tutti i calcoli
richiesti si osservano 10 eccedenze del VaR al 95%, con T = 260 e β = 0.05.
Dunque
(10 − 260 · 0.05)
= −0.8537.
z0.05 = √
0.05 · 0.95 · 260
Posto β = 0.05, si trova z1−β = 1.6449 e, poiché −0.8537 < 1.6449, si
accetta l’ipotesi nulla. Per quanto riguarda il VaR al 99% si ottengono
28
invece 7 eccedenze e z0.01 = 2.7425. Essendo 2.7425 > 1.6449, si rifiuta
l’ipotesi nulla.
Per l’indice Mibtel, per il VaR al 95% (calcolato sul medesimo periodo) si
ottengono 12 eccedenze; la statistica test assume valore −0.2846 e dunque si
accetta l’ipotesi nulla. Per il VaR al 99% si trovano 8 eccedenze, la statistica
test è uguale a 3.3658 e l’ipotesi nulla è rifiutata.
In termini applicativi, il fatto che l’ipotesi nulla venga rifiutata significa che si osserva un numero di eccedenze maggiore di quanto previsto dal
modello; in altre parole il VaR sottostima la frequenza delle perdite più
consistenti.
In conclusione, sulla base di questa analisi (i cui risultati sono confermati
da numerosi studi analoghi) il VaR normale sembra essere accettabile al
95% ma non al 99%. Questo fenomeno conferma che la distribuzione dei
rendimenti giornalieri di serie finanziarie è leptocurtica.
29
4
Rischio di credito
Definizione 3 Il rischio di credito è il rischio derivante dal cambiamento
di valore associato a cambiamenti inattesi della qualità del credito.
Obiettivo del credit risk management: creare un “cuscinetto” di capitale di riserva, da utilizzare per far fronte alle perdite derivanti da tali
cambiamenti.
Gli ingredienti di base per identificare la rischiosità di una singola controparte sono:
(i) la Probabilità di Default (PD);
(ii) la Loss Given Default (LGD);
(iii) la Exposure At Default (EAD).
La normativa di vigilanza. Il primo accordo di Basilea (1988) prevedeva
che il capitale di riserva fosse almeno pari all’8% delle attività ponderate
in base al rischio. Come è stabilita la ponderazione? 100% per tutti gli
impieghi a clientela, 20% per i prestiti a banche, 0% per i prestiti allo Stato.
Problema: un peso solo per tutta la clientela privati può trasformarsi in
un incentivo a prestare ai clienti più rischiosi, che richiedono la stessa riserva
di capitale dei clienti meno rischiosi, ma producono margini più elevati.
Da qui la necessità di un nuovo accordo (noto come “Basilea 2”). Esso è
basato su una radicale riforma del criterio dell’8%. In Basilea 2 ci sono due
(tre) approcci alternativi:
(1) approccio standard: le banche che non hanno sistemi di rating interni
useranno rating esterni, certificati dalle autorità di vigilanza; il capitale
richiesto è pari all’8%, pesato come segue: da 20 a 150% per imprese
o banche; da 0 a 150% per Stati sovrani; 100% per clientela priva di
rating.
(2) approccio dei rating interni, suddiviso in:
(2a) approccio di base: la banca elabora un proprio sistema di rating (trasparente, documentato, verificabile, periodicamente revisionato) per
30
misurare la PD; LGD ed EAD sono misurate con parametri fissati
dalle autorità.
(2b) approccio avanzato: anche LGD ed EAD sono stimate internamente
dalla banca. Lo possono adottare solo le banche che siano in grado di
dimostrare la correttezza, la coerenza, la trasparenza e l’efficacia delle
metodologie adottate, basate su dati storici sufficientemente numerosi.
4.1
Rating
Come si determina la PD? Ci sono due possibilità:
(i) calcolo sulla base di dati di mercato. L’esempio più noto è la cosiddetta
Expected Default Frequency (EDF) di Moody’s|KMV;
(ii) modelli di natura statistica: calcolo sulla base di rating.
I rating sono una misura del merito di credito di un’azienda. Per le aziende “più grandi” sono pubblicamente disponibili rating prodotti dalle agenzie
(Moody’s, S&P, Fitch). Soprattutto in Europa, tuttavia, la stragrande maggioranza delle controparti non ha un rating di agenzia, e dunque i rating
sono calcolati internamente dalle banche; a tale scopo si utilizzano tecniche
statistiche (analisi discriminante, regressione logistica,...) che stimano un
rating interno sulla base di variabili esplicative quantitative (principalmente tratte dai bilanci delle aziende) e qualitative (qualità del management,
struttura dell’azienda, situazione politica e sociale del Paese in cui l’azienda
ha sede).
Il tipo di problema ed i dati disponibili portano a preferire metodologie
appartenenti alla famiglia dei metodi di analisi discriminante o di regressione
logistica (logit, probit). Infatti:
a) la quantità che si vuole stimare (la PD) è una probabilità, dunque una
quantità compresa fra 0 e 1;
b) la variabile dipendente è l’indicatore dell’evento def ault, che assume
valore 1 per le imprese insolventi e 0 per le imprese in bonis;
31
c) le variabili indipendenti sono tipicamente ratio basati su dati di bilancio, cioè variabili quantitative continue. Ne consegue che la regressione
ordinaria non è appropriata in quanto non dà garanzia di ottenere una
stima della variabile dipendente compresa fra 0 e 1.
Storicamente, la prima applicazione è basata sull’analisi discriminante:
Z-score (Altman 1968):
Z = 1.2X1 + 1.4X2 + 3.3X3 + 0.6X4 + X5 ,
dove:
X1 : capitale circolante / totale attivo,
X2 : utili non distribuiti / totale attivo,
X3 : utili ante interessi e imposte / totale attivo,
X4 : valore di mercato del patrimonio / valore contabile dei debiti a
lungo termine,
X5 : fatturato / totale attivo.
Soglia: 1.81; le imprese il cui score Z è maggiore della soglia vengono
classificate in bonis, le altre insolventi. Questi modelli hanno poi preso il
nome di modelli di scoring.
I modelli correntemente utilizzati sono prevalentemente basati sulla regressione logistica. Oltre alle variabili di bilancio, tra le variabili indipendenti vengono considerate variabili dummy che riflettono fattori geo-settoriali
ed indici basati sui dati andamentali; la variabile dipendente è l’indicatore
di def ault. Si stimano poi i parametri della relazione:
0
P (1D = 1) = f (X) =
eX
.
1 + e X0
Esistono poi mappature (calcolate dalle agenzie di rating) che associano
ai rating una PD; a grandi linee, tali mappature sono costruite come segue:
(i) per ciascuna classe di rating, si calcola il tasso medio di default su un
periodo di tempo “lungo”;
32
(ii) si stima una regressione lineare semplice fra il logaritmo del tasso
medio di default appena calcolato (variabile dipendente) e il rating
(variabile indipendente):
log(D̄) = α + βR + ²,
dove D̄ è il tasso di default medio e R è il rating;
(iii) infine, le PD corrispondenti a ciascuna classe di rating sono stimate
sulla base della retta di regressione.
4.2
La distribuzione delle perdite
La distribuzione di perdita del portafoglio assume un ruolo fondamentale
nel credit risk management.
La perdita L̃ è una variabile aleatoria definita come segue:
L̃ = EAD × LGD × L,
dove

1 con prob. π (se la controparte f allisce),
L = 1D =
0 con prob. 1 − π (se la controparte non f allisce),
D è l’evento “la controparte fallisce in un certo intervallo temporale”, π =
P (D) = P D è la probabilità di default relativa al medesimo intervallo temporale. La perdita attesa (Expected Loss) non è altro che il valore atteso di
L̃; se si ipotizza che EAD e LGD siano delle costanti, si ha:
E(L̃) = EAD × LGD × P (D).
Oltre alla perdita attesa ed inattesa, l’altra quantità centrale è il Capitale
a Rischio (CaR), dato dalla differenza fra il quantile α e la perdita attesa:
CaRα = qα − EL,
dove qα : P (L̃ptf ≤ qα ) ≥ α.
Quando si passa a trattare un portafoglio di N prestiti, è necessario
introdurre la perdita di portafoglio:
L̃ptf =
N
X
i=1
L̃i =
N
X
EADi × LGDi × Li .
i=1
33
Si verifica facilmente che, se EADi e LGDi sono costanti, la perdita attesa
è data da
E(L̃ptf ) =
N
X
E(L̃i ) =
i=1
N
X
EADi × LGDi × P Di .
i=1
Per analizzare il rischio, al solito, non è sufficiente limitarsi alla perdita
attesa; si calcola allora anche la perdita inattesa, definita come la deviazione
standard della v.c. L̃:
U Lptf
v
u N
q
uX
= var(L̃) = t
EADi EADj LGDi LGDj cov(Li , Lj ).
i,j=1
La covarianza fra i default può essere riscritta come segue:
q
cov(Li , Lj ) = ρij × P Di (1 − P Di )P Dj (1 − P Dj ),
dove ρij = corr(1Di , 1Dj ) è la correlazione fra i def ault (default correlation).
Quindi (il quadrato della) perdita inattesa è uguale a
U L2ptf
= var(L̃) =
N
X
q
EADi EADj LGDi LGDj DPi (1 − DPi )DPj (1 − DPj )ρij .
i,j=1
Nel caso di due soli prestiti, con P D1 = π1 , P D2 = π2 , ρ12 = ρ, LGD1 =
LGD2 = EAD1 = EAD2 = 1, si ha
p
U L2ptf = π1 (1 − π1 ) + π2 (1 − π2 ) + 2ρ π1 (1 − π1 )π2 (1 − π2 ).
Consideriamo 3 casi:
(i) ρ = 0; diversificazione perfetta.
(ii) ρ > 0; il default dell’una incrementa la PD dell’altra. Infatti:
P (L2 = 1, L1 = 1)
E(L1 L2 )
=
=
P (L1 = 1)
π1
π1 π2 + cov(L1 , L2 )
cov(L1 , L2 )
=
= π2 +
.
π1
π1
P (L2 = 1|L1 = 1) =
Dunque, il def ault dell’una ha un impatto sull’altra attività in portafoglio. In particolare, nel caso estremo ρ = 1 e con π1 = π2 = π, si ha
p
U Lptf = 2 π(1 − π), vale a dire che il portafoglio contiene il rischio di
una sola controparte ma con intensità doppia; in questo caso il def ault
di una controparte implica il def ault dell’altra con probabilità 1.
34
(iii) ρ < 0; è speculare al caso (ii): il default dell’una diminuisce la PD
dell’altra.
Prima di analizzare il modello di Merton, che costituisce un fondamentale
prerequisito alla studio della correlazione fra i def ault, consideriamo per
completezza il caso (poco realistico) di indipendenza fra le v.c. di pedita
relative alle singole controparti.
Il modello di Bernoulli. Un vettore N -dimensionale L è una statistica di
perdita bernoulliana se le sue distribuzioni marginali sono v.c. bernoulliane,
vale a dire Li ∼ Bin(1; πi ), dove πi = P Di , i = 1, . . . , N . Le variabili L =
PN
0
i=1 Li e L = L/N sono rispettivamente la perdita assoluta e percentuale
di portafoglio.
(a) Il caso più semplice: controparti indipendenti con PD uniforme.
Li ∼ Bin(1; π),
(Li )i=1,...,N indipendenti,
i = 1, . . . , N.
Ne segue che L ∼ Bin(N ; π).
(b) Se le controparti sono indipendenti ma con PD diverse, vale a dire
Li ∼ Bin(1; πi ),
abbiamo E(L) =
(Li )i=1,...,N indipendenti,
PN
i=1 πi ,
var(L) =
PN
i=1 πi (1
i = 1, . . . , N,
− πi ). Si noti tuttavia
che la distribuzione di L in questo caso non è più binomiale.
4.3
Il modello di Merton
Il modello di Merton è il principale rappresentante della classe degli asset value models, che spiegano il default con la diminuzione del valore delle attività
dell’azienda. Si ipotizza che il processo stocastico delle attività dell’azienda
sia un moto browniano geometrico; inoltre, si assume che l’azienda si finanzi tramite un prestito ottenuto da una banca oppure tramite l’emissione di
un’obbligazione. Il def ault si verifica sulla base della seguente condizione:
se alla scadenza il valore delle attività è insufficiente a rimborsare i creditori,
l’azienda fallisce.
In particolare, Robert Merton introduce, nel 1974, un modello fondato
su una struttura finanziaria semplificata dell’impresa debitrice: attivo (At )
35
finanziato con capitale di rischio (Et ) ed una passività (un’obbligazione oppure un prestito concesso da una banca) con valore di mercato Dt e valore
di rimborso F : At = Et + Dt , t ∈ [0, T ]. Per il detentore del debito, il rischio consiste nella probabilità che alla scadenza T il valore dell’attivo (AT )
sia inferiore al valore di rimborso del prestito (F ); tale rischio sarà dunque
misurato dalla probabilità P (AT < F ). La probabilità in questione, che
rappresenta la PD dell’impresa, è tanto maggiore quanto più:
- il rapporto F/A0 è alto;
- la volatilità del rendimento delle attività dell’impresa (σA ) è alta;
- la scadenza T è lontana.
Al tempo 0 si ha A0 = E0 + D0 . Si può inoltre affermare che
P (AT < F ) > 0
⇐⇒
D0 = F e−(r+πr )T
⇐⇒
D0 < F e−rT ,
dove r è il tasso di interesse risk-free e πr è il premio al rischio. Le equivalenze
in questione devono essere valide perché il detentore del debito vuole una
compensazione per il rischio che si assume.
Si noti che, sfruttando l’ipotesi di moto browniano geometrico delle attività dell’azienda e applicando il lemma di Itô, si ricava che la distribuzione
dell’attivo al tempo t è data da
At = A0 emt+σA Zt ,
2 /2, Z ∼ N (0, t) e µ è il tasso di rendimento dell’attivo
dove m = µ − σA
t
dell’impresa. Quindi
¶
µ
µ
µ ¶
¶
log(F/A0 ) − mT
F
√
− mT = Φ
pT = P (AT < F ) = P σA ZT < log
.
A0
σA T
(20)
Il payout alla scadenza del detentore del debito è pari a min{AT − F, 0},
che è il payout di una posizione corta in un’opzione put europea su A con
strike F e scadenza T . Come può il detentore del debito coprire tale rischio
di credito? Non è difficile verificare che la protezione è data dall’assunzione
di una posizione lunga (acquisto) in un’opzione put su A con strike F e
scadenza T . In tal caso infatti, alla scadenza T , il payout del detentore del
36
debito è comunque F , a prescindere dal fatto che l’azienda fallisca o meno;
cashf low e payout del detentore del debito sono riassunti nella seguente
tabella.
Valore attivo
t=0
A0
Cashflow
Payout
debt holder
debt holder
−D0 (prestito denaro)
−D0 − P0
−P0 (acquisto put)
t=T
AT < F
AT (recovery)
F
F − AT (payout put)
t=T
AT ≥ F
F (nominale)
F
0 (opzione scade senza valore)
Dunque, considerando anche la copertura ottenuta tramite l’acquisto dell’opzione, il portafoglio del detentore del debito è costituito da un’opzione
put e da un prestito. Il suo valore in t = 0 è dato da D0 + P0 (A0 , σA , F, T, r)
ed abbiamo appena verificato che il suo payout risk-free è F . Dal momento
che abbiamo assunto valide le ipotesi alla base della formula di Black &
Scholes, ed in particolare il principio di non arbitraggio, il tasso al quale
deve essere scontato il payout del portafoglio è il tasso risk-free. Ne segue
che:
D0 + P0 (A0 , σA , F, T, r) = F e−rT ,
ovvero
D0 = F e−rT − P0 (A0 , σA , F, T, r).
In conclusione, il valore scontato del debito è il valore scontato (al tasso riskfree) del nominale meno il prezzo dell’opzione put necessaria per coprirsi dal
rischio di credito.
Abbiamo cosı̀ interpretato una delle componenti del bilancio dell’azienda
dal punto di vista della teoria delle opzioni. L’aspetto rilevante del modello
consiste nel fatto che anche l’altra componente, vale a dire il capitale di
rischio, è suscettibile di un’interpretazione analoga: se alla scadenza AT ≥
F , gli azionisti hanno il diritto di liquidare l’azienda, cioè di ripagare il
37
debito e assumere la proprietà delle attività rimanenti. In particolare, alla
scadenza T le uniche due possibilità sono le seguenti:
(i) AT < F : dal momento che il valore delle attività non è sufficiente
a ripagare i detentori del debito, si verifica il def ault; non ci sono
attività che possano essere acquisite dagli azionisti, il cui payof f è
nullo;
(ii) AT ≥ F : in questo caso se gli azionisti liquidano l’azienda ne ricavano,
dopo aver rimborsato i detentori del debito, un profitto netto pari ad
AT − F .
Riunendo i due casi in una singola formula, si ha che il payof f netto degli
azionisti è dato da max{AT −F, 0}; questo è il ben noto payof f di un’opzione
call europea su A con strike F e scadenza T , il cui prezzo a t = 0, che
indichiamo con E0 = C0 (A0 , σA , F, T, r), può essere calcolato tramite la
formula di Black & Scholes. Riassumendo, dal punto di vista dell’azienda il
capitale di rischio può essere descritto dalla vendita di un’opzione call agli
azionisti; la posizione degli azionisti è una call lunga sull’attivo dell’azienda.
I risultati fin qui ottenuti, tuttavia, non risolvono il problema principale
che caratterizza i modelli a valore dell’attivo: il processo del valore dell’attivo
non è osservabile. D’altra parte, ciò che è osservabile sul mercato è il valore
del capitale di rischio, e dunque non sorprende che la ricerca si sia ben
presto concentrata sul problema di ricavare il valore dell’attivo dal valore
dell’equity.
La soluzione proposta da Merton (1974) è stata successivamente estesa ed
integrata sia dal punto di vista teorico che da quello applicativo; anticipando
fin d’ora un caso particolarmente importante, il modello di Moody’s|KMV
si discosta, nel calcolo delle probabilità di def ault, dal modello di Merton,
che è basato su ipotesi piuttosto restrittive.
Si osservi che il processo del valore dell’equity è osservabile ed è dato
dalla capitalizzazione di mercato; sulla base di dati di mercato si può anche
stimare la volatilità σE dell’equity; un’altra informazione disponibile è il
valore contabile delle passività. Sulla base di questi tre elementi (valore di
mercato dell’equity, volatilità dell’equity e valore contabile delle passività),
38
si vuole inferire il processo del valore dell’attivo At . Ora, si è visto che
l’equity può essere visto come un’opzione call sull’attivo dell’azienda, in
possesso degli azionisti. Lo strike F è determinato dal valore contabile delle
passività e la scadenza è posta uguale all’orizzonte temporale considerato
(tipicamente pari ad un anno). Sulla base di tale interpretazione si ha
Et = Ct (At , σA , F, T, r),
t ∈ [0, T ].
Tale formula può essere invertita, in modo tale da trovare la soluzione per
At , che risulterà essere funzione di σA , F, T e r. Risulta quindi evidente che
resta da risolvere un’ultima difficoltà: dal momento che il processo del valore
dell’attivo non è osservabile, anche la sua volatilità è ignota. La derivazione
della volatilità dell’attivo utilizza vari risultati del calcolo stocastico, e la
sua formalizzazione matematica presenta una notevole complessità; in questa
sede sarà sufficiente precisare che essa può essere ricavata a partire dal valore
dell’equity e dalla sua volatilità.
Pregi:
(i) identifica con precisione le variabili rilevanti per la determinazione
della PD: rapporto fra valore del debito e valore dell’attivo, volatilità
del valore dell’attivo;
(ii) permette di ricavare in modo oggettivo la PD e il rendimento da
richiedere a fronte della concessione di un prestito.
Difetti:
(i) ipotizza un’unica forma di passività;
(ii) indaga solo il rischio di insolvenza;
(iii) At e σA non sono osservabili sul mercato;
(iv) si basa sulle ipotesi della formula di B&S; in particolare, le ipotesi
di costanza del tasso di interesse risk-free e di mercato perfetto (che
implica l’immediata eliminazione delle possibilità di arbitraggio), sono
alquanto irrealistiche;
(v) la barriera di def ault è costante.
39
Infine, è necessario un chiarimento per quanto riguarda la PD (20). A
seconda dello scopo che ci si prefigge, essa può essere calcolata in due modi
diversi.
1. Se lo scopo è il pricing, per esempio di un bond soggetto a rischio di
credito, allora è necessaria la probabilità risk-neutral:
³
´ 

σ2
log(F/A0 ) − r − 2A T
,
√
pT = P (AT < F ) = Φ 
σA T
(21)
dove r è il tasso di interesse risk-free. Ciò è dato dal fatto che il
modello di Merton utilizza la formula di B&S per prezzare il prestito e
l’equity, e dunque, per quanto attiene il pricing, “vive” in un mondo
risk-neutral. Per inciso, il prezzo al tempo 0 di un bond zero-coupon
con scadenza T soggetto a rischio di credito è dato da
v(0, T ) = vrf (0, T )[(1 − LGD) + LGD · (1 − pT )],
dove vrf (0, T ) è il prezzo di uno zero-coupon risk-free con la stessa
scadenza e pT è la P D (21), vale a dire la P D risk-neutral relativa al
periodo (0, T ).
2. Se invece l’obiettivo consiste in calcolare la PD “reale”, come accade normalmente per scopi di risk management, allora è necessario
calcolare la PD effettiva:
³
log(F/A0 ) − µ −
√
pT = P (AT < F ) = Φ 
σA T

2
σA
2
´ 
T
,
dove µ è il tasso di rendimento atteso dell’attivo dell’impresa.
Osservazione. Riassumiamo le conclusioni del modello di Merton. (1) Il
detentore del debito ha una posizione corta in un’opzione put europea su A
con strike F e scadenza T ; il valore del debito è pari a:
Dt = F e−r(T −t) − Pt (At , σA , F, T − t, r).
(22)
(2) Il detentore del capitale di rischio ha una posizione lunga in un’opzione
call europea su A con strike F e scadenza T :
Et = Ct (At , σA , F, T − t, r).
40
(23)
Considerando che un aumento della volatilità causa un aumento del prezzo
sia della put che della call, ne segue che detentori del debito e del capitale di
rischio avranno preferenze per il rischio contrastanti: i detentori del debito
preferiranno bassa volatilità, perché cosı̀ sarà meno probabile che l’opzione
venga esercitata alla scadenza; gli azionisti preferiranno alta volatilità, perché cosı̀ il guadagno associato alla posizione lunga nell’opzione call sarà più
alto.
Da un punto di vista logico i passi da seguire per applicare il modello
sono i seguenti:
(i) stimare la volatilità dell’attivo σA sulla base di valore contabile delle
passività, valore di mercato dell’equity e volatilità dell’equity;
(ii) invertire la (22) per ottenere At o, più precisamente, µ, che determina
completamente, assieme alla volatilità σA , il processo At ; si noti che
questo passo è necessario solo per calcolare la “vera” PD.
(iii) utilizzare la (23) per prezzare il debito dell’azienda.
4.4
La correlazione fra i default
Le versioni (a) e (b) del modello bernoulliano presentate in precedenza sono
entrambe irrealistiche, in quanto non è plausibile ipotizzare che i def ault
siano indipendenti. E’ quindi necessario introdurre modelli più complessi.
Osservazione. Perché non si può continuare ad utilizzare il modello Bernoulliano introdotto in precedenza ipotizzando che le v.c. Li siano correlate? Perché dovremmo stimare una matrice di correlazione enorme con poche
osservazioni (default). Dunque il problema è legato alla disponibilità di dati.
Problema: costruire un modello per la distribuzione del valore totale del
portafoglio. Il P&L di un portafoglio è volatile; come spiegare le perdite?
Le possibilità sono essenzialmente due:
(a) Cattive condizioni economiche generali;
(b) condizioni economiche generali buone, ma un singolo importante default;
41
Nel primo caso esiste un fattore comune che spiega la perdita (rischio
sistematico); il secondo è un esempio di rischio idiosincratico.
Cerchiamo allora di capire meglio la struttura della dipendenza fra i
def ault.
E’ ragionevole supporre che in un certo stato dell’economia i
def ault siano indipendenti (indipendenza condizionata), ma nel lungo periodo (unconditionally) non lo siano.
A tale proposito, consideriamo le possibili cause di default.
1. Sistematiche (condizioni di ambiente / mercato):
• macroeconomiche globali;
• macroeconomiche nazionali e regionali;
• settoriali;
2. Non sistematiche (condizioni specifiche del debitore):
• posizionamento nel mercato / settore;
• solidità della struttura finanziaria;
• comportamento (qualità del management).
Nell’analisi del rischio di un portafoglio crediti, dobbiamo considerare:
(i) la distribuzione non condizionata delle perdite sull’intero ciclo, cioè
la probabilità che una data perdita si realizzi in un periodo del ciclo
“scelto a caso” (stimata “senza conoscere” lo stato dell’economia);
(ii) la distribuzione condizionata al verificarsi di un determinato stato dell’economia, cioè la probabilità di una data perdita nel periodo in cui
si verifica quel determinato stato.
Stimando oggi in base alla distribuzione delle insolvenze cumulate sul
periodo da oggi a coprire un intero ciclo, si ottengono:
• distribuzione non condizionata;
• PD e rating di lungo periodo (through the cycle).
Stimando oggi in base alla distribuzione delle insolvenze in un periodo,
si ottengono:
42
• distribuzione condizionata allo stato dell’economia osservato (o presunto) oggi;
• PD e rating point in time.
In caso di portafogli con elevatissimo frazionamento (es. fidi su carte di
credito, mutui retail) il rischio non sistematico della distribuzione condizionata tende ad essere irrilevante: l’uso di valori medi di PD è ragionevolmente
accurato, grazie alla compensazione tra errori di approssimazione di segno
opposto. Questa ipotesi è più realistica se si lavora con portafogli poco
esposti al rischio sistematico come tende a verificarsi ancora nel retail (ciò
riduce alla radice il problema di corretta specificazione del modello). In
situazioni di frazionamento elevato ma non estremo (es. prestiti a medie
imprese) la presenza di rischio non sistematico è rilevante. In caso di portafogli concentrati (es. prestiti large corporate) questo aspetto è di importanza
cruciale.
4.5
Il modello a mistura bernoulliana
E’ l’estensione al continuo del modello introdotto in precedenza. Consideriamo una statistica di perdita L = (L1 , . . . , LN )0 , Li ∼ Bin(1, Pi ), dove
ora Pi è una variabile casuale: P = (P1 , . . . , PN )0 ∼ F . Data una realizzazione p = (p1 , . . . , pN )0 di P, le variabili L1 , . . . , LN sono indipendenti.
Formalmente:
(Li |Pi = pi ) ∼ Bin(1; pi ),
(Li |P = p)i=1,...,N indipendenti.
Distribuzione condizionata congiunta delle variabili Li :
P (L1 = l1 , . . . , LN = lN |P = p) =
N
Y
plii (1 − pi )1−li .
i=1
Ricordando che, per esempio nel caso discreto,
P (X = x|Y = y)P (Y = y) = P (X = x, Y = y),
P (X = x) =
M
X
P (X = x, Y = yj ) =
j=1
M
X
P (X = x|Y = yj )P (Y = yj ),
j=1
(24)
43
dove M è il numero di valori assunti da Y , la distribuzione non condizionata
delle variabili Li si ottiene sommando:
P (L1 = l1 , . . . , LN = lN ) =
M Y
N
X
pliji (1 − pij )1−li · pij ,
j=1 i=1
dove M = # stati del mondo.
Nel caso continuo si tratta semplicemente di integrare anziché sommare:
Z
P (L1 = l1 , . . . , LN = lN ) =
N
Y
[0,1]N i=1
plii (1 − pi )1−li f (p1 , . . . , pN )dp1 · · · dpN ,
(25)
dove li ∈ {0, 1}.
Esempio (v. file esempio PD.xls). In questo caso il prodotto delle probabilità di default medie delle singole classi è minore o uguale alla probabilità
congiunta di default. Poiché
P (LAAA = 1 ∩ LBBB = 1) = E(LAAA LBBB ) > P (LAAA = 1) · P (LBBB = 1) =
= E(LAAA ) · E(LBBB ),
e ricordando che
cov(LAAA LBBB ) = E(LAAA LBBB ) − E(LAAA ) · E(LBBB ),
se ne deduce che cov(LAAA LBBB ) > 0 e quindi anche corr(LAAA LBBB ) > 0.
Default correlation vs. asset correlation. Il coefficiente di correlazione
lineare fra le v.c. Li e Lj (noto in questo caso come default correlation)
è dato da
cov(Li Lj )
E(Lij ) − E(Li )E(Lj )
pij − pi pj
ρD = p
=p
=p
.
var(Li )var(Lj )
pi (1 − pi )pj (1 − pj )
pi (1 − pi )pj (1 − pj )
Assumendo che per l’evoluzione nel tempo dei rendimenti normalizzati dell’attivo valga il modello di Merton si ha: r ∼ NN (0, R), dove R è la matrice
di correlazione dei rendimenti, pi = E(Li ) = E(1{ri <fi } ) = P (ri < fi ) (dove fi = log(Fi /A0 )), pij = P (ri < fi , rj < fj ), da cui si ricava la default
correlation:
pij − pi pj
.
pi (1 − pi )pj (1 − pj )
ρD
ij = p
44
D’altra parte le v.c. ri , rj hanno distribuzione congiunta normale bivariata
con correlazione Rij . Quindi
Z
pij =
Z
fi
−∞
fj
−∞
fRij (ri , rj )dri drj ,
dove fRij (·) è la densità normale bivariata di valore atteso nullo, varianza
unitaria e covarianza Rij . Dunque la correlazione dei rendimenti influenza
la correlazione dei default in quanto “entra” nella PD congiunta pij . Per
esempio, con N = 2, R12 = R e p1 = p2 = .01, si ottiene
R
ρD
0.1
0.0094
0.2
0.0241
0.3
0.0461
In generale: asset correlation molto maggiore di default correlation!
4.6
Il modello fattoriale
(i) fattori latenti determinano la perdita media nel mercato o in alcuni
suoi settori; in un portafoglio sufficientemente grande, la perdita è
determinata solo dallo stato di questi fattori;
(ii) condizionatamente a tali fattori, perdite su singoli asset sono
indipendenti;
(iii) anche conoscendo i valori assunti dai fattori (cioè lo stato del mondo),
non conosciamo esattamente la perdita sul nostro portafoglio;
(iv) l’errore è dato dal rischio idiosincratico, la cui rilevanza cresce:
(a) quando il portafoglio è piccolo;
(b) quando il portafoglio contiene alcune esposizioni molto grandi.
Ingredienti necessari per costruire un modello di portafoglio:
45
(i) la specificazione degli stati del mondo, cioè quali valori i fattori possono assumere e con quali probabilità (in generale si tratta di una
distribuzione continua);
(ii) la specificazione della funzione che individua la probabilità di default
condizionata.
Il modello fattoriale da un punto di vista statistico. Il modello fattoriale è un
modello statistico che si prefigge di spiegare la correlazione fra N variabili
tramite K < N fattori sottostanti. Per l’i-esima variabile casuale si ha
ri =
K
X
Rij Yj + Zi ,
i = 1, . . . , N.
j=1
Tuttavia la specificità del modello si apprezza analizzando il caso multivariato:
r
=
(N × 1)
R
Y
+
(N × K) (K × 1)
Z,
(N × 1)
2 )) e corr(Y, Z) = I . La
dove Y ∼ NK (0, I), Z ∼ NN (0, diag(σ12 , . . . , σN
N
2 ), si noti
matrice R contiene i pesi dei fattori. Posto Σ = diag(σ12 , . . . , σN
che
cov(r) = RR0 + Σ,
Parametri da stimare: R e Σ. Ne segue che il numero di parametri da
stimare si riduce considerevolmente.
In particolare,
var(ri ) =
K
X
2
Rij
+ σi2 ,
i = 1, . . . , N.
j=1
Dunque la varianza dell’i-esima variabile è data dalla somma di una parte
“condivisa” con le altre variabili tramite i fattori comuni e di una parte
specifica (unica per l’i-esima variabile).
Si noti infine che il Capital Asset Pricing Model è un modello fattoriale
in cui K = 1. Il fattore è il rendimento del portafoglio di mercato:
ri − rf = βi (rM − rf ) + Zi ,
46
i = 1, . . . , N,
2 ), Z ∼ N (0, σ 2 ). Quindi var(r ) =
dove rf è il tasso risk-free, rM ∼ N (0, σM
i
i
i
2 + σ 2 ; nel caso multivariato:
βi2 σM
i
r − rf = B(rM − rf ) + Z,
dove, in aggiunta alle ipotesi già esplicitate, cov(rM , Zi ) = 0 e cov(Zi , Zj ) =
2 .
0. Ne segue che cov(ri , rj ) = βi βj σM
4.7
Il modello di Vasicek
Il modello fattoriale “più semplice”, nonché il modello regolamentare, è il
modello bernoulliano ad un fattore con probabilità di default e correlazione
uniformi, introdotto da Vasicek nel 1987. Il singolo fattore rappresenta le
condizioni economiche generali.
Ipotesi del modello di Vasicek
(i) Il modello si basa su un solo fattore ed ipotizza correlazione uniforme:
ri =
√
√
RY + 1 − RZi .
Inoltre:
(ii) ri ∼ N (0, 1),
(iii) Y ∼ N (0, 1),
(v) cov(Zi , Zj ) = 0,
(iv) Zi ∼ N (0, 1),
(vi) cov(Y, Zi ) = 0.
Ne segue che
(i) corr(ri , rj ) = R;
(ii) cov(ri , Y ) =
√
R;
(iii)
var(ri )
rischio totale
=
R · var(Yi )
rischio sistematico
+ (1 − R) · var(Zi ).
rischio specif ico
R esprime la percentuale di rischio spiegata dal fattore ed è quindi
interpretabile come coefficiente di determinazione di un modello di
regressione ⇒ analogo al CAPM!
47
Nel setup del modello di Merton si ha dunque:
ri < fi ⇐⇒
√
√
1 − RZi < fi − RY,
i = 1, . . . , N.
Poiché pi = Φ(fi ), si ha che fi = Φ−1 (pi ), e quindi la condizione precedente
diventa
√
√
√
√
1 − RZi < fi − RY ⇐⇒ 1 − RZi < Φ−1 (pi ) − RY,
oppure
√
Φ−1 (pi ) − RY
√
Zi <
.
1−R
Dato il valore del fattore Y , la probabilità condizionata di default per la
singola controparte è infine data da:
Ã
def
pi (Y ) = P (ri < fi |Y = y) = P
!
Ã
!
√
√
fi − R · y
fi − R · y
√
=Φ
,
Zi < √
1−R
1−R
(26)
dove fi = Φ−1 (pi ). Si noti che la (26) è la formula utilizzata nel modello
Basilea 2 per determinare il requisito di capitale. Infatti Ki = LGDi ·
p(Y )i,stress − LGDi · pi , dove p(Y )i,stress è data dalla (26) con un valore
“negativo” di y: y = Φ−1 (0.001):
!
Ã
!
Ã
√
√
fi − R · y
fi − R · Φ−1 (0.001)
√
√
=Φ
.
p(Y )i,stress = P Zi <
1−R
1−R
Osservazioni.
(i)
R = 0 ⇒ pi (Y ) = Φ(Φ−1 (pi )) = pi ;
C’è solo rischio specifico!
(ii)

p(Y ) = 1 (quando y < fi )
R=1⇒
p(Y ) = 0 (quando y > f );
i
C’è solo rischio sistematico!
48
La PD condizionata come funzione di Y (p = 0.003, R = 0.2)
La PD condizionata come funzione di p (R = 0.2, Y = −3)
1
0.8
0.6
0.4
0.2
−2
−1
0
1
2
3
0
4
La PD condizionata come funzione di p (R = 0.2, Y = 0)
0
0.2
0.4
0.6
0.8
1
La PD condizionata come funzione di p (R = 0.2, Y = 3)
1
0.8
0.6
0.4
0.2
0.2
0.4
0.6
0.8
0
1
0
0.2
0.4
0.6
0.8
1
(iii) in generale, cioè per R ∈ (0, 1), la probabilità di default unconditional
si ottiene “mediando” rispetto ai possibili valori del fattore, vale a dire,
formalmente, integrando rispetto alla distribuzione del fattore:
Z
pi = EY (pi (Y )) =
pi (y)φ(y)dy.
R
L’evoluzione della probabilità condizionata p(Y ) in funzione di Y (cioè dello
stato dell’economia) e di p è rappresentata nella figura precedente.
Proposizione 2 Nel modello di Vasicek con statistica di perdita L =
(L1 , . . . , LN )0 , dove Li ∼ Bin(1; pi (Y )), la PD congiunta di due controparti
è data da
P (Li = 1, Lj = 1) = Φ2 (Φ−1 (p1 ), Φ−1 (p2 ); R),
dove Φ2 (·, ·; R) è la funzione di ripartizione della normale bivariata con valore atteso nullo, varianza unitaria e correlazione (fra i rendimenti degli
attivi) R.
4.8
La distribuzione delle perdite per il portafoglio
PN
Introduciamo ora la perdita percentuale di portafoglio L(N ) =
i=1 wi ·
Pp
LGDi · Li , dove wi = EADi /( i=1 EADi ). Il contributo fondamentale
di Vasicek è consistito nell’aver dimostrato che in un portafoglio con PD
49
1. (p = 0.003, R = 0.0001)
2. (p = 0.003, R = 0.05)
5000
4000
3. (p = 0.003, R = 0.2)
300
1200
250
1000
200
800
150
600
100
400
3000
2000
1000
0
50
0
0.005
0.01
0.015
0.02
0
200
0
0.005
0.01
0.015
0.02
0
0
5
10
15
20
−3
x 10
4. (p = 0.003, R = 0.9999)
5. (p = 0.01, R = 0.05)
500
100
400
80
300
60
200
40
100
20
6. (p = 0.05, R = 0.05)
20
15
10
0
0
0.2
0.4
0.6
0.8
1
0
5
0
0.01
0.02
0.03
0.04
0
0
0.05
0.1
0.15
0.2
e correlazione uniformi, vale a dire pi = p, Ri = R (i = 1, . . . , N ), la
conditional percentage loss distribution converge all’aumentare di N e che la
forma limite è p(Y ):
Ã
lim L
N →∞
(N ) def
= L = p(Y ) = Φ
!
√
f − R·Y
√
,
1−R
50
dove f = Φ−1 (p).
(27)
Osservazioni.
(a) Nella distribuzione limite, l’aleatorietà della perdita percentuale di
portafoglio dipende solo dall’aleatorietà del fattore Y ; in altre parole,
aumentando il numero di controparti il rischio specifico è completamente eliminato.
(b) Il risultato espresso dalla (27) non dipende dalla particolare distribuzione di probabilità scelta per il fattore Y ; tuttavia, sotto l’ipotesi
Y ∼ N (0, 1), la densità di p(Y ) si ricava in forma chiusa, che dipende
dai due parametri p e R e che indicheremo con fp,R (·); è di particolare
interesse esaminare in dettaglio quattro casi limite.
(i) R = 0 ⇒ limN →∞ fp,0 = δp , dove δp identifica una distribuzione
di probabilità degenere, cioè una distribuzione di probabilità che
assume il valore p con probabilità 1. Ciò significa che per N → ∞
siamo certi che la perdita percentuale di portafoglio è uguale a p;
(ii) R = 1 ⇒ fp,1 = Bin(1; p); in altri termini, per ogni N possiamo rimpiazzare la perdita percentuale di portafoglio con L1 ∼
Bin(1; p) ed è dunque ovvio che anche L = Bin(1; p);
(iii) p = 0 ⇒ f0,R = δ0 ; tutte le controparti sopravvivono con certezza;
(iv) p = 1 ⇒ f1,R = δ1 ; tutte le controparti falliscono con certezza.
Per la distribuzione L è molto semplice calcolare Expected Loss, Unexpected Loss e Capitale a Rischio, in quanto sia il valore atteso che i quantili
sono calcolabili analiticamente; in particolare il quantile α è dato da
!
Ã
√
Φ−1 (p) − R · qα (Y )
√
,
qα (L) = Φ
1−R
dove qα (Y ) è il quantile α di Y , e valore atteso e varianza sono dati da
E(L) = p,
var(L) = Φ2 (Φ−1 (p), Φ−1 (p); R) − p2 .
51
4.9
I modelli di portafoglio disponibili sul mercato
1. CreditMetrics e Moody’s|KMV
I modelli di CreditM etrics e M oody 0 s|KM V hanno alcune caratteristiche in comune e quindi la trattazione può essere in parte unificata.
Setup comune ai due modelli:
(i) modello di Merton per il rendimento dell’attivo; dunque, per ogni con(i)
troparte i esiste una soglia Fi tale che essa fallisce se At
equivalentemente,
(i)
rt
< Fi (o,
< fi , con fi = log(Fi /A0 )).
(ii) rappresentazione fattoriale per i rendimenti logaritmici standardizzati
dell’attivo:
ri =
p
Ri Yi + Zi ,
(28)
dove Yi ∼ N (0, 1) e Zi ∼ N (0, 1 − Ri ). Le correlazioni fra i rendimenti sono interamente catturate dai fattori Yi in quanto si assume
p
indipendenza fra Yi e Zi ; si ha dunque corr(ri , rj ) = Ri Rj . In questo caso il fattore Yi è un fattore composto, ed i modelli alla base sia
di CreditM etrics che di KM V sono basati su una rappresentazione
su vari livelli. Oltre alla scomposizione in rischio sistematico e rischio
specifico ottenuta calcolando la varianza della (28):
var(ri ) = Ri var(Yi ) + var(Zi ),
i = 1, . . . , N,
i fattori Φi sono a loro volta costituiti da una combinazione lineare di
indici settoriali e nazionali:
Yi =
K
X
wi,k Ψk ,
i = 1, . . . , N,
k=1
dove Ψ1 , . . . , Ψk0 sono gli indici settoriali e Ψk0 +1 , . . . , ΨK sono gli
indici dei Paesi. Analogamente, w1 , . . . , wk0 sono i pesi dei settori e
wk0 +1 , . . . , wK sono i pesi dei Paesi.
A questo punto, i due modelli (CreditM etrics e M oody 0 s|KM V ) procedono
lungo linee diverse. Si consideri innnazi tutto il modello CreditMetrics.
In questo modello gioca un ruolo fondamentale il concetto di migrazione. Per migrazione si intende la variazione del merito creditizio di una
controparte. Si procede dunque come segue:
52
1. si adotta un sistema di rating;
2. si associa ogni esposizione in portafoglio ad una classe di rating;
3. si stimano le probabilità di migrazione da una classe all’altra; tali
probabilità vengono rappresentate in una matrice di transizione M =
(mij ) di dimensione (s×s), dove s è il numero di classi di rating (inclusa
la classe D = def ault). La probabilità mij quantifica la probabilità
che, durante un certo orizzonte temporale (tipicamente un anno), una
controparte migri dal rating i al rating j. Proprietà di M:
(i) i suoi elementi sono non negativi;
(ii) la somma degli elementi sulla riga i-esima è uguale ad uno:
Ps
j=1 mij = 1;
(iii) l’ultima colonna contiene le PD relative all’orizzonte temporale
in questione: mis = P Di ;
(iv) il def ault è uno stato assorbente, cioé l’ultima riga della matrice
è uguale a ms = (0, . . . , 0, 1)0 ;
(v) se M è la matrice di transizione relativa ad un periodo di un
anno, la matrice di transizione relativa ad un periodo di n anni è
data da Mn = Mn ;
4. sulla base delle probabilità di migrazione si determinano le soglie da
utilizzare nel modello di Merton; si noti che le soglie sono diverse a
seconda del rating iniziale;
5. si utilizza la “struttura comune” a CreditMetrics e KMV analizzata in
precedenza per ricavare la matrice di correlazione R delle controparti;
6. si simulano i rendimenti standardizzati; ciò equivale a simulare un
vettore aleatorio r di dimensione N ×1 (N è il numero delle controparti
in portafoglio) da una normale multivariata NN (0, R);
7. per ogni elemento del vettore r si identifica la classe di rating in cui
si colloca. Tale procedura si basa sulle soglie ottenute al passo 4, e
deve tenere conto del rating iniziale delle controparti: per esempio, si
supponga che il vettore r abbia dimensione (2 × 1), che la controparte
53
(1)
1 abbia rating rat0
(2)
e che la controparte 2 abbia rating rat0 ; si
simula r∗ = (r1∗ , r2∗ )0 , quindi si confronta r1∗ con le soglie relative al
(1)
(2)
rating rat0 e r2∗ con le soglie relative al rating rat0 ; si determinano
(1)
(2)
cosı̀ i rating “di arrivo” rat1 e rat1 per entrambe le controparti;
8. si rivaluta ogni posizione prezzandola con la curva dei tassi relativa
al rating di arrivo, determinando cosı̀ il prezzo che avrebbe nel caso
in cui al termine dell’orizzonte temporale assumesse il rating finale
emerso dalla simulazione;
9. nel caso in cui per una controparte risulti l’evento def ault, si simula il
tasso di recupero da una distribuzione β, e si tratta il valore risultante
come il prezzo della controparte.
Al solito, ripetendo un numero “grande” di volte i passi in questione, si
ottiene la distribuzione di probabilità simulata del valore del portafoglio,
sulla base della quale si calcolano le misure di rischio.
Pregi:
(i) utilizzo di dati di mercato;
(ii) considerazione anche del rischio di migrazione;
Limiti:
(i) utilizzo di matrici di transizione storiche, che non sono forward-looking;
(ii) le migrazioni non sono spiegate da logiche economiche;
(iii) il modello fattoriale utilizzato per stimare le correlazioni è in realtà
molto più povero di quanto esposto in precedenza: anziché indici settoriali e di Paese, utilizza solo indici azionari (di settore e di Paese);
dunque le correlazioni fra i rendimenti degli attivi sono determinate
solo dalle correlazioni fra i rendimenti degli indici azionari; in altre
parole, si assume che le imprese siano completamente finanziate con
capitale di rischio, il che è falso; in particolare, i rendimenti del capitale
di rischio sono molto più volatili dei rendimenti degli attivi.
54
(iv) necessità di numerosi input: sistema di rating, matrici di transizione,
curve dei tassi.
Moody’s|KMV. E’ probabilmente, ad oggi, il modello più usato dalle
grandi banche. La sua logica è simile a quella di CreditM etrics, in quanto:
(i) la determinazione della PD è basata sul modello di Merton;
(ii) la correlazione fra i rendimenti degli attivi è calcolata tramite un
modello fattoriale.
Vi sono tuttavia alcune differenze che ne migliorano sensibilmente la
perf ormance. In primo luogo, il modello di Merton viene utilizzato in
modo diverso: KMV fonda infatti l’analisi su una misura detta “distanza
dal def ault” (Distance to Default - DtD) definita come segue:
DtD =
E(AT ) − F
.
σA
Il numeratore è la differenza fra il valore atteso dell’attivo a scadenza e la
soglia di def ault. Tale soglia di def ault è stata per semplicità identificata
con F , ma nel modello di KMV è in realtà calcolata in modo più approfondito
sulla base di tutte le passività dell’azienda; il modello infatti prevede una
struttura di bilancio assai più complessa di quella del modello di Merton.
La DtD è quindi una misura standardizzata della situazione finanziaria
di un’azienda. Tuttavia, a differenza del modello di Merton, KMV non
accetta l’ipotesi di lognormalità dell’attivo e calcola la PD non tramite la
funzione di ripartizione della normale standardizzata, ma tramite una misura
empirica denominata Expected Default Frequency - EDF, che è data dalla
frequenza storica di def ault delle imprese di una certa fascia di DtD; l’EDF
rappresenta dunque, nel modello KMV, la stima della PD.
In secondo luogo, il modello fattoriale è molto “più ricco” di quello di
CreditMetrics.
Il vantaggio fondamentale del modello di KMV consiste nel fatto che la
DtD, e quindi l’EDF , risultano essere variabili che reagiscono molto rapidamente alle mutevoli condizioni economico-finanziarie della controparte
(molto più rapidamente dei rating, in quanto DtD ed EDF sono principalmente basate su dati del mercato azionario: capitalizzazione di mercato e
55
volatilità del capitale di rischio). Si noti per inciso che l’utilizzo diretto di
altre variabili di mercato quali gli spread sui bond o sui derivati di credito
(in particolare Credit Default Swap) emessi dalla controparte può talora costituire un eccellente strumento per verificare un eventuale deterioramento
del merito di credito di una controparte, ma solo se esiste un mercato liquido
per tali strumenti. E’ peraltro chiaro che, se l’equity della controparte in
questione è poco liquido, anche l’EDF reagirà meno rapidamente a variazioni
della situazione economico-finanziaria della controparte; tuttavia il capitale
di rischio è mediamente assai più liquido rispetto al debito o ai derivati di
credito.
CreditRisk+ . E’ il modello per l’analisi del rischio di credito sviluppato
da Credit Suisse. E’ l’unico modello per il rischio di credito che si basa su
logica e tecniche assicurative, in particolare del ramo non-vita. Per questo
motivo è definito un modello attuariale.
Prima di introdurre il modello, è quindi opportuno un breve excursus
sui metodi utilizzati in ambito assicurativo per modellare la distribuzione
di probabilità dei reclami (richieste di rimborso). L’idea di base è la seguente: l’ammontare monetario totale dei reclami ai quali è necessario far
fronte dipende da quanti reclami arrivano e dal loro ammontare. Queste due
fonti di aleatorietà sono note come frequenza ed intensità, e la metodologia
consiste essenzialmente nel trattare separatamente la frequenza e l’intensità
dei reclami. Dal punto di vista statistico la v.c. utilizzata per modellare
la frequenza deve essere una v.c. discreta che assume valori positivi; nella
stragrande maggioranza dei casi si utilizza la distribuzione di Poisson. La
v.c. utilizzata per modellare l’intensità deve invece essere una v.c. continua
che assume valori positivi; in questo caso esistono varie possibilità, ma per lo
più si tratta di una v.c. lognormale. Formalmente, la perdita totale relativa
ad un orizzonte temporale predeterminato è data dalla somma aleatoria
S=
K
X
Wi ,
i=1
dove K è una v.c. di Poisson e W1 , . . . , WK sono v.c. iid lognormali, independenti anche da K. La distribuzione di S non può essere derivata in
forma chiusa, e quindi per calcolare misure di rischio è necessario ricorrere
56
alla simulazione Monte Carlo. Tale modello è utilizzato anche per l’analisi
dei rischi operativi (che sono tutti i rischi non finanziari: errori di operatori,
rapine, crash informatici, frodi,. . . ), in cui la variabile oggetto di analisi è
l’ammontare monetario totale delle perdite operative.
Al fine di comprendere l’aspetto tecnico fondamentale di CreditRisk+ ,
è inoltre necessario definire la v.c. Gamma; la distribuzione Gamma è una
distribuzione continua su IR+ definita da due parametri α e β. Una v.c. X
ha distribuzione Gamma se la sua densità ha la seguente forma funzionale:
f (x) =
³ x ´β−1
1
,
e−x/α
αΓ(β)
α
x ≥ 0, α, β > 0,
dove Γ(·) è la funzione Gamma.
Torniamo ora al modello CreditRisk + . Per ogni controparte si definisce
l’esposizione netta E come differenza fra l’esposizione ed il tasso di recupero.
Si assume poi che esistano NE fasce di esposizione e che ogni controparte appartenga ad una certa fascia di esposizione; ogni fascia di esposizione viene
poi trattata come un portafoglio a sè stante: se la fascia i-esima ha esposizione totale Ei e contiene Ni controparti, si assume che ciascuna controparte
abbia la medesima esposizione E = Ei /Ni . La distribuzione di probabilità
della perdita relativa alla fascia i è data dal prodotto fra Ei e la distribuzione
di probabilità del numero di def ault Li della fascia.
Il numero di def ault Li dell’i-esima fascia di esposizione (i = 1, . . . , NE )
è dato da una distribuzione di Poisson con intensità Λi , che è una v.c. con
valore atteso λi = E(Λi ). Tale v.c. è a sua volta spiegata da una combinazione lineare di Λ(s) , che sono le intensità di def ault dei settori del
modello:
Λi =
ms
X
s=1
wis λi
Λ(s)
,
λ(s)
i = 1, . . . , NE
(29)
dove ms è il numero di settori, λ(s) è il valore atteso di Λ(s) . A loro volta,
le intensità di def ault Λ(s) dei settori hanno distribuzione Gamma di parametri αs e βs : Γ(αs , βs ). Formalmente, si tratta di una mistura di Poisson;
mentre nella mistura di Bernoulli si ipotizzava che la variabile casuale Li
che descrive la perdita della i-esima controparte avesse distribuzione Bernoulliana di parametro Pi , nella mistura di Poisson si ipotizza che la v.c. Li
57
(relativa alla i-esima fascia) abbia distribuzione di Poisson di parametro Λi ;
in entrambi i casi il parametro è a sua volta una v.c.
Dette θ1 , . . . , θs le realizzazioni di Λ(1) , . . . , Λ(ms ) , la PD condizionata
dell’i-esima fascia è data da
P (Li ≥ 1|Λ(1) = θ1 , . . . , Λ(ms ) = 1 − e−λi
Pms
s=1
wis θs /λ(s)
.
Il parametro della mistura, che in questo caso è Λi , è spiegato dalla (29),
che potremmo definire un modello settoriale, e che comunque ha un’interpretazione analoga al modello fattoriale visto nei casi CreditMetrics e
KMV.
Per quanto riguarda l’intensità Λ che determina il numero di def ault
nel portafoglio, essa dovrà essere uguale tanto alla somma delle intensità dei
def ault delle singole fasce di esposizione quanto alla somma delle intensità
dei def ault dei singoli settori. Essa dovrà dunque soddisfare le seguenti due
uguaglianze:
Λ = Λ(1) + · · · + Λ(ms ) ;
Λ = Λ1 + · · · + ΛNE .
(30)
Le due uguaglianze (30) possono valere contemporaneamente se e solo se
P E
λ(s) = N
i=1 wis λi (s = 1, . . . , ms ). In questo caso si ha infatti
NE
X
Λi =
i=1
=
NE X
ms
X
i=1 s=1
NE
ms
X
X
(s)
Λ
s=1
=
wis λi
ms
X
Λ(s)
=
λ(s)
wis λi PN
i=1
1
i=1 wis λi
E
=
Λ(s) .
s=1
Si noti che λi viene di solito calibrato sulla base della PD della fascia di
esposizione tramite la formula
pi = P (Li ≥ 1) = 1 − e−λi ,
dove pi è la PD non condizionata della fascia i-esima.
Una caratteristica di fondamentale importanza della distribuzione di probabilità dei settori è il fatto, noto dalla teoria della probabilità, che, in una
58
mistura di Poisson in cui il parametro Λ(s) ha distribuzione Gamma, la distribuzione non condizionata ha distribuzione binomiale negativa. In altre
parole:
(i) la distribuzione di probabilità del numero di def ault del settore s
condizionata ad un certa realizzazione θs dell’intensità settoriale Λ(s)
è Poisson di parametro θs ;
(ii) la distribuzione non condizionata del numero di def ault del settore
s ha distribuzione binomiale negativa (i valori dei parametri di tale distribuzione sono semplici funzioni dei parametri αs e βs della
distribuzione Γs dell’intensità del settore s-esimo).
Benché la distribuzione di probabilità del numero di def ault del portafoglio
non sia più binomiale negativa, essa può essere ottenuta in forma chiusa
e quindi le misure di rischio possono essere calcolate senza complicazioni
computazionali.
Riassumendo, i passi da effettuare sono i seguenti:
(i) stimare la PD su base storica (in generale, si utilizza dunque la PD
derivante da un sistema di rating) e ricavarne λi ;
(ii) stimare la frequenza delle insolvenze secondo l’approccio appena descritto, basato su un modello settoriale che permette di ottenere frequenze correlate;
(iii) passare dalle frequenze alle perdite di ogni classe di esposizione associando le frequenze alle esposizioni nette (esposizioni meno tassi di
recupero).
Pregi:
- Gli input richiesti sono facilmente disponibili: sono necessarie solo la
PD, l’esposizione e il tasso di recupero;
- il calcolo delle misure di rischio è analitico: non sono necessarie la
simulazione Monte Carlo o altre tecniche computazionalmente pesanti.
Difetti:
59
- le correlazioni fra i def ault tendono ad essere sottostimate. Infatti
due controparti sono correlate se e solo se condividono l’esposizione
ad almeno un settore. Ne segue che la default correlation è fortemente
influenzata dalla definizione dei settori: una definizione dei settori più
disaggregata implica una default correlation più bassa;
- considera solo il rischio di insolvenza, ignorando rischio di migrazione
e rischio di recupero.
CreditPortfolioView (T. Wilson, McKinsey, 1997). E’ un modello macroeconomico basato sui rating, in cui default e migrazioni dipendono dal
ciclo economico.
In particolare, tassi di migrazione e di insolvenza sono legati a variabili
macroeconomiche: crescita del PIL, tasso di occupazione, livello dei tassi di
interesse. Prevede diversi segmenti di rischio (tipicamente settori industriali)
che reagiscono in modo diverso alle condizioni economiche generali.
La PD per il settore s-esimo è del tipo logit:
ps,t =
1
,
1 + eYs,t
dove Ys,t è un indice determinato come funzione di un vettore di variabili
macroeconomiche:
Ys,t =
k
X
βs,j Xs,j,t + ²s,t .
j=1
Ipotesi: come di consueto, indipendenza di ²s,t da Xs,j,t , E(²s,t ) = 0, var(²s,t ) =
σ²2 ; ogni fattore macroeconomico è modellato come un processo autoregressivo.
Conoscendo i valori di Xs,j,t si possono simulare gli indici Ys,t e quindi
le PD condizionate per ogni settore. Sulla base delle PD condizionate si
ottengono le matrici di migrazione: sono riferite ad un orizzonte temporale
annuale e vanno interpretate come condizionate alle condizioni economiche
correnti.
La media di tali matrici calcolate su un certo numero di anni è la matrice non condizionata, che riflette i percorsi di migrazione attesi. Si noti
tuttavia che la matrice di transizione non condizionata non è data semplicemente dalla media delle matrici di transizione condizionate. Tale media è
60
infatti “corretta” sulla base di un confronto con la PD storica: le probabilità di downgrading vengono aumentate se la PD condizionata è maggiore
della PD storica, le probabilità di upgrading vengono aumentate se la PD
condizionata è minore della PD storica.
Riassumendo:
(i) Stima variabili macro relative all’anno t;
(ii) Stima dell’indice Ys,t per il settore s e l’anno t;
(iii) Stima della PD condizionata ps,t per il settore s e l’anno t;
(iv) Costruzione delle matrici di transizione condizionate e correzione delle
matrici di transizione non condizionate (stimate su base storica).
Pregi:
(i) indaga le relazioni causa-effetto;
Limiti:
(i) sono necessarie basi dati molto ampie per la stima della PD;
(ii) il metodo di correzione delle matrici di transizione non condizionate è
sostanzialmente arbitrario.
61
4.10
Distribuzioni di perdita costruite tramite copule
Sotto l’ipotesi di normalità la (25) assume la forma
P (L1 = l1 , . . . , LN = lN ) =
Z
N
Y
plii (1 − pi )1−li φ(Φ−1 (p1 ), . . . , Φ−1 (pN ); R)dp1 · · · dpN ,
[0,1]N i=1
dove φ(·; R) è la densità normale multivariata con valore atteso nullo e
matrice di covarianza R. Come si trasforma la (25) se si ipotizza che i
rendimenti abbiano una distribuzione diversa dalla normale multivariata?
Si consideri per esempio il caso in cui r ∼ tν,R (distribuzione t di Student
N -variata con ν gradi di libertà e matrice di correlazione R). Si ha che
P (L1 = 1, L2 = 1) = P (r1 < c1 , r2 < c2 ) =
Z 1Z 1
−1
−1
= P (r1 < t−1
(p
),
r
<
t
(p
))
=
p1 p2 dTν,R (t−1
1
2
2
ν
ν
ν (p1 ), tν (p2 )) =
0
0
Z 1Z 1
−1
=
p1 p2 tν,R (t−1
ν (p1 ), tν (p2 ))dp1 dp2 .
0
0
Nella formula precedente si utilizza la copula di Student con marginali di
Student.
La copula è una funzione di ripartizione (cdf) multivariata le cui marginali sono U (0, 1). Se X è un vettore aleatorio N -variato continuo la cui cdf
è F (x1 , . . . , xN ; θ) con la j-esima marginale Fj (xj ; θj ), il teorema di Sklar
garantisce che c’è un’unica cdf C : [0, 1]N → [0, 1] che soddisfa
F (x1 , . . . , xN ; θ) = C[F1 (x1 ; θ1 ), . . . , FN (xN ; θN ); α].
C(u1 , . . . , uN ; α) è la copula associata a F , e α è il vettore dei suoi parametri.
Il caso più semplice è la copula prodotto. E’ la copula che si applica in caso
di indipendenza:
F (x1 , . . . , xN ; θ) =
⇒ C[u1 , . . . , uN ; α] =
N
Y
i=1
N
Y
Fi (xi ; θi )
ui ,
ui ∈ [0, 1],
i=1
Perché le copule sono strumenti importanti?
62
i = 1, . . . , N.
(i) Perché permettono di costruire distribuzioni multivariate non standard;
(ii) perché permettono di stimare separatamente i parametri delle distribuzioni marginali e della struttura di dipendenza, cioè della copula.
E’ quindi possibile modificare la struttura di dipendenza tramite l’utilizzo di una diversa copula. In alternativa è possibile modificare esclusivamente
le distribuzioni marginali, lasciando inalterata la struttura di dipendenza.
Gli sviluppi più recenti della ricerca sui modelli di portafoglio mirano
alla costruzione di modelli basati su una struttura probabilistica più complessa (e che garantisce una flessibilità di gran lunga maggiore) rispetto alla
normale multivariata. L’importanza delle funzioni copula per la costruzione
dei modelli di portafoglio per il rischio di credito è riassunta dalla seguente
proposizione:
Proposizione 3 Data una statistica di perdita bernoulliana L
(L1 , . . . , LN
=
)0 ,
basata su un modello a variabili latenti Li = 1{ri <ci } , i =
Pp
1, . . . , N , la distribuzione di perdita, definita come L =
i=1 Li , è determinata in modo univoco dall’insieme delle probabilità di default relative all’orizzonte temporale predefinito pi = P (ri < ci ) e dalla copula C di
(r1 , . . . , rN ).
Dimostrazione. Le PD congiunte sono date da:
P (Li1 = 1, . . . , Lik = 1) = P (ri1 < ci1 ), . . . , rik < cik ))
= Ci1 ,...,ik (pi1 , . . . , pik ),
con {i1 , . . . , ik } ⊂ {1, . . . , N }, dove Ci1 ,...,ik (pi1 , . . . , pik ) è la distribuzione
marginale k-dimensionale della copula C.
√
√
Esempio. Nel modello di Vasicek ad un fattore, ri = RY + 1 − RZi ,
p
moltiplicando per k/W , dove W ∼ χ2n , si ottengono rendimenti r∗ ∼ tn,k,R
(distribuzione t di Student n-variata con k gradi di libertà e correlazione uniforme R); le statistiche di perdita bernoulliane sono ora Li = 1{r∗ <Fn−1 (p)} ,
i
dove Fn (·) è la cdf della v.c. t di Student con n gradi di libertà. Si dimostra
63
64
−2
−1
0
1
2
−2
−1
0
1
2
−2
−1
0
1
2
Copula Gaussiana, ρ = 0.3, marginali N(0,1)
2
−2
−2
1
−1
−1
0
0
0
−1
1
1
−2
2
2
−2
−1
0
1
2
−2
−1
0
1
2
−2
−1
0
1
2
Copula Gaussiana, ρ = 0.3, marginali Copula
t2
Gaussiana, ρ = 0.3, marginali N(0,1) eCopula
t2
di Gumbel, δ = 2, marginali N(0,1)
2
−2
−2
1
−1
−1
0
0
0
−1
1
1
−2
2
Frank copula, α = 5, marginali t2
2
Frank copula, α = 5, marginali N(0,1)
che la PD condizionata è data da
Ãp
√ !
w/n · Fn−1 (p) − Ry
√
pi (Y ) = Φ
.
1−R
(31)
Analogamente al caso normale, anche la distribuzione asintotica della perdita percentuale di portafoglio è data dalla (31).
In generale, modelli basati sulle copule possono essere costruiti come
segue. Si supponga che sia
F (x1 , . . . , xp ; θ) = C[F1 (x1 ; θ1 ), . . . , Fp (xp ; θp ); α].
La stima dei parametri può essere effettuata in due passi:
• Stima separata dei parametri delle distribuzioni marginali univariate
F1 (x1 ; λ1 ), . . . , Fp (xp ; λp ).
• Stima dei parametri della copula date le stime ottenute al passo precedente:
α̂ = arg max
N
X
log[c(F1 (x1i ; λ̂1 ), . . . , Fp (xpi ; λ̂p )].
i=1
Per quanto riguarda la simulazione, è basata sui passi seguenti:
• Simulare u dalla copula C;
• Calcolare yi = Fi−1 (ui ; θ̂ i ) per ogni i = 1, . . . , p, dove Fi (·) è la cdf
dell’i-esima distribuzione marginale;
• Ripetere i passi precedenti un numero “grande” di volte M .
Esempio. Le copule Gaussiana e di Gumbel sono date, nel caso bivariato,
rispettivamente da
C(u1 , u2 ; R) = ΦR (Φ−1 (u1 ), Φ−1 (u2 )),
δ
δ 1/δ
C(u1 , u2 ; δ) = e−(ū1 +ū2 )
,
dove R è il coefficiente di correlazione, Φ è la cdf della normale standard, ΦR
è la cdf della normale bivariata con parametri µ = 0 e Σ = R, δ ∈ [1, +∞)
65
e ū = − log(u). Le corrispondenti densità sono
µ
¶
1
1 0 −1
√
c(u1 , u2 ; R) =
exp − ζ (R − I)ζ , ζj = Φ−1 (uj ),
1/2
2
2π|R|
(ūv̄)δ−1
c(u1 , u2 ; δ) = C(u1 , u2 )(uv)−1 δ
[(ūδ + v̄ δ )1/δ + δ − 1].
(ū + v̄ δ )2−1/δ
Esempio. Per la copula gaussiana con marginali Fi , la procedura di simulazione diventa:
• Simulare un vettore aleatorio x = (x1 , . . . , xp )0 dalla distribuzione
Np (0, R̂);
• calcolare ui = Φ(xj ), per qualsiasi i = 1, . . . , p;
• calcolare yi = Fi−1 (ui ; θ̂ i ) per qualsiasi i = 1, . . . , p;
• ripetere i passi (1)-(2) un numero “grande” di volte M .
La PD congiunta di due controparti si ottiene infine come segue:
P Dij =
4.11
#{yi < Fi−1 (pi ), yj < Fj−1 (pj )}
M
.
Appendice: il modello multifattoriale di MKMV
Il punto di partenza è il modello
ri = βi Yi + Zi ,
i = 1, . . . , N,
in cui però Yi è un fattore composto, in quanto dato dalla somma ponderata
di diversi fattori: è un modello multifattoriale, che in forma matriciale risulta
essere:
r = βY + Z,
dove β è una matrice diagonale di dimensione (N × N ) con βij = βi quando
i = j e βij = 0 quando i 6= j.
Ipotesi: Yi e Zi normali indipendenti, Zi e Zj (i 6= j) indipendenti. Per
la varianza si ha
var(ri ) = σi2 = βi2 var(Yi ) + var(Zi ),
66
che è interpretata come scomposizione del rischio totale in rischio sistematico
e rischio specifico.
Come sono costruiti i fattori composti? Ci sono 2 livelli:
1. ogni Yi è decomposto rispetto a settore e nazione:
Yi =
K
X
wi,k Ψk ,
i = 1, . . . , N,
k=1
dove Ψ1 , . . . , Ψk0 sono gli indici settoriali e Ψk0 +1 , . . . , ΨK sono gli
indici dei Paesi. Analogamente, w1 , . . . , wk0 sono i pesi dei settori e
wk0 +1 , . . . , wK sono i pesi dei Paesi. In termini matriciali:
r = βWΨ + Z,
dove W è N × K e Ψ è k × 1.
2. Al secondo livello si scompongono gli indici dei settori e dei Paesi:
Ψk =
M
X
bk,n Γn + δk ,
k = 1, . . . , K,
n=1
dove Γn (n = 1, . . . , M ) sono gli elementi del fattore globale. In termini
matriciali:
r = βW(BΓ + δ) + Z,
dove B è K ×M e Γ è M ×1. Questa scomposizione, effettuata tramite
il metodo delle componenti principali, è principalmente utile dal punto
di vista computazionale.
Conoscendo le sensitività degli indici di settore e di Paese rispetto ai fattori
globali, le varianze dei fattori globali e le varianze dei residui, si possono
calcolare le correlazioni degli asset. Posto Ri2 = (βi2 /σi2 )var(Yi ), si ha che
Ri Rj
corr(ri , rj ) = q
E(Ỹi Ỹj ),
(var(Ỹi )var(Ỹj )
dove Ỹi sono i fattori standardizzati. Si dimostra infatti che (Bluhm et al.
2002, pag. 48-50)
E(ỸỸ0 ) = W(B · E(Γ̃Γ̃0 )B0 + E(δ̃ δ̃ 0 ))W0 .
67
5
Riferimenti bibliografici
1. Rischio di mercato
Jorion, P. (1995), Value at Risk, New York, McGraw-Hill.
Riskmetrics (1995), Technical Document, 3rd edition, New York, J.P.
Morgan.
Riskmetrics (2001), Return to RiskMetrics: The Evolution of a Standard,
New York, J.P. Morgan.
Sironi, A. (2005), Rischio e Valore nelle Banche, Milano, Egea.
2. Rischio di credito
Bluhm, C., Overbeck, L. e Wagner, C. (2002), An Introduction to
Credit Risk Modeling, London, Chapman & Hall.
Sironi, A. (2005), Rischio e Valore nelle Banche, Milano, Egea.
68