METODI MONTECARLO IN 4 ORE Tutto quello che avreste voluto

Transcript

METODI MONTECARLO IN 4 ORE Tutto quello che avreste voluto
METODI MONTECARLO IN 4 ORE
FEDERICO BASSETTI
Tutto quello che avreste voluto sapere sui metodi montecarlo ma non avete mai osato chiedere...
in 4 ore di lezione
1. Esempi
Esempio 1. Consideriamo il problema statistico bayesiano di stimare la media incognita in una
successione di osservazioni (y1 , . . . , yn ) dove si supponga la verosimiglianza gaussiana di varianza
nota, diciamo 1, e media incongita. In altri termini supponiamo che la distribuzione di yi dato il
parametro θ abbia densità
e−(y−θ)
√
f (y|θ) =
2π
2
/2
e assumiamo come prior per θ una distribuzione di Cauchy di parametri (τ 2 , µ), ossia assumiamo
che θ abbia densità
π(θ) =
La densità congiunta è
n
Y
i=1
τ2
1
τ
.
2
+ (θ − µ) π
f (yi |θ)π(θ)
e il teorema di Bayes implica che la posterior, date le prime n osservazioni (y1 , . . . , yn ), è
πy1 ,...,yn (θ) =
1 − Pni=1 (yi −θ)2 /2
1
e
2
Z
τ + (θ − µ)2
dove
Z=
Z
dθe−
Pn
i=1 (yi −θ)
R
2
/2
1
.
τ 2 + (θ − µ)2
Questo integrale non può essere fatto per via analitica, cosı̀ come l’integrale che fornisce lo stimatore bayesiano a posteriori della media
Pn
R
2
1
θe− i=1 (yi −θ) /2 τ 2 +(θ−µ)
2 dθ
R
.
θB = R − Pn (y −θ)2 /2
1
i
i=1
e
τ 2 +(θ−µ)2 dθ
R
Come possiamo approssimarlo?
Esempio 2. [NSAW] Consideriamo il problema di contare il numero di percorsi che su un
reticolo quadrato 10 × 10 congiungono il vertice (0, 0) al verice (10, 10) e che non si intersechino. Il
numero di tali percorsi è 1, 568... × 1024 . C’è un modo per stimarlo senza doverli enumerare tutti?
Date: December 21, 2009.
1
2
FEDERICO BASSETTI
Esempio 3. [Modelli di Spin] Consideriamo un reticolo finito Λ e l’insieme X = {x : Λ → Z2 }.
Per ogni nodo e del reticolo Λ, x(e) in Z2 = {−1, +1} rappresenta il valore dello spin nel sito
(nodo) e. In meccanica statistica si associa ad una configurazione x in X un’energia H(x) e, di
conseguenza, una probabilità
1 −βH(x)
e
Z
P
con β uguale all’inverso della temperatura e Z = x e−βH(x) . Un’esempio tipico è il modello di
π(x) =
Ising su un reticolo dove
H(x) = −
XX
e v∈Ue
x(e)x(v) − h
X
x(e)
e
dove Ue sono i vertici ”primi vicini” di e e h è una costante. Tipicamente le dimensioni del reticolo
sono 64 × 64 o 128 × 128 e rendono il calcolo esplicito di Z proibitivo. Un esempio più semplice
da maneggiare è il cosiddetto modello di Cuire-Weiss (modello in campo medio), in questo caso
Λ = {1, . . . , N } e
H(x) = −
1 XX
x(i)x(j).
2N i j
Esempio 4. Sia Sn il gruppo delle permutazioni su n oggetti. Una famiglia di misure di
probabilità su Sn usata in varie applicazioni (di tipo psicologico-statistico) è
π(σ) =
θd(σ,σ0 )
Z
dove: θ è una costante in (0, 1], σ0 è una data permutazione,
Z=
X
θd(σ,σ0 )
X
|σ(i) − σ0 (i)|.
σ
e d è una distanza su Sn , ad esempio
d(σ, σ0 ) =
i
Per n grande Z è impossibile da calcolare, ad esempio se n = 52 (52)! (i modi in cui potete
mescolare un mazzo di carte) è dell’ordine di 1062 .
2. Montecarlo e Importance samplig
Se (ξn )n è una successione di variabili aleatorie (v.a.) indipendenti ed identicamente distribuite
(i.i.d.) con distribuzione π e f una funzione reale tale che
Eπ |f (ξ1 )| < +∞
allora per la legge dei grandi numeri
n
µ̂n :=
1X
f (ξi )
n i=1
METODI MONTECARLO IN 4 ORE
3
converge quasi certamente a
µ = Eπ [f (ξ1 )] =
Z
f (x)π(dx).
X
Se poi σ 2 = V arπ (f (ξ1 )) < +∞ il teorema centrale implica che
1
µ̂n = µ + √ Gn
n
Pn
√
con Gn = ( i=1 (f (ξi ) − µ)/ n) che converge in legge ad una Normale di media zero e di varianza
√
σ 2 . Si noti che Gn / n rappresenta l’errore che commettiamo stimando µ con µ̂n . Osserviamo
anche l’ovvio fatto
V arπ (µ̂n ) =
1 2
σ .
n
Usare la media empirica µ̂n come stima di µ è il metodo Monte-Carlo. La bontà della stima
dipenderà solo da n e da V arπ (f (ξ1 )). A partià di n la stima sarà migliore quando σ 2 sarà più
piccola.
Il principale difetto del metodo montecarlo puro è quello che per usarlo occorre essere in grado
di generare una successione di v.a. indipendenti con legge π. Se π è complicata ciò può essere
infattibile. Spesso π è nota analiticamente a meno di costanti moltiplicative (la costante di normalizzazione degli esempi di Sezione 1) e spesso è proprio questa costante il primo interessante
oggetto da stimare.
Supponiamo che sia data una mdp ρ con ρ >> π e poniamo
w(x) =
dπ
(x).
dρ
L’importance sampling si basa sulla banale osservazione che
Z
Z
Eπ (f (ξ1 )) = f (x)π(dx) = f (x)w(x)ρ(dx) = Eρ (f (ξ1 )w(ξ1 )).
Se µ è finito allora
n
µ̃n :=
1X
f (ξi )w(ξi )
n i=1
è una stima di µ quando ξi sono i.i.d. con legge ρ. Infatti la legge dei grandi numeri implica
che anche µ̃n converge quasi certamente a µ. In questo caso dobbiamo ancora conoscere π (per
calcolare w), tuttavia ci possono essere dei vantaggi. Il primo è che potrebbe essere più facile
generare da ρ che non da π. Inoltre osserviamo che
Z
nV arρ (µ̃n ) = f 2 w2 dρ − µ2 .
Quindi se
Z
2
2
f w dρ <
Z
f 2 dπ
la varianza di µ̃n può risultare più piccola della varianza di µ̂n . Occorre naturalmente prestare
attenzione perché può anche accadere che V arρ (µ̃n ) > V arµ (µ̂n ).
4
FEDERICO BASSETTI
Esempio stupido. Sia X = [0, 1], π(dx) = dx, ρ(dx) = ( 23 I(0,0.5] (x) + 21 I(0.5,1) (x))dx. Allora
w(x) = 23 I(0,0.5] (x) + 2I(0.5,1) (x). Se f (x) = I(0,0.5] (x) segue che
Z
Z
1
1
2 2
f w dρ = < f 2 dπ =
3
2
mentre se f (x) = I(0.5,1) (x)
Z
f 2 w2 dρ = 1 >
Z
f 2 dπ =
1
.
2
Esempio 2 [continua]. Il numero di NSAW, diciamo N = |N SAW | si può scrivere come
X
γ∈N SAW
|N SAW |
1
.
|N SAW |
Ora consideriamo un insieme di percorsi Γ che contenga i NSAW. Γ sarà l’insieme di tutte le realizzazioni del seguente processo stocastico. Partiamo da (0, 0) e con probabilità uniforme scegliamo
uno dei possibili vicini, proseguiamo fino a che non arriviamo al vertice (10, 10). Ad esempio al
passo 1 possiamo andare con probabilità 1/2 in (0, 1) o (1, 0), supponiamo di essere andati in
(1, 0), con probabiltà 1/3 possiamo andare in (2, 0) in (0, 0) o in (1, 1) e cosı̀ via. E’ chiaro che
risulta semplice determinare la probailità di un dato γ ottenuta in questo modo, indichiamola con
ρ(γ). Poniamo ora
f (γ) = I{γ ∈ N SAW }|N SAW |.
Si noti che non abbiamo bisogno di generare tutto il percorso per sapere se γ non è NSAW,
appena il nostro processo torna sui propri passi possiamo porre f (γ) = 0. A questo punto posto
π(γ) := I{γ ∈ N SAW }/N abbiamo
N=
X
f (γ)π(γ) =
γ∈Γ
X
γ∈Γ
f (γ)
π(γ)
π(γ).
ρ(γ)
Quindi per ottenere uno stimatore importance sampling generiamo come indicato prima dei percorsi γi indipendenti e poniamo
n
n
1X
1X
π(γi )
1
=
.
f (γi )
I{γi ∈ N SAW }
n i=1
ρ(γi )
n i=1
ρ(γi )
Si noti che in altri termini generiamo uno alla volta in modo indipendente i nostri γi , se mentre
costruiamo γi questo torna su se stesso lo scartiamo e ripartiamo, se arriva a (10, 10) senza intersecarsi lo teniamo e lo pesiamo con 1/ρ(γi ) (facile da calcolare mentre generiamo γi ) alla fine
dividiamo tutto per il numero di percorsi generati (anche quelli falliti!).
3. Richiami minimi di catene di Markov su spazi discreti
Anche se, come mostrato nell’Esempio 1, in molte circostanze si può essere interessati ad approssimare integrali e non somme presentiamo l’algoritmo di Metropolis solo nel caso discreto.
In questo modo possiamo enunciare alcuni risultati precisi senza bisogno di ricorrere a nozioni
METODI MONTECARLO IN 4 ORE
5
complicate. Tutto ciò che sfrutteremo sarà un minimo di teoria sulle catene di Markov a stati
discreti.
Sia X un insieme numerabile, π0 (x) una mdp su X, e Q(x, y) matrice infinita di transizione.
P
Osssia Q(x, y) ≥ 0 per ogni (x, y) ∈ X 2 e y Q(x, y) = 1.
Una successione (ξn )n≥0 è una catena di Markov omogenea (CMO) caratterizzata da (π0 , Q),
se
P {ξ0 = x} = π0 (x)
e
P {ξn+1 = y|ξ0 = x0 , . . . , ξn−1 = xn−1 , ξn = x} = P {ξn+1 = y|ξn = x} = Q(x, y)
per ogni x, y, x0 , . . . , xn−1 . Una CMO è caratterizzata essenzialmente da Q.
Supponiamo che ξn sia una CMO caratterizzata da (Q, δx ) allora
P {ξn = y} = P {ξn = y|ξ0 = x} = Qn (x, y),
dove Qn è la normale potenza di matrice (eventualmente infinita). Ricordiamo che date due
matrici Q1 e Q2
[Q1 Q2 ](x, y) =
X
Q1 (x, z)Q2 (z, y)
z
quindi
Q2 (x, y) =
X
Q(x, z)Q(z, y)
z
e, per ricorrenza su n,
Qn (x, y) :=
X
Q(x, z)Qn−1 (z, y).
z
Ricordiamo anche che data una mdp π0
[π0 Q](x) =
X
π0 (y)Q(y, x)
X
π0 (y)Qn (y, x).
y
e dunque
[π0 Qn ](x) :=
y
Se ξn è una catena (Q, π0 )
P {ξ1 = y} = π0 Q(y)
e in generale
P {ξn = y} = π0 Qn (y).
Una mdp π è detta stazionaria per Q se
π(x) =
X
π(y)Q(y, x)
y
per ogni x ossia se
πQ = π.
6
FEDERICO BASSETTI
Una catena è detta reversibile per π se
π(x)Q(y, x) = π(x)Q(x, y)
per ogni x, y. L’equazione precedente è nota come equazione di bilancio dettagliato.
Una Q è detta irriducibile, o connessa, se per ogni x, y esiste n = n(x, y) tale che data una
catena (ξn )n≥0 caratterizzata da (Q, δx ) (ossia che parta da x e che abbia nucleo di transizione Q)
P {ξn = y|ξ0 = x} > 0.
In termini matrticiali se per ogni x, y esiste n = n(x, y) tale che
Qn (x, y) > 0.
Si noti che questo vuol dire che la matrice di partenza, che ha elementi positivi o nulli, elevata ad
un’opportuna potenza ha solo elementi positivi.
Una catena Q è detta aperiodica se
M CD{n : Qn (x, x) > 0} = 1
∀x.
Si definisca Tx la variabile aleatoria
min{j ≥ 1 : ξj = x}
dove ξn è CMO caratterizzata da (Q, δx ). Ossia il primo istante in cui una catena che aprte da x
torna in x. Una catena Q si dice ricorrente positiva se E[Tx ] < +∞ per ogni x.
Theorem 3.1.
(1) Una CMO irriducibile su X finito è ricorrente positiva.
(2) Una CMO irriducibile è ricorrente positiva se e solo se ammette una distribuzione stazionaria.
In questo caso la distribuzione stazionaria è unica.
[Si veda ad esempio Thms 3.1- 3.3 [1]]
Alcune osservazioni semplici:
P1) Se Q(x, x) > 0 per ogni x allora Q è aperiodica.
P2) Se Q è irriducibile su uno spazio finito allora ammette un’unica mdp invariante.
P3) Se Q è π reverisibile allora π è invariante, infatti
X
π(y)Q(y, x) =
y
X
y
π(x)Q(x, y) = π(x)
X
Q(x, y) = π(x).
y
P4) Combinando quanto osservato sopra con il teorema si ha che una CMO irriducibile e πreversibile è ricorrente positiva.
METODI MONTECARLO IN 4 ORE
7
Theorem 3.2 (Teorema Ergodico). Sia (ξ)n≥0 una CMO ricorrente positiva e irriducibile. Sia
π la sua unica distribuzione stazionaria e sia f una funzione reale tale che
X
x
|f (x)|π(x) < +∞.
Allora
n
converge quasi certamente a
è anche aperiodica
P
1X
f (ξi )
n i=1
x
f (x)π(x) qualunque sia la distribuzione π0 . Inoltre se la catena
lim Qn (x, y) = π(y)
n→+∞
per ogni y e x.
[Si veda ad esempio Thm 4.1 [1]]
4. Algoritmo di Metropolis
Per semplicità rimaniamo nel discreto. L’idea dell’algoritmo di Metropolis è quella di partire da
una catena K (proposal) e modificarla per costruire una catena M che abbia come distribuzione
stazionaria π. In questo modo si può usare il Teorema Ergodico ed utilizzare la media empirica
come stima della media. Il fatto importante è che nella costruzione della nuova catena serve
conoscere π a meno di una costante di normalizzazione.
Supponiamo che
K(x, y) = 0 se e solo se
Poniamo
dove
K(y, x) = 0

 K(x, y)A(x, y)
M (x, y) =
 K(x, x) + P
z6=x K(x, z)(1 − A(x, z))
A(x, y) := min
La catena ”a parole” funziona cosı̀:
x 6= y
x=y
π(y)K(y, x)
,1
π(x)K(x, y)
• partiamo da x
• proponiamo una mossa y con K
• se
π(y)K(y,x)
π(x)K(x,y)
è maggiore o uguale ad uno accettiamo altrimenti tiriamo una monetina e
accettiamo con probabilità
π(y)K(y,x)
π(x)K(x,y) ,
se non accettiamo la mossa rimaniamo fermi in x.
Osservazione: se K è simmetrica allora A(x, y) = π(y)/π(x). In questo caso si accetta senz’altro
la mossa porposta se π(y) > π(x), ossia se ci si muove in una zona dove la probabilità è più alta,
invece se ci si muove in una zona dove la probabiltà è più bassa si randomizza la scelta con
probabilità proporzionale al rapporto fra le probabilità.
8
FEDERICO BASSETTI
Proposition 4.1. M è π-reversibile. Inoltre se K è aperiodica e irriducibile M è π-reversibile
aperiodica e irriducibile e dunque M è ricorrente positiva.
Dim. Verifichiamo solo che M sia π reversibile. Se x = y non c’e’ nulla da dimostrare. Sia
x 6= y. Facciamo solo il caso in cui
π(y)K(y,x)
π(x)K(x,y)
> 1, gli altri casi sono analoghi.
π(x)M (x, y) = π(x)K(x, y) = π(y)M (y, x).
Due esempi base.
Independent sampler. In questo caso si sceglie
K(x, y) = ρ(y)
dove ρ è una data mdp. Per x 6= y
M (x, y) = ρ(y) min{1,
π(y) ρ(x)
}
π(x) ρ(y)
Random walk sampler In questo caso si fissa una metrica su X e una funzione positiva g
K(x, y) = P
g(d(x, y))
.
z∈X g(d(x, z))
Tipicamente g(r) = 0 se r ≥ R. Ad esempio su un reticolo quadrato bidimensionale posso fare un
comune random walk simmetrico scegliendo con probabilità 1/4 uno dei vicini di x.
Esempio 3 [continua]. L’algoritmo di Metropolis nasce proprio per simulare modelli di spin.
In questo caso la più classica delle scelte è prendere a caso un sito e di Λ e modificare il suo spin
cambiandoglo di segno. Formalmente, dato x per ogni e in Λ sia y tale che y(f ) = x(f ) per ogni
f 6= e e y(e) = −x(e), allora
K(x, y) =
1
.
|Λ|
Si verifica facilmente che K è connessa (irriducibile). Volendo ottenere una catena che sia anche
aperiodica si può modificare leggermente la procedura come segue: si sceglie a caso un sito e, con
probabilità ǫ non si cambia nulla con probabilità (1 − ǫ) si cambia segno a x(e).
Esempio 4 [continua]. Per generare una catena K su SN si può procedere come segue. Si
sceglie con probabilità 1/ N2 una coppia (i, j) e si passa da σ a τij σ, dove τij è la trasposizione
i ↔ j. Poiché le perumatazioni si possono scrivere come composizione di un numero finito di
trasposizioni la catena generata in questo modo è chiaramente connessa. Anche in questo caso si
può modificare leggeremente la catena in modo che con una probabilità posistiva rimanga ferma
rendendola aperiodica.
Volendo applicare il metodo di metropolis al caso continuo semplicemente sostituiamo le densità
alle probabilità. Il punto delicato è quando questa procedura sia applicabile, ossia sotto quali
ipotesi valga il teorema ergodico. Questo argomento ci porterebbe troppo lontano ci limitiamo
METODI MONTECARLO IN 4 ORE
9
quindi a vedere come si può definire una catena di Metropolis nel caso assolutamente continuo.
E’ sufficiente considerare la formula usata nel discreto dove si interpreti
K(x, y)
come una densità di transizione e supporre ancora che K(x, y) = 0 se e solo se K(x, y) = 0
Per semplicità possiamo anche supporre che π(x) sia positiva per ogni x in X. A questo punto
possiamo scrivere l’algoritmo e verificare che ancora genera una catena reversibile.
Esempio 1 [continua]. Possiamo pensare di usare un algoritmo di tipo random walk. La
proposal diventa: partiamo da x e andiamo in
y =x+ǫ
con ǫ variabile aleatoria Gaussiana di media zero e varianza assegnata, oppure con ǫ uniforme su
(−R, R). Ad esempio se ǫ è una Gaussiana di media zero e varianza σ 2 si avrebbe
K(x, y) = √
1
2πσ 2
e−
(x−y)2
2σ 2
.
Si noti che in questo caso K(x, y) = K(y, x).
Esercizio: Provare a programmare un semplice Random Walk Metropolis per approssimare la
media a posteriori che compare nell’Esempio 1.
5. Cenni di analisi spettrale
Supponiamo che X sia finito, X = {x1 , . . . , xN }. Sia Q(x, y) una catena irriducibile e reversibile
con distribuzione stazionaria π(x). Si può definire su
L2π = {f : X → R :
X
f 2 (x)π(x) < +∞} = RN
x
un prodotto scalare (che lo rende spazio di Hilbert) ponendo
< f, g >π =
X
f (x)g(x)π(x).
x
Per semplicita scriveremo solo < ·, · >, omettendo la π. A questo punto Q può essere pensato
come operatore da L2π in se,
Q[f ](x) =
X
Q(x, y)f (y)
y
Dire che Q è reversibile è equivalente a dire che Q è autoaggiunto. Ricordiamo che l’aggiunto di
un operatore Q, diciamo Q∗ è definito da
< f, Q∗ g >=< Qf, g >
e che Q è autoaggiunto se Q = Q∗ . Nel nostro caso se Q è reversibile allora
< Qf, g >=
XX
XX
[
Q(x, y)f (y)]g(x)π(x) =
f (y)g(x)Q(y, x)π(y)
x
y
y
x
10
FEDERICO BASSETTI
ma
< f, Qg >=
X
f (y)
y
e dunque
X
Q(y, x)g(x)π(y)
x
< Qf, g >=< f, Qg > .
Enunciamo il teorema di Perron-Frobenius:
Se Q è reversibile ed irriducibile Q ha autovalori reali in norma minori di 1 e ha autovalore 1
con molteplicità uno.
[Si veda ad esempio [1]]
Ora poiché X è finito gli autovalori sono in numero finito (non possiamo avere spettro continuo
né punti di accumulazione) e li indicheremo con
1 = β0 > β1 ≥ β2 ≥ · · · ≥ βN −1 ≥ −1.
Grazie al teorema spettrale, poiché Q è autoaggiunto possiamo anche scegliere una base ortonormale (rispetto a π) di auto-funzioni ψi : X → R. Ossia < ψi , ψj >= δij e Qψj (x) = βj ψj (x) e per
P
P
ogni f ∈ L2 (π) si ha f (x) = i≥0 ai ψi (x) (con ai =< f, ψi >π ) e x f (x)π(x) = a0 . Si noti che
se consideriamo Q come una matrice ψi non è altro che un autovettore destro di Q, si noti anche
che Q in generale non è simmetrica (come matrice) e quindi gli autovalori destri non coincidono
necessariamente con quelli sinistri.
Poniamo
β ∗ = max{β1 , |βN −1 |}.
Vogliamo studiare come β ∗ possa essere usato per dare una stima della velocità di converenza alla
distribuzione stazionaria.
Per fare ciò, consideriamo Q come operatore su RN ma facciamolo agire a destra, ossia
pQ(x) :=
X
p(y)Q(y, x).
y
Questa volta però su RN mettiamo il prodotto scalare
< p, q >1/π :=
X
p(x)q(x)
x
1
.
π(x)
Rispetto a tale prodotto scalare Q è autoaggiunto, infatti poiché Q è reversibile
Q(y, x) =
π(x)
Q(x, y)
π(y)
e dunque
< pQ, q >1/π :=
XX
x
p(y)Q(y, x)q(x)
y
XX
1
1
=
=< p, Qq >1/π .
q(x)Q(x, y)p(x)
π(x)
π(x)
y
x
Definiamo per j = 0, . . . , N − 1
φj (x) = π(x)ψj (x)
METODI MONTECARLO IN 4 ORE
11
e notiamo che, poiché ψ0 = 1,
φ0 = π.
Inoltre è immediato vedere che ψj è una base ortonormale rispetto al prodotto scalare < ·, · >1/π ,
infatti
X
< φi , φj >1/π =
φi (x)φj (x)
x
e dato un vettore f , poiché
X
1
=
ψi (x)ψj (x)π(x) = δij ,
π(x)
x
X
f (x) X
f (y)
=
π(y),
ψj (x)
ψj (y)
π(x)
π(y)
y
j
si ha
f (x) =
X
ψj (x)π(x)
X
ψj (y)f (y) =
y
j
X
φj (x) < f, φj >1/π .
j
Infine osserviamo che φi sono gli autovettori sinistri di Q infatti
φj Q(x) =
X
ψj (y)π(y)Q(y, x) =
y
X
ψj (y)π(x)Q(x, y) = βj ψj (x)π(x) = βj φj (x).
y
In particolare
vQn (x) =
X
φj (x)βjn < v, φj >1/π .
j
Ora scegliamo v = π0 − π e ricordiamo che φ0 = π per concludere che
< π0 − π, φ0 >1/π =
Per tanto
(π0 − π)Qn (x) =
X
j≥1
X
(π0 (x) − π(x)) = 0.
x
φj (x)βjn < π0 − π, φj >1/π
e quindi
X X
X
1
1
=
φj (x)φj (x)βjn βjn < π0 − π, φj >1/π < π0 − π, φj >1/π
[(π0 − π)Qn (x)]2
π(x)
π(x)
x
x
i,j≥1
=
X
i≥1
βi2n [< π0 − π, φi >1/π ]2 ≤ β∗2n
X
x
[(π0 − π)(x)]2
1
π(x)
n
Ora poiché πQ (x) = π(x) dalla precedente disuguaglianza otteniamo che
χ2 (π0 Qn , π) ≤ β∗2n χ2 (π0 , π),
dove, date due mdp p, q discrete (con lo stesso supporto), la divergenza χ2 fra p e q è definita come
χ2 (p, q) =
Si noti che χ2 non è una distanza.
X p(x) − q(x)
|
|2 q(x).
q(x)
x
Per certi versi è più naturale usare la distanza (norma) variazione totale
T V (Qn (x, ·), π) =
1X n
|Q (x, y) − π(y)|.
2 y
12
FEDERICO BASSETTI
Si noti che per Cauchy-Schwartz
n
2
4T V (Q (x, ·), π) =
hX
y
s
i2 X Qn (x, y) − π(y)
π(y) n
|Q (x, y) − π(y)| ≤
|2 π(y)
|
π(y)
π(y)
y
e quindi
T V (Qn (x, ·), π) ≤
1 n 2
β χ (δx , π).
2 ∗
Abbiamo cosı̀ dimostrato la seguente proposizione
Proposition 5.1 (Diaconis-Stroock). Sia Q una catena irriducibile e reversibile con distribuzione
stazionaria π, allora
T V (Qn (x, ·), π) ≤
s
1 − π(x) β∗n
.
π(x) 2
Dal punto di vista della simulazione è altrettanto importante il seguente risultato.
Proposition 5.2. Sia
n
1X
f (ξi )
µ̂n =
n i=1
con ξi catena di Markov con matrice di transizione Q, Q reversibile e irriducibile. Allora
X
1 + βk
2
.
σ∞
:= lim nV arπ (µ̂n ) =
|ak |2
n→+∞
1 − βk
k≥1
[Si veda ad esempio Thm 6.5 in [1]]
2
Dare una stima di quanto sia grande σ∞
serve per valutare la bontà di uno stimatore basato
sulla catena Q.
In particolare dalla proposizione precedente si vede subito che
2
σ∞
≤
2
V arπ (f (ξ1 )),
1 − β1
una stima basata solo sullo spectral gap 1 − β1 .
Questi cenni di teoria spettrale mostrano come sia interessante (almeno da un punto di vista
matematico) essere in grado di controllare lo spectral gap (o più in generale β∗ ) per avere informazioni sulla bontà degli stimatori.
References
bremaud
[1] Brémaud, P. Markov chains. Gibbs fields, Monte Carlo simulation, and queues. . Texts in Applied Mathematics,
31. Springer-Verlag, New York, 1999.