METODI MONTECARLO IN 4 ORE Tutto quello che avreste voluto

Transcript

METODI MONTECARLO IN 4 ORE
FEDERICO BASSETTI
Tutto quello che avreste voluto sapere sui metodi montecarlo ma non avete mai osato chiedere...
in 4 ore di lezione
1. Esempi
Esempio 1. Consideriamo il problema statistico bayesiano di stimare la media incognita in una
successione di osservazioni (y1 , . . . , yn ) dove si supponga la verosimiglianza gaussiana di varianza
nota, diciamo 1, e media incongita. In altri termini supponiamo che la distribuzione di yi dato il
parametro θ abbia densità
e−(y−θ)
√
f (y|θ) =
2π
2
/2
e assumiamo come prior per θ una distribuzione di Cauchy di parametri (τ 2 , µ), ossia assumiamo
che θ abbia densità
π(θ) =
La densità congiunta è
n
Y
i=1
τ2
1
τ
.
2
+ (θ − µ) π
f (yi |θ)π(θ)
e il teorema di Bayes implica che la posterior, date le prime n osservazioni (y1 , . . . , yn ), è
πy1 ,...,yn (θ) =
1 − Pni=1 (yi −θ)2 /2
1
e
2
Z
τ + (θ − µ)2
dove
Z=
Z
dθe−
Pn
i=1 (yi −θ)
R
2
/2
1
.
τ 2 + (θ − µ)2
Questo integrale non può essere fatto per via analitica, cosı̀ come l’integrale che fornisce lo stimatore bayesiano a posteriori della media
Pn
R
2
1
θe− i=1 (yi −θ) /2 τ 2 +(θ−µ)
2 dθ
R
.
θB = R − Pn (y −θ)2 /2
1
i
i=1
e
τ 2 +(θ−µ)2 dθ
R
Come possiamo approssimarlo?
Esempio 2. [NSAW] Consideriamo il problema di contare il numero di percorsi che su un
reticolo quadrato 10 × 10 congiungono il vertice (0, 0) al verice (10, 10) e che non si intersechino. Il
numero di tali percorsi è 1, 568... × 1024 . C’è un modo per stimarlo senza doverli enumerare tutti?
Date: December 21, 2009.
1
2
FEDERICO BASSETTI
Esempio 3. [Modelli di Spin] Consideriamo un reticolo finito Λ e l’insieme X = {x : Λ → Z2 }.
Per ogni nodo e del reticolo Λ, x(e) in Z2 = {−1, +1} rappresenta il valore dello spin nel sito
(nodo) e. In meccanica statistica si associa ad una configurazione x in X un’energia H(x) e, di
conseguenza, una probabilità
1 −βH(x)
e
Z
P
con β uguale all’inverso della temperatura e Z = x e−βH(x) . Un’esempio tipico è il modello di
π(x) =
Ising su un reticolo dove
H(x) = −
XX
e v∈Ue
x(e)x(v) − h
X
x(e)
e
dove Ue sono i vertici ”primi vicini” di e e h è una costante. Tipicamente le dimensioni del reticolo
sono 64 × 64 o 128 × 128 e rendono il calcolo esplicito di Z proibitivo. Un esempio più semplice
da maneggiare è il cosiddetto modello di Cuire-Weiss (modello in campo medio), in questo caso
Λ = {1, . . . , N } e
H(x) = −
1 XX
x(i)x(j).
2N i j
Esempio 4. Sia Sn il gruppo delle permutazioni su n oggetti. Una famiglia di misure di
probabilità su Sn usata in varie applicazioni (di tipo psicologico-statistico) è
π(σ) =
θd(σ,σ0 )
Z
dove: θ è una costante in (0, 1], σ0 è una data permutazione,
Z=
X
θd(σ,σ0 )
X
|σ(i) − σ0 (i)|.
σ
e d è una distanza su Sn , ad esempio
d(σ, σ0 ) =
i
Per n grande Z è impossibile da calcolare, ad esempio se n = 52 (52)! (i modi in cui potete
mescolare un mazzo di carte) è dell’ordine di 1062 .
2. Montecarlo e Importance samplig
Se (ξn )n è una successione di variabili aleatorie (v.a.) indipendenti ed identicamente distribuite
(i.i.d.) con distribuzione π e f una funzione reale tale che
Eπ |f (ξ1 )| < +∞
allora per la legge dei grandi numeri
n
µ̂n :=
1X
f (ξi )
n i=1
3
converge quasi certamente a
µ = Eπ [f (ξ1 )] =
Z
f (x)π(dx).
X
Se poi σ 2 = V arπ (f (ξ1 )) < +∞ il teorema centrale implica che
1
µ̂n = µ + √ Gn
n
Pn
√
con Gn = ( i=1 (f (ξi ) − µ)/ n) che converge in legge ad una Normale di media zero e di varianza
√
σ 2 . Si noti che Gn / n rappresenta l’errore che commettiamo stimando µ con µ̂n . Osserviamo
anche l’ovvio fatto
V arπ (µ̂n ) =
1 2
σ .
n
Usare la media empirica µ̂n come stima di µ è il metodo Monte-Carlo. La bontà della stima
dipenderà solo da n e da V arπ (f (ξ1 )). A partià di n la stima sarà migliore quando σ 2 sarà più
piccola.
Il principale difetto del metodo montecarlo puro è quello che per usarlo occorre essere in grado
di generare una successione di v.a. indipendenti con legge π. Se π è complicata ciò può essere
infattibile. Spesso π è nota analiticamente a meno di costanti moltiplicative (la costante di normalizzazione degli esempi di Sezione 1) e spesso è proprio questa costante il primo interessante
oggetto da stimare.
Supponiamo che sia data una mdp ρ con ρ >> π e poniamo
w(x) =
dπ
(x).
dρ
L’importance sampling si basa sulla banale osservazione che
Z
Z
Eπ (f (ξ1 )) = f (x)π(dx) = f (x)w(x)ρ(dx) = Eρ (f (ξ1 )w(ξ1 )).
Se µ è finito allora
n
µ̃n :=
1X
f (ξi )w(ξi )
n i=1
è una stima di µ quando ξi sono i.i.d. con legge ρ. Infatti la legge dei grandi numeri implica
che anche µ̃n converge quasi certamente a µ. In questo caso dobbiamo ancora conoscere π (per
calcolare w), tuttavia ci possono essere dei vantaggi. Il primo è che potrebbe essere più facile
generare da ρ che non da π. Inoltre osserviamo che
Z
nV arρ (µ̃n ) = f 2 w2 dρ − µ2 .
Quindi se
Z
2
2
f w dρ <
Z
f 2 dπ
la varianza di µ̃n può risultare più piccola della varianza di µ̂n . Occorre naturalmente prestare
attenzione perché può anche accadere che V arρ (µ̃n ) > V arµ (µ̂n ).
4
FEDERICO BASSETTI
Esempio stupido. Sia X = [0, 1], π(dx) = dx, ρ(dx) = ( 23 I(0,0.5] (x) + 21 I(0.5,1) (x))dx. Allora
w(x) = 23 I(0,0.5] (x) + 2I(0.5,1) (x). Se f (x) = I(0,0.5] (x) segue che
Z
Z
1
1
2 2
f w dρ = < f 2 dπ =
3
2
mentre se f (x) = I(0.5,1) (x)
Z
f 2 w2 dρ = 1 >
Z
f 2 dπ =
1
.
2
Esempio 2 [continua]. Il numero di NSAW, diciamo N = |N SAW | si può scrivere come
X
γ∈N SAW
|N SAW |
1
.
|N SAW |
Ora consideriamo un insieme di percorsi Γ che contenga i NSAW. Γ sarà l’insieme di tutte le realizzazioni del seguente processo stocastico. Partiamo da (0, 0) e con probabilità uniforme scegliamo
uno dei possibili vicini, proseguiamo fino a che non arriviamo al vertice (10, 10). Ad esempio al
passo 1 possiamo andare con probabilità 1/2 in (0, 1) o (1, 0), supponiamo di essere andati in
(1, 0), con probabiltà 1/3 possiamo andare in (2, 0) in (0, 0) o in (1, 1) e cosı̀ via. E’ chiaro che
risulta semplice determinare la probailità di un dato γ ottenuta in questo modo, indichiamola con
ρ(γ). Poniamo ora
f (γ) = I{γ ∈ N SAW }|N SAW |.
Si noti che non abbiamo bisogno di generare tutto il percorso per sapere se γ non è NSAW,
appena il nostro processo torna sui propri passi possiamo porre f (γ) = 0. A questo punto posto
π(γ) := I{γ ∈ N SAW }/N abbiamo
N=
X
f (γ)π(γ) =
γ∈Γ
X
γ∈Γ
f (γ)
π(γ)
π(γ).
ρ(γ)
Quindi per ottenere uno stimatore importance sampling generiamo come indicato prima dei percorsi γi indipendenti e poniamo
n
n
1X
1X
π(γi )
1
=
.
f (γi )
I{γi ∈ N SAW }
n i=1
ρ(γi )
n i=1
ρ(γi )
Si noti che in altri termini generiamo uno alla volta in modo indipendente i nostri γi , se mentre
costruiamo γi questo torna su se stesso lo scartiamo e ripartiamo, se arriva a (10, 10) senza intersecarsi lo teniamo e lo pesiamo con 1/ρ(γi ) (facile da calcolare mentre generiamo γi ) alla fine
dividiamo tutto per il numero di percorsi generati (anche quelli falliti!).
3. Richiami minimi di catene di Markov su spazi discreti
Anche se, come mostrato nell’Esempio 1, in molte circostanze si può essere interessati ad approssimare integrali e non somme presentiamo l’algoritmo di Metropolis solo nel caso discreto.
In questo modo possiamo enunciare alcuni risultati precisi senza bisogno di ricorrere a nozioni
5
complicate. Tutto ciò che sfrutteremo sarà un minimo di teoria sulle catene di Markov a stati
discreti.
Sia X un insieme numerabile, π0 (x) una mdp su X, e Q(x, y) matrice infinita di transizione.
P
Osssia Q(x, y) ≥ 0 per ogni (x, y) ∈ X 2 e y Q(x, y) = 1.
Una successione (ξn )n≥0 è una catena di Markov omogenea (CMO) caratterizzata da (π0 , Q),
se
P {ξ0 = x} = π0 (x)
e
P {ξn+1 = y|ξ0 = x0 , . . . , ξn−1 = xn−1 , ξn = x} = P {ξn+1 = y|ξn = x} = Q(x, y)
per ogni x, y, x0 , . . . , xn−1 . Una CMO è caratterizzata essenzialmente da Q.
Supponiamo che ξn sia una CMO caratterizzata da (Q, δx ) allora
P {ξn = y} = P {ξn = y|ξ0 = x} = Qn (x, y),
dove Qn è la normale potenza di matrice (eventualmente infinita). Ricordiamo che date due
matrici Q1 e Q2
[Q1 Q2 ](x, y) =
X
Q1 (x, z)Q2 (z, y)
z
quindi
Q2 (x, y) =
X
Q(x, z)Q(z, y)
z
e, per ricorrenza su n,
Qn (x, y) :=
X
Q(x, z)Qn−1 (z, y).
z
Ricordiamo anche che data una mdp π0
[π0 Q](x) =
X
π0 (y)Q(y, x)
X
π0 (y)Qn (y, x).
y
e dunque
[π0 Qn ](x) :=
y
Se ξn è una catena (Q, π0 )
P {ξ1 = y} = π0 Q(y)
e in generale
P {ξn = y} = π0 Qn (y).
Una mdp π è detta stazionaria per Q se
π(x) =
X
π(y)Q(y, x)
y
per ogni x ossia se
πQ = π.
6
FEDERICO BASSETTI
Una catena è detta reversibile per π se
π(x)Q(y, x) = π(x)Q(x, y)
per ogni x, y. L’equazione precedente è nota come equazione di bilancio dettagliato.
Una Q è detta irriducibile, o connessa, se per ogni x, y esiste n = n(x, y) tale che data una
catena (ξn )n≥0 caratterizzata da (Q, δx ) (ossia che parta da x e che abbia nucleo di transizione Q)
P {ξn = y|ξ0 = x} > 0.
In termini matrticiali se per ogni x, y esiste n = n(x, y) tale che
Qn (x, y) > 0.
Si noti che questo vuol dire che la matrice di partenza, che ha elementi positivi o nulli, elevata ad
un’opportuna potenza ha solo elementi positivi.
Una catena Q è detta aperiodica se
M CD{n : Qn (x, x) > 0} = 1
∀x.
Si definisca Tx la variabile aleatoria
min{j ≥ 1 : ξj = x}
dove ξn è CMO caratterizzata da (Q, δx ). Ossia il primo istante in cui una catena che aprte da x
torna in x. Una catena Q si dice ricorrente positiva se E[Tx ] < +∞ per ogni x.
Theorem 3.1.
(1) Una CMO irriducibile su X finito è ricorrente positiva.
(2) Una CMO irriducibile è ricorrente positiva se e solo se ammette una distribuzione stazionaria.
In questo caso la distribuzione stazionaria è unica.
[Si veda ad esempio Thms 3.1- 3.3 [1]]
Alcune osservazioni semplici:
P1) Se Q(x, x) > 0 per ogni x allora Q è aperiodica.
P2) Se Q è irriducibile su uno spazio finito allora ammette un’unica mdp invariante.
P3) Se Q è π reverisibile allora π è invariante, infatti
X
π(y)Q(y, x) =
y
X
y
π(x)Q(x, y) = π(x)
X
Q(x, y) = π(x).
y
P4) Combinando quanto osservato sopra con il teorema si ha che una CMO irriducibile e πreversibile è ricorrente positiva.
7
Theorem 3.2 (Teorema Ergodico). Sia (ξ)n≥0 una CMO ricorrente positiva e irriducibile. Sia
π la sua unica distribuzione stazionaria e sia f una funzione reale tale che
X
x
|f (x)|π(x) < +∞.
Allora
n
converge quasi certamente a
è anche aperiodica
P
1X
f (ξi )
n i=1
x
f (x)π(x) qualunque sia la distribuzione π0 . Inoltre se la catena
lim Qn (x, y) = π(y)
n→+∞
per ogni y e x.
[Si veda ad esempio Thm 4.1 [1]]
4. Algoritmo di Metropolis
Per semplicità rimaniamo nel discreto. L’idea dell’algoritmo di Metropolis è quella di partire da
una catena K (proposal) e modificarla per costruire una catena M che abbia come distribuzione
stazionaria π. In questo modo si può usare il Teorema Ergodico ed utilizzare la media empirica
come stima della media. Il fatto importante è che nella costruzione della nuova catena serve
conoscere π a meno di una costante di normalizzazione.
Supponiamo che
K(x, y) = 0 se e solo se
Poniamo
dove
K(y, x) = 0

 K(x, y)A(x, y)
M (x, y) =
 K(x, x) + P
z6=x K(x, z)(1 − A(x, z))
A(x, y) := min
La catena ”a parole” funziona cosı̀:
x 6= y
x=y
π(y)K(y, x)
,1
π(x)K(x, y)
• partiamo da x
• proponiamo una mossa y con K
• se
π(y)K(y,x)
π(x)K(x,y)
è maggiore o uguale ad uno accettiamo altrimenti tiriamo una monetina e
accettiamo con probabilità
π(y)K(y,x)
π(x)K(x,y) ,
se non accettiamo la mossa rimaniamo fermi in x.
Osservazione: se K è simmetrica allora A(x, y) = π(y)/π(x). In questo caso si accetta senz’altro
la mossa porposta se π(y) > π(x), ossia se ci si muove in una zona dove la probabilità è più alta,
invece se ci si muove in una zona dove la probabiltà è più bassa si randomizza la scelta con
probabilità proporzionale al rapporto fra le probabilità.
8
FEDERICO BASSETTI
Proposition 4.1. M è π-reversibile. Inoltre se K è aperiodica e irriducibile M è π-reversibile
aperiodica e irriducibile e dunque M è ricorrente positiva.
Dim. Verifichiamo solo che M sia π reversibile. Se x = y non c’e’ nulla da dimostrare. Sia
x 6= y. Facciamo solo il caso in cui
π(y)K(y,x)
π(x)K(x,y)
> 1, gli altri casi sono analoghi.
π(x)M (x, y) = π(x)K(x, y) = π(y)M (y, x).
Due esempi base.
Independent sampler. In questo caso si sceglie
K(x, y) = ρ(y)
dove ρ è una data mdp. Per x 6= y
M (x, y) = ρ(y) min{1,
π(y) ρ(x)
}
π(x) ρ(y)
Random walk sampler In questo caso si fissa una metrica su X e una funzione positiva g
K(x, y) = P
g(d(x, y))
.
z∈X g(d(x, z))
Tipicamente g(r) = 0 se r ≥ R. Ad esempio su un reticolo quadrato bidimensionale posso fare un
comune random walk simmetrico scegliendo con probabilità 1/4 uno dei vicini di x.
Esempio 3 [continua]. L’algoritmo di Metropolis nasce proprio per simulare modelli di spin.
In questo caso la più classica delle scelte è prendere a caso un sito e di Λ e modificare il suo spin
cambiandoglo di segno. Formalmente, dato x per ogni e in Λ sia y tale che y(f ) = x(f ) per ogni
f 6= e e y(e) = −x(e), allora
K(x, y) =
1
.
|Λ|
Si verifica facilmente che K è connessa (irriducibile). Volendo ottenere una catena che sia anche
aperiodica si può modificare leggermente la procedura come segue: si sceglie a caso un sito e, con
probabilità ǫ non si cambia nulla con probabilità (1 − ǫ) si cambia segno a x(e).
Esempio 4 [continua]. Per generare una catena K su SN si può procedere come segue. Si
sceglie con probabilità 1/ N2 una coppia (i, j) e si passa da σ a τij σ, dove τij è la trasposizione
i ↔ j. Poiché le perumatazioni si possono scrivere come composizione di un numero finito di
trasposizioni la catena generata in questo modo è chiaramente connessa. Anche in questo caso si
può modificare leggeremente la catena in modo che con una probabilità posistiva rimanga ferma
rendendola aperiodica.
Volendo applicare il metodo di metropolis al caso continuo semplicemente sostituiamo le densità
alle probabilità. Il punto delicato è quando questa procedura sia applicabile, ossia sotto quali
ipotesi valga il teorema ergodico. Questo argomento ci porterebbe troppo lontano ci limitiamo
9
quindi a vedere come si può definire una catena di Metropolis nel caso assolutamente continuo.
E’ sufficiente considerare la formula usata nel discreto dove si interpreti
K(x, y)
come una densità di transizione e supporre ancora che K(x, y) = 0 se e solo se K(x, y) = 0
Per semplicità possiamo anche supporre che π(x) sia positiva per ogni x in X. A questo punto
possiamo scrivere l’algoritmo e verificare che ancora genera una catena reversibile.
Esempio 1 [continua]. Possiamo pensare di usare un algoritmo di tipo random walk. La
proposal diventa: partiamo da x e andiamo in
y =x+ǫ
con ǫ variabile aleatoria Gaussiana di media zero e varianza assegnata, oppure con ǫ uniforme su
(−R, R). Ad esempio se ǫ è una Gaussiana di media zero e varianza σ 2 si avrebbe
K(x, y) = √
1
2πσ 2
e−
(x−y)2
2σ 2
.
Si noti che in questo caso K(x, y) = K(y, x).
Esercizio: Provare a programmare un semplice Random Walk Metropolis per approssimare la
media a posteriori che compare nell’Esempio 1.
5. Cenni di analisi spettrale
Supponiamo che X sia finito, X = {x1 , . . . , xN }. Sia Q(x, y) una catena irriducibile e reversibile
con distribuzione stazionaria π(x). Si può definire su
L2π = {f : X → R :
X
f 2 (x)π(x) < +∞} = RN
x
un prodotto scalare (che lo rende spazio di Hilbert) ponendo
< f, g >π =
X
f (x)g(x)π(x).
x
Per semplicita scriveremo solo < ·, · >, omettendo la π. A questo punto Q può essere pensato
come operatore da L2π in se,
Q[f ](x) =
X
Q(x, y)f (y)
y
Dire che Q è reversibile è equivalente a dire che Q è autoaggiunto. Ricordiamo che l’aggiunto di
un operatore Q, diciamo Q∗ è definito da
< f, Q∗ g >=< Qf, g >
e che Q è autoaggiunto se Q = Q∗ . Nel nostro caso se Q è reversibile allora
< Qf, g >=
XX
XX
[
Q(x, y)f (y)]g(x)π(x) =
f (y)g(x)Q(y, x)π(y)
x
y
y
x
10
FEDERICO BASSETTI
ma
< f, Qg >=
X
f (y)
y
e dunque
X
Q(y, x)g(x)π(y)
x
< Qf, g >=< f, Qg > .
Enunciamo il teorema di Perron-Frobenius:
Se Q è reversibile ed irriducibile Q ha autovalori reali in norma minori di 1 e ha autovalore 1
con molteplicità uno.
[Si veda ad esempio [1]]
Ora poiché X è finito gli autovalori sono in numero finito (non possiamo avere spettro continuo
né punti di accumulazione) e li indicheremo con
1 = β0 > β1 ≥ β2 ≥ · · · ≥ βN −1 ≥ −1.
Grazie al teorema spettrale, poiché Q è autoaggiunto possiamo anche scegliere una base ortonormale (rispetto a π) di auto-funzioni ψi : X → R. Ossia < ψi , ψj >= δij e Qψj (x) = βj ψj (x) e per
P
P
ogni f ∈ L2 (π) si ha f (x) = i≥0 ai ψi (x) (con ai =< f, ψi >π ) e x f (x)π(x) = a0 . Si noti che
se consideriamo Q come una matrice ψi non è altro che un autovettore destro di Q, si noti anche
che Q in generale non è simmetrica (come matrice) e quindi gli autovalori destri non coincidono
necessariamente con quelli sinistri.
Poniamo
β ∗ = max{β1 , |βN −1 |}.
Vogliamo studiare come β ∗ possa essere usato per dare una stima della velocità di converenza alla
distribuzione stazionaria.
Per fare ciò, consideriamo Q come operatore su RN ma facciamolo agire a destra, ossia
pQ(x) :=
X
p(y)Q(y, x).
y
Questa volta però su RN mettiamo il prodotto scalare
< p, q >1/π :=
X
p(x)q(x)
x
1
.
π(x)
Rispetto a tale prodotto scalare Q è autoaggiunto, infatti poiché Q è reversibile
Q(y, x) =
π(x)
Q(x, y)
π(y)
e dunque
< pQ, q >1/π :=
XX
x
p(y)Q(y, x)q(x)
y
XX
1
1
=
=< p, Qq >1/π .
q(x)Q(x, y)p(x)
π(x)
π(x)
y
x
Definiamo per j = 0, . . . , N − 1
φj (x) = π(x)ψj (x)
11
e notiamo che, poiché ψ0 = 1,
φ0 = π.
Inoltre è immediato vedere che ψj è una base ortonormale rispetto al prodotto scalare < ·, · >1/π ,
infatti
X
< φi , φj >1/π =
φi (x)φj (x)
x
e dato un vettore f , poiché
X
1
=
ψi (x)ψj (x)π(x) = δij ,
π(x)
x
X
f (x) X
f (y)
=
π(y),
ψj (x)
ψj (y)
π(x)
π(y)
y
j
si ha
f (x) =
X
ψj (x)π(x)
X
ψj (y)f (y) =
y
j
X
φj (x) < f, φj >1/π .
j
Infine osserviamo che φi sono gli autovettori sinistri di Q infatti
φj Q(x) =
X
ψj (y)π(y)Q(y, x) =
y
X
ψj (y)π(x)Q(x, y) = βj ψj (x)π(x) = βj φj (x).
y
In particolare
vQn (x) =
X
φj (x)βjn < v, φj >1/π .
j
Ora scegliamo v = π0 − π e ricordiamo che φ0 = π per concludere che
< π0 − π, φ0 >1/π =
Per tanto
(π0 − π)Qn (x) =
X
j≥1
X
(π0 (x) − π(x)) = 0.
x
φj (x)βjn < π0 − π, φj >1/π
e quindi
X X
X
1
1
=
φj (x)φj (x)βjn βjn < π0 − π, φj >1/π < π0 − π, φj >1/π
[(π0 − π)Qn (x)]2
π(x)
π(x)
x
x
i,j≥1
=
X
i≥1
βi2n [< π0 − π, φi >1/π ]2 ≤ β∗2n
X
x
[(π0 − π)(x)]2
1
π(x)
n
Ora poiché πQ (x) = π(x) dalla precedente disuguaglianza otteniamo che
χ2 (π0 Qn , π) ≤ β∗2n χ2 (π0 , π),
dove, date due mdp p, q discrete (con lo stesso supporto), la divergenza χ2 fra p e q è definita come
χ2 (p, q) =
Si noti che χ2 non è una distanza.
X p(x) − q(x)
|
|2 q(x).
q(x)
x
Per certi versi è più naturale usare la distanza (norma) variazione totale
T V (Qn (x, ·), π) =
1X n
|Q (x, y) − π(y)|.
2 y
12
FEDERICO BASSETTI
Si noti che per Cauchy-Schwartz
n
2
4T V (Q (x, ·), π) =
hX
y
s
i2 X Qn (x, y) − π(y)
π(y) n
|Q (x, y) − π(y)| ≤
|2 π(y)
|
π(y)
π(y)
y
e quindi
T V (Qn (x, ·), π) ≤
1 n 2
β χ (δx , π).
2 ∗
Abbiamo cosı̀ dimostrato la seguente proposizione
Proposition 5.1 (Diaconis-Stroock). Sia Q una catena irriducibile e reversibile con distribuzione
stazionaria π, allora
T V (Qn (x, ·), π) ≤
s
1 − π(x) β∗n
.
π(x) 2
Dal punto di vista della simulazione è altrettanto importante il seguente risultato.
Proposition 5.2. Sia
n
1X
f (ξi )
µ̂n =
n i=1
con ξi catena di Markov con matrice di transizione Q, Q reversibile e irriducibile. Allora
X
1 + βk
2
.
σ∞
:= lim nV arπ (µ̂n ) =
|ak |2
n→+∞
1 − βk
k≥1
[Si veda ad esempio Thm 6.5 in [1]]
2
Dare una stima di quanto sia grande σ∞
serve per valutare la bontà di uno stimatore basato
sulla catena Q.
In particolare dalla proposizione precedente si vede subito che
2
σ∞
≤
2
V arπ (f (ξ1 )),
1 − β1
una stima basata solo sullo spectral gap 1 − β1 .
Questi cenni di teoria spettrale mostrano come sia interessante (almeno da un punto di vista
matematico) essere in grado di controllare lo spectral gap (o più in generale β∗ ) per avere informazioni sulla bontà degli stimatori.
References
bremaud
[1] Brémaud, P. Markov chains. Gibbs fields, Monte Carlo simulation, and queues. . Texts in Applied Mathematics,
31. Springer-Verlag, New York, 1999.

METODI MONTECARLO IN 4 ORE Tutto quello che avreste voluto

Transcript

Documenti analoghi

Numero di telefono - Confagricoltura Umbria

The Space Cinema è una catena di multisale cinematografiche

Gli Appennini (p. 84 s.) • Gli Appennini sono una catena montuosa

L`IISS incontra Catena Fiorello

SPIRALE A PASSO VARIABILE SPIRALE ACCOPPIATA DISEGNO

Motoseghe : HITACHI CS40SB

Cisternino: sospesa la presentazione del libro "L`amore a due passi

Schede Iscrizione ClimbingContest 2013

Foglio di esercizi n. 3