METODI MONTECARLO IN 4 ORE Tutto quello che avreste voluto
Transcript
METODI MONTECARLO IN 4 ORE Tutto quello che avreste voluto
METODI MONTECARLO IN 4 ORE FEDERICO BASSETTI Tutto quello che avreste voluto sapere sui metodi montecarlo ma non avete mai osato chiedere... in 4 ore di lezione 1. Esempi Esempio 1. Consideriamo il problema statistico bayesiano di stimare la media incognita in una successione di osservazioni (y1 , . . . , yn ) dove si supponga la verosimiglianza gaussiana di varianza nota, diciamo 1, e media incongita. In altri termini supponiamo che la distribuzione di yi dato il parametro θ abbia densità e−(y−θ) √ f (y|θ) = 2π 2 /2 e assumiamo come prior per θ una distribuzione di Cauchy di parametri (τ 2 , µ), ossia assumiamo che θ abbia densità π(θ) = La densità congiunta è n Y i=1 τ2 1 τ . 2 + (θ − µ) π f (yi |θ)π(θ) e il teorema di Bayes implica che la posterior, date le prime n osservazioni (y1 , . . . , yn ), è πy1 ,...,yn (θ) = 1 − Pni=1 (yi −θ)2 /2 1 e 2 Z τ + (θ − µ)2 dove Z= Z dθe− Pn i=1 (yi −θ) R 2 /2 1 . τ 2 + (θ − µ)2 Questo integrale non può essere fatto per via analitica, cosı̀ come l’integrale che fornisce lo stimatore bayesiano a posteriori della media Pn R 2 1 θe− i=1 (yi −θ) /2 τ 2 +(θ−µ) 2 dθ R . θB = R − Pn (y −θ)2 /2 1 i i=1 e τ 2 +(θ−µ)2 dθ R Come possiamo approssimarlo? Esempio 2. [NSAW] Consideriamo il problema di contare il numero di percorsi che su un reticolo quadrato 10 × 10 congiungono il vertice (0, 0) al verice (10, 10) e che non si intersechino. Il numero di tali percorsi è 1, 568... × 1024 . C’è un modo per stimarlo senza doverli enumerare tutti? Date: December 21, 2009. 1 2 FEDERICO BASSETTI Esempio 3. [Modelli di Spin] Consideriamo un reticolo finito Λ e l’insieme X = {x : Λ → Z2 }. Per ogni nodo e del reticolo Λ, x(e) in Z2 = {−1, +1} rappresenta il valore dello spin nel sito (nodo) e. In meccanica statistica si associa ad una configurazione x in X un’energia H(x) e, di conseguenza, una probabilità 1 −βH(x) e Z P con β uguale all’inverso della temperatura e Z = x e−βH(x) . Un’esempio tipico è il modello di π(x) = Ising su un reticolo dove H(x) = − XX e v∈Ue x(e)x(v) − h X x(e) e dove Ue sono i vertici ”primi vicini” di e e h è una costante. Tipicamente le dimensioni del reticolo sono 64 × 64 o 128 × 128 e rendono il calcolo esplicito di Z proibitivo. Un esempio più semplice da maneggiare è il cosiddetto modello di Cuire-Weiss (modello in campo medio), in questo caso Λ = {1, . . . , N } e H(x) = − 1 XX x(i)x(j). 2N i j Esempio 4. Sia Sn il gruppo delle permutazioni su n oggetti. Una famiglia di misure di probabilità su Sn usata in varie applicazioni (di tipo psicologico-statistico) è π(σ) = θd(σ,σ0 ) Z dove: θ è una costante in (0, 1], σ0 è una data permutazione, Z= X θd(σ,σ0 ) X |σ(i) − σ0 (i)|. σ e d è una distanza su Sn , ad esempio d(σ, σ0 ) = i Per n grande Z è impossibile da calcolare, ad esempio se n = 52 (52)! (i modi in cui potete mescolare un mazzo di carte) è dell’ordine di 1062 . 2. Montecarlo e Importance samplig Se (ξn )n è una successione di variabili aleatorie (v.a.) indipendenti ed identicamente distribuite (i.i.d.) con distribuzione π e f una funzione reale tale che Eπ |f (ξ1 )| < +∞ allora per la legge dei grandi numeri n µ̂n := 1X f (ξi ) n i=1 METODI MONTECARLO IN 4 ORE 3 converge quasi certamente a µ = Eπ [f (ξ1 )] = Z f (x)π(dx). X Se poi σ 2 = V arπ (f (ξ1 )) < +∞ il teorema centrale implica che 1 µ̂n = µ + √ Gn n Pn √ con Gn = ( i=1 (f (ξi ) − µ)/ n) che converge in legge ad una Normale di media zero e di varianza √ σ 2 . Si noti che Gn / n rappresenta l’errore che commettiamo stimando µ con µ̂n . Osserviamo anche l’ovvio fatto V arπ (µ̂n ) = 1 2 σ . n Usare la media empirica µ̂n come stima di µ è il metodo Monte-Carlo. La bontà della stima dipenderà solo da n e da V arπ (f (ξ1 )). A partià di n la stima sarà migliore quando σ 2 sarà più piccola. Il principale difetto del metodo montecarlo puro è quello che per usarlo occorre essere in grado di generare una successione di v.a. indipendenti con legge π. Se π è complicata ciò può essere infattibile. Spesso π è nota analiticamente a meno di costanti moltiplicative (la costante di normalizzazione degli esempi di Sezione 1) e spesso è proprio questa costante il primo interessante oggetto da stimare. Supponiamo che sia data una mdp ρ con ρ >> π e poniamo w(x) = dπ (x). dρ L’importance sampling si basa sulla banale osservazione che Z Z Eπ (f (ξ1 )) = f (x)π(dx) = f (x)w(x)ρ(dx) = Eρ (f (ξ1 )w(ξ1 )). Se µ è finito allora n µ̃n := 1X f (ξi )w(ξi ) n i=1 è una stima di µ quando ξi sono i.i.d. con legge ρ. Infatti la legge dei grandi numeri implica che anche µ̃n converge quasi certamente a µ. In questo caso dobbiamo ancora conoscere π (per calcolare w), tuttavia ci possono essere dei vantaggi. Il primo è che potrebbe essere più facile generare da ρ che non da π. Inoltre osserviamo che Z nV arρ (µ̃n ) = f 2 w2 dρ − µ2 . Quindi se Z 2 2 f w dρ < Z f 2 dπ la varianza di µ̃n può risultare più piccola della varianza di µ̂n . Occorre naturalmente prestare attenzione perché può anche accadere che V arρ (µ̃n ) > V arµ (µ̂n ). 4 FEDERICO BASSETTI Esempio stupido. Sia X = [0, 1], π(dx) = dx, ρ(dx) = ( 23 I(0,0.5] (x) + 21 I(0.5,1) (x))dx. Allora w(x) = 23 I(0,0.5] (x) + 2I(0.5,1) (x). Se f (x) = I(0,0.5] (x) segue che Z Z 1 1 2 2 f w dρ = < f 2 dπ = 3 2 mentre se f (x) = I(0.5,1) (x) Z f 2 w2 dρ = 1 > Z f 2 dπ = 1 . 2 Esempio 2 [continua]. Il numero di NSAW, diciamo N = |N SAW | si può scrivere come X γ∈N SAW |N SAW | 1 . |N SAW | Ora consideriamo un insieme di percorsi Γ che contenga i NSAW. Γ sarà l’insieme di tutte le realizzazioni del seguente processo stocastico. Partiamo da (0, 0) e con probabilità uniforme scegliamo uno dei possibili vicini, proseguiamo fino a che non arriviamo al vertice (10, 10). Ad esempio al passo 1 possiamo andare con probabilità 1/2 in (0, 1) o (1, 0), supponiamo di essere andati in (1, 0), con probabiltà 1/3 possiamo andare in (2, 0) in (0, 0) o in (1, 1) e cosı̀ via. E’ chiaro che risulta semplice determinare la probailità di un dato γ ottenuta in questo modo, indichiamola con ρ(γ). Poniamo ora f (γ) = I{γ ∈ N SAW }|N SAW |. Si noti che non abbiamo bisogno di generare tutto il percorso per sapere se γ non è NSAW, appena il nostro processo torna sui propri passi possiamo porre f (γ) = 0. A questo punto posto π(γ) := I{γ ∈ N SAW }/N abbiamo N= X f (γ)π(γ) = γ∈Γ X γ∈Γ f (γ) π(γ) π(γ). ρ(γ) Quindi per ottenere uno stimatore importance sampling generiamo come indicato prima dei percorsi γi indipendenti e poniamo n n 1X 1X π(γi ) 1 = . f (γi ) I{γi ∈ N SAW } n i=1 ρ(γi ) n i=1 ρ(γi ) Si noti che in altri termini generiamo uno alla volta in modo indipendente i nostri γi , se mentre costruiamo γi questo torna su se stesso lo scartiamo e ripartiamo, se arriva a (10, 10) senza intersecarsi lo teniamo e lo pesiamo con 1/ρ(γi ) (facile da calcolare mentre generiamo γi ) alla fine dividiamo tutto per il numero di percorsi generati (anche quelli falliti!). 3. Richiami minimi di catene di Markov su spazi discreti Anche se, come mostrato nell’Esempio 1, in molte circostanze si può essere interessati ad approssimare integrali e non somme presentiamo l’algoritmo di Metropolis solo nel caso discreto. In questo modo possiamo enunciare alcuni risultati precisi senza bisogno di ricorrere a nozioni METODI MONTECARLO IN 4 ORE 5 complicate. Tutto ciò che sfrutteremo sarà un minimo di teoria sulle catene di Markov a stati discreti. Sia X un insieme numerabile, π0 (x) una mdp su X, e Q(x, y) matrice infinita di transizione. P Osssia Q(x, y) ≥ 0 per ogni (x, y) ∈ X 2 e y Q(x, y) = 1. Una successione (ξn )n≥0 è una catena di Markov omogenea (CMO) caratterizzata da (π0 , Q), se P {ξ0 = x} = π0 (x) e P {ξn+1 = y|ξ0 = x0 , . . . , ξn−1 = xn−1 , ξn = x} = P {ξn+1 = y|ξn = x} = Q(x, y) per ogni x, y, x0 , . . . , xn−1 . Una CMO è caratterizzata essenzialmente da Q. Supponiamo che ξn sia una CMO caratterizzata da (Q, δx ) allora P {ξn = y} = P {ξn = y|ξ0 = x} = Qn (x, y), dove Qn è la normale potenza di matrice (eventualmente infinita). Ricordiamo che date due matrici Q1 e Q2 [Q1 Q2 ](x, y) = X Q1 (x, z)Q2 (z, y) z quindi Q2 (x, y) = X Q(x, z)Q(z, y) z e, per ricorrenza su n, Qn (x, y) := X Q(x, z)Qn−1 (z, y). z Ricordiamo anche che data una mdp π0 [π0 Q](x) = X π0 (y)Q(y, x) X π0 (y)Qn (y, x). y e dunque [π0 Qn ](x) := y Se ξn è una catena (Q, π0 ) P {ξ1 = y} = π0 Q(y) e in generale P {ξn = y} = π0 Qn (y). Una mdp π è detta stazionaria per Q se π(x) = X π(y)Q(y, x) y per ogni x ossia se πQ = π. 6 FEDERICO BASSETTI Una catena è detta reversibile per π se π(x)Q(y, x) = π(x)Q(x, y) per ogni x, y. L’equazione precedente è nota come equazione di bilancio dettagliato. Una Q è detta irriducibile, o connessa, se per ogni x, y esiste n = n(x, y) tale che data una catena (ξn )n≥0 caratterizzata da (Q, δx ) (ossia che parta da x e che abbia nucleo di transizione Q) P {ξn = y|ξ0 = x} > 0. In termini matrticiali se per ogni x, y esiste n = n(x, y) tale che Qn (x, y) > 0. Si noti che questo vuol dire che la matrice di partenza, che ha elementi positivi o nulli, elevata ad un’opportuna potenza ha solo elementi positivi. Una catena Q è detta aperiodica se M CD{n : Qn (x, x) > 0} = 1 ∀x. Si definisca Tx la variabile aleatoria min{j ≥ 1 : ξj = x} dove ξn è CMO caratterizzata da (Q, δx ). Ossia il primo istante in cui una catena che aprte da x torna in x. Una catena Q si dice ricorrente positiva se E[Tx ] < +∞ per ogni x. Theorem 3.1. (1) Una CMO irriducibile su X finito è ricorrente positiva. (2) Una CMO irriducibile è ricorrente positiva se e solo se ammette una distribuzione stazionaria. In questo caso la distribuzione stazionaria è unica. [Si veda ad esempio Thms 3.1- 3.3 [1]] Alcune osservazioni semplici: P1) Se Q(x, x) > 0 per ogni x allora Q è aperiodica. P2) Se Q è irriducibile su uno spazio finito allora ammette un’unica mdp invariante. P3) Se Q è π reverisibile allora π è invariante, infatti X π(y)Q(y, x) = y X y π(x)Q(x, y) = π(x) X Q(x, y) = π(x). y P4) Combinando quanto osservato sopra con il teorema si ha che una CMO irriducibile e πreversibile è ricorrente positiva. METODI MONTECARLO IN 4 ORE 7 Theorem 3.2 (Teorema Ergodico). Sia (ξ)n≥0 una CMO ricorrente positiva e irriducibile. Sia π la sua unica distribuzione stazionaria e sia f una funzione reale tale che X x |f (x)|π(x) < +∞. Allora n converge quasi certamente a è anche aperiodica P 1X f (ξi ) n i=1 x f (x)π(x) qualunque sia la distribuzione π0 . Inoltre se la catena lim Qn (x, y) = π(y) n→+∞ per ogni y e x. [Si veda ad esempio Thm 4.1 [1]] 4. Algoritmo di Metropolis Per semplicità rimaniamo nel discreto. L’idea dell’algoritmo di Metropolis è quella di partire da una catena K (proposal) e modificarla per costruire una catena M che abbia come distribuzione stazionaria π. In questo modo si può usare il Teorema Ergodico ed utilizzare la media empirica come stima della media. Il fatto importante è che nella costruzione della nuova catena serve conoscere π a meno di una costante di normalizzazione. Supponiamo che K(x, y) = 0 se e solo se Poniamo dove K(y, x) = 0 K(x, y)A(x, y) M (x, y) = K(x, x) + P z6=x K(x, z)(1 − A(x, z)) A(x, y) := min La catena ”a parole” funziona cosı̀: x 6= y x=y π(y)K(y, x) ,1 π(x)K(x, y) • partiamo da x • proponiamo una mossa y con K • se π(y)K(y,x) π(x)K(x,y) è maggiore o uguale ad uno accettiamo altrimenti tiriamo una monetina e accettiamo con probabilità π(y)K(y,x) π(x)K(x,y) , se non accettiamo la mossa rimaniamo fermi in x. Osservazione: se K è simmetrica allora A(x, y) = π(y)/π(x). In questo caso si accetta senz’altro la mossa porposta se π(y) > π(x), ossia se ci si muove in una zona dove la probabilità è più alta, invece se ci si muove in una zona dove la probabiltà è più bassa si randomizza la scelta con probabilità proporzionale al rapporto fra le probabilità. 8 FEDERICO BASSETTI Proposition 4.1. M è π-reversibile. Inoltre se K è aperiodica e irriducibile M è π-reversibile aperiodica e irriducibile e dunque M è ricorrente positiva. Dim. Verifichiamo solo che M sia π reversibile. Se x = y non c’e’ nulla da dimostrare. Sia x 6= y. Facciamo solo il caso in cui π(y)K(y,x) π(x)K(x,y) > 1, gli altri casi sono analoghi. π(x)M (x, y) = π(x)K(x, y) = π(y)M (y, x). Due esempi base. Independent sampler. In questo caso si sceglie K(x, y) = ρ(y) dove ρ è una data mdp. Per x 6= y M (x, y) = ρ(y) min{1, π(y) ρ(x) } π(x) ρ(y) Random walk sampler In questo caso si fissa una metrica su X e una funzione positiva g K(x, y) = P g(d(x, y)) . z∈X g(d(x, z)) Tipicamente g(r) = 0 se r ≥ R. Ad esempio su un reticolo quadrato bidimensionale posso fare un comune random walk simmetrico scegliendo con probabilità 1/4 uno dei vicini di x. Esempio 3 [continua]. L’algoritmo di Metropolis nasce proprio per simulare modelli di spin. In questo caso la più classica delle scelte è prendere a caso un sito e di Λ e modificare il suo spin cambiandoglo di segno. Formalmente, dato x per ogni e in Λ sia y tale che y(f ) = x(f ) per ogni f 6= e e y(e) = −x(e), allora K(x, y) = 1 . |Λ| Si verifica facilmente che K è connessa (irriducibile). Volendo ottenere una catena che sia anche aperiodica si può modificare leggermente la procedura come segue: si sceglie a caso un sito e, con probabilità ǫ non si cambia nulla con probabilità (1 − ǫ) si cambia segno a x(e). Esempio 4 [continua]. Per generare una catena K su SN si può procedere come segue. Si sceglie con probabilità 1/ N2 una coppia (i, j) e si passa da σ a τij σ, dove τij è la trasposizione i ↔ j. Poiché le perumatazioni si possono scrivere come composizione di un numero finito di trasposizioni la catena generata in questo modo è chiaramente connessa. Anche in questo caso si può modificare leggeremente la catena in modo che con una probabilità posistiva rimanga ferma rendendola aperiodica. Volendo applicare il metodo di metropolis al caso continuo semplicemente sostituiamo le densità alle probabilità. Il punto delicato è quando questa procedura sia applicabile, ossia sotto quali ipotesi valga il teorema ergodico. Questo argomento ci porterebbe troppo lontano ci limitiamo METODI MONTECARLO IN 4 ORE 9 quindi a vedere come si può definire una catena di Metropolis nel caso assolutamente continuo. E’ sufficiente considerare la formula usata nel discreto dove si interpreti K(x, y) come una densità di transizione e supporre ancora che K(x, y) = 0 se e solo se K(x, y) = 0 Per semplicità possiamo anche supporre che π(x) sia positiva per ogni x in X. A questo punto possiamo scrivere l’algoritmo e verificare che ancora genera una catena reversibile. Esempio 1 [continua]. Possiamo pensare di usare un algoritmo di tipo random walk. La proposal diventa: partiamo da x e andiamo in y =x+ǫ con ǫ variabile aleatoria Gaussiana di media zero e varianza assegnata, oppure con ǫ uniforme su (−R, R). Ad esempio se ǫ è una Gaussiana di media zero e varianza σ 2 si avrebbe K(x, y) = √ 1 2πσ 2 e− (x−y)2 2σ 2 . Si noti che in questo caso K(x, y) = K(y, x). Esercizio: Provare a programmare un semplice Random Walk Metropolis per approssimare la media a posteriori che compare nell’Esempio 1. 5. Cenni di analisi spettrale Supponiamo che X sia finito, X = {x1 , . . . , xN }. Sia Q(x, y) una catena irriducibile e reversibile con distribuzione stazionaria π(x). Si può definire su L2π = {f : X → R : X f 2 (x)π(x) < +∞} = RN x un prodotto scalare (che lo rende spazio di Hilbert) ponendo < f, g >π = X f (x)g(x)π(x). x Per semplicita scriveremo solo < ·, · >, omettendo la π. A questo punto Q può essere pensato come operatore da L2π in se, Q[f ](x) = X Q(x, y)f (y) y Dire che Q è reversibile è equivalente a dire che Q è autoaggiunto. Ricordiamo che l’aggiunto di un operatore Q, diciamo Q∗ è definito da < f, Q∗ g >=< Qf, g > e che Q è autoaggiunto se Q = Q∗ . Nel nostro caso se Q è reversibile allora < Qf, g >= XX XX [ Q(x, y)f (y)]g(x)π(x) = f (y)g(x)Q(y, x)π(y) x y y x 10 FEDERICO BASSETTI ma < f, Qg >= X f (y) y e dunque X Q(y, x)g(x)π(y) x < Qf, g >=< f, Qg > . Enunciamo il teorema di Perron-Frobenius: Se Q è reversibile ed irriducibile Q ha autovalori reali in norma minori di 1 e ha autovalore 1 con molteplicità uno. [Si veda ad esempio [1]] Ora poiché X è finito gli autovalori sono in numero finito (non possiamo avere spettro continuo né punti di accumulazione) e li indicheremo con 1 = β0 > β1 ≥ β2 ≥ · · · ≥ βN −1 ≥ −1. Grazie al teorema spettrale, poiché Q è autoaggiunto possiamo anche scegliere una base ortonormale (rispetto a π) di auto-funzioni ψi : X → R. Ossia < ψi , ψj >= δij e Qψj (x) = βj ψj (x) e per P P ogni f ∈ L2 (π) si ha f (x) = i≥0 ai ψi (x) (con ai =< f, ψi >π ) e x f (x)π(x) = a0 . Si noti che se consideriamo Q come una matrice ψi non è altro che un autovettore destro di Q, si noti anche che Q in generale non è simmetrica (come matrice) e quindi gli autovalori destri non coincidono necessariamente con quelli sinistri. Poniamo β ∗ = max{β1 , |βN −1 |}. Vogliamo studiare come β ∗ possa essere usato per dare una stima della velocità di converenza alla distribuzione stazionaria. Per fare ciò, consideriamo Q come operatore su RN ma facciamolo agire a destra, ossia pQ(x) := X p(y)Q(y, x). y Questa volta però su RN mettiamo il prodotto scalare < p, q >1/π := X p(x)q(x) x 1 . π(x) Rispetto a tale prodotto scalare Q è autoaggiunto, infatti poiché Q è reversibile Q(y, x) = π(x) Q(x, y) π(y) e dunque < pQ, q >1/π := XX x p(y)Q(y, x)q(x) y XX 1 1 = =< p, Qq >1/π . q(x)Q(x, y)p(x) π(x) π(x) y x Definiamo per j = 0, . . . , N − 1 φj (x) = π(x)ψj (x) METODI MONTECARLO IN 4 ORE 11 e notiamo che, poiché ψ0 = 1, φ0 = π. Inoltre è immediato vedere che ψj è una base ortonormale rispetto al prodotto scalare < ·, · >1/π , infatti X < φi , φj >1/π = φi (x)φj (x) x e dato un vettore f , poiché X 1 = ψi (x)ψj (x)π(x) = δij , π(x) x X f (x) X f (y) = π(y), ψj (x) ψj (y) π(x) π(y) y j si ha f (x) = X ψj (x)π(x) X ψj (y)f (y) = y j X φj (x) < f, φj >1/π . j Infine osserviamo che φi sono gli autovettori sinistri di Q infatti φj Q(x) = X ψj (y)π(y)Q(y, x) = y X ψj (y)π(x)Q(x, y) = βj ψj (x)π(x) = βj φj (x). y In particolare vQn (x) = X φj (x)βjn < v, φj >1/π . j Ora scegliamo v = π0 − π e ricordiamo che φ0 = π per concludere che < π0 − π, φ0 >1/π = Per tanto (π0 − π)Qn (x) = X j≥1 X (π0 (x) − π(x)) = 0. x φj (x)βjn < π0 − π, φj >1/π e quindi X X X 1 1 = φj (x)φj (x)βjn βjn < π0 − π, φj >1/π < π0 − π, φj >1/π [(π0 − π)Qn (x)]2 π(x) π(x) x x i,j≥1 = X i≥1 βi2n [< π0 − π, φi >1/π ]2 ≤ β∗2n X x [(π0 − π)(x)]2 1 π(x) n Ora poiché πQ (x) = π(x) dalla precedente disuguaglianza otteniamo che χ2 (π0 Qn , π) ≤ β∗2n χ2 (π0 , π), dove, date due mdp p, q discrete (con lo stesso supporto), la divergenza χ2 fra p e q è definita come χ2 (p, q) = Si noti che χ2 non è una distanza. X p(x) − q(x) | |2 q(x). q(x) x Per certi versi è più naturale usare la distanza (norma) variazione totale T V (Qn (x, ·), π) = 1X n |Q (x, y) − π(y)|. 2 y 12 FEDERICO BASSETTI Si noti che per Cauchy-Schwartz n 2 4T V (Q (x, ·), π) = hX y s i2 X Qn (x, y) − π(y) π(y) n |Q (x, y) − π(y)| ≤ |2 π(y) | π(y) π(y) y e quindi T V (Qn (x, ·), π) ≤ 1 n 2 β χ (δx , π). 2 ∗ Abbiamo cosı̀ dimostrato la seguente proposizione Proposition 5.1 (Diaconis-Stroock). Sia Q una catena irriducibile e reversibile con distribuzione stazionaria π, allora T V (Qn (x, ·), π) ≤ s 1 − π(x) β∗n . π(x) 2 Dal punto di vista della simulazione è altrettanto importante il seguente risultato. Proposition 5.2. Sia n 1X f (ξi ) µ̂n = n i=1 con ξi catena di Markov con matrice di transizione Q, Q reversibile e irriducibile. Allora X 1 + βk 2 . σ∞ := lim nV arπ (µ̂n ) = |ak |2 n→+∞ 1 − βk k≥1 [Si veda ad esempio Thm 6.5 in [1]] 2 Dare una stima di quanto sia grande σ∞ serve per valutare la bontà di uno stimatore basato sulla catena Q. In particolare dalla proposizione precedente si vede subito che 2 σ∞ ≤ 2 V arπ (f (ξ1 )), 1 − β1 una stima basata solo sullo spectral gap 1 − β1 . Questi cenni di teoria spettrale mostrano come sia interessante (almeno da un punto di vista matematico) essere in grado di controllare lo spectral gap (o più in generale β∗ ) per avere informazioni sulla bontà degli stimatori. References bremaud [1] Brémaud, P. Markov chains. Gibbs fields, Monte Carlo simulation, and queues. . Texts in Applied Mathematics, 31. Springer-Verlag, New York, 1999.