Introduzione ai processi di Markov

Transcript

Introduzione ai processi di Markov
Introduzione ai processi di Markov
maggio 2014
Sommario
La cinematica o la dinamica di una variabile aleatoria prende il nome di processo stocastico.
• E Marinari G Parisi
Trattatello di probabilità
marzo 2002
• Sokal Monte Carlo Methods etc.
(1996)
• L SALOFF-COSTE
Lectures on finite Markov chains
Indice
I processi stocastici
( diffusivi)
3
1 introduzione
4
2 processo markoviano, discreto
2.0.1 matrice di Markov . . . . . . . .
2.0.2 teorema di Frobenius-Perron . .
2.0.3 evoluzione delle misure . . . . . .
2.0.4 reversibilità e bilancio dettagliato
2.1 evoluzione delle RV di Ω . . . . . . . . .
2.1.1 serie temporali . . . . . . . . . .
2.2 grandezze fondamentali . . . . . . . . . .
2.2.1 shema conti e commenti . . . . .
2.2.2 algebra dell‘evoluzione . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6
6
8
8
10
10
11
14
16
18
3 Processi di Markov non discreti
20
3.1 |Ω| → ∞ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1.1 transizione fase . . . . . . . . . . . . . . . . . . . . . . 22
3.2 ∆t → 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4 dopo l‘introduzione
4.1 simulazioni Monte Carlo . . . . . . . . . . . . . . . . . . . . .
4.2 Random walk . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Diffusione su grafi finiti . . . . . . . . . . . . . . . . . . . . . .
1
25
25
25
25
II
processi crescita (e morte)
26
5 introduzione
27
6 barabasi style
28
6.1 Barabasi Réka . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
7 il CRP : Chinese restaurant process
7.1 il CRP raccontato con Barabasi . .
7.2 equazioni flusso in CRP canonico .
7.3 indicatore nel CRP . . . . . . . . .
7.4 Appendice . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
31
32
33
34
36
8 scambiabilitá e variabili alla Potts
38
8.1 urne a piú colori . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2
Parte I
processi stocastici
( diffusivi)
3
Capitolo 1
introduzione
La cinematica (la dinamica) di una variabile stocastica è detta processo stocastico
Fissato un intervallo [0, T ] e uno spazio di probabilità Ω, (con sua algebra e
possibili misure di probabilità)
un processo stocastico è la famiglia delle variabili aleatorie
{ω(t) t ∈ [0, T ],
ω(t) ∈ Ω}
ATT! le variabili aleatorie sono le traiettorie, le storie: Il punto essenziale,
che dovete aver sempre in mente, consiste nel fatto che il processo stocastico è dato dalla probabilità della ‘storia‘ t → ω(t) e non dalle probabilità
(marginali) del valore assunto dalla variabile aleatoria in un certo istante
Se l‘intervallo è formato da N punti discreti
[0, T ] ≡ {0, t1 , t2 , · · · , tj , · · · , tN −1 = T , il processo stocastico è definito dalla
probabilità congiunta
p(ω(0), ω(t1), · · · , ω(T )) cioè da una probabilità definita su ΩN
Se l‘intervallo è continunuo il processo è determinato dalla famiglia di probabilità congiunte definite
1) per ogni N
2) ed ogni set {t1 , t2 , · · · , tN } :
cioè processo stocastico è dato dall‘insieme delle probabilità congiunte
∀N, ∀{t1 , t2 , · · · , tN } ⇒ p(ω(t1 ), · · · , ω(tN ))
(Questo insieme nasce dal problema di definire cosa è misurabile in spazi
infinito dimensionali tipo C 0 [0, T ] , vedi insiemi cilindrici )
4
Sono necessarie ulteriori precisazioni in base alla natura dello spazio Ω ma
per ora ci basta e ci è utile pensare che Ω sia un insieme discreto
esempi.........................
• Le storie di N lanci di moneta definiscono un processo stocastico.
Se chiamo testa, croce ω = {0, 1} e p(ω) = pω (1 − p)1−ω Q
la probabilità
associata alla traiettoria,P
alla storia {ω(0), ω(t1), · · · , ω(T )) è i p(ω(ti ))
La famiglia t → X(t) = ti ≤t ω(ti ) ( somma totale vinta/ persa in t tiri) è
un processo stocastico a salti indipendenti (senza memoria)
• La storie di lunghezza N di un‘urna di Polia è un processo stocastico.
Se la condizione iniziale dell‘urna è data da w palline bianche (ω = 1) e r
palline rosse (ω = 0), la probabilità associata alla traiettoria {ω(0), ω(t1), · · · , ω(T )),
condizionata a ..., risulta
p({ω|
X
j=1,N
ωi = B}) =
(b + w)! b−1
x (1 − x)w−1
b! w!
(vedi appunti probabilità)
P
In questo caso il processo t → X(t) =
ti ≤t ω(ti ) ha memoria (nota che
il salto al tempo t è condizionato dal risultato totale ottenuto fino a quel
momento).
• Il moto browniano è un processo stocastico
Sia con tempo discreto e spazio Ω dato da un reticolo, un network, sia con
tempo continuo e spazio RD
• Google’s page rank algorithm is essentially a Markov chain over the graph of
the Web. More information can be found in The PageRank Citation Ranking:
Bringing Order to the Web by Larry Page, Sergey Brin, R. Motwani, and T.
Winograd .
5
Capitolo 2
processo markoviano, discreto
Consideriamo il caso di intervallo discreto [0, T ] ≡ {0, t1 , t2 , · · · , tj , · · · , tN −1 =
T } e spazio degli eventi Ω discreto.
Mi pare che questa situazione sia ottimale per focalizzare le idee fondamentali della teoria.
Possiamo assumere che ti − ti−1 = ∆t sia costante.
La probabilità p(ω, ω‘|∆t) si dice probabilità di salto
I processi di markov sono processi stocastici caraterizzati da
Y
p(ω(t0 ), · · · , ω(tN )) =
p(ω(ti ), ω(ti+1 ))
i=0,N −1
cioè in cui le probabilità dei successivi salti sono indipendenti
Si dice che il processo non ha memoria.
2.0.1
matrice di Markov
Se inoltre la probabilità di salto è indipendente dal tempo (iniziale) si parla
di processo stazionario. In tal caso li processo è descritto da una matrice
(matrice di Markov) M = [|Ω| × Ω|]
Mω←ω‘ (∆t) = p(ω(ti ) = ω, ω(ti−1) = ω‘)
e in termini degli elementi della matrice M la probabilità della storia
{ωo , ω1, · · · , ωN } è data da
p(ωo , ω1 , · · · , ωN ) = MωN ←ωN−1 MωN−1 ←ωN−2 · · · Mω1 ←ω0
(no somme su indici ripetuti)
6
La matrice M ha due proprietà di base:
⇒ 1) Mω←ω‘ ≥ 0 perchè ogni elemento di matrice è una probabilità (condizionata
P di salto)
⇒ 2) ω∈Ω Mω←ω‘ = 1 perchè qualunque sia l‘evento di partenza assumo di
finire in un qualche evento, cioè assumo di non uscire dallo spazio Ω ( non
estenzione del processo)
lo spettro di M
Queste proprietà implicano che lo spettro di M è contenuto nella bolla unitaria di C. Ovvero la matrice M è matrice di contrazione
Per la proprietà (2), µ = 1 è autovalore, con autovettore sinistro costante
Sommando
l‘equazione agli autovalori
P
·M
′
ω←ω‘ α(ω‘) = µ · α(ω)
ω ∈Ω
P
su ω, sempre per la proprietà (2), si ottiene che o µ = 1 oppure o a(ω) = 0
Quindi, prendendo il modulo dell‘ equazione si ha
P
ω∈Ω ·Mω←ω‘ |α(ω‘)| ≥ |µ| · ka(ω)|
Questo implica che
(a) |µ| ≤ 1
(b) inoltre l‘eguaglianza è possibile solo se a(ω) = |a(ω)| ovvero l‘autovettore
destro corrispondente all‘ autovalore µ = 1 se esiste è (può essere scelto) a
componenti positive.
ciclicità e ergodicitá
Considerando l‘identità e le matrici di permutazione come matrici di markov
ci si convince che una matrice di markov può avere varie radici dell‘unità
come autovalori. Questo fatto è legato alla ciclicità del processo.
La ciclicità comporta la scomposizione dell‘ insieme Ω in vari cluster etc. Nel
seguito siamo interessati a escludere queste situazioni, almeno nel caso di
Ω finito. Vedi Parisi-Marinari ‘ trattatello ...‘
Si mostra che se per qualsiasi coppia di stati ω, ω‘ esiste t∗ (ω, ω‘) tale che
t
Mω,ω‘
> 0 ∀t > t∗ allora il processo è aciclico e la matrice irriducibile. La
matrice M è irriducibile se per qualsiasi coppia di stati ω, ω‘ esiste m > 0,
finito tale che [M m ]ω←ω‘ > 0. Intuitivamente ciò significa che qualsisi coppia
di stati è dinamicamente connessa, partendi da ω‘, in un tempo finito, ho
probabilità non nulla di essere in ω.
È sostanzialmente una proprietà di ergodicità della dinamica aleatoria.
Per le matrici irriducibili vale il teorema di Frobenius-Perron
7
2.0.2
teorema di Frobenius-Perron
Per esempio vedi : PerronFrobenius theorem
From Wikipedia, the free encyclopedia
Let A be an irreducible non-negative nn matrix with period h and spectral
radius ρ(A) = r . Then the following statements hold.
1) The number r is a positive real number and it is an eigenvalue of the
matrix A, called the PerronFrobenius eigenvalue.
2) The PerronFrobenius eigenvalue r is simple. Both right and left eigenspaces
associated with r are one-dimensional.
3) A has a left eigenvector v with eigenvalue r whose components are all
positive.
Likewise, A has a right eigenvector w with eigenvalue r whose components
are all positive.
The only eigenvectors whose components are all positive are those associated
with the eigenvalue r .
4) Matrix A has exactly h (where h is the period) complex eigenvalues with
absolute value r . Each of them is a simple root of the characteristic polynomial and is the product of r with an h-th root of unity.
5) CollatzWielandt formula: for all non-negative non-zero vectors x let f (x)
be the minimum value of [Ax]i /xi taken over all those i such that xi 6= 0.
Then f is a real valued function whose maximum is the PerronFrobenius
eigenvalue.
6) The
eigenvalue satisfies the inequalities
P PerronFrobeniusP
mini j aij ≤ r ≤ maxi j aij
...............................................................................................
commenti
• Nel sequito escluderemo processi ciclici
• l‘unicità discende dalla positività delle componenti
2.0.3
evoluzione delle misure
Se α è una generica misura di probabilità definita su Ω il processo di markov
induce una evoluzione di questa probabilità:
X
α(ω) → α(ω) =
Mω←ω‘ α(ω‘)
ω
Per esempio si pensi ad Ω come spazio di stati microscopici e α come la
misura di probabilità che descrive uno stato macroscopico
8
Il processo di markov fa evolvere gli stati microscopici, passo passo con M.
Se al tempo iniziale t = 0 ho probabilità α(0) (ω) di essere in ω, poichè al
tempo t = 1 lo stato ω è con probabilità Mω‘←ω diventato ω‘ e le probabilità
di salto è indipendente da α(0) , ho probabilità Mω‘←ω α(ω) di essere
P in ω‘.
In conclusione la probabilità al tempo t = 1 è data da α(1) (ω‘) = ω Mω‘←ω α(0) (ω)
(sommo perchè c‘è autoesclusione ...)
Le proprietà base della matrice di Markov garantiscono che α(0)Pa componenti
(1)
(1)
positive
P (0) sia trasformato in α a componeti positive e che ω‘ α (ω‘) =
ω α (ω) cioè che sia conservata la normalizzazione della misura.
È immediato scrivere l‘evoluto dopo t passi della misura iniziale α(0) :
X
α(t) (ω‘) =
[M t ]ω‘←ω α(0) (ω)
ω
Notate la similitudine con l‘evoluzione MQ via U(t) = [eiH ]t → [M]t
Ma ATT! M non è , in generale, simmetrica.
distribuzione stazionaria
Una misura di probabilità π su Ω tale che Mπ = π si dice distribuzione
stazionaria (di equilibrio) del processo
Data la matrice M non è detto che esista una corrispondente distribuzione
di equilibrio. Ma se esite allora vale il teorema
teorema—————————–
Sia M la matrice di markov di un processo aperiodico, irriducibile
Se esiste la disstribuzione stazionaria π essa è unica.
e vale
t
limt→∞ Mω‘,ω
= π(ω‘)
—————————–
π è l‘autovettore destro di Frobenius-Perron e il teorema uò essere riscritto
nella forma limt→∞ M t = P1
dove P1 è il ‘proiettore‘ corrispondente all‘autovalore 1 cioè P1 = |π >< 1|
Se pensiamo che il processo descriva l‘evoluzione del sistema micro questa distribuzione è lo stato macroscopico di equilibrio termodinamico. Qualunque
t
sia lo stato di partenza α per t → ∞ si ha limt→∞ Mω‘,ω
α(ω) = π(ω‘)
9
2.0.4
reversibilità e bilancio dettagliato
Si dice che il processo di markov soddisfa la condizione di bilancio dettagliato
se esiste una vettore χ tale che
Mω←ω‘ χ(ω‘) = Mω′ ←ω χ(ω) ∀ω, ω‘
(2.1)
P
• Osservo chePse sommo questa eguaglianza su ω poichè Pω Mω←ω‘ = 1 trovo
che χ(ω‘) = ω Mω′ ←ω χ(ω) cioè se χ è normalizzabile ω χ(ω) < ∞ allora
χ è la distribuzione stazionaria associata ad M (χ = π)
Quindi il bilancio dettagliato garantisce (per Ω finito) l‘esistenza della distribuzione stazionaria.
• Il significato della condizione di bilancio dettagliato è legato alla reversibilità
del processo. In modo sintetico si può dire che [ 2.1] dice che, nella distribuzione di equilibrio, la probabilità del salto ω → ω‘ è eguale alla probabilità del salto opposto,
• Tecnicamente una conseguenza importante del bilancio dettagliato consiste
fω‘,ω = π(ω‘)− 21 Mω′ ←ω π(ω) 12 è simmetrica. (verifinel fatto che la matrice M
care )
f ( e quindi di M) sia reale
Ciò implica che lo spettro di M
ed posso ordinare gli autovalori in ordine decrescente:
µ1 = 1 > µ2 ≥ µ3 · · · ≥ µN ≥ −1
P
f=
Posso diagonalizzare M
µ µPµ e sviluppare molte considerazioni in modo semplice.
P
L‘algebra dell‘evoluzione è molto semplice M t ∼ µ µt Pµ
In particolare notare che in questo caso è immediato verificare che limt→∞ M t =
P1 .
2.1
evoluzione delle RV di Ω
Consideriamo le variabili aleatorie definite su Ω ( quelle che chiamiamo le
‘osservabili‘ microscopiche) ovvero le funzioni misurabili a valori reali (o vettoriali o altro) tipo f : ω → f (ω) .
Abbiamo visto, nel capito sulle probabilità, che a variabili aleatorie, fissata
una misura su Ω associamo valori di aspettazione, varianze etc... che interpretiamo comePgrandezze macroscopiche:P
f →< f >α = ω∈Ω f (ω)α(ω), var 2 = ω∈Ω (f (ω)− < f >)2 α(ω) etc.
Qui stiamo studiando un processo e quindi dobbiamo considerare la dinamica
indotta dal processo sui valori assunti dalla RV f .
come dire che non ci basta conoscere valori medi e varianze ad un certo istante ma dobbiamo conoscere anche le correlazioni fra i valori assunti da f
10
a momenti diversi , < f (t) >, < f (t)f (s) >, etc.
In altre parole dobbiamo considerare la famiglia (il processo stocastico) dei
varori assunti da f sui vari stati della storia: {f0 (ω0 ), f1 (ω1 ), · · · , fN (ωN )}
( ft è la RV f misurata al tempo t)
Evidentemente la probabilità di una sequenza {ft }i=0,N è la probabilità della
storia sottostane {ωi }i=0,N
Se π(ω) èP
la dstribuzione iniziale avremo che
t
< ft >= ω,ω‘ f (ω)Mω,ω‘
π(ω‘)
P
t
s
< ft+s fs >= ω,ω‘,ω“ f (ω)Mω,ω‘
f (ω ′ )Mω‘,ω“
π(ω“)
etc...
P
t
In particolare se π(ω) è la dstribuzione stazionaria ( ω‘ f (ω)Mω,ω‘
π(ω‘) =
π(ω)) allora
P
< ft >= ω fP(ω)π(ω) ≡< f > time independent
t
< ft+s fs >= ω,ω‘ f (ω)Mω,ω‘
f (ω ′ )π(ω‘) ≡ gf f (t) funzione solo di t etc.
Nota————
Come nel caso MQ passo dalla descrizione di Schrodinger a quella di Heisember qui posso passare dalla descrizione in cui faccio evolvere il macrostato alla
descrizione in cui P
faccio evolvere le osservabili.
t
f (ω‘) → ft (ω‘) = ω f ωMω,ω‘
e i valori attesi li prendo con misura fissata
al tempo t = 0
—————————————–
2.1.1
serie temporali
Il fatto che le RV ft non siano indipendenti ci pone un problema relativo a
teoremi come la leggi dei grandi numeri e il teorema del limite centrale per
la sequenza delle variabili ft .
Che leggi soddisfano la media empirica, la varianza della media, etc. ?
Consideriamo l‘ aspettazione della “somma totale” F (T ) =
(T )
P
t=0,T
ft
( F T è l‘ aspettazione della media
dei valori assunti nel processo)
temporale
P P (T )
Calcoliamone la varianza σ =
t ft
s fs
(per semplicità assumiamo < f >= 0)
Tutto ciò che ci serve sapere è la correlazione temporale gf f (t) fra le nostre
RV, correlazione che assumiamo dipendere solo dall‘intervallo temporale che
separa le osservazioni (stazionarietà del processo).
11
Abbiamo:
X X X X
X
ft fs
ft
fs ] =
ft fs =
ft ft +
t
s
t,s
t=s
t6=s
= T gf f (0) + (T − 1)gf f (1) + (T − 1)gf f (−1) + (T − 2)gf f (2) + · · ·
= |T |
T X
|h|=0
|h| 1−
g(|R|)
T
(sommo gli addendi per diagonali: v. figura)
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . . .
.
g(1) (T−1)
. . . .g(0) T
. . . .
g(−1)(T−1)
Ora se
P+∞
−∞
g(r) = g̃(0) < ∞ ⇒
X X lim T −1 [
fi ][
fj = g̃(0)
T →∞
i
j
PT
P+∞
r
- E’ Conseguenza del Lemma di Cesaro:
1
−
a(r) →=
0
−∞ a(r) T
- Scrivo g̃(0) perche’ e’ la trasformata di Fourier di g(r) calcolata in 0 : si
dice ’correlazione integrale’
Se si confronta il risultato ottenuto con cio’ che conosciamo nel caso di variabili indipendenti, si vede che la grandezza g(0) = var2 (σ) e’ sostituita dalla
dalla grandezza g̃(0).
Si può ripetere la dimostarzione alla Chebishev della legge dei grandi numeri
< F (T ) >
σ (T )
P −<f >≥ǫ ≤ 2 2
T
T ǫ
12
dove, da quanto sopra, σ (T ) = T g̃(0)
La legge dei grandi numeri continua ad essere valida anche se g̃(0) diverge in
modo sublineare nel tempo.
Schematicamente possiamo considerare i seguenti andamenti della funzione
di correlazione temporale per h → ∞:
• g(h) → γ costante, è la massima correlazione permessa, allora g̃(0) diverge
linearmente in T e la legge dei grandi numeri cade
• g(h) ∼ h−α α > 0 , la correlazione si spegne lentamente, con legge di
potenza ( code grasse in gergo) , allora g̃(0) diverge come T 1−α ma la legge
continua a valere
• g(h) ∼ eh/τ , la correlazione si spegne rapidamente, dopo un tempo ordine τ
le RV sono (come) scorrelate, allora g̃(0) ∼ (1 − e1/τ )−1 vale la legge. Notare
che posso stimare (...) g̃(0) ∼ τ
Nel caso di processi di Markov su Ω discreti e finiti quello che ci apsettiamo
è di trovarci sempre nel terzo caso
Infatti gli autovalori di M (diversi dal primo) sono tutti in modulo minori di
uno, se chiamo ‘mixing rate‘ il massimo fra essi e cioè pongo
µ = max(µ2 , |µn |) > |µi | con i 6= 2, n
posso dire che M t ∼= P1 + µt Pµ + · da cui segue che < ft f0 > − < f >2 ∼
µt < f Pµ f > + · · · ∼ et log µ cf f
la grandezza τexp,f = − log1 µ > 0 è un tempo. Le funzioni di correlazione
gf f (t) sono funzioni esponenzialmente decrescenti dell‘ intervallo temporale
che separa le variabili. e l‘unità di misura fisica è data da τexp,f
Notare che lo stesso tempo controlla la ‘termalizzazione‘ del sistema.
Cioè se parto dallo stato descritto dalla distribuzione α(0) ho α(t) = M t α(0)
e quindi posso dire che α(t) → π esponenzialmente con tempo caratteristico
τexp,f
τexp,f è il tempo di ‘rilassamento‘ del modo più lento nel sistema.
Similmente τexp,f controlla la dinamica delle fluttuazioni di f , definite come
(∆f )t = (ft − < f >) .
P
t
t
Considerando le identità (M − P1 )t = i>1 µP
i Pi = M − P1
t
t
t
Ora (∆f )t = f M − f P1 = f (M − P1 ) = f ( i>1 µi Pi )
Come sopra posso dire che per t >> 1 (∆f )t ∼ µt (f Pµ ) ⇒ ho spegnimento
esponenziale con tempo caratteristico τexp,f
t
Se vale ρf f (t) ∼ e− τ allora
P posso definire un secondo tempo caratteristico
del processo τint,f = 12 + t=1,∞ ρf f (t)
13
cosichè risulta
1
(2τint,f )gf f (0)
T
Questo significa che devo aspettare un tempo 2τint,f per poter considerare i
valori assunti dalla grandezza f statisticamente scorrelati.
var(f ) =
1
, quindi ATT! se µ → 1 τint,f diventa molto grande,
Nota che τint,f ∼ 1−µ
diverge. (vedi oltre)
Simili considerazioni si possono sviluppare per quanto riguarda la legge limite a cui converge la media empirica
Svilupperemo questo punto nei sucessivi capitoli. Qui dico solo che sostanzialmente tranne che per il primo caso, vale sempre un teorema del limite ma
può accadere è di uscire dal bacino gaussiano e cadere in un bacino di Lèvy.
( rif K L Chung: ‘Markov chains with stationary Transition probabilties’
(spriger 1967))
2.2
grandezze fondamentali
vedi nota da Feller negli appunti MS classica, vedi Kac etc...
Il processo di Markov è caratterizzato da un insieme di (ddp) tempi carateristici che svolgono un ruolo importante per la descrizione del processo stesso.
Analizzaeremo queste ddp e le equazioni che li legano con dettaglio nello
studio del RW e dei processi di diffusione, per ora mi pare importante darne
un elenco e fare qualche commento
Indico la probabilit‘a di occupazione ( essere in) dello stato ω‘, al tempo t,
condizionata all‘essere in ω al tempo zero, con P (ω‘, t : ω, 0) ≡ < ω‘M t ω >
Gli oggetti fondamentali sono:
• autocorrelazione temporale: P (ω, t|ω, 0) = PA (ω, t) ; t > 0
definisce la ddp “tempo di ritorno”.
• tempo di primo passaggio, tempo di primo ritorno
Indichiamo con P1 (ω, t|0, 0) la ddp del tempo di primo passaggio, ovvero
la probabilità di essere in ω al tempo t per la prima volta (cond.
dall‘essere partiti da 0 al tempo 0).
14
Indichiamo con P1R (ω, t) la ddp tempo di primo ritorno, ovvero la probabilità di essere in ω per la prima volta essendo partiti da ω stesso al
tempo 0
Vale la equazione
X
P (ω, t|0, 0) = δω,0 δt,0 +
P1 (ω, t1|0, 0) P (ω, t2|x, 0)
|
{z
}
t1 +t2 =t>0
PA (ω,t2 )
Per l‘origine il tempo di primo passaggio è tempo di primo ritorno (t > 0
!) e similmente definisco tempo di primo ritorno P1R (ω, t) considerando
la precedente equazione con la condizione (..|0, 0) → (..|ω, 0)
• ddp tempo di i-simo passaggio Pi (ω, t|0, 0) (è una p(Ti (x) = t|..))
X
ricorsivita‘: i ≥ 2 Pi (ω, t|0, 0) =
Pi−1 (ω, t1 )P1R (ω, t2 )
t1 +t2 =t
• numero medio stati distinti visitati fino al tempo t : N(t)
( = D(t)
P di Itzykson-Drouffe)
numero medio siti nuovi visitati al tempo t : ω6=0 P1 (ω, t)
P
P
N(t) = 1 + t‘=1,t ω6=0 P1 (ω, t‘)
L‘equazione fondamentale è
p(ω, t|0, 0) = δω,0 δt,0 +
X
i
= δω,0 δt,0 +
Pi (ω, t, |00)
X
P1 (ω, t1 |0, 0) PA (ω, t2)
(2.2)
t1 +t2 =t>0
Ricordando Feller e Kac è immediato collegare queste ddp alla ddp di equilibrio del processo studiato.
funzioni generatrici
In generale la trasformata di laplace nella variable tempo permette di sviluppare uno studio dettagliato di queste distribuzioni di probabilità. trasformata di laplace nella variable tempo. Non tocco e non faccio ipotesi sullo spazio.
• f-generatrice
RV ‘tempo medio trascorso in ω ‘:
P della
t
G(ω, λ) = λ t λ P (ω, t|0, 0)
15
P
→ tempo medio trascorso in ω :G(ω, 1) = t P (ω, t|0, 0)
• f-generatrice
P della RV ‘prob di almeno una visita in ω per t > 0:
Π(ω, λ) = t λt P1 (ω, t)
P
→ prob di almeno una visita in ω 6= 0 : Π(ω, 1) = t P1 (ω, t)
ATT! prob di almeno una visita in ω = 0, t > 0 è la prob. di ritorno (t > 0!)
per ω 6= 0 prob di almeno una visita e prob. di ritorno sono grandezze diverse. Indico con Π1R (ω, λ) la f. g. di questa seconda grandezza.
• f-generatrice della RV ‘prob di i-sima visita in ω vale l‘equazione ricorsiva
Πi+1 (ω, λ) = ΠI (ω, λ)Π1R (ω, λ) i ≥ 1 e quindi Πi+1 (ω, λ) = Π(ω, λ)Π1R (ω, λ)i
0
• f-generatrice
P della autocorrealzione temporale di ω :
ΠA (ω, λ) = t λt P (ω, t; x, 0)
P
P
→ prob di ritorno in ω : P
ΠA (ω, 1) = t P (ω, t; x, 0) = t PA (ω, t)
Evidentemente ΠA (ω, λ) = i≥1 Π1R (ω, λ)i = 1−Π1R1 (ω,λ)
e in generale posso riscrivere le equazioni fondamentali come
G(ω.λ)/λ =δω,0 + Π(ω, λ)ΠA (ω, λ)
X
= δω,0 + Π(ω, λ)
Πi1R (ω, λ)
(2.3)
i≥0
= δx,0 + Π(ω, λ)
1
1 − Π1R (ω, λ)
• f-generatrice della RV ‘siti nuovi visitati fino al tempo‘ N(λ) =
N(λ) =
2.2.1
prob
prob
prob
prob
di
di
di
di
X
1
Π(ω, λ)]
[1 +
(1 − λ)
ω6=0
P∞
t‘=1
λt N(t)
shema conti e commenti
almeno una visita =Π(x),
primo ritorno =ΠR (x),
non visita 1 − Π(x),
una visita, prob di due visite, etc.
+
+
+
+
16
+
+ . . . ...
i≥
per l‘origine:
G(0) = 1 + 1Π(0)[1 − Π(0)] + 2Π2 (0)[1 − Π(0)] + · · · = [1 − Π(0)]−1
per ω 6= 0
G(ω) = Π(ω) + 2Π(ω)ΠR (ω)[1 − ΠR (ω)] + 3Π(ω)Π2R (ω)[1 − ΠR (ω)] + · · ·
= Π(ω)[1 − ΠR (ω)]−1
Dalla equazione [2.2] si ottengono le relazioni fra le diverse funzioni generatrici con l‘algebra alla Laplace transform.
∀i ≥ 1 Pi+1 (x, t) =
X
Pi (x, t)P1 (0, t)
t1 +t2 +t
P
t
tempo prima visita → almeno una visita : Π(x, λ) = t=∞
t=0 λ P1 (x, t)
Pt=∞ t
Pt=∞ t
Π(0, λ) =
t=0 λ PA (x, t) (∀ x)
t=0 λ P1 (0, t) =
P (x, t) =δx,0 δt,0 +
t=∞
X
Pi (x, t)
i=1
= δx,0δt,0 + P1 (x, t) +
+
X
X
P1 (x, t1 )P1 (0, t2 )+
t1 +t2 =t
P1 (x, t1 )P1 (0, t2 )P1 (0, t3 ) + · · ·
t1 +t2 +t3 =t
h
i
= δx,0δt,0 + P1 (x, t) 1 + P1 (0, t) + P1⊗2 (0, t) + P1⊗3(0, t) · · ·
(2.4)
convoluzione → prodotto
1
1
G(x, λ) = δx,0 + Π(x, λ)
λ
1 − Π(0, λ)
(2.5)
Simili per N(λ) etc.
P (0, t|0, 0) = δt,0 + PA (0, t)
ΠA (0, λ) = λ1 G(0, λ) − 1
Π(0,λ)
ΠA (0, λ) = 1−Π(0.λ)
——————————————breve commento
Nel caso di |Ω| finito esiste un tempo medio Tcov finito necessario per visitare
17
tutti i siti almeno una volta.è detto tempo di ricoprimento,
Per |Ω| finito il tempo medio di ritorno è 1/π eq (ω) cosichè G(ω|0) diverge (
come G(ω|0) ∼ T /π eq (x))
inoltre è sempre Π(ω|0) = 1
(Indico con Π(x|0) la peobabilità di almeno una visita in x partendo da 0 e
similmente le altre grandezze)
Vale sempre la relazione ΠA (ω) =: [1 − Π1R (ω)]−1
1
=1
e per i moti che partano da 0 al tempo zero vale la Π(0) + G(0)
(la probabilità di non ritorno è l‘inverso del tempo di permanenza)
mentre Π(ω|0) = G(ω|0) [1 − Π1R (ω)] e ΠA (x) = 1/G(x|0) diverge
Osservo ancora che dalla finitezza del tempo medio di ritorno 1/π eq (x) segue
sostanzialmente G(x, λ) ∼ λ/(1 − λ)
e quindi il numero di nuovi siti visitati ha funzione generatrice N(λ) ∼
t
1/(1 − λ) ovvero N(t) ∼ n ( va come N(t) ∼ n(1 − e− τ ) ??)
2.2.2
algebra dell‘evoluzione
Le stesse osservazioni via algebra della matrice di markov
Nel caso di uno spazio Ω discreto e finito, l‘algebra dell‘evoluzione è molto
semplice e permette di calcolare tutte le grandezze definite sopra. In particolare nel caso in cui il processo soddisfi il bilancio dettagliato (sia time
reversible)
• la matrice
PM è equivalente ad una matrice simmetrica quindi
M ∼ P1 + i>1 µi Pi con P1 = |π >< e|
• lo spettro è µ1 = 1 > µ2 ≥ · · · ≥ µn ≥ −1
(escudiamo µnP= −1 per semplicità, per es nei grafi non-bipartiti µn > −1 )
• M t ∼ P1 + i>1 µti Pi
Per t → ∞ M t ∼ P1 + µt Pµ dove µ = mixing rate = max(µ2 , |µn |)
• l‘ autocerrelazione satura con legge esponenziale
PA (x, t) =< xP1 x > +µt < xPµ x > |µ| < 1
anche µ = e−1/τ mix etc.
• I tempi di permanenza fino al tempo T sono dati dagli elementi della matrice
P
PT
1−µT
t
i
t=0 M ∼ T P1 +
i>1 [ 1−µi ] Pi
18
P
ovvero Tt=0 M t ∼ T P1 ∼ T π
(stato in esame-stato di partenza, questo ultimo irrilevante)
19
Capitolo 3
Processi di Markov non discreti
Countable state space
Continuous or general state space
Discrete-time
Markov chain on a countable
or finite state space
Markov chain on
a general state space
Continuous-time
Continuous-time Markov process
Any continuous stochastic process
with the Markov property,
e.g. the Wiener process
Ci poniamo due questioni
1) cosa succede quando lo spazio degli stati |Ω| → ∞ ?
2) cosa succede quando il processo diventa un processo continuo ? (da fisici
cosa succede quando ∆t → 0 )
3.1
|Ω| → ∞
Quando |Ω| → ∞ la matrice diventa una matrice infinita (operatore su opportuno dominio in l2 (Ω))
Se penso alla Mec Stat, |Ω| → ∞ vuol dire fare il limite termodinamico.
il teorema di Frobenius Perron può continuare a valere
Glimm-Jaffe .............
Let A have a strictly positive kernel
let ||A|| = λ be an eigenvalue of A (ATT! è assunzione)
⇓ Then λ has multiplicity 1, and Ω the corresponding eigenvector can be
20
chosen to be strictly positive function.
( strictly positive kernel: nella realizzazione L2 (X, dν) ... per qualsiasi θ(x)
è Aθ > 0 a.e.
segue che per θ, φ positive, non identicamente nulle < θ, Aφ. > è strettamente positivo)
————
Ma può accadere che il teorema di Frobenius Perron non sia piú valido
Lo spettro dell’ operatore puó diventare continuo (sempre limitato) e se
• l’autovalore massimo 1 diventa inproprio
⇒ π eq 6∈ l1 non esiste piú come misura di equilibrio.
in tal caso ⇒ esiste [I − M]−1 che puó essere operatore sia limitato che illimitato.
R 1
P
t
La ∞
dPµ = [I − M]−1 definisce il tempo di permanenza in x
t=0 M =
1−µ
(come < x[I − M]−1 0 >) che quindi puó anche essere limitato.
Come dire che la probabilità di visita può essere minore di uno,
⇒ essere in x è un evento transitorio, etc.
————————————————
(The Fredholm alternative)
O esiste π eq oppure esiste [I − M]−1 .
Let K(x, y) be an integral kernel, and consider the homogeneous equation,
the Fredholm
R b integral equation,
λφ(x) − a K(x, y)φ(y) dy = 0
and the inhomogeneous
equation
Rb
λφ(x) − a K(x, y)φ(y) dy = f (x).
The Fredholm alternative states that, for any non-zero fixed complex number
λ ∈ C, either the first equation has a non-trivial solution, or the second
equation has a solution for all f (x)
A sufficient condition for this theorem to hold is for K(x, y) to be square
integrable on the rectangle [a, b] × [a, b] (where ”a” and/or ”b” may be minus
or plus infinity).
————————————————————
⇒ Ancora l‘ autocerrelazione può essere pwl:
1
trM t → t−a
< xM t x >∼ |Γ|
(tipo diffusione pura su reticolo regolare:
vedi capitolo RW)
21
1
|Γ|
trM t =
R
[dk]d e−k
2t
= t−d/2 :
• Indipendetemente dal fatto che il primo autovalore resti autovalore proprio
o no posso schizzare una storia algebrica del tipo che segue
X
(M − P1 )t = M t − P1 =
µti Pi → · · ·
i>1
⇒ Ω finito:
sempre µ = max(µ2 , |µn |) tale che per
P esiste
t
t
t >> 1
µ
P
i>1 i i ∼ µ Pµ col significato di spegnimento esponenziale delle
fluttuazioni
R
P
⇒ ma quando Ω va ad infinito i>1 µti Pi ⇒ [1,−1] µt dP (µ)
e non posso in generale isolare il secondo autovalore (indipendentemente dal
fatto Rche il primo sia proprio
o no). Allora ho fenomeni tipo:
R
1
t
t
tr
µ
dP
(µ)
=
µ
n(µ)dµ
|Γ|
[1,−1]
[1,−1]
dove n(µ) è la densità di autovalori. Se n(µ) ∼ (1 − µ)a−1 accade che
nell‘intorno
di 1 valuto l‘integrale
via
R
R
t
a−1
µ (1 − µ) dµ = [0,··· ] (1 − x)t xa−1 dx
[1,−1]
R
∼ [0,··· ] e−xt xa−1 dx = t−a cioè emergono comportamenti pwl.
3.1.1
transizione fase
Sostanzialmente nel limite |Ω| → ∞ perdo la irriducibilità.
Forse meglio dire tempo di autocorrelazione diverge
il punto chiave per Ω → ∞ consiste nella possibilità che τexp,f → ∞,
τint,f → ∞
Per esempio, il tempo di autocorrelazione vicino al punto critico (transizioni
di fase del secondo ordine ) diverge come τ = [min(L, ξ)]z dove L è la dimensione lineare del sistema, ξ è la lunghezza correlazione e z è l‘esponente
critico dinamico
update locali → per avere una configurazione statisticamente significativa
(scorrelata) il processo deve eplorare (e cambiare) una regione di dimensione
ξ → per un RW gaussiano questo richede τ ∼ ξ 2,.
altri ............
In generale la funzione di autocorrelazione ρf f (t) obbedisce a leggi di scala
dinamiche:
ρf f (t; β) = |t|−a F (β − βc )|t|b ) |t| >> 1 |β − βc | << 1 |β − βc ||t|blim
22
con a, b > 0 e F continua, strettamente positiva, rap. decrescente per
argomento divergente. Allora

 τexp,f ∼
|β − βc |−1/b
τ
∼
|β − βc |−(1−a)/b
 ρ int,f
|t|−a
f f (t; βc ) ∼
3.2
∆t → 0
Se la matrice M descrive le prob di salto nell‘intervallo temporale ∆t = 1
abbiamo visto che è immediato scrivere la probabilità di salto nell‘intervallo
temporale ∆t = n con n intero.
Ci chiediamo se è possibile definire le prob di salto in intervalli temporali non
multipli interi di ∆t = 1, ovvero se possiamo spezzare il salto in tanti salti
corrispondenti a intervalli più piccoli, infinitesimi.
1
→ problema M n
→ problema misure infinitamente divisibili
Fer esempio Feller Vol II, capitolo IX : è una lettura particolarmente adatta
a un fisico perchè sviluppa argomenti dl tutto simili a MQ.
———————–
Se penso ad M come la matrice che descrive le prob di salto nell‘intervallo
temporale ∆t cioè penso M → M(∆t) evidentemente non ho più una matrice ma una famiglia di matrici che dipendono dall‘ intervallo temporale ∆t
e devo assumere proprietà di compatibilità e coerenza.
Richiedo che, per qualsiasi ∆t, M(∆t) sia una matrice di markov
Assumo che M(∆t = 0) ≡ I con evidente giustificazione
e anche che M(∆t)M(∆s) = M(∆s + ∆t) cioè che la famiglia di matrici
formi un gruppo ( per ∆t, ∆s interi questo è dato) ..............
Tecnicamente si dice che la famiglia M(t), t ∈ R è una realizzazione del gruppo additivo R(+)
Notare che M(∆t)M(∆s) = M(∆s + ∆t) implica che tutte le matrici della
famiglia commutano, quindi tutte simultaneamente diagonalizzabili, quindi
tutte funzioni di un‘ unica matrice.
Per quanto riguarda l‘evoluzione delle distribuzioni di probabilità su Ω, se
possiamo spezzare il salto in salti corrispondenti a intervalli infinitesimi,
siamo in grado di scrive una equazione differenziale di evoluzione.
Infatti posso riscrivere α(t+∆t) = M(∆t)α(t) come α(t+∆t))−α(t)
= [M (∆t)−I]
α(t)
∆t
∆t
[M (∆t)−I]
e quindi se esiste il limite per ∆t → 0 di
→ H posso scrivere
∆t
∂α(t)
= Hα(t)
∂t
23
(equazione di kolmogorov, Fokker-Planck)
H generatore
Hille-Yosida theorem for contraction semigroups———–
M(t) = et H
————
H
P è una matrice con proprietà
ω‘ Hω‘,ω = 0 ∀ω
Hω‘,ω ≥ 0 ∀ω‘ 6= ω
24
Capitolo 4
dopo l‘introduzione
4.1
simulazioni Monte Carlo
Vedi A.D. Sokal
Monte Carlo Method in Sattistical Mechanics
lectures at the Cargèse Summer school - september 1996
4.2
Random walk
Random walk
4.3
Diffusione su grafi finiti
Diffusione su grafi finiti
25
Parte II
processi crescita (e morte)
26
Capitolo 5
introduzione
Vedi per esempio:
GaltonWatson process
Birth-death process
Branching process
In estrema sintesi
La questione che mi pongo é: quali processi stocastici generano ddp a power
law?
La risposta sostanzialmente é: processi di preferential attachment
Perché questi processi sono cosı́ comuni in natura?
Vedi per esempio M E J Newman :
Power Laws Pareto distribution and Zipf’s law
(arXiv:cond-mat/0412004v3 )
Vedi per esempio D m Zanette
Statistical Patterns in Written Language
27
Capitolo 6
barabasi style
6.1
Barabasi Réka
vecchi appunti. file in PROTEOMA/proproteoma
Barabsi has been a major contributor to the development of network science
and the statistical physics of complex systems. His biggest role has been the
discovery of the scale-free network concept. He reported the scale-free nature
of the WWW in 1999 and the same year, in a Science paper with Rka Albert,
he proposed the BarabsiAlbert model, predicting that growth and preferential
attachment are jointly responsible for the emergence of the scale-free property
in real networks.
He subsequently showed that the scale-free property emerges in biological systems, namely in metabolic networks and proteinprotein interaction networks.
In a 2001 paper with Reka Albert and Hawoong Jeong he demonstrated the
Achilles’ heel property of scale-free networks, showing that such networks are
robust to random failures but fragile to attacks.
?
?
28
tempi discreti t0 , t1 , t2 , · · ·
A t0 ho m0 nodi connessi fra loro, ogni nodo ha almeno un link.
Ad ogni istante ti > t0 :
- si crea un nuovo nodo (che chiamo nodo i) con m link ki (ti ) = m ,
- i nuovi link si connettono con m vecchi nodi con preferential attacment
k
(cioé un nodo di nome j con kj link ha probabilita’ m P jki di aumentare i
i
propri link)
Barabasi osserva che :
P
- i link presenti al tempo t sono i<t ki = 2m t + m0
- inoltre la connettivitá dei nodi di nome j evolve con l’equazione
kj
kj
∂t kj (t) = m P
=
2t
i ki
• l’equazione si risolve con i dati iniziali detti sopra e porta a
kj (t) = m
h t i 12
tj
• La probabilita’ che il nodo di nome j abbia meno di k link al tempo t e’
eguale alla probabilita’ che il tempo di apparizione tj del nodo sia maggiore
2
di m
t. Questo come semplice conseguenza dell’equazione di moto :
k2
2
2
t
k > kj2 (t) = m2 ttj da cui tj > m
k2
ma
P (tj >
m2
m2
m2
1
t)
=
1
−
P
(t
≤
t)
=
1
−
t
j
2
2
2
k
k
k
t + m0
2
( ⇒ rapporto fra i nodi nati nell’intervallo m
t e quelli nati nell’intervallo t)
k2
per t → ∞ c’e’ un bel limite la cui derivata da la densita’ di probabilita’ che
un nodo abbia popolazione eguale e k geni
p(k) = 2 m
1
k3
due osservazioni
- il numero totale dei nodi cresce linearmente con il tempo.
- Barabasi afferma che se la probabilita’ di “preferential attachment” e’ scelta
Π(k) ∼ k α si ha pwl solo se α = 1
?? dalle equazioni ? se α 6= 1 segue che ki (t) ∼ t
29
Una rete non di Barabasi ...
Figure 3.2: Transcriptional network, without yellows links, presented according to
a spring model layout.
25
30
Capitolo 7
il CRP : Chinese restaurant
process
In probability theory, the Chinese restaurant process is a discrete-time stochastic process, analogous to seating customers at tables in a Chinese restaurant.
Imagine a Chinese restaurant with an infinite number of circular tables, each
with infinite capacity. Customer 1 is seated at an unoccupied table with
probability 1. At time n + 1, a new customer chooses uniformly at random
to sit at one of the following n + 1 places: directly to the left of one of the
n customers already sitting at an occupied table, or at a new, unoccupied
table.
At time n, the value of the process is a partition of the set of n customers,
where the tables are the blocks of the partition. Mathematicians are interested in the probability distribution of this random partition.
David J. Aldous attributes the restaurant analogy to Jim Pitman and Lester
Dubins in his 1983 book.[1]
Aldous, D. J. (1985). Exchangeability and related topics. cole d’t de Probabilits de Saint-Flour XIII 1983. Lecture Notes in Mathematics 1117. pp.
11. doi:10.1007/BFb0099421. ISBN 978-3-540-15203Pitman, Jim (2006). Combinatorial Stochastic Processes. Berlin: SpringerVerlag.
?
pold(1)
pold(2)
pold(3)
31
pnew
pold(4)
Se si indica con Xi il tavolo a cui si siede il cliente i-mo una realizzazione del
processo é la sequenza {X1 , X2 , X3 , · · · }
La proprietá fondamentale del processo é la scambiabilitá:
p({X1 , X2 , X3 , · · · }) = p({Xπ(1) , Xπ(2) , Xπ(3) , · · · })
dove π é una qualunque permutazione.
Questa proprietaá discende dal fatto che fissata {X1 , X2 , X3 , · · · XN } la
probabilitá con cui Xi assuma un dato valore dipende solo dal numero degli
XJ : j < i identici ad Xi e che lo precedono ... come nell’ urna di Polya.
(Provate a scrivere qualche esempio di probabilitá per sequenze fissate , poi
permutate. Notare che il denominatore é sempre lo stesso) . La scambiabilitá permette di sviluppare molte considerazioni ’esatte’ Qui osservo solo
che la scambiabilitá implica la correlazione costante, < Xi , Xj > indipendente da i, j ... quindi, per quanto detto varie volte, il non self-average !!
Nel seguito tratto il CRP con campo medio. É un primo modo per orientarsi.
7.1
il CRP raccontato con Barabasi
Considero grandezze medie:
t → G numero dei clienti al tempo t : G = t
t → F (t) numero dei tavoli occupati al tempo t
i ∈ [1, F (t)] nomi dei tavoli occupati
il tavolo di nome i e’ quella occupato (nato) al tempo ti :
ki (t) = numero
P dei clienti del tavolo di nome i al tempo t
Per ogni t e’ i≤F (t) ki (t) = t
Le equazioni sono

∂ k (t) =


 t i
da cui (α 6= 0)

∂ F (t) =

 t
(
ki (t) =
F (t) =
ki −α
t+θ
αF (t)+θ
t+θ
kF (t′ ) (t′ ) = 1
F (0) = 1
t+θ
h (1 − α) ti +θ + α i
1
(α + θ) ( (t+θ)
)α − θ
α
θ
mentre per α = 0 si ha F (t) = θ log(t + θ)
32
F (ti ) = i
Ora osservo che
k > ki (t) implica ti >
P (ki (t) < k) = P (ti >
(1−α)t−θ(k−1)
k−α
quindi
(1 − α)t − θ(k − 1)
(1 − α)t − θ(k − 1)
) = 1−P (ti <
)
k−α
k−α
ma l’ultima probabilita’ e’ il rapporto fra il numero dei tavoli nati nell’inter] e i nati nell’intervallo [0, t] quindi:
vallo [0, (1−α)t−θ(k−1)
k−α
F ( (1−α)t−θ(k−1)
)
(1 − α)t − θ(k − 1)
k−α
)=
P (ti <
k−α
F (t)
per t → ∞ valuto:
(
h
iα
1−α
α 6= 0
k−α
α = 0 1 + log1 t log k1
conclusione
• per α = 0 la probabilita’ e’ nulla per qualsiasi k finito
(posso valutare la probabilita’ per k ∼ x log t)
• per α 6= 0, derivando rispetto a k ho la probabilita’ che un tavolo abbia
popolazione k: p(k) ∼ α[ k1 ]α+1
pwl !
7.2
equazioni flusso in CRP canonico
Vedi Barabasistile.tex.
Qui aggiungo che é possibile calcolare le distribuzioni F (j, n) senza ricorre
alla argomentazione di Barabasi.
P (n)
δ(ki − j) ho le equazioni
Definisco F (j, n) = Fi=1

α F +Θ
∂t F =

n+Θ


F (1)
α F +Θ
−
(1 − α) n+Θ
∂t F (1) =
n+Θ
F (1)
F (2)


 ∂t F (2) = (1 − α) n+Θ − (2 − α) n+Θ
···
···
33
per grande n, ponendo l’ ansatz F (j, n) = χj F (n) ottego

αF
∂F =


n
 t

αχ1 =
α − (1 − α)χ1
αχ2 =
(1 − α)χ1 − (2 − α)χ2


·
·
·
···


αχj = (j − 1 − α)χj−1 − (j − α)χj
quindi
χj =
α
1
Γ(β)
Qj−1
l=1 (l

χ1 =
α


 2 χ2 =
(1 − α) χ1
3 χ3 =
(2 − α) χ2


·
·
·
···

j χj = (j − 1 − α) χj−1
1
α=
− α) Γ(j+1)
· (j − 1)β ·
Γ(j−1)
Γ(j+1)
=
χj = α
1
1
[ ]1+α
Γ(1 − α) j
—————————–
7.3
indicatore nel CRP
Nel CRP canonico so tutto e facilmente su ξ(n) = {0, 1} indicatore di nuova
classe.
———–schema Carlton
1- ξ(n) = {0, 1} e’ descritto dalla probabilita’ p(ξ = 1) = Eξ.
(n−1)
ed inoltre F (n) = F (n − 1) + ξ(n)
osservo che E(ξ(n)|F (n − 1) = Θ+αF
Θ+n−1
2-posso scrivere
E ξ(n + 1)|ξ(n), F (n − 1) = Θ+α(F (n−1)+ξ(n))
=
Θ+n
Θ+αF (n−1)
α
=
+ Θ+n
ξ(n)
Θ+n
quindi
α
= Θ+n−1
E(ξ(n)|F (n − 1) + Θ+n
ξ(n)
Θ+n
Θ+n−1+α
ma allora E ξ(n + 1) = Θ+n E ξ(n)
che é ricorsiva e porta a
n
Y
Θ + j − 1 + α
ξ(n + 1) ∼ B
Θ+j
j=1
34
cioé la RV ξ(n + 1) ha legge di probabilitá (∼) bernoulliana ( B · · · ) di
argomento · · ·
35
7.4
Appendice
[1]
lim
n→∞
[2] (α)n ↑ =
Γ(α + n)
= nα
Γ(n)
n−1
Y
(α + l) =
l=0
Γ(α + n)
Γ(α)
———————————————————————Γ(α + n)Q= (α + n − 1) · Γ(α + n − 1) = · · · =
n−1
(α + l) · Γ(α)
= · · · = l=0
—————————————————————————
[3]
[4]
n−1
Y
n−1
1 Y
1
(α + l) →
nα
Γ(n) l=0
Γ(α)
(l − α) =
l=1
Γ(β + n − 1)
Γ(β)
: β = (1 − α)
————————————————————————–
Qn−1
Qn−2
Γ(β+n−1)
l=1 (l − α) =
m=0 (m + β) =
Γ(β)
————————————————————————–
n−1
[5]
1 Y
1
n−α
(l − α) →
Γ(n)
Γ(1 − α)
l=1
———————————————————–
Qn−1
1 Γ(β+n−1)
1
=
l=1 (l − α) = Γ(n
Γ(n)
Γ(β)
1
1 1
β 1
· (n − 1) · n = Γ(β) nα
Γ(β)
———————————————————–
36
———Cinese—————————–
Qj−1
1
(l − α) Γ(j+1)
χj = l=1
α=
α
1
Γ(β)
· (j − 1)β ·
Γ(j−1)
Γ(j+1)
=
χj = α
1
[1j]1+α
Γ(1 − α)
Γ(1 − z)Γ(z) =
———Generale—————————–
vale uno schema tipo

jxj = (j − 1)xj−1
xj = 1j



1

jxj = (j − 1 − α)xj−1
xj = j 1+α

1
(j − α)xj = (j − 1 − α)xj−1
xj = j−α


1


 (j − α)xj = (j − 1 − α − z)xj−1 xj = (j−α)1+z
···
···
tipicamente posso vedere la soluzione per grande j di sistemi tipo
α(j)χj = β(j − 1)χj−1 + γ(j + 1)χj+1
passando al continuo
per esempio
[B + δ + (1 − δ)(j − α)]χj = (1 − δ)(j − 1 − α)χj−1 + δ)χj−1
diventa
cioe’
e quindi
Bχ(x) + (1 − δ)∂x [(x − a)χ(x)] − δ∂x χ(x) = 0
dχ(x)
B + (1 − δ)
=−
χ(x)
(1 − δ)(x − α) − δ
B
1
χ(x) ∼ [ ]1+ (1−δ)
x
++++++++++++++++++++++++++++++++
++++++++++++++++++++++++++++++++
37
π
sin (πz)
Capitolo 8
scambiabilitá e variabili alla
Potts
• The categorical distribution (or, less precisely, a discrete distribution) is the
generalization of the Bernoulli distribution for a categorical random variable,
i.e. for a discrete variable with more than two possible outcomes.
• Se I (il cosı́ detto insieme dei cluster) è un insieme fissato, lo spazio delle
misure di probabilitá su I é il simplesso di dimensione k −1 , (p = (p1 , ..., pk ))
Processi di preferential attachment associati a I implicano la scambiabilitá.
Quello che mi sembra interessante é che son tutti processi per i quali non
vale il self average, etc...
• Se I non é fissato, ovvero |I| é una RV si casca nel mondo dei processi di
Dirichlet
Nel CRP.
• The multinomial distribution is a generalization of the binomial distribution. For n independent trials each of which leads to a success for exactly one
of k categories, with each category having a given fixed success probability,
the multinomial distribution gives the probability of any particular combination of numbers of successes for the various categories. Then if the random
variables Xi indicate the number of times outcome number i is observed
over the n trials, the vector = (X1 , ..., Xk ) follows a multinomial distribution with parameters n and (probabilities) p = (p1 , ..., pk ) . Note that while
the trials are independent, their outcomes are dependent because they must
be summed to N The probability mass function can be expressed using the
gamma function as:
P
k
Γ( i xi + 1) Y xi
f (x1 , . . . , xk ; p1 , . . . , pk ) = Q
pi
i Γ(xi + 1) i=1
38
8.1
urne a piú colori
Mi pare banale generalizzare l‘urna di Polya a k colori. (rispettando preferential attachment)
Mi sembra che in generale la distribuzione limite che descrive la composizione
dell‘urna sia data dalla distribuzione di Dirichlet
—————————————–
Per esempio tre colori , palle iniziali b, w, r la probabilità di una successione
X = {Xi } con B, W, R totali è, per analogia al precedente caso
Q
Q
Q
j=0,B−1 (b + j)
k=0,W −1 (w + k)
l=0,R−1 (r + l)
Q
p(x|B < W < R) =
m=0,N −1 (b + w + m)
quindi entropia ect... si arriva alla distribuzione limite
(b + w + r)! b−1 w−1
x y
(1 − x − y)r−1dxdy
b!w!r!
B
dove x = N
,y=W
N
—————————————–
The Dirichlet distribution
The Dirichlet distribution of order k ≥ 2 with parameters αi > 0 i = 1, ...k
Dir(α1 , α2 , · · · , αk ) is the probability density function
on the open simplex k − 1 dimensional defined by:
(
x1 , · · · , xk−1 > 0
x1 + · · · + xk−1 < 1
xk = 1 − x1 − · · · − xk−1
and given by
K
1 Y αi −1
p (x1 , · · · , xK−1; α1 , · · · , αK ) =
x
,
B(α) i=1 i
The normalizing constant is the multinomial Beta function, which can be
expressed in terms of the gamma function:
QK
Γ(αi )
,
α = (α1 , · · · , αK ).
B(α) = i=1
PK
α
Γ
i=1 i
39
• Aggregation
If X = (X1 , · · · , XK ) ∼ Dir(α1 , · · · , αK )
then, if the random variables with subscripts ”i” and ”j” are dropped from
the vector and replaced by their sum,
X ′ = (X1 , · · · , Xi + Xj , · · · , XK ) ∼ Dir (α1 , · · · , αi + αj , · · · , αK )
This aggregation property may be used to derive the marginal distribution
of Xi .
• The marginal distribution]s are beta distribution
XK
Xi ∼ Beta αi ,
αj − αi .
j=1
Let α0 =
PK
αi
α0
E[Xi ] =
Var[Xi ] =
i=1
αi .
αi (α0 −αi )
α20 (α0 +1)
Furthermore, if i 6= j
−α αj
Note that the matrix so defined is singular.
Cov[Xi , Xj ] = α2 (αi0 +1)
0
ma è negativa ???
Dirichlet Processes
Examples of Dirichlet distributions
Yee Whye Teh (Gatsby)
DP and HDP Tutorial
Mar 1, 2007 / CUED
4 / 53
• In Bayesian statistics, the Dirichlet distribution is the conjugate prior distribution of the categorical distribution (and also the multinomial distribution).
40
This means that in a model consisting of a data point having a categorical
distribution with unknown parameter vector p, and (in standard Bayesian
style) we choose to treat this parameter as a random variable and give it a
prior distribution defined using a Dirichlet distribution, then the posterior
distribution of the parameter, after incorporating the knowledge gained from
the observed data, is also a Dirichlet. Intuitively, in such a case, starting
from what we know about the parameter prior to observing the data point,
we then can update our knowledge based on the data point and end up with
a new distribution of the same form as the old one. This means that we
can successively update our knowledge of a parameter by incorporating new
observations one at a time, without running into mathematical difficulties.
Formally, this can be expressed as follows. Given a model
(
α
= (α1 , . . . , αK ) = concentration hyperparameter
p | α = (p1 , . . . , pK ) ∼ Dir(K, α)
X | p = (x1 , . . . , xK ) ∼ Cat(K, p)
then the following holds
P
c
= (c1 , . . . , cK )
= number of occurrences of category i = N
j=1 δxj =i
p | X, α ∼ Dir(K, c + α) = Dir(K, c1 + α1 , . . . , cK + αK )
This relationship is used in Bayesian statistics to estimate the underlying
parameter ′ p’ of a categorical distribution given a collection of N samples.
Intuitively, we can view the vector α as pseudocounts, i.e. as representing
the number of observations in each category that we have already seen. Then
we simply add in the counts for all the new observations (the vector c ) in
order to derive the posterior distribution.
Further intuition comes from the expected value of the posterior distribution
E[pi | X, α] =
c i + αi
P
N + k αk
This says that the expected probability of seeing a category ”i” among the
various discrete distributions generated by the posterior distribution is simply
equal to the proportion of occurrences of that category actually seen in the
data, including the pseudocounts in the prior distribution. This makes a
great deal of intuitive sense
41