Grafi Aleatori e Network Reali

Transcript

Grafi Aleatori e Network Reali
Università degli Studi Roma Tre
Facoltà di Scienze Matematiche Fisiche e Naturali
Corso di Laurea in Matematica
Grafi Aleatori e Network Reali
Tesi di Laurea Magistrale in Matematica
Relatore
Prof. Pietro Caputo
Candidato
Mirko Moscatelli
Anno Accademico 2012/2013
Ottobre 2013
Indice
1 Network e grafi aleatori
4
1.1 Network reali . . . . . . . . . . . . . . . . . . . . . . . . . . .
4
1.1.1 Kevin Bacon Game e network collaborativo degli attori 4
1.1.2 Interazioni proteina-proteina . . . . . . . . . . . . . .
5
1.1.3 Network sessuali . . . . . . . . . . . . . . . . . . . . .
5
1.1.4 Il world wide web . . . . . . . . . . . . . . . . . . . . .
7
1.2 Grafi aleatori . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2.1 Relazione con i network . . . . . . . . . . . . . . . . . 11
1.2.2 Processi di grafi aleatori scale-free, highly clustered e
small world . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Preliminari teorici
2.1 Alberi . . . . . . . . . . . . . . . . . . . . .
2.2 Distribuzioni di probabilità . . . . . . . . .
2.3 Convergenza di variabili aleatorie . . . . . .
2.4 Grandi deviazioni . . . . . . . . . . . . . . .
2.5 Martingale . . . . . . . . . . . . . . . . . . .
2.6 Processi di ramificazione . . . . . . . . . . .
2.6.1 Processi di ramificazione di Poisson
2.7 Accoppiamenti . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
14
15
16
18
18
20
21
3 Il modello Erdös-Rényi
3.1 Introduzione del modello . . . . . . . .
3.2 Alcuni esempi . . . . . . . . . . . . . .
3.3 Equivalenza asintotica . . . . . . . . .
3.4 La comparsa della componente gigante
3.5 La soglia della connettività . . . . . .
3.6 La successione dei gradi . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
24
24
25
27
33
44
49
.
.
.
.
.
.
.
.
.
54
54
54
55
56
56
59
78
84
87
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Il modello Preferential Attachment
4.1 Introduzione del modello . . . . . . . . . . . .
4.1.1 Il modello per m = 1 . . . . . . . . . .
4.1.2 Il modello per m > 1 . . . . . . . . . .
4.1.3 Il modello Barabási-Albert . . . . . .
4.2 Grado di un vertice fissato . . . . . . . . . . .
4.3 Successione dei gradi . . . . . . . . . . . . . .
4.4 Variabili aleatorie scambiabili e Urne di Polya
4.5 Connettività . . . . . . . . . . . . . . . . . . .
4.6 Altri modelli Preferential Attachment . . . .
Bibliografia
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
91
1
Introduzione
Cosa hanno in comune le proteine del nostro corpo, Internet,
una collezione di atomi e i network sessuali? Un uomo pensa di avere la risposta e sta per trasformare il modo in cui
vediamo il mondo.
The Scientist, 2002
Albert Barabási, l’uomo della citazione sopra, e Reka Albert notarono (1999)
che sia il grafo collaborativo degli attori che il world wide web hanno una
distribuzione dei gradi che segue una legge di potenza pk ∼ Ck −γ per k → ∞.
Partendo dal loro lavoro, vari articoli hanno identificato un grande numero
di network, diversissimi tra loro, con distribuzione dei gradi che segue una
legge di potenza, detti ora network scale-free.
Da sempre la struttura dei network reali è stata oggetto di ricerca per la
letteratura di innumerevoli discipline (matematica, informatica, ingegneria,
economia, biologia, sociologia), in quanto la geometria delle reti presenti in
questi ambiti influenza rilevantemente le loro prestazioni. La scoperta di
Barabási e Albert ha avuto implicazioni fondamentali per queste ricerche
scientifiche. Le ricerche seguenti si sono dedicate a studiare sia perché network
molto diversi tra loro presentino le stesse affascinanti caratteristiche (oltre
già citato fatto di essere network scale-free, molti network reali condividono
le caratteristiche di essere small world e highly clustered ), sia quali siano le
proprietà, derivanti da queste caratteristiche, dei network.
Lo scopo di questa tesi è quello di studiare la modellizzazione matematica
di network attraverso grafi aleatori, ossia grafi generati da un qualche processo
stocastico, riuscendo a derivare matematicamente, partendo da semplici
ipotesi, il sorprendente comportamento scale-free riscontrato in molti network
reali.
Nel primo capitolo della tesi parliamo in termini generali dei network reali
e dei grafi aleatori. Iniziamo descrivendo cosa siano i network reali, quali
siano le loro proprietà comuni riscontrate empiricamente (scale-free, small
world, highly clustered ), e presentiamo poi alcuni esempi, tratti da articoli
della letteratura recente, di network reali che presentano queste proprietà,
in particolare il comportamento scale-free. Introduciamo poi i grafi aleatori,
dandone la definizione formale e spiegando perché vengano utilizzati per
modellizzare i network.
Nel secondo capitolo raccogliamo alcuni preliminari teorici, risultati noti
di teoria dei grafi e di probabilità, che useremo nelle dimostrazioni dei capitoli
successivi.
Nel terzo capitolo studiamo il modello di grafo aleatorio più importante e
studiato in letteratura, il modello Erdős-Rényi, in cui le connessioni aleatorie
2
tra i vertici del grafo sono presenti in maniera indipendente e equiprobabile.
Dopo aver introdotto il modello e mostrato come le sue due definizioni alternative siano asintoticamente equivalenti, ci dedichiamo allo studio della
componente massima e della connettività del modello, proprietà che presentano un’interessante transizione di fase. Infine, studiamo la successione dei
gradi del modello, mostrando come la poco realistica ipotesi di equiprobabilità delle connessioni implichi delle proprietà del modello diverse da quelle
riscontrate empiricamente nei network reali.
Nel quarto ed ultimo capitolo studiamo infine un interessantissimo modello, il modello Preferential Attachment, in cui le connessioni dei nuovi vertici,
anziché essere equiprobabili, sono una funzione lineare dei gradi dei vertici
già esistenti. Dopo aver descritto il modello e calcolato il grado di un vertice
fissato ci dedichiamo a studiare la successione dei gradi, in cui mostriamo
che la distribuzione dei gradi segue una legge di potenza analoga a quella
riscontrata nei network reali. L’attaccamento preferenziale, a causa di questo,
resta tutt’oggi la spiegazione più plausibile al comportamento scale-free dei
network. Introduciamo poi alcuni elementi teorici spesso usati per lo studio
delle proprietà di questo modello, le variabili aleatorie scambiabili e le urne
di Polya, per poi applicarle nello studio della connettività del modello. Per
concludere, presentiamo gli altri modelli di Preferential Attachment studiati
in letteratura.
3
1
Network e grafi aleatori
1.1
Network reali
Grazie all’avvento dei computer, è stato possibile di recente studiare empiricamente network di grandi dimensioni. Una conclusione sorprendente di questo
studio è stata che molti network reali presentano affascinanti caratteristiche
in comune. Molti sono small world, cioè la maggior parte dei vertici sono
separati da cammini di lunghezza breve rispetto alle dimensioni del grafo, e
highly clustered, nel senso che i vertici tendono a disporsi a grappoli, ovvero,
la probabilità che due vertici siano vicini cresce con l’aumentare dei vicini
in comune. Da un punto di vista logico, queste proprietà potevano essere
immaginate. Difatti, la breve distanza tra i vertici è funzionale ad ottimizzare
le prestazioni del network, mentre, intuitivamente, due persone saranno più
facilmente amiche se hanno già molti amici in comune, o due proteine/server
interagiranno più facilmente tra loro se già hanno interagito con elementi in
comune, giustificando la presenza di grappoli. Più sorprendentemente, molti
network sono scale free, cioè la distribuzione empirica dei gradi dei vertici è
quasi indipendente dalle dimensioni del grafo, ed in particolare la frequenza
dei vertici di grado k è approssimativamente proporzionale a k −τ per qualche
τ > 1. Da queste osservazioni di Barabási e Albert, che all’inizio avevano
studiato principalmente solo il grafo di internet e il grafo di collaborazione
degli attori, sono seguite numerose ricerche che hanno evidenziato la presenza
delle stesse proprietà in molti network, di cui presentiamo alcuni esempi.
1.1.1
Kevin Bacon Game e network collaborativo degli attori
Uno dei primi network scale-free studiati è stato il network collaborativo
degli attori. In questo network, i vertici sono gli attori di film, e due attori
sono collegati tra loro da un lato se hanno recitato insieme in uno stesso film.
Questo network è diventato particolarmente famoso in relazione a Kevin
Bacon, attore che sembra essere ragionevolmente centrale nel network, e ai
rispettivi numeri di Bacon. Il numero di Bacon di un attore è la distanza
che lo separa da Kevin Bacon, ovvero il numero minimo di persone, collegate
tra loro, che forma il cammino da tale attore a Kevin Bacon. Quello che
facciamo, procedimento non raro in teoria dei grafi (in particolare in teoria
degli alberi), è prendere un vertice che sembra ragionevolmente centrale e
farne la radice del grafo, rapportando poi gli altri vertici ad esso. Nella
Tabella 1 possiamo vedere il numero di attori che possiede un determinato
numero di Bacon.
Barabási e Albert, in [3], propongono questo network come il primo
network small world studiato a mostrare un comportamento scale-free, con
esponente stimato τ = 2.1 ± 0.1.
4
Numero di Bacon
0
1
2
3
4
5
6
7
8
Numero di attori
1
2796
311207
1059651
266847
21222
2157
226
28
Tabella 1: Numeri di Kevin Bacon (Aprile 2013)
1.1.2
Interazioni proteina-proteina
Le proteine, come è noto, giocano un ruolo importante nell’esecuzione del
programma genetico. Tuttavia, mentre svolgono una funzione biologica
oppure fungono da blocchi molecolari per una struttura cellulare, raramente
agiscono individualmente. Piuttosto, interagiscono molto tra loro, e la
complessità biologica globale è incapsulata proprio nella struttura e nelle
dinamiche delle interazioni combinatoriali delle proteine tra loro (cosı̀ come
delle altre molecole biologiche) a differenti livelli, che variano dalle vie
metaboliche ai fenomeni ecologici.
L’ampia ricerca svolta sui network delle interazioni proteina-proteina
(PPI networks), in particolare in [35], [37], [25] e [18], ha calcolato diverse
proprietà topologiche di questi network, tra cui la distanza media tra due
vertici, il coefficient di clustering e la distribuzione empirica dei gradi. I
risultati principali sono riassunti nella Figura 1 e nella Tabella 2. Dallo
studio effettuato segue che i PPI network sono in molti casi small world,
highly clustered e scale-free, e, in particolare, che la maggior parte di questi
network segue in ottima approssimazione leggi di potenza con esponenti
compresi tra 1.35 e 2.36.
1.1.3
Network sessuali
Il network sessuale è un particolare tipo di network sociale, nel quale i
vertici sono le persone, e in cui due persone sono collegate da un lato se
hanno avuto un rapporto sessuale nell’ultimo anno. Il vantaggio di questo
network, a differenza della maggior parte dei network sociali, è che è ben
definito, e quindi più preciso da studiare. Spesso, infatti, i newtork sociali
presentano qualche tipo di ambiguità e di soggettività, in quanto gli individui
hanno percezioni diverse di cosa costituisca esattamente un legame, come ad
esempio un legame di amicizia o di conoscenza.
5
Figura 1: Distribuzione empirica dei gradi P (k) dei PPI network di alcune
specie.
Network
E. coli
H. pylori
S. cerevisiae (Core)
D. melanogaster
C. elegans
M. musculus
H. sapiens
Proteine
1640
702
2614
7441
2629
327
1059
Interazioni
6658
1359
6379
22636
3970
274
1318
<D>
3.73
4.14
5.00
4.39
4.81
3.57
6.80
<C>
0.5889
0.0255
0.2990
0.0159
0.0490
0.1011
0.1658
< Cr >
0.1168
0.0403
0.0103
0.0097
0.0462
0.0062
0.0098
< D > = Distanza media tra due vertici
< C > = Coefficiente di clustering
< Cr > = Coefficiente di clustering casuale
γ = Esponente stimato della distribuzione dei gradi P (k) ∼ k −γ
Tabella 2: Proprietà empiriche dei PPI network di alcune specie.
6
γ
1.355
1.651
1.945
1.977
1.599
2.360
2.025
In [24] e in [26] viene studiato il network sessuale svedese relativo all’anno
1996. In questi lavori è mostrato come la distribuzione dei gradi del network
sia molto diversa da una distribuzione normale, seguendo invece, in ottima
approssimazione, una legge di potenza con esponente τ ∼ 2.4, sia per gli
uomini che per le donne. Una plausibile spiegazione al comportamento
scale-free dei network sessuali è l’ipotesi di preferential attachment, in base
ad alcune osservazioni:
• L’abilità di procurarsi nuovi partner aumenta quando il numero di
partner precedenti cresce.
• Diversi livelli di bellezza e interesse delle persone.
• Necessità, da parte delle persone popolari, di continuare ad avere molti
partner per mantenere l’immagine di sé.
Questa scoperta ha profonde implicazioni epidemiologiche. Per prima cosa,
le epidemie compaiono e si propagano molto più rapidamente nei network
scale-free che nei network single-scale. Inoltre, per i network scale-free, le
misure per contenere o fermare la diffusione delle malattie sono radicalmente
diverse. Lo studio di questo tipo di network mostra infatti come siano
resistenti alla distruzione di vertici casuali, ma altamente suscettibili alla
distruzione dei vertici di grado grande. Pertanto, una campagna di educazione
sessuale avrebbe un impatto molto maggiore sulla prevenzione della diffusione
delle malattie sessuali se si puntasse ad una strategica educazione degli
individui con molti partner, piuttosto che ad un’educazione random sulle
persone del territorio.
1.1.4
Il world wide web
L’ultimo esempio di network reale che presentiamo è il World Wide Web
(WWW), che negli ultimi anni ha attirato a sé un’enorme attenzione. In
questo network i vertici sono le pagine web, e c’è un arco orientato tra
due pagine web se la prima ha un link verso la seconda. Con il mondo
che diventa sempre più virtuale, e il WWW che cresce ad una velocità
spaventosa, lo studio delle proprietà del WWW è aumentato di pari passo.
Lo studio delle proprietà topologiche del web è infatti di grande importanza
per problemi attuali come, ad esempio, la ricerca di metodi per esplorarlo.
Un noto, ma interessantissimo, problema legato alla struttura del web è il
problema del Page Ranking, ossia di classificare per importanza le pagine
web relativamente a determinati argomenti, il cui studio è uno dei principali
motivi del successo di Google. Non per niente, i creatori dell’algoritmo di
Page Ranking sono infatti anche i fondatori di Google.
In [1] Albert, Jeong e Barabási studiano le distribuzioni dei gradi di
alcuni domini web, dimostrando come sia la distribuzione dei gradi entranti
che la distribuzione dei gradi uscenti seguano leggi di potenza, con esponenti
7
rispettivamente τin ∼ 2.1 e τout ∼ 2.45. Viene inoltre studiata la distanza
media d tra i vertici di questi domini, mostrando come cresca linearmente
con il logaritmo della grandezza n dei domini, e derivandone la legge stimata
d = 0.35 + 2.06 log(n). La rappresentazione grafica di questi studi è data
dalla Figura 2. Usando la legge di d insieme alla stima delle pagine web
del tempo, ossia n = 8 ∗ 108 , Albert, Jeong e Barabási conclusero che il
diametro del WWW del tempo fosse circa 19, che indusse gli autori a questa
affermazione:
Per fortuna, il sorprendentemente piccolo diametro del web
significa che tutta l’informazione dista soltanto pochi clic da
noi.
Diameter of the world-wide web 1999
Una delle più significative analisi della struttura del web è stata invece
svolta da Broder et al. in [22], seguendo il lavoro precedente svolto in [8],
in cui gli autori dividono il WWW in varie parti distinte (Figura 3). La
divisione è grosso modo in quattro sezioni:
(a) Il core centrale (Strongly Connected Component, SCC), consistente di
tutte le pagine web che possono raggiungersi l’un l’altra attraverso link
diretti (28% delle pagine web);
(b) La parte interna (parte IN), consistente di tutte le pagine che possono raggiungere la SCC attraverso link diretti ma non possono essere
raggiunta da essa (21% delle pagine);
(c) La parte esterna (parte OUT), consistente di tutte le pagine che possono essere raggiunte dalla SCC attraverso link diretti ma non possono
raggiungerla (21% delle pagine);
(d) Il resto del World Wide Web (TENDRILS), consistente delle pagine web
che non possono raggiungere la SCC, né essere raggiunte da essa (30%
delle pagine).
Broder et al. hanno studiato, tra le altre proprietà, anche il diametro del
WWW, trovando che la SCC ha diametro almeno 28 mentre il WWW intero
ha diametro almeno 500. Questo alto valore è parzialmente dovuto al fatto
che il WWW è un grafo orientato. Considerando il grafo come non-orientato,
il grado medio scende infatti circa a 7. Nel loro studio, Broder et al. hanno
calcolato infine anche la distribuzione dei gradi del WWW, mostrando come
il grado entrante e il grado uscente seguano approssimativamente una legge
di potenza con esponenti stimati di τin ∼ 2.1 e τin ∼ 2.5 rispettivamente,
valori simili a quelli riscontrati da Albert, Jeong e Barabási nel loro articolo.
8
Figura 2: a, Distribuzione empirica dei gradi uscenti; b, Distribuzione
empirica dei gradi entranti; c, Distanza media tra due pagine web. Dati della
mappa completa del dominio nd.edu (Università di Notre Dame), contenente
325729 pagine web e 1469680 link.
9
Figura 3: La struttura del World Wide Web
1.2
Grafi aleatori
Un grafo aleatorio è, semplicemente, un grafo ottenuto attraverso un processo
aleatorio. Formalmente possiamo rappresentarlo con una tripla (Ω, F, P), dove
Ω è un insieme di grafi, F una σ−algebra di sottoinsiemi di Ω e P : F → [0, 1]
una funzione di probabilità su F . Nel nostro caso, spesso l’insieme dei vertici
sarà fissato come [n] = {1, . . . , n}, cosı̀ che Ω sarà l’insieme di tutti i grafi
con insieme dei vertici [n] e F = 2Ω l’insieme di tutti i sottoinsiemi di Ω.
Molte volte, oltre che ai singoli grafi aleatori, saremo interessati a processi
di grafi aleatori. In generale, un processo di grafi aleatori è un processo
stocastico che descrive l’evoluzione di un grafo aleatorio nel tempo. In
altre parole, è una famiglia {G(t)}t di grafi aleatori, definiti su uno spazio di
probabilità comune, dove il parametro t è interpretato come il tempo, che può
essere sia discreto che continuo. Dato un processo di grafi aleatori {G(t)}t ,
diremo che un evento si verifica con grande probabilità o asintoticamente
quasi certamente (a.q.c.) se la probabilità che l’evento si verifichi in G(t)
tende a 1 per t che tende a ∞.
La parola “modello” è utilizzata in maniera abbastanza varia nel contesto
dei grafi aleatori. Può indicare un particolare grafo aleatorio (il modello
Erdös-Rényi G(n, p)), una particolare classe di grafi aleatori (il modello
Erdös-Rényi), o anche un insieme di classi che condividono una caratteristica
comune (il modello Preferential Attachment). Il significato sarà di volta in
10
volta chiarito dal contesto.
1.2.1
Relazione con i network
Non si può descrivere esplicitamente la struttura del network di tutte le
relazioni sociali del pianeta, che ha una dimensione di circa 6 miliardi di
persone, o del world wide web, che ha una grandezza stimata di vari miliardi
di pagine web. Ciò è dovuto per prima cosa al fatto che è impossibile reperire
tutti i dati per descriverli in maniera completa. Inoltre, anche nel caso fosse
possibile, la quantità enorme di dati e di struttura renderebbe i relativi
modelli troppo difficili da comprendere e analizzare.
Questa situazione è ben nota in altre discipline, in particolare nei sistemi
particellari. Molti sistemi particellari consistono di più di 1023 particelle,
rendendo impossibile descrivere la posizione e i movimenti di tutte le particelle
esplicitamente. Questo fatto è stato compreso molto tempo fa ed è stato
risolto introducendo nei modelli l’aleatorietà, che ha portato alla nascita,
nel caso dei sistemi particellari, della meccanica statistica. Il vantaggio
principale della meccanica statistica è che è necessario descrivere unicamente
le interazioni locali delle molecole, e queste leggi locali regolano poi in modo
preciso il comportamento globale del sistema. Spesso infatti, nei sistemi
di grandi dimensioni, le fluttuazioni casuali locali tendono ad annullarsi, e
rimangono soltanto le medie. Pertanto un modello di meccanica statistica,
seppur basato sullo studio locale, può predire comportamenti globali come
ad esempio la transizione di fase da acqua a ghiaccio. In parole povere, si
modellizza la complessità attraverso l’aleatorietà.
Un simile approccio può essere applicato allo studio dei network. La loro
grandezza fa sı̀ che la loro descrizione completa sia pressoché impossibile.
Però, analogamente a quanto fatto per i sistemi particellari, si può ovviare al
problema modellando il network localmente, ossia descrivendo quanti elementi
abbia e con che leggi probabilistiche questi elementi siano localmente connessi
l’uno all’altro, e questo darà poi informazioni sul network nella sua interezza.
Questo ci porta a considerare i grafi aleatori come modelli per network reali,
e ad introdurre l’aleatorietà nella teoria delle reti.
1.2.2
Processi di grafi aleatori scale-free, highly clustered e small
world
Come descritto nella sezione precedente, molti network reali sono “scalefree”, “small world” e “highly clustered”. Queste nozioni sono empiriche
e, pertanto, non matematicamente precise. In questa sezione cerchiamo
pertanto di descrivere cosa intendiamo, per un modello di network reale, di
soddisfare queste proprietà. Il primo (e al momento unico) tentativo di dare
una formalizzazione matematica di queste proprietà è stato svolto da Van
der Hofstad in [34], ed è l’approccio che seguiremo noi.
11
Molti network reali sono di dimensioni enormi, e spesso crescono nel
tempo. Basti pensare al World Wide Web, ai network collaborativi o ai
network sociali. Pertanto, è ragionevole considerare grafi di dimensione
crescente, e definire le nozioni di grafo aleatorio scale-free, small world
e highly clustered come proprietà limite quando la dimensione del grafo
aleatorio tende a infinito. Questo porta in modo naturale a studiare processi
{Gn }∞
n=0 di grafi aleatori, dove il parametro n denota la dimensione del grafo
Gn .
(n)
Denotiamo con Pk la proporzione di vertici di grado k in Gn , ossia
n
(n)
Pk
=
1X
1{D(n) =k} ,
n
i
(1.2.1)
i=1
(n)
dove Di denota il grado del vertice i ∈ {1, . . . , n} nel grafo Gn . Siamo
ora pronti a definire cosa significhi, per un processo di grafi aleatori, essere
scale-free.
Per prima cosa, diciamo che un processo di grafi aleatori è sparso quando
(n)
lim Pk
n→∞
= pk
(1.2.2)
per qualche deterministica distribuzione di probabilità {pk }∞
k=0 . Poiché
∞
{pk }k=0 somma ad uno, per n grande la maggior parte dei vertici avrà grado
limitato, che spiega la parola “sparso”.
Finalmente, diciamo che un processo di grafi aleatori {Gn }∞
n=0 è scale-free
con esponente τ se è sparso e
lim
k→∞
log(pk )
=τ
log( k1 )
(1.2.3)
esiste.
Definiamo ora il coefficiente di clustering di un grafo G come
CG =
3 · numero di triangoli del grafo
.
numero di coppie di lati adiacenti
(1.2.4)
Diciamo che un processo di grafi aleatori {Gn }∞
n=0 è highly clustered se
lim CGn = CG∞ > 0.
n→∞
(1.2.5)
Infine, vogliamo definire cosa intendiamo per processo di grafi aleatori
small world. Denotiamo innanzitutto con Hn la distanza tra due vertici
connessi del grafo G scelti uniformemente, ovvero, scegliamo una coppia di
vertici uniformemente tra tutte le coppie di vertici connessi e prendiamo la
distanza Hn tra questi vertici. Chiamiamo Hn distanza tipica di G. Allora,
12
diciamo che un processo di grafi aleatori è small world se esiste una costante
K tale che
lim P(Hn ≤ K log(n)) = 1.
(1.2.6)
n→∞
La scelta di operare con la distanza tipica e non con il diametro è dovuta al
fatto che il diametro, essendo un oggetto particolarmente sensibile, può non
rappresentare bene la natura del grafo. Per esempio, aggiungendo m vertici
in linea non connessi a nessun altro vertice, il diametro del grafo diventa
almeno m, mentre, se m è molto più piccolo di n, la distanza tipica Hn non
cambia molto, risultando essere una proprietà più robusta.
13
2
Preliminari teorici
In questo capitolo raccoglieremo alcuni risultati noti di probabilità e di teoria
dei grafi che saranno utilizzati nel resto della tesi.
2.1
Alberi
Spesso, nelle dimostrazioni riguardanti la teoria dei grafi, ci si trova a studiare
gli alberi o i sottoalberi di qualche grafo. Riportiamo di seguito la definizione
di albero e le principali proprietà che useremo.
Definizione 2.1. Un grafo T si dice un albero se è connesso e aciclico.
Proposizione 2.1 (Caratterizzazione degli alberi). Sia T un grafo connesso.
Allora, T è un albero se e solo se |V (T )| = |E(T )| + 1.
Proposizione 2.2 (Teorema di Cayley). Il numero di alberi di dimensione
n su n vertici etichettati è uguale a nn−2 . Equivalentemente, il numero di
alberi ricoprenti del grafo completo di dimensione n è uguale a nn−2 .
2.2
Distribuzioni di probabilità
Introduciamo in questa sezione due note distribuzioni di probabilità, la
distribuzione Beta e la distribuzione Gamma (insieme ad alcune proprietà di
quest’ultima), che useremo nel resto della tesi.
La distribuzione Gamma x → Γ(x) è definita, per x > 0, da
Z ∞
Γ(x) =
y x−1 e−y dy.
(2.2.1)
0
Due proprietà di questa funzione, che seguono direttamente dalla definizione,
sono che
Γ(x + 1) = xΓ(x)
(2.2.2)
e
Γ(n) = (n − 1)!
(2.2.3)
per n = 1, 2, . . . . Inoltre, si ha il seguente risultato noto (con annesso
corollario).
Proposizione 2.3 (Formula di Stirling). Sia x ∈ R. Allora,
Γ(x) x x
lim p
( ) = 1.
x→+∞
(2πx) e
Corollario 2.1. Siano x, a ∈ R. Allora, per x → ∞,
Γ(x + a)
1
= xa (1 + o( )).
Γ(x)
x
(2.2.4)
(2.2.5)
La distribuzione Beta x → B(x) è definita, per x ∈ R, da
B(x) =
Γ(a + b) a−1
x (1 − x)b−1 .
Γ(a)Γ(b)
14
(2.2.6)
2.3
Convergenza di variabili aleatorie
In questa sezione andremo a vedere alcuni risultati sulla convergenza di variabili aleatorie. Iniziamo dando le definizioni di convergenza in distribuzione
e convergenza in probabilità.
Definizione 2.2. Diciamo che una successione Xn di variabili aleatorie
converge in distribuzione alla variabile aleatoria X se
lim P(Xn ≤ x) = P(X ≤ x)
n→∞
(2.3.1)
per ogni x per cui F (x) = P(X ≤ x) è continua. Indichiamo questa
d
convergenza con Xn −
→ X.
Definizione 2.3. Diciamo che una successione Xn di variabili aleatorie
converge in probabilità alla variabile aleatoria X se, per ogni ε > 0,
lim P(|Xn − X| > ε) = 0.
n→∞
(2.3.2)
P
Indichiamo questa convergenza con Xn −
→ X.
Spesso, lavorando con i grafi aleatori, saremo particolarmente interessati
a quando successioni di variabili aleatorie convergono ad una Poisson di
un parametro λ noto. Data una variabile aleatoria X, definiamo (X)r =
X(X − 1) . . . (X − r + 1).
Definizione 2.4. E[(X)r ] si dice l’r-esimo momento fattoriale di X.
Abbiamo allora i due seguenti risultati.
Proposizione 2.4 (Convergenza ad una variabile di Poisson). Una successione di variabili aleatorie {Xn }n≥1 a valori in N converge in distribuzione
ad una variabile aleatoria di Poisson di parametro λ se, per ogni r ≥ 1,
lim E[(Xn )r ] = λr .
n→∞
(2.3.3)
Proposizione
2.5 (Momento fattoriale della somma di variabili indicatrici).
P
Sia X = i∈J Ii , dove le Ii sono variabili aleatorie indicatrici. Allora,
E[(Xn )r ] =
X
i1 ,...,ir ∈J
r
Y
E[ Iil ] =
l=1
X
i1 ,...,ir ∈J
15
P(Ii1 = · · · = Iir = 1).
(2.3.4)
2.4
Grandi deviazioni
Una caratteristica comune a molti argomenti probabilistici è la necessità di
dimostrare che una variabile aleatoria è, con grande probabilità, non troppo
lontana dalla sua media. Un primo, semplice, esempio è la disuguaglianza di
Chebyshev. In questo capitolo vedremo risultati di questo tipo, validi sotto
ipotesi più restrittive ma generalmente più forti. In particolare mostreremo
come, in alcuni casi, data X variabile aleatoria e t > 0, la probabilità
P(X ≥ E[x] + t) decresca esponenzialmente al crescere di t. Un approccio
spesso usato è quello di applicare la disuguaglianza di Markov a euX , per
poi ottimizzare su u. Per ogni u ≥ 0, abbiamo infatti che
P(X ≥ E[x] + t) = P(euX ≥ eu(E[x]+t) ) ≤ e−u(E[x]+t) E[euX ],
(2.4.1)
e analogamente, per ogni u ≤ 0,
P(X ≤ E[x] − t) = P(euX ≥ eu(E[x]−t) ) ≤ e−u(E[x]−t) E[euX ].
(2.4.2)
Partendo da queste disuguaglianze si cerca generalmente di stimare la funzione
generatrice E[euX ] presente nel termine destro, scegliendo poi un u ottimale
per la disuguaglianza. Per il resto della discussione fisseremo u ≥ 0, in
quanto il ragionamento per u ≤ 0 è quasi totalmente speculare.
Un caso importante in cui la 2.4.1 si rivela utile è quando la variabile
X
Pnpuò essere espressa come somma di variabili indipendenti, ovvero X =
i=1 Xi . In tal caso, infatti, la 2.4.1 diventa
P(X ≥ E[x] + t) ≤ e−u(E[x]+t) E[euX ]
Pn
= e−u(E[x]+t) E[eu i=1 Xi ]
n
Y
= e−u(E[x]+t)
E[euXi ].
(2.4.3)
i=1
Consideriamo
ora il caso particolare X ∼ Bin(n, p). In questo caso, X =
Pn
X
,
dove
le Xi sono indipendenti e identicamente distribuite come una
i=1 i
Bernoulli di parametro p, e sia λ = np = E[X]. Poiché E[euXi ] = 1 − p + peu ,
la 2.4.3 diventa
P(X ≥ E[x] + t) ≤ e−u(λ+t) (1 − p + peu )n .
Assunto λ + t < n, il termine a destra assume massimo in eu =
per cui
P(X ≥ E[x] + t) ≤ (
=
(2.4.4)
(λ+t)(1−p)
p(n−λ−t) ,
(λ + t)(1 − p) −(λ+t)
(λ + t)(1 − p) n
)
(1 − p + p
)
p(n − λ − t)
p(n − λ − t)
−λ−t
(λ + t)−λ−t ( n−λ
n )
(
n−λ n
nn
)
n
(n − λ − t)n
( nλ )−λ−t (n − λ − t)−λ−t
λ λ+t n − λ n−λ−t
= (
) (
)
.
λ+t
n−λ−t
16
(2.4.5)
Questo bound è spesso chiamato bound di Chernoff. Nella pratica, è spesso
conveniente sostituire il termine destro della disuguaglianza con qualcosa di
più grande ma più semplice. Due conseguenze della 2.4.5 sono presentate nel
seguente teorema.
Teorema 2.1. Sia X ∼ Bin(n, p) e λ = np. Allora, posto φ(x) = (1 +
x) log(1 + x) − x per x > −1 (e +∞ per x ≤ 1), ∀t ≥ 0 si ha che
t2
t
P(X ≥ E[X] + t) ≤ exp(−λφ( )) ≤ exp(−
)
λ
2(λ + 3t )
e
P(X ≤ E[X] − t) ≤ exp(−λφ(
t2
−t
)) ≤ exp(− ).
λ
2λ
(2.4.6)
(2.4.7)
Dimostrazione 2.1. Partendo da 2.4.5, abbiamo che
λ λ+t n − λ n−λ−t
) (
)
λ+y
n−λ−t
λ
n−λ
exp((λ + t) log(
) + (n − λ − t) log(
))
λ+t
n−λ−t
λ+t
λ+t
exp(−λ(
) log(
)+
λ
λ
t
(n − λ − t) log(1 +
))
n−λ−t
λ+t
λ+t
) log(
) + t)
exp(−λ(
λ
λ
t
exp(−λφ( )).
(2.4.8)
λ
P(X ≥ E[X] + t) ≤ (
=
=
≤
=
Procedendo in modo analogo, otteniamo che
P(X ≤ E[x] − t) ≤ exp(−λφ(
−t
)),
λ
(2.4.9)
che sono le prime due disuguaglianze di 2.4.6 e 2.4.7. Osserviamo ora che,
2
siccome φ(0) = 0 e φ0 (x) = log(1 + x) ≤ x, φ(x) ≥ x2 per −1 ≤ x ≤ 0, da
cui segue la seconda disuguaglianza di 2.4.7. Analogamente, abbiamo che
φ(0) = φ0 (0) = 0 e
φ00 (x) =
pertanto φ(x) ≥
2.4.6.
x2
2(1+ x3 ) ,
1
1
x2
)00 ,
≥
=
(
1+x
(1 + x3 )3
2(1 + x3 )
da cui segue anche la seconda disuguaglianza di
17
2.5
Martingale
In questa sezione ricordiamo alcuni dei risultati più importanti della teoria
delle martingale. Iniziamo con la definizione di martingala.
Definizione 2.5. Un processo stocastico {Mn }∞
n=0 si dice una martingala
se, ∀n ≥ 0,
E[|Mn |] < ∞
(2.5.1)
e
E[Mn+1 |M0 , M1 , . . . , Mn ] = Mn .
(2.5.2)
In altre parole, una martingala è un processo stocastico in cui il futuro,
condizionato al presente e al passato, è in media uguale al presente.
Enunciamo ora uno dei risultati più importanti di questo argomento, il
teorema di convergenza delle martingale, in una delle sue principali forme.
Proposizione 2.6 (Teorema di convergenza delle martingale). Sia {Mn }∞
n=0
una martingala che soddisfa
E[|Mn |] ≤ B
(2.5.3)
per ogni n ≥ 0, con B ∈ R. Allora, Mn → M∞ per qualche variabile aleatoria
M∞ finita con probabilità 1.
In particolare, se {Mn }∞
n=0 è una martingala non negativa, E[|Mn |] =
E[Mn ] = E[M0 ] per ogni n ≥ 0, quindi per il teorema di convergenza
Mn → M∞ per qualche variabile aleatoria M∞ finita con probabilità 1.
Un altro risultato molto importante della teoria delle martingale è la
disuguaglianza di Azuma-Hoeffding, che, sotto alcune ipotesi, fornisce bound
esponenziali per le code delle martingale, spesso semi-ottimali.
Proposizione 2.7 (Disuguaglianza di Azuma-Hoeffding). Sia {Mn }∞
n=0 una
∞
martingala per cui esista {Kn }n=0 ≥ 0 tale che, con probabilità 1,
|Mn − Mn−1 | ≤ Kn
per ogni n ≥ 1,
(2.5.4)
dove per convenzione definiamo M−1 = µ = E[Mn ]. Allora, per ogni a ≥ 0,
a
}.
P(|Mn − µ| ≥ a) ≤ 2 exp {− Pn
2 i=0 Ki2
2.6
(2.5.5)
Processi di ramificazione
Sia X una variabile aleatoria a valori in N. Il processo di ramificazione di
Galton-Watson definito da X inizia con una singola particella che produce
Z1 altre particelle, i suoi figli, dove Z1 è una variabile aleatoria con la stessa
distribuzione di X. Ognuna di queste particelle neo-nate produce a sua volta
i propri figli, il cui numero ha distribuzione X indipendent da ogni altra
18
particella, e cosı̀ via. Se indichiamo con Zi il numero di neo-nati dell’i-esima
generazione, allora Z0 ≡ 1 mentre, ∀i ≥ 1, Zi è la somma di Zi−1 copie
indipendenti di X.
La caratteristica più importante dei processi di ramificazione è che se
la media di X è maggiore di uno, allora con probabilità positiva il processo
continuerà per sempre, mentre viceversa, escluso il caso degenerato in cui
X ≡ 1, con probabilità uno il processo prima o poi morirà, ossia per qualche
n0 (e quindi per tutti gli n ≥ n0 ) avremo che Zn0 = 0. Più precisamente, sia
f : [0, 1] → R la funzione generatrice di probabilità di X, ossia
X
f (x) = E[xX ] =
xi P(X = i),
(2.6.1)
i≥0
P
e sia Z =
i>0 il numero totale di particelle prodotte dal processo di
ramificazione. La probabilità di estinzione del processo è definita come
ρ = P(Z < ∞) = lim P(Zn = 0).
n→∞
(2.6.2)
Si ha allora il seguente risultato.
Proposizione 2.8 (Teorema di sopravvivenza per processi di ramificazione).
Sia ρX la probabilità di estinzione di un processo di ramificazione definito
dalla variabile aleatoria X. Allora, se E[X] ≤ 1, con probabilità 1 ρX = 1,
con unica eccezione il caso banale P(X = 1) = 1. Se invece E[X] > 1 e
P(X = 0) > 0, con probabilità 1 ρX = x0 , dove x0 è l’unica soluzione
dell’equazione f (x) = x nell’intervallo (0, 1).
Presentiamo di seguito due esempi, relativi alle variabili di Poisson e
binomiali, che ci saranno utili in futuro.
Esempio 2.1. Sia X ∼ Poi(c). In tal caso,
fX (x) =
∞ i i
X
cx
i=0
i!
e−c = exp(c(x − 1)).
(2.6.3)
Pertanto, se c > 1, la probabilità di estinzione ρX del processo di ramificazione definito da X è uguale a 1 − β(c), dove β = β(c) è la probabilità di
sopravvivenza, che per quanto detto nella proposizione 2.8 soddisfa
1 − β = exp(c((1 − β) − 1)) = exp(−βc),
(2.6.4)
ossia β ∈ (0, 1) è univocamente determinata da
β + e−βc = 1.
(2.6.5)
Esempio 2.2. Sia Yn ∼ Bin(n, p), con np → c per n → ∞. Siccome
n X
n i i
fYn (x) =
x p (1 − p)n−i = (1 − p + xp)n ,
(2.6.6)
i
i=0
19
per ogni x ∈ R abbiamo che
c
cx
+ )n
n
n
c(x − 1) n
= lim (1 +
)
n→∞
n
= exp(c(x − 1)),
lim fYn (x) =
n→∞
lim (1 −
n→∞
(2.6.7)
ovvero la funzione generatrice di probabilità di Yn tende puntualmente alla
funzione generatrice di X ∼ Poi(c). Pertanto, per n → ∞, la probabilità di
estinzione ρ(n, c) del processo di ramificadzione definito da Yn converge a
1 − β(c), con β(c) definita come in 2.6.5.
Presentiamo ora due risultati noti sulla media della progenie dell’n-esima
generazione e della progenie totale.
Proposizione 2.9. Sia n ≥ 0 e µ = E[X] il numero medio di figli di una
qualsiasi particella. Allora,
E[Zn ] = µn .
(2.6.8)
P∞
Proposizione 2.10. Sia T = n=0 Zn la progenie totale di un processo di
ramificazione definito da X, tale che E[X] = µ < 1. Allora,
E[T ] =
2.6.1
1
.
1−µ
(2.6.9)
Processi di ramificazione di Poisson
In questa sezione studieremo alcuni risultati relativi a processi di ramificazione
definiti da una variabile di Poisson.
Proposizione 2.11. Sia T ∗ la progenie totale di un processo di ramificazione
definito da X ∼ Po(λ). Allora,
P(T ∗ = n) =
(λn)n−1 −λn
e
.
n!
(2.6.10)
Proposizione 2.12. Sia T ∗ la progenie totale di un processo di ramificazione
definito da una Po(λ). Allora,
1
P(T ∗ = n) = √
e−Iλ n (1 + o(1)),
λ 2πn
(2.6.11)
Iλ = λ − 1 − log(λ).
(2.6.12)
dove
Proposizione 2.13. Sia ζλ la probabilità di sopravvivenza di un processo di
ramificazione definito da una Po(λ = np). Allora, per λ ↓ 1,
ζλ = 2(λ − 1)(1 + o(1)).
20
(2.6.13)
Proposizione 2.14. Siano T la progenie totale di un processo di ramificazione definito da Y ∼ Bin(n, p) e T ∗ la progenie totale di un processo di
ramificazione definito da X ∼ Po(λ). Allora,
P(T ≥ k) = P(T ∗ ≥ k) + ek (n),
dove
|ek (n)| ≤
k−1
2λ2 X
P(T ∗ ≥ s).
n
(2.6.14)
(2.6.15)
s=1
2.7
Accoppiamenti
Due variabili aleatorie X e Y si dicono accoppiate quando sono definite su
uno spazio di probabilità comune, ossia quando esiste una legge P tale che
siano definite P(X ∈ E, Y ∈ F ) per tutti i possibili eventi E, F ∈ Ω. La
definizione formale, generalizzata a n variabili aleatorie, è la seguente.
Definizione 2.6. Le variabili aleatorie (X̂1 , . . . , Xˆn ) sono un accoppiamento delle variabili aleatorie X1 , . . . , Xn se:
1. (X̂1 , . . . , Xˆn ) sono definite sullo stesso spazio di probabilità.
2. La distribuzione marginale di X̂i è la stessa della variabile Xi per tutti
gli i = 1, . . . , n, ossia, per ogni sottoinsieme misurabile E di R, si ha
che
P(X̂i ∈ E) = P(Xi ∈ E).
Il punto importante della definizione sopra è che, mentre le variabili
X1 , . . . , Xn possono essere definite su spazi di probabilità diversi, le variabili
accoppiate (X̂1 , . . . , Xˆn ) sono definite sullo stesso spazio di probabilità. Le
variabili aleatorie (X̂1 , . . . , Xˆn ) sono legate alle variabili X1 , . . . , Xn dal fatto
che le distribuzioni marginali di (X̂1 , . . . , Xˆn ) sono uguali a X1 , . . . , Xn . Un
accoppiamento banale può essere fatto prendendo (X̂1 , . . . , Xˆn ) indipendenti,
con X̂i che ha la stessa distribuzione di Xi . Tuttavia, generalmente è
necessario costruire accoppiamenti più elaborati per ottenere risultati utili.
Introduciamo ora un’importante distanza tra distribuzioni di probabilità, la
distanza in variazione totale, profondamente legata agli accoppiamenti di
variabili aleatorie.
Definizione 2.7. Siano µ e ν due misure di probabilità. La distanza in
variazione totale tra le due misure è
dT V (µ, ν) = max |µ(A) − ν(A)|.
A
21
Nel caso particolare in cui µ e ν siano due funzioni di distribuzione
relative a due funzioni di probabilità discrete {px }x∈χ e {qx }x∈χ , ossia per
ogni sottoinsieme misurabile A di X valga
X
X
µ(A) =
px ,
ν(A) =
qx ,
x∈A
x∈A
segue facilmente dalla definizione che
dT V (p, q) =
1X
|px − qx |.
2 x
Presentiamo ora uno dei teoremi più classici (e importanti) che lega la
distanza in variazione totale e gli accoppiamenti.
Proposizione 2.15 (Teorema di Strassen). Siano X, Y due variabili aleatorie discrete e p, q le relative funzioni di probabilità. Allora, esiste un
accoppiamento (X̂, Ŷ ) di X, Y tale che
P (X̂ 6= Ŷ ) = dT V (p, q).
Inoltre, per ogni accoppiamento (X̂, Ŷ ) di X, Y , si ha che
P (X̂ 6= Ŷ ) ≥ dT V (p, q).
Spesso, lavorando sui grafi aleatori, è necessario comparare variabili
aleatorie binomiali con variabili aleatorie di Poisson aventi la stessa media.
Il risultato principale è il seguente, di cui (essendo meno noto) presentiamo
anche la dimostrazione.
TeoremaP
2.2. Siano {Ii }ni=1 variabili P
aleatorie indipendenti con Ii ∼ B(pi ),
n
e sia λ = i=1 pi . Siano inoltre X = ni=i Ii e Y una variabile Poisson di
parametro λ. Allora, esiste un accoppiamento (X̂, Ŷ ) di X, Y tale che
P (X̂ 6= Ŷ ) ≤
n
X
p2i .
i=1
In particolare, prese due variabili X ∼ Bin(n, nλ ) e Y ∼ Poi(λ), esiste un
accoppiamento (X̂, Ŷ ) di X, Y tale che
P (X̂ 6= Ŷ ) ≤
λ2
.
n
Dimostrazione 2.2. Siano {Ii }ni=1 variabili aleatorie indipendenti con Ii ∼
B(pi ) e {Ji }ni=1 variabili aleatorie indipendenti con Ji ∼ Poi(pi ). Definiamo
pi,x = P(Ii = x) = pi 1{x=1} + (1 − pi )1{x=0} ,
22
qi,x = P(Ji = x) = e−pi
pxi
x!
distribuzioni di probabilità, rispettivamente, di una Bernoulli e di una Poisson.
Per ogni coppia Ii , Ji , l’accoppiamento massimale (Iˆi , Ĵi ) soddisfa l’usuale
relazione

 1 − pi per x = 0,
pi e−pi per x = 1,
P(Iˆi = Ĵi = x) = min {pi,x , qi,x } =

0 per x ≥ 2,
dove abbiamo usato la disuguaglianza 1 − pi ≤ e−pi per il caso x = 0.
Pertanto, usando ora che 1 − e−pi ≤ pi , abbiamo che
P(Iˆi 6= Ĵi ) = 1 − P(Iˆi = Ĵi ) = 1 − (1 − pi ) − pi e−pi = pi (1 − e−pi ) ≤ p2i .
P
P
Infine, siano X̂ = ni=i Iˆi e Ŷ = ni=i Ĵi . Allora, X̂ ha la stessa distribuzione
Pn
P
di X = i=i Ii e Ŷ ha la stessa distribuzione di Y = ni=i Ji ∼ Poi(p1 +
· · · + pn ) = Poi(λ), e
P(X̂ 6= Ŷ ) ≤ P(
n
[
{Iˆi 6= Ĵi }) ≤
i=1
n
X
i=1
che conclude la dimostrazione. 23
P(Iˆi 6= Ĵi ) ≤
n
X
i=1
p2i ,
3
Il modello Erdös-Rényi
In questo capitolo studiamo il grafo aleatorio più importante e analizzato
in letteratura, il grafo aleatorio di Erdös-Rényi. Nella sezione 3.1, dopo
una breve parentesi storica, introduciamo i due modelli principali, il modello binomiale G(n, p), in cui ogni lato è presente indipendentemente dagli
altri con probabilità p, e il modello uniforme G(n, M ), in cui è scelto un
grafo uniformemente tra tutti i grafi con esattamente M lati. Nella sezione 3.2 presentiamo tre semplici esempi svolti sulle proprietà del grafo di
Erdös-Rényi, che serviranno a far prendere al lettore dimestichezza con il
modello. Nella sezione 3.3 vediamo invece come i due modelli introdotti in
3.1 siano asintoticamente equivalenti, che ci consentirà di studiare, in base
alla necessità, l’uno o l’altro per dimostrare proprietà del modello. Nella
sezione 3.4 studiamo la prima proprietà di rilievo del modello, la comparsa
della componente gigante, mostrando come la dimensione della massima
componente del grafo passi bruscamente da o(log(n)) a o(n). Nella sezione
3.5 studiamo la transizione di fase della connessione, vedendo come, al variare
leggermente di p, la probabilità del grafo di essere connesso passi da 0 a
1. Infine, nella sezione 3.6 studiamo la successione dei gradi del modello,
notando come segua una successione esponenziale che si discosta fortemente
dalle successioni empiriche riscontrate nei network, mostrando cosı̀ che questo
modello, seppur di notevole interesse teorico, si presta male a descrivere un
network reale a causa della poco realistica ipotesi di equiprobabilità delle
connessioni.
3.1
Introduzione del modello
La nozione di grafo aleatorio è nata con l’articolo [15] di Erdös del 1947,
considerato da molti la prima applicazione conscia del metodo probabilistico.
Il modello introdotto da Erdös è il più naturale possibile, e può essere descritto
come scegliere un grafo casualmente, con uguale probabilità, dall’insieme
n
degli 2( 2 ) grafi su n vertici. Possiamo descriverlo formalmente come lo spazio
di probabilità (Ω, F, P) dove Ω è l’insieme di tutti i grafi su {1, . . . , n}, F è
la famiglia di tutti i sottoinsieme di Ω, e per ogni ω ∈ Ω
n
P(ω) = 2−( 2 )
Lo spazio è equivalente al prodotto di n2 spazi binari. Può essere visto,
intuitivamente, come il risultato di n2 lanci indipendenti di una moneta
equa, dove “è uscito testa” significa “è presente il lato”. Attualmente tra i
numerosi modelli di grafi aleatori ce ne sono due basilari, il modello binomiale
G(n, p) e il modello uniforme G(n, M ), entrambi originati dal modello di
Erdös del 1947.
1. Dato un numero reale p, 0 ≤ p ≤ 1, il grafo binomiale Erdös-Rényi,
denotato con G(n, p), è definito prendendo come spazio di probabilità
24
Ω l’insieme di tutti i grafi con insieme di vertici {1, . . . , n}, e ponendo
n
P (G) = peG (1 − p)( 2 )−eG
dove eG = |E(G)| è il numero di lati del grafo G. In modo analogo al
modello del 1947 questo grafo può essere visto come il risultato di n2
lanci indipendenti di moneta, dove stavolta la moneta non è equa ma
dà testa con probabilità p.
2. Dato un intero M , 0 ≤ M ≤ n2 , il grafo uniforme Erdös-Rényi,
denotato con G(n, M ), è definito prendendo come Ω la famiglia di tutti
i grafi con insieme di vertici {1, . . . , n} e con esattamente M lati, e
come P la probabilità uniforme su Ω, ossia
n−1
P(G) =
2
M
per ogni grafo G su {1, . . . , n} tale che |E(G)| = M .
Nella sezione 3.3 vedremo come questi due modelli siano, in realtà,
asintoticamente equivalenti per le proprietà più importanti.
3.2
Alcuni esempi
Presentiamo ora alcuni (molto semplici) esempi per prendere dimestichezza
con il modello Erdös-Rényi.
Esempio 3.1. Distribuzione del numero di lati in G(n, p).
Siano X1 , . . . , X(n) le variabili aleatorie indicatrici dei lati del grafo, ossia
2
1 se il k-esimo lato è presente nel grafo
Xk =
0 altrimenti.
La distribuzione cercata è quella della variabile
N=
(n2 )
X
Xk .
k=1
Per definizione di grafo di Erdös-Rényi, le Xk sono indipendenti e identicamente distribuite come una Bern(p), pertanto risulta che
n
N ∼ Bin(
, p).
2
Esempio 3.2. Numero medio di K r -sottografi in G(n, p).
25
Preso un sottoinsieme di r vertici di G, essi formano un K r se e solo
se esistono in G tutti i possibili lati tra questi vertici. Pertanto, poichè la
probabilità di esistere di ogni arco è indipendentemente dagli altri lati uguale
(r2) .
a p, fissati r vertici la possibilità che essi formino
un
K
è
uguale
a
p
r
Poiché il grafo è su n vertici, esistono nr scelte distinte di r vertici, e
analogamente a prima siano X1 , . . . , X(n) le variabili aleatorie indicatrici
r
della presenza del k-esimo K r . Sia
M=
(nr)
X
Xk
k=1
la variabile aleatoria che conta il numero di K r -sottografi in G(n, p). Il valore
cercato è:
(nr)
(nr)
X
X
n
E[M ] = E[
Xk ] =
E[Xk ] =
E[X1 ]
r
k=1
k=1
dove l’ultimo passaggio segue dal fatto che le Xk sono identicamente distribuite. Poiché
r
E[X1 ] = P(r vertici fissati formino un K r ) = p(2) ,
abbiamo che:
E[M ] =
n
n (r )
E[X1 ] =
p2 .
r
r
Prendiamo ad esempio il caso r = 3, in cui M rappresenta il numero di
triangoli di G, e p = nc . Per quanto visto sopra
c3
n c (32) n(n − 1)(n − 2) c3
∼
E[M ] =
( ) =
6
n3
6
3 n
3
ovvero, per n → ∞, il numero medio di triangoli in un G(n, nc ) è c6 .
Vale la pena notare che, a differenza dell’esempio precedente, M non è
una variabile binomiale in quanto le varie Xk non sono indipendenti.
Esempio 3.3. Per ogni fissato p ∈ (0, 1), G(n, p) ha con grande probabilità
diametro 2.
Un grafo ha diametro 1 se e solo se ogni vertice
è connesso a ogni altro,
n
ossia se e solo se sono presenti tutti i possibili 2 lati. Poichè ogni lato è
presente indipendentemente dagli altri con probabilità p, la probabilità di
n
questo evento è pari a p( 2 ) → 0 per n → ∞ in quanto p ∈ (0, 1).
Rimane da mostrare che il diametro è a.q.c. al più 2, ovvero che, dati due
vertici qualsiasi, esiste con grande probabilità un cammino di lunghezza ≤ 2
che li congiunge. Per fare questo è sufficiente mostrare che, presi due vertici i
e j qualsiasi, essi hanno un vicino v in comune (il cammino di lunghezza ≤ 2
26
sarà poi ivj). Siano quindi i e j vertici di G, e w un vertice in G diverso da i
e j. La probabilità che w ∈ N (i) ∩ N (j) è uguale a p2 , quindi la probabilità
del suo complementare sarà 1 − p2 . Da cui
\
n−2
P(N (i) ∩ N (j) = ∅) =
P(w ∈
/ N (i) ∩ N (j)) = (1 − p2 )
.
w∈G−{i,j}
Pertanto
[
P(Diam(G) > 2) ⊆ P(
{N (i) ∩ N (j) = ∅}) ≤
1≤i≤j≤n
n
n−2
(1 − p2 )
2
che tende a 0 per n → ∞ in quanto (1 − p2 ) ∈ (0, 1).
Anche qui vale la pena fare un’osservazione: il risultato sopra è valido
esclusivamente in quanto p ∈ (0, 1) è fissato e indipendente da n. Preso ad
esempio p = nc come nel caso studiato sotto,
P(N (i) ∩ N (j) = ∅) =
\
P(w ∈
/ N (i) ∩ N (j)) = (1 −
w∈G−{i,j}
c2
)
n2
n−2
che tende a 1 e non a 0 per n → ∞.
3.3
Equivalenza asintotica
In questa sezione studieremo l’equivalenza asintotica dei modelli G(n, p) e
G(n, M ) introdotti in 3.1.
Definizione 3.1. Sia Ω l’insieme di tutti i grafi su {1, . . . , n}. Una proprietà di grafo Q = Q(n) è un sottoinsieme di Ω, ossia Q ∈ 2Ω . Diciamo
che un grafo G ∈ Ω ha la proprietà Q se G ∈ Q.
Il nostro obiettivo è quello di stabilire sotto quali condizioni la convergenza
P(G(n, p) ∈ Q) → a per n → ∞ implichi P(G(n, M ) ∈ Q) → a, e viceversa.
Intuitivamente, ci si potrebbe
aspettare una tale equivalenza quando M è
n
abbastanza vicino
a
p.
Siccome
G(n, p) è un misto di G(n, M ) al variare
2
n
di 0 ≤ M ≤ 2 , l’implicazione sopra è più diretta nella direzione dal modello
uniforme al modello binomiale, e non richiede ipotesi aggiuntive su Q. Per
l’intera parte seguente
della sezione, definiamo per semplicità di notazione
N = N (n) = n2 e q = 1 − p.
Teorema 3.1. Sia Q una proprietà di grafo, p = p(n) ∈ [0,
√ 1] e 0 ≤ a ≤ 1.
Se per ogni successione M = M (n) tale che M = N p + O( N pq) si ha che
P(G(n, M ) ∈ Q) → a per n → ∞, allora P (G(n, p) ∈ Q) → a per n → ∞.
Dimostrazione 3.1. Sia C ∈ R costante reale e definiamo, per ogni n ∈ N,
p
M (C) = {M : |M − N p| ≤ C N pq}.
27
Sia M1 l’elemento iche minimizza P (G(n, M ) ∈ Q) in M (C). Allora,
P(G(n, p) ∈ Q) =
=
N
X
M =0
N
X
P(G(n, p) ∈ Q||G(n, p)| = M )P(|G(n, p)| = M )
P(G(n, M ) ∈ Q)P(|G(n, p)| = M )
M =0
≥
X
P(G(n, M ) ∈ Q)P(|G(n, p)| = M )
M ∈M (C)
≥
X
P(G(n, M1 ) ∈ Q)P(|G(n, p)| = M )
M ∈M (C)
= P(G(n, M1 )P(|G(n, p)| ∈ M (C)).
(3.3.1)
Per ipotesi P (G(n, M1 ) ∈ Q) → a per n → ∞ in quanto M1 ∈ M (C), e per
Chebyshev
P (|G(n, p)| ∈
/ M (C)) = P (|G(n, p) − N p| > C
p
N pq) ≤
V(G(n, p))
1
= 2.
2
C N pq
C
Pertanto,
lim inf P(G(n, p) ∈ Q) ≥ a lim inf P(|G(n, p)| ∈ M (C)) ≥ a(1 −
n→∞
n→∞
1
).
C2
In maniera analoga a prima, sia M2 l’elemento che massimizza P (G(n, M ) ∈
28
Q).
P(G(n, p) ∈ Q) =
=
N
X
M =0
N
X
P(G(n, p) ∈ Q||G(n, p)| = M )P(|G(n, p)| = M )
P(G(n, M ) ∈ Q)P(|G(n, p)| = M )
M =0
=
X
P(G(n, M ) ∈ Q)P(|G(n, p)| = M ) +
M ∈M (C)
X
P(G(n, M ) ∈ Q)P(|G(n, p)| = M )
M ∈M
/ (C)
≤
X
P(G(n, M2 ) ∈ Q)P(|G(n, p)| = M ) +
M ∈M (C)
X
P(|G(n, p)| = M )
M ∈M
/ (C)
≤ P(G(n, M2 ) ∈ Q)P(|G(n, p)| ∈ M (C)) +
P(|G(n, p)| ∈
/ M (C))
≤ P(G(n, M2 ) ∈ Q) + P(|G(n, p)| ∈
/ M (C)).
(3.3.2)
Passando al lim sup,
lim sup P(G(n, p) ∈ Q) ≤ a +
n→∞
1
.
C2
Segue la tesi per C → ∞. Abbiamo visto che, presa una proprietà qualsiasi Q, se per ogni M in
un intorno di N p si ha che P(G(n, M ) ∈ Q) → a, allora anche P (G(n, p) ∈
Q) → a. Nell’altra direzione, nessuna equivalenza asintotica può essere vera
in tanta generalità. Un semplice controesempio è dato dalla proprietà di
contenere esattamente M lati. Per ovviare a questi problemi, è sufficiente
tuttavia imporre la condizione di monotonia di Q.
Definizione 3.2. Una proprietà Q si dice crescente se, presi due grafi
qualsiasi F, G ∈ Ω tali che F ⊆ G e F ∈ Q, allora G ∈ Q. In altre parole, se
una proprietà crescente contiene un grafo F , contiene anche tutti i grafi che
lo contengono.
Definizione 3.3. Una proprietà si dice decrescente se, presi due grafi
qualsiasi F, G ∈ Ω tali che F ⊇ G e F ∈ Q, allora G ∈ Q. In altre parole, se
una proprietà decrescente contiene un grafo F , contiene anche tutti i grafi
contenuti in esso.
29
Esempi di proprietà crescenti sono essere k-connesso, contenere un triangolo, possedere un accoppiamento. Esempi di proprietà decrescenti sono
avere al più k vertici isolati, essere planare.
Definizione 3.4. Una proprietà si dice monotona se è crescente o decrescente.
Una caratteristica importante delle proprietà monotone per i grafi di
Erdös-Rényi è la seguente.
Teorema 3.2. Siano Qc una proprietà crescente, Qd una proprietà decrescente, 0 ≤ p1 ≤ p2 ≤ 1 e 0 ≤ M1 ≤ M2 ≤ 1. Allora
1. P(G(n, p1 ) ∈ Qc ) ≤ P(G(n, p2 ) ∈ Qc )
2. P(G(n, M1 ) ∈ Qc ) ≤ P(G(n, M2 ) ∈ Qc )
3. P(G(n, p1 ) ∈ Qd ) ≥ P(G(n, p2 ) ∈ Qd )
4. P(G(n, M1 ) ∈ Qd ) ≥ P(G(n, M2 ) ∈ Qd )
Ossia, come ci si potrebbe aspettare, la probabilità di un grafo aleatorio
di Erdös-Rényi di avere una proprietà crescente (decrescente) aumenta al
crescere (decrescere) della dimensione media del grafo.
Dimostrazione 3.2. I punti 3 e 4 seguono rispettivamente dai punti 1 e 2 e dal
fatto che Q è una proprietà crescente ↔ Ω r Q è una proprietà decrescente.
Ci basterà quindi dimostrare i primi due punti.
2 −p1
1. Sia p0 = p1−p
. G(n, p2 ) può essere visto come unione di due grafi
1
aleatori indipendenti G(n, p0 ) e G(n, p1 ), dove eventuali lati doppi
vengono rimpiazzati da uno singolo. Infatti:
• I lati sono tra loro indipendenti, in quanti lo sono in ogni G(n, pi ),
i = 1, 2, e i due grafi sono per definizione indipendenti tra di loro.
• La probabilità di un lato e di essere nell’unione dei due grafi è
P(e ∈ G(n, p0 ) ∪ G(n, p1 )) = P(e ∈ G(n, p0 )) + P(G(n, p1 )) −
P(e ∈ G(n, p0 ) ∩ G(n, p1 ))
p2 − p1
p2 − p1
= p1 +
− p1
1 − p1
1 − p1
2
p1 − p1 + p2 − p1 − p1 p2 + p21
=
1 − p1
p2 (1 − p1 )
=
= p2 .
1 − p1
(3.3.3)
30
Quindi G(n, p1 ) ⊆ G(n, p2 ) e Q è crescente → l’evento G(n, p1 ) ∈ Q
implica G(n, p2 ) ∈ Q, da cui segue 1.
2. Costruiamo un processo di grafi aleatori {G(n, M )}M , dove G(n, 0)
è il grafo con n vertici e nessun lato, ed aggiungendo ad ogni tempo un lato uniformemente tra i lati non presenti. Per definizione
G(n, M1 ) e G(n, M2 ) possono essere visti rispettivamente come M1 esimo e M2 -esimo passo del processo, da cui G(n, M1 ) ⊆ G(n, M2 ) che,
analogamente a prima, implica 2. Abbiamo ora tutti gli elementi per presentare il secondo risultato principale di questa sezione.
Teorema 3.3. Sia Q una proprietà monotona di grafi, 0 ≤ M ≤ N
qe 0 ≤ a ≤
−M )
M
1. Se per ogni successione p = p(n) ∈ [0, 1] tale che p = N + O( M (N
)
N3
si ha che P (G(n, p) ∈ Q) → a per n → ∞, allora P (G(n, M ) ∈ Q) → a per
n → ∞.
Dimostrazione 3.3. Presentiamo la dimostrazione per Q crescente (per Q
decrescente si procede in modo analogo). Sia C ∈ R costante, p0 = M
,q =
q
qN 0
p0 qo
p0 qo
1 − p0 , e definiamo p+ = min(p0 + C
N , 1) e p− = max(p0 − C
N , 0).
In modo similare a come proceduto nella dimostrazione del teorema 3.1, e
usando il teorema 3.2,
P (G(n, p+ )) =
=
N
X
M 0 =0
N
X
P(G(n, p+ ) ∈ Q||G(n, p+ )| = M 0 )P(|G(n, p+ )| = M 0 )
P(G(n, M 0 ) ∈ Q)P(|G(n, p+ )| = M 0 )
M 0 =0
≥
X
P(G(n, M 0 ) ∈ Q)P(|G(n, p+ )| = M 0 )
M 0 ≥M
≥
X
P(G(n, M ) ∈ Q)P(|G(n, p+ )| = M 0 )
M 0 ≥M
= P(G(n, M ) ∈ Q)
X
P(|G(n, p+ )| = M 0 )
M 0 ≥M
= P(G(n, M ) ∈ Q)P(|G(n, p+ )| ≥ M 0 )
= P(G(n, M ) ∈ Q) − P(|G(n, p+ )| < M 0 ).
(3.3.4)
31
Sempre analogamente a quanto fatto nel teorema 3.1, abbiamo che
P (G(n, p− )) =
N
X
( P(G(n, p− ) ∈ Q||G(n, p− )| = M 0 )
M 0 =0
· P(|G(n, p− )| = M 0 ) )
=
N
X
P(G(n, M 0 ) ∈ Q)P(|G(n, p− )| = M 0 )
M 0 =0
=
X
P(G(n, M 0 ) ∈ Q)P(|G(n, p− )| = M 0 ) +
M 0 ≤M
X
P(G(n, M 0 ) ∈ Q)P(|G(n, p− )| = M 0 )
M 0 >M
≤
X
P(G(n, M ) ∈ Q)P(|G(n, p− )| = M 0 ) +
M 0 ≤M
X
P(|G(n, p− )| = M 0 )
M 0 >M
= P(G(n, M ) ∈ Q)
X
P(|G(n, p− )| = M 0 ) +
M 0 ≤M
0
P(|G(n, p− )| > M )
≤ P(G(n, M ) ∈ Q) + P(|G(n, p− )| > M 0 ).
(3.3.5)
I casi M = 0 e M = N sono banali in quanto implicano, rispettivamente,
p = 0 e p = 1. Possiamo quindi supporre 1 ≤ M ≤ N − 1, pertanto
N p0 q0 = M (NN−M ) ≥ 21 . Siccome |G(n, p− )| ha distribuzione binomiale con
media N p− e varianza
r
r
p 0 q0
p 0 q0
N p− (1 − p− ) = N (p0 − C
)(1 − p0 + C
)
N
N
r
r
M
p 0 q0
p0 q0
= N(
−C
)(1 − p0 + C
)
N
N
N
r
p 0 q0
≤ M (1 − p0 + C
)
N
p
= N p0 q 0 + C N p0 q 0 ,
(3.3.6)
possiamo applicare Chebishev, posto δ(C) =
1
C2
√
+
2
C ,
ottenendo che
P(|G(n, p− )| > M ) = P||(G(n, p− ) − N p| > N p0 − N p− )
≤
≤
N p− (1 − p− )
(N p0 − N p− )2
√
N p0 q 0 + C N p0 q 0
≤ δ(C),
C 2 N p0 q 0
32
(3.3.7)
e in modo analogo P(|G(n, p+ )| < M ) ≤ δ(C). Siccome per ipotesi
lim P(G(n, p+ ) ∈ Q) = lim P(G(n, p− ) ∈ Q) = a,
n→∞
n→∞
otteniamo che
a − δ(c) ≤ lim inf P(G(n, M ) ∈ Q) ≤ lim sup P(G(n, M ) ∈ Q) ≤ a + δ(C).
n→∞
n→∞
Segue la tesi per C → ∞ in quanto δ(C) → 0. 3.4
La comparsa della componente gigante
In questo capitolo useremo i processi di ramificazione per studiare la rapida
crescita della componente massima Cmax di G(n, p). Fissiamo per il resto
della discussione p = nc , con c costante reale positiva. Dato un vertice
v ∈ G(n, p) , studieremo la dimensione della componente connessa che
contiene v nel seguente modo. Per prima cosa, troviamo tutti i vicini
{v1 , . . . , vr } di v e segniamo v come saturo. Poi, troviamo tutti i vertici
{v1,1 , . . . , v1,s } di {1, . . . , n} r {v1 , . . . , vr } che sono adiacenti a v1 in G(n, p)
e marchiamo v1 come saturo, continuando in questo modo finché tutti i
vertici della componente di G(n, p) contenente v sono stati saturati.
Il processo cosı̀ descritto assomiglia molto ad un processo di ramificazione.
Tuttavia, nel nostro caso, il numero Xi = Xi (n, m, p) dei nuovi vertici
che aggiungiamo all’i-esimo passo (dove m è il numero di vertici che sono
già stati trovati) ha distribuzione Bin(n − m, p), mentre in un processo di
ramificazione la distribuzione dei figli di una particella non dipende dalla
storia del processo. Nonostante ciò, quando m non è troppo grande, il
processo descritto sopra per esplorare la componente di un vertice dato è
ben approssimato da un processo di ramificazione definito da X ∼ Bin(n, p).
Pertanto, ci si può aspettare che la probabilità che un vertice sia contenuto
in una componente piccola di G(n, p) sia approssimativamente data dalla
probabilità che il processo di ramificazione definito da X prima o poi muoia,
che accade con probabilità 1 per c < 1. Invece, per c > 1, con probabilità
positiva 1 − ρc il processo continua per un tempo infinito quindi possiamo
aspettarci che circa (1 − ρc + o(1))n vertici di G(n, p) appartengano ad una
componente gigante. Tutto ciò è riassunto nei due seguenti teoremi, di cui
riprendiamo la dimostrazione da [19].
Teorema 3.4. Sia G(n, nc ) il grafo di Erdös-Rényi, con c < 1. Allora, la
3
componente massima Cmax ha a.q.c. al più (1−c)
2 log(n) vertici.
Dimostrazione 3.4. Sia quindi p = nc , c < 1. La probabilità che un vertice
v appartenga ad una componente di dimensione almeno k è uguale alla
probabilità che il processo descritto sopra non si arresti prima di (k − 1) passi,
33
Figura 4: Il grafo di Erdös-Rényi G(n, M ) con n = 300 e M = 250. In rosso,
la componente gigante del grafo.
34
ovvero che, ∀1 ≤ m ≤ k − 1, il numero di vertici (escluso v) trovati dopo
aver esplorato i vicini dei primi m vertici sia almeno m. In altri termini,
m
X
{|Cv | ≥ k} = {
Xi ≥ m
∀1 ≤ m ≤ k − 1},
i=1
dove le Xi sono le definite come nella discussione iniziale. Osserviamo ora
che, poiché Xi ha distribuzione Bin(n − m(i), p) per qualche m(i) ≥ 0, può
essere stimata dall’alto con una Bin(n, p). Pertanto,
m
k−1
k−1
X
X
X
P(
Xm ≥ m ∀1 ≤ m ≤ k − 1) ≤ P(
Xi ≥ k − 1) ≤ P(
Xi+ ≥ k − 1),
i=1
i=1
i=1
dove le {Xi+ }i sono i.i.d. come una binomiale di parametri n e p. Abbiamo
quindi che
[
P(|Cmax | ≥ k) = P(
{|Cv | ≥ k})
≤
v∈{1,...,n}
n
X
P(|Ci | ≥ k)
i=1
= nP(|C1 | ≥ k)
m
X
= nP(
Xm ≥ m
≤ nP(
≤ nP(
i=1
k−1
X
i=1
k−1
X
∀1 ≤ m ≤ k − 1)
Xi ≥ k − 1)
Xi+ ≥ k − 1).
i=1
(3.4.1)
P
Pk−1 +
+
c
Poiché k−1
i=1 Xi ∼ Bin(n(k −1), n ), e in particolare E( i=1 Xi ) = c(k −1),
usando la 2.4.6 abbiamo che
nP(
k−1
X
i=1
Xi+
≥ k − 1) = nP(
k−1
X
Xi+ ≥ c(k − 1) + (1 − c)(k − 1))
i=1
≤ n exp(−
(1 − c)2 (k − 1)2
2(c(k − 1) +
(1−c)(k−1)
)
3
2
1)
)
(1 − c)2 (k −
)
2(k − 1)
(1 − c)2 (k − 1)
= n exp(−
),
2
≤ n exp(−
(3.4.2)
35
dove nell’ultima disuguaglianza abbiamo usato che
2(c(k − 1) +
(1 − c)(k − 1)
2c + 1
) = (k − 1)(
)≤k−1
3
3
in quanto c < 1. Prendendo ora k ≥
n exp(−
3 log(n)
(1−c)2
+ 1, otteniamo che
(1 − c)2 (k − 1)
3
1
) ≤ n exp(− log(n)) = √ → 0
2
2
n
per n → ∞. Ovvero, la probabilità che la componente massima di G(n, p)
log(n)
abbia almeno 3(1−c)
2 + 1 vertici tende a 0 per n → ∞, cioè la tesi. Sia ora, per c > 1, β(c) la probabilità di sopravvivenza di un processo di
ramificazione definito da una Poi(c), definita in 2.6.5.
Teorema 3.5. Sia G(n, nc ) il grafo di Erdös-Rényi con c > 1, e β = β(c)
definita come sopra. Allora, la componente massima Cmax ha (1 + o(1))βn
vertici. Inoltre, la dimensione della seconda massima componente di G(n, p)
16c
è a.q.c. al più (c−1)
2 log(n).
Dimostrazione 3.5. Fissiamo quindi p = nc , con c > 1. Definiamo k− =
2
16
log(n) e k+ = n 3 . Mostriamo per prima cosa che, con grande proba(c−1)2
bilità, per ogni k tale che k− ≤ k ≤ k+ e per ogni vertice v ∈ G(n, p), o il
processo descritto sopra si arresta dopo meno di k passi, oppure al k-esimo
passo ci sono almeno (c−1)k
vertici nella componente contenente v che sono
2
stati generati dal processo e non sono ancora stati saturati. In particolare,
nessuna componente di G(n, p) contiene k vertici, con k− ≤ k ≤ k+ . Notiamo
innanzitutto che, per verificare che il processo dopo k passi contenga almeno
(c−1)k
vertici non saturi, è sufficiente verificare che siano stati generati, dopo
2
k passi, almeno k + (c−1)k
vertici nella componente di v. In maniera analoga
2
alla dimostrazione precedente, possiamo limitare dal basso le Xi del processo
−
con Xi− ∼ Bin(n − c+1
2 k+ , p), dove tutte le variabili Xi sono indipendenti.
Pertanto, la probabilità di avere dopo i primi k passi meno di (c−1)k
vertici
2
saturati è più piccola della probabilità che
k
X
Xi− ≤
i=1
k
X
Xi ≤ k − 1 +
i=1
Poiché le Xi sono i.i.d.,
−
i=1 Xi
Pk
(c − 1)k
(c − 1)k
∼k+
.
2
2
∼ Bin(k(n −
c+1
2 k+ ), p)
e
k
X
c
c+1 2
c+1
E[
Xi− ] = k(n −
n 3 ) = ck(1 − √
) → ck
n
2
23n
i=1
36
(3.4.3)
(3.4.4)
per n → ∞. Pertanto, dalla disuguaglianza 2.4.7 sulle grandi deviazioni, la
probabilità che questo succeda, per qualche v ∈ G(n, p) e qualche k− ≤ k ≤
k+ , è limitata dall’alto per n sufficientemente grande da
k=k+
X
n
k=k−
k=k+
k
k
X X
X
(c − 1)k
(c − 1)k
−
P(
P(
Xi ≤ k +
) = n
Xi− ≤ ck −
)
2
2
i=1
i=1
k=k−
k=k+
≤ n
X
exp(−
k=k−
k 2 (c − 1)2
)
8ck
(c − 1)2
k− )
8c
= o(1).
≤ nk+ exp(−
= k+ n−1
(3.4.5)
Consideriamo ora due vertici v 0 e v 00 che appartengono a componenti di
dimensione almeno k+ . Qual è la probabilità che appartengano a componenti
distinte? Consideriamo il processo di ricerca dei vertici della componente che
contiene v 0 , partendo da quest’ultimo, dopo k + passi. Per quanto dimostrato
+
prima, ci sono almeno (c−1)k
vertici di V 0 che non sono stati saturati.
2
Consideriamo ora il processo analogo partente da v 00 . Allora, o durante il
processo connettiamo v 00 a qualche vertice che appartiene a V 0 , oppure dopo
i primi k + passi abbiamo un qualche insieme di vertici V 00 di cui almeno
(c−1)k+
non sono ancora stati saturati. La probabilità che non ci siano lati
2
tra questi vertici non saturati di V 0 e V 00 è limitata dall’alto da
(1 − p)
(
(c−1)k+ 2
)
2
2
c (c−1)n 3 2
= (1 − )( 2 )
n
2
c n 3 (c − 1) 2
≤ exp(− (
) )
n
2
c(c − 1)2 1
1
= exp(−
n 3 ) = o( 2 ).
4
n
(3.4.6)
Sia Gk+ = {v ∈ G(n, p) t.c. |C(v)| ≥ k+ }. Usando la 3.4.6, otteniamo
che
P(∃v 0 , v 00 ∈ Gk+ | v 0 = v 00 ) = P(
[
{v 0 = v 00 })
v 0 ,v 00 ∈Gk+
≤
X
P(v 0 = v 00 )
v 0 ,v 00 ∈Gk+
n
1
≤
o( 2 ) → 0
2
n
(3.4.7)
37
per n → ∞. Ovvero, la probabilità che G(n, p) contenga due vertici v 0 e v 00
che appartengano a due componenti connesse distinte di dimensione almeno
k+ tende a 0 per n → ∞. Abbiamo mostrato quindi che i vertici di G(n, p)
possono essere divisi con grande probabilità in due classi: vertici piccoli,
che appartengono a componenti di dimensione al più k− , e vertici grandi,
contenuti in un’unica componente di dimensione ≥ k+ . Per completare
la dimostrazione, rimane quindi da stimare il numero di vertici piccoli.
Osserviamo che la probabilità ρ = ρ(n, p) che un vertice sia piccolo è limitata
superiormente dalla probabilità di estinzione ρ+ = ρ+ (n, p) di un processo
di ramificazione definito da una Bin(n − k− , p), e limitata inferiormente
dalla probabilità di estinzione ρ− = ρ− (n, p) di un processo di ramificazione
definito da una Bin(n, p). Poiché (n − k− )p, np → c per n → ∞, dall’esempio
2.2 sappiamo che ρ− , ρ+ → 1 − β, ⇒ ρ → 1 − β. Pertanto, la media del
numero Y di vertici piccoli è uguale a (1 − β + o(1))n. Inoltre,
2
E[Y (Y − 1)] ≤ nρ(n, p)(k− + nρ(n − O(k− ), p)) = (1 + o(n− 3 ))(E[Y ])2 ,
da cui segue che
2
V(Y ) ≤ E[Y ] + o(n− 3 )E[Y ]2 .
(3.4.8)
Quindi, da Chebyshev e dalla 3.4.8,
2
3
P(|Y − E[Y ]| ≥ n ) ≤
V(Y )
4
n3
2
≤
E[Y ] + o(n− 3 )
4
n3
2
2
1
= (ρ + o(1))n− 3 + o(n− 3 )n 3 )(ρ + o(1))2
= o(1),
pertanto G(n, p) contiene (1 − β + o(1))n vertici piccoli, ossia la tesi. Vediamo quindi come, al variare di c ∈ (1 − ε, 1 + ε), la massima componente di G(n, nc ) passi bruscamente da O(log(n)) a Θ(n). A questo punto
è lecito porsi la domanda: cosa succede per c = 1? La risposta non sarà
né ovvia, né semplice da dimostrare. Iniziamo dimostrando alcuni teoremi
tecnici che utilizzeremo per dimostrare il teorema finale sull’argomento.
P
Teorema 3.6. Sia Z≥k =
v∈[n] 1{|C(v)|≥k} il numero di vertici la cui
componente connessa ha dimensione maggiore o uguale a k. Allora,
V(Z≥k ) ≤ nE[|C(v)|1{|C(v)|≥k} ].
38
(3.4.9)
Dimostrazione 3.6. Per prima cosa, riscriviamo la varianza come
X
1{|C(v)|≥k} )
V(Z≥k ) = V(
v∈[n]
=
=
n
X
(E[1{|C(i)|≥k} 1{|C(j)|≥k} ] − E[1{|C(i)|≥k} ]E[1{|C(j)|≥k} ])
i,j=1
n
X
[P(|C(i)| ≥ k, |C(j)| ≥ k) − P(|C(i)| ≥ k)P(|C(j)| ≥ k)].
i,j=1
(3.4.10)
Dividiamo la probabilità P(|C(i)| ≥ k, |C(j)| ≥ k) a seconda del fatto che
i ↔ j o viceversa:
P(|C(i)| ≥ k, |C(j)| ≥ k) =
P(|C(i)| ≥ k, i ↔ j) + P(|C(i)| ≥ k, |C(j)| ≥ k, i = j).
(3.4.11)
Notiamo ora che
P(|C(i)| = l, |C(j)| ≥ k, i = j) =
P(|C(i)| = l, i = j)P(|C(j)| ≥ k | |C(i)| = l, i = j).
(3.4.12)
Quando |C(i)| = l e i = j, la cardinalità di |C(j)| si distribuisce come la
cardinalità di un vertice del grafo G(n − l, p) , ed è quindi dominata dalla
distribuzione di |C(j)| (non condizionata a nulla). Pertanto,
P(|C(j)| ≥ k | |C(i)| = l, i = j) ≤ P(|C(j)| ≥ k).
(3.4.13)
Da 3.4.12 e 3.4.13 segue quindi che
P(|C(i)| = l, |C(j)| ≥ k, i = j) − P(|C(i)| = l)P(|C(j)| ≥ k) ≤ 0, (3.4.14)
cosı̀ che, da 3.4.10,
V(Z≥k ) ≤
n
X
P(|C(i)| ≥ k, i ↔ j).
i,j=1
39
(3.4.15)
Dalla scambiabilità dei vertici, abbiamo quindi che
V(Z≥k ) ≤
=
=
n
X
P(|C(i)| ≥ k, i ↔ j)
i,j=1
n X
n
X
E[1{|C(i)|≥k} 1{j∈C(i)} ]
i=1 j=1
n
X
n
X
i=1
j=1
E[1{|C(i)|≥k}
1{j∈C(i)} ].
(3.4.16)
Siccome
Pn
j=1 1{j∈C(i)}
V(Z≥k ) ≤
n
X
= |C(i)|, otteniamo
E[|C(i)|1{|C(i)|≥k} ] = nE[|C(1)|1{|C(1)|≥k} ],
(3.4.17)
i=1
ossia la tesi. 1
Teorema 3.7. Sia G(n, nc ) il grafo di Erdös-Rényi con c = 1 + θn− 3 , θ ∈ R,
2
e sia r > 0. Allora, preso k ≤ rn 3 , esistono costanti 0 < c1 < c2 < +∞, con
c1 = c1 (r, θ) tale che minr≤1 c1 (r) > 0, e c2 indipendente da r e θ, tali che,
per n sufficientemente grande,
1
c
1
√1 ≤ P(|C(1)| ≥ k) ≤ c2 (θ+ n− 3 + √ ),
k
k
(3.4.18)
dove θ+ = max {θ, 0}.
Dimostrazione 3.7. Poiché il numero di vertici Xi trovati all’i-esimo passo
del processo è dominato superiormente da Xi+ ∼ Bin(n, p), la cardinalità di
C(1) è dominata superiormente dalla progenie totale T di un processo di
ramificazione definito da X ∼ Bin(n, p). Pertanto,
P(|C(1)| ≥ k) ≤ P(T ≥ k).
(3.4.19)
Dalla proposizione 2.14, per c = 1,
P(|C(1)| ≥ k) ≤ P(T ∗ ≥ k) + ek (n),
dove
(3.4.20)
k−1
2X
|ek (n)| ≤
P(T ∗ ≥ k)
n
(3.4.21)
s=1
e T ∗ è la progenie totale di un processo di Poisson di parametro c. Dalla
proposizione 2.12, esiste una costante C > 0 tale che
∗
P(T ≥ k) = ζc +
+∞
X
1
1
P(T ∗ = t) ≤ C(θ+ n− 3 + √ ).
s
t=s
40
(3.4.22)
Inoltre, per la proposizione 2.13, per ogni k ≤ n
√
k
1
4X
1
k
1
− 13
− 43
|ek (n)| ≤
C(θ+ n + √ ) ≤ 4C(θ+ kn +
) ≤ 4C(θ+ n− 3 + √ ).
n
n
s
k
s=1
(3.4.23)
Pertanto, usando la 3.4.22 e la 3.4.23 nella 3.4.20, otteniamo che
1
1
P(|C(1)| ≥ k) ≤ 5C(θ+ n− 3 + √ ).
(3.4.24)
k
Questo prova il bound superiore del teorema. Per il bound inferiore, poiché
2
k ≤ rn 3 ,
P(|C(1)| ≥ k) ≥ P(T ≥ k),
(3.4.25)
dove T è la progenie totale di un processo di ramificazione definito da una
−1
2
3
variabile binomiale di parametri n − k ≥ n − rn 3 e p = nc = 1+θn
. Usando
n
1
−3
ancora la proposizione 2.14 con cn = 1 + (θ − r)n , in maniera analoga a
sopra otteniamo che
√
√
4C k
4C r
∗
P(|C(1)| ≥ k) ≥ P(T ≥ k) −
≥ P(T ∗ ≥ k) −
.
(3.4.26)
2
n
n3
Usando ora la proposizione 2.11, poiché cn ≤ 1,
P(|C(1)| ≥ k) ≥
∞
X
∗
Pcn (T = k) −
t=k
∞
X
√
4C r
2
n3
√
(cn t)t−1 −cn t 4C r
=
e
−
2
t!
n3
t=k
√
∞
4C r
1 X
∗
−Icn t
−
P1 (T = k)e
,
≤
2
cn
n3
t=k
(3.4.27)
dove, per cn = 1 + (θ − r)n
− 31
e 2.6.12,
1
Icn = cn − 1 − log(cn ) = (cn − 1)2 + O(|cn − 1|3 ).
2
Pertanto,
P(|C(1)| ≥ k) ≥
2k
X
∗
P1 (T = k)e
t=k
2k
X
− 12 (cn −1)2 t(1+o(1))
(3.4.28)
−
√
4C r
2
n3
√
C − 1 (cn −1)2 t(1+o(1)) 4C r
2
√ e
−
≥
2
t3
n3
t=k
√
3
2− 2 C −k(cn −1)2 (1+o(1)) 4C r
√ e
≥
−
,
2
t
n3
(3.4.29)
41
1
dato che cn − 1 = (θ − r)n− 3 . Usiamo ora che, per n ≥ N ,
√
√
− 23
rn
cosı̀ che
=
2
1
1
rkn− 3
rN − 3
rn− 3
√
≤ √
≤ √ ,
k
k
k
(3.4.30)
c1 (r)
P(|C(1)| ≥ k) ≥ √ ,
k
3
(3.4.31)
√
2
con c1 (r) = C(2− 2 e−r(θ−r) − 4 −r1 ) > 0 per r ≤ 1, quando N è sufficienteN 3
mente grande. Questo completa la dimostrazione. 1
Teorema 3.8. Sia G(n, nc ) il grafo di Erdös-Rényi con c = 1 + θn− 3 , θ ∈ R.
Allora, per ogni n ≥ 1,
1
n3
E[|C(1)|] ≤
,
(3.4.32)
θ−
dove θ− = max {−θ, 0}.
Dimostrazione 3.8. In modo analogo alla dimostrazione precedente, la cardinalità di C(1) è dominata superiormente dalla progenie totale T di un processo
di ramificazione definito da X ∼ Bin(n, p). Pertanto, dalla proposizione 2.10,
per θ < 0
1
1
n3
E[|C(1)|] ≤ E[T ] =
=
,
(3.4.33)
1
|θ|
1 − (1 + θn− 3 )
ossia la tesi. 1
Teorema 3.9. Sia G(n, nc ) il grafo di Erdös-Rényi con c = 1 + θn− 3 , θ ∈ R.
Allora, esiste una costante b = b(θ) > 0 tale che, per tutti gli ω > 1,
2
2
P (ω −1 n 3 ≤ Cmax ≤ ωn 3 ) ≥ 1 −
β
.
ω
(3.4.34)
Dimostrazione 3.9. Se ω ≤ b non c’è nulla da dimostrare, quindi prendendo
b sufficientemente grande possiamo supporre ω > 1 grande. Analogamente,
2
2
2
non c’è nulla da dimostrare se ω −1 n 3 ≤ 1 e ωn 3 ≤ n, ovvero se n ≤ ω 3 .
Pertanto, poiché possiamo supporre ω grande, possiamo anche supporre
n ≥ N con N grande. Iniziando studiando il limite superiore di |Cmax |.
Notiamo innanzitutto che
{|Cmax | ≥ k} = {Z≥k ≥ k},
(3.4.35)
P
dove Z≥k =
v∈[n] 1{|C(v)|≥k} è il numero di vertici la cui componente
connessa ha dimensione maggiore o uguale a k. Pertanto, da Markov,
2
2
2
P(|Cmax | ≥ ωn 3 ) = P(Z≥k ≥ ωn 3 ) ≤ ω −1 n− 3 E[Z≥k ].
42
(3.4.36)
Usando ora il teorema 3.7, abbiamo che
X
E[Z
=
E[
1
2]
3
≥ωn
2
{|C(v)|≥ωn 3 }
]
v∈[n]
2
= nP(|C(1)| ≥ ωn 3 )
2
1
≤ c2 n 3 (θ+ + √ ),
ω
(3.4.37)
pertanto
2
2
2
1
c2
c2 (θ+ + 1)
1
P(|Cmax | ≥ ωn 3 ) ≤ ω −1 n− 3 c2 n 3 (θ+ + √ ) = (θ+ + √ ) ≤
.
ω
ω
ω
ω
(3.4.38)
Per il limite inferiore di |Cmax | notiamo innanzitutto che, come detto prima,
per ω < b non c’è nulla da dimostrare, quindi possiamo supporre ω > k −1 ,
dove k > 0 è la costante del teorema 3.7. Iniziamo provando il risultato
per ω ≤ −1. Usando Chebyshev e il fatto che {|Cmax | < k} = {Z≥k = 0},
abbiamo che
2
P(|Cmax | < ω −1 n 3 ) = P(Z
2
≥ω −1 n 3
= 0) ≤
V(Z
E[Z
2
≥ω −1 n 3
2
≥ω −1 n 3
)
]2
.
(3.4.39)
Iniziamo limitando superiormente la media. Dal teorema 3.7, abbiamo che
E[Z
2
≥ω −1 n 3
√ 2
2
] = nP(|C(1)| ≥ ω −1 n 3 ) ≥ c1 ωn 3 ,
(3.4.40)
dove abbiamo usato che ω ≥ k −1 e che c1 = minr≥1 c1 (r) > 0. Per limitare
inferiormente la varianza, usiamo innanzitutto il teorema 3.6, per cui
V(Z
2
≥ω −1 n 3
) ≤ E[|C(1)|1
2
{|C(1)|≥ω −1 n 3 }
].
(3.4.41)
Inoltre, usando il teorema 3.8 (e il fatto che θ ≤ −1 → θ+ = 0),
V(Z
2
≥ω −1 n 3
≤ E[|C(1)|1
2
{|C(1)|≥ω −1 n 3 }
]
4
≤ E[|C(1)|] ≤ n 3 .
(3.4.42)
Sostituendo ora la 3.4.40 e la 3.4.42 nella 3.4.39, otteniamo che
4
P(|Cmax | < ω
−1
2
3
n )≤
43
n3
c21 ωn
4
3
=
1
.
c21 ω
(3.4.43)
Concludiamo quindi che
2
2
2
P(ω −1 n 3 ≤ |Cmax | ≤ ωn 3 ) = 1 − P(|Cmax | < ω −1 n 3 )
2
−P(|Cmax | > ωn 3 )
c2
1
b
≥ 1− 2 −
=1− ,
ω
ω
c1 ω
(3.4.44)
dove abbiamo posto b = c−2
1 + c2 . Per dimostrare il caso generale, usiamo la
2
monotonia in c = 1 + θn 3 . Poiché la variabile |Cmax | è crescente,
2
P
2
1+θn 3
(|Cmax | < ω −1 n 3 ) ≤ P
2
2
1−θn 3
(|Cmax | < ω −1 n 3 ),
(3.4.45)
dove abbiamo definito θ = |θ| ∨ 1. Pertanto, −θ ≥ −1 e la tesi segue da
quanto dimostrato sopra. 3.5
La soglia della connettività
Nel precedente capitolo abbiamo visto come G(n, nc ) presenti una transizione
di fase al variare di c ∈ (1 − ε, 1 + ε), in cui la dimensione della sua componente massima passa bruscamente da O(log(n)) a Θ(n). Vogliamo ora
chiederci quanto debba essere grande c affinché tutti i vertici siano in questa
componente gigante di G(n, p), ossia affinché G(n, p) sia connesso.
Una prima semplice osservazione è la seguente. Per quanto dimostrato
nel teorema 3.5, per ogni c > 1 fissato la componente gigante di G(n, p) ha
(1 + o(1))βn vertici, dove β è la probabilità di sopravvivenza di un processo di
ramificazione definito da X ∼ Po(c). Poiché la probabilità di sopravvivenza
è minore della probabilità che la particella iniziale abbia almeno un figlio,
abbiamo che
β ≤ P(X ≥ 1) = 1 − P(X = 0) = 1 − e−c < 1,
(3.5.1)
pertanto, per ogni c ∈ R fissato, G(n, nc ) è con grande probabilità disconnesso.
Per avere la connessione avremo quindi bisogno di un appropriato c = c(n) →
∞.
Per le dimostrazioni dei teoremi principali di questo capitolo ci serviranno
alcune proprietà dei vertici isolati, ossia dei v ∈ G(n, p) tali che |C(v)| = 1.
Sia pertanto
n
X
Y =
1{|C(i)|=1}
(3.5.2)
i=1
il numero di vertici isolati di G(n, p). Chiaramente, se Y ≥ 1, esiste almeno
un vertice isolato quindi G(n, p) è disconnesso. Il fatto non ovvio, che
dimostreremo vero, è che vale anche il viceversa, ossia non appena Y = 0 il
grafo è a.q.c. connesso. Presentiamo di seguito due teoremi sui vertici isolati
che useremo in seguito.
44
Teorema 3.10. Sia Y il numero di vertici isolati, definito come sopra, e
c = o(n). Allora,
E[Y ] = ne−c (1 + o(1)),
(3.5.3)
e
V[Y ] ≤ E[Y ] +
c
E[Y ]2 .
n−c
(3.5.4)
Dimostrazione 3.10. Innanzitutto, per definizione di Y , abbiamo che
n
X
c
E[Y ] = E[
1{|C(i)|=1} ] = nP(|C(1)| = 1) = n(1 − )n−1 ,
n
(3.5.5)
i=1
da cui segue che
E[Y ] = ne−c (1 + o(1)).
(3.5.6)
. Inoltre,
n
X
E[Y ] = E[(
1{|C(i)|=1} )2 ]
2
i=1
= nP(|C(1)| = 1) + n(n − 1)P(|C(1)| = 1, |C(2)| = 1),
(3.5.7)
pertanto
V(Y ) = E[Y 2 ] − E[Y ]2
= nP(|C(1)| = 1) + n(n − 1)P(|C(1)| = 1, |C(2)| = 1) −
n2 P(|C(1)| = 1)2
= n(P(|C(1)| = 1) − P(|C(1)| = 1, |C(2)| = 1)) +
n2 (P(|C(1)| = 1, |C(2)| = 1) − P(|C(1)| = 1)2 ).
(3.5.8)
Il primo termine può essere stimato con
n(P(|C(1)| = 1) − P(|C(1)| = 1, |C(2)| = 1)) ≤ nP(|C(1)| = 1) = E[Y ].
(3.5.9)
Per il secondo termine, notiamo innanzitutto che
P(|C(1)| = 1)2 = (1 −
c 2n−2
)
,
n
P(|C(1)| = 1, |C(2)| = 1) = (1 −
c 2n−3
)
,
n
da cui otteniamo
n2 (P(|C(1)| = 1, |C(2)| = 1) − P(|C(1)| = 1)2 ) =
c
n2 P(|C(1)| = 1)2 )((1 − )−1 − 1) =
n
c
E[Y ]2 .
n−c
(3.5.10)
45
Da 3.5.8, 3.5.9 e 3.5.10 segue quindi che
V(Y ) ≤ E[Y ] +
c
E[Y ]2 .
n−c
(3.5.11)
Teorema 3.11. Sia c ≥ a log(n) per qualche a > 12 . Allora,
c
P(G(n, ) connesso) = P(Y = 0) + o(1).
n
(3.5.12)
Dimostrazione 3.11. Innanzitutto, abbiamo che
P(G(n, p) disconnesso) = P(Y > 0) + P(G(n, p) disconnesso, Y = 0).
(3.5.13)
Vogliamo ora stimare il valore di P(G(n, p) disconnesso, Y = 0). Per k =
2, . . . , n, sia Xk il numero di alberi presenti in G(n, p) di dimensione k che
non possono essere estesi ad alberi di dimensione maggiore. Notiamo che,
se G(n, p) è disconnesso ma Y = 0, deve necessariamente esserci un k ∈
{2, . . . , n2 } tale che Xk ≥ 1 (basta prendere, ad esempio, l’albero massimale
della più piccola componente connessa). Quindi
n
P(G(n, p) disconnesso, Y = 0) ≤ P(
2
[
{Xk ≥ 1})
k=2
n
2
≤
X
P({Xk ≥ 1})
k=2
n
≤
2
X
E[Xk ].
(3.5.14)
k=2
Abbiamo bisogno perciò di stimare E[Xk ]. Poiché ci sono nk modi di scegliere
k vertici da n, e, per il teorema di Cayley, dati k vertici etichettati ci sono
k k−2 alberi che passano per tutti e k i vertici, abbiamo che
n k−2
E[Xk ] =
k qk ,
(3.5.15)
k
dove qk è la probabilità che un albero fissato sia presente in G(n, p) e non sia
estendibile ad un albero di dimensione maggiore. Poiché questo si verifica se
e solo se sono presenti i k − 1 lati dell’albero e non sono presenti i k(n − k)
lati da vertici dell’albero a vertici non dell’albero,
k(n−k)
c
c
c
qk = ( )k−1 (1 − )k(n−k) ≤ ( )k−1 e−c n .
n
n
n
46
(3.5.16)
Usando 3.5.15, 3.5.16 e il fatto che k! ≥ k k e−k , segue che
n k−2 c k−1 −c k(n−k)
n
E[Xk ] ≤
k ( ) e
n
k
k k−2 − c k(n−k)
≤ nck−1
e n
k!
c
1
≤ n(ec)k 2 e− n k(n−k) .
k
(3.5.17)
c
Poiché la funzione c → e− n k(n−k) è decrescente in c, sarà sufficiente studiare
il caso c = a log(n) per qualche a > 12 . Separiamo i casi k ≤ 4 e k ≥ 5. Per
k ∈ {2, 3, 4}, dalla 3.5.17 abbiamo che
E[Xk ] ≤ n(ec)4 e−ck eo(1) ≤ (ea)4 log(n)4 n1−ka eo(1) = o(1),
(3.5.18)
dove l’ultima uguaglianza segue dal fatto che a > 12 e k ≥ 2. Per k ≥ 5,
n
osserviamo che k(n − k) ≥ kn
2 in quanto k ≤ 2 . Pertanto, sempre partendo
dalla 3.5.17, abbiamo che
c
k
E[Xk ] ≤ n(ece− 2 ) .
(3.5.19)
c
Usando ora che c → ce− 2 è decrescente per c ≥ 2, possiamo limitarci a
studiare il caso c = a log(n), e abbiamo che, per tutti i k ≥ 5,
c
k
a
k
E[Xk ] ≤ n(ece− 2 ) ≤ n(ea log(n)e− 2 log(n) )k ≤ n1− 4 .
(3.5.20)
Pertanto, usando 3.5.14, 3.5.18 e 3.5.20, otteniamo che
P(G(n, p) disconnesso, Y = 0) ≤
n
n
2
X
2
X
E[Xk ] ≤ o(1) +
k=2
k
n1− 4 = o(1),
k=5
(3.5.21)
che implica la tesi. Siamo ora pronti a presentare i due teoremi principali riguardanti la
connettività di G(n, p).
Teorema 3.12. Sia c = a log(n). Allora, la probabilità che G(n, nc ) sia
connesso tende a 0 per a < 1 e ad 1 per a > 1.
Dimostrazione 3.12. Innanzitutto, dal teorema 3.10 abbiamo che
E[Y ] = ne−c (1 + o(1)),
V[Y ] ≤ E[Y ] +
c
E[Y ]2 .
n−c
(3.5.22)
Sia a < 1. Allora,
E[Y ] = ne−c (1 + o(1)) = n1−a (1 + o(1)) → ∞
47
(3.5.23)
per n → ∞. Poiché se è presente almeno un vertice isolato il grafo è
disconnesso,
P(G connesso) ≤ P(Y = 0) = P(|Y − E[Y ]| = E[Y ])
V(Y )
1
a log(n)
≤
≤
+
→0
2
E[Y ]
E[Y ] n − a log(n)
(3.5.24)
per n → ∞, da cui segue la prima parte della tesi. Sia ora a > 1. Da Markov,
abbiamo che
P(Y = 0) = 1 − P(Y ≥ 1) ≥ 1 − E[Y ] ≥ 1 − n1−a → 1
(3.5.25)
per n → ∞. Poiché per il teorema 3.11
P(G connesso) = P(Y = 0) + o(1),
(3.5.26)
segue la tesi. Anche in questo caso notiamo quindi una brusca transizione di fase, in
cui la probabilità di G(n, p) di essere connesso passa rapidamente da 0 a
1. E, anche in questo caso, possiamo domandarci cosa succeda nel regime
critico.
Teorema 3.13. Sia t ∈ R e c = log(n) + t. Allora, G(n, nc ) è connesso con
−t
probabilità e−e (1 + o(1)).
Dimostrazione 3.13. Vogliamo mostrare che, per n → ∞, il numero di vertici
isolati Y tende in distribuzione ad una variabile di Poisson Z di media
lim E[Y ] = lim n(1 −
n→∞
n→∞
c n−1
)
= e−t .
n
(3.5.27)
Per la proposizione 2.4, sarà sufficiente mostrare che, ∀r ≥ 1,
lim E[(Y )r ] = e−t .
n→∞
(3.5.28)
P
In particolare, poiché Y = ni=1 Ii è la somma delle variabili indicatrici
Ii = 1{|C(i)|=1} , per la proposizione 2.5 abbiamo che
X
E[(Y )r ] =
P(I1 = · · · = Ir = 1),
(3.5.29)
i1 ,...,ir ∈[n]
pertanto basterà dimostrare che
X
lim
P(Ii1 = · · · = Iir = 1) = e−t .
n→∞
i1 ,...,ir ∈[n]
48
(3.5.30)
Innanzitutto, per la scambiabilità dei vertici, la probabilità P(Ii1 = · · · =
Iir = 1) è indipendente dalla scelta degli indici i1 , . . . , iR , ossia
P(Ii1 = · · · = Iir = 1) = P(I1 = · · · = Ir = 1).
(3.5.31)
n!
Poiché ci sono n(n−1) . . . (n−r+1) = (n−r)!
possibili scelte di i1 , . . . , ir ∈ [n],
abbiamo che
X
n!
P(I1 = · · · = Ir = 1). (3.5.32)
P(Ii1 = · · · = Iir = 1) =
(n − r)!
i1 ,...,ir ∈[n]
Dobbiamo quindi calcolare questa probabilità. Osserviamo che l’evento
{I1 = · · · = Ir = 1} si verifica se e solo se sono assenti tutti i lati tra i vertici
{1, . . . , r} e gli altri vertici del lato. Poiché questi lati sono r(r−1)
+r(n−r) =
2
2n−r−1
r 2
e sono tutti tra loro indipendenti, abbiamo che
c r 2n−r−1
2
)
n
c r(r+1)
c
= (1 − )nr (1 − )− 2
n
n
c n−1 r
c r(r−1)
−r
= n (n(1 − )
) (1 − )− 2
n
n
= n−r E[Y ]r (1 + o(1)).
(3.5.33)
P(I1 = · · · = Ir = 1) = (1 −
Quindi, poiché E[Y ] → e−t ,
lim E[(Y )r ] = lim
n→∞
n→∞
n!
n−r E[Y ] = e−tr ,
(n − r)!
(3.5.34)
da cui segue per quanto detto sopra che Y → Z ∼ Poi(e−t ) in distribuzione.
Pertanto
−t
P(Y = 0) → P(Z = 0) = e−e ,
(3.5.35)
da cui segue la tesi per il teorema 3.11. 3.6
La successione dei gradi
In questa sessione andremo a studiare la successione dei gradi del modello
Erdös-Rényi G(n, nλ ), λ > 0, per poi compararla con quella riscontrata
empiricamente nei network reali. Sia
λk
k!
la distribuzione di Poisson di parametro λ. Sia inoltre Di il grado del vertice
i, e definiamo
∞
1X
(n)
Pk =
1{Di =k}
n
pk = e−λ
n=1
la distribuzione empirica dei gradi. Il principale risultato della sezione è il
seguente.
49
√
Teorema 3.14. Sia λ > 0 fissato. Allora, per ogni εn tale che εn n → ∞,
si ha che
(n)
P (max |Pk − pk | ≥ εn ) → 0
k
per n → ∞.
Dimostrazione 3.14. Innanzitutto, poiché
(n)
max |Pk
k
(n)
− pk | ≤ max |Pk
k
(n)
(n)
− E[Pk ]| + max |pk − E[Pk ]|,
k
sarà sufficiente provare che
(n)
P(max |Pk
k
(n)
− E[Pk ]| ≥
εn
εn
(n)
(n)
), P(max |Pk − E[Pk ]| ≥ ) → 0
k
2
2
(n)
per n → ∞. Per definizione di Pk ,
∞
(n)
E[Pk ] = E[
1
1X
1Di =k ] = nP(D1 = k).
n
n
n=1
Pertanto, poiché Di ∼ bin(n − 1, nλ ),
∞
X
|pk −
(n)
E[Pk ]|
k=0
=
∞
X
|P(X ∗ = k) − P(Xn = k)|,
k=0
dove X ∗ è una variabile di Poisson di parametro λ e Xn è una variabile
binomiale di parametri n − 1 e p = nλ . Sia ora X una variabile binomiale
P
Pn
di parametri n e p = nλ . Scrivendo Xn = n−1
i=1 Bi e X =
i=1 Bi , dove
λ
{Bi } sono i.i.d. come una Bernoulli di parametro p = n , abbiamo un
accoppiamento di X e Xn tale che la probabilità che le due variabili siano
diverse sia uguale esattamente a nλ (la probabilità che Bn = 1), pertanto
dalla proposizione 2.15
∞
X
|P (Xn = k) − P (X = k)| ≤
k=0
2λ
.
n
Perciò, per tutti i k ≥ 0
∞
X
k=0
|P(X ∗ = k) − P(Xn = k)| ≤
2λ
2(λ + λ2 )
+ P (X ∗ 6= X) ≤
n
n
dove abbiamo usato la triangolare nella prima disuguaglianza e il teorema 2.2
√
nella seconda. Siccome per ipotesi εn n → ∞ per n → ∞, definitivamente
2(λ+λ2 )
≤ ε2n e quindi per n sufficientemente grande abbiamo mostrato che
n
P∞
(n)
εn
k=0 |pk − E[Pk ] ≤ 2 . Pertanto, per concludere sarà sufficiente provare
che
εn
(n)
(n)
P(max |Pk − E[Pk ]| ≥ ) = o(1).
k
2
50
Innanzitutto, banalmente
∞
(n)
P(max |Pk
k
(n)
− E[Pk ]| ≥
X
εn
εn
(n)
(n)
)≤
P(|Pk − E[Pk ]| ≥ ),
2
2
(3.6.1)
k=1
e dalla disuguaglianza di Chebyshev
(n)
(n)
P(|Pk
(n)
− E[Pk ]| ≥ εn ) ≤
4V(Pk )
.
ε2n
(3.6.2)
Notiamo inoltre che
(n) 2
(n)
V(Pk ) = E[Pk
(n) 2
] − E[Pk ]
k
1X
1Di =k )2 ] − P(D1 = k)2
= E[(
n
=
=
=
=
i=1
k
X
1
E[
n2
i=1
1Di =k + 2
k
X
1Di =k 1Dj =k ] − P(D1 = k)2
1≤i<j≤n
1
n
(nP(D1 = k) + 2
P(D1 = D2 = k)) − P(D1 = k)2
2
n
2
1
n−1
P(D1 = k) +
P(D1 = D2 = k) − P(D1 = k)2
n
n
1
(P(D1 = k) − P(D1 = k)2 ) +
n
n−1
(P(D1 = D2 = k) − P(D1 = k)2 ).
n
(3.6.3)
Costruiamo ora un accoppiamento. Siano X1 , X2 due variabili aleatorie
indipendenti distribuite come una Bin(n − 2, nλ ), e siano I1 e I2 due variabili
aleatorie, indipendenti tra di loro e dalle precedenti, distribuite come una
Bernoulli di parametro nλ . Pertanto, per costruzione la legge di (D1 , D2 ) è la
stessa di (X1 + I1 , X2 + I1 ) (visti X1 come il numero di vicini del vertice 1
diversi da 2, X2 come il numero di vicini del vertice 2 diversi da 1, e I1 come
la variabile indicatrice della presenza dell’arco tra 1 e 2). In modo analogo,
la legge di (X1 + I1 , X2 + I2 ) è la stessa di due copie indipendenti di D1 .
Pertanto,
P(D1 = D2 = k) = P((X1 + I1 , X2 + I1 ) = (k, k)),
P(D1 = k)2 = P((X1 + I1 , X2 + I2 ) = (k, k)).
(3.6.4)
51
Cosı̀ che
P(D1 = D2 = k) − P(D1 = k)2 = P((X1 + I1 , X2 + I1 ) = (k, k)) −
P((X1 + I1 , X2 + I2 ) = (k, k))
= P((X1 + I1 , X2 + I1 ) = (k, k)) − 1 +
P((X1 + I1 , X2 + I2 ) 6= (k, k))
≤ P((X1 + I1 , X2 + I1 ) = (k, k)) +
P((X1 + I1 , X2 + I2 ) 6= (k, k)) −
P((X1 + I1 , X2 + I1 ) = (k, k) ∪
(X1 + I1 , X2 + I2 ) 6= (k, k))
= P((X1 + I1 , X2 + I1 ) = (k, k),
(X1 + I1 , X2 + I2 ) 6= (k, k)).
(3.6.5)
Se (X1 + I1 , X2 + I1 ) = (k, k) ma (X1 + I1 , X2 + I2 ) 6= (k, k), necessariamente
I1 6= I2 . Se I1 = 1, allora I2 = 0 e X1 = X2 = k − 1, mentre se I1 = 0 allora
I2 = 1 e X1 = X2 = k. Pertanto,
P(D1 = D2 = k) − P(D1 = k)2 ≤
λ
(P(X1 = k − 1) + P(X1 = k)).
n
Da (3.6.3) segue che
(n)
V(Pk ) ≤
1
λ
P(D1 = k) + P(X1 = k) +
n
n
λ
P(X1 = k − 1),
n
(3.6.6)
cosı̀ che, da (3.6.1) e (3.6.2),
(n)
P(max |Pk
k
(n)
− E[Pk ]| ≥
εn
) ≤
2
∞
4 1X
(
P(D1 = k) +
ε2n n
k=0
∞
λX
P(X1 = k) +
n
k=0
∞
λX
n
=
P(X1 = k − 1))
k=0
4(2λ + 1)
→0
ε2n n
(3.6.7)
√
per n → ∞ in quanto εn n → +∞ per ipotesi. Segue la tesi. 52
Abbiamo mostrato quindi come la successione dei gradi del modello
Erdös-Rényi segua una legge Poissoniana, in particolare esponenziale. Al
contrario, come visto nella sezione 1.1, la successione dei gradi della maggior
parte dei network reale segue approssimativamente una legge di potenza,
ossia la proporzione dei vertici di grado k è proporzionale a k −τ per qualche
τ > 1. Pertanto il modello Erdös-Rényi si rivela inadatto a descrivere un
network reale, in quanto presenta caratteristiche diverse (in particolare code
troppo sottili) a quelle riscontrate empiricamente. In [5] vengono studiate
anche le altre proprietà “di network” del modello Erdös-Rényi, mostrando
come sia small world e non highly clustered.
53
4
Il modello Preferential Attachment
Non viviamo in un mondo perfettamente egualitario. Viviamo,
piuttosto, in un mondo autorinforzante, in cui le persone affermate tendono ad avere sempre più successo. Pensando al grado
di un vertice come descrizione del benessere di quell’individuo,
quello che possiamo notare è che viviamo in un mondo in cui i
ricchi diventano sempre più ricchi.
4.1
Introduzione del modello
La maggior parte dei network reali cresce: nuove pagine vengono aggiunte
ogni giorno sul web, nuovi svedesi fanno le loro prime esperienze sessuali,
nuovi matematici emergono e pubblicano articoli. Come si evolvono i relativi
grafi? Secondo il modello Erdös-Rényi studiato sopra, le connessioni dei nuovi
arrivati si diffondono uniformemente sulla popolazione esistente. È realistico
tutto questo? Pensandoci bene, nella maggior parte dei casi no. Spesso, come
per i network citati sopra, il nuovo arrivato ha una maggiore probabilità di
essere congiunto a vertici che già hanno grado alto, che sono cioè socialmente
più attivi. Per descrivere questa situazione di collegamento preferenziale
introduciamo in questo capitolo un modello dinamico, generalizzazione del
modello originale presentato da Barabási e Albert, che descrive bene questa
crescita e che darà una spiegazione matematica ad alcune caratteristiche
osservate empiricamente nei network reali, come il loro comportamento scalefree. Il modello che studieremo produce una successione di grafi, denotati
con {PAt (m, δ)}∞
t=1 , che per ogni t produce un grafo con t vertici e mt lati
per qualche m = 1, 2, . . ..
4.1.1
Il modello per m = 1
Iniziamo definendo il modello per m = 1. In questo caso, PA1 (1, δ) consiste
di un singolo vertice con un singolo cappio. Denotiamo i vertici di PAt (1, δ)
(1)
(1)
con v1 , . . . , vt , e il grado del vertice vi1 di PAt (1, δ) con Di (t), dove un
cappio incrementa il grado di 2.
Condizionatamente a PAt (1, δ), la regola per ottenere PAt+1 (1, δ) è la
(1)
seguente. Aggiungiamo un singolo vertice vt+1 che ha un singolo lato. Que(1)
sto lato è connesso a un secondo estremo, che è uguale a vt+1 stesso con
(1)
Di (t)+δ
1+δ
probabilità t(2+δ)+(1+δ)
ed è uguale a vi con probabilità t(2+δ)+(1+δ)
, dove
δ ≥ −1 è un parametro del modello. In formule,
(
1+δ
(1)
(1)
t(2+δ)+(1+δ) per i = t + 1
P(vt+1 → vi |PAt (1, δ)) =
Di (t)+δ
t(2+δ)+(1+δ) per i ∈ {1, . . . , t}.
54
Notiamo che, poiché δ ≥ −1, 1 + δ e Di (t) + δ sono ≥ 0, abbiamo che P ≥ 0.
Inoltre, poiché ad ogni passo del processo aggiungiamo esattamente un lato,
t
X
Di (t) = 2|E(PAt (1, δ))| = 2t,
(4.1.1)
i=1
dove nella prima uguaglianza abbiamo usato il fatto che un cappio incrementa
il grado di un vertice di 2. Segue che
t+1
X
t
X
1+δ
Di (t) + δ
+
t(2 + δ) + (1 + δ)
t(2 + δ) + (1 + δ)
P(vt+1 → vi |PAt (1, δ)) =
i=1
i=1
1+δ
2t + δt
+
= 1,
t(2 + δ) t(2 + δ) + (1 + δ)
=
(4.1.2)
che, insieme all’osservazione precedente sulla positività, rende effettivamente
P una funzione di probabilità.
Notiamo infine che, poiché ad ogni passo aggiungiamo un solo lato, ad
ogni tempo t il modello PAt (1, δ) è, ignorando i cappi, una foresta.
4.1.2
Il modello per m > 1
Il modello per m > 1 è definito in termini del modello m = 1 nel moδ
do seguente. Iniziamo con il modello PAmt (1, m
) definito come sopra,
(1)
(1)
δ
e denotiamo i vertici di PAmt (1, m
) con v1 , . . . , vmt . Contraiamo poi i
(1)
(1)
(m)
δ
vertici v1 , . . . , vm di PAmt (1, m
) nel vertice v1
di PAt (m, δ), i vertici
(1)
(1)
(m)
δ
vm+1 , . . . , v2m di PAmt (1, m
) nel vertice v2 di PAt (m, δ), e in generale i
(1)
(1)
(m)
δ
vertici v(j−1)m+1 , . . . , vjm di PAmt (1, m
) nel vertice vj di PAt (m, δ). Il
modello generale PAt (m, δ) per m ≥ 1 è quindi definito come contrazione di
δ
vertici del modello PAmt (1, m
). Notiamo che, per definizione, PAt (m, δ) è
un multigrafo con esattamente t vertici e mt lati.
δ
Per spiegare la definizione di PAt (m, δ) in termini di PAmt (1, m
), notiamo
(1)
δ
che un nuovo lato di PAmt (1, m
) è collegato al vertice vk con peso uguale al
(1)
grado del vertice vk
più
δ
m.
(1)
(1)
Pertanto, poiché i vertici v(j−1)m+1 , . . . , vjm di
(m)
δ
PAmt (1, m
) sono identificati nel vertice vj
PAt (m, δ) è collegato al vertice
(m)
vj
di PAt (m, δ), un nuovo lato di
P
(1)
δ
con peso uguale a m
i=1 (D(j−1)m+i + m ),
(m)
che è esattamente il grado del vertice vj più δ. Osserviamo inoltre che, nella
definizione del modello per m ≥ 2, i gradi dei vertici sono aggiornati dopo
che ogni lato è collegato e che, poiché ad ogni passo del processo aggiungiamo
più di un vertice, a differenza del modello PAt (1, δ) (che è semplicemente
una foresta), il modello PAt (m, δ) può presentare una struttura topologica
più complessa.
55
4.1.3
Il modello Barabási-Albert
Per δ = 0 il modello descritto sopra è il noto modello Barabási-Albert, che è
stato molto studiato in letteratura, in particolare come modello per il World
Wide Web. Il parametro δ ci consente tuttavia di avere maggiore flessibilità,
passando da un modello proporzionale ad un modello lineare, ottenendo
cosı̀ leggi di potenza con qualsiasi esponente e non solo con τ = 3 come nel
modello Barabási-Albert.
Figura 5: Il modello PA150 (m, δ) con m = 1 e δ = 0, ossia il modello originale
di Barabási e Albert su 150 vertici. Notiamo la tendenza dei vertici a disporsi
in maniera gerarchica e la presenza di hub, che non comparivano invece nel
modello di Erdös-Rényi.
4.2
Grado di un vertice fissato
Iniziamo l’analisi di questo modello studiando il grado Di (t) di un vertice
fissato. Sia t → Γ(t) la funzione Gamma definita in 2.2.1. Il risultato
56
principale della sezione è il seguente.
Teorema 4.1. Fissiamo m = 1, δ > −1 e i ∈ N. Allora,
Di (t)
1
converge quasi
t 2+δ
certamente, per t → ∞, a una variabile aleatoria ξi finita con probabilità 1, e
E[Di (t) + δ] = (1 + δ)
Γ(t + 1)Γ(i −
Γ(t +
1
2+δ )
1+δ
2+δ )Γ(i)
.
(4.2.1)
Dimostrazione 4.1. Fissiamo m = 1. Osserviamo innanzitutto che
E[Di (t + 1) + δ|Di (t)] = Di (t) + δ + E[Di (t + 1) − Di (t)|Di (t)]
Di (t) + δ
= Di (t) + δ +
(2 + δ)t + 1 + δ
(2 + δ)t + 2 + δ
= (Di (t) + δ)
(2 + δ)t + 1 + δ
(2 + δ)(t + 1)
= (Di (t) + δ)
,
(4.2.2)
(2 + δ)t + 1 + δ
e che
1+δ
(2 + δ)(i − 1) + 1 + δ
(2 + δ)(i − 1) + 2 + δ
= (1 + δ)
(2 + δ)(i − 1) + 1 + δ
(2 + δ)i
= (1 + δ)
.
(2 + δ)(i − 1) + 1 + δ
E[Di (i) + δ] = 1 + δ +
(4.2.3)
Definiamo ora
Mi (t) =
t−1
Di (t) + δ Y (2 + δ)s + 1 + δ
.
1+δ
(2 + δ)(s + 1)
(4.2.4)
s=i−1
Dalla 4.2.3, segue che
Di (i) + δ (2 + δ)(i − 1) + 1 + δ
]
1+δ
(2 + δ)i
1 (2 + δ)(i − 1) + 1 + δ
E[Di (i) + δ]
1+δ
(2 + δ)i
(2 + δ)i
1 (2 + δ)(i − 1) + 1 + δ
(1 + δ)
= 1,
1+δ
(2 + δ)i
(2 + δ)(i − 1) + 1 + δ
(4.2.5)
E[Mi (i)] = E[
=
=
57
mentre, dalla 4.2.2,
E[Mi (t + 1) | Mi (t)] = E[
t
Di (t + 1) + δ Y (2 + δ)s + 1 + δ
| Mi (t)]
1+δ
(2 + δ)(s + 1)
s=i−1
= E[Di (t + 1) + δ | Di (t)]
t−1
Y
(2 + δ)s + 1 + δ
1
1+δ
(2 + δ)(s + 1)
s=i−1
(2 + δ)t + 1 + δ
(2 + δ)(t + 1)
(2 + δ)(t + 1) (2 + δ)t + 1 + δ
= (Di (t) + δ)
(2 + δ)t + 1 + δ (2 + δ)(t + 1)
t−1
Y (2 + δ)s + 1 + δ
1
1+δ
=
s=i−1
(2 + δ)(s + 1)
t−1
Di (t) + δ Y (2 + δ)s + 1 + δ
= Mi (t),
1+δ
(2 + δ)(s + 1)
s=i−1
(4.2.6)
dove abbiamo usato che, poiché Mi (t) è funzione biunivoca di Di (t), è
equivalente condizionare all’uno o all’altro. Come conseguenza delle ultime
due osservazioni, Mi (t) è una martingala non negativa di media 1. Pertanto,
per il teorema di convergenza delle martingale 2.6, Mi (t) converge quasi
certamente, per t → ∞, ad una variabile aleatoria ξi , finita con probabilità 1.
Usando le proprietà 2.2.2 e 2.2.3 della funzione Gamma, abbiamo inoltre che
t−1
t−1
Y
Y
s + 1+δ
Γ(t + 1+δ
(2 + δ)s + 1 + δ
2+δ
2+δ )Γ(i)
=
=
1 .
(2 + δ)(s + 1)
s+1
Γ(t + 1)Γ(i − 2+δ
)
s=i−1
s=i−1
(4.2.7)
Inoltre, dal corollario 2.1 del teorema di Stirling, abbiamo che
1+δ
2+δ )Γ(i)
1
1)Γ(i − 2+δ
)
Γ(t +
Γ(t +
Pertanto,
Di (t)
1
t 2+δ
1
= t− 2+δ
Γ(i)
1 (1 + o(1)).
Γ(i − 2+δ
)
(4.2.8)
converge in distribuzione ad una variabile aleatoria ξi con
Γ(i)
valore atteso (1 + δ) Γ(i−
. In particolare, il grado dei primi i vertici, al
1
)
2+δ
1
tempo t, è al più di ordine t 2+δ . Notiamo, tuttavia, che ancora non sappiamo
se P(ξi = 0) = 0 o meno. Il risultato precedente è stato dimostrato per il modello Preferential
Attachment con m = 1. Tuttavia, può essere facilmente esteso al caso m ≥ 1
δ
usando la relazione tra PAt (m, δ) e PAmt (1, m
). Infatti, poiché un vertice di
58
δ
PAt (m, δ) è la contrazione di m vertici di PAmt (1, m
), abbiamo che
Dim,δ (t) =
m
X
1,
δ
m
(mt),
Dm(i−1)+s
(4.2.9)
s=1
dove l’apice, con ovvia notazione, indica il modello a cui ci riferiamo. Per il
teorema 4.1 dimostrato sopra, per ogni 1 ≤ s ≤ m,
1,
δ
m
(mt)
Dm(i−1)+s
(mt)
1
δ
2+ m
→ ξs
(4.2.10)
per qualche variabile aleatoria ξs finita con probabilità 1. Pertanto,
Dim,δ (t)
(mt)
1
δ
2+ m
1,
=
δ
m D m
X
m(i−1)+s (mt)
(mt)
s=1
1
δ
2+ m
→
m
X
ξs = ξ0 ,
(4.2.11)
s=1
dove ξ0 è, per costruzione, una variabile aleatoria finita con probabilità 1.
Inoltre,
E[Dim,δ (t)
m
X
δ
δ
1, m
+ δ] = E[ (Dm(i−1)+s
(mt) + )]
m
s=1
1
Γ(mt + 1) X Γ(m(i − 1) + s − 2+ mδ )
δ
= (1 + )
m Γ(mt + 1+ mδ )
Γ(m(i − 1) + s)
m
δ
2+ m
s=1
1
δ X Γ(m(i − 1) + s − 2+ mδ )
= (1 + )
m
Γ(m(i − 1) + s)
m
s=1
· (mt)
−
1
δ
2+ m
(1 + o(1)).
(4.2.12)
4.3
Successione dei gradi
Il pregio principale del modello Preferential Attachment è che, attraverso la
modellizzazione della crescita del grafo, riesce a fornire una valida spiegazione
alla presenza delle leggi di potenza nei network reali. Il risultato principale di
questa sezione, nonché di questo capitolo, è proprio la proprietà del modello
Preferential Attachment di essere scale-free. Prima di enunciare e dimostrare
il relativo teorema, abbiamo bisogno di un po’ di notazione. Sia
∞
1X
1{Di (t)=k}
Pk (t) =
t
t=1
59
(4.3.1)
la variabile aleatoria che rappresenta la proporzione di vertici di grado k
al tempo t. Inoltre, per m ≥ 1 e δ > −m, sia {pk }∞
k=0 la distribuzione di
probabilità definita da pk = 0 per k = 0, . . . , m − 1 e, per k ≥ m,
pk = (2 +
δ Γ(k + δ)Γ(m + 2 + δ +
)
m Γ(m + δ)Γ(k + 3 + δ +
δ
m)
,
δ
m)
(4.3.2)
che dimostreremo essere la distribuzione limite di Pk (t) per t → ∞. Prima di
continuare, osserviamo due semplificazioni della formula sopra sotto ipotesi
particolari.
• Per m = 1, la 4.3.2 si riduce a
pk = (2 + δ)
Γ(k + δ)Γ(3 + 2δ)
.
Γ(1 + δ)Γ(k + 3 + 2δ)
(4.3.3)
• Per δ = 0, ossia per il modello classico di Barabási-Albert, la 4.3.2 si
riduce a
2Γ(k)Γ(m + 2)
2m(m + 1)
pk =
=
.
(4.3.4)
Γ(m)Γ(k + 3)
k(k + 1)(k + 2)
Iniziamo dimostrando che {pk }∞
k=0 è effettivamente una distribuzione di
probabilità. Notiamo che, presi a, b ∈ R,
Γ(k + a)
Γ(k + b)
1
Γ(k + a)Γ(k + b − 1)
(k + b − 1 − (k + a))
b − a − 1 Γ(k + b)Γ(k + b − 1)
1
Γ(k + a)Γ(k + b − 1)(k + b − 1)
=
(
b−a−1
Γ(k + b)Γ(k + b − 1)
Γ(k + a)Γ(k + b − 1)(k + a)
)
−
Γ(k + b)Γ(k + b − 1)
1
Γ(k + a)Γ(k + b) − Γ(k + a + 1)Γ(k + b − 1)
=
b−a−1
Γ(k + b)Γ(k + b − 1)
1
Γ(k + a)
Γ(k + a + 1)
(
−
).
=
b − a − 1 Γ(k + b − 1
Γ(k + b
(4.3.5)
=
δ
Applicando l’uguaglianza sopra a pk con a = δ e b = 3 + δ + m
otteniamo,
per k ≥ m,
δ
Γ(m + 2 + δ + m
)
Γ(k + δ)
Γ(k + 1 + δ)
(
−
). (4.3.6)
δ
δ
Γ(m + δ)
Γ(k + 2 + δ + m ) Γ(k + 3 + δ + m
)
P
Pertanto
pk risulta essere una serie telescopica, da cui segue che
pk =
X
k≥0
pk =
X
k≥m
pk =
Γ(m + 2 + δ +
Γ(m + δ)
δ
m)
60
Γ(m + δ)
Γ(m + 2 + δ +
δ
m)
= 1.
(4.3.7)
Poiché pk ≥ 0 per definizione, otteniamo che pk è effettivamente una
distribuzione di probabilità.
Possiamo ora enunciare il teorema discusso prima, che descrive asintoticamente la successione dei gradi dei vertici di PAt (m, δ). La dimostrazione
del teorema è ripresa da [34], in cui è studiato approfonditamente questo
modello, e, in particolare, è dimostrato anche il suo comportamento small
world.
Teorema 4.2. Fissiamo m ≥ 1 e δ > −m. Allora, esiste una costante
C = C(m, δ) > 0 tale che, per t → ∞,
r
log(t)
P (max |Pk (t) − pk | ≥ C
) = o(1).
k
t
Il teorema 4.2 identifica quindi la successione asintotica dei gradi di
PAt (m, δ) in {pk }∞
k=1 . Prima di procedere alla dimostrazione del teorema,
mostriamo come pk sia una distribuzione con legge di potenza. Ricordiamo
innanzitutto che
pk = (2 +
δ Γ(k + δ)Γ(m + 2 + δ +
)
m Γ(m + δ)Γ(k + 3 + δ +
δ
m)
.
δ
m)
(4.3.8)
Usando ora il corollario 2.1,
Γ(k + δ)
Γ(k + 3 + δ +
δ
m)
δ
1
= k −3− m (1 + o( )),
k
(4.3.9)
da cui segue che
1
pk = cm,δ k −τ ((1 + o( )),
k
dove
τ =3+
δ
>2
m
e
cm,δ = (2 +
(4.3.10)
δ Γ(m + 2 + δ +
)
m
Γ(m + δ)
(4.3.11)
δ
m)
.
(4.3.12)
La topologia scale-free di un network è quindi un indizio di come questi
principi di scelta preferenziale agiscano in ogni fase della sua crescita. A prescindere da quanto diventi grande o complesso il network, finché continuano
ad essere presenti la crescita e l’attaccamento preferenziale, il grafo risultante
manterrà la sua topologia scale-free. Molti possibili modelli sono state creati
per spiegare la presenza di leggi di potenza nei network reali, e sono state di
conseguenza analizzate numerose variazioni o generalizzazioni del modello
studiato in questo capitolo. Nell’ultima sezione del capitolo, riporteremo gli
altri principali modelli Preferential Attachment studiati in letteratura.
61
Dimostrazione 4.2. Per dimostrare il teorema 4.2 ci baseremo sui due teoremi
successivi, in cui, rispettivamente, dimostreremo che la successione dei gradi
è vicina alla sua media e identificheremo tale media.
Iniziamo dimostrando che la successione dei gradi è concentrata intorno
alla sua media. Sia
Nk (t) =
t
X
1{Di (t)=k} = tPk (t)
(4.3.13)
i=1
la variabile aleatoria che rappresenta il numero totale di vertici di grado k al
tempo t.
√
Teorema 4.3. Fissiamo δ ≥ −m e m ≥ 1. Allora, per ogni C > m 8, per
t → ∞ si ha che
p
P(max |Nk (t) − E[Nk (t)]| ≥ C t log t) = o(1).
(4.3.14)
k
Dimostrazione 4.3. Iniziamo notando che Nk (t) = 0 per k ≥ t + 1 in quanto
il numero di vertici di grado k al tempo t è, ovviamente, limitato dal numero
di vertici totali del grafo al tempo t. Pertanto,
p
P(max |Nk (t) − E[Nk (t)]| ≥ C t log t)
k
p
= P(max |Nk (t) − E[Nk (t)]| ≥ C t log t)
k≤t
≤
t
X
P(|Nk (t) − E[Nk (t)]| ≥ C
p
t log t).
k=1
(4.3.15)
√
Vogliamo ora mostrare che, per C > m 8, uniformemente in k ≥ t,
P(|Nk (t) − E[Nk (t)]| ≥ C
p
1
t log t) = o( ).
t
(4.3.16)
Da questo e dalla 4.3.15 seguirà che
P(max |Nk (t) − E[Nk (t)]| ≥ C
≤
k
t
X
p
t log t)
P(|Nk (t) − E[Nk (t)]| ≥ C
k=1
p
1
t log t) = t o( ) = o(1),
t
(4.3.17)
cioè la tesi. Dedichiamoci quindi a dimostrare la 4.3.16. Per n = 0, . . . , t, sia
Mn = E[Nk (t) | PAn (m, δ)]
62
(4.3.18)
il numero medio di vertici di grado k al tempo t condizionato al grafo
PAn (m, δ) per n = 0, . . . , t. Vogliamo mostrare che {Mn }∞
n=0 è una martingala. Per prima cosa, usando che Nk (t) è limitato dal numero totale di
vertici al tempo t e le proprietà della media, abbiamo che
E[|Mn |] = E[Mn ] = E[Nk (t)] ≤ t < ∞.
(4.3.19)
Inoltre, dal fatto che PAn (m, δ) può essere dedotto da PAn+1 (m, δ) e dalla
proprietà di torre della media condizionata, per ogni n ≤ t − 1,
E[Mn+1 | PAn (m, δ)] = E [ E[Nk (t) | PAn+1 (m, δ)] | PAn (m, δ)]
= E [ E[Nk (t) | PAn (m, δ)]] = Mn ,
(4.3.20)
pertanto {Mn (t)}tn=0 è effettivamente una martingala rispetto al processo {PAn (m, δ)}tn=0 . Vogliamo ora applicare la disuguaglianza di AzumaHoeffding, ossia il teorema 2.7, alla martingala {Mn }∞
n=0 . Abbiamo quindi
bisogno di stimare dall’alto |Mn −Mn−1 |. Affermiamo che, per ogni 1 ≤ n ≤ t,
|Mn − Mn−1 | ≤ 2m.
(4.3.21)
Difatti,
Mn = E[Nk (t) | PAn (m, δ)] =
t
X
P(Di (t) = k | PAn (m, δ)),
(4.3.22)
i=1
e, analogamente,
Mn−1 =
t
X
P(Di (t) = k | PAn−1 (m, δ)).
(4.3.23)
i=1
Pertanto,
Mn − Mn−1 =
t
X
P(Di (t) = k | PAn (m, δ)) − P(Di (t) = k | PAn−1 (m, δ)).
i=1
(4.3.24)
Dobbiamo quindi studiare come può variare la successione dei gradi quando
l’informazione che abbiamo passa da PAn−1 (m, δ) a PAn (m, δ). Notiamo che,
per ogni 1 ≤ s ≤ t, condizionare a PAs (m, δ) è equivalente a condizionare a
quali vertici i primi sm lati siano stati attaccati. Pertanto, quando l’informazione passa da PAn−1 (m, δ) a PAn (m, δ), l’informazione che abbiamo in
(m)
più è a quali vertici siano attaccati gli m lati generati da vn . Il numero di
vertici influenzati dal passaggio da PAn−1 (m, δ) a PAn (m, δ) è quindi al più
m, da cui segue che la distribuzione dei gradi è diversa al più in 2m valori.
63
Questo prova la 4.3.21. Pertanto, dalla disuguaglianza di Azuma-Hoeffding
2.7, per ogni a > 0
a2
P(|Mt − M0 | ≥ a) ≤ 2e− 8m2 t .
(4.3.25)
M0 = E[Nk (t) | PA0 (m, δ)] = E[Nk (t)]
(4.3.26)
Notiamo ora che
in quanto PA0 (m, δ) è il grafo vuoto, e
Mt = E[Nk (t) | PAt (m, δ)] = Nk (t)
(4.3.27)
in quanto, dato PAt (m, δ), conosciamo esattamente il valore di Nk (t). Pertanto, dalla 4.3.25,
a2
(4.3.28)
P(|Nk (t) − E[Nk (t)]| ≥ a) = P(|Mt − M0 | ≥ a) ≤ 2e− 8m2 t .
√
Prendendo ora a = C t log t per un qualsiasi C tale che C 2 > 8m2 ,
P(|Nk (t) − E[Nk (t)]| ≥ C
p
C2
1
t log t) ≤ 2e(− log t) 8m2 = o( ),
t
(4.3.29)
ossia la tesi per quanto visto in precedenza. Procediamo ora enunciando e dimostrando il secondo teorema di cui
abbiamo bisogno per la dimostrazione del teorema iniziale. Sia
N̄k (t) = E[Nk (t)] = E[tPk (t)]
(4.3.30)
il numero medio di vertici di grado k di PAt (m, δ), e pk definito come in
4.3.2.
Teorema 4.4. Fissiamo δ > −m e m ≥ 1. Allora, esiste una costante
C = C(m, δ) tale che, per ogni t ≥ 1 e per ogni k ∈ N,
|N̄k (t) − pk t| ≤ C.
(4.3.31)
Dimostrazione 4.4. Dividiamo la dimostrazione nei casi m = 1 e m > 1.
• m = 1 Iniziamo scrivendo
E[Nk (t + 1) | PAt (1, δ)] = Nk (t) + E[Nk (t + 1) − Nk (t) | PAt (1, δ)].
(4.3.32)
Condizionatamente a PAt (1, δ), ci sono quattro modi in cui Nk (t + 1) −
Nk (t) può essere diverso da 0:
(1)
a) Il secondo estremo del lato generato da vt+1 ha grado k − 1, cosı̀
che il suo grado diventa k e Nk (t + 1) − Nk (t) = 1, che si verifica
k−1+δ
con probabilità t(2+δ)+(1+δ)
. Notiamo che ci sono Nk−1 (t) vertici
di grado k − 1 al tempo t.
64
(1)
b) Il secondo estremo del lato generato da vt+1 ha grado k, cosı̀ che
il suo grado diventa k + 1 e Nk (t + 1) − Nk (t) = −1, che si verifica
k+δ
con probabilità t(2+δ)+(1+δ)
. Notiamo che ci sono Nk (t) vertici di
grado k al tempo t.
(1)
c) Il grado del vertice vt+1 è 1, cosı̀ che N1 (t) è incrementato di 1,
1+δ
che si verifica con probabilità 1 − t(2+δ)+(1+δ)
.
(1)
d) Il grado del vertice vt+1 è 2, cosı̀ che N2 (t) è incrementato di 1,
1+δ
che si verifica con probabilità t(2+δ)+(1+δ)
.
Prendendo in considerazione tutte le ipotesi enumerate sopra, giungiamo all’identità
E[Nk (t + 1) − Nk (t) | PAt (1, δ)] =
k−1+δ
Nk−1 (t)
t(2 + δ) + (1 + δ)
k+δ
−
Nk (t)
t(2 + δ) + (1 + δ)
1+δ
+1{k=1} (1 −
)
t(2 + δ) + (1 + δ)
1+δ
+1{k=1}
.
t(2 + δ) + (1 + δ)
(4.3.33)
Prendendo la media in entrambi i lati di 4.3.32, otteniamo
E[Nk (t + 1)] = E[Nk (t)] + E[ E[Nk (t + 1) − Nk (t) | PAt (1, δ)]]. (4.3.34)
Usando quest’ultima relazione insieme alla 4.3.33, otteniamo che, per
ogni k ≥ 1,
k−1+δ
N̄k−1 (t)
t(2 + δ) + (1 + δ)
k+δ
−
N̄k (t)
t(2 + δ) + (1 + δ)
1+δ
)
+1{k=1} (1 −
t(2 + δ) + (1 + δ)
1+δ
.
+1{k=1}
t(2 + δ) + (1 + δ)
N̄k (t + 1) = N̄k (t) +
(4.3.35)
Questa equazione ricorsiva sarà la chiave della dimostrazione del teorema nel caso m = 1. Iniziamo spiegandone la relazione con la distribuzione pk definita in 4.3.2. Supponiamo che N̄kt(t) ≈ p̂k , e quindi
N̄k (t+1)− N̄k (t) ≈ p̂k . Sostituendo questa approssimazione nella 4.3.35,
65
1
t
1+δ
e approssimando t(2+δ)+(1+δ)
≈ 2+δ
e t(2+δ)+(1+δ)
≈ 0, otteniamo che
p̂k deve soddisfare, per k ≥ 1, l’equazione ricorsiva
p̂k =
k−1+δ
k+δ
p̂k−1 −
p̂k + 1{k=1} ,
2+δ
2+δ
dove abbiamo definito p̂0 = 0.
l’equazione sopra come
p̂k =
(4.3.36)
Notiamo che possiamo riscrivere
k−1+δ
2+δ
p̂k−1 +
1
.
k + 2 + 2δ
k + 2 + 2δ {k=1}
(4.3.37)
Cerchiamo quindi, usando l’uguaglianza sopra, un’espressione esplicita
per p̂k . Per k = 1, usando che p̂0 = 0, abbiamo che
p̂1 =
2+δ
,
3 + 2δ
(4.3.38)
mentre, per k > 1,
k−1+δ
p̂k−1 .
(4.3.39)
k + 2 + 2δ
Pertanto, usando ripetutamente la proprietà 2.2.2 della funzione Gamma, abbiamo che
p̂k =
p̂k =
=
=
=
=
k−1+δ
p̂k−1
k + 2 + 2δ
k − 1 + δ (k − 1) − 1 + δ
2−1+δ
...
p̂1
k + 2 + 2δ (k − 1) + 2 + 2δ
2 + 2 + 2δ
Γ(k + δ) Γ(4 + 2δ)
p̂1
Γ(1 + δ) Γ(k + 3 + 2δ)
Γ(k + δ) Γ(4 + 2δ)
2+δ
Γ(1 + δ) Γ(k + 3 + 2δ) 3 + 2δ
(2 + δ)Γ(k + δ)Γ(3 + 2δ)
,
Γ(1 + δ)Γ(k + 3 + 2δ)
(4.3.40)
∞
ossia {p̂k }∞
k=0 è proprio la distribuzione {pk }k=0 definita in 4.3.2. Vogliamo osare usare le relazioni precedenti per dimostrare il teorema nel
caso m = 1. Definiamo
εk (t) = N̄k (t) − tpk .
(4.3.41)
Per ottenere la tesi, dobbiamo mostrare che esiste una costante C =
C(δ) tale che
max |εk (t)| ≤ C.
(4.3.42)
k
66
Per prima cosa, notiamo che possiamo riscrivere la 4.3.36 come
(t + 1)pk = tpk + pk
k−1+δ
k+δ
= tpk +
pk−1 −
pk + 1{k=1}
2+δ
2+δ
k−1+δ
tpk−1
= tpk +
t(2 + δ) + 1 + δ
k+δ
−
tpk 1{k=1}
t(2 + δ) + 1 + δ
1
t
+(
−
)(k − 1 + δ)pk−1
2 + δ t(2 + δ) + 1 + δ
t
1
−
)(k + δ)pk .
−(
2 + δ t(2 + δ) + 1 + δ
(4.3.43)
Per semplicità di notazione, definiamo
κk (t) = −(
1
t
−
)((k + δ)pk − (k − 1 + δ)pk−1 )
2 + δ t(2 + δ) + 1 + δ
(4.3.44)
e
γk (t) =
1+δ
(1
− 1{k=1} ).
t(2 + δ) + 1 + δ {k=2}
(4.3.45)
Usando le uguaglianze 4.3.35 e 4.3.43, otteniamo quindi che
k+δ
)εk (t)
t(2 + δ) + 1 + δ
k−1+δ
+
εk−1 (t) + κk (t) + γk (t).
t(2 + δ) + 1 + δ
εk (t + 1) = (1 −
Proviamo ora il bound 4.3.42 di εk (t) per induzione su t ≥ 1. Per t = 1,
il grafo PA1,δ (1) consiste di un singolo vertice con un singolo cappio,
per cui
N̄k (1) = 1{k=2} .
(4.3.46)
Pertanto, poiché anche pk ≤ 1 per definizione, otteniamo che, uniformemente in k ≥ 1,
|εk (1)| = |N̄k (1) − pk | ≤ max {N̄k (1), pk } ≤ 1.
(4.3.47)
Questo verifica la base dell’induzione di 4.3.42 per t = 1, per ogni
C ≥ 1. Procediamo ora con il passo induttivo.
Iniziamo con il caso k = 1. In questo caso, poiché |ε0 (t)| = |N̄0 (t) −
tp0 | = 0, la 4.3.46 diventa
ε1 (t + 1) = (1 −
1+δ
)ε1 (t) + κ1 (t) + γ1 (t).
t(2 + δ) + 1 + δ
67
(4.3.48)
Pertanto, poiché
1−
1+δ
≥ 0,
t(2 + δ) + 1 + δ
(4.3.49)
otteniamo che
|ε1 (t + 1)| ≤ (1 −
1+δ
)|ε1 (t)| + |κ1 (t)| + |γ1 (t)|. (4.3.50)
t(2 + δ) + 1 + δ
Usando ora le forme esplicite di κk (t) e κk (t) definite rispettivamente
in 4.3.44 e in 4.3.45, vogliamo mostrare che esistono costanti universali
Cκ = Cκ (δ) e Cγ = Cγ (δ) tali che, uniformemente in k ≥ 1,
|κk (t)| ≤
Cκ
,
t+1
|γk (t)| ≤
Cγ
.
t+1
(4.3.51)
Difatti,
1+δ
(1
− 1{k=1} )|
t(2 + δ) + 1 + δ {k=2}
1+δ
|
≤ (t + 1)|
t(2 + δ) + (1 + δ)
t(1 + δ) + (1 + δ)
= |
| ≤ 1,
(4.3.52)
t(2 + δ) + (1 + δ)
(t + 1)|γk (t)| = (t + 1)|
e
t
1
−
)((k + δ)pk
2 + δ t(2 + δ) + 1 + δ
−(k − 1 + δ)pk−1 )|
(t + 1)(1 + δ)
= |
||(k + δ)pk
(t(2 + δ) + 1 + δ)(2 + δ)
−(k − 1 + δ)pk−1 |
t(1 + δ) + (1 + δ)
≤ |
||(k + δ)pk |
t(2 + δ)2 + (1 + δ)(2 + δ)
(1 + δ)(2 + δ)
≤ |(k + δ)pk | ≤ (1 + δ)p1 =
,
3 + 2δ
(4.3.53)
(t + 1)|κk (t)| = (t + 1)|(
da cui seguono le costanti esplicite
Cκ =
(1 + δ)(2 + δ)
,
3 + 2δ
Cγ = 1.
(4.3.54)
Usando le stime in 4.3.51 e l’ipotesi induttiva 4.3.42, arriviamo quindi
a
|ε1 (t + 1)| ≤ C(1 −
Cκ + Cγ
1+δ
)|ε1 (t)| +
.
t(2 + δ) + 1 + δ
t+1
68
(4.3.55)
Infine, usando che t(2 + δ) + (1 + δ) ≤ (t + 1)(2 + δ), otteniamo che
|ε1 (t + 1)| ≤ C −
1+δ
C 2+δ
− (Cκ + Cγ )
) ≤ C,
t+1
(4.3.56)
preso
2+δ
(Cκ + Cγ ).
(4.3.57)
1+δ
Questo conclude la dimostrazione per induzione nel caso k = 1.
C≥
Estendiamo ora l’argomento usato al caso k ≥ 2. Notiamo che rimane
vero che
k+δ
1−
≥0
(4.3.58)
t(2 + δ) + 1 + δ
fintanto che
k ≤ t(2 + δ) + 1.
(4.3.59)
Assumiamo la 4.3.59 valida, e trattiamo il caso k ≥ t(2 + δ) + 2
successivamente. Notiamo inoltre che, poiché k ≥ 2, k − 1 + δ ≥ 0.
Pertanto, usando sempre la 4.3.46 e le osservazioni precedenti,
k+δ
)|εk (t)|
t(2 + δ) + 1 + δ
k−1+δ
|εk−1 (t)| + |κk (t)| + |γk (t)|.
+
t(2 + δ) + 1 + δ
(4.3.60)
|εk (t + 1)| ≤ (1 −
Per limitare superiormente |κk (t)| e |γk (t)|, usiamo ancora una volta le
stime in 4.3.51. Pertanto, usando l’ipotesi induttiva su 4.3.60, otteniamo
che
k+δ
k−1+δ
)+C
t(2 + δ) + 1 + δ
t(2 + δ) + 1 + δ
Cκ + Cγ
+
t+1
Cκ + Cγ
1
= C(1 −
)+
.
t(2 + δ) + 1 + δ
t+1
(4.3.61)
|εk (t + 1)| ≤ C(1 −
Come nel caso precedente,
t(2 + δ) + (1 + δ) ≤ (t + 1)(2 + δ),
(4.3.62)
per cui
|εk (t + 1)| ≤ C −
C
2+δ
− Cκ + Cγ
≤C
t+1
(4.3.63)
preso
C ≥ (2 + δ)(Cκ + Cγ ),
69
(4.3.64)
che completa la dimostrazione anche nel caso 2 ≤ k ≤ t(2 + δ) + 1.
Infine, supponiamo k > t(2 + δ) + 1. Notiamo che, in quanto δ > −1,
k ≥ t(2 + δ) + 1 → k > t + 1. Poiché il grado massimo possibile di
PAt (1, δ) è t + 2 (che succede se e solo se tutti i lati sono attaccati
al primo vertice, che si verifica con probabilità 0), N̄k (t) = 0 per
k > t(2 + δ) + 1. Pertanto, per k > t(2 + δ) + 1
|εk (t + 1)| = (t + 1)pk .
(4.3.65)
Poiché, come visto nella 4.3.10
1
pk = cm,δ k −τ ((1 + o( ))
k
(4.3.66)
τ = 3 + δ,
(4.3.67)
con
esiste Cp = Cp (δ) tale che
pk ≤
Cp
.
(t + 1)3+δ
(4.3.68)
Pertanto, poiché δ > −1, uniformemente per k > t(2 + δ) + 1
(t + 1)pk ≤
Cp
≤ Cp .
(t + 1)2+δ
(4.3.69)
Prendendo C ≥ Cp , segue la tesi anche per k > t(2 + δ) + 1. Unendo i
tre casi studiati, abbiamo quindi che, scegliendo
C = max {(2 + δ)(Cκ + Cγ ),
(2 + δ)(Cκ + Cγ )
, Cp },
1+δ
(4.3.70)
è verificato il passo induttivo per k ≥ 1, che completa la dimostrazione
del teorema nel caso m = 1.
• m > 1 Vogliamo ora generalizzare il risultato al caso m > 1, adattando
l’argomento usato sopra. Nella dimostrazione del caso m = 1, siamo
riusciti a derivare nella 4.3.35 una formula ricorsiva esatta per N̄k (t),
che ci ha consensito nella 4.3.46 di ottenere una formula ricorsiva esatta
per l’errore εk (t). In questa parte usiamo una derivazione più astratta,
in quanto ricavare una formula ricorsiva esatta nel caso generale m > 1
risulterebbe troppo complesso.
Useremo il fatto che, per passare da PAt (m, δ) a PAt+1 (m, δ), aggiungiamo esattamente m lati in maniera preferenziale. Questo processo
può essere definito in termini di certi operatori, di cui faremo poi opportune stime. Sia R∞ l’insieme di tutte le successioni di numeri reali.
70
Data una successione di numeri reali {Qk }∞
k=1 , definiamo l’operatore
Tt+1 : R∞ → R∞ come
k+δ
k−1+δ
)Qk +
Qk−1 ,
0
0
t(2 + δ ) + (1 + δ )
t(2 + δ 0 ) + (1 + δ 0 )
(4.3.71)
δ
dove δ 0 = m
. Scrivendo N̄ (t) = {N̄ (t)}∞
,
osserviamo
che
possiamo
k=1
riscrivere la 4.3.35, quando m = 1 e quindi δ = δ 0 , come
(Tt+1 Q)k = (1 −
N̄ (t + 1) = (Tt+1 N̄ (t))k + 1{k=1} (1 −
+1{k=1}
1+δ
)
t(2 + δ) + (1 + δ)
1+δ
.
t(2 + δ) + (1 + δ)
(4.3.72)
Pertanto, come evidenziato anche dall’equazione 4.3.33, l’operatore
Tt+1 descrivere l’effetto, nella successione dei gradi, dell’aggiunta del
(t + 1)−esimo lato, ad eccezione del grado del vertice neo-aggiunto.
Nel caso m > 1, ogni vertice ha esattamente m lati uniti in maniera
preferenziale. Poiché i gradi sono aggiornati dopo l’attaccamento di ogni
lato, l’effetto di attaccare il (j + 1)−esimo lato è descritto applicando
l’operatore Tj a N̄ (j). Quando aggiungiamo il t−esimo vertice, questo
corrisponde, ad eccezione dell’aggiunta del grado di tale vertice, ad
attaccare in successione i lati m(t − 1) + 1, . . . , mt con aggiornamento
intermedio dei gradi, ed è quindi descritto, per quanto detto sopra,
dalla composizione degli operatori Tj per mt + 1 ≤ j ≤ m(t + 1).
Pertanto, la relazione ricorsiva del numero medio dei vertici di grado k
è data da
(m)
N̄k (t + 1) = (Tt+1 N̄k (t))k + αk (t),
(4.3.73)
dove
(m)
Tt+1 = Tm(t+1) ◦ · · · ◦ Tmt+1
(4.3.74)
e dove, per m ≤ k ≤ 2m, αk (t) è la probabilità che il grado del
neo-aggiunto (t + 1)−esimo vertice sia uguale a k. Per t grande, la
distribuzione di probabilità k → αk (t) è tale che αm (t) ∼ 1, mentre
αk (t) ∼ 0 per k > m. Infatti, affinché αk (t) > 0 per qualche k > m,
almeno uno degli m lati generati dal vertice t + 1 deve riconnettersi a
sé stesso. Pertanto, per m + 1 < k < 2m,
αk (t) ≤
m + δ0
,
mt(2 + δ 0 ) + (1 + δ 0 )
(4.3.75)
da cui segue che
2m
X
k=m+1
αk (t) ≤
m2 (1 + δ)
.
mt(2 + δ 0 ) + (1 + δ 0 )
71
(4.3.76)
Definiamo ora
γk (t) = αk (t) − 1{k=m} .
(4.3.77)
Usando il bound 4.3.76, e procedendo in maniera analoga a quanto
fatto in 4.3.51, otteniamo che esiste una costante Cγ = Cγ (δ, m) tale
che
Cγ
.
(4.3.78)
|γk (t)| ≤
t+1
Definiamo ora l’operatore S (m) di una successione di numeri reali
Q = {Qk }∞
k=1 come
(S (m) Q)k = m
k−1+δ
k+δ
Qk−1 − m
Qk .
2m + δ
2m + δ
(4.3.79)
Per m = 1, la 4.3.36 è equivalente a
p̂k = (S (1) p̂)k + 1{k=1} .
(4.3.80)
Per m > 1, sostituiamo la precedenze equazione ricorsiva di p̂ con
p̂k = 0 per k < m, e, per k ≥ m,
p̂k = (S (m) p̂)k + 1{k=m} .
(4.3.81)
Come fatto nel caso m = 1, possiamo risolvere tale equazione ricorsiva
esplicitamente in p̂ = {p̂k }∞
k=1 . La soluzione è data dal seguente lemma.
Lemma 4.1. Fissiamo δ > −1 e m ≥ 1. Allora, la soluzione dell’equazione 4.3.81 è data dalla 4.3.2.
Dimostrazione. Iniziando notando che, usando la 4.3.81, dalla definizione di S (m) e dal fatto che p̂0 = 0, p̂k = 0 per ogni k < m. Inoltre,
per k = m, sempre dalla 4.3.81 otteniamo l’equazione
p̂m = −m
m+δ
p̂m + 1,
2m + δ
(4.3.82)
da cui, risolvendo in p̂m , ricaviamo che
p̂m =
δ
2+ m
2m + δ
=
m(m + δ) + 2m + δ
(m + δ) + 2 +
δ
m
.
(4.3.83)
Inoltre, risolvendo sempre in pk la 4.3.81, otteniamo l’equazione ricorsiva
p̂k =
m(k − 1 + δ)
k−1+δ
=
m(k + δ) + 2m + δ
k+δ+2+
72
p̂ .
δ k−1
m
(4.3.84)
Pertanto, usando ripetutamente la proprietà 2.2.2 della funzione Gamma come nel caso m = 1, abbiamo che
p̂k =
=
=
Γ(k + δ)Γ(m + 3 + δ +
Γ(m + δ)Γ(k + 3 + δ +
Γ(k + δ)Γ(m + 3 + δ +
Γ(m + δ)Γ(k + 3 + δ +
(2 +
δ
m )Γ(k
δ
m)
p̂m
δ
m)
δ
m)
δ
m ) (m
(2 +
+δ+2+
+ δ)Γ(m + 2 + δ +
Γ(m + δ)Γ(k + 3 + δ +
δ
m)
δ
m)
δ
m
δ
m)
,
(4.3.85)
per cui la soluzione a 4.3.81 è data da 4.3.2. H
Sempre in modo analogo a quanto fatto per il caso m = 1, possiamo
quindi riscrivere la 4.3.81 come
(t + 1)pk = tpk + pk = tpk + (S (m) p)k + 1{k=m}
(m)
= (Tt+1 tp)k + 1{k=m} − κk (t),
(4.3.86)
dove, scrivendo I per l’operatore identità,
(m)
κk (t) = −([S (m) + t(I − Tt+1 )]p)k .
(4.3.87)
Nonostante quest’ultima uguaglianza non sia particolarmente esplicita,
possiamo utilizzare un argomento simile a quello usato nel caso m = 1
per dare un bound di |κk (t)|, come esplicitato nel seguente lemma.
Lemma 4.2. Fissiamo δ > −1 e m ≥ 1. Allora, esiste una costante
Cκ = Cκ (δ, m) tale che
|κk (t)| ≤
Cκ
.
t+1
(4.3.88)
Rimandiamo la dimostrazione del lemma 4.2 a fine dimostrazione, e
continuiamo con la dimostrazione del caso m > 1. Definiamo, per
k ≥ m,
εk (t) = N̄k (t) − tpk .
(4.3.89)
Usando le formule ricorsive per N̄k (t) e tpk descritte, rispettivamente,
in 4.3.73 e in 4.3.86, otteniamo che
(m)
εk (t + 1) = (Tt+1 εk (t))k + κk (t) + γk (t).
(4.3.90)
Pertanto, per sfruttare tale equazione ricorsiva e ricavare un bound
(m)
di εk (t), abbiamo bisogno di studiare le proprietà dell’operatore Tt .
Iniziamo dando alcune notazioni. Sia Q = {Qk }∞
k=1 una successione di
73
numeri reali, e sia Q = R∞ l’insieme di tutte le possibili successioni.
Data Q ∈ Q, definiamo la (usuale) norma infinito come
∞
||Q||∞ = sup |Qk |.
(4.3.91)
k=1
Sia inoltre Qm (t) ⊆ Q il sottoinsieme delle successioni tali che Qk = 0
per ogni k > m(t + 1), ossia
Qm (t) = {Q ∈ Q : Qk = 0 ∀k > m(t + 1)}.
(4.3.92)
Chiaramente, n̄(t) ∈ Qm (t) in quanto, al tempo t, ogni vertice ha al
(m)
più grado m(t + 1). Vedendo Tt+1 come operatore su Q, abbiamo il
seguente lemma.
(m)
Lemma 4.3. Fissiamo δ > −1 e m ≥ 1. Allora, Tt+1 mappa Qm (t) in
Qm (t + 1) e, per ogni Q ∈ Qm (t),
(m)
||Tt+1 Q||∞ ≤ (1 −
1
)||Q||∞ .
t(2m + δ) + (m + δ)
(4.3.93)
(m)
Il lemma 4.3 implica che Tt+1 agisce come contrazione degli elementi
Qm (t). Usando questo lemma, di cui rimandiamo alla fine del caso
m > 1 per la dimostrazione, insieme al lemma 4.2, possiamo completare
la dimostrazione del caso m > 1.
Definiamo la successione ε0 (t) = {ε0k (t)}∞
k=1 come
ε0k (t) = εk (t)1{k≤m(t+1)} .
(4.3.94)
Per costruzione, ε0 (t) ∈ Qm (t). Pertanto, usando ora l’uguaglianza
4.3.90 e il lemma 4.3, otteniamo che
(m)
||ε(t + 1)||∞ ≤ ||Tt+1 ε0 (t)||∞ + ||ε(t + 1) − ε0 (t + 1)||∞
+||κk (t)||∞ + ||γk (t)||∞
1
≤ (1 −
||ε0 (t)||∞
t(2m + δ) + (m + δ)
+||ε0 (t + 1) − ε(t + 1)||∞ + ||κk (t)||∞ + ||γk (t)||∞ .
(4.3.95)
Dall’equazione 4.3.78 e dal lemma 4.2, abbiamo i bound
||γk (t)||∞ ≤
Cγ
,
t+1
||κk (t)||∞ ≤
Cκ
.
t+1
(4.3.96)
Non è inoltre difficile vedere che
||ε0 (t + 1) − ε(t + 1)||∞ ≤
74
Cε0
,
(t + 1)τ −1
(4.3.97)
dove τ > 2 è definito in 4.3.11. La dimostrazione è analoga a quella
svolta, esplicitamente, nel caso m = 1. Pertanto, dalla 4.3.95, otteniamo
che
Cγ + Cκ + Cε0
1
||ε0 (t)||∞ +
.
t(2m + δ) + (m + δ)
t+1
(4.3.98)
Vogliamo ora l’induzione sull’asserto
||ε(t + 1)||∞ ≤ (1 −
||ε(t)||∞ ≤ C.
(4.3.99)
Per C > 0 sufficientemente grande, l’asserto è chiaramente vero per
t = 1. Inoltre, usando l’ipotesi induttiva cosı̀ come la disuguaglianza
4.3.98, otteniamo che
||ε(t + 1)||∞ ≤ (1 −
Cγ + Cκ + Cε0
1
C+
≤C
t(2m + δ) + (m + δ)
t+1
(4.3.100)
prendendo
C ≥ (2m + δ)(Cγ + Cκ + Cε0 ).
(4.3.101)
Questo completa la dimostrazione del fatto che |N̄k (t) − pk t| ≤ C anche
nel caso m > 1. Rimangono ora da dimostrare i lemmi 4.2 e 4.3 usati
nel teorema.
Dimostrazione. Iniziamo dimostrando il lemma 4.3. Ricordiamo innanzitutto che
(m)
Tt+1 = Tm(t+1) ◦ · · · ◦ Tmt+1 .
(4.3.102)
Pertanto, poiché Tt+1 mappa Q1 (t) in Q1 (t + 1) (in quanto (Tt+1 Q)k è
(m)
combinazione lineare di Qk e Qk−1 ), Tt+1 mappa Qm (t) in Qm (t + 1).
Questo prova la prima parte dell’enunciato del lemma 4.3.
(m)
Rimane ora da provare la proprietà di contrazione di Tt+1 . Iniziamo
provando che, preso Q ∈ Q1 (mt + a − 1), con 1 ≤ a ≤ m, δ > −m e
δ
> −1, si ha che
δ0 = m
||(Tmt+a Q)||∞ ≤ (1 −
1
)||Q)||∞ .
t(2 + δ) + (1 + δ)
(4.3.103)
Per dimostrarlo, richiamiamo innanzitutto la definizione dell’operatore
Tt , per cui
k+δ
)Qk
(mt + a − 1)(2 + δ 0 ) + (1 + δ 0 )
k−1+δ
+
Qk−1 .
(mt + a − 1)(2 + δ 0 ) + (1 + δ 0 )
(4.3.104)
(Tmt+a Q)k = (1 −
75
Sia ora Q ∈ Q1 (mt + a). Quindi, Qk = 0 per ogni k > mt + a, da cui
segue che, per tutti i k tali che Qk 6= 0,
0≤1−
k+δ
≤1
(mt + a − 1)(2 + δ 0 ) + (1 + δ 0 )
(4.3.105)
e, per k ≥ 2,
0
k−1+δ
≤ 1.
(mt + a − 1)(2 + δ 0 ) + (1 + δ 0 )
(4.3.106)
Pertanto, dalla 4.3.104 otteniamo che
k+δ
)||Q)||∞
(mt + a − 1)(2 + δ 0 ) + (1 + δ 0 )
k
k−1+δ
+
||Q)||∞ ]
(mt + a − 1)(2 + δ 0 ) + (1 + δ 0 )
1
= (1 −
)||Q)||∞ .
(mt + a − 1)(2 + δ 0 ) + (1 + δ 0 )
(4.3.107)
||(Tmt+a Q)||∞ ≤ sup[(1 −
Pertanto, applicare Tmt+a ad un elemento di Q1 (mt + a − 1) riduce la
sua norma. Pertanto, utilizzando l’uguaglianza 4.3.102, otteniamo che,
per ogni Q ∈ Qm (t),
(m)
||(Tt+1 Q)||∞ ≤ ||(Tmt+1 Q)||∞
1
)||Q)||∞
(mt)(2 + δ 0 ) + (1 + δ 0 )
1
= (1 −
)||Q)||∞ ,
t(2m + δ) + (m + δ 0 )
(4.3.108)
≤ (1 −
che completa la dimostrazione del lemma 4.3. H
Passiamo ora alla dimostrazione del lemma 4.2. Ricordiamo che la
quantità che vogliamo stimare è
(m)
κk (t) = ([S (m) + t(I − Tt+1 )p)k .
(4.3.109)
Iniziamo notando che
(m)
Tt+1
= Tm(t+1) ◦ · · · ◦ Tmt+1
= (I + (Tm(t+1) − I)) ◦ · · · ◦ (I + (Tmt+1 − I)).
(4.3.110)
76
Dalla definizione di Tt+1 ,
k+δ
)Qk
t(2 + δ 0 ) + (1 + δ 0 )
k−1+δ
+
Qk−1 . (4.3.111)
t(2 + δ 0 ) + (1 + δ 0 )
((Tt+1 − I)Q)k = (1 −
Pertanto, quando supk k|Qk | ≤ K, esiste una costante C = Ck tale che
sup |((Tt+1 − I)Q)k | ≤
k
C
.
t+1
(4.3.112)
Inoltre, quando supk k 2 |Qk | ≤ K, esiste una costante C = Ck tale che
per u, v ≥ t
sup |((Tu+1 − I)(Tv+1 − I)Q)k | ≤
k
C
.
(t + 1)2
(4.3.113)
Pertanto, espandendo l’equazione in 4.3.110 e utilizzando la stima
sopra, possiamo concludere che, quando supk k 2 |Qk | ≤ K,
(m)
(Tt+1 Q)k
= Qk +
m
X
((Tmt+a − I)Q)k + Ek (t, Q),
(4.3.114)
a=1
dove, uniformemente in k e in Q tali che supk k 2 |Qk | ≤ K,
|Ek (t, Q)| ≤
Ck
.
(t + 1)2
(4.3.115)
Come conseguenza, abbiamo che
((I −
(m)
(Tt+1 )Q)k
=−
m
X
((Tmt+a − I)Q)k − Ek (t, Q).
(4.3.116)
a=1
Notiamo inoltre che, per definizione di S (m) , per ogni a = 1, . . . , m
((Tmt+a − I)Q)k =
1
(S (m) Q)k + Fk,a (t, Q),
mt
(4.3.117)
dove, uniformememnte in k, Q tali che supk k|Qk | ≤ k e a = 1, . . . , m,
|Fk,a (t, Q)| ≤
0
CK
.
(t + 1)2
(4.3.118)
Pertanto, otteniamo che
m
X
1
((Tmt+a − I)Q)k = (S (m) Q)k + Fk (t, Q),
t
a=1
77
(4.3.119)
cosı̀ che
(m)
κk (t) = ([S (m) + t(I − Tt+1 )p)k = −tFk (t, Q) − tEk (t, Q). (4.3.120)
Notiamo inoltre che, dall’uguaglianza 4.3.10, p soddisfa
sup k 2 pk ≤ Cp ,
(4.3.121)
k
pertanto, usando l’uguaglianza 4.3.120 e le stime 4.3.115 e 4.3.118
rispettivamente di Ek e Fk , otteniamo che
(m)
||κk (t)||∞ = sup |([S (m) + t(I − Tt+1 )p)k |
k
≤ sup t(|Ek (t, Q)| + |Fk (t, Q)|)
k
≤
Ck + Ck0
t(Ck + Ck0 )
≤
,
(t + 1)2
t+1
(4.3.122)
ossia la tesi. H
Questo completa la dimostrazione del teorema 4.4 nel caso generale. Possiamo quindi finalmente passare a dimostrare il teorema 4.2, utilizzando i teoremi 4.3 e 4.4 dimostrati in precedenza. Innanzitutto, dal teorema
4.4 abbiamo che
max |E[Nk (t)] − pk t| ≤ C.
(4.3.123)
k
Pertanto, dal teorema 4.3, otteniamo che
p
P(max |Nk (t) − pk t| ≥ C(1 + t log t))
k
≤ P(max(|Nk (t) − E[Nk (t)]| + |E[Nk (t)] − pk t|) ≥ C(1 +
k
p
t log t))
= o(1).
(4.3.124)
Poiché Nk (t) = tPk (t), otteniamo quindi che
P(max |Pk (t) − pk | ≥
k
p
C
(1 + t log t)) = o(1),
t
(4.3.125)
che implica la tesi. 4.4
Variabili aleatorie scambiabili e Urne di Polya
Il teorema 4.2 dimostrato sopra è il teorema più importante del capitolo, in
quanto giustifica l’importanza del modello preferential attachment esplicitandone la relazione con i network reali. In questa sezione e nella prossima,
studieremo altre proprietà di questo modello. In particolare, in questa sezione vedremo alcuni dei risultati principali riguardanti le variabili aleatorie
78
scambiabili e la loro applicazione alle Urne di Polya, strumenti teorici utilizzati spesso nello studio dei modelli preferential attachment, mentre, nella
prossima sezione, applicheremo questi strumenti per studiare la connettività
del modello.
Iniziamo dando la definizione di variabili aleatorie scambiabili.
Definizione 4.1. Una successioni di variabili aleatorie (Xi )i≥1 è detta scambiabile se, per ogni n ≥ 1, la distribuzione di (Xi )ni=1 è la stessa di (Xσ(i) )ni=1
per ogni permutazione σ : {1, . . . , n} → {1, . . . , n}.
Ad esempio, una successione di variabili aleatorie indipendenti e identicamente distribuite è una successione scambiabile. Enunciamo ora uno
dei teoremi più importanti sulle variabili aleatorie scambiabili, che ci dice
che una successione infinita di variabili aleatorie scambiabili è sempre una
miscela di variabili aleatorie indipendenti e identicamente distribuite. Poiché
utilizzeremo il teorema unicamente nel caso di variabili indicatrici, enunciamo
e dimostriamo il teorema in questo caso particolare, sebbene la sua validità
sia più generale.
Teorema 4.5 (De Finetti). Sia (Xi )i≥1 una successione infinita di variabili
aleatorie scambiabili tali che Xi ∈ {0, 1} per ogni i ≥ 1. Allora, esiste una
variabile aleatoria U con P(U ∈ [0, 1]) = 1 tale che, per ogni 1 ≤ k ≤ n,
P(X1 = · · · = Xk = 1, Xk+1 = · · · = Xn = 0) = E[U k (1 − U )n−k ].
Il teorema di De Finetti afferma che una successione infinita di variabili
aleatorie scambiabili ha la stessa distribuzione di una successione di variabili
aleatorie indipendenti bernoulli, dove però la probabilità di successo è una
variabile aleatoria U . Pertanto, le variabili non sono necessariamente indipendenti, ma la loro dipendenza entra in gioco solo attraverso la probabilità
di successo U . Definiamo
n
X
Sn =
Xk
(4.4.1)
k=1
(Xi )ni=1 .
il numero di uno in
Allora, poiché per la scambiabilità
n
P(Sn = k) =
P(X1 = · · · = Xk = 1, Xk+1 = · · · = Xn = 0)
k
(4.4.2)
e, per le proprietà della media,
E[P(Bin(n, U ) = k)] = E[E[P(Bin(n, U ) = k)]|U ]
n
=
E[U k (1 − U )n−k ],
k
(4.4.3)
79
il teorema 4.5 è equivalente a
P(Sn = k) = E[P(Bin(n, U ) = k)].
(4.4.4)
Usando l’equazione 4.4.4 possiamo calcolare, partendo da (Xi )i≥1 , la distribuzione di U , in quanto
lim nP(Sn = dune) = f (u),
n→∞
(4.4.5)
dove f , per la 4.4.4, è proprio la densità della variabile aleatoria U . Inoltre,
per la legge forte dei grandi numeri applicata alla distribuzione condizionata
ad U ,
Sn
→U
(4.4.6)
n
quasi certamente. Procediamo ora alla dimostrazione del teorema 4.5.
Dimostrazione 4.5. La dimostrazione fa uso del teorema di Helly, che afferma che ogni successione limitata di variabili aleatorie ammette una
sottosuccessione che converge debolmente. Fissiamo m ≥ n, e scriviamo
P(X1 = · · · = Xk = 1, Xk+1 = · · · = Xn = 0)
m
X
=
P(X1 = · · · = Xk = 1, Xk+1 = · · · = Xn = 0|Sm = j)P(Sm = j).
j=k
(4.4.7)
Poiché (Xi )i≥1 è una successione scambiabile, ogni sequenza (Xi )m
contente
i=1
m
esattamente j uno è equiprobabile. Pertanto, poiché esistono j tali sequen
ze e, di queste, nk m−n
j−k hanno i k uno nelle prime k posizioni, otteniamo
che
P(X1 = · · · = Xk = 1, Xk+1 = · · · = Xn = 0|Sm = j)
n m−n
j · · · (j − k + 1) · (m − j) · · · (m − j − (n − k) + 1)
k
j−k
=
.
=
m
m · · · (m − n + 1)
j
(4.4.8)
Quando m → ∞, e per k ≤ n fissato,
j · · · (j − k + 1) · (m − j) · · · (m − j − (n − k) + 1)
m · · · (m − n + 1)
j
j
= ( )k (1 − )n−k + o(1),
m
m
(4.4.9)
pertanto, dalla 4.4.7,
P(X1 = · · · = Xk = 1, Xk+1 = · · · = Xn = 0)
m
X
j
j
=
(( )k (1 − )n−k + o(1))P(Sm = j).
m
m
j=k
80
(4.4.10)
Definiamo ora Ym = Smm . Mandando m → ∞ nella 4.4.10, otteniamo quindi
dai risultati sopra che
P(X1 = · · · = Xk = 1, Xk+1 = · · · = Xn = 0)
= lim E[Ymk (1 − Ym )n−k )].
m→∞
(4.4.11)
Notiamo che, nel passaggio sopra, stiamo utilizzando il fatto che (Xi )i≥1 sia
una successione scambiabile di variabili aleatorie infinita.
Andiamo ora a studiare la successione (Ym )m≥1 . Poiché 0 ≤ Sm ≤ m, 0 ≤
Ym ≤ 1, ossia (Ym )m≥1 è una successione limitata. Pertanto, per il teorema
di Helly, ammette una sottosuccessione che converge debolmente, Yml → U
per l → ∞ e per qualche variabile aleatoria U tale che P(U ∈ [0, 1]) = 1.
Inoltre, poiché 0 ≤ Ym ≤ 1, |Ymk (1 − Ym )n−k )| ≤ 1, ossia (Ymk (1 − Ym )n−k ))k,m
è uniformememente limitata in k e in m. Pertanto, per il teorema della
convergenza dominata di Lebesgue,
lim E[Ymk (1 − Ym )n−k ] = lim E[Ymk l (1 − Yml )n−k ] = E[U k (1 − U )n−k ],
n→∞
n→∞
(4.4.12)
che, in virtù di 4.4.11, completa la dimostrazione. Passiamo ora a trattare le urne di Polya, in cui useremo il teorema 4.5
per ottenere alcuni importanti risultati.
Un’urna di Polya è un processo stocastico che descrive l’evoluzione nel
tempo di un’urna con un certo numero di palline iniziali, di due diversi
colori, in cui ad ogni passo del processo estraiamo palline dall’urna e le
rimpiazziamo con altre. Descriviamo ora il processo nel dettaglio. Al tempo
n = 0, nell’urna sono presenti B0 = b0 palline blu e R0 = r0 palline rosse.
Date due funzioni peso Wb , Wr : N → (0, ∞), la possibilità di pescare una
pallina blu al tempo n + 1 condizionato al numero Bn di palline blu presenti
al tempo n è proporzionale al peso, ossia uguale a
Wb (Bn )
.
Wb (Bn ) + Wr (Rn )
(4.4.13)
Infine, dopo aver estratto una pallina, la reinseriamo insieme ad un’altra dello
stesso colore. Denotiamo un’urna di Polya come il processo ((Bn , Rn ))∞
n=1 .
Chiaramente, poiché ad ogni passo del processo aggiungiamo esattamente
una pallina, Bk + Rk = B0 + R0 + k.
Ci concentreremo ora su un particolare tipo di urne di polya, che ci
serviranno per lo studio del preferential attachment, in cui le funzioni peso
sono lineari e con la stessa pendenza. Ovvero, esistono ar , ab tali che
Wb (k) = ab + k,
Wr (k) = ar + k.
(4.4.14)
Il risultato principale riguardante questa classe di urne di polya è il
seguente.
81
Teorema 4.6. Sia ((Bn , Rn ))∞
n=1 un’urna di Polya con funzioni peso lineari
Wb e Wr definite in 4.4.14. Allora, per n → ∞,
Bn
→U
Bn + Rn
dove U è una variabile aleatoria con distribuzione Beta (2.2.6) di parametri
a = b0 + ab e b = r0 + ar . Inoltre,
P(Bn = B0 + k) = E[P(Bin(n, U ) = k)].
(4.4.15)
Dimostrazione 4.6. Sia Xn la variabile aleatoria indicatrice dell’evento che
l’n−esima pallina estratta sia blu. Possiamo quindi riscrivere
Bn = b0 +
n
X
Xj ,
Rn = r0 +
j=1
n
X
(1 − Xj ) = n + r0 − b0 − Bn . (4.4.16)
j=1
Affermiamo che la successione (Xn )n≥1 è una successione scambiabile. Infatti,
data una qualsiasi sequenza (xt )nt=1 ,
Wb (b1 )x1 Wr (r1 )1−x1
Wb (bn )xn Wr (rn )1−xn
···
Wb (b1 ) + Wr (r1 )
Wb (bn ) + Wr (rn )
n
1−x
x
Y Wb (bt ) t Wr (rt ) t
=
,
(4.4.17)
Wb (bt ) + Wr (rt )
P((Xt )nt=1 = (xt )nt=1 ) =
t=1
Pt
dove bt = b0 + j=1 xj è il numero di palline blu nell’urna al tempo t
n
seguendo la sequenza (x
Ptn)t=1 , e rt = R0 − B0 + t − bt è l’analogo numero di
palline rosse. Sia k = t=1 xt . Ricordiamo che i pesi Wb , Wr sono funzioni
lineari dell’argomento, della forma
Wb (k) = ab + k,
Wr (k) = ar + k.
(4.4.18)
(b0 + r0 + ab + ar + t),
(4.4.19)
Pertanto, dalla 4.4.16,
n
Y
(Wb (bt ) + Wr (rt )) =
t=1
n−1
Y
t=0
mentre
n
Y
t=1
Wb (bt )
xt
=
k−1
Y
(b0 + ab + m),
m=0
n
Y
t=1
1−xt
Wr (rt )
=
n−k−1
Y
(r0 + ar + j).
j=0
(4.4.20)
Partendo dalla 4.4.17 e usando le uguaglianze precedenti, arriviamo dunque
a
Qk−1
Qn−k−1
(r + j)
m=0 (b + m)
j=0
n
n
P((Xt )t=1 = (xt )t=1 ) =
,
(4.4.21)
Qn−1
t=0 (b + r + t)
82
dove b = b0 +ab e r = r0 +ar . In particolare, la 4.4.21 non dipende dall’ordine
in cui gli elementi di (xt )nt=1 appaiono, per cui la successione (Xt )t≥1 è una
successione infinita scambiabile. Pertanto, per il teorema di De Finetti 4.5
dimostrato prima, la successione (Xt )t≥1 è un misto di variabili aleatorie di
Bernoulli con probabilità di successo U aleatoria. Vogliamo ora calcolare la
distribuzione
di U , e per farlo useremo la 4.4.5. Fissato
Pn0 ≤ k ≤ n, ci sono
n
sequenze
contenente
k
uno
e
n
−
k
zeri.
Sia
S
=
n
i=1 Xi . Poiché ogni
k
sequenza con lo stesso numero di uno è equiprobabile in quanto la successione
è scambiabile,
Qn−k−1
Qk−1
(r + j)
n
m=0 (b + m)
j=0
P(Sn = k) =
Qn−1
k
t=0 (b + r + t)
=
=
Γ(n + 1)
Γ(k + b) Γ(n − k + r) Γ(b + r)
Γ(k + 1)Γ(n − k + 1) Γ(b)
Γ(r)
Γ(n + b + r)
Γ(b + r) Γ(k + b) Γ(n − k + r) Γ(n + 1)
.
Γ(r)Γ(b) Γ(k + 1) Γ(n − k + 1) Γ(n + b + r)
(4.4.22)
Pertanto, per k e n − k grandi, usando la proprietà 2.2.5
P(Sn = k) =
Γ(b + r) k b−1 (n − k)r−1
(1 + o(1)).
Γ(r)Γ(b)
nb+r−1
(4.4.23)
Prendendo ora k = dune come da 4.4.5,
lim nP(Sn = dune) =
n→∞
Γ(b + r) b−1
u (1 − u)r−1 ,
Γ(r)Γ(b)
(4.4.24)
che è la densità di una distribuzione Beta con parametri b ed r. Segue la
tesi da 4.4.6 e 4.4.4. Prima di utilizzare questo teorema per lo studio della connettività del
modello, presentiamo una sua diretta applicazione per lo studio degli alberi
scale-free. Consideriamo una leggera variazione del modello PAt (1, δ), in cui
non permettiamo la creazione di cappi durante l’evoluzion del processo, e
in cui i due vertici iniziali hanno grado d1 e d2 . Il processo inizia quindi al
tempo t = 2 con i vertici 1 e 2, connessi tra loro, con gradi rispettivamente d1
e d2 (ad esempio si può immaginare che, per i = 1, 2, il vertice i abbia di − 1
cappi iniziali ed ognuno di questi sia contato 1 per il grado del vertice). Per
passare poi dal tempo t al tempo t + 1, aggiungiamo un singolo vertice t + 1
che connettiamo ad un vertice già esistente con probabilità proporzionale al
grado del vertice. In formule, per t ≥ 2,
(
Di (t)+δ
per i ∈ {1, . . . , t}
(1)
(1)
t(2+δ)
P(vt+1 → vi |PAt (1, δ)) =
0 per i = t + 1,
83
con D1 (2) = d1 e D2 (2) = d2 .
Scomponiamo l’albero creato da questo processo in due sottoalberi disgiunti: per i = 1, 2, sia Ti (t) il sottoalbero dei vertici che distano da i meno
che da 3 − i. Pertanto, fissato ad esempio il vertice 1 come radice dell’albero,
T2 (t) sarà il sottoalbero dei vertici il cui cammino da essi alla radice 1 passa
per il vertice 2, e T1 (t) sarà il resto dell’albero. Sia Si (t) = |Ti (t)| il numero
di vertici in Ti (t). Chiaramente, S1 (t) + S2 (t) = t, numero totale di vertici
al tempo t, in quanto {T1 (t), T2 (t)} è una partizione del grafo. Si ha allora il
seguente teorema.
Teorema 4.7. Siano S1 (t) e S2 (t) definiti come sopra. Allora, per t → ∞,
S1 (t)
q.c.
→ U,
S1 (t) + S2 (t)
dove U ha distribuzione Beta di parametri a =
(4.4.25)
d1 +δ
2+δ
eb=
d2 +δ
2+δ ,
P(S1 (t) = k) = E[P(Bin(t − 1, U ) = k − 1)].
e
(4.4.26)
Il teorema 4.7 afferma che possiamo scomporre un albero scale-free in due
sottoalberi scale-free, disgiunti, ognuno dei quali contiene una proporzione
positiva di vertici che converge quasi certamente ad una variabile Beta di
1 +δ
2 +δ
e b = d2+δ
.
parametri a = d2+δ
Dimostrazione 4.7. L’evoluzione di (S1 (t))t≥2 può essere vista come un
processo di urne di Polya con funzioni peso lineari. Infatti, quando S1 (t) =
s1 (t), la probabilità di unire il (t + 1)−esimo vertice a T1 (t) è uguale a
(2s1 (t) + d1 − 2) + δs1 (t)
,
(4.4.27)
(2s1 (t) + d1 − 2) + δs1 (t) + (2s2 (t) + d2 − 2) + δs2 (t)
P
in quanto k∈Ti (t) (Dk (t) + δ) = (2si (t) + di − 2) + δsi (t). Possiamo riscrivere
la 4.4.27 come
1 −2
s1 (t) + d2+δ
,
(4.4.28)
2 −4
s1 (t) + s2 (t) + d1 +d
2+δ
che è uguale alla 4.4.13 con funzioni peso lineari della forma 4.4.14, dove
1 −2
2 −2
r0 = b0 = 1 e ab = d2+δ
, ar = d2+δ
. Pertanto, segue la tesi dal teorema 4.6
sulle urne di Polya. 4.5
Connettività
In questa sezione andremo, come detto, a studiare la connessione del modello
PAt (m, δ). Studieremo separatamente i casi m = 1 e m ≥ 2, per cui avremo
due risultati ben diversi.
Iniziamo dal caso m = 1. In questo caso, il numero Nt di componenti
connesse di PAt (1, δ) al tempo t è dato da
Nt = I1 + I2 + · · · + It ,
84
(4.5.1)
dove Ii è la variabile aleatoria indicatrice dell’evento che l’i−esimo vertice si
connetta a sé stesso. Pertanto, (Ii )i≥1 è una successione di variabili aleatorie
indipendenti, con
P(Ii = 1) =
1+δ
(2 + δ)(i − 1) + 1 + δ
(4.5.2)
Pertanto,
P(PAt (1, δ) connesso) = P(Nt = 1) =
t
Y
P(Ii = 0)
i=2
=
t−1
Y
i=1
1+δ
→0
(2 + δ)i + 1 + δ
(4.5.3)
per t → ∞. Pertanto, PAt (1, δ) è asintoticamente disconnesso con probabilità
1. Inoltre, si ha che
E[Mn ] =
t
X
i=1
1+δ
1+δ
∼
log(t)
(2 + δ)(i − 1) + 1 + δ
2+δ
(4.5.4)
e
t
X
V[Mn ] =
(1 −
i=1
∼
1+δ
1+δ
)
(2 + δ)(i − 1) + 1 + δ (2 + δ)(i − 1) + 1 + δ
1+δ
log(t).
2+δ
(4.5.5)
Passiamo ora al caso m ≥ 2, in cui la situazione è diametralmente opposta.
Si ha infatti il seguente teorema.
Teorema 4.8 (Connettività per m ≥ 2). Sia m ≥ 2. Allora, PAt (m, δ) è
quasi certamente connesso.
Dimostrazione 4.8. Sia Nt , come in precedenza, il numero di componenti
connesse di PAt (m, δ), e sia It = Nt − Nt−1 . Notiamo che It ≤ 1, e It = 1
esattamente quando tutti gli m lati del neo-vertice t sono tutti attaccati al
vertice t stesso. Pertanto,
P(It = 1) =
m
Y
e=1
Per m ≥ 2,
∞
X
2e − 1 + δ
.
(2m + δ)t + (2e − 1 + δ)
P(It = 1) < ∞,
t=2
85
(4.5.6)
(4.5.7)
quindi, da Borel-Cantelli, l’evento {It = 1} avviene quasi certamente
solo
P
un numero finito di volte. Come conseguenza, limt→∞ Nt ≤ 1 + ∞
P(I
t =
t=2
1) < ∞ quasi certamente, ossia il numero di componente connesse del grafo
è finito, ed inoltre esiste un K > 0 tale che P(It = 1) = 0 per ogni t > K.
PAt (m, δ) ha, comunque, una probabilità positiva di essere disconnesso a
un certo tempo t ≥ 2. Fortunatamente, però, It può essere anche negativo,
in quanto i lati connessi al vertice t possono essere connessi a due o più
componenti connesse distinte di PAt−1 (m, δ). Vogliamo mostrare che, per t
sufficientemente grande, tutti i vertici in {1, . . . , K} sono connessi tra loro,
da cui seguirà la tesi.
Dividiamo la dimostrazione in due passi. Per prima cosa, fissiamo 1 ≤
i ≤ K e mostriamo che, per t → ∞, il numero di vertici nella componente
connessa contenente i è grande. Mostriamo poi come questo implica che,
per t sufficientemente grande, tutti i vertici in {1, . . . , k} sono nella stessa
componente connessa.
1. Bound inferiore sul numero di vertici connessi a i. Fissiamo
1 ≤ i ≤ K. Per provare un bound inferiore sulla cardinalità della
componente connessa contenente i, limitiamo questo numero con uno
schema di urne di Polya. Sia b0 = 1 e r0 = i. Definiamo ricorsivamente
il processo di urne di Polya ((Bn , Rn ))n≥1 come segue. Peschiamo
una palla dall’urna, che contiene palline rosse e blu, dove il colore
della pallina è blu con probabilità proporzionale al numero di palline
blu nell’urna. Se peschiamo una pallina blu la rimettiamo dentro
insieme ad un’altra pallina blu, se peschiamo una pallina rossa la
rimettiamo dentro insieme ad un’altra pallina rossa. Affermiamo che
il numero Ci (t) di vertici nella componente connessa contenente i è
limitato inferiormente da Bt−i . Procediamo per induzione su t ≥ i.
Al tempo t = i, il numero di vertici connessi al vertice i è almeno
uno (i stesso), che prova la base dell’induzione in quanto B0 = b0 = 1.
Supponiamo ora che Ci (t) ≥ Bt−i e mostriamo che Ci (t + 1) ≥ Bt+1−i .
Quando Ci (t) ≥ Bt−i , il peso totale dei vertici connessi al vertice
i è almeno Bt−i (2m + δ), mentre il peso totale di tutti i vertici è
uguale a t(2m + δ) + (1 + δ) ≤ (t + 1)(2m + δ)(Bt−i + Rt−i ), in quanto
Bt−i + Rt−i = (t − i) + b0 + r0 = ti + i + 1 = t + 1. Ora, supponiamo di
pescare una pallina rossa al tempo t + 1 quando il primo lato del vertice
t + 1 è attaccato ad un vertice della componente connessa contenente
i. Se questo succede, allora effettivamente il vertice t + 1 sarà nella
componente connessa contenente i e quindi Ci (t) sarà incrementato
di, almeno, uno. Quindi Ci (t + 1) ≥ Bt+1−i , da cui segue l’ipotesi
induttiva e quindi l’induzione.
q.c.
Pertanto, per il teorema 4.6 sulle urne di Polya, Btt → U , dove U ha
distribuzione Beta di parametri a = 1 e b = i. Siccome, come dimostrato prima, Ci (t) ≥ Bt−i , e P(U = 0) = 0, per ogni t sufficientemente
86
grande Ci (t) ≥ ε(t − i), con ε > 0 sufficientemente piccolo ma fissato.
Pertanto, per t → ∞,
P(lim inf
t→∞
Ci (t)
≥ ε ∀i ∈ {1, . . . , K}) = 1 − o(1).
t
(4.5.8)
Questo completa il primo passo della dimostrazione, mostrando che la
proporzione dei vertici nella componente connessa contenente i è, con
probabilità 1, almeno ε > 0 per ogni i ∈ {1, . . . , K}.
2. Connessione asintotica di {1 . . . K}. Procediamo ora a dimostrare
la tesi, ossia che tutti i vertici in {1, . . . , K} sono connessi tra loro, usando il primo passo dimostrato sopra. Siano pertanto i, j ∈ {1, . . . , K}.
Per quanto dimostrato prima, per t sufficientemente grande, Cit(t) ≥ ε
C (t)
e jt ≥ ε. Mostriamo che questo implichi come, per t → ∞, i sia
connesso a j con probabilità 1 in PA2t (m, δ). Sia j ∈ {t + 1, . . . , 2t}. Se
succede che il primo lato del vertice l viene attaccato alla componente
contenente i e il secondo viene attaccato alla componente contenente j,
i e j saranno ovviamente connessi l’uno all’altro in PA2t (m, δ). Pertanto, la probabilità che il vertice l connetta le due componenti connesse
di i e j è stimata dal basso da
Cj (t)(2m + δ)
Ci Cj
Ci (t)(2m + δ)
≥
.
l(2m + δ) + (1 + δ) l(2m + δ) + (1 + δ)
(2t + 1)2
(4.5.9)
C (t)
Poiché per t sufficientemente grande Cit(t) ≥ ε e jt ≥ ε, questa
ε2
probabilità è almeno 16
, indipendente da i, j, m e t. Pertanto, la
probabilità che i vertici i e j, se disconessi al tempo t, siano ancora
disconnessi al tempo 2t è al più
(1 −
ε2 t
ε2 t
) ≤ e− 16
16
(4.5.10)
che tende a 0 per t → ∞. Pertanto, per t → ∞, PA2t (m, δ) è connesso
con probabilità 1, cioè la tesi. 4.6
Altri modelli Preferential Attachment
Come detto a inizio capitolo il modello studiato in questo capitolo è un
modello di preferential attachment lineare, generalizzazione dell’importante
modello di Barabási-Albert, che riveste una grande importanza nello studio
dei network come spiegazione del comportamento scale-free di molti network
reali. In questa sezione introduciamo al lettore altri modelli di Prefential
Attachment studiati in letteratura, variazioni o generalizzazioni del modello
studiato nel capitolo, di cui sono riportati in bibliografia gli articoli in cui
vengono trattati.
87
Preferential Attachment orientato.
Diversi network reali sono orientati, ossia i collegamenti tra i vertici sono
caratterizzati da una direzione di collegamento. Per modellizzare questa
situazione è stato studiato in [7] un modello preferential attachment orientato,
che ora descriviamo. Sia G0 un grafo iniziale fissato con t0 lati, e fissiamo
dei parametri non-negativi α, β, γ, δin e δout , tali che α + β + γ = 1. Inoltre,
diciamo che scegliamo un vertice secondo fi (t) se scegliamo il vertice i con
probabilità
f (t)
Pi
.
(4.6.1)
j fj (t)
Ossia, la probabilità di scegliere il vertice i è proporzionale al valore della
funzione fi (t). Inoltre, definiamo il grado entrante di i in G(t), ossia il
numero di lati che hanno come termine i, come Din,i (t), e analogamente il
grado uscente di i in G(t) come Dout,i (t).
Sia G(to ) = G0 il nostro grafo iniziale. Per t ≥ t0 , le regole per passare
da G(t) a G(t + 1) sono le seguenti:
• Con probabilità α, aggiungiamo un nuovo vertice v insieme ad un lato,
che ha per vertice iniziale v e vertice finale scelto secondo Din,i (t) + δin .
• Con probabilità β, aggiungiamo un lato tra due vertici esistenti v e w,
dove v e w sono scelti indipendentemente, v secondo Din,i (t) + δin e w
secondo Dout,i (t) + δout .
• Con probabilità γ, aggiungiamo un nuovo vertice w e un lato con vertice
finale w e vertice iniziale scelto secondo Dout,i (t) + δout .
Il processo {G(t)}t≥t0 descritto sopra genera, al tempo t, un grafo aleatorio
con esattamente t lati. Il numero di vertici è invece, banalmente, distribuito
come una Bin(t, α + γ).
Non è difficile vedere che, se αδin + γ = 0, tutti i vertici esterni a G0
hanno grado entrante 0, mentre, se γ = 1, tutti i vertici esterni a G0 hanno
grado entrante 1. Una situazione simile si verifica, simmetricamente, per
γδout + α = 0 e α = 1. Se escludiamo questi casi limite, si può mostrare che
la successione dei gradi entranti e quella dei gradi uscenti convergono a delle
distribuzioni che seguono leggi di potenza, come spiegheremo ora. Siano
rispettivamente {Xi (t)}i≥1 e {Yi (t)}i≥1 le successioni dei gradi entranti e
uscenti di G(t), ossia
X
Xk (t) =
1D (t)=k
(4.6.2)
in,i
v∈G(t)
e
Yk (t) =
X
v∈G(t)
1D
,
out,i (t)=k
88
(4.6.3)
Denotiamo ora
τin = 1 +
1 + δin (α + β)
,
α+β
τout = 1 +
1 + δout (γ + β)
.
γ+β
(4.6.4)
∞
Allora, esistono delle distribuzioni di probabilità p = {pk }∞
k=0 e q = {qk }k=0
tali che con probabilità asintotica 1,
Xk (t) − pk t = o(t),
Yk (t) − qk t = o(t)
(4.6.5)
qk = Cout k −τout (1 + o(1)).
(4.6.6)
tali che, per k → ∞,
pk = Cin k −τin (1 + o(1)),
Ovvero, le distribuzioni pk e qk possono essere determinate esplicitamente
per k → ∞, e sono leggi di potenza simili a quelle riscontrate nel preferential
attachment studiato in questo capitolo.
Preferential Attachment generalizzato.
Una versione ancora più generale del modello preferential attachment lineare,
studiata in [12], è la seguente. Al tempo t = 0, iniziamo il processo con un
singolo vertice iniziale v0 . Per andare da G(t) a G(t + 1), aggiungiamo un
nuovo vertice oppure un certo numero di lati tra vertici esistenti. Il primo
caso è chiamato NEW, il secondo OLD. Applichiamo NEW con probabilità
α, e OLD con probabilità 1 − α.
Nella procedura NEW, aggiungiamo un singolo vertice, e sia f = {fi }∞
i=1
tale che fi sia la probabilità che il nuovo vertice generi i lati. Con probabilità
β, i secondi estremi di questi lati sono scelti uniformemente tra i vertici
esistenti, mentre, con probabilità 1 − β, i secondi estremi vengono scelti con
probabilità proporzionali al grado.
Nella procedura OLD, scegliamo un singolo vertice già esistente. Con
probabilità δ, questo vertice è scelto uniformemente, mentre, con probabilità
1 − δ, è scelto con probabilità proporzionale al grado. Sia g = {gi }∞
i=1 tale
che gi sia la probabilità che il nuovo vertice generi i lati. Con probabilità γ, i
secondi estremi di questi lati sono scelti uniformemente tra i vertici esistenti,
mentre, con probabilità 1 − γ, i secondi estremi vengono scelti con probabilità
proporzionali al grado.
Il risultato principale dimostrato per questo modello è che la distribuzione
empirica sei gradi converge a una distribuzione di probabilità che segue una
legge potenza con esponente τ che dipende dai parametri del modello. Più
1
precisamente, è provato un risultato analogo al teorema 4.2 per k ≤ t 21 .
Preferential Attachment non-lineare.
In letteratura sono stati studiati anche modelli preferential attachment in cui
la probabilità che un lato venga connesso ad un vertice di grado k dipenda
89
in maniera non-lineare da k. Uno dei modelli più interessanti è presentato
e analizzato in [20] e [21], dove viene studiato il caso in cui le probabilità
di connessione sono scelte in modo proporzionale a k γ per qualche γ ∈ R.
È stato provato che, per γ < 1, la successione dei gradi segue una legge di
potenza con cut-off esponenziale. Il numero di vertici di grado k al tempo t
è dato approssimativamente da tαk , dove
αk =
k
µ Y 1
,
kγ
1 + jµγ
(4.6.7)
j=1
P
dove µ soddisfa l’equazione implicita k αk = 1. Quando γ > 1, c’è un
singolo vertice che è connesso a quasi tutti gli altri vertici. Più precisamente,
1
1
quando γ ∈ (1 + m+1
), è stato provato che esistono solo un numero
, (1 + m
finito di vertici con grado maggiore di m + 1, mentre ci sono, asintoticamente,
infiniti vertici di grado almeno m.
90
Riferimenti bibliografici
[1] R. Albert, H. Jeong, e A. Barabási, Diameter of the world-wide web,
Nature 401, 130-131, 1999
[2] A. Barabási, R. Albert e H. Jeong, Mean-field theory for scale-free
random networks, Physica A 272, 173–187, 1999
[3] A. Barabási e R. Albert, Emergence of scaling in random networks,
Science 286, 509–512, 1999
[4] M. Baudoin, Impara LATEX! (...e mettilo da parte), 1998
[5] B. Bollobás, Random Graphs, Cambridge Studies in Advanced
Mathematics, Cambridge University Press, Cambridge, 2nd ed., 2001
[6] B. Bollobás, O. Riordan, J. Spencer, and G. Tusnády, The degree
sequence of a scale-free random graph process, Random Structures
Algorithms, 18(3): 279-290, 2001
[7] B. Bollobás, C. Borgs, J. Chayes, and O. Riordan, Directed scalefree graphs, In Proceedings of the Fourteenth Annual ACM-SIAM
Symposium on Discrete Algorithms (Baltimore, MD, 2003), 132-139,
New York, 2003
[8] A. Broder, R. Kumar, F. Maghoul, P. Raghavan, S. Rajagopalan, R.
Stata, A. Tomkins, e J. Wiener, Graph structure in the web, Computer
Networks, 33:309-320, 2000
[9] P.G. Buckley and D. Osthus, Popularity based random graph models
leading to a scale-free degree sequence., Discrete Math, 282(1-3):53-68,
2004
[10] H. Chernoff, A measure of asyntotic efficiency for tests of a hypothesis
based on the sum of observations, Ann. Math. Statistics, 23:493-507,
1952
[11] F. Chung and L. Lu, Complex graphs and networks, volume 107 of
CBMS Regional Conference Series in Mathematics, Published for the
Conference Board of the Mathematical Sciences, Washington, DC, 2006
[12] C. Cooper and A. Frieze, A general model of web graphs, Random
Structures Algorithms, 22(3):311-335, 2003
[13] R. Diestel, Graph Theory, Graduate Texts in Mathematics, Springer,
3rd ed., 2005
91
[14] R. Durrett, Random Graph Dynamics, Cambridge Series in Statistical and Probabilistic Mathematics, Cambridge University Press,
Cambridge, 2007
[15] P. Erdos, Some remarks on the theory of graphs, Bull. Amer. Math.
Soc., 53:292-294, 1947
[16] P. Erdős and A. Rényi, On Random Graphs I, Publ. Math. Debrecen,
6:290-297, 1959
[17] E. N. Gilbert, Random Graphs, Ann. Math. Statist., 30:1141-1144,
1959
[18] L. Giot et al., A protein interaction map of Drosophila melanogaster,
Science 302:1727-1736, 2004
[19] S. Janson, T. Luczak and A. Ručinský, Random Graphs, WileyInterscience Series in Discrete Mathematics and Optimization, 3rd
ed., 2000
[20] P. L. Krapivsky and S. Redner, Organization of growing random
networks., Phys. Rev. E, 63:066123, 2001
[21] P. L. Krapivsky, S. Redner and F. Leyvraz, Connectivity of growing
random networks., Phys. Rev. Lett., 85:4629, 2000
[22] R. Kumar, P. Raghavan, S Rajagopalan, e A. Tomkins, Trawling the
web for emerging cyber communities, Computer Networks, 31:1481-1493,
1999
[23] L. Lamport, LATEX: a document preparation system, Addison-Wesley,
Reading, Massachusetts, 2nd ed., 1994
[24] B. Lewin, Sex in Sweden. On the sexual life in Sweden, Stockholm:
National Institute of Public Health, 2000
[25] S. Li et al., A map of the interactome network of the metazoan C.
elegans, Science, 303(5657):540-543, 2004
[26] F. Liljeros, The web of human sexual contacts, Nature, 411:907-908,
2001
[27] T. F. Móri, On random trees, Studia Sci. Math. Hungar., 39(1-2):143155, 2002
[28] T. F. Móri, The maximum degree of the Barabási-Albert random tree,
Combin. Probab. Comput., 14(3):339-348, 2005
[29] M. E. J. Newman, Random Graphs as model of networks, SFI Working
Paper, 2002
92
[30] T. Oetiker, The Not So Short Introduction To LATEX, Version 5.01,
2011
[31] R. Oliveira and J. Spencer, Connectivity transitions in networks with
super-linear preferential attachment., Internet Math., 2(2):121-163,
2005
[32] H. Reittu and I. Norros, On the power law random graph model of
massive data networks, Performance Evaluation, 55(1-2):3-23, 2004
[33] S. M. Ross, Stochastic processes, Wiley Series in Probability and
Statistics, John Wiley and Sons Inc., New York, second edition, 1996
[34] R. Van der Hofstad, Random Graphs and Complex Networks, Lecture
notes in preparation, 2013
[35] A.J.M. Walhout, R. Sordella, X.W. Lu, J.L. Hartley, G.F. Temple,
M.A. Brasch, N. Thierry-Mieg, e M. Vidal, Protein interaction mapping
in C. elegans using proteins involved in vulval development, Science,
287(5450):116-122, 2000
[36] D. Williams, Probability with martingales, Cambridge Mathematical
Textbooks, Cambridge University Press, Cambridge, 1991
[37] D. D. Wu, Mining and Analyzing the Topological Structure of Protein–Protein Interaction Networks, Drexel E-Repository and Archive
(iDEA), 2006
93
Ringraziamenti
Primi e più importanti, ringrazio i miei genitori. E quel rompiscatole di mio
fratello. Molte persone dotate che conosco non riescono a esprimere il
meglio di sé a causa dei continui problemi e pressioni della famiglia, e sotto
questo punto di vista devo dire di essere stato molto fortunato, avendo una
delle migliori famiglie che si possa desiderare. Serena, comprensiva e
fiduciosa, che ha appoggiato persino scelte folli come quella di iscriversi a
matematica. Grazie.
La famiglia è la patria del cuore.
Giuseppe Mazzini
Per raggiungere grandi risultati, sono spesso necessari grandi maestri. Un
grazie sentito a tutti i professori che ho avuto nel corso di questi 5 anni,
iniziando dal mio relatore, Pietro Caputo, continuando con i professori con
cui ho seguito numerosi corsi, Edoardo Sernesi e Francesco Pappalardi, e
concludendo con tutti gli altri professori che, ognuno nel loro ambito, mi
hanno davvero arricchito notevolmente.
Un maestro dovrebbe sempre essere all’altezza degli ideali del
proprio allievo.
Masashi Kishimoto
Dietro un grande uomo, c’è sempre una grande donna... E a volte non solo
una. Sono state diverse le ragazze che mi hanno fatto crescere e maturare
negli anni, e, anche se con alcune ho perso i contatti da tempo, ci terrei a
ringraziarle comunque qui. In particolare vorrei ringraziare chi mi è stata
vicina più di una volta, chi mi è stata vicina per anni, chi mi è stata vicina
pur essendo lontana, chi mi è stata vicina condividendo la mia passione
matematica... E, ovviamente, chi mi è vicina adesso.
È soltanto nelle misteriose equazioni dell’amore che si può
trovare ogni ragione logica.
John Nash
Un ringraziamento particolare va anche alle persone che, a differenza di
quelle citate prima, invece che velocizzare la mia laurea l’hanno rallentata.
Ovvero i miei amici. Senza di loro, probabilmente mi sarei laureato in un
94
anno... Ma in maniera decisamente più noiosa! Un grazie a BBirra,
Psicopatici, Civettini, Puffetta, Minou, amici dell’università, amici della
palestra, amici del mare, e aggiungo anche amici vari cosı̀ sono sicuro di non
aver dimenticato nessuno!
Si decide in fretta di essere amici, ma l’amicizia è un frutto
che matura lentamente.
Aristotele
Da sempre sono convinto che insegnare sia la base per imparare, e questi 5
anni dando ripetizioni private + 3 anni da tutore hanno rafforzato
decisamente questo mio pensiero. Se sono ora cosı̀ padrone di molte cose, lo
devo in parte a tutti i dubbi postimi dalle persone a cui ho dato lezioni.
Pertanto, un ringraziamento particolare va alle persone che ho tutorato in
questi ultimi anni, e in generale a tutti i liceali/universitari a cui ho dato
ripetizioni private.
Non hai veramente capito qualcosa fino a quando non sei in
grado di spiegarlo a tua nonna.
Albert Einstein
Un ultimo grazie va al progetto Erasmus e a tutte le persone straordinarie
conosciute a Madrid, che mi hanno permesso di espandere enormemente i
miei orizzonti umani e culturali. L’esperienza erasmus, a livello culturale e a
livello personale, rimane al momento un’esperienza dal valore unico.
Il mondo è un libro, e chi non viaggia ne conosce solo una
pagina.
Sant’Agostino
95