Sulla Disuguaglianza di Talagrand

Transcript

Università di Pisa
Facoltà di Scienze Matematiche Fisiche e Naturali
Corso di Laurea in Matematica
Anno Accademico 2007/2008
Un approccio di tipo mass-transportation ad
alcune disuguaglianze funzionali
Candidato
Alessandro Carlotto
Relatore
Chiarissimo Prof.
Luigi Ambrosio
Controrelatore
Chiarissimo Prof.
Franco Flandoli
Ai miei nonni, maestri di tante virtù
ii
Indice
Introduzione
v
Notazioni
ix
1 Lineamenti di Teoria del
Trasporto di Massa
1.1 Push-forward di misure e cambi di variabile
1.2 Il problema di Monge-Kantorovich . . . . .
1.3 Il teorema di esistenza . . . . . . . . . . . .
1.4 Il teorema di Kantorovich-Rubinstein . . . .
1.5 Il caso quadratico . . . . . . . . . . . . . . .
1.5.1 Formulazione duale . . . . . . . . . .
1.5.2 Il teorema fondamentale . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
. 1
. 2
. 6
. 9
. 11
. 11
. 14
2 Aspetti metrici: le distanze di Wasserstein
20
2.1 Le distanze di Wasserstein . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Ordinamenti tra misure di Wasserstein . . . . . . . . . . . . . . . . . . . 23
2.3 Caratterizzazioni equivalenti della convergenza in metrica Wasserstein . 23
3 Equazione di Monge-Ampère
3.1 Presentazione . . . . . . . . . . . . .
3.2 Un approccio tramite linearizzazione
3.3 Varie nozioni di soluzione debole . .
3.4 Regolarità . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
29
29
30
31
32
4 Geodetiche e convessità
4.1 Geodetiche in spazi metrici ed interpolazione à la McCann
4.2 Displacement convexity . . . . . . . . . . . . . . . . . . .
4.2.1 Denizioni . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 Esempi . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 Dimostrazioni . . . . . . . . . . . . . . . . . . . . .
4.2.4 Formulazione above tangent . . . . . . . . . . . . .
4.3 Una prima applicazione: unicità dello stato fondamentale
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
38
38
41
41
42
45
48
50
5 Alcune disuguaglianze funzionali
5.1 Brunn-Minkowski ed isoperimetria . . . . . . . . . . . . . . . . . . . . .
5.2 Prékopa-Leindler ed Henstock-McBeath . . . . . . . . . . . . . . . . . .
5.3 Brascamp-Lieb e Barthe . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
52
53
55
iii
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Indice
iv
5.4 Sobolev ottimale . . . . . . . . . . . . . . . . . . . . . . . . .
5.5 Talagrand e concentrazione . . . . . . . . . . . . . . . . . . .
5.5.1 La disuguaglianza di Talagrand . . . . . . . . . . . . .
5.5.2 Entropia relativa . . . . . . . . . . . . . . . . . . . . .
5.5.3 Una prima disuguaglianza di concentrazione . . . . . .
5.5.4 Fenomeni di concentrazione di misure . . . . . . . . .
5.5.5 Una dimostrazione di tipo mass-transportation della
glianza di Talagrand . . . . . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
disugua. . . . . .
60
63
64
67
69
71
77
A Alcuni risultati di Analisi
Convessa
A.1 Proprietà di base e sottodierenziabilità
A.2 Funzioni coniugate e dualità . . . . . . .
A.3 Dierenziabilità seconda . . . . . . . . .
A.4 Uniforme convessità . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
79
79
81
82
83
Introduzione
La storia della Teoria del Trasporto Ottimo di Massa, che si suole convenzionalmente far incominciare con il famoso articolo Mémoire sur la théorie des déblais et des
remblais pubblicato da Gaspard Monge nel 1781, è ormai vecchia di più di duecento
anni. Eppure, per lungo corso di tempo essa è stata straordinariamente priva di eventi
matematicamente signicativi ed i problemi dai quali essa prende le mosse sono rimasti
in larga parte insoluti n quasi al termine del secolo appena trascorso.
E' ancora un celebre articolo, questa volta Décomposition polaire et réarrangement
de champs de vecteurs di Yann Brenier a dare, nel 1987, una svolta inattesa a questo
settore della matematica. Questo lavoro stabiliva delle impreviste relazioni tra lo studio
della uidodinamica (cui Brenier si stava principalmente dedicando), delle equazioni
dierenziali alle derivate parziali, della probabilità e dell'analisi funzionale con alcune
questioni di trasporto ottimo quale comune denominatore. Ma non era che un preludio:
il successivo ventennio si sarebbe rivelato assai ricco di sorprese.
Alla ne degli anni Ottanta, tre distinte direzioni di ricerca emersero indipendentemente e quasi simultaneamente, nendo per dar nuova forma alla Teoria del Trasporto
Ottimo. La prima di esse riguardava appunto lo studio matematico della uidodinamica, la seconda - legata principalmente al nome di John Mather - l'indagine dei sistemi
dinamici lagrangiani, la terza, assai sorprendentemente, la metereologia. Mike Cullen
era all'epoca a capo di un gruppo di metereologi con un forte background matematico
dedito allo studio delle cosidette equazioni semi-geostroche, utilizzate nella modellizzazione dei fronti atmosferici. Cullen ed i suoi collaboratori mostrarono che un utile
cambio di variabili in quel contesto poteva a posteriori essere interpretato in termini
di un problema di accoppiamento ottimale, nozione che nasce proprio dalla positura
proposta da Kantorovich intorno al 1940 del problema del trasporto ottimo di massa.
Queste nuove direzioni di ricerca attrassero vari matematici (tra i primi citiamo solo
Luis Caarelli, Craig Evans, Wilfrid Gangbo, Robert McCann e Luigi Ambrosio), che
lavorarono ad una miglior descrizione dei problemi del trasporto ottimo e trovarono
soprattutto nuove applicazioni.
Un importante passo concettuale si deve a Felix Otto, il cui formalismo dierenziale
ha aperto la strada ad un'indagine geometricamente più ricca degli spazi di misure di
probabilità, connettendo così la teoria del trasporto ottimo alla teoria delle equazioni
che modellano i fenomeni diusivi.
Proprio questa traccia d'indagine ha fornito, negli anni più recenti, molti dei più signicativi esempi di approccio di tipo mass-transportation alle disuguaglianze funzionali.
v
Introduzione
vi
Questa tesi ha come obiettivo la descrizione di alcuni di tali esempi e l'applicazione
delle stesse tecniche alla dimostrazione di una disuguaglianza, proposta da Talagrand
([28]) nel 1996 e poi ampiamente considerata in letteratura (valga su tutti il celebre
articolo [23]). Veniamo ora alla descrizione del contenuto dei vari capitoli.
Il Capitolo 1 propone una visione panoramica di alcuni risultati classici della Teoria del
Trasporto Ottimo di Massa, prendendo il via dalla denizione di push-forward e dal
problema di Monge. Segue una presentazione del contributo di Kantorovich, cui si deve
la generalizzazione della nozione di mappa di trasporto nei termini dei cosidetti piani
di trasporto e, di conseguenza, la costruzione di una teoria molto più ricca e ramicata
(anche in senso probabilistico), sin già dal teorema di esistenza proposto nella Sezione
1.3. Altri teoremi classici sono quelli di dualità di Kantorovich-Rubinstein, che - come
accade spesso nel Calcolo delle Variazioni - traducono un problema di minimo in un
problema di massimo, rendendo possibile un approccio alternativo e sorprendentemente
semplicato. L'ultima sezione del capitolo contiene alcuni risultati più recenti e spesso
assai signicativi da un punto di vista geometrico: l'ottimalità di un piano nel problema
del trasporto è posta in relazione alla concentrazione della massa entro il graco del
sottodierenziale di una funzione convessa e poi alla nozione di ciclica monotonia,
ispirata dal caso discreto. Si fa qui abbondante riferimento a denizioni e strumenti
dell'Analisi Complessa, che è parso utile riunire nell'Appendice A.
Nel Capitolo 2 si guardano i problemi del trasporto ottimo di massa da un diverso
punto di vista: gli spazi di misure di probabilità sono metrizzati in relazione al costo
ottimale di trasporto. Nascono così le distanze di Wasserstein, delle quali sono elencate
le principali proprietà (di ordinamento, di semicontinuità...) a cominciare dal sorprendente legame con la convergenza debole di misure. In questo contesto, al ne di dar
dimostrazione della proprietà triangolare delle distanze di Wasserstein, è introdotta la
nozione di disintegrazione di misure.
Viene poi un capitolo, il terzo, dal carattere un po' diverso dai precedenti. Senza
alcuna pretesa di completezza, è ivi presentata l'equazione di Monge-Ampère che nasce
in modo naturale dalla condizione di push-forward in presenza di misure descritte da
densità e che tuttavia ricorre spesso in vari settori della matematica (ad esempio in
geometria riemanniana). Dopo aver descritto le varie nozioni assai deboli di soluzione
che si possono dare, è provato nella Sezione 3.4 il ben noto teorema di McCann (3.4.3).
Il frequente ricorso a questo risultato nel Capitolo 5 è da considerare come principale
giusticazione di questa breve trattazione.
Il Capitolo 4, che per certi versi può essere inteso come continuazione del 2, è di fondamentale importanza nell'economia di questa tesi. In esso sono sviluppati molti degli
strumenti teorici sui quali fanno leva le applicazioni proposte successivamente. Nella Sezione 4.1, dopo aver dato la denizione generale di geodetica a velocità costante
in spazi metrici, si approfondisce il caso specico degli spazi di misure di probabilità
muniti di distanza di Wasserstein. Si scopre qui che opportune proiezioni dei piani
ottimali secondo Kantorovich forniscono una maniera semplice per costruire geodetiche aventi per estremi due assegnate misure di probabilità. Anzi, si può dire assai
Introduzione
vii
sorprendentemente che le geodetiche sono tutte di questo tipo: a dircelo è il Teorema
4.1.5 che poggia sull'utile lemma di regolarità interna (4.1.4). La sezione si conclude
con lo studio della cosidetta interpolazione à la McCann, un caso particolare di questa costruzione nel quale varie proprietà si rivelano in modo particolarmente evidente.
Tuttavia, noi non saremo tanto interessati alla struttura geometrica degli spazi di misure di probabilità (si potrebbe arrivare a dire che sono spazi PC ovvero a curvatura
positiva in un senso opportuno), quanto all'indagine di particolari funzionali convessi
lungo geodetiche secondo la Denizione 4.2.1. Tra questi troveremo oggetti assai interessanti, che con una terminologia dovuta a C.Villani chiameremo energia interna,
energia potenziale ed energia di interazione. Questi nomi non nascono dal nulla, ma
corrispondono ad una schematica descrizione dell'energia totale di un gas a molecole
interagenti, del quale nella Sezione 4.3 dimostriamo l'unicità dello stato fondamentale servendoci proprio degli strumenti appena sviluppati (ed è a questo ne che tali
strumenti sono stati sviluppati in [21]).
Dopo questo primo esempio, che quantomeno per ragioni storiche è parso opportuno
premettere a tutti gli altri, proponiamo nel Capitolo 5 una ricca gamma di applicazioni
della teoria descritta nella prima parte della tesi ad alcune disuguaglianze funzionali di
varia natura. Si comincia con un grande classico della Geometria come la disuguaglianza isoperimetrica (in una forma non troppo generale, per la verità), che viene dedotta
dalla disuguaglianza di Brunn-Minkowski. La dimostrazione di quest'ultima è da ritenersi un'applicazione standard dello studio di funzionali convessi lungo geodetiche.
Seguono vari risultati di natura prettamente analitica: le disuguaglianze di PrékopaLeindler e di Henstock-McBeath (Sezione 5.2), di Brascamp-Lieb e Barthe (Sezione 5.3)
ed inne la disuguaglianza di Sobolev ottimale nella Sezione 5.4. Conclude questa tesi
la presentazione della disuguaglianza di Talagrand, che pone in relazione due modi diversi di misurare la distanza tra due misure, corrispondenti alla metrica di Wasserstein
W2 ed all'entropia relativa. Seguendo la motivazione originale dell'autore, dedurremo
da questa una forma sharp della disuguaglianza di concentrazione in spazi gaussiani,
per certi versi paragonabile al miglior risultato esistente in questo senso (si vedano il
Teorema 5.5.16 e la successiva Osservazione 5.5.18). Al ne di meglio comprendere
il valore di questo approccio, si fornisce nella Sottosezione 5.5.4 un breve cenno alla
teoria dei fenomeni di concentrazione. Della disuguaglianza di Talagrand saranno fornite due dimostrazioni: la prima, di carattere elementare ma piuttosto macchinosa, è
tratta dall'articolo originale [28], la seconda è invece assai elegante ed è interamente
transportation-based.
Al termine di questa presentazione, ho il piacere di rivolgere il mio ringraziamento ad
almeno alcune delle molte persone che hanno arricchito, rendendoli splendidi, questi
anni vissuti a Pisa.
Voglio anzitutto menzionare i miei genitori, ai quali sono debitore tra le tante cose d'un
sostegno preziosissimo ed incondizionato che non ha conosciuto soluzioni di continuità
pur nella lunghezza e dicoltà del percorso da me condotto.
Mi piace poi ricordare tutti gli amici che in varia maniera hanno condiviso con me
Introduzione
viii
tutti gli istanti dei molti giorni di studio che ho vissuto: a loro va il merito di aver
reso questo tempo più sereno e più felice. Tra questi un posto speciale vorrei riservare
ai miei compagni presso la Scuola Normale Superiore per avermi aiutato a crescere
matematicamente ed umanamente. Penso che sarebbe cosa ardua farne un elenco in
qualche senso esaustivo e preferisco perciò non nominare nessuno dei molti che pur lo
meriterebbero ed ai quali va la mia più grande riconoscenza.
E' un piacere ricordare poi che senza il decisivo contributo del Prof. Luigi Cariolato,
che per primo mi ha fatto intravedere la suprema bellezza della matematica, molto probabilmente questa avventura non sarebbe mai nemmeno cominciata. Nè essa avrebbe
in eetti avuto inzio senza il fondamentale apporto del Prof. Massimo Gobbino, che
tanto ha fatto perchè questo mio sogno diventasse realtà.
Un posto speciale nella mia formazione matematica vorrei poi riservare al Prof. Franco Flandoli al quale va, tra gli altri, il merito di avermi seguito con grande pazienza
e disponibilità in varie fasi di questo lavoro di tesi, contribuendo sempre con grande
competenza al suo sviluppo.
Inne, il mio pensiero va grato al Prof. Luigi Ambrosio per avermi introdotto con estrema professionalità nel mondo della ricerca matematica: ritengo un enorme privilegio
aver appreso al suo anco molto di quel che so a proposito della Teoria del Trasporto
Ottimo di Massa.
Notazioni
Dato un generico insieme X, la relazione di inclusione insiemistica di un suo sottinsieme
Y (proprio od improprio) sarà sempre indicata dal simbolo ⊂ per cui si scriverà Y ⊂ X.
La funzione indicatrice di Y si denoterà con Y , mentre la mappa identità con idY oppure
- se non vi è pericolo di ambiguità - solo con id. Inne, il complementare di Y si scriverà
Y c.
Dato uno spazio di misura astratto X, l'insieme delle sue misure di probabilità si
indicherà con P(X) mentre l'insieme delle sue misure con segno nite con M(X). Se
scriveremo µ = µ+ − µ− , questa andrà sempre intesa come decomposizione di Hahn
della misura µ. Lavoreremo solo con spazi topologici, per cui (a meno di esplicite
indicazioni contrarie) si considererà sempre la σ -algebra di Borel su X e le misure in
gioco andranno sempre pensate denite su tale σ−algebra. La massa di Dirac nel punto
x ∈ X si scriverà δx , la misura gaussiana standard n−dimensionale γn (e la sua densità
ρn ) e la misura di Lebesgue Ln . Se T è una mappa misurabile denita su uno spazio
topologico X munito di una misura µ a valori in un generico spazio Y, la notazione T] µ
indicherà la misura push-forward di µ tramite T, nel senso precisato nella Sezione 1.1.
In particolare avremo spesso a che fare con spazi Lp (X) per p ≥ 1 : questa scrittura
è da intendersi come abbreviazione della scrittura (corretta) Lp (X, B, µ). Fissato un
esponente p il suo coniugato sarà indicato con p0 oppure con q secondo specicazioni che
forniremo di volta in volta (in particolare nella Sezione 5.3). Lo spazio delle misure di
probabilità denite su Rn ed assolutamente continue rispetto alla misura di Lebesgue
si denoterà con P ac (Rn ).
Se X è uno spazio topologico ed A ⊂ X indicheremo con Int(A) la parte interna di
A, con A la chiusura topologica di A e con ∂A la sua frontiera con ∂A = A\IntA. Il
supporto di una misura µ sarà denotato con supp(µ) ed è per denizione il più piccolo
insieme chiuso F ⊂ X tale che µ(X \ F ) = 0.
Se poi X è uno spazio metrico, la scrittura Br (x) andrà intesa come la palla di centro
x ∈ X e raggio r > 0. In questo caso Lip(X) sarà lo spazio delle funzioni lipschitziane
denite su X ed a valori in R con k.kLip la corrispondente norma. Nel Capitolo 5, la
funzione modulo di continuità di una funzione F sarà denotata dalla scrittura ωF .
Se X è uno spazio di Banach, indicheremo il suo duale topologico con X . Data ϕ una
funzione convessa denita su tale X, scriveremo ϕ∗ ad indicare la sua trasformata di
Legendre (denita nell'Appendice A). Invece, ∂ϕ rappresenta il sottodierenziale di ϕ
0
il quale sarà sempre identicato col suo graco come sottinsieme di X × X . Spesso
ci capiterà di lavorare con funzioni convesse proprie semicontinue inferiormente: per
quest'ultima proprietà ci limiteremo all'abbreviazione SCI.
0
ix
Notazioni
x
In tutta la tesi Rn indica lo spazio euclideo di dimensione n ≥ 1. Se A ⊂ Rn è un
insieme misurabile secondo Lebesgue, la scrittura |A| denota il valore della sua misura
di Lebesgue. Dato x ∈ Rn denoteremo
parimenti con |x| il valore della sua norma
pPn
2 . Non avremo a che fare con prodotti scalari
euclidea standard, ovvero |x| =
x
i=1 i
su spazi vettoriali astratti e pertanto il simbolo h., .i andrà sempre inteso come prodotto
scalare standard su Rn . Chiaramente |x|2 = hx, xi . Lo spazio vettoriale delle matrici
quadrate n × n sul corpo R sarà denotato da Mn (R) ed analogamente Sn (R) sarà il
sottospazio delle matrici simmetriche, inne Sn+ (R) indicherà l'insieme delle matrici
simmetriche e denite non negative. La trasposta di una matrice M si scriverà M T e
la matrice identità in Mn (Rn ) sarà indicata da In .
Sullo spazio X = Rn avremo i soliti operatori
∇F = (
∂F
∂F
, ....,
),
∂x1
∂xn
∇·u=
n
X
∂ui
i=1
∆F =
∂xi
,
n
X
∂2F
i=1
∂x2i
ed inoltre D2 indicherà l'operatore hessiano su X, che identicheremo con la matrice
hessiana (∂ 2 F (x)/∂xi ∂xj ). Dato Ω un aperto di Rn denoteremo con D(Ω) l'insieme
delle funzioni di classe C ∞ aventi supporto compatto contenuto in Ω e con D0 (Ω) lo
spazio delle distribuzioni su Ω. Gli operatori di Hess e di Laplace in senso distribu2
Sempre su tale aperto Ω
zionale saranno indicati con DD
0 e ∆D 0 rispettivamente.
considereremo talvolta gli spazi C k,α con α ∈ (0, 1) delle funzioni di classe C k con derivate k-esime hölderiane di costante α. Si rimanda nuovamente all'Appendice A per la
denizione dell'operatore hessiano nel senso di Aleksandrov di una funzione convessa ϕ,
ovvero DA2 ϕ e va precisato che esso è denito solo (quasi ovunque) nella parte interna
del dominio di ϕ; analogamente ∆A ϕ è l'operatore di Laplace nel senso di Aleksandrov.
Inne, la misura hessiana di ϕ sarà indicata con detH D2 ϕ (si veda la sezione 3.3).
Forniamo ora un semplice elenco dei simboli propri della Teoria del Trasporto Ottimo
di Massa1 , che saranno introdotti nel corso di questa tesi e per i quali pertanto ci
limitiamo a fornire qui una breve didascalia.
1 con
un paio di eccezioni provenienti dalla teoria dei fenomeni di concentrazione.
Notazioni
Γ(µ1 , µ2 )
Γo (µ1 , µ2 )
I [π]
J(ϕ, ψ)
Φc
Tc (µ1 , µ2 )
xi
2-piani di Kantorovich di marginali µ1 e µ2
2-piani di Kantorovich ottimali di marginali µ1 e µ2
costo di trasporto secondo il piano π
valutazione del funzionale duale di Kantorovich in (ϕ, ψ)
dominio del funzionale duale J con funzione costo c
costo ottimale di trasporto di µ1 verso µ2 con funzione costo
c(·, ·)
U
V
W
α(X,d,µ)
dominio (modicato) del funzionale duale nel caso quadratico
misure di probabilità su X aventi p−esimo momento nito
p−esima distanza di Wasserstein tra µ1 e µ2
proiezioni coordinate (semplice e doppia)
interpolazioni di proiezioni
valutazione al tempo t della geodetica interpolante
valutazione al tempo t dell'interpolazione à la McCann di µ1
e µ2
funzionale di energia interna
funzionale di energia potenziale
funzionale di energia di interazione
funzione di concentrazione relativa al measure metric space
α(X,d,µ)
(X, d, µ)
−funzione di concentrazione generalizzata
e
Φ
Pp (X)
Wp (µ1 , µ2 )
π i , π i,j
πti→j , πti→j,k
µi→j
, µi→j,k
t
t
[µ1 , µ2 ]t
Capitolo 1
Lineamenti di Teoria del
Trasporto di Massa
1.1 Push-forward di misure e cambi di variabile
Prima di presentare il problema di Monge-Kantorovich quale origine di tutta la teoria
del trasporto ottimo di massa, introduciamo una nozione che sarà di uso ricorrente nel
seguito di questo lavoro.
Denizione 1.1.1. Dati spazi misurabili (X, F) e (Y, G), una misura µ sul primo di
questi ed una mappa misurabile r : X → Y, chiameremo push-forward di µ tramite r
(con notazione r] µ) la misura ν denita dalla relazione
ν(G) = µ(r−1 (G)) ∀ G ∈ G.
(1.1)
Da un punto di vista probabilistico, il push-forward di una probabilità tramite una
variabile aleatoria non è altro che la legge della v.a. stessa. Osserviamo poi che il pushforward porta una misura in una misura con la stessa massa totale (nita od innita)
ed, in particolare, probabilità in probabilità.
Alcune prime proprietà del push-forward sono riassunte nella proposizione seguente, di
dimostrazione quasi immediata:
Teorema 1.1.2. Comunque siano dati spazi misurabili (X, F), (Y, G) e (Z, H) con
applicazioni misurabili r : X → Y e s : Y → Z ed una coppia di misure µ e ν sullo
spazio di partenza, si ha che
1. Vale l'implicazione
µ ν ⇒ r] µ s] ν.
(1.2)
2. Sussiste la regola di composizione
(s ◦ r)] µ = s] r] µ.
(1.3)
Inoltre, presa una qualunque funzione f : Y → R che sia G−misurabile ed r] µ−integrabile
vale la legge di integrazione rispetto all'immagine:
Z
Z
f (y) dr] µ(y) =
Y
f (r(x)) dµ(x).
X
1
(1.4)
Capitolo 1. Lineamenti di Teoria del Trasporto di Massa
2
Inne, se X1 ed X2 sono spazi metrici separabili (sui quali si considerano date le
σ−algebre di Borel) ed r : X1 → X2 è un'applicazione continua, allora
r] : P(X1 ) → P(X2 )
(1.5)
è continua rispetto alla convergenza debole e si ha pure
r(suppµ) ⊂ supp(r] µ) = r(suppµ).
(1.6)
Un altro importante risultato inerente la nozione di push-forward, di cui faremo uso
ripetutamente, sarà fornito nel Capitolo 3 (Lemma 3.4.2).
1.2 Il problema di Monge-Kantorovich
Veniamo ora ad una breve e necessariamente schematica introduzione alla teoria del
trasporto ottimo di massa. Nel 1781, Gaspard Monge formulò nella sua memoria Le
problème des déblais et remblais il seguente problema d'origine ingegneristica: dato
un cumulo di terra collocato in una posizione iniziale nota e da trasportare in una
posizione nale assegnata, determinare una strategia che consenta di eseguire il trasporto fecendo il minimo lavoro possibile. In eetti, egli parlava del trasporto d'un
mucchio di terra verso una buca, ma da un punto di vista matematico le due questioni
sono perfettamente equivalenti. Il quesito può essere facilmente riformulato in termini
rigorosi come segue: detti f − ed f + le posizioni iniziali e nali della terra ed Ω ⊆ Rn
l'ambiente, il lavoro fatto nel trasporto sarà dato da
Z
|s(x) − x|f − (x) dx,
(1.7)
Ω
mentre il vincolo naturalissimo di `conservazione della massa nel trasporto' si esprime
chiedendo che
Z
Z
+
f (x) dx =
f − (x) dx ∀ B ∈ B(Rn ).
(1.8)
B
s−1 (B)
Nonostante la sua semplice descrizione il problema di Monge si è rivelato molto dicile
ed in generale per vari decenni i molti matematici che vi si cimentarono riuscirono al
più ad intuire alcune proprietà qualitative delle eventuali mappe di trasporto ottimo.
Lo sviluppo della teoria della misura suggerisce in ogni caso di indagare la questione in
un ambito molto più astratto e generale. Siano assegnati due spazi di misura (X, F)
e (Y, G), siano poi µ una probabilità sul primo di tali spazi, ν una probabilità sul
secondo ed inne c : X × Y → [0, +∞] una funzione che chiameremo d'ora in avanti
funzione costo. Il problema di Monge consiste allora nel minimizzare l'integrale (costo
di trasporto)
Z
c(x, T (x)) dµ(x),
(1.9)
X
tra tutte le mappe (parleremo
diR mappe di Monge) T : (X, F) → (Y, G) misurabili e
R
vericanti la condizione G dν = T −1 (G) dµ, che sarà detta di ammissibilità. Tuttavia,
per gli scopi di questo lavoro considereremo sempre il caso in cui X = Y è uno spazio
metrico con F = G la sua σ−algebra boreliana e la funzione costo è in eetti una
3
potenza della distanza, ovvero c(x1 , x2 ) = dp (x1 , x2 ) con p ∈ [1, +∞) . Vediamo ora
alcuni cenni a certuni aspetti del problema di Monge:
• Esistenza: il problema posto in generale non ammette soluzione (cioè non è
detto che esistano mappe ottime di trasporto), anzi non è nemmeno detto che
esistano mappe ammissibili. Ad esempio, si consideri il caso in cui µ = δx0
e ν = 21 (δy1 + δy2 ) dove si vede come la non esistenza di mappe ammissibili
discenda dal fatto che le mappe di Monge, in quanto funzioni non consentano
divisioni degli atomi di massa in partenza. In eetti, si può dimostrare che per
misure µ in partenza prive di atomi l'esistenza di mappe ammissibili è sempre
garantita. A maggior ragione l'esistenza di mappe ottimali è tutt'altro che banale:
anche qui è facile costruire degli esempi (spesso tratti dalla teoria geometrica
della misura) di scelte di spazi (X, F) e (Y, G) e probabilità µ e ν per le quali
mappe ottimali di trasporto semplicemente non possano esistere. In altri termini
è possibile costruire successioni minimizzanti di mappe di Monge convergenti a
mappe multivoche ed, in quanto tali, non accettabbili per il problema in esame.
• Unicità: quand'anche esistano mappe di Monge ottimali, non è detto che siano
uniche. Paradigmatico è qui il caso del cosidetto `book shift': su (R, B(R) si
prendano µ = n1 1[0,n] L1 e ν = n1 1[1,n+1] L1 con L1 la misura di Lebesgue unidi-
mensionale. È una facile verica che esistono due mappe ottime delle quali la
prima corrisponde ad uno spostamento della sola massa contenuta in [0, 1] verso
[n, n + 1] mentre la seconda è uno shift unitario di tutta la massa. Quest'aspetto
del problema è piuttosto delicato.
• Non Linearità del Vincolo: in (Rn , B(Rn ) si prendano due probabilità denite
n
daRdensità µ = ρL
e ν = σLn . Dato un boreliano B il nostro vincolo di trasporto
R
è B σ(y) dy = T −1 (B) ρ(x) dx, per cui se T è sucientemente regolare per fare
un cambio di variabile (tipicamente si chiede che T sia di classe C 1 ed iniettiva,
ma queste condizioni sono ben lontane dall'essere ottimali) la precedente diviene
Z
Z
ρ(x) dx =
T −1 (B)
σ(T (x))| det(Jac(T (x)))| dx.
T −1 (B)
(1.10)
Per confronto, essendo B arbitrario deve essere
ρ(x) = σ(T (x))| det(Jac(T (x)))|
(1.11)
per q.o. x ∈ Rn ovvero - dove valga σ(T (x)) > 0 | det(Jac(T (x)))| =
ρ(x)
.
σ(T (x))
(1.12)
• Assenza di Stabilità per Convergenze Deboli: con quest'espressione in-
tendiamo dire che il vincolo, oltre ad essere fortemente non lineare, non è stabile per convergenzaR debole perno negli spazi
funzionali più naturali. Sia ϕ ∈
Rt
1
Cc (0, 1) con inoltre 0 ϕ(t) dt = 0, ψ(t) = 0 ϕ(s) ds cosicchè pure ψ ∈ Cc (0, 1)
e ψ(0) = ψ(1) = 0. Supponiamo poi per comodità che tali funzioni siano prolungate per periodicità a tutta la retta reale ed inne poniamo ψh (t) = h1 ψ(ht).
4
Si verica con facilità che ψh → 0 in Lp (0, 1) ∀p ∈ [1, +∞) e che ψh0 * 0 in
Lp (0, 1) ∀p ∈ [1, +∞) . Posto allora Th = ψh0 si ha che se si indica con T ∞ il
limite debole della successione Th e con µ la restrizione della misura di Lebesgue
all'intervallo (0, 1) vale T]∞ µ = δ0 mentre per ogni h ∈ N si ha Th] µ = ϕ] µ.
Nel corso degli anni '40 del secolo scorso il matematico russo Kantorovich propose,
anche sulla base di queste dicoltà, una formulazione debole del problema, la quale si
rivelò da subito più utile e maneggevole ed aprì la strada a vari risultati signicativi
per un problema no ad allora quasi inattaccabile.
L'idea di Kantorovich era sostanzialmente quella di considerare ammissibili anche le
mappe che non fossero funzioni, ovvero tali da poter potenzialmente operare una divisione della massa di ciascun punto in partenza tra i punti dello spazio in arrivo. Questa
è una esposizione ingenua della nozione di piano di Kantorovich.
Denizione 1.2.1. Dati (X, F) ed (Y, G) spazi di misura e µ ∈ P(X) (ovvero una
probabilità sullo spazio (X, F)), ν ∈ P(Y ) diremo piani di Kantorovich gli elementi
dell'insieme
Γ(µ, ν) = {γ ∈ P(X × Y ); πX ] γ = µ, πY ] γ = ν} ,
(1.13)
ove πX e πY denotano le applicazioni di proiezione dallo spazio prodotto X × Y sui
fattori. Il problema di Kantorovich consiste allora nello studio di
Z
inf
π∈Γ(µ,ν)
(1.14)
c(x, y) dπ(x, y)
X×Y
ove c : X × Y → [o, +∞) indica - come sopra - la funzione costo.
1
Osservazione 1.2.2. Le condizioni sui marginali ammettono varie riformulazioni equivalenti che elenchiamo dato che saranno utili in seguito:
1. πX ] γ = µ, πY ] γ = ν.
−1
2. ∀ F ∈ F γ(πX
(F )) = γ(F × Y ) = µ(F )
γ(πY−1 (G)) = γ(X × G) = ν(G).
∀G∈G
ed analogamente
3. ∀ f, g misurabili e positive valga
Z
Z
[f (x) + g(y)] dγ(x, y) =
X×Y
Z
f (x) dµ(x) +
X
g(y) dν(y).
(1.15)
Y
Osservazione 1.2.3. Dati due insiemi F ∈ F e G ∈ G il numero γ(F × G) misura
quanta della massa presente in F è trasportata - secondo il piano γ - in G . Si osservi
in particolare che γ(F × G) ≤ µ(F ) e γ(F × G) ≤ ν(G).
Dopo aver elencato i punti deboli del problema di Monge, indichiamo qui per contrasto
i punti forti della posizione di Kantorovich:
1 In eetti, il problema di Kantorovich ammette anche una riformulazione probabilistica, che è la
seguente: dato uno spazio probabilizzato (Ω, A, P ) determinare inf E[c(U, V )] al variare di tutte le v.a.
U e V tali che U : Ω → X ed abbia legge µ e V : Ω → Y ed abbia legge ν .
5
• Esistenza. I piani ammissibili di Kantorovich esistono sempre. Basta infatti
considerare µ ⊗ ν ∈ Γ(µ, ν).
• Simmetria. Nella formulazione di Kantorovich non vi è alcuna distinzione tra
una misura in partenza ed una in arrivo ed ogni aspetto del problema (tanto il
vincolo quanto il funzionale da minimizzare) è perfettamente simmetrico, in netto
contrasto con l'asimmetria del problema di Monge.
• Il Vincolo è Convesso. Con ciò intendiamo dire che il dominio Γ(µ, ν) è
un sottinsieme convesso entro P (X × Y ), con tutte le buone proprietà che ciò
comporta e che utilizzeremo in seguito.
• Il Vincolo è stabile per Convergenza Debole. Nel caso in cui X ed Y siano
spazi metrici (e noi ci riferiremo soltanto a spazi polacchi ovvero metrizzabili,
2 a π e scriveremo π * π
separabili e completi) diremo cheRπn tende debolmente
n
R
qualora ∀f ∈ Cb (X × Y ) valga f dπn → f dπ. Ebbene: è una facile verica
che se πn * π nel senso sopra e πn ∈ Γ(µ, ν) per ogni indice n ∈ N (od almeno
denitivamente), allora π ∈ Γ(µ, ν).
• Linearità del Funzionale Costo. Se consideriamo l'applicazione Γ(µ, ν) → R
R
data da γ 7→ c dγ ove c è la funzione costo già denita e che chiameremo
Funzionale Costo, si ha che questa è lineare.
• (K) include (M). Indicando simbolicamente con (K) il problema di Kantorovich
e con (M) il problema di Monge, intendiamo dire due cose: ad ogni mappa ammissibile secondo Monge è associato in modo naturale un piano ammissibile secondo
Kantorovich tramite la corrispondenza T 7−→ (id × T )] (µ) ∈ Γ(µ, ν). Inoltre, se
(K) ammette soluzione ed è un trasporto 3 (indichiamo con T la corrispondente
mappa di Monge), allora pure (M) ammette soluzione e tra le soluzioni di (M)
ritroviamo in particolare quelle ottenute tramite l'inclusione appena descritta.
Tali risultati sono di dimostrazione immediata. L'ultima delle precedenti osservazioni
suggerisce di considerare come piani di Kantorovich `privilegiati' quelli ottenuti direttamente a partire da una mappa di Monge. In eetti, vale un teorema piuttosto
interessante che in un certo senso inverte l'asserto sopra enunciato, assicurando cioè
come tutti piani di Kantorovich concentrati su graci cartesiani siano in eetti della
forma (id × T )] (µ) per qualche mappa di Monge.
Denizione 1.2.4. Dato uno spazio di misura (X, F, µ) ed un insieme misurabile
F ∈ F diremo che µ è concentrata in F se µ(X\F ) = 0.
Osservazione 1.2.5. È immediato vericare che vale la seguente caratterizzazione equivalente della concentrazione: In riferimento alla denizione precedente si ha che µ è
concentrata
su F se e solo se per ogni funzione misurabile non negativa ϕ : X → R vale
R
R
X
ϕ dµ =
F
ϕ dµ.
2 Non vi è uniformità su questa denizione. Ad esempio, molti testi di probabilità deniscono la
convergenza debole in modo diverso e parlano invece in questo setting di convergenza stretta.
3 Si intende che la soluzione del problema di Kantorovich sia ottenibile tramite l'inclusione sopra
menzionata a partire da una mappa di Monge.
6
Osservazione 1.2.6. Pare opportuno sottolineare la dierenza tra le nozioni di concentrazione su di un insieme e di supporto di una misura. Anzitutto la nozione di supporto
è tipicamente riferita a spazi di misura costruiti a partire da una soggiacente struttura
metrica o per lo meno topologica. Quand'anche si possa parlare di supporto, si ha
che questo è un concetto univoco in contrasto con la nozione intuitiva di insieme di
concentrazione 4 che invece non lo è aatto (si dovrebbe ricorrere eventualmente ad un
opportuno argomento di minimalità). L'unica implicazione da tenere in considerazione
è la seguente: Una misura su uno spazio metrico (ev. topologico) a base numerabile è
sempre concentrata sul suo supporto.
Teorema 1.2.7. Se T : (X, F, µ) → (Y, G, ν) è una mappa di Monge, allora γ =
è un piano di Kantorovich ∈ Γ(µ, ν) concentrato su graf (T ). Viceversa dato
comunque γ ∈ Γ(µ, ν) concentrato sul graco di una mappa misurabile T : (X, F, µ) →
(Y, G, ν), si ha che γ = (id × T )] µ e T è una mappa di Monge.
(id × T )] µ
Dimostrazione. Ci serviamo dell'osservazione 1.1.5 : sia ϕ : X × Y → R una funzione
boreliana non negativa. Si ha che γ ∈ Γ(µ, ν) è concentrato su graf (T ) se e solo se ∀ϕ
come sopra vale
Z
Z
ϕ(x, y) dγ(x, y) =
X
ϕ(x, y) dγ(x, y)
(1.16)
graf (T )
e da lì, applicando di seguito la proprietà di ammissibilità ed il teorema di integrazione
immagine otteniamo
Z
Z
ϕ(x, y) dγ(x, y) =
X
ϕ(x, y) dγ(x, y)
Z
=
(1.17)
graf (T )
Z
ϕ(x, T (x)) dγ(x, y) =
X×Y
ϕ(x, T (x)) dµ(x)
(1.18)
X
Z
ϕ(x, y) d((id × T )] µ)
=
(1.19)
X×Y
e ciò avviene se e solo se γ = (id × T )] µ in ragione dell'arbitrarietà di ϕ. Questa catena
di uguaglianze ci dà subito la seconda parte della prima tesi (per la prima parte si
veda quanto detto sopra al punto (K) ⊇ (M )); per concluderne la seconda tesi basta
aggiungere un argomento che mostri che γ = (id × T )] µ e γ ∈ Γ(µ, ν) implichino che
T] µ = ν , ma le due ipotesi dicono che γ ha come secondo marginale rispettivamente
T] µ e ν e per confronto ne concludiamo la tesi.
1.3 Il teorema di esistenza
In questa sezione vogliamo dimostrare il teorema che assicura l'esistenza di piani ottimali per il problema di Kantorovich, fornendo così una ulteriore ragione del maggior
interesse di questa formulazione rispetto a quella originale di Monge. Prima di svi4 In accordo alla denizione 1.1.4 vorremmo dire che F è un insieme di concentrazione per la nostra
misura µ se µ è concentrata su F.
7
luppare questo risultato, vogliamo richiamare il classico Teorema di Prohorov che sarà
utilizzato in quanto segue.
Teorema 1.3.1. Sia (X,d) uno spazio polacco, µn per n ∈ N una successione di misure
di probabilità su X. Diremo che µn è relativamente compatta se esistono una sottosuccessione µnk ed una probabilità µ ∈ P(X) tali che µnk * µ, nel senso debole denito
sopra, ovvero nella dualità con Cb ; diremo invece che µn è equi-tesa (o, più semplicemente, tesa) se ∀ > 0 esiste un K ⊆ X sottinsieme compatto, tale che µn (K) > 1 − per ogni n ∈ N cioè equivalentemente se supn∈N µn (K c ) < . Vale allora la seguente
caratterizzazione: µn è relativamente compatta se e solo se è equi-tesa.5
Ci serve un altro semplice lemma di approssimazione:
Lemma 1.3.2. Sia (X, d) uno spazio polacco e sia c : X × X → R una funzione non
negativa e semicontinua inferiormente (SCI). Allora esiste una successione di funzioni
ck continue, limitate, non negative ed approssimanti c dal basso, ovvero tali che ck ↑ c.
Dimostrazione. La dimostrazione è basata sulla costruzione esplicita:
0 0
0
0
ck (x, y) = min k, inf
c(x
,
y
)
+
k(d(x,
x
)
+
d(y,
y
))
,
0 0
(x ,y )
(1.20)
cui seguono facili veriche che omettiamo.
Teorema 1.3.3. Sia X uno spazio metrico polacco, P(X) la famiglia delle probabilità
sulla sua σ−algebra boreliana e siano µ e ν due elementi di questa. Allora esiste un
piano di traporto ottimale γ tra µ e ν (e scriveremo perciò γ ∈ Γo (µ, ν)).
Dimostrazione. Anzitutto sappiamo, da quanto sopra, che Γ(µ, ν) è non vuoto. Si
tratta ora di mostrare che esso è relativamente (sequenzialmente) compatto. Per fare
ciò va osservato che Γ(µ, ν) è tight 6 : infatti per il Lemma di Ulam µ e ν lo sono ed
esistono perciò, dato comunque δ > 0, dei compatti K ed L tali che
µ(X\K) ≤ δ
(1.21)
ν(X\L) ≤ δ
(1.22)
π[(X × X)\(K × L] ≤ π[X × (X\L)] + π[(X\K) × (L)] ≤ 2δ.
(1.23)
e
segue che per ogni π ∈Γ(µ, ν) vale
Prendiamo ora una successione (γk ) minimizzante: possiamo, grazie al teorema di Prohorov, asserire l'esistenza di una probabilità limite γ ∈ P(X) e di una sottosuccessione
5 Solitamente si chiama Lemma di Ulam il sottocaso del Teorema di Prohorov che asserisce che, nel
setting del teorema stesso, ogni probabilità è tesa.
6 Ovvero è equi-teso come insieme di misure di probabilità, in accordo con la denizione premessa
all' enunciato del teorema di Prohorov.
γnk tale che
8
(1.24)
γ nk * γ
nel senso della topologia debole, dunque nella dualità con Cb . A questo punto si
deve mostrare che γ ∈ Γ(µ, ν), ma questo è immediato dal momento che le condizioni
che deniscono Γ(µ, ν) sono chiuse rispetto alla topologia debole, sicchè γ è in eetti
un piano ammissibile. Data l'importanza di tale aspetto ci pare opportuno darne
una dimostrazione esplicita: se ϕ(x) è una funzione continua e limitata, lo è anche
ψ(x, y) = ϕ(x) = ϕ ◦ π(x, y) e quindi
Z
Z
Z
ϕ(x) dπ1] γnk = ϕ ◦ π1 (x, y) dγnk = ψ(x, y) dγnk
Z
Z
→ ψ(x, y) dγ = · · · = ϕ(x) dπ1] γ,
(1.25)
(1.26)
che vuol dire che la misura π1] γ è il limite debole della successione dei marginali
π1] γnk che però sono tutti eguali a µ e perciò non possono che avere proprio µ come
limite debole. Per concludere si usa un argomento di semicontinuità, in conformità
con le cosidette tecniche classiche del Calcolo delle Variazioni. Abbiamo già osservato
che la semicontinuità inferiore della funzione costo c fa sì che si possa costruire una
successione crescente cl di funzioni continue e limitate che vi convergano puntualmente,
allora applicando successivamente il teorema di convergenza monotona, il fatto che γ
sia il limite delle πnk , la disuguaglianza cl ≤ c e la proprietà di minimizzazione della
πnk otteniamo:
Z
Z
c(x, y) dγ(x, y) = lim
l→∞
cl (x, y) dγ(x, y)
Z
≤ lim lim inf
l→∞ k→∞
cl (x, y) dγnk (x, y)
Z
≤ lim inf
k→∞
c(x, y) dγnk (x, y) = inf I.
(1.27)
(1.28)
(1.29)
Vale la pena di osservare che la precedente dimostrazione ci ha dato l'occasione per
provare alcuni fatti di notevole importanza:
• Γ(µ, ν) è tight
• Γ(µ, ν) è debolmente chiuso nella dualità con Cb
• Γ(µ, ν) è compatto (grazie ai due punti precedenti ed al teorema di Prohorov)
R
• il funzionale π → c(x, y) dπ è semicontinuo inferiormente (abbreviato SCI).7
7e
perciò particolarmente interessante ripetto ad un problema di minimo!
9
1.4 Il teorema di Kantorovich-Rubinstein
In molte situazioni, tipiche ad esempio del Calcolo delle Variazioni, può essere utile
dualizzare un problema di minimo. Questo si rivela particolarmente utile anche nel
caso della Teoria del Trasporto Ottimo di Massa ed il principale risultato in questo
senso è il seguente, dovuto a Kantorovich:
Teorema (Dualità di Kantorovich) 1.4.1. Siano X ed Y spazi polacchi, siano poi
date due misure µ ∈ P(X) e ν ∈ P(Y ), e sia c : X × Y → R ∪ +∞ una funzione costo
semicontinua inferiormente. Assegnati poi π ∈ P(X × Y ), e (ϕ, ψ) ∈ L1 (µ) × L1 (ν)
deniamo
Z
Z
I[π] =
c(x, y) dπ(x, y),
J(ϕ, ψ) =
X×Y
Z
ϕ(x) dµ(x) +
X
ψ(y) dν(y)
(1.30)
Y
ed inne Φc l'insieme delle coppie (ϕ, ψ) che rispettino il vincolo ϕ(x) + ψ(y) ≤ c(x, y)
per µ-q.o. x ∈ X e ν -q.o. y ∈ Y. Allora
inf
I(π) = sup J(ϕ, ψ).
π∈Γ(µ,ν)
Φc
(1.31)
Inoltre non cambia il valore dell' estremo superiore a secondo membro della (1.31)
qualora si restringa la denizione di Φc alle sole funzioni (ϕ, ψ) continue e limitate.
Osservazione 1.4.2. Segue dalla dimostrazione del teorema, la quale si può trovare ad
esempio in [31], che, almeno quando la funzione costo c è limitata, ci si può restringere
a considerare il sup a secondo membro della (1.31) rispetto alle sole coppie (ϕcc , ϕc )
ove ϕ è limitata e valgano le denizioni seguenti per le c-trasformate:
ϕc (y) = inf [c(x, y) − ϕ(x)],
x∈X
ϕcc (x) = inf [c(x, y) − ϕc (y)].
y∈Y
(1.32)
Si suole dire che (ϕcc , ϕc ) è una coppia di funzioni c-concave coniugate.
Questa osservazione sta alla base della dimostrazione dell'ormai classico teorema di
Kantorovich-Rubinstein:
Teorema (Kantorovich-Rubinstein) 1.4.3. Sia X = Y uno spazio metrico polacco,
d una metrica semi-continua inferiormente su X ed inoltre µ, ν ∈ P(X). Sia poi Lip(X)
lo spazio delle funzioni lipschitziane su X e kϕkLip la relativa norma Lipschitz. Allora
Z
1
1
Td (µ, ν) = sup
ϕ d(µ − ν); ϕ ∈ L (µ) ∩ L (ν); kϕkLip ≤ 1 ,
(1.33)
ove
X
Td (µ, ν)
(1.34)
indica il costo ottimo di trasporto di µ verso ν secondo d, nel senso di Kantorovich
ovvero
Td (µ, ν) = inf I(π)
(1.35)
π∈Γ(µ,ν)
per
Z
I[π] =
d(x, y) dπ(x, y).
X×Y
(1.36)
10
Inoltre il valore di tale sup non cambia se si impone sulla ϕ l'ulteriore condizione
d'essere limitata.
Dimostrazione. In base al teorema di dualità sappiamo già che nella (1.33) vale il ≥,
dato che stiamo restringendo la classe di funzioni considerate per il sup. È perciò
suciente provare l'altra disuguaglianza e per fare questo non è restrittivo assumere
che la distanza d sia limitata. Infatti posto dn = d/(1 + n−1 d) abbiamo che dn ≤ d
ed inoltre dn converge in maniera monotona verso d sicchè, osservando dapprima che
l'insieme delle funzioni 1-lipschitziane per dn è incluso nell'insieme delle funzioni 1lipschitziane per d, ci si riduce al caso in cui d è limitata con un tipico argomento
di approssimazione. Grazie a questo fatto, potremo assumere che tutte le funzioni
lipschitziane siano limitate e perciò integrabili rispetto a µ e ν, cosa che sfrutteremo in
seguito. Ci siamo perciò ridotti a provare che
Z
J(ϕ, ψ) ≤ sup
sup
(ϕ,ψ)∈Φd
X
ϕ d(µ − ν); kϕkLip
≤1 ,
ove in conformità ad una notazione già usata J(ϕ, ψ) = X ϕ dµ +
Dall'osservazione premessa a questa dimostrazione sappiamo che
R
sup
R
X
(1.37)
ψ dν .
sup J(ϕdd , ϕd ).
J(ϕ, ψ) ≤
ϕ∈L1b (µ)
(ϕ,ψ)∈Φd
(1.38)
Ora però ϕd , essendo l'inviluppo inferiore di funzioni 1-lipschitziane e limitate dal basso
è a sua volta 1-lipschitziana (è una verica immediata). Si ha dunque:
−ϕd (x) ≤ inf [d(x, y) − ϕd (y)] ≤ −ϕd (x),
y
(1.39)
dove la disuguaglianza di sinistra segue dalla proprietà di 1-lipschitzianità e quella di
destra dalla scelta x = y nell'inf . Questo signica che ϕdd = −ϕd , e di lì
sup
J(ϕ, ψ) ≤
sup J(ϕdd , ϕd ) =
ϕ∈L1b (µ)
(ϕ,ψ)∈Φd
≤
sup
sup J(−ϕd , ϕd )
ϕ∈L1b (µ)
J(ϕ, −ϕ)
kϕkLip ≤1
(1.40)
(1.41)
e questo è quel che volevamo.
Da questo teorema possiamo dedurre un interessante corollario, di origine intuitiva,
ma non banale da dimostrare con un approccio diretto. Per enunciarlo nel modo più
chiaro conviene qui considerare il problema del trasporto per misure non necessariamente normalizzate ad essere probabilità. Per motivi che saranno chiari in seguito lo
enunciamo come segue:
Corollario 1.4.4. Sia X = Y uno spazio polacco e d una distanza semicontinua su X.
Siano poi µ, ν e σ tre misure di Borel non-negative su X, a guisa che µ(X) = ν(X) <
+∞, σ(X) < +∞. Allora
Td (µ + σ, ν + σ) = Td (µ, ν).
(1.42)
11
Dimostrazione. È una immediata conseguenza del teorema precedente.
Vale la pena di osservare che la maggiorazione
Td (µ + σ, ν + σ) ≤ Td (µ, ν)
(1.43)
è invece ottenibile senza alcuno strumento teorico: infatti se γ è un piano ottimale tra
µ e ν si può denire
γ ∗ := γ + (id × id)] σ
(1.44)
che è un piano ammissibile di costo pari a quello di γ , da cui la tesi.
Intuitivamente tale γ ∗ è il piano corrispondente al non spostamento delle masse σ e che
usa invece una strategia ottima nello spostamento di µ verso ν . Come sottoprodotto
del corollario precedente abbiamo che posto
σ = µ ∧ ν = µ − (µ − ν)+
(1.45)
si ottiene che almeno nelle ipotesi del teorema di Kantorovich-Rubinstein si può sempre
supporre che i supporti di µ e ν siano disgiunti. In eetti questo è vero in ipotesi
molto più generali, come si vedrà successivamente. Tale semplicazione appare poi
particolarmente espressiva nel caso in cui µ e ν siano misure assolutamente continue
(con densità f e g ) rispetto alla misura di Lebesgue. In questo caso il problema di
Kantorovich sarà ridotto al trasporto tra le misure di densità (f − g)+ e (f − g)− .
Nelle righe precedenti, la notazione ρ+ denota evidentemente la parte positiva d' una
misura di Radon ρ; questa è denita dalla caratteristica proprietà che ρ può essere
scritta nella forma della decomposizione di Hahn ρ = ρ+ − ρ− , ove ρ+ e ρ− sono
misure di Borel non-negative e tra loro singolari.
1.5 Il caso quadratico
In questa sezione, di fondamentale importanza per i capitoli seguenti, proponiamo
una rassegna dei principali risultati ottenuti nello studio del problema di MongeKantorovich nel caso quadratico, ovvero per X = Y = Rn con costo c(x, y) = |x − y|2 /2.
1.5.1 Formulazione duale
Cominciamo col dare una formulazione duale del nostro problema nel caso quadratico,
sulla scorta delle idee già sviluppate nella sezione precedente. Sia dunque X = Y = Rn
e c(x, y) = |x − y|2 /2. Consideriamo due misure (di Borel) µ e ν aventi momento
secondo nito e poniamo
Z
M2 =
Rn
2
|x|
dµ(x) +
2
Z
Rn
2
|y|
dν(y) < +∞;
2
(1.46)
12
questa condizione assicura in particolare che per ogni π ∈ Γ(µ, ν) la quantità I(π) sia
nita. Data una coppia (ϕ, ψ), sappiamo che essa appartiene a Φc se e solo se
2
ϕ(x) + ψ(y) ≤
|x − y|
,
2
(1.47)
ovvero se e solo se vale
"
# "
#
2
2
|x|
|y|
hx, yi ≤
− ϕ(x) +
− ψ(y)
2
2
2
(1.48)
2
sempre per µ-q.o. x e ν -q.o. y ∈ Rn . Denendo ϕe = |x|2 − ϕ(x) e ψe = |y|2 − ψ(y),
abbiamo dunque che il vincolo di appartenenza a Φc assume la forma semplice
e
hx, yi ≤ ϕ(x)
e
+ ψ(y)
(1.49)
Avendo presente il teorema di dualità, possiamo riscrivere nel caso specico in esame i
due membri come segue:
Z
inf
π∈Γ(µ,ν)
I(π) = M2 − sup
hx, yi dπ(x, y)
(1.50)
{J(ϕ, ψ)} ,
(1.51)
π∈Γ(µ,ν)
per il primo, mentre per il secondo
sup J(ϕ, ψ) = M2 − inf
Φc
e
(ϕ,ψ)∈Φ
e come l'insieme di tutte le coppie (ϕ, ψ) ∈ L1 (µ) × L1 (ν) di funzioni
avendo denito Φ
a valori in R ∪ {+∞} tali che
hx, yi ≤ ϕ(x) + ψ(y)
(1.52)
per q.o. x, y ∈ Rn . Allora otteniamo inne la seguente riformulazione del Teorema
1.4.1
Z
sup
hx, yi dπ(x, y) = inf {J(ϕ, ψ)} .
(1.53)
π∈Γ(µ,ν)
e
(ϕ,ψ)∈Φ
A questo punto, introduciamo una tecnica detta di doppia convessicazione. Va premesso che non è lesivo di generalità limitare lo studio del problema di minimo a secondo
e tali che valga
membro della (1.53) alle sole coppie (ϕ, ψ) ∈ Φ
hx, yi ≤ ϕ(x) + ψ(y),
∀x, y ∈ Rn
(1.54)
e ∗ l'insieme delle coppie sifatte). Infatti, presa comunque una coppia
(chiamiamo Φ
e sappiamo che esistono insiemi Nx , Ny tali che µ(Nx ) = 0, ν(Ny ) = 0 ed
(ϕ, ψ) ∈ Φ,
inoltre valga
hx, yi ≤ ϕ(x) + ψ(y), ∀(x, y) ∈ Nxc × Nyc .
(1.55)
Se ora rideniamo ϕ valere +∞ su Nx e ψ valere +∞ su Ny avremo che la nuova
e e che il valore di J(ϕ, ψ) non è cambiato, dato che
coppia (ϕ, ψ) appartiene ancora a Φ
13
abbiamo eseguito modicazioni su insiemi trascurabili. Abbiamo però che data una
e ∗ vale per ogni y ∈ Y
coppia (ϕ, ψ) ∈ Φ
(1.56)
ψ(y) ≥ sup [hx, yi − ϕ(x)] =: ϕ∗ (y)
x
per cui, forti di quanto detto sopra
(1.57)
J(ϕ, ψ) ≥ J(ϕ, ϕ∗ ).
D'altro canto, come visto nella dimostrazione del Teorema A.2.6 vale pure per µ-q.o.
x∈X
(1.58)
ϕ(x) ≥ sup [hx, yi − ϕ∗ (y)] =: ϕ∗∗ (x),
x
sicché
(1.59)
J(ϕ, ϕ∗ ) ≥ J(ϕ∗∗ , ϕ∗ ).
Sfruttando le due disuguaglianze appena ottenute, ricaviamo inne la relazione
J(ϕ, ψ) ≥
inf
e
(ϕ,ψ)∈Φ
inf
ϕ∈L1 (µ)
(1.60)
J(ϕ∗∗ , ϕ∗ ).
Questa è in eetti un'uguaglianza, come assicura il lemma seguente (la cui dimostrazione si trova ad esempio in [31]).
Lemma (Double Convexication) 1.5.1. Siano µ, ν misure di probabilità suppor-
tate in sottinsiemi X, Y di Rn rispettivamente e tali che
2
Z
M2 =
X
|x|
dµ(x) +
2
Z
Y
2
|y|
dν(y) < +∞.
2
(1.61)
Date due qualunque funzioni misurabili ϕ, ψ a valori in R ∪ {+∞} , poniamo
(1.62)
ϕ∗ (y) = sup [hx, yi − ϕ(x)] ,
x∈X
(1.63)
ψ ∗ (x) = sup [hx, yi − ψ(y)] .
y∈Y
e denito come sopra e (ϕk , ψk )k∈N una successione minimizzante per il
Sia inne Φ
e Allora
funzionale J su Φ.
1. Esiste una successione di numeri reali (ak )k∈N tale che
(1.64)
∗
(ϕk , ψk ) = (ϕ∗∗
k − ak , ϕk + ak )
e ed inoltre
sia ancora una successione minimizzante per J su Φ
2
∀x ∈ X, ∀y ∈ Y,
ϕk (x) ≥ −
|x|
,
2
2
lim inf inf (ϕk (x) +
k→∞ x∈X
2
ψ k (y) ≥ −
|x|
) ≤ inf J + M2
e
2
Φ
|y|
,
2
(1.65)
(1.66)
14
2
lim inf inf (ψ k (y) +
k→∞ y∈Y
|y|
) ≤ inf J + M2 .
e
2
Φ
(1.67)
2. In particolare, se X = Y = Rn , l'operazione ∗ coincide con l'usuale trasfomata
di Legendre (cfr. Appendice A) e
inf J =
e
Φ
inf
ϕ∈L1 (µ)
(1.68)
J(ϕ∗∗ , ϕ∗ ).
In altri termini il valore dell'estremo inferiore del funzionale J non cambia quae costituito dalle sole coppie di funzioni
lora lo si restringa al sottinsieme di Φ
proprie convesse coniugate, come sopra.
Questo lemma tecnico consente di giungere ad un teorema di esistenza di una coppia
ottimale per il problema duale sopra descritto.
Teorema 1.5.2. Siano µ, ν misure di probabilità su Rn aventi momenti di ordine
e denito come sopra. Allora, esiste una coppia (ϕ, ϕ∗ ) di funzioni
secondo niti. Sia Φ
convesse proprie denite su Rn e semicontinue inferiormente, tali che
(1.69)
inf J(ϕ, ψ) = J(ϕ, ϕ∗ ).
e
Φ
Per la dimostrazione di questo risultato si rimanda a [26].
1.5.2 Il teorema fondamentale
Dopo questi passi preliminari, siamo nalmente in grado di studiare in dettaglio il
principale teorema inerente il caso p = 2, dovuto in parte a Knott e Smith ed in parte
a Brenier.
Teorema 1.5.3. Siano µ, ν misure di probabilità su Rn aventi momenti di ordine
secondo niti. Consideriamo qui il problema di Monge-Kantorovich in riferimento al
costo quadratico standard c(x, y) = |x − y|2 . Allora:
1. (Criterio di ottimalità di Knott-Smith) π ∈ Γ(µ, ν) è ottimale se e solo
se esiste una funzione convessa propria semicontinua inferiormente ϕ tale che
supp(π) ⊂ graf(∂ϕ), od equivalentemente per π-q.o. (x, y) sia y ∈ ∂ϕ(x). Inoltre,
in tal caso, la coppia (ϕ, ϕ∗ ) è minimizzante per il problema
Z
inf
ϕ dµ +
Rn
2.
ψ dν;
dato da
∀(x, y),
hx, yi ≤ ϕ(x) + ψ(y) .
Rn
(Teorema di Brenier)
π
Z
(1.70)
Se inoltre µ Ln , allora vi è un'unico piano ottimale
π = (id × ∇ϕ)] µ,
(1.71)
essendo ∇ϕ l'unico (i.e. univocamente determinato µ-q.o.) gradiente di una
funzione convessa per la quale ∇ϕ] µ = ν. Inoltre,
supp(ν) = ∇ϕ(supp(µ)).
(1.72)
15
3. Quale corollario del punto precedente, in tali ipotesi, ∇ϕ è l'unica soluzione del
problema di Monge:
Z
Z
2
|x − ∇ϕ(x)| dµ(x) = inf
T] µ=ν
Rn
|x − T (x)| dµ(x),
(1.73)
hx, T (x)i dµ(x).
(1.74)
2
Rn
o equivalentemente
Z
Z
hx, ∇ϕ(x)i dµ(x) = sup
T] µ=ν
Rn
Rn
4. Inne, se si ha anche ν Ln , allora per µ-q.o. x e per ν -q.o. y, si ha rispettivamente
∇ϕ∗ ◦ ∇ϕ(x) = x, ∇ϕ ◦ ∇ϕ∗ (y) = y.
(1.75)
Inoltre ∇ϕ∗ è (ν -q.o.) l'unico gradiente di una funzione convessa per cui ∇ϕ∗] ν =
µ ed è anche l'unica soluzione del problema di Monge di trasportare ν verso µ
con costo quadratico.
Osservazioni 1.5.4. 1. Abbiamo già visto, all'inizio di questo capitolo, come l'ipotesi
di assoluta continuità (rispetto alla misura di Lebesgue) della misura in partenza
assicuri l'esistenza di mappe ammissibili secondo Monge. In eetti, anche quando non sussistano problemi di esistenza, è possibile riscontrare una perdita di
unicità nella soluzione del problema di Monge-Kantorovich ancora imputabile a
fenomeni di concentrazione di massa (i.e. presenza di masse di Dirac). A titolo di
esempio si prendano le misure di probabilità in R2 concentrate in {(0, 0), (1, 1)}
ed in {(1, 0), (0, 1)} rispettivamente. La necessità dell'ipotesi µ Ln può dunque anche essere messa in relazione al problema dell'unicità della soluzione del
problema di Monge-Kantorovich.
2. L'ipotesi µ Ln non è tuttavia ottimale: sarebbe infatti suciente chiedere che
µ non dia massa agli insiemi aventi dimensione di Hausdor al più n − 1.
Dimostrazione. Al ne di dare alla dimostrazione una struttura più ordinata, procediamo per passi.
• Step 1. Sia π ∈ Γ(µ, ν) un piano di trasporto ottimale tra µ e ν (sappiamo che
un tale π esiste grazie al Teorema 1.3.3) e sia (ϕ, ϕ∗ ) una coppia soluzione del
problema duale
(1.76)
inf J(ϕ, ψ)
e
Φ
come nel Teorema 1.5.2: la relazione (1.53) fornisce
Z
Z
hx, yi dπ(x, y) =
Z
ϕ(x) dµ(x) +
ϕ∗ (y) dν(y)
(1.77)
e poichè π ∈ Γ(µ, ν) ne ricaviamo
Z
(ϕ(x) + ϕ∗ (y) − hx, yi) dπ(x, y) = 0.
(1.78)
16
D'altra parte questo integrando è non negativo (in base alla denizione di trasformata di Legendre) e dunque grazie alla disuguaglianza di Markov
ϕ(x) + ϕ∗ (y) = hx, yi ,
π − q.o.
(1.79)
però il Teorema A.2.3 ci dice che questo equivale a dire y ∈ ∂ϕ(x) per π -q.o.
(x, y). Viceversa, assumendo di avere un piano π tale che esista una funzione
convessa ϕ a guisa che y ∈ ∂ϕ(x) per π quasi ogni (x, y) possiamo ripercorrere
in senso inverso i passi precedenti, no a giungere alla relazione
Z
Z
Z
hx, yi dπ(x, y) =
Rn ×Rn
ϕ(x) dµ(x) +
Rn
ϕ∗ (y) dν(y)
Rn
(1.80)
ed a questo punto è chiaro sempre per la relazione (1.53) che tanto π quanto la
coppia (ϕ, ϕ∗ ) devono essere ottimali per i rispettivi problemi. Questo conclude
la dimostrazione della parte 1. del teorema.
• Step 2. Siano π e (ϕ, ϕ∗ ) come sopra e si assuma ora che µ Ln . Sappiamo che
ϕ ∈ L1 (µ) e dunque assume valori niti µ-q.o., che è come dire µ(Dom(ϕ))=1. Del
resto, come discusso nella Sezione A.1, il bordo ∂ Dom(ϕ) è trascurabile (in quanto
bordo di un convesso) per la misura di Lebesgue, per cui si conclude per dierenza
che µ(Int(Dom(ϕ)))=1. Ma a questo punto il Teorema A.1.2 assicura che ϕ sia
dierenziabile (in senso classico) µ-q.o. ovvero per µ-q.o. x il sottodierenziale
∂ϕ(x) consiste del solo elemento {∇ϕ(x)} . Questo basta per asserire pure che
y = ∇ϕ(x) per π -q.o. (x, y) e che dunque ogni piano ottimale π deve essere
rappresentabile nella forma (Id × ∇ϕ)] µ per una qualche funzione convessa ϕ e
sappiamo già pure che (almeno) un tale piano eettivamente esiste.
• Step 3. Vediamo ora la parte di unicità. Sia ϕ un'altra funzione convessa tale che
∇ϕ] µ = ν : vogliamo provare che in eetti ∇ϕ = ∇ϕ a meno di un insieme µtrascurabile. Grazie al criterio di ottimalità di Knott-Smith, il piano (id × ∇ϕ)] µ
è ottimale e di conseguenza la coppia (ϕ, ϕ∗ ) è ottimale per il problema duale, al
pari di (ϕ, ϕ∗ ). Perciò
Z
Z
Z
Z
∗
ϕ dµ +
ϕ dν =
ϕ dµ +
ϕ∗ dν.
(1.81)
Rn
Rn
Rn
Rn
Indichiamo ora con π il piano ottimale associato a ϕ ovvero π = (Id × ∇ϕ)] µ.
Possiamo riscrivere l'uguaglianza sopra nella forma
Z
Z
∗
[ϕ(x) + ϕ (y)] dπ(x, y) =
Rn ×Rn
[ϕ(x) + ϕ∗ (y)] dπ(x, y)
(1.82)
[hx, yi] dπ(x, y),
(1.83)
Rn ×Rn
Z
=
Rn ×Rn
ovvero applicando il teorema di integrazione rispetto ad un push-forward (1.1.2)
Z
∗
Z
[hx, ∇ϕ(x)i] dµ(x).
[ϕ(x) + ϕ (∇ϕ(x))] dµ(x) =
Rn
Rn
17
(1.84)
Ne segue che
Z
[ϕ(x) + ϕ∗ (∇ϕ(x)) − hx, ∇ϕ(x)i] dµ(x) = 0.
Rn
(1.85)
Ragionando come al punto iniziale, concludiamo che deve valere
∇ϕ(x) ∈ ∂ϕ(x)
(1.86)
per µ-q.o.x. D'altro canto, in base allo Step 2, ϕ è dierenziabile µ-q.o. ed allora
in denitiva
∇ϕ(x) = ∇ϕ(x)
(1.87)
sempre per µ-q.o.x. Abbiamo così mostrato non solo l'unicità della soluzione del
problema di Monge-Kantorovich, ma anche l'unicità del gradiente di una funzione
convessa ∇ϕ che porti µ verso ν ovvero tale che ∇ϕ] µ = ν.
• Step 4. Mostriamo ora che supp(ν) = ∇ϕ(supp(µ)). Sia x ∈ supp(µ) un punto
di dierenziabilità per ϕ e sia corrispondentemente y = ∇ϕ(x) : sappiamo dal
Teorema A.1.6 che dato comunque > 0 esiste δ > 0 di modo che
∇ϕ(Bδ (x)) ⊂ B (y).
(1.88)
ν(B (y)) ≥ µ ∇ϕ−1 (∇ϕ(Bδ x)) ≥ µ [Bδ (x)] .
(1.89)
Di conseguenza
Però si è scelto x ∈ supp(µ) e dunque µ [Bδ (x)] > 0 per cui per confronto ν(B (y)) > 0 che implica y ∈ supp(ν) in ragione dell'arbitrarietà di . In
denitiva, abbiamo mostrato che dev'essere
∇ϕ(supp(µ)) ⊂ supp(ν).
(1.90)
D'altra parte ν [∇ϕ(supp(µ))] ≥ µ [supp(µ)] = 1. Questo vuol dire che ν è concentrata sull'insieme ∇ϕ(supp(µ)) e perciò, in base alla denizione stessa di supporto
di una misura
(1.91)
supp(ν) ⊂ ∇ϕ(supp(µ)).
Mettendo insieme le due inclusioni appena ottenute e passando alle chiusure
topologiche si ottiene la tesi.
• Step 5. Servendoci ancora del Teorema A.2.3 abbiamo che π -q.o. vale x ∈ ∂ϕ∗ (y).
L'argomento già usato all'inizio del punto 2. ci consente poi di sapere che ϕ∗ è
dierenziabile ν -q.o. e perciò che π -q.o. deve aversi
x = ∇ϕ∗ (y) = ∇ϕ∗ (∇ϕ(x)).
(1.92)
Ciò implica che
18
(1.93)
x = ∇ϕ∗ (∇ϕ(x))
a parte un insieme µ-trascurabile. La restante parte della tesi segue per simmetria.
In eetti, è possibile ranare l'enunciato precedente del teorema di Brenier (1.5.3 parte
2.) eliminando l'ipotesi di nitezza dei momenti secondi di µ e ν. Questo risultato,
dovuto a McCann, è dimostrato in [22]:
Teorema 1.5.5. Siano µ e ν due misure di probabilità su Rn e si supponga µ Ln .
Allora vi è un'unica8 mappa misurabile T tale che T] µ = ν ed inoltre T = ∇ϕ per
qualche funzione convessa ϕ.
Sorprendentemente, la dimostrazione di questo teorema non si basa su risultati di
dualità (sulla scia di quanto visto sopra), ma sulla nozione di ciclica monotonia che ora
introduciamo.
Denizione 1.5.6. Un sottinsieme Γ ⊂ Rn × Rn si dice ciclicamente monotono se e
solo verica la condizione seguente: per ogni m ≥ 1, e per qualunque scelta di m coppie
di punti (x1 , y1 ), . . . , (xm , ym ) in Γ,
m
X
2
|xi − yi | ≤
m
X
2
|xi − yi−1 | ,
(1.94)
i=1
i=1
con la convenzione y0 = ym , od equivalentemente
m
X
hyi , (xi+1 − xi )i ≤ 0
(1.95)
i=1
con la convenzione xm+1 = x1 .
Questa nozione, originata dallo studio del caso discreto, si è rivelata essere una utile
condizione necessaria e suciente di ottimalità (rispetto al problema di Kantorovich
con costo quadratico) come attestato dai teoremi seguenti:
Teorema 1.5.7. Siano µ e ν due misure di probabilità su Rn e sia π ∈ Γ(µ, ν) un
piano ottimale rispetto al problema di trasporto ottimo di Kantorovich da µ a ν con
costo quadratico c(x, y) = |x − y|2 . Allora il supporto di π è ciclicamente monotono.
Allo stato attuale della conoscenza matematica, non è noto se l'inverso del precedente
teorema sia sempre vero, ma ci si avvicina molto col seguente risultato, dovuto ad
Ambrosio:
Teorema 1.5.8. Siano µ e ν due misure di probabilità su Rn tali che valga la condi-
zione
Z
2
|x − y| dµ(x)dν(y) < +∞
Rn ×Rn
8 L'unicità è da intendersi nel senso che due mappe T , T come nell'enunciato del teorema devono
1
2
coincidere µ-quasi ovunque.
19
e sia π ∈ Γ(µ, ν) un piano con supporto ciclicamente monotono. Allora π è un piano
ottimale per il problema di Kantorovich del trasporto ottimo di µ verso ν con costo
quadratico c(x, y) = |x − y|2 .
Per la dimostrazione di questi due teoremi nel caso di costi c ≥ 0 si veda [2].
Sulla base dei vari risultati esposti in questa sezione è naturale domandarsi che relazione intercorra tra le nozioni di ciclica monotonia e di inclusione nel (graco del)
sottodierenziale di una funzione convessa. Una risposta esaustiva in tal senso si deve
al celebre teorema di Rockafellar:
Teorema 1.5.9. Un sottinsieme non vuoto Γ ⊂ Rn ×Rn è ciclicamente monotono se e
solo se è incluso nel sottodidderenziale di una funzione convessa propria e semicontinua
inferiormente ϕ denita su Rn . Inoltre, gli insiemi ciclicamente monotoni massimali
(rispetto all'inclusione) sono esattamente i (graci dei) sottodierenziali di funzioni
convesse proprie semicontinue inferiormente.
La dimostrazione di questo teorema, sorprendentemente elementare, è presente in qualunque testo sulla teoria del trasporto ottimo di massa, ad esempio [31]. Mettendo
insieme i teoremi 1.5.7 e 1.5.9 si ottiene immediatamente la generalizzazione seguente
del criterio di ottimalità di Knott-Smith:
Teorema 1.5.10. Siano µ, ν misure di probabilità su Rn e sia π ∈ Γ(µ, ν) un piano
di trasporto. Se π è ottimale per il problema di Kantorovich con costo quadratico,
2
c(x, y) = |x − y| , allora π è supportato nel sottodierenziale di una funzione convessa
propria semicontinua inferiormente.
Capitolo 2
Aspetti metrici: le distanze di
Wasserstein
2.1 Le distanze di Wasserstein
Dopo la necessaria introduzione del Capitolo 1 al problema di Monge-Kantorovich, vogliamo ora avvicinarci al principale oggetto di questa tesi discutendo alcuni aspetti metrici della teoria del trasporto con particolare riferimento alla distanza di Wasserstein,
che ora deniamo:
Denizione 2.1.1. Sia X uno spazio metrico polacco munito d'una distanza d e sia
p ≥ 0 un numero reale non negativo. Considereremo nel seguito una funzione costo
c(x, y) = d(x, y)p , con la convenzione che d(x, y)0 = 1x6=y . Useremo inoltre l'abbreviazione Tp (µ, ν) = Tdp (µ, ν) per il costo ottimo di trasporto tra µ e ν secondo la funzione
costo c(x, y) = d(x, y)p . Deniamo allora Pp (X) come la famiglia delle probabilità (sia
µ la generica) su X aventi momento p-esimo nito, cioè quelle per cui esista un punto
x0 ∈ X tale che
Z
d(x, x0 )p dµ < +∞.
X
(Si osservi che se d è limitata, allora Pp (X) coincide con P(X)) .
Teorema 2.1.2.
Pp (X).
1. Per ogni p ∈ [1, ∞) , Wp := Tp1/p denisce una distanza su
2. Per ogni p ∈ [0, 1), Wp := Tp denisce una distanza su Pp (X).
Osservazione 2.1.3. Se d è limitata il precedente teorema implica che Wp denisca una
distanza su P(X).
Prima della dimostrazione, vale la pena di dire che nei casi più importanti, ovvero
p = 2 e p = 1 si usa una terminologia particolare: distanza di Wasserstein quadratica
nel primo caso e distanza di Kantorovich-Rubinstein nel secondo (quest'espressione è
già stata usata nel capitolo 1 a proposito del corollario di invarianza per sottrazione
delle masse comuni).
Dimostrazione. Ci limitiamo a provare la parte 1., che è quanto ci servirà in seguito, omettendo le pur facili varianti per ottenere gli altri casi. Per maggior chiarezza
distinguiamo i vari passi
20
Capitolo 2. Aspetti metrici: le distanze di Wasserstein
21
• Buona denizione: basta osservare che µ ⊗ ν ∈ Γ(µ, ν) ed usare la disuguaglianza
triangolare per d(·, ·):
d(x, y) ≤ d(x, x0 ) + d(x0 , y) =⇒ d(x, y)p
≤ (d(x, x0 ) + d(x0 , y))p ≤ 2p [d(x, x0 )p + d(x0 , y)p ]
ora integro ambo i membri in d(µ⊗ν) ed usando le ipotesi di nitezza dei momenti
p-esimi di µ e ν ottengo la tesi.
• Simmetria: è immediata conseguenza della simmetria del problema di Kantoro-
vich, già discussa nel capitolo 1.
• Distanza Nulla: si osservi dapprima che Wp (µ, ν) = 0 ⇔ ∃γ ∈ Γ(µ, ν) concentrato
sulla diagonale ∆ di X × X . Da ciò un' implicazione è ovvia prendendo la
mappa di Monge identica id : X → X e γ = (id × id)] µ, che è un piano di
Kantorovich concentrato su ∆. Per l'altra implicazione si prenda un piano γ
ottimale ( sappiamo che esiste ), il quale sarà concentrato su ∆ (facile verica) e
perciò π1] γ = π2] γ. Infatti, dato comunuqe B ∈ B(X) vale
π1] γ(B) = γ(π1−1 (B) ∩ (∆)) = γ((B × X) ∩ ∆) = γ((X × B) ∩ ∆)
= γ(π2−1 (B) ∩ (∆)) = π2] γ(B),
che in ragione della condizione di ammissibilità, per confronto, vuol dire µ = ν.
• Proprietà Triangolare: La dimostrazione è basata sul seguente
Lemma 2.1.4 (Gluing). Siano µ1 , µ2 , µ3 misure di probabilità su spazi polacchi
X1 , X2 , X3 rispettivamente e siano π12 , π23 piani di trasporto tra µ1 , µ2 nel primo
caso e µ2 , µ3 nel secondo. Allora esiste una misura di probabilità π su P(X1 ×
X2 × X3 ) tale da avere π12 come marginale su X1 × X2 e π23 come marginale su
X2 × X3 .
La dimostrazione di questo lemma, basata sulla nozione di disintegrazione di misure, sarà data in seguito. Vediamo invece subito come esso consenta di concludere con facilità la disuguaglianza triangolare per la distanza di Wasserstein. Siano
date dunque µ1 , µ2 , µ3 ∈ Pp (X) ed etichettiamo con X1 , X2 , X3 ( ma questa è solo
una convenzione per rendere più chiara la notazione, dacchè X1 = X2 = X3 = X )
gli spazi su cui queste misure sono supportate, e siano π12 un piano ottimale tra
µ1 eµ2 , π23 un piano ottimale tra µ2 e µ3 ed inne sia π come nell'enunciato del
lemma precedente. Si verica immediatamente dalla denizione che π ha come
marginale su X1 × X3 un piano ammissibile π13 tra µ1 e µ3 . Inoltre, sfruttando successivamente la disuguaglianza triangolare, le proprietà dei marginali e la
disuguaglianza di Minkowski in Lp abbiamo la seguente catena di disuguaglianze:
Z
Wp (µ1 , µ3 ) ≤
X1 ×X3
1/p
d(x1 , x3 ) dπ13 (x1 , x3 )
p
(2.1)
22
1/p
d(x1 , x3 ) dπ(x1 , x2 , x3 )
(2.2)
1/p
(d(x1 , x2 ) + d(x2 , x3 ))p dπ(x1 , x2 , x3 )
(2.3)
Z
p
=
X1 ×X2 ×X3
Z
≤
X1 ×X2 ×X3
Z
1/p
p
≤
(d(x1 , x2 )) dπ12 (x1 , x2 )
Z
+
X1 ×X2
1/p
d(x1 , x3 ) dπ23 (x2 , x3 )
p
X2 ×X3
= Wp (µ1 , µ2 ) + Wp (µ2 , µ3 ).
(2.4)
(2.5)
1
Dobbiamo a questo punto dimostrare il lemma di Gluing. Come già anticipato, l'argomento in questo caso si basa su un concetto importante in probabilità: quello di
disintegrazione di misure. Siano X ed Y spazi polacchi, sia poi λ una misura di probabilità sullo spazio prodotto X × Y e sia σ il marginale su X di λ. Un ben noto risultato
- il lemma di disintegrazione, appunto - asserisce l'esistenza di una applicazione da X
in P(Y ) della forma x 7→ λx tale che valga la relazione (da intendersi tra probabilità
su X × Y ) :
Z
λ=
δx ⊗ λx dσ(x),
(2.6)
X
la quale implica che per ogni insieme A , misurabile della tribù boreliana di X × Y
Z
λ(A) =
λ(Ax ) dσ(x)
(2.7)
X
(ove al solito
Ax = {y ∈ A|(x, y) ∈ A})
(2.8)
ovvero che per ogni u ∈ Cb (X × Y ),
Z
Z Z
u(x, y) dλ(x, y) =
X×Y
u(x, y) dλx (y) dσ(x).
X
(2.9)
Y
Si suole dire che l'applicazione x 7→ λx è una famiglia di Borel ad indicare che per ogni
boreliano B in X × Y l'applicazione x 7→ λx (Bx ) è boreliana.
Osserviamo, per completezza, che una siatta famiglia di Borel non è univocamente
determinata, ma lo è solo σ -q.o. in X .
Tornando ora alla dimostrazione del lemma, è suciente applicare una disintegrazione
di π12 e π23 rispetto al fattore comune X2 a guisa che valgano le relazioni:
Z
π12;2 ⊗ δx2 dµ2 (x2 )
π12 =
(2.10)
X2
1 Sottolineiamo
che l'ultimo passaggio si basa sul fatto d'aver scelto dei piani π12 e π23 ottimali.
23
Z
(2.11)
δx2 ⊗ π23;2 dµ2 (x2 )
π23 =
X2
(ove π12;2 π23;2 indicano le applicazioni da X2 in P(X1 ) e P(X3 ) rispettivamente
secondo l'enunciato del lemma di disintegrazione) e prendere poi
Z
(2.12)
(π12;2 ⊗ δx2 ⊗ π23;2 ) dµ2 (x2 ).
π=
X2
È infatti immediato a questo punto vericare che π abbia le proprietà richieste.
2.2 Ordinamenti tra misure di Wasserstein
Meritano a questo punto d'essere menzionate (e saranno utilizzate in seguito) le proprietà di ordinamento delle misure di Wasserstein. Con questa espressione intendiamo
quanto segue:
1.
(2.13)
1 ≤ p ≤ q =⇒ Wp ≤ Wq
da intendersi riferita a qualunque possibile coppia di probabilità sullo spazio polacco considerato X. Tale relazione è una ovvia conseguenza della disuguaglianza
di Hölder.
2.
p
p
1 ≤ p ≤ q =⇒ Wq ≤ Wpq diam(X)1− q .
(2.14)
Per provare questa disuguaglianza è suciente maggiorare, nella denizione di
Wq , d(x, y)q con d(x, y)p · (diam(X)q−p .
Segue da questi punti il fatto che se lo spazio X su cui lavoriamo è limitato, nel senso
che diam(X) < +∞, allora tutte le distanze di Wasserstein Wp per p ≥ 1 sono tra loro
topologicamente equivalenti, cioè inducono su P(X) la stessa topologia.
2.3 Caratterizzazioni equivalenti della convergenza in
metrica Wasserstein
L'obbiettivo di questo paragrafo è di caratterizzare in modo più signicativo (ed utile
per le applicazioni del prossimo capitolo) la convergenza secondo la metrica di Wasserstein. Assumeremo di lavorare su uno spazio polacco X, del quale la topologia sia
indotta da una distanza d e considereremo gli spazi Pp (X) limitatamente ai casi p ≥ 1.
Una teorema molto esaustivo a tal ne è il seguente (la cui formulazione è tratta da
[31]:
Teorema 2.3.1. Sia (µk ) una successione di misure di probabilità in Pp (X) e sia pure
µ ∈ Pp (X).
Allora sono equivalenti i seguenti asserti:
1. Wp (µk , µ) −→ 0 per k −→ ∞.
24
2. µk −→ µ in senso debole per k −→ ∞ e vale la seguente condizione (che nel
seguito chiameremo di tensione): per un certo x0 ∈ X (e quindi per ciascun x0 )
Z
lim lim sup
R→∞ k→∞
d(x0 , x)p dµk (x) = 0.
(d(x0 ,x)≥R
3. µk −→ µ in senso debole per k −→ ∞ e vale la seguente condizione di convergenza
dei momenti p-esimi: per un certo x0 ∈ X (e quindi per ciascun x0 )
Z
lim
k→∞
d(x0 , x)p dµk =
Z
d(x0 , x)p dµ.
4. Per ogni funzione continua ϕ, che soddis una condizione di crescita |ϕ(x)| ≤ C ·
[1+d(x0 , x)p ] per una certa costante C ed un punto x0 di X, valga la convergenza:
Z
lim
k→∞
Z
ϕ(x) dµk (x) =
ϕ(x) dµ(x).
Prima di sviluppare la lunga dimostrazione del teorema precedente, pare opportuno
fare alcune osservazioni.
Osservazioni 2.3.2.
• Nell'enunciato dei punti 2., 3. e 4. è di fatto equivalente
utilizzare il quanticatore esistenziale ∃ oppure il quanticatore universale ∀,
dal momento che servendosi della disuguaglianza triangolare per la distanza di
Wasserstein è immediato provare che se esiste un punto x0 per il quale siano
vericate l'una o l'altra di queste condizioni, allora necessariamente ciò sarà vero
quale che sia il punto x0 ∈ X considerato.
• Il valore del teorema precedente sta principalmente nel fornire una condizione di
carattere metrico per la descrizione della convergenza debole. In eetti questa
equivalenza vale - in accordo alla condizione 2. - solo per famiglie di elementi
di Pp (X) le quali soddisno alla condizione di tensione lì indicata. Tuttavia se
la distanza d è limitata, tale condizione è certamente vericata per cui in eetti
sussiste una piena equivalenza tra la convergenza debole (rispetto a Cb ) e la convergenza metrica secondo la distanza di Wasserstein. Grazie a tale osservazione,
dato un generico spazio polacco X e considerata la convergenza debole in P(X)
si può sempre dire che essa deriva da una metrica semplicemente rimpiazzando d con una nuova distanza ad essa topologicamente equivalente e limitata (ad
esempio si prenda d∗ = d/(1 + d)).
• Il fatto di operare con la convergenza nella distanza di Wasserstein consente di
beneciare appieno di una struttura metrica su P(X), per cui è ad esempio ovvio
che se Wp (µk , µ) → 0 e Wp (νk , ν) → 0, allora necessariamente Wp (µk , νk ) →
Wp (µ, ν), e di ciò ci serviremo tra poco.
Dimostrazione. Seguiremo il seguente schema: 4. ⇒ 3. ⇒ 2. ⇒ 4. e successivamente
faremo vedere l'equivalenza di 1. e 3. L'implicazione 4. ⇒ 3. è ovvia (stiamo considerando dei casi particolari). Per l'implicazione 3. ⇒ 2, basta combinare in modo
opportuno i fatti seguenti:
25
• l'ipotesi di convergenza dei momenti p−esimi
Z
Z
lim
d(x0 , x)p dµk = d(x0 , x)p dµ
(2.15)
• la convergenza monotona delle troncate
Z
Z
p
lim
[d(x0 , x) ∧ R] dµ = d(x0 , x)p dµ
(2.16)
• la relazione che segue dall'ipotesi di convergenza debole
Z
Z
p
lim
[d(x0 , x) ∧ R] dµk = [d(x0 , x) ∧ R]p dµ
(2.17)
k→∞
R→∞
k→∞
per ottenere subito
Z
lim lim
R→∞ k→∞
d(x0 , x)p − [d(x0 , x) ∧ R]p dµk = 0.
(2.18)
A questo punto si prenda ad esempio d(x0 , x) ≥ 2 · R per cui d(x0 , x)p − Rp ≥ (1 −
2−p )d(x0 , x)p e sostituendo nell'ultima relazione trovata si ha
Z
d(x0 , x)p dµk = 0.
lim lim sup
R→∞ k→∞
(2.19)
d(x0 ,x)≥2R
Vediamo ora l'implicazione 2. ⇒ 4.: data un'arbitraria funzione ϕ che soddis la
condizione 4., non è lesivo di generalità (a meno di dividere parte positiva e parte
negativa) assumere ϕ ≥ 0. A questo punto eseguiamo ancora una troncatura, scrivendo
cioè (per R ≥ 1)
ϕ(x) = ϕR (x) + ψR (x)
(2.20)
con
ϕR (x) = min(ϕ(x), C(1 + Rp )).
(2.21)
Segue che:
Z
Z
Z
Z
Z
Z
ϕ dµk − ϕ dµ ≤ ϕR dµk − ϕR dµ + ψR dµk − ψR dµ,
(2.22)
ma ora è immediato constatare che ψR (x) è sempre maggiorato da Cd(x0 , x)p χd(x0 ,x)≥R ,
per cui vale
Z
Z
Z
ψR dµk − ψR dµ ≤ C
d(x0 , x)p [dµk + dµ].
(2.23)
d(x0 ,x)≥R
Si conclude passando prima al limite k → ∞ per ottenere
Z
Z
Z
lim sup ϕ dµk − ϕ dµ ≤ lim sup C
k→∞
k→∞
d(x0 ,x)≥R
d(x0 , x)p [dµk + dµ]
(2.24)
26
e poi prendendo R → ∞ sì da avere 0 a secondo membro grazie all'ipotesi per il primo
addendo ed al teorema di Lebesgue per il secondo.
A questo punto non ci resta che provare l'equivalenza tra 1. e 3., che è in eetti la
parte più signicativa della dimostrazione.
1. ⇒ 3. La condizione di convergenza dei momenti p−esimi è certamente vericataR in ragione dell'ultima delle osservazioni
premesse a questa dimostrazione poichè
R
( d(x0 , x)p dµ)1/p = Wp (µ, δx0 ) e ( d(x0 , x)p dµk )1/p = Wp (µk , δx0 ). Per la seconda
parte, aermo anzitutto che non è lesivo di generalità assumere che la distanza d sia
limitata. Infatti, sia d0 = inf(d, 1) ed indichiamo con Wp0 la corrispondente distanza di
Wasserstein p−esima: mostreremo ora che assumendo vera la 3. e, supponendo di aver
provato la 1. per Wp0 , si deduce subito anche la 1. per la distanza di Wasserstein Wp .
Per fare ciò si considera la seguente disuguaglianza (di facile verica):
d(x, y) ≤ d(x, y) ∧ R + 2d(x, x0 )χd(x,x0 )≥R/2 + 2d(y, x0 )χd(x0 ,y)≥R/2
(2.25)
ed il suo corollario
d(x, y)p ≤ Cp ([d(x, y)∧R]p +[2d(x, x0 )χd(x,x0 )≥R/2 ]p +[2d(y, x0 )χd(x0 ,y)≥R/2 ]p ), (2.26)
ove Cp è una costante numerica che dipende solo da p. Sia poi πk un piano di trasporto
ottimo tra µk e µ rispetto al costo di trasporto dp . Allora, non appena si abbia R ≥ 1,
otteniamo sfruttando la relazione precedente
(Wp (µk , µ))p =
Z
≤ Cp
Z
Z
p
(2.27)
d(x, y)p dπk
d(x0 , x)p dπk (x, y)
[d(x, y) ∧ R] dπk (x, y) + Cp
d(x,x0 )≥R/2
Z
d(x0 , y)p dπk (x, y)
+Cp
d(y,x0 )≥R/2
≤ Cp R
p
(Wp0 (µk , µ))p +Cp
Z
Z
p
d(x0 , y)p dµ(y).
d(x0 , x) dµk (x)+Cp
d(x,x0 )≥R/2
d(y,x0 )≥R/2
Per concludere basta ora passare al limite prima per k → +∞ e poi per R → +∞
sfruttando l'ipotesi 3. Nel seguito di questa dimostrazione assumeremo dunque di
operare con una distanza d limitata, diciamo d ≤ 1. Per quanto concerne la convergenza
debole procediamo ora per passi:
• Step 1-riduzione al caso p = 1: grazie alla proprietà 1. di ordinamento tra
distanze di Wasserstein abbiamo che Wp (µk , µ) → 0 ⇒ W1 (µk , µ) → 0.
• Step 2-funzioni 1-lipschitziane: circa la convergenza in W1 possiamo applicare il
teorema di Kantorovich-Rubinstein per concludere
Z
sup
X
1
1
ϕ d(µk − µ); ϕ ∈ L (µ) ∩ L (µk ); kϕkLip ≤ 1
−→ 0
(2.28)
per k → ∞ sicchè la proprietà di convergenza debole è vericata per le funzioni
1-lipschitziane .
27
• Step 3-funzioni l-lipschitziane: è una banale conseguenza del passo precedente a
patto di normalizzare ciascuna assegnata funzione lipschitziana per la sua kϕkLip .
• Step 4-funzioni continue e limitate: si applica un procedimento di approssimazio-
ne basato sul seguente lemma di topologia per spazi metrici: data una qualunque
funzione continua e limitata esistono due successioni di funzioni (fn ) e (gn ) lipschitziane, uniformemente limitate e tali che puntualmente valga fn ↑ ϕ e gn ↓ ϕ.
Allora
Z
lim sup
Z
Z
ϕ dµk ≤ lim inf lim sup
n→∞
k→∞
gn dµk = lim inf
k→∞
n→∞
Z
gn dµ =
ϕdµ
(2.29)
ove l'ultima uguaglianza
si ottiene
applicando il teorema di Lebesgue. AnalogaR
R
mente, lim inf k→∞ ϕ dµk ≥ ϕ dµ e da ciò si ottiene la tesi.
3. ⇒ 1.: Ricordiamo dapprima che grazie a quanto discusso sopra, possiamo assumere
che tutte le distanze di Wasserstein siano tra loro equivalenti sicchè ci si può ridurre ad
operare con la W1 , per la quale sappiamo valere il teorema di Kantorovich-Rubinstein
che consente di tradurre la 1. nella forma equivalente
Z
sup
X
ϕ d(µk − µ); kϕkLip
≤ 1 −→k→∞ 0.
(2.30)
Nella precedente, inoltre, possiamo assumere senza perdita di generalità che le funzioni
ϕ siano limitate da 1 in valore assoluto (ciò è legittimato dal teorema di dualità stesso).
Assumiamo dunque che valga µk * µ in senso debole e proviamo la 2.30 . Denotiamo
con Lip1;x0 (X) l'insieme delle funzioni ϕ denite su X a valori reali, lipschitziane di
costante al più 1 e tali che ϕ(x0 ) = 0 : è evidente che occorre e basta per ottenere la
tesi mostrare che
Z
sup
ϕ d(µk − µ) →k→∞ 0.
(2.31)
ϕ∈Lip1;x0 (X)
A questo punto, grazie al teorema di Prohorov, sappiamo che µk * µ implica la
condizione di tensione della µk , sicché esiste una successione di compatti Kn ⊆ X tali
che supk µk (Knc ) ≤ 1/n e µ(Knc ) ≤ 1/n e questo ∀n ∈ N, con l'ulteriore proprietà che
sia x0 ∈ K1 . Inoltre, per ogni n ∈ N,
{ϕχKn |ϕ ∈ Lip1;x0 (X)}
(2.32)
è un sottinsieme di Lip1;x0 (Kn ) e, per il teorema di Ascoli-Arzelà è un sottinsieme
compatto di Cb (Kn ) (rispetto alla usuale norma della convergenza uniforme). Ciò garantisce che per ogni valore di n, e per ogni successione in Lip1;x0 (X) si possa estrarre
una sottosuccessione convergente uniformemente su Kn . Grazie ad un argomento diagonale, possiamo ora estrarre da ogni successione in Lip1;x0 (X) una sottosuccessione
convergente su ciascun compatto Kn ad una funzione misurabile ϕ∞ , denita per incollamento su S = ∪Kn , la quale sarà in eetti limitata e lipschitziana, essendo la
successione da cui siamo partiti uniformemente limitata ed uniformemente lipschitziana. Per applicare questa costruzione, consideriamo una successione (ϕk ) che verichi
28
la disuguaglianza
Z
Z
ϕ d(µk − µ) ≤
sup
ϕk d(µk − µ) +
ϕ∈Lip1;x0 (X)
1
.
k
(2.33)
Vi è dunque una sottosuccessione, che denotiamo ancora con (ϕk ), che converge, uniformemente su ogni compatto Kn , ad una funzione 1 − lipschitziana ϕ∞ denita su
S = ∪Kn . È ora un fatto generale che una funzione 1−lipschitziana denita su un sottinsieme S di uno spazio metrico X possa essere estesa ad una funzione 1−lipschitziana
su tutto X 2 : nel nostro caso estendiamo ϕ∞ a tutto X, ottenenendo una funzione che
in particolare sarà continua e limitata R(perchè d stessa lo è). Per concludere la dimostrazione, non ci resta che provare che ϕk d(µk − µ) tende a 0 per k → ∞. Possiamo
scrivere
Z
Z
ϕk d(µk − µ) ≤ Kn
Z
(ϕk − ϕ∞ ) d(µk − µ) + c
Kn
(ϕk − ϕ∞ )d(µk − µ)
Z
+ ϕ∞ d(µk − µ).
(2.34)
X
Analizziamo ora uno per uno i tre addendi così ottenuti: il primo tende a 0 per k → ∞
in ragione della convergenza uniforme di ϕk verso ϕ∞ ; il secondo si maggiora con
C(µk (Kn ) + µ(Kn )) ≤ 2C/n dove C è una costante che maggiori tutte le ϕk e pure la
ϕ∞ . Inne il terzo va a 0 grazie all'ipotesi di convergenza debole µk * µ. Non resta
allora che prendere prima il limite per n → ∞ e poi per k → ∞ ottenere la tesi.
Concludiamo questo capitolo enunciando una proprietà di semicontinuità della distanza
di Wasserstein della quale ci serviremo nel prossimo capitolo.
Teorema 2.3.3. Siano µ1n e µ2n due successioni di probabilità in Pp (X) convergenti
in senso debole (ovvero nella dualità con Cb ) a µ1 edR a µ2 rispettivamente e sia πn ∈
Γo (µ1n , µ2n ) una successione di piani ottimali tali che X×X dp (x1 , x2 ) dπn sia limitata.
Allora (πn ) è relativamente compatta rispetto alla convergenza debole in P(X × X) ed
ogni suo punto limite π appartiene a Γo (µ1 , µ2 ), con
Z
Wp (µ1 , µ2 ) =
dp (x1 , x2 ) dπ(x1 , x2 )
(2.35)
X×X
Z
≤ lim inf
n→∞
dp (x1 , x2 ) dπn (x1 , x2 ) = lim inf Wp (µ1n , µ2n ).
X×X
n→∞
(2.36)
La dimostrazione di questo risultato, che si richiama ampiamente agli argomenti utilizzati per il teorema di esistenza 1.2.3, si può trovare, ad esempio, in [1] .
2 Si
tratta del ben noto teorema di McShane.
Capitolo 3
Equazione di Monge-Ampère
3.1 Presentazione
Scopo di questo capitolo è la presentazione dell'equazione di Monge-Ampère e la dimostrazione di un importante risultato, dovuto a McCann [21] del quale sarà fatto
uso frequente in seguito. Il problema che soggiace alle questioni varie che ci stiamo
per porre nei prossimi paragra è lo studio della regolarità delle mappe di trasporto.
Sappiamo infatti che queste, in certe ipotesi, esistono, sono uniche e sono descrivibili
come gradienti di funzioni convesse, ma non molto di più. Per indagare questo aspetto
è opportuno introdurre l'equazione di Monge-Ampère.
Siano dunque µ, ν due misure di probabilità su Rn , assolutamente continue rispetto
alla misura di Lebesgue e perciò aventi densità rispetto a questa che indichiamo con f
e g rispettivamente. Dal Teorema 1.5.5, sappiamo che esiste µ-q.o. un unico gradiente
di funzione convessa ∇ϕ, tale che in particolare per tutte le funzioni test ζ ∈ Cb (Rn )
si abbia
Z
Z
ζ(y)g(y) dy =
ζ(∇ϕ(x))f (x) dx.
(3.1)
Rn
Rn
Se ora assumiamo che ∇ϕ sia smooth (diciamo almeno di classe C 1 ) ed iniettiva (cosa
che in eetti è vera se ϕ è strettamente convessa), possiamo fare un cambio di variabile
a primo membro della (3.1), sì da ottenere
Z
Z
ζ(y)g(y) dy =
Rn
ζ(∇ϕ)g(∇ϕ) det D2 ϕ(x) dx.
Rn
(3.2)
Confrontando ora (3.1) con (3.2), abbiamo, in ragione dell'arbitrarietà di ζ
f (x) = g(∇ϕ(x)) det D2 ϕ(x) ,
(3.3)
la quale equazione, se g è positiva, si può anche scrivere nella forma
det D2 ϕ(x) =
f (x)
.
g(∇ϕ(x))
(3.4)
La precedente non è che un caso particolare dell'equazione di Monge-Ampere in
forma generale
det D2 ϕ(x) = F (x, ϕ(x), ∇ϕ(x)).
(3.5)
Lo studio di questo tipo di equazioni ha ormai una lunga storia e si è grandemente
sviluppato, anche di recente, in ragione del loro frequente ricorso in vari problemi
29
Capitolo 3. Equazione di Monge-Ampère
30
di geometria riemanniana. A titolo puramente esemplicativo, considerando una 2varietà embedded in R3 e descrivibile come graco cartesiano dell'applicazione smooth
ϕ : R2 → R si trova che la curvatura gaussiana di questa nel punto (x, ϕ(x)) è data da
K(x) =
det D2 ϕ(x)
2
(1 + |∇ϕ(x)| )2
(3.6)
cosicchè il problema di costruire una supercie-graco con curvatura gaussiana assegnata in ogni punto da una funzione κ(x) è ricondotto allo studio dell'equazione di
Monge-Ampère
2
det D2 ϕ(x) = κ(x)(1 + |∇ϕ(x)| )2 .
(3.7)
In eetti, questa situazione si presenta in dimensione arbitraria ed è generalizzata dallo
studio delle equazioni di curvatura k-esima assegnata, di notevole rilevanza negli ultimi
anni, principalmente ad opera di Urbas.
3.2 Un approccio tramite linearizzazione
Come vedremo in seguito, lo studio in piena generalità dei problemi di regolarità connessi all'equazione di Monge-Ampère è oltremodo complicato e, ad oggi, è stato portato
a termine solo nel caso di costo quadratico in Rn . Tuttavia, vi sono dei casi nei quali
si possono ottenere risultati interessanti con molto minor sforzo ed uno di questi si ha
quando la mappa ∇ϕ sia una piccola perturbazione dell'identità. Supponiamo cioè di
poter scrivere
2
ϕ(x) = ϕ (x) =
|x|
+ ψ + O(2 ),
2
(3.8)
per una qualche ψ da determinare (e della quale vorremo poi studiare la regolarità) e
g(x) = g (x) = (1 + h(x) + O(2 ))f
(3.9)
per una funzione h nota. Inserendo le precedenti nella (3.3) e sviluppando tutti i
termini al primo ordine, ci si riconduce all'equazione per ψ data da
Lψ = h
(3.10)
L = −∆ + h∇(− log f ), ∇i .
(3.11)
ove si è posto
Questa operazione di linearizzazione, ha dunque trasfomato l'equazione di MongeAmpère per il problema del trasporto, in un'equazione lineare ellittica del secondo
ordine, ovvero della forma
X
i,j
aij
X ∂ϕ
∂2ϕ
+
ai
+ cϕ = h,
∂xi ∂xj
∂xi
i
(3.12)
per le quali sappiamo esistere una teoria ben sviluppata ([16]). In particolare, se f è
strettamente positiva ed inoltre f ed h sono smooth, allora pure ψ lo è. In ogni caso,
lo studio del problema nella sua forma più generale è assai dicile.
31
3.3 Varie nozioni di soluzione debole
Nel ricavare l'equazione (3.3) abbiamo fatto uso della usuale formula di cambio variabile, assumendo cioè che la mappa di trasporto ∇ϕ fosse di classe C 1 e dunque che ϕ fosse
di classe C 2 . Tuttavia, questo non è noto a priori e pertanto è opportuno sviluppare
delle tecniche per studiare l'equazione di Monge-Ampère senza questa supposizione.
Si pone anzitutto il problema di dar senso a tale equazione. Sappiamo infatti, dal
teorema di Brenier che ϕ è convessa, perciò continua e localmente lipschitziana, ma
non necessariamente derivabile due volte. In primo luogo va allora denita la quantità
det D2 ϕ(x), senza alcuna assunzione di regolarità a priori. Questa necessità conduce
direttamente a denire varie nozioni di soluzione debole.
1. Soluzioni secondo Aleksandrov: questa nozione è riferita al concetto di misura hessiana associata a ϕ. Questa è una misura di Borel denita come segue:
per ogni insieme misurabile E ⊂ Rn , poniamo
det D2 ϕ(E) := |∂ϕ(E)|
H
ove
∂ϕ(E) :=
[
∂ϕ(x).
(3.13)
(3.14)
x∈E
Diremo allora che una funzione ϕ è soluzione di (3.5) secondo Aleksandrov se la
misura detH D2 ϕ è assolutamente continua rispetto alla misura di Lebesgue ed
inoltre la relativa densità è data dal membro destro della (3.5). Ci limitiamo ad
enunciare il fatto che quanto appena detto equivale a chiedere che detH D2 ϕ non
abbia parte singolare e valga l'equazione di Monge-Ampère per ϕ con detA D2 ϕ
in luogo di det D2 ϕ.
2. Soluzioni di viscosità: si tratta di una nozione a posteriori equivalente alla
precedente, ma che può risultare più utile in varie situazioni. La denizione non
è unicamente inerente l'equazione di Monge-Ampère, ma è la specicazione di una
classe di soluzioni utile nello studio delle equazioni alle derivate parziali. Diremo
dunque che una funzione ϕ, denita su un insieme aperto Ω ⊂ Rn è soluzione di
viscosità dell'equazione (3.5) se valgono le condizioni seguenti:
• ogni volta che ψ è una funzione test di classe C 2 tale che ϕ − ψ abbia un
punto di massimo locale stretto, si ha det D2 ψ(x0 ) ≥ F (x0 , ϕ(x0 ), ∇ψ(x0 ));
• ogni volta che ψ è una funzione test di classe C 2 tale che ϕ − ψ abbia un
punto di minimo locale stretto, si ha det D2 ψ(x0 ) ≤ F (x0 , ϕ(x0 ), ∇ψ(x0 )).
3. Soluzioni secondo Brenier: questa nozione è strettamente più debole e non si
applica alla forma più generale delle equazioni di Monge-Ampère, bensì solo alle
equazioni di tipo (3.3) oppure (3.4). Per denizione, ϕ è soluzione dell'equazione
(3.4) se vale ∇ϕ] µ = ν con µ e ν misure di probabilità denite da densità f e g
rispettivamente.
Osservazioni 3.3.1.
• Non è dicile dimostrare che se ϕ è dierenziabile due volte con continuità, allora le tre nozioni precedentemente fornite sono tra loro
equivalenti ed equivalgono alla soluzione di Monge-Ampère nel senso standard.
32
• Come anticipato sopra, è possibile costruire semplici esempi di soluzioni dell'e-
quazione di Monge-Ampère secondo Brenier, ma non secondo Aleksandrov. Ciò
avviene quando la misura hessiana detH D2 ϕ ha parte singolare rispetto alla
misura di Lebesgue.
3.4 Regolarità
In questa sezione arriveremo alla dimostrazione del teorema di McCann, cui si è fatto
cenno sopra. Assumeremo sempre µ e ν essere due misure di probabilità su Rn assolutamente continue rispetto alla misura di Lebesgue, con densità rispettivamente f e g.
Dobbiamo anzitutto richiamare un risultato importante.
Teorema (Lebesgue) 3.4.1. Sia dato un aperto Ω ⊂ Rn e sia µ una misura sulla
corrispondente σ-algebra boreliana tale che µ(K) < +∞ per ogni sottinsieme compatto
K di Ω. Supponiamo inoltre µ scomposta secondo Lebesgue nella forma
(3.15)
µ = µa + µs
con µa Ln ed avente densità f (x), x ∈ Ω e µs ⊥Ln . Allora
•
Per q.o. x ∈ Rn ,
µ(Br (x))
→ f (x)
|Br (x)|
(3.16)
per r → 0. I punti per i quali vale tale proprietà si dicono punti di Lebesgue per
µ (ovvero per f ).
•
L'asserto precedente rimane vero se si rimpiazzano le palle Br con una famiglia
di insiemi (Ck )k∈N tali che
Ck = {x}
esistano due famiglie di palle (Bk ) e (Bk0 ) a guisa che Bk ⊂ Ck ⊂ Bk0
T
ed i rapporti |Bk | /Bk0 siano limitati dal basso da una costante positiva ed
indipendente da k.
Forniamo ora un utile lemma.
Lemma(Push-forward in termini di sottodierenziale) 3.4.2.
•
Sia ϕ : Rn → R una funzione convessa e sia µ una misura su Rn assolutamente
continua rispetto alla misura di Lebesgue. Allora per ogni insieme di Borel A ∈
B(Rn ),
∇ϕ] µ(A) = µ(∂ϕ∗ (A)).
•
(3.17)
Assumendo inoltre che la misura ν = ∇ϕµ sia pure assolutamente continua rispetto alla misura di Lebesgue e che f e g siano le densità di µ e ν rispettivamente,
avremo che per ogni A ∈ B(Rn ),
Z
Z
g(y) dy =
∂ϕ(A)
f (x) dx.
A
(3.18)
33
Dimostrazione. Osserviamo anzitutto che insiemisticamente vale ∂ϕ∗ (A) ⊇ ∇ϕ−1 (A).
Infatti, si ha che ∇ϕ(x) = y ⇒ x ∈ ∂ϕ∗ (y) (cfr. Appendice A, Teorema A.2.3). Allora,
dato che µ Ln è suciente provare che l'insieme
(3.19)
Z = ∂ϕ∗ (A) \ (∇ϕ)−1 (A)
ha misura nulla secondo Lebesgue in Rn . D' altro canto, aermo però Z è contenuto
nell'insieme dei punti in cui ϕ non è dierenziabile e quindi - come sappiamo - in un
insieme di misura nulla. Per mostrare questo Ansatz, si noti che se z ∈ ∂ϕ∗ (A), allora
esiste x ∈ A tale che z ∈ ∂ϕ∗ (x), cosa che implica x ∈ ∂ϕ(z). Ora, se z è un punto di
dierenziabilità per ϕ, allora necessariamente ∇ϕ(z) = x ∈ A, cosicchè z ∈ (∇ϕ)−1 (A)
e questo assicura quanto detto. La parte 1. del Lemma è così provata. Per la parte 2. è
suciente ricordare che se ν è assolutamente continua, allora ∇ϕ∗] ν = µ (è il Teorema
1.5.3 parte 4.) ed applicare quanto appena mostrato:
Z
f (x) dx = µ(A) = ∇ϕ∗] ν(A) = ν (∇ϕ∗ )−1 (A) = ν(∂A) =
A
Z
g(y) dy.
(3.20)
∂A
Siamo ora in grado di enunciare il seguente fondamentale risultato, dovuto a McCann
([21]):
Teorema 3.4.3. Siano µ e ν due misure di probabilità su Rn assolutamente continue
rispetto alla misura di Lebesgue ed aventi densità f e g rispettivamente e sia ϕ una
funzione convessa tale che ∇ϕ] µ = ν con Ω =Int(Dom(ϕ)). Indicando con det DA2 ϕ
il determinante della matrice hessiana di ϕ nel senso di Aleksandrov (che ricordiamo
essere una funzione ben denita q.o., non negativa di L1loc (Ω),) sia poi M ⊂ Ω l'insieme
dei punti ove DA2 ϕ è denita, invertibile e che sono anche punti di Lebesgue per la
funzione det DA2 ϕ. Allora
1. M ha misura piena per µ e ∂ϕ(M ) ha misura piena per ν.
2. La misura det DA2 ϕ(x)dx coincide con la parte assolutamente continua della misura hessiana detH D2 ϕ, è concentrata in M e soddisfa la formula di push-forward
2
∇ϕ] det DA
ϕ(x)dx = 1∂ϕ(M ) dx.
(3.21)
3. Per q.o. x ∈ Rn vale l'equazione di Monge-Ampère
2
det DA
ϕ(x)g(∇ϕ(x)) = f (x).
(3.22)
4. Per ogni funzione U misurabile non negativa su R+ tale che U (0) = 0,
Z
Z
U (g(y)) dy =
Rn
Dimostrazione.
U(
Rn
f (x)
2
2 ϕ(x) ) det DA ϕ(x) dx.
det DA
• Step 1: il teorema di Lebesgue è applicabile a detH D2 ϕ.
(3.23)
34
In ragione della convessità di ϕ, abbiamo che per ogni compatto K ⊂ Ω vale
det D2 ϕ(K) = |∂ϕ(K)| < +∞
H
(3.24)
per cui siamo nelle ipotesi del teorema di Lebesgue, che dunque applicheremo in
seguito.
2
• Step 2: la densità della parte a.c. della misura hessiana è det DA
ϕ.
Grazie al teorema di Aleksandrov (Teorema A.3.2) sappiamo che det DA2 ϕ è ben
denita q.o., inoltre sfruttando lo Step 1 ed il teorema di Lebesgue, occorre e
basta mostrare che per q.o. x ∈ Ω
detH D2 ϕ(Br (x))
2
→ det DA
ϕ(x)
|Br (x)|
(3.25)
ovvero equivalentemente
∂ϕ(Br (x))
2
→ det DA
ϕ(x)
|Br (x)|
(3.26)
sempre per r → 0. Ma noi sappiamo già che questo fatto è vero (cfr. Appendice
A, Teorema A.3.3) e dunque la prima parte di 2. è provata.
• Step 3: completamento dimostrazione di 1.
Poichè (Step 1) detH D2 ϕ è localmente nita, si avrà a maggior ragione che det2A ϕ
è localmente integrabile ed inoltre sappiamo che quasi tutti i punti in Ω sono punti
di densità per det2A ϕ. Per provare che M ha misura piena per µ, ricordiamo (cfr.
Appendice A) che l'insieme dei punti x ove DA2 ϕ(x) non è invertibile è incluso in
2 ∗
∂ϕ∗ (C), avendo indicato con C l'insieme degli y in Dom(ϕ∗ ) per i quali DA
ϕ (y)
non è denito. Per il teorema di Aleksandrov, l'insieme C ha misura zero secondo
Lebesgue. Dato che ∇ϕ∗] ν = µ e µ e ν sono assolutamente continue, possiamo
applicare il Lemma 3.4.2 per concludere µ(∂ϕ∗ (C)) = ν(C) = 0. Quindi M
è di misura piena per µ. Applicando ancora il Lemma 3.4.2 abbiamo altresì
ν(∂ϕ(M )) = µ(M ) = 1.
• Step 4: seconda parte di 2.
A parte un insieme che sappiamo già essere trascurabile, la misura λ = det DA2 ϕLn
ha su Ω \ M densità det DA2 ϕ = 0 (dato che stiamo considerando i punti x ove la
matrice DA2 ϕ(x) non è invertibile) e quindi λ è concentrata su M.
• Step 5: la misura ∇ϕ] λ è a.c.
Sia A ⊂ ∂ϕ(M ) con |A| = 0. Sappiamo che l'esistenza di DA2 ϕ(x) implica l'esistenza di ∇ϕ(x) e quindi ϕ è dierenziabile in ogni punto di M per cui ricordando
che ∂ϕ(x) = {∇ϕ(x)} in tutti i punti in cui ϕ è dierenziabile, possiamo scrivere
∇ϕ] λ(A) = λ((∇ϕ)−1 (A)) ≤ det D2 ϕ((∇ϕ)−1 (A))
(3.27)
= ∂ϕ(∇ϕ)−1 (A) = ∇ϕ(∇ϕ)−1 (A) = |A| = 0.
(3.28)
H
35
• Step 6: formula per la densità di ∇ϕ] λ.
Per concludere la dimostrazione della parte 2., rimane solo da mostrare che la
densità di ∇ϕ] λ, in q.o. y ∈ ∂ϕ(M ), ha valore 1. Sia perciò y ∈ ∂ϕ(M ): sappiamo
che esiste x ∈ M tale che y = ∇ϕ(x); e dato che x ∈ M, per denizione di tale
insieme, avremo che la matrice DA2 ϕ(x) è ben denita ed invertibile. Inoltre (cfr.
Appendice A)
−1
|∂ϕ∗ (Br (y))|
2
→ det DA
ϕ(x)
|Br (y)|
(3.29)
per r → 0 e possiamo trovare una successione (rk )k∈N convergente a 0, e palle
(Bk ), (Bk0 ) a guisa che Bk ⊂ ∂ϕ∗ (Brk ) ⊂ Bk0 con |Bk | / |Bk0 | limitato dal basso.
È dunque applicabile il teorema di Lebesgue alla funzione di classe L1loc det DA2 ϕ
in riferimento alla successione di insiemi ∂ϕ∗ (Brk ); dato che per costruzione x è
un punto di Lebesgue per det DA2 ϕ,
1
|∂ϕ∗ (Brk (y))|
Z
2
2
det DA
ϕ(x) dx → det DA
ϕ(x),
∂ϕ∗ (Brk (y))
(3.30)
per k → +∞. Moltiplicando tra di loro le due relazioni appena ottenute ed usando
l'identità ∇ϕ] λ(A) = λ(∂ϕ∗ (A)) (conseguente dal lemma 3.4.2), troviamo
∇ϕ] λ(Brk (y))
→1
|Brk (y)|
(3.31)
per rk → 0. Questa costruzione è chiaramente valida per q.o. y ∈ ∂ϕ(M ), sicché
la densità della misura ∇ϕ] λ è identicamente uguale ad 1 su ∂ϕ(M ).
• Step 7: validità quasi ovunque dell'equazione di Monge-Ampère.
Dato un insieme di Borel A in Rn , abbiamo in conseguenza di 2.,
Z
Z
g(y) dy =
∂ϕ(A)
Z
χy∈∂ϕ(A) g(y) dy
2
χ∇ϕ(x)∈∂ϕ(A) g(∇ϕ(x)) det DA
ϕ(x) dx.
=
(3.32)
∂ϕ(M )
(3.33)
M
Se ora x ∈ M, la matrice DA2 ϕ(x) è invertibile e perciò ϕ∗ è dierenziabile
due volte nel punto ∇ϕ(x). Segue che l'insieme ∂ϕ∗ (∇ϕ(x)) è ridotto al solo
elemento {x} ed inoltre non può accadere che x0 6= x soddis ∇ϕ(x) = ∇ϕ(x0 ).
In particolare, ∇ϕ(x) ∈ ∂ϕ(A) è equivalente ad x ∈ A e quindi
Z
Z
2
g(∇ϕ(x)) det DA
ϕ(x) dx.
g(y) dy =
∂ϕ(A)
(3.34)
A∩M
D'altro canto λ è concentrata in M, indi in eetti
Z
Z
g(y) dy =
∂ϕ(A)
A
2
g(∇ϕ(x)) det DA
ϕ(x) dx.
(3.35)
36
Combinando inne questo risultato con la parte 2. del Lemma 3.4.2. troviamo
Z
Z
2
g(∇ϕ(x)) det DA
ϕ(x) dx
f (x) dx =
A
(3.36)
A
e per l'arbitrarietà di A abbiamo la tesi.
• Step 8: formula di cambio variabile (parte 4.)
Dalla parte 2., sappiamo che
Z
Z
2
U (g(∇ϕ(x))) det DA
ϕ(x) dx.
U (g(y)) dy =
∂ϕ(M )
(3.37)
M
Ma per q.o. x ∈ M, possiamo scrivere grazie alla parte 3. ed all'invertibilità di
2
DA
ϕ,
g(∇ϕ(x)) =
f (x)
2 ϕ(x)
det DA
(3.38)
e di conseguenza
Z
Z
U (g(y)) dy =
∂ϕ(M )
U(
M
f (x)
2
2 ϕ(x) ) det DA ϕ(x) dx.
det DA
(3.39)
Del resto, è già stato provato che M è di misura piena per λ e dunque l'integrale
a secondo membro può essere esteso a tutto Rn . Stessa cosa dicasi per il primo
membro, dato che ∂ϕ(M ) è di misura piena per ν, cosa che implica g(y) = 0 e
per la nostra ipotesi U (g(y)) = 0 per q.o. y ∈ (∂ϕ(M ))c . Questo conclude la
dimostrazione della parte 4. e di tutto il teorema.
Benché nei prossimi capitoli ci serviremo solo del Lemma 3.4.2 e del Teorema 3.4.3,
pare opportuno citare un altro risultato, dovuto a Caarelli, che riguarda le soluzioni
dell'equazione di Monge-Ampère nel senso di Aleksandrov. Il Teorema 3.4.3 non ci
dà alcuna informazione riguardo la parte singolare della misura hessiana e quindi non
assicura che ϕ sia soluzione dell'equazione di Monge-Ampère secondo Aleksandrov. In
eetti, sappiamo che se il supporto di ν non è convesso, questo non è vero in generale.
Teorema 3.4.4. Siano µ e ν due misure di probabilità su Rn , assolutamente continue
rispetto alla misura di Lebesgue, con densità f e g e supporti X ed Y rispettivamente.
Sia poi ϕ una funzione convessa tale che ∇ϕ] µ = ν. Assumiamo che Y sia convesso e
che g sia positiva q.o. in Y. Allora la misura hessiana detH D2 ϕ non ha parte singolare
in X e quindi, in queste ipotesi, ϕ risolve l'equazione di Monge-Ampère nel senso di
Aleksanrov.
Dimostrazione. In base alla denizione stessa di misura hessiana ci basta mostrare
l'implicazione
|N | = 0 ⇒ |∂ϕ(N )| = 0,
(3.40)
per ogni insieme misurabile N ⊂ X. Sia perciò N un sottinsieme di X di misura nulla;
37
grazie alla parte 2. del Lemma 3.4.2 sappiamo che
Z
Z
g(y) dy =
∂ϕ(N )
f (x) dx = 0.
(3.41)
N
D'altra parte sappiamo dal Teorema 1.5.3 che ∇ϕ(X) ⊂ Y, cosa che implica
∂ϕ(N ) ⊂ Conv(Y ) = Y,
(3.42)
in base all'assunzione di convessità del supporto di ν. Poichè assumiamo altresì che g
sia positiva q.o. in Y, dobbiamo concludere dalla (3.41) che |∂ϕ(N )| = 0. Segue che la
misura hessiana di ϕ è eettivamente assolutamente continua rispetto alla misura di
Lebesgue e la conclusione viene perciò dalla parte 3. del teorema precedente.
Capitolo 4
Geodetiche e convessità
4.1 Geodetiche in spazi metrici ed interpolazione à la
McCann
Cominciamo con la seguente
Denizione 4.1.1. Sia (S, d) uno spazio metrico. Chiameremo geodetica a velocità
costante in S un'applicazione ϕ : [0, 1] → S vericante la condizione
d(ϕ(s), ϕ(t)) = |s − t| d(ϕ(0), ϕ(1))
∀s, t ∈ [0, 1] .
(4.1)
Come osservazione banale, si noti che la condizione (4.1) implica in particolare che una
geodetica a velocità costante sia una curva continua.
In questa tesi, siamo interessati al caso in cui S = Pp (X) (al solito, abbiamo X spazio
di Hilbert separabile e p > 1) con la sua metrica naturale, ovvero Wp .
Ci si può domandare se questa nozione sia in qualche modo utile, ovvero se sia correlata
alle nozioni sviluppate n qui. A tale domanda rispondiamo ora:
Teorema 4.1.2. Se µ0 , µ1 ∈ Pp (X) e γ ∈ Γo (µ0 , µ1 ), allora la curva t 7→ µt =
è una geodetica a velocità costante tra µ0 e µ1 .
A livello di notazione, abbiamo considerato per maggior chiarezza X ×X come prodotto
di due copie con label distinti X1 ed X2 dello spazio X con proiezioni π 1 : X ×X → X1
e π 2 : X × X → X2 .
Poichè sappiamo che piani ottimali secondo Kantorovich esistono sempre, il teorema
precedente può essere interpretato come un teorema di esistenza di geodetiche a velocità
costante in Pp (X).
Per provarlo, premettiamo il seguente semplice lemma, di utilità ricorrente.
Lemma (Stime dall'alto per Wp ) 4.1.3. Siano (X1 , d1 ) e (X2 , d2 ) spazi metrici polacchi, sia µ una probabilità sulla σ−algebra di Borel di X1 e siano r, s due applicazioni
X1 → X2 µ-misurabili. Allora
((1 − t)π1 + tπ2 )] γ
Wp (r] µ, s] ν) ≤ d2 (r, s)Lp (X1 ,µ) .
(4.2)
Dimostrazione. Sia γ = (r, s] µ) la probabilità su X2 × X2 ottenuta come immagine
di µ tramite la coppia (r, s) sicchè γ ∈ Γ(r] (µ), s] (µ)). Pertanto, integrando rispetto
all'immagine e ricordando la denizione di distanza di Wasserstein abbiamo
Z
d2 (r, s)Lp (X1 ,µ) =
1
(d(z, w))p dγ(z, w) p ≥ Wp (r] µ, s] µ).
X2 ×X2
38
(4.3)
Capitolo 4. Geodetiche e convessità
39
Ora dimostriamo il Teorema 4.1.2
Dimostrazione. Aermo che per provare la tesi occorre e basta mostrare che vale per
la nostra µt la disuguaglianza larga
Wp (µs , µt ) ≤ |s − t| Wp (µ0 , µ1 ).
(4.4)
Se infatti esistessero istanti di tempo s? , t? vericanti la disuguaglianza stretta, otterremmo immediatamente un assurdo servendoci della proprietà triangolare per Wp .
Ma la (4.4) discende subito dal lemma precedente applicato agli spazi (X × X, γ) in
partenza ed X in arrivo.
Sappiamo però che, almeno in generale, gli insiemi Γo (µ0 , µ1 ) contengono più di un
elemento e pertanto, date due misure µ0 e µ1 la costruzione precedente consente di
ottenere varie geodetiche distinte tra queste. Per giungere ad un teorema generale di
classicazione, dobbiamo far ricorso al seguente lemma, la cui dimostrazione si trova ad
esempio in [1]. Premettiamo alcune notazioni: se µ ∈ P(X N ), N ≥ 2, 1 ≤ i, j, k ≤ N,
e t ∈ [0, 1] poniamo
• π i (x) := xi :
X N → X,
• π i,j (x) := (xi , xj ) :
X N → X 2,
• πti→j := (1 − t)π i + tπ j :
X N → X,
• πti→j,k := (1 − t)π i,k + tπ j,k :
X N → X 2,
• µi→j
:= (πti→j )] µ ∈ P(X),
t
• µi→j,k
:= (πti→j,k )] µ ∈ P(X 2 ).
t
Lemma (Regolarità interna) 4.1.4. Sia (µt )t∈[0,1] una geodetica a velocità costante
in Pp (X) e sia t ∈ (0, 1) . Allora l'insieme Γo (µt , µ1 ) (risp. Γo (µ0 , µt )) consiste di un
solo elemento µt1 (risp. µ0t ) e tale piano (risp.µ0t ) è indotto da un trasporto. Inoltre
µ = µt1 ◦ µ0t ∈ Γo (µ0 , µ1 ) e si ha
µ0t = (πt1,1→2 )] µ,
µt1 = (πt1→2,2 )] µ.
(4.5)
Forti di questo risultato, siamo ora in grado di fornire una sorta di inverso del Teorema
4.1.2, ovvero un teorema di caratterizzazione delle geodetiche in Pp (X).
Teorema 4.1.5. Data comunque una geodetica a velocità costante ηt : [0, 1] → Pp (X)
che connette due probabilità µ0 := η0 e µ1 := η1 , esiste un piano ottimale µ ∈ Γo (µ0 , µ1 )
per il quale (ηt )t∈[0,1] ammetta la rappresentazione descritta sopra ovvero
ηt = (πt1→2 )] µ = µ1→2
t
(4.6)
e tale µ può essere costruita a partire da un qualunque punto unterno ηt , 0 < t < 1
della geodetica, come nel lemma precedente.
40
Dimostrazione. Fissato comunque un istante di tempo t ∈ (0, 1) applichiamo la costruzione del lemma precedente: troviamo µ0t ∈ Γo (µ0 , µt ), µt1 ∈ Γo (µt , µ1 ), da cui
µ ∈ Γo (µ0 , µ1 ) per composizione. Verichiamo ora che ηt è rappresentabile tramite µ
nel senso già spiegato, separatamente per i casi 0 ≤ (·) < t e t < (·) ≤ 1. Sviluppiamo la
dimostrazione per il primo caso, essendo il secondo identico. Consideriamo tra µ0 e µt
le due curve [0, 1] 3 s → µst e (πs1→2 )] µ0t : è immediato constatare che sono entrambe
geodetiche a velocità costante e, per la parte di unicità del lemma precedente, devono
coincidere. Quindi vale la catena di uguaglianze:
1→2
µst = (πs1→2 )] µ0t = (πs1→2 ◦ πt1,1→2 )] µ = (πst
)] µ
(4.7)
ove la seconda uguaglianza discende ancora dal lemma precedente e la terza dalla
proprietà di composizione del push-forward e da una banale manipolazione algebrica.
Abbandoniamo ora questo setting piuttosto generale, per studiare più nel dettaglio
le geodetiche congiungenti probabilità assolutamente continue rispetto alla misura di
Lebesgue nello spazio euclideo Rn . Siano dunque µ, ν Ln due misure di probabilità
in P2 (Rn ). Il teorema di Brenier assicura allora l'esistenza di una funzione convessa ϕ
il cui gradiente, determinato univocamente µ-q.o. verica ∇ϕ] µ = ν. Possiamo dunque
servirci del piano (id, ∇ϕ)] µ per costruire una geodetica a velocità costante tra µ e ν,
la quale tuttavia assume in questo caso la forma particolare
ηt = [(1 − t)Id + t∇ϕ]] µ.
(4.8)
Poichè valgono le ovvie proprietà η0 = µ ed η1 = ν, la curva (ηt )t∈[0,1] può essere
considerata, ancor prima che una geodetica a velocità costante, una curva interpolante
µ e ν in P2 (X).
Denizione 4.1.6. Nel setting appena esposto chiameremo interpolazione à la
McCann tra µ e ν la curva in P2 (Rn ) denita da 4.8 ovvero
[0, 1] 3 t → [(1 − t)Id + t∇ϕ]] µ
ed useremo, a questo proposito, la notazione ([µ, ν]t )t∈[0,1] .
Questa denominazione si riferisce all'autore dell'articolo dove, per la prima volta, questa
tecnica veniva utilizzata(cfr.[21]).
Elenchiamo ora, nella proposizione seguente, le principali proprietà dell'interpolazione
à la McCann.
Teorema 4.1.7. Con la notazione descritta sopra, abbiamo che
1. ∀t ∈ [0, 1] W2 (µ, ηt ) = tW2 (µ, ν) e, più in generale,
∀s, t ∈ [0, 1]
W2 (ηt , ηs ) = |t − s| W2 (µ, ν);
2. [µ, ν]t = [ν, µ]1−t ;
3. [[µ, ν]t , [µ, ν]t0 ]s = [µ, ν](1−s)t+st0 ;
4. [µ, ν]t Ln ∀t ∈ (0, 1).
41
Dimostrazione. La parte 1. discende dal Teorema 4.1.2. Per la parte 2. basta osservare
che
[µ, ν]t = ((1 − t)Id + t∇ϕ)] µ
(4.9)
= ((1 − t)Id + t∇ϕ)] (∇ϕ∗] ν)
(4.10)
= [((1 − t)Id + t∇ϕ) ◦ ∇ϕ∗ ]] ν
(4.11)
= ((1 − t)∇ϕ∗ + tId)] ν.
(4.12)
La parte 3. è un calcolo immediato. Vediamo inne la dimostrazione della parte 4.:
deniamo
2
|x|
ϕt (x) = tϕ(x) + (1 − t)
,
(4.13)
2
e notiamo che
2
h∇ϕt (x) − ∇ϕt (y), x − yi ≥ (1 − t) |x − y| ,
(4.14)
dalla quale, per mezzo della disuguaglianza di Cauchy-Schwarz
|ϕt (x) − ϕt (y)| ≥ (1 − t) |x − y| .
(4.15)
Dato che ϕt è uniformemente convessa, la sua trasformata di Legendre ϕ∗t è dierenziabile ovunque e dalla (4.15) deduciamo che ∇ϕ∗t = (∇ϕt )−1 è lipschitziana con costante
minore di (1 − t)−1 . In particolare, se A ha misura nulla secondo Lebesgue, allora pure
∇ϕ∗t (A) ha misura nulla secondo Lebesgue. Possiamo perciò scrivere, servedoci del
lemma già visto che esprime il push-forward in termini di sottodierenziale (Lemma
3.4.2) ηt (A) = µ(∂ϕ∗t (A)) = µ(∇ϕ∗t (A)) = 0 e questa è la tesi.
4.2 Displacement convexity
4.2.1 Denizioni
Questa sezione, di fondamentale importanza per le applicazioni del prossimo capitolo,
è dedicata allo studio delle proprietà di convessità di funzionali lungo le geodetiche dei
nostri spazi di misure di probabilità, in un senso che chiariamo ora.
Denizioni 4.2.1. Un sottinsieme P ⊆ P2 (Rn ) si dirà geodeticamente convesso se per
ogni coppia di misure di probabilità µ0 , µ1 ∈ P2 (Rn ) esiste una geodetica a velocità
costante congiungente µ0 eTµ1 ed interamente contenuta in P. Ciò è equivalente, qualora
P ⊆ P2ac (Rn ) := P2 (Rn ) P ac (Rn ) a chiedere che per ogni coppia µ0 , µ1 ∈ P2ac (Rn )
l'interpolazione di McCann [µ0 , µ1 ]t sia interamente contenuta in P. Dato un insieme
P geodeticamente convesso, una geodetica a velocità costante (µt )t∈[0,1] in P ed un
S
funzionale ψ : P → R {+∞} , diremo che ψ è
• convesso lungo (µt )t∈[0,1] se l'applicazione
t 7−→ ψ(µt )
(4.16)
42
è convessa su [0, 1] ;
• strettamente convesso lungo (µt )t∈[0,1] se l'applicazione (4.16) è convessa su [0, 1] ;
• λ-uniformemente convessa lungo (µt )t∈[0,1] (per qualche λ > 0) se l'applicazione
(4.16) è λ-convessa su [0, 1] ovvero se ∀s1 , s2 ∈ [0, 1] , ∀t ∈ [0, 1] si ha
ψ((1 − t)µs1 + tµs2 ) ≤ (1 − t)ψ(µs1 ) + tψ(µs2 ) −
λ
t(1 − t)W22 (µs1 , µs2 ). (4.17)
2
Diremo inne che ψ è convesso (risp. strettamente convesso, λ-uniformemente convesso) qualora per ogni coppia µ0 , µ1 di misure di probabilità di P esista una geodetica a
velocità costante (µt )t∈[0,1] in P tra µ0 e µ1 tale che la funzione t 7→ ψ(µt ) sia convessa
(risp. strettamente convessa, λ-uniformemente convessa) su [0, 1] .
Osservazioni 4.2.2. 1. La parte 4. del Teorema 4.1.7 garantisce in particolare che
P2ac (Rn ) sia geodeticamente convesso.
2. Simili denizioni possono essere date in contesti molto più generali, ad esempio
per funzioni costo non quadratiche o per misure di probabilità denite su varietà
riemanniane.
4.2.2 Esempi
Studiamo ora le proprietà di convessità di alcuni funzionali notevoli, per i quali ci riferiremo al lessico introdotto da C.Villani. Un cenno al signicato sico, già evidente
al momento della loro introduzione in letteratura ([21]), sarà dato in seguito. Premettiamo, per maggior chiarezza, che identicheremo - a livello di notazione - una misura
assolutamente continua (qui rispetto alla misura di Lebesgue) con la sua densità.
• Energia Interna:
Z
U(ρ) =
U (ρ(x)) dx;
(4.18)
V (x) dµ(x);
(4.19)
Rn
• Enegia Potenziale;
Z
V(µ) =
Rn
• Energia di Interazione:
Z
W(µ) =
W (x − y) dµ(x)dµ(y).
Rn ×Rn
(4.20)
Chiameremo l'applicazione misurabile U : R+ → R ∪ {+∞} densità di energia interna, l' applicazione misurabile V : Rn → R ∪ {+∞} potenziale ed il funzionale
misurabile W : Rn → R ∪ {+∞} potenziale di interazione. Naturalmente si impongono, per dar senso alle scritture precedenti, delle condizioni di buona positura su
U, V e W. Tipicamente:
• U è certamente ben denito su P ac (Rn ), a valori in R ∪ {+∞} , non appena
U ≥ 0. Una condizione suciente per garantire che non sia identicamente +∞
43
è ad esempio che U (0) = 0 e che U non sia identicamente +∞ su R+ \ {0} .
Discutiamo invece separatamente il caso del funzionale U (ρ) = ρ log ρ di grande
importanza sica e che avrà un ruolo centrale nel seguito di questa tesi. In questo
caso il funzionale U assume sia il valore +∞ che −∞ su P ac (Rn ). Tuttavia, se
scegliamo come dominio ad esempio P2ac (Rn ) tale funzionale risulta ben denito
a valori in R ∪ {+∞} , come si evince scegliendo ϕ(x) = |x|2 nella disuguaglianza
Z
Z
ρ log ρ dx +
Z
ϕ dρ ≥ − log (
e−ϕ dx).
(4.21)
• V (risp W ) è ben denito su P(Rn ) non appena V (risp. W) è limitato dal basso
da qualche costante reale.
Siamo ora in grado di enunciare i criteri fondamentali per studiare le proprietà di
convessità dei funzionali appena descritti.
Teorema 4.2.3. Sia P un sottinsieme geodeticamente convesso di P2 (Rn ) (e, nel caso
della parte 1., di P2ac (Rn )) sul quale siano ben deniti a valori in R∪{+∞} i funzionali
U, V, W.
1. Se U verica U (0) = 0 e
Ψ : r 7−→ rn U (r−n )
(4.22)
è convessa non crescente su (0, +∞) , allora U è convessa lungo geodetiche in P.
2. Se V è convessa (risp. strettamente convessa, λ-uniformemente convessa), allora
V è convessa (risp. strettamente convessa, λ-uniformemente convessa) lungo
geodetiche in P. Viceversa: se V è convessa (risp. strettamente convessa, λuniformemente convessa) lungo geodetiche in P2 (Rn ), allora V è convessa (risp.
strettamente convessa, λ-uniformemente convessa).
3. Se W è convessa, allora W è convessa lungo geodetiche in P. Se poi W è strettamente convessa (risp. λ-uniformemente convessa), allora ∀m ∈ Rn si ha che W
è strettamente convessa (risp. λ-uniformemente convessa) lungo geodetiche nel
sottospazio Pm di P costituito dalle misure di probabilità aventi centro di massa
m. (Si noti infatti che ∀m ∈ R l'insieme Pm è geodeticamente convesso.) Viceversa: se W è convessa (risp. strettamente convessa, λ-uniformemente convessa)
lungo geodetiche in P2 (Rn ), allora W è convessa (risp. strettamente convessa,
λ-uniformemente convessa.)
Osservazioni 4.2.4. Scopo di queste osservazioni è cercare di giusticare intuitivamente
la condizione di convessità (4.22) e di fornire dei criteri equivalenti per la sua verica.
• Supponiamo di avere in un assegnato volume V una massa uniforme ed omogenea
M di un gas ideale. Se ora lasciamo espandere tale gas di un fattore λ secondo
ciscuna dimensione, avremo che il volume totale occupato, al termine dell'espansione, sarà aumentato di un fattore λn , mentre la densità sarà passata dal valore
M
uniforme M
V a λn V . Conseguentemente l'energia interna del gas sarà passata dal
M
n
−n
valore V U ( V ) al valore λn V U ( λM
) se si pone
n V ) che è proporzionale a r U (r
M 1/n
r = λ( V ) . In sintesi, abbiamo allora che la condizione (4.22) equivale sicamente a chiedere che l' energia interna sia una funzione convessa non decrescente
44
di tale fattore. Per lo meno la condizione di non decrescenza appare del tutto
naturale dal punto di vista sico.
• Supponiamo che la funzione U sia derivabile due volte. È spesso conveniente espri-
mere la condizione (4.22) in termini della cosidetta pressione termodinamica
(4.23)
P (ρ) = ρU 0 (ρ) − U (ρ).
Tale formula si ricava facilmente dalla denizione standard di pressione
P (ρ) = −
dU
,
dV
(4.24)
assumendo semplicemente che quando il gas sia diluito nell'intero spazio (V = ∞)
si abbia U = 0. Infatti, dato un arbitrario volume nito iniziale V0 con densità di
energia iniziale U (ρ0 ), possiamo scrivere
Z
∞
U (ρ0 )V0 =
V0
dU
(−
) dV =
dV
Z
∞
V0
cosicché
M
P ( ) dV = M
V
Z
ρ0
U (ρ0 ) = ρ0
0
Z
ρ0
P (ρ)
0
dρ
,
ρ2
P (ρ)
dρ.
ρ2
(4.25)
(4.26)
A questo punto, derivando troviamo la relazione promessa. Si noti come la precedente abbia senso solo se si ha integrabilità in un intorno destro di 0 per cui è
necessario che sia P (0) = 0.
• La derivata prima di Ψ : r 7→ rn U (r−n ) è −nrn−1 P (r−n ), sicché la condizione di
non crescenza di Ψ è equivalente alla non negatività di P, cosa auspicabile da un
punto di vista sico! Passando alla derivata seconda troviamo
Ψ00 (r) = n2 rn−2 r−n P 0 (r−n ) − (1 − 1/n)P (r−n ) ;
(4.27)
per cui la condizione di convessità si traduce in
ρP 0 (ρ) ≥ (1 −
1
)P (ρ)
n
(4.28)
ovvero anche nella forma
ρ 7−→ P1−(ρ)1 è non decrescente.
ρ
n
• Mettendo insieme le informazioni raccolte al punto precedente, si trova immediatamente che se la (??) è vericata, allora U dev'essere convessa.
È allora ridotta a dei calcoli elementari, che possiamo semplicare utilizzando le osservazioni precedenti, la verica della condizione (4.22) per le seguenti funzioni densità di
energia interna:
• U (ρ) = ργ ,
1
γ ≥ 1 nel qual caso P (ρ) = (γ − 1)ργ ;
1 Questa forma funzionale ha la sua manifestazione più importante in dimensione n = 3 per γ = 5/3,
allorché U rappresenta il limite quantistico semi-classico per l'energia cinetica di un gas di fermioni.
45
• U (ρ) = ρ log ρ nel qual caso P (ρ) = ρ;
• U (ρ) = −ργ , (1 − 1/n) ≤ γ ≤ 1, nel qual caso P (ρ) = (1 − γ)ργ .
4.2.3 Dimostrazioni
Questa sezione è dedicata alla dimostrazione dettagliata delle tre parti di cui si compone il criterio per la displacement convexity enunciato nel paragrafo precedente.
Cominciamo dalla parte dedicata all'energia potenziale.
Dimostrazione. Vi è un' implicazione immediata: per mostrare che se V è convesso
(risp. strettamente convesso, λ-uniformemente convesso) lungo geodetiche, allora V è
convesso (risp. strettamente convesso,λ-uniformemente convesso) basta riferire l'ipotesi
ad una coppia δx1 , δx2 di masse di Dirac, applicate nei punti tra i quali deve essere
svolta la verica di convessità per V. Per l'implicazione opposta è suciente mostrare
che per ogni coppia di misure di probabilità µ, ν ∈ P2 (Rn ) e per ogni piano γ ∈
Γo (µ, ν) il funzionale V è convesso lungo la geodetica in P2 (Rn ) data da (µt )t∈[0,1] :=
(πt1→2 )] γ. In eetti, si tratta solo di applicare la formula standard di cambio variabile
per push-forward
Z
V(µt ) =
Z
V ((1 − t)x1 + tx2 ) dγ
V dµt =
Z
≤
[(1 − t)V (x1 ) + tV (x2 )] dγ(x1 , x2 ) = (1 − t)V(µ) + tV(ν).
(4.29)
(4.30)
Nel caso in cui V sia strettamente convesso, supponiamo per assurdo che V non lo sia e
che esistano perciò µ, ν ∈ P2 (Rn ) distinte e t ∈ (0, 1) per cui V(µt ) = (1−t)V(µ)+tV(ν).
Per quanto sopra, ciò equivale ad avere
Z
Z
V ((1 − t)x1 + tx2 ) dγ =
[(1 − t)V (x1 ) + tV (x2 )] dγ(x1 , x2 )
(4.31)
e dunque, per la denizione di stretta convessità, dev'essere x1 = x2 γ -q.o. cosa che
garantisce µ = ν, contraddizione. Il caso di λ-convessità è ancora un calcolo piuttosto
automatico, che ricalca il precedente
Z
V(µt ) =
≤
Z
V dµt =
V ((1 − t)x1 + tx2 ) dγ
Z λ
2
(1 − t)V (x1 ) + tV (x2 ) − t(1 − t) |x1 − x2 | dγ(x1 , x2 )
2
Z
λ
2
= (1 − t)V(µ) + tV(ν) − t(1 − t) |x1 − x2 | dγ(x1 , x2 ),
2
(4.32)
(4.33)
(4.34)
ma sappiamo che γ ∈ Γo (µ, ν) per cui
Z
2
|x1 − x2 | dγ(x1 , x2 ) = W22 (µ, ν)
e questo completa la dimostrazione.
(4.35)
46
Sviluppiamo ora la dimostrazione della parte 3. del Teorema 4.2.3, dedicata all'energia
di interazione.
Dimostrazione. Per la parte di necessità della condizione, vale ancora quanto scritto
nella dimostrazione precedente, a patto di considerare qui due coppie di masse di Dirac.
Supponiamo invece che W sia convessa e, date due misure di probabilità µ, ν ∈ P2 (Rn )
sia genericamente γ ∈ Γo (µ, ν) e (µt )t∈[0,1] := (πt1→2 )] γ. In sostanziale analogia con
quanto fatto sopra, applichiamo la formula di integrazione per push-forward
1
W(µt ) =
2
1
=
2
(4.36)
W (x − y) dµt (x)dµt (y)
Z
W ((1 − t)x1 + tx2 − (1 − t)y1 − ty2 ) dγ(x1 , x2 )dγ(y1 , y2 )
=
≤
=
Z
1
2
1
2
Z
Z
(4.37)
W ((1 − t)(x1 − y1 ) + t(x2 − y2 ) dγ(x1 , x2 )dγ(y1 , y2 )
(4.38)
[(1 − t)W (x1 − y1 ) + tW (x2 − y2 )] dγ(x1 , x2 )dγ(y1 , y2 )
(4.39)
Z
Z
1
(1 − t) W (x1 − y1 ) dµ(x1 )dν(y1 ) + t W (x2 − y2 ) dµ(x2 )dν(y2 )
2
(4.40)
(4.41)
≤ (1 − t)W(µ) + tW(ν),
ove abbiamo usato all'ultimo passaggio il fatto che i marginali di γ siano µ e ν. Supponiamo ora che W sia strettamente convessa e che, per assurdo, esistano due misure
di probabilità µ, ν ∈ P2 (Rn ) aventi lo stesso centro di massa m ∈ Rn ed un t ∈ (0, 1)
per i quali con le solite notazioni, valga W(µt ) = (1 − t)W(µ) + tW(ν). In base al
calcolo appena svolto, ciò equivale a dire che x1 − y1 = x2 − y2 per γ(x1 , x2 ) ⊗ γ(y1 , y2 )q.o. in Rn × Rn × Rn × Rn . Da questa si deduce che deve valere equivalentemente
x2 − x1 = y2 − y1 sempre per γ(x1 , x2 ) ⊗ γ(y1 , y2 ), cosa che è possibile solo se esiste
un numero c ∈ R per il quale x2 = x1 + c per q.o. γ(x1 , x2 ) in Rn × Rn la quale cosa
esclude che µ e ν abbiano lo stesso centro di massa, assurdo. Veniamo inne allo studio
del caso in cui W è λ-uniformemente convesso. Con calcoli identici a quelli sviluppati
nella prima parte di questa dimostrazione si arriva alla disuguaglianza
λ
W(µt ) ≤ (1−t)W(µ)+tW(ν)− t(1−t)
4
Z
2
|(x1 − x2 ) − (y1 − y2 )| dγ(x1 , x2 )dγ(y1 , y2 ),
(4.42)
ove l'ultimo addendo del secondo membro, sviluppando il quadrato si vede essere uguale
a
Z
2
2W2 (µ, ν) + hx1 − x2 , y1 − y2 i dγ(x1 , x2 )dγ(y1 , y2 ).
(4.43)
Non resta perciò che provare che
Z
hx1 − x2 , y1 − y2 i dγ(x1 , x2 )dγ(y1 , y2 ) = 0,
(4.44)
47
ma questo si ottiene subito sviluppando il prodotto scalare per bilinearità e ricordando
che µ, ν appartengono ad un dato sottospazio di probabilità a centro di massa ssato
Pm .
Concludiamo questo paragrafo con la dimostrazione della prima parte del Teorema
4.2.3, inerente il termine di energia interna
Dimostrazione. Siano date due misure di probabilità µ, ν ∈ P2ac (Rn ) e sia ϕ come
nel teorema di Brenier tale che ∇ϕ] µ = ν. Ci serviamo di tale funzione per costruire
l'interpolazione à la McCann tra µ e ν
(4.45)
[µ, ν]t = (Id − tθ)] µ,
ove si sia posto θ := Id − ∇ϕ. Nelle nostre ipotesi su U (in partciolare sappiamo
che U (0) = 0) siamo in grado di applicare il teorema di McCann per l'equazione di
Monge-Ampère (Teorema 3.4.3), che consente di scrivere
Z
U(ρt ) =
U(
Rn
ρ(x)
) det(In − t∇θ(x)) dx,
det(In − t∇θ(x))
(4.46)
avendo indicato genericamente con ρt la densità della misura [µ, ν]t e con ρ la densità
di µ. Va ora notato che come funzione di t ∈ [0, 1] la funzione integranda può essere
vista come composizione delle applicazioni seguenti:
• t 7−→ λ = det(In − tS)1/n ,
• λ 7−→ U ( λrn )λn ,
con r = ρ(x) ed S = ∇θ(x), matrice simmetrica vericante S ≤ In . Per concludere la dimostrazione enunciamo il seguente lemma, che risulterà essere una banale conseguenza
della seconda parte dell' asserto che proveremo qui di seguito.
Lemma 4.2.5. Data una matrice simmetrica S ≤ In , la funzione t 7−→ det(In −tS)1/n
è concava e strettamente concava a meno che S sia un multiplo di In .
Forti di questo lemma e delle nostre ipotesi, osserviamo che la funzione integranda in
(4.46) è composizione di una funzione convessa non decrescente e di una concava ed è
dunque convessa rispetto a t (verica immediata). Da ciò discende facilmente, operando
come già visto più volte nelle dimostrazioni precedenti, la displacement convexity di
U(ρt ) e quindi la nostra tesi.
Ecco dunque, come promesso, la proposizione di cui si è fatto uso per concludere la
dimostrazione precedente.
Lemma 4.2.6. 1. Siano (xi )1≤i≤n e (λi )1≤i≤n numeri reali vericanti le relazioni
xi ≥ 0,
λi ≥ 0,
n
X
λi = 1.
(4.47)
i=1
Allora, convenendo che 00 = 1, abbiamo
n
X
i=1
λ i xi ≥
n
Y
i=1
xλi i .
(4.48)
48
2. Siano A e B due matrici n × n simmetriche e denite non negative e λ ∈ [0, 1] .
Allora
(4.49)
det(λA + (1 − λ)B)1/n ≥ λ(det A)1/n + (1 − λ)(det B)1/n .
3. Nelle ipotesi del punto precedente vale altresì
(4.50)
det(λA + (1 − λ)B) ≥ (det A)λ (det B)1−λ .
Dimostrazione. 1. Si ottiene immediatamente applicando la disuguaglianza di concavità alla funzione logaritmica su R+ .
2. In ragione dell'identità det(λA) = λn (det A) occorre e basta provare che
(4.51)
det(A + B)1/n ≥ (det A)1/n + (det B)1/n .
Non è del resto restrittivo assumere che la matrice A sia invertibile, dato che il
caso generale si ottiene per densità. A questo punto, grazie al teorema di Binet
ci riduciamo a provare la disuguaglianza
(4.52)
det(In + C)1/n ≥ (det In )1/n + (det C)1/n ,
ove C = A−1/2 BA−1/2 e perciò simmetrica e denita non negativa. Per provare
quest'ultima relazione per una generica C ∈ Sn+ (R), possiamo (via teorema spettrale) diagonalizzare C introducendo gli autovalori c1 , ..., cn reali non negativi.
Quindi la (4.52) si riduce alla forma
(4.53)
Y
Y
(1 + ci )1/n ≥ 1 + ( ci )1/n .
Ma ora la parte già provata della proposizione fornisce
Y
(
Y ci
1
1X
1
1 X ci
)1/n +
(
)1/n ≤
(
)+
(
) = 1.
1 + ci
1 + ci
n
1 + ci
n
1 + ci
(4.54)
3. Il primo punto garantisce che nelle nostre ipotesi valga
λ
λ(det A)1/n + (1 − λ)(det B)1/n ≥ (det A) n (det B)
1−λ
n
.
(4.55)
Elevandone ambo i membri alla potenza n ed utilizzando il risultato del passo 2.
si ottiene la tesi.
4.2.4 Formulazione above tangent
È un fatto generale che se una funzione Φ : [0, 1] → R ∪ {+∞} è λ-uniformemente
convessa, allora
Φ(1) ≥ Φ(0) +
d+
λ
Φ(t) +
dt t=0
2
(4.56)
ove
49
d+
Φ(t) − Φ(0)
Φ(t) = lim sup
dt t=0
t
+
t↓0
(4.57)
ad indicare cioè la derivata superiore destra in t = 0 che è di fatto una banale derivata
destra, in ragione dell'ipotesi di convessità di Φ. Da questa osservazione discende la
proposizione seguente.
Teorema 4.2.7. Sia F un funzionale a valori in R∪{+∞} , denito su un sottinsieme
geodeticamente convesso P di P2 (Rn ). Siano poi µ0 , µ1 due misure di probabilità in P
e denotiamo con (µt )t∈[0,1] una geodetica a velocità costante che le interpola in P e
lungo la quale F sia λ-uniformemente convesso. Allora
F (µ1 ) ≥ F (µ0 ) +
d+
λ
F (µt ) + W22 (µ0 , µ1 ).
dt t=0
2
(4.58)
Anché questa proposizione risulti eettivamente utile nelle applicazioni, è necessario
+
disporre di qualche strumento per il calcolo di dtd t=0 F (µt ). Un tale strumento è fornito
dal teorema seguente.
Teorema 4.2.8. Siano U : R+ → R ∪ +∞, V, W : Rn → R ∪ +∞ funzioni mi-
surabili tali che la U verichi la condizione di convessità (4.22) del Teorema 4.2.3
e che V, W siano convesse e W sia simmetrica rispetto all'origine. Siano poi µ0 , µ1
due misure di probabilità assolutamente continue su Rn con densità ρ0 , ρ1 a guisa che
U (ρ0 ), U (ρ1 ), ρ0 V, ρ1 V appartengano ad L1 (Rn ) e ρ0 (x)ρ0 (y)W (x−y), ρ1 (x)ρ1 (y)W (x−
y) appartenga L1 (Rn × Rn , dxdy). Sia poi ∇ϕ come nel teorema di Brenier una mappa
da ρ0 verso ρ1 ovvero tale che ∇ϕ] ρ0 = ρ1 . Allora
d+
U(ρt ) =
dt t=0
Z
[U (ρ0 ) − ρ0 U 0 (ρ0 )] (∆A ϕ − n) dx;
Rn
(4.59)
ove ∆A indica l'operatore di Laplace nel senso di Aleksandrov;
d+
V(ρt ) =
dt t=0
d+
W(ρt ) =
dt t=0
Z
ρ0 (x) h∇V (x), (∇ϕ(x) − x)i dx;
Rn
(4.60)
Z
ρ0 (x)ρ0 (y) h∇W (x − y), [(∇ϕ(x) − x) − (∇ϕ(y) − y)]i dxdy.
Rn ×Rn
(4.61)
Dimostrazione. Cominciamo dalla dimostrazione della (4.60). Ricordando la denizione di push-forward abbiamo
V(ρt ) − V(ρ0 )
=
t
Z
ρ0 (x)
V ((1 − t)x + t∇ϕ(x)) − V (x)
dx.
t
(4.62)
Se V è convessa, allora il termine tra parentesi quadre converge in maniera monotona
per t ↓ 0+ a h∇V (x), ∇ϕ(x) − xi per q.o.x e si ottiene la tesi applicando il teorema
di convergenza monotona. La dimostrazione di (4.61) è analoga. Per provare la (4.59)
50
dobbiamo ancora far ricorso all'equazione di Monge-Ampère per scrivere
U(ρt ) − U(ρ0 )
t
Z
=
Rn
1
t
(4.63)
ρ0 (x)
2
U(
) det (1 − t)In + tDA
ϕ(x) − U (ρ0 (x))
2
det [(1 − t)In + tDA ϕ(x)]
che possiamo riscrivere (con ovvio signicato dei simboli)
Z
Rn
1
{u(t, x) − u(0, x)} dx.
t
dx,
(4.64)
(4.65)
In base alle nostre ipotesi sappiamo che sia u(1, x) che u(0, x) sono integrabili e, per
quanto già visto nella dimostrazione della prima parte del Teorema 4.2.3, che per
q.o. x la funzione t 7−→ u(t, x) è ben denita e convessa; perciò la sua pendenza
(u(t, x) − u(0, x))/t è non crescente per t ↓ 0 e converge in maniera monotona ad
u0 (0, x) ove 0 indica la derivata parziale (destra) rispetto a t. A questo punto, un
calcolo tedioso, ma pressoché automatico consente di mostrare
u0 (0, x) = [U (ρ0 (x)) − ρ0 (x)U 0 (ρ0 (x))] (∆A ϕ(x) − n)
(4.66)
sicché passando al limite ancora con il teorema della convergenza monotona si ottiene
la tesi.
4.3 Una prima applicazione: unicità dello stato fondamentale
Dato che il prossimo capitolo sarà per intero dedicato ad alcune applicazioni dei risultati
teorici visti in questo capitolo, ci limitiamo qui ad un solo fondamentale esempio. Si
tratta della elegante dimostrazione, dovuta a McCann ([21]), dell'unicità dello stato
fondamentale (ovvero a minima energia totale) per un gas di molecole interagenti e
descrivibile tramite un funzionale energetico del tipo visto sopra.
Teorema 4.3.1. Si consideri il seguente funzionale energetico, denito su P2ac (Rn ) :
Z
1
F (ρ) =
U (ρ(x)) dx +
2
Rn
Z
1
V dρ +
2
Rn
Z
W (x − y) dρ(x)dρ(y).
Rn ×Rn
(4.67)
Si assuma che U verichi la condizione (4.22) del Teorema 4.2.3, che inf V > −∞
e che V e W siano convesse. Si assuma inne che V (risp. W ) sia strettamente
convesso. Allora, esiste al più un minimo per F (risp. al più un minimo, a meno di
traslazioni) sull'insieme P2ac (Rn ).
Dimostrazione. Per assurdo, si supponga l'esistenza di (almeno) due minimi, diciamo
ρ0 e ρ1 e si ponga ρ = [ρ0 , ρ1 ]1/2 . Grazie al criterio di convessità 4.2.3, sappiamo che se
V è strettamente convesso, allora F è strettamente convesso lungo geodetiche e perciò
F (ρ) < [F (ρ0 ) + F (ρ1 )] /2, assurdo. Se invece V è semplicemente convesso, mentre
51
W è strettamente convesso sappiamo che t 7→ F [ρ0 , ρ1 ]t è strettamente convesso lungo
geodetiche, fuorché nel caso in cui ρ0 e ρ1 si ottengano una dall'altra per traslazione, che
è quindi l'unico nel quale l'argomento di contraddizione precedente non è applicabile.
Pertanto, in questo secondo caso, si deve concludere che due eventuali minimi per F si
ottengono l'uno dall'altro per traslazione.
Ossrvazioni 4.3.2.
• Questo tipo di argomenti è standard per funzionali convessi.
Nel nostro caso la dicoltà è stata arontata a monte al ne di individuare una
adeguata nozione analoga alla convessità in P2ac (Rn ).
• Come corollario di questo risultato di unicità, si può dimostrare che se V è pa-
ri, allora pure il minimo dev'essere pari (eventualmente a meno di traslazioni.)
Analogamente, se V e W sono a simmetria radiale, allora pure il minimo deve
essere a simmetria radiale (eventualmente a meno di traslazioni).
Capitolo 5
Alcune disuguaglianze funzionali
5.1 Brunn-Minkowski ed isoperimetria
Quale primo esempio di applicazione delle tecniche esposte nel capitolo precedente
diamo dimostrazione della disuguaglianza di Brunn-Minkowski. In questo paragrafo denoteremo con le lettere X ed Y due sottoinsiemi compatti di Rn e con |X| od
|Y | rispettivamente le misure di tali insiemi secondo la misura di Lebesgue. Inne,
richiamiamo la denizione di somma di Minkowski di X ed Y :
(5.1)
X + Y = {x + y; x ∈ X, y ∈ Y } .
È un fatto standard di topologia che se X ed Y sono compatti, allora pure X + Y lo è
e perciò quest'ultimo sarà in particolare un insieme misurabile.
Notiamo, prima di enunciare la Brunn-Minkowski che si ha |λX|1/n = |λ| |X|1/n ∀λ ∈
1/n
R e che dunque |X|
va considerata come una `misura di lunghezza' dell'insieme X.
Teorema 5.1.1. Dati comunque due insiemi compatti X ed Y in Rn vale la disugua-
glianza
1/n
|X + Y |
≥ |X|
1/n
1/n
+ |Y |
(5.2)
.
Dimostrazione. Dato un insieme X compatto di Rn chiamiamo misura di probabilità
χX n
uniforme di X la probabilità µX = |X|
L . Consideriamo dunque un'interpolazione alla
McCann tra µ0 := µX e µ1 := µY e sia (µt ) = [µX , µY ]t la corrispondente geodetica in
P2ac (Rn ). È immediato dimostrare che µt ha supporto (sia St ) contenuto nell'insieme
(1 − t)X + tY. Introduciamo ora il funzionale (già studiato nel capitolo precedente)
Z
(5.3)
1
ρ(x)1− n dx
U(µ) = −
Rn
(laddove ρ denota la densità di µ) che sappiamo essere convesso lungo geodetiche e per
il quale U(µX ) = − |X|1/n . Si ha dunque
(5.4)
U(µt ) ≤ (1 − t)U(µ0 ) + tU(µ1 )
che vuol dire
1/n
U(µt ) ≤ −(1 − t) |X|
52
1/n
− t |Y |
.
(5.5)
Capitolo 5. Alcune disuguaglianze funzionali
53
Del resto si può minorare U(µt ) tramite la disuguaglianza di Jensen
Z
U(µt ) =
U(
St
dρt
1
) dx ≥ |St | U (
dx
|St |
Z
dρt ) = |St | U (
1
1/n
) = − |St |
,
|St |
(5.6)
per cui grazie all'osservazione precedente U(ρt ) = − |St |1/n ≥ − |(1 − t)X + tY |1/n .
Mettendo insieme le due disuguaglianze ottenute si ottiene inne
1/n
|(1 − t)X + tY |
1/n
≥ (1 − t) |X|
1/n
+ t |Y |
(5.7)
banalmente equivalente alla tesi.
Vediamo ora come questo risultato consenta di ottenere in modo sorprendentemente
elegante la disugauglianza isoperimetrica in spazi euclidei. Prima di procedere, diamo
la seguente denizione (vedasi ad esempio [13])
Denizione 5.1.2. Sia X ⊂ Rn un insieme compatto e denotiamo (come sopra) con
|·| la misura di Lebesgue. Si chiama supercie di X il numero reale
S(X) = lim inf
↓0
|X + B | − |X|
.
(5.8)
Teorema 5.1.3. Tra tutti gli insiemi compatti di Rn di volume assegnato, la sfera
S n−1
è quello di minima supercie.
Dimostrazione. Dalla disuguaglianza di Brunn-Minkowski, avendo posto Y = B discende
1/n
1/n
|X + B |
− |X|
1/n
≥ |B|
,
(5.9)
passando al lim inf otteniamo con semplici manipolazioni
1
1
1
−1
|X| n S(X) ≥ |B| n .
n
(5.10)
Sfruttando l'ipotesi di uguaglianza tra i volumi e ricordando S(B) = n |B| arriviamo
alla disuguaglianza
S(X)
S(B)
1
n−1
≥
|X|
|B|
n1
(5.11)
che è quel che volevamo.
5.2 Prékopa-Leindler ed Henstock-McBeath
Vi è anche una formulazione funzionale ed apparentemente più generale della disuguaglianza di Brunn-Minkowski ottenuta separatamente da Prékopa e Leindler nei primi
anni Settanta ([20],[25]). Può essere espressa come segue:
Teorema 5.2.1. Si considerino tre funzioni f, g, h reali non negative ed integrabili su
Rn
ed un numero reale λ ∈ [0, 1] . Se vale ∀x, y ∈ Rn
h((1 − λ)x + λy) ≥ f (x)1−λ g(y)λ ,
(5.12)
54
allora
1−λ Z
Z
Z
h(x) dx ≥
f (x) dx
Rn
Osservazioni 5.2.2.
Rn
λ
g(x) dx .
Rn
(5.13)
1. Nella maggior parte delle applicazioni è utile operare la scelta
h(z) =
sup
f (x)1−λ g(y)λ .
z=(1−λ)x+λy
(5.14)
2. Tale positura, per λ = 21 e scegliendo come f e g le caratteristiche di due compatti
X ed Y fornisce la disuguaglianza
X + Y
2
2
≥ |X| |Y | .
(5.15)
3. In eetti, con relativa facilità si può mostrare che le disuguaglianze di BrunnMinkowski e Prékopa-Leindler sono equivalenti.
4. Della disuguaglianza di Prékopa-Leindler esistono varie dimostrazioni: nel seguito
proponiamo quella tratta dalla tesi di dottorato di Barthe [3].
Dimostrazione.
Per omogeneità, si può assumere senza perdita di generalità f =
R
g = 1 e pertanto, in base alle ipotesi, le funzioni f e g possono essere considerate
R
come densità di misure di probabilità su Rn . Occorre e basta mostrare che h ≥ 1.
Deniamo p come la (densità della) probabilità risultante dalla restrizione a [0, 1]n di
Ln ed introduciamo mappe di trasporto ottimo ∇ϕ1 da p verso f e ∇ϕ2 da p verso g. Il
Teorema 3.4.3 assicura che per q.o. x ∈ [0, 1]n valgano le equazioni di Monge-Ampère
R
2
f (∇ϕ1 (x)) det DA
ϕ1 (x) = 1
(5.16)
2
g (∇ϕ2 (x)) det DA
ϕ2 (x) = 1.
(5.17)
ed analogamente
Deniamo ora l'interpolazione tra funzioni ϕ := (1 − λ)ϕ1 + λϕ2 . Segue la catena di
disuguaglianze
Z
Z
h(x) dx ≥
Rn
Z
≥
[0,1]n
n
2
h(∇ϕ(x)) det DA
ϕ(x) dx
(5.18)
[0,1]
2
h((1−λ)∇ϕ1 (x)+λ∇ϕ2 (x)))(det DA
ϕ1 (x)
Z
≥
1 dx = 1
[0,1]n
1−λ
λ
2
)(det DA
ϕ2 (x) ) dx (5.19)
(5.20)
ove si sono utilizzate in sequenza la formula di cambio variabile secondo Aleksandrov,
il lemma di concavità dimostrato nel capitolo precedente (Lemma 4.2.6) e l'ipotesi di
minorazione per h.
55
Una dimostrazione molto simile vale per una versione più generale di quest'ultimo risultato: la disuguaglianza di Henstock-McBeath. Diamo prima una denizione, ispirata
alla nozione di media aritmetica tra numeri reali.
Denizione 5.2.3. Dati due numeri reali positivi a e b ed inoltre due parametri α ∈ R
e λ ∈ [0, 1] deniamo
1/α
Mαλ (a, b) = [λaα + (1 − λ)bα ]
.
(5.21)
Estendiamo tale denizione a numeri reali non negativi ponendo Mαλ (a, b) = 0 qualora
a = 0 oppure b = 0.
Teorema 5.2.4. Siano f, g, h tre funzioni reali non negative ed integrabili su Rn ,
inoltre λ ∈ [0, 1] ed α ≥ −1/n. Si assuma che per ogni x, y ∈ Rn valga
h(λx + (1 − λ)y) ≥ Mαλ [f (x), g(y)] ,
(5.22)
allora
Z
Rn
Z
λ
α
h(x) dx ≥ M 1+nα
Z
f (x) dx,
Rn
g(x) dx .
Rn
(5.23)
I risultati esposti in questa sezione sono stati generalizzati da vari autori (CorderoErasquin e Mc-Cann in primis) al contesto delle varietà riemanniane, in relazione alla
curvatura di Ricci ([10]).
5.3 Brascamp-Lieb e Barthe
Forniamo di seguito la versione più generale possibile di una disuguaglianza proposta
da Brascamp e Lieb nella seconda metà degli anni Settanta ([5]) e che - come sarà
discusso tra poco - racchiude come casi particolari le disuguaglianze di Hölder e di
Young. Premettiamo questa
Denizione 5.3.1. Chiamiamo funzione gaussiana centrata una funzione f : Rm → R
che ammetta una rappresentazione della forma f (x) = e−hAx,xi per qualche matrice
+
m × m reale simmetrica denita positiva (ovvero A ∈ Sm
(R)).
Teorema 5.3.2. Si suppongano dati numeri interi m ≥ 1, N ≥ 1 ed (ni )1≤i≤m e reali
(ci )1≤i≤m
a guisa che valga
m
X
ci ni = N.
(5.24)
i=1
Siano poi Bi : RN → Rni applicazioni lineari surgettive tali che
\
ker Bi = 0.
(5.25)
i
Date funzioni fi : Rni → R non negative ed in L1 (Rni ) per i = 1, . . . , m, deniamo
Z
I(f1 , . . . , fm ) =
RN
Y
i
fici (Bi x) dx.
(5.26)
56
Esiste allora una costante ottimale I ∈ R di modo che valga la disuguaglianza
I(f1 , . . . , fm ) ≤ I
ci
fi dx
Y Z
(5.27)
Rni
i
quali che siano le fi ed è calcolabile riferendosi a sole funzioni gaussiane tramite la
formula
I(γ1 , . . . , γm )
,
(5.28)
I = I γ = sup Q R
ci
i ( Rni
γi )
ove ciascuna γi sia una funzione gaussiana R → R centrata.
Lemma 5.3.3. La costante I γ è data da
ni
1
Iγ = √ ,
D
ove
D = inf
(5.29)
P
det( i ci Bi∗ Ai Bi )
Q
; Ai ∈ Sn+ (R),
ci
i (det Ai )
1≤i≤n .
(5.30)
Qui Bi∗ indica l' aggiunto dell' operatore lineare Bi .
Dimostrazione. Cominciamo dalla dimostrazione di questo lemma. In eetti essa è
immediata: si tratta solo di ricordare la relazione
Z
√
e−hAx,xi dx = π n/2 / det A
(5.31)
ed inserirla nell' espressione per I γ fornita dal teorema di Brascamp-Lieb.
Prima di addentrarci nella dimostrazione del Teorema 5.3.2, pare opportuno discutere
alcuni semplici esempi applicativi.
Osservazioni 5.3.4. 1. Disuguaglianza di Hölder: scegliendo nella disuguaglianza di Brascamp-Lieb N ≥ 1, n1 = n2 = N, c1 = p1 , c2 = 1q ed inne B1 (x) =
B2 (x) = x e vericando, tramite il Lemma 5.3.3 che in questo caso I γ = 1 si
ottiene la usuale disuguaglianza di Hölder in RN . Il calcolo attraverso il Lemma
5.3.3 di I γ = 1 è in generale piuttosto dicile, ma nello specico si può completare facendo ricorso a ben note disuguaglianze algebriche. A titolo di esempio, per
p
q
N = 1 si ricordi che per numeri a, b reali positivi vale ab ≤ ap + bq per dedurre
D ≥ 1 e si verichi che in eetti D = 1.
2. Disuguaglianza di Young: è ben noto che date f ∈ Lp (Rn ) e g ∈ Lq (Rn ) (con
p, q ≥ 1) e preso (se esiste) r ≥ 1 di modo che p1 + 1q = 1 + 1r vale la relazione
kf ∗ gkLr ≤ kf kLp kgkLq . È stato dimostrato ([5]) che 1 non è la costante ottimale
per la disuguaglianza di Young. La costante ottimale è invece
con
s
Cp =
Cp Cq
Cr
p1/p
,
(p0 )1/p0
n
1
1
+ 0 =1
p p
(5.32)
(5.33)
57
che dà in eetti 1 solo nei casi in cui p e q sono 1 o ∞. Vi è un modo più
simmetrico (ed a posteriori equivalente) di esprimere la disuguaglianza di Young
ottimale: indicato con r0 l'esponente duale di r e con h ∈ Lr (Rn ) abbiamo
Z
n
f (x)g(x − y)h(y) dxdy ≤ Cp Cq
kf kLp kgkLq khkLr0
Cr
(5.34)
(5.35)
= (Cp Cq Cr0 )n kf kLp kgkLq khkLr0 ,
ove abbiamo usato, nell'ordine, la denizione di convoluzione, la disuguaglianza
di Hölder, la disuguaglianza di Young ottimale ed il fatto che Cr0 = C1r . Detto
questo, basta prendere nella Brascamp-Lieb m = 3, n1 = n2 = n3 = n N = 2n
con applicazioni B1 (x, y) = x, B2 (x, y) = x − y, B3 = y ed esponenti c1 = p1 , c2 =
1
1
q , c3 = r 0 per ritrovare la disuguaglianza di Young. Col senno di poi, il Lemma
5.3.3 ci consente di calcolare la costante ottimale con metodi diversi da quelli
seguiti da Brascamp e Lieb.
La dimostrazione che proponiamo è tratta ancora da un articolo di Barthe. Essa
contiene una sorta di formulazione duale della disuguaglianza di Brascamp-Lieb, che
pare opportuno enunciare esplicitamente.
Teorema 5.3.5. Con la stessa notazione del Teorema 5.3.2, si denisca l'applicazione
Z
J(g1 , . . . , gm ) =
"
#
Y
sup
RN
P
x= ci Bi∗ (xi ) i
gici (xi )
dx.
(5.36)
Allora la costante ottimale J nella disuguaglianza
J(g1 , . . . , gm ) ≥ J
Y Z
i
ci
gi
Rni
(5.37)
può essere calcolata riferendosi alle sole funzioni gaussiane. Inoltre
IJ = 1.
(5.38)
Osservazione 5.3.6. Scegliendo n1 = n2 = N, c1 = λ, c2 = 1 − λ, B1 = B2 = In
otteniamo come caso particolare della disuguaglianza di Barthe la Prékopa-Leindler.
Dimostrazione. Vediamo ora la dimostrazione delle disuguaglianze di Brascamp-Lieb e
di Barthe: come apparirà chiaro tra poco è conveniente dimostrare questi due risultati
congiuntamente
con una
tecnica Rdi dualità. Anzitutto,
non è lesivo di generalità assuR
R
R
mere f1 dx = · · · = fm dx = g1 = · · · = gm = 1 e dunque, per l'ipotesi di non
negatività di tali funzioni, queste possono essere assunte quali densità di probabilità
sui rispettivi spazi di denizione. Avremo allora:
I = sup I (f1 , . . . , fm )
(5.39)
J = inf J (g1 , . . . , gm )
(5.40)
58
I γ = sup I (γ1 , . . . , γm )
(5.41)
J γ = inf J (γ1 , . . . , γm )
(5.42)
ove tutti gli argomenti sono densità di probabilità (nei casi terzo e quarto si richiede
altresì d' avere funzioni gaussiane centrate). È ovvio che:
I ≥ Iγ
(5.43)
J ≤ Jγ
(5.44)
e pure
e noi vogliamo dimostrare che queste sono in eetti uguaglianze. La dimostrazione si
basa sui seguenti due lemmi, che dimostreremo a parte:
• Step 1: I γ =
1
Jγ
.
• Step 2: vale la relazione J ≥ DI .
Grazie a questi risultati la dimostrazione si conclude con facilità osservando che deve
valere
√
√
D = J γ ≥ J ≥ DI ≥ DI γ = D
(5.45)
(poichè nel Lemma 5.3.3 avevamo denito I γ =
eetti sole uguaglianze, indi la tesi.
√1 .
D
) e dunque si devono avere in
Il primo dei due lemmi risulta dall' applicazione di una tecnica ben nota di dualità
quadratica (in dimensione nita).
Dimostrazione. Procediamo per passi come segue:
1. Si osservi che il vincolo di normalizzazione (unitaria) impone che le funzioni
gaussiane centrate da considerare siano solo della forma
r
γA (x) =
det A −hAx,xi
e
.
πn
(5.46)
2. Dualità per forme quadratiche. Sia Q una forma quadratica su Rn . Deniamo
la sua duale come
n
o
2
Q? = |hx, yi| ; Q(y) ≤ 1 .
(5.47)
Si verica subito che se Q(y) = hAy, yi allora Q? (x) = A−1 y, y (con A ∈
Sn+ (R)) riducendosi al caso diagonale tramite il teorema spettrale e studiando
tale caso col metodo dei moltiplicatori di Lagrange.
3. Dati (come nel nostro teorema) (ci )1≤i≤m numeri reali non negativi e Bi : RN →
Rni delle applicazioni lineari surgettive, deniamo
Q(y) =
m
X
i=1
hci Bi∗ Ai Bi (y), yi.
(5.48)
59
Allora un argomento standard di dualità mostra che
(
?
Q (x) = inf
m
X
)
ci A−1
i xi , xi
;
x=
X
ci Bi∗ (xi ), xi
∈R
ni
.
(5.49)
i=1
4. Facendo uso della (5.49) (per semplicare il fattore J (γA1 , ..., γAm )) e del secondo
passo dimostrativo si prova inne che
I (γA1 , ..., γAm ) J (γA1 , ..., γAm ) = 1
(5.50)
e da questa la conclusione è immediata.
Vediamo ora di implementare la dimostrazione dello Step 2.
Dimostrazione. Siano come sopra f1 , . . . , fm e g1 , . . . , gm misure di probabilità su
Rn1 , . . . , Rnm rispettivamente ed indichiamo con Ti per i = 1, . . . , m le mappe di trasporto ottimo tali che Ti] fi = gi (la cui esistenza è assicurata dal Teorema 1.5.5) per
cui varranno le equazioni di Monge-Ampère
fi = (gi ◦ Ti ) det(∇Ti ).
(5.51)
Possiamo riassumere la situazione con il diagramma
T
B
B∗
RN →i Rni →i Rni →i RN
(5.52)
il quale suggerisce di considerare l'applicazione Θ : RN ←- data da
Θ(x) =
m
X
ci Bi∗ Ti (Bi x).
(5.53)
i=1
Grazie ad un argomento di regolarità di Caarelli (vedasi [4]) è possibile dimostrare
che Θ è in eetti un cambio di variabile strettamente monotono e di classe C 1 e poiché
sappiamo che Ti = ∇ϕi avremo anche che la matrice D2 ϕ = ∇Ti è simmetrica e
denita positiva. Ciò legittima l'applicazione alla matrice Jacobiana di Θ ovvero
∇Θ(x) =
m
X
ci Bi∗ ∇Ti (Bi x)Bi
(5.54)
i=1
della maggiorazione che discende dalla denizione della quantità D nel Lemma 5.3.3
m
X
det [∇Θ(x)] = det(
ci Bi∗ ∇Ti (Bi x)Bi )(5.55)
i=1
≥D
m
Y
i=1
c
[det ∇Ti (Bi x)] i .
(5.56)
60
A questo punto la conclusione è automatica:
Z
J(g1 , . . . , gm ) =
sup
nY
o
ci Bi∗ yi dy
(5.57)
o
ci Bi∗ yi = Θ(x) det ∇Θ(x) dx
(5.58)
gi (yi )ci ;
y=
X
RN
Z
=
sup
nY
X
gi (yi )ci ;
RN
Z
≥D
sup
nY
X
gi (yi )ci ;
RN
oY
c
ci Bi∗ yi = Θ(x)
[det ∇Ti (Bi x)] i dx.
(5.59)
i
Ora si noti che se yi = Ti (Bi x) per i = 1, . . . , m allora
quest'ultima quantità si maggiora con
Z
Y
D
gi (Ti (Bi (x)))ci
RN
Y
P
ci Bi∗ yi = Θ(x) e perciò
(5.60)
c
[det ∇Ti (Bi x)] i dx
i
Z
=D
Y
[gi (Ti (Bi (x))) det ∇Ti (Bi x)] i dx
(5.61)
Y
fi (Bi (x))ci dx = DI(f1 , ..., fm )
(5.62)
c
RN
Z
D
RN
avendo sfruttato, all'ultimo passaggio, le equazioni di Monge-Ampère scritte sopra.
5.4 Sobolev ottimale
Una classe di disuguaglianze di primaria importanza in vari settori dell' Analisi Funzionale è costituita dalle disuguaglianze di Sobolev. Premettiamo un paio di denizioni
e di lemmi che saranno utili in seguito.
Denizione 5.4.1. Sia u : Rn ←- una funzione a valori vettoriali: diremo che u ∈
Lp (Rn ) se
X
n Z
p
|ui | dx < ∞
(5.63)
Rn
i=1
ed in tale caso deniremo
kukLp :=
X
n Z
i=1
1/p
p
|ui | dx
(5.64)
Rn
A tale proposito vale il seguente:
e due funzioni
u : R ←- e v : R ←- con u ∈ L (R ) e v ∈ L (R ) nel senso della denizione
precedente, allora vale la disuguaglianza di Hölder vettoriale:
Lemma 5.4.2. Dati esponenti duali p, p0 ≥ 1 ovvero con
n
n
p
n
p
0
1
p
1
p0
=1
n
Z
Rn
+
|hu(x), v(x)i| dx ≤ kukLp kvkLp0 .
(5.65)
61
Dimostrazione. Si applichino in sequenza la disuguaglianza triangolare in Rn , la usuale
disuguaglianza di Hölder a ciascun addendo così ottenuto ed inne la disuguaglianza
di Hölder per stringhe di numeri reali positivi
n
X
xi yi ≤
X
n
i=1
xpi
1/p X
n
i=1
0
xpi
1/p0
.
(5.66)
i=1
Vediamo ora un secondo lemma di algebra lineare
Lemma 5.4.3. Sia M una matrice reale simmetrica semidenita positiva, allora vale
la disuguaglianza tra nuemri reali
(det M )1/n ≤
trM
.
n
(5.67)
Dimostrazione. Grazie al teorema spettrale possiamo ridurci al caso diagonale (sfruttando la proprietà di invarianza degli operatori det e tr) ed in quel caso l'asserto equivale alla disuguaglianza tra media geometrica e media aritmetica, provata nel capitolo
precedente (Lemma 4.2.6).
Richiamiamo inne la seguente fondamentale
Denizione 5.4.4. Siano dati un intero n ≥ 1 ed un reale p ≥ 1. Deniamo lo spazio
di Sobolev W 1,p come segue
W 1,p = {f ∈ Lp (Rn );
∇f ∈ Lp (Rn )} .
(5.68)
Quando p ∈ [1, n) possiamo denire l'esponente
p? =
np
,
n−p
(5.69)
da non confondere con p0 . È ben noto allora il teorema di critical Sobolev embedding
?
W 1,p ,→ Lp che asserisce l'esistenza di una costante ottimale Sn (p) ≥ 0 tale che
∀f ∈ W 1,p (Rn ),
kf kLp? ≤ Sn (p) k∇f kLp .
(5.70)
In eetti, l'embedding W 1,p ,→ Lp è un risultato abbastanza standard, ma è meno
banale la determinazione della costante Sn (p), cosa importante in varie applicazioni di
sica teorica o di geometria (isoperimetria su varietà compatte).
Per 1 < p < n deniamo la funzione hp come
?
hp (x) =
1
p0
(σp + |x| )
n−p
p
,
(5.71)
ove σp è determinato dalla condizione
khp kLp? = 1.
L'importanza di tali funzioni risulta dal teorema seguente:
(5.72)
62
Teorema 5.4.5. Sia p ∈ (1, n) . Date comunque due funzioni f, g ∈ Lp soddisfacenti
?
la condizione kf kLp? = kgkLp? e con ∇f ∈ Lp (Rn ), allora
R
p? (1−1/n)
|g|
dy
p(n − 1)
≤
k∇f kLp ,
R p0
p?
0
1/p
n(n
− p)
( |y| |g(y)| dy)
(5.73)
e si ha eguaglianza qualora f = g = hp . Quali immediate conseguenze abbiamo che
1. vale il principio di dualità
R
|g|
p? (1−1/n)
dx
p(n − 1)
=
inf k∇f kLp
R p0
p?
0
n(n − p) kf kLp? =1
kgkLp? =1 ( |y| |g(y)| dy)1/p
sup
(5.74)
con hp estremale per entrambi tali problemi variazionali;
2. se f ∈ Lp (Rn ), allora vale la disuguaglianza funzionale
?
k∇f kLp ≥ kf kLp? k∇hp kLp ;
(5.75)
3. il Sobolev embedding W 1,p ,→ Lp ha come costante ottimale
?
Sn (p) = k∇hp kLp .
(5.76)
Dimostrazione. È ovvio che (5.73) implichi 1., che 1. implichi 2. (una volta mostrato
che hp è estremale per il problema a secondo membro della (5.74)) e che 2. implichi
3., per cui non resta che provare la (5.73). Nel fare questo, non è lesivo di generalità
assumere:
• f, g ≥ 0 in virtù dell'uguaglianza (in senso distribuzionale k∇f kLp = k∇ |f |kLp );
• kf kLp? = kgkLp? = 1 per omogeneità;
• f, g ∈ Cc∞ (Rn ) potendosi dedurre il caso generale con un argomento di densità.
Consideriamo ora le due densità di probabilità su Rn date da
F (x) = f (x)p
e
?
?
G(y) = g(y)p .
(5.77)
(5.78)
Grazie al teorema di Brenier (nella forma 1.5.5) esiste una funzione convessa ϕ (univocamente determinata q.o. sul supporto di f ) tale che il suo gradiente verichi
∇ϕ] (F Ln ) = GLn . Sappiamo inoltre che supp(G) = ∇ϕ(supp(F )). Vale ora la catena
di disuguaglianze
Z
1
G(y)1− n dy =
Z
=
Z
F (x)G(∇ϕ(x))−1/n dx
1/n
2
F (x)F (x)−1/n det DA
ϕ(x)
dx
(5.79)
(5.80)
≤
1
n
Z
63
(5.81)
1
F (x)1− n ∆A ϕ(x) dx
ove abbiamo usato al primo passaggio la formula di cambio variabile per push-forward,
al secondo l'equazione di Monge-Ampère per ∇ϕ ed al terzo l'ulteriore disuguaglianza
2
(det DA
ϕ)1/n ≤ (∆A ϕ)/n che risulta dall'applicazione del Lemma 5.4.3 alla matrice
rappresentativa di DA2 ϕ. Ora, dato che G è a supporto compatto, abbiamo che ∇ϕ è
limitato ϕ può essere estesa ad una funzione convessa su tutto Rn e poichè è pure di
classe C ∞ possiamo scrivere
1
n
Z
1
F (x)1− n ∆A ϕ(x) dx ≤
1
n
Z
1
F (x)1− n ∆D0 ϕ(x) dx = −
1
n
Z D
E
1
∇(F 1− n ), ∇ϕ dx.
(5.82)
Combinando le due disuguaglianze appena ottenute e ricordando la denizione di F e
G abbiamo mostrato che
Z
g(x)
p(n−1)
n−p
dx = −
p(n − 1)
n(n − p)
Z
f (y)p
?
/p0
h∇f (y), ∇ϕ(y)i dy.
(5.83)
Inne, la disuguaglianza di Hölder in forma vettoriale (Lemma 5.4.2) fornisce
Z
−
p? /p0
f (y)
Z
h∇f (y), ∇ϕ(y)i dy ≤ kf kLp
f (y)
p?
p0
|∇ϕ(y)| dy
1/p0
(5.84)
e poichè, per denizione di push-forward
Z
f (y)
p?
p0
|∇ϕ(y)| dy ≤
Z
p0
?
|y| g(y)p dy
(5.85)
la disuguaglianza (5.73) è dimostrata. Qualora f = g = hp , la mappa di Brenier
ϕ(x) = x non è a supporto compatto, ma le veriche di uguaglianza nei vari passaggi
possono essere svolte esplicitamente senza alcuna dicoltà.
Osservazione 5.4.6. Il valore di questo risultato potrebbe apparire sminuito dall'origine
apparentemente misteriosa della funzione hp . Tuttavia, così non è, nella misura in
cui chiedendo che valga l'uguaglianza a livello dell'applicazione della disuguaglianza
0
?
di Hölder come sopra si trova la condizione k∇f (x)kp = kf p (x) k∇ϕ(x)kp per q.o.
x ∈ Rn . Se ora poniamo ϕ(x) = x e studiamo le sole funzioni a simmetria radiale,
troviamo hp .
5.5 Talagrand e concentrazione
Nel 1996 M. Talagrand dimostrò in [28] una interessante disuguaglianza funzionale in
grado di fornire un upper bound per il costo di trasporto tra due misure sullo spazio euclideo Rn , delle quali la prima sia la misura gaussiana γn e la seconda sia assolutamente
continua rispetto a questa. Tale risultato veniva lì poi generalizzato ad altre misure
prodotto, in particolare alla cosidetta misura esponenziale doppia ed in ogni caso le
dimostrazioni proposte dall'autore si appellavano solo a strumenti elementari. Scopo
della prima parte di questa sezione è illustrare in dettaglio tali risultati, contestualiz-
64
zandoli nel quadro teorico esposto nei primi due capitoli. Successivamente, seguendo
ancora Talagrand, dedurremo da tali stime una disuguaglianza di concentrazione piuttosto signicativa, per certi versi comparabile con i migliori risultati in questo senso,
ottenuti a partire dalla disuguaglianza isoperimetrica.
5.5.1 La disuguaglianza di Talagrand
Denizione 5.5.1. Considerato lo spazio euclideo n-dimensionale Rn con la sua σ algebra boreliana B(Rn ) deniamo misura gaussiana n-dimensionale γn la misura assolutamente continua rispetto alla misura di Lebesgue Ln e descritta dalla densità
1
2
ρn =
e−||x||2 /2 . Equivalentemente γn è la misura prodotto ottenuta quando
n/2
(2π)
1
ciascuno dei fattori R sia munito della misura di densità ρ = ρ1 =
e−x /2 . Sia
(2π)1/2
data poi sullo stesso spazio probabilizzato una misura µ, assolutamente continua rispetto a γn e sia f ∈ L1 (Rn , B(Rn ), γn ) un rappresentante della densità di µ rispetto a γn .
Osserviamo che in questa generalità non è possibile denire la distanza di Wasserstein
2
(5.86)
W22 (µ, γn )
ove - in accordo con quanto ampiamente discusso nel capitolo 2 - W22 indica il quadrato
del costo di trasporto secondo la funzione costo
2
w(x, y) = ||x − y||2 =
X
(xi − yi )2 ,
(5.87)
i≥1
per il semplice fatto che non si assume µ ∈ P2 (Rn ). Tuttavia conveniamo nel seguito
di
porre - com'è ragionevole - W22 (µ, γn ) = +∞ qualora per ogni π ∈ Γ(µ, γn ) valga
R
w(x, y) dπ(x, y) = +∞. 1 La disuguaglianza che segue va pertanto considerata
Rn ×Rn
alla luce di questa eventualità.
Teorema 5.5.2. Sia data su (Rn , B(Rn )) una misura µ, assolutamente continua ri-
spetto a γn e sia f ∈ L1 (Rn , B(Rn ), γn ) un rappresentante della densità di µ rispetto a
γn . Allora
W22 (µ, γn ) ≤ 2
Z
Z
f log f dγn = 2
log f dµ.
(5.88)
Osservazione 5.5.3. Ancorchè questo aspetto non sia discusso da Talagrand nel suo
articolo ([28]), vale la pena di notare che l'espressione a secondo membro della disuguaglianza precedente non ha in generale senso dal momento che la densità f , essendo
arbitraria, potrebbe annullarsi (e non necessariamente su insiemi trascurabili!). Assumeremo perciò convenzionalmente che laddove f = 0 sia f log(f ) = 0, com'è d'altro
canto naturale in ragione del comportamento della funzione x 7→ x log(x) in un intorno
destro dello 0. Questo fatto sarà dato per scontato nelle dimostrazioni seguenti.
Dimostrazione. La dimostrazione della disuguaglianza di Talagrand sarà sviluppata in
vari passi, ottenendo cioè il risultato cercato a diversi gradi di generalità, incominciando
dal caso n = 1 (sulla retta reale) e poi tramite un argomento induttivo al caso di spazio
1 Questo
equivale a dire µ ∈ P \P2 .
65
euclideo di dimensione (nita) qualunque. Assumiamo dapprima che la densità f sia
(sarebbe più opportuno dire `possa essere scelta') una step function avente supporto
compatto e convesso (per ssare le notazioni diciamo che sia l'intervallo [a, b] ∈ R)
e denotiamo per semplicità con ρ = ρ1 la densità della misura gaussiana canonica
unidimensionale γ = γ1 . Vi è un' ovvia maniera di trasportare γ verso µ, per la prima
volta suggerita da Fréchet e consistente nel denire la mappa di trasporto direttamente
tramite la relazione
γ((−∞, x]) = µ((−∞, ϕ(x)]).
(5.89)
A priori non è detto che questa denizione sia ben posta, né che la funzione ϕ abbia
delle buone proprietà. In eetti però osserviamo che, dette Fγ ed Fµ le funzioni di
ripartizione corrispondenti alle nostre misure si ha che (in ragione della denizione
stessa di µ e γ , le quali sono in particolare assolutamente continue rispetto alla misura
di Lebesgue su R) tali funzioni sono continue in ogni punto, inoltre Fγ è strettamente
crescente su R mentre Fµ è strettamente crescente solo su [a, b] e costante per x ≤ a (ove
assume valore 0) e per x ≥ b (ove assume il valore 1) . Inoltre il Teorema Fondamentale
del Calcolo assicura che Fγ sia derivabile ∀x ∈ R, mentre per Fµ questo è vero ad
eccezione di una quantità al più nita di punti (corrispondenti ai punti di discontinuità
della densità f ). Inne, va notato che Fµ non è invertibile in senso classico su R, ma lo
è se ristretta ad (a, b) che manda bigettivamente su (0, 1) . In ragione di ciò, dato che
la denizione di ϕ(x) può essere riformulata come
ϕ(x) = Fµ−1 ◦ Fγ (x),
2
(5.90)
si ottengono immediatamente le proprietà seguenti:
1. La funzione ϕ(x) è ben denita ed è continua (in quanto composizione di funzioni
continue) e quindi è a fortiori misurabile.
2. La funzione ϕ(x) verica la condizione integrale:
Z
x
Z
ϕ(x)
ρ(u) du =
−∞
f (u)ρ(u) du.
−∞
(5.91)
3. La misura µ è l'immagine di γ tramite l' applicazione ϕ e conseguentemente
l'immagine di γ tramite la mappa x 7→ (x, ϕ(x)) è una probabilità π su R2 avente
come marginali γ e µ, ovvero è un piano di trasporto ammissibile tra tali misure
(ovvero π ∈ Γ(γ, µ)).
4. La funzione ϕ(x) è derivabile ad eccezione di un numero nito di punti (l'insieme
dei punti di non derivabilità è costituito dalle preimmagini tramite Fγ dei punti
di non derivabilità di Fµ−1 e la funzione Fγ in questione è iniettiva).
5. Nei punti ove le funzioni ϕ(x) e Fµ sono derivabili vale la relazione (ottenuta per
derivazione della (5.91))
ρ(x) = ϕ0 (x)f (ϕ(x))ρ(ϕ(x)).
2 Questa
è una buona denizione perchè ∀x ∈ R si ha 0 < Fγ (x) < 1.
(5.92)
66
Detto ciò, avremo che
W22 (µ, γ) ≤
Z
d2 (x, y) dπ(x, y) =
Z
R2
d2 (x, ϕ(x)) dγ(x).
(5.93)
R
Posto ora ξ(x − y) = (x − y)2 /2 ci basta allora provare che
Z
Z
ξ(x − ϕ(x)) dγ(x) ≤
R
f (x) log f (x) dγ(x).
(5.94)
R
Ora il risultato si ottiene manipolando opportunamente il secondo membro. Dapprima
Z
Z
f (x) log f (x) dγ(x) =
log f (x) dµ(x)
R
Z
=
Z
(ξ(ϕ(x)) − ξ(x) − log(ϕ0 (x))) dγ(x),
log f (ϕ(x)) dγ(x) =
R
(5.95)
R
(5.96)
R
√
dal momento che ρ(x) = (1/ 2π) exp(−ξ(x)) ed avendo sfruttato all'ultimo passaggio
la relazione (5.92) ricavata in precedenza. Osserviamo ora che vale
Z
0
−ξ(x)
ξ (x)(ϕ(x) − x)e
Z
dx =
R
(ϕ0 (x) − 1)e−ξ(x) dx
(5.97)
R
(questa integrazione per parti è certamente lecita dato che per le ipotesi su f si ha che
ϕ è limitata). Segue che, aggiungendo e togliendo a (5.96) questi termini:
Z
f (x) log f (x) dγ(x)
(5.98)
R
Z
=
(ξ(ϕ(x)) − ξ(x) − (ϕ(x) − x)ξ 0 (x)) dγ(x) +
R
Z
(ϕ0 (x) − 1 − log ϕ0 (x)) dγ(x).
R
(5.99)
Ma ora il secondo dei due integrali a secondo membro dell'equazione appena scritta è
positivo (essendo valida ∀x > 0 la disuguaglianza log(x) ≤ (x − 1)) mentre il primo ha
per argomento θ(ϕ(x)−x) e questo fornisce la disuguaglianza necessaria per concludere.
Pertanto abbiamo provato il teorema nel caso in cui f sia una step function avente
supporto compatto e convesso ed ora passiamo a considerare (sempre per n = 1) il
caso di densità generali, che si otterrà per approssimazione. Qui procediamo in due
passi, dimostrando la tesi per
1. densità essenzialmente limitate, cioè ∈ L∞
2. densità qualunque, cioè in L1 (R, B(R), γ).
cosa che si fa in maniera standard servendosi dei teoremi 2.3.1 e 2.3.3.
Per concludere la dimostrazione, dobbiamo considerare la disuguaglianza in dimensione
arbitraria. Osservato che vale la tensorizzazione γN +1 =R γN ⊗ γ1 , sia f ≥ 0 una
arbitraria funzione denita su RN +1 = RN × R e tale che f dγN +1 = 1. Indichiamo
67
poi con g la densità corrispondente alla sua marginale sulle prime n coordinate, ovvero
Z
g(x) =
f (x, y) dγ1 (y),
la quale grazie al teorema di Fubini vericherà g dγN = 1. Vale la pena di notare che
può accadere g(x) = 0 solo per quei valori di x tali che f (x, y) = 0 per q.o. y ∈ R,
(x,y)
sicchè possiamo porre fx (y) = fg(x)
convenendo che fx (y) = 1 ove g(x) = 0. A questo
punto una facile manipolazione algebrica mostra che:
R
Z
Z
f log f dγN +1 =
RN +1
Z
Z
g log g dγN +
RN
RN
fx log fx dγ1 g(x) dγN (x), (5.100)
R
nella quale tutti gli integrali sono ben deniti in virtù dell'osservazione appena fatta. Si assuma ora che f sia una versione della densità di una misura µ su RN +1 ed
indichiamo con η la probabilità su RN corrispondente alla densità g ed inne con µx
la misura su R di densità fx . Procediamo ora al trasporto di µ verso γN +1 in due
passi, sì da poter poi sfruttare l'identità appena scritta. Come primo passo consideriamo il trasporto di µ verso η ⊗ γ1 : ad x ssato si tratta di trasportare δx ⊗ µx
verso δx ⊗ γ1 (ovvero di redistribuire la massa Rlungo questa bra), cosa che per ipotesi induttiva sappiamo fare con spesa al più R fx log fx dγ1 e poi di integrare in x
pesando opportunamente la spesa a seconda della quantità di massa posta nella bra
di x. Segue che la spesa complessiva per questo trasporto è maggiorata proprio dal
secondo addendo della (5.100). A questo punto si tratta di eseguire il trasporto di
η ⊗ γ1 verso γN +1 , operazione che intuitivamente corrisponde ad una permutazione
nella distribuzione di massa secondo la x (che rappresenta le prime N coordinate).
Sempre per ipotesi induttiva noi sappiamo come trasportare η verso γN con un costo maggiorato dal primo addendo a destra della (5.96). Possiamo perciò pensare che
il trasporto avvenga per composizione di due mappe di Monge operanti secondo direzioni tra loro ortogonali, dapprima secondo l'asse coordinato di indice n + 1 e poi
secondo il piano a questo ortogonale. Ciò corrisponde a dire che nella prima fase del
trasporto operiamo solo sull'ultima coordinata, mentre nella seconda sulle rimanenti
n coordinate. Per concludere ci serve un'osservazione generale: Sia H = Rn con la
struttura standard di spazio di misura e siano µ1 , µ2 , µ3 tre probabilità sulla sua σ algebra boreliana. Siano date poi mappe di Monge T (che trasporti µ1 verso µ2 ) ed S
(che trasporti µ2 verso µ3 ) e tali che ∀x ∈ H (T (x) − x)⊥(S(T (x)) − T (x)). Allora
S ◦ T è una mappa di Monge tra µ1 e µ3 di costo pari alla somma dei costi di T ed S
R
R
R
ovvero H |S ◦ T (x) − x|2 dµ = H |T (x) − x|2 dµ+ H |S(y) − y|2 dµ. La dimostrazione
di questo fatto si ottiene aggiungendo e togliendo al primo integrando la quantità T (x)
e sviluppando il quadrato tenendo conto delle ipotesi di ortogonalità. L' applicazione
di quest'osservazione al nostro caso ci consente di completare la dimostrazione della
disuguaglianza di Talagrand.
5.5.2 Entropia relativa
In questa sezione vogliamo discutere il risultato appena ottenuto alla luce della nozione
di entropia, che per questo brevemente descriviamo. Si consideri assegnato un certo
68
sistema sico e si supponga di poterne descrivere lo spazio delle fasi in termini di
una quantità nita di stati, che indichiamo con S1 , .., Sp . Più in generale si potrà
pensare a questo come ad un modello discretizzato di un sistema continuo, ammesso
che ciò abbia un qualche signicato. Se ora il nostro sistema sico è composto di un
certo numero di particelle, diciamo N, può essere utile conoscere istante per istante lo
stato (nel senso descritto sopra) di ciascuna di esse. La conoscenza, per ciscuno degli
stati Sj , delle particelle che si trovano in quello stato sarà chiamata conoscenza del
microstato del sistema. Con ciò intendiamo, più precisamente, la conoscenza per ogni
indice 1 ≤ i ≤ N del valore di Sj(i) del suo stato. In questo senso il sistema ammetterà
pN possibili congurazioni. Talvolta può invece essere suciente una quantità molto
minore di informazione, ovvero la sola conoscenza del numero Nj di particelle che si
trovano in ciascuno stato Sj : si parla, a questo proposito, di macrostato del sistema.
La conoscenza del macrostato di un sistema è chiaramente equivalente alla conoscenza
delle frequenze:
Nj
fj =
j = 1, . . . , p.
(5.101)
N
Questa terminologia, qui introdotta in modo del tutto informale, è tuttavia standard
nel contesto della meccanica statistica. Ci si può domandare, almeno in riferimento
al nostro semplice modello, se esista un modo di calcolare il numero di microstati
corrispondenti ad un certo macrostato. Un facile calcolo combinatorio mostra che la
congurazione macroscopica descritta dalla stringa (N1 , . . . , Np ) corrisponde a
W =
N!
.
N1 ! . . . Np !
(5.102)
La quantità log(W ) si denisce entropia del macrostato considerato (f1 , ..., fp ). Si può
dimostrare, ad esempio servendosi della formula di Stirling, che quando tutti i numeri
Nj tendono all'innito, il che corrisponde alle situazioni tipiche della meccanica statistica, se le frequenze fj convergono verso valori limite che per semplicità di notazione
indicheremo ancora con fj vale la relazione
p
X
1
log(W ) −→ −
fj log fj .
N
j=1
(5.103)
Se ora poniamo H(f ) = pj=1 fj log fj , quanto appena scritto ci dice che la quantità
exp(−N H(f )) è una stima quantitativa asintotica del numero di microstati compatibili
con un certo macrostato. OvviamenteR la naturale generalizzazione di quest'oggetto
nel caso continuo è data da H(f ) = f log f . Tale quantità è spesso denita in
letteratura come funzionale H di Boltzmann, tuttavia adeguandoci di più ad altri
autori e con parziale abuso di linguaggio (rispetto a quanto detto sopra) diamo la
seguente denizione:
P
Denizione 5.5.4. Dati (Ω, F, µ) uno spazio probabilizzato, ν una misura di probabilità su tale spazio e la funzione ϕ : [0, +∞) → R denita da
(
ϕ(t) =
t log(t) se t > 0
0
se t = 0,
(5.104)
69
chiamiamo entropia relativa di ν rispetto a µ la quantità
E(ν/µ) =
R
 ϕ( dν ) dµ se ν µ
dµ
X
(5.105)
altrimenti.
+∞
Teorema 5.5.5. Con riferimento alle notazioni appena descritte si ha E(ν/µ) ≥ 0 e
E(ν/µ) = 0
se e solo se µ = ν.
Dimostrazione. Per la prima parte si osservi che vale su (0, +∞) ϕ00 (t) = 1t , sicchè la
funzione ϕ è convessa su tale intervallo aperto. Detto allora X0 = {f > 0}, possiamo
perciò applicare la disuguaglianza di Jensen per ottenere la tesi:
Z
X0
Z
f log f dµ ≥ (
Z
f dµ) log(
X0
Z
Z
f dµ) log( f dµ) = 0.
f dµ) ≥ (
X0
X
(5.106)
X
Per la seconda parte osserviamo dapprima che µ = ν ⇔ f = 1 µ-q.o. Perciò se µ = ν ,
si avrà ϕ ◦ f (x) = 0 µ-q.o. e per integrazione E(ν/µ) = 0. Viceversa: consideriamo,
in parziale analogia alla dimostrazione della disuguaglianza di Jensen, la retta tangente
al graco della funzione ϕ nel punto to = 1, che avrà equazione cartesiana h(t) = t − 1
e per convessità sarà tale che ϕ(t) ≥ h(t) ∀t ∈ [0, +∞) , potendo valere l'uguaglianza
se e solo se x = 1 (la convessità è stretta). Posto in quest'ultima t = f (x) ed integrando
in dµ abbiamo che E(ν/µ) = 0 implica che l'integrando sia nullo µ-q.o. e per quanto
appena osservato ciò è possibile se e solo se f (x) = 1 µ-q.o. in X , che è quel che
volevamo.
Questo risultato può legittimare l'interpretazione dell'entropia relativa come di una
`distanza' (in qualche senso lato) tra una probabilità di riferimento µ ed una probabilità che sia assolutamente continua rispetto a questa, ovvero ν . In ragione di ciò,
la disuguaglianza di Talagrand esprime un legame tra due modi diversi di misurare
la distanza tra due sifatte probabilità (nel setting particolare del teorema medesimo)
rappresentate appunto dall'entropia relativa e dalla distanza di Wasserstein W2 . In
particolare, essa può essere parafrasata come segue: Data sullo spazio probabilizzato
(Rn , B(Rn ), γn ) una ulteriore probabilità µ = f · γn con f ∈ L1 (Rn , B(Rn ), γn ) si ha
che se l'entropia relativa E(µ/γn ) è nita allora lo è pure la distanza di Wasserstein
W2 (µ, γn ) e vale la relazione
W22 (µ, γn )
Z
≤2
Z
f log f dγn = 2
log f dµ = 2E(µ/γn ).
(5.107)
5.5.3 Una prima disuguaglianza di concentrazione
Teorema 5.5.6. Sia dato un qualunque insieme B ∈ B(Rnq
) tale che γn (B) > 0. Allora
per ogni t sucientemente grande, più precisamente ∀t ≥ 2 log γn1(B) , vale
s
2 1
1
1 − γn (Bt ) ≤ exp − t − 2 log
,
2
γn (B)
(5.108)
70
ove Bt indica il t-intorno dell'insieme B .
Dimostrazione. Si tratta di una facile applicazione del Teorema 5.5.2. Anzitutto se
indichiamo con d(x, y) la distanza euclidea in Rn abbiamo che, in ragione della prima
proprietà di ordinamento tra misure di Wasserstein e del Teorema 5.5.2.
s Z
W1 (µ, γn ) ≤ W2 (µ, γn ) ≤ 2 f log f dγn .
(5.109)
Se ora prendiamo un'altra misura µ0 sullo stesso spazio di misura, pure assolutamente continua rispetto alla misura gaussiana e rappresentata da una densità f 0 , la
disuguaglianza triangolare per la metrica W1 ci fornisce
(5.110)
W1 (µ, µ0 ) ≤ W1 (µ, γn ) + W1 (µ0 , γn ),
la quale sfruttando la disuguaglianza precedente dà
s Z
s Z
W1 (µ, µ ) ≤ 2 f log f dγn + 2 f 0 log f 0 dγn .
0
(5.111)
Applichiamo ora la (5.111) al caso particolare delle misure uniformi normalizzate concentrate su due boreliani A e B , ovvero rappresentate da densità f = γn1(A) χ(A) e
f 0 = γn1(B) χ(B), sì da ottenere
s
0
W1 (µ, µ ) ≤
1
2 log
+
γn (A)
s
2 log
1
.
γn (B)
(5.112)
A questo punto si deve osservare che preso comunque un piano ammissibile π ∈ Γ(µ, µ0 ),
questo sarà concentrato sull'insieme prodotto A × B ∈ B(Rn ) ⊗ B(Rn ) (in altri termini
per π − q.o. (x,
y) ∈ (Rn )2 si avrà x ∈ A e y ∈ B ) per cui esiste (a, b) in A × B tale
R
che d(a, b) ≤ d(x, y) dπ(x, y). (Se non appare
convincente il precedente argomento si
R
assuma, per assurdo, che valga d(a, b) > d(x, y) dπ(x, y)π − q.o. e si integrino ambo i
membri in dπ(a, b). Ricordando che π è una probabilità e che è concentrata su A × B
si ottiene la tesi). Dunque si avrà a maggior ragione
s
inf {||x − y||2 ; x ∈ A, y ∈ B} ≤
1
+
2 log
γn (A)
s
2 log
1
.
γn (B)
(5.113)
Non resta allora che scegliere A =ct per avere dalla (5.113)
s
t≤
e quindi se t ≥
q
2 log
1
γn (B)
1
2 log
+
γn (B)
s
2 log
1
γn (Btc )
tramite quadratura la tesi cercata.
(5.114)
71
5.5.4 Fenomeni di concentrazione di misure
In questo paragrafo vogliamo contestualizzare il risultato precedente in un quadro
teorico più generale riferendoci alla teoria dei fenomeni di concentrazione sviluppata da matematici quali V. Milman (in riferimento alla geometria asintotica degli spazi
di Banach), M.Gromov (partendo da questioni generali di geometria riemanniana),
G.Schechtman, M.Ledoux e dallo stesso M.Talagrand che a questo ne ha sviluppato
gli studi esposti in precedenza. La possibilità di parlare di concentrazione di misure
presuppone l'esistenza di un insieme arricchito da due tipi di strutture: da un lato
dev'essere uno spazio di probabilità, dall'altro uno spazio metrico cosicché abbia senso
la nozione di t-intorno di un insieme ovvero di allargamento isoperimetrico in un senso
che sarà chiarito in seguito. Perciò sia (X, d) uno spazio metrico e sia µ una misura di
probabilità sulla sua σ -algebra boreliana (Gromov denisce uno spazio sifatto metric
measure space).
Denizione 5.5.7. Dato uno spazio metrico di misura (X, d, µ) si denisce funzione
di concentrazione l'applicazione che fa corrispondere ad ogni r > 0 la quantità
1
α(X,d,µ) (r) = sup 1 − µ(Ar ); A ∈ B(X), µ(A) ≥
.
2
(5.115)
Talvolta, qualora non vi siano ambiguità, scriveremo semplicemente αµ in luogo di
α(X,d,µ) .
Osservazioni 5.5.8.
• Nella denizione precedente Ar = {x ∈ X; d(x, A) < r} , quindi l'intorno è aperto.
• Qualora lo spazio X sia limitato si ha che la denizione va intesa per r <
diam(X), convenendo che per r ≥ diam(X) la funzione di concentrazione valga
0. Per r = 0 conveniamo invece che essa assuma il valore 1/2.
• Per denizione, la funzione di concentrazione assume valori minori od eguali ad
1/2, inoltre è monotona non crescente ed inne decresce a 0 al limite per r → ∞.
Per vericare quest'ultimo fatto, si noti che ssato comunque un punto x ∈ X ed
un numero 0 < < 12 si può scegliere r di modo che la palla di centro x e raggio r
abbia misura maggiore di 1 − . Allora, per il principio di Dirichlet, ogni insieme
di Borel A tale che µ(A) ≥ 21 deve intersecare B e perciò A2r ricopre B e dunque
1 − µ(A2r ) ≤ 1 − µ(B) < , da cui quel che volevamo.
• È conseguenza della denizione data il fatto che, preso comunque un insieme A
di misura µ(A) ≥ 21 , si abbia µ(Ar ) ≥ 1 − αµ (r).
L'idea della concentrazione di misure è che in molti casi importanti (che ci apprestiamo
a discutere) α(X,d,µ) decresca rapidamente a 0 al crescere di r (oppure all'aumentare
della dimensione dello spazio X). Nella denzione seguente sono elencati i due casi di
concentrazione più comuni.
Denizione 5.5.9. In riferimento alle notazioni introdotte in precedenza, diciamo che
una probabilità µ sullo spazio (X, d) ha concentrazione normale se esistono costanti
numeriche C, c > 0 tali che ∀r > 0, valga
2
α(X,d,µ) (r) ≤ Ce−cr .
(5.116)
72
Parleremo invece di concentrazione esponenziale se esistono costanti C, c > 0 tali che
α(X,d,µ) (r) ≤ Ce−cr
∀r > 0.
(5.117)
Vediamo ora due lemmi di uso frequente: il primo indica come ricondurre le proprietà
di concentrazione ad insiemi A di misura positiva, ma non necessariamente maggiore od
eguale di 21 mentre il secondo mostra come applicazioni lipschitziane mandino misure
concentrate verso misure concentrate, nel senso di questo paragrafo.
Lemma 5.5.10. Sia µ una misura di probabilità sulla tribù boreliana d'uno spazio
metrico (X, d) e sia A ⊆ X un boreliano tale che µ(A) ≥ > 0. Allora vale la
disuguaglianza
µ(Ar+r0 ) ≥ 1 − αµ (r)
(5.118)
per ogni valore di r > 0 ed r0 a guisa che αµ (r0 ) < .
Dimostrazione. Aermo anzitutto che la scelta di r0 di modo che αµ (r0 ) < implica
che µ(Ar0 ) ≥ 21 . Infatti, sia B il complementare di Ar0 cosicchè A è a sua volta incluso
nel complemetare di Br0 (facile verica): se fosse µ(B) ≥ 21 , avremmo
µ(A) ≤ µ(Brc0 ) = 1 − µ(Br0 ) ≤ αµ (r0 ) < ,
cosa che contrasta con l'ipotesi sulla misura dell'insieme A. Pertanto µ(Ar0 ) ≥ 12
ed a questo punto si sfrutta la denzione di αµ per Ar0 : osservato che la proprietà
triangolare garantisce (Ar0 )r ⊆ Ar0 +r abbiamo le disuguaglianze
1 − µ(Ar+r0 ) ≤ 1 − µ((Ar0 )r ) ≤ αµ (r).
(5.119)
Enunciamo ora un semplice teorema che ci mostra come le funzioni di concentrazione
decrescano sotto l'azione di mappe 1-lipschitziane.
Lemma 5.5.11. Sia ϕ una mappa lipschitziana tra due spazi metrici (X, d) ed (Y, δ),
ovvero tale che
δ(ϕ(x), ϕ(x0 )) ≤ ||ϕ||Lip d(x, x0 )
∀x, x0 ∈ X,
(5.120)
sia poi µ una probabilità su (X, d) e sia µϕ il push-forward di µ tramite ϕ . Allora per
ogni r > 0, si ha
α(Y,δ,µϕ ) ≤ α(X,d,µ) (r/||ϕ||Lip ).
(5.121)
In particolare, se ϕ : X → Y è 1-lipschitziana, si ha αµϕ ≤ αµ .
Dimostrazione. È suciente osservare che dato comunque un insieme boreliano A ⊆ Y
vale l'inclusione
ϕ−1 (Ar ) ⊃ (ϕ−1 (A))r/||ϕ||Lip ,
(5.122)
ove gli intorni sono riferiti alle distanze δ e d rispettivamente e tradurre questo fatto
in termini di funzioni di concentrazione.
Un altro aspetto della teoria della concentrazione è legato alle cosidette disuguaglianze
di deviazione che rendono conto del fatto che una funzione a valori reali, lipschitziana
73
e denita su uno spazio metrico di misura caratterizzato dalla presenza d'una misura
con proprietà di concentrazione è con alta probabilità localizzata intorno ad un valore
costante (mediana e/o valore atteso). Anzitutto va detto che, diversamente da quanto fatto in precedenza avremmo potuto dare una denizione generale di funzione di
concentrazione ovvero porre ∀ > 0
α(X,d,µ)
(r) = sup {1 − µ(Ar ); A ∈ B(X), µ(A) ≥ } ,
(5.123)
ottenendo in ogni caso una nozione essenzialmente equivalente (grazie al lemma 3.5.4),
tuttavia la scelta del valore 1/2 non è casuale ed è legata al concetto di mediana.
Denizione 5.5.12. Dato uno spazio metrico di misura (X, d, µ) ed una funzione F
su di esso denita, a valori reali e continua, diremo che mF è una mediana per F se
µ({F ≤ mF }) ≥ 12 e µ({F ≥ mF }) ≥ 12 .
Osservazione 5.5.13. Nel setting della precedente denizione si ha ovviamente che data
F esistono sempre mediane mF , tuttavia non è aatto detto che vi sia unicità. Inoltre
non è vero, almeno in generale, che il valore atteso di F , quale variabile aleatoria,
coincida con una sua mediana.
Data una funzione continua F come sopra deniamo il suo modulo di continuità come
ωF (η) = sup {|F (x) − F (y)| d(x, y) < η} , η > 0.
(5.124)
Se mF è una mediana di F per µ e poniamo A = {F ≤ mF } , si ha che x ∈ Aη ⇒ ∃y ∈ A
t.c. d(x, y) < η ed allora F (x) ≤ F (y) + ωF (η) ≤ mF + ωF (η). Da questo, poichè
µ(A) ≥ 21 , per denizione di funzione di concentrazione
µ({F > mF + ωF (η)}) ≤ αµ (η).
(5.125)
Analogamente, prendendo come A = {F ≥ mF } , otteniamo
µ({F < mF − ωF (η)}) ≤ αµ (η).
(5.126)
Dalle precedenti viene la relazione
µ({|F − mF | > ωF (η)}) ≤ 2αµ (η).
(5.127)
Se ora ci restringiamo a funzioni lipschitziane su (X, d) avremo chiaramente ωF (η) ≤
η||F ||Lip e, detto A = {F ≤ m}, Ar ⊆ {m + r||F ||Lip } . Nel caso in cui m = mF sia
una mediana di F per µ, abbiamo che ∀r > 0,
µ({F ≥ mF + r}) ≤ αµ (r/||F ||Lip ).
(5.128)
Questa disuguaglianza, insieme a quella corrispondente per funzioni non necessariamente lipschitziane, prende il nome di disuguaglianza di deviazione. È poi possibile
ripetere questo argomento per −F in modo da ottenere
µ({F ≤ mF − r}) ≤ αµ (r/||F ||Lip ),
(5.129)
74
che combinata con la precedente fornisce
µ({|F − mF | ≥ r}) ≤ 2αµ (r/||F ||Lip ),
(5.130)
alla quale diamo il nome di disuguaglianza di concentrazione. Essa descrive infatti la
localizzazione di F intorno ad una sua mediana con legge αµ : a seconda dei valori di
||F ||Lip e della αµ questa disuguaglianza può in eetti descrivere la concentrazione di
F intorno ad un valore costante oppure la sua dispersione su una regione di spazio
di misura grande. Le disuguaglianze di deviazione e di concentrazione per funzioni
lipschitziane testé ottenute sono a posteriori equivalenti ai corrispondenti asserti sugli
insiemi. Sia infatti A un insieme boreliano con µ(A) ≥ 21 e si ponga F (x) = d(x, A), x ∈
X : avendosi chiaramente F ≥ 0, ||F ||Lip ≤ 1 e µ({F = 0}) ≥ µ(A) ≥ 21 , risulta che 0
è una mediana di F per µ e dunque, se vale la disuguaglianza di deviazione
1 − µ(Ar ) = µ({F ≥ r}) ≤ αµ (r).
(5.131)
In denitiva, possiamo riassumere i risultati sin qui ottenuti in questa proposizione:
Teorema 5.5.14. Sia µ una misura di probabilità sulla σ -algebra boreliana di uno
spazio metrico (X, d). Sia poi F una funzione a valori reali, denita su (X, d), continua
e con modulo di continuità ωF e sia inne mF una sua mediana per µ. Allora, per ogni
η > 0,
µ({F > mF + ωF (η)}) ≤ αµ (η).
(5.132)
In particolare, se F è 1-lipschitziana, per ogni r > 0,
µ({F ≥ mF + r}) ≤ αµ (r/||F ||Lip )
(5.133)
µ({|F − mF | ≥ r}) ≤ 2αµ (r/||F ||Lip ).
(5.134)
e
Viceversa, se per qualche funzione non-negativa α si ha
µ({F ≥ mF + r}) ≤ α(r)
(5.135)
per ogni funzione F 1-lipschitziana con mediana mF ed ogni r > 0, allora αµ < α.
Introdotte queste nozioni di base, siamo in grado di indagare alcuni tipici fenomeni di concentrazione. Molti risultati di concentrazione sono ottenuti a partire da
disuguaglianze isoperimetriche e questo avviene ad esempio proprio nel caso della sfera.
Teorema 5.5.15. Si consideri nello spazio euclideo Rn la sfera unitaria S n−1 , resa
uno spazio metrico dalla sua distanza geodetica ρ e munita della misura di Haar normalizzata σn−1 sulla sua σ-algebra boreliana. Se A è un boreliano di S n−1 ed H è una
palla per la distanza geodetica ρ con la stessa misura σn−1 (A) = σn−1 (H), allora per
ogni r > 0
σn−1 (Ar ) ≥ σn−1 (Hr ).
75
In particolare, se σn−1 (A) ≥ 1/2 (ed n ≥ 3), allora
σn−1 (Ar ) ≥ 1 −
e perciò
α(σn−1 )
π 1/2
2
) exp(−(n − 2)r /2
8
1/2
π
≤
exp(−(n − 2)r2 /2).
8
(5.136)
(5.137)
La dimostrazione di questo teorema si può trovare in testi dedicati alle disuguaglianze
geometriche, quale ad esempio [7]. Sorprendentemente, il teorema precedente consente
con relativa facilità di ottenere un risultato di isoperimetria per le misure gaussiane negli
spazi euclidei di dimensione
nita. Si deve forse ad H.Poincaré l'intuizione del fatto che
√
√
n
la misura uniforme normalizzata sulla sfera nS n−1 di centro
se indichiamo con σn−1
√
l'origine in Rn e raggio n e con Πn,d la proiezione√ da Rn sulle prime d coordinate
n
(∼
= Rd ), allora la successione di probabilità (Πn,d (σn−1 )) in Rd converge debolmente
d
alla misura gaussiana canonica su R per n → ∞. Informalmente, si ha che per la
legge forte dei grandi numeri ρn /n → 1 q.c. ove ρ2n = g12 + · · · + gn2 e (gi ) è una
successione di variabili aleatorie gaussiane
normali e tra loro indipendenti. Poichè ora
√
n
(n1/2 /ρn ) · (g1 , . . . , gn ) ha legge σn−1 , si otterrà pure che (n1/2 /ρn ) · (g1 , . . . , gd ) avrà
√
n
legge Πn,d (σn−1
), da cui, usando il risultato precedente, si arriva alla tesi. In ogni caso,
prima di enunciare il risultato di isoperimetria in spazi gaussiani, richiamiamo alcune
notazioni: indichiamo con Φ la funzione cumulativa della probabilità γ1 , con Φ−1 la
sua funzione inversa ed inne con Ψ = 1 − Φ, per la quale va ricordato la semplice
stima
2
1
Ψ(t) ≤ e−t /2 , t ≥ 0,
(5.138)
2
che si ottiene tramite un elementare studio di funzione. La dimostrazione del risultato
seguente si può trovare nel testo di Ledoux e Talagrand [19] .
Teorema 5.5.16. Se A è un boreliano di Rn ed H è un semispazio {x ∈ Rn |(x, u) < λ},
con u ∈ Rn , λ ∈ [−∞, +∞] , ed essi hanno la stessa misura gaussiana γn (A) = γn (H),
allora, per ogni r > 0, γn (Ar ) ≥ γn (Hr ). Equivalentemente,
Φ−1 (γn (Ar )) ≥ Φ−1 (γn (A)) + r
(5.139)
ed, in particolare, se γn (A) ≥ 1/2,
1 − γn (Ar ) ≤ Ψ(r) ≤
quindi pure
αγn ≤
1 −r2 /2
e
,
2
1 −r2 /2
e
.
2
(5.140)
(5.141)
Osservazione 5.5.17. Nella dimostrazione del precedente teorema, che è descritta ad
esempio in [19], l'unica parte non banale è in eetti la prima, mentre la verica dell'equivalenza enunciata e la parte nale sono quasi immediate. Va inoltre sottolineato
come gli insiemi estremali, per i quali si ottiene l'uguaglianza nella disuguaglianza
isoperimetrica per misure gaussiane, sono solo i semispazi.
76
Osservazione 5.5.18. Il precedente teorema ci fornisce il miglior risultato esistente per
le funzioni di concentrazione in spazi gaussiani:
αγn ≤
1 −r2 /2
e
.
2
(5.142)
In ragione di ciò, si comprende il valore del risultato ottenuto nel paragrafo 3.4 laddove
con metodi elementari si è ottenuta la stima
s
2 1
1
1 − γn (Bt ) ≤ exp − t − 2 log
,
2
γn (B)
(5.143)
che corrisponde ad una maggiorazione per la funzione di concentrazione
αγn
2 p
1
≤ exp − t − 2 log 2
,
2
(5.144)
la quale dierisce dalla precedente solo per fattori correttivi, ma non per la dipendenza
funzionale in t, che è la medesima.
Possiamo ora approttare dei riultati ottenuti nel Teorema 5.5.8 per tradurre questa
proprietà di concentrazione in termini di localizzazione di funzioni lipschitziane su spazi
gaussiani.
Corollario 5.5.19. Considerato lo spazio metrico di misura (Rd , B(Rd ), γd ) ed una
funzione F ivi denita, a valori reali e lipschitziana, si ha che
γd (|F − mF | ≥ t) ≤ 2Ψ(t/||F ||Lip ) ≤ exp(−t2 /2||F ||2Lip )
Analogamente
γd (F ≥ mF + t) ≤
1
exp(−t2 /2||F ||2Lip )
2
∀t > 0.
(5.145)
(5.146)
Dimostrazione. Si tratta semplicemente di applicare le relazioni ottenute nel Teorema
5.5.8 al caso in esame e concludere servendosi dei risultati di concentrazione contenuti
nel Teorema 5.5.10 .
Osservazioni 5.5.20. Quale conseguenza del teorema precedente, si ha che una funzione
F come sopra ammette necessariamente un' unica mediana. Infatti, se ve ne fossero
0
F
due - diciamo mF < m0F - allora posto t = mF −m
si avrebbe 21 ≤ γd (F ≥ m0F ) ≤
2
γd (F ≥ mF + t) ≤ Ψ(t/||F ||Lip ) < 12 , cosa che è assurda. Va inoltre osservato come
in ipotesi opportune la proposizione precedente, che esprime una localizzazione di F
intorno alla sua mediana, possa essere tradotta in un asserto relativo al valore atteso
EF , cosa che è certamente più interessante. In ogni caso però, una diretta integrazione
della (5.146) mostra che mF ed EF sono tipicamente vicini, valendo la stima
|EF − mF | ≤ (π/2)1/2 ||F ||Lip .
(5.147)
Per completezza, può risultare interessante dedurre dai due casi appena descritti altre
forme di concentrazione. Questo si può fare generalizzando il lemma 3.5.5 sì da ottenere
il seguente
Lemma (Contraction
Principle )
77
5.5.21. Si consideri lo spazio metrico di misura
(R , B(R ), γd ) e sia ϕ : R → R una mappa lipschitziana di costante c = cϕ > 0.
Denotando con λ il push-forward di γd tramite ϕ, vale per λ vale la seguente disuguaglianza isoperimetrica: per ogni insieme boreliano A ⊆ Rd ed ogni r > 0 si ha
d
d
d
d
(5.148)
Φ−1 (λ(Acr )) ≥ Φ−1 (λ(A)) + r.
Inoltre, per ogni funzione F lipschitziana, a valori reali e denita sullo spazio (Rd , B(Rd ), λ)
vale la disuguaglianza di concentrazione:
λ(|F − mF | ≥ t) ≤ 2Ψ(t/c||F ||Lip ) ≤ exp(−t2 /2c2 ||F ||2Lip )
∀t > 0.
(5.149)
Dimostrazione. Per quanto riguarda il primo asserto, si noti che grazie al Teorema
5.5.10
Φ−1 (γd ((ϕ−1 (A))r )) ≥ Φ−1 (λ(A)) + r
(5.150)
e che, in ragione dell'ipotesi di lipschitzianità di ϕ, (ϕ−1 (A))r ⊆ ϕ−1 (Acr ), dalle quali
la tesi segue subito. La deduzione della seconda parte è identica a quella sviluppata
sopra per il caso gaussiano.
A questo punto diventa interessante capire quali misure λ possano essere ottenute
da γ per contrazione, nel senso del teorema precedente. Non esiste, ad oggi, una
completa descrizione in questo senso e pertanto ci limitiamo qui a considerare il caso
più importante ovvero quello in cui λ è la misura uniformemente distribuita sul cubo
n
[0, 1] ⊆ Rn . Si vede subito che tale λ è la misura immagine di γn tramite l'applicazione
ϕ = Φ⊗n , cioè ϕ(x) = Φ(x1 ) · · · Φ(xn ), x = (x1 , ..., xn ) ∈ Rn , per la quale vale
c = cϕ = (2π)−1/2 . In eetti, può spesso essere più utile, per motivi di simmetria,
considerare il cubo centrato [−1/2, 1/2]n , nel quale caso si prenderà ϕ = (2Φ − 1)⊗n ,
per cui cϕ = (2/π)1/2 .
5.5.5 Una dimostrazione di tipo mass-transportation della disuguaglianza di Talagrand
A conclusione di questo capitolo vogliamo proporre una dimostrazione alternativa della
disuguaglianza di Talagrand basata sulla tecnica di interpolazione geodetica e sullo
studio della displacement convexity del funzionale entropico. Per conformarci al setting
teorico sviluppato nel capitolo 4 ed evitare inutili complicazioni tecniche, assumeremo
da subito di operare in P2 (Rn ).
Teorema 5.5.22. Data comunque una misura di probabilità µ ∈ P2ac (Rn ) ed indicata,
in conformità a quanto sopra, con γn la misura gaussiana standard n-dimensionale, si
ha che
W22 (µ, γn ) ≤ 2E(µ/γn ).
(5.151)
Osserviamo che in eetti l'assunzione µ ∈ P2 (Rn ) non è signicativamente lesiva di
generalità, dal momento che nelle applicazioni della disuguaglianza di Talagrand (in
primis nella deduzione della disuguaglianza di concentrazione 5.5.6) si opera sempre in
questo spazio.
78
Veniamo dunque alla dimostrazione promessa, la quale - come si vedrà - si basa su molti degli strumenti costruiti nei capitoli precedenti, risultando così sorprendentemente
semplice ed elegante. Ricordiamo una notazione: con ρn indichiamo la densità di γn
rispetto alla misura di Lebesgue.
Dimostrazione. Posto, per maggior chiarezza, µ0 = γn e µ1 = µ indichiamo con
(µt )t∈[0,1] la geodetica a velocità costante che interpola queste misure. Poichè P2ac (Rn )
è geodeticamente convesso (grazie all'Osservazione 4.2.2), sappiamo che la nostra curva
giace interamente in tale sottospazio di P2 (Rn ) ed è perciò in particolare costituita di
misure dotate di densità rispetto alla misura di Lebesgue in Rn e perciò pure rispetto
a γn (in ragione dell'equivalenza di Ln e γn .) Pertanto, esiste una famiglia di densità
σt con t ∈ [0, 1] tali che µt = σt γn ∀t ∈ [0, 1] . Deniamo a questo punto il funzionale
entropico E(µt /γn ) del quale vogliamo studiare le proprietà di convessità lungo la geodetica (µt )t∈[0,1] . Per fare ciò, si ponga ut = σt ρn = σt e−V con V (x) = x2 /2, sicché il
funzionale E risulta esprimibile come somma dei due addendi
Z
V (x)ut (x) dx
(5.152)
σt (x) log σt (x) dx.
(5.153)
V(µt ) =
Rn
ed
Z
U(µt ) =
Rn
Aermo che il funzionale V è 1-uniformemente convesso lungo la nostra geodetica. Per
mostrarlo, grazie al Teorema 4.2.3 occorre e basta provare la 1-uniforme convessità
della funzione V (x), cosa che è di verica immediata valendo l'identità algebrica
1
2
V ((1 − t)x1 + tx2 ) = (1 − t)V (x1 ) + tV (x2 ) − t(1 − t) |x1 − x2 | .
2
(5.154)
Aermo altresì che il funzionale U è convesso lungo la medesima geodetica: questo
caso è già stato discusso e dimostrato nella seconda parte dell'Osservazione 4.2.4. Da
tutto ciò concludiamo che il nostro funzionale entropico E(µt /γn ) è 1-uniformemente
convesso lungo la geodetica (µt )t∈[0,1] e dunque, grazie al Teorema 4.2.7 otteniamo che
E(µ1 /µ0 ) ≥ E(µ0 /µ0 ) +
d+
1
E(µt /µ0 ) + W22 (µ1 , µ0 ).
dt t=0
2
(5.155)
Del resto, noi già sappiamo che µ1 = µ, µ0 = γn , che ovviamente E(µ0 /µ0 ) = 0 ed
+
inne che dev'essere necessariamente dtd t=0 E(µt /µ0 ) ≥ 0 in ragione del Teorema 5.5.5.
Se ne evince nalmente che
E(µ/γn ) ≥
ovvero la nostra tesi.
1 2
W (µ1 , µ0 )
2 2
(5.156)
Appendice A
Alcuni risultati di Analisi
Convessa
Questa appendice è dedicata al richiamo di certi risultati standard di Analisi Convessa
utilizzati nel corso della tesi. Essi sono presentati in maniera sintetica e (con un paio di
eccezioni) senza le relative dimostrazioni, per le quali si rimanda alla classica referenza
[27].
A.1 Proprietà di base e sottodierenziabilità
Denizione A.1.1. Una funzione ϕ : Rn → R ∪ {+∞} si dice propria se non assume
identicamente il valore +∞. In tale caso indicheremo con Dom(ϕ) l'insieme (non vuoto)
dei punti ove ϕ assume valore nito. Tale insieme sarà detto dominio di ϕ.
Una funzione ψ : Rn → R ∪ {+∞} si dice convessa se
∀x, y ∈ Rn , ∀t ∈ [0, 1] ,
ψ(tx + (1 − t)y) ≤ tψ(x) + (1 − t)ψ(y).
(A.1)
Essa è inne strettamente convessa se l'uguaglianza nella (A.1) implica x = y oppure
t = 0 o t = 1.
Osserviamo che il dominio di una funzione convessa propria può essere chiuso, aperto
o nessuna delle due cose, tuttavia esso è sempre un insieme convesso, il cui bordo sarà
pertanto un insieme trascurabile secondo la misura di Lebesgue in Rn .
Indichiamo d'ora in avanti con Int(Dom(ϕ)) la parte interna del dominio della generica funzione convessa propria ϕ. Il valore di una funzione convessa propria ϕ sulla
frontiera dell'insieme Dom(ϕ) può essere modicato in svariate maniere senza perdita
delle proprietà di convessità di ϕ. Questo non è più possibile se si assume ϕ semicontinua inferiormente (SCI): se infatti due funzioni convesse proprie ϕ e ψ sono tali che
Int(Dom(ϕ))=Int(Dom(ψ )) ed inoltre ϕ = ψ sulla comune frontiera di tali insiemi,
allora ϕ = ψ globalmente. Per quanto riguarda la regolarità, vale il seguente
Teorema A.1.2. La restrizione di una funzione convessa propria ϕ : Rn → R ∪
{+∞} a Int(Dom(ϕ)) è una funzione continua e localmente lipschitziana. Inoltre esiste
quasi ovunque in Int(Dom(ϕ)) il suo gradiente (in senso classico) ∇ϕ ed è localmente
limitato.
Forniamo ora una classica caratterizzazione geometrica della convessità.
79
Appendice A. Alcuni risultati di Analisi Convessa
80
Teorema A.1.3. Data una funzione convessa propria ϕ : Rn → R ∪ {+∞} ed un
punto x ∈ Rn in cui esista ∇ϕ si ha che vale la relazione
∀z ∈ Rn
ϕ(z) − ϕ(x) ≥ h∇ϕ(x), z − xi .
(A.2)
Come facile conseguenza di questo teorema abbiamo che vale la proprietà di monotonia
h∇ϕ(x) − ∇ϕ(y), x − yi
(A.3)
per tutte le coppie di punti di dierenziabilità di ϕ.
È ben noto poi che la (A.2) esprime il fatto che l'iperpiano tangente al graco di ϕ
nel punto x giace interamente al di sotto del graco di ϕ. Per ovviare al problema
dell'esistenza di tale iperpiano tangente (ovvero alla possibile non dierenziabilità di
ϕ), diamo la seguente denizione più generale.
Denizione A.1.4. Il sottodierenziale di una funzione convessa propria ϕ : Rn →
R ∪ {+∞} è l'applicazione polidroma a valori in Rn denita dalla coimplicazione
y ∈ ∂ϕ(x) ⇔ [∀z ∈ Rn , ϕ(z) − ϕ(x) ≥ hy, z − xi] .
(A.4)
Tipicamente è utile operare anziché con l'applicazione ∂ϕ, con il suo graco inteso
come sottinsieme di Rn × Rn . È possibile dimostrare che per ogni x ∈ Int(Dom(ϕ)) il
sottodierenziale ∂ϕ(x) è un insieme non vuoto ed inoltre che è un sottinsieme convesso
di Rn . Il legame tra sottodierenziale e dierenziale in senso classico è chiarito dal
seguente fondamentale risultato.
Teorema A.1.5. Una funzione convessa propria ϕ : Rn → R ∪ {+∞} è dierenziabile
(in senso classico) in un punto x ∈ Int(Dom(ϕ)) se e solo se il sottodierenziale ∂ϕ(x)
consiste di un solo elemento (che a posteriori sarà dunque proprio ∇ϕ(x)).
Il sottodierenziale di una funzione convessa e SCI gode anche di una utile proprietà
di continuità, di facile dimostrazione:
Teorema A.1.6. Sia data una funzione convessa propria semicontinua inferiormente
ϕ : Rn → R ∪ {+∞} e sia x un punto
ogni > 0 esiste δ > 0 di modo che
di dierenziabilità con y = ∇ϕ(x). Allora per
∇ϕ(Bδ (x)) ⊂ ∂ϕ(Bδ (x)) ⊂ B (y).
(A.5)
Concludiamo questa prima sezione enunciando una proprietà di monotonia che generalizza quella vista sopra:
Teorema A.1.7. Il sottodierenziale di una funzione convessa propria ϕ è un'appli-
cazione monotona nel senso che se y1 ∈ ∂ϕ(x1 ) e y2 ∈ ∂ϕ(x2 ), allora
hy2 − y1 , x2 − x1 i ≥ 0.
(A.6)
Il precedente teorema è una immediata applicazione della denizione di sottodierenziale.
81
A.2 Funzioni coniugate e dualità
Denizione A.2.1. Data una funzione convessa propria ϕ : Rn → R ∪ {+∞} ,
deniamo la sua funzione coniugata (detta anche trasformata di Legendre) come
ϕ∗ (y) = sup (hx, yi − ϕ(x)).
x∈Rn
(A.7)
Teorema A.2.2. La trasformata di Legendre di una funzione convessa propria è a sua
volta una funzione convessa propria ed inoltre semicontinua inferiormente.
Osserviamo inoltre che
∀x, y ∈ Rn , hx, yi ≤ ϕ(x) + ϕ∗ (y).
(A.8)
È di notevole utilità la conoscenza dei casi in cui si abbia uguaglianza nella disuguaglianza precedente:
Teorema A.2.3. Sia ϕ una funzione convessa propria semicontinua inferiormente
denita su Rn . Allora
hx, yi = ϕ(x) + ϕ∗ (y) ⇔ y ∈ ∂ϕ(x) ⇔ x ∈ ∂ϕ∗ (y).
(A.9)
Forniamo ora la semplice dimostrazione di questo risultato.
Dimostrazione. Anzitutto
hx, yi = ϕ(x) + ϕ∗ (y) ⇔ hx, yi ≥ ϕ(x) + ϕ∗ (y),
(A.10)
grazie a (A.8). D'altro canto, per la denizione di trasformata di Legendre
hx, yi ≥ ϕ(x) + ϕ∗ (y) ⇔ ∀z ∈ Rn hx, yi ≥ ϕ(x) + hy, zi − ϕ(z)
(A.11)
⇔ ϕ(z) − ϕ(x) ≥ hy, z − xi
(A.12)
⇔ y ∈ ∂ϕ(x).
(A.13)
La seconda coimplicazione della tesi è una banale applicazione del teorema sulla dualità
di Legendre per funzioni SCI che forniamo qui di sgeuito.
Premettiamo una denizione importante
Denizione A.2.4. Date funzioni convesse proprie ϕ, ψ : Rn → R ∪ {+∞} , deniamo
la loro inf convoluzione come la funzione
(ϕψ)(z) =
inf
x+x0 =z
[ϕ(x) + ψ(x0 )] .
(A.14)
Chiaramente se ϕ oppure ψ è a valori reali, allora pure ϕψ lo è. Più in generale, vale
sempre ϕψ(x) ≤ ϕ(x) e ϕψ(x) ≤ ψ(x) per ogni x ∈ Rn . Vale inoltre la seguente
proprietà, tipica delle operazioni di convoluzione:
82
Teorema A.2.5. Date funzioni convesse proprie ϕ, ψ : Rn → R ∪ {+∞} , vale sempre
(ϕψ)∗ = ϕ∗ + ψ ∗ .
(A.15)
Veniamo dunque al risultato promesso:
Teorema A.2.6. Sia data una funzione convessa propria ϕ : Rn → R ∪ {+∞} . Sono
equivalenti gli asserti
1. ϕ è semicontinua inferiormente
2. esiste una funzione propria ψ tale che valga la rappresentazione ϕ = ψ∗
3. ϕ∗∗ = ϕ.
Dimostrazione. Le implicazioni 3. ⇒ 2. e 2. ⇒ 1. sono ovvie, per cui occorre e basta
mostrare che una funzione convessa propria SCI verica la 3. Sviluppiamo la dimostrazione in tre parti.
Step 1. In base alla denizione di trasformata di Legendre, abbiamo subito una delle
due disuguaglianze
ϕ(x) ≥ sup [hx, yi − ϕ∗ (y)] = ϕ∗∗ (x).
y∈Rn
(A.16)
Step 2. Sia qui x ∈Int(Dom(ϕ)): sappiamo che esiste y ∈ ∂ϕ(x) e dunque servendoci
del Teorema A.2.3 avremo ϕ(x) + ϕ∗ (y) = hx, yi da cui
ϕ(x) ≤ sup [x, y − ϕ∗ (y)] = ϕ∗∗ (x)
y∈Rn
(A.17)
per cui ϕ e ϕ∗∗ coincidono certamente su Int(Dom(ϕ)). Questo conclude la dimostrazione nel caso in cui Dom(ϕ)=Rn cioè se ϕ è a valori reali.
Step 3. Ci serviamo dei nuclei ψ (x) = |x|2 /2 per approssimare ϕ tramite le funzioni
proprie
ϕ = ϕψ .
(A.18)
Si mostra infatti senza dicoltà che la proprietà di SCI implica
∀x ∈ Rn , lim ϕ (x) = ϕ(x).
→0
(A.19)
n
∗∗
∗∗
per
Ora però grazie allo Step 2. sappiamo ϕ = ϕ∗∗
su tutto R ed inoltre ϕ ≤ ϕ
costruziione (si passi alle trasformate seconde nella relazione ϕ ≤ ϕ), per cui mettendo
insieme le cose
ϕ∗∗ (x) ≥ lim inf ϕ∗∗
(A.20)
(x) = lim inf ϕ (x) = ϕ(x)
→0
→0
che in ragione dello Step 1. ci dà la tesi.
A.3 Dierenziabilità seconda
Vogliamo qui chiarire anzitutto in che senso si possa aermare che una funzione convessa è automaticamente munita di dierenziale secondo quasi ovunque in Int(Dom(ϕ)).
Premettiamo la seguente denizione
83
Denizione A.3.1. Diremo che una funzione g : Rd → R ammette dierenziale
secondo (a là Aleksandrov) nel punto x se esiste una matrice d × d reale DA2 g(x)
per cui valga
g(y) = g(x) +h∇g(x), y − xi+
1
2
2
DA g(x)(y − x), y − x +o(|y − x| ) y → x. (A.21)
2
Una fondamentale proprietà delle funzioni convesse è contenuta in questo celebre
teorema di Aleksandrov:
Teorema A.3.2. Sia data una funzione convessa propria ϕ : Rn → R ∪ {+∞} . Allora
per Ld -q.o. x ∈ Dom(ϕ),∇ϕ è dierenziabile ed il suo gradiente ∇2 ϕ(x) è una matrice
simmetrica per la quale vale la proprietà di dierenziabilità seconda.
A posteriori, alla luce di questo risultato denoteremo la matrice ∇2 ϕ(x) con la notazione
2
DA
ϕ(x).
Siamo ora in grado di enunciare una proprietà di cui faremo ampio uso nel capitolo 3.
Teorema A.3.3. Se x0 ∈ Rn è un punto di diernziabilità seconda a là Aleksandrov
per una funzione convessa propria ϕ : Rn → R ∪ {+∞} , allora
|∂ϕ(Br (x0 ))|
2
→ det DA
ϕ(x0 )
|Br (x0 )|
(A.22)
per r → 0. Inoltre, se DA2 ϕ(x0 ) è invertibile, allora esistono una successione di raggi
rk → 0 e due successioni di palle Bk e Bk0 a guisa che
• Bk ⊂ Ck ⊂ Bk0
•
i rapporti |Bk | / |Bk0 | sono limitati dal basso da una costante positiva
avendo posto Ck = ∂ϕ(Br (x0 )).
Informalmente, il teorema precedente, la cui dimostrazione si trova in [21], indica come la matrice DA2 ϕ(x) possa dare una misura asintotica della distorsione operata dal
sottodierenziale ∂ϕ su palle piccole centrate in x.
A.4 Uniforme convessità
Denizione A.4.1. Una funzione ϕ : Rn → R∪{+∞} si dice uniformemente convessa
di costante λ > 0 se la funzione x 7→ ϕ(x)−λ |x|2 /2 è convessa ovvero equivalentemente
se
∀x, y ∈ Rn , ∀t ∈ [0, 1] ,
ϕ(tx + (1 − t)y) ≤ tϕ(x) + (1 − t)ϕ(y) −
λ
2
t(1 − t) |x − y|
2
.
(A.23)
È immediato vericare che il gradiente di una funzione λ-uniformemente convessa è
λ-monotono nel senso che
2
h∇ϕ(x) − ∇ϕ(y), x − yi ≥ λ |x − y| .
(A.24)
Riferimenti bibliograci
, Gradient Flows in Metric Spaces and in
the Space of Probability Measures, Birkhäuser Verlag, Basel-Boston-Berlin, 2005.
[1]
L. Ambrosio, N. Gigli ,G. Savaré
[2]
L. Ambrosio, A. Pratelli
[3]
F. Barthe
[4]
F. Barthe
[5]
H. J. Brascamp, E. H. Lieb
[6]
Y.D. Burago, M. Gromov e G. Perelman
[7]
Y.D.
[8]
, Existence and stability results in the L1 theory of
optimal transportation, in Optimal Transportation and applications, Lecture Notes
in Mathematics, vol. 1813, Springer, 2003, pp.123-160.
, Inégalités fonctionnelles et géométriques obtenues par transport de
mesures, PhD thesis, Univ. Marne-la-Vallée, 1997.
, On a reverse form of the Brascamp-Lieb inequality, Invent. Math.
134, 2 (1998), pp. 335-361.
, Best constant in Young's inequality, its converse,
and its generalization to more than three functions, Advances in Math. 20, 2 (1976),
pp. 151-173.
, A.D. Aleksandrov Spaces with
curvature bounded below, Uspekhi Math. Nauk, 47 (1992), pp. 3-51, 222.
Burago,
Berlin, 1988.
V.A.
Zalgaller
, Geometric Inequalities, Springer-Verlag,
, Inégalités géométriques, PhD theis, Univ. Marne-la-
D. Cordero-Erasquin
Vallée, 2000.
[9]
, Some applications of mass transport for Gaussian-type
inequalities, Arch. Ration. Mech. Anal. 161, 3 (2002), 257-269.
[10]
D. Cordero-Erasquin, R. J. McCann, M. Schmuckenschläger, A Riemannian interpolation inequality à la Borell, Brascamp and Lieb, Invent. Math.
146,2 (2001), pp. 219-257.
D. Cordero-Erasquin
, A mass-transportation approach to sharp Sobolev and Gagliardo-Nirenberg inequalities, Adv. Math., 182
(2004), pp. 307-332.
[11]
D. Cordero-Erasquin, B. Nazaret, C. Villani
[12]
L.C. Evans
[13]
H. Federer
, Partial dierential equations and Monge-Kantorovich mass transfer,
in Current Developments in Mathematics, 1997 (Cambridge, MA), Int. Press,
Boston, MA, 1999, pp. 65-126.
, Geometric Measure Theory, Die Grundlehren der mathematischen
Wissenschaft, Band 153, Springer-Verlag New York Inc., New York, 1969.
84
[14]
, The geometry of optimal transportation, Acta
W. Gangbo, R. J. McCann
Math., 177 (1996), pp. 113-161.
, The Brunn-Minkowski inequality, Bull. Amer. Math. Soc., 39
(2002), pp. 355-405.
[15]
R. Gardner
[16]
D. Gilbarg,
[17]
85
, Elliptic partial dierential equation of second
order., Classics in Mathematics. Springer-Verlag, Berlin, 2001.
N. Trudinger
L. V. Kantorovich, On the translocation of masses, C. R. (Dokl.) Akad. Sci.
URSS 37 (1942), 199-201.
,The Concentration of Measure Phenomenon, Mathematical Surveys
and Monographs-Number 89, AMS, Providence-Rhode Island, 2001 .
[18]
M.Ledoux
[19]
M. Ledoux, M. Talagrand
Berlin, 1991.
, Probability in Banach Spaces, Springer-Verlag,
[20]
, On a certain converse of Hölder's inequality, In Linear Operators
and Approximation (Proc. Conf. Oberwolfach 1971), Birkhäuser, Basel, 1972, pp.
182-184.
[21]
R. J. McCann, A convexity principle for interacting gases, Adv. Math., 128
(1997), pp. 153-179.
L. Leindler
, Existence and uniqueness of monotone measure-preserving maps.,
Duke Math. J. 80, 2 (1995), pp. 309-323.
[22]
R. J. McCann
[23]
F. Otto, C.Villani
[24]
A.
, Generalization of an Inequality by Talagrand and Links
with the Logarithmic Sobolev Inequality, Journal of Functional Analysis 173, 2
(2000), pp. 361-400.
Pratelli, On the equality between Monge's inmum and Kantorovich's
minimum in optimal mass transportation, to appear, (2004).
[25]
, On logarithmic concave measures and functions, Acta Sci. Mat.
(Szeged) 34, (1973), 335-343.
[26]
S. Rachev, L. Rüschendorf, Mass Transportation Problems. Vol. 1: Theory,
Vol. 2: Applications., Probability and its applications, Springer-Verlag, New York,
1998.
[27]
A. Prékopa
, Convex analysis, Princeton University Press, Princeton NJ,
R. T. Rockafellar
1997.
, Transportation Cost for Gaussian and Other Product Measures,
Geometric and Functional Analysis Vol. 6, 3 (1996), 587-600.
[28]
M. Talagrand
[29]
C. Villani
[30]
C. Villani
, Optimal transportation, dissipative PDEs and functional inequalities,
in Optimal Transportation and applications (Martina Franca, 2001), Lecture Notes
in Mathematics, vol. 1813, Springer, Berlin, 2003, pp.53-89.
, Optimal transport, old and new, to appear, (2008).
[31]
86
, Topics in Optimal Transportation, Graduate Studies in Mathematics,
AMS, Providence-Rhode Island, 2003.
C. Villani

Sulla Disuguaglianza di Talagrand

Transcript

Documenti analoghi

Programma del corso - Dipartimento di Matematica

Uniforme convessità di L p

Quattordicesima lezione - Server users.dimi.uniud.it

Teorema. Sia f : [a, b] → R monotona. Allora f `e Riemann

Testo modello di compito

Le molte dimostrazioni del Teorema (Lemma) di Farkas

Programma - Dipartimento di Matematica

Commercio Internazionale - Giorgia Giovannetti - GR

Teorema di Fermat. Data una funzione f : [a, b] → R e un punto x o