Sulla Disuguaglianza di Talagrand
Transcript
Sulla Disuguaglianza di Talagrand
Università di Pisa Facoltà di Scienze Matematiche Fisiche e Naturali Corso di Laurea in Matematica Anno Accademico 2007/2008 Un approccio di tipo mass-transportation ad alcune disuguaglianze funzionali Candidato Alessandro Carlotto Relatore Chiarissimo Prof. Luigi Ambrosio Controrelatore Chiarissimo Prof. Franco Flandoli Ai miei nonni, maestri di tante virtù ii Indice Introduzione v Notazioni ix 1 Lineamenti di Teoria del Trasporto di Massa 1.1 Push-forward di misure e cambi di variabile 1.2 Il problema di Monge-Kantorovich . . . . . 1.3 Il teorema di esistenza . . . . . . . . . . . . 1.4 Il teorema di Kantorovich-Rubinstein . . . . 1.5 Il caso quadratico . . . . . . . . . . . . . . . 1.5.1 Formulazione duale . . . . . . . . . . 1.5.2 Il teorema fondamentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 . 1 . 2 . 6 . 9 . 11 . 11 . 14 2 Aspetti metrici: le distanze di Wasserstein 20 2.1 Le distanze di Wasserstein . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.2 Ordinamenti tra misure di Wasserstein . . . . . . . . . . . . . . . . . . . 23 2.3 Caratterizzazioni equivalenti della convergenza in metrica Wasserstein . 23 3 Equazione di Monge-Ampère 3.1 Presentazione . . . . . . . . . . . . . 3.2 Un approccio tramite linearizzazione 3.3 Varie nozioni di soluzione debole . . 3.4 Regolarità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 29 30 31 32 4 Geodetiche e convessità 4.1 Geodetiche in spazi metrici ed interpolazione à la McCann 4.2 Displacement convexity . . . . . . . . . . . . . . . . . . . 4.2.1 Denizioni . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Esempi . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Dimostrazioni . . . . . . . . . . . . . . . . . . . . . 4.2.4 Formulazione above tangent . . . . . . . . . . . . . 4.3 Una prima applicazione: unicità dello stato fondamentale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 38 41 41 42 45 48 50 5 Alcune disuguaglianze funzionali 5.1 Brunn-Minkowski ed isoperimetria . . . . . . . . . . . . . . . . . . . . . 5.2 Prékopa-Leindler ed Henstock-McBeath . . . . . . . . . . . . . . . . . . 5.3 Brascamp-Lieb e Barthe . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 52 53 55 iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Indice iv 5.4 Sobolev ottimale . . . . . . . . . . . . . . . . . . . . . . . . . 5.5 Talagrand e concentrazione . . . . . . . . . . . . . . . . . . . 5.5.1 La disuguaglianza di Talagrand . . . . . . . . . . . . . 5.5.2 Entropia relativa . . . . . . . . . . . . . . . . . . . . . 5.5.3 Una prima disuguaglianza di concentrazione . . . . . . 5.5.4 Fenomeni di concentrazione di misure . . . . . . . . . 5.5.5 Una dimostrazione di tipo mass-transportation della glianza di Talagrand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . disugua. . . . . . 60 63 64 67 69 71 77 A Alcuni risultati di Analisi Convessa A.1 Proprietà di base e sottodierenziabilità A.2 Funzioni coniugate e dualità . . . . . . . A.3 Dierenziabilità seconda . . . . . . . . . A.4 Uniforme convessità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 79 81 82 83 Introduzione La storia della Teoria del Trasporto Ottimo di Massa, che si suole convenzionalmente far incominciare con il famoso articolo Mémoire sur la théorie des déblais et des remblais pubblicato da Gaspard Monge nel 1781, è ormai vecchia di più di duecento anni. Eppure, per lungo corso di tempo essa è stata straordinariamente priva di eventi matematicamente signicativi ed i problemi dai quali essa prende le mosse sono rimasti in larga parte insoluti n quasi al termine del secolo appena trascorso. E' ancora un celebre articolo, questa volta Décomposition polaire et réarrangement de champs de vecteurs di Yann Brenier a dare, nel 1987, una svolta inattesa a questo settore della matematica. Questo lavoro stabiliva delle impreviste relazioni tra lo studio della uidodinamica (cui Brenier si stava principalmente dedicando), delle equazioni dierenziali alle derivate parziali, della probabilità e dell'analisi funzionale con alcune questioni di trasporto ottimo quale comune denominatore. Ma non era che un preludio: il successivo ventennio si sarebbe rivelato assai ricco di sorprese. Alla ne degli anni Ottanta, tre distinte direzioni di ricerca emersero indipendentemente e quasi simultaneamente, nendo per dar nuova forma alla Teoria del Trasporto Ottimo. La prima di esse riguardava appunto lo studio matematico della uidodinamica, la seconda - legata principalmente al nome di John Mather - l'indagine dei sistemi dinamici lagrangiani, la terza, assai sorprendentemente, la metereologia. Mike Cullen era all'epoca a capo di un gruppo di metereologi con un forte background matematico dedito allo studio delle cosidette equazioni semi-geostroche, utilizzate nella modellizzazione dei fronti atmosferici. Cullen ed i suoi collaboratori mostrarono che un utile cambio di variabili in quel contesto poteva a posteriori essere interpretato in termini di un problema di accoppiamento ottimale, nozione che nasce proprio dalla positura proposta da Kantorovich intorno al 1940 del problema del trasporto ottimo di massa. Queste nuove direzioni di ricerca attrassero vari matematici (tra i primi citiamo solo Luis Caarelli, Craig Evans, Wilfrid Gangbo, Robert McCann e Luigi Ambrosio), che lavorarono ad una miglior descrizione dei problemi del trasporto ottimo e trovarono soprattutto nuove applicazioni. Un importante passo concettuale si deve a Felix Otto, il cui formalismo dierenziale ha aperto la strada ad un'indagine geometricamente più ricca degli spazi di misure di probabilità, connettendo così la teoria del trasporto ottimo alla teoria delle equazioni che modellano i fenomeni diusivi. Proprio questa traccia d'indagine ha fornito, negli anni più recenti, molti dei più signicativi esempi di approccio di tipo mass-transportation alle disuguaglianze funzionali. v Introduzione vi Questa tesi ha come obiettivo la descrizione di alcuni di tali esempi e l'applicazione delle stesse tecniche alla dimostrazione di una disuguaglianza, proposta da Talagrand ([28]) nel 1996 e poi ampiamente considerata in letteratura (valga su tutti il celebre articolo [23]). Veniamo ora alla descrizione del contenuto dei vari capitoli. Il Capitolo 1 propone una visione panoramica di alcuni risultati classici della Teoria del Trasporto Ottimo di Massa, prendendo il via dalla denizione di push-forward e dal problema di Monge. Segue una presentazione del contributo di Kantorovich, cui si deve la generalizzazione della nozione di mappa di trasporto nei termini dei cosidetti piani di trasporto e, di conseguenza, la costruzione di una teoria molto più ricca e ramicata (anche in senso probabilistico), sin già dal teorema di esistenza proposto nella Sezione 1.3. Altri teoremi classici sono quelli di dualità di Kantorovich-Rubinstein, che - come accade spesso nel Calcolo delle Variazioni - traducono un problema di minimo in un problema di massimo, rendendo possibile un approccio alternativo e sorprendentemente semplicato. L'ultima sezione del capitolo contiene alcuni risultati più recenti e spesso assai signicativi da un punto di vista geometrico: l'ottimalità di un piano nel problema del trasporto è posta in relazione alla concentrazione della massa entro il graco del sottodierenziale di una funzione convessa e poi alla nozione di ciclica monotonia, ispirata dal caso discreto. Si fa qui abbondante riferimento a denizioni e strumenti dell'Analisi Complessa, che è parso utile riunire nell'Appendice A. Nel Capitolo 2 si guardano i problemi del trasporto ottimo di massa da un diverso punto di vista: gli spazi di misure di probabilità sono metrizzati in relazione al costo ottimale di trasporto. Nascono così le distanze di Wasserstein, delle quali sono elencate le principali proprietà (di ordinamento, di semicontinuità...) a cominciare dal sorprendente legame con la convergenza debole di misure. In questo contesto, al ne di dar dimostrazione della proprietà triangolare delle distanze di Wasserstein, è introdotta la nozione di disintegrazione di misure. Viene poi un capitolo, il terzo, dal carattere un po' diverso dai precedenti. Senza alcuna pretesa di completezza, è ivi presentata l'equazione di Monge-Ampère che nasce in modo naturale dalla condizione di push-forward in presenza di misure descritte da densità e che tuttavia ricorre spesso in vari settori della matematica (ad esempio in geometria riemanniana). Dopo aver descritto le varie nozioni assai deboli di soluzione che si possono dare, è provato nella Sezione 3.4 il ben noto teorema di McCann (3.4.3). Il frequente ricorso a questo risultato nel Capitolo 5 è da considerare come principale giusticazione di questa breve trattazione. Il Capitolo 4, che per certi versi può essere inteso come continuazione del 2, è di fondamentale importanza nell'economia di questa tesi. In esso sono sviluppati molti degli strumenti teorici sui quali fanno leva le applicazioni proposte successivamente. Nella Sezione 4.1, dopo aver dato la denizione generale di geodetica a velocità costante in spazi metrici, si approfondisce il caso specico degli spazi di misure di probabilità muniti di distanza di Wasserstein. Si scopre qui che opportune proiezioni dei piani ottimali secondo Kantorovich forniscono una maniera semplice per costruire geodetiche aventi per estremi due assegnate misure di probabilità. Anzi, si può dire assai Introduzione vii sorprendentemente che le geodetiche sono tutte di questo tipo: a dircelo è il Teorema 4.1.5 che poggia sull'utile lemma di regolarità interna (4.1.4). La sezione si conclude con lo studio della cosidetta interpolazione à la McCann, un caso particolare di questa costruzione nel quale varie proprietà si rivelano in modo particolarmente evidente. Tuttavia, noi non saremo tanto interessati alla struttura geometrica degli spazi di misure di probabilità (si potrebbe arrivare a dire che sono spazi PC ovvero a curvatura positiva in un senso opportuno), quanto all'indagine di particolari funzionali convessi lungo geodetiche secondo la Denizione 4.2.1. Tra questi troveremo oggetti assai interessanti, che con una terminologia dovuta a C.Villani chiameremo energia interna, energia potenziale ed energia di interazione. Questi nomi non nascono dal nulla, ma corrispondono ad una schematica descrizione dell'energia totale di un gas a molecole interagenti, del quale nella Sezione 4.3 dimostriamo l'unicità dello stato fondamentale servendoci proprio degli strumenti appena sviluppati (ed è a questo ne che tali strumenti sono stati sviluppati in [21]). Dopo questo primo esempio, che quantomeno per ragioni storiche è parso opportuno premettere a tutti gli altri, proponiamo nel Capitolo 5 una ricca gamma di applicazioni della teoria descritta nella prima parte della tesi ad alcune disuguaglianze funzionali di varia natura. Si comincia con un grande classico della Geometria come la disuguaglianza isoperimetrica (in una forma non troppo generale, per la verità), che viene dedotta dalla disuguaglianza di Brunn-Minkowski. La dimostrazione di quest'ultima è da ritenersi un'applicazione standard dello studio di funzionali convessi lungo geodetiche. Seguono vari risultati di natura prettamente analitica: le disuguaglianze di PrékopaLeindler e di Henstock-McBeath (Sezione 5.2), di Brascamp-Lieb e Barthe (Sezione 5.3) ed inne la disuguaglianza di Sobolev ottimale nella Sezione 5.4. Conclude questa tesi la presentazione della disuguaglianza di Talagrand, che pone in relazione due modi diversi di misurare la distanza tra due misure, corrispondenti alla metrica di Wasserstein W2 ed all'entropia relativa. Seguendo la motivazione originale dell'autore, dedurremo da questa una forma sharp della disuguaglianza di concentrazione in spazi gaussiani, per certi versi paragonabile al miglior risultato esistente in questo senso (si vedano il Teorema 5.5.16 e la successiva Osservazione 5.5.18). Al ne di meglio comprendere il valore di questo approccio, si fornisce nella Sottosezione 5.5.4 un breve cenno alla teoria dei fenomeni di concentrazione. Della disuguaglianza di Talagrand saranno fornite due dimostrazioni: la prima, di carattere elementare ma piuttosto macchinosa, è tratta dall'articolo originale [28], la seconda è invece assai elegante ed è interamente transportation-based. Al termine di questa presentazione, ho il piacere di rivolgere il mio ringraziamento ad almeno alcune delle molte persone che hanno arricchito, rendendoli splendidi, questi anni vissuti a Pisa. Voglio anzitutto menzionare i miei genitori, ai quali sono debitore tra le tante cose d'un sostegno preziosissimo ed incondizionato che non ha conosciuto soluzioni di continuità pur nella lunghezza e dicoltà del percorso da me condotto. Mi piace poi ricordare tutti gli amici che in varia maniera hanno condiviso con me Introduzione viii tutti gli istanti dei molti giorni di studio che ho vissuto: a loro va il merito di aver reso questo tempo più sereno e più felice. Tra questi un posto speciale vorrei riservare ai miei compagni presso la Scuola Normale Superiore per avermi aiutato a crescere matematicamente ed umanamente. Penso che sarebbe cosa ardua farne un elenco in qualche senso esaustivo e preferisco perciò non nominare nessuno dei molti che pur lo meriterebbero ed ai quali va la mia più grande riconoscenza. E' un piacere ricordare poi che senza il decisivo contributo del Prof. Luigi Cariolato, che per primo mi ha fatto intravedere la suprema bellezza della matematica, molto probabilmente questa avventura non sarebbe mai nemmeno cominciata. Nè essa avrebbe in eetti avuto inzio senza il fondamentale apporto del Prof. Massimo Gobbino, che tanto ha fatto perchè questo mio sogno diventasse realtà. Un posto speciale nella mia formazione matematica vorrei poi riservare al Prof. Franco Flandoli al quale va, tra gli altri, il merito di avermi seguito con grande pazienza e disponibilità in varie fasi di questo lavoro di tesi, contribuendo sempre con grande competenza al suo sviluppo. Inne, il mio pensiero va grato al Prof. Luigi Ambrosio per avermi introdotto con estrema professionalità nel mondo della ricerca matematica: ritengo un enorme privilegio aver appreso al suo anco molto di quel che so a proposito della Teoria del Trasporto Ottimo di Massa. Notazioni Dato un generico insieme X, la relazione di inclusione insiemistica di un suo sottinsieme Y (proprio od improprio) sarà sempre indicata dal simbolo ⊂ per cui si scriverà Y ⊂ X. La funzione indicatrice di Y si denoterà con Y , mentre la mappa identità con idY oppure - se non vi è pericolo di ambiguità - solo con id. Inne, il complementare di Y si scriverà Y c. Dato uno spazio di misura astratto X, l'insieme delle sue misure di probabilità si indicherà con P(X) mentre l'insieme delle sue misure con segno nite con M(X). Se scriveremo µ = µ+ − µ− , questa andrà sempre intesa come decomposizione di Hahn della misura µ. Lavoreremo solo con spazi topologici, per cui (a meno di esplicite indicazioni contrarie) si considererà sempre la σ -algebra di Borel su X e le misure in gioco andranno sempre pensate denite su tale σ−algebra. La massa di Dirac nel punto x ∈ X si scriverà δx , la misura gaussiana standard n−dimensionale γn (e la sua densità ρn ) e la misura di Lebesgue Ln . Se T è una mappa misurabile denita su uno spazio topologico X munito di una misura µ a valori in un generico spazio Y, la notazione T] µ indicherà la misura push-forward di µ tramite T, nel senso precisato nella Sezione 1.1. In particolare avremo spesso a che fare con spazi Lp (X) per p ≥ 1 : questa scrittura è da intendersi come abbreviazione della scrittura (corretta) Lp (X, B, µ). Fissato un esponente p il suo coniugato sarà indicato con p0 oppure con q secondo specicazioni che forniremo di volta in volta (in particolare nella Sezione 5.3). Lo spazio delle misure di probabilità denite su Rn ed assolutamente continue rispetto alla misura di Lebesgue si denoterà con P ac (Rn ). Se X è uno spazio topologico ed A ⊂ X indicheremo con Int(A) la parte interna di A, con A la chiusura topologica di A e con ∂A la sua frontiera con ∂A = A\IntA. Il supporto di una misura µ sarà denotato con supp(µ) ed è per denizione il più piccolo insieme chiuso F ⊂ X tale che µ(X \ F ) = 0. Se poi X è uno spazio metrico, la scrittura Br (x) andrà intesa come la palla di centro x ∈ X e raggio r > 0. In questo caso Lip(X) sarà lo spazio delle funzioni lipschitziane denite su X ed a valori in R con k.kLip la corrispondente norma. Nel Capitolo 5, la funzione modulo di continuità di una funzione F sarà denotata dalla scrittura ωF . Se X è uno spazio di Banach, indicheremo il suo duale topologico con X . Data ϕ una funzione convessa denita su tale X, scriveremo ϕ∗ ad indicare la sua trasformata di Legendre (denita nell'Appendice A). Invece, ∂ϕ rappresenta il sottodierenziale di ϕ 0 il quale sarà sempre identicato col suo graco come sottinsieme di X × X . Spesso ci capiterà di lavorare con funzioni convesse proprie semicontinue inferiormente: per quest'ultima proprietà ci limiteremo all'abbreviazione SCI. 0 ix Notazioni x In tutta la tesi Rn indica lo spazio euclideo di dimensione n ≥ 1. Se A ⊂ Rn è un insieme misurabile secondo Lebesgue, la scrittura |A| denota il valore della sua misura di Lebesgue. Dato x ∈ Rn denoteremo parimenti con |x| il valore della sua norma pPn 2 . Non avremo a che fare con prodotti scalari euclidea standard, ovvero |x| = x i=1 i su spazi vettoriali astratti e pertanto il simbolo h., .i andrà sempre inteso come prodotto scalare standard su Rn . Chiaramente |x|2 = hx, xi . Lo spazio vettoriale delle matrici quadrate n × n sul corpo R sarà denotato da Mn (R) ed analogamente Sn (R) sarà il sottospazio delle matrici simmetriche, inne Sn+ (R) indicherà l'insieme delle matrici simmetriche e denite non negative. La trasposta di una matrice M si scriverà M T e la matrice identità in Mn (Rn ) sarà indicata da In . Sullo spazio X = Rn avremo i soliti operatori ∇F = ( ∂F ∂F , ...., ), ∂x1 ∂xn ∇·u= n X ∂ui i=1 ∆F = ∂xi , n X ∂2F i=1 ∂x2i ed inoltre D2 indicherà l'operatore hessiano su X, che identicheremo con la matrice hessiana (∂ 2 F (x)/∂xi ∂xj ). Dato Ω un aperto di Rn denoteremo con D(Ω) l'insieme delle funzioni di classe C ∞ aventi supporto compatto contenuto in Ω e con D0 (Ω) lo spazio delle distribuzioni su Ω. Gli operatori di Hess e di Laplace in senso distribu2 Sempre su tale aperto Ω zionale saranno indicati con DD 0 e ∆D 0 rispettivamente. considereremo talvolta gli spazi C k,α con α ∈ (0, 1) delle funzioni di classe C k con derivate k-esime hölderiane di costante α. Si rimanda nuovamente all'Appendice A per la denizione dell'operatore hessiano nel senso di Aleksandrov di una funzione convessa ϕ, ovvero DA2 ϕ e va precisato che esso è denito solo (quasi ovunque) nella parte interna del dominio di ϕ; analogamente ∆A ϕ è l'operatore di Laplace nel senso di Aleksandrov. Inne, la misura hessiana di ϕ sarà indicata con detH D2 ϕ (si veda la sezione 3.3). Forniamo ora un semplice elenco dei simboli propri della Teoria del Trasporto Ottimo di Massa1 , che saranno introdotti nel corso di questa tesi e per i quali pertanto ci limitiamo a fornire qui una breve didascalia. 1 con un paio di eccezioni provenienti dalla teoria dei fenomeni di concentrazione. Notazioni Γ(µ1 , µ2 ) Γo (µ1 , µ2 ) I [π] J(ϕ, ψ) Φc Tc (µ1 , µ2 ) xi 2-piani di Kantorovich di marginali µ1 e µ2 2-piani di Kantorovich ottimali di marginali µ1 e µ2 costo di trasporto secondo il piano π valutazione del funzionale duale di Kantorovich in (ϕ, ψ) dominio del funzionale duale J con funzione costo c costo ottimale di trasporto di µ1 verso µ2 con funzione costo c(·, ·) U V W α(X,d,µ) dominio (modicato) del funzionale duale nel caso quadratico misure di probabilità su X aventi p−esimo momento nito p−esima distanza di Wasserstein tra µ1 e µ2 proiezioni coordinate (semplice e doppia) interpolazioni di proiezioni valutazione al tempo t della geodetica interpolante valutazione al tempo t dell'interpolazione à la McCann di µ1 e µ2 funzionale di energia interna funzionale di energia potenziale funzionale di energia di interazione funzione di concentrazione relativa al measure metric space α(X,d,µ) (X, d, µ) −funzione di concentrazione generalizzata e Φ Pp (X) Wp (µ1 , µ2 ) π i , π i,j πti→j , πti→j,k µi→j , µi→j,k t t [µ1 , µ2 ]t Capitolo 1 Lineamenti di Teoria del Trasporto di Massa 1.1 Push-forward di misure e cambi di variabile Prima di presentare il problema di Monge-Kantorovich quale origine di tutta la teoria del trasporto ottimo di massa, introduciamo una nozione che sarà di uso ricorrente nel seguito di questo lavoro. Denizione 1.1.1. Dati spazi misurabili (X, F) e (Y, G), una misura µ sul primo di questi ed una mappa misurabile r : X → Y, chiameremo push-forward di µ tramite r (con notazione r] µ) la misura ν denita dalla relazione ν(G) = µ(r−1 (G)) ∀ G ∈ G. (1.1) Da un punto di vista probabilistico, il push-forward di una probabilità tramite una variabile aleatoria non è altro che la legge della v.a. stessa. Osserviamo poi che il pushforward porta una misura in una misura con la stessa massa totale (nita od innita) ed, in particolare, probabilità in probabilità. Alcune prime proprietà del push-forward sono riassunte nella proposizione seguente, di dimostrazione quasi immediata: Teorema 1.1.2. Comunque siano dati spazi misurabili (X, F), (Y, G) e (Z, H) con applicazioni misurabili r : X → Y e s : Y → Z ed una coppia di misure µ e ν sullo spazio di partenza, si ha che 1. Vale l'implicazione µ ν ⇒ r] µ s] ν. (1.2) 2. Sussiste la regola di composizione (s ◦ r)] µ = s] r] µ. (1.3) Inoltre, presa una qualunque funzione f : Y → R che sia G−misurabile ed r] µ−integrabile vale la legge di integrazione rispetto all'immagine: Z Z f (y) dr] µ(y) = Y f (r(x)) dµ(x). X 1 (1.4) Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 2 Inne, se X1 ed X2 sono spazi metrici separabili (sui quali si considerano date le σ−algebre di Borel) ed r : X1 → X2 è un'applicazione continua, allora r] : P(X1 ) → P(X2 ) (1.5) è continua rispetto alla convergenza debole e si ha pure r(suppµ) ⊂ supp(r] µ) = r(suppµ). (1.6) Un altro importante risultato inerente la nozione di push-forward, di cui faremo uso ripetutamente, sarà fornito nel Capitolo 3 (Lemma 3.4.2). 1.2 Il problema di Monge-Kantorovich Veniamo ora ad una breve e necessariamente schematica introduzione alla teoria del trasporto ottimo di massa. Nel 1781, Gaspard Monge formulò nella sua memoria Le problème des déblais et remblais il seguente problema d'origine ingegneristica: dato un cumulo di terra collocato in una posizione iniziale nota e da trasportare in una posizione nale assegnata, determinare una strategia che consenta di eseguire il trasporto fecendo il minimo lavoro possibile. In eetti, egli parlava del trasporto d'un mucchio di terra verso una buca, ma da un punto di vista matematico le due questioni sono perfettamente equivalenti. Il quesito può essere facilmente riformulato in termini rigorosi come segue: detti f − ed f + le posizioni iniziali e nali della terra ed Ω ⊆ Rn l'ambiente, il lavoro fatto nel trasporto sarà dato da Z |s(x) − x|f − (x) dx, (1.7) Ω mentre il vincolo naturalissimo di `conservazione della massa nel trasporto' si esprime chiedendo che Z Z + f (x) dx = f − (x) dx ∀ B ∈ B(Rn ). (1.8) B s−1 (B) Nonostante la sua semplice descrizione il problema di Monge si è rivelato molto dicile ed in generale per vari decenni i molti matematici che vi si cimentarono riuscirono al più ad intuire alcune proprietà qualitative delle eventuali mappe di trasporto ottimo. Lo sviluppo della teoria della misura suggerisce in ogni caso di indagare la questione in un ambito molto più astratto e generale. Siano assegnati due spazi di misura (X, F) e (Y, G), siano poi µ una probabilità sul primo di tali spazi, ν una probabilità sul secondo ed inne c : X × Y → [0, +∞] una funzione che chiameremo d'ora in avanti funzione costo. Il problema di Monge consiste allora nel minimizzare l'integrale (costo di trasporto) Z c(x, T (x)) dµ(x), (1.9) X tra tutte le mappe (parleremo diR mappe di Monge) T : (X, F) → (Y, G) misurabili e R vericanti la condizione G dν = T −1 (G) dµ, che sarà detta di ammissibilità. Tuttavia, per gli scopi di questo lavoro considereremo sempre il caso in cui X = Y è uno spazio metrico con F = G la sua σ−algebra boreliana e la funzione costo è in eetti una Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 3 potenza della distanza, ovvero c(x1 , x2 ) = dp (x1 , x2 ) con p ∈ [1, +∞) . Vediamo ora alcuni cenni a certuni aspetti del problema di Monge: • Esistenza: il problema posto in generale non ammette soluzione (cioè non è detto che esistano mappe ottime di trasporto), anzi non è nemmeno detto che esistano mappe ammissibili. Ad esempio, si consideri il caso in cui µ = δx0 e ν = 21 (δy1 + δy2 ) dove si vede come la non esistenza di mappe ammissibili discenda dal fatto che le mappe di Monge, in quanto funzioni non consentano divisioni degli atomi di massa in partenza. In eetti, si può dimostrare che per misure µ in partenza prive di atomi l'esistenza di mappe ammissibili è sempre garantita. A maggior ragione l'esistenza di mappe ottimali è tutt'altro che banale: anche qui è facile costruire degli esempi (spesso tratti dalla teoria geometrica della misura) di scelte di spazi (X, F) e (Y, G) e probabilità µ e ν per le quali mappe ottimali di trasporto semplicemente non possano esistere. In altri termini è possibile costruire successioni minimizzanti di mappe di Monge convergenti a mappe multivoche ed, in quanto tali, non accettabbili per il problema in esame. • Unicità: quand'anche esistano mappe di Monge ottimali, non è detto che siano uniche. Paradigmatico è qui il caso del cosidetto `book shift': su (R, B(R) si prendano µ = n1 1[0,n] L1 e ν = n1 1[1,n+1] L1 con L1 la misura di Lebesgue unidi- mensionale. È una facile verica che esistono due mappe ottime delle quali la prima corrisponde ad uno spostamento della sola massa contenuta in [0, 1] verso [n, n + 1] mentre la seconda è uno shift unitario di tutta la massa. Quest'aspetto del problema è piuttosto delicato. • Non Linearità del Vincolo: in (Rn , B(Rn ) si prendano due probabilità denite n daRdensità µ = ρL e ν = σLn . Dato un boreliano B il nostro vincolo di trasporto R è B σ(y) dy = T −1 (B) ρ(x) dx, per cui se T è sucientemente regolare per fare un cambio di variabile (tipicamente si chiede che T sia di classe C 1 ed iniettiva, ma queste condizioni sono ben lontane dall'essere ottimali) la precedente diviene Z Z ρ(x) dx = T −1 (B) σ(T (x))| det(Jac(T (x)))| dx. T −1 (B) (1.10) Per confronto, essendo B arbitrario deve essere ρ(x) = σ(T (x))| det(Jac(T (x)))| (1.11) per q.o. x ∈ Rn ovvero - dove valga σ(T (x)) > 0 | det(Jac(T (x)))| = ρ(x) . σ(T (x)) (1.12) • Assenza di Stabilità per Convergenze Deboli: con quest'espressione in- tendiamo dire che il vincolo, oltre ad essere fortemente non lineare, non è stabile per convergenzaR debole perno negli spazi funzionali più naturali. Sia ϕ ∈ Rt 1 Cc (0, 1) con inoltre 0 ϕ(t) dt = 0, ψ(t) = 0 ϕ(s) ds cosicchè pure ψ ∈ Cc (0, 1) e ψ(0) = ψ(1) = 0. Supponiamo poi per comodità che tali funzioni siano prolungate per periodicità a tutta la retta reale ed inne poniamo ψh (t) = h1 ψ(ht). Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 4 Si verica con facilità che ψh → 0 in Lp (0, 1) ∀p ∈ [1, +∞) e che ψh0 * 0 in Lp (0, 1) ∀p ∈ [1, +∞) . Posto allora Th = ψh0 si ha che se si indica con T ∞ il limite debole della successione Th e con µ la restrizione della misura di Lebesgue all'intervallo (0, 1) vale T]∞ µ = δ0 mentre per ogni h ∈ N si ha Th] µ = ϕ] µ. Nel corso degli anni '40 del secolo scorso il matematico russo Kantorovich propose, anche sulla base di queste dicoltà, una formulazione debole del problema, la quale si rivelò da subito più utile e maneggevole ed aprì la strada a vari risultati signicativi per un problema no ad allora quasi inattaccabile. L'idea di Kantorovich era sostanzialmente quella di considerare ammissibili anche le mappe che non fossero funzioni, ovvero tali da poter potenzialmente operare una divisione della massa di ciascun punto in partenza tra i punti dello spazio in arrivo. Questa è una esposizione ingenua della nozione di piano di Kantorovich. Denizione 1.2.1. Dati (X, F) ed (Y, G) spazi di misura e µ ∈ P(X) (ovvero una probabilità sullo spazio (X, F)), ν ∈ P(Y ) diremo piani di Kantorovich gli elementi dell'insieme Γ(µ, ν) = {γ ∈ P(X × Y ); πX ] γ = µ, πY ] γ = ν} , (1.13) ove πX e πY denotano le applicazioni di proiezione dallo spazio prodotto X × Y sui fattori. Il problema di Kantorovich consiste allora nello studio di Z inf π∈Γ(µ,ν) (1.14) c(x, y) dπ(x, y) X×Y ove c : X × Y → [o, +∞) indica - come sopra - la funzione costo. 1 Osservazione 1.2.2. Le condizioni sui marginali ammettono varie riformulazioni equivalenti che elenchiamo dato che saranno utili in seguito: 1. πX ] γ = µ, πY ] γ = ν. −1 2. ∀ F ∈ F γ(πX (F )) = γ(F × Y ) = µ(F ) γ(πY−1 (G)) = γ(X × G) = ν(G). ∀G∈G ed analogamente 3. ∀ f, g misurabili e positive valga Z Z [f (x) + g(y)] dγ(x, y) = X×Y Z f (x) dµ(x) + X g(y) dν(y). (1.15) Y Osservazione 1.2.3. Dati due insiemi F ∈ F e G ∈ G il numero γ(F × G) misura quanta della massa presente in F è trasportata - secondo il piano γ - in G . Si osservi in particolare che γ(F × G) ≤ µ(F ) e γ(F × G) ≤ ν(G). Dopo aver elencato i punti deboli del problema di Monge, indichiamo qui per contrasto i punti forti della posizione di Kantorovich: 1 In eetti, il problema di Kantorovich ammette anche una riformulazione probabilistica, che è la seguente: dato uno spazio probabilizzato (Ω, A, P ) determinare inf E[c(U, V )] al variare di tutte le v.a. U e V tali che U : Ω → X ed abbia legge µ e V : Ω → Y ed abbia legge ν . Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 5 • Esistenza. I piani ammissibili di Kantorovich esistono sempre. Basta infatti considerare µ ⊗ ν ∈ Γ(µ, ν). • Simmetria. Nella formulazione di Kantorovich non vi è alcuna distinzione tra una misura in partenza ed una in arrivo ed ogni aspetto del problema (tanto il vincolo quanto il funzionale da minimizzare) è perfettamente simmetrico, in netto contrasto con l'asimmetria del problema di Monge. • Il Vincolo è Convesso. Con ciò intendiamo dire che il dominio Γ(µ, ν) è un sottinsieme convesso entro P (X × Y ), con tutte le buone proprietà che ciò comporta e che utilizzeremo in seguito. • Il Vincolo è stabile per Convergenza Debole. Nel caso in cui X ed Y siano spazi metrici (e noi ci riferiremo soltanto a spazi polacchi ovvero metrizzabili, 2 a π e scriveremo π * π separabili e completi) diremo cheRπn tende debolmente n R qualora ∀f ∈ Cb (X × Y ) valga f dπn → f dπ. Ebbene: è una facile verica che se πn * π nel senso sopra e πn ∈ Γ(µ, ν) per ogni indice n ∈ N (od almeno denitivamente), allora π ∈ Γ(µ, ν). • Linearità del Funzionale Costo. Se consideriamo l'applicazione Γ(µ, ν) → R R data da γ 7→ c dγ ove c è la funzione costo già denita e che chiameremo Funzionale Costo, si ha che questa è lineare. • (K) include (M). Indicando simbolicamente con (K) il problema di Kantorovich e con (M) il problema di Monge, intendiamo dire due cose: ad ogni mappa ammissibile secondo Monge è associato in modo naturale un piano ammissibile secondo Kantorovich tramite la corrispondenza T 7−→ (id × T )] (µ) ∈ Γ(µ, ν). Inoltre, se (K) ammette soluzione ed è un trasporto 3 (indichiamo con T la corrispondente mappa di Monge), allora pure (M) ammette soluzione e tra le soluzioni di (M) ritroviamo in particolare quelle ottenute tramite l'inclusione appena descritta. Tali risultati sono di dimostrazione immediata. L'ultima delle precedenti osservazioni suggerisce di considerare come piani di Kantorovich `privilegiati' quelli ottenuti direttamente a partire da una mappa di Monge. In eetti, vale un teorema piuttosto interessante che in un certo senso inverte l'asserto sopra enunciato, assicurando cioè come tutti piani di Kantorovich concentrati su graci cartesiani siano in eetti della forma (id × T )] (µ) per qualche mappa di Monge. Denizione 1.2.4. Dato uno spazio di misura (X, F, µ) ed un insieme misurabile F ∈ F diremo che µ è concentrata in F se µ(X\F ) = 0. Osservazione 1.2.5. È immediato vericare che vale la seguente caratterizzazione equivalente della concentrazione: In riferimento alla denizione precedente si ha che µ è concentrata su F se e solo se per ogni funzione misurabile non negativa ϕ : X → R vale R R X ϕ dµ = F ϕ dµ. 2 Non vi è uniformità su questa denizione. Ad esempio, molti testi di probabilità deniscono la convergenza debole in modo diverso e parlano invece in questo setting di convergenza stretta. 3 Si intende che la soluzione del problema di Kantorovich sia ottenibile tramite l'inclusione sopra menzionata a partire da una mappa di Monge. Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 6 Osservazione 1.2.6. Pare opportuno sottolineare la dierenza tra le nozioni di concentrazione su di un insieme e di supporto di una misura. Anzitutto la nozione di supporto è tipicamente riferita a spazi di misura costruiti a partire da una soggiacente struttura metrica o per lo meno topologica. Quand'anche si possa parlare di supporto, si ha che questo è un concetto univoco in contrasto con la nozione intuitiva di insieme di concentrazione 4 che invece non lo è aatto (si dovrebbe ricorrere eventualmente ad un opportuno argomento di minimalità). L'unica implicazione da tenere in considerazione è la seguente: Una misura su uno spazio metrico (ev. topologico) a base numerabile è sempre concentrata sul suo supporto. Teorema 1.2.7. Se T : (X, F, µ) → (Y, G, ν) è una mappa di Monge, allora γ = è un piano di Kantorovich ∈ Γ(µ, ν) concentrato su graf (T ). Viceversa dato comunque γ ∈ Γ(µ, ν) concentrato sul graco di una mappa misurabile T : (X, F, µ) → (Y, G, ν), si ha che γ = (id × T )] µ e T è una mappa di Monge. (id × T )] µ Dimostrazione. Ci serviamo dell'osservazione 1.1.5 : sia ϕ : X × Y → R una funzione boreliana non negativa. Si ha che γ ∈ Γ(µ, ν) è concentrato su graf (T ) se e solo se ∀ϕ come sopra vale Z Z ϕ(x, y) dγ(x, y) = X ϕ(x, y) dγ(x, y) (1.16) graf (T ) e da lì, applicando di seguito la proprietà di ammissibilità ed il teorema di integrazione immagine otteniamo Z Z ϕ(x, y) dγ(x, y) = X ϕ(x, y) dγ(x, y) Z = (1.17) graf (T ) Z ϕ(x, T (x)) dγ(x, y) = X×Y ϕ(x, T (x)) dµ(x) (1.18) X Z ϕ(x, y) d((id × T )] µ) = (1.19) X×Y e ciò avviene se e solo se γ = (id × T )] µ in ragione dell'arbitrarietà di ϕ. Questa catena di uguaglianze ci dà subito la seconda parte della prima tesi (per la prima parte si veda quanto detto sopra al punto (K) ⊇ (M )); per concluderne la seconda tesi basta aggiungere un argomento che mostri che γ = (id × T )] µ e γ ∈ Γ(µ, ν) implichino che T] µ = ν , ma le due ipotesi dicono che γ ha come secondo marginale rispettivamente T] µ e ν e per confronto ne concludiamo la tesi. 1.3 Il teorema di esistenza In questa sezione vogliamo dimostrare il teorema che assicura l'esistenza di piani ottimali per il problema di Kantorovich, fornendo così una ulteriore ragione del maggior interesse di questa formulazione rispetto a quella originale di Monge. Prima di svi4 In accordo alla denizione 1.1.4 vorremmo dire che F è un insieme di concentrazione per la nostra misura µ se µ è concentrata su F. Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 7 luppare questo risultato, vogliamo richiamare il classico Teorema di Prohorov che sarà utilizzato in quanto segue. Teorema 1.3.1. Sia (X,d) uno spazio polacco, µn per n ∈ N una successione di misure di probabilità su X. Diremo che µn è relativamente compatta se esistono una sottosuccessione µnk ed una probabilità µ ∈ P(X) tali che µnk * µ, nel senso debole denito sopra, ovvero nella dualità con Cb ; diremo invece che µn è equi-tesa (o, più semplicemente, tesa) se ∀ > 0 esiste un K ⊆ X sottinsieme compatto, tale che µn (K) > 1 − per ogni n ∈ N cioè equivalentemente se supn∈N µn (K c ) < . Vale allora la seguente caratterizzazione: µn è relativamente compatta se e solo se è equi-tesa.5 Ci serve un altro semplice lemma di approssimazione: Lemma 1.3.2. Sia (X, d) uno spazio polacco e sia c : X × X → R una funzione non negativa e semicontinua inferiormente (SCI). Allora esiste una successione di funzioni ck continue, limitate, non negative ed approssimanti c dal basso, ovvero tali che ck ↑ c. Dimostrazione. La dimostrazione è basata sulla costruzione esplicita: 0 0 0 0 ck (x, y) = min k, inf c(x , y ) + k(d(x, x ) + d(y, y )) , 0 0 (x ,y ) (1.20) cui seguono facili veriche che omettiamo. Teorema 1.3.3. Sia X uno spazio metrico polacco, P(X) la famiglia delle probabilità sulla sua σ−algebra boreliana e siano µ e ν due elementi di questa. Allora esiste un piano di traporto ottimale γ tra µ e ν (e scriveremo perciò γ ∈ Γo (µ, ν)). Dimostrazione. Anzitutto sappiamo, da quanto sopra, che Γ(µ, ν) è non vuoto. Si tratta ora di mostrare che esso è relativamente (sequenzialmente) compatto. Per fare ciò va osservato che Γ(µ, ν) è tight 6 : infatti per il Lemma di Ulam µ e ν lo sono ed esistono perciò, dato comunque δ > 0, dei compatti K ed L tali che µ(X\K) ≤ δ (1.21) ν(X\L) ≤ δ (1.22) π[(X × X)\(K × L] ≤ π[X × (X\L)] + π[(X\K) × (L)] ≤ 2δ. (1.23) e segue che per ogni π ∈Γ(µ, ν) vale Prendiamo ora una successione (γk ) minimizzante: possiamo, grazie al teorema di Prohorov, asserire l'esistenza di una probabilità limite γ ∈ P(X) e di una sottosuccessione 5 Solitamente si chiama Lemma di Ulam il sottocaso del Teorema di Prohorov che asserisce che, nel setting del teorema stesso, ogni probabilità è tesa. 6 Ovvero è equi-teso come insieme di misure di probabilità, in accordo con la denizione premessa all' enunciato del teorema di Prohorov. Capitolo 1. Lineamenti di Teoria del Trasporto di Massa γnk tale che 8 (1.24) γ nk * γ nel senso della topologia debole, dunque nella dualità con Cb . A questo punto si deve mostrare che γ ∈ Γ(µ, ν), ma questo è immediato dal momento che le condizioni che deniscono Γ(µ, ν) sono chiuse rispetto alla topologia debole, sicchè γ è in eetti un piano ammissibile. Data l'importanza di tale aspetto ci pare opportuno darne una dimostrazione esplicita: se ϕ(x) è una funzione continua e limitata, lo è anche ψ(x, y) = ϕ(x) = ϕ ◦ π(x, y) e quindi Z Z Z ϕ(x) dπ1] γnk = ϕ ◦ π1 (x, y) dγnk = ψ(x, y) dγnk Z Z → ψ(x, y) dγ = · · · = ϕ(x) dπ1] γ, (1.25) (1.26) che vuol dire che la misura π1] γ è il limite debole della successione dei marginali π1] γnk che però sono tutti eguali a µ e perciò non possono che avere proprio µ come limite debole. Per concludere si usa un argomento di semicontinuità, in conformità con le cosidette tecniche classiche del Calcolo delle Variazioni. Abbiamo già osservato che la semicontinuità inferiore della funzione costo c fa sì che si possa costruire una successione crescente cl di funzioni continue e limitate che vi convergano puntualmente, allora applicando successivamente il teorema di convergenza monotona, il fatto che γ sia il limite delle πnk , la disuguaglianza cl ≤ c e la proprietà di minimizzazione della πnk otteniamo: Z Z c(x, y) dγ(x, y) = lim l→∞ cl (x, y) dγ(x, y) Z ≤ lim lim inf l→∞ k→∞ cl (x, y) dγnk (x, y) Z ≤ lim inf k→∞ c(x, y) dγnk (x, y) = inf I. (1.27) (1.28) (1.29) Vale la pena di osservare che la precedente dimostrazione ci ha dato l'occasione per provare alcuni fatti di notevole importanza: • Γ(µ, ν) è tight • Γ(µ, ν) è debolmente chiuso nella dualità con Cb • Γ(µ, ν) è compatto (grazie ai due punti precedenti ed al teorema di Prohorov) R • il funzionale π → c(x, y) dπ è semicontinuo inferiormente (abbreviato SCI).7 7e perciò particolarmente interessante ripetto ad un problema di minimo! Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 9 1.4 Il teorema di Kantorovich-Rubinstein In molte situazioni, tipiche ad esempio del Calcolo delle Variazioni, può essere utile dualizzare un problema di minimo. Questo si rivela particolarmente utile anche nel caso della Teoria del Trasporto Ottimo di Massa ed il principale risultato in questo senso è il seguente, dovuto a Kantorovich: Teorema (Dualità di Kantorovich) 1.4.1. Siano X ed Y spazi polacchi, siano poi date due misure µ ∈ P(X) e ν ∈ P(Y ), e sia c : X × Y → R ∪ +∞ una funzione costo semicontinua inferiormente. Assegnati poi π ∈ P(X × Y ), e (ϕ, ψ) ∈ L1 (µ) × L1 (ν) deniamo Z Z I[π] = c(x, y) dπ(x, y), J(ϕ, ψ) = X×Y Z ϕ(x) dµ(x) + X ψ(y) dν(y) (1.30) Y ed inne Φc l'insieme delle coppie (ϕ, ψ) che rispettino il vincolo ϕ(x) + ψ(y) ≤ c(x, y) per µ-q.o. x ∈ X e ν -q.o. y ∈ Y. Allora inf I(π) = sup J(ϕ, ψ). π∈Γ(µ,ν) Φc (1.31) Inoltre non cambia il valore dell' estremo superiore a secondo membro della (1.31) qualora si restringa la denizione di Φc alle sole funzioni (ϕ, ψ) continue e limitate. Osservazione 1.4.2. Segue dalla dimostrazione del teorema, la quale si può trovare ad esempio in [31], che, almeno quando la funzione costo c è limitata, ci si può restringere a considerare il sup a secondo membro della (1.31) rispetto alle sole coppie (ϕcc , ϕc ) ove ϕ è limitata e valgano le denizioni seguenti per le c-trasformate: ϕc (y) = inf [c(x, y) − ϕ(x)], x∈X ϕcc (x) = inf [c(x, y) − ϕc (y)]. y∈Y (1.32) Si suole dire che (ϕcc , ϕc ) è una coppia di funzioni c-concave coniugate. Questa osservazione sta alla base della dimostrazione dell'ormai classico teorema di Kantorovich-Rubinstein: Teorema (Kantorovich-Rubinstein) 1.4.3. Sia X = Y uno spazio metrico polacco, d una metrica semi-continua inferiormente su X ed inoltre µ, ν ∈ P(X). Sia poi Lip(X) lo spazio delle funzioni lipschitziane su X e kϕkLip la relativa norma Lipschitz. Allora Z 1 1 Td (µ, ν) = sup ϕ d(µ − ν); ϕ ∈ L (µ) ∩ L (ν); kϕkLip ≤ 1 , (1.33) ove X Td (µ, ν) (1.34) indica il costo ottimo di trasporto di µ verso ν secondo d, nel senso di Kantorovich ovvero Td (µ, ν) = inf I(π) (1.35) π∈Γ(µ,ν) per Z I[π] = d(x, y) dπ(x, y). X×Y (1.36) Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 10 Inoltre il valore di tale sup non cambia se si impone sulla ϕ l'ulteriore condizione d'essere limitata. Dimostrazione. In base al teorema di dualità sappiamo già che nella (1.33) vale il ≥, dato che stiamo restringendo la classe di funzioni considerate per il sup. È perciò suciente provare l'altra disuguaglianza e per fare questo non è restrittivo assumere che la distanza d sia limitata. Infatti posto dn = d/(1 + n−1 d) abbiamo che dn ≤ d ed inoltre dn converge in maniera monotona verso d sicchè, osservando dapprima che l'insieme delle funzioni 1-lipschitziane per dn è incluso nell'insieme delle funzioni 1lipschitziane per d, ci si riduce al caso in cui d è limitata con un tipico argomento di approssimazione. Grazie a questo fatto, potremo assumere che tutte le funzioni lipschitziane siano limitate e perciò integrabili rispetto a µ e ν, cosa che sfrutteremo in seguito. Ci siamo perciò ridotti a provare che Z J(ϕ, ψ) ≤ sup sup (ϕ,ψ)∈Φd X ϕ d(µ − ν); kϕkLip ≤1 , ove in conformità ad una notazione già usata J(ϕ, ψ) = X ϕ dµ + Dall'osservazione premessa a questa dimostrazione sappiamo che R sup R X (1.37) ψ dν . sup J(ϕdd , ϕd ). J(ϕ, ψ) ≤ ϕ∈L1b (µ) (ϕ,ψ)∈Φd (1.38) Ora però ϕd , essendo l'inviluppo inferiore di funzioni 1-lipschitziane e limitate dal basso è a sua volta 1-lipschitziana (è una verica immediata). Si ha dunque: −ϕd (x) ≤ inf [d(x, y) − ϕd (y)] ≤ −ϕd (x), y (1.39) dove la disuguaglianza di sinistra segue dalla proprietà di 1-lipschitzianità e quella di destra dalla scelta x = y nell'inf . Questo signica che ϕdd = −ϕd , e di lì sup J(ϕ, ψ) ≤ sup J(ϕdd , ϕd ) = ϕ∈L1b (µ) (ϕ,ψ)∈Φd ≤ sup sup J(−ϕd , ϕd ) ϕ∈L1b (µ) J(ϕ, −ϕ) kϕkLip ≤1 (1.40) (1.41) e questo è quel che volevamo. Da questo teorema possiamo dedurre un interessante corollario, di origine intuitiva, ma non banale da dimostrare con un approccio diretto. Per enunciarlo nel modo più chiaro conviene qui considerare il problema del trasporto per misure non necessariamente normalizzate ad essere probabilità. Per motivi che saranno chiari in seguito lo enunciamo come segue: Corollario 1.4.4. Sia X = Y uno spazio polacco e d una distanza semicontinua su X. Siano poi µ, ν e σ tre misure di Borel non-negative su X, a guisa che µ(X) = ν(X) < +∞, σ(X) < +∞. Allora Td (µ + σ, ν + σ) = Td (µ, ν). (1.42) Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 11 Dimostrazione. È una immediata conseguenza del teorema precedente. Vale la pena di osservare che la maggiorazione Td (µ + σ, ν + σ) ≤ Td (µ, ν) (1.43) è invece ottenibile senza alcuno strumento teorico: infatti se γ è un piano ottimale tra µ e ν si può denire γ ∗ := γ + (id × id)] σ (1.44) che è un piano ammissibile di costo pari a quello di γ , da cui la tesi. Intuitivamente tale γ ∗ è il piano corrispondente al non spostamento delle masse σ e che usa invece una strategia ottima nello spostamento di µ verso ν . Come sottoprodotto del corollario precedente abbiamo che posto σ = µ ∧ ν = µ − (µ − ν)+ (1.45) si ottiene che almeno nelle ipotesi del teorema di Kantorovich-Rubinstein si può sempre supporre che i supporti di µ e ν siano disgiunti. In eetti questo è vero in ipotesi molto più generali, come si vedrà successivamente. Tale semplicazione appare poi particolarmente espressiva nel caso in cui µ e ν siano misure assolutamente continue (con densità f e g ) rispetto alla misura di Lebesgue. In questo caso il problema di Kantorovich sarà ridotto al trasporto tra le misure di densità (f − g)+ e (f − g)− . Nelle righe precedenti, la notazione ρ+ denota evidentemente la parte positiva d' una misura di Radon ρ; questa è denita dalla caratteristica proprietà che ρ può essere scritta nella forma della decomposizione di Hahn ρ = ρ+ − ρ− , ove ρ+ e ρ− sono misure di Borel non-negative e tra loro singolari. 1.5 Il caso quadratico In questa sezione, di fondamentale importanza per i capitoli seguenti, proponiamo una rassegna dei principali risultati ottenuti nello studio del problema di MongeKantorovich nel caso quadratico, ovvero per X = Y = Rn con costo c(x, y) = |x − y|2 /2. 1.5.1 Formulazione duale Cominciamo col dare una formulazione duale del nostro problema nel caso quadratico, sulla scorta delle idee già sviluppate nella sezione precedente. Sia dunque X = Y = Rn e c(x, y) = |x − y|2 /2. Consideriamo due misure (di Borel) µ e ν aventi momento secondo nito e poniamo Z M2 = Rn 2 |x| dµ(x) + 2 Z Rn 2 |y| dν(y) < +∞; 2 (1.46) Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 12 questa condizione assicura in particolare che per ogni π ∈ Γ(µ, ν) la quantità I(π) sia nita. Data una coppia (ϕ, ψ), sappiamo che essa appartiene a Φc se e solo se 2 ϕ(x) + ψ(y) ≤ |x − y| , 2 (1.47) ovvero se e solo se vale " # " # 2 2 |x| |y| hx, yi ≤ − ϕ(x) + − ψ(y) 2 2 2 (1.48) 2 sempre per µ-q.o. x e ν -q.o. y ∈ Rn . Denendo ϕe = |x|2 − ϕ(x) e ψe = |y|2 − ψ(y), abbiamo dunque che il vincolo di appartenenza a Φc assume la forma semplice e hx, yi ≤ ϕ(x) e + ψ(y) (1.49) Avendo presente il teorema di dualità, possiamo riscrivere nel caso specico in esame i due membri come segue: Z inf π∈Γ(µ,ν) I(π) = M2 − sup hx, yi dπ(x, y) (1.50) {J(ϕ, ψ)} , (1.51) π∈Γ(µ,ν) per il primo, mentre per il secondo sup J(ϕ, ψ) = M2 − inf Φc e (ϕ,ψ)∈Φ e come l'insieme di tutte le coppie (ϕ, ψ) ∈ L1 (µ) × L1 (ν) di funzioni avendo denito Φ a valori in R ∪ {+∞} tali che hx, yi ≤ ϕ(x) + ψ(y) (1.52) per q.o. x, y ∈ Rn . Allora otteniamo inne la seguente riformulazione del Teorema 1.4.1 Z sup hx, yi dπ(x, y) = inf {J(ϕ, ψ)} . (1.53) π∈Γ(µ,ν) e (ϕ,ψ)∈Φ A questo punto, introduciamo una tecnica detta di doppia convessicazione. Va premesso che non è lesivo di generalità limitare lo studio del problema di minimo a secondo e tali che valga membro della (1.53) alle sole coppie (ϕ, ψ) ∈ Φ hx, yi ≤ ϕ(x) + ψ(y), ∀x, y ∈ Rn (1.54) e ∗ l'insieme delle coppie sifatte). Infatti, presa comunque una coppia (chiamiamo Φ e sappiamo che esistono insiemi Nx , Ny tali che µ(Nx ) = 0, ν(Ny ) = 0 ed (ϕ, ψ) ∈ Φ, inoltre valga hx, yi ≤ ϕ(x) + ψ(y), ∀(x, y) ∈ Nxc × Nyc . (1.55) Se ora rideniamo ϕ valere +∞ su Nx e ψ valere +∞ su Ny avremo che la nuova e e che il valore di J(ϕ, ψ) non è cambiato, dato che coppia (ϕ, ψ) appartiene ancora a Φ Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 13 abbiamo eseguito modicazioni su insiemi trascurabili. Abbiamo però che data una e ∗ vale per ogni y ∈ Y coppia (ϕ, ψ) ∈ Φ (1.56) ψ(y) ≥ sup [hx, yi − ϕ(x)] =: ϕ∗ (y) x per cui, forti di quanto detto sopra (1.57) J(ϕ, ψ) ≥ J(ϕ, ϕ∗ ). D'altro canto, come visto nella dimostrazione del Teorema A.2.6 vale pure per µ-q.o. x∈X (1.58) ϕ(x) ≥ sup [hx, yi − ϕ∗ (y)] =: ϕ∗∗ (x), x sicché (1.59) J(ϕ, ϕ∗ ) ≥ J(ϕ∗∗ , ϕ∗ ). Sfruttando le due disuguaglianze appena ottenute, ricaviamo inne la relazione J(ϕ, ψ) ≥ inf e (ϕ,ψ)∈Φ inf ϕ∈L1 (µ) (1.60) J(ϕ∗∗ , ϕ∗ ). Questa è in eetti un'uguaglianza, come assicura il lemma seguente (la cui dimostrazione si trova ad esempio in [31]). Lemma (Double Convexication) 1.5.1. Siano µ, ν misure di probabilità suppor- tate in sottinsiemi X, Y di Rn rispettivamente e tali che 2 Z M2 = X |x| dµ(x) + 2 Z Y 2 |y| dν(y) < +∞. 2 (1.61) Date due qualunque funzioni misurabili ϕ, ψ a valori in R ∪ {+∞} , poniamo (1.62) ϕ∗ (y) = sup [hx, yi − ϕ(x)] , x∈X (1.63) ψ ∗ (x) = sup [hx, yi − ψ(y)] . y∈Y e denito come sopra e (ϕk , ψk )k∈N una successione minimizzante per il Sia inne Φ e Allora funzionale J su Φ. 1. Esiste una successione di numeri reali (ak )k∈N tale che (1.64) ∗ (ϕk , ψk ) = (ϕ∗∗ k − ak , ϕk + ak ) e ed inoltre sia ancora una successione minimizzante per J su Φ 2 ∀x ∈ X, ∀y ∈ Y, ϕk (x) ≥ − |x| , 2 2 lim inf inf (ϕk (x) + k→∞ x∈X 2 ψ k (y) ≥ − |x| ) ≤ inf J + M2 e 2 Φ |y| , 2 (1.65) (1.66) Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 14 2 lim inf inf (ψ k (y) + k→∞ y∈Y |y| ) ≤ inf J + M2 . e 2 Φ (1.67) 2. In particolare, se X = Y = Rn , l'operazione ∗ coincide con l'usuale trasfomata di Legendre (cfr. Appendice A) e inf J = e Φ inf ϕ∈L1 (µ) (1.68) J(ϕ∗∗ , ϕ∗ ). In altri termini il valore dell'estremo inferiore del funzionale J non cambia quae costituito dalle sole coppie di funzioni lora lo si restringa al sottinsieme di Φ proprie convesse coniugate, come sopra. Questo lemma tecnico consente di giungere ad un teorema di esistenza di una coppia ottimale per il problema duale sopra descritto. Teorema 1.5.2. Siano µ, ν misure di probabilità su Rn aventi momenti di ordine e denito come sopra. Allora, esiste una coppia (ϕ, ϕ∗ ) di funzioni secondo niti. Sia Φ convesse proprie denite su Rn e semicontinue inferiormente, tali che (1.69) inf J(ϕ, ψ) = J(ϕ, ϕ∗ ). e Φ Per la dimostrazione di questo risultato si rimanda a [26]. 1.5.2 Il teorema fondamentale Dopo questi passi preliminari, siamo nalmente in grado di studiare in dettaglio il principale teorema inerente il caso p = 2, dovuto in parte a Knott e Smith ed in parte a Brenier. Teorema 1.5.3. Siano µ, ν misure di probabilità su Rn aventi momenti di ordine secondo niti. Consideriamo qui il problema di Monge-Kantorovich in riferimento al costo quadratico standard c(x, y) = |x − y|2 . Allora: 1. (Criterio di ottimalità di Knott-Smith) π ∈ Γ(µ, ν) è ottimale se e solo se esiste una funzione convessa propria semicontinua inferiormente ϕ tale che supp(π) ⊂ graf(∂ϕ), od equivalentemente per π-q.o. (x, y) sia y ∈ ∂ϕ(x). Inoltre, in tal caso, la coppia (ϕ, ϕ∗ ) è minimizzante per il problema Z inf ϕ dµ + Rn 2. ψ dν; dato da ∀(x, y), hx, yi ≤ ϕ(x) + ψ(y) . Rn (Teorema di Brenier) π Z (1.70) Se inoltre µ Ln , allora vi è un'unico piano ottimale π = (id × ∇ϕ)] µ, (1.71) essendo ∇ϕ l'unico (i.e. univocamente determinato µ-q.o.) gradiente di una funzione convessa per la quale ∇ϕ] µ = ν. Inoltre, supp(ν) = ∇ϕ(supp(µ)). (1.72) Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 15 3. Quale corollario del punto precedente, in tali ipotesi, ∇ϕ è l'unica soluzione del problema di Monge: Z Z 2 |x − ∇ϕ(x)| dµ(x) = inf T] µ=ν Rn |x − T (x)| dµ(x), (1.73) hx, T (x)i dµ(x). (1.74) 2 Rn o equivalentemente Z Z hx, ∇ϕ(x)i dµ(x) = sup T] µ=ν Rn Rn 4. Inne, se si ha anche ν Ln , allora per µ-q.o. x e per ν -q.o. y, si ha rispettivamente ∇ϕ∗ ◦ ∇ϕ(x) = x, ∇ϕ ◦ ∇ϕ∗ (y) = y. (1.75) Inoltre ∇ϕ∗ è (ν -q.o.) l'unico gradiente di una funzione convessa per cui ∇ϕ∗] ν = µ ed è anche l'unica soluzione del problema di Monge di trasportare ν verso µ con costo quadratico. Osservazioni 1.5.4. 1. Abbiamo già visto, all'inizio di questo capitolo, come l'ipotesi di assoluta continuità (rispetto alla misura di Lebesgue) della misura in partenza assicuri l'esistenza di mappe ammissibili secondo Monge. In eetti, anche quando non sussistano problemi di esistenza, è possibile riscontrare una perdita di unicità nella soluzione del problema di Monge-Kantorovich ancora imputabile a fenomeni di concentrazione di massa (i.e. presenza di masse di Dirac). A titolo di esempio si prendano le misure di probabilità in R2 concentrate in {(0, 0), (1, 1)} ed in {(1, 0), (0, 1)} rispettivamente. La necessità dell'ipotesi µ Ln può dunque anche essere messa in relazione al problema dell'unicità della soluzione del problema di Monge-Kantorovich. 2. L'ipotesi µ Ln non è tuttavia ottimale: sarebbe infatti suciente chiedere che µ non dia massa agli insiemi aventi dimensione di Hausdor al più n − 1. Dimostrazione. Al ne di dare alla dimostrazione una struttura più ordinata, procediamo per passi. • Step 1. Sia π ∈ Γ(µ, ν) un piano di trasporto ottimale tra µ e ν (sappiamo che un tale π esiste grazie al Teorema 1.3.3) e sia (ϕ, ϕ∗ ) una coppia soluzione del problema duale (1.76) inf J(ϕ, ψ) e Φ come nel Teorema 1.5.2: la relazione (1.53) fornisce Z Z hx, yi dπ(x, y) = Z ϕ(x) dµ(x) + ϕ∗ (y) dν(y) (1.77) e poichè π ∈ Γ(µ, ν) ne ricaviamo Z (ϕ(x) + ϕ∗ (y) − hx, yi) dπ(x, y) = 0. (1.78) Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 16 D'altra parte questo integrando è non negativo (in base alla denizione di trasformata di Legendre) e dunque grazie alla disuguaglianza di Markov ϕ(x) + ϕ∗ (y) = hx, yi , π − q.o. (1.79) però il Teorema A.2.3 ci dice che questo equivale a dire y ∈ ∂ϕ(x) per π -q.o. (x, y). Viceversa, assumendo di avere un piano π tale che esista una funzione convessa ϕ a guisa che y ∈ ∂ϕ(x) per π quasi ogni (x, y) possiamo ripercorrere in senso inverso i passi precedenti, no a giungere alla relazione Z Z Z hx, yi dπ(x, y) = Rn ×Rn ϕ(x) dµ(x) + Rn ϕ∗ (y) dν(y) Rn (1.80) ed a questo punto è chiaro sempre per la relazione (1.53) che tanto π quanto la coppia (ϕ, ϕ∗ ) devono essere ottimali per i rispettivi problemi. Questo conclude la dimostrazione della parte 1. del teorema. • Step 2. Siano π e (ϕ, ϕ∗ ) come sopra e si assuma ora che µ Ln . Sappiamo che ϕ ∈ L1 (µ) e dunque assume valori niti µ-q.o., che è come dire µ(Dom(ϕ))=1. Del resto, come discusso nella Sezione A.1, il bordo ∂ Dom(ϕ) è trascurabile (in quanto bordo di un convesso) per la misura di Lebesgue, per cui si conclude per dierenza che µ(Int(Dom(ϕ)))=1. Ma a questo punto il Teorema A.1.2 assicura che ϕ sia dierenziabile (in senso classico) µ-q.o. ovvero per µ-q.o. x il sottodierenziale ∂ϕ(x) consiste del solo elemento {∇ϕ(x)} . Questo basta per asserire pure che y = ∇ϕ(x) per π -q.o. (x, y) e che dunque ogni piano ottimale π deve essere rappresentabile nella forma (Id × ∇ϕ)] µ per una qualche funzione convessa ϕ e sappiamo già pure che (almeno) un tale piano eettivamente esiste. • Step 3. Vediamo ora la parte di unicità. Sia ϕ un'altra funzione convessa tale che ∇ϕ] µ = ν : vogliamo provare che in eetti ∇ϕ = ∇ϕ a meno di un insieme µtrascurabile. Grazie al criterio di ottimalità di Knott-Smith, il piano (id × ∇ϕ)] µ è ottimale e di conseguenza la coppia (ϕ, ϕ∗ ) è ottimale per il problema duale, al pari di (ϕ, ϕ∗ ). Perciò Z Z Z Z ∗ ϕ dµ + ϕ dν = ϕ dµ + ϕ∗ dν. (1.81) Rn Rn Rn Rn Indichiamo ora con π il piano ottimale associato a ϕ ovvero π = (Id × ∇ϕ)] µ. Possiamo riscrivere l'uguaglianza sopra nella forma Z Z ∗ [ϕ(x) + ϕ (y)] dπ(x, y) = Rn ×Rn [ϕ(x) + ϕ∗ (y)] dπ(x, y) (1.82) [hx, yi] dπ(x, y), (1.83) Rn ×Rn Z = Rn ×Rn ovvero applicando il teorema di integrazione rispetto ad un push-forward (1.1.2) Capitolo 1. Lineamenti di Teoria del Trasporto di Massa Z ∗ Z [hx, ∇ϕ(x)i] dµ(x). [ϕ(x) + ϕ (∇ϕ(x))] dµ(x) = Rn Rn 17 (1.84) Ne segue che Z [ϕ(x) + ϕ∗ (∇ϕ(x)) − hx, ∇ϕ(x)i] dµ(x) = 0. Rn (1.85) Ragionando come al punto iniziale, concludiamo che deve valere ∇ϕ(x) ∈ ∂ϕ(x) (1.86) per µ-q.o.x. D'altro canto, in base allo Step 2, ϕ è dierenziabile µ-q.o. ed allora in denitiva ∇ϕ(x) = ∇ϕ(x) (1.87) sempre per µ-q.o.x. Abbiamo così mostrato non solo l'unicità della soluzione del problema di Monge-Kantorovich, ma anche l'unicità del gradiente di una funzione convessa ∇ϕ che porti µ verso ν ovvero tale che ∇ϕ] µ = ν. • Step 4. Mostriamo ora che supp(ν) = ∇ϕ(supp(µ)). Sia x ∈ supp(µ) un punto di dierenziabilità per ϕ e sia corrispondentemente y = ∇ϕ(x) : sappiamo dal Teorema A.1.6 che dato comunque > 0 esiste δ > 0 di modo che ∇ϕ(Bδ (x)) ⊂ B (y). (1.88) ν(B (y)) ≥ µ ∇ϕ−1 (∇ϕ(Bδ x)) ≥ µ [Bδ (x)] . (1.89) Di conseguenza Però si è scelto x ∈ supp(µ) e dunque µ [Bδ (x)] > 0 per cui per confronto ν(B (y)) > 0 che implica y ∈ supp(ν) in ragione dell'arbitrarietà di . In denitiva, abbiamo mostrato che dev'essere ∇ϕ(supp(µ)) ⊂ supp(ν). (1.90) D'altra parte ν [∇ϕ(supp(µ))] ≥ µ [supp(µ)] = 1. Questo vuol dire che ν è concentrata sull'insieme ∇ϕ(supp(µ)) e perciò, in base alla denizione stessa di supporto di una misura (1.91) supp(ν) ⊂ ∇ϕ(supp(µ)). Mettendo insieme le due inclusioni appena ottenute e passando alle chiusure topologiche si ottiene la tesi. • Step 5. Servendoci ancora del Teorema A.2.3 abbiamo che π -q.o. vale x ∈ ∂ϕ∗ (y). L'argomento già usato all'inizio del punto 2. ci consente poi di sapere che ϕ∗ è dierenziabile ν -q.o. e perciò che π -q.o. deve aversi x = ∇ϕ∗ (y) = ∇ϕ∗ (∇ϕ(x)). (1.92) Capitolo 1. Lineamenti di Teoria del Trasporto di Massa Ciò implica che 18 (1.93) x = ∇ϕ∗ (∇ϕ(x)) a parte un insieme µ-trascurabile. La restante parte della tesi segue per simmetria. In eetti, è possibile ranare l'enunciato precedente del teorema di Brenier (1.5.3 parte 2.) eliminando l'ipotesi di nitezza dei momenti secondi di µ e ν. Questo risultato, dovuto a McCann, è dimostrato in [22]: Teorema 1.5.5. Siano µ e ν due misure di probabilità su Rn e si supponga µ Ln . Allora vi è un'unica8 mappa misurabile T tale che T] µ = ν ed inoltre T = ∇ϕ per qualche funzione convessa ϕ. Sorprendentemente, la dimostrazione di questo teorema non si basa su risultati di dualità (sulla scia di quanto visto sopra), ma sulla nozione di ciclica monotonia che ora introduciamo. Denizione 1.5.6. Un sottinsieme Γ ⊂ Rn × Rn si dice ciclicamente monotono se e solo verica la condizione seguente: per ogni m ≥ 1, e per qualunque scelta di m coppie di punti (x1 , y1 ), . . . , (xm , ym ) in Γ, m X 2 |xi − yi | ≤ m X 2 |xi − yi−1 | , (1.94) i=1 i=1 con la convenzione y0 = ym , od equivalentemente m X hyi , (xi+1 − xi )i ≤ 0 (1.95) i=1 con la convenzione xm+1 = x1 . Questa nozione, originata dallo studio del caso discreto, si è rivelata essere una utile condizione necessaria e suciente di ottimalità (rispetto al problema di Kantorovich con costo quadratico) come attestato dai teoremi seguenti: Teorema 1.5.7. Siano µ e ν due misure di probabilità su Rn e sia π ∈ Γ(µ, ν) un piano ottimale rispetto al problema di trasporto ottimo di Kantorovich da µ a ν con costo quadratico c(x, y) = |x − y|2 . Allora il supporto di π è ciclicamente monotono. Allo stato attuale della conoscenza matematica, non è noto se l'inverso del precedente teorema sia sempre vero, ma ci si avvicina molto col seguente risultato, dovuto ad Ambrosio: Teorema 1.5.8. Siano µ e ν due misure di probabilità su Rn tali che valga la condi- zione Z 2 |x − y| dµ(x)dν(y) < +∞ Rn ×Rn 8 L'unicità è da intendersi nel senso che due mappe T , T come nell'enunciato del teorema devono 1 2 coincidere µ-quasi ovunque. Capitolo 1. Lineamenti di Teoria del Trasporto di Massa 19 e sia π ∈ Γ(µ, ν) un piano con supporto ciclicamente monotono. Allora π è un piano ottimale per il problema di Kantorovich del trasporto ottimo di µ verso ν con costo quadratico c(x, y) = |x − y|2 . Per la dimostrazione di questi due teoremi nel caso di costi c ≥ 0 si veda [2]. Sulla base dei vari risultati esposti in questa sezione è naturale domandarsi che relazione intercorra tra le nozioni di ciclica monotonia e di inclusione nel (graco del) sottodierenziale di una funzione convessa. Una risposta esaustiva in tal senso si deve al celebre teorema di Rockafellar: Teorema 1.5.9. Un sottinsieme non vuoto Γ ⊂ Rn ×Rn è ciclicamente monotono se e solo se è incluso nel sottodidderenziale di una funzione convessa propria e semicontinua inferiormente ϕ denita su Rn . Inoltre, gli insiemi ciclicamente monotoni massimali (rispetto all'inclusione) sono esattamente i (graci dei) sottodierenziali di funzioni convesse proprie semicontinue inferiormente. La dimostrazione di questo teorema, sorprendentemente elementare, è presente in qualunque testo sulla teoria del trasporto ottimo di massa, ad esempio [31]. Mettendo insieme i teoremi 1.5.7 e 1.5.9 si ottiene immediatamente la generalizzazione seguente del criterio di ottimalità di Knott-Smith: Teorema 1.5.10. Siano µ, ν misure di probabilità su Rn e sia π ∈ Γ(µ, ν) un piano di trasporto. Se π è ottimale per il problema di Kantorovich con costo quadratico, 2 c(x, y) = |x − y| , allora π è supportato nel sottodierenziale di una funzione convessa propria semicontinua inferiormente. Capitolo 2 Aspetti metrici: le distanze di Wasserstein 2.1 Le distanze di Wasserstein Dopo la necessaria introduzione del Capitolo 1 al problema di Monge-Kantorovich, vogliamo ora avvicinarci al principale oggetto di questa tesi discutendo alcuni aspetti metrici della teoria del trasporto con particolare riferimento alla distanza di Wasserstein, che ora deniamo: Denizione 2.1.1. Sia X uno spazio metrico polacco munito d'una distanza d e sia p ≥ 0 un numero reale non negativo. Considereremo nel seguito una funzione costo c(x, y) = d(x, y)p , con la convenzione che d(x, y)0 = 1x6=y . Useremo inoltre l'abbreviazione Tp (µ, ν) = Tdp (µ, ν) per il costo ottimo di trasporto tra µ e ν secondo la funzione costo c(x, y) = d(x, y)p . Deniamo allora Pp (X) come la famiglia delle probabilità (sia µ la generica) su X aventi momento p-esimo nito, cioè quelle per cui esista un punto x0 ∈ X tale che Z d(x, x0 )p dµ < +∞. X (Si osservi che se d è limitata, allora Pp (X) coincide con P(X)) . Teorema 2.1.2. Pp (X). 1. Per ogni p ∈ [1, ∞) , Wp := Tp1/p denisce una distanza su 2. Per ogni p ∈ [0, 1), Wp := Tp denisce una distanza su Pp (X). Osservazione 2.1.3. Se d è limitata il precedente teorema implica che Wp denisca una distanza su P(X). Prima della dimostrazione, vale la pena di dire che nei casi più importanti, ovvero p = 2 e p = 1 si usa una terminologia particolare: distanza di Wasserstein quadratica nel primo caso e distanza di Kantorovich-Rubinstein nel secondo (quest'espressione è già stata usata nel capitolo 1 a proposito del corollario di invarianza per sottrazione delle masse comuni). Dimostrazione. Ci limitiamo a provare la parte 1., che è quanto ci servirà in seguito, omettendo le pur facili varianti per ottenere gli altri casi. Per maggior chiarezza distinguiamo i vari passi 20 Capitolo 2. Aspetti metrici: le distanze di Wasserstein 21 • Buona denizione: basta osservare che µ ⊗ ν ∈ Γ(µ, ν) ed usare la disuguaglianza triangolare per d(·, ·): d(x, y) ≤ d(x, x0 ) + d(x0 , y) =⇒ d(x, y)p ≤ (d(x, x0 ) + d(x0 , y))p ≤ 2p [d(x, x0 )p + d(x0 , y)p ] ora integro ambo i membri in d(µ⊗ν) ed usando le ipotesi di nitezza dei momenti p-esimi di µ e ν ottengo la tesi. • Simmetria: è immediata conseguenza della simmetria del problema di Kantoro- vich, già discussa nel capitolo 1. • Distanza Nulla: si osservi dapprima che Wp (µ, ν) = 0 ⇔ ∃γ ∈ Γ(µ, ν) concentrato sulla diagonale ∆ di X × X . Da ciò un' implicazione è ovvia prendendo la mappa di Monge identica id : X → X e γ = (id × id)] µ, che è un piano di Kantorovich concentrato su ∆. Per l'altra implicazione si prenda un piano γ ottimale ( sappiamo che esiste ), il quale sarà concentrato su ∆ (facile verica) e perciò π1] γ = π2] γ. Infatti, dato comunuqe B ∈ B(X) vale π1] γ(B) = γ(π1−1 (B) ∩ (∆)) = γ((B × X) ∩ ∆) = γ((X × B) ∩ ∆) = γ(π2−1 (B) ∩ (∆)) = π2] γ(B), che in ragione della condizione di ammissibilità, per confronto, vuol dire µ = ν. • Proprietà Triangolare: La dimostrazione è basata sul seguente Lemma 2.1.4 (Gluing). Siano µ1 , µ2 , µ3 misure di probabilità su spazi polacchi X1 , X2 , X3 rispettivamente e siano π12 , π23 piani di trasporto tra µ1 , µ2 nel primo caso e µ2 , µ3 nel secondo. Allora esiste una misura di probabilità π su P(X1 × X2 × X3 ) tale da avere π12 come marginale su X1 × X2 e π23 come marginale su X2 × X3 . La dimostrazione di questo lemma, basata sulla nozione di disintegrazione di misure, sarà data in seguito. Vediamo invece subito come esso consenta di concludere con facilità la disuguaglianza triangolare per la distanza di Wasserstein. Siano date dunque µ1 , µ2 , µ3 ∈ Pp (X) ed etichettiamo con X1 , X2 , X3 ( ma questa è solo una convenzione per rendere più chiara la notazione, dacchè X1 = X2 = X3 = X ) gli spazi su cui queste misure sono supportate, e siano π12 un piano ottimale tra µ1 eµ2 , π23 un piano ottimale tra µ2 e µ3 ed inne sia π come nell'enunciato del lemma precedente. Si verica immediatamente dalla denizione che π ha come marginale su X1 × X3 un piano ammissibile π13 tra µ1 e µ3 . Inoltre, sfruttando successivamente la disuguaglianza triangolare, le proprietà dei marginali e la disuguaglianza di Minkowski in Lp abbiamo la seguente catena di disuguaglianze: Z Wp (µ1 , µ3 ) ≤ X1 ×X3 1/p d(x1 , x3 ) dπ13 (x1 , x3 ) p (2.1) Capitolo 2. Aspetti metrici: le distanze di Wasserstein 22 1/p d(x1 , x3 ) dπ(x1 , x2 , x3 ) (2.2) 1/p (d(x1 , x2 ) + d(x2 , x3 ))p dπ(x1 , x2 , x3 ) (2.3) Z p = X1 ×X2 ×X3 Z ≤ X1 ×X2 ×X3 Z 1/p p ≤ (d(x1 , x2 )) dπ12 (x1 , x2 ) Z + X1 ×X2 1/p d(x1 , x3 ) dπ23 (x2 , x3 ) p X2 ×X3 = Wp (µ1 , µ2 ) + Wp (µ2 , µ3 ). (2.4) (2.5) 1 Dobbiamo a questo punto dimostrare il lemma di Gluing. Come già anticipato, l'argomento in questo caso si basa su un concetto importante in probabilità: quello di disintegrazione di misure. Siano X ed Y spazi polacchi, sia poi λ una misura di probabilità sullo spazio prodotto X × Y e sia σ il marginale su X di λ. Un ben noto risultato - il lemma di disintegrazione, appunto - asserisce l'esistenza di una applicazione da X in P(Y ) della forma x 7→ λx tale che valga la relazione (da intendersi tra probabilità su X × Y ) : Z λ= δx ⊗ λx dσ(x), (2.6) X la quale implica che per ogni insieme A , misurabile della tribù boreliana di X × Y Z λ(A) = λ(Ax ) dσ(x) (2.7) X (ove al solito Ax = {y ∈ A|(x, y) ∈ A}) (2.8) ovvero che per ogni u ∈ Cb (X × Y ), Z Z Z u(x, y) dλ(x, y) = X×Y u(x, y) dλx (y) dσ(x). X (2.9) Y Si suole dire che l'applicazione x 7→ λx è una famiglia di Borel ad indicare che per ogni boreliano B in X × Y l'applicazione x 7→ λx (Bx ) è boreliana. Osserviamo, per completezza, che una siatta famiglia di Borel non è univocamente determinata, ma lo è solo σ -q.o. in X . Tornando ora alla dimostrazione del lemma, è suciente applicare una disintegrazione di π12 e π23 rispetto al fattore comune X2 a guisa che valgano le relazioni: Z π12;2 ⊗ δx2 dµ2 (x2 ) π12 = (2.10) X2 1 Sottolineiamo che l'ultimo passaggio si basa sul fatto d'aver scelto dei piani π12 e π23 ottimali. Capitolo 2. Aspetti metrici: le distanze di Wasserstein 23 Z (2.11) δx2 ⊗ π23;2 dµ2 (x2 ) π23 = X2 (ove π12;2 π23;2 indicano le applicazioni da X2 in P(X1 ) e P(X3 ) rispettivamente secondo l'enunciato del lemma di disintegrazione) e prendere poi Z (2.12) (π12;2 ⊗ δx2 ⊗ π23;2 ) dµ2 (x2 ). π= X2 È infatti immediato a questo punto vericare che π abbia le proprietà richieste. 2.2 Ordinamenti tra misure di Wasserstein Meritano a questo punto d'essere menzionate (e saranno utilizzate in seguito) le proprietà di ordinamento delle misure di Wasserstein. Con questa espressione intendiamo quanto segue: 1. (2.13) 1 ≤ p ≤ q =⇒ Wp ≤ Wq da intendersi riferita a qualunque possibile coppia di probabilità sullo spazio polacco considerato X. Tale relazione è una ovvia conseguenza della disuguaglianza di Hölder. 2. p p 1 ≤ p ≤ q =⇒ Wq ≤ Wpq diam(X)1− q . (2.14) Per provare questa disuguaglianza è suciente maggiorare, nella denizione di Wq , d(x, y)q con d(x, y)p · (diam(X)q−p . Segue da questi punti il fatto che se lo spazio X su cui lavoriamo è limitato, nel senso che diam(X) < +∞, allora tutte le distanze di Wasserstein Wp per p ≥ 1 sono tra loro topologicamente equivalenti, cioè inducono su P(X) la stessa topologia. 2.3 Caratterizzazioni equivalenti della convergenza in metrica Wasserstein L'obbiettivo di questo paragrafo è di caratterizzare in modo più signicativo (ed utile per le applicazioni del prossimo capitolo) la convergenza secondo la metrica di Wasserstein. Assumeremo di lavorare su uno spazio polacco X, del quale la topologia sia indotta da una distanza d e considereremo gli spazi Pp (X) limitatamente ai casi p ≥ 1. Una teorema molto esaustivo a tal ne è il seguente (la cui formulazione è tratta da [31]: Teorema 2.3.1. Sia (µk ) una successione di misure di probabilità in Pp (X) e sia pure µ ∈ Pp (X). Allora sono equivalenti i seguenti asserti: 1. Wp (µk , µ) −→ 0 per k −→ ∞. Capitolo 2. Aspetti metrici: le distanze di Wasserstein 24 2. µk −→ µ in senso debole per k −→ ∞ e vale la seguente condizione (che nel seguito chiameremo di tensione): per un certo x0 ∈ X (e quindi per ciascun x0 ) Z lim lim sup R→∞ k→∞ d(x0 , x)p dµk (x) = 0. (d(x0 ,x)≥R 3. µk −→ µ in senso debole per k −→ ∞ e vale la seguente condizione di convergenza dei momenti p-esimi: per un certo x0 ∈ X (e quindi per ciascun x0 ) Z lim k→∞ d(x0 , x)p dµk = Z d(x0 , x)p dµ. 4. Per ogni funzione continua ϕ, che soddis una condizione di crescita |ϕ(x)| ≤ C · [1+d(x0 , x)p ] per una certa costante C ed un punto x0 di X, valga la convergenza: Z lim k→∞ Z ϕ(x) dµk (x) = ϕ(x) dµ(x). Prima di sviluppare la lunga dimostrazione del teorema precedente, pare opportuno fare alcune osservazioni. Osservazioni 2.3.2. • Nell'enunciato dei punti 2., 3. e 4. è di fatto equivalente utilizzare il quanticatore esistenziale ∃ oppure il quanticatore universale ∀, dal momento che servendosi della disuguaglianza triangolare per la distanza di Wasserstein è immediato provare che se esiste un punto x0 per il quale siano vericate l'una o l'altra di queste condizioni, allora necessariamente ciò sarà vero quale che sia il punto x0 ∈ X considerato. • Il valore del teorema precedente sta principalmente nel fornire una condizione di carattere metrico per la descrizione della convergenza debole. In eetti questa equivalenza vale - in accordo alla condizione 2. - solo per famiglie di elementi di Pp (X) le quali soddisno alla condizione di tensione lì indicata. Tuttavia se la distanza d è limitata, tale condizione è certamente vericata per cui in eetti sussiste una piena equivalenza tra la convergenza debole (rispetto a Cb ) e la convergenza metrica secondo la distanza di Wasserstein. Grazie a tale osservazione, dato un generico spazio polacco X e considerata la convergenza debole in P(X) si può sempre dire che essa deriva da una metrica semplicemente rimpiazzando d con una nuova distanza ad essa topologicamente equivalente e limitata (ad esempio si prenda d∗ = d/(1 + d)). • Il fatto di operare con la convergenza nella distanza di Wasserstein consente di beneciare appieno di una struttura metrica su P(X), per cui è ad esempio ovvio che se Wp (µk , µ) → 0 e Wp (νk , ν) → 0, allora necessariamente Wp (µk , νk ) → Wp (µ, ν), e di ciò ci serviremo tra poco. Dimostrazione. Seguiremo il seguente schema: 4. ⇒ 3. ⇒ 2. ⇒ 4. e successivamente faremo vedere l'equivalenza di 1. e 3. L'implicazione 4. ⇒ 3. è ovvia (stiamo considerando dei casi particolari). Per l'implicazione 3. ⇒ 2, basta combinare in modo opportuno i fatti seguenti: Capitolo 2. Aspetti metrici: le distanze di Wasserstein 25 • l'ipotesi di convergenza dei momenti p−esimi Z Z lim d(x0 , x)p dµk = d(x0 , x)p dµ (2.15) • la convergenza monotona delle troncate Z Z p lim [d(x0 , x) ∧ R] dµ = d(x0 , x)p dµ (2.16) • la relazione che segue dall'ipotesi di convergenza debole Z Z p lim [d(x0 , x) ∧ R] dµk = [d(x0 , x) ∧ R]p dµ (2.17) k→∞ R→∞ k→∞ per ottenere subito Z lim lim R→∞ k→∞ d(x0 , x)p − [d(x0 , x) ∧ R]p dµk = 0. (2.18) A questo punto si prenda ad esempio d(x0 , x) ≥ 2 · R per cui d(x0 , x)p − Rp ≥ (1 − 2−p )d(x0 , x)p e sostituendo nell'ultima relazione trovata si ha Z d(x0 , x)p dµk = 0. lim lim sup R→∞ k→∞ (2.19) d(x0 ,x)≥2R Vediamo ora l'implicazione 2. ⇒ 4.: data un'arbitraria funzione ϕ che soddis la condizione 4., non è lesivo di generalità (a meno di dividere parte positiva e parte negativa) assumere ϕ ≥ 0. A questo punto eseguiamo ancora una troncatura, scrivendo cioè (per R ≥ 1) ϕ(x) = ϕR (x) + ψR (x) (2.20) con ϕR (x) = min(ϕ(x), C(1 + Rp )). (2.21) Segue che: Z Z Z Z Z Z ϕ dµk − ϕ dµ ≤ ϕR dµk − ϕR dµ + ψR dµk − ψR dµ, (2.22) ma ora è immediato constatare che ψR (x) è sempre maggiorato da Cd(x0 , x)p χd(x0 ,x)≥R , per cui vale Z Z Z ψR dµk − ψR dµ ≤ C d(x0 , x)p [dµk + dµ]. (2.23) d(x0 ,x)≥R Si conclude passando prima al limite k → ∞ per ottenere Z Z Z lim sup ϕ dµk − ϕ dµ ≤ lim sup C k→∞ k→∞ d(x0 ,x)≥R d(x0 , x)p [dµk + dµ] (2.24) Capitolo 2. Aspetti metrici: le distanze di Wasserstein 26 e poi prendendo R → ∞ sì da avere 0 a secondo membro grazie all'ipotesi per il primo addendo ed al teorema di Lebesgue per il secondo. A questo punto non ci resta che provare l'equivalenza tra 1. e 3., che è in eetti la parte più signicativa della dimostrazione. 1. ⇒ 3. La condizione di convergenza dei momenti p−esimi è certamente vericataR in ragione dell'ultima delle osservazioni premesse a questa dimostrazione poichè R ( d(x0 , x)p dµ)1/p = Wp (µ, δx0 ) e ( d(x0 , x)p dµk )1/p = Wp (µk , δx0 ). Per la seconda parte, aermo anzitutto che non è lesivo di generalità assumere che la distanza d sia limitata. Infatti, sia d0 = inf(d, 1) ed indichiamo con Wp0 la corrispondente distanza di Wasserstein p−esima: mostreremo ora che assumendo vera la 3. e, supponendo di aver provato la 1. per Wp0 , si deduce subito anche la 1. per la distanza di Wasserstein Wp . Per fare ciò si considera la seguente disuguaglianza (di facile verica): d(x, y) ≤ d(x, y) ∧ R + 2d(x, x0 )χd(x,x0 )≥R/2 + 2d(y, x0 )χd(x0 ,y)≥R/2 (2.25) ed il suo corollario d(x, y)p ≤ Cp ([d(x, y)∧R]p +[2d(x, x0 )χd(x,x0 )≥R/2 ]p +[2d(y, x0 )χd(x0 ,y)≥R/2 ]p ), (2.26) ove Cp è una costante numerica che dipende solo da p. Sia poi πk un piano di trasporto ottimo tra µk e µ rispetto al costo di trasporto dp . Allora, non appena si abbia R ≥ 1, otteniamo sfruttando la relazione precedente (Wp (µk , µ))p = Z ≤ Cp Z Z p (2.27) d(x, y)p dπk d(x0 , x)p dπk (x, y) [d(x, y) ∧ R] dπk (x, y) + Cp d(x,x0 )≥R/2 Z d(x0 , y)p dπk (x, y) +Cp d(y,x0 )≥R/2 ≤ Cp R p (Wp0 (µk , µ))p +Cp Z Z p d(x0 , y)p dµ(y). d(x0 , x) dµk (x)+Cp d(x,x0 )≥R/2 d(y,x0 )≥R/2 Per concludere basta ora passare al limite prima per k → +∞ e poi per R → +∞ sfruttando l'ipotesi 3. Nel seguito di questa dimostrazione assumeremo dunque di operare con una distanza d limitata, diciamo d ≤ 1. Per quanto concerne la convergenza debole procediamo ora per passi: • Step 1-riduzione al caso p = 1: grazie alla proprietà 1. di ordinamento tra distanze di Wasserstein abbiamo che Wp (µk , µ) → 0 ⇒ W1 (µk , µ) → 0. • Step 2-funzioni 1-lipschitziane: circa la convergenza in W1 possiamo applicare il teorema di Kantorovich-Rubinstein per concludere Z sup X 1 1 ϕ d(µk − µ); ϕ ∈ L (µ) ∩ L (µk ); kϕkLip ≤ 1 −→ 0 (2.28) per k → ∞ sicchè la proprietà di convergenza debole è vericata per le funzioni 1-lipschitziane . Capitolo 2. Aspetti metrici: le distanze di Wasserstein 27 • Step 3-funzioni l-lipschitziane: è una banale conseguenza del passo precedente a patto di normalizzare ciascuna assegnata funzione lipschitziana per la sua kϕkLip . • Step 4-funzioni continue e limitate: si applica un procedimento di approssimazio- ne basato sul seguente lemma di topologia per spazi metrici: data una qualunque funzione continua e limitata esistono due successioni di funzioni (fn ) e (gn ) lipschitziane, uniformemente limitate e tali che puntualmente valga fn ↑ ϕ e gn ↓ ϕ. Allora Z lim sup Z Z ϕ dµk ≤ lim inf lim sup n→∞ k→∞ gn dµk = lim inf k→∞ n→∞ Z gn dµ = ϕdµ (2.29) ove l'ultima uguaglianza si ottiene applicando il teorema di Lebesgue. AnalogaR R mente, lim inf k→∞ ϕ dµk ≥ ϕ dµ e da ciò si ottiene la tesi. 3. ⇒ 1.: Ricordiamo dapprima che grazie a quanto discusso sopra, possiamo assumere che tutte le distanze di Wasserstein siano tra loro equivalenti sicchè ci si può ridurre ad operare con la W1 , per la quale sappiamo valere il teorema di Kantorovich-Rubinstein che consente di tradurre la 1. nella forma equivalente Z sup X ϕ d(µk − µ); kϕkLip ≤ 1 −→k→∞ 0. (2.30) Nella precedente, inoltre, possiamo assumere senza perdita di generalità che le funzioni ϕ siano limitate da 1 in valore assoluto (ciò è legittimato dal teorema di dualità stesso). Assumiamo dunque che valga µk * µ in senso debole e proviamo la 2.30 . Denotiamo con Lip1;x0 (X) l'insieme delle funzioni ϕ denite su X a valori reali, lipschitziane di costante al più 1 e tali che ϕ(x0 ) = 0 : è evidente che occorre e basta per ottenere la tesi mostrare che Z sup ϕ d(µk − µ) →k→∞ 0. (2.31) ϕ∈Lip1;x0 (X) A questo punto, grazie al teorema di Prohorov, sappiamo che µk * µ implica la condizione di tensione della µk , sicché esiste una successione di compatti Kn ⊆ X tali che supk µk (Knc ) ≤ 1/n e µ(Knc ) ≤ 1/n e questo ∀n ∈ N, con l'ulteriore proprietà che sia x0 ∈ K1 . Inoltre, per ogni n ∈ N, {ϕχKn |ϕ ∈ Lip1;x0 (X)} (2.32) è un sottinsieme di Lip1;x0 (Kn ) e, per il teorema di Ascoli-Arzelà è un sottinsieme compatto di Cb (Kn ) (rispetto alla usuale norma della convergenza uniforme). Ciò garantisce che per ogni valore di n, e per ogni successione in Lip1;x0 (X) si possa estrarre una sottosuccessione convergente uniformemente su Kn . Grazie ad un argomento diagonale, possiamo ora estrarre da ogni successione in Lip1;x0 (X) una sottosuccessione convergente su ciascun compatto Kn ad una funzione misurabile ϕ∞ , denita per incollamento su S = ∪Kn , la quale sarà in eetti limitata e lipschitziana, essendo la successione da cui siamo partiti uniformemente limitata ed uniformemente lipschitziana. Per applicare questa costruzione, consideriamo una successione (ϕk ) che verichi Capitolo 2. Aspetti metrici: le distanze di Wasserstein 28 la disuguaglianza Z Z ϕ d(µk − µ) ≤ sup ϕk d(µk − µ) + ϕ∈Lip1;x0 (X) 1 . k (2.33) Vi è dunque una sottosuccessione, che denotiamo ancora con (ϕk ), che converge, uniformemente su ogni compatto Kn , ad una funzione 1 − lipschitziana ϕ∞ denita su S = ∪Kn . È ora un fatto generale che una funzione 1−lipschitziana denita su un sottinsieme S di uno spazio metrico X possa essere estesa ad una funzione 1−lipschitziana su tutto X 2 : nel nostro caso estendiamo ϕ∞ a tutto X, ottenenendo una funzione che in particolare sarà continua e limitata R(perchè d stessa lo è). Per concludere la dimostrazione, non ci resta che provare che ϕk d(µk − µ) tende a 0 per k → ∞. Possiamo scrivere Z Z ϕk d(µk − µ) ≤ Kn Z (ϕk − ϕ∞ ) d(µk − µ) + c Kn (ϕk − ϕ∞ )d(µk − µ) Z + ϕ∞ d(µk − µ). (2.34) X Analizziamo ora uno per uno i tre addendi così ottenuti: il primo tende a 0 per k → ∞ in ragione della convergenza uniforme di ϕk verso ϕ∞ ; il secondo si maggiora con C(µk (Kn ) + µ(Kn )) ≤ 2C/n dove C è una costante che maggiori tutte le ϕk e pure la ϕ∞ . Inne il terzo va a 0 grazie all'ipotesi di convergenza debole µk * µ. Non resta allora che prendere prima il limite per n → ∞ e poi per k → ∞ ottenere la tesi. Concludiamo questo capitolo enunciando una proprietà di semicontinuità della distanza di Wasserstein della quale ci serviremo nel prossimo capitolo. Teorema 2.3.3. Siano µ1n e µ2n due successioni di probabilità in Pp (X) convergenti in senso debole (ovvero nella dualità con Cb ) a µ1 edR a µ2 rispettivamente e sia πn ∈ Γo (µ1n , µ2n ) una successione di piani ottimali tali che X×X dp (x1 , x2 ) dπn sia limitata. Allora (πn ) è relativamente compatta rispetto alla convergenza debole in P(X × X) ed ogni suo punto limite π appartiene a Γo (µ1 , µ2 ), con Z Wp (µ1 , µ2 ) = dp (x1 , x2 ) dπ(x1 , x2 ) (2.35) X×X Z ≤ lim inf n→∞ dp (x1 , x2 ) dπn (x1 , x2 ) = lim inf Wp (µ1n , µ2n ). X×X n→∞ (2.36) La dimostrazione di questo risultato, che si richiama ampiamente agli argomenti utilizzati per il teorema di esistenza 1.2.3, si può trovare, ad esempio, in [1] . 2 Si tratta del ben noto teorema di McShane. Capitolo 3 Equazione di Monge-Ampère 3.1 Presentazione Scopo di questo capitolo è la presentazione dell'equazione di Monge-Ampère e la dimostrazione di un importante risultato, dovuto a McCann [21] del quale sarà fatto uso frequente in seguito. Il problema che soggiace alle questioni varie che ci stiamo per porre nei prossimi paragra è lo studio della regolarità delle mappe di trasporto. Sappiamo infatti che queste, in certe ipotesi, esistono, sono uniche e sono descrivibili come gradienti di funzioni convesse, ma non molto di più. Per indagare questo aspetto è opportuno introdurre l'equazione di Monge-Ampère. Siano dunque µ, ν due misure di probabilità su Rn , assolutamente continue rispetto alla misura di Lebesgue e perciò aventi densità rispetto a questa che indichiamo con f e g rispettivamente. Dal Teorema 1.5.5, sappiamo che esiste µ-q.o. un unico gradiente di funzione convessa ∇ϕ, tale che in particolare per tutte le funzioni test ζ ∈ Cb (Rn ) si abbia Z Z ζ(y)g(y) dy = ζ(∇ϕ(x))f (x) dx. (3.1) Rn Rn Se ora assumiamo che ∇ϕ sia smooth (diciamo almeno di classe C 1 ) ed iniettiva (cosa che in eetti è vera se ϕ è strettamente convessa), possiamo fare un cambio di variabile a primo membro della (3.1), sì da ottenere Z Z ζ(y)g(y) dy = Rn ζ(∇ϕ)g(∇ϕ) det D2 ϕ(x) dx. Rn (3.2) Confrontando ora (3.1) con (3.2), abbiamo, in ragione dell'arbitrarietà di ζ f (x) = g(∇ϕ(x)) det D2 ϕ(x) , (3.3) la quale equazione, se g è positiva, si può anche scrivere nella forma det D2 ϕ(x) = f (x) . g(∇ϕ(x)) (3.4) La precedente non è che un caso particolare dell'equazione di Monge-Ampere in forma generale det D2 ϕ(x) = F (x, ϕ(x), ∇ϕ(x)). (3.5) Lo studio di questo tipo di equazioni ha ormai una lunga storia e si è grandemente sviluppato, anche di recente, in ragione del loro frequente ricorso in vari problemi 29 Capitolo 3. Equazione di Monge-Ampère 30 di geometria riemanniana. A titolo puramente esemplicativo, considerando una 2varietà embedded in R3 e descrivibile come graco cartesiano dell'applicazione smooth ϕ : R2 → R si trova che la curvatura gaussiana di questa nel punto (x, ϕ(x)) è data da K(x) = det D2 ϕ(x) 2 (1 + |∇ϕ(x)| )2 (3.6) cosicchè il problema di costruire una supercie-graco con curvatura gaussiana assegnata in ogni punto da una funzione κ(x) è ricondotto allo studio dell'equazione di Monge-Ampère 2 det D2 ϕ(x) = κ(x)(1 + |∇ϕ(x)| )2 . (3.7) In eetti, questa situazione si presenta in dimensione arbitraria ed è generalizzata dallo studio delle equazioni di curvatura k-esima assegnata, di notevole rilevanza negli ultimi anni, principalmente ad opera di Urbas. 3.2 Un approccio tramite linearizzazione Come vedremo in seguito, lo studio in piena generalità dei problemi di regolarità connessi all'equazione di Monge-Ampère è oltremodo complicato e, ad oggi, è stato portato a termine solo nel caso di costo quadratico in Rn . Tuttavia, vi sono dei casi nei quali si possono ottenere risultati interessanti con molto minor sforzo ed uno di questi si ha quando la mappa ∇ϕ sia una piccola perturbazione dell'identità. Supponiamo cioè di poter scrivere 2 ϕ(x) = ϕ (x) = |x| + ψ + O(2 ), 2 (3.8) per una qualche ψ da determinare (e della quale vorremo poi studiare la regolarità) e g(x) = g (x) = (1 + h(x) + O(2 ))f (3.9) per una funzione h nota. Inserendo le precedenti nella (3.3) e sviluppando tutti i termini al primo ordine, ci si riconduce all'equazione per ψ data da Lψ = h (3.10) L = −∆ + h∇(− log f ), ∇i . (3.11) ove si è posto Questa operazione di linearizzazione, ha dunque trasfomato l'equazione di MongeAmpère per il problema del trasporto, in un'equazione lineare ellittica del secondo ordine, ovvero della forma X i,j aij X ∂ϕ ∂2ϕ + ai + cϕ = h, ∂xi ∂xj ∂xi i (3.12) per le quali sappiamo esistere una teoria ben sviluppata ([16]). In particolare, se f è strettamente positiva ed inoltre f ed h sono smooth, allora pure ψ lo è. In ogni caso, lo studio del problema nella sua forma più generale è assai dicile. Capitolo 3. Equazione di Monge-Ampère 31 3.3 Varie nozioni di soluzione debole Nel ricavare l'equazione (3.3) abbiamo fatto uso della usuale formula di cambio variabile, assumendo cioè che la mappa di trasporto ∇ϕ fosse di classe C 1 e dunque che ϕ fosse di classe C 2 . Tuttavia, questo non è noto a priori e pertanto è opportuno sviluppare delle tecniche per studiare l'equazione di Monge-Ampère senza questa supposizione. Si pone anzitutto il problema di dar senso a tale equazione. Sappiamo infatti, dal teorema di Brenier che ϕ è convessa, perciò continua e localmente lipschitziana, ma non necessariamente derivabile due volte. In primo luogo va allora denita la quantità det D2 ϕ(x), senza alcuna assunzione di regolarità a priori. Questa necessità conduce direttamente a denire varie nozioni di soluzione debole. 1. Soluzioni secondo Aleksandrov: questa nozione è riferita al concetto di misura hessiana associata a ϕ. Questa è una misura di Borel denita come segue: per ogni insieme misurabile E ⊂ Rn , poniamo det D2 ϕ(E) := |∂ϕ(E)| H ove ∂ϕ(E) := [ ∂ϕ(x). (3.13) (3.14) x∈E Diremo allora che una funzione ϕ è soluzione di (3.5) secondo Aleksandrov se la misura detH D2 ϕ è assolutamente continua rispetto alla misura di Lebesgue ed inoltre la relativa densità è data dal membro destro della (3.5). Ci limitiamo ad enunciare il fatto che quanto appena detto equivale a chiedere che detH D2 ϕ non abbia parte singolare e valga l'equazione di Monge-Ampère per ϕ con detA D2 ϕ in luogo di det D2 ϕ. 2. Soluzioni di viscosità: si tratta di una nozione a posteriori equivalente alla precedente, ma che può risultare più utile in varie situazioni. La denizione non è unicamente inerente l'equazione di Monge-Ampère, ma è la specicazione di una classe di soluzioni utile nello studio delle equazioni alle derivate parziali. Diremo dunque che una funzione ϕ, denita su un insieme aperto Ω ⊂ Rn è soluzione di viscosità dell'equazione (3.5) se valgono le condizioni seguenti: • ogni volta che ψ è una funzione test di classe C 2 tale che ϕ − ψ abbia un punto di massimo locale stretto, si ha det D2 ψ(x0 ) ≥ F (x0 , ϕ(x0 ), ∇ψ(x0 )); • ogni volta che ψ è una funzione test di classe C 2 tale che ϕ − ψ abbia un punto di minimo locale stretto, si ha det D2 ψ(x0 ) ≤ F (x0 , ϕ(x0 ), ∇ψ(x0 )). 3. Soluzioni secondo Brenier: questa nozione è strettamente più debole e non si applica alla forma più generale delle equazioni di Monge-Ampère, bensì solo alle equazioni di tipo (3.3) oppure (3.4). Per denizione, ϕ è soluzione dell'equazione (3.4) se vale ∇ϕ] µ = ν con µ e ν misure di probabilità denite da densità f e g rispettivamente. Osservazioni 3.3.1. • Non è dicile dimostrare che se ϕ è dierenziabile due volte con continuità, allora le tre nozioni precedentemente fornite sono tra loro equivalenti ed equivalgono alla soluzione di Monge-Ampère nel senso standard. Capitolo 3. Equazione di Monge-Ampère 32 • Come anticipato sopra, è possibile costruire semplici esempi di soluzioni dell'e- quazione di Monge-Ampère secondo Brenier, ma non secondo Aleksandrov. Ciò avviene quando la misura hessiana detH D2 ϕ ha parte singolare rispetto alla misura di Lebesgue. 3.4 Regolarità In questa sezione arriveremo alla dimostrazione del teorema di McCann, cui si è fatto cenno sopra. Assumeremo sempre µ e ν essere due misure di probabilità su Rn assolutamente continue rispetto alla misura di Lebesgue, con densità rispettivamente f e g. Dobbiamo anzitutto richiamare un risultato importante. Teorema (Lebesgue) 3.4.1. Sia dato un aperto Ω ⊂ Rn e sia µ una misura sulla corrispondente σ-algebra boreliana tale che µ(K) < +∞ per ogni sottinsieme compatto K di Ω. Supponiamo inoltre µ scomposta secondo Lebesgue nella forma (3.15) µ = µa + µs con µa Ln ed avente densità f (x), x ∈ Ω e µs ⊥Ln . Allora • Per q.o. x ∈ Rn , µ(Br (x)) → f (x) |Br (x)| (3.16) per r → 0. I punti per i quali vale tale proprietà si dicono punti di Lebesgue per µ (ovvero per f ). • L'asserto precedente rimane vero se si rimpiazzano le palle Br con una famiglia di insiemi (Ck )k∈N tali che Ck = {x} esistano due famiglie di palle (Bk ) e (Bk0 ) a guisa che Bk ⊂ Ck ⊂ Bk0 T ed i rapporti |Bk | /Bk0 siano limitati dal basso da una costante positiva ed indipendente da k. Forniamo ora un utile lemma. Lemma(Push-forward in termini di sottodierenziale) 3.4.2. • Sia ϕ : Rn → R una funzione convessa e sia µ una misura su Rn assolutamente continua rispetto alla misura di Lebesgue. Allora per ogni insieme di Borel A ∈ B(Rn ), ∇ϕ] µ(A) = µ(∂ϕ∗ (A)). • (3.17) Assumendo inoltre che la misura ν = ∇ϕµ sia pure assolutamente continua rispetto alla misura di Lebesgue e che f e g siano le densità di µ e ν rispettivamente, avremo che per ogni A ∈ B(Rn ), Z Z g(y) dy = ∂ϕ(A) f (x) dx. A (3.18) Capitolo 3. Equazione di Monge-Ampère 33 Dimostrazione. Osserviamo anzitutto che insiemisticamente vale ∂ϕ∗ (A) ⊇ ∇ϕ−1 (A). Infatti, si ha che ∇ϕ(x) = y ⇒ x ∈ ∂ϕ∗ (y) (cfr. Appendice A, Teorema A.2.3). Allora, dato che µ Ln è suciente provare che l'insieme (3.19) Z = ∂ϕ∗ (A) \ (∇ϕ)−1 (A) ha misura nulla secondo Lebesgue in Rn . D' altro canto, aermo però Z è contenuto nell'insieme dei punti in cui ϕ non è dierenziabile e quindi - come sappiamo - in un insieme di misura nulla. Per mostrare questo Ansatz, si noti che se z ∈ ∂ϕ∗ (A), allora esiste x ∈ A tale che z ∈ ∂ϕ∗ (x), cosa che implica x ∈ ∂ϕ(z). Ora, se z è un punto di dierenziabilità per ϕ, allora necessariamente ∇ϕ(z) = x ∈ A, cosicchè z ∈ (∇ϕ)−1 (A) e questo assicura quanto detto. La parte 1. del Lemma è così provata. Per la parte 2. è suciente ricordare che se ν è assolutamente continua, allora ∇ϕ∗] ν = µ (è il Teorema 1.5.3 parte 4.) ed applicare quanto appena mostrato: Z f (x) dx = µ(A) = ∇ϕ∗] ν(A) = ν (∇ϕ∗ )−1 (A) = ν(∂A) = A Z g(y) dy. (3.20) ∂A Siamo ora in grado di enunciare il seguente fondamentale risultato, dovuto a McCann ([21]): Teorema 3.4.3. Siano µ e ν due misure di probabilità su Rn assolutamente continue rispetto alla misura di Lebesgue ed aventi densità f e g rispettivamente e sia ϕ una funzione convessa tale che ∇ϕ] µ = ν con Ω =Int(Dom(ϕ)). Indicando con det DA2 ϕ il determinante della matrice hessiana di ϕ nel senso di Aleksandrov (che ricordiamo essere una funzione ben denita q.o., non negativa di L1loc (Ω),) sia poi M ⊂ Ω l'insieme dei punti ove DA2 ϕ è denita, invertibile e che sono anche punti di Lebesgue per la funzione det DA2 ϕ. Allora 1. M ha misura piena per µ e ∂ϕ(M ) ha misura piena per ν. 2. La misura det DA2 ϕ(x)dx coincide con la parte assolutamente continua della misura hessiana detH D2 ϕ, è concentrata in M e soddisfa la formula di push-forward 2 ∇ϕ] det DA ϕ(x)dx = 1∂ϕ(M ) dx. (3.21) 3. Per q.o. x ∈ Rn vale l'equazione di Monge-Ampère 2 det DA ϕ(x)g(∇ϕ(x)) = f (x). (3.22) 4. Per ogni funzione U misurabile non negativa su R+ tale che U (0) = 0, Z Z U (g(y)) dy = Rn Dimostrazione. U( Rn f (x) 2 2 ϕ(x) ) det DA ϕ(x) dx. det DA • Step 1: il teorema di Lebesgue è applicabile a detH D2 ϕ. (3.23) Capitolo 3. Equazione di Monge-Ampère 34 In ragione della convessità di ϕ, abbiamo che per ogni compatto K ⊂ Ω vale det D2 ϕ(K) = |∂ϕ(K)| < +∞ H (3.24) per cui siamo nelle ipotesi del teorema di Lebesgue, che dunque applicheremo in seguito. 2 • Step 2: la densità della parte a.c. della misura hessiana è det DA ϕ. Grazie al teorema di Aleksandrov (Teorema A.3.2) sappiamo che det DA2 ϕ è ben denita q.o., inoltre sfruttando lo Step 1 ed il teorema di Lebesgue, occorre e basta mostrare che per q.o. x ∈ Ω detH D2 ϕ(Br (x)) 2 → det DA ϕ(x) |Br (x)| (3.25) ovvero equivalentemente ∂ϕ(Br (x)) 2 → det DA ϕ(x) |Br (x)| (3.26) sempre per r → 0. Ma noi sappiamo già che questo fatto è vero (cfr. Appendice A, Teorema A.3.3) e dunque la prima parte di 2. è provata. • Step 3: completamento dimostrazione di 1. Poichè (Step 1) detH D2 ϕ è localmente nita, si avrà a maggior ragione che det2A ϕ è localmente integrabile ed inoltre sappiamo che quasi tutti i punti in Ω sono punti di densità per det2A ϕ. Per provare che M ha misura piena per µ, ricordiamo (cfr. Appendice A) che l'insieme dei punti x ove DA2 ϕ(x) non è invertibile è incluso in 2 ∗ ∂ϕ∗ (C), avendo indicato con C l'insieme degli y in Dom(ϕ∗ ) per i quali DA ϕ (y) non è denito. Per il teorema di Aleksandrov, l'insieme C ha misura zero secondo Lebesgue. Dato che ∇ϕ∗] ν = µ e µ e ν sono assolutamente continue, possiamo applicare il Lemma 3.4.2 per concludere µ(∂ϕ∗ (C)) = ν(C) = 0. Quindi M è di misura piena per µ. Applicando ancora il Lemma 3.4.2 abbiamo altresì ν(∂ϕ(M )) = µ(M ) = 1. • Step 4: seconda parte di 2. A parte un insieme che sappiamo già essere trascurabile, la misura λ = det DA2 ϕLn ha su Ω \ M densità det DA2 ϕ = 0 (dato che stiamo considerando i punti x ove la matrice DA2 ϕ(x) non è invertibile) e quindi λ è concentrata su M. • Step 5: la misura ∇ϕ] λ è a.c. Sia A ⊂ ∂ϕ(M ) con |A| = 0. Sappiamo che l'esistenza di DA2 ϕ(x) implica l'esistenza di ∇ϕ(x) e quindi ϕ è dierenziabile in ogni punto di M per cui ricordando che ∂ϕ(x) = {∇ϕ(x)} in tutti i punti in cui ϕ è dierenziabile, possiamo scrivere ∇ϕ] λ(A) = λ((∇ϕ)−1 (A)) ≤ det D2 ϕ((∇ϕ)−1 (A)) (3.27) = ∂ϕ(∇ϕ)−1 (A) = ∇ϕ(∇ϕ)−1 (A) = |A| = 0. (3.28) H Capitolo 3. Equazione di Monge-Ampère 35 • Step 6: formula per la densità di ∇ϕ] λ. Per concludere la dimostrazione della parte 2., rimane solo da mostrare che la densità di ∇ϕ] λ, in q.o. y ∈ ∂ϕ(M ), ha valore 1. Sia perciò y ∈ ∂ϕ(M ): sappiamo che esiste x ∈ M tale che y = ∇ϕ(x); e dato che x ∈ M, per denizione di tale insieme, avremo che la matrice DA2 ϕ(x) è ben denita ed invertibile. Inoltre (cfr. Appendice A) −1 |∂ϕ∗ (Br (y))| 2 → det DA ϕ(x) |Br (y)| (3.29) per r → 0 e possiamo trovare una successione (rk )k∈N convergente a 0, e palle (Bk ), (Bk0 ) a guisa che Bk ⊂ ∂ϕ∗ (Brk ) ⊂ Bk0 con |Bk | / |Bk0 | limitato dal basso. È dunque applicabile il teorema di Lebesgue alla funzione di classe L1loc det DA2 ϕ in riferimento alla successione di insiemi ∂ϕ∗ (Brk ); dato che per costruzione x è un punto di Lebesgue per det DA2 ϕ, 1 |∂ϕ∗ (Brk (y))| Z 2 2 det DA ϕ(x) dx → det DA ϕ(x), ∂ϕ∗ (Brk (y)) (3.30) per k → +∞. Moltiplicando tra di loro le due relazioni appena ottenute ed usando l'identità ∇ϕ] λ(A) = λ(∂ϕ∗ (A)) (conseguente dal lemma 3.4.2), troviamo ∇ϕ] λ(Brk (y)) →1 |Brk (y)| (3.31) per rk → 0. Questa costruzione è chiaramente valida per q.o. y ∈ ∂ϕ(M ), sicché la densità della misura ∇ϕ] λ è identicamente uguale ad 1 su ∂ϕ(M ). • Step 7: validità quasi ovunque dell'equazione di Monge-Ampère. Dato un insieme di Borel A in Rn , abbiamo in conseguenza di 2., Z Z g(y) dy = ∂ϕ(A) Z χy∈∂ϕ(A) g(y) dy 2 χ∇ϕ(x)∈∂ϕ(A) g(∇ϕ(x)) det DA ϕ(x) dx. = (3.32) ∂ϕ(M ) (3.33) M Se ora x ∈ M, la matrice DA2 ϕ(x) è invertibile e perciò ϕ∗ è dierenziabile due volte nel punto ∇ϕ(x). Segue che l'insieme ∂ϕ∗ (∇ϕ(x)) è ridotto al solo elemento {x} ed inoltre non può accadere che x0 6= x soddis ∇ϕ(x) = ∇ϕ(x0 ). In particolare, ∇ϕ(x) ∈ ∂ϕ(A) è equivalente ad x ∈ A e quindi Z Z 2 g(∇ϕ(x)) det DA ϕ(x) dx. g(y) dy = ∂ϕ(A) (3.34) A∩M D'altro canto λ è concentrata in M, indi in eetti Z Z g(y) dy = ∂ϕ(A) A 2 g(∇ϕ(x)) det DA ϕ(x) dx. (3.35) Capitolo 3. Equazione di Monge-Ampère 36 Combinando inne questo risultato con la parte 2. del Lemma 3.4.2. troviamo Z Z 2 g(∇ϕ(x)) det DA ϕ(x) dx f (x) dx = A (3.36) A e per l'arbitrarietà di A abbiamo la tesi. • Step 8: formula di cambio variabile (parte 4.) Dalla parte 2., sappiamo che Z Z 2 U (g(∇ϕ(x))) det DA ϕ(x) dx. U (g(y)) dy = ∂ϕ(M ) (3.37) M Ma per q.o. x ∈ M, possiamo scrivere grazie alla parte 3. ed all'invertibilità di 2 DA ϕ, g(∇ϕ(x)) = f (x) 2 ϕ(x) det DA (3.38) e di conseguenza Z Z U (g(y)) dy = ∂ϕ(M ) U( M f (x) 2 2 ϕ(x) ) det DA ϕ(x) dx. det DA (3.39) Del resto, è già stato provato che M è di misura piena per λ e dunque l'integrale a secondo membro può essere esteso a tutto Rn . Stessa cosa dicasi per il primo membro, dato che ∂ϕ(M ) è di misura piena per ν, cosa che implica g(y) = 0 e per la nostra ipotesi U (g(y)) = 0 per q.o. y ∈ (∂ϕ(M ))c . Questo conclude la dimostrazione della parte 4. e di tutto il teorema. Benché nei prossimi capitoli ci serviremo solo del Lemma 3.4.2 e del Teorema 3.4.3, pare opportuno citare un altro risultato, dovuto a Caarelli, che riguarda le soluzioni dell'equazione di Monge-Ampère nel senso di Aleksandrov. Il Teorema 3.4.3 non ci dà alcuna informazione riguardo la parte singolare della misura hessiana e quindi non assicura che ϕ sia soluzione dell'equazione di Monge-Ampère secondo Aleksandrov. In eetti, sappiamo che se il supporto di ν non è convesso, questo non è vero in generale. Teorema 3.4.4. Siano µ e ν due misure di probabilità su Rn , assolutamente continue rispetto alla misura di Lebesgue, con densità f e g e supporti X ed Y rispettivamente. Sia poi ϕ una funzione convessa tale che ∇ϕ] µ = ν. Assumiamo che Y sia convesso e che g sia positiva q.o. in Y. Allora la misura hessiana detH D2 ϕ non ha parte singolare in X e quindi, in queste ipotesi, ϕ risolve l'equazione di Monge-Ampère nel senso di Aleksanrov. Dimostrazione. In base alla denizione stessa di misura hessiana ci basta mostrare l'implicazione |N | = 0 ⇒ |∂ϕ(N )| = 0, (3.40) per ogni insieme misurabile N ⊂ X. Sia perciò N un sottinsieme di X di misura nulla; Capitolo 3. Equazione di Monge-Ampère 37 grazie alla parte 2. del Lemma 3.4.2 sappiamo che Z Z g(y) dy = ∂ϕ(N ) f (x) dx = 0. (3.41) N D'altra parte sappiamo dal Teorema 1.5.3 che ∇ϕ(X) ⊂ Y, cosa che implica ∂ϕ(N ) ⊂ Conv(Y ) = Y, (3.42) in base all'assunzione di convessità del supporto di ν. Poichè assumiamo altresì che g sia positiva q.o. in Y, dobbiamo concludere dalla (3.41) che |∂ϕ(N )| = 0. Segue che la misura hessiana di ϕ è eettivamente assolutamente continua rispetto alla misura di Lebesgue e la conclusione viene perciò dalla parte 3. del teorema precedente. Capitolo 4 Geodetiche e convessità 4.1 Geodetiche in spazi metrici ed interpolazione à la McCann Cominciamo con la seguente Denizione 4.1.1. Sia (S, d) uno spazio metrico. Chiameremo geodetica a velocità costante in S un'applicazione ϕ : [0, 1] → S vericante la condizione d(ϕ(s), ϕ(t)) = |s − t| d(ϕ(0), ϕ(1)) ∀s, t ∈ [0, 1] . (4.1) Come osservazione banale, si noti che la condizione (4.1) implica in particolare che una geodetica a velocità costante sia una curva continua. In questa tesi, siamo interessati al caso in cui S = Pp (X) (al solito, abbiamo X spazio di Hilbert separabile e p > 1) con la sua metrica naturale, ovvero Wp . Ci si può domandare se questa nozione sia in qualche modo utile, ovvero se sia correlata alle nozioni sviluppate n qui. A tale domanda rispondiamo ora: Teorema 4.1.2. Se µ0 , µ1 ∈ Pp (X) e γ ∈ Γo (µ0 , µ1 ), allora la curva t 7→ µt = è una geodetica a velocità costante tra µ0 e µ1 . A livello di notazione, abbiamo considerato per maggior chiarezza X ×X come prodotto di due copie con label distinti X1 ed X2 dello spazio X con proiezioni π 1 : X ×X → X1 e π 2 : X × X → X2 . Poichè sappiamo che piani ottimali secondo Kantorovich esistono sempre, il teorema precedente può essere interpretato come un teorema di esistenza di geodetiche a velocità costante in Pp (X). Per provarlo, premettiamo il seguente semplice lemma, di utilità ricorrente. Lemma (Stime dall'alto per Wp ) 4.1.3. Siano (X1 , d1 ) e (X2 , d2 ) spazi metrici polacchi, sia µ una probabilità sulla σ−algebra di Borel di X1 e siano r, s due applicazioni X1 → X2 µ-misurabili. Allora ((1 − t)π1 + tπ2 )] γ Wp (r] µ, s] ν) ≤ d2 (r, s)Lp (X1 ,µ) . (4.2) Dimostrazione. Sia γ = (r, s] µ) la probabilità su X2 × X2 ottenuta come immagine di µ tramite la coppia (r, s) sicchè γ ∈ Γ(r] (µ), s] (µ)). Pertanto, integrando rispetto all'immagine e ricordando la denizione di distanza di Wasserstein abbiamo Z d2 (r, s)Lp (X1 ,µ) = 1 (d(z, w))p dγ(z, w) p ≥ Wp (r] µ, s] µ). X2 ×X2 38 (4.3) Capitolo 4. Geodetiche e convessità 39 Ora dimostriamo il Teorema 4.1.2 Dimostrazione. Aermo che per provare la tesi occorre e basta mostrare che vale per la nostra µt la disuguaglianza larga Wp (µs , µt ) ≤ |s − t| Wp (µ0 , µ1 ). (4.4) Se infatti esistessero istanti di tempo s? , t? vericanti la disuguaglianza stretta, otterremmo immediatamente un assurdo servendoci della proprietà triangolare per Wp . Ma la (4.4) discende subito dal lemma precedente applicato agli spazi (X × X, γ) in partenza ed X in arrivo. Sappiamo però che, almeno in generale, gli insiemi Γo (µ0 , µ1 ) contengono più di un elemento e pertanto, date due misure µ0 e µ1 la costruzione precedente consente di ottenere varie geodetiche distinte tra queste. Per giungere ad un teorema generale di classicazione, dobbiamo far ricorso al seguente lemma, la cui dimostrazione si trova ad esempio in [1]. Premettiamo alcune notazioni: se µ ∈ P(X N ), N ≥ 2, 1 ≤ i, j, k ≤ N, e t ∈ [0, 1] poniamo • π i (x) := xi : X N → X, • π i,j (x) := (xi , xj ) : X N → X 2, • πti→j := (1 − t)π i + tπ j : X N → X, • πti→j,k := (1 − t)π i,k + tπ j,k : X N → X 2, • µi→j := (πti→j )] µ ∈ P(X), t • µi→j,k := (πti→j,k )] µ ∈ P(X 2 ). t Lemma (Regolarità interna) 4.1.4. Sia (µt )t∈[0,1] una geodetica a velocità costante in Pp (X) e sia t ∈ (0, 1) . Allora l'insieme Γo (µt , µ1 ) (risp. Γo (µ0 , µt )) consiste di un solo elemento µt1 (risp. µ0t ) e tale piano (risp.µ0t ) è indotto da un trasporto. Inoltre µ = µt1 ◦ µ0t ∈ Γo (µ0 , µ1 ) e si ha µ0t = (πt1,1→2 )] µ, µt1 = (πt1→2,2 )] µ. (4.5) Forti di questo risultato, siamo ora in grado di fornire una sorta di inverso del Teorema 4.1.2, ovvero un teorema di caratterizzazione delle geodetiche in Pp (X). Teorema 4.1.5. Data comunque una geodetica a velocità costante ηt : [0, 1] → Pp (X) che connette due probabilità µ0 := η0 e µ1 := η1 , esiste un piano ottimale µ ∈ Γo (µ0 , µ1 ) per il quale (ηt )t∈[0,1] ammetta la rappresentazione descritta sopra ovvero ηt = (πt1→2 )] µ = µ1→2 t (4.6) e tale µ può essere costruita a partire da un qualunque punto unterno ηt , 0 < t < 1 della geodetica, come nel lemma precedente. Capitolo 4. Geodetiche e convessità 40 Dimostrazione. Fissato comunque un istante di tempo t ∈ (0, 1) applichiamo la costruzione del lemma precedente: troviamo µ0t ∈ Γo (µ0 , µt ), µt1 ∈ Γo (µt , µ1 ), da cui µ ∈ Γo (µ0 , µ1 ) per composizione. Verichiamo ora che ηt è rappresentabile tramite µ nel senso già spiegato, separatamente per i casi 0 ≤ (·) < t e t < (·) ≤ 1. Sviluppiamo la dimostrazione per il primo caso, essendo il secondo identico. Consideriamo tra µ0 e µt le due curve [0, 1] 3 s → µst e (πs1→2 )] µ0t : è immediato constatare che sono entrambe geodetiche a velocità costante e, per la parte di unicità del lemma precedente, devono coincidere. Quindi vale la catena di uguaglianze: 1→2 µst = (πs1→2 )] µ0t = (πs1→2 ◦ πt1,1→2 )] µ = (πst )] µ (4.7) ove la seconda uguaglianza discende ancora dal lemma precedente e la terza dalla proprietà di composizione del push-forward e da una banale manipolazione algebrica. Abbandoniamo ora questo setting piuttosto generale, per studiare più nel dettaglio le geodetiche congiungenti probabilità assolutamente continue rispetto alla misura di Lebesgue nello spazio euclideo Rn . Siano dunque µ, ν Ln due misure di probabilità in P2 (Rn ). Il teorema di Brenier assicura allora l'esistenza di una funzione convessa ϕ il cui gradiente, determinato univocamente µ-q.o. verica ∇ϕ] µ = ν. Possiamo dunque servirci del piano (id, ∇ϕ)] µ per costruire una geodetica a velocità costante tra µ e ν, la quale tuttavia assume in questo caso la forma particolare ηt = [(1 − t)Id + t∇ϕ]] µ. (4.8) Poichè valgono le ovvie proprietà η0 = µ ed η1 = ν, la curva (ηt )t∈[0,1] può essere considerata, ancor prima che una geodetica a velocità costante, una curva interpolante µ e ν in P2 (X). Denizione 4.1.6. Nel setting appena esposto chiameremo interpolazione à la McCann tra µ e ν la curva in P2 (Rn ) denita da 4.8 ovvero [0, 1] 3 t → [(1 − t)Id + t∇ϕ]] µ ed useremo, a questo proposito, la notazione ([µ, ν]t )t∈[0,1] . Questa denominazione si riferisce all'autore dell'articolo dove, per la prima volta, questa tecnica veniva utilizzata(cfr.[21]). Elenchiamo ora, nella proposizione seguente, le principali proprietà dell'interpolazione à la McCann. Teorema 4.1.7. Con la notazione descritta sopra, abbiamo che 1. ∀t ∈ [0, 1] W2 (µ, ηt ) = tW2 (µ, ν) e, più in generale, ∀s, t ∈ [0, 1] W2 (ηt , ηs ) = |t − s| W2 (µ, ν); 2. [µ, ν]t = [ν, µ]1−t ; 3. [[µ, ν]t , [µ, ν]t0 ]s = [µ, ν](1−s)t+st0 ; 4. [µ, ν]t Ln ∀t ∈ (0, 1). Capitolo 4. Geodetiche e convessità 41 Dimostrazione. La parte 1. discende dal Teorema 4.1.2. Per la parte 2. basta osservare che [µ, ν]t = ((1 − t)Id + t∇ϕ)] µ (4.9) = ((1 − t)Id + t∇ϕ)] (∇ϕ∗] ν) (4.10) = [((1 − t)Id + t∇ϕ) ◦ ∇ϕ∗ ]] ν (4.11) = ((1 − t)∇ϕ∗ + tId)] ν. (4.12) La parte 3. è un calcolo immediato. Vediamo inne la dimostrazione della parte 4.: deniamo 2 |x| ϕt (x) = tϕ(x) + (1 − t) , (4.13) 2 e notiamo che 2 h∇ϕt (x) − ∇ϕt (y), x − yi ≥ (1 − t) |x − y| , (4.14) dalla quale, per mezzo della disuguaglianza di Cauchy-Schwarz |ϕt (x) − ϕt (y)| ≥ (1 − t) |x − y| . (4.15) Dato che ϕt è uniformemente convessa, la sua trasformata di Legendre ϕ∗t è dierenziabile ovunque e dalla (4.15) deduciamo che ∇ϕ∗t = (∇ϕt )−1 è lipschitziana con costante minore di (1 − t)−1 . In particolare, se A ha misura nulla secondo Lebesgue, allora pure ∇ϕ∗t (A) ha misura nulla secondo Lebesgue. Possiamo perciò scrivere, servedoci del lemma già visto che esprime il push-forward in termini di sottodierenziale (Lemma 3.4.2) ηt (A) = µ(∂ϕ∗t (A)) = µ(∇ϕ∗t (A)) = 0 e questa è la tesi. 4.2 Displacement convexity 4.2.1 Denizioni Questa sezione, di fondamentale importanza per le applicazioni del prossimo capitolo, è dedicata allo studio delle proprietà di convessità di funzionali lungo le geodetiche dei nostri spazi di misure di probabilità, in un senso che chiariamo ora. Denizioni 4.2.1. Un sottinsieme P ⊆ P2 (Rn ) si dirà geodeticamente convesso se per ogni coppia di misure di probabilità µ0 , µ1 ∈ P2 (Rn ) esiste una geodetica a velocità costante congiungente µ0 eTµ1 ed interamente contenuta in P. Ciò è equivalente, qualora P ⊆ P2ac (Rn ) := P2 (Rn ) P ac (Rn ) a chiedere che per ogni coppia µ0 , µ1 ∈ P2ac (Rn ) l'interpolazione di McCann [µ0 , µ1 ]t sia interamente contenuta in P. Dato un insieme P geodeticamente convesso, una geodetica a velocità costante (µt )t∈[0,1] in P ed un S funzionale ψ : P → R {+∞} , diremo che ψ è • convesso lungo (µt )t∈[0,1] se l'applicazione t 7−→ ψ(µt ) (4.16) Capitolo 4. Geodetiche e convessità 42 è convessa su [0, 1] ; • strettamente convesso lungo (µt )t∈[0,1] se l'applicazione (4.16) è convessa su [0, 1] ; • λ-uniformemente convessa lungo (µt )t∈[0,1] (per qualche λ > 0) se l'applicazione (4.16) è λ-convessa su [0, 1] ovvero se ∀s1 , s2 ∈ [0, 1] , ∀t ∈ [0, 1] si ha ψ((1 − t)µs1 + tµs2 ) ≤ (1 − t)ψ(µs1 ) + tψ(µs2 ) − λ t(1 − t)W22 (µs1 , µs2 ). (4.17) 2 Diremo inne che ψ è convesso (risp. strettamente convesso, λ-uniformemente convesso) qualora per ogni coppia µ0 , µ1 di misure di probabilità di P esista una geodetica a velocità costante (µt )t∈[0,1] in P tra µ0 e µ1 tale che la funzione t 7→ ψ(µt ) sia convessa (risp. strettamente convessa, λ-uniformemente convessa) su [0, 1] . Osservazioni 4.2.2. 1. La parte 4. del Teorema 4.1.7 garantisce in particolare che P2ac (Rn ) sia geodeticamente convesso. 2. Simili denizioni possono essere date in contesti molto più generali, ad esempio per funzioni costo non quadratiche o per misure di probabilità denite su varietà riemanniane. 4.2.2 Esempi Studiamo ora le proprietà di convessità di alcuni funzionali notevoli, per i quali ci riferiremo al lessico introdotto da C.Villani. Un cenno al signicato sico, già evidente al momento della loro introduzione in letteratura ([21]), sarà dato in seguito. Premettiamo, per maggior chiarezza, che identicheremo - a livello di notazione - una misura assolutamente continua (qui rispetto alla misura di Lebesgue) con la sua densità. • Energia Interna: Z U(ρ) = U (ρ(x)) dx; (4.18) V (x) dµ(x); (4.19) Rn • Enegia Potenziale; Z V(µ) = Rn • Energia di Interazione: Z W(µ) = W (x − y) dµ(x)dµ(y). Rn ×Rn (4.20) Chiameremo l'applicazione misurabile U : R+ → R ∪ {+∞} densità di energia interna, l' applicazione misurabile V : Rn → R ∪ {+∞} potenziale ed il funzionale misurabile W : Rn → R ∪ {+∞} potenziale di interazione. Naturalmente si impongono, per dar senso alle scritture precedenti, delle condizioni di buona positura su U, V e W. Tipicamente: • U è certamente ben denito su P ac (Rn ), a valori in R ∪ {+∞} , non appena U ≥ 0. Una condizione suciente per garantire che non sia identicamente +∞ Capitolo 4. Geodetiche e convessità 43 è ad esempio che U (0) = 0 e che U non sia identicamente +∞ su R+ \ {0} . Discutiamo invece separatamente il caso del funzionale U (ρ) = ρ log ρ di grande importanza sica e che avrà un ruolo centrale nel seguito di questa tesi. In questo caso il funzionale U assume sia il valore +∞ che −∞ su P ac (Rn ). Tuttavia, se scegliamo come dominio ad esempio P2ac (Rn ) tale funzionale risulta ben denito a valori in R ∪ {+∞} , come si evince scegliendo ϕ(x) = |x|2 nella disuguaglianza Z Z ρ log ρ dx + Z ϕ dρ ≥ − log ( e−ϕ dx). (4.21) • V (risp W ) è ben denito su P(Rn ) non appena V (risp. W) è limitato dal basso da qualche costante reale. Siamo ora in grado di enunciare i criteri fondamentali per studiare le proprietà di convessità dei funzionali appena descritti. Teorema 4.2.3. Sia P un sottinsieme geodeticamente convesso di P2 (Rn ) (e, nel caso della parte 1., di P2ac (Rn )) sul quale siano ben deniti a valori in R∪{+∞} i funzionali U, V, W. 1. Se U verica U (0) = 0 e Ψ : r 7−→ rn U (r−n ) (4.22) è convessa non crescente su (0, +∞) , allora U è convessa lungo geodetiche in P. 2. Se V è convessa (risp. strettamente convessa, λ-uniformemente convessa), allora V è convessa (risp. strettamente convessa, λ-uniformemente convessa) lungo geodetiche in P. Viceversa: se V è convessa (risp. strettamente convessa, λuniformemente convessa) lungo geodetiche in P2 (Rn ), allora V è convessa (risp. strettamente convessa, λ-uniformemente convessa). 3. Se W è convessa, allora W è convessa lungo geodetiche in P. Se poi W è strettamente convessa (risp. λ-uniformemente convessa), allora ∀m ∈ Rn si ha che W è strettamente convessa (risp. λ-uniformemente convessa) lungo geodetiche nel sottospazio Pm di P costituito dalle misure di probabilità aventi centro di massa m. (Si noti infatti che ∀m ∈ R l'insieme Pm è geodeticamente convesso.) Viceversa: se W è convessa (risp. strettamente convessa, λ-uniformemente convessa) lungo geodetiche in P2 (Rn ), allora W è convessa (risp. strettamente convessa, λ-uniformemente convessa.) Osservazioni 4.2.4. Scopo di queste osservazioni è cercare di giusticare intuitivamente la condizione di convessità (4.22) e di fornire dei criteri equivalenti per la sua verica. • Supponiamo di avere in un assegnato volume V una massa uniforme ed omogenea M di un gas ideale. Se ora lasciamo espandere tale gas di un fattore λ secondo ciscuna dimensione, avremo che il volume totale occupato, al termine dell'espansione, sarà aumentato di un fattore λn , mentre la densità sarà passata dal valore M uniforme M V a λn V . Conseguentemente l'energia interna del gas sarà passata dal M n −n valore V U ( V ) al valore λn V U ( λM ) se si pone n V ) che è proporzionale a r U (r M 1/n r = λ( V ) . In sintesi, abbiamo allora che la condizione (4.22) equivale sicamente a chiedere che l' energia interna sia una funzione convessa non decrescente Capitolo 4. Geodetiche e convessità 44 di tale fattore. Per lo meno la condizione di non decrescenza appare del tutto naturale dal punto di vista sico. • Supponiamo che la funzione U sia derivabile due volte. È spesso conveniente espri- mere la condizione (4.22) in termini della cosidetta pressione termodinamica (4.23) P (ρ) = ρU 0 (ρ) − U (ρ). Tale formula si ricava facilmente dalla denizione standard di pressione P (ρ) = − dU , dV (4.24) assumendo semplicemente che quando il gas sia diluito nell'intero spazio (V = ∞) si abbia U = 0. Infatti, dato un arbitrario volume nito iniziale V0 con densità di energia iniziale U (ρ0 ), possiamo scrivere Z ∞ U (ρ0 )V0 = V0 dU (− ) dV = dV Z ∞ V0 cosicché M P ( ) dV = M V Z ρ0 U (ρ0 ) = ρ0 0 Z ρ0 P (ρ) 0 dρ , ρ2 P (ρ) dρ. ρ2 (4.25) (4.26) A questo punto, derivando troviamo la relazione promessa. Si noti come la precedente abbia senso solo se si ha integrabilità in un intorno destro di 0 per cui è necessario che sia P (0) = 0. • La derivata prima di Ψ : r 7→ rn U (r−n ) è −nrn−1 P (r−n ), sicché la condizione di non crescenza di Ψ è equivalente alla non negatività di P, cosa auspicabile da un punto di vista sico! Passando alla derivata seconda troviamo Ψ00 (r) = n2 rn−2 r−n P 0 (r−n ) − (1 − 1/n)P (r−n ) ; (4.27) per cui la condizione di convessità si traduce in ρP 0 (ρ) ≥ (1 − 1 )P (ρ) n (4.28) ovvero anche nella forma ρ 7−→ P1−(ρ)1 è non decrescente. ρ n • Mettendo insieme le informazioni raccolte al punto precedente, si trova immediatamente che se la (??) è vericata, allora U dev'essere convessa. È allora ridotta a dei calcoli elementari, che possiamo semplicare utilizzando le osservazioni precedenti, la verica della condizione (4.22) per le seguenti funzioni densità di energia interna: • U (ρ) = ργ , 1 γ ≥ 1 nel qual caso P (ρ) = (γ − 1)ργ ; 1 Questa forma funzionale ha la sua manifestazione più importante in dimensione n = 3 per γ = 5/3, allorché U rappresenta il limite quantistico semi-classico per l'energia cinetica di un gas di fermioni. Capitolo 4. Geodetiche e convessità 45 • U (ρ) = ρ log ρ nel qual caso P (ρ) = ρ; • U (ρ) = −ργ , (1 − 1/n) ≤ γ ≤ 1, nel qual caso P (ρ) = (1 − γ)ργ . 4.2.3 Dimostrazioni Questa sezione è dedicata alla dimostrazione dettagliata delle tre parti di cui si compone il criterio per la displacement convexity enunciato nel paragrafo precedente. Cominciamo dalla parte dedicata all'energia potenziale. Dimostrazione. Vi è un' implicazione immediata: per mostrare che se V è convesso (risp. strettamente convesso, λ-uniformemente convesso) lungo geodetiche, allora V è convesso (risp. strettamente convesso,λ-uniformemente convesso) basta riferire l'ipotesi ad una coppia δx1 , δx2 di masse di Dirac, applicate nei punti tra i quali deve essere svolta la verica di convessità per V. Per l'implicazione opposta è suciente mostrare che per ogni coppia di misure di probabilità µ, ν ∈ P2 (Rn ) e per ogni piano γ ∈ Γo (µ, ν) il funzionale V è convesso lungo la geodetica in P2 (Rn ) data da (µt )t∈[0,1] := (πt1→2 )] γ. In eetti, si tratta solo di applicare la formula standard di cambio variabile per push-forward Z V(µt ) = Z V ((1 − t)x1 + tx2 ) dγ V dµt = Z ≤ [(1 − t)V (x1 ) + tV (x2 )] dγ(x1 , x2 ) = (1 − t)V(µ) + tV(ν). (4.29) (4.30) Nel caso in cui V sia strettamente convesso, supponiamo per assurdo che V non lo sia e che esistano perciò µ, ν ∈ P2 (Rn ) distinte e t ∈ (0, 1) per cui V(µt ) = (1−t)V(µ)+tV(ν). Per quanto sopra, ciò equivale ad avere Z Z V ((1 − t)x1 + tx2 ) dγ = [(1 − t)V (x1 ) + tV (x2 )] dγ(x1 , x2 ) (4.31) e dunque, per la denizione di stretta convessità, dev'essere x1 = x2 γ -q.o. cosa che garantisce µ = ν, contraddizione. Il caso di λ-convessità è ancora un calcolo piuttosto automatico, che ricalca il precedente Z V(µt ) = ≤ Z V dµt = V ((1 − t)x1 + tx2 ) dγ Z λ 2 (1 − t)V (x1 ) + tV (x2 ) − t(1 − t) |x1 − x2 | dγ(x1 , x2 ) 2 Z λ 2 = (1 − t)V(µ) + tV(ν) − t(1 − t) |x1 − x2 | dγ(x1 , x2 ), 2 (4.32) (4.33) (4.34) ma sappiamo che γ ∈ Γo (µ, ν) per cui Z 2 |x1 − x2 | dγ(x1 , x2 ) = W22 (µ, ν) e questo completa la dimostrazione. (4.35) Capitolo 4. Geodetiche e convessità 46 Sviluppiamo ora la dimostrazione della parte 3. del Teorema 4.2.3, dedicata all'energia di interazione. Dimostrazione. Per la parte di necessità della condizione, vale ancora quanto scritto nella dimostrazione precedente, a patto di considerare qui due coppie di masse di Dirac. Supponiamo invece che W sia convessa e, date due misure di probabilità µ, ν ∈ P2 (Rn ) sia genericamente γ ∈ Γo (µ, ν) e (µt )t∈[0,1] := (πt1→2 )] γ. In sostanziale analogia con quanto fatto sopra, applichiamo la formula di integrazione per push-forward 1 W(µt ) = 2 1 = 2 (4.36) W (x − y) dµt (x)dµt (y) Z W ((1 − t)x1 + tx2 − (1 − t)y1 − ty2 ) dγ(x1 , x2 )dγ(y1 , y2 ) = ≤ = Z 1 2 1 2 Z Z (4.37) W ((1 − t)(x1 − y1 ) + t(x2 − y2 ) dγ(x1 , x2 )dγ(y1 , y2 ) (4.38) [(1 − t)W (x1 − y1 ) + tW (x2 − y2 )] dγ(x1 , x2 )dγ(y1 , y2 ) (4.39) Z Z 1 (1 − t) W (x1 − y1 ) dµ(x1 )dν(y1 ) + t W (x2 − y2 ) dµ(x2 )dν(y2 ) 2 (4.40) (4.41) ≤ (1 − t)W(µ) + tW(ν), ove abbiamo usato all'ultimo passaggio il fatto che i marginali di γ siano µ e ν. Supponiamo ora che W sia strettamente convessa e che, per assurdo, esistano due misure di probabilità µ, ν ∈ P2 (Rn ) aventi lo stesso centro di massa m ∈ Rn ed un t ∈ (0, 1) per i quali con le solite notazioni, valga W(µt ) = (1 − t)W(µ) + tW(ν). In base al calcolo appena svolto, ciò equivale a dire che x1 − y1 = x2 − y2 per γ(x1 , x2 ) ⊗ γ(y1 , y2 )q.o. in Rn × Rn × Rn × Rn . Da questa si deduce che deve valere equivalentemente x2 − x1 = y2 − y1 sempre per γ(x1 , x2 ) ⊗ γ(y1 , y2 ), cosa che è possibile solo se esiste un numero c ∈ R per il quale x2 = x1 + c per q.o. γ(x1 , x2 ) in Rn × Rn la quale cosa esclude che µ e ν abbiano lo stesso centro di massa, assurdo. Veniamo inne allo studio del caso in cui W è λ-uniformemente convesso. Con calcoli identici a quelli sviluppati nella prima parte di questa dimostrazione si arriva alla disuguaglianza λ W(µt ) ≤ (1−t)W(µ)+tW(ν)− t(1−t) 4 Z 2 |(x1 − x2 ) − (y1 − y2 )| dγ(x1 , x2 )dγ(y1 , y2 ), (4.42) ove l'ultimo addendo del secondo membro, sviluppando il quadrato si vede essere uguale a Z 2 2W2 (µ, ν) + hx1 − x2 , y1 − y2 i dγ(x1 , x2 )dγ(y1 , y2 ). (4.43) Non resta perciò che provare che Z hx1 − x2 , y1 − y2 i dγ(x1 , x2 )dγ(y1 , y2 ) = 0, (4.44) Capitolo 4. Geodetiche e convessità 47 ma questo si ottiene subito sviluppando il prodotto scalare per bilinearità e ricordando che µ, ν appartengono ad un dato sottospazio di probabilità a centro di massa ssato Pm . Concludiamo questo paragrafo con la dimostrazione della prima parte del Teorema 4.2.3, inerente il termine di energia interna Dimostrazione. Siano date due misure di probabilità µ, ν ∈ P2ac (Rn ) e sia ϕ come nel teorema di Brenier tale che ∇ϕ] µ = ν. Ci serviamo di tale funzione per costruire l'interpolazione à la McCann tra µ e ν (4.45) [µ, ν]t = (Id − tθ)] µ, ove si sia posto θ := Id − ∇ϕ. Nelle nostre ipotesi su U (in partciolare sappiamo che U (0) = 0) siamo in grado di applicare il teorema di McCann per l'equazione di Monge-Ampère (Teorema 3.4.3), che consente di scrivere Z U(ρt ) = U( Rn ρ(x) ) det(In − t∇θ(x)) dx, det(In − t∇θ(x)) (4.46) avendo indicato genericamente con ρt la densità della misura [µ, ν]t e con ρ la densità di µ. Va ora notato che come funzione di t ∈ [0, 1] la funzione integranda può essere vista come composizione delle applicazioni seguenti: • t 7−→ λ = det(In − tS)1/n , • λ 7−→ U ( λrn )λn , con r = ρ(x) ed S = ∇θ(x), matrice simmetrica vericante S ≤ In . Per concludere la dimostrazione enunciamo il seguente lemma, che risulterà essere una banale conseguenza della seconda parte dell' asserto che proveremo qui di seguito. Lemma 4.2.5. Data una matrice simmetrica S ≤ In , la funzione t 7−→ det(In −tS)1/n è concava e strettamente concava a meno che S sia un multiplo di In . Forti di questo lemma e delle nostre ipotesi, osserviamo che la funzione integranda in (4.46) è composizione di una funzione convessa non decrescente e di una concava ed è dunque convessa rispetto a t (verica immediata). Da ciò discende facilmente, operando come già visto più volte nelle dimostrazioni precedenti, la displacement convexity di U(ρt ) e quindi la nostra tesi. Ecco dunque, come promesso, la proposizione di cui si è fatto uso per concludere la dimostrazione precedente. Lemma 4.2.6. 1. Siano (xi )1≤i≤n e (λi )1≤i≤n numeri reali vericanti le relazioni xi ≥ 0, λi ≥ 0, n X λi = 1. (4.47) i=1 Allora, convenendo che 00 = 1, abbiamo n X i=1 λ i xi ≥ n Y i=1 xλi i . (4.48) Capitolo 4. Geodetiche e convessità 48 2. Siano A e B due matrici n × n simmetriche e denite non negative e λ ∈ [0, 1] . Allora (4.49) det(λA + (1 − λ)B)1/n ≥ λ(det A)1/n + (1 − λ)(det B)1/n . 3. Nelle ipotesi del punto precedente vale altresì (4.50) det(λA + (1 − λ)B) ≥ (det A)λ (det B)1−λ . Dimostrazione. 1. Si ottiene immediatamente applicando la disuguaglianza di concavità alla funzione logaritmica su R+ . 2. In ragione dell'identità det(λA) = λn (det A) occorre e basta provare che (4.51) det(A + B)1/n ≥ (det A)1/n + (det B)1/n . Non è del resto restrittivo assumere che la matrice A sia invertibile, dato che il caso generale si ottiene per densità. A questo punto, grazie al teorema di Binet ci riduciamo a provare la disuguaglianza (4.52) det(In + C)1/n ≥ (det In )1/n + (det C)1/n , ove C = A−1/2 BA−1/2 e perciò simmetrica e denita non negativa. Per provare quest'ultima relazione per una generica C ∈ Sn+ (R), possiamo (via teorema spettrale) diagonalizzare C introducendo gli autovalori c1 , ..., cn reali non negativi. Quindi la (4.52) si riduce alla forma (4.53) Y Y (1 + ci )1/n ≥ 1 + ( ci )1/n . Ma ora la parte già provata della proposizione fornisce Y ( Y ci 1 1X 1 1 X ci )1/n + ( )1/n ≤ ( )+ ( ) = 1. 1 + ci 1 + ci n 1 + ci n 1 + ci (4.54) 3. Il primo punto garantisce che nelle nostre ipotesi valga λ λ(det A)1/n + (1 − λ)(det B)1/n ≥ (det A) n (det B) 1−λ n . (4.55) Elevandone ambo i membri alla potenza n ed utilizzando il risultato del passo 2. si ottiene la tesi. 4.2.4 Formulazione above tangent È un fatto generale che se una funzione Φ : [0, 1] → R ∪ {+∞} è λ-uniformemente convessa, allora Φ(1) ≥ Φ(0) + d+ λ Φ(t) + dt t=0 2 (4.56) Capitolo 4. Geodetiche e convessità ove 49 d+ Φ(t) − Φ(0) Φ(t) = lim sup dt t=0 t + t↓0 (4.57) ad indicare cioè la derivata superiore destra in t = 0 che è di fatto una banale derivata destra, in ragione dell'ipotesi di convessità di Φ. Da questa osservazione discende la proposizione seguente. Teorema 4.2.7. Sia F un funzionale a valori in R∪{+∞} , denito su un sottinsieme geodeticamente convesso P di P2 (Rn ). Siano poi µ0 , µ1 due misure di probabilità in P e denotiamo con (µt )t∈[0,1] una geodetica a velocità costante che le interpola in P e lungo la quale F sia λ-uniformemente convesso. Allora F (µ1 ) ≥ F (µ0 ) + d+ λ F (µt ) + W22 (µ0 , µ1 ). dt t=0 2 (4.58) Anché questa proposizione risulti eettivamente utile nelle applicazioni, è necessario + disporre di qualche strumento per il calcolo di dtd t=0 F (µt ). Un tale strumento è fornito dal teorema seguente. Teorema 4.2.8. Siano U : R+ → R ∪ +∞, V, W : Rn → R ∪ +∞ funzioni mi- surabili tali che la U verichi la condizione di convessità (4.22) del Teorema 4.2.3 e che V, W siano convesse e W sia simmetrica rispetto all'origine. Siano poi µ0 , µ1 due misure di probabilità assolutamente continue su Rn con densità ρ0 , ρ1 a guisa che U (ρ0 ), U (ρ1 ), ρ0 V, ρ1 V appartengano ad L1 (Rn ) e ρ0 (x)ρ0 (y)W (x−y), ρ1 (x)ρ1 (y)W (x− y) appartenga L1 (Rn × Rn , dxdy). Sia poi ∇ϕ come nel teorema di Brenier una mappa da ρ0 verso ρ1 ovvero tale che ∇ϕ] ρ0 = ρ1 . Allora d+ U(ρt ) = dt t=0 Z [U (ρ0 ) − ρ0 U 0 (ρ0 )] (∆A ϕ − n) dx; Rn (4.59) ove ∆A indica l'operatore di Laplace nel senso di Aleksandrov; d+ V(ρt ) = dt t=0 d+ W(ρt ) = dt t=0 Z ρ0 (x) h∇V (x), (∇ϕ(x) − x)i dx; Rn (4.60) Z ρ0 (x)ρ0 (y) h∇W (x − y), [(∇ϕ(x) − x) − (∇ϕ(y) − y)]i dxdy. Rn ×Rn (4.61) Dimostrazione. Cominciamo dalla dimostrazione della (4.60). Ricordando la denizione di push-forward abbiamo V(ρt ) − V(ρ0 ) = t Z ρ0 (x) V ((1 − t)x + t∇ϕ(x)) − V (x) dx. t (4.62) Se V è convessa, allora il termine tra parentesi quadre converge in maniera monotona per t ↓ 0+ a h∇V (x), ∇ϕ(x) − xi per q.o.x e si ottiene la tesi applicando il teorema di convergenza monotona. La dimostrazione di (4.61) è analoga. Per provare la (4.59) Capitolo 4. Geodetiche e convessità 50 dobbiamo ancora far ricorso all'equazione di Monge-Ampère per scrivere U(ρt ) − U(ρ0 ) t Z = Rn 1 t (4.63) ρ0 (x) 2 U( ) det (1 − t)In + tDA ϕ(x) − U (ρ0 (x)) 2 det [(1 − t)In + tDA ϕ(x)] che possiamo riscrivere (con ovvio signicato dei simboli) Z Rn 1 {u(t, x) − u(0, x)} dx. t dx, (4.64) (4.65) In base alle nostre ipotesi sappiamo che sia u(1, x) che u(0, x) sono integrabili e, per quanto già visto nella dimostrazione della prima parte del Teorema 4.2.3, che per q.o. x la funzione t 7−→ u(t, x) è ben denita e convessa; perciò la sua pendenza (u(t, x) − u(0, x))/t è non crescente per t ↓ 0 e converge in maniera monotona ad u0 (0, x) ove 0 indica la derivata parziale (destra) rispetto a t. A questo punto, un calcolo tedioso, ma pressoché automatico consente di mostrare u0 (0, x) = [U (ρ0 (x)) − ρ0 (x)U 0 (ρ0 (x))] (∆A ϕ(x) − n) (4.66) sicché passando al limite ancora con il teorema della convergenza monotona si ottiene la tesi. 4.3 Una prima applicazione: unicità dello stato fondamentale Dato che il prossimo capitolo sarà per intero dedicato ad alcune applicazioni dei risultati teorici visti in questo capitolo, ci limitiamo qui ad un solo fondamentale esempio. Si tratta della elegante dimostrazione, dovuta a McCann ([21]), dell'unicità dello stato fondamentale (ovvero a minima energia totale) per un gas di molecole interagenti e descrivibile tramite un funzionale energetico del tipo visto sopra. Teorema 4.3.1. Si consideri il seguente funzionale energetico, denito su P2ac (Rn ) : Z 1 F (ρ) = U (ρ(x)) dx + 2 Rn Z 1 V dρ + 2 Rn Z W (x − y) dρ(x)dρ(y). Rn ×Rn (4.67) Si assuma che U verichi la condizione (4.22) del Teorema 4.2.3, che inf V > −∞ e che V e W siano convesse. Si assuma inne che V (risp. W ) sia strettamente convesso. Allora, esiste al più un minimo per F (risp. al più un minimo, a meno di traslazioni) sull'insieme P2ac (Rn ). Dimostrazione. Per assurdo, si supponga l'esistenza di (almeno) due minimi, diciamo ρ0 e ρ1 e si ponga ρ = [ρ0 , ρ1 ]1/2 . Grazie al criterio di convessità 4.2.3, sappiamo che se V è strettamente convesso, allora F è strettamente convesso lungo geodetiche e perciò F (ρ) < [F (ρ0 ) + F (ρ1 )] /2, assurdo. Se invece V è semplicemente convesso, mentre Capitolo 4. Geodetiche e convessità 51 W è strettamente convesso sappiamo che t 7→ F [ρ0 , ρ1 ]t è strettamente convesso lungo geodetiche, fuorché nel caso in cui ρ0 e ρ1 si ottengano una dall'altra per traslazione, che è quindi l'unico nel quale l'argomento di contraddizione precedente non è applicabile. Pertanto, in questo secondo caso, si deve concludere che due eventuali minimi per F si ottengono l'uno dall'altro per traslazione. Ossrvazioni 4.3.2. • Questo tipo di argomenti è standard per funzionali convessi. Nel nostro caso la dicoltà è stata arontata a monte al ne di individuare una adeguata nozione analoga alla convessità in P2ac (Rn ). • Come corollario di questo risultato di unicità, si può dimostrare che se V è pa- ri, allora pure il minimo dev'essere pari (eventualmente a meno di traslazioni.) Analogamente, se V e W sono a simmetria radiale, allora pure il minimo deve essere a simmetria radiale (eventualmente a meno di traslazioni). Capitolo 5 Alcune disuguaglianze funzionali 5.1 Brunn-Minkowski ed isoperimetria Quale primo esempio di applicazione delle tecniche esposte nel capitolo precedente diamo dimostrazione della disuguaglianza di Brunn-Minkowski. In questo paragrafo denoteremo con le lettere X ed Y due sottoinsiemi compatti di Rn e con |X| od |Y | rispettivamente le misure di tali insiemi secondo la misura di Lebesgue. Inne, richiamiamo la denizione di somma di Minkowski di X ed Y : (5.1) X + Y = {x + y; x ∈ X, y ∈ Y } . È un fatto standard di topologia che se X ed Y sono compatti, allora pure X + Y lo è e perciò quest'ultimo sarà in particolare un insieme misurabile. Notiamo, prima di enunciare la Brunn-Minkowski che si ha |λX|1/n = |λ| |X|1/n ∀λ ∈ 1/n R e che dunque |X| va considerata come una `misura di lunghezza' dell'insieme X. Teorema 5.1.1. Dati comunque due insiemi compatti X ed Y in Rn vale la disugua- glianza 1/n |X + Y | ≥ |X| 1/n 1/n + |Y | (5.2) . Dimostrazione. Dato un insieme X compatto di Rn chiamiamo misura di probabilità χX n uniforme di X la probabilità µX = |X| L . Consideriamo dunque un'interpolazione alla McCann tra µ0 := µX e µ1 := µY e sia (µt ) = [µX , µY ]t la corrispondente geodetica in P2ac (Rn ). È immediato dimostrare che µt ha supporto (sia St ) contenuto nell'insieme (1 − t)X + tY. Introduciamo ora il funzionale (già studiato nel capitolo precedente) Z (5.3) 1 ρ(x)1− n dx U(µ) = − Rn (laddove ρ denota la densità di µ) che sappiamo essere convesso lungo geodetiche e per il quale U(µX ) = − |X|1/n . Si ha dunque (5.4) U(µt ) ≤ (1 − t)U(µ0 ) + tU(µ1 ) che vuol dire 1/n U(µt ) ≤ −(1 − t) |X| 52 1/n − t |Y | . (5.5) Capitolo 5. Alcune disuguaglianze funzionali 53 Del resto si può minorare U(µt ) tramite la disuguaglianza di Jensen Z U(µt ) = U( St dρt 1 ) dx ≥ |St | U ( dx |St | Z dρt ) = |St | U ( 1 1/n ) = − |St | , |St | (5.6) per cui grazie all'osservazione precedente U(ρt ) = − |St |1/n ≥ − |(1 − t)X + tY |1/n . Mettendo insieme le due disuguaglianze ottenute si ottiene inne 1/n |(1 − t)X + tY | 1/n ≥ (1 − t) |X| 1/n + t |Y | (5.7) banalmente equivalente alla tesi. Vediamo ora come questo risultato consenta di ottenere in modo sorprendentemente elegante la disugauglianza isoperimetrica in spazi euclidei. Prima di procedere, diamo la seguente denizione (vedasi ad esempio [13]) Denizione 5.1.2. Sia X ⊂ Rn un insieme compatto e denotiamo (come sopra) con |·| la misura di Lebesgue. Si chiama supercie di X il numero reale S(X) = lim inf ↓0 |X + B | − |X| . (5.8) Teorema 5.1.3. Tra tutti gli insiemi compatti di Rn di volume assegnato, la sfera S n−1 è quello di minima supercie. Dimostrazione. Dalla disuguaglianza di Brunn-Minkowski, avendo posto Y = B discende 1/n 1/n |X + B | − |X| 1/n ≥ |B| , (5.9) passando al lim inf otteniamo con semplici manipolazioni 1 1 1 −1 |X| n S(X) ≥ |B| n . n (5.10) Sfruttando l'ipotesi di uguaglianza tra i volumi e ricordando S(B) = n |B| arriviamo alla disuguaglianza S(X) S(B) 1 n−1 ≥ |X| |B| n1 (5.11) che è quel che volevamo. 5.2 Prékopa-Leindler ed Henstock-McBeath Vi è anche una formulazione funzionale ed apparentemente più generale della disuguaglianza di Brunn-Minkowski ottenuta separatamente da Prékopa e Leindler nei primi anni Settanta ([20],[25]). Può essere espressa come segue: Teorema 5.2.1. Si considerino tre funzioni f, g, h reali non negative ed integrabili su Rn ed un numero reale λ ∈ [0, 1] . Se vale ∀x, y ∈ Rn h((1 − λ)x + λy) ≥ f (x)1−λ g(y)λ , (5.12) Capitolo 5. Alcune disuguaglianze funzionali 54 allora 1−λ Z Z Z h(x) dx ≥ f (x) dx Rn Osservazioni 5.2.2. Rn λ g(x) dx . Rn (5.13) 1. Nella maggior parte delle applicazioni è utile operare la scelta h(z) = sup f (x)1−λ g(y)λ . z=(1−λ)x+λy (5.14) 2. Tale positura, per λ = 21 e scegliendo come f e g le caratteristiche di due compatti X ed Y fornisce la disuguaglianza X + Y 2 2 ≥ |X| |Y | . (5.15) 3. In eetti, con relativa facilità si può mostrare che le disuguaglianze di BrunnMinkowski e Prékopa-Leindler sono equivalenti. 4. Della disuguaglianza di Prékopa-Leindler esistono varie dimostrazioni: nel seguito proponiamo quella tratta dalla tesi di dottorato di Barthe [3]. Dimostrazione. Per omogeneità, si può assumere senza perdita di generalità f = R g = 1 e pertanto, in base alle ipotesi, le funzioni f e g possono essere considerate R come densità di misure di probabilità su Rn . Occorre e basta mostrare che h ≥ 1. Deniamo p come la (densità della) probabilità risultante dalla restrizione a [0, 1]n di Ln ed introduciamo mappe di trasporto ottimo ∇ϕ1 da p verso f e ∇ϕ2 da p verso g. Il Teorema 3.4.3 assicura che per q.o. x ∈ [0, 1]n valgano le equazioni di Monge-Ampère R 2 f (∇ϕ1 (x)) det DA ϕ1 (x) = 1 (5.16) 2 g (∇ϕ2 (x)) det DA ϕ2 (x) = 1. (5.17) ed analogamente Deniamo ora l'interpolazione tra funzioni ϕ := (1 − λ)ϕ1 + λϕ2 . Segue la catena di disuguaglianze Z Z h(x) dx ≥ Rn Z ≥ [0,1]n n 2 h(∇ϕ(x)) det DA ϕ(x) dx (5.18) [0,1] 2 h((1−λ)∇ϕ1 (x)+λ∇ϕ2 (x)))(det DA ϕ1 (x) Z ≥ 1 dx = 1 [0,1]n 1−λ λ 2 )(det DA ϕ2 (x) ) dx (5.19) (5.20) ove si sono utilizzate in sequenza la formula di cambio variabile secondo Aleksandrov, il lemma di concavità dimostrato nel capitolo precedente (Lemma 4.2.6) e l'ipotesi di minorazione per h. Capitolo 5. Alcune disuguaglianze funzionali 55 Una dimostrazione molto simile vale per una versione più generale di quest'ultimo risultato: la disuguaglianza di Henstock-McBeath. Diamo prima una denizione, ispirata alla nozione di media aritmetica tra numeri reali. Denizione 5.2.3. Dati due numeri reali positivi a e b ed inoltre due parametri α ∈ R e λ ∈ [0, 1] deniamo 1/α Mαλ (a, b) = [λaα + (1 − λ)bα ] . (5.21) Estendiamo tale denizione a numeri reali non negativi ponendo Mαλ (a, b) = 0 qualora a = 0 oppure b = 0. Teorema 5.2.4. Siano f, g, h tre funzioni reali non negative ed integrabili su Rn , inoltre λ ∈ [0, 1] ed α ≥ −1/n. Si assuma che per ogni x, y ∈ Rn valga h(λx + (1 − λ)y) ≥ Mαλ [f (x), g(y)] , (5.22) allora Z Rn Z λ α h(x) dx ≥ M 1+nα Z f (x) dx, Rn g(x) dx . Rn (5.23) I risultati esposti in questa sezione sono stati generalizzati da vari autori (CorderoErasquin e Mc-Cann in primis) al contesto delle varietà riemanniane, in relazione alla curvatura di Ricci ([10]). 5.3 Brascamp-Lieb e Barthe Forniamo di seguito la versione più generale possibile di una disuguaglianza proposta da Brascamp e Lieb nella seconda metà degli anni Settanta ([5]) e che - come sarà discusso tra poco - racchiude come casi particolari le disuguaglianze di Hölder e di Young. Premettiamo questa Denizione 5.3.1. Chiamiamo funzione gaussiana centrata una funzione f : Rm → R che ammetta una rappresentazione della forma f (x) = e−hAx,xi per qualche matrice + m × m reale simmetrica denita positiva (ovvero A ∈ Sm (R)). Teorema 5.3.2. Si suppongano dati numeri interi m ≥ 1, N ≥ 1 ed (ni )1≤i≤m e reali (ci )1≤i≤m a guisa che valga m X ci ni = N. (5.24) i=1 Siano poi Bi : RN → Rni applicazioni lineari surgettive tali che \ ker Bi = 0. (5.25) i Date funzioni fi : Rni → R non negative ed in L1 (Rni ) per i = 1, . . . , m, deniamo Z I(f1 , . . . , fm ) = RN Y i fici (Bi x) dx. (5.26) Capitolo 5. Alcune disuguaglianze funzionali 56 Esiste allora una costante ottimale I ∈ R di modo che valga la disuguaglianza I(f1 , . . . , fm ) ≤ I ci fi dx Y Z (5.27) Rni i quali che siano le fi ed è calcolabile riferendosi a sole funzioni gaussiane tramite la formula I(γ1 , . . . , γm ) , (5.28) I = I γ = sup Q R ci i ( Rni γi ) ove ciascuna γi sia una funzione gaussiana R → R centrata. Lemma 5.3.3. La costante I γ è data da ni 1 Iγ = √ , D ove D = inf (5.29) P det( i ci Bi∗ Ai Bi ) Q ; Ai ∈ Sn+ (R), ci i (det Ai ) 1≤i≤n . (5.30) Qui Bi∗ indica l' aggiunto dell' operatore lineare Bi . Dimostrazione. Cominciamo dalla dimostrazione di questo lemma. In eetti essa è immediata: si tratta solo di ricordare la relazione Z √ e−hAx,xi dx = π n/2 / det A (5.31) ed inserirla nell' espressione per I γ fornita dal teorema di Brascamp-Lieb. Prima di addentrarci nella dimostrazione del Teorema 5.3.2, pare opportuno discutere alcuni semplici esempi applicativi. Osservazioni 5.3.4. 1. Disuguaglianza di Hölder: scegliendo nella disuguaglianza di Brascamp-Lieb N ≥ 1, n1 = n2 = N, c1 = p1 , c2 = 1q ed inne B1 (x) = B2 (x) = x e vericando, tramite il Lemma 5.3.3 che in questo caso I γ = 1 si ottiene la usuale disuguaglianza di Hölder in RN . Il calcolo attraverso il Lemma 5.3.3 di I γ = 1 è in generale piuttosto dicile, ma nello specico si può completare facendo ricorso a ben note disuguaglianze algebriche. A titolo di esempio, per p q N = 1 si ricordi che per numeri a, b reali positivi vale ab ≤ ap + bq per dedurre D ≥ 1 e si verichi che in eetti D = 1. 2. Disuguaglianza di Young: è ben noto che date f ∈ Lp (Rn ) e g ∈ Lq (Rn ) (con p, q ≥ 1) e preso (se esiste) r ≥ 1 di modo che p1 + 1q = 1 + 1r vale la relazione kf ∗ gkLr ≤ kf kLp kgkLq . È stato dimostrato ([5]) che 1 non è la costante ottimale per la disuguaglianza di Young. La costante ottimale è invece con s Cp = Cp Cq Cr p1/p , (p0 )1/p0 n 1 1 + 0 =1 p p (5.32) (5.33) Capitolo 5. Alcune disuguaglianze funzionali 57 che dà in eetti 1 solo nei casi in cui p e q sono 1 o ∞. Vi è un modo più simmetrico (ed a posteriori equivalente) di esprimere la disuguaglianza di Young ottimale: indicato con r0 l'esponente duale di r e con h ∈ Lr (Rn ) abbiamo Z n f (x)g(x − y)h(y) dxdy ≤ Cp Cq kf kLp kgkLq khkLr0 Cr (5.34) (5.35) = (Cp Cq Cr0 )n kf kLp kgkLq khkLr0 , ove abbiamo usato, nell'ordine, la denizione di convoluzione, la disuguaglianza di Hölder, la disuguaglianza di Young ottimale ed il fatto che Cr0 = C1r . Detto questo, basta prendere nella Brascamp-Lieb m = 3, n1 = n2 = n3 = n N = 2n con applicazioni B1 (x, y) = x, B2 (x, y) = x − y, B3 = y ed esponenti c1 = p1 , c2 = 1 1 q , c3 = r 0 per ritrovare la disuguaglianza di Young. Col senno di poi, il Lemma 5.3.3 ci consente di calcolare la costante ottimale con metodi diversi da quelli seguiti da Brascamp e Lieb. La dimostrazione che proponiamo è tratta ancora da un articolo di Barthe. Essa contiene una sorta di formulazione duale della disuguaglianza di Brascamp-Lieb, che pare opportuno enunciare esplicitamente. Teorema 5.3.5. Con la stessa notazione del Teorema 5.3.2, si denisca l'applicazione Z J(g1 , . . . , gm ) = " # Y sup RN P x= ci Bi∗ (xi ) i gici (xi ) dx. (5.36) Allora la costante ottimale J nella disuguaglianza J(g1 , . . . , gm ) ≥ J Y Z i ci gi Rni (5.37) può essere calcolata riferendosi alle sole funzioni gaussiane. Inoltre IJ = 1. (5.38) Osservazione 5.3.6. Scegliendo n1 = n2 = N, c1 = λ, c2 = 1 − λ, B1 = B2 = In otteniamo come caso particolare della disuguaglianza di Barthe la Prékopa-Leindler. Dimostrazione. Vediamo ora la dimostrazione delle disuguaglianze di Brascamp-Lieb e di Barthe: come apparirà chiaro tra poco è conveniente dimostrare questi due risultati congiuntamente con una tecnica Rdi dualità. Anzitutto, non è lesivo di generalità assuR R R mere f1 dx = · · · = fm dx = g1 = · · · = gm = 1 e dunque, per l'ipotesi di non negatività di tali funzioni, queste possono essere assunte quali densità di probabilità sui rispettivi spazi di denizione. Avremo allora: I = sup I (f1 , . . . , fm ) (5.39) J = inf J (g1 , . . . , gm ) (5.40) Capitolo 5. Alcune disuguaglianze funzionali 58 I γ = sup I (γ1 , . . . , γm ) (5.41) J γ = inf J (γ1 , . . . , γm ) (5.42) ove tutti gli argomenti sono densità di probabilità (nei casi terzo e quarto si richiede altresì d' avere funzioni gaussiane centrate). È ovvio che: I ≥ Iγ (5.43) J ≤ Jγ (5.44) e pure e noi vogliamo dimostrare che queste sono in eetti uguaglianze. La dimostrazione si basa sui seguenti due lemmi, che dimostreremo a parte: • Step 1: I γ = 1 Jγ . • Step 2: vale la relazione J ≥ DI . Grazie a questi risultati la dimostrazione si conclude con facilità osservando che deve valere √ √ D = J γ ≥ J ≥ DI ≥ DI γ = D (5.45) (poichè nel Lemma 5.3.3 avevamo denito I γ = eetti sole uguaglianze, indi la tesi. √1 . D ) e dunque si devono avere in Il primo dei due lemmi risulta dall' applicazione di una tecnica ben nota di dualità quadratica (in dimensione nita). Dimostrazione. Procediamo per passi come segue: 1. Si osservi che il vincolo di normalizzazione (unitaria) impone che le funzioni gaussiane centrate da considerare siano solo della forma r γA (x) = det A −hAx,xi e . πn (5.46) 2. Dualità per forme quadratiche. Sia Q una forma quadratica su Rn . Deniamo la sua duale come n o 2 Q? = |hx, yi| ; Q(y) ≤ 1 . (5.47) Si verica subito che se Q(y) = hAy, yi allora Q? (x) = A−1 y, y (con A ∈ Sn+ (R)) riducendosi al caso diagonale tramite il teorema spettrale e studiando tale caso col metodo dei moltiplicatori di Lagrange. 3. Dati (come nel nostro teorema) (ci )1≤i≤m numeri reali non negativi e Bi : RN → Rni delle applicazioni lineari surgettive, deniamo Q(y) = m X i=1 hci Bi∗ Ai Bi (y), yi. (5.48) Capitolo 5. Alcune disuguaglianze funzionali 59 Allora un argomento standard di dualità mostra che ( ? Q (x) = inf m X ) ci A−1 i xi , xi ; x= X ci Bi∗ (xi ), xi ∈R ni . (5.49) i=1 4. Facendo uso della (5.49) (per semplicare il fattore J (γA1 , ..., γAm )) e del secondo passo dimostrativo si prova inne che I (γA1 , ..., γAm ) J (γA1 , ..., γAm ) = 1 (5.50) e da questa la conclusione è immediata. Vediamo ora di implementare la dimostrazione dello Step 2. Dimostrazione. Siano come sopra f1 , . . . , fm e g1 , . . . , gm misure di probabilità su Rn1 , . . . , Rnm rispettivamente ed indichiamo con Ti per i = 1, . . . , m le mappe di trasporto ottimo tali che Ti] fi = gi (la cui esistenza è assicurata dal Teorema 1.5.5) per cui varranno le equazioni di Monge-Ampère fi = (gi ◦ Ti ) det(∇Ti ). (5.51) Possiamo riassumere la situazione con il diagramma T B B∗ RN →i Rni →i Rni →i RN (5.52) il quale suggerisce di considerare l'applicazione Θ : RN ←- data da Θ(x) = m X ci Bi∗ Ti (Bi x). (5.53) i=1 Grazie ad un argomento di regolarità di Caarelli (vedasi [4]) è possibile dimostrare che Θ è in eetti un cambio di variabile strettamente monotono e di classe C 1 e poiché sappiamo che Ti = ∇ϕi avremo anche che la matrice D2 ϕ = ∇Ti è simmetrica e denita positiva. Ciò legittima l'applicazione alla matrice Jacobiana di Θ ovvero ∇Θ(x) = m X ci Bi∗ ∇Ti (Bi x)Bi (5.54) i=1 della maggiorazione che discende dalla denizione della quantità D nel Lemma 5.3.3 m X det [∇Θ(x)] = det( ci Bi∗ ∇Ti (Bi x)Bi )(5.55) i=1 ≥D m Y i=1 c [det ∇Ti (Bi x)] i . (5.56) Capitolo 5. Alcune disuguaglianze funzionali 60 A questo punto la conclusione è automatica: Z J(g1 , . . . , gm ) = sup nY o ci Bi∗ yi dy (5.57) o ci Bi∗ yi = Θ(x) det ∇Θ(x) dx (5.58) gi (yi )ci ; y= X RN Z = sup nY X gi (yi )ci ; RN Z ≥D sup nY X gi (yi )ci ; RN oY c ci Bi∗ yi = Θ(x) [det ∇Ti (Bi x)] i dx. (5.59) i Ora si noti che se yi = Ti (Bi x) per i = 1, . . . , m allora quest'ultima quantità si maggiora con Z Y D gi (Ti (Bi (x)))ci RN Y P ci Bi∗ yi = Θ(x) e perciò (5.60) c [det ∇Ti (Bi x)] i dx i Z =D Y [gi (Ti (Bi (x))) det ∇Ti (Bi x)] i dx (5.61) Y fi (Bi (x))ci dx = DI(f1 , ..., fm ) (5.62) c RN Z D RN avendo sfruttato, all'ultimo passaggio, le equazioni di Monge-Ampère scritte sopra. 5.4 Sobolev ottimale Una classe di disuguaglianze di primaria importanza in vari settori dell' Analisi Funzionale è costituita dalle disuguaglianze di Sobolev. Premettiamo un paio di denizioni e di lemmi che saranno utili in seguito. Denizione 5.4.1. Sia u : Rn ←- una funzione a valori vettoriali: diremo che u ∈ Lp (Rn ) se X n Z p |ui | dx < ∞ (5.63) Rn i=1 ed in tale caso deniremo kukLp := X n Z i=1 1/p p |ui | dx (5.64) Rn A tale proposito vale il seguente: e due funzioni u : R ←- e v : R ←- con u ∈ L (R ) e v ∈ L (R ) nel senso della denizione precedente, allora vale la disuguaglianza di Hölder vettoriale: Lemma 5.4.2. Dati esponenti duali p, p0 ≥ 1 ovvero con n n p n p 0 1 p 1 p0 =1 n Z Rn + |hu(x), v(x)i| dx ≤ kukLp kvkLp0 . (5.65) Capitolo 5. Alcune disuguaglianze funzionali 61 Dimostrazione. Si applichino in sequenza la disuguaglianza triangolare in Rn , la usuale disuguaglianza di Hölder a ciascun addendo così ottenuto ed inne la disuguaglianza di Hölder per stringhe di numeri reali positivi n X xi yi ≤ X n i=1 xpi 1/p X n i=1 0 xpi 1/p0 . (5.66) i=1 Vediamo ora un secondo lemma di algebra lineare Lemma 5.4.3. Sia M una matrice reale simmetrica semidenita positiva, allora vale la disuguaglianza tra nuemri reali (det M )1/n ≤ trM . n (5.67) Dimostrazione. Grazie al teorema spettrale possiamo ridurci al caso diagonale (sfruttando la proprietà di invarianza degli operatori det e tr) ed in quel caso l'asserto equivale alla disuguaglianza tra media geometrica e media aritmetica, provata nel capitolo precedente (Lemma 4.2.6). Richiamiamo inne la seguente fondamentale Denizione 5.4.4. Siano dati un intero n ≥ 1 ed un reale p ≥ 1. Deniamo lo spazio di Sobolev W 1,p come segue W 1,p = {f ∈ Lp (Rn ); ∇f ∈ Lp (Rn )} . (5.68) Quando p ∈ [1, n) possiamo denire l'esponente p? = np , n−p (5.69) da non confondere con p0 . È ben noto allora il teorema di critical Sobolev embedding ? W 1,p ,→ Lp che asserisce l'esistenza di una costante ottimale Sn (p) ≥ 0 tale che ∀f ∈ W 1,p (Rn ), kf kLp? ≤ Sn (p) k∇f kLp . (5.70) In eetti, l'embedding W 1,p ,→ Lp è un risultato abbastanza standard, ma è meno banale la determinazione della costante Sn (p), cosa importante in varie applicazioni di sica teorica o di geometria (isoperimetria su varietà compatte). Per 1 < p < n deniamo la funzione hp come ? hp (x) = 1 p0 (σp + |x| ) n−p p , (5.71) ove σp è determinato dalla condizione khp kLp? = 1. L'importanza di tali funzioni risulta dal teorema seguente: (5.72) Capitolo 5. Alcune disuguaglianze funzionali 62 Teorema 5.4.5. Sia p ∈ (1, n) . Date comunque due funzioni f, g ∈ Lp soddisfacenti ? la condizione kf kLp? = kgkLp? e con ∇f ∈ Lp (Rn ), allora R p? (1−1/n) |g| dy p(n − 1) ≤ k∇f kLp , R p0 p? 0 1/p n(n − p) ( |y| |g(y)| dy) (5.73) e si ha eguaglianza qualora f = g = hp . Quali immediate conseguenze abbiamo che 1. vale il principio di dualità R |g| p? (1−1/n) dx p(n − 1) = inf k∇f kLp R p0 p? 0 n(n − p) kf kLp? =1 kgkLp? =1 ( |y| |g(y)| dy)1/p sup (5.74) con hp estremale per entrambi tali problemi variazionali; 2. se f ∈ Lp (Rn ), allora vale la disuguaglianza funzionale ? k∇f kLp ≥ kf kLp? k∇hp kLp ; (5.75) 3. il Sobolev embedding W 1,p ,→ Lp ha come costante ottimale ? Sn (p) = k∇hp kLp . (5.76) Dimostrazione. È ovvio che (5.73) implichi 1., che 1. implichi 2. (una volta mostrato che hp è estremale per il problema a secondo membro della (5.74)) e che 2. implichi 3., per cui non resta che provare la (5.73). Nel fare questo, non è lesivo di generalità assumere: • f, g ≥ 0 in virtù dell'uguaglianza (in senso distribuzionale k∇f kLp = k∇ |f |kLp ); • kf kLp? = kgkLp? = 1 per omogeneità; • f, g ∈ Cc∞ (Rn ) potendosi dedurre il caso generale con un argomento di densità. Consideriamo ora le due densità di probabilità su Rn date da F (x) = f (x)p e ? ? G(y) = g(y)p . (5.77) (5.78) Grazie al teorema di Brenier (nella forma 1.5.5) esiste una funzione convessa ϕ (univocamente determinata q.o. sul supporto di f ) tale che il suo gradiente verichi ∇ϕ] (F Ln ) = GLn . Sappiamo inoltre che supp(G) = ∇ϕ(supp(F )). Vale ora la catena di disuguaglianze Z 1 G(y)1− n dy = Z = Z F (x)G(∇ϕ(x))−1/n dx 1/n 2 F (x)F (x)−1/n det DA ϕ(x) dx (5.79) (5.80) Capitolo 5. Alcune disuguaglianze funzionali ≤ 1 n Z 63 (5.81) 1 F (x)1− n ∆A ϕ(x) dx ove abbiamo usato al primo passaggio la formula di cambio variabile per push-forward, al secondo l'equazione di Monge-Ampère per ∇ϕ ed al terzo l'ulteriore disuguaglianza 2 (det DA ϕ)1/n ≤ (∆A ϕ)/n che risulta dall'applicazione del Lemma 5.4.3 alla matrice rappresentativa di DA2 ϕ. Ora, dato che G è a supporto compatto, abbiamo che ∇ϕ è limitato ϕ può essere estesa ad una funzione convessa su tutto Rn e poichè è pure di classe C ∞ possiamo scrivere 1 n Z 1 F (x)1− n ∆A ϕ(x) dx ≤ 1 n Z 1 F (x)1− n ∆D0 ϕ(x) dx = − 1 n Z D E 1 ∇(F 1− n ), ∇ϕ dx. (5.82) Combinando le due disuguaglianze appena ottenute e ricordando la denizione di F e G abbiamo mostrato che Z g(x) p(n−1) n−p dx = − p(n − 1) n(n − p) Z f (y)p ? /p0 h∇f (y), ∇ϕ(y)i dy. (5.83) Inne, la disuguaglianza di Hölder in forma vettoriale (Lemma 5.4.2) fornisce Z − p? /p0 f (y) Z h∇f (y), ∇ϕ(y)i dy ≤ kf kLp f (y) p? p0 |∇ϕ(y)| dy 1/p0 (5.84) e poichè, per denizione di push-forward Z f (y) p? p0 |∇ϕ(y)| dy ≤ Z p0 ? |y| g(y)p dy (5.85) la disuguaglianza (5.73) è dimostrata. Qualora f = g = hp , la mappa di Brenier ϕ(x) = x non è a supporto compatto, ma le veriche di uguaglianza nei vari passaggi possono essere svolte esplicitamente senza alcuna dicoltà. Osservazione 5.4.6. Il valore di questo risultato potrebbe apparire sminuito dall'origine apparentemente misteriosa della funzione hp . Tuttavia, così non è, nella misura in cui chiedendo che valga l'uguaglianza a livello dell'applicazione della disuguaglianza 0 ? di Hölder come sopra si trova la condizione k∇f (x)kp = kf p (x) k∇ϕ(x)kp per q.o. x ∈ Rn . Se ora poniamo ϕ(x) = x e studiamo le sole funzioni a simmetria radiale, troviamo hp . 5.5 Talagrand e concentrazione Nel 1996 M. Talagrand dimostrò in [28] una interessante disuguaglianza funzionale in grado di fornire un upper bound per il costo di trasporto tra due misure sullo spazio euclideo Rn , delle quali la prima sia la misura gaussiana γn e la seconda sia assolutamente continua rispetto a questa. Tale risultato veniva lì poi generalizzato ad altre misure prodotto, in particolare alla cosidetta misura esponenziale doppia ed in ogni caso le dimostrazioni proposte dall'autore si appellavano solo a strumenti elementari. Scopo della prima parte di questa sezione è illustrare in dettaglio tali risultati, contestualiz- Capitolo 5. Alcune disuguaglianze funzionali 64 zandoli nel quadro teorico esposto nei primi due capitoli. Successivamente, seguendo ancora Talagrand, dedurremo da tali stime una disuguaglianza di concentrazione piuttosto signicativa, per certi versi comparabile con i migliori risultati in questo senso, ottenuti a partire dalla disuguaglianza isoperimetrica. 5.5.1 La disuguaglianza di Talagrand Denizione 5.5.1. Considerato lo spazio euclideo n-dimensionale Rn con la sua σ algebra boreliana B(Rn ) deniamo misura gaussiana n-dimensionale γn la misura assolutamente continua rispetto alla misura di Lebesgue Ln e descritta dalla densità 1 2 ρn = e−||x||2 /2 . Equivalentemente γn è la misura prodotto ottenuta quando n/2 (2π) 1 ciascuno dei fattori R sia munito della misura di densità ρ = ρ1 = e−x /2 . Sia (2π)1/2 data poi sullo stesso spazio probabilizzato una misura µ, assolutamente continua rispetto a γn e sia f ∈ L1 (Rn , B(Rn ), γn ) un rappresentante della densità di µ rispetto a γn . Osserviamo che in questa generalità non è possibile denire la distanza di Wasserstein 2 (5.86) W22 (µ, γn ) ove - in accordo con quanto ampiamente discusso nel capitolo 2 - W22 indica il quadrato del costo di trasporto secondo la funzione costo 2 w(x, y) = ||x − y||2 = X (xi − yi )2 , (5.87) i≥1 per il semplice fatto che non si assume µ ∈ P2 (Rn ). Tuttavia conveniamo nel seguito di porre - com'è ragionevole - W22 (µ, γn ) = +∞ qualora per ogni π ∈ Γ(µ, γn ) valga R w(x, y) dπ(x, y) = +∞. 1 La disuguaglianza che segue va pertanto considerata Rn ×Rn alla luce di questa eventualità. Teorema 5.5.2. Sia data su (Rn , B(Rn )) una misura µ, assolutamente continua ri- spetto a γn e sia f ∈ L1 (Rn , B(Rn ), γn ) un rappresentante della densità di µ rispetto a γn . Allora W22 (µ, γn ) ≤ 2 Z Z f log f dγn = 2 log f dµ. (5.88) Osservazione 5.5.3. Ancorchè questo aspetto non sia discusso da Talagrand nel suo articolo ([28]), vale la pena di notare che l'espressione a secondo membro della disuguaglianza precedente non ha in generale senso dal momento che la densità f , essendo arbitraria, potrebbe annullarsi (e non necessariamente su insiemi trascurabili!). Assumeremo perciò convenzionalmente che laddove f = 0 sia f log(f ) = 0, com'è d'altro canto naturale in ragione del comportamento della funzione x 7→ x log(x) in un intorno destro dello 0. Questo fatto sarà dato per scontato nelle dimostrazioni seguenti. Dimostrazione. La dimostrazione della disuguaglianza di Talagrand sarà sviluppata in vari passi, ottenendo cioè il risultato cercato a diversi gradi di generalità, incominciando dal caso n = 1 (sulla retta reale) e poi tramite un argomento induttivo al caso di spazio 1 Questo equivale a dire µ ∈ P \P2 . Capitolo 5. Alcune disuguaglianze funzionali 65 euclideo di dimensione (nita) qualunque. Assumiamo dapprima che la densità f sia (sarebbe più opportuno dire `possa essere scelta') una step function avente supporto compatto e convesso (per ssare le notazioni diciamo che sia l'intervallo [a, b] ∈ R) e denotiamo per semplicità con ρ = ρ1 la densità della misura gaussiana canonica unidimensionale γ = γ1 . Vi è un' ovvia maniera di trasportare γ verso µ, per la prima volta suggerita da Fréchet e consistente nel denire la mappa di trasporto direttamente tramite la relazione γ((−∞, x]) = µ((−∞, ϕ(x)]). (5.89) A priori non è detto che questa denizione sia ben posta, né che la funzione ϕ abbia delle buone proprietà. In eetti però osserviamo che, dette Fγ ed Fµ le funzioni di ripartizione corrispondenti alle nostre misure si ha che (in ragione della denizione stessa di µ e γ , le quali sono in particolare assolutamente continue rispetto alla misura di Lebesgue su R) tali funzioni sono continue in ogni punto, inoltre Fγ è strettamente crescente su R mentre Fµ è strettamente crescente solo su [a, b] e costante per x ≤ a (ove assume valore 0) e per x ≥ b (ove assume il valore 1) . Inoltre il Teorema Fondamentale del Calcolo assicura che Fγ sia derivabile ∀x ∈ R, mentre per Fµ questo è vero ad eccezione di una quantità al più nita di punti (corrispondenti ai punti di discontinuità della densità f ). Inne, va notato che Fµ non è invertibile in senso classico su R, ma lo è se ristretta ad (a, b) che manda bigettivamente su (0, 1) . In ragione di ciò, dato che la denizione di ϕ(x) può essere riformulata come ϕ(x) = Fµ−1 ◦ Fγ (x), 2 (5.90) si ottengono immediatamente le proprietà seguenti: 1. La funzione ϕ(x) è ben denita ed è continua (in quanto composizione di funzioni continue) e quindi è a fortiori misurabile. 2. La funzione ϕ(x) verica la condizione integrale: Z x Z ϕ(x) ρ(u) du = −∞ f (u)ρ(u) du. −∞ (5.91) 3. La misura µ è l'immagine di γ tramite l' applicazione ϕ e conseguentemente l'immagine di γ tramite la mappa x 7→ (x, ϕ(x)) è una probabilità π su R2 avente come marginali γ e µ, ovvero è un piano di trasporto ammissibile tra tali misure (ovvero π ∈ Γ(γ, µ)). 4. La funzione ϕ(x) è derivabile ad eccezione di un numero nito di punti (l'insieme dei punti di non derivabilità è costituito dalle preimmagini tramite Fγ dei punti di non derivabilità di Fµ−1 e la funzione Fγ in questione è iniettiva). 5. Nei punti ove le funzioni ϕ(x) e Fµ sono derivabili vale la relazione (ottenuta per derivazione della (5.91)) ρ(x) = ϕ0 (x)f (ϕ(x))ρ(ϕ(x)). 2 Questa è una buona denizione perchè ∀x ∈ R si ha 0 < Fγ (x) < 1. (5.92) Capitolo 5. Alcune disuguaglianze funzionali 66 Detto ciò, avremo che W22 (µ, γ) ≤ Z d2 (x, y) dπ(x, y) = Z R2 d2 (x, ϕ(x)) dγ(x). (5.93) R Posto ora ξ(x − y) = (x − y)2 /2 ci basta allora provare che Z Z ξ(x − ϕ(x)) dγ(x) ≤ R f (x) log f (x) dγ(x). (5.94) R Ora il risultato si ottiene manipolando opportunamente il secondo membro. Dapprima Z Z f (x) log f (x) dγ(x) = log f (x) dµ(x) R Z = Z (ξ(ϕ(x)) − ξ(x) − log(ϕ0 (x))) dγ(x), log f (ϕ(x)) dγ(x) = R (5.95) R (5.96) R √ dal momento che ρ(x) = (1/ 2π) exp(−ξ(x)) ed avendo sfruttato all'ultimo passaggio la relazione (5.92) ricavata in precedenza. Osserviamo ora che vale Z 0 −ξ(x) ξ (x)(ϕ(x) − x)e Z dx = R (ϕ0 (x) − 1)e−ξ(x) dx (5.97) R (questa integrazione per parti è certamente lecita dato che per le ipotesi su f si ha che ϕ è limitata). Segue che, aggiungendo e togliendo a (5.96) questi termini: Z f (x) log f (x) dγ(x) (5.98) R Z = (ξ(ϕ(x)) − ξ(x) − (ϕ(x) − x)ξ 0 (x)) dγ(x) + R Z (ϕ0 (x) − 1 − log ϕ0 (x)) dγ(x). R (5.99) Ma ora il secondo dei due integrali a secondo membro dell'equazione appena scritta è positivo (essendo valida ∀x > 0 la disuguaglianza log(x) ≤ (x − 1)) mentre il primo ha per argomento θ(ϕ(x)−x) e questo fornisce la disuguaglianza necessaria per concludere. Pertanto abbiamo provato il teorema nel caso in cui f sia una step function avente supporto compatto e convesso ed ora passiamo a considerare (sempre per n = 1) il caso di densità generali, che si otterrà per approssimazione. Qui procediamo in due passi, dimostrando la tesi per 1. densità essenzialmente limitate, cioè ∈ L∞ 2. densità qualunque, cioè in L1 (R, B(R), γ). cosa che si fa in maniera standard servendosi dei teoremi 2.3.1 e 2.3.3. Per concludere la dimostrazione, dobbiamo considerare la disuguaglianza in dimensione arbitraria. Osservato che vale la tensorizzazione γN +1 =R γN ⊗ γ1 , sia f ≥ 0 una arbitraria funzione denita su RN +1 = RN × R e tale che f dγN +1 = 1. Indichiamo Capitolo 5. Alcune disuguaglianze funzionali 67 poi con g la densità corrispondente alla sua marginale sulle prime n coordinate, ovvero Z g(x) = f (x, y) dγ1 (y), la quale grazie al teorema di Fubini vericherà g dγN = 1. Vale la pena di notare che può accadere g(x) = 0 solo per quei valori di x tali che f (x, y) = 0 per q.o. y ∈ R, (x,y) sicchè possiamo porre fx (y) = fg(x) convenendo che fx (y) = 1 ove g(x) = 0. A questo punto una facile manipolazione algebrica mostra che: R Z Z f log f dγN +1 = RN +1 Z Z g log g dγN + RN RN fx log fx dγ1 g(x) dγN (x), (5.100) R nella quale tutti gli integrali sono ben deniti in virtù dell'osservazione appena fatta. Si assuma ora che f sia una versione della densità di una misura µ su RN +1 ed indichiamo con η la probabilità su RN corrispondente alla densità g ed inne con µx la misura su R di densità fx . Procediamo ora al trasporto di µ verso γN +1 in due passi, sì da poter poi sfruttare l'identità appena scritta. Come primo passo consideriamo il trasporto di µ verso η ⊗ γ1 : ad x ssato si tratta di trasportare δx ⊗ µx verso δx ⊗ γ1 (ovvero di redistribuire la massa Rlungo questa bra), cosa che per ipotesi induttiva sappiamo fare con spesa al più R fx log fx dγ1 e poi di integrare in x pesando opportunamente la spesa a seconda della quantità di massa posta nella bra di x. Segue che la spesa complessiva per questo trasporto è maggiorata proprio dal secondo addendo della (5.100). A questo punto si tratta di eseguire il trasporto di η ⊗ γ1 verso γN +1 , operazione che intuitivamente corrisponde ad una permutazione nella distribuzione di massa secondo la x (che rappresenta le prime N coordinate). Sempre per ipotesi induttiva noi sappiamo come trasportare η verso γN con un costo maggiorato dal primo addendo a destra della (5.96). Possiamo perciò pensare che il trasporto avvenga per composizione di due mappe di Monge operanti secondo direzioni tra loro ortogonali, dapprima secondo l'asse coordinato di indice n + 1 e poi secondo il piano a questo ortogonale. Ciò corrisponde a dire che nella prima fase del trasporto operiamo solo sull'ultima coordinata, mentre nella seconda sulle rimanenti n coordinate. Per concludere ci serve un'osservazione generale: Sia H = Rn con la struttura standard di spazio di misura e siano µ1 , µ2 , µ3 tre probabilità sulla sua σ algebra boreliana. Siano date poi mappe di Monge T (che trasporti µ1 verso µ2 ) ed S (che trasporti µ2 verso µ3 ) e tali che ∀x ∈ H (T (x) − x)⊥(S(T (x)) − T (x)). Allora S ◦ T è una mappa di Monge tra µ1 e µ3 di costo pari alla somma dei costi di T ed S R R R ovvero H |S ◦ T (x) − x|2 dµ = H |T (x) − x|2 dµ+ H |S(y) − y|2 dµ. La dimostrazione di questo fatto si ottiene aggiungendo e togliendo al primo integrando la quantità T (x) e sviluppando il quadrato tenendo conto delle ipotesi di ortogonalità. L' applicazione di quest'osservazione al nostro caso ci consente di completare la dimostrazione della disuguaglianza di Talagrand. 5.5.2 Entropia relativa In questa sezione vogliamo discutere il risultato appena ottenuto alla luce della nozione di entropia, che per questo brevemente descriviamo. Si consideri assegnato un certo Capitolo 5. Alcune disuguaglianze funzionali 68 sistema sico e si supponga di poterne descrivere lo spazio delle fasi in termini di una quantità nita di stati, che indichiamo con S1 , .., Sp . Più in generale si potrà pensare a questo come ad un modello discretizzato di un sistema continuo, ammesso che ciò abbia un qualche signicato. Se ora il nostro sistema sico è composto di un certo numero di particelle, diciamo N, può essere utile conoscere istante per istante lo stato (nel senso descritto sopra) di ciascuna di esse. La conoscenza, per ciscuno degli stati Sj , delle particelle che si trovano in quello stato sarà chiamata conoscenza del microstato del sistema. Con ciò intendiamo, più precisamente, la conoscenza per ogni indice 1 ≤ i ≤ N del valore di Sj(i) del suo stato. In questo senso il sistema ammetterà pN possibili congurazioni. Talvolta può invece essere suciente una quantità molto minore di informazione, ovvero la sola conoscenza del numero Nj di particelle che si trovano in ciascuno stato Sj : si parla, a questo proposito, di macrostato del sistema. La conoscenza del macrostato di un sistema è chiaramente equivalente alla conoscenza delle frequenze: Nj fj = j = 1, . . . , p. (5.101) N Questa terminologia, qui introdotta in modo del tutto informale, è tuttavia standard nel contesto della meccanica statistica. Ci si può domandare, almeno in riferimento al nostro semplice modello, se esista un modo di calcolare il numero di microstati corrispondenti ad un certo macrostato. Un facile calcolo combinatorio mostra che la congurazione macroscopica descritta dalla stringa (N1 , . . . , Np ) corrisponde a W = N! . N1 ! . . . Np ! (5.102) La quantità log(W ) si denisce entropia del macrostato considerato (f1 , ..., fp ). Si può dimostrare, ad esempio servendosi della formula di Stirling, che quando tutti i numeri Nj tendono all'innito, il che corrisponde alle situazioni tipiche della meccanica statistica, se le frequenze fj convergono verso valori limite che per semplicità di notazione indicheremo ancora con fj vale la relazione p X 1 log(W ) −→ − fj log fj . N j=1 (5.103) Se ora poniamo H(f ) = pj=1 fj log fj , quanto appena scritto ci dice che la quantità exp(−N H(f )) è una stima quantitativa asintotica del numero di microstati compatibili con un certo macrostato. OvviamenteR la naturale generalizzazione di quest'oggetto nel caso continuo è data da H(f ) = f log f . Tale quantità è spesso denita in letteratura come funzionale H di Boltzmann, tuttavia adeguandoci di più ad altri autori e con parziale abuso di linguaggio (rispetto a quanto detto sopra) diamo la seguente denizione: P Denizione 5.5.4. Dati (Ω, F, µ) uno spazio probabilizzato, ν una misura di probabilità su tale spazio e la funzione ϕ : [0, +∞) → R denita da ( ϕ(t) = t log(t) se t > 0 0 se t = 0, (5.104) Capitolo 5. Alcune disuguaglianze funzionali 69 chiamiamo entropia relativa di ν rispetto a µ la quantità E(ν/µ) = R ϕ( dν ) dµ se ν µ dµ X (5.105) altrimenti. +∞ Teorema 5.5.5. Con riferimento alle notazioni appena descritte si ha E(ν/µ) ≥ 0 e E(ν/µ) = 0 se e solo se µ = ν. Dimostrazione. Per la prima parte si osservi che vale su (0, +∞) ϕ00 (t) = 1t , sicchè la funzione ϕ è convessa su tale intervallo aperto. Detto allora X0 = {f > 0}, possiamo perciò applicare la disuguaglianza di Jensen per ottenere la tesi: Z X0 Z f log f dµ ≥ ( Z f dµ) log( X0 Z Z f dµ) log( f dµ) = 0. f dµ) ≥ ( X0 X (5.106) X Per la seconda parte osserviamo dapprima che µ = ν ⇔ f = 1 µ-q.o. Perciò se µ = ν , si avrà ϕ ◦ f (x) = 0 µ-q.o. e per integrazione E(ν/µ) = 0. Viceversa: consideriamo, in parziale analogia alla dimostrazione della disuguaglianza di Jensen, la retta tangente al graco della funzione ϕ nel punto to = 1, che avrà equazione cartesiana h(t) = t − 1 e per convessità sarà tale che ϕ(t) ≥ h(t) ∀t ∈ [0, +∞) , potendo valere l'uguaglianza se e solo se x = 1 (la convessità è stretta). Posto in quest'ultima t = f (x) ed integrando in dµ abbiamo che E(ν/µ) = 0 implica che l'integrando sia nullo µ-q.o. e per quanto appena osservato ciò è possibile se e solo se f (x) = 1 µ-q.o. in X , che è quel che volevamo. Questo risultato può legittimare l'interpretazione dell'entropia relativa come di una `distanza' (in qualche senso lato) tra una probabilità di riferimento µ ed una probabilità che sia assolutamente continua rispetto a questa, ovvero ν . In ragione di ciò, la disuguaglianza di Talagrand esprime un legame tra due modi diversi di misurare la distanza tra due sifatte probabilità (nel setting particolare del teorema medesimo) rappresentate appunto dall'entropia relativa e dalla distanza di Wasserstein W2 . In particolare, essa può essere parafrasata come segue: Data sullo spazio probabilizzato (Rn , B(Rn ), γn ) una ulteriore probabilità µ = f · γn con f ∈ L1 (Rn , B(Rn ), γn ) si ha che se l'entropia relativa E(µ/γn ) è nita allora lo è pure la distanza di Wasserstein W2 (µ, γn ) e vale la relazione W22 (µ, γn ) Z ≤2 Z f log f dγn = 2 log f dµ = 2E(µ/γn ). (5.107) 5.5.3 Una prima disuguaglianza di concentrazione Teorema 5.5.6. Sia dato un qualunque insieme B ∈ B(Rnq ) tale che γn (B) > 0. Allora per ogni t sucientemente grande, più precisamente ∀t ≥ 2 log γn1(B) , vale s 2 1 1 1 − γn (Bt ) ≤ exp − t − 2 log , 2 γn (B) (5.108) Capitolo 5. Alcune disuguaglianze funzionali 70 ove Bt indica il t-intorno dell'insieme B . Dimostrazione. Si tratta di una facile applicazione del Teorema 5.5.2. Anzitutto se indichiamo con d(x, y) la distanza euclidea in Rn abbiamo che, in ragione della prima proprietà di ordinamento tra misure di Wasserstein e del Teorema 5.5.2. s Z W1 (µ, γn ) ≤ W2 (µ, γn ) ≤ 2 f log f dγn . (5.109) Se ora prendiamo un'altra misura µ0 sullo stesso spazio di misura, pure assolutamente continua rispetto alla misura gaussiana e rappresentata da una densità f 0 , la disuguaglianza triangolare per la metrica W1 ci fornisce (5.110) W1 (µ, µ0 ) ≤ W1 (µ, γn ) + W1 (µ0 , γn ), la quale sfruttando la disuguaglianza precedente dà s Z s Z W1 (µ, µ ) ≤ 2 f log f dγn + 2 f 0 log f 0 dγn . 0 (5.111) Applichiamo ora la (5.111) al caso particolare delle misure uniformi normalizzate concentrate su due boreliani A e B , ovvero rappresentate da densità f = γn1(A) χ(A) e f 0 = γn1(B) χ(B), sì da ottenere s 0 W1 (µ, µ ) ≤ 1 2 log + γn (A) s 2 log 1 . γn (B) (5.112) A questo punto si deve osservare che preso comunque un piano ammissibile π ∈ Γ(µ, µ0 ), questo sarà concentrato sull'insieme prodotto A × B ∈ B(Rn ) ⊗ B(Rn ) (in altri termini per π − q.o. (x, y) ∈ (Rn )2 si avrà x ∈ A e y ∈ B ) per cui esiste (a, b) in A × B tale R che d(a, b) ≤ d(x, y) dπ(x, y). (Se non appare convincente il precedente argomento si R assuma, per assurdo, che valga d(a, b) > d(x, y) dπ(x, y)π − q.o. e si integrino ambo i membri in dπ(a, b). Ricordando che π è una probabilità e che è concentrata su A × B si ottiene la tesi). Dunque si avrà a maggior ragione s inf {||x − y||2 ; x ∈ A, y ∈ B} ≤ 1 + 2 log γn (A) s 2 log 1 . γn (B) (5.113) Non resta allora che scegliere A =ct per avere dalla (5.113) s t≤ e quindi se t ≥ q 2 log 1 γn (B) 1 2 log + γn (B) s 2 log 1 γn (Btc ) tramite quadratura la tesi cercata. (5.114) Capitolo 5. Alcune disuguaglianze funzionali 71 5.5.4 Fenomeni di concentrazione di misure In questo paragrafo vogliamo contestualizzare il risultato precedente in un quadro teorico più generale riferendoci alla teoria dei fenomeni di concentrazione sviluppata da matematici quali V. Milman (in riferimento alla geometria asintotica degli spazi di Banach), M.Gromov (partendo da questioni generali di geometria riemanniana), G.Schechtman, M.Ledoux e dallo stesso M.Talagrand che a questo ne ha sviluppato gli studi esposti in precedenza. La possibilità di parlare di concentrazione di misure presuppone l'esistenza di un insieme arricchito da due tipi di strutture: da un lato dev'essere uno spazio di probabilità, dall'altro uno spazio metrico cosicché abbia senso la nozione di t-intorno di un insieme ovvero di allargamento isoperimetrico in un senso che sarà chiarito in seguito. Perciò sia (X, d) uno spazio metrico e sia µ una misura di probabilità sulla sua σ -algebra boreliana (Gromov denisce uno spazio sifatto metric measure space). Denizione 5.5.7. Dato uno spazio metrico di misura (X, d, µ) si denisce funzione di concentrazione l'applicazione che fa corrispondere ad ogni r > 0 la quantità 1 α(X,d,µ) (r) = sup 1 − µ(Ar ); A ∈ B(X), µ(A) ≥ . 2 (5.115) Talvolta, qualora non vi siano ambiguità, scriveremo semplicemente αµ in luogo di α(X,d,µ) . Osservazioni 5.5.8. • Nella denizione precedente Ar = {x ∈ X; d(x, A) < r} , quindi l'intorno è aperto. • Qualora lo spazio X sia limitato si ha che la denizione va intesa per r < diam(X), convenendo che per r ≥ diam(X) la funzione di concentrazione valga 0. Per r = 0 conveniamo invece che essa assuma il valore 1/2. • Per denizione, la funzione di concentrazione assume valori minori od eguali ad 1/2, inoltre è monotona non crescente ed inne decresce a 0 al limite per r → ∞. Per vericare quest'ultimo fatto, si noti che ssato comunque un punto x ∈ X ed un numero 0 < < 12 si può scegliere r di modo che la palla di centro x e raggio r abbia misura maggiore di 1 − . Allora, per il principio di Dirichlet, ogni insieme di Borel A tale che µ(A) ≥ 21 deve intersecare B e perciò A2r ricopre B e dunque 1 − µ(A2r ) ≤ 1 − µ(B) < , da cui quel che volevamo. • È conseguenza della denizione data il fatto che, preso comunque un insieme A di misura µ(A) ≥ 21 , si abbia µ(Ar ) ≥ 1 − αµ (r). L'idea della concentrazione di misure è che in molti casi importanti (che ci apprestiamo a discutere) α(X,d,µ) decresca rapidamente a 0 al crescere di r (oppure all'aumentare della dimensione dello spazio X). Nella denzione seguente sono elencati i due casi di concentrazione più comuni. Denizione 5.5.9. In riferimento alle notazioni introdotte in precedenza, diciamo che una probabilità µ sullo spazio (X, d) ha concentrazione normale se esistono costanti numeriche C, c > 0 tali che ∀r > 0, valga 2 α(X,d,µ) (r) ≤ Ce−cr . (5.116) Capitolo 5. Alcune disuguaglianze funzionali 72 Parleremo invece di concentrazione esponenziale se esistono costanti C, c > 0 tali che α(X,d,µ) (r) ≤ Ce−cr ∀r > 0. (5.117) Vediamo ora due lemmi di uso frequente: il primo indica come ricondurre le proprietà di concentrazione ad insiemi A di misura positiva, ma non necessariamente maggiore od eguale di 21 mentre il secondo mostra come applicazioni lipschitziane mandino misure concentrate verso misure concentrate, nel senso di questo paragrafo. Lemma 5.5.10. Sia µ una misura di probabilità sulla tribù boreliana d'uno spazio metrico (X, d) e sia A ⊆ X un boreliano tale che µ(A) ≥ > 0. Allora vale la disuguaglianza µ(Ar+r0 ) ≥ 1 − αµ (r) (5.118) per ogni valore di r > 0 ed r0 a guisa che αµ (r0 ) < . Dimostrazione. Aermo anzitutto che la scelta di r0 di modo che αµ (r0 ) < implica che µ(Ar0 ) ≥ 21 . Infatti, sia B il complementare di Ar0 cosicchè A è a sua volta incluso nel complemetare di Br0 (facile verica): se fosse µ(B) ≥ 21 , avremmo µ(A) ≤ µ(Brc0 ) = 1 − µ(Br0 ) ≤ αµ (r0 ) < , cosa che contrasta con l'ipotesi sulla misura dell'insieme A. Pertanto µ(Ar0 ) ≥ 12 ed a questo punto si sfrutta la denzione di αµ per Ar0 : osservato che la proprietà triangolare garantisce (Ar0 )r ⊆ Ar0 +r abbiamo le disuguaglianze 1 − µ(Ar+r0 ) ≤ 1 − µ((Ar0 )r ) ≤ αµ (r). (5.119) Enunciamo ora un semplice teorema che ci mostra come le funzioni di concentrazione decrescano sotto l'azione di mappe 1-lipschitziane. Lemma 5.5.11. Sia ϕ una mappa lipschitziana tra due spazi metrici (X, d) ed (Y, δ), ovvero tale che δ(ϕ(x), ϕ(x0 )) ≤ ||ϕ||Lip d(x, x0 ) ∀x, x0 ∈ X, (5.120) sia poi µ una probabilità su (X, d) e sia µϕ il push-forward di µ tramite ϕ . Allora per ogni r > 0, si ha α(Y,δ,µϕ ) ≤ α(X,d,µ) (r/||ϕ||Lip ). (5.121) In particolare, se ϕ : X → Y è 1-lipschitziana, si ha αµϕ ≤ αµ . Dimostrazione. È suciente osservare che dato comunque un insieme boreliano A ⊆ Y vale l'inclusione ϕ−1 (Ar ) ⊃ (ϕ−1 (A))r/||ϕ||Lip , (5.122) ove gli intorni sono riferiti alle distanze δ e d rispettivamente e tradurre questo fatto in termini di funzioni di concentrazione. Un altro aspetto della teoria della concentrazione è legato alle cosidette disuguaglianze di deviazione che rendono conto del fatto che una funzione a valori reali, lipschitziana Capitolo 5. Alcune disuguaglianze funzionali 73 e denita su uno spazio metrico di misura caratterizzato dalla presenza d'una misura con proprietà di concentrazione è con alta probabilità localizzata intorno ad un valore costante (mediana e/o valore atteso). Anzitutto va detto che, diversamente da quanto fatto in precedenza avremmo potuto dare una denizione generale di funzione di concentrazione ovvero porre ∀ > 0 α(X,d,µ) (r) = sup {1 − µ(Ar ); A ∈ B(X), µ(A) ≥ } , (5.123) ottenendo in ogni caso una nozione essenzialmente equivalente (grazie al lemma 3.5.4), tuttavia la scelta del valore 1/2 non è casuale ed è legata al concetto di mediana. Denizione 5.5.12. Dato uno spazio metrico di misura (X, d, µ) ed una funzione F su di esso denita, a valori reali e continua, diremo che mF è una mediana per F se µ({F ≤ mF }) ≥ 12 e µ({F ≥ mF }) ≥ 12 . Osservazione 5.5.13. Nel setting della precedente denizione si ha ovviamente che data F esistono sempre mediane mF , tuttavia non è aatto detto che vi sia unicità. Inoltre non è vero, almeno in generale, che il valore atteso di F , quale variabile aleatoria, coincida con una sua mediana. Data una funzione continua F come sopra deniamo il suo modulo di continuità come ωF (η) = sup {|F (x) − F (y)| d(x, y) < η} , η > 0. (5.124) Se mF è una mediana di F per µ e poniamo A = {F ≤ mF } , si ha che x ∈ Aη ⇒ ∃y ∈ A t.c. d(x, y) < η ed allora F (x) ≤ F (y) + ωF (η) ≤ mF + ωF (η). Da questo, poichè µ(A) ≥ 21 , per denizione di funzione di concentrazione µ({F > mF + ωF (η)}) ≤ αµ (η). (5.125) Analogamente, prendendo come A = {F ≥ mF } , otteniamo µ({F < mF − ωF (η)}) ≤ αµ (η). (5.126) Dalle precedenti viene la relazione µ({|F − mF | > ωF (η)}) ≤ 2αµ (η). (5.127) Se ora ci restringiamo a funzioni lipschitziane su (X, d) avremo chiaramente ωF (η) ≤ η||F ||Lip e, detto A = {F ≤ m}, Ar ⊆ {m + r||F ||Lip } . Nel caso in cui m = mF sia una mediana di F per µ, abbiamo che ∀r > 0, µ({F ≥ mF + r}) ≤ αµ (r/||F ||Lip ). (5.128) Questa disuguaglianza, insieme a quella corrispondente per funzioni non necessariamente lipschitziane, prende il nome di disuguaglianza di deviazione. È poi possibile ripetere questo argomento per −F in modo da ottenere µ({F ≤ mF − r}) ≤ αµ (r/||F ||Lip ), (5.129) Capitolo 5. Alcune disuguaglianze funzionali 74 che combinata con la precedente fornisce µ({|F − mF | ≥ r}) ≤ 2αµ (r/||F ||Lip ), (5.130) alla quale diamo il nome di disuguaglianza di concentrazione. Essa descrive infatti la localizzazione di F intorno ad una sua mediana con legge αµ : a seconda dei valori di ||F ||Lip e della αµ questa disuguaglianza può in eetti descrivere la concentrazione di F intorno ad un valore costante oppure la sua dispersione su una regione di spazio di misura grande. Le disuguaglianze di deviazione e di concentrazione per funzioni lipschitziane testé ottenute sono a posteriori equivalenti ai corrispondenti asserti sugli insiemi. Sia infatti A un insieme boreliano con µ(A) ≥ 21 e si ponga F (x) = d(x, A), x ∈ X : avendosi chiaramente F ≥ 0, ||F ||Lip ≤ 1 e µ({F = 0}) ≥ µ(A) ≥ 21 , risulta che 0 è una mediana di F per µ e dunque, se vale la disuguaglianza di deviazione 1 − µ(Ar ) = µ({F ≥ r}) ≤ αµ (r). (5.131) In denitiva, possiamo riassumere i risultati sin qui ottenuti in questa proposizione: Teorema 5.5.14. Sia µ una misura di probabilità sulla σ -algebra boreliana di uno spazio metrico (X, d). Sia poi F una funzione a valori reali, denita su (X, d), continua e con modulo di continuità ωF e sia inne mF una sua mediana per µ. Allora, per ogni η > 0, µ({F > mF + ωF (η)}) ≤ αµ (η). (5.132) In particolare, se F è 1-lipschitziana, per ogni r > 0, µ({F ≥ mF + r}) ≤ αµ (r/||F ||Lip ) (5.133) µ({|F − mF | ≥ r}) ≤ 2αµ (r/||F ||Lip ). (5.134) e Viceversa, se per qualche funzione non-negativa α si ha µ({F ≥ mF + r}) ≤ α(r) (5.135) per ogni funzione F 1-lipschitziana con mediana mF ed ogni r > 0, allora αµ < α. Introdotte queste nozioni di base, siamo in grado di indagare alcuni tipici fenomeni di concentrazione. Molti risultati di concentrazione sono ottenuti a partire da disuguaglianze isoperimetriche e questo avviene ad esempio proprio nel caso della sfera. Teorema 5.5.15. Si consideri nello spazio euclideo Rn la sfera unitaria S n−1 , resa uno spazio metrico dalla sua distanza geodetica ρ e munita della misura di Haar normalizzata σn−1 sulla sua σ-algebra boreliana. Se A è un boreliano di S n−1 ed H è una palla per la distanza geodetica ρ con la stessa misura σn−1 (A) = σn−1 (H), allora per ogni r > 0 σn−1 (Ar ) ≥ σn−1 (Hr ). Capitolo 5. Alcune disuguaglianze funzionali 75 In particolare, se σn−1 (A) ≥ 1/2 (ed n ≥ 3), allora σn−1 (Ar ) ≥ 1 − e perciò α(σn−1 ) π 1/2 2 ) exp(−(n − 2)r /2 8 1/2 π ≤ exp(−(n − 2)r2 /2). 8 (5.136) (5.137) La dimostrazione di questo teorema si può trovare in testi dedicati alle disuguaglianze geometriche, quale ad esempio [7]. Sorprendentemente, il teorema precedente consente con relativa facilità di ottenere un risultato di isoperimetria per le misure gaussiane negli spazi euclidei di dimensione nita. Si deve forse ad H.Poincaré l'intuizione del fatto che √ √ n la misura uniforme normalizzata sulla sfera nS n−1 di centro se indichiamo con σn−1 √ l'origine in Rn e raggio n e con Πn,d la proiezione√ da Rn sulle prime d coordinate n (∼ = Rd ), allora la successione di probabilità (Πn,d (σn−1 )) in Rd converge debolmente d alla misura gaussiana canonica su R per n → ∞. Informalmente, si ha che per la legge forte dei grandi numeri ρn /n → 1 q.c. ove ρ2n = g12 + · · · + gn2 e (gi ) è una successione di variabili aleatorie gaussiane normali e tra loro indipendenti. Poichè ora √ n (n1/2 /ρn ) · (g1 , . . . , gn ) ha legge σn−1 , si otterrà pure che (n1/2 /ρn ) · (g1 , . . . , gd ) avrà √ n legge Πn,d (σn−1 ), da cui, usando il risultato precedente, si arriva alla tesi. In ogni caso, prima di enunciare il risultato di isoperimetria in spazi gaussiani, richiamiamo alcune notazioni: indichiamo con Φ la funzione cumulativa della probabilità γ1 , con Φ−1 la sua funzione inversa ed inne con Ψ = 1 − Φ, per la quale va ricordato la semplice stima 2 1 Ψ(t) ≤ e−t /2 , t ≥ 0, (5.138) 2 che si ottiene tramite un elementare studio di funzione. La dimostrazione del risultato seguente si può trovare nel testo di Ledoux e Talagrand [19] . Teorema 5.5.16. Se A è un boreliano di Rn ed H è un semispazio {x ∈ Rn |(x, u) < λ}, con u ∈ Rn , λ ∈ [−∞, +∞] , ed essi hanno la stessa misura gaussiana γn (A) = γn (H), allora, per ogni r > 0, γn (Ar ) ≥ γn (Hr ). Equivalentemente, Φ−1 (γn (Ar )) ≥ Φ−1 (γn (A)) + r (5.139) ed, in particolare, se γn (A) ≥ 1/2, 1 − γn (Ar ) ≤ Ψ(r) ≤ quindi pure αγn ≤ 1 −r2 /2 e , 2 1 −r2 /2 e . 2 (5.140) (5.141) Osservazione 5.5.17. Nella dimostrazione del precedente teorema, che è descritta ad esempio in [19], l'unica parte non banale è in eetti la prima, mentre la verica dell'equivalenza enunciata e la parte nale sono quasi immediate. Va inoltre sottolineato come gli insiemi estremali, per i quali si ottiene l'uguaglianza nella disuguaglianza isoperimetrica per misure gaussiane, sono solo i semispazi. Capitolo 5. Alcune disuguaglianze funzionali 76 Osservazione 5.5.18. Il precedente teorema ci fornisce il miglior risultato esistente per le funzioni di concentrazione in spazi gaussiani: αγn ≤ 1 −r2 /2 e . 2 (5.142) In ragione di ciò, si comprende il valore del risultato ottenuto nel paragrafo 3.4 laddove con metodi elementari si è ottenuta la stima s 2 1 1 1 − γn (Bt ) ≤ exp − t − 2 log , 2 γn (B) (5.143) che corrisponde ad una maggiorazione per la funzione di concentrazione αγn 2 p 1 ≤ exp − t − 2 log 2 , 2 (5.144) la quale dierisce dalla precedente solo per fattori correttivi, ma non per la dipendenza funzionale in t, che è la medesima. Possiamo ora approttare dei riultati ottenuti nel Teorema 5.5.8 per tradurre questa proprietà di concentrazione in termini di localizzazione di funzioni lipschitziane su spazi gaussiani. Corollario 5.5.19. Considerato lo spazio metrico di misura (Rd , B(Rd ), γd ) ed una funzione F ivi denita, a valori reali e lipschitziana, si ha che γd (|F − mF | ≥ t) ≤ 2Ψ(t/||F ||Lip ) ≤ exp(−t2 /2||F ||2Lip ) Analogamente γd (F ≥ mF + t) ≤ 1 exp(−t2 /2||F ||2Lip ) 2 ∀t > 0. (5.145) (5.146) Dimostrazione. Si tratta semplicemente di applicare le relazioni ottenute nel Teorema 5.5.8 al caso in esame e concludere servendosi dei risultati di concentrazione contenuti nel Teorema 5.5.10 . Osservazioni 5.5.20. Quale conseguenza del teorema precedente, si ha che una funzione F come sopra ammette necessariamente un' unica mediana. Infatti, se ve ne fossero 0 F due - diciamo mF < m0F - allora posto t = mF −m si avrebbe 21 ≤ γd (F ≥ m0F ) ≤ 2 γd (F ≥ mF + t) ≤ Ψ(t/||F ||Lip ) < 12 , cosa che è assurda. Va inoltre osservato come in ipotesi opportune la proposizione precedente, che esprime una localizzazione di F intorno alla sua mediana, possa essere tradotta in un asserto relativo al valore atteso EF , cosa che è certamente più interessante. In ogni caso però, una diretta integrazione della (5.146) mostra che mF ed EF sono tipicamente vicini, valendo la stima |EF − mF | ≤ (π/2)1/2 ||F ||Lip . (5.147) Per completezza, può risultare interessante dedurre dai due casi appena descritti altre forme di concentrazione. Questo si può fare generalizzando il lemma 3.5.5 sì da ottenere il seguente Capitolo 5. Alcune disuguaglianze funzionali Lemma (Contraction Principle ) 77 5.5.21. Si consideri lo spazio metrico di misura (R , B(R ), γd ) e sia ϕ : R → R una mappa lipschitziana di costante c = cϕ > 0. Denotando con λ il push-forward di γd tramite ϕ, vale per λ vale la seguente disuguaglianza isoperimetrica: per ogni insieme boreliano A ⊆ Rd ed ogni r > 0 si ha d d d d (5.148) Φ−1 (λ(Acr )) ≥ Φ−1 (λ(A)) + r. Inoltre, per ogni funzione F lipschitziana, a valori reali e denita sullo spazio (Rd , B(Rd ), λ) vale la disuguaglianza di concentrazione: λ(|F − mF | ≥ t) ≤ 2Ψ(t/c||F ||Lip ) ≤ exp(−t2 /2c2 ||F ||2Lip ) ∀t > 0. (5.149) Dimostrazione. Per quanto riguarda il primo asserto, si noti che grazie al Teorema 5.5.10 Φ−1 (γd ((ϕ−1 (A))r )) ≥ Φ−1 (λ(A)) + r (5.150) e che, in ragione dell'ipotesi di lipschitzianità di ϕ, (ϕ−1 (A))r ⊆ ϕ−1 (Acr ), dalle quali la tesi segue subito. La deduzione della seconda parte è identica a quella sviluppata sopra per il caso gaussiano. A questo punto diventa interessante capire quali misure λ possano essere ottenute da γ per contrazione, nel senso del teorema precedente. Non esiste, ad oggi, una completa descrizione in questo senso e pertanto ci limitiamo qui a considerare il caso più importante ovvero quello in cui λ è la misura uniformemente distribuita sul cubo n [0, 1] ⊆ Rn . Si vede subito che tale λ è la misura immagine di γn tramite l'applicazione ϕ = Φ⊗n , cioè ϕ(x) = Φ(x1 ) · · · Φ(xn ), x = (x1 , ..., xn ) ∈ Rn , per la quale vale c = cϕ = (2π)−1/2 . In eetti, può spesso essere più utile, per motivi di simmetria, considerare il cubo centrato [−1/2, 1/2]n , nel quale caso si prenderà ϕ = (2Φ − 1)⊗n , per cui cϕ = (2/π)1/2 . 5.5.5 Una dimostrazione di tipo mass-transportation della disuguaglianza di Talagrand A conclusione di questo capitolo vogliamo proporre una dimostrazione alternativa della disuguaglianza di Talagrand basata sulla tecnica di interpolazione geodetica e sullo studio della displacement convexity del funzionale entropico. Per conformarci al setting teorico sviluppato nel capitolo 4 ed evitare inutili complicazioni tecniche, assumeremo da subito di operare in P2 (Rn ). Teorema 5.5.22. Data comunque una misura di probabilità µ ∈ P2ac (Rn ) ed indicata, in conformità a quanto sopra, con γn la misura gaussiana standard n-dimensionale, si ha che W22 (µ, γn ) ≤ 2E(µ/γn ). (5.151) Osserviamo che in eetti l'assunzione µ ∈ P2 (Rn ) non è signicativamente lesiva di generalità, dal momento che nelle applicazioni della disuguaglianza di Talagrand (in primis nella deduzione della disuguaglianza di concentrazione 5.5.6) si opera sempre in questo spazio. Capitolo 5. Alcune disuguaglianze funzionali 78 Veniamo dunque alla dimostrazione promessa, la quale - come si vedrà - si basa su molti degli strumenti costruiti nei capitoli precedenti, risultando così sorprendentemente semplice ed elegante. Ricordiamo una notazione: con ρn indichiamo la densità di γn rispetto alla misura di Lebesgue. Dimostrazione. Posto, per maggior chiarezza, µ0 = γn e µ1 = µ indichiamo con (µt )t∈[0,1] la geodetica a velocità costante che interpola queste misure. Poichè P2ac (Rn ) è geodeticamente convesso (grazie all'Osservazione 4.2.2), sappiamo che la nostra curva giace interamente in tale sottospazio di P2 (Rn ) ed è perciò in particolare costituita di misure dotate di densità rispetto alla misura di Lebesgue in Rn e perciò pure rispetto a γn (in ragione dell'equivalenza di Ln e γn .) Pertanto, esiste una famiglia di densità σt con t ∈ [0, 1] tali che µt = σt γn ∀t ∈ [0, 1] . Deniamo a questo punto il funzionale entropico E(µt /γn ) del quale vogliamo studiare le proprietà di convessità lungo la geodetica (µt )t∈[0,1] . Per fare ciò, si ponga ut = σt ρn = σt e−V con V (x) = x2 /2, sicché il funzionale E risulta esprimibile come somma dei due addendi Z V (x)ut (x) dx (5.152) σt (x) log σt (x) dx. (5.153) V(µt ) = Rn ed Z U(µt ) = Rn Aermo che il funzionale V è 1-uniformemente convesso lungo la nostra geodetica. Per mostrarlo, grazie al Teorema 4.2.3 occorre e basta provare la 1-uniforme convessità della funzione V (x), cosa che è di verica immediata valendo l'identità algebrica 1 2 V ((1 − t)x1 + tx2 ) = (1 − t)V (x1 ) + tV (x2 ) − t(1 − t) |x1 − x2 | . 2 (5.154) Aermo altresì che il funzionale U è convesso lungo la medesima geodetica: questo caso è già stato discusso e dimostrato nella seconda parte dell'Osservazione 4.2.4. Da tutto ciò concludiamo che il nostro funzionale entropico E(µt /γn ) è 1-uniformemente convesso lungo la geodetica (µt )t∈[0,1] e dunque, grazie al Teorema 4.2.7 otteniamo che E(µ1 /µ0 ) ≥ E(µ0 /µ0 ) + d+ 1 E(µt /µ0 ) + W22 (µ1 , µ0 ). dt t=0 2 (5.155) Del resto, noi già sappiamo che µ1 = µ, µ0 = γn , che ovviamente E(µ0 /µ0 ) = 0 ed + inne che dev'essere necessariamente dtd t=0 E(µt /µ0 ) ≥ 0 in ragione del Teorema 5.5.5. Se ne evince nalmente che E(µ/γn ) ≥ ovvero la nostra tesi. 1 2 W (µ1 , µ0 ) 2 2 (5.156) Appendice A Alcuni risultati di Analisi Convessa Questa appendice è dedicata al richiamo di certi risultati standard di Analisi Convessa utilizzati nel corso della tesi. Essi sono presentati in maniera sintetica e (con un paio di eccezioni) senza le relative dimostrazioni, per le quali si rimanda alla classica referenza [27]. A.1 Proprietà di base e sottodierenziabilità Denizione A.1.1. Una funzione ϕ : Rn → R ∪ {+∞} si dice propria se non assume identicamente il valore +∞. In tale caso indicheremo con Dom(ϕ) l'insieme (non vuoto) dei punti ove ϕ assume valore nito. Tale insieme sarà detto dominio di ϕ. Una funzione ψ : Rn → R ∪ {+∞} si dice convessa se ∀x, y ∈ Rn , ∀t ∈ [0, 1] , ψ(tx + (1 − t)y) ≤ tψ(x) + (1 − t)ψ(y). (A.1) Essa è inne strettamente convessa se l'uguaglianza nella (A.1) implica x = y oppure t = 0 o t = 1. Osserviamo che il dominio di una funzione convessa propria può essere chiuso, aperto o nessuna delle due cose, tuttavia esso è sempre un insieme convesso, il cui bordo sarà pertanto un insieme trascurabile secondo la misura di Lebesgue in Rn . Indichiamo d'ora in avanti con Int(Dom(ϕ)) la parte interna del dominio della generica funzione convessa propria ϕ. Il valore di una funzione convessa propria ϕ sulla frontiera dell'insieme Dom(ϕ) può essere modicato in svariate maniere senza perdita delle proprietà di convessità di ϕ. Questo non è più possibile se si assume ϕ semicontinua inferiormente (SCI): se infatti due funzioni convesse proprie ϕ e ψ sono tali che Int(Dom(ϕ))=Int(Dom(ψ )) ed inoltre ϕ = ψ sulla comune frontiera di tali insiemi, allora ϕ = ψ globalmente. Per quanto riguarda la regolarità, vale il seguente Teorema A.1.2. La restrizione di una funzione convessa propria ϕ : Rn → R ∪ {+∞} a Int(Dom(ϕ)) è una funzione continua e localmente lipschitziana. Inoltre esiste quasi ovunque in Int(Dom(ϕ)) il suo gradiente (in senso classico) ∇ϕ ed è localmente limitato. Forniamo ora una classica caratterizzazione geometrica della convessità. 79 Appendice A. Alcuni risultati di Analisi Convessa 80 Teorema A.1.3. Data una funzione convessa propria ϕ : Rn → R ∪ {+∞} ed un punto x ∈ Rn in cui esista ∇ϕ si ha che vale la relazione ∀z ∈ Rn ϕ(z) − ϕ(x) ≥ h∇ϕ(x), z − xi . (A.2) Come facile conseguenza di questo teorema abbiamo che vale la proprietà di monotonia h∇ϕ(x) − ∇ϕ(y), x − yi (A.3) per tutte le coppie di punti di dierenziabilità di ϕ. È ben noto poi che la (A.2) esprime il fatto che l'iperpiano tangente al graco di ϕ nel punto x giace interamente al di sotto del graco di ϕ. Per ovviare al problema dell'esistenza di tale iperpiano tangente (ovvero alla possibile non dierenziabilità di ϕ), diamo la seguente denizione più generale. Denizione A.1.4. Il sottodierenziale di una funzione convessa propria ϕ : Rn → R ∪ {+∞} è l'applicazione polidroma a valori in Rn denita dalla coimplicazione y ∈ ∂ϕ(x) ⇔ [∀z ∈ Rn , ϕ(z) − ϕ(x) ≥ hy, z − xi] . (A.4) Tipicamente è utile operare anziché con l'applicazione ∂ϕ, con il suo graco inteso come sottinsieme di Rn × Rn . È possibile dimostrare che per ogni x ∈ Int(Dom(ϕ)) il sottodierenziale ∂ϕ(x) è un insieme non vuoto ed inoltre che è un sottinsieme convesso di Rn . Il legame tra sottodierenziale e dierenziale in senso classico è chiarito dal seguente fondamentale risultato. Teorema A.1.5. Una funzione convessa propria ϕ : Rn → R ∪ {+∞} è dierenziabile (in senso classico) in un punto x ∈ Int(Dom(ϕ)) se e solo se il sottodierenziale ∂ϕ(x) consiste di un solo elemento (che a posteriori sarà dunque proprio ∇ϕ(x)). Il sottodierenziale di una funzione convessa e SCI gode anche di una utile proprietà di continuità, di facile dimostrazione: Teorema A.1.6. Sia data una funzione convessa propria semicontinua inferiormente ϕ : Rn → R ∪ {+∞} e sia x un punto ogni > 0 esiste δ > 0 di modo che di dierenziabilità con y = ∇ϕ(x). Allora per ∇ϕ(Bδ (x)) ⊂ ∂ϕ(Bδ (x)) ⊂ B (y). (A.5) Concludiamo questa prima sezione enunciando una proprietà di monotonia che generalizza quella vista sopra: Teorema A.1.7. Il sottodierenziale di una funzione convessa propria ϕ è un'appli- cazione monotona nel senso che se y1 ∈ ∂ϕ(x1 ) e y2 ∈ ∂ϕ(x2 ), allora hy2 − y1 , x2 − x1 i ≥ 0. (A.6) Il precedente teorema è una immediata applicazione della denizione di sottodierenziale. Appendice A. Alcuni risultati di Analisi Convessa 81 A.2 Funzioni coniugate e dualità Denizione A.2.1. Data una funzione convessa propria ϕ : Rn → R ∪ {+∞} , deniamo la sua funzione coniugata (detta anche trasformata di Legendre) come ϕ∗ (y) = sup (hx, yi − ϕ(x)). x∈Rn (A.7) Teorema A.2.2. La trasformata di Legendre di una funzione convessa propria è a sua volta una funzione convessa propria ed inoltre semicontinua inferiormente. Osserviamo inoltre che ∀x, y ∈ Rn , hx, yi ≤ ϕ(x) + ϕ∗ (y). (A.8) È di notevole utilità la conoscenza dei casi in cui si abbia uguaglianza nella disuguaglianza precedente: Teorema A.2.3. Sia ϕ una funzione convessa propria semicontinua inferiormente denita su Rn . Allora hx, yi = ϕ(x) + ϕ∗ (y) ⇔ y ∈ ∂ϕ(x) ⇔ x ∈ ∂ϕ∗ (y). (A.9) Forniamo ora la semplice dimostrazione di questo risultato. Dimostrazione. Anzitutto hx, yi = ϕ(x) + ϕ∗ (y) ⇔ hx, yi ≥ ϕ(x) + ϕ∗ (y), (A.10) grazie a (A.8). D'altro canto, per la denizione di trasformata di Legendre hx, yi ≥ ϕ(x) + ϕ∗ (y) ⇔ ∀z ∈ Rn hx, yi ≥ ϕ(x) + hy, zi − ϕ(z) (A.11) ⇔ ϕ(z) − ϕ(x) ≥ hy, z − xi (A.12) ⇔ y ∈ ∂ϕ(x). (A.13) La seconda coimplicazione della tesi è una banale applicazione del teorema sulla dualità di Legendre per funzioni SCI che forniamo qui di sgeuito. Premettiamo una denizione importante Denizione A.2.4. Date funzioni convesse proprie ϕ, ψ : Rn → R ∪ {+∞} , deniamo la loro inf convoluzione come la funzione (ϕψ)(z) = inf x+x0 =z [ϕ(x) + ψ(x0 )] . (A.14) Chiaramente se ϕ oppure ψ è a valori reali, allora pure ϕψ lo è. Più in generale, vale sempre ϕψ(x) ≤ ϕ(x) e ϕψ(x) ≤ ψ(x) per ogni x ∈ Rn . Vale inoltre la seguente proprietà, tipica delle operazioni di convoluzione: Appendice A. Alcuni risultati di Analisi Convessa 82 Teorema A.2.5. Date funzioni convesse proprie ϕ, ψ : Rn → R ∪ {+∞} , vale sempre (ϕψ)∗ = ϕ∗ + ψ ∗ . (A.15) Veniamo dunque al risultato promesso: Teorema A.2.6. Sia data una funzione convessa propria ϕ : Rn → R ∪ {+∞} . Sono equivalenti gli asserti 1. ϕ è semicontinua inferiormente 2. esiste una funzione propria ψ tale che valga la rappresentazione ϕ = ψ∗ 3. ϕ∗∗ = ϕ. Dimostrazione. Le implicazioni 3. ⇒ 2. e 2. ⇒ 1. sono ovvie, per cui occorre e basta mostrare che una funzione convessa propria SCI verica la 3. Sviluppiamo la dimostrazione in tre parti. Step 1. In base alla denizione di trasformata di Legendre, abbiamo subito una delle due disuguaglianze ϕ(x) ≥ sup [hx, yi − ϕ∗ (y)] = ϕ∗∗ (x). y∈Rn (A.16) Step 2. Sia qui x ∈Int(Dom(ϕ)): sappiamo che esiste y ∈ ∂ϕ(x) e dunque servendoci del Teorema A.2.3 avremo ϕ(x) + ϕ∗ (y) = hx, yi da cui ϕ(x) ≤ sup [x, y − ϕ∗ (y)] = ϕ∗∗ (x) y∈Rn (A.17) per cui ϕ e ϕ∗∗ coincidono certamente su Int(Dom(ϕ)). Questo conclude la dimostrazione nel caso in cui Dom(ϕ)=Rn cioè se ϕ è a valori reali. Step 3. Ci serviamo dei nuclei ψ (x) = |x|2 /2 per approssimare ϕ tramite le funzioni proprie ϕ = ϕψ . (A.18) Si mostra infatti senza dicoltà che la proprietà di SCI implica ∀x ∈ Rn , lim ϕ (x) = ϕ(x). →0 (A.19) n ∗∗ ∗∗ per Ora però grazie allo Step 2. sappiamo ϕ = ϕ∗∗ su tutto R ed inoltre ϕ ≤ ϕ costruziione (si passi alle trasformate seconde nella relazione ϕ ≤ ϕ), per cui mettendo insieme le cose ϕ∗∗ (x) ≥ lim inf ϕ∗∗ (A.20) (x) = lim inf ϕ (x) = ϕ(x) →0 →0 che in ragione dello Step 1. ci dà la tesi. A.3 Dierenziabilità seconda Vogliamo qui chiarire anzitutto in che senso si possa aermare che una funzione convessa è automaticamente munita di dierenziale secondo quasi ovunque in Int(Dom(ϕ)). Premettiamo la seguente denizione Appendice A. Alcuni risultati di Analisi Convessa 83 Denizione A.3.1. Diremo che una funzione g : Rd → R ammette dierenziale secondo (a là Aleksandrov) nel punto x se esiste una matrice d × d reale DA2 g(x) per cui valga g(y) = g(x) +h∇g(x), y − xi+ 1 2 2 DA g(x)(y − x), y − x +o(|y − x| ) y → x. (A.21) 2 Una fondamentale proprietà delle funzioni convesse è contenuta in questo celebre teorema di Aleksandrov: Teorema A.3.2. Sia data una funzione convessa propria ϕ : Rn → R ∪ {+∞} . Allora per Ld -q.o. x ∈ Dom(ϕ),∇ϕ è dierenziabile ed il suo gradiente ∇2 ϕ(x) è una matrice simmetrica per la quale vale la proprietà di dierenziabilità seconda. A posteriori, alla luce di questo risultato denoteremo la matrice ∇2 ϕ(x) con la notazione 2 DA ϕ(x). Siamo ora in grado di enunciare una proprietà di cui faremo ampio uso nel capitolo 3. Teorema A.3.3. Se x0 ∈ Rn è un punto di diernziabilità seconda a là Aleksandrov per una funzione convessa propria ϕ : Rn → R ∪ {+∞} , allora |∂ϕ(Br (x0 ))| 2 → det DA ϕ(x0 ) |Br (x0 )| (A.22) per r → 0. Inoltre, se DA2 ϕ(x0 ) è invertibile, allora esistono una successione di raggi rk → 0 e due successioni di palle Bk e Bk0 a guisa che • Bk ⊂ Ck ⊂ Bk0 • i rapporti |Bk | / |Bk0 | sono limitati dal basso da una costante positiva avendo posto Ck = ∂ϕ(Br (x0 )). Informalmente, il teorema precedente, la cui dimostrazione si trova in [21], indica come la matrice DA2 ϕ(x) possa dare una misura asintotica della distorsione operata dal sottodierenziale ∂ϕ su palle piccole centrate in x. A.4 Uniforme convessità Denizione A.4.1. Una funzione ϕ : Rn → R∪{+∞} si dice uniformemente convessa di costante λ > 0 se la funzione x 7→ ϕ(x)−λ |x|2 /2 è convessa ovvero equivalentemente se ∀x, y ∈ Rn , ∀t ∈ [0, 1] , ϕ(tx + (1 − t)y) ≤ tϕ(x) + (1 − t)ϕ(y) − λ 2 t(1 − t) |x − y| 2 . (A.23) È immediato vericare che il gradiente di una funzione λ-uniformemente convessa è λ-monotono nel senso che 2 h∇ϕ(x) − ∇ϕ(y), x − yi ≥ λ |x − y| . (A.24) Riferimenti bibliograci , Gradient Flows in Metric Spaces and in the Space of Probability Measures, Birkhäuser Verlag, Basel-Boston-Berlin, 2005. [1] L. Ambrosio, N. Gigli ,G. Savaré [2] L. Ambrosio, A. Pratelli [3] F. Barthe [4] F. Barthe [5] H. J. Brascamp, E. H. Lieb [6] Y.D. Burago, M. Gromov e G. Perelman [7] Y.D. [8] , Existence and stability results in the L1 theory of optimal transportation, in Optimal Transportation and applications, Lecture Notes in Mathematics, vol. 1813, Springer, 2003, pp.123-160. , Inégalités fonctionnelles et géométriques obtenues par transport de mesures, PhD thesis, Univ. Marne-la-Vallée, 1997. , On a reverse form of the Brascamp-Lieb inequality, Invent. Math. 134, 2 (1998), pp. 335-361. , Best constant in Young's inequality, its converse, and its generalization to more than three functions, Advances in Math. 20, 2 (1976), pp. 151-173. , A.D. Aleksandrov Spaces with curvature bounded below, Uspekhi Math. Nauk, 47 (1992), pp. 3-51, 222. Burago, Berlin, 1988. V.A. Zalgaller , Geometric Inequalities, Springer-Verlag, , Inégalités géométriques, PhD theis, Univ. Marne-la- D. Cordero-Erasquin Vallée, 2000. [9] , Some applications of mass transport for Gaussian-type inequalities, Arch. Ration. Mech. Anal. 161, 3 (2002), 257-269. [10] D. Cordero-Erasquin, R. J. McCann, M. Schmuckenschläger, A Riemannian interpolation inequality à la Borell, Brascamp and Lieb, Invent. Math. 146,2 (2001), pp. 219-257. D. Cordero-Erasquin , A mass-transportation approach to sharp Sobolev and Gagliardo-Nirenberg inequalities, Adv. Math., 182 (2004), pp. 307-332. [11] D. Cordero-Erasquin, B. Nazaret, C. Villani [12] L.C. Evans [13] H. Federer , Partial dierential equations and Monge-Kantorovich mass transfer, in Current Developments in Mathematics, 1997 (Cambridge, MA), Int. Press, Boston, MA, 1999, pp. 65-126. , Geometric Measure Theory, Die Grundlehren der mathematischen Wissenschaft, Band 153, Springer-Verlag New York Inc., New York, 1969. 84 Riferimenti bibliograci [14] , The geometry of optimal transportation, Acta W. Gangbo, R. J. McCann Math., 177 (1996), pp. 113-161. , The Brunn-Minkowski inequality, Bull. Amer. Math. Soc., 39 (2002), pp. 355-405. [15] R. Gardner [16] D. Gilbarg, [17] 85 , Elliptic partial dierential equation of second order., Classics in Mathematics. Springer-Verlag, Berlin, 2001. N. Trudinger L. V. Kantorovich, On the translocation of masses, C. R. (Dokl.) Akad. Sci. URSS 37 (1942), 199-201. ,The Concentration of Measure Phenomenon, Mathematical Surveys and Monographs-Number 89, AMS, Providence-Rhode Island, 2001 . [18] M.Ledoux [19] M. Ledoux, M. Talagrand Berlin, 1991. , Probability in Banach Spaces, Springer-Verlag, [20] , On a certain converse of Hölder's inequality, In Linear Operators and Approximation (Proc. Conf. Oberwolfach 1971), Birkhäuser, Basel, 1972, pp. 182-184. [21] R. J. McCann, A convexity principle for interacting gases, Adv. Math., 128 (1997), pp. 153-179. L. Leindler , Existence and uniqueness of monotone measure-preserving maps., Duke Math. J. 80, 2 (1995), pp. 309-323. [22] R. J. McCann [23] F. Otto, C.Villani [24] A. , Generalization of an Inequality by Talagrand and Links with the Logarithmic Sobolev Inequality, Journal of Functional Analysis 173, 2 (2000), pp. 361-400. Pratelli, On the equality between Monge's inmum and Kantorovich's minimum in optimal mass transportation, to appear, (2004). [25] , On logarithmic concave measures and functions, Acta Sci. Mat. (Szeged) 34, (1973), 335-343. [26] S. Rachev, L. Rüschendorf, Mass Transportation Problems. Vol. 1: Theory, Vol. 2: Applications., Probability and its applications, Springer-Verlag, New York, 1998. [27] A. Prékopa , Convex analysis, Princeton University Press, Princeton NJ, R. T. Rockafellar 1997. , Transportation Cost for Gaussian and Other Product Measures, Geometric and Functional Analysis Vol. 6, 3 (1996), 587-600. [28] M. Talagrand [29] C. Villani [30] C. Villani , Optimal transportation, dissipative PDEs and functional inequalities, in Optimal Transportation and applications (Martina Franca, 2001), Lecture Notes in Mathematics, vol. 1813, Springer, Berlin, 2003, pp.53-89. , Optimal transport, old and new, to appear, (2008). Riferimenti bibliograci [31] 86 , Topics in Optimal Transportation, Graduate Studies in Mathematics, AMS, Providence-Rhode Island, 2003. C. Villani