Come si potrebbe presentare “la gaussiana multivariata” ad un

Transcript

Come si potrebbe presentare “la gaussiana multivariata” ad un
La legge gaussiana multivariata
Come si potrebbe presentare “la gaussiana multivariata” ad un gruppo di studenti
universitari, di un corso di laurea triennale in matematica, statistica o informatica, che
non l’hanno mai vista in dettaglio prima? Ho scelto di fare questa lezione recentemente,
seguendo un percorso che va dalla gaussiana unidimensionale fino alle prime nozioni di
base della gaussiana multivariata. La mia intenzione era quella di presentare l’argomento
in modo rigoroso ed esaustivo, usando un numero minimo di prerequisiti e non più di
due
lezioni.
(Starete
pensando
che
qualcosa
andava
comunque
presupposto…probabilmente la capacità di comprendere!).
Quali sono le prime nozioni di base cui mi riferisco? Tanto per cominciare la forma della
densità, il cui integrale è 1, e l’interpretazione del parametro in forma matriciale - definita
positiva. E a seguire la “gaussianità multivariata” delle marginali, delle condizionali e
delle combinazioni lineari, nonché tutti quei risultati importanti e tipici della “gaussiana
multivariata” quale “l’incorrelazione implica l’indipendenza”. Con sorpresa ho
realizzato che non avevo mai seguito un approccio di questo tipo negli anni passati, o
che, se anche lo avevo fatto, era stato così tanto tempo prima, che lo avevo praticamente
rimosso dalla mia memoria. Di conseguenza, mi sono concentrato sui libri.
La maggior parte degli autori adotta quello che io chiamo un approccio sh-diretto:
presentano l’espressione completa della densità, mostrano che il suo integrale vale 1
diagonalizzando la matrice positiva definita. Ritenendo che seguire questa strada
implichi un bagaglio di prerequisiti non banale, cercavo una strada più semplice. Una
minoranza di autori segue una strada indiretta: definiscono la “gaussiana multivariata”
come quella distribuzione multivariata per la quale ogni combinazione lineare delle sue
componenti è una normale univariata. Questo approccio fila meglio. Si generalizza ai
processi gaussiani e fornisce qualcuna delle proprietà di cui ho parlato prima per
definizione(!). Inoltre il risultato “incorrelazione implica indipendenza” segue molto
semplicemente. Ma il prezzo da pagare è senza dubbio alto: il teorema di Cramer-Wold e
la definizione e l’unicità delle funzioni caratteristiche multivariate. Si posso evitare?
Sinceramente, non riesco a vedere come. Né sono riuscito a trovare un terzo approccio.
Forse voi ne conoscete uno?
Nel II volume del suo libro, e in quel suo modo inimitabile, Feller usa quello che io
chiamo l’approccio nc-diretto: una densità φ in p dimensioni è una gaussiana
multivariata se -2log φ è una forma quadratica nelle variabili coordinate. Non fornisce la
costante di normalizzazione in maniera esplicita e non richiede che la forma quadratica
sia definita positiva. Questi due fatti, più qualche altra cosa, vengono dimostrati
successivamente usando strumenti elementari. Per dimostrare che le marginali
univariate sono anch’esse gaussiane, utilizza la fattorizzazione dei termini nell’esponente
della densità. Questa tecnica della fattorizzazione viene poi usata induttivamente per
dimostrare che un vettore multivariato gaussiano può essere trasformato linearmente in
variabili univariate gaussiane mutuamente indipendenti. Mi piace questo approccio,
anche se non trovo particolarmente illuminante la dimostrazione fatta per induzione. La
base di induzione si basa sull’intuizione, mentre è il passo successivo ad essere davvero
una base di induzione. Ma la dimostrazione è tutta lì davanti ai nostri occhi (Per
converso, quanti studenti posso ripetere, o hanno mai visto, una dimostrazione completa
della diagonalizzazione di una matrice definita positiva?) Con questa fattorizzazione nel
proprio bagaglio di conoscenze, si conclude velocemente che la matrice nell’esponente è
l’inversa della matrice di covarianza, si calcola la costante di normalizzazione e il
risultato “incorrelazione implica indipendenza” segue immediatamente. E’ un tipico
capolavoro “felleriano” di brevità e di eleganza. Feller poi fornisce la distribuzione
condizionata di una componente del vettore multivariato gaussiano rispetto alle altre.
Pertanto resta da dare solo la formula generale per la media E ( X 2 | X 1 ) e la covarianza
cov ( X 2 | X 1 ) . Se l’approccio sh-diretto dovesse utilizzarle, queste formule seguono
facilmente dal risultato “incorrelazione implica indipendenza” e si possono ottenere
senza la formula dell’inversa di una matrice partizionata. Naturalmente, abbiamo
bisogno di queste formule per vedere come tutto sia consistente, quindi dovremmo
probabilmente presentarle.
La domanda ora è la seguente: perché dovremmo prestare attenzione a come raccontare
la gaussiana multivariata? Dimostrazioni complete di fatti basilari a partire dai primi
principi, nonché eleganza e brevità, svolgono un ruolo nel curriculum di uno statistico?
Per poche cose sì, per molte altre no. Ritengo che le formule per la media e per la
covarianza, di cui sopra, siano tra le più importanti in statistica. Sono il cuore dei modelli
lineari, sotto l’ipotesi di gaussianità multivariata, e il loro analogo nei minimi quadrati dove la media è rimpiazzata dal miglior predittore lineare BLP e la covarianza è dei
residui minimi quadrati non condizionati - è ancora più importante. Trovo che
dimostrazioni eleganti, sotto l’ipotesi di normalità, vengano ricordate più facilmente di
quelle geometriche, che coinvolgono i minimi quadrati. Penso sia importante essere
capaci di ricordare qualcuna di queste formule e le loro derivazioni. Un altro esempio è
la funzione discriminante lineare di Fisher, come logaritmo della statistica rapporto di
verosimiglianza, oppure le ultime formule della teoria spazio-stato di Kalman e Bucy.
Cosa ritengo non giustifichi lo sforzo di una dimostrazione completa? Cose come il
teorema di Craig la cui condizione sufficiente è facile da provare ma la cui condizione
necessaria è non solo difficile ma (dal mio punto di vista) “di solo interesse teorico”.
Come introdurreste la gaussiana multivariata? C’è una terza strada?
(traduzione a cura di E. Di Nardo)