Come si potrebbe presentare “la gaussiana multivariata” ad un
Transcript
Come si potrebbe presentare “la gaussiana multivariata” ad un
La legge gaussiana multivariata Come si potrebbe presentare “la gaussiana multivariata” ad un gruppo di studenti universitari, di un corso di laurea triennale in matematica, statistica o informatica, che non l’hanno mai vista in dettaglio prima? Ho scelto di fare questa lezione recentemente, seguendo un percorso che va dalla gaussiana unidimensionale fino alle prime nozioni di base della gaussiana multivariata. La mia intenzione era quella di presentare l’argomento in modo rigoroso ed esaustivo, usando un numero minimo di prerequisiti e non più di due lezioni. (Starete pensando che qualcosa andava comunque presupposto…probabilmente la capacità di comprendere!). Quali sono le prime nozioni di base cui mi riferisco? Tanto per cominciare la forma della densità, il cui integrale è 1, e l’interpretazione del parametro in forma matriciale - definita positiva. E a seguire la “gaussianità multivariata” delle marginali, delle condizionali e delle combinazioni lineari, nonché tutti quei risultati importanti e tipici della “gaussiana multivariata” quale “l’incorrelazione implica l’indipendenza”. Con sorpresa ho realizzato che non avevo mai seguito un approccio di questo tipo negli anni passati, o che, se anche lo avevo fatto, era stato così tanto tempo prima, che lo avevo praticamente rimosso dalla mia memoria. Di conseguenza, mi sono concentrato sui libri. La maggior parte degli autori adotta quello che io chiamo un approccio sh-diretto: presentano l’espressione completa della densità, mostrano che il suo integrale vale 1 diagonalizzando la matrice positiva definita. Ritenendo che seguire questa strada implichi un bagaglio di prerequisiti non banale, cercavo una strada più semplice. Una minoranza di autori segue una strada indiretta: definiscono la “gaussiana multivariata” come quella distribuzione multivariata per la quale ogni combinazione lineare delle sue componenti è una normale univariata. Questo approccio fila meglio. Si generalizza ai processi gaussiani e fornisce qualcuna delle proprietà di cui ho parlato prima per definizione(!). Inoltre il risultato “incorrelazione implica indipendenza” segue molto semplicemente. Ma il prezzo da pagare è senza dubbio alto: il teorema di Cramer-Wold e la definizione e l’unicità delle funzioni caratteristiche multivariate. Si posso evitare? Sinceramente, non riesco a vedere come. Né sono riuscito a trovare un terzo approccio. Forse voi ne conoscete uno? Nel II volume del suo libro, e in quel suo modo inimitabile, Feller usa quello che io chiamo l’approccio nc-diretto: una densità φ in p dimensioni è una gaussiana multivariata se -2log φ è una forma quadratica nelle variabili coordinate. Non fornisce la costante di normalizzazione in maniera esplicita e non richiede che la forma quadratica sia definita positiva. Questi due fatti, più qualche altra cosa, vengono dimostrati successivamente usando strumenti elementari. Per dimostrare che le marginali univariate sono anch’esse gaussiane, utilizza la fattorizzazione dei termini nell’esponente della densità. Questa tecnica della fattorizzazione viene poi usata induttivamente per dimostrare che un vettore multivariato gaussiano può essere trasformato linearmente in variabili univariate gaussiane mutuamente indipendenti. Mi piace questo approccio, anche se non trovo particolarmente illuminante la dimostrazione fatta per induzione. La base di induzione si basa sull’intuizione, mentre è il passo successivo ad essere davvero una base di induzione. Ma la dimostrazione è tutta lì davanti ai nostri occhi (Per converso, quanti studenti posso ripetere, o hanno mai visto, una dimostrazione completa della diagonalizzazione di una matrice definita positiva?) Con questa fattorizzazione nel proprio bagaglio di conoscenze, si conclude velocemente che la matrice nell’esponente è l’inversa della matrice di covarianza, si calcola la costante di normalizzazione e il risultato “incorrelazione implica indipendenza” segue immediatamente. E’ un tipico capolavoro “felleriano” di brevità e di eleganza. Feller poi fornisce la distribuzione condizionata di una componente del vettore multivariato gaussiano rispetto alle altre. Pertanto resta da dare solo la formula generale per la media E ( X 2 | X 1 ) e la covarianza cov ( X 2 | X 1 ) . Se l’approccio sh-diretto dovesse utilizzarle, queste formule seguono facilmente dal risultato “incorrelazione implica indipendenza” e si possono ottenere senza la formula dell’inversa di una matrice partizionata. Naturalmente, abbiamo bisogno di queste formule per vedere come tutto sia consistente, quindi dovremmo probabilmente presentarle. La domanda ora è la seguente: perché dovremmo prestare attenzione a come raccontare la gaussiana multivariata? Dimostrazioni complete di fatti basilari a partire dai primi principi, nonché eleganza e brevità, svolgono un ruolo nel curriculum di uno statistico? Per poche cose sì, per molte altre no. Ritengo che le formule per la media e per la covarianza, di cui sopra, siano tra le più importanti in statistica. Sono il cuore dei modelli lineari, sotto l’ipotesi di gaussianità multivariata, e il loro analogo nei minimi quadrati dove la media è rimpiazzata dal miglior predittore lineare BLP e la covarianza è dei residui minimi quadrati non condizionati - è ancora più importante. Trovo che dimostrazioni eleganti, sotto l’ipotesi di normalità, vengano ricordate più facilmente di quelle geometriche, che coinvolgono i minimi quadrati. Penso sia importante essere capaci di ricordare qualcuna di queste formule e le loro derivazioni. Un altro esempio è la funzione discriminante lineare di Fisher, come logaritmo della statistica rapporto di verosimiglianza, oppure le ultime formule della teoria spazio-stato di Kalman e Bucy. Cosa ritengo non giustifichi lo sforzo di una dimostrazione completa? Cose come il teorema di Craig la cui condizione sufficiente è facile da provare ma la cui condizione necessaria è non solo difficile ma (dal mio punto di vista) “di solo interesse teorico”. Come introdurreste la gaussiana multivariata? C’è una terza strada? (traduzione a cura di E. Di Nardo)