Covarianza e correlazione.
Transcript
Covarianza e correlazione.
Analisi dei Dati - Alessandro Bogliolo Lezione n. 18 Covarianza e correlazione. Covarianza: Date due variabili aleatorie X e Y , chiamiamo covarianza di X e Y la media dei prodotti dei loro scostamenti dalla media: Cov (X; Y ) = E [(X X )(Y = E [XY ] XY Y )] dove X = E [X ]. Stima di covarianza: Per stimare la covarianza occorre disporre di un campione di N osservazioni congiunte di X e Y . Indichiamo con x(i) e y (i) gli i-esimi valori di X e Y , esiti dell'i-esima prova di un esperimento aleatorio composto. Indicate con X e Y le medie campionarie di X e Y , la covarianza puo essere stimata sul campione utilizzando la seguende formula: 1 Cov (X; Y ) = (x(i) X )(y (i) Y ) N i=1;:::;N X La covarianza e positiva se, mediamente, X e Y subiscono oscillazioni concordi (quando X supera il valor medio anche Y supera il valor medio), negativa se subiscono oscillazioni discordi (quando X supera il valor medio Y non lo supera, e viceversa), nulla se subiscono oscillazioni indipendenti (quando X supera il valor medio, Y a volte lo supera a volte no). Correlazione: La correlazione tra due variabili aleatorie X e Y e il rapporto tra la loro covarianza e il prodotto delle loro deviazioni standard: Cov (X; Y ) Corr(X; Y ) = X Y La divisione per le deviazioni standard normalizza il valore della correlazione, che risulta sempre denito tra -1 e +1. Casi limite: Correlazione 1. La correlazione di una variabile aleatoria X con se stessa e 1: Corr(X; X ) = Correlazione -1. Correlazione 0. Cov (X; X ) E [(X = X X X )] = V ar(X ) =1 V ar(X ) X )( X 2 X ( X ))] = V ar(X ) = 1 V ar(X ) La correlazione di due variabili aleatorie indipendenti e 0: Corr(X; Y ) = Osservazione: X )(X 2 X La correlazione di una variabile aleatori X con una variabile aleatoria Y = X e -1: Corr(X; X ) = Cov (X; X ) E [(X = X X XY XY E [XY ] XY = =0 X X X X Tanto maggiore e (in modulo) la correlazione tra due variabili aleatorie, tanto piu la conoscenza del valore dell'una e utile a prevedere il valore dell'altra. Sono molti i casi in cui, in un esperimento composto, una variabile aleatoria puo essere osservata prima dell'altra. A titolo di esempio si pensi ad un record di atletica all'aperto in presenza di vento. Conoscendo la correlazione tra la forza e la direzione del vento e le prestazioni dell'atleta, e possibile utilizzare la misura del vento (variabile aleatoria osservata) per prevedere la prestazione dell'atleta (variabile aleatoria incognita). Rappresentazione graca di un campione di due variabili Scatter plot. Rappresentiamo un campione di due variabili aleatorie su un piano cartesiano i cui assi sono associati alle due variabili. La coppia di valori di X ed Y osservati all'i-esima prova dell'esperimento (x(i) ; y (i) ) e rappresentata sul piano da un punto di coordinate (x(i) ; y (i) ). Lo scatter plot di un campione di cardinalita N e un insieme di N punti sul piano cartesiano individuati dalle coppie di valori osservati delle due variabili aleatorie. Y (x(i),y(i) ) X Scatter plot e correlazione. Lo scatter plot di due variabili aleatorie con forte correlazione positiva e una nuvola di punti distribuiti in prossimita di una retta crescente (a pendenza positiva). Lo scatter plot di due variabili aleatorie con forte correlazione negativa e una nuvola di punti distribuiti in prossimita di una retta decrescente (a pendenza negativa). Lo scatter plot di due variabili aleatorie scorrelate (o debolmente correlate) e una nuvola di punti che non individua alcuna retta. Y Y X Correlazione nulla Y X Correlazione positiva X Correlazione negativa